論文の概要: Talk in Pieces, See in Whole: Disentangling and Hierarchical Aggregating Representations for Language-based Object Detection
- arxiv url: http://arxiv.org/abs/2509.24192v1
- Date: Mon, 29 Sep 2025 02:14:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.689888
- Title: Talk in Pieces, See in Whole: Disentangling and Hierarchical Aggregating Representations for Language-based Object Detection
- Title(参考訳): 言語に基づく物体検出のための遠近法と階層的集合表現
- Authors: Sojung An, Kwanyong Park, Yong Jae Lee, Donghyun Kim,
- Abstract要約: 本稿では,言語に基づく物体検出のための文内階層関係に基づく言語表現の再構成を提案する。
重要な洞察は、テキストトークンを中核となる構成要素、属性、関係("talk in pieces")に切り離し、その後階層的に構造化された文レベルの表現に集約する必要性である。
OmniLabelベンチマークによる実験結果は24%のパフォーマンス向上を示し、言語構成の重要性を示している。
- 参考スコア(独自算出の注目度): 39.748035737067745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While vision-language models (VLMs) have made significant progress in multimodal perception (e.g., open-vocabulary object detection) with simple language queries, state-of-the-art VLMs still show limited ability to perceive complex queries involving descriptive attributes and relational clauses. Our in-depth analysis shows that these limitations mainly stem from text encoders in VLMs. Such text encoders behave like bags-of-words and fail to separate target objects from their descriptive attributes and relations in complex queries, resulting in frequent false positives. To address this, we propose restructuring linguistic representations according to the hierarchical relations within sentences for language-based object detection. A key insight is the necessity of disentangling textual tokens into core components-objects, attributes, and relations ("talk in pieces")-and subsequently aggregating them into hierarchically structured sentence-level representations ("see in whole"). Building on this principle, we introduce the TaSe framework with three main contributions: (1) a hierarchical synthetic captioning dataset spanning three tiers from category names to descriptive sentences; (2) Talk in Pieces, the three-component disentanglement module guided by a novel disentanglement loss function, transforms text embeddings into subspace compositions; and (3) See in Whole, which learns to aggregate disentangled components into hierarchically structured embeddings with the guide of proposed hierarchical objectives. The proposed TaSe framework strengthens the inductive bias of hierarchical linguistic structures, resulting in fine-grained multimodal representations for language-based object detection. Experimental results under the OmniLabel benchmark show a 24% performance improvement, demonstrating the importance of linguistic compositionality.
- Abstract(参考訳): 視覚言語モデル(VLM)は、単純な言語クエリによるマルチモーダル認識(例えば、オープンボキャブラリオブジェクト検出)において大きな進歩を遂げているが、最先端のVLMでは、記述的属性や関係節を含む複雑なクエリを知覚する能力が制限されている。
我々の詳細な分析では、これらの制限は主にVLMのテキストエンコーダに起因している。
このようなテキストエンコーダは、単語の袋のように振る舞うが、複雑なクエリにおける記述的属性や関係からターゲットオブジェクトを分離することができず、しばしば偽陽性となる。
そこで本稿では,言語に基づくオブジェクト検出のための文内の階層的関係に基づき,言語表現の再構成を提案する。
重要な洞察は、テキストトークンを中核となる構成要素、属性、関係("talk in pieces")に切り離し、その後階層的に構造化された文レベルの表現("see in whole")に集約する必要があることである。
本稿では,(1)カテゴリー名から記述文までの3階層にまたがる階層的合成字幕化データセット,(2)新規なアンタングル化損失関数によって誘導される3成分のアンタングル化モジュール,(3)非アンタングル化コンポーネントを階層的に階層化された埋め込みに集約することを学ぶWholeについて紹介する。
提案したTaSeフレームワークは階層型言語構造の帰納バイアスを強化し,言語に基づくオブジェクト検出のための微細なマルチモーダル表現を実現する。
OmniLabelベンチマークによる実験結果は24%のパフォーマンス向上を示し、言語構成の重要性を示している。
関連論文リスト
- Understanding Subword Compositionality of Large Language Models [42.51978887170929]
大規模言語モデル(LLM)はサブワードのシーケンスを入力として取り、サブワード表現を構成する必要がある。
本稿では,LLMがサブワード情報を構成する方法を検討するための総合的な実験について述べる。
論文 参考訳(メタデータ) (2025-08-25T12:16:56Z) - DISRetrieval: Harnessing Discourse Structure for Long Document Retrieval [51.89673002051528]
DISRetrievalは、言語談話構造を利用して長い文書理解を強化する新しい階層的検索フレームワークである。
本研究は,談話構造が文書の長さや問合せの種類によって検索効率を著しく向上することを確認する。
論文 参考訳(メタデータ) (2025-05-26T14:45:12Z) - SRFUND: A Multi-Granularity Hierarchical Structure Reconstruction Benchmark in Form Understanding [55.48936731641802]
階層的に構造化されたマルチタスク形式理解ベンチマークであるSRFUNDを提案する。
SRFUNDはオリジナルのFUNSDとXFUNDデータセットの上に洗練されたアノテーションを提供する。
データセットには、英語、中国語、日本語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語を含む8つの言語が含まれている。
論文 参考訳(メタデータ) (2024-06-13T02:35:55Z) - Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language
Pretraining? [34.609984453754656]
本研究の目的は,意味表現や構文構造を含む包括的言語知識がマルチモーダルアライメントに与える影響を明らかにすることである。
具体的には、最初の大規模マルチモーダルアライメント探索ベンチマークであるSNAREを設計、リリースする。
論文 参考訳(メタデータ) (2023-08-24T16:17:40Z) - Multi-Modal Classifiers for Open-Vocabulary Object Detection [104.77331131447541]
本論文の目的は,OVOD(Open-vocabulary Object Detection)である。
標準の2段階オブジェクト検出器アーキテクチャを採用する。
言語記述、画像例、これら2つの組み合わせの3つの方法を探究する。
論文 参考訳(メタデータ) (2023-06-08T18:31:56Z) - Few-Shot Nested Named Entity Recognition [4.8693196802491405]
本論文は,数発のネストNERタスクを研究対象とする最初の論文である。
本稿では、コンテキスト依存を学習し、ネストしたエンティティを識別するためのBiaffine-based Contrastive Learning (BCL)フレームワークを提案する。
BCLはF1スコアで1ショットと5ショットの3つのベースラインモデルを上回った。
論文 参考訳(メタデータ) (2022-12-02T03:42:23Z) - Hierarchical Modular Network for Video Captioning [162.70349114104107]
ビデオ表現と言語意味論を3つのレベルからブリッジし,キャプションを生成する階層型モジュールネットワークを提案する。
提案手法は,MSVD 104.0% と MSR-VTT 51.5% の CIDEr スコアの2つのベンチマークにおいて,最先端のモデルに対して良好に動作する。
論文 参考訳(メタデータ) (2021-11-24T13:07:05Z) - A Self-supervised Representation Learning of Sentence Structure for
Authorship Attribution [3.5991811164452923]
文の構造表現を学習するための自己教師型フレームワークを提案する。
本研究では,異なる探索タスクを用いて文の構造的表現を学習し,著者帰属タスクに活用する。
論文 参考訳(メタデータ) (2020-10-14T02:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。