論文の概要: COOCO -- Common Objects Out-of-Context -- Semantic Violation in Scenes: Investigating Multimodal Context in Referential Communication
- arxiv url: http://arxiv.org/abs/2506.22274v1
- Date: Fri, 27 Jun 2025 14:44:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.240065
- Title: COOCO -- Common Objects Out-of-Context -- Semantic Violation in Scenes: Investigating Multimodal Context in Referential Communication
- Title(参考訳): COOCO -- コンテキスト外共通オブジェクト -- シーンにおけるセマンティック違反: 参照通信におけるマルチモーダルコンテキストの調査
- Authors: Filippo Merlo, Ece Takmaz, Wenkai Chen, Albert Gatt,
- Abstract要約: VLM(Vision-Language Models)は、オブジェクトへの参照を生成する際に、同様の方法でシーンコンテキストに依存することを学習していることを示す。
本研究は,物体とシーン間の意味的関連性や騒音のレベルによって,モデルがシーンコンテキストを適応的に活用できることを示唆する。
- 参考スコア(独自算出の注目度): 3.829419993067886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural scenes provide us with rich contexts for object recognition and reference. In particular, knowing what type of scene one is looking at generates expectations about which objects will occur, and what their spatial configuration should be. Do Vision-Language Models (VLMs) learn to rely on scene contexts in a similar way, when generating references to objects? To address this question, we introduce the \textit{Common Objects Out-of-Context (COOCO)} dataset and test to what extent VLMs rely on scene context to refer to objects under different degrees of scene-object congruency, and different perturbations. Our findings show that models leverage scene context adaptively, depending on both the semantic relatedness between object and scene and the level of noise. In particular, models rely more on context under high target-scene congruence or when objects are degraded. Attention analysis reveals that successful object categorisation involves increased focus on the target in mid-level layers, especially under moderate noise, suggesting that VLMs dynamically balance local and contextual information for reference generation. We make our dataset, code and models available at \href{https://github.com/cs-nlp-uu/scenereg}{https://github.com/cs-nlp-uu/scenereg}.
- Abstract(参考訳): 自然のシーンは、オブジェクト認識と参照のためのリッチなコンテキストを提供します。
特に、どのタイプのシーンを見ているかを知ることで、どのオブジェクトが発生するか、その空間構成がどのようなものか、という期待が生まれます。
VLM(Vision-Language Models)は、オブジェクトへの参照を生成する際に、似たような方法でシーンコンテキストに依存することを学習しますか?
この問題に対処するために、私たちは \textit{Common Objects Out-of-Context(COOCO)データセットを導入し、VLMがシーンコンテキストに依存している範囲をテストし、異なるシーンオブジェクトの一貫性と異なる摂動の下のオブジェクトを参照する。
本研究は,物体とシーン間の意味的関連性や騒音のレベルによって,モデルがシーンコンテキストを適応的に活用できることを示唆する。
特に、モデルは、高いターゲットシーンの一致や、オブジェクトが劣化した場合のコンテキストに依存する。
アテンション分析により、オブジェクトの分類が成功すると、中層層、特に中層層におけるターゲットへのフォーカスが増加し、VLMが参照生成のために局所的および文脈的情報を動的にバランスしていることが分かる。
私たちはデータセット、コード、モデルを \href{https://github.com/cs-nlp-uu/scenereg}{https://github.com/cs-nlp-uu/scenereg} で公開しています。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Resilience through Scene Context in Visual Referring Expression Generation [8.883534683127415]
画像中のオブジェクトに対する参照表現生成(REG)におけるコンテキストの役割について検討する。
我々は、REGにおけるシーンコンテキストに関する新たな視点を捉え、REGモデルをより弾力性のあるものにするためのリソースとして、コンテキスト情報が考えられることを仮定する。
論文 参考訳(メタデータ) (2024-04-18T16:10:38Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - Semantic Attention Flow Fields for Monocular Dynamic Scene Decomposition [51.67493993845143]
時間変化の色、密度、シーンフロー、セマンティクス、アテンション情報をキャプチャするニューラルボリュームを再構成する。
セマンティクスと注意により、時空を通して背景から別々に有意な前景オブジェクトを特定できる。
本手法は,教師なしの方法で動的シーンを分解し,教師付き手法と競合する性能を示す。
論文 参考訳(メタデータ) (2023-03-02T19:00:05Z) - Deriving Visual Semantics from Spatial Context: An Adaptation of LSA and
Word2Vec to generate Object and Scene Embeddings from Images [0.0]
我々は、注釈付き画像からオブジェクトとシーンの埋め込みを学習するための2つのアプローチを開発した。
最初のアプローチでは、画像全体におけるオブジェクトの共起から、オブジェクトのためのもの、シーンのためのものへの埋め込みを生成する。
第2のアプローチでは、シーンの全体像を分析する代わりに、画像のサブリージョン内のオブジェクトの共起に焦点をあてる。
論文 参考訳(メタデータ) (2020-09-20T08:26:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。