Fugu-MT 論文翻訳(概要): COOCO -- Common Objects Out-of-Context -- Semantic Violation in Scenes: Investigating Multimodal Context in Referential Communication

論文の概要: COOCO -- Common Objects Out-of-Context -- Semantic Violation in Scenes: Investigating Multimodal Context in Referential Communication

arxiv url: http://arxiv.org/abs/2506.22274v1
Date: Fri, 27 Jun 2025 14:44:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-30 21:12:23.240065
Title: COOCO -- Common Objects Out-of-Context -- Semantic Violation in Scenes: Investigating Multimodal Context in Referential Communication
Title（参考訳）: COOCO -- コンテキスト外共通オブジェクト -- シーンにおけるセマンティック違反: 参照通信におけるマルチモーダルコンテキストの調査
Authors: Filippo Merlo, Ece Takmaz, Wenkai Chen, Albert Gatt,
Abstract要約: VLM(Vision-Language Models)は、オブジェクトへの参照を生成する際に、同様の方法でシーンコンテキストに依存することを学習していることを示す。本研究は,物体とシーン間の意味的関連性や騒音のレベルによって,モデルがシーンコンテキストを適応的に活用できることを示唆する。
参考スコア（独自算出の注目度）: 3.829419993067886
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Natural scenes provide us with rich contexts for object recognition and reference. In particular, knowing what type of scene one is looking at generates expectations about which objects will occur, and what their spatial configuration should be. Do Vision-Language Models (VLMs) learn to rely on scene contexts in a similar way, when generating references to objects? To address this question, we introduce the \textit{Common Objects Out-of-Context (COOCO)} dataset and test to what extent VLMs rely on scene context to refer to objects under different degrees of scene-object congruency, and different perturbations. Our findings show that models leverage scene context adaptively, depending on both the semantic relatedness between object and scene and the level of noise. In particular, models rely more on context under high target-scene congruence or when objects are degraded. Attention analysis reveals that successful object categorisation involves increased focus on the target in mid-level layers, especially under moderate noise, suggesting that VLMs dynamically balance local and contextual information for reference generation. We make our dataset, code and models available at \href{https://github.com/cs-nlp-uu/scenereg}{https://github.com/cs-nlp-uu/scenereg}.
Abstract（参考訳）: 自然のシーンは、オブジェクト認識と参照のためのリッチなコンテキストを提供します。特に、どのタイプのシーンを見ているかを知ることで、どのオブジェクトが発生するか、その空間構成がどのようなものか、という期待が生まれます。 VLM(Vision-Language Models)は、オブジェクトへの参照を生成する際に、似たような方法でシーンコンテキストに依存することを学習しますか? この問題に対処するために、私たちは \textit{Common Objects Out-of-Context(COOCO)データセットを導入し、VLMがシーンコンテキストに依存している範囲をテストし、異なるシーンオブジェクトの一貫性と異なる摂動の下のオブジェクトを参照する。本研究は,物体とシーン間の意味的関連性や騒音のレベルによって,モデルがシーンコンテキストを適応的に活用できることを示唆する。特に、モデルは、高いターゲットシーンの一致や、オブジェクトが劣化した場合のコンテキストに依存する。アテンション分析により、オブジェクトの分類が成功すると、中層層、特に中層層におけるターゲットへのフォーカスが増加し、VLMが参照生成のために局所的および文脈的情報を動的にバランスしていることが分かる。私たちはデータセット、コード、モデルを \href{https://github.com/cs-nlp-uu/scenereg}{https://github.com/cs-nlp-uu/scenereg} で公開しています。

関連論文リスト

ObjectGS: Object-aware Scene Reconstruction and Scene Understanding via Gaussian Splatting [54.92763171355442]
ObjectGSは3Dシーンをセマンティックな理解と統合するオブジェクト認識フレームワークである。我々はObjectGSがオープンボキャブラリやパン光学のセグメンテーションタスクにおいて最先端の手法より優れていることを示す実験を通して示す。
論文参考訳（メタデータ） (2025-07-21T10:06:23Z)
ContextHOI: Spatial Context Learning for Human-Object Interaction Detection [24.381821663963898]
空間コンテキストは、Human-Object Interaction (HOI) 認識において重要であると考えられている。本稿では、オブジェクト検出機能と空間コンテキストの両方を効率的にキャプチャするContextHOIというデュアルブランチフレームワークを提案する。 ContextHOIはHICO-DETとv-cocoベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-12-12T08:21:19Z)
Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文参考訳（メタデータ） (2024-11-20T13:34:22Z)
Resilience through Scene Context in Visual Referring Expression Generation [8.883534683127415]
画像中のオブジェクトに対する参照表現生成(REG)におけるコンテキストの役割について検討する。我々は、REGにおけるシーンコンテキストに関する新たな視点を捉え、REGモデルをより弾力性のあるものにするためのリソースとして、コンテキスト情報が考えられることを仮定する。
論文参考訳（メタデータ） (2024-04-18T16:10:38Z)
Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文参考訳（メタデータ） (2023-12-13T14:27:45Z)
CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文参考訳（メタデータ） (2023-05-25T17:39:13Z)
Semantic Attention Flow Fields for Monocular Dynamic Scene Decomposition [51.67493993845143]
時間変化の色、密度、シーンフロー、セマンティクス、アテンション情報をキャプチャするニューラルボリュームを再構成する。セマンティクスと注意により、時空を通して背景から別々に有意な前景オブジェクトを特定できる。本手法は,教師なしの方法で動的シーンを分解し,教師付き手法と競合する性能を示す。
論文参考訳（メタデータ） (2023-03-02T19:00:05Z)
Hyperbolic Contrastive Learning for Visual Representations beyond Objects [30.618032825306187]
我々は,それらの間の構造を保ったオブジェクトやシーンの表現を学習することに集中する。視覚的に類似した物体が表現空間に近接しているという観察に触発された私たちは、シーンとオブジェクトは代わりに階層構造に従うべきだと論じる。
論文参考訳（メタデータ） (2022-12-01T16:58:57Z)
Deriving Visual Semantics from Spatial Context: An Adaptation of LSA and Word2Vec to generate Object and Scene Embeddings from Images [0.0]
我々は、注釈付き画像からオブジェクトとシーンの埋め込みを学習するための2つのアプローチを開発した。最初のアプローチでは、画像全体におけるオブジェクトの共起から、オブジェクトのためのもの、シーンのためのものへの埋め込みを生成する。第2のアプローチでは、シーンの全体像を分析する代わりに、画像のサブリージョン内のオブジェクトの共起に焦点をあてる。
論文参考訳（メタデータ） (2020-09-20T08:26:38Z)
Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文参考訳（メタデータ） (2020-03-31T03:58:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。