論文の概要: When Discourse Pressures Conflict: Information Structure in Vision-Language Model Outputs
- arxiv url: http://arxiv.org/abs/2605.28346v1
- Date: Wed, 27 May 2026 11:50:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.015432
- Title: When Discourse Pressures Conflict: Information Structure in Vision-Language Model Outputs
- Title(参考訳): 談話が対立を迫るとき:視覚・言語モデル出力の情報構造
- Authors: Marcell Fekete, Johannes Bjerva, Tamás Káldi,
- Abstract要約: 視覚的根拠のある質問応答において、視覚言語モデル(VLM)が談話古いトピックスと談話の新しいFocicを区別するかどうかを検証する。
私たちは、TopicとFocusが専用の統語的位置にマッピングする言語であるハンガリー語を利用して、ISの選択をテキストで観察できるようにしています。
モデルはIS関連構造を生成するが、この感度を過度に調整する。
- 参考スコア(独自算出の注目度): 8.897315812066683
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-language models (VLMs) are increasingly evaluated for whether they identify the right visual content, but little is known about whether they express such content in a discourse-appropriate form. We address this research gap using information structure (IS), testing whether VLMs distinguish discourse-old Topics from discourse-new Foci in visually grounded question answering. We exploit Hungarian, a language in which Topic and Focus map onto dedicated syntactic positions, making IS choices observable in text. Comparing six VLMs with human participants, we find that models produce IS-relevant constructions, but over-regularise this sensitivity. Under the interacting pressures of discourse status, grammatical role (preference for subject Topics) and definiteness (preference for indefinite Foci), humans choose variable strategies for IS realisation. VLMs, by contrast, collapse onto narrow response templates, resembling mode collapse (Kirk et al., 2024). Our findings suggest that VLM evaluation should look beyond content accuracy to how content is packaged for the discourse.
- Abstract(参考訳): 視覚言語モデル (VLM) は, 適切な視覚的コンテンツを識別するかどうかについて, ますます評価されているが, 談話に適した形で表現するかどうかについては, ほとんど分かっていない。
本研究の課題は,情報構造(IS)を用いて,VLMが談話型トピックと談話型トピックを区別するかどうかを視覚的根拠による質問応答において検証することである。
私たちは、TopicとFocusが専用の統語的位置にマッピングする言語であるハンガリー語を利用して、ISの選択をテキストで観察できるようにしています。
6つのVLMと人間の参加者を比較すると、モデルはIS関連構造を生成するが、この感度を過度に調整する。
対話的な言論状態、文法的役割(主題のトピックの参照)、定性(不定のFocの参照)の圧力の下で、人はIS実現のための可変戦略を選択する。
対照的に、VLMはモード崩壊に似た狭い応答テンプレートに崩壊する(Kirk et al , 2024)。
以上の結果から,VLM評価は内容の正確性を超えて,内容のパッケージ化を図るべきであることが示唆された。
関連論文リスト
- Real Images, Worse Judgments: Evaluating Vision-Language Models on Concreteness and Imagery [21.95600321802019]
視覚言語モデルが語彙的判断における偶発的画像文脈と有用な視覚的証拠を区別できるかどうかを考察する。
実画像のコンテキストは、一貫した利得を得られず、しばしば人間のレーティングとの整合性を損なう。
以上の結果から,現在のVLMでは,視覚的コンテキストが語彙的判断に影響を及ぼす場合のキャリブレーションの精度が向上することが示唆された。
論文 参考訳(メタデータ) (2026-05-26T17:24:59Z) - Seeing to Act, Prompting to Specify: A Bayesian Factorization of Vision Language Action Policy [59.44168425139687]
BayesVLA(ベイズVLA)は、前もってポリシーを視覚的アクションに分解し、ルック・トゥ・アクティベーションと言語条件付き可能性をサポートし、即時特定を可能にするベイズ因子化である。
実験は、既存の方法と比較して、目に見えない命令、オブジェクト、環境に対して優れた一般化を示す。
論文 参考訳(メタデータ) (2025-12-12T01:59:23Z) - Context Matters: Learning Global Semantics via Object-Centric Representation [8.195437248815802]
ビジョンモデルは、コンテキスト内学習において同等の進歩を見せていない。
このギャップは、現在の視覚変換器(ViT)トレーニングスキームにおける意味的および文脈的ガイダンスの欠如に起因する可能性がある、と我々は主張する。
対象」を「単語」の視覚的等価性として直接モデル化し、そのモデルに視覚要素間のグローバルな文脈と意味を学習させることを提案する。
論文 参考訳(メタデータ) (2025-10-07T08:33:36Z) - Talking Point based Ideological Discourse Analysis in News Events [62.18747509565779]
本稿では,イデオロギー的談話分析理論をモチベーションとして,実世界の出来事に関するニュース記事を分析する枠組みを提案する。
我々のフレームワークは,話題のトピックとともに,エンティティ,役割,メディアフレーム間の相互作用を捉えた,会話ポイントという関係構造を用いたニュース記事を表現している。
我々は,人間の検証によって補足されたイデオロギーや分派的分類タスクを通じて,これらの視点を自動で生成するフレームワークの能力を評価する。
論文 参考訳(メタデータ) (2025-04-10T02:52:34Z) - Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - SADL: An Effective In-Context Learning Method for Compositional Visual QA [22.0603596548686]
大規模視覚言語モデル(LVLM)は、ビジュアルQAでコンテキスト内学習(ICL)を実行するための新しい機能を提供する。
本稿では,タスクのための新しい視覚言語プロンプトフレームワークであるSADLを紹介する。
論文 参考訳(メタデータ) (2024-07-02T06:41:39Z) - Integrating Self-supervised Speech Model with Pseudo Word-level Targets
from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。
4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:55:21Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Language Models as Zero-shot Visual Semantic Learners [0.618778092044887]
本研究では,文脈的単語埋め込みのセマンティック情報を探索するためのVisual Se-mantic Embedding Probe (VSEP)を提案する。
文脈表現を持つVSEPは、複雑な場面における単語レベルのオブジェクト表現を合成ゼロショット学習者として区別することができる。
言語モーダルにおける文脈表現は, オブジェクトの合成連鎖が短い場合, 静的単語埋め込みよりも優れることがわかった。
論文 参考訳(メタデータ) (2021-07-26T08:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。