Fugu-MT 論文翻訳(概要): Scale Can't Overcome Pragmatics: The Impact of Reporting Bias on Vision-Language Reasoning

論文の概要: Scale Can't Overcome Pragmatics: The Impact of Reporting Bias on Vision-Language Reasoning

arxiv url: http://arxiv.org/abs/2602.23351v1
Date: Thu, 26 Feb 2026 18:54:06 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.858893
Title: Scale Can't Overcome Pragmatics: The Impact of Reporting Bias on Vision-Language Reasoning
Title（参考訳）: スケールはプラグマティクスを克服できない:ビジョンランゲージ推論に対するバイアスの報告の影響
Authors: Amita Kamath, Jack Hessel, Khyathi Chandu, Jena D. Hwang, Kai-Wei Chang, Ranjay Krishna,
Abstract要約: ビジョンランゲージモデルにおける推論能力の欠如は研究談話の最前線に留まっている。実用理論のレンズを用いて, 一般的なVLMのOpenCLIP, LLaVA-1.5, Molmoの基盤となるデータについて検討した。
参考スコア（独自算出の注目度）: 79.95774256444956
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The lack of reasoning capabilities in Vision-Language Models (VLMs) has remained at the forefront of research discourse. We posit that this behavior stems from a reporting bias in their training data. That is, how people communicate about visual content by default omits tacit information needed to supervise some types of reasoning; e.g., "at the game today!" is a more likely caption than "a photo of 37 people standing behind a field". We investigate the data underlying the popular VLMs OpenCLIP, LLaVA-1.5 and Molmo through the lens of theories from pragmatics, and find that reporting bias results in insufficient representation of four reasoning skills (spatial, temporal, negation, and counting), despite the corpora being of web-scale, and/or synthetically generated. With a set of curated benchmarks, we demonstrate that: (i) VLMs perform poorly on the aforementioned types of reasoning suppressed in the training data by reporting bias; (ii) contrary to popular belief, scaling data size, model size, and to multiple languages does not result in emergence of these skills by default; but, promisingly, (iii) incorporating annotations specifically collected to obtain tacit information is effective. Our findings highlight the need for more intentional training data curation methods, rather than counting on scale for emergence of reasoning capabilities.
Abstract（参考訳）: VLM(Vision-Language Models)における推論能力の欠如は、研究談話の最前線に留まっている。この行動はトレーニングデータの報告バイアスに由来すると仮定する。つまり、人々が視覚的コンテンツについてどのようにコミュニケーションするかは、デフォルトではある種の推論を監督するために必要な暗黙の情報を省略する。本研究は,Webスケールのコーパスであるにもかかわらず,一般のVLM (OpenCLIP, LLaVA-1.5, Molmo) の基盤となる4つの推論スキル (空間, 時間, 否定, カウント) の表現が不十分であることを示す。キュレートされたベンチマークのセットで、私たちは次のように示しています。 (i)VLMは、トレーニングデータにおいてバイアスを報告することによって抑制された上記タイプの推論に悪影響を及ぼす。 (二)一般的な信念に反して、データサイズ、モデルサイズ、複数の言語に対して、これらのスキルがデフォルトで出現するわけではないが、有望である。三暗黙の情報を得るために特別に収集した注釈を取り入れることが効果的である。本研究は,推論能力の出現の規模をカウントするのではなく,より意図的なトレーニングデータキュレーション手法の必要性を浮き彫りにした。

関連論文リスト

Seeing to Act, Prompting to Specify: A Bayesian Factorization of Vision Language Action Policy [59.44168425139687]
BayesVLA(ベイズVLA)は、前もってポリシーを視覚的アクションに分解し、ルック・トゥ・アクティベーションと言語条件付き可能性をサポートし、即時特定を可能にするベイズ因子化である。実験は、既存の方法と比較して、目に見えない命令、オブジェクト、環境に対して優れた一般化を示す。
論文参考訳（メタデータ） (2025-12-12T01:59:23Z)
Clarification as Supervision: Reinforcement Learning for Vision-Language Interfaces [14.074625212174494]
本稿では,視覚モデルに対話による情報推論に何が必要なのかを学習するアダプティブ・クラシフィケーション強化学習(AC-RL)を提案する。 AC-RLは7つの視覚数学的推論ベンチマークで事前訓練されたベースラインに対して平均精度を4.4ポイント改善する。
論文参考訳（メタデータ） (2025-09-30T17:46:46Z)
Analyzing and Mitigating Object Hallucination: A Training Bias Perspective [108.09666587800781]
我々は,LVLMのトレーニングデータから,特定の対象を隠蔽した反ファクト画像からなる新しいベンチマークPOPEv2を提案する。現在のLVLMはトレーニングバイアスに悩まされており、トレーニングデータを完全に活用できず、トレーニング中に見られる画像に対してより頻繁に幻覚を与えることができません。 Obliviateは,学習バイアスアンラーニングによる物体幻覚の軽減を目的とした,効率的で軽量な未学習手法である。
論文参考訳（メタデータ） (2025-08-06T15:51:02Z)
Can Reasoning Help Large Language Models Capture Human Annotator Disagreement? [84.32752330104775]
ヒトのアノテーションの変化(つまり不一致)は、NLPでは一般的である。異なる推論条件が大言語モデルの不一致モデルに与える影響を評価する。意外なことに、RLVRスタイルの推論は不一致モデリングにおいて性能を低下させる。
論文参考訳（メタデータ） (2025-06-24T09:49:26Z)
Counterfactual reasoning: an analysis of in-context emergence [57.118735341305786]
我々は、言語モデルが反実的推論が可能なことを示す。自己注意、モデル深度、トレーニング済みデータの多様性によってパフォーマンスが向上することがわかった。以上の結果から, SDE 動態下での反実的推論が可能となった。
論文参考訳（メタデータ） (2025-06-05T16:02:07Z)
Seeing Through Deception: Uncovering Misleading Creator Intent in Multimodal News with Vision-Language Models [65.23999399834638]
DeceptionDecodedは,信頼に値する参照記事に基づく12,000のイメージキャプチャペアのベンチマークである。データセットは、誤解を招くケースと、誤解を招くケースの両方をキャプチャし、視覚的およびテキスト的モダリティにわたって操作する。インテント中心の3つのタスク – 意図の検出を誤解させる、ソースの属性を誤解させる、創造的欲求推論 – をサポートしている。
論文参考訳（メタデータ） (2025-05-21T13:14:32Z)
Leveraging VLM-Based Pipelines to Annotate 3D Objects [68.51034848207355]
本稿では,VLMの応答に影響を与える視点などの要因を疎外する代替アルゴリズムを提案する。テキストのみの応答をマージする代わりに、VLMの合同画像テキストの可能性を利用する。 VLMベースのパイプラインを使って764Kデータセットから764Kオブジェクトの信頼性の高いアノテーションを生成する方法を示す。
論文参考訳（メタデータ） (2023-11-29T17:54:22Z)
Probing LLMs for hate speech detection: strengths and vulnerabilities [8.626059038321724]
我々は、異なるプロンプト変動、入力情報を活用し、ゼロショット設定で大きな言語モデルを評価する。 GPT-3.5、text-davinci、Flan-T5の3つの大きな言語モデルと、HateXplain、暗黙の憎しみ、ToxicSpansという3つのデータセットを選択します。パイプライン内のターゲット情報を含む平均すると,モデルの性能が大幅に向上することがわかった。
論文参考訳（メタデータ） (2023-10-19T16:11:02Z)
Enhance Reasoning Ability of Visual-Language Models via Large Language Models [7.283533791778359]
本稿では,大規模言語モデルの推論能力をゼロショットシナリオで視覚言語モデルに転送するTReEという手法を提案する。 TReEは観察、思考、再考の3段階を含む。
論文参考訳（メタデータ） (2023-05-22T17:33:44Z)
Do Language Embeddings Capture Scales? [54.1633257459927]
事前学習された言語モデルは、オブジェクトのスカラーサイズに関するかなりの量の情報を取得することを示す。我々は,事前学習と数理化における文脈情報を,その性能に影響を及ぼす2つの重要な要因として認識する。
論文参考訳（メタデータ） (2020-10-11T21:11:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。