Fugu-MT 論文翻訳(概要): What If the TV Was Off? Examining Counterfactual Reasoning Abilities of Multi-modal Language Models

論文の概要: What If the TV Was Off? Examining Counterfactual Reasoning Abilities of Multi-modal Language Models

arxiv url: http://arxiv.org/abs/2310.06627v3
Date: Tue, 28 Nov 2023 15:57:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-30 14:17:45.601282
Title: What If the TV Was Off? Examining Counterfactual Reasoning Abilities of Multi-modal Language Models
Title（参考訳）: テレビがオフになったら? マルチモーダル言語モデルの反事実推論能力の検討
Authors: Letian Zhang, Xiaotong Zhai, Zhongkai Zhao, Yongshuo Zong, Xin Wen, Bingchen Zhao
Abstract要約: 我々は,現代言語モデルの対実的推論能力をテストするために,新しいデータセットC-VQAを導入する。このデータセットは、数値クエリや対語クエリなど、さまざまなタイプでオリジナルの質問を注入することで構築される。このデータセットを用いた現代の視覚モデルの評価では、性能低下が顕著であり、いくつかのモデルでは40%まで低下している。
参考スコア（独自算出の注目度）: 23.400550319038118
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Counterfactual reasoning, a fundamental aspect of human cognition, involves contemplating alternatives to established facts or past events, significantly enhancing our abilities in planning and decision-making. In light of the advancements in current multi-modal large language models, we explore their effectiveness in counterfactual reasoning. To facilitate this investigation, we introduce a novel dataset, C-VQA, specifically designed to test the counterfactual reasoning capabilities of modern multi-modal large language models. This dataset is constructed by infusing original questions with counterfactual presuppositions, spanning various types such as numerical and boolean queries. It encompasses a mix of real and synthetic data, representing a wide range of difficulty levels. Our thorough evaluations of contemporary vision-language models using this dataset have revealed substantial performance drops, with some models showing up to a 40% decrease, highlighting a significant gap between current models and human-like vision reasoning capabilities. We hope our dataset will serve as a vital benchmark for evaluating the counterfactual reasoning capabilities of models. Code and dataset are publicly available at https://bzhao.me/C-VQA/.
Abstract（参考訳）: 人間の認知の基本的な側面である対実的推論は、確立された事実や過去の出来事に対する代替案を考え、計画や意思決定における我々の能力を大幅に向上させる。現在のマルチモーダル大規模言語モデルの進歩を踏まえて,反事実推論におけるその効果を考察する。そこで本研究では,現代マルチモーダル大言語モデルの対実的推論能力をテストするために,新しいデータセットC-VQAを提案する。このデータセットは、数値クエリやブールクエリなど、さまざまな型にまたがる偽の述語で元の質問を推論することによって構築される。実際のデータと合成データを混在させ、幅広い難易度を表現している。このデータセットを用いた現代の視覚言語モデルの徹底的な評価では、パフォーマンス低下が顕著であり、一部のモデルでは40%まで低下し、現在のモデルと人間に似た視覚推論能力の間に大きなギャップが浮かび上がっている。当社のデータセットが,モデルの事実上の推論能力を評価する上で重要なベンチマークになることを期待しています。コードとデータセットはhttps://bzhao.me/C-VQA/で公開されている。

関連論文リスト

Evaluating the encoding competence of visual language models using uncommon actions [5.816389980109022]
UAITは、視覚言語モデル(VLM)の動作シーンにおける意味理解能力をテストするために設計された新しい評価ベンチマークである。我々は,大規模言語モデル,少数ショットプロンプトエンジニアリング,テキスト・ツー・イメージ・ジェネレーションを用いて,高品質な非常識画像テキストサンプルを合成する。我々は、複数の最先端ビジュアル言語モデルを評価し、コントラスト学習に基づくモデルと比較する。
論文参考訳（メタデータ） (2026-01-12T17:15:45Z)
Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning [88.68573198200698]
本研究では,多様で挑戦的な心的データ理論を大規模に生成するための最初のフレームワークであるExploreToMを紹介する。我々のアプローチは、A*検索をカスタムドメイン特化言語に利用して、複雑なストーリ構造と、新しく、多様だが、もっともらしいシナリオを生成します。評価の結果,Llama-3.1-70B や GPT-4o などの最先端 LLM はExploreToM 生成データに対して0%,9% の精度を示した。
論文参考訳（メタデータ） (2024-12-12T21:29:00Z)
Visual Contexts Clarify Ambiguous Expressions: A Benchmark Dataset [0.39462888523270856]
VAGUEは3.9Kの間接的人間発話と対応するシーンを組み合わせたマルチモーダル・ベンチマークである。我々の研究は、モデルが間接的なコミュニケーションを理解する能力について深く掘り下げ、より洗練され人間的な対話が可能なモデルの開発に貢献することを目的としています。
論文参考訳（メタデータ） (2024-11-21T14:01:42Z)
Eureka: Evaluating and Understanding Large Foundation Models [23.020996995362104]
Eurekaは、シングルスコアのレポートやランキングを超えて、大規模な基盤モデルの評価を標準化するためのオープンソースのフレームワークです。我々は、12の最先端モデルを分析し、失敗理解とモデル比較に関する詳細な洞察を提供する。
論文参考訳（メタデータ） (2024-09-13T18:01:49Z)
Is A Picture Worth A Thousand Words? Delving Into Spatial Reasoning for Vision Language Models [37.44286562901589]
本研究では,空間推論の多様な側面をカバーする新しいベンチマークであるSpatialEvalを提案する。我々は、競合する言語と視覚言語モデルを総合的に評価する。文献で見過ごされてきたいくつかの反直感的な洞察が明らかとなった。
論文参考訳（メタデータ） (2024-06-21T03:53:37Z)
VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文参考訳（メタデータ） (2024-04-22T04:49:22Z)
Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文参考訳（メタデータ） (2024-04-02T22:27:24Z)
Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文参考訳（メタデータ） (2024-02-07T13:41:53Z)
ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文参考訳（メタデータ） (2023-11-02T22:17:03Z)
Visual Chain of Thought: Bridging Logical Gaps with Multimodal Infillings [61.04460792203266]
本稿では, 逐次データ内の論理的ギャップを埋めるために, 視覚言語による接地を促進させる, チェーン・オブ・シントを利用する新しい手法であるVCoTを紹介する。本手法は,下流タスクの論理的ギャップを低減するために,一貫した情報と新しい情報を加える合成マルチモーダル埋め込みを生成するために視覚誘導を用いる。
論文参考訳（メタデータ） (2023-05-03T17:58:29Z)
ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational Finance Question Answering [70.6359636116848]
本稿では,対話型質問応答における数値推論の連鎖を研究するために,新しい大規模データセットConvFinQAを提案する。我々のデータセットは、現実世界の会話において、長距離で複雑な数値推論パスをモデル化する上で大きな課題となる。
論文参考訳（メタデータ） (2022-10-07T23:48:50Z)
Perceptual Score: What Data Modalities Does Your Model Perceive? [73.75255606437808]
モデルが入力特徴の異なる部分集合に依存する度合いを評価する指標である知覚スコアを導入する。近年,視覚的質問応答に対するマルチモーダルモデルでは,前者よりも視覚的データを知覚しにくい傾向がみられた。知覚スコアを使用することで、スコアをデータサブセットのコントリビューションに分解することで、モデルのバイアスを分析することもできる。
論文参考訳（メタデータ） (2021-10-27T12:19:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。