論文の概要: What If the TV Was Off? Examining Counterfactual Reasoning Abilities of
Multi-modal Language Models
- arxiv url: http://arxiv.org/abs/2310.06627v1
- Date: Tue, 10 Oct 2023 13:45:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 15:17:02.127904
- Title: What If the TV Was Off? Examining Counterfactual Reasoning Abilities of
Multi-modal Language Models
- Title(参考訳): テレビがオフになったら?
マルチモーダル言語モデルの反事実推論能力の検討
- Authors: Letian Zhang, Xiaotong Zhai, Zhongkai Zhao, Xin Wen, Yongshuo Zong,
Bingchen Zhao
- Abstract要約: マルチモーダルな大言語モデルの反実的推論能力のベンチマークに焦点をあてる。
VQAv2データセットから質問と回答のペアを取り、その質問に1つの偽の前提を加えます。
また,ChatGPTを用いて反現実的な質問や回答を生成し,その正当性を確保するために,生成したすべての質問や回答を手作業で調べる。
- 参考スコア(独自算出の注目度): 23.400550319038118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Counterfactual reasoning ability is one of the core abilities of human
intelligence. This reasoning process involves the processing of alternatives to
observed states or past events, and this process can improve our ability for
planning and decision-making. In this work, we focus on benchmarking the
counterfactual reasoning ability of multi-modal large language models. We take
the question and answer pairs from the VQAv2 dataset and add one counterfactual
presupposition to the questions, with the answer being modified accordingly.
After generating counterfactual questions and answers using ChatGPT, we
manually examine all generated questions and answers to ensure correctness.
Over 2k counterfactual question and answer pairs are collected this way. We
evaluate recent vision language models on our newly collected test dataset and
found that all models exhibit a large performance drop compared to the results
tested on questions without the counterfactual presupposition. This result
indicates that there still exists space for developing vision language models.
Apart from the vision language models, our proposed dataset can also serves as
a benchmark for evaluating the ability of code generation LLMs, results
demonstrate a large gap between GPT-4 and current open-source models. Our code
and dataset are available at \url{https://github.com/Letian2003/C-VQA}.
- Abstract(参考訳): 擬似推論能力は人間の知能の中核的な能力の1つである。
この推論プロセスには、観測された状態や過去の出来事に対する代替案の処理が含まれており、このプロセスは計画と意思決定の能力を改善することができます。
本研究では,マルチモーダル大規模言語モデルの反事実推論能力のベンチマークに注目する。
VQAv2データセットから質問と回答のペアを取り、質問に1つの反実的前提を追加し、回答をそれに応じて修正する。
chatgptを使って偽の質問と回答を生成した後、生成された全ての質問と回答を手作業で調べ、正確性を保証する。
この方法で2k以上の反事実的質問と回答ペアが収集される。
新たに収集したテストデータセット上で,最近の視覚言語モデルを評価した結果,反事実的前提条件のない質問に対して,すべてのモデルが大きなパフォーマンス低下を示すことが分かった。
この結果は、視覚言語モデルを開発するための空間が存在することを示している。
ビジョン言語モデルとは別に,提案したデータセットは,コード生成LLMの能力を評価するためのベンチマークとしても機能し,その結果,GPT-4と現在のオープンソースモデルとの間に大きなギャップがあることが示されている。
コードとデータセットは \url{https://github.com/Letian2003/C-VQA} で公開されている。
関連論文リスト
- Visual Contexts Clarify Ambiguous Expressions: A Benchmark Dataset [0.39462888523270856]
VAGUEは3.9Kの間接的人間発話と対応するシーンを組み合わせたマルチモーダル・ベンチマークである。
我々の研究は、モデルが間接的なコミュニケーションを理解する能力について深く掘り下げ、より洗練され人間的な対話が可能なモデルの開発に貢献することを目的としています。
論文 参考訳(メタデータ) (2024-11-21T14:01:42Z) - Eureka: Evaluating and Understanding Large Foundation Models [23.020996995362104]
Eurekaは、シングルスコアのレポートやランキングを超えて、大規模な基盤モデルの評価を標準化するためのオープンソースのフレームワークです。
我々は、12の最先端モデルを分析し、失敗理解とモデル比較に関する詳細な洞察を提供する。
論文 参考訳(メタデータ) (2024-09-13T18:01:49Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。
以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文 参考訳(メタデータ) (2024-04-02T22:27:24Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life
Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。
各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。
我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文 参考訳(メタデータ) (2023-11-02T22:17:03Z) - Visual Chain of Thought: Bridging Logical Gaps with Multimodal
Infillings [61.04460792203266]
本稿では, 逐次データ内の論理的ギャップを埋めるために, 視覚言語による接地を促進させる, チェーン・オブ・シントを利用する新しい手法であるVCoTを紹介する。
本手法は,下流タスクの論理的ギャップを低減するために,一貫した情報と新しい情報を加える合成マルチモーダル埋め込みを生成するために視覚誘導を用いる。
論文 参考訳(メタデータ) (2023-05-03T17:58:29Z) - ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational
Finance Question Answering [70.6359636116848]
本稿では,対話型質問応答における数値推論の連鎖を研究するために,新しい大規模データセットConvFinQAを提案する。
我々のデータセットは、現実世界の会話において、長距離で複雑な数値推論パスをモデル化する上で大きな課題となる。
論文 参考訳(メタデータ) (2022-10-07T23:48:50Z) - Perceptual Score: What Data Modalities Does Your Model Perceive? [73.75255606437808]
モデルが入力特徴の異なる部分集合に依存する度合いを評価する指標である知覚スコアを導入する。
近年,視覚的質問応答に対するマルチモーダルモデルでは,前者よりも視覚的データを知覚しにくい傾向がみられた。
知覚スコアを使用することで、スコアをデータサブセットのコントリビューションに分解することで、モデルのバイアスを分析することもできる。
論文 参考訳(メタデータ) (2021-10-27T12:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。