論文の概要: Large Language Models are Temporal and Causal Reasoners for Video
Question Answering
- arxiv url: http://arxiv.org/abs/2310.15747v2
- Date: Mon, 6 Nov 2023 12:20:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 20:01:02.047397
- Title: Large Language Models are Temporal and Causal Reasoners for Video
Question Answering
- Title(参考訳): 大規模言語モデルはビデオ質問応答の時間的・因果的推論である
- Authors: Dohwan Ko, Ji Soo Lee, Wooyoung Kang, Byungseok Roh, Hyunwoo J. Kim
- Abstract要約: 大規模言語モデル(LLM)は、幅広い自然言語理解および生成タスクにおいて顕著なパフォーマンスを示している。
本稿では、新しいフレームワークFlipped-VQAを提案し、$langle$V, Q, A$rangle$ tripletのすべての組み合わせを予測することをモデルに推奨する。
Flipped-VQAは言語的ショートカットの活用を促進させるだけでなく、言語バイアスを緩和する。
- 参考スコア(独自算出の注目度): 16.722148605611146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have shown remarkable performances on a wide
range of natural language understanding and generation tasks. We observe that
the LLMs provide effective priors in exploiting $\textit{linguistic shortcuts}$
for temporal and causal reasoning in Video Question Answering (VideoQA).
However, such priors often cause suboptimal results on VideoQA by leading the
model to over-rely on questions, $\textit{i.e.}$, $\textit{linguistic bias}$,
while ignoring visual content. This is also known as `ungrounded guesses' or
`hallucinations'. To address this problem while leveraging LLMs' prior on
VideoQA, we propose a novel framework, Flipped-VQA, encouraging the model to
predict all the combinations of $\langle$V, Q, A$\rangle$ triplet by flipping
the source pair and the target label to understand their complex relationships,
$\textit{i.e.}$, predict A, Q, and V given a VQ, VA, and QA pairs,
respectively. In this paper, we develop LLaMA-VQA by applying Flipped-VQA to
LLaMA, and it outperforms both LLMs-based and non-LLMs-based models on five
challenging VideoQA benchmarks. Furthermore, our Flipped-VQA is a general
framework that is applicable to various LLMs (OPT and GPT-J) and consistently
improves their performances. We empirically demonstrate that Flipped-VQA not
only enhances the exploitation of linguistic shortcuts but also mitigates the
linguistic bias, which causes incorrect answers over-relying on the question.
Code is available at https://github.com/mlvlab/Flipped-VQA.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広い自然言語理解および生成タスクにおいて顕著なパフォーマンスを示している。
ビデオ質問回答 (Video Question Answering, VideoQA) における時間的・因果的推論のために, LLM が $\textit{linguistic shortcuts}$ を有効活用するための先行情報を提供する。
しかしながら、そのような先行は、視覚的コンテンツを無視しながら、そのモデルを過度に疑問に答える$\textit{i.e.}$, $\textit{linguistic bias}$ へと導くことによって、ビデオQAの準最適結果を引き起こすことが多い。
これは 'ungrounded guesses' や 'hallucinations' とも呼ばれる。
この問題を解決するために,ビデオQA 上で LLM が先行する手法である Flipped-VQA を提案し,VQ とVA,QA のペアをそれぞれ付与する$\langle$V,Q,A$\rangle$ triplet のすべての組み合わせを,ソースペアとターゲットラベルをフリップすることで予測し,それらの複雑な関係を理解するために $\textit{i.e.}$,予測 A, Q, V のペアをそれぞれ与えられた VQ, VA, QA のペアを推定する。
本稿では,LLaMAにFlipped-VQAを適用してLLaMA-VQAを開発した。
さらに、Flipped-VQA は様々な LLM (OPT および GPT-J) に適用可能な汎用フレームワークであり、その性能を一貫して改善する。
我々は, Flipped-VQAが言語的ショートカットの活用を促進するだけでなく, 言語バイアスを緩和し, 問題の過度な回答を引き起こすことを実証的に示す。
コードはhttps://github.com/mlvlab/flipped-vqaで入手できる。
関連論文リスト
- A Simple LLM Framework for Long-Range Video Question-Answering [63.50439701867275]
長距離ビデオ質問応答(LVQA)のための言語ベースのフレームワークであるLLoViを提案する。
我々のアプローチでは、フレーム/クリップレベルの視覚キャプタと大言語モデル(GPT-3.5, GPT-4)を併用する。
提案手法は50.3%の精度を達成し,従来のベストパフォーマンスアプローチを18.1%(絶対ゲイン)で上回った。
論文 参考訳(メタデータ) (2023-12-28T18:58:01Z) - Improving Zero-shot Visual Question Answering via Large Language Models
with Reasoning Question Prompts [22.669502403623166]
本稿では,VQAタスクに対する推論質問プロンプトを提案する。
自己完結した質問は、教師なし質問セットモジュールを介して推論された質問プロンプトとして生成する。
各推論質問は、元の質問の意図を明確に示す。
そして、回答整合性として働く信頼度スコアに関連する候補回答をLSMに入力する。
論文 参考訳(メタデータ) (2023-11-15T15:40:46Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - Can I Trust Your Answer? Visually Grounded Video Question Answering [88.11169242115416]
本稿では,ビデオ言語理解のための事前学習技術を活用したビデオQAについて検討する。
NExT-GQA - NExT-QAの拡張で、10.5$K$の時間的グラウンドラベルを元のQAペアに結び付ける。
論文 参考訳(メタデータ) (2023-09-04T03:06:04Z) - From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language
Models [111.42052290293965]
大規模言語モデル(LLM)は、新しい言語タスクに対して優れたゼロショット一般化を証明している。
視覚と言語データに対するエンドツーエンドのトレーニングは、切断を橋渡しするかもしれないが、柔軟性がなく、計算コストがかかる。
上述したモダリティとタスクの切断をブリッジできるプロンプトを提供するプラグイン・アンド・プレイモジュールであるemphImg2Promptを提案する。
論文 参考訳(メタデータ) (2022-12-21T08:39:36Z) - Invariant Grounding for Video Question Answering [72.87173324555846]
Video Question Answering (ビデオQA)は、ビデオに関する質問に答えるタスクである。
先行するビデオQAモデルでは、典型的な学習目標である経験的リスク最小化(ERM)が、ビデオクエストペアと回答の間の表面的相関に基づく。
Invariant Grounding for VideoQA (IGV) という新たな学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-06T04:37:52Z) - NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions [80.60423934589515]
NExT-QAは、厳密に設計されたビデオ質問回答(VideoQA)ベンチマークです。
因果的行動推論,時間的行動推論,共通場面理解を対象とする複数選択およびオープンエンドQAタスクを構築した。
トップパフォーマンスの手法は浅い場面記述に優れているが、因果的および時間的行動推論に弱い。
論文 参考訳(メタデータ) (2021-05-18T04:56:46Z) - Video Question Answering with Phrases via Semantic Roles [40.72894813542082]
ビデオ質問回答(VidQA)評価指標は、単一の単語の回答や、固定されたフレーズセットからフレーズを選択することに限定されています。
我々は、ビデオ記述から派生した意味的役割を利用して、特定のフレーズを隠ぺいし、vidqaを補足するvidqapを導入する。
論文 参考訳(メタデータ) (2021-04-08T13:27:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。