論文の概要: Understanding Complexity in VideoQA via Visual Program Generation
- arxiv url: http://arxiv.org/abs/2505.13429v1
- Date: Mon, 19 May 2025 17:55:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.795915
- Title: Understanding Complexity in VideoQA via Visual Program Generation
- Title(参考訳): ビジュアルプログラム生成によるビデオQAの複雑さの理解
- Authors: Cristobal Eyzaguirre, Igor Vasiljevic, Achal Dave, Jiajun Wu, Rares Andrei Ambrus, Thomas Kollar, Juan Carlos Niebles, Pavel Tokmakov,
- Abstract要約: ビデオQA(Video Question Answering)における問合せの複雑さを解析するためのデータ駆動型手法を提案する。
我々は、機械学習モデルにおいて、どの質問が難しいかを予測するのに、人間が苦労していることを実験的に示す。
複雑な質問を自動的に生成するように拡張し、一般的なNExT-QAの1.9倍難しい新しいベンチマークを構築します。
- 参考スコア(独自算出の注目度): 31.207902042321006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a data-driven approach to analyzing query complexity in Video Question Answering (VideoQA). Previous efforts in benchmark design have relied on human expertise to design challenging questions, yet we experimentally show that humans struggle to predict which questions are difficult for machine learning models. Our automatic approach leverages recent advances in code generation for visual question answering, using the complexity of generated code as a proxy for question difficulty. We demonstrate that this measure correlates significantly better with model performance than human estimates. To operationalize this insight, we propose an algorithm for estimating question complexity from code. It identifies fine-grained primitives that correlate with the hardest questions for any given set of models, making it easy to scale to new approaches in the future. Finally, to further illustrate the utility of our method, we extend it to automatically generate complex questions, constructing a new benchmark that is 1.9 times harder than the popular NExT-QA.
- Abstract(参考訳): 本稿では,ビデオ質問回答(Video Question Answering, VideoQA)における問合せの複雑さを解析するためのデータ駆動型手法を提案する。
ベンチマーク設計におけるこれまでの取り組みは、人間の専門知識に頼って挑戦的な質問を設計していましたが、機械学習モデルでは、どの質問が難しいのかを予測するのに、人間が苦労していることが実験的に示されています。
我々の自動アプローチは、視覚的な質問応答のためのコード生成の最近の進歩を活用し、生成したコードの複雑さを質問の難しさのプロキシとして利用します。
本研究では,この指標が人間の推定値よりもモデル性能と著しく相関していることを示す。
この知見を運用するために,問題複雑性をコードから推定するアルゴリズムを提案する。
モデルセットの最も難しい問題と相関する、きめ細かいプリミティブを特定し、将来新しいアプローチに簡単にスケールできるようにする。
最後に,提案手法の有用性をさらに説明するために,NExT-QAの1.9倍の精度を持つ新しいベンチマークを構築し,複雑な質問を自動的に生成するように拡張する。
関連論文リスト
- Efficient and Scalable Neural Symbolic Search for Knowledge Graph Complex Query Answering [50.1887329564127]
複雑なクエリに対する効率的でスケーラブルなシンボル検索フレームワークを提案する。
我々のフレームワークは、ほぼ同じ性能を維持しながら、シンボリックメソッドの計算負荷を90%削減する。
論文 参考訳(メタデータ) (2025-05-13T01:24:09Z) - DEXTER: A Benchmark for open-domain Complex Question Answering using LLMs [3.24692739098077]
オープンドメイン複合質問回答 (QA) は証拠検索と推論において難しい課題である。
我々は、オープンドメイン設定で、最先端の訓練済み高密度・スパース検索モデルを評価する。
BM25のような遅延相互作用モデルや驚くほど語彙的モデルは、事前訓練された高密度検索モデルと比較してよく機能する。
論文 参考訳(メタデータ) (2024-06-24T22:09:50Z) - A Lightweight Method to Generate Unanswerable Questions in English [18.323248259867356]
本稿では,英語における疑問生成のための簡易なデータ拡張手法について検討する。
回答可能な質問に対して、Antonymとエンティティスワップを実行します。
従来の最先端技術と比較すると、トレーニング不要で軽量な戦略で生成されたデータにより、より良いモデルが得られます。
論文 参考訳(メタデータ) (2023-10-30T10:14:52Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - Successive Prompting for Decomposing Complex Questions [50.00659445976735]
最近の研究は、大規模言語モデル(LM)の機能を活用して、数ショットで複雑な質問応答を行う。
そこでは、複雑なタスクを単純なタスクに繰り返し分解し、それを解決し、最終解を得るまでプロセスを繰り返します。
我々の最良のモデル(逐次プロンプト付き)は、DROPデータセットの数ショットバージョンにおいて、5%の絶対F1の改善を実現します。
論文 参考訳(メタデータ) (2022-12-08T06:03:38Z) - Simple or Complex? Complexity-Controllable Question Generation with Soft
Templates and Deep Mixture of Experts Model [15.411214563867548]
本稿では,ソフトテンプレートのセレクタとして専門家(MoE)の混合を取り入れた,エンドツーエンドのニューラル複雑性制御可能な質問生成モデルを提案する。
本手法では,質問の複雑さを評価するために,新しいクロスドメイン複雑度推定器を導入する。
2つのベンチマークQAデータセットの実験結果は、我々のQGモデルが、自動評価と手動評価の両方において最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2021-10-13T08:16:52Z) - Asking Questions Like Educational Experts: Automatically Generating
Question-Answer Pairs on Real-World Examination Data [10.353009081072992]
本稿では,実世界の検査データ上での質問応答対生成課題に対処し,RASに関する新たな統合フレームワークを提案する。
本稿では,質問文とキーフレーズを反復的に生成・最適化するマルチエージェント通信モデルを提案する。
実験結果から,質問応答対生成タスクにおいて,本モデルが大きなブレークスルーをもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2021-09-11T04:10:57Z) - Retrieve, Program, Repeat: Complex Knowledge Base Question Answering via
Alternate Meta-learning [56.771557756836906]
本稿では,弱い監督からプログラマと交互に検索モデルを自動的に学習する手法を提案する。
本システムでは,知識ベースに対する複雑な質問応答を行う大規模タスクにおいて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-10-29T18:28:16Z) - Understanding Unnatural Questions Improves Reasoning over Text [54.235828149899625]
生テキストに対する複雑な質問応答(CQA)は難しい課題である。
効果的なCQAモデルを学ぶには、大量の人間が注釈付けしたデータが必要である。
我々は、自然の人間生成の質問を非自然の機械生成の質問に投影することで、高品質なプログラマ(パーザ)を学ぶという課題に対処する。
論文 参考訳(メタデータ) (2020-10-19T10:22:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。