論文の概要: ReXTime: A Benchmark Suite for Reasoning-Across-Time in Videos
- arxiv url: http://arxiv.org/abs/2406.19392v2
- Date: Tue, 2 Jul 2024 15:30:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 12:13:48.832932
- Title: ReXTime: A Benchmark Suite for Reasoning-Across-Time in Videos
- Title(参考訳): ReXTime: ビデオのリアルタイム推論のためのベンチマークスイート
- Authors: Jr-Jen Chen, Yu-Chien Liao, Hsi-Che Lin, Yu-Chu Yu, Yen-Chun Chen, Yu-Chiang Frank Wang,
- Abstract要約: ReXTimeは、ビデオイベント内で時間的推論を実行するAIモデルの能力を厳格にテストするために設計されたベンチマークである。
時間的推論と問合せのペアを生成する自動パイプラインを開発する。
私たちのパイプラインは、手作業なしで9,695個のマシン生成サンプルのトレーニングデータセットを作成しています。
- 参考スコア(独自算出の注目度): 24.502570960589182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce ReXTime, a benchmark designed to rigorously test AI models' ability to perform temporal reasoning within video events. Specifically, ReXTime focuses on reasoning across time, i.e. human-like understanding when the question and its corresponding answer occur in different video segments. This form of reasoning, requiring advanced understanding of cause-and-effect relationships across video segments, poses significant challenges to even the frontier multimodal large language models. To facilitate this evaluation, we develop an automated pipeline for generating temporal reasoning question-answer pairs, significantly reducing the need for labor-intensive manual annotations. Our benchmark includes 921 carefully vetted validation samples and 2,143 test samples, each manually curated for accuracy and relevance. Evaluation results show that while frontier large language models outperform academic models, they still lag behind human performance by a significant 14.3% accuracy gap. Additionally, our pipeline creates a training dataset of 9,695 machine generated samples without manual effort, which empirical studies suggest can enhance the across-time reasoning via fine-tuning.
- Abstract(参考訳): ビデオイベント内で時間的推論を実行するAIモデルの能力を厳格にテストするために設計されたベンチマークであるReXTimeを紹介する。
具体的には、ReXTimeは時間にわたっての推論、すなわち、質問とその対応する回答が異なるビデオセグメントで発生するときの人間的な理解に焦点を当てている。
ビデオセグメント間の因果関係の高度な理解を必要とするこの推論形式は、フロンティアのマルチモーダルな大言語モデルにも大きな課題をもたらす。
この評価を容易にするために,時間的推論型質問応答ペアを生成する自動パイプラインを開発し,労働集約型手動アノテーションの必要性を著しく低減する。
私たちのベンチマークには、慎重に検証された検証サンプル921と、2,143のテストサンプルが含まれています。
評価の結果、フロンティアの大規模言語モデルは学術的モデルよりも優れているが、それでも14.3%の精度差で人間のパフォーマンスを遅れていることがわかった。
さらに、私たちのパイプラインは、手作業なしで9,695個のマシン生成サンプルのトレーニングデータセットを作成しています。
関連論文リスト
- Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Temporal Reasoning Transfer from Text to Video [51.68487044397409]
ビデオ大言語モデル(ビデオLLM)は、時間的変化の追跡と時間的関係の推論に苦労する。
テキストからビデオ領域への時間的推論能力を伝達するために、テキスト時間的推論転送(T3)を導入する。
LongVA-7Bモデルは、包括的なビデオベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-10-08T16:10:29Z) - E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding [57.630136434038384]
E.T. Bench (Event-Level & Time-Sensitive Video Understanding Benchmark)は、イベントレベルのオープンな理解のための大規模ベンチマークである。
ベンチマークでは,8つの画像-LLMと12個のビデオ-LLMを広範囲に評価し,その結果から,粗い(ビデオレベル)理解のための最先端モデルが,きめ細かなタスクの解決に苦慮していることが判明した。
私たちのシンプルだが効果的なソリューションは、複数のシナリオで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-09-26T17:53:04Z) - Combating Missing Modalities in Egocentric Videos at Test Time [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。
再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。
MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文 参考訳(メタデータ) (2024-04-23T16:01:33Z) - Test of Time: Instilling Video-Language Models with a Sense of Time [42.290970800790184]
既存の7つのビデオ言語モデルは、単純な時間的関係を理解するのに苦労している。
そこで本稿では,少量のビデオテキストデータに基づく事前学習に基づく時間適応手法であるVideoCLIPを提案する。
タスクにより高い時間意識を必要とする場合,特にパフォーマンス向上の促進を観察する。
論文 参考訳(メタデータ) (2023-01-05T14:14:36Z) - Ripple: Concept-Based Interpretation for Raw Time Series Models in
Education [5.374524134699487]
時系列は、教育予測タスクにおいて最も一般的な入力データである。
本稿では,グラフニューラルネットワークを用いた不規則な多変量時系列モデリングを用いて,同等あるいはより良い精度を実現する手法を提案する。
教育領域におけるこれらの進歩を分析し,早期学生のパフォーマンス予測の課題に対処する。
論文 参考訳(メタデータ) (2022-12-02T12:26:00Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。