論文の概要: ReXTime: A Benchmark Suite for Reasoning-Across-Time in Videos
- arxiv url: http://arxiv.org/abs/2406.19392v2
- Date: Tue, 2 Jul 2024 15:30:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 12:13:48.832932
- Title: ReXTime: A Benchmark Suite for Reasoning-Across-Time in Videos
- Title(参考訳): ReXTime: ビデオのリアルタイム推論のためのベンチマークスイート
- Authors: Jr-Jen Chen, Yu-Chien Liao, Hsi-Che Lin, Yu-Chu Yu, Yen-Chun Chen, Yu-Chiang Frank Wang,
- Abstract要約: ReXTimeは、ビデオイベント内で時間的推論を実行するAIモデルの能力を厳格にテストするために設計されたベンチマークである。
時間的推論と問合せのペアを生成する自動パイプラインを開発する。
私たちのパイプラインは、手作業なしで9,695個のマシン生成サンプルのトレーニングデータセットを作成しています。
- 参考スコア(独自算出の注目度): 24.502570960589182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce ReXTime, a benchmark designed to rigorously test AI models' ability to perform temporal reasoning within video events. Specifically, ReXTime focuses on reasoning across time, i.e. human-like understanding when the question and its corresponding answer occur in different video segments. This form of reasoning, requiring advanced understanding of cause-and-effect relationships across video segments, poses significant challenges to even the frontier multimodal large language models. To facilitate this evaluation, we develop an automated pipeline for generating temporal reasoning question-answer pairs, significantly reducing the need for labor-intensive manual annotations. Our benchmark includes 921 carefully vetted validation samples and 2,143 test samples, each manually curated for accuracy and relevance. Evaluation results show that while frontier large language models outperform academic models, they still lag behind human performance by a significant 14.3% accuracy gap. Additionally, our pipeline creates a training dataset of 9,695 machine generated samples without manual effort, which empirical studies suggest can enhance the across-time reasoning via fine-tuning.
- Abstract(参考訳): ビデオイベント内で時間的推論を実行するAIモデルの能力を厳格にテストするために設計されたベンチマークであるReXTimeを紹介する。
具体的には、ReXTimeは時間にわたっての推論、すなわち、質問とその対応する回答が異なるビデオセグメントで発生するときの人間的な理解に焦点を当てている。
ビデオセグメント間の因果関係の高度な理解を必要とするこの推論形式は、フロンティアのマルチモーダルな大言語モデルにも大きな課題をもたらす。
この評価を容易にするために,時間的推論型質問応答ペアを生成する自動パイプラインを開発し,労働集約型手動アノテーションの必要性を著しく低減する。
私たちのベンチマークには、慎重に検証された検証サンプル921と、2,143のテストサンプルが含まれています。
評価の結果、フロンティアの大規模言語モデルは学術的モデルよりも優れているが、それでも14.3%の精度差で人間のパフォーマンスを遅れていることがわかった。
さらに、私たちのパイプラインは、手作業なしで9,695個のマシン生成サンプルのトレーニングデータセットを作成しています。
関連論文リスト
- Combating Missing Modalities in Egocentric Videos at Test Time [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。
再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。
MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文 参考訳(メタデータ) (2024-04-23T16:01:33Z) - Towards Principled Representation Learning from Videos for Reinforcement Learning [23.877731515619868]
ビデオデータを用いた意思決定のための事前学習表現について検討する。
我々は,ビデオデータを用いたMDPの潜在状態表現の学習に重点を置いている。
論文 参考訳(メタデータ) (2024-03-20T17:28:17Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Fusing Models with Complementary Expertise [42.099743709292866]
データ分布の相補的な知識で専門家モデルの出力を融合させるFoE(Fusion of Experts)問題を考える。
我々の方法は差別的タスクと生成的タスクの両方に当てはまる。
テスト時に専門家によるモデル評価の回数を減らすことが望まれる「フルーガル」設定にメソッドを拡張します。
論文 参考訳(メタデータ) (2023-10-02T18:31:35Z) - Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。
知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。
このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文 参考訳(メタデータ) (2023-05-23T07:54:37Z) - Test of Time: Instilling Video-Language Models with a Sense of Time [42.290970800790184]
既存の7つのビデオ言語モデルは、単純な時間的関係を理解するのに苦労している。
そこで本稿では,少量のビデオテキストデータに基づく事前学習に基づく時間適応手法であるVideoCLIPを提案する。
タスクにより高い時間意識を必要とする場合,特にパフォーマンス向上の促進を観察する。
論文 参考訳(メタデータ) (2023-01-05T14:14:36Z) - Ripple: Concept-Based Interpretation for Raw Time Series Models in
Education [5.374524134699487]
時系列は、教育予測タスクにおいて最も一般的な入力データである。
本稿では,グラフニューラルネットワークを用いた不規則な多変量時系列モデリングを用いて,同等あるいはより良い精度を実現する手法を提案する。
教育領域におけるこれらの進歩を分析し,早期学生のパフォーマンス予測の課題に対処する。
論文 参考訳(メタデータ) (2022-12-02T12:26:00Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Revisiting the "Video" in Video-Language Understanding [56.15777956496518]
本稿では,ビデオ言語解析の新しいモデルであるアテンポラルプローブ(ATP)を提案する。
現在のビデオ言語ベンチマークの限界とポテンシャルを特徴付ける。
ATPをフルビデオレベル時間モデルに効果的に統合することで、効率と最先端の精度が向上することを示す。
論文 参考訳(メタデータ) (2022-06-03T17:57:33Z) - Temporal Relevance Analysis for Video Action Models [70.39411261685963]
まず,CNNに基づく行動モデルにより捉えたフレーム間の時間的関係を定量化する手法を提案する。
次に、時間的モデリングがどのように影響を受けるかをよりよく理解するために、包括的な実験と詳細な分析を行います。
論文 参考訳(メタデータ) (2022-04-25T19:06:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。