論文の概要: Demo-ICL: In-Context Learning for Procedural Video Knowledge Acquisition
- arxiv url: http://arxiv.org/abs/2602.08439v1
- Date: Mon, 09 Feb 2026 09:51:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.154082
- Title: Demo-ICL: In-Context Learning for Procedural Video Knowledge Acquisition
- Title(参考訳): Demo-ICL: 手続き型ビデオ知識獲得のための文脈学習
- Authors: Yuhao Dong, Shulin Tian, Shuai Liu, Shuangrui Ding, Yuhang Zang, Xiaoyi Dong, Yuhang Cao, Jiaqi Wang, Ziwei Liu,
- Abstract要約: 本稿では,デモ駆動型ビデオインコンテキスト学習について紹介する。
また、デモ駆動型ビデオインコンテキスト学習機能の評価を目的とした、挑戦的なベンチマークであるDemo-ICL-Benchを提案する。
- 参考スコア(独自算出の注目度): 72.01993235235106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the growing video understanding capabilities of recent Multimodal Large Language Models (MLLMs), existing video benchmarks primarily assess understanding based on models' static, internal knowledge, rather than their ability to learn and adapt from dynamic, novel contexts from few examples. To bridge this gap, we present Demo-driven Video In-Context Learning, a novel task focused on learning from in-context demonstrations to answer questions about the target videos. Alongside this, we propose Demo-ICL-Bench, a challenging benchmark designed to evaluate demo-driven video in-context learning capabilities. Demo-ICL-Bench is constructed from 1200 instructional YouTube videos with associated questions, from which two types of demonstrations are derived: (i) summarizing video subtitles for text demonstration; and (ii) corresponding instructional videos as video demonstrations. To effectively tackle this new challenge, we develop Demo-ICL, an MLLM with a two-stage training strategy: video-supervised fine-tuning and information-assisted direct preference optimization, jointly enhancing the model's ability to learn from in-context examples. Extensive experiments with state-of-the-art MLLMs confirm the difficulty of Demo-ICL-Bench, demonstrate the effectiveness of Demo-ICL, and thereby unveil future research directions.
- Abstract(参考訳): 最近のMultimodal Large Language Models (MLLM) の動画理解能力の増大にもかかわらず、既存のビデオベンチマークは主にモデルの静的な内部知識に基づいて理解を評価する。
このギャップを埋めるために、デモ駆動型ビデオインコンテキスト学習(Demo-driven Video In-Context Learning)を紹介した。
これに加えて、デモ駆動型ビデオインコンテキスト学習機能の評価を目的とした、挑戦的なベンチマークであるDemo-ICL-Benchを提案する。
Demo-ICL-Benchは1200のインストラクショナルYouTubeビデオと関連する質問から構築され、そこから2種類のデモが導出される。
一 デモ用のビデオ字幕を要約すること。
(II)ビデオデモとして対応する指導ビデオ。
この新たな課題を効果的に解決するために,ビデオ教師付き微調整と情報支援による直接選好最適化という2段階の学習戦略を持つMLLMであるDemo-ICLを開発した。
最先端MLLMを用いた大規模な実験により、Demo-ICL-Benchの難易度を確認し、Demo-ICLの有効性を実証し、将来の研究方向性を明らかにする。
関連論文リスト
- What do vision-language models see in the context? Investigating multimodal in-context learning [2.1119217917006234]
インコンテキスト学習(ICL)により、大規模言語モデルでは、パラメータ更新なしで実演例からタスクを学習することができる。
視覚言語モデル(VLM)におけるICLの体系的研究について述べる。
我々は、設計、アーキテクチャの選択、トレーニング戦略がマルチモーダルICLにどのように影響するかを分析する。
論文 参考訳(メタデータ) (2025-10-28T11:55:24Z) - SMILE: Infusing Spatial and Motion Semantics in Masked Video Learning [50.98341607245458]
Masked Video Modelingはビデオ自己教師型学習(SSL)に有効なパラダイムである
本稿では,空間的意味論と動き的意味論を融合させることにより,SMILEと呼ばれるビデオ表現学習のための新しいSSL手法を提案する。
我々は、自然な映像データを必要とせず、強力な映像表現を学習できる、新しい自己教師型ビデオ学習パラダイムを確立した。
論文 参考訳(メタデータ) (2025-04-01T08:20:55Z) - DRUM: Learning Demonstration Retriever for Large MUlti-modal Models [10.884258583493175]
大規模マンダーリヌル型アンダーラインモデル(DRUM)のための新しい枠組みであるアンダーラインエミュレーションアンダーラインレトリバーを提案する。
まず、埋め込みモデルが与えられると仮定して、視覚言語タスクの検索戦略について議論し、画像とテキストの埋め込みを結合して検索性能を向上させることを提案する。
第2に、LVLMのフィードバックを介して、埋め込みモデルにより検索されたデモを再度ランク付けし、トレーニングのためのリストワイドランキングの損失を計算することを提案する。
論文 参考訳(メタデータ) (2024-12-10T15:56:12Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - Video Understanding with Large Language Models: A Survey [107.7736911322462]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。
Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。
本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文 参考訳(メタデータ) (2023-12-29T01:56:17Z) - Can Multimodal Large Language Models Truly Perform Multimodal In-Context Learning? [42.03008819332293]
インコンテキスト学習(ICL)機能を持つ大規模言語モデル(LLM)は、いくつかのデモ(デム)がある場合、特定のコンテキストに迅速に適応することができる。
最近、MLLM (Multimodal Large Language Models) もマルチモーダル ICL の機能を示し、画像、クエリ、回答を含むいくつかのマルチモーダルなデモに対してクエリに応答している。
論文 参考訳(メタデータ) (2023-11-29T19:08:11Z) - VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for
Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。
ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。
具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文 参考訳(メタデータ) (2023-03-09T06:24:50Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。