論文の概要: VideoICL: Confidence-based Iterative In-context Learning for Out-of-Distribution Video Understanding
- arxiv url: http://arxiv.org/abs/2412.02186v1
- Date: Tue, 03 Dec 2024 05:54:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:49:45.194041
- Title: VideoICL: Confidence-based Iterative In-context Learning for Out-of-Distribution Video Understanding
- Title(参考訳): VideoICL:アウト・オブ・ディストリビューション・ビデオ理解のための信頼に基づく反復型インコンテクスト学習
- Authors: Kangsan Kim, Geon Park, Youngwan Lee, Woongyeong Yeo, Sung Ju Hwang,
- Abstract要約: ビデオ大マルチモーダルモデル(LMM)は、ビデオ理解と推論能力を大幅に改善した。
彼らのパフォーマンスは、トレーニングデータで不足しているOOD(out-of-distriion)タスクに低下する。
OODデータセットの微調整のような従来の手法は、高い計算コストのために実用的ではない。
OODタスクのための新しいビデオインコンテキスト学習フレームワークであるVideoICLを提案する。
- 参考スコア(独自算出の注目度): 48.26536049440913
- License:
- Abstract: Recent advancements in video large multimodal models (LMMs) have significantly improved their video understanding and reasoning capabilities. However, their performance drops on out-of-distribution (OOD) tasks that are underrepresented in training data. Traditional methods like fine-tuning on OOD datasets are impractical due to high computational costs. While In-context learning (ICL) with demonstration examples has shown promising generalization performance in language tasks and image-language tasks without fine-tuning, applying ICL to video-language tasks faces challenges due to the limited context length in Video LMMs, as videos require longer token lengths. To address these issues, we propose VideoICL, a novel video in-context learning framework for OOD tasks that introduces a similarity-based relevant example selection strategy and a confidence-based iterative inference approach. This allows to select the most relevant examples and rank them based on similarity, to be used for inference. If the generated response has low confidence, our framework selects new examples and performs inference again, iteratively refining the results until a high-confidence response is obtained. This approach improves OOD video understanding performance by extending effective context length without incurring high costs. The experimental results on multiple benchmarks demonstrate significant performance gains, especially in domain-specific scenarios, laying the groundwork for broader video comprehension applications. Code will be released at https://github.com/KangsanKim07/VideoICL
- Abstract(参考訳): ビデオ大マルチモーダルモデル(LMM)の最近の進歩は、ビデオ理解と推論能力を大幅に改善している。
しかし、それらのパフォーマンスは、トレーニングデータで不足しているアウト・オブ・ディストリビューション(OOD)タスクに低下する。
OODデータセットの微調整のような従来の手法は、高い計算コストのために実用的ではない。
In-context Learning (ICL) と実演例では、微調整をせずに言語タスクや画像言語タスクにおいて有望な一般化性能を示す一方で、ビデオLMMのコンテキスト長が制限されているため、ICLをビデオ言語タスクに適用することは課題に直面している。
これらの課題に対処するために,OODタスクのための新しいビデオインコンテキスト学習フレームワークであるVideoICLを提案する。
これにより、最も関連性の高い例を選択し、類似性に基づいてそれらをランク付けし、推論に使用することができる。
生成した応答が信頼性が低い場合、我々のフレームワークは新しい例を選択して再度推論を行い、高信頼の応答が得られるまで反復的に結果を精査する。
このアプローチは、高コストを伴わずに、効果的なコンテキスト長を拡張することにより、OODビデオ理解性能を向上させる。
複数のベンチマーク実験の結果、特にドメイン固有のシナリオにおいて、より広範なビデオ理解アプリケーションの基礎となる性能向上が示された。
コードはhttps://github.com/KangsanKim07/VideoICLで公開される。
関連論文リスト
- Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - Learning to Reduce: Optimal Representations of Structured Data in
Prompting Large Language Models [42.16047343029512]
大規模言語モデル(LLM)は汎用AIエージェントとして広く利用されている。
本稿では,入力コンテキストの縮小バージョンを生成するために,言語モデルを微調整するフレームワークであるLearning to Reduceを提案する。
入力コンテキストから関連する証拠を選択する際に,本モデルが同等の精度を達成することを示す。
論文 参考訳(メタデータ) (2024-02-22T00:41:23Z) - Retrieval-based Video Language Model for Efficient Long Video Question
Answering [39.474247695753725]
本稿では,検索型ビデオ言語モデル(R-VLM)を提案する。
具体的には、質問(クエリ)と長いビデオから、我々のモデルは最も関連性の高い$K$のビデオチャンクを特定し、選択する。
実験の結果,長編動画の編集におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-12-08T09:48:36Z) - Learning to Retrieve In-Context Examples for Large Language Models [69.9707552694766]
大規模言語モデル(LLM)は、文脈内で学習する能力を示している。
文脈内学習の有効性は、選択した例の品質に大きく依存する。
高品質なインコンテキストの例を識別可能な高密度検索を反復的に学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-14T05:23:08Z) - ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for
Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。
ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。
具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文 参考訳(メタデータ) (2023-03-09T06:24:50Z) - Compositional Exemplars for In-context Learning [21.961094715261133]
大規模な事前学習言語モデル(LM)は、印象的なインコンテキスト学習(ICL)能力を示している。
本稿では,CEIL (Compositional Exemplars for In-context Learning) を提案する。
我々は、感情分析、パラフレーズ検出、自然言語推論、コモンセンス推論、オープンドメイン質問応答、コード生成、意味解析を含む7つの異なるNLPタスクから、CEILを12の分類および生成データセットで検証する。
論文 参考訳(メタデータ) (2023-02-11T14:02:08Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。