論文の概要: VIOLA: Towards Video In-Context Learning with Minimal Annotations
- arxiv url: http://arxiv.org/abs/2601.15549v1
- Date: Thu, 22 Jan 2026 00:35:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.455061
- Title: VIOLA: Towards Video In-Context Learning with Minimal Annotations
- Title(参考訳): VIOLA: 最小アノテーションによるビデオインテクスト学習を目指して
- Authors: Ryo Fujii, Hideo Saito, Ryo Hachiuma,
- Abstract要約: 我々は、豊富なラベルのないデータと最小限の専門家監督を相乗化するためのフレームワークVIOLAを紹介する。
我々のフレームワークは、低リソース環境で様々なベースラインを著しく上回り、最小限のアノテーションコストでロバストな適応を実現しています。
- 参考スコア(独自算出の注目度): 20.810620293371027
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Generalizing Multimodal Large Language Models (MLLMs) to novel video domains is essential for real-world deployment but remains challenging due to the scarcity of labeled data. While In-Context Learning (ICL) offers a training-free adaptation path, standard methods rely on large annotated pools, which are often impractical in specialized environments like industrial or surgical settings since they require the experts' annotations. To bridge this gap, we introduce VIOLA (Video In-cOntext Learning with minimal Annotation), a label-efficient framework that synergizes minimal expert supervision with abundant unlabeled data. First, to maximize the efficiency of a strict annotation budget, we propose density-uncertainty-weighted sampling. Unlike standard diversity or uncertainty strategies that risk selecting visual outliers, our method leverages density estimation to identify samples that are simultaneously diverse, representative, and informative. Second, to utilize the remaining unlabeled data without noise propagation, we construct a hybrid pool and introduce confidence-aware retrieval and confidence-aware prompting. These mechanisms explicitly model label reliability, retrieving demonstrations based on a composite score of similarity and confidence while enabling the MLLM to adaptively distinguish between verified ground truths and noisy pseudo-labels. Extensive experiments across nine diverse benchmarks using four MLLMs demonstrate that our framework significantly outperforms various baselines in low-resource settings, achieving robust adaptation with minimal annotation costs.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)を新しいビデオドメインに一般化することは、実世界の展開には不可欠であるが、ラベル付きデータの不足により依然として困難である。
In-Context Learning (ICL) はトレーニング不要な適応パスを提供するが、標準的な手法は大きなアノテートプールに依存している。
このギャップを埋めるために、ラベル効率の良いフレームワークであるVIOLA(Video In-cOntext Learning with minimal Annotation)を導入する。
まず、厳密なアノテーション予算の効率を最大化するために、密度不確実なサンプリングを提案する。
視覚的アウトリーチを選択するリスクを負う標準的な多様性や不確実性戦略とは異なり、本手法は密度推定を利用して、同時に多様性があり、代表的で、情報的であるサンプルを同定する。
第2に、残余ラベル付きデータをノイズ伝搬なしで活用するために、ハイブリッドプールを構築し、信頼認識検索と信頼認識プロンプトを導入する。
これらのメカニズムはラベルの信頼性を明示的にモデル化し、類似性と信頼性の複合スコアに基づいて、MLLMが検証済みの真実とノイズのある擬似ラベルを適応的に識別できるようにする。
4つのMLLMを用いた9つのベンチマークによる大規模な実験により、我々のフレームワークは低リソース環境で様々なベースラインを著しく上回り、最小限のアノテーションコストで堅牢な適応を実現していることが示された。
関連論文リスト
- Feeding LLM Annotations to BERT Classifiers at Your Own Risk [14.533304890042361]
テキスト分類のための小さなエンコーダのみのモデルにLLM生成ラベルを使用することは、様々な設定で人気を博している。
合成データに対する訓練の長年の呪いが、この特定の設定でどのように現れているかを実証する。
金ラベルでトレーニングされたモデルと比較して、精度とF1スコアが期待される性能劣化だけでなく、トレーニングランと未熟なパフォーマンスプラトーの不安定性も向上する。
論文 参考訳(メタデータ) (2025-04-21T20:54:55Z) - Improving Low-Resource Sequence Labeling with Knowledge Fusion and Contextual Label Explanations [17.832223891973353]
低リソースでドメイン固有のシナリオにおいて、シーケンスラベリングは依然として重要な課題である。
本稿では,LLMに基づく知識強化ワークフローと,リッチかつ効率的な抽出のための知識融合モデルを組み合わせた新しいフレームワークを提案する。
提案手法は最先端の性能を実現し,低リソース環境がもたらす課題に効果的に対処する。
論文 参考訳(メタデータ) (2025-01-31T12:39:28Z) - An Effective Deployment of Diffusion LM for Data Augmentation in Low-Resource Sentiment Classification [2.0930389307057427]
感性分類(SC)は、ドメイン固有のコンテキスト、不均衡なラベル分布、少数ショットシナリオなど、低リソースの課題に悩まされることが多い。
我々はDiffusion LMを提案し、強力なラベル関連トークンを再構成することでドメイン内の知識を捕捉し、擬似サンプルを生成する。
論文 参考訳(メタデータ) (2024-09-05T02:51:28Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models [55.01592097059969]
命令データセットの監視された微調整は、目覚ましいゼロショットの一般化能力を達成する上で重要な役割を担っている。
アクティブラーニングは、未ラベルのプールからアノテートするサンプルの有用なサブセットを特定するのに効果的である。
本研究では,能動学習の計算ボトルネックを回避するための実験設計を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:56:54Z) - Semi-Supervised Learning of Semantic Correspondence with Pseudo-Labels [26.542718087103665]
SemiMatchは意味論的に類似した画像間の密接な対応を確立するための半教師付きソリューションである。
筆者らのフレームワークは,ソースと弱増強ターゲット間のモデル予測自体を用いて擬似ラベルを生成し,擬似ラベルを用いてソースと強増強ターゲット間のモデルの再学習を行う。
実験では、SemiMatchは様々なベンチマーク、特にPF-Willowにおける最先端のパフォーマンスを大きなマージンで達成している。
論文 参考訳(メタデータ) (2022-03-30T03:52:50Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。