論文の概要: Large (Vision) Language Models are Unsupervised In-Context Learners
- arxiv url: http://arxiv.org/abs/2504.02349v1
- Date: Thu, 03 Apr 2025 07:33:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:55:47.686394
- Title: Large (Vision) Language Models are Unsupervised In-Context Learners
- Title(参考訳): 大規模(視覚)言語モデルは教師なしのインテクスト学習者である
- Authors: Artyom Gadetsky, Andrei Atanov, Yulun Jiang, Zhitong Gao, Ghazal Hosseini Mighan, Amir Zamir, Maria Brbic,
- Abstract要約: 完全教師なし適応のための共同推論フレームワークを導入する。
ゼロショット推論とは異なり、関節推論は与えられたタスクの全ての入力に対して同時に予測を行う。
我々の実験は、標準のゼロショットアプローチよりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 14.930827851769276
- License:
- Abstract: Recent advances in large language and vision-language models have enabled zero-shot inference, allowing models to solve new tasks without task-specific training. Various adaptation techniques such as prompt engineering, In-Context Learning (ICL), and supervised fine-tuning can further enhance the model's performance on a downstream task, but they require substantial manual effort to construct effective prompts or labeled examples. In this work, we introduce a joint inference framework for fully unsupervised adaptation, eliminating the need for manual prompt engineering and labeled examples. Unlike zero-shot inference, which makes independent predictions, the joint inference makes predictions simultaneously for all inputs in a given task. Since direct joint inference involves computationally expensive optimization, we develop efficient approximation techniques, leading to two unsupervised adaptation methods: unsupervised fine-tuning and unsupervised ICL. We demonstrate the effectiveness of our methods across diverse tasks and models, including language-only Llama-3.1 on natural language processing tasks, reasoning-oriented Qwen2.5-Math on grade school math problems, vision-language OpenFlamingo on vision tasks, and the API-only access GPT-4o model on massive multi-discipline tasks. Our experiments demonstrate substantial improvements over the standard zero-shot approach, including 39% absolute improvement on the challenging GSM8K math reasoning dataset. Remarkably, despite being fully unsupervised, our framework often performs on par with supervised approaches that rely on ground truth labels.
- Abstract(参考訳): 大規模言語や視覚言語モデルの最近の進歩により、ゼロショット推論が可能となり、タスク固有のトレーニングなしで新しいタスクを解けるようになった。
プロンプトエンジニアリング、インコンテキストラーニング(ICL)、教師付き微調整などの様々な適応技術は、下流タスクにおけるモデルの性能をさらに向上させるが、効果的なプロンプトやラベル付き例を構築するためには、かなりの手作業が必要となる。
本研究では、手動のプロンプトエンジニアリングやラベル付きサンプルを不要にしながら、完全に教師なし適応のための共同推論フレームワークを導入する。
独立な予測を行うゼロショット推論とは異なり、ジョイント推論は与えられたタスクにおける全ての入力に対して同時に予測を行う。
直接関節推論には計算コストがかかるため、効率的な近似手法を開発し、教師なし微調整と教師なしICLという2つの非教師なし適応手法を導いた。
本稿では,自然言語処理タスクにおける言語のみのLlama-3.1,小学校数学問題における推論指向Qwen2.5-Math,視覚タスクにおける視覚言語OpenFlamingo,大規模多分野タスクにおけるAPIのみアクセスGPT-4oモデルなど,さまざまなタスクやモデルに対する手法の有効性を示す。
実験では,GSM8Kの算数推論データセットに対する39%の絶対的な改善を含む,標準ゼロショットアプローチに対する大幅な改善が示された。
注目すべきは、完全に教師されていないにもかかわらず、我々のフレームワークは、基礎的な真理ラベルに依存する教師付きアプローチと同等に機能することです。
関連論文リスト
- Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - Visual Cue Enhancement and Dual Low-Rank Adaptation for Efficient Visual Instruction Fine-Tuning [102.18178065928426]
VCE(Vision Cue Enhancement)とDual-LoRA(Dual-LoRA)の2つの新しいアプローチによる効率的な微調整フレームワークを提案する。
VCEは、マルチレベルビジュアルキューを統合することで、視覚プロジェクタを強化し、きめ細かい視覚的特徴をキャプチャするモデルの能力を向上させる。
Dual-LoRAは、命令チューニングのための2つの低ランク構造を導入し、スキルとタスク空間に学習を分離し、様々なタスクにまたがって正確な制御と効率的な適応を可能にする。
論文 参考訳(メタデータ) (2024-11-19T11:03:09Z) - Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。
本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-04-17T09:39:07Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Post Hoc Explanations of Language Models Can Improve Language Models [43.2109029463221]
AMPLIFY(Post Hoc Explanations)を用いたインコンテキスト学習の活用によるモデル性能向上のための新しいフレームワークを提案する。
我々は,各入力特徴がモデル予測に与える影響を抽出し,帰属スコア(説明)を出力するポストホック説明手法を活用する。
AMPLIFYは,幅広いタスクに対して約10~25%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-05-19T04:46:04Z) - POUF: Prompt-oriented unsupervised fine-tuning for large pre-trained
models [62.23255433487586]
モデルに微調整を施したり、ラベルのないターゲットデータにプロンプトを施したりするための教師なしの微調整フレームワークを提案する。
本稿では,プロンプトとターゲットデータから抽出した離散分布を整列させて,言語拡張視覚とマスキング言語モデルの両方に適用する方法を示す。
論文 参考訳(メタデータ) (2023-04-29T22:05:22Z) - Breakpoint Transformers for Modeling and Tracking Intermediate Beliefs [37.754787051387034]
本稿では,ブレークポイントモデリングと呼ばれる表現学習フレームワークを提案する。
私たちのアプローチは、中間表現を構築するために、効率的でエンドツーエンドの方法でモデルをトレーニングします。
我々は,従来の表現学習手法よりも,T5に基づく主要なブレークポイント変換器の利点を示す。
論文 参考訳(メタデータ) (2022-11-15T07:28:14Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。