論文の概要: Matryoshka: Learning to Drive Black-Box LLMs with LLMs
- arxiv url: http://arxiv.org/abs/2410.20749v1
- Date: Mon, 28 Oct 2024 05:28:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:19:20.921570
- Title: Matryoshka: Learning to Drive Black-Box LLMs with LLMs
- Title(参考訳): Matryoshka: LLMでBlack-Box LLMを駆動する学習
- Authors: Changhao Li, Yuchen Zhuang, Rushi Qiang, Haotian Sun, Hanjun Dai, Chao Zhang, Bo Dai,
- Abstract要約: Matryoshikaは軽量のホワイトボックス大型言語モデルコントローラである。
複雑なタスクを一連の中間出力に分解することで、大規模なブラックボックスLCMジェネレータを誘導する。
- 参考スコア(独自算出の注目度): 31.501244808646
- License:
- Abstract: Despite the impressive generative abilities of black-box large language models (LLMs), their inherent opacity hinders further advancements in capabilities such as reasoning, planning, and personalization. Existing works aim to enhance LLM capabilities via domain-specific adaptation or in-context learning, which require additional training on accessible model parameters, an infeasible option for black-box LLMs. To address this challenge, we introduce Matryoshika, a lightweight white-box LLM controller that guides a large-scale black-box LLM generator by decomposing complex tasks into a series of intermediate outputs. Specifically, we consider the black-box LLM as an environment, with Matryoshika serving as a policy to provide intermediate guidance through prompts for driving the black-box LLM. Matryoshika is trained to pivot the outputs of the black-box LLM aligning with preferences during iterative interaction, which enables controllable multi-turn generation and self-improvement in optimizing intermediate guidance. Empirical evaluations on three diverse tasks demonstrate that Matryoshika effectively enhances the capabilities of black-box LLMs in complex, long-horizon tasks, including reasoning, planning, and personalization. By leveraging this pioneering controller-generator framework to mitigate dependence on model parameters, Matryoshika provides a transparent and practical solution for improving black-box LLMs through controllable multi-turn generation using white-box LLMs.
- Abstract(参考訳): ブラックボックス大言語モデル(LLM)の印象的な生成能力にもかかわらず、その固有の不透明さは推論、計画、パーソナライゼーションといった能力のさらなる進歩を妨げる。
既存の作業は、ドメイン固有の適応やコンテキスト内学習を通じてLLM機能を強化することを目的としており、ブラックボックスのLLMでは不可能な選択肢である、アクセス可能なモデルパラメータのさらなるトレーニングを必要としている。
この課題に対処するために,複雑なタスクを中間出力に分解することで大規模なブラックボックスLCMジェネレータを誘導する軽量なホワイトボックスLCMコントローラであるMatryoshikaを紹介した。
具体的には,ブラックボックス LLM を環境とみなし,マトリシカはブラックボックス LLM を駆動するプロンプトを通じて中間ガイダンスを提供する政策として機能する。
調整可能なマルチターン生成と自己改善を可能とし、中間ガイダンスの最適化を可能にするため、反復的相互作用の間、好みに合わせてブラックボックスLLMの出力をピボットするように訓練されている。
3つの多様なタスクに関する実証的な評価は、説明、計画、パーソナライゼーションを含む複雑な長期タスクにおけるブラックボックスLLMの能力を効果的に強化することを示している。
この先駆的なコントローラジェネレータフレームワークを活用して、モデルパラメータへの依存を軽減することで、ホワイトボックスLCMを用いた制御可能なマルチターン生成を通じてブラックボックスLSMを改善するための透過的で実用的なソリューションを提供する。
関連論文リスト
- LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - LLMs can see and hear without any training [63.964888082106974]
MILSは、お気に入りのLLMにインビューマルチモーダル機能を組み込むための、シンプルでトレーニング不要なアプローチです。
創発的なゼロショット画像,ビデオ,オーディオキャプションを新たに構築する。
勾配のない最適化アプローチであるため、MILSはテキストへのマルチモーダル埋め込みを反転させることができる。
論文 参考訳(メタデータ) (2025-01-30T02:16:35Z) - OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation [95.78870389271832]
現代のMLLMを開発するための標準的な慣行は、視覚エンコーダ(s)からLLMに特徴を供給し、自然言語を監督する訓練を行うことである。
目的とする視覚表現の集合からLLMの隠れ表現に知識を抽出する最初の手法であるOLA-VLMを提案する。
OLA-VLMは様々なベンチマークで平均マージンを2.5%向上させ,CV-BenchのDepthタスクでは8.7%向上した。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning [19.68349294206012]
マルチモーダルLLMのための学習自由適応推論法を提案する。
最小限の設計により,本手法はビデオと画像の両方に応用できる。
同様の計算コストで,本手法は長いビデオ理解において最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2024-12-04T11:47:57Z) - LLM-wrapper: Black-Box Semantic-Aware Adaptation of Vision-Language Models for Referring Expression Comprehension [45.856469849910496]
大規模言語モデル(LLM)を用いた参照表現(REC)タスクのための視覚言語モデル(VLM)の「ブラックボックス」適応法を提案する。
LLMはLLMの推論能力を活かし、軽微調整により改良され、参照表現にマッチする最も関連性の高いバウンディングボックスを選択する。
当社のアプローチでは,内部動作へのアクセスを必要とせずに,クローズドソースモデルの適応を可能にするという,いくつかの利点がある。
論文 参考訳(メタデータ) (2024-09-18T12:32:25Z) - SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs [40.74693126923826]
MLLM(Multimodal Large Language Models)は近年,知覚能力や推論能力が著しく向上している。
イメージレベルの監督を施したトレーニングアダプタは、しばしば重大なミスアライメントをもたらす。
本稿では,視覚言語による事前学習モデルを活用したトークンレベルのアライメント手法であるSupervised Embedding Alignment (SEA)を紹介する。
論文 参考訳(メタデータ) (2024-08-21T17:58:02Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - From Image to Video, what do we need in multimodal LLMs? [19.85928004619801]
MLLM(Multimodal Large Language Models)は、マルチモーダル情報を理解する上で重要な機能を示す。
画像LLMからの映像LLMのための資源効率の高い開発パイプラインRED-VILLMを提案する。
我々のアプローチは、よりコスト効率が高くスケーラブルなマルチモーダルモデルの進歩の可能性を強調します。
論文 参考訳(メタデータ) (2024-04-18T02:43:37Z) - Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage
and Sharing in LLMs [72.49064988035126]
マルチモーダル大規模言語モデル(MLLM)の強化を目的としたMKS2という手法を提案する。
具体的には、LLMの内部ブロックに組み込まれたコンポーネントであるModular Visual Memoryを導入し、オープンワールドの視覚情報を効率的に保存するように設計されている。
実験により,MKS2は物理的・常識的な知識を必要とする文脈において,LLMの推論能力を大幅に増強することが示された。
論文 参考訳(メタデータ) (2023-11-27T12:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。