論文の概要: Matryoshka: Learning to Drive Black-Box LLMs with LLMs
- arxiv url: http://arxiv.org/abs/2410.20749v1
- Date: Mon, 28 Oct 2024 05:28:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:19:20.921570
- Title: Matryoshka: Learning to Drive Black-Box LLMs with LLMs
- Title(参考訳): Matryoshka: LLMでBlack-Box LLMを駆動する学習
- Authors: Changhao Li, Yuchen Zhuang, Rushi Qiang, Haotian Sun, Hanjun Dai, Chao Zhang, Bo Dai,
- Abstract要約: Matryoshikaは軽量のホワイトボックス大型言語モデルコントローラである。
複雑なタスクを一連の中間出力に分解することで、大規模なブラックボックスLCMジェネレータを誘導する。
- 参考スコア(独自算出の注目度): 31.501244808646
- License:
- Abstract: Despite the impressive generative abilities of black-box large language models (LLMs), their inherent opacity hinders further advancements in capabilities such as reasoning, planning, and personalization. Existing works aim to enhance LLM capabilities via domain-specific adaptation or in-context learning, which require additional training on accessible model parameters, an infeasible option for black-box LLMs. To address this challenge, we introduce Matryoshika, a lightweight white-box LLM controller that guides a large-scale black-box LLM generator by decomposing complex tasks into a series of intermediate outputs. Specifically, we consider the black-box LLM as an environment, with Matryoshika serving as a policy to provide intermediate guidance through prompts for driving the black-box LLM. Matryoshika is trained to pivot the outputs of the black-box LLM aligning with preferences during iterative interaction, which enables controllable multi-turn generation and self-improvement in optimizing intermediate guidance. Empirical evaluations on three diverse tasks demonstrate that Matryoshika effectively enhances the capabilities of black-box LLMs in complex, long-horizon tasks, including reasoning, planning, and personalization. By leveraging this pioneering controller-generator framework to mitigate dependence on model parameters, Matryoshika provides a transparent and practical solution for improving black-box LLMs through controllable multi-turn generation using white-box LLMs.
- Abstract(参考訳): ブラックボックス大言語モデル(LLM)の印象的な生成能力にもかかわらず、その固有の不透明さは推論、計画、パーソナライゼーションといった能力のさらなる進歩を妨げる。
既存の作業は、ドメイン固有の適応やコンテキスト内学習を通じてLLM機能を強化することを目的としており、ブラックボックスのLLMでは不可能な選択肢である、アクセス可能なモデルパラメータのさらなるトレーニングを必要としている。
この課題に対処するために,複雑なタスクを中間出力に分解することで大規模なブラックボックスLCMジェネレータを誘導する軽量なホワイトボックスLCMコントローラであるMatryoshikaを紹介した。
具体的には,ブラックボックス LLM を環境とみなし,マトリシカはブラックボックス LLM を駆動するプロンプトを通じて中間ガイダンスを提供する政策として機能する。
調整可能なマルチターン生成と自己改善を可能とし、中間ガイダンスの最適化を可能にするため、反復的相互作用の間、好みに合わせてブラックボックスLLMの出力をピボットするように訓練されている。
3つの多様なタスクに関する実証的な評価は、説明、計画、パーソナライゼーションを含む複雑な長期タスクにおけるブラックボックスLLMの能力を効果的に強化することを示している。
この先駆的なコントローラジェネレータフレームワークを活用して、モデルパラメータへの依存を軽減することで、ホワイトボックスLCMを用いた制御可能なマルチターン生成を通じてブラックボックスLSMを改善するための透過的で実用的なソリューションを提供する。
関連論文リスト
- LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - LLM-wrapper: Black-Box Semantic-Aware Adaptation of Vision-Language Models for Referring Expression Comprehension [45.856469849910496]
大規模言語モデル(LLM)を用いた参照表現(REC)タスクのための視覚言語モデル(VLM)の「ブラックボックス」適応法を提案する。
LLMはLLMの推論能力を活かし、軽微調整により改良され、参照表現にマッチする最も関連性の高いバウンディングボックスを選択する。
当社のアプローチでは,内部動作へのアクセスを必要とせずに,クローズドソースモデルの適応を可能にするという,いくつかの利点がある。
論文 参考訳(メタデータ) (2024-09-18T12:32:25Z) - SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs [40.74693126923826]
MLLM(Multimodal Large Language Models)は近年,知覚能力や推論能力が著しく向上している。
イメージレベルの監督を施したトレーニングアダプタは、しばしば重大なミスアライメントをもたらす。
本稿では,視覚言語による事前学習モデルを活用したトークンレベルのアライメント手法であるSupervised Embedding Alignment (SEA)を紹介する。
論文 参考訳(メタデータ) (2024-08-21T17:58:02Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - From Image to Video, what do we need in multimodal LLMs? [19.85928004619801]
MLLM(Multimodal Large Language Models)は、マルチモーダル情報を理解する上で重要な機能を示す。
画像LLMからの映像LLMのための資源効率の高い開発パイプラインRED-VILLMを提案する。
我々のアプローチは、よりコスト効率が高くスケーラブルなマルチモーダルモデルの進歩の可能性を強調します。
論文 参考訳(メタデータ) (2024-04-18T02:43:37Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage
and Sharing in LLMs [72.49064988035126]
マルチモーダル大規模言語モデル(MLLM)の強化を目的としたMKS2という手法を提案する。
具体的には、LLMの内部ブロックに組み込まれたコンポーネントであるModular Visual Memoryを導入し、オープンワールドの視覚情報を効率的に保存するように設計されている。
実験により,MKS2は物理的・常識的な知識を必要とする文脈において,LLMの推論能力を大幅に増強することが示された。
論文 参考訳(メタデータ) (2023-11-27T12:29:20Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。