論文の概要: Instruction Learning Paradigms: A Dual Perspective on White-box and Black-box LLMs
- arxiv url: http://arxiv.org/abs/2506.21573v1
- Date: Sat, 14 Jun 2025 14:27:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-07 02:47:44.286631
- Title: Instruction Learning Paradigms: A Dual Perspective on White-box and Black-box LLMs
- Title(参考訳): 授業学習パラダイム:ホワイトボックスとブラックボックスの2つの視点
- Authors: Yanwei Ren, Liu Liu, Baosheng Yu, Jiayan Qiu, Quan Chen,
- Abstract要約: 両パラダイムの長所をシームレスにマージする新しいフレームワークを導入する。
私たちのアプローチは、最先端のベースラインを一貫して上回ります。
このブラックボックスの初期化と高度なセマンティックリファインメントの融合は、スケーラブルで効率的な解をもたらす。
- 参考スコア(独自算出の注目度): 29.224895952158274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimizing instructions for large language models (LLMs) is critical for harnessing their full potential in complex and diverse tasks. However, relying solely on white-box approaches demands extensive computational resources and offers limited representational capacity, while black-box models can incur prohibitive financial costs. To address these challenges, we introduce a novel framework that seamlessly merges the strengths of both paradigms. Black-box models provide high-quality, diverse instruction initializations, and white-box models supply fine-grained interpretability through hidden states and output features. By enforcing a semantic similarity constraint, these components fuse into a unified high-dimensional representation that captures deep semantic and structural nuances, enabling an iterative optimization process to refine instruction quality and adaptability. Extensive evaluations across a broad spectrum of tasks-ranging from complex reasoning to cross-lingual generalization-demonstrate that our approach consistently outperforms state-of-the-art baselines. This fusion of black-box initialization with advanced semantic refinement yields a scalable and efficient solution, paving the way for next-generation LLM-driven applications in diverse real-world scenarios. The source code will be released soon.
- Abstract(参考訳): 大規模言語モデル(LLM)の命令の最適化は、複雑で多様なタスクにおいて、その潜在能力を最大限に活用するために重要である。
しかし、ホワイトボックスのアプローチにのみ依存することは、広範な計算資源を必要とし、限られた表現能力を提供する一方、ブラックボックスモデルは違法な財政コストを発生させる可能性がある。
これらの課題に対処するために、両パラダイムの長所をシームレスにマージする新しいフレームワークを導入する。
ブラックボックスモデルは高品質で多様な命令初期化を提供し、ホワイトボックスモデルは隠された状態と出力特徴を通してきめ細かな解釈性を提供する。
意味的類似性制約を強制することにより、これらのコンポーネントは統合された高次元表現に融合し、深い意味的および構造的ニュアンスをキャプチャし、反復最適化プロセスにより命令品質と適応性を洗練できる。
複雑な推論から言語間一般化まで幅広いタスクの幅広い範囲にわたる広範囲な評価は、我々のアプローチが一貫して最先端のベースラインを上回っていることを証明している。
このブラックボックスの初期化と高度なセマンティックリファインメントの融合はスケーラブルで効率的なソリューションをもたらし、様々な現実のシナリオにおいて次世代のLLM駆動のアプリケーションに道を開く。
ソースコードはまもなくリリースされる予定だ。
関連論文リスト
- Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - Generalizing Large Language Model Usability Across Resource-Constrained [0.43512163406552007]
論文は、現実世界の制約下での大規模言語モデルを一般化するための体系的な研究である。
まず、LLMが多様なモダリティをシームレスに統合することを可能にする、堅牢なテキスト中心アライメントフレームワークを導入する。
マルチモーダル設定以外にも、この論文はLLMの推論時間最適化戦略を研究している。
論文 参考訳(メタデータ) (2025-05-13T01:00:12Z) - CAFe: Unifying Representation and Generation with Contrastive-Autoregressive Finetuning [24.981279071712173]
本稿では,LVLMを表現タスクと生成タスクの両方に拡張する,対照的に自己回帰的な微調整フレームワークであるCAFeを紹介する。
提案手法は,従来のタスクを統一し,マルチモーダル検索とマルチモーダル生成ベンチマークの両面で最先端の結果を得る。
論文 参考訳(メタデータ) (2025-03-25T17:57:17Z) - Multi-Objective Bayesian Optimization for Networked Black-Box Systems: A Path to Greener Profits and Smarter Designs [0.0]
MOBONSは、一般関数ネットワークを効率的に最適化できるベイズ最適化に着想を得た新しいアルゴリズムである。
持続可能なプロセス設計を含む2つのケーススタディを通じて,MOBONSの有効性を実証する。
論文 参考訳(メタデータ) (2025-02-19T21:49:05Z) - SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。
トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。
コードとモデルはリリースされます。
論文 参考訳(メタデータ) (2024-12-12T18:59:26Z) - Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality [69.76121008898677]
きめ細かい選択校正CLIPは局所的硬陰性損失と選択的校正正規化を統合している。
評価の結果、FSC-CLIPは、最先端モデルと同等の合成性を達成できるだけでなく、強力なマルチモーダル能力を保っていることがわかった。
論文 参考訳(メタデータ) (2024-10-07T17:16:20Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Fine-tuning Multimodal Large Language Models for Product Bundling [53.01642741096356]
Bundle-MLLMは,大規模言語モデル(LLM)をハイブリットアイテムトークン化アプローチにより微調整する新しいフレームワークである。
具体的には、テキスト、メディア、およびリレーショナルデータを統一トークン化に統合し、テキストトークンと非テキストトークンを区別するソフトな分離トークンを導入する。
1)バンドルパターンを学習し,2)製品バンドル固有のマルチモーダルセマンティック理解の強化を行う。
論文 参考訳(メタデータ) (2024-07-16T13:30:14Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。