論文の概要: Output-Space Search: Targeting LLM Generations in a Frozen Encoder-Defined Output Space
- arxiv url: http://arxiv.org/abs/2601.21169v1
- Date: Thu, 29 Jan 2026 02:11:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.5128
- Title: Output-Space Search: Targeting LLM Generations in a Frozen Encoder-Defined Output Space
- Title(参考訳): 出力空間探索:冷凍エンコーダによる出力空間におけるLCM生成のターゲット
- Authors: Tobias Materzok,
- Abstract要約: 出力空間探索 (OS-Search) を導入し, LLM 生成を終端探索に変換する。
ストーリーでは、スイーピングZ(テキスト)はプロンプトチェーンよりも3.1倍高いLCMの多様性をもたらす。
コード上では、Z (code) 上のベイジアン最適化は、一致した推論予算の下でコントローラから保持された目的を改善する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Output-Space Search (OS-Search), which turns LLM generation into endpoint search. An outer loop selects a target z* in a frozen encoder-defined 3D output space Z, and a retrieval-grounded policy trained with sequence-level RL generates outputs whose coordinates land near z* under standard autoregressive decoding. This enables parallel sweeps and black-box optimization in Z without path-dependent token/program search. On stories, sweeping Z (text) yields 3.1x higher LLM-scored diversity than prompt-chaining. On code, Bayesian optimization over Z (code) improves an objective withheld from the controller under matched inference budgets while preserving validity.
- Abstract(参考訳): 出力空間探索 (OS-Search) を導入し, LLM 生成を終端探索に変換する。
外ループは、冷凍エンコーダで定義された3D出力空間Zにおけるターゲットz*を選択し、シーケンスレベルRLで訓練された検索接地ポリシーは、標準自己回帰復号の下でz*付近に座標が着地した出力を生成する。
これにより、経路依存のトークン/プログラム検索なしでZの並列スイープとブラックボックス最適化が可能になる。
ストーリーでは、スイーピングZ(テキスト)はプロンプトチェーンよりも3.1倍高いLCMの多様性をもたらす。
コード上では、Z (code) に対するベイジアン最適化は、一致した推論予算の下でコントローラから保持された目的を、妥当性を維持しながら改善する。
関連論文リスト
- Improving Diffusion Language Model Decoding through Joint Search in Generation Order and Token Space [110.80564213032729]
拡散言語モデル(DLM)は、多くの可能なデコード軌道を探索できる順序に依存しない生成を提供する。
生成順序とトークン値を共同で検索することで,この空間を探索する。
論文 参考訳(メタデータ) (2026-01-28T07:55:07Z) - Decoding in Latent Spaces for Efficient Inference in LLM-based Recommendation [75.72196852363116]
光遅延空間復号法(L2D)は効率的かつ効率的な遅延空間復号法である。
L2Dは言語空間の復号化よりも10倍以上高速で、性能の維持や向上が可能である。
論文 参考訳(メタデータ) (2025-09-15T02:30:35Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - CodeUltraFeedback: An LLM-as-a-Judge Dataset for Aligning Large Language Models to Coding Preferences [5.165576022684194]
LLM-as-a-Judge法を用いて、LLMと符号化優先のアライメントを評価する。
CodeUltraFeedbackは1万のコード命令で構成され、それぞれに14 LLMの多様なプールから生成される4つの応答が注釈付けされている。
次に、教師付き微調整(SFT)とAIフィードバックからの強化学習(RLAIF)を用いたCodeLlama-7B-Instructの微調整のためのフィードバックデータとしてのCodeUltraFeedbackの利用について検討する。
論文 参考訳(メタデータ) (2024-03-14T01:51:35Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Alpha-Refine: Boosting Tracking Performance by Precise Bounding Box
Estimation [87.53808756910452]
そこで我々は,Alpha-Refineと呼ばれる新しい,フレキシブルで高精度な改良モジュールを提案する。
正確なピクセルワイド相関層と空間認識の非局所層を利用して特徴を融合させ、バウンディングボックス、コーナー、マスクの3つの相補的な出力を予測する。
提案するAlpha-Refineモジュールは,DiMP,ATOM,SiamRPN++,RTMDNet,ECOの5つの有名かつ最先端のベーストラッカーに適用する。
論文 参考訳(メタデータ) (2020-07-04T07:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。