論文の概要: Anchorless Diversification for Parallel LLM Ideation
- arxiv url: http://arxiv.org/abs/2605.30150v1
- Date: Thu, 28 May 2026 16:10:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.470685
- Title: Anchorless Diversification for Parallel LLM Ideation
- Title(参考訳): 並列LLMにおけるアンカーレス多様化
- Authors: Fares Nabil Ibrahim, Nafis Saami Azad, Raiyan Abdul Baten,
- Abstract要約: LLMは、広い探索が価値のある創造的なタスクのための候補イデアプールを生成するために、ますます使われています。
候補プール多様化のための推論時間制御について検討する。
アンカーレス手法は、観測されたシードアイデアに依存する手法と競合する可能性がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs are increasingly used to generate candidate-idea pools for creative tasks where broad exploration is valuable. Parallel inference can be attractive in this setting when it broadens the pool while retaining quality and cost efficiency. We study inference-time controls for candidate-pool diversification, asking whether anchorless methods can rival methods that depend on observed seed ideas. Across three creative task families, we compare independent generation and semantic direction stratification with self-, peer-, and representative-anchor baselines, under neutral and population-referential divergent instructions. Population-referential divergence is a strong low-cost baseline, increasing semantic diversity while preserving quality proxies. Semantic direction stratification is stronger: a single planning call organizes generations across broad semantic directions, yielding the best diversity--quality--compute frontier. Anchored regeneration can be strong in final-pool diversity, but its advantage shrinks under full-pipeline token accounting. These results establish practical anchorless baselines for open-ended LLM ideation.
- Abstract(参考訳): LLMは、広い探索が価値のある創造的なタスクのための候補イデアプールを生成するために、ますます使われています。
この設定では、品質とコスト効率を維持しながらプールを広げる場合、並列推論は魅力的である。
そこで本研究では,観測された種子のアイデアに依存する手法と,アンカーレス手法が競合するかどうかを問う,候補プールの多様化のための推論時間制御について検討する。
3つの創造的タスクファミリにおいて、中立的・集団的異なる指示の下で、独立世代と意味的方向の階層化を自己、ピア、代表的アンカーベースラインと比較する。
集団参照のばらつきは強力な低コストのベースラインであり、品質プロキシを保ちながら意味的な多様性を増大させる。
セマンティックな方向の階層化はより強く、単一のプランニングコールは、幅広い意味的な方向をまたいで世代を編成し、最高の多様性、品質、計算的なフロンティアを生み出します。
アンコールド・リジェネレーションは最終プールの多様性において強いが、その優位性はフルピペリン・トークン・カウンタリング(英語版)によって減少する。
これらの結果は、オープンエンドLLMアイデアのための実用的なアンカーレスベースラインを確立する。
関連論文リスト
- PLUME: Latent Reasoning Based Universal Multimodal Embedding [52.35354073629127]
ユニバーサルマルチモーダル埋め込み(UME)は、異種入力を単一のモデルで共有検索空間にマッピングする。
最近のアプローチでは、埋め込みを抽出する前に明確なチェーン・オブ・シント(CoT)論理を生成することにより、UMEを改善している。
PLUMEは,言語化されたCoTを連続的潜伏状態の短時間の自己回帰ロールアウトに置き換えることで,UMEを進化させる潜在的推論フレームワークである。
論文 参考訳(メタデータ) (2026-04-02T14:04:53Z) - LaSER: Internalizing Explicit Reasoning into Latent Space for Dense Retrieval [74.72139580745511]
LaSERは、レトリバーの潜在空間に明示的な推論を内部化する、新しい自己蒸留フレームワークである。
提案手法は, 明示的なCoTパイプラインの推論深度と, 標準的な高密度検索器の推論効率をうまく組み合わせる。
論文 参考訳(メタデータ) (2026-03-02T04:11:18Z) - Examining and Addressing Barriers to Diversity in LLM-Generated Ideas [0.7009487789080344]
人間の独立したサンプルによって生成されるアイデアは、独立したLCMサンプルから生成されるアイデアよりも多様である傾向にある。
これらの懸念は、LLMへの広範な依存がアイデアを均質化し、社会レベルでのイノベーションを損なう恐れを提起する。
論文 参考訳(メタデータ) (2026-02-23T23:10:47Z) - LAD: Learning Advantage Distribution for Reasoning [11.179134756179998]
本稿では,学習上の利点に取って代わる分散マッチングフレームワークであるLearning Advantage Distributionsを紹介する。
LADは精度と生成多様性の両方を確実に改善する。
数学およびコード推論タスクの実験により、LADは精度と生成多様性の両方を確実に改善することが示された。
論文 参考訳(メタデータ) (2026-02-23T18:44:10Z) - DIVERGE: Diversity-Enhanced RAG for Open-Ended Information Seeking [10.970797088560323]
本稿では,新しいリフレクション誘導生成とメモリ拡張反復改善機能を備えたプラグアンドプレイエージェントRAGフレームワークを提案する。
我々は,DIVERGEが競争基準よりも優れた多様性と品質のトレードオフを達成できることを実証した。
論文 参考訳(メタデータ) (2026-01-30T19:03:11Z) - DPWriter: Reinforcement Learning with Diverse Planning Branching for Creative Writing [78.70918589095639]
強化学習(RL)に基づく大規模言語モデル(LLM)の強化は、しばしば出力の多様性を低下させる。
本稿では,半構造化長鎖(CoT)を中心に構成されたRLフレームワークを提案する。
本稿では,多様性の多様性に基づいて,計画段階での分岐を戦略的に導入する横計画分岐手法を提案する。
論文 参考訳(メタデータ) (2026-01-14T16:30:20Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Diverse Preference Learning for Capabilities and Alignment [10.209224108636194]
近年の研究では、RLHFやDPOといったアライメントアルゴリズムがLLM出力の多様性を著しく低下させることが明らかになっている。
我々は,KLペナルティにおけるエントロピー項とクロスエントロピー項を分離するソフト・プライス・ラーニングを提案する。
論文 参考訳(メタデータ) (2025-10-29T17:29:24Z) - Consistent Paths Lead to Truth: Self-Rewarding Reinforcement Learning for LLM Reasoning [87.7836502955847]
本稿では,Large Language Model (LLM)推論を強化するための,自己回帰型強化学習フレームワークを提案する。
私たちのキーとなる洞察は、正しい応答はモデルの可能性の観点から一貫した軌道パターンを示すことが多いということです。
本稿では,安定度とボラティリティを,頑健なベクトル空間集約戦略を通じて統合する,本質的な報酬機構であるCoVoを紹介する。
論文 参考訳(メタデータ) (2025-06-10T12:40:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。