論文の概要: Finding the Sweet Spot: Trading Quality, Cost, and Speed During Inference-Time LLM Reflection
- arxiv url: http://arxiv.org/abs/2510.20653v1
- Date: Thu, 23 Oct 2025 15:26:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:18.241875
- Title: Finding the Sweet Spot: Trading Quality, Cost, and Speed During Inference-Time LLM Reflection
- Title(参考訳): スウィートスポットの発見:推論時間LLM反射時の取引品質、コスト、速度
- Authors: Jack Butler, Nikita Kozodoi, Zainab Afolabi, Brian Tyacke, Gaiar Baimuratov,
- Abstract要約: 本稿では,数学的推論および翻訳作業における自己回帰と予算調整を比較した。
解析の結果,自己回帰の有効性の領域依存的な変化が明らかとなり,数学的推論では最大220%の性能が向上した。
実世界の環境での知見の検証を目的として,ZalandoによるLoungeにおける自己回帰型マーケティングコンテンツローカライゼーションシステムを構築した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) continue to evolve, practitioners face increasing options for enhancing inference-time performance without model retraining, including budget tuning and multi-step techniques like self-reflection. While these methods improve output quality, they create complex trade-offs among accuracy, cost, and latency that remain poorly understood across different domains. This paper systematically compares self-reflection and budget tuning across mathematical reasoning and translation tasks. We evaluate prominent LLMs, including Anthropic Claude, Amazon Nova, and Mistral families, along with other models under varying reflection depths and compute budgets to derive Pareto optimal performance frontiers. Our analysis reveals substantial domain dependent variation in self-reflection effectiveness, with performance gains up to 220\% in mathematical reasoning. We further investigate how reflection round depth and feedback mechanism quality influence performance across model families. To validate our findings in a real-world setting, we deploy a self-reflection enhanced marketing content localisation system at Lounge by Zalando, where it shows market-dependent effectiveness, reinforcing the importance of domain specific evaluation when deploying these techniques. Our results provide actionable guidance for selecting optimal inference strategies given specific domains and resource constraints. We open source our self-reflection implementation for reproducibility at https://github.com/aws-samples/sample-genai-reflection-for-bedrock.
- Abstract(参考訳): LLM(Large Language Models)が進化を続けるにつれて、予算調整や自己回帰のようなマルチステップのテクニックなど、モデルの再トレーニングなしに推論時のパフォーマンスを向上させる選択肢が増えている。
これらの手法は出力品質を改善するが、精度、コスト、レイテンシの複雑なトレードオフを発生させ、異なるドメイン間では理解されていない。
本稿では,数学的推論や翻訳作業における自己回帰と予算調整を体系的に比較する。
我々は、Arthropic Claude、Amazon Nova、Mistralといった著名なLCMと、様々な反射深度の下での他のモデルと、Paretoの最適性能フロンティアを導出するための計算予算を評価した。
解析の結果,自己回帰の有効性の領域依存的な変化が明らかとなり,数学的推論では最大220\%の性能が向上した。
さらに,反射円深度とフィードバック機構がモデルファミリ間の性能に与える影響について検討する。
実世界の環境での本研究の成果を検証するため,Zalando によるラウンジにおける自己回帰型マーケティングコンテンツローカライゼーションシステムを構築し,市場依存の有効性を示し,これらの技術を展開する際のドメイン固有評価の重要性を補強する。
本結果は,特定のドメインやリソース制約に対して最適な推論戦略を選択するための実用的なガイダンスを提供する。
我々は、再現性のための自己回帰実装をhttps://github.com/aws-samples/sample-genai-reflection-for-bedrockでオープンソース化しました。
関連論文リスト
- Speculative Reward Model Boosts Decision Making Ability of LLMs Cost-Effectively [13.40488551654639]
本稿では,検索戦略の費用対効果を評価するために3E基準を導入する。
本稿では,既存の検索戦略とシームレスに統合するプラグイン・アンド・プレイ・フレームワークであるSpeculative Reward Model (SRM)を提案する。
実験の結果,RMは,有効性を保ちながら,従来の検索フレームワークの1/10までコストを削減できることがわかった。
論文 参考訳(メタデータ) (2025-05-31T05:32:12Z) - Relative Overfitting and Accept-Reject Framework [5.465098504510676]
本稿では,性能向上のためにモデルをセグメント化する方法を管理するアンサンブルフレームワークを提案する。
NLPの領域におけるこのフレームワークのパターンを詳述し、コンピュータビジョン(CV)や科学のためのAIなど他の分野に簡単に説明します。
論文 参考訳(メタデータ) (2025-05-12T17:36:14Z) - Attention Pruning: Automated Fairness Repair of Language Models via Surrogate Simulated Annealing [14.114970711442512]
本稿では,大規模言語モデル (LLM) におけるアテンションヘッドに対するアテンション・プルーニング(Attention Pruning) を提案する。
我々の実験は、注意喚起によって最大40%の性別バイアスが減少し、最先端のバイアス緩和戦略よりも優れることを示した。
論文 参考訳(メタデータ) (2025-03-20T03:02:32Z) - Dynamic Rewarding with Prompt Optimization Enables Tuning-free Self-Alignment of Language Models [54.381650481255235]
我々は,Prompt Optimization (O) を用いた動的リワードによる自己アライメントのための新しいチューニング不要アプローチを提案する。
提案手法は,LLMを反復的に自己改善し,最適アライメント命令を作成可能な検索ベース最適化フレームワークを活用する。
近年の8つのLCMのオープンおよびクローズドソースに関する実証評価により,DRPOはアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-11-13T16:15:38Z) - Dual-Agent Deep Reinforcement Learning for Dynamic Pricing and Replenishment [15.273192037219077]
不整合決定周波数下での動的価格設定と補充問題について検討する。
我々は、包括的な市場データに基づいてトレーニングされた決定木に基づく機械学習アプローチを統合する。
このアプローチでは、2つのエージェントが価格と在庫を処理し、さまざまなスケールで更新される。
論文 参考訳(メタデータ) (2024-10-28T15:12:04Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。