論文の概要: In-Context Black-Box Optimization with Unreliable Feedback
- arxiv url: http://arxiv.org/abs/2605.06187v1
- Date: Thu, 07 May 2026 13:03:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.805864
- Title: In-Context Black-Box Optimization with Unreliable Feedback
- Title(参考訳): 信頼できないフィードバックを用いたインコンテキストブラックボックス最適化
- Authors: Nicolas Samuel Blumer, Julien Martinelli, Samuel Kaski,
- Abstract要約: フィードバックインフォームド・インコンテクスト・ブラックボックス最適化(FICBO)について検討する。
本稿では,フィードバックソースが真の目的に対してアクセス,関連性,歪みにどう影響するかをモデル化した構造化されたフィードバックを導入し,フィードバックトランスフォーマーの事前訓練を行う。
合成および実世界のタスクでは、FICBOは情報フィードバックを効果的に活用し、弱いまたは誤解を招くソースに頑健に留まる。
- 参考スコア(独自算出の注目度): 20.948688720498644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Black-box optimization in science and engineering often comes with side information: experts, simulators, pretrained predictors, or heuristics can suggest which candidates look promising. This information can accelerate search, but it can also be biased, input-dependent, or misleading. Feedback-aware BO methods typically handle one task at a time, limiting their ability to generalize over multiple sources of feedback. In-context optimizers address cross-task adaptation, but usually assume that optimization history is the only available signal at test time. We study feedback-informed in-context black-box optimization (FICBO), where a pretrained optimizer conditions on both the observed history and cheap auxiliary feedback for the current candidate set. We introduce a structured feedback prior that models how feedback sources vary in their access, relevance, and distortion relative to the true objective, and use it to pretrain a feedback-aware transformer. At test time, the model estimates source reliability in context by comparing observed objective values with auxiliary signals, improving query selection. On synthetic and real-world tasks, FICBO effectively exploits informative feedback while remaining robust to weak or misleading sources, improving over other baselines. Empirical investigations further illustrate how the model perceives test-time sources, offering insights into its interpretability and decision-making process.
- Abstract(参考訳): 科学と工学におけるブラックボックスの最適化には、専門家、シミュレーター、事前訓練された予測器、あるいはヒューリスティック(ヒューリスティック)といった側面情報がある。
この情報は検索を加速するが、バイアス、入力依存、誤解を招くこともある。
フィードバックを意識したBOメソッドは、通常、一度にひとつのタスクを処理し、複数のフィードバックソースをまたいで一般化する能力を制限する。
コンテキスト内オプティマイザはクロスタスク適応に対処するが、通常、最適化履歴がテスト時に唯一利用可能な信号であると仮定する。
本研究では,フィードバックインフォームド・イン・コンテクスト・ブラックボックス最適化(FICBO)について検討した。
本稿では,フィードバックソースが真の目的に対してアクセス,関連性,歪みにどう影響するかをモデル化した構造化されたフィードバックを導入し,それを用いてフィードバック対応トランスフォーマーを事前訓練する。
テスト時には、観測対象値と補助信号を比較することにより、コンテキストにおけるソース信頼性を推定し、クエリ選択を改善する。
合成および実世界のタスクでは、FICBOは情報フィードバックを効果的に活用し、弱いまたは誤解を招くソースに頑健であり、他のベースラインよりも改善する。
実験的な調査では、モデルがどのようにテスト時のソースを知覚し、解釈可能性と意思決定プロセスに関する洞察を提供する。
関連論文リスト
- RecThinker: An Agentic Framework for Tool-Augmented Reasoning in Recommendation [63.74915464611075]
RecThinkerはツール拡張推論を推奨するエージェントフレームワークである。
我々はRecThinker専用のツール群を開発し、モデルがユーザアイテム側および協調的な情報を取得することを可能にする。
論文 参考訳(メタデータ) (2026-03-10T16:07:17Z) - Doubly Debiased Test-Time Prompt Tuning for Vision-Language Models [43.35073848153914]
視覚言語モデルに対するテスト時プロンプトチューニングは、ゼロショット設定下での素晴らしい一般化機能を示している。
我々は、モデルとデータの観点から、迅速な最適化バイアスの根底にある原因を分析する。
論文 参考訳(メタデータ) (2025-11-12T09:35:31Z) - How Well Can Preference Optimization Generalize Under Noisy Feedback? [7.374590753074647]
優先最適化は、人間のフィードバックに基づいて、好ましくない応答と好ましくない応答を区別するモデルを訓練する。
既存の研究の多くはノイズのないフィードバックを前提としているが、これは人間の判断に固有の誤りや矛盾のため非現実的である。
本稿では,雑音フィードバックが優先最適化に与える影響を考察し,これらの条件下での一般化保証を提供する。
論文 参考訳(メタデータ) (2025-10-01T20:56:31Z) - What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context [56.590259941275434]
RecPOは、シーケンシャルなレコメンデーションのための優先順位最適化フレームワークである。
これは、推定された嗜好階層と時間信号に基づいて適応的な報酬マージンを利用する。
タイムリーな満足感、コヒーレントな嗜好の維持、変化する状況下での識別の行使など、人間の意思決定の重要な特徴を反映している。
論文 参考訳(メタデータ) (2025-06-02T21:09:29Z) - Explainable Recommendation with Simulated Human Feedback [8.532115411106068]
提案する提案手法は,人為的なフィードバック駆動型最適化フレームワークである。
このフレームワークは、人中心で説明可能な要求を達成するために、高い労働コストを発生させることなく、動的にインタラクティブな最適化機構を使用する。
特に,大規模言語モデル(LLM)を人間のシミュレータとして利用して,学習プロセスの指針となる人間的なフィードバックを予測することを提案する。
論文 参考訳(メタデータ) (2025-04-19T02:46:10Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Active Learning for Direct Preference Optimization [59.84525302418018]
直接選好最適化(DPO)は、人間のフィードバックからの強化学習の一種である。
オンラインのフィードバック収集や,すでに収集したフィードバックの最も情報性の高いサブセットをオフラインで選択できる,DPOのためのアクティブラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-03T00:36:31Z) - RLVF: Learning from Verbal Feedback without Overgeneralization [94.19501420241188]
本稿では,このような過度な一般化を伴わずに,言語フィードバックを取り入れることの課題について検討する。
制約付き選好最適化(C3PO)を用いた新しい文脈的批評手法を開発した。
提案手法は,他の文脈に対する既存行動を維持しながら,関連するシナリオに対して効果的な言語フィードバックを適用する。
論文 参考訳(メタデータ) (2024-02-16T18:50:24Z) - Generalized Delayed Feedback Model with Post-Click Information in
Recommender Systems [37.72697954740977]
クリック後のユーザ行動も変換率予測に有益であり,タイムラインの改善に有効であることを示す。
本稿では、クリック後の動作と初期変換の両方をクリック後の情報として統合する一般化遅延フィードバックモデル(GDFM)を提案する。
論文 参考訳(メタデータ) (2022-06-01T11:17:01Z) - Deep Feedback Inverse Problem Solver [141.26041463617963]
逆問題に対する効率的で効果的で汎用的なアプローチを提案する。
我々は、フォワードプロセスが提供するフィードバック信号を活用し、反復的な更新モデルを学ぶ。
私たちのアプローチは前もってのプロセスに制限がなく、事前の知識も必要ありません。
論文 参考訳(メタデータ) (2021-01-19T16:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。