論文の概要: Feedback Descent: Open-Ended Text Optimization via Pairwise Comparison
- arxiv url: http://arxiv.org/abs/2511.07919v1
- Date: Wed, 12 Nov 2025 01:28:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.542891
- Title: Feedback Descent: Open-Ended Text Optimization via Pairwise Comparison
- Title(参考訳): Feedback Descent: ペアワイズ比較によるオープンエンドテキスト最適化
- Authors: Yoonho Lee, Joseph Boen, Chelsea Finn,
- Abstract要約: Feedback Descentは、構造化されたテキストフィードバックを通じてテキストアーティファクト(プロンプト、コード、分子)を最適化するフレームワークである。
テキスト内学習は、構造化されたフィードバックを勾配のような方向情報に変換し、ターゲットとなる編集を可能にする。
DOCKSTRINGの分子探索ベンチマークにおいて、Feedback Descentは6つのタンパク質標的に対して260,000ドル以上の化合物を持つデータベースの99.9ドルのパーセンタイルを超える新規な薬物様分子を同定した。
- 参考スコア(独自算出の注目度): 48.89195616081196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce \textit{Feedback Descent}, a framework that optimizes text artifacts -- prompts, code, and molecules -- through structured textual feedback, rather than relying solely on scalar rewards. By preserving detailed critiques instead of compressing them to binary preferences, Feedback Descent widens the information bottleneck in preference learning, enabling directed optimization in text space rather than weight space. We show that in-context learning can transform structured feedback into gradient-like directional information, enabling targeted edits. Unlike prior approaches that collapse judgments into single bits, our evaluators pair each comparison with textual feedback, which functions as high-bandwidth supervision. The iteration loop is done purely at inference time, without modifying any model weights, and is task-agnostic. We evaluate Feedback Descent on three diverse domains and find that it outperforms state-of-the-art prompt optimization (GEPA), reinforcement learning methods (GRPO, REINVENT), and even specialized graph-based molecular optimizers. In the DOCKSTRING molecule discovery benchmark, Feedback Descent identifies novel drug-like molecules surpassing the $99.9$th percentile of a database with more than $260{,}000$ compounds across six protein targets.
- Abstract(参考訳): これは、スカラー報酬のみに頼るのではなく、構造化されたテキストフィードバックを通じて、テキストアーティファクト -- プロンプト、コード、分子 -- を最適化するフレームワークです。
2進選好に圧縮する代わりに詳細な批評を保存することで、フィードバック・ダイアンス(Feedback Descent)は優先学習における情報のボトルネックを広げ、重み空間ではなくテキスト空間での直接最適化を可能にした。
テキスト内学習は、構造化されたフィードバックを勾配のような方向情報に変換し、ターゲットとなる編集を可能にする。
判定を単一ビットに分解する従来の手法とは異なり、評価器は、高帯域幅の監視として機能するテキストフィードバックと、それぞれを比較して比較する。
イテレーションループは、モデルウェイトを変更することなく、推論時に純粋に行われ、タスクに依存しない。
我々は3つの異なる領域におけるフィードバック・ダイスンの評価を行い、最先端のプロンプト・最適化(GEPA)、強化学習法(GRPO、REINVENT)、さらには特殊なグラフベースの分子最適化器よりも優れていることを発見した。
DOCKSTRINGの分子探索ベンチマークにおいて、Feedback Descentは6つのタンパク質標的に対して260{,}000$以上の化合物を持つデータベースの99.9$th%を超える新規な薬物様分子を同定した。
関連論文リスト
- LRANet++: Low-Rank Approximation Network for Accurate and Efficient Text Spotting [118.93173826110815]
高精度検出のための低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の固有形状相関を利用して、形状表現の一貫性とコンパクト性を実現する。
我々は、LRANet++と呼ばれるエンドツーエンドテキストスポッティングフレームワークを構築するために、拡張検出モジュールを軽量な認識ブランチに統合する。
論文 参考訳(メタデータ) (2025-11-08T03:08:03Z) - Towards Bridging Review Sparsity in Recommendation with Textual Edge Graph Representation [28.893058826607735]
本稿では,意味的信号と構造的信号とを共同でモデル化することで,欠落レビューを示唆する統一的なフレームワークを提案する。
AmazonとGoodreadsデータセットの実験は、TWISTERが従来の数値、グラフベース、LLMベースラインを一貫して上回っていることを示している。
要約すると、TWISTERはより有用で、本物で、特定のレビューを生成し、構造的なシグナルを滑らかにすることで推奨を改善する。
論文 参考訳(メタデータ) (2025-08-02T00:53:40Z) - Text2Grad: Reinforcement Learning from Natural Language Feedback [32.59003667154527]
我々は、自由形式のテキストフィードバックをスパンレベルの勾配に変換する、きめ細かい強化パラダイムであるText2Gradを紹介する。
以上の結果から, 自然言語フィードバックが勾配に変換された場合, より詳細な政策最適化のための強力な信号であることが示唆された。
論文 参考訳(メタデータ) (2025-05-28T13:23:49Z) - Fast Prompt Alignment for Text-to-Image Generation [28.66112701912297]
本稿では,FPA(Fast Prompt Alignment)を提案する。
FPAは単一命令プロンプトのパラフレーズに大規模言語モデル(LLM)を使用し、その後最適化されたプロンプトで微調整やテキスト内学習を行う。
FPAは、処理時間のごく一部で競合するテキスト画像アライメントスコアを達成する。
論文 参考訳(メタデータ) (2024-12-11T18:58:41Z) - TextGrad: Automatic "Differentiation" via Text [32.94896315864364]
TextGradはテキストフィードバックをバックプロパゲートして、複合AIシステムの個々のコンポーネントを改善する。
さまざまなタスクに対してアウト・オブ・ボックスで動作し、ユーザはフレームワークのコンポーネントやプロンプトをチューニングすることなく、客観的な機能のみを提供する。
質問応答や分子最適化から放射線治療計画まで,様々な応用において,TextGradの有効性と汎用性を示す。
論文 参考訳(メタデータ) (2024-06-11T17:32:21Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Three ways to improve feature alignment for open vocabulary detection [88.65076922242184]
ゼロショットオープンボキャブラリ検出の鍵となる問題は、視覚的特徴とテキスト的特徴の整合性である。
以前のアプローチでは、特徴ピラミッドと検出ヘッドをゼロからトレーニングし、事前トレーニング中に確立された視覚テキストの特徴アライメントを壊す。
本稿では,これらの問題を緩和する3つの方法を提案する。まず,テキストの埋め込みを強化するための簡単なスキームを用いて,学習中に見られる少数のクラスへの過度な適合を防止する。
次に、特徴ピラミッドネットワークと検出ヘッドをトレーニング可能なショートカットを含むように変更する。
最後に、より大きなコーパスを活用するために、自己学習アプローチが使用される。
論文 参考訳(メタデータ) (2023-03-23T17:59:53Z) - Momentum Decoding: Open-ended Text Generation As Graph Exploration [49.812280360794894]
自動回帰言語モデル(LM)を用いたオープンエンドテキスト生成は、自然言語処理における中核的なタスクの1つである。
我々は、新しい視点から、すなわち、有向グラフ内の探索プロセスとして、オープンエンドテキスト生成を定式化する。
本稿では,新しい復号法であるtextitmomentum decodingを提案する。
論文 参考訳(メタデータ) (2022-12-05T11:16:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。