論文の概要: Online Selective Generation with Adversarial Bandit Feedback
- arxiv url: http://arxiv.org/abs/2506.14067v2
- Date: Mon, 13 Oct 2025 14:48:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 15:48:08.841224
- Title: Online Selective Generation with Adversarial Bandit Feedback
- Title(参考訳): 逆帯域フィードバックを用いたオンライン選択生成
- Authors: Minjae Lee, Yoonjae Jung, Sangdon Park,
- Abstract要約: 大規模な言語生成モデルは人間とますます相互作用するが、その偽造された反応は懸念を引き起こす。
この幻覚効果を軽減するために、選択的生成と呼ばれる解答を選択的に棄却することは、解答が不確実である場合に幻覚を効果的に制御する方法を提供する。
適応的相手の下で部分的フィードバックを伴う選択生成のためのオンライン学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 7.626140649901516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language generative models increasingly interact with humans, while their falsified responses raise concerns. To mitigate this hallucination effect, selectively abstaining from answering, called selective generation, provides an effective way for generators to control the hallucination when uncertain about their answers. However, as selective generators interact under adversarial environments and receive partial feedback from users on selected generation (e.g., thumbs up or down on the selected answer), learning methods for selective generation under such practical setups are crucial but currently missing. To address this limitation, we propose an online learning algorithm for selective generation with partial feedback under an adaptive adversary. In particular, we re-purpose an adversarial bandit algorithm to design an online selective generation method with controllable false discovery rates (FDR), which measures the rate of hallucination. The key building blocks include a novel conversion lemma from regret of any bandit algorithm to the FDR, and the exploitation of a unique structure of selective generation to reuse partial feedback, which we call feedback unlocking. We empirically evaluate the efficacy of the proposed online selective generation algorithm with partial feedback over diverse learning environments, demonstrating its ability to control the FDR, while maintaining reasonable selection efficiency, i.e., the ratio of non-abstaining answers, compared to baselines.
- Abstract(参考訳): 大規模な言語生成モデルは人間とますます相互作用するが、その偽造された反応は懸念を引き起こす。
この幻覚効果を緩和するため、選択的生成と呼ばれる解答を選択的に棄却することは、解答が不確実である場合に、生成者が幻覚を制御する効果的な方法を提供する。
しかし、選択生成装置は、敵対的環境下で相互作用し、選択された世代(例えば、選択された回答のサムアップやサムダウン)でユーザから部分的なフィードバックを受けるため、そのような実践的な設定の下で選択生成を学習する方法は不可欠であるが、現在は欠落している。
この制限に対処するため、適応的敵の下で部分フィードバックによる選択的生成のためのオンライン学習アルゴリズムを提案する。
特に,制御可能な偽発見率(FDR)を持つオンライン選択的生成手法を設計するために,逆帯域幅アルゴリズムを再設計し,幻覚率を計測する。
鍵となるビルディングブロックには、任意のバンディットアルゴリズムからFDRへの後悔からの新たな変換補題と、フィードバックアンロックと呼ばれる部分的なフィードバックを再利用するための選択生成のユニークな構造の利用が含まれている。
提案したオンライン選択生成アルゴリズムの有効性を,多様な学習環境に対する部分的フィードバックで実証的に評価し,FDRを制御する能力を示しながら,適切な選択効率,すなわち,ベースラインと比較した非持続性回答の割合を維持する。
関連論文リスト
- Active Human Feedback Collection via Neural Contextual Dueling Bandits [84.7608942821423]
本稿では,人間の嗜好フィードバックを抽出するアルゴリズムであるNeural-ADBを提案する。
優先フィードバックがBradley-Terry-Luceモデルに従うと、Neural-ADBが学習したポリシーの最悪の準最適差は、選好データセットが増加するにつれて、サブ線形速度で減少することを示す。
論文 参考訳(メタデータ) (2025-04-16T12:16:10Z) - Neural Dueling Bandits: Preference-Based Optimization with Human Feedback [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
また、理論的結果を文脈的包括的問題に拡張し、二元的フィードバックは、それ自体は非自明な貢献である。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Beyond Thumbs Up/Down: Untangling Challenges of Fine-Grained Feedback for Text-to-Image Generation [67.88747330066049]
きめ細かいフィードバックは、画像の品質と迅速な調整におけるニュアンスドの区別を捉えます。
粗いフィードバックに対する優位性を示すことは、自動ではないことを示す。
きめ細かいフィードバックを抽出し活用する上で重要な課題を特定します。
論文 参考訳(メタデータ) (2024-06-24T17:19:34Z) - Multi-Armed Bandits with Abstention [62.749500564313834]
本稿では, 新たな戦略要素である禁忌を取り入れた, 正準多重武装バンディット問題の拡張を提案する。
この強化されたフレームワークでは、エージェントは各タイムステップでアームを選択することだけでなく、観察する前に即時報酬を受け付けないオプションも備えている。
論文 参考訳(メタデータ) (2024-02-23T06:27:12Z) - Reinforcement Learning for Node Selection in Branch-and-Bound [52.2648997215667]
現在の最先端セレクタは手作りのアンサンブルを使用して、ナイーブなサブノードセレクタと、個々のノードデータに依存する学習ノードセレクタを自動的に切り替える。
孤立ノードではなく木の状態全体を考慮しながら強化学習(RL)を用いる新しいシミュレーション手法を提案する。
論文 参考訳(メタデータ) (2023-09-29T19:55:56Z) - Last Switch Dependent Bandits with Monotone Payoff Functions [8.860629791560198]
我々は、LSDバンディット計画の近似性、すなわち、最適なアーム推進戦略を演算する(NP-hard)問題を理解するための一歩を踏み出した。
特に、この問題に対する最初の効率的な定数近似アルゴリズムを設計し、自然単調性仮定の下では、その近似が最先端にほぼ一致することを示す。
われわれは,新しい高次元緩和法や仮想状態の進化を反映する技術など,このような問題に対する新たなツールと洞察を開発する。
論文 参考訳(メタデータ) (2023-06-01T04:38:32Z) - Pneg: Prompt-based Negative Response Generation for Dialogue Response
Selection Task [27.513992470527427]
検索に基づく対話システムでは、応答選択モデルがランサーとして機能し、複数の候補の中から最も適切な応答を選択する。
近年の研究では, 対向応答を負のトレーニングサンプルとして活用することは, 選択モデルの識別能力を向上させるのに有用であることが示されている。
本稿では,大規模言語モデルを利用した対向的負の応答を簡易に,かつ効率的に生成する手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T11:49:49Z) - Continuous Mean-Covariance Bandits [39.820490484375156]
本稿では,選択肢相関を考慮した連続平均共分散帯域モデルを提案する。
CMCBでは、与えられた選択肢の重みベクトルを逐次選択し、決定に従ってランダムなフィードバックを観察する学習者がいる。
最適な後悔(対数的因子を含む)を伴う新しいアルゴリズムを提案し、それらの最適性を検証するために一致した下界を提供する。
論文 参考訳(メタデータ) (2021-02-24T06:37:05Z) - A Controllable Model of Grounded Response Generation [122.7121624884747]
現在のエンドツーエンドのニューラルネットワークモデルは、応答生成プロセスにセマンティックコントロールを課す柔軟性を本質的に欠いている。
我々は制御可能な接地応答生成(CGRG)と呼ばれるフレームワークを提案する。
このフレームワークを用いることで、会話のようなRedditデータセットでトレーニングされた、新しいインダクティブアテンション機構を備えたトランスフォーマーベースのモデルが、強力な生成ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2020-05-01T21:22:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。