論文の概要: A Regret Perspective on Online Selective Generation
- arxiv url: http://arxiv.org/abs/2506.14067v1
- Date: Mon, 16 Jun 2025 23:51:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.270909
- Title: A Regret Perspective on Online Selective Generation
- Title(参考訳): オンライン選択生成のレグレット・パースペクティブ
- Authors: Minjae Lee, Yoonjae Jung, Sangdon Park,
- Abstract要約: 大規模な言語生成モデルは人間とますます相互作用するが、その偽造された反応は懸念を引き起こす。
この幻覚効果に対処するために、選択的生成と呼ばれる解答を選択的に棄却することは、幻覚を効果的に制御する方法を提供する。
部分フィードバックに基づく選択生成のためのオンライン学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 7.164307737371627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language generative models increasingly interact with humans, while their falsified responses raise concerns. To address this hallucination effect, selectively abstaining from answering, called selective generation, provides an effective way for generators to control the hallucination when it is unsure of their answers. However, as selective generators are interacting under non-stochastic environments and having partial feedback from users on selective generation (e.g., thumbs up or down on the selected answer), learning methods for selective generation under such practical setups are crucial but currently missing. To address these limitations, we propose an online learning algorithm for selective generation under partial feedback. In particular, as learning under partial feedback is well-studied by multi-armed bandit problems, we reduce selective generation to bandits and provide a novel conversion lemma from bandits back to selective generation to leverage any known bandit algorithms and theoretical properties. This mainly connects regret guarantees of bandits to false discovery rate (FDR) guarantees of selective generation for controlling hallucination. However, naively exploiting known bandit algorithms and their regret bounds suffers from slow convergence speed in practice due the nature of partial feedback. To overcome this, we exploit a unique structure of arms in selective generation for feedback unlocking, i.e., unlocking unknown feedback from observed feedback. We theoretically and empirically evaluate the efficacy of the proposed online selective generation algorithm under partial feedback over diverse data environment setups, resulting in controlling a desired FDR, while maintaining reasonable selection efficiency, i.e., the ratio of non-abstaining answers, compared to baselines.
- Abstract(参考訳): 大規模な言語生成モデルは人間とますます相互作用するが、その偽造された反応は懸念を引き起こす。
この幻覚効果に対処するため、選択的生成と呼ばれる解答を選択的に禁ずることは、解答が不確実である場合に、生成者が幻覚を制御する効果的な方法を提供する。
しかし、選択生成装置は、非確率環境下で相互作用し、ユーザが選択生成(例えば、選択された回答のサムアップまたはダウン)を部分的にフィードバックしているため、そのような実用的な設定下での選択生成の学習方法は不可欠であるが、現在は欠落している。
これらの制約に対処するために,部分的フィードバックの下で選択生成を行うオンライン学習アルゴリズムを提案する。
特に、部分的フィードバック下での学習は、多武装のバンディット問題によってよく研究されるので、我々は、バンディットへの選択的生成を減らし、ブディットから選択的生成への新しい変換補題を提供し、既知のバンディットアルゴリズムと理論的性質を利用する。
これは主に、幻覚を制御するための選択的な生成の保証である偽発見率(FDR)に、盗賊の後悔の保証を結び付ける。
しかしながら、既知のバンディットアルゴリズムとそれらの後悔すべき境界は、部分的なフィードバックの性質のため、実際は収束速度の遅いことに悩まされている。
これを解決するために、我々は、フィードバックアンロック(すなわち、観測されたフィードバックから未知のフィードバックをアンロックする)のために、選択生成における独自のアーム構造を利用する。
提案アルゴリズムの有効性を理論的・実験的に評価し,提案アルゴリズムの有効性を,データ環境の多様性に対する部分的フィードバック下で評価し,提案アルゴリズムが所望のFDRを制御できるとともに,有効選択効率,すなわち,非持続回答の割合をベースラインと比較した。
関連論文リスト
- Active Human Feedback Collection via Neural Contextual Dueling Bandits [84.7608942821423]
本稿では,人間の嗜好フィードバックを抽出するアルゴリズムであるNeural-ADBを提案する。
優先フィードバックがBradley-Terry-Luceモデルに従うと、Neural-ADBが学習したポリシーの最悪の準最適差は、選好データセットが増加するにつれて、サブ線形速度で減少することを示す。
論文 参考訳(メタデータ) (2025-04-16T12:16:10Z) - Neural Dueling Bandits: Preference-Based Optimization with Human Feedback [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
また、理論的結果を文脈的包括的問題に拡張し、二元的フィードバックは、それ自体は非自明な貢献である。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Beyond Thumbs Up/Down: Untangling Challenges of Fine-Grained Feedback for Text-to-Image Generation [67.88747330066049]
きめ細かいフィードバックは、画像の品質と迅速な調整におけるニュアンスドの区別を捉えます。
粗いフィードバックに対する優位性を示すことは、自動ではないことを示す。
きめ細かいフィードバックを抽出し活用する上で重要な課題を特定します。
論文 参考訳(メタデータ) (2024-06-24T17:19:34Z) - Multi-Armed Bandits with Abstention [62.749500564313834]
本稿では, 新たな戦略要素である禁忌を取り入れた, 正準多重武装バンディット問題の拡張を提案する。
この強化されたフレームワークでは、エージェントは各タイムステップでアームを選択することだけでなく、観察する前に即時報酬を受け付けないオプションも備えている。
論文 参考訳(メタデータ) (2024-02-23T06:27:12Z) - Last Switch Dependent Bandits with Monotone Payoff Functions [8.860629791560198]
我々は、LSDバンディット計画の近似性、すなわち、最適なアーム推進戦略を演算する(NP-hard)問題を理解するための一歩を踏み出した。
特に、この問題に対する最初の効率的な定数近似アルゴリズムを設計し、自然単調性仮定の下では、その近似が最先端にほぼ一致することを示す。
われわれは,新しい高次元緩和法や仮想状態の進化を反映する技術など,このような問題に対する新たなツールと洞察を開発する。
論文 参考訳(メタデータ) (2023-06-01T04:38:32Z) - Pneg: Prompt-based Negative Response Generation for Dialogue Response
Selection Task [27.513992470527427]
検索に基づく対話システムでは、応答選択モデルがランサーとして機能し、複数の候補の中から最も適切な応答を選択する。
近年の研究では, 対向応答を負のトレーニングサンプルとして活用することは, 選択モデルの識別能力を向上させるのに有用であることが示されている。
本稿では,大規模言語モデルを利用した対向的負の応答を簡易に,かつ効率的に生成する手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T11:49:49Z) - Continuous Mean-Covariance Bandits [39.820490484375156]
本稿では,選択肢相関を考慮した連続平均共分散帯域モデルを提案する。
CMCBでは、与えられた選択肢の重みベクトルを逐次選択し、決定に従ってランダムなフィードバックを観察する学習者がいる。
最適な後悔(対数的因子を含む)を伴う新しいアルゴリズムを提案し、それらの最適性を検証するために一致した下界を提供する。
論文 参考訳(メタデータ) (2021-02-24T06:37:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。