論文の概要: Learning with Multiple Correct Answers -- A Trichotomy of Regret Bounds under Different Feedback Models
- arxiv url: http://arxiv.org/abs/2602.09402v1
- Date: Tue, 10 Feb 2026 04:17:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.375494
- Title: Learning with Multiple Correct Answers -- A Trichotomy of Regret Bounds under Different Feedback Models
- Title(参考訳): 複数正解解法による学習 -フィードバックモデルの違いによるレグレト境界の切り離し-
- Authors: Alireza F. Pour, Farnam Mansouri, Shai Ben-David,
- Abstract要約: 本稿では,複数の正解のオンライン学習問題について検討し,各インスタンスが有効なラベルのセットを付与し,各ラウンドにおいて,質問されたサンプルに対して有効なラベルを出力しなければならない。
この設定は言語生成タスクによって動機付けられ、プロンプトは多くの許容可能な完了を認めるが、すべての完了が許容されるわけではない。
我々は,この問題を3つのフィードバックモデルの下で研究し,各モデルに対して,適切な次元を用いて実現可能な設定における最適誤差を特徴付ける。
- 参考スコア(独自算出の注目度): 4.4223495687470535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study an online learning problem with multiple correct answers, where each instance admits a set of valid labels, and in each round the learner must output a valid label for the queried example. This setting is motivated by language generation tasks, in which a prompt may admit many acceptable completions, but not every completion is acceptable. We study this problem under three feedback models. For each model, we characterize the optimal mistake bound in the realizable setting using an appropriate combinatorial dimension. We then establish a trichotomy of regret bounds across the three models in the agnostic setting. Our results also imply sample complexity bounds for the batch setup that depend on the respective combinatorial dimensions.
- Abstract(参考訳): 本稿では,複数の正解のオンライン学習問題について検討し,各インスタンスが有効なラベルのセットを付与し,各ラウンドにおいて,質問されたサンプルに対して有効なラベルを出力しなければならない。
この設定は言語生成タスクによって動機付けられ、プロンプトは多くの許容可能な完了を認めるが、すべての完了が許容されるわけではない。
この問題を3つのフィードバックモデルで研究する。
各モデルに対して、適切な組合せ次元を用いて、実現可能な設定における最適誤りを特徴づける。
すると、3つのモデルにまたがる三分法を、不可知的な設定で確立する。
また,各組合せ次元に依存するバッチ設定に対する複雑性境界のサンプリングも行った。
関連論文リスト
- Partial Feedback Online Learning [88.27143767009376]
我々は、偏見フィードバックオンライン学習と呼ばれる新しい学習プロトコルについて研究する。
各インスタンスは許容できるラベルのセットを許可するが、学習者は1ラウンドごとに許容できるラベルを1つだけ観察する。
論文 参考訳(メタデータ) (2026-01-29T09:39:11Z) - Table Integration in Data Lakes Unleashed: Pairwise Integrability Judgment, Integrable Set Discovery, and Multi-Tuple Conflict Resolution [11.719923132819158]
対角的可積分性判定の課題に対処するために,二進的教師付き対角学習アルゴリズムを訓練する。
マルチタプルコンフリクト解決に対処する革新的なインコンテキスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-30T02:45:01Z) - Divide-Verify-Refine: Can LLMs Self-Align with Complex Instructions? [33.18076221854853]
複雑な命令を単一制約に分割し,適切なツールを作成するためのフレームワークを提案する。
次に、厳密なチェックとテキストガイダンスを提供するツールを使用して応答を検証する。
改良効率を最大化するために,改良レポジトリが改良を成功させる動的数発プロンプトを提案する。
論文 参考訳(メタデータ) (2024-10-16T04:01:55Z) - A General Model for Aggregating Annotations Across Simple, Complex, and
Multi-Object Annotation Tasks [51.14185612418977]
ラベルの品質を改善するための戦略は、複数のアノテータに同じ項目にラベルを付け、ラベルを集約するように求めることである。
特定のタスクに対して様々なbespokeモデルが提案されているが、様々な複雑なタスクを一般化するアグリゲーションメソッドを導入するのはこれが初めてである。
本論では,3つの新たな研究課題について検討し,今後の課題を概説する。
論文 参考訳(メタデータ) (2023-12-20T21:28:35Z) - iMatching: Imperative Correspondence Learning [5.568520539073218]
特徴対応学習のための自己指導型命令型学習(IL)を導入する。
カメラのポーズやディープラベルを使わずに、任意の未中断ビデオの対応学習を可能にする。
特徴マッチングやポーズ推定などのタスクにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-04T18:58:20Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z) - Warp Consistency for Unsupervised Learning of Dense Correspondences [116.56251250853488]
密接な対応を学習する上で重要な課題は、実画像対に対する地道整合の欠如である。
密な対応回帰のための教師なし学習目標であるWarp Consistencyを提案する。
私たちのアプローチは、MegaDepth、RobotCar、TSSなど、いくつかの挑戦的なベンチマークに新しい最先端を設定します。
論文 参考訳(メタデータ) (2021-04-07T17:58:22Z) - Complex Query Answering with Neural Link Predictors [13.872400132315988]
不完全な知識グラフ上で複雑なクエリを効率的に応答するフレームワークを提案する。
我々は、各クエリをエンドツーエンドの微分可能な目的に翻訳し、各原子の真理値が事前学習されたニューラルネットワーク予測器によって計算される。
実験では,提案手法は最先端手法よりも精度の高い結果が得られる。
論文 参考訳(メタデータ) (2020-11-06T16:20:49Z) - Generating Correct Answers for Progressive Matrices Intelligence Tests [88.78821060331582]
Ravenのプログレッシブマトリクス(Progressive Matrices)は、複数選択のインテリジェンステストである。
このテストに対処する以前の試みは、複数の選択肢の中から正しい回答を選択することに集中していました。
この作業では、代わりに、定義によって難しいタスクである選択を見ることなく、グリッドに与えられた正しい回答を生成することに焦点を合わせます。
論文 参考訳(メタデータ) (2020-11-01T13:21:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。