論文の概要: DFORD: Directional Feedback based Online Ordinal Regression Learning
- arxiv url: http://arxiv.org/abs/2512.19550v1
- Date: Mon, 22 Dec 2025 16:31:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.839603
- Title: DFORD: Directional Feedback based Online Ordinal Regression Learning
- Title(参考訳): DFORD: 方向性フィードバックに基づくオンライン正規回帰学習
- Authors: Naresh Manwani, M Elamparithy, Tanish Taneja,
- Abstract要約: 指向性フィードバックを用いた順序回帰のオンラインアルゴリズムを提案する。
提案アルゴリズムは探索探索方式を用いて,方向フィードバックから効率よく学習する。
我々は,本手法を,合成および実世界のデータセットにおける順序回帰の完全な情報と弱教師付きアルゴリズムと比較した。
- 参考スコア(独自算出の注目度): 1.9116784879310027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce directional feedback in the ordinal regression setting, in which the learner receives feedback on whether the predicted label is on the left or the right side of the actual label. This is a weak supervision setting for ordinal regression compared to the full information setting, where the learner can access the labels. We propose an online algorithm for ordinal regression using directional feedback. The proposed algorithm uses an exploration-exploitation scheme to learn from directional feedback efficiently. Furthermore, we introduce its kernel-based variant to learn non-linear ordinal regression models in an online setting. We use a truncation trick to make the kernel implementation more memory efficient. The proposed algorithm maintains the ordering of the thresholds in the expected sense. Moreover, it achieves the expected regret of $\mathcal{O}(\log T)$. We compare our approach with a full information and a weakly supervised algorithm for ordinal regression on synthetic and real-world datasets. The proposed approach, which learns using directional feedback, performs comparably (sometimes better) to its full information counterpart.
- Abstract(参考訳): 本稿では,予測ラベルが実際のラベルの左側にあるか右側にあるかについて,学習者がフィードバックを受け取る順序回帰設定に指向性フィードバックを導入する。
これは、学習者がラベルにアクセス可能な完全な情報設定と比較して、順序回帰の弱い監視設定である。
指向性フィードバックを用いた順序回帰のオンラインアルゴリズムを提案する。
提案アルゴリズムは探索探索方式を用いて,方向フィードバックから効率よく学習する。
さらに、オンライン環境で非線形順序回帰モデルを学ぶためにカーネルベースの変種を導入する。
カーネル実装をより効率的にするために、トラルニケーションのトリックを使用します。
提案アルゴリズムは,期待された意味でのしきい値の順序付けを維持する。
さらに、$\mathcal{O}(\log T)$の期待された後悔を実現する。
我々は,本手法を,合成および実世界のデータセットにおける順序回帰の完全な情報と弱教師付きアルゴリズムと比較した。
指向性フィードバックを用いて学習する提案手法は,その完全な情報に対して,可視的に(時にはよい)実行可能である。
関連論文リスト
- Contrastive Learning for Semi-Supervised Deep Regression with Generalized Ordinal Rankings from Spectral Seriation [18.192043514568187]
我々は、半教師付き設定でラベルのないデータを使用できるように、コントラスト回帰法を拡張した。
提案手法は,既存の半教師付き深層回帰法を超越することができる。
論文 参考訳(メタデータ) (2025-12-10T02:45:23Z) - Best Policy Learning from Trajectory Preference Feedback [11.896067099790962]
推論ベースの強化学習(PbRL)は、より堅牢な代替手段を提供する。
本稿では, PbRLにおける最適政策識別問題について検討し, 生成モデルの学習後最適化を動機とした。
本稿では,Top-Two Thompson Smplingにヒントを得た新しいアルゴリズムであるPosterior Smpling for Preference Learning(mathsfPSPL$)を提案する。
論文 参考訳(メタデータ) (2025-01-31T03:55:10Z) - Not Everything is All You Need: Toward Low-Redundant Optimization for Large Language Model Alignment [126.34547428473968]
大規模言語モデル(LLM)は、複雑なタスクやシナリオにおいて、人間の好みに合わせるのに依然として苦労しています。
我々は、最も有用な教師付き信号を用いて、最も関連性の高いニューロンを最適化することに焦点を当てた、textbfALLOという低輝度アライメント手法を提案する。
10個のデータセットに対する実験結果から、ALLOの有効性が示された。
論文 参考訳(メタデータ) (2024-06-18T13:34:40Z) - Online Bandit Learning with Offline Preference Data for Improved RLHF [15.799929216215672]
ノイズの多い選好フィードバックを持つオフラインデータセットでウォームスタートできるオンライン学習のための後部サンプリングアルゴリズムを提案する。
生成したエキスパートの“コンピテンス”をモデル化することで、そのようなデータセットを最も効果的に利用できることを示します。
論文 参考訳(メタデータ) (2024-06-13T20:25:52Z) - Robust Capped lp-Norm Support Vector Ordinal Regression [85.84718111830752]
正規回帰は、ラベルが固有の順序を示す特殊な教師付き問題である。
卓越した順序回帰モデルとしてのベクトル順序回帰は、多くの順序回帰タスクで広く使われている。
我々は,新たなモデルであるCapped $ell_p$-Norm Support Vector Ordinal Regression (CSVOR)を導入する。
論文 参考訳(メタデータ) (2024-04-25T13:56:05Z) - Learning Large-scale Neural Fields via Context Pruned Meta-Learning [60.93679437452872]
本稿では,大規模ニューラルネットワーク学習のための最適化に基づくメタラーニング手法を提案する。
メタテスト時間における勾配再スケーリングは、非常に高品質なニューラルネットワークの学習を可能にすることを示す。
我々のフレームワークは、モデルに依存しない、直感的で、実装が容易であり、幅広い信号に対する大幅な再構成改善を示す。
論文 参考訳(メタデータ) (2023-02-01T17:32:16Z) - What learning algorithm is in-context learning? Investigations with
linear models [87.91612418166464]
本稿では,トランスフォーマーに基づくインコンテキスト学習者が標準学習アルゴリズムを暗黙的に実装する仮説について検討する。
訓練された文脈内学習者は、勾配降下、隆起回帰、および正確な最小二乗回帰によって計算された予測値と密に一致していることを示す。
文脈内学習者がこれらの予測器とアルゴリズム的特徴を共有するという予備的証拠。
論文 参考訳(メタデータ) (2022-11-28T18:59:51Z) - Deep Feedback Inverse Problem Solver [141.26041463617963]
逆問題に対する効率的で効果的で汎用的なアプローチを提案する。
我々は、フォワードプロセスが提供するフィードバック信号を活用し、反復的な更新モデルを学ぶ。
私たちのアプローチは前もってのプロセスに制限がなく、事前の知識も必要ありません。
論文 参考訳(メタデータ) (2021-01-19T16:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。