Fugu-MT 論文翻訳(概要): A General Neural Causal Model for Interactive Recommendation

論文の概要: A General Neural Causal Model for Interactive Recommendation

arxiv url: http://arxiv.org/abs/2310.19519v1
Date: Mon, 30 Oct 2023 13:21:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-01 20:22:06.106076
Title: A General Neural Causal Model for Interactive Recommendation
Title（参考訳）: 対話型レコメンデーションのための一般神経因果モデル
Authors: Jialin Liu, Xinyan Su, Peng Zhou, Xiangyu Zhao, Jun Li
Abstract要約: 観測データの生存バイアスは、リコメンダシステムの最適化を局所最適に導く。本稿では,反ファクト推論を実現するためのニューラル因果モデルを提案する。
参考スコア（独自算出の注目度）: 24.98550634633534
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Survivor bias in observational data leads the optimization of recommender systems towards local optima. Currently most solutions re-mines existing human-system collaboration patterns to maximize longer-term satisfaction by reinforcement learning. However, from the causal perspective, mitigating survivor effects requires answering a counterfactual problem, which is generally unidentifiable and inestimable. In this work, we propose a neural causal model to achieve counterfactual inference. Specifically, we first build a learnable structural causal model based on its available graphical representations which qualitatively characterizes the preference transitions. Mitigation of the survivor bias is achieved though counterfactual consistency. To identify the consistency, we use the Gumbel-max function as structural constrains. To estimate the consistency, we apply reinforcement optimizations, and use Gumbel-Softmax as a trade-off to get a differentiable function. Both theoretical and empirical studies demonstrate the effectiveness of our solution.
Abstract（参考訳）: 観測データの生存バイアスは、リコメンダシステムの最適化を局所最適に導く。現在、ほとんどのソリューションは、強化学習による長期的な満足度を最大化するために、既存のヒューマンシステムコラボレーションパターンを再設計している。しかし、因果的観点から見れば、生き残り効果を緩和するには反事実的問題に答える必要がある。本研究では,偽推論を実現するための神経因果モデルを提案する。具体的には,学習可能な構造的因果モデルを構築し,選択遷移を定性的に特徴付ける。生存バイアスの軽減は、反事実的一貫性によって達成される。一貫性を特定するために、gumbel-max関数を構造制約として使用する。一貫性を推定するために、強化最適化を適用し、Gumbel-Softmax をトレードオフとして使い、微分可能な関数を得る。理論的および実証的な研究は、我々の解の有効性を実証する。

関連論文リスト

Is Softmax Loss All You Need? A Principled Analysis of Softmax-family Loss [91.61796429377041]
ソフトマックスの損失は、分類とランキングのタスクにおいて最も広く使用されるサロゲートの目標の1つである。本研究では,異なるサロゲートが分類とランキングの指標との整合性を達成するかどうかを考察し,それらの勾配ダイナミクスを分析して,異なる収束挙動を明らかにする。本研究は,大規模機械学習アプリケーションにおける損失選択の実践的ガイダンスとして,原則的基礎を確立した。
論文参考訳（メタデータ） (2026-01-30T09:24:52Z)
Uncertainty Quantification for Large Language Model Reward Learning under Heterogeneous Human Feedback [8.538830579425147]
大規模言語(LLM)の整合に使用される推定モデルと統計的報酬モデルについて検討する。 LLMアライメントの重要な構成要素は、人間のフィードバックからの強化学習である。
論文参考訳（メタデータ） (2025-12-02T20:22:25Z)
Preference Learning for AI Alignment: a Causal Perspective [55.2480439325792]
私たちはこの問題を因果パラダイムに枠組み化し、永続的な課題を特定するための因果関係の豊富なツールボックスを提供します。因果推論の文献を継承し、信頼性の高い一般化に必要な重要な仮定を特定する。そこで本研究では, 因果関係に基づくアプローチがモデルロバスト性をいかに改善するかを, ナイーブ報酬モデルの障害モードを例示する。
論文参考訳（メタデータ） (2025-06-06T10:45:42Z)
Preference Learning with Response Time [18.659347526840822]
応答時間情報をバイナリ選択データとともに組み込む新しい手法を提案する。我々は、報酬モデル学習のためのオラクル収束率を達成するニーマン直交損失関数を開発する。我々の実験は、画像よりも好み学習の文脈における理論的知見を検証した。
論文参考訳（メタデータ） (2025-05-28T19:55:54Z)
Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文参考訳（メタデータ） (2024-09-26T12:37:26Z)
Inverse decision-making using neural amortized Bayesian actors [19.128377007314317]
我々は、教師なしの方法で幅広いパラメータ設定で訓練されたニューラルネットワークを用いてベイズアクターを記憶する。本稿では,本手法がモデル比較の原理と,先行とコストの識別不能につながる要因を解消するためにどのように使用できるかを示す。
論文参考訳（メタデータ） (2024-09-04T10:31:35Z)
Asymptotically Optimal Regret for Black-Box Predict-then-Optimize [7.412445894287709]
我々は,特別な構造を欠いた新たなブラックボックス予測最適化問題と,その行動から得られる報酬のみを観察する方法について検討した。本稿では,経験的ソフトレグレット(ESR, Empirical Soft Regret)と呼ばれる新しい損失関数を提案する。また、私たちのアプローチは、ニュースレコメンデーションやパーソナライズされた医療における現実の意思決定問題において、最先端のアルゴリズムよりも大幅に優れています。
論文参考訳（メタデータ） (2024-06-12T04:46:23Z)
C-XGBoost: A tree boosting model for causal effect estimation [8.246161706153805]
因果効果推定は、平均処理効果と、治療の条件平均処理効果を、利用可能なデータから得られる結果に推定することを目的としている。本稿では,C-XGBoost という新たな因果推論モデルを提案する。
論文参考訳（メタデータ） (2024-03-31T17:43:37Z)
Confronting Reward Overoptimization for Diffusion Models: A Perspective of Inductive and Primacy Biases [76.9127853906115]
拡散モデルと人間の嗜好のギャップを埋めることが、実用的生成への統合に不可欠である。本稿では,拡散モデルの時間的帰納バイアスを利用したポリシー勾配アルゴリズムTDPO-Rを提案する。実験の結果,報酬過小評価を緩和する手法が有効であることが示された。
論文参考訳（メタデータ） (2024-02-13T15:55:41Z)
Multi-modal Causal Structure Learning and Root Cause Analysis [67.67578590390907]
根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。また、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンスインジケータ対応アテンション機構も導入する。
論文参考訳（メタデータ） (2024-02-04T05:50:38Z)
Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文参考訳（メタデータ） (2023-10-17T08:04:45Z)
Towards Causal Deep Learning for Vulnerability Detection [31.59558109518435]
ソフトウェア工学モデルに計算に基づく因果学習を導入する。以上の結果から,CausalVulはモデル精度,ロバスト性,OOD性能を一貫して改善した。
論文参考訳（メタデータ） (2023-10-12T00:51:06Z)
Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文参考訳（メタデータ） (2023-06-09T08:30:51Z)
Active Learning for Optimal Intervention Design in Causal Models [11.294389953686945]
本研究は、最適介入を特定するための因果的アクティブラーニング戦略を開発し、分布のインターベンショナル平均と所望の目標平均との相違によって測定した。本研究では、Perturb-CITE-seq実験から得られた合成データと単細胞転写データの両方にアプローチを適用し、特定の細胞状態遷移を誘導する最適な摂動を同定する。
論文参考訳（メタデータ） (2022-09-10T20:40:30Z)
General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。 GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文参考訳（メタデータ） (2021-12-20T14:47:32Z)
A Twin Neural Model for Uplift [59.38563723706796]
Upliftは条件付き治療効果モデリングの特定のケースです。相対リスクのベイズ解釈との関連性を利用して定義した新たな損失関数を提案する。本提案手法は,シミュレーション設定の最先端と大規模ランダム化実験による実データとの競合性を示す。
論文参考訳（メタデータ） (2021-05-11T16:02:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。