Fugu-MT 論文翻訳(概要): ReInform: Selecting paths with reinforcement learning for contextualized link prediction

論文の概要: ReInform: Selecting paths with reinforcement learning for contextualized link prediction

arxiv url: http://arxiv.org/abs/2211.10688v1
Date: Sat, 19 Nov 2022 13:04:53 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-22 17:32:50.649244
Title: ReInform: Selecting paths with reinforcement learning for contextualized link prediction
Title（参考訳）: reinform:コンテキスト化リンク予測のための強化学習による経路選択
Authors: Marina Speranskaya, Sameh Methias, Benjamin Roth
Abstract要約: 本稿では、強化学習を用いて、トランスフォーマーに基づく文脈化リンク予測モデルについて報告する。 WN18RRとFB15k-237の実験では、コンテキスト化されたリンク予測モデルがRLベースの回答探索より一貫して優れていることが示されている。
参考スコア（独自算出の注目度）: 3.454537413673216
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose to use reinforcement learning to inform transformer-based contextualized link prediction models by providing paths that are most useful for predicting the correct answer. This is in contrast to previous approaches, that either used reinforcement learning (RL) to directly search for the answer, or based their prediction on limited or randomly selected context. Our experiments on WN18RR and FB15k-237 show that contextualized link prediction models consistently outperform RL-based answer search, and that additional improvements (of up to 13.5\% MRR) can be gained by combining RL with a link prediction model.
Abstract（参考訳）: そこで本研究では,正答率の予測に最も有用なパスを提供することにより,トランスフォーマティブに基づくコンテキスト化リンク予測モデルに強化学習を適用することを提案する。従来の手法とは対照的に、強化学習(RL)を用いて回答を直接検索するか、あるいは限定的あるいはランダムに選択された文脈に基づいて予測する。 WN18RR と FB15k-237 に関する実験により、文脈化されたリンク予測モデルは、RL ベースの回答探索を一貫して上回り、リンク予測モデルと RL を組み合わせることで、最大 13.5 % MRR のさらなる改善が得られることを示した。

関連論文リスト

Reinforcement Pre-Training [78.5355979575498]
大規模言語モデルと強化学習(RL)のための新しいスケーリングパラダイムとしてReinforcement Pre-Training(RPT)を導入する。 RPTは、ドメイン固有の注釈付き回答に頼るのではなく、大量のテキストデータを汎用RLに活用するためのスケーラブルな方法を提供する。その結果、RTPは言語モデルの事前学習を促進するための効果的で有望なスケーリングパラダイムとして位置づけられた。
論文参考訳（メタデータ） (2025-06-09T17:59:53Z)
Outcome-based Reinforcement Learning to Predict the Future [1.4313866885019229]
コンパクトな(14B)推論モデルは、o1のようなフロンティアモデルの予測精度に適合または超えるように訓練可能であることを示す。ポリマーケットのトレーディングシミュレーションでは、その賭けが10%以上の投資のリターンをもたらすと見積もっている。
論文参考訳（メタデータ） (2025-05-23T14:56:07Z)
Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文参考訳（メタデータ） (2025-05-21T07:16:44Z)
LLMs Can Teach Themselves to Better Predict the Future [1.0923877073891446]
本稿では,大規模言語モデルの予測能力を高める結果駆動型微調整フレームワークを提案する。多様な推論軌跡と確率予測のペアを、多様な質問の集合に対して生成する。次に、モデルを微調整する前に、これらの推論トレースのペアを実際の結果までの距離でランク付けする。
論文参考訳（メタデータ） (2025-02-07T17:21:16Z)
Correct after Answer: Enhancing Multi-Span Question Answering with Post-Processing Method [11.794628063040108]
マルチスパン質問回答(Multi-Span Question Answering、MSQA)は、ある質問に答えるために、与えられたコンテキストから1つまたは複数の回答スパンを抽出するモデルを必要とする。本稿では,不正確な予測処理に後処理戦略を用いるAnswering-Classifying-Correcting(ACC)フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-22T08:04:32Z)
Deep Limit Model-free Prediction in Regression [0.0]
本稿では,DNN(Deep Neural Network)に基づくモデルフリーアプローチにより,一般的な回帰条件下での点予測と予測間隔を実現する。提案手法は,特に最適点予測において,他のDNN法に比べて安定かつ正確である。
論文参考訳（メタデータ） (2024-08-18T16:37:53Z)
Adaptive Prediction Ensemble: Improving Out-of-Distribution Generalization of Motion Forecasting [15.916325272109454]
本稿では,ディープラーニングとルールに基づく予測専門家を統合した新しいフレームワーク,Adaptive Prediction Ensemble (APE)を提案する。ディープラーニングモデルと並行して訓練された学習ルーティング関数は、入力シナリオに基づいて、最も信頼性の高い予測を動的に選択する。この研究は、自律運転における頑健で一般化可能な運動予測のためのハイブリッドアプローチの可能性を強調している。
論文参考訳（メタデータ） (2024-07-12T17:57:00Z)
Preference Alignment with Flow Matching [23.042382086241364]
優先フローマッチング(PFM)は、好みに基づく強化学習(PbRL)のための新しいフレームワークである事前訓練されたモデルの任意のクラスへの好みの統合を合理化する。提案手法の標準PbRL目標との整合性を支持する理論的知見を提供する。
論文参考訳（メタデータ） (2024-05-30T08:16:22Z)
Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文参考訳（メタデータ） (2024-01-30T00:17:37Z)
Enhanced Local Explainability and Trust Scores with Random Forest Proximities [0.9423257767158634]
我々は任意のランダム森林回帰モデルと分類モデルを適応重み付きK近傍モデルとして数学的に定式化できるという事実を利用する。この線形性は、トレーニングセットの観測における任意のモデル予測に対する属性を生成するRF予測の局所的な説明可能性を促進する。本稿では, モデル予測だけでなく, サンプル外性能を説明するために, SHAPと組み合わせて, この近接性に基づく説明可能性のアプローチをいかに活用できるかを示す。
論文参考訳（メタデータ） (2023-10-19T02:42:20Z)
Prediction-Oriented Bayesian Active Learning [51.426960808684655]
予測情報ゲイン(EPIG)は、パラメータではなく予測空間における情報ゲインを測定する。 EPIGは、さまざまなデータセットやモデルにわたるBALDと比較して、予測パフォーマンスが向上する。
論文参考訳（メタデータ） (2023-04-17T10:59:57Z)
Debiased Fine-Tuning for Vision-language Models by Prompt Regularization [50.41984119504716]
本稿では,Prompt Regularization(ProReg)と呼ばれる下流タスクにおける大規模視覚事前訓練モデルの微調整のための新しいパラダイムを提案する。 ProRegは、事前訓練されたモデルに微調整を正規化するよう促すことで予測を使用する。本稿では,従来の微調整,ゼロショットプロンプト,プロンプトチューニング,その他の最先端手法と比較して,ProRegの性能が一貫して高いことを示す。
論文参考訳（メタデータ） (2023-01-29T11:53:55Z)
Multi-Aspect Explainable Inductive Relation Prediction by Sentence Transformer [60.75757851637566]
本稿では,モデル学習に先立って信頼できない経路をフィルタリングし,モデル性能を高めるための関係経路カバレッジと関係経路信頼の概念を紹介する。知識グラフにおける帰納関係を予測するために,知識推論文変換器(KRST)を提案する。
論文参考訳（メタデータ） (2023-01-04T15:33:49Z)
Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文参考訳（メタデータ） (2020-02-19T18:10:20Z)
Nested-Wasserstein Self-Imitation Learning for Sequence Generation [158.19606942252284]
分布意味マッチングのためのネスト・ワッサーシュタイン距離の概念を提案する。ネストされたワッサーシュタインの自己想像学習フレームワークを開発し、歴史ある高次列を利用するようモデルに奨励する。
論文参考訳（メタデータ） (2020-01-20T02:19:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。