Fugu-MT 論文翻訳(概要): Time-Reversal Provides Unsupervised Feedback to LLMs

論文の概要: Time-Reversal Provides Unsupervised Feedback to LLMs

arxiv url: http://arxiv.org/abs/2412.02626v3
Date: Sun, 02 Feb 2025 22:13:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-04 15:57:53.37704
Title: Time-Reversal Provides Unsupervised Feedback to LLMs
Title（参考訳）: LLMに対する教師なしフィードバックを提供する Time-Reversal
Authors: Yerram Varun, Rahul Madhavan, Sravanti Addepalli, Arun Suggala, Karthikeyan Shanmugam, Prateek Jain,
Abstract要約: Time Reversed Language Models (TRLM) は、応答に条件付きでクエリをスコアし、生成することができる。 TRLMのスコアリングは,従来のクエリのフォワードスコアよりも優れていることを示す。
参考スコア（独自算出の注目度）: 31.575024356581846
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) are typically trained to predict in the forward direction of time. However, recent works have shown that prompting these models to look back and critique their own generations can produce useful feedback. Motivated by this, we explore the question of whether LLMs can be empowered to think (predict and score) backwards to provide unsupervised feedback that complements forward LLMs. Towards this, we introduce Time Reversed Language Models (TRLMs), which can score and generate queries when conditioned on responses, effectively functioning in the reverse direction of time. Further, to effectively infer in the response to query direction, we pre-train and fine-tune a language model (TRLM-Ba) in the reverse token order from scratch. We show empirically (and theoretically in a stylized setting) that time-reversed models can indeed complement forward model predictions when used to score the query given response for re-ranking multiple forward generations. We obtain up to 5\% improvement on the widely used AlpacaEval Leaderboard over the competent baseline of best-of-N re-ranking using self log-perplexity scores. We further show that TRLM scoring outperforms conventional forward scoring of response given query, resulting in significant gains in applications such as citation generation and passage retrieval. We next leverage the generative ability of TRLM to augment or provide unsupervised feedback to input safety filters of LLMs, demonstrating a drastic reduction in false negative rate with negligible impact on false positive rates against several attacks published on the popular JailbreakBench leaderboard.
Abstract（参考訳）: 大規模言語モデル(LLM)は通常、時間の前方方向を予測するために訓練される。しかし、最近の研究は、これらのモデルを振り返り、自分たちの世代を批判することで、有用なフィードバックが得られることを示している。そこで本研究では,LLMを後方から考える(予測とスコア)ことができるかどうかを考察し,前向きのLLMを補完する教師なしフィードバックを提供する。そこで本研究では,時間逆言語モデル (TRLM) を導入し,応答の条件付け時にクエリをスコアし,生成し,時間逆方向に効果的に機能させる手法を提案する。さらに,クエリ方向に対する応答を効果的に推測するために,スクラッチから逆トークン順序の言語モデル(TRLM-Ba)を事前学習し,微調整する。経験的(理論的にはスタイリングされた環境で)、時間反転モデルは、複数の前方世代を再ランク付けする上で、与えられた応答をスコアするために使用すると、実際に前方モデル予測を補完できることを示す。自己対数難易度スコアを用いたベスト・オブ・Nの再ランク付け能力に対して,広く使用されているAlpacaEval Leaderboardを最大5倍改善した。さらに、TRLMのスコアリングは、従来の応答クエリの前方スコアよりも優れており、引用生成や通過検索などのアプリケーションで顕著に向上することを示す。次に、TRLMの生成能力を利用して、LLMの安全性フィルタの入力に対する教師なしフィードバックを増強し、人気のあるJailbreakBenchのリーダーボードに掲載されているいくつかの攻撃に対して、偽陽性率に対する無視的な影響で、偽陰性率の劇的な低下を示す。

関連論文リスト

Reverse Engineering Human Preferences with Reinforcement Learning [14.508050809497847]
大規模言語モデル(LLM)は、人間の嗜好を予測するために訓練された他のLLMによって日常的に評価される。これまでの研究では、候補LLMが生成した回答をポストホックで編集して、審査員LLMが割り当てたスコアを最大化できることが示されている。我々は、異なるアプローチを採用し、判定LLMによって提供される信号を、逆向きにモデルをチューニングする報酬として利用する。
論文参考訳（メタデータ） (2025-05-21T17:48:16Z)
GRP: Goal-Reversed Prompting for Zero-Shot Evaluation with LLMs [14.906150451947443]
大きな言語モデル(LLMs)を使用して2つの回答を評価し比較する。目的逆プロンプティング(GRP)手法を提案し、元のタスクをより良い解から悪い解を選択するようにシフトする。
論文参考訳（メタデータ） (2025-03-08T09:44:24Z)
RefuteBench 2.0 -- Agentic Benchmark for Dynamic Evaluation of LLM Responses to Refutation Instruction [17.782410287625645]
本稿では,従来のRefuteBenchを拡張したRefuteBench 2.0について紹介する。有効期間の異なる過渡的および持続的な消火命令を設計する。 LLMをベースとしたリフューターは、より人間的なリフューティングを発生させ、評価器は、人間と高い相関関係のスコアを割り当てることができた。
論文参考訳（メタデータ） (2025-02-25T15:51:25Z)
An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文参考訳（メタデータ） (2024-11-08T12:08:17Z)
FIRST: Faster Improved Listwise Reranking with Single Token Decoding [56.727761901751194]
まず、第1生成識別子の出力ロジットを活用して、候補のランク付け順序を直接取得する新しいリストワイズLLMリグレードアプローチであるFIRSTを紹介する。実験結果から、BEIRベンチマークの利得により、FIRSTはロバストなランキング性能を維持しつつ、推論を50%高速化することが示された。以上の結果から,LLMリランカーはクロスエンコーダに比べて強い蒸留信号を提供できることが示唆された。
論文参考訳（メタデータ） (2024-06-21T21:27:50Z)
RaFe: Ranking Feedback Improves Query Rewriting for RAG [83.24385658573198]
アノテーションを使わずにクエリ書き換えモデルをトレーニングするためのフレームワークを提案する。公開されているリランカを活用することで、フィードバックはリライトの目的とよく一致します。
論文参考訳（メタデータ） (2024-05-23T11:00:19Z)
LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。 LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。 LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文参考訳（メタデータ） (2023-11-15T19:52:11Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)
Interpreting Learned Feedback Patterns in Large Language Models [11.601799960959214]
我々は、微調整言語モデルのアクティベーションにおいて暗黙的にフィードバック信号を推定するプローブを訓練する。これらの推定値を真のフィードバックと比較し、LFPの精度を微調整フィードバックと比較する。我々は、GPT-4が記述し、LFPに関連するものとして分類する特徴に対して、正のフィードバック入力と相関する神経特徴を比較して、プローブを検証する。
論文参考訳（メタデータ） (2023-10-12T09:36:03Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。