Fugu-MT 論文翻訳(概要): Exploring Fluent Query Reformulations with Text-to-Text Transformers and Reinforcement Learning

論文の概要: Exploring Fluent Query Reformulations with Text-to-Text Transformers and Reinforcement Learning

arxiv url: http://arxiv.org/abs/2012.10033v1
Date: Fri, 18 Dec 2020 03:16:37 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-01 18:26:52.909055
Title: Exploring Fluent Query Reformulations with Text-to-Text Transformers and Reinforcement Learning
Title（参考訳）: テキスト変換器と強化学習を用いたフルーレントクエリ再構成の探索
Authors: Jerry Zikun Chen, Shi Yu, Haoran Wang
Abstract要約: テキストからテキストへの変換器を用いた改質器の訓練により、クエリの改質を生成する方法を検討する。ポリシーベースの強化学習アルゴリズムを適用し、報酬学習をさらに促進します。当社のフレームワークはフレキシブルで,異なる下流環境から報奨信号の発信を可能にする。
参考スコア（独自算出の注目度）: 11.205077315939644
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Query reformulation aims to alter potentially noisy or ambiguous text sequences into coherent ones closer to natural language questions. In this process, it is also crucial to maintain and even enhance performance in a downstream environments like question answering when rephrased queries are given as input. We explore methods to generate these query reformulations by training reformulators using text-to-text transformers and apply policy-based reinforcement learning algorithms to further encourage reward learning. Query fluency is numerically evaluated by the same class of model fine-tuned on a human-evaluated well-formedness dataset. The reformulator leverages linguistic knowledge obtained from transfer learning and generates more well-formed reformulations than a translation-based model in qualitative and quantitative analysis. During reinforcement learning, it better retains fluency while optimizing the RL objective to acquire question answering rewards and can generalize to out-of-sample textual data in qualitative evaluations. Our RL framework is demonstrated to be flexible, allowing reward signals to be sourced from different downstream environments such as intent classification.
Abstract（参考訳）: クエリ再構成は、潜在的にノイズや曖昧なテキストシーケンスを、自然言語の質問に近い一貫性のあるものに変更することを目的としている。このプロセスでは、リプレースされたクエリを入力として与えたときの質問応答のような下流環境におけるパフォーマンスの維持と向上も重要です。そこで本研究では,テキストからテキストへのトランスフォーマーを用いた再編成者を訓練し,ポリシーに基づく強化学習アルゴリズムを適用し,報酬学習をさらに促進する手法を提案する。クエリフルーエンシは、人間の評価した良質なデータセットに基づいて微調整された同じモデルのクラスによって数値的に評価される。トランスファーラーニングから得られた言語知識を活用し、定性的および定量的分析において翻訳に基づくモデルよりも、より良く形成された再構成を生成する。強化学習中は、RLの目的を最適化して質問応答報酬を取得し、質的評価においてサンプル外テキストデータに一般化する。我々のRLフレームワークはフレキシブルであることを示し、インテント分類などの下流環境から報奨信号を発生させることができる。

関連論文リスト

Scent of Knowledge: Optimizing Search-Enhanced Reasoning with Information Foraging [7.047640531842663]
InForageは、動的情報探索プロセスとして検索強化推論を形式化する強化学習フレームワークである。我々は,複雑な実世界のWebタスクに対する反復探索と推論のトラジェクトリをキャプチャするヒューマンガイドデータセットを構築した。これらの結果は、堅牢で適応的で効率的な推論エージェントの構築におけるInForageの有効性を強調している。
論文参考訳（メタデータ） (2025-05-14T12:13:38Z)
ReLearn: Unlearning via Learning for Large Language Models [64.2802606302194]
本研究では、効果的なアンラーニングのためのデータ拡張および微調整パイプラインであるReLearnを提案する。このフレームワークでは、知識レベルの保存を測定するために、知識獲得率(KFR)と知識保持率(KRR)を導入している。実験の結果,ReLearnは高品質な出力を保ちながら,目標とするリセットを実現することができた。
論文参考訳（メタデータ） (2025-02-16T16:31:00Z)
Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文参考訳（メタデータ） (2024-11-12T13:14:09Z)
In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-04T03:39:28Z)
VERA: Validation and Enhancement for Retrieval Augmented systems [0.0]
textbfValidation and textbfEnhancement for textbfRetrieval textbfAugmented system を提案する。 VERAは、外部検索が必要なかどうかを最初にチェックし、検索したコンテキストの関連性と冗長性を評価し、非必要情報の除去のために精査する評価器-既存のLCMを使用している。
論文参考訳（メタデータ） (2024-09-18T16:10:47Z)
Analysis of Plan-based Retrieval for Grounded Text Generation [78.89478272104739]
幻覚は、言語モデルがそのパラメトリック知識の外で生成タスクが与えられるときに起こる。この制限に対処するための一般的な戦略は、言語モデルに検索メカニズムを注入することである。我々は,幻覚の頻度をさらに減少させるために,探索のガイドとして計画をどのように利用できるかを分析する。
論文参考訳（メタデータ） (2024-08-20T02:19:35Z)
QAEA-DR: A Unified Text Augmentation Framework for Dense Retrieval [12.225881591629815]
厳密な検索では、長いテキストを密度の高いベクトルに埋め込むと、情報が失われ、クエリとテキストのマッチングが不正確になる。近年の研究では,文の埋め込みモデルや検索プロセスの改善を中心に研究が進められている。本稿では,高密度検索のための新しいテキスト拡張フレームワークを導入し,生文書を高密度テキスト形式に変換する。
論文参考訳（メタデータ） (2024-07-29T17:39:08Z)
RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文参考訳（メタデータ） (2023-10-16T16:42:01Z)
Policy-Gradient Training of Language Models for Ranking [29.940468096858066]
テキスト検索は、意思決定の事実知識を言語処理パイプラインに組み込む上で重要な役割を担っている。現在の最先端テキスト検索モデルは、事前訓練された大規模言語モデル(LLM)を活用して、競争性能を達成する。我々は、LLMをPlanet-Luceランキングポリシーとしてインスタンス化することでランク付けを学ぶ新しいトレーニングアルゴリズムであるNeural PG-RANKを紹介する。
論文参考訳（メタデータ） (2023-10-06T17:55:23Z)
Factually Consistent Summarization via Reinforcement Learning with Textual Entailment Feedback [57.816210168909286]
我々は,この問題を抽象的な要約システムで解くために,テキストエンテーメントモデルの最近の進歩を活用している。我々は、事実整合性を最適化するために、レファレンスフリーのテキストエンターメント報酬を用いた強化学習を用いる。自動測定と人的評価の両結果から,提案手法は生成した要約の忠実さ,サリエンス,簡潔さを著しく向上させることが示された。
論文参考訳（メタデータ） (2023-05-31T21:04:04Z)
Reflexion: Language Agents with Verbal Reinforcement Learning [44.85337947858337]
リフレクション(Reflexion)は、ウェイトを更新するのではなく、言語フィードバックによって言語エージェントを強化する新しいフレームワークである。様々なタイプ(スカラー値または自由形式言語)とフィードバック信号のソース(外部または内部シミュレート)を組み込むのに十分な柔軟性がある。例えば、ReflexionはHumanEvalのコーディングベンチマークで91%のパス@1精度を達成した。
論文参考訳（メタデータ） (2023-03-20T18:08:50Z)
Syntax-informed Question Answering with Heterogeneous Graph Transformer [2.139714421848487]
本稿では、事前学習されたニューラルネットワークモデルを拡張し、微調整する言語インフォームド質問応答手法を提案する。本稿では,トークンと仮想トークンを接続する依存関係グラフ構造と領域グラフィック構造という形で,構文情報の追加によるアプローチについて説明する。
論文参考訳（メタデータ） (2022-04-01T07:48:03Z)
Enhancing Dialogue Generation via Multi-Level Contrastive Learning [57.005432249952406]
質問に対する応答のきめ細かい品質をモデル化するマルチレベルコントラスト学習パラダイムを提案する。 Rank-aware (RC) ネットワークはマルチレベルコントラスト最適化の目的を構築するために設計されている。本研究では,知識推論(KI)コンポーネントを構築し,学習中の参照からキーワードの知識を抽出し,そのような情報を活用して情報的単語の生成を促す。
論文参考訳（メタデータ） (2020-09-19T02:41:04Z)
A Controllable Model of Grounded Response Generation [122.7121624884747]
現在のエンドツーエンドのニューラルネットワークモデルは、応答生成プロセスにセマンティックコントロールを課す柔軟性を本質的に欠いている。我々は制御可能な接地応答生成(CGRG)と呼ばれるフレームワークを提案する。このフレームワークを用いることで、会話のようなRedditデータセットでトレーニングされた、新しいインダクティブアテンション機構を備えたトランスフォーマーベースのモデルが、強力な生成ベースラインを上回っていることを示す。
論文参考訳（メタデータ） (2020-05-01T21:22:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。