論文の概要: Cross-Refine: Improving Natural Language Explanation Generation by Learning in Tandem
- arxiv url: http://arxiv.org/abs/2409.07123v1
- Date: Wed, 11 Sep 2024 09:21:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 15:14:01.410693
- Title: Cross-Refine: Improving Natural Language Explanation Generation by Learning in Tandem
- Title(参考訳): クロスリファイン:タンデムにおける学習による自然言語説明生成の改善
- Authors: Qianli Wang, Tatiana Anikina, Nils Feldhus, Simon Ostermann, Sebastian Möller, Vera Schmitt,
- Abstract要約: 人間と同様に、大きな言語モデル(LLM)は、最初の試みについて最適な説明を常に生成するとは限らない。
本稿では,2つのLLMをジェネレータとして配置し,それぞれに役割モデリングを施したクロスリファインを紹介する。
ジェネレータは、最初のNLEを出力し、その後、批評家から提供されるフィードバックと提案を使って、この最初の説明を洗練する。
- 参考スコア(独自算出の注目度): 14.537146664859902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language explanations (NLEs) are vital for elucidating the reasoning behind large language model (LLM) decisions. Many techniques have been developed to generate NLEs using LLMs. However, like humans, LLMs might not always produce optimal NLEs on first attempt. Inspired by human learning processes, we introduce Cross-Refine, which employs role modeling by deploying two LLMs as generator and critic, respectively. The generator outputs a first NLE and then refines this initial explanation using feedback and suggestions provided by the critic. Cross-Refine does not require any supervised training data or additional training. We validate Cross-Refine across three NLP tasks using three state-of-the-art open-source LLMs through automatic and human evaluation. We select Self-Refine (Madaan et al., 2023) as the baseline, which only utilizes self-feedback to refine the explanations. Our findings from automatic evaluation and a user study indicate that Cross-Refine outperforms Self-Refine. Meanwhile, Cross-Refine can perform effectively with less powerful LLMs, whereas Self-Refine only yields strong results with ChatGPT. Additionally, we conduct an ablation study to assess the importance of feedback and suggestions. Both of them play an important role in refining explanations. We further evaluate Cross-Refine on a bilingual dataset in English and German.
- Abstract(参考訳): 自然言語の説明(NLEs)は、大きな言語モデル(LLM)決定の背後にある理由を解明するために不可欠である。
LLMを用いてNLEを生成するために多くの技術が開発されている。
しかし、人間と同様、LSMは最初の試みで常に最適なNLEを生成するわけではない。
人間の学習プロセスにインスパイアされたクロスリファイン(Cross-Refine)を導入し、2つのLLMをジェネレータとして配置し、それぞれを批評する。
ジェネレータは、最初のNLEを出力し、その後、批評家から提供されるフィードバックと提案を使って、この最初の説明を洗練する。
Cross-Refineは、教師付きトレーニングデータや追加トレーニングを必要としない。
我々は3つのNLPタスクにまたがってCross-Refineを検証する。
我々は自給自給自足(Madaan et al , 2023)をベースラインとして選択する。
自動評価とユーザによる調査の結果,クロスリファインの方が自己リファインを上回っていることがわかった。
一方、Cross-Refineは低消費電力のLDMで効果的に機能するが、Self-RefineはChatGPTでのみ強力な結果が得られる。
さらに,フィードバックと提案の重要性を評価するためのアブレーション調査を実施している。
両者は、説明の精査において重要な役割を担っている。
さらに英語とドイツ語のバイリンガルデータセット上でCross-Refineを評価する。
関連論文リスト
- SNAP: Unlearning Selective Knowledge in Large Language Models with Negative Instructions [37.172662930947446]
命令追従型大規模言語モデル(LLM)は、個人または著作権のある情報を故意に開示する。
SNAPは,情報を選択的に学習するための革新的なフレームワークである。
我々は,NLPベンチマークにおけるフレームワークの評価を行い,提案手法が元のLLM能力を維持していることを示す。
論文 参考訳(メタデータ) (2024-06-18T06:54:05Z) - Unlocking the Potential of Large Language Models for Explainable
Recommendations [55.29843710657637]
説明ジェネレータを最近登場した大規模言語モデル(LLM)に置き換える影響は、まだ不明である。
本研究では,シンプルで効果的な2段階説明可能なレコメンデーションフレームワークであるLLMXRecを提案する。
いくつかの重要な微調整技術を採用することで、制御可能で流動的な説明が十分に生成できる。
論文 参考訳(メタデータ) (2023-12-25T09:09:54Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - Knowing What LLMs DO NOT Know: A Simple Yet Effective Self-Detection Method [36.24876571343749]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて大きな可能性を示している。
近年の文献では、LLMは断続的に非実効応答を生成する。
本研究では,LLM が知らない質問が非現実的な結果を生成する傾向にあることを検知する新たな自己検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-27T06:22:14Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Aligning Large Language Models with Human: A Survey [53.6014921995006]
広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。
その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。
本調査では,これらのアライメント技術の概要について概観する。
論文 参考訳(メタデータ) (2023-07-24T17:44:58Z) - Self-Refine: Iterative Refinement with Self-Feedback [62.78755306241981]
Self-Refineは、反復的なフィードバックと改善を通じて、大きな言語モデル(LLM)からの初期出力を改善するアプローチである。
GPT-3.5, ChatGPT, および GPT-4) LLM を用いて, 対話応答生成から数学的推論に至るまで, 7 つのタスクにまたがる自己決定性を評価する。
我々の研究は、GPT-4のような最先端のLCMでさえ、単純でスタンドアロンなアプローチを使用してテスト時にさらに改善できることを示します。
論文 参考訳(メタデータ) (2023-03-30T18:30:01Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。