Fugu-MT 論文翻訳(概要): Reranking for Natural Language Generation from Logical Forms: A Study based on Large Language Models

論文の概要: Reranking for Natural Language Generation from Logical Forms: A Study based on Large Language Models

arxiv url: http://arxiv.org/abs/2309.12294v1
Date: Thu, 21 Sep 2023 17:54:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-22 13:48:14.047919
Title: Reranking for Natural Language Generation from Logical Forms: A Study based on Large Language Models
Title（参考訳）: 論理形式からの自然言語生成のためのリランキング--大規模言語モデルに基づく研究
Authors: Levon Haroutunian, Zhuang Li, Lucian Galescu, Philip Cohen, Raj Tumuluri, Gholamreza Haffari
Abstract要約: 大規模言語モデル(LLM)は、自然言語生成において印象的な能力を示している。しかし、それらの出力品質は矛盾する可能性があり、論理形式(LF)から自然言語を生成する上での課題を提起する。
参考スコア（独自算出の注目度）: 47.08364281023261
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large language models (LLMs) have demonstrated impressive capabilities in natural language generation. However, their output quality can be inconsistent, posing challenges for generating natural language from logical forms (LFs). This task requires the generated outputs to embody the exact semantics of LFs, without missing any LF semantics or creating any hallucinations. In this work, we tackle this issue by proposing a novel generate-and-rerank approach. Our approach involves initially generating a set of candidate outputs by prompting an LLM and subsequently reranking them using a task-specific reranker model. In addition, we curate a manually collected dataset to evaluate the alignment between different ranking metrics and human judgements. The chosen ranking metrics are utilized to enhance the training and evaluation of the reranker model. By conducting extensive experiments on three diverse datasets, we demonstrate that the candidates selected by our reranker outperform those selected by baseline methods in terms of semantic consistency and fluency, as measured by three comprehensive metrics. Our findings provide strong evidence for the effectiveness of our approach in improving the quality of generated outputs.
Abstract（参考訳）: 大規模言語モデル(llm)は自然言語生成において印象的な能力を示している。しかし、それらの出力品質は一貫性がなく、論理形式(lfs)から自然言語を生成する上での課題となる。このタスクは、LFの正確な意味を具現化するために生成された出力を必要とする。本研究では,新しい生成・再生手法を提案することで,この問題に取り組む。提案手法では,まずLLMを起動し,タスク固有の再ランカモデルを用いて再ランク付けすることで,一連の候補出力を生成する。さらに,手作業で収集したデータセットを収集し,評価指標と判断結果の一致度を評価する。選択されたランキング指標を用いて、リカクタモデルのトレーニングと評価を強化する。 3つの多種多様なデータセットについて広範な実験を行い,3つの総合的なメトリクスを用いて,ベースライン法で選択した候補が,セマンティクスの一貫性とフラレンシという観点で選択された候補よりも優れていることを示す。本研究は,本手法が生成した出力の品質向上に有効であることを示す。

関連論文リスト

Waste Not, Want Not; Recycled Gumbel Noise Improves Consistency in Natural Language Generation [0.5461938536945723]
本稿では,異なるプロンプト間の応答整合性を向上させる新しい復号アルゴリズムを提案する。本手法は, セマンティックおよびスタイリスティックな整合性ベンチマークにおいて, 標準サンプリングを最大10%向上させる。
論文参考訳（メタデータ） (2025-03-02T10:08:51Z)
Efficient Response Generation Strategy Selection for Fine-Tuning Large Language Models Through Self-Aligned Perplexity [28.717420152590204]
細調整された大言語モデル(LLM)は、通常、大量の入出力ペアを生成することに依存する。近年の研究では、これらのトレーニングアウトプットの生成が微調整モデルの性能に大きく影響を与えることが示されている。本稿では,特定の目標LLMに対する適合性を推定するために,生成したデータの小さなサブセットを評価する,スケーラブルな近似手法を提案する。
論文参考訳（メタデータ） (2025-02-17T13:14:11Z)
Graph-DPEP: Decomposed Plug and Ensemble Play for Few-Shot Document Relation Extraction with Graph-of-Thoughts Reasoning [34.85741925091139]
Graph-DPEPフレームワークは、自然言語で提示された三重項の説明思想の背景にある。我々は,サブグラフに埋め込まれた推論的思考を活用することで,型リスト全体の「アンサンブルプレイ」生成を開発する。
論文参考訳（メタデータ） (2024-11-05T07:12:36Z)
Investigating a Benchmark for Training-set free Evaluation of Linguistic Capabilities in Machine Reading Comprehension [12.09297288867446]
合成課題集合上でのトレーニングセット自由設定において最適化モデルを評価するためのフレームワークについて検討する。生成手法の単純さにもかかわらず、データは自然性や語彙の多様性に関してクラウドソースのデータセットと競合する。我々は、さらに実験を行い、最先端の言語モデルに基づくMRCシステムが、挑戦セットを正しく成功させるために学習できることを示します。
論文参考訳（メタデータ） (2024-08-09T12:23:36Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文参考訳（メタデータ） (2024-02-16T13:53:26Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。 ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文参考訳（メタデータ） (2023-03-28T17:04:15Z)
Recitation-Augmented Language Models [85.30591349383849]
知識集約型NLPタスクにおいて,RECITEは強力なパラダイムであることを示す。具体的には、リサイクリングを中間ステップとして活用することにより、新しい最先端性能を実現することができることを示す。
論文参考訳（メタデータ） (2022-10-04T00:49:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。