Fugu-MT 論文翻訳(概要): Strategies for Improving NL-to-FOL Translation with LLMs: Data Generation, Incremental Fine-Tuning, and Verification

論文の概要: Strategies for Improving NL-to-FOL Translation with LLMs: Data Generation, Incremental Fine-Tuning, and Verification

arxiv url: http://arxiv.org/abs/2409.16461v1
Date: Tue, 24 Sep 2024 21:24:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-27 08:21:10.134907
Title: Strategies for Improving NL-to-FOL Translation with LLMs: Data Generation, Incremental Fine-Tuning, and Verification
Title（参考訳）: LLMによるNL-to-FOL翻訳の改善方略:データ生成,インクリメンタルファインチューニング,検証
Authors: Ramya Keerthy Thatikonda, Jiuzhou Han, Wray Buntine, Ehsan Shareghi,
Abstract要約: GPT-4o を用いて ProofWriter データセットの高品質な FOL アノテーション付きサブセットを作成する。本稿では,LLaMA-2およびMistralモデル上でProofFOLを用いたProofWriterおよびProntoQAデータセットの最先端性能を示す。
参考スコア（独自算出の注目度）: 9.36179617282876
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Logical reasoning is a fundamental task in natural language processing that presents significant challenges to Large Language Models (LLMs). The inherent characteristics of logical reasoning makes it well-suited for symbolic representations such as first-order logic (FOL). Research in symbolic logical reasoning explored FOL generation using state-of-the-art LLMs (i.e., GPT-4) to produce FOL translations of natural language (NL) statements, but errors in translation are usually not the focus. We address this by categorizing the translation errors in FOL statements generated by LLMs. To make progress towards improving the quality of FOL translations for smaller language models such as LLaMA-2 13B and Mistral 7B, we create ProofFOL, a high-quality FOL-annotated subset of ProofWriter dataset using GPT-4o. The models fine-tuned on this silver standard data achieve a significant gain in performance when compared to larger language models such as LLaMA-2 70B. In addition to improving the model using large data, we also tackle the issue of data scarcity and introduce an incremental framework encompassing of data augmentation and verification steps. In the augmentation process, a single pair of (premises, conclusion) is split into multiple new instances based on the predicates and FOLs. This data is used for fine-tuning, and the inference on this model generates FOLs with fewer errors over the model trained on the original data. Our investigation on the translation errors leads to generation of a perturbation dataset, which is used to train a verifier that corrects potential syntactic and semantic FOL translation errors. We demonstrate an efficient method for making the most of a limited existing human-annotated dataset. Our results show state-of-the-art performance for ProofWriter and ProntoQA datasets using ProofFOL on LLaMA-2 and Mistral models.
Abstract（参考訳）: 論理的推論は自然言語処理における基本的な課題であり、Large Language Models (LLM) に重大な課題をもたらす。論理的推論の本質的な特徴は、一階述語論理(FOL)のような記号的表現に適している。記号的論理的推論の研究は、自然言語(NL)文のFOL翻訳を生成するために最先端のLPM(すなわちGPT-4)を用いてFOL生成を探索したが、翻訳における誤りは通常焦点ではない。 LLMによって生成されたFOL文の翻訳誤りを分類することで、この問題に対処する。 LLaMA-2 13B や Mistral 7B などの小型言語モデルの FOL 翻訳の品質向上に向けて,我々は GPT-4o を用いた ProofWriter データセットの高品質な FOL 注釈サブセットである ProofFOL を作成する。この銀標準データに基づいて微調整されたモデルは、LLaMA-2 70Bのようなより大きな言語モデルと比較して、性能が大幅に向上する。大規模データを用いたモデルの改善に加えて,データ不足の問題にも取り組み,データ拡張と検証のステップを含むインクリメンタルなフレームワークを導入する。拡張プロセスでは、述語とFOLに基づいて、ひとつのペア(前提、結論)を複数の新しいインスタンスに分割する。このデータは微調整に使用され、このモデル上の推論は、元のデータでトレーニングされたモデルよりも少ない誤差でFOLを生成する。翻訳誤りについて検討した結果,摂動データセットが生成され,潜在的な構文的および意味的FOL翻訳誤りを補正する検証器の訓練に使用される。そこで本研究では,限定された人間注釈付きデータセットを最大限に活用するための効率的な手法を実証する。本稿では,LLaMA-2およびMistralモデル上でProofFOLを用いたProofWriterおよびProntoQAデータセットの最先端性能を示す。

関連論文リスト

Improving Symbolic Translation of Language Models for Logical Reasoning [14.474630644806723]
小さな言語モデル(LM)は、しばしば自然言語(NL)を一階述語論理(FOL)に変換するのに苦労する。既存のアプローチは通常、これらのエラーを修正するために自己イテレーションに依存するが、そのような方法は基礎となるモデルの能力に大きく依存する。本稿では,予測を述語生成とFOL翻訳の2段階に分割し,モデル動作の制御性を高めるインクリメンタル推論を提案する。
論文参考訳（メタデータ） (2026-01-14T12:47:14Z)
Improving LLMs for Machine Translation Using Synthetic Preference Data [0.0]
比較的少ないデータ資源を用いて,機械翻訳において汎用的な命令をいかに改善できるかを考察する。 Slovene大言語モデルを用いて、優先度最適化(DPO)を用いたGaMSBインストラクトモデルを改善する。我々は2つのLLM、GaMSBInstructとEuroLLM-9BInstructを使って、英語のウィキペディア記事を翻訳することでトレーニングを作成した。ベースラインモデルと比較して、微調整されたモデルは、ウィキペディアの記事の翻訳でCOMETのスコアが0.04と0.02に達した。
論文参考訳（メタデータ） (2025-08-20T14:24:16Z)
Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文参考訳（メタデータ） (2025-06-16T10:32:10Z)
Hey, That's My Data! Label-Only Dataset Inference in Large Language Models [63.35066172530291]
CatShiftはラベルのみのデータセット推論フレームワークである。 LLMは、新しいデータに晒されたとき、学習した知識を上書きする傾向にある。
論文参考訳（メタデータ） (2025-06-06T13:02:59Z)
The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [54.59207567677249]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文参考訳（メタデータ） (2025-05-23T20:28:31Z)
Small Models, Big Impact: Efficient Corpus and Graph-Based Adaptation of Small Multilingual Language Models for Low-Resource Languages [10.418542753869433]
低リソース言語(LRL)は、限られたデータのために自然言語処理(NLP)において重大な課題に直面している。現在の最先端の大規模言語モデル(LLM)は、まだLRLと競合している。 mBERTやXLM-Rのような小さなマルチリンガルモデル(mLM)は、トレーニングデータサイズに適合する能力が向上するため、より有望である。
論文参考訳（メタデータ） (2025-02-14T13:10:39Z)
Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文参考訳（メタデータ） (2025-01-31T12:23:28Z)
FactCG: Enhancing Fact Checkers with Graph-Based Multi-Hop Data [13.108807408880645]
本稿では,文書から抽出したコンテキストグラフのマルチホップ推論を利用した合成データ生成手法であるCG2Cを提案する。我々のファクトチェッカーモデルであるFactCGは、同じバックボーンモデルを用いて、より接続された推論によるパフォーマンスの向上を示す。
論文参考訳（メタデータ） (2025-01-28T18:45:07Z)
Evaluating Language Models as Synthetic Data Generators [74.80905172696366]
AgoraBenchは、LMのデータ生成能力を評価するための標準化された設定とメトリクスを提供するベンチマークである。 6つのLMを使って126万のトレーニングインスタンスを合成し、99の学生モデルをトレーニングすることで、LMのデータ生成能力に関する重要な洞察を明らかにする。
論文参考訳（メタデータ） (2024-12-04T19:20:32Z)
Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文参考訳（メタデータ） (2024-10-01T04:20:14Z)
Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。 Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文参考訳（メタデータ） (2024-07-04T15:14:17Z)
Learning to Reduce: Towards Improving Performance of Large Language Models on Structured Data [39.29778853025738]
大規模言語モデル(LLM)は、幅広い下流タスクにおいて有能なパフォーマンスを実現している。本稿では、オン・ポリシー・ラーニングを用いて言語モデルを微調整し、入力された構造化データの縮小版を生成するフレームワークであるLearning to Reduceを提案する。
論文参考訳（メタデータ） (2024-07-03T01:51:50Z)
CLAIM Your Data: Enhancing Imputation Accuracy with Contextual Large Language Models [0.18416014644193068]
本稿では,精度インプット法(CLAIM)の文脈言語モデルを提案する。従来の計算法とは異なり、CLAIMは文脈に関連のある自然言語記述子を使用して、欠落した値を埋める。多様なデータセットや欠落パターンに対する評価は,既存の計算手法よりもCLAIMの方が優れた性能を示している。
論文参考訳（メタデータ） (2024-05-28T00:08:29Z)
Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文参考訳（メタデータ） (2024-03-21T13:47:40Z)
Harnessing Large Language Models as Post-hoc Correctors [6.288056740658763]
任意の機械学習モデルの予測に対する修正を提案するために,LLMがポストホックな修正器として機能することを示す。我々は、データセットのラベル情報と、検証データセット上のMLモデルの予測を組み込むことで、文脈知識データベースを構築する。テキスト解析と分子予測に関する実験結果から, モデルの性能が最大39%向上することが示唆された。
論文参考訳（メタデータ） (2024-02-20T22:50:41Z)
Code Needs Comments: Enhancing Code LLMs with Comment Augmentation [91.52444946362547]
本稿では、既存のコードに対するコメントを生成する新しいデータ拡張手法と、自然言語と相関の低いコードデータをフィルタリングするデータフィルタリング戦略を導入する。我々は3つのコード中心の大規模言語モデルの実験を行い、2つの広く使われているプログラミングスキルベンチマークで一貫した性能向上を観察した。
論文参考訳（メタデータ） (2024-02-20T13:56:38Z)
Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning [54.682106515794864]
オフライン強化学習(RL)は、事前コンパイルされたデータセットを使用して、ほぼ最適ポリシーを見つけることを目的としている。本稿では、オフラインRLに事前学習言語モデル(LM)を使用するための決定変換器に基づく一般的なフレームワークである、$textbfMo$tion Control用の$textbfLanguage Models(textbfLaMo$)を紹介する。経験的な結果から、$textbfLaMo$はスパース・リワードタスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-10-31T16:24:17Z)
Interpretable Medical Diagnostics with Structured Data Extraction by Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-08T09:12:28Z)
Mixture of Soft Prompts for Controllable Data Generation [21.84489422361048]
直接予測ではなく,データ拡張のためのツールとして,ソフトプロンプトの混合(MSP)を提案する。提案手法は, 強いベースラインと比較した場合の3つのベンチマークに対して, 最先端の結果を得る。
論文参考訳（メタデータ） (2023-03-02T21:13:56Z)
Examining Scaling and Transfer of Language Model Architectures for Machine Translation [51.69212730675345]
言語モデル(LM)は単一のレイヤのスタックで処理し、エンコーダ・デコーダモデル(EncDec)は入力と出力の処理に別々のレイヤスタックを使用する。機械翻訳において、EncDecは長年好まれてきたアプローチであるが、LMの性能についての研究はほとんどない。
論文参考訳（メタデータ） (2022-02-01T16:20:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。