論文の概要: Evaluation of LLMs in AMR Parsing
- arxiv url: http://arxiv.org/abs/2508.05028v2
- Date: Fri, 08 Aug 2025 02:47:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 12:11:10.893293
- Title: Evaluation of LLMs in AMR Parsing
- Title(参考訳): AMR解析におけるLCMの評価
- Authors: Shu Han Ho,
- Abstract要約: AMRは意味論的フォーマリズムであり、ノードが概念を表現し、エッジが意味論的関係を表す根付き、有向、非巡回グラフとして意味をエンコードする。
本稿では,Phi 3.5,Gemma 2,LLaMA 3.2,DeepSeek R1 LLaMA Distilledの4つの異なるLLMアーキテクチャを微調整して総合評価する。
以上の結果から,デコーダのみの直進微調整により,複雑なSOTA AMRに匹敵する性能が得られることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AMR (Abstract Meaning Representation) is a semantic formalism that encodes sentence meaning as rooted, directed, acyclic graphs, where nodes represent concepts and edges denote semantic relations. Finetuning decoder only Large Language Models (LLMs) represent a promising novel straightfoward direction for AMR parsing. This paper presents a comprehensive evaluation of finetuning four distinct LLM architectures, Phi 3.5, Gemma 2, LLaMA 3.2, and DeepSeek R1 LLaMA Distilled using the LDC2020T02 Gold AMR3.0 test set. Our results have shown that straightfoward finetuning of decoder only LLMs can achieve comparable performance to complex State of the Art (SOTA) AMR parsers. Notably, LLaMA 3.2 demonstrates competitive performance against SOTA AMR parsers given a straightforward finetuning approach. We achieved SMATCH F1: 0.804 on the full LDC2020T02 test split, on par with APT + Silver (IBM) at 0.804 and approaching Graphene Smatch (MBSE) at 0.854. Across our analysis, we also observed a consistent pattern where LLaMA 3.2 leads in semantic performance while Phi 3.5 excels in structural validity.
- Abstract(参考訳): AMR (Abstract Meaning Representation) は、単語の意味を根付き、有向、非巡回グラフとしてエンコードする意味論的形式であり、ノードは概念を表し、エッジは意味的関係を表す。
ファインタニングデコーダはLarge Language Models (LLMs) のみであり、AMR解析のための新しい真正面方向を示す。
本稿では, LDC 2020T02 Gold AMR3.0 テストセットを用いて, Phi 3.5, Gemma 2, LLaMA 3.2, DeepSeek R1 LLaMA の4つの異なるアーキテクチャを微視的に評価する。
以上の結果から,デコーダのみの直列微調整により,複雑なAMRパーサに匹敵する性能が得られることが示唆された。
特に、LLaMA 3.2は、単純な微調整アプローチでSOTA AMRパーサと競合する性能を示す。
SMATCH F1: 0.804 on the full LDC2020T02 test split, on as aPT + Silver (IBM) at 0.804 and approaching Graphene Smatch (MBSE) at 0.854。
また,LLaMA 3.2はセマンティックな性能,Phi 3.5は構造的妥当性に優れる一貫したパターンも観察した。
関連論文リスト
- SAFT: Structure-Aware Fine-Tuning of LLMs for AMR-to-Text Generation [50.277959544420455]
SAFTは、事前訓練された言語モデルにグラフトポロジーを注入する構造対応の微調整手法である。
変換されたAMRの磁気ラプラシアンから方向感応的な位置エンコーディングを計算する。
SAFTはAMR 3.0に新しい最先端を設定、ベースラインを3.5BLEU改善した。
論文 参考訳(メタデータ) (2025-07-15T18:12:57Z) - LLaDA 1.5: Variance-Reduced Preference Optimization for Large Language Diffusion Models [76.8317443926908]
Masked Diffusion Models (MDM) は言語モデリングにおいて有望なパラダイムである。
この課題は、優先最適化に必要なエビデンス・ロウアー・バウンド(ELBO)に基づく推定値の高分散から生じる。
本稿では,ELBO推定器の偏差を公式に解析し,優先最適化勾配の偏差と偏差を導出するフレームワークであるVRPOを提案する。
論文 参考訳(メタデータ) (2025-05-25T16:36:20Z) - An Empirical Study on Configuring In-Context Learning Demonstrations for Unleashing MLLMs' Sentimental Perception Capability [20.760483719891887]
ゼロショットのパラダイムをインコンテキストラーニング(ICL)に拡張し、デモの設定に関する詳細な研究を行う。
具体的には、デモの検索、プレゼンテーション、配信をカバーする3つの重要な要因を調査し、最適化する。
MLLMに固有の予測バイアスも発見され、その後効果的に反作用する。
論文 参考訳(メタデータ) (2025-05-22T03:51:41Z) - Perceived Confidence Scoring for Data Annotation with Zero-Shot LLMs [2.4749083496491684]
メタモルフィックリレーショナル(MR)を活用して入力の分類におけるLLMの信頼性を評価するPCS(Perceived Confidence Scoring)を導入する。
PCSはLlama-3-8B-Instruct (4.96%)とMistral-7B-Instruct-v0.3 (10.52%)のゼロショット精度を大幅に改善し、Gemma-2-9b-itは9.39%上昇した。
論文 参考訳(メタデータ) (2025-02-11T02:25:44Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - MM-R$^3$: On (In-)Consistency of Vision-Language Models (VLMs) [26.475993408532304]
本稿では,3つのタスク(質問文の表現,画像の復元,コンテキスト推論)に基づいて,SoTA視覚言語モデルの性能を解析する。
我々の分析では、一貫性が必ずしも精度と一致していないことを示し、高い精度のモデルが必ずしも一致しているとは限らないことを示し、その逆も示している。
本稿では,命令間の不整合を最小限に抑えるために訓練されたアダプタモジュールの形式で,シンプルながら効果的な緩和戦略を提案する。
論文 参考訳(メタデータ) (2024-10-07T06:36:55Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures [57.886592207948844]
市販のベンチマークを戦略的に混合することにより,効率的な金標準評価を実現するための新しいパラダイムであるMixEvalを提案する。
提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。
論文 参考訳(メタデータ) (2024-06-03T05:47:05Z) - AMR Parsing with Instruction Fine-tuned Pre-trained Language Models [21.767812442354387]
そこで本稿では,FLAN-T5 命令を微調整した言語モデルを用いて AMR 解析を行う。
AMR2.0,AMR3.0,BioAMRなどの各種AMR解析タスクに関する実験により,FLAN-T5微調整モデルが従来の最先端モデルより優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-04-24T17:12:17Z) - Sparse Conditional Hidden Markov Model for Weakly Supervised Named
Entity Recognition [68.68300358332156]
雑音ラベリング機能を評価するために,スパース条件付き隠れマルコフモデル(Sparse-CHMM)を提案する。
Sparse-CHMMは、3段階のトレーニングパイプラインで教師なし学習によって最適化される。
5つの包括的なデータセットで平均F1スコアが3.01向上する。
論文 参考訳(メタデータ) (2022-05-27T20:47:30Z) - On Language Model Integration for RNN Transducer based Speech
Recognition [49.84285563767935]
共通RNN-Tフレームワークで構成された様々なILM補正に基づくLM積分法について検討する。
ILM補正による性能改善の2つの主な理由を復号化解釈する。
また,ハイブリッド自己回帰変換器の証明を拡張することで,正確なILMトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:30:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。