Fugu-MT 論文翻訳(概要): Will LLMs Replace the Encoder-Only Models in Temporal Relation Classification?

論文の概要: Will LLMs Replace the Encoder-Only Models in Temporal Relation Classification?

arxiv url: http://arxiv.org/abs/2410.10476v2
Date: Thu, 31 Oct 2024 14:15:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 17:09:37.114999
Title: Will LLMs Replace the Encoder-Only Models in Temporal Relation Classification?
Title（参考訳）: LLMはテンポラルリレーショナル分類においてエンコーダのみのモデルを置き換えるか?
Authors: Gabriel Roccabruna, Massimo Rizzoli, Giuseppe Riccardi,
Abstract要約: 大規模言語モデル(LLM)は、最近、時間的推論タスクで有望なパフォーマンスを示した。最近の研究は、閉ソースモデルのみの時間的関係を検出するためにLLMの性能を検証している。
参考スコア（独自算出の注目度）: 2.1861408994125253
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The automatic detection of temporal relations among events has been mainly investigated with encoder-only models such as RoBERTa. Large Language Models (LLM) have recently shown promising performance in temporal reasoning tasks such as temporal question answering. Nevertheless, recent studies have tested the LLMs' performance in detecting temporal relations of closed-source models only, limiting the interpretability of those results. In this work, we investigate LLMs' performance and decision process in the Temporal Relation Classification task. First, we assess the performance of seven open and closed-sourced LLMs experimenting with in-context learning and lightweight fine-tuning approaches. Results show that LLMs with in-context learning significantly underperform smaller encoder-only models based on RoBERTa. Then, we delve into the possible reasons for this gap by applying explainable methods. The outcome suggests a limitation of LLMs in this task due to their autoregressive nature, which causes them to focus only on the last part of the sequence. Additionally, we evaluate the word embeddings of these two models to better understand their pre-training differences. The code and the fine-tuned models can be found respectively on GitHub.
Abstract（参考訳）: イベント間の時間関係の自動検出は,RoBERTaのようなエンコーダのみのモデルで主に研究されている。大規模言語モデル(LLM)は、最近、時間的質問応答のような時間的推論タスクにおいて、有望なパフォーマンスを示している。しかし、近年の研究では、閉ソースモデルの時間的関係のみを検出し、それらの解釈可能性を制限するためにLLMの性能を検証している。本研究では,時間関係分類タスクにおけるLLMの性能と決定過程について検討する。まず,コンテクスト内学習と軽量微調整手法を用いて,オープンでクローズドな7つのLLMの性能評価を行った。結果,テキスト内学習を用いたLLMは,RoBERTaに基づくエンコーダのみのモデルでは著しく性能が劣ることがわかった。そして、説明可能な方法を適用することによって、このギャップの考えられる理由を掘り下げる。この結果は、自己回帰的な性質のため、このタスクにおけるLSMの制限が示され、配列の最後の部分にのみ焦点をあてることになる。さらに、これらの2つのモデルの単語埋め込みを評価し、事前学習の違いをよりよく理解する。コードと微調整されたモデルはそれぞれGitHubにある。

関連論文リスト

END: Early Noise Dropping for Efficient and Effective Context Denoising [60.24648712022382]
大規模言語モデル(LLM)は、幅広い自然言語処理タスクにおいて顕著な性能を示している。彼らはしばしば、出力品質を低下させる入力シーケンスにおける無関係またはノイズの文脈に気を散らされる。我々は,LLMの微調整を必要とせず,この問題を緩和するための新しい手法であるEarly Noise Dropping (textscEND)を紹介した。
論文参考訳（メタデータ） (2025-02-26T08:07:17Z)
Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究 LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文参考訳（メタデータ） (2025-02-17T18:59:02Z)
Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文参考訳（メタデータ） (2025-02-03T17:13:03Z)
Aggregation Artifacts in Subjective Tasks Collapse Large Language Models' Posteriors [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理の主要な手法となっている。本研究は,低アグリゲーション,異質なアノテーションを組み合わせたアグリゲーションの結果が,プロンプトに有害なノイズを生じさせるアノテーションのアーティファクトに繋がるかどうかを考察する。この結果から,アグリゲーションは主観的タスクのモデル化において不明瞭な要因であり,代わりに個人をモデリングすることを重視することが示唆された。
論文参考訳（メタデータ） (2024-10-17T17:16:00Z)
LLM with Relation Classifier for Document-Level Relation Extraction [25.587850398830252]
大規模言語モデル(LLM)は、自然言語処理のための新しいパラダイムを作成する。本稿では,この性能ギャップの原因を考察し,関係のないエンティティペアによるLCMによる注意の分散を主要因とする。 DocREベンチマーク実験により,本手法は最近のLCMベースのDocREモデルよりも大幅に優れており,従来のDocREモデルと競合する性能を実現していることが明らかとなった。
論文参考訳（メタデータ） (2024-08-25T16:43:19Z)
Are LLMs Good Annotators for Discourse-level Event Relation Extraction? [15.365993658296016]
談話レベルの事象関係抽出タスクにおけるLarge Language Models (LLMs) の有効性を評価する。商用モデル GPT-3.5 とオープンソースモデル LLaMA-2 を用いて評価を行った。
論文参考訳（メタデータ） (2024-07-28T19:27:06Z)
A Comprehensive Evaluation of Large Language Models on Temporal Event Forecasting [45.0261082985087]
時間的事象予測のための大規模言語モデル(LLM)を総合的に評価する。 LLMの入力に生テキストを直接統合しても、ゼロショット補間性能は向上しないことがわかった。対照的に、特定の複雑なイベントや微調整LDMに生テキストを組み込むことで、性能が大幅に向上する。
論文参考訳（メタデータ） (2024-07-16T11:58:54Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Are You Sure? Challenging LLMs Leads to Performance Drops in The FlipFlop Experiment [82.60594940370919]
大規模言語モデル(LLM)のマルチターン動作を研究するためのFlipFlop実験を提案する。モデルが平均46%の時間で回答を反転させ、全てのモデルが最初の予測と最終予測の間に精度を低下させ、平均17%の低下(FlipFlop効果)を示す。我々はオープンソースのLLMで微調整実験を行い、合成されたデータに対する微調整は、性能劣化を60%低減させることができるが、サイコファンティックな振る舞いを完全には解決できないことを発見した。
論文参考訳（メタデータ） (2023-11-14T23:40:22Z)
Are Large Language Models Temporally Grounded? [38.481606493496514]
文章を記述したLarge Language Model (LLM) を提供する。イベントの構造と持続時間に関する常識的な知識に関して、それらを調査する。これらの能力を反映した3つの課題に対して,最先端のLCMを評価した。
論文参考訳（メタデータ） (2023-11-14T18:57:15Z)
LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。 LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。ゼロショット学習よりもパフォーマンスが向上する。
論文参考訳（メタデータ） (2023-10-12T17:17:27Z)
An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning [70.48605869773814]
カタストロフィック・ナッシング(英: Catastrophic forgetting、CF)は、機械学習において、モデルが以前に学習した情報を忘れたときに発生する現象である。本研究では,大規模言語モデルにおける連続的調律時の忘れ現象を実験的に評価する。
論文参考訳（メタデータ） (2023-08-17T02:53:23Z)
Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文参考訳（メタデータ） (2023-06-09T12:09:15Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。