Fugu-MT 論文翻訳(概要): SPOR: A Comprehensive and Practical Evaluation Method for Compositional Generalization in Data-to-Text Generation

論文の概要: SPOR: A Comprehensive and Practical Evaluation Method for Compositional Generalization in Data-to-Text Generation

arxiv url: http://arxiv.org/abs/2405.10650v2
Date: Mon, 20 May 2024 07:56:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-21 12:15:54.732520
Title: SPOR: A Comprehensive and Practical Evaluation Method for Compositional Generalization in Data-to-Text Generation
Title（参考訳）: SPOR:データ・テキスト・ジェネレーションにおける構成一般化のための総合的・実践的評価手法
Authors: Ziyao Xu, Houfeng Wang,
Abstract要約: 本研究では,データ・テキスト生成における合成一般化のための総合的・実践的な評価手法であるSPORを提案する。 2つの異なるデータセット上でSPORを実証し、LLMを含む既存の言語モデルを評価する。
参考スコア（独自算出の注目度）: 21.68354181391989
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Compositional generalization is an important ability of language models and has many different manifestations. For data-to-text generation, previous research on this ability is limited to a single manifestation called Systematicity and lacks consideration of large language models (LLMs), which cannot fully cover practical application scenarios. In this work, we propose SPOR, a comprehensive and practical evaluation method for compositional generalization in data-to-text generation. SPOR includes four aspects of manifestations (Systematicity, Productivity, Order invariance, and Rule learnability) and allows high-quality evaluation without additional manual annotations based on existing datasets. We demonstrate SPOR on two different datasets and evaluate some existing language models including LLMs. We find that the models are deficient in various aspects of the evaluation and need further improvement. Our work shows the necessity for comprehensive research on different manifestations of compositional generalization in data-to-text generation and provides a framework for evaluation.
Abstract（参考訳）: 構成一般化は言語モデルの重要な能力であり、多くの異なる表現を持つ。データ・トゥ・テキスト生成では、この能力に関するこれまでの研究は、Systematicityと呼ばれる単一のマニフェストに限られており、実用的なアプリケーションシナリオを完全にカバーできない大規模言語モデル(LLM)の考慮が欠如している。本研究では,データ・テキスト生成における合成一般化のための総合的・実践的な評価手法であるSPORを提案する。 SPORには、宣言の4つの側面(体系性、生産性、秩序不変性、規則学習性)が含まれており、既存のデータセットに基づいた追加のマニュアルアノテーションなしで高品質な評価を可能にする。 2つの異なるデータセット上でSPORを実証し、LLMを含む既存の言語モデルを評価する。評価の様々な面においてモデルが不足していることが分かり、さらなる改善が必要である。本研究は、データ・テキスト・ジェネレーションにおける合成一般化の異なる表現に関する総合的な研究の必要性を示し、評価のための枠組みを提供する。

関連論文リスト

Beyond Memorization: Assessing Semantic Generalization in Large Language Models Using Phrasal Constructions [3.0906699069248806]
Construction Grammar (CxG) は、一般化をテストするための精神言語学的基盤となるフレームワークである。我々のデータセットは英語のフレーズ構造で構成されており、話者は共通の場所のインスタンス化を抽象化できることが知られている。その結果、GPT-o1を含む最先端モデルでは、第2タスクで40%以上の性能低下が見られた。
論文参考訳（メタデータ） (2025-01-08T18:15:10Z)
Beyond Factual Accuracy: Evaluating Coverage of Diverse Factual Information in Long-form Text Generation [56.82274763974443]
ICATは、長文テキスト生成における多様な事実情報のカバレッジを測定するための評価フレームワークである。原子の事実的クレームと出力で提示されるであろう様々な側面のアライメントを計算する。私たちのフレームワークは、多様性とカバレッジの解釈可能かつきめ細かな分析を提供します。
論文参考訳（メタデータ） (2025-01-07T05:43:23Z)
Unleashing the Power of Data Tsunami: A Comprehensive Survey on Data Assessment and Selection for Instruction Tuning of Language Models [33.488331159912136]
インストラクションチューニングは、大きな言語モデル(LLM)と人間の嗜好の整合において重要な役割を果たす。自然言語処理(NLP)とディープラーニングの分野において,データアセスメントと選択手法が提案されている。本稿では,データアセスメントと選択に関する既存の文献を総合的にレビューし,特にLLMの命令チューニングについて述べる。
論文参考訳（メタデータ） (2024-08-04T16:50:07Z)
Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文参考訳（メタデータ） (2024-02-16T13:53:26Z)
How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文参考訳（メタデータ） (2023-11-14T08:51:00Z)
Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文参考訳（メタデータ） (2023-07-16T15:18:25Z)
Multi-Dimensional Evaluation of Text Summarization with In-Context Learning [79.02280189976562]
本稿では,テキスト内学習を用いた多次元評価器として,大規模言語モデルの有効性について検討する。実験の結果,テキスト要約作業において,文脈内学習に基づく評価手法が学習評価フレームワークと競合していることが判明した。次に、テキスト内サンプルの選択や数などの要因がパフォーマンスに与える影響を分析する。
論文参考訳（メタデータ） (2023-06-01T23:27:49Z)
Large Language Models are Diverse Role-Players for Summarization Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。 BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-27T10:40:59Z)
Improving Compositional Generalization with Self-Training for Data-to-Text Generation [36.973617793800315]
データ・テキスト・タスクにおける現在の生成モデルの合成一般化について検討する。構成的気象データセットの構造変化をシミュレートすることにより、T5モデルは目に見えない構造に一般化できないことを示す。擬似応答選択のための細調整BLEURTを用いた自己学習に基づく手法を提案する。
論文参考訳（メタデータ） (2021-10-16T04:26:56Z)
Automatic Construction of Evaluation Suites for Natural Language Generation Datasets [17.13484629172643]
我々は、制御された摂動を生成し、テキストからスカラー、テキストからテキストへ、あるいはデータからテキストへ設定したサブセットを識別するフレームワークを開発する。 80個のチャレンジセットからなる評価スイートを提案し、現在の世代モデルの限界に光を当てることを可能にした分析の種類を実証する。
論文参考訳（メタデータ） (2021-06-16T18:20:58Z)
TextFlint: Unified Multilingual Robustness Evaluation Toolkit for Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。 TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文参考訳（メタデータ） (2021-03-21T17:20:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。