Fugu-MT 論文翻訳(概要): Models of reference production: How do they withstand the test of time?

論文の概要: Models of reference production: How do they withstand the test of time?

arxiv url: http://arxiv.org/abs/2307.14817v1
Date: Thu, 27 Jul 2023 12:46:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-28 14:41:38.022476
Title: Models of reference production: How do they withstand the test of time?
Title（参考訳）: 参照生産のモデル:どうやって時間テストに耐えられるのか?
Authors: Fahime Same, Guanyi Chen, Kees van Deemter
Abstract要約: 本研究では,文脈の参照表現を生成するタスクをケーススタディとして使用し,GRECから分析を開始する。より現実的なデータセットでモデルを評価すれば、モデルのパフォーマンスはどうなるのか、私たちは尋ねます。我々は、GRECは、人間の参照生産を模倣するモデルの能力に対する信頼性の高い評価を提供するものではないと結論付けている。
参考スコア（独自算出の注目度）: 6.651864489482537
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent years, many NLP studies have focused solely on performance improvement. In this work, we focus on the linguistic and scientific aspects of NLP. We use the task of generating referring expressions in context (REG-in-context) as a case study and start our analysis from GREC, a comprehensive set of shared tasks in English that addressed this topic over a decade ago. We ask what the performance of models would be if we assessed them (1) on more realistic datasets, and (2) using more advanced methods. We test the models using different evaluation metrics and feature selection experiments. We conclude that GREC can no longer be regarded as offering a reliable assessment of models' ability to mimic human reference production, because the results are highly impacted by the choice of corpus and evaluation metrics. Our results also suggest that pre-trained language models are less dependent on the choice of corpus than classic Machine Learning models, and therefore make more robust class predictions.
Abstract（参考訳）: 近年,NLP研究の多くは性能改善に重点を置いている。本研究では,NLPの言語学的・科学的側面に着目した。我々は、文脈における参照表現(REG-in-context)を生成するタスクをケーススタディとして使用し、10年以上前にこの問題に対処した英語における共有タスクの集合であるGRECから分析を開始する。モデルの性能を,(1)より現実的なデータセット上で評価し,(2)より高度な手法を用いて評価すればどうなるか尋ねる。異なる評価指標と特徴選択実験を用いてモデルをテストする。その結果,GRECは,コーパスの選択や評価指標の影響が大きいため,人間の参照生産を模倣するモデルの信頼性評価を提供することができないことがわかった。また,事前学習した言語モデルは従来の機械学習モデルよりもコーパスの選択に依存しないため,より堅牢なクラス予測が可能であることも示唆した。

関連論文リスト

Spontaneous Speech Variables for Evaluating LLMs Cognitive Plausibility [0.7061230262755125]
本稿では, 音声コーパスを用いて生成変数(音声の縮小, 韻律的優位性)を導出し, 同様の方法で適用することを提案する。次に、これらの2つの変数を予測するために、異なる事前学習データセットの標準手順でトレーニングされたモデルをテストします。以上の結果から,いくつかの微調整の後,モデルがこれらの生産変数をベースラインよりはるかに高い精度で予測できることが示唆された。
論文参考訳（メタデータ） (2025-05-22T06:23:02Z)
Reverse-Engineering the Reader [43.26660964074272]
本稿では,線形回帰器のパラメータを暗黙的に最適化するために,言語モデルを微調整する新しいアライメント手法を提案する。単語をテストケースとして使用し、複数のモデルサイズとデータセットにわたる手法を評価する。ダウンストリームNLPタスクにおける心理測定パワーとモデルの性能の逆関係と、ホールドアウトテストデータにおけるその難易度を見出した。
論文参考訳（メタデータ） (2024-10-16T23:05:01Z)
Direct Judgement Preference Optimization [66.83088028268318]
我々は、他のモデルのアウトプットを評価し、批判するために、生成的判断として大きな言語モデル(LLM)を訓練する。我々は,異なるユースケースに対する選好ペアの収集に3つのアプローチを採用し,それぞれが異なる視点から生成判断を改善することを目的としている。提案モデルは,位置や長さの偏りなどの固有バイアスに強く対応し,実践者が指定した評価プロトコルに柔軟に適用し,下流ジェネレータモデルを改善する上で有用な言語フィードバックを提供する。
論文参考訳（メタデータ） (2024-09-23T02:08:20Z)
Prompting or Fine-tuning? Exploring Large Language Models for Causal Graph Validation [0.0]
本研究では,因果グラフの因果性を評価するための大規模言語モデルの有用性について検討する。本研究では,(1)ゼロショットと少数ショットの因果推論のためのプロンプトベース手法,(2)因果関係予測タスクのための微調整言語モデルの比較を行った。
論文参考訳（メタデータ） (2024-05-29T09:06:18Z)
How to Determine the Most Powerful Pre-trained Language Model without Brute Force Fine-tuning? An Empirical Survey [23.757740341834126]
その結果,H-Scoreは効率性や効率性に優れることがわかった。また、トレーニングの詳細、テキスト生成への適用性、今後の方向性に光を当てる特定の指標との整合性といった難しさについても概説する。
論文参考訳（メタデータ） (2023-12-08T01:17:28Z)
Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文参考訳（メタデータ） (2023-11-03T14:59:54Z)
FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文参考訳（メタデータ） (2023-07-20T14:56:35Z)
Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文参考訳（メタデータ） (2023-07-16T15:18:25Z)
Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文参考訳（メタデータ） (2023-05-21T14:39:28Z)
A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文参考訳（メタデータ） (2022-04-11T18:31:53Z)
An Application of Pseudo-Log-Likelihoods to Natural Language Scoring [5.382454613390483]
比較的少ないパラメータとトレーニングステップを持つ言語モデルは、最近の大規模なデータセットでそれを上回るパフォーマンスを得ることができる。二項選択タスクにおける常識推論のための絶対的最先端結果を生成する。より小さなモデルの堅牢性は、構成性の観点から理解されるべきである。
論文参考訳（メタデータ） (2022-01-23T22:00:54Z)
A Systematic Investigation of Commonsense Understanding in Large Language Models [23.430757316504316]
大規模な言語モデルでは、ゼロショット設定で多くの自然言語処理(NLP)タスクで顕著なパフォーマンスを示している。これらのモデルが4つのコモンセンスベンチマークに対してモデルを評価することによってコモンセンス理解を示すかどうかを問う。
論文参考訳（メタデータ） (2021-10-31T22:20:36Z)
Learning to Compare for Better Training and Evaluation of Open Domain Natural Language Generation Models [23.62054164511058]
そこで本研究では,文のペアを細調整して比較することで,自然言語生成モデルを評価することを提案する。完全に自己管理された方法でトレーニングできる一方で、人間の好みのアノテーションを少しだけ含んだモデルをさらに微調整することが可能です。
論文参考訳（メタデータ） (2020-02-12T15:52:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。