Fugu-MT 論文翻訳(概要): Lost in Inference: Rediscovering the Role of Natural Language Inference for Large Language Models

論文の概要: Lost in Inference: Rediscovering the Role of Natural Language Inference for Large Language Models

arxiv url: http://arxiv.org/abs/2411.14103v1
Date: Thu, 21 Nov 2024 13:09:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:49.81693
Title: Lost in Inference: Rediscovering the Role of Natural Language Inference for Large Language Models
Title（参考訳）: 推論の損失:大規模言語モデルにおける自然言語推論の役割の再発見
Authors: Lovish Madaan, David Esiobu, Pontus Stenetorp, Barbara Plank, Dieuwke Hupkes,
Abstract要約: 近年、自然言語理解(NLU)を評価する一般的な方法は、自然言語推論(NLI)タスクを実行するモデルの能力を検討することである。本稿では,異なるスケールの6つのモデルにわたる5つの異なるNLIベンチマークに焦点を当てる。我々は,異なるサイズと品質のモデルを識別できるかどうか,トレーニング中にその精度がどのように発達するかを検討する。
参考スコア（独自算出の注目度）: 36.983534612895156
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the recent past, a popular way of evaluating natural language understanding (NLU), was to consider a model's ability to perform natural language inference (NLI) tasks. In this paper, we investigate if NLI tasks, that are rarely used for LLM evaluation, can still be informative for evaluating LLMs. Focusing on five different NLI benchmarks across six models of different scales, we investigate if they are able to discriminate models of different size and quality and how their accuracies develop during training. Furthermore, we investigate the extent to which the softmax distributions of models align with human distributions in cases where statements are ambiguous or vague. Overall, our results paint a positive picture for the NLI tasks: we find that they are able to discriminate well between models at various stages of training, yet are not (all) saturated. Furthermore, we find that while the similarity of model distributions with human label distributions increases with scale, it is still much higher than the similarity between two populations of humans, making it a potentially interesting statistic to consider.
Abstract（参考訳）: 近年、自然言語理解(NLU)を評価する一般的な方法として、自然言語推論(NLI)タスクをモデルが行う能力を検討することが挙げられる。本稿では,LLM評価にはほとんど使われていないNLIタスクが,LLM評価に有用であるかどうかを検討する。異なるスケールの6つのモデルにまたがる5つの異なるNLIベンチマークに着目し、異なるサイズと品質のモデルを識別できるかどうか、トレーニング中にそれらの精度がどのように成長するかを検討する。さらに,文が曖昧であいまいな場合に,モデルのソフトマックス分布が人間の分布とどの程度一致しているかを検討する。実験の結果,NLIタスクに対する肯定的なイメージが得られた。トレーニングのさまざまな段階において,モデル間でよく識別できるが,(すべて)飽和していないことが判明した。さらに、人間のラベル分布とモデル分布の類似性はスケール的に増大するが、人間の2つの集団間の類似性よりもはるかに高いため、考慮すべき興味深い統計である。

関連論文リスト

Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文参考訳（メタデータ） (2025-05-24T12:31:27Z)
No LLM is Free From Bias: A Comprehensive Study of Bias Evaluation in Large Language Models [0.9620910657090186]
大規模言語モデル(LLM)は、異なる自然言語理解と生成タスクの性能を高めている。我々は,中小LLMの集合を用いてベンチマークを統一的に評価する。バイアス検出タスクをバイアスの異なる側面で行うための5つのプロンプト手法を提案する。その結果, 選択したLLMは, Phi-3.5Bモデルが最も偏りが少ないため, いずれか一方あるいは他方の偏りに悩まされることが示唆された。
論文参考訳（メタデータ） (2025-03-15T03:58:14Z)
ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models [75.05436691700572]
明示的な因果推論において,LLM(Large Language Models)を評価するための新しいデータセットであるExpliCaを紹介する。 ExpliCa上で7つの商用およびオープンソース LLM をテストしました。驚くべきことに、モデルは因果関係と時間的関係を関連付ける傾向にあり、そのパフォーマンスはイベントの言語的順序にも強く影響される。
論文参考訳（メタデータ） (2025-02-21T14:23:14Z)
A Distributional Perspective on Word Learning in Neural Language Models [57.41607944290822]
言語モデルにおける単語学習のための広く合意されたメトリクスは存在しない。我々は、先行研究で研究された分布シグネチャは、重要な分布情報の取得に失敗すると主張している。我々は、スクラッチから訓練する小さな言語モデルを選択するための学習軌跡を得る。
論文参考訳（メタデータ） (2025-02-09T13:15:59Z)
Bias Similarity Across Large Language Models [32.0365189539138]
機械学習モデルのバイアスは慢性的な問題である。オープンソースとクローズドな10のLarge Language Modelを包括的に見ていきます。モデル間のバイアスがどのように現れるかを理解するために、機能的類似度を測定します。
論文参考訳（メタデータ） (2024-10-15T19:21:14Z)
What Languages are Easy to Language-Model? A Perspective from Learning Probabilistic Regular Languages [78.1866280652834]
大規模言語モデル (LM) は文字列上の分布である。 RNNとTransformer LMによる規則的LM(RLM)の学習性について検討する。 RNNとトランスフォーマーの双方において,RLMランクの複雑さは強く,学習可能性の有意な予測因子であることが判明した。
論文参考訳（メタデータ） (2024-06-06T17:34:24Z)
Language Models can Evaluate Themselves via Probability Discrepancy [38.54454263880133]
様々な大規模言語モデル(LLM)の有効性を評価するための自己評価手法ProbDiffを提案する。テスト中のLSMを、初期応答と修正バージョンの間の確率差を計算するために独自に利用する。以上の結果から, ProbDiff は GPT-4 に基づく評価結果と同等の結果を得た。
論文参考訳（メタデータ） (2024-05-17T03:50:28Z)
Unraveling the Dominance of Large Language Models Over Transformer Models for Bangla Natural Language Inference: A Comprehensive Study [0.0]
自然言語推論(NLI)は自然言語処理(NLP)の基盤である本研究では,ベンガル語のような低リソース言語におけるLLM(Large Language Models)の評価について検討した。
論文参考訳（メタデータ） (2024-05-05T13:57:05Z)
CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文参考訳（メタデータ） (2023-10-24T08:56:49Z)
Can Large Language Models Capture Dissenting Human Voices? [7.668954669688971]
大規模言語モデル(LLM)は、幅広いタスクの解決において素晴らしい成果を上げている。 2つの異なる手法を用いてLLM分布の性能とアライメントを評価する。 LLMはNLIタスクを解く能力に限界を示し、同時に人間の不一致分布を捉えないことを示す。
論文参考訳（メタデータ） (2023-05-23T07:55:34Z)
On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文参考訳（メタデータ） (2022-11-15T19:56:37Z)
Evaluating Distributional Distortion in Neural Language Modeling [81.83408583979745]
稀な事象の重みは、言語における分布の総確率質量のかなりの量を占める。パープレキシティなどの標準言語モデリングメトリクスは、集約された言語モデル(LM)のパフォーマンスを定量化する。自然言語を人工言語として訓練した生成モデルを用いた制御評価手法を開発した。
論文参考訳（メタデータ） (2022-03-24T01:09:46Z)
An Application of Pseudo-Log-Likelihoods to Natural Language Scoring [5.382454613390483]
比較的少ないパラメータとトレーニングステップを持つ言語モデルは、最近の大規模なデータセットでそれを上回るパフォーマンスを得ることができる。二項選択タスクにおける常識推論のための絶対的最先端結果を生成する。より小さなモデルの堅牢性は、構成性の観点から理解されるべきである。
論文参考訳（メタデータ） (2022-01-23T22:00:54Z)
Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文参考訳（メタデータ） (2020-09-27T02:13:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。