Fugu-MT 論文翻訳(概要): Cat, Rat, Meow: On the Alignment of Language Model and Human Term-Similarity Judgments

論文の概要: Cat, Rat, Meow: On the Alignment of Language Model and Human Term-Similarity Judgments

arxiv url: http://arxiv.org/abs/2504.07965v1
Date: Thu, 10 Apr 2025 17:59:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-18 15:42:57.879384
Title: Cat, Rat, Meow: On the Alignment of Language Model and Human Term-Similarity Judgments
Title（参考訳）: 猫,ラット,ミーウ:言語モデルと人間の用語相似判断のアライメントについて
Authors: Lorenz Linhardt, Tom Neuhäuser, Lenka Tětková, Oliver Eberle,
Abstract要約: 人間の類似性判断と表現的・行動的整合性を考慮した32の公開言語モデルの評価を行った。小さな言語モデルの表現でさえ、人間レベルのアライメントを実現することができる。
参考スコア（独自算出の注目度）: 4.856605865350511
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Small and mid-sized generative language models have gained increasing attention. Their size and availability make them amenable to being analyzed at a behavioral as well as a representational level, allowing investigations of how these levels interact. We evaluate 32 publicly available language models for their representational and behavioral alignment with human similarity judgments on a word triplet task. This provides a novel evaluation setting to probe semantic associations in language beyond common pairwise comparisons. We find that (1) even the representations of small language models can achieve human-level alignment, (2) instruction-tuned model variants can exhibit substantially increased agreement, (3) the pattern of alignment across layers is highly model dependent, and (4) alignment based on models' behavioral responses is highly dependent on model size, matching their representational alignment only for the largest evaluated models.
Abstract（参考訳）: 小型・中型の生成言語モデルが注目を集めている。それらのサイズと可用性は、行動レベルだけでなく、表現レベルでも分析されやすく、これらのレベルがどのように相互作用するかを調査することができる。単語三重項課題における人間の類似性判断と表現的・行動的整合性を考慮した32の公開言語モデルの評価を行った。これは、共通対比較を超えた言語における意味的関連を探索するための、新しい評価設定を提供する。その結果,(1)小言語モデルの表現でさえ人間レベルのアライメントを達成でき,(2)命令調整型モデル変種は極めて高いアライメントを達成でき,(3)階層間のアライメントパターンはモデル依存度が高く,(4)モデルの行動応答に基づくアライメントはモデルサイズに大きく依存し,その表現アライメントは最大の評価モデルにのみ適合することがわかった。

関連論文リスト

Do language models accommodate their users? A study of linguistic convergence [15.958711524171362]
モデルは会話のスタイルに強く収束し、しばしば人間のベースラインに対してかなり過度に適合する。モデル設定間の収束の連続的な変化を観察し、事前訓練されたモデルよりも少ない精度で収束する命令調整および大規模モデルについて考察する。
論文参考訳（メタデータ） (2025-08-05T09:55:40Z)
DevBench: A multimodal developmental benchmark for language learning [0.34129029452670606]
タスクと行動データに基づいて視覚言語モデルを評価するベンチマークであるDevBenchを紹介する。 DevBenchは、モデルを人間の言語開発と比較するためのベンチマークを提供する。これらの比較は、モデルと人間の言語学習プロセスの分岐方法を強調する。
論文参考訳（メタデータ） (2024-06-14T17:49:41Z)
A Probability--Quality Trade-off in Aligned Language Models and its Relation to Sampling Adaptors [50.046717886067555]
一致した言語モデルからコーパスをサンプリングする場合,文字列の平均報酬と平均ログ類似度との間にはトレードオフが存在することを示す。我々は、この現象を形式的に処理し、サンプリングアダプタの選択が、どれだけの確率で報酬を交換できるかを選択できるかを実証する。
論文参考訳（メタデータ） (2024-06-14T17:38:21Z)
Split and Rephrase with Large Language Models [2.499907423888049]
Split and Rephrase (SPRP) タスクは、複雑な文を短い文法文の列に分割する。タスク上の大きな言語モデルを評価し、主要なメトリクスに基づいて、技術の現状を大幅に改善できることを示します。
論文参考訳（メタデータ） (2023-12-18T10:16:37Z)
Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文参考訳（メタデータ） (2023-05-29T16:24:01Z)
ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文参考訳（メタデータ） (2022-11-19T03:50:33Z)
On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文参考訳（メタデータ） (2022-11-15T19:56:37Z)
Can language models handle recursively nested grammatical structures? A case study on comparing models and humans [0.0]
言語モデルと人間の能力を比較するには? 私は、ネストした文法構造の処理というケーススタディを考えます。特定の現象の認知モデルを評価することと、広範囲に訓練されたモデルを評価することには、重要な違いがあることを示唆する。
論文参考訳（メタデータ） (2022-10-27T10:25:12Z)
Model Criticism for Long-Form Text Generation [113.13900836015122]
我々は,テキストの高レベル構造を評価するために,潜在空間におけるモデル批判という統計ツールを適用した。我々は,コヒーレンス,コア,トピックスという,ハイレベルな談話の3つの代表的な側面について実験を行った。トランスフォーマーベースの言語モデルでは、トピック構造をキャプチャできるが、構造コヒーレンスやモデリングコアスを維持するのが難しくなる。
論文参考訳（メタデータ） (2022-10-16T04:35:58Z)
A General Language Assistant as a Laboratory for Alignment [3.3598752405752106]
簡単なベースライン手法と,プロンプトなどの評価について検討する。モデルサイズにより, 緩やかな介入による利点が増大し, 様々なアライメント評価に一般化され, 大規模モデルの性能を損なわないことがわかった。本研究では,人間の嗜好を微調整する際のサンプル効率の向上を目標として,事前学習段階の選好モデルについて検討した。
論文参考訳（メタデータ） (2021-12-01T22:24:34Z)
Learning Contextual Representations for Semantic Parsing with Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文参考訳（メタデータ） (2020-12-18T15:53:50Z)
A Closer Look at Linguistic Knowledge in Masked Language Models: The Case of Relative Clauses in American English [17.993417004424078]
トランスフォーマーに基づく言語モデルは、様々なタスクにおいて高いパフォーマンスを達成するが、それらが学習し、依存する言語知識の理解はいまだに不足している。文レベルの探索, 診断事例, マスク付き予測タスクにより, 文法的および意味的知識をテストする3つのモデル(BERT, RoBERTa, ALBERT)を評価した。
論文参考訳（メタデータ） (2020-11-02T13:25:39Z)
Overestimation of Syntactic Representationin Neural Language Models [16.765097098482286]
構文構造を誘導するモデルの能力を決定する一般的な方法の1つは、テンプレートに従って生成された文字列上でモデルを訓練し、それらの文字列と表面的に類似した文字列を異なる構文で区別するモデルの能力をテストすることである。本稿では,2つの非シンタクティックなベースライン言語モデルを用いた最近の論文の肯定的な結果を再現することで,このアプローチの根本的な問題を説明する。
論文参考訳（メタデータ） (2020-04-10T15:13:03Z)
Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文参考訳（メタデータ） (2020-02-09T19:53:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。