Fugu-MT 論文翻訳(概要): Predicting Sentence Acceptability Judgments in Multimodal Contexts

論文の概要: Predicting Sentence Acceptability Judgments in Multimodal Contexts

arxiv url: http://arxiv.org/abs/2602.20918v1
Date: Tue, 24 Feb 2026 13:54:38 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.772391
Title: Predicting Sentence Acceptability Judgments in Multimodal Contexts
Title（参考訳）: マルチモーダル文脈における文受容可能性判断の予測
Authors: Hyewon Jang, Nikolai Ilinykh, Sharid Loáiciga, Jey Han Lau, Shalom Lappin,
Abstract要約: これまでの研究は、人間の文受容性判定を予測するディープニューラルネットワーク(DNN)の能力について検討してきた。視覚画像への事前曝露が人や大言語モデル(LLM)の判断に及ぼす影響を考察する。以上の結果から,視覚的イメージが人間の受容性評価にはほとんど影響を与えていないことが示唆された。
参考スコア（独自算出の注目度）: 22.053970196200925
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Previous work has examined the capacity of deep neural networks (DNNs), particularly transformers, to predict human sentence acceptability judgments, both independently of context, and in document contexts. We consider the effect of prior exposure to visual images (i.e., visual context) on these judgments for humans and large language models (LLMs). Our results suggest that, in contrast to textual context, visual images appear to have little if any impact on human acceptability ratings. However, LLMs display the compression effect seen in previous work on human judgments in document contexts. Different sorts of LLMs are able to predict human acceptability judgments to a high degree of accuracy, but in general, their performance is slightly better when visual contexts are removed. Moreover, the distribution of LLM judgments varies among models, with Qwen resembling human patterns, and others diverging from them. LLM-generated predictions on sentence acceptability are highly correlated with their normalised log probabilities in general. However, the correlations decrease when visual contexts are present, suggesting that a higher gap exists between the internal representations of LLMs and their generated predictions in the presence of visual contexts. Our experimental work suggests interesting points of similarity and of difference between human and LLM processing of sentences in multimodal contexts.
Abstract（参考訳）: これまでの研究では、文脈と文書の文脈の両方に独立して、人間の文の受容可能性判断を予測するために、ディープニューラルネットワーク(DNN)、特にトランスフォーマーの能力を調べてきた。視覚画像への事前曝露が人や大言語モデル(LLM)の判断に及ぼす影響を考察する。以上の結果から,視覚的イメージが人間の受容性評価にはほとんど影響を与えていないことが示唆された。しかし、LCMは文書の文脈における人間の判断に対する以前の研究で見られた圧縮効果を示す。異なる種類のLLMは、人間の受容可能性判定を高い精度で予測することができるが、一般的には、視覚的コンテキストを除去すると、その性能はわずかに向上する。さらに、LLM判定の分布はモデルによって異なり、Qwenは人間のパターンに似ている。 LLMによる文の受理性予測は, 一般に正規化ログの確率と強く相関している。しかし、視覚的文脈が存在すると相関は減少し、LLMの内部表現と視覚的文脈の存在下で生成された予測との間には高いギャップが存在することが示唆された。実験により,多モーダル文脈における文の類似点と人間とLLM処理の違いが示唆された。

関連論文リスト

Positional Biases Shift as Inputs Approach Context Window Limits [57.00239097102958]
入力がモデルのコンテキストウィンドウの最大50%を占める場合、LiM効果は最強となる。関係情報が入力の終端に近づくと,モデルの性能が向上する,距離に基づくバイアスが観測される。
論文参考訳（メタデータ） (2025-08-10T20:40:24Z)
LLM Agents Display Human Biases but Exhibit Distinct Learning Patterns [0.0]
経験的タスクから判断する文脈におけるLarge Language Models (LLMs)の選択パターンについて検討する。その結果,LLMは人間に類似した行動バイアスを呈することがわかった。しかし、選択パターンをより微妙に分析すると、これは非常に異なる理由で起こることが分かる。
論文参考訳（メタデータ） (2025-03-13T10:47:03Z)
Estimating Commonsense Plausibility through Semantic Shifts [66.06254418551737]
セマンティックシフトを測定することでコモンセンスの妥当性を定量化する新しい識別フレームワークであるComPaSSを提案する。 2種類の細粒度コモンセンス可視性評価タスクの評価は,ComPaSSが一貫してベースラインを上回っていることを示している。
論文参考訳（メタデータ） (2025-02-19T06:31:06Z)
Implicit Causality-biases in humans and LLMs as a tool for benchmarking LLM discourse capabilities [0.0]
モデルサイズの範囲にまたがる単言語LLMと多言語LLMで生成されたデータと、被験者が提供したデータとを比較した。我々は,より一般的な談話理解能力のための堅牢なプロキシとして,談話バイアスを伴うLLMの能力を評価するためのベンチマークを開発することを目的とする。
論文参考訳（メタデータ） (2025-01-22T16:07:24Z)
Aggregation Artifacts in Subjective Tasks Collapse Large Language Models' Posteriors [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理の主要な手法となっている。本研究は,低アグリゲーション,異質なアノテーションを組み合わせたアグリゲーションの結果が,プロンプトに有害なノイズを生じさせるアノテーションのアーティファクトに繋がるかどうかを考察する。この結果から,アグリゲーションは主観的タスクのモデル化において不明瞭な要因であり,代わりに個人をモデリングすることを重視することが示唆された。
論文参考訳（メタデータ） (2024-10-17T17:16:00Z)
VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文参考訳（メタデータ） (2024-04-22T04:49:22Z)
The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。 LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文参考訳（メタデータ） (2024-03-25T19:07:32Z)
Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment [84.32768080422349]
人間の好みの調整は、大きな言語モデルが誤解を招くか有害なコンテンツを生成するのを防ぐ。本研究では, 微調整後のLLMの最終性能と線形相関を示唆し, 即時多様性の新たな定式化を提案する。
論文参考訳（メタデータ） (2024-03-17T07:08:55Z)
Do LLMs exhibit human-like response biases? A case study in survey design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。 9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文参考訳（メタデータ） (2023-11-07T15:40:43Z)
Multimodality and Attention Increase Alignment in Natural Language Prediction Between Humans and Computational Models [0.8139163264824348]
人間は、次の単語の処理を容易にするために、視覚的手がかりのような健全なマルチモーダル機能を使用することが知られている。マルチモーダル計算モデルは、視覚的注意機構を使用して視覚的および言語的データを統合して、次の単語の確率を割り当てることができる。本研究では,人間からの予測可能性の推定値が,マルチモーダルモデルと非モーダルモデルとのスコアとより密に一致していることを示す。
論文参考訳（メタデータ） (2023-08-11T09:30:07Z)
Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文参考訳（メタデータ） (2023-05-24T06:19:14Z)
Can Large Language Models Capture Dissenting Human Voices? [7.668954669688971]
大規模言語モデル(LLM)は、幅広いタスクの解決において素晴らしい成果を上げている。 2つの異なる手法を用いてLLM分布の性能とアライメントを評価する。 LLMはNLIタスクを解く能力に限界を示し、同時に人間の不一致分布を捉えないことを示す。
論文参考訳（メタデータ） (2023-05-23T07:55:34Z)
Human Behavioral Benchmarking: Numeric Magnitude Comparison Effects in Large Language Models [4.412336603162406]
大規模言語モデル(LLM)は、テキストで広まる数値を差分表現しない。本研究では,LLMが行動レンズからどれだけの数の数値を捉えているかを検討する。
論文参考訳（メタデータ） (2023-05-18T07:50:44Z)
Attention-likelihood relationship in transformers [2.8304391396200064]
我々は、大言語モデル(LLM)が文脈外単語をどのように表現しているかを分析し、その意味を捉えるために、与えられた文脈への依存を調査する。我々の可能性誘導型テキスト摂動は、トランスフォーマーベース言語モデルにおけるトークン確率と注意値の相関関係を明らかにする。
論文参考訳（メタデータ） (2023-03-15T00:23:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。