論文の概要: Predicting Sentence Acceptability Judgments in Multimodal Contexts
- arxiv url: http://arxiv.org/abs/2602.20918v1
- Date: Tue, 24 Feb 2026 13:54:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.772391
- Title: Predicting Sentence Acceptability Judgments in Multimodal Contexts
- Title(参考訳): マルチモーダル文脈における文受容可能性判断の予測
- Authors: Hyewon Jang, Nikolai Ilinykh, Sharid Loáiciga, Jey Han Lau, Shalom Lappin,
- Abstract要約: これまでの研究は、人間の文受容性判定を予測するディープニューラルネットワーク(DNN)の能力について検討してきた。
視覚画像への事前曝露が人や大言語モデル(LLM)の判断に及ぼす影響を考察する。
以上の結果から,視覚的イメージが人間の受容性評価にはほとんど影響を与えていないことが示唆された。
- 参考スコア(独自算出の注目度): 22.053970196200925
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Previous work has examined the capacity of deep neural networks (DNNs), particularly transformers, to predict human sentence acceptability judgments, both independently of context, and in document contexts. We consider the effect of prior exposure to visual images (i.e., visual context) on these judgments for humans and large language models (LLMs). Our results suggest that, in contrast to textual context, visual images appear to have little if any impact on human acceptability ratings. However, LLMs display the compression effect seen in previous work on human judgments in document contexts. Different sorts of LLMs are able to predict human acceptability judgments to a high degree of accuracy, but in general, their performance is slightly better when visual contexts are removed. Moreover, the distribution of LLM judgments varies among models, with Qwen resembling human patterns, and others diverging from them. LLM-generated predictions on sentence acceptability are highly correlated with their normalised log probabilities in general. However, the correlations decrease when visual contexts are present, suggesting that a higher gap exists between the internal representations of LLMs and their generated predictions in the presence of visual contexts. Our experimental work suggests interesting points of similarity and of difference between human and LLM processing of sentences in multimodal contexts.
- Abstract(参考訳): これまでの研究では、文脈と文書の文脈の両方に独立して、人間の文の受容可能性判断を予測するために、ディープニューラルネットワーク(DNN)、特にトランスフォーマーの能力を調べてきた。
視覚画像への事前曝露が人や大言語モデル(LLM)の判断に及ぼす影響を考察する。
以上の結果から,視覚的イメージが人間の受容性評価にはほとんど影響を与えていないことが示唆された。
しかし、LCMは文書の文脈における人間の判断に対する以前の研究で見られた圧縮効果を示す。
異なる種類のLLMは、人間の受容可能性判定を高い精度で予測することができるが、一般的には、視覚的コンテキストを除去すると、その性能はわずかに向上する。
さらに、LLM判定の分布はモデルによって異なり、Qwenは人間のパターンに似ている。
LLMによる文の受理性予測は, 一般に正規化ログの確率と強く相関している。
しかし、視覚的文脈が存在すると相関は減少し、LLMの内部表現と視覚的文脈の存在下で生成された予測との間には高いギャップが存在することが示唆された。
実験により,多モーダル文脈における文の類似点と人間とLLM処理の違いが示唆された。
関連論文リスト
- Positional Biases Shift as Inputs Approach Context Window Limits [57.00239097102958]
入力がモデルのコンテキストウィンドウの最大50%を占める場合、LiM効果は最強となる。
関係情報が入力の終端に近づくと,モデルの性能が向上する,距離に基づくバイアスが観測される。
論文 参考訳(メタデータ) (2025-08-10T20:40:24Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Multimodality and Attention Increase Alignment in Natural Language
Prediction Between Humans and Computational Models [0.8139163264824348]
人間は、次の単語の処理を容易にするために、視覚的手がかりのような健全なマルチモーダル機能を使用することが知られている。
マルチモーダル計算モデルは、視覚的注意機構を使用して視覚的および言語的データを統合して、次の単語の確率を割り当てることができる。
本研究では,人間からの予測可能性の推定値が,マルチモーダルモデルと非モーダルモデルとのスコアとより密に一致していることを示す。
論文 参考訳(メタデータ) (2023-08-11T09:30:07Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Human Behavioral Benchmarking: Numeric Magnitude Comparison Effects in
Large Language Models [4.412336603162406]
大規模言語モデル(LLM)は、テキストで広まる数値を差分表現しない。
本研究では,LLMが行動レンズからどれだけの数の数値を捉えているかを検討する。
論文 参考訳(メタデータ) (2023-05-18T07:50:44Z) - Attention-likelihood relationship in transformers [2.8304391396200064]
我々は、大言語モデル(LLM)が文脈外単語をどのように表現しているかを分析し、その意味を捉えるために、与えられた文脈への依存を調査する。
我々の可能性誘導型テキスト摂動は、トランスフォーマーベース言語モデルにおけるトークン確率と注意値の相関関係を明らかにする。
論文 参考訳(メタデータ) (2023-03-15T00:23:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。