論文の概要: Is Information Density Uniform when Utterances are Grounded on Perception and Discourse?
- arxiv url: http://arxiv.org/abs/2602.14653v1
- Date: Mon, 16 Feb 2026 11:25:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.380014
- Title: Is Information Density Uniform when Utterances are Grounded on Perception and Discourse?
- Title(参考訳): 発話が知覚と談話に基づく場合、情報密度は一様か?
- Authors: Matteo Gay, Coleman Haley, Mario Giulianelli, Edoardo Ponti,
- Abstract要約: 視覚的に接地した環境での一様情報密度(UID)の計算的研究を行った。
知覚に基づく基礎づけは情報の分布を円滑にし、グローバルとローカルの両方の統一性を高めている。
本研究は,生態学的に妥当な多モーダル言語利用において,情報フローの時間的ダイナミクスをモデル化する第一歩を踏み出した。
- 参考スコア(独自算出の注目度): 7.3258783042969675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Uniform Information Density (UID) hypothesis posits that speakers are subject to a communicative pressure to distribute information evenly within utterances, minimising surprisal variance. While this hypothesis has been tested empirically, prior studies are limited exclusively to text-only inputs, abstracting away from the perceptual context in which utterances are produced. In this work, we present the first computational study of UID in visually grounded settings. We estimate surprisal using multilingual vision-and-language models over image-caption data in 30 languages and visual storytelling data in 13 languages, together spanning 11 families. We find that grounding on perception consistently smooths the distribution of information, increasing both global and local uniformity across typologically diverse languages compared to text-only settings. In visual narratives, grounding in both image and discourse contexts has additional effects, with the strongest surprisal reductions occurring at the onset of discourse units. Overall, this study takes a first step towards modelling the temporal dynamics of information flow in ecologically plausible, multimodal language use, and finds that grounded language exhibits greater information uniformity, supporting a context-sensitive formulation of UID.
- Abstract(参考訳): 均一情報密度(UID)仮説は、話者が発話内で情報を均等に分配するためのコミュニケーション圧力を受けており、副次的分散を最小限に抑えることを示唆している。
この仮説は実験的に検証されてきたが、先行研究はテキストのみの入力に限られており、発話が生成される知覚的文脈から抽象化されている。
本研究では,視覚的に接地した環境下でのUIDの計算的研究について述べる。
本研究では、30言語における画像キャプチャーデータと13言語における視覚的ストーリーテリングデータに対して、11家族からなる多言語視覚・言語モデルを用いて推定する。
認識の基盤は、テキストのみの設定に比べて、タイポロジー的に多種多様である言語におけるグローバルとローカルの両方の均一性を増大させ、情報の分布を一貫して円滑にすることを発見した。
視覚的物語では、画像と談話の両方の文脈における接地は、談話ユニットの開始時に発生する最強の副次的減少に、追加的な効果をもたらす。
本研究は, 情報フローの時間的ダイナミクスを生態学的に妥当な多モーダル言語でモデル化するための第一歩として, 接地された言語は, UIDの文脈に敏感な定式化をサポートし, より情報均一性を示すことを発見した。
関連論文リスト
- When Meanings Meet: Investigating the Emergence and Quality of Shared Concept Spaces during Multilingual Language Model Training [57.230355403478995]
本研究では,EuroLLMの事前学習における言語に依存しない概念空間の開発について検討する。
共有概念空間は早期に出現し、洗練され続けていますが、それらとの整合性は言語に依存しています。
従来の作業とは対照的に、細かな手作業分析により、翻訳品質の顕著な向上は、行動の変化を反映していることが判明した。
論文 参考訳(メタデータ) (2026-01-30T11:23:01Z) - Beyond the Rosetta Stone: Unification Forces in Generalization Dynamics [56.145578792496714]
大規模言語モデル(LLM)は言語間知識伝達に苦慮している。
我々は,この現象の原因とダイナミクスを,合成多言語データセット上でスクラッチから小さなトランスフォーマーモデルを訓練することによって研究する。
論文 参考訳(メタデータ) (2025-08-14T18:44:13Z) - Towards Explainable Bilingual Multimodal Misinformation Detection and Localization [64.37162720126194]
BiMiは、地域レベルのローカライゼーション、言語間および言語間整合性検出、誤情報解析のための自然言語説明を共同で行うフレームワークである。
BiMiBenchは、実際のニュース画像とサブタイトルを体系的に編集するベンチマークである。
BiMiは、分類精度が+8.9で、ローカライゼーション精度が+15.9で、BERTScoreを+2.5で上回る。
論文 参考訳(メタデータ) (2025-06-28T15:43:06Z) - Surprise! Uniform Information Density Isn't the Whole Story: Predicting Surprisal Contours in Long-form Discourse [54.08750245737734]
話者は、階層的に構造化された談話モデル内の位置に基づいて、情報率を変調する。
階層的予測器は談話の情報輪郭の重要な予測器であり,深い階層的予測器は浅い予測器よりも予測力が高いことがわかった。
論文 参考訳(メタデータ) (2024-10-21T14:42:37Z) - Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - Expand BERT Representation with Visual Information via Grounded Language
Learning with Multimodal Partial Alignment [11.148099070407431]
GroundedBERT(グラウンドドバート)は、視覚的にグラウンドドされた情報でBERT表現を強化する、グラウンドド言語学習法である。
提案手法は,GLUEおよびSQuADデータセットの様々な言語タスクにおいて,ベースライン言語モデルよりも有意に優れている。
論文 参考訳(メタデータ) (2023-12-04T03:16:48Z) - Natural Language Decompositions of Implicit Content Enable Better Text Representations [52.992875653864076]
本稿では,暗黙的に伝達されたコンテンツを明示的に考慮したテキスト分析手法を提案する。
我々は大きな言語モデルを用いて、観察されたテキストと推論的に関係する命題の集合を生成する。
本研究は,NLPにおいて,文字のみではなく,観察された言語の背景にある意味をモデル化することが重要であることを示唆する。
論文 参考訳(メタデータ) (2023-05-23T23:45:20Z) - Bridging the Gap: Using Deep Acoustic Representations to Learn Grounded
Language from Percepts and Raw Speech [26.076534338576234]
自然言語と知覚を結びつける基底言語を理解することは、重要な研究分野である。
本研究は,2つの視覚的知覚と生音声入力に基づいて,基底言語習得の実現可能性を示す。
論文 参考訳(メタデータ) (2021-12-27T16:12:30Z) - Revisiting the Uniform Information Density Hypothesis [44.277066511088634]
読み出し時間と受理可能性データを用いて,一様情報密度(UID)仮説について検討する。
受理性判定では,情報密度の非均一性が受理性低下の予測であることを示す。
論文 参考訳(メタデータ) (2021-09-23T20:41:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。