論文の概要: A Large-Scale Multilingual Study of Visual Constraints on Linguistic
Selection of Descriptions
- arxiv url: http://arxiv.org/abs/2302.04811v1
- Date: Thu, 9 Feb 2023 17:57:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-10 14:59:26.878042
- Title: A Large-Scale Multilingual Study of Visual Constraints on Linguistic
Selection of Descriptions
- Title(参考訳): 記述の言語選択における視覚的制約に関する大規模多言語研究
- Authors: Uri Berger, Lea Frermann, Gabriel Stanovsky, Omri Abend
- Abstract要約: 本研究では,4言語と5つの言語特性(動詞の推移性や数字の使用など)を網羅し,視覚が言語選択をいかに制限するかを多言語的に検討する。
そこで本研究では,既存の画像コーパスをネイティブ話者によるキャプションで活用し,600k画像と3Mキャプションからなる9コーパスに適用する手法を提案する。
- 参考スコア(独自算出の注目度): 35.82822305925811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a large, multilingual study into how vision constrains linguistic
choice, covering four languages and five linguistic properties, such as verb
transitivity or use of numerals. We propose a novel method that leverages
existing corpora of images with captions written by native speakers, and apply
it to nine corpora, comprising 600k images and 3M captions. We study the
relation between visual input and linguistic choices by training classifiers to
predict the probability of expressing a property from raw images, and find
evidence supporting the claim that linguistic properties are constrained by
visual context across languages. We complement this investigation with a corpus
study, taking the test case of numerals. Specifically, we use existing
annotations (number or type of objects) to investigate the effect of different
visual conditions on the use of numeral expressions in captions, and show that
similar patterns emerge across languages. Our methods and findings both confirm
and extend existing research in the cognitive literature. We additionally
discuss possible applications for language generation.
- Abstract(参考訳): 本研究では,4言語と5つの言語特性(動詞の推移性や数字の使用など)を網羅し,視覚が言語選択をいかに制限するかを多言語的に検討する。
そこで本研究では,既存の画像コーパスをネイティブ話者によるキャプションで活用し,600k画像と3Mキャプションからなる9コーパスに適用する手法を提案する。
視覚入力と言語選択の関係を分類器の訓練により検討し、生画像からプロパティを表現する確率を予測するとともに、言語特性が言語間の視覚的文脈によって制約されているという主張を支持する証拠を見いだした。
この研究をコーパス研究で補完し、数字のテストケースを取り上げます。
具体的には、字幕中の数字表現の使用に対する異なる視覚条件の影響を調べるために既存のアノテーション(数やオブジェクトの種類)を使用し、同様のパターンが言語にまたがって現れることを示す。
本手法と知見は,認知文学における既存の研究を確認・拡張するものである。
また,言語生成への応用についても論じる。
関連論文リスト
- Multimodal Modeling For Spoken Language Identification [57.94119986116947]
音声言語識別とは、ある発話中の音声言語を自動的に予測するタスクを指す。
本稿では,多モーダル音声言語識別手法であるMuSeLIを提案する。
論文 参考訳(メタデータ) (2023-09-19T12:21:39Z) - Multilingual Multi-Figurative Language Detection [14.799109368073548]
比喩的言語理解は多言語環境では 非常に過小評価されています
我々は,多言語多言語言語モデリングを導入し,文レベル図形言語検出のためのベンチマークを提供する。
テンプレートに基づく即時学習に基づく図形言語検出のためのフレームワークを開発する。
論文 参考訳(メタデータ) (2023-05-31T18:52:41Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Exploring Affordance and Situated Meaning in Image Captions: A
Multimodal Analysis [1.124958340749622]
Flickr30kデータセットのイメージに5つの知覚特性(Affordance, Perceptual Salience, Object Number, Cue Gazeing, Ecological Niche Association (ENA))を付加した注釈を付ける。
以上の結果より,ギブソニアの空白画像は,テコールの空白画像と比較して,「保持動詞」と「コンテナ名詞」を含む字幕の頻度が高いことが明らかとなった。
論文 参考訳(メタデータ) (2023-05-24T01:30:50Z) - Corpus-Guided Contrast Sets for Morphosyntactic Feature Detection in
Low-Resource English Varieties [3.3536302616846734]
コーパス誘導編集による効率的なコントラストセットの生成とフィルタリングを行う。
我々は、インド英語とアフリカ系アメリカ人の英語の特徴検出を改善し、言語研究をいかに支援できるかを実証し、他の研究者が使用するための微調整されたモデルをリリースすることを示した。
論文 参考訳(メタデータ) (2022-09-15T21:19:31Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Multilingual Byte2Speech Text-To-Speech Models Are Few-shot Spoken
Language Learners [11.190877290770047]
本稿では、バイト入力をスペクトログラムにマッピングし、任意の入力スクリプトを可能にする多言語用エンドツーエンドテキスト合成フレームワークを提案する。
このフレームワークは、極端に低リソースのシナリオ下で、様々な新しい言語に適応する能力を示す。
多言語モデルのメカニズムをよりよく理解するために,言語固有のサブネットワークを抽出する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-05T08:41:45Z) - Rediscovering the Slavic Continuum in Representations Emerging from
Neural Models of Spoken Language Identification [16.369477141866405]
音声信号におけるスラヴ語識別のためのニューラルモデルを提案する。
本稿では,言語関連性の客観的尺度を反映しているかどうかを調査するために,その創発的表現を分析した。
論文 参考訳(メタデータ) (2020-10-22T18:18:19Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。