論文の概要: Coreference as an indicator of context scope in multimodal narrative
- arxiv url: http://arxiv.org/abs/2503.05298v1
- Date: Fri, 07 Mar 2025 10:23:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:22:18.752545
- Title: Coreference as an indicator of context scope in multimodal narrative
- Title(参考訳): マルチモーダル物語における文脈スコープの指標としての基準
- Authors: Nikolai Ilinykh, Shalom Lappin, Asad Sayeed, Sharid Loáiciga,
- Abstract要約: 本研究は,多モーダル言語モデルが中心的表現の分布において人間と大きく異なることを示す。
本稿では,人文と機械文の両文中核パターンの特徴を定量化する指標について紹介する。
- 参考スコア(独自算出の注目度): 3.9248546555042356
- License:
- Abstract: We demonstrate that large multimodal language models differ substantially from humans in the distribution of coreferential expressions in a visual storytelling task. We introduce a number of metrics to quantify the characteristics of coreferential patterns in both human- and machine-written texts. Humans distribute coreferential expressions in a way that maintains consistency across texts and images, interleaving references to different entities in a highly varied way. Machines are less able to track mixed references, despite achieving perceived improvements in generation quality.
- Abstract(参考訳): 視覚的なストーリーテリング作業において,主観的表現の分布において,大きなマルチモーダル言語モデルが人間と大きく異なることを示す。
本稿では,人文と機械文の両文中核パターンの特徴を定量化する指標をいくつか紹介する。
人間は、テキストや画像間の一貫性を維持し、異なるエンティティへの参照を非常に多様な方法でインターリーブする方法で、中核表現を配布する。
マシンは、世代品質の改善が認められたにもかかわらず、混合参照を追跡することができない。
関連論文リスト
- RKadiyala at SemEval-2024 Task 8: Black-Box Word-Level Text Boundary Detection in Partially Machine Generated Texts [0.0]
本稿では,与えられたテキストのどの部分が単語レベルで生成されたかを特定するための信頼性の高いアプローチをいくつか紹介する。
本稿では,プロプライエタリシステムとの比較,未確認領域におけるモデルの性能,ジェネレータのテキストの比較を行う。
その結果,検出能の他の側面との比較とともに,検出精度が著しく向上した。
論文 参考訳(メタデータ) (2024-10-22T03:21:59Z) - MUGC: Machine Generated versus User Generated Content Detection [1.6602942962521352]
従来の手法は, 機械生成データの同定において高い精度を示す。
機械生成テキストは短く、人間生成コンテンツに比べて単語の多様性が低い傾向にある。
可読性、バイアス、モラル、影響の比較は、機械生成コンテンツと人間生成コンテンツの間に明確なコントラストを示す。
論文 参考訳(メタデータ) (2024-03-28T07:33:53Z) - Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z) - Auditing Gender Presentation Differences in Text-to-Image Models [54.16959473093973]
我々は、テキスト・ツー・イメージ・モデルにおいて、ジェンダーがどのように異なる形で提示されるかを研究する。
入力テキスト中の性指標を探索することにより、プレゼンテーション中心属性の周波数差を定量化する。
このような違いを推定する自動手法を提案する。
論文 参考訳(メタデータ) (2023-02-07T18:52:22Z) - Learning Semantic Textual Similarity via Topic-informed Discrete Latent
Variables [17.57873577962635]
我々は、意味的テキスト類似性のためのトピックインフォームド離散潜在変数モデルを開発した。
我々のモデルはベクトル量子化による文対表現のための共有潜在空間を学習する。
我々のモデルは意味的テキスト類似性タスクにおいて、いくつかの強力な神経ベースラインを超えることができることを示す。
論文 参考訳(メタデータ) (2022-11-07T15:09:58Z) - Distribution Aware Metrics for Conditional Natural Language Generation [3.6350564275444173]
既存のメトリクスは、視覚的記述や、基底真理が意味論的に多様であるような要約のような領域には適さないと論じる。
条件付き言語生成モデルのマルチ候補評価のための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-15T17:58:13Z) - Cross-Modal Discrete Representation Learning [73.68393416984618]
本稿では,様々なモダリティにまたがるより細かい粒度を捉える表現を学習する自己教師型学習フレームワークを提案する。
我々のフレームワークは、異なるモダリティ間で共有されるベクトル量子化によって生成される離散化された埋め込み空間に依存している。
論文 参考訳(メタデータ) (2021-06-10T00:23:33Z) - Combining Pre-trained Word Embeddings and Linguistic Features for
Sequential Metaphor Identification [12.750941606061877]
テキスト中のメタファを識別し,シーケンスタグ付けタスクとして扱う問題に取り組む。
事前学習した単語埋め込みであるGloVe, ELMo, BERTは, 逐次メタファー識別に優れた性能を示した。
GloVe, ELMo, 特徴量に基づくBERTの活用は, 一つの単語の埋め込み法と2つの埋め込みの組み合わせで著しく優れることを示す。
論文 参考訳(メタデータ) (2021-04-07T17:43:05Z) - Accurate Word Representations with Universal Visual Guidance [55.71425503859685]
本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。
各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。
12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
論文 参考訳(メタデータ) (2020-12-30T09:11:50Z) - Towards Understanding Sample Variance in Visually Grounded Language
Generation: Evaluations and Observations [67.4375210552593]
視覚的基盤言語生成において,重要だがしばしば無視される問題を理解するために実験を設計する。
人間にはさまざまなユーティリティと視覚的注意があるので、マルチ参照データセットのサンプルのばらつきはモデルの性能にどのように影響しますか?
人為的な参照は、異なるデータセットやタスクで大きく変化する可能性があり、それぞれのタスクの性質が明らかになる。
論文 参考訳(メタデータ) (2020-10-07T20:45:14Z) - Multimodal Routing: Improving Local and Global Interpretability of
Multimodal Language Analysis [103.69656907534456]
人間中心のタスクに強いパフォーマンスを持つ最近のマルチモーダル学習は、しばしばブラックボックスである。
本稿では,各入力サンプルに対して,入力モダリティと出力表現の重み付けを異なる方法で調整するマルチモーダルルーティングを提案する。
論文 参考訳(メタデータ) (2020-04-29T13:42:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。