論文の概要: Towards Understanding Sample Variance in Visually Grounded Language
Generation: Evaluations and Observations
- arxiv url: http://arxiv.org/abs/2010.03644v1
- Date: Wed, 7 Oct 2020 20:45:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 21:44:59.938325
- Title: Towards Understanding Sample Variance in Visually Grounded Language
Generation: Evaluations and Observations
- Title(参考訳): 視覚的接地言語生成におけるサンプル変数の理解に向けて:評価と観察
- Authors: Wanrong Zhu, Xin Eric Wang, Pradyumna Narayana, Kazoo Sone, Sugato
Basu, William Yang Wang
- Abstract要約: 視覚的基盤言語生成において,重要だがしばしば無視される問題を理解するために実験を設計する。
人間にはさまざまなユーティリティと視覚的注意があるので、マルチ参照データセットのサンプルのばらつきはモデルの性能にどのように影響しますか?
人為的な参照は、異なるデータセットやタスクで大きく変化する可能性があり、それぞれのタスクの性質が明らかになる。
- 参考スコア(独自算出の注目度): 67.4375210552593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A major challenge in visually grounded language generation is to build robust
benchmark datasets and models that can generalize well in real-world settings.
To do this, it is critical to ensure that our evaluation protocols are correct,
and benchmarks are reliable. In this work, we set forth to design a set of
experiments to understand an important but often ignored problem in visually
grounded language generation: given that humans have different utilities and
visual attention, how will the sample variance in multi-reference datasets
affect the models' performance? Empirically, we study several multi-reference
datasets and corresponding vision-and-language tasks. We show that it is of
paramount importance to report variance in experiments; that human-generated
references could vary drastically in different datasets/tasks, revealing the
nature of each task; that metric-wise, CIDEr has shown systematically larger
variances than others. Our evaluations on reference-per-instance shed light on
the design of reliable datasets in the future.
- Abstract(参考訳): 視覚的な接地型言語生成における大きな課題は、実世界の設定でうまく一般化できる堅牢なベンチマークデータセットとモデルを構築することである。
これを行うには、評価プロトコルが正しいこと、ベンチマークが信頼できることを保証することが重要です。
本稿では,視覚下地言語生成における重要だがしばしば無視される問題を理解するための一連の実験をデザインする。人間には異なるユーティリティと視覚的注意が与えられているため,マルチリファレンスデータセットにおけるサンプル分散はモデルの性能にどのように影響するか?
実験では,複数の複数参照データセットと対応する視覚言語タスクについて検討した。
実験のばらつきを報告することが最重要であり, 人為的参照は, 異なるデータセットやタスクで大きく変化し, それぞれのタスクの性質を明らかにすること, CIDErが他のタスクよりも体系的に大きなばらつきを示したこと, などを示す。
インスタンス毎の基準評価は、将来、信頼できるデータセットの設計に光を当てた。
関連論文リスト
- P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。
以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。
我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。
以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文 参考訳(メタデータ) (2024-04-02T22:27:24Z) - Leveraging sparse and shared feature activations for disentangled
representation learning [112.22699167017471]
本稿では,教師付きタスクの多種多様な集合から抽出した知識を活用し,共通不整合表現を学習することを提案する。
我々は6つの実世界分布シフトベンチマークと異なるデータモダリティに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-04-17T01:33:24Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented
Visual Models [102.63817106363597]
ELEVATERは、事前訓練された言語拡張ビジュアルモデルの比較と評価を行う最初のベンチマークである。
20の画像分類データセットと35のオブジェクト検出データセットで構成され、それぞれが外部知識で拡張されている。
研究コミュニティ向けのツールキットと評価プラットフォームをリリースします。
論文 参考訳(メタデータ) (2022-04-19T10:23:42Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Multi-task Learning of Negation and Speculation for Targeted Sentiment
Classification [15.85111852764517]
対象の感情モデルが言語現象、特に否定や憶測に対して堅牢ではないことを示す。
本稿では,否定や投機的スコープ検出など,構文的・意味的補助的タスクからの情報を組み込むマルチタスク学習手法を提案する。
否定的サンプルと投機的サンプルのモデル性能を評価するために、2つの課題データセットを作成します。
論文 参考訳(メタデータ) (2020-10-16T11:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。