Fugu-MT 論文翻訳(概要): Words are all you need? Capturing human sensory similarity with textual descriptors

論文の概要: Words are all you need? Capturing human sensory similarity with textual descriptors

arxiv url: http://arxiv.org/abs/2206.04105v1
Date: Wed, 8 Jun 2022 18:09:19 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-10 12:44:45.194843
Title: Words are all you need? Capturing human sensory similarity with textual descriptors
Title（参考訳）: 言葉がすべて必要ですか? テキスト記述子による人間の感覚類似性の獲得
Authors: Raja Marjieh, Pol van Rijn, Ilia Sucholutsky, Theodore R. Sumers, Harin Lee, Thomas L. Griffiths, Nori Jacoby
Abstract要約: 人間の類似性判断と言語との関係について検討する。本稿では,効率的かつ汎用的なタグマイニングのための新しい適応パイプラインを提案する。テキスト記述子に基づく予測パイプラインは優れた性能を示すことを示す。
参考スコア（独自算出の注目度）: 12.191617984664683
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in multimodal training use textual descriptions to significantly enhance machine understanding of images and videos. Yet, it remains unclear to what extent language can fully capture sensory experiences across different modalities. A well-established approach for characterizing sensory experiences relies on similarity judgments, namely, the degree to which people perceive two distinct stimuli as similar. We explore the relation between human similarity judgments and language in a series of large-scale behavioral studies ($N=1,823$ participants) across three modalities (images, audio, and video) and two types of text descriptors: simple word tags and free-text captions. In doing so, we introduce a novel adaptive pipeline for tag mining that is both efficient and domain-general. We show that our prediction pipeline based on text descriptors exhibits excellent performance, and we compare it against a comprehensive array of 611 baseline models based on vision-, audio-, and video-processing architectures. We further show that the degree to which textual descriptors and models predict human similarity varies across and within modalities. Taken together, these studies illustrate the value of integrating machine learning and cognitive science approaches to better understand the similarities and differences between human and machine representations. We present an interactive visualization at https://words-are-all-you-need.s3.amazonaws.com/index.html for exploring the similarity between stimuli as experienced by humans and different methods reported in the paper.
Abstract（参考訳）: マルチモーダルトレーニングの最近の進歩は、画像やビデオの機械的理解を著しく向上させるためにテキスト記述を用いた。しかし、言語が様々なモダリティをまたいだ感覚体験を完全に捉えることができるかどうかは不明だ。感覚体験を特徴付けるための確立されたアプローチは、類似性判断、すなわち2つの異なる刺激を類似と認識する程度に依存する。我々は,3つのモダリティ(画像,音声,ビデオ)と2種類のテキスト記述子(単純な単語タグと自由テキストキャプション)を対象とする大規模行動研究(N=1,823ドル)において,人間の類似性判断と言語との関係を検討する。そこで我々は,効率的かつ汎用的なタグマイニングのための新しい適応パイプラインを提案する。テキスト記述子に基づく予測パイプラインは優れた性能を示し、視覚・オーディオ・ビデオ処理アーキテクチャに基づく611のベースラインモデルの包括的な配列と比較した。さらに、テキスト記述子やモデルが人間の類似性を予測できる程度が、モダリティによって異なることを示す。これらの研究は、人間と機械表現の類似点と相違点をよりよく理解するために、機械学習と認知科学のアプローチを統合することの価値を説明する。本稿では,人間が経験した刺激と,論文で報告された様々な方法の類似性を探るため,https://words-are-all-you-need.s3.amazonaws.com/index.htmlでインタラクティブな可視化を行った。

関連論文リスト

Probing the contents of semantic representations from text, behavior, and brain data using the psychNorms metabase [0.0]
テキスト,行動,脳データから得られた意味表現の類似性と相違について検討した。我々は、人間の表現や行動を把握するためのテキストの重要な補完として行動を確立する。
論文参考訳（メタデータ） (2024-12-06T10:44:20Z)
Autoregressive Pre-Training on Pixels and Texts [35.82610192457444]
文書画像とテキストの両方で事前学習された自己回帰フレームワークを用いて、視覚的・テキスト的両言語の二重モードについて検討する。本手法はマルチモーダル・トレーニング・ストラテジーを用いて,次のパッチ予測による視覚データと,次のトークン予測による回帰ヘッドおよび/またはテキストデータを利用する。視覚データのみを訓練した一方向画素モデルでは,複数の言語理解タスクにおける最先端の双方向モデルに匹敵する結果が得られることがわかった。
論文参考訳（メタデータ） (2024-04-16T16:36:50Z)
VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文参考訳（メタデータ） (2024-04-10T15:09:15Z)
Borrowing Human Senses: Comment-Aware Self-Training for Social Media Multimodal Classification [5.960550152906609]
視覚的および言語的類似性を共同で活用することで,ユーザコメントからヒントを抽出する。分類タスクは教師-学生のフレームワークにおける自己学習を通じて探索され、通常はラベル付きデータスケールに動機づけられる。その結果,提案手法は従来の最先端モデルの性能をさらに向上させることが示された。
論文参考訳（メタデータ） (2023-03-27T08:59:55Z)
Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文参考訳（メタデータ） (2023-01-09T13:54:11Z)
Vision+X: A Survey on Multimodal Learning in the Light of Data [64.03266872103835]
様々なソースからのデータを組み込んだマルチモーダル機械学習が,ますます普及している研究分野となっている。我々は、視覚、音声、テキスト、動きなど、各データフォーマットの共通点と特異点を分析する。本稿では,表現学習と下流アプリケーションレベルの両方から,マルチモーダル学習に関する既存の文献を考察する。
論文参考訳（メタデータ） (2022-10-05T13:14:57Z)
Multi-Modal Masked Autoencoders for Medical Vision-and-Language Pre-Training [62.215025958347105]
マルチモーダルマスク付きオートエンコーダを用いた自己教師型学習パラダイムを提案する。我々は、ランダムにマスキングされた画像やテキストから欠落したピクセルやトークンを再構成することで、クロスモーダルなドメイン知識を学習する。
論文参考訳（メタデータ） (2022-09-15T07:26:43Z)
Seeing the advantage: visually grounding word embeddings to better capture human semantic knowledge [8.208534667678792]
分布意味モデルは、多くの自然言語処理タスクで有用な単語レベルの意味をキャプチャする。我々は、英語のテキストと画像を組み合わせて視覚的に接地した単語埋め込みを作成し、それらを人気のあるテキストベース手法と比較する。我々の分析では、視覚的に接地された埋め込み類似性は、純粋にテキストベースの埋め込みよりも人間の反応時間を予測することが示されている。
論文参考訳（メタデータ） (2022-02-21T15:13:48Z)
Exploring the Sensory Spaces of English Perceptual Verbs in Natural Language Data [0.40611352512781856]
エージェント対経験的区別から分析された英語の最も頻繁な知覚動詞に着目した。本研究では,分散-意味的単語埋め込みとクラスタリングモデルに基づくデータ駆動型アプローチについて報告する。
論文参考訳（メタデータ） (2021-10-19T03:58:44Z)
"Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文参考訳（メタデータ） (2020-06-12T06:51:55Z)
On Vocabulary Reliance in Scene Text Recognition [79.21737876442253]
ボキャブラリ内の単語を持つ画像に対して、手法は良好に機能するが、ボキャブラリ外の単語を持つ画像にはあまり一般化しない。私たちはこの現象を「語彙依存」と呼んでいる。本研究では,2家族のモデルが協調的に学習できるようにするための,シンプルで効果的な相互学習戦略を提案する。
論文参考訳（メタデータ） (2020-05-08T11:16:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。