Fugu-MT 論文翻訳(概要): Seeing What Tastes Good: Revisiting Multimodal Distributional Semantics in the Billion Parameter Era

論文の概要: Seeing What Tastes Good: Revisiting Multimodal Distributional Semantics in the Billion Parameter Era

arxiv url: http://arxiv.org/abs/2506.03994v1
Date: Wed, 04 Jun 2025 14:18:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-05 21:20:14.376279
Title: Seeing What Tastes Good: Revisiting Multimodal Distributional Semantics in the Billion Parameter Era
Title（参考訳）: 美味しいものを見る:億のパラメーター時代における多様分散セマンティックスの再考
Authors: Dan Oneata, Desmond Elliott, Stella Frank,
Abstract要約: 大量のデータに基づいて訓練された大規模モデルは,具体的な対象概念のセマンティックな特徴ノルムをいかによく表すかを検討する。画像データだけで訓練された画像エンコーダと、マルチモーダルで訓練された画像エンコーダと言語のみのモデルを評価する。
参考スコア（独自算出の注目度）: 16.50510044709939
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Human learning and conceptual representation is grounded in sensorimotor experience, in contrast to state-of-the-art foundation models. In this paper, we investigate how well such large-scale models, trained on vast quantities of data, represent the semantic feature norms of concrete object concepts, e.g. a ROSE is red, smells sweet, and is a flower. More specifically, we use probing tasks to test which properties of objects these models are aware of. We evaluate image encoders trained on image data alone, as well as multimodally-trained image encoders and language-only models, on predicting an extended denser version of the classic McRae norms and the newer Binder dataset of attribute ratings. We find that multimodal image encoders slightly outperform language-only approaches, and that image-only encoders perform comparably to the language models, even on non-visual attributes that are classified as "encyclopedic" or "function". These results offer new insights into what can be learned from pure unimodal learning, and the complementarity of the modalities.
Abstract（参考訳）: 人間の学習と概念表現は、最先端の基礎モデルとは対照的に、感覚運動の体験に基礎を置いている。本稿では, 大量のデータに基づいて訓練された大規模モデルが, 具体的な対象概念の意味的特徴ノルム, 例えば, ROSEは赤, 香り, 花の匂いを表現しているかを検討する。より具体的には、これらのモデルが認識しているオブジェクトのどの特性をテストするために、探索タスクを使用します。画像データだけで訓練された画像エンコーダと、マルチモーダルで訓練された画像エンコーダと言語のみのモデルを評価し、古典的なMcRaeノルムのより高密度なバージョンと、より新しい属性評価のBinderデータセットを予測する。マルチモーダル画像エンコーダは言語のみのアプローチよりも若干優れており、画像のみのエンコーダは「百科事典」や「機能」に分類される非視覚的属性であっても言語モデルと互換性がある。これらの結果は、純粋な一助学習から何が学べるか、そしてモダリティの相補性について、新たな洞察を与える。

関連論文リスト

Explaining How Visual, Textual and Multimodal Encoders Share Concepts [4.203741981113582]
スパースオートエンコーダ(SAE)は、ニューラルネットワークのアクティベーションから人間の解釈可能な特徴を抽出する強力な技術として登場した。以前の研究では、SAEから派生した特徴に基づいて異なるモデルを比較していたが、それらの比較は同じモードのモデルに限定されている。本研究では,SAE特徴量間でモデルを定量的に比較可能な新しい指標を提案し,視覚,テキスト,マルチモーダルエンコーダの比較研究を行う。
論文参考訳（メタデータ） (2025-07-24T15:33:31Z)
Multimodal Representation Alignment for Cross-modal Information Retrieval [12.42313654539524]
異なる機械学習モデルは、異なる方法で同じ基礎概念を表現することができる。この可変性は、入力として与えられた1つのモダリティで対応する表現を識別することを目的として、Wildのマルチモーダル検索において特に有用である。そこで本研究では,視覚言語モデルと統合単調モデルの両方から得られる視覚とテキストの埋め込みの幾何学的関係について検討する。次に、ニューラルネットワークを介して実装された4つの標準的な類似度メトリクスと2つの学習した指標を使用して、これらの表現を調整します。
論文参考訳（メタデータ） (2025-06-10T13:16:26Z)
Perception Encoder: The best visual embeddings are not at the output of the network [70.86738083862099]
本稿では、単純な視覚言語学習によって訓練された画像と映像の理解のための視覚エンコーダであるPerception (PE)を紹介する。対照的な視覚言語学習だけでは、これらの下流タスクに強力な汎用的な埋め込みを実現できることが分かっています。 PEモデル群は,多種多様なタスクにおいて,クラス内で最高の結果が得られる。
論文参考訳（メタデータ） (2025-04-17T17:59:57Z)
Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文参考訳（メタデータ） (2024-10-26T12:00:33Z)
Restyling Unsupervised Concept Based Interpretable Networks with Generative Models [14.604305230535026]
本稿では,事前学習された生成モデルの潜在空間に概念特徴をマッピングすることに依存する新しい手法を提案する。本手法の有効性を,解釈可能な予測ネットワークの精度,再現性,学習概念の忠実性,一貫性の観点から定量的に検証した。
論文参考訳（メタデータ） (2024-07-01T14:39:41Z)
DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。 DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文参考訳（メタデータ） (2024-05-24T05:46:04Z)
Heuristic Vision Pre-Training with Self-Supervised and Supervised Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文参考訳（メタデータ） (2023-10-11T14:06:04Z)
UniDiff: Advancing Vision-Language Models with Generative and Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。 UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文参考訳（メタデータ） (2023-06-01T15:39:38Z)
Learning Transferable Pedestrian Representation from Multimodal Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文参考訳（メタデータ） (2023-04-12T01:20:58Z)
Localization vs. Semantics: Visual Representations in Unimodal and Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文参考訳（メタデータ） (2022-12-01T05:00:18Z)
Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文参考訳（メタデータ） (2022-10-18T17:01:35Z)
Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文参考訳（メタデータ） (2022-05-25T10:12:17Z)
Vision Models Are More Robust And Fair When Pretrained On Uncurated Images Without Supervision [38.22842778742829]
差別的な自己教師型学習は、インターネット画像の任意のランダムなグループでのトレーニングモデルを可能にする。データ前処理や事前の仮定なしで、何十億ものランダムなイメージでモデルをトレーニングします。フェアネス、分布シフト、地理的多様性、微粒化認識、画像コピー検出、および多くの画像分類データセットを含む50以上のベンチマークにおいて、我々のモデル性能を広範囲に研究し、検証した。
論文参考訳（メタデータ） (2022-02-16T22:26:47Z)
Text-to-Image Generation with Attention Based Recurrent Neural Networks [1.2599533416395765]
我々は,安定なキャプションベース画像生成モデルを構築した。実験はMicrosoftデータセット上で行われる。その結果,提案手法は現代の手法よりも優れた性能を示した。
論文参考訳（メタデータ） (2020-01-18T12:19:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。