論文の概要: The Scenario Refiner: Grounding subjects in images at the morphological
level
- arxiv url: http://arxiv.org/abs/2309.11252v1
- Date: Wed, 20 Sep 2023 12:23:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-21 12:58:56.081613
- Title: The Scenario Refiner: Grounding subjects in images at the morphological
level
- Title(参考訳): シナリオ・リファイナ:形態レベルでの画像中のグラウンドグラウンド
- Authors: Claudia Tagliaferri, Sofia Axioti, Albert Gatt and Denis Paperno
- Abstract要約: 視覚と言語(V&L)モデルがこのような特徴を形態学レベルで捉えているかどうかを問う。
我々は、V&Lモデルと人間の判断を比較し、モデルの予測が人間の判断と異なることを発見した。
- 参考スコア(独自算出の注目度): 2.401993998791928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Derivationally related words, such as "runner" and "running", exhibit
semantic differences which also elicit different visual scenarios. In this
paper, we ask whether Vision and Language (V\&L) models capture such
distinctions at the morphological level, using a a new methodology and dataset.
We compare the results from V\&L models to human judgements and find that
models' predictions differ from those of human participants, in particular
displaying a grammatical bias. We further investigate whether the human-model
misalignment is related to model architecture. Our methodology, developed on
one specific morphological contrast, can be further extended for testing models
on capturing other nuanced language features.
- Abstract(参考訳): 実行」や「実行」といった派生的関連語は、異なる視覚的シナリオを導き出す意味的差異を示す。
本稿では、新しい手法とデータセットを用いて、視覚と言語(V\&L)モデルが形態学レベルでこれらの区別を捉えているかどうかを問う。
v\&lモデルの結果を人間の判断と比較し、モデルの予測が、特に文法バイアスを示す人間の予測と異なることを発見した。
さらに,人間モデルとモデルアーキテクチャの関係について考察する。
提案手法は,特定の形態的コントラストに基づいて開発され,他のニュアンス言語の特徴を捉えるための実験モデルをさらに拡張することができる。
関連論文リスト
- Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - Evaluating Vision-Language Models on Bistable Images [34.492117496933915]
本研究は,バイスタブル画像を用いた視覚言語モデルについて,これまでで最も広範に検討したものである。
私たちは手動で29枚のバイスタブル画像と関連するラベルを集め、明るさ、色調、回転で116種類の操作を行ないました。
以上の結果から,Idefics ファミリーと LLaVA1.5-13b のモデルを除いて,別の解釈が優先されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-29T18:04:59Z) - Pairing Orthographically Variant Literary Words to Standard Equivalents
Using Neural Edit Distance Models [0.0]
本稿は,19世紀の米国文学において,対応する「標準」単語対に注釈を付した正書学的に変化した単語からなる,新しいコーパスを提案する。
我々は、これらの変種を標準形式と組み合わせるために、一連のニューラル編集距離モデルを訓練し、これらのモデルの性能をL2英語学習者による正書法誤差のコーパスに基づいて訓練されたニューラル編集距離モデルの性能と比較する。
論文 参考訳(メタデータ) (2024-01-26T18:49:34Z) - Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。
我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文 参考訳(メタデータ) (2023-12-01T18:59:57Z) - Longer Fixations, More Computation: Gaze-Guided Recurrent Neural
Networks [12.57650361978445]
人間はさまざまなペースでテキストを読み、機械学習モデルはそれぞれのトークンを同じように扱う。
本稿では,この直感を固定誘導並列RNNやレイヤを用いた新しいモデルに変換する。
興味深いことに、ニューラルネットワークによって予測される固定期間は、人間の固定と多少似ている。
論文 参考訳(メタデータ) (2023-10-31T21:32:11Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - The Grammar-Learning Trajectories of Neural Language Models [42.32479280480742]
ニューラルネットワークモデルは,データ上での終末性能が異なるにもかかわらず,同じ順序で言語現象を取得することを示す。
以上の結果から,NLMは一貫した発達段階を示すことが示唆された。
論文 参考訳(メタデータ) (2021-09-13T16:17:23Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Similarity Analysis of Contextual Word Representation Models [39.12749165544309]
我々は、深層モデルにおける情報の局所化のレベルを測定するために、既存の新しい類似度尺度を用いている。
この分析により、同じ家族内のモデルが、予想されるように互いに類似していることが明らかになった。
驚くべきことに、異なるアーキテクチャは比較的類似した表現を持っているが、個々のニューロンが異なる。
論文 参考訳(メタデータ) (2020-05-03T19:48:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。