論文の概要: Referring Expressions with Rational Speech Act Framework: A
Probabilistic Approach
- arxiv url: http://arxiv.org/abs/2205.07795v1
- Date: Mon, 16 May 2022 16:37:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-17 18:41:27.557726
- Title: Referring Expressions with Rational Speech Act Framework: A
Probabilistic Approach
- Title(参考訳): 合理的音声行為フレームワークによる表現の参照:確率論的アプローチ
- Authors: Hieu Le, Taufiq Daryanto, Fabian Zhafransyah, Derry Wijaya, Elizabeth
Coppock, Sang Chin
- Abstract要約: 本稿では,複雑な視覚シーンにおけるオブジェクトの抽出を目的とした参照表現生成(REG)タスクについて述べる。
最近のREGシステムは、話者/リスナーエージェントを表現するためにディープラーニングアプローチを使用している。
本稿では、確率的RSAフレームワークとディープラーニングアプローチを組み合わせて、複雑な視覚シーンを含む大規模データセットに適用する。
- 参考スコア(独自算出の注目度): 2.1425861443122383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper focuses on a referring expression generation (REG) task in which
the aim is to pick out an object in a complex visual scene. One common
theoretical approach to this problem is to model the task as a two-agent
cooperative scheme in which a `speaker' agent would generate the expression
that best describes a targeted area and a `listener' agent would identify the
target. Several recent REG systems have used deep learning approaches to
represent the speaker/listener agents. The Rational Speech Act framework (RSA),
a Bayesian approach to pragmatics that can predict human linguistic behavior
quite accurately, has been shown to generate high quality and explainable
expressions on toy datasets involving simple visual scenes. Its application to
large scale problems, however, remains largely unexplored. This paper applies a
combination of the probabilistic RSA framework and deep learning approaches to
larger datasets involving complex visual scenes in a multi-step process with
the aim of generating better-explained expressions. We carry out experiments on
the RefCOCO and RefCOCO+ datasets and compare our approach with other
end-to-end deep learning approaches as well as a variation of RSA to highlight
our key contribution. Experimental results show that while achieving lower
accuracy than SOTA deep learning methods, our approach outperforms similar RSA
approach in human comprehension and has an advantage over end-to-end deep
learning under limited data scenario. Lastly, we provide a detailed analysis on
the expression generation process with concrete examples, thus providing a
systematic view on error types and deficiencies in the generation process and
identifying possible areas for future improvements.
- Abstract(参考訳): 本稿では,複雑な視覚シーンでオブジェクトを選択することを目的とした参照表現生成(reg)タスクに焦点を当てる。
この問題に対する一般的な理論的アプローチの1つは、タスクを「話者」エージェントがターゲットエリアを最もよく記述し、「リスナー」エージェントがターゲットを識別する表現を生成する2エージェント協調スキームとしてモデル化することである。
最近のREGシステムは、話者/リスナーエージェントを表現するためにディープラーニングアプローチを使用している。
人間の言語行動を正確に予測できるベイズ的手法であるRational Speech Act framework (RSA)は、単純な視覚シーンを含むおもちゃのデータセットに高品質で説明可能な表現を生成することが示されている。
しかし、大規模な問題への応用はほとんど未解明のままである。
本稿では,多段階プロセスにおける複雑な視覚シーンを含む大規模データセットに対して,確率論的rsaフレームワークとディープラーニング手法の組み合わせを適用する。
我々は、RefCOCOとRefCOCO+データセットの実験を行い、我々のアプローチを他のエンドツーエンドのディープラーニングアプローチと比較し、RSAのバリエーションを重要コントリビューションを強調します。
実験の結果,SOTA深層学習手法よりも精度が低いが,本手法は人間の理解において類似のRSAアプローチより優れており,限られたデータシナリオ下でのエンドツーエンド深層学習よりも有利であることがわかった。
最後に,具体的な例を用いて表現生成過程の詳細な分析を行い,誤りの種類や生成プロセスの欠陥を体系的に把握し,将来的な改善の可能な領域を特定する。
関連論文リスト
- Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - On Discriminative Probabilistic Modeling for Self-Supervised Representation Learning [85.75164588939185]
複数モーダルな)自己教師付き表現学習のための連続領域における識別確率モデル問題について検討する。
我々は、自己教師付き表現学習における現在のInfoNCEに基づくコントラスト損失の制限を明らかにするために一般化誤差解析を行う。
論文 参考訳(メタデータ) (2024-10-11T18:02:46Z) - READ: Improving Relation Extraction from an ADversarial Perspective [33.44949503459933]
関係抽出(RE)に特化して設計された対角的学習法を提案する。
提案手法では,シーケンスレベルの摂動とトークンレベルの摂動の両方をサンプルに導入し,個別の摂動語彙を用いてエンティティとコンテキストの摂動の探索を改善する。
論文 参考訳(メタデータ) (2024-04-02T16:42:44Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Post Hoc Explanations of Language Models Can Improve Language Models [43.2109029463221]
AMPLIFY(Post Hoc Explanations)を用いたインコンテキスト学習の活用によるモデル性能向上のための新しいフレームワークを提案する。
我々は,各入力特徴がモデル予測に与える影響を抽出し,帰属スコア(説明)を出力するポストホック説明手法を活用する。
AMPLIFYは,幅広いタスクに対して約10~25%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-05-19T04:46:04Z) - Don't Be So Sure! Boosting ASR Decoding via Confidence Relaxation [7.056222499095849]
ビームサーチは 予測分布を用いて 最大限の確率で 書き起こしを求める
最近提案された自己監督学習(SSL)ベースのASRモデルは、極めて確実な予測をもたらす傾向があることを示す。
細調整されたASRモデルの性能を向上させる復号法を提案する。
論文 参考訳(メタデータ) (2022-12-27T06:42:26Z) - Multivariate Business Process Representation Learning utilizing Gramian
Angular Fields and Convolutional Neural Networks [0.0]
データの意味のある表現を学習することは、機械学習の重要な側面である。
予測的プロセス分析では、プロセスインスタンスのすべての説明的特性を利用できるようにすることが不可欠である。
本稿では,ビジネスプロセスインスタンスの表現学習のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-15T10:21:14Z) - How Fine-Tuning Allows for Effective Meta-Learning [50.17896588738377]
MAMLライクなアルゴリズムから派生した表現を解析するための理論的フレームワークを提案する。
我々は,勾配降下による微調整により得られる最良予測器のリスク境界を提示し,アルゴリズムが共有構造を有効活用できることを実証する。
この分離の結果、マイニングベースのメソッド、例えばmamlは、少数ショット学習における"frozen representation"目標を持つメソッドよりも優れている。
論文 参考訳(メタデータ) (2021-05-05T17:56:00Z) - Learning an Effective Context-Response Matching Model with
Self-Supervised Tasks for Retrieval-based Dialogues [88.73739515457116]
我々は,次のセッション予測,発話復元,不整合検出,一貫性判定を含む4つの自己教師型タスクを導入する。
我々はPLMに基づく応答選択モデルとこれらの補助タスクをマルチタスク方式で共同で訓練する。
実験結果から,提案した補助的自己教師型タスクは,多ターン応答選択において大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-09-14T08:44:46Z) - Plausible Counterfactuals: Auditing Deep Learning Classifiers with
Realistic Adversarial Examples [84.8370546614042]
ディープラーニングモデルのブラックボックスの性質は、彼らがデータから何を学ぶかについて、未回答の疑問を提起している。
GAN(Generative Adversarial Network)とマルチオブジェクトは、監査されたモデルに妥当な攻撃を与えるために使用される。
その実用性は人間の顔の分類タスクの中で示され、提案されたフレームワークの潜在的可能性を明らかにしている。
論文 参考訳(メタデータ) (2020-03-25T11:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。