論文の概要: Enhancing Semantics in Multimodal Chain of Thought via Soft Negative Sampling
- arxiv url: http://arxiv.org/abs/2405.09848v1
- Date: Thu, 16 May 2024 06:55:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 15:11:06.310312
- Title: Enhancing Semantics in Multimodal Chain of Thought via Soft Negative Sampling
- Title(参考訳): ソフトネガティブサンプリングによる思考のマルチモーダル連鎖のセマンティックス向上
- Authors: Guangmin Zheng, Jin Wang, Xiaobing Zhou, Xuejie Zhang,
- Abstract要約: 思考の連鎖(CoT)は複雑な推論を必要とする問題に有用であることが証明されている。
本研究では,マルチモーダルCoTにおける幻覚を緩和するために,ソフトネガティブサンプリング(SNSE-CoT)を用いた合理的な生成法を提案する。
- 参考スコア(独自算出の注目度): 6.052655548927575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain of thought (CoT) has proven useful for problems requiring complex reasoning. Many of these problems are both textual and multimodal. Given the inputs in different modalities, a model generates a rationale and then uses it to answer a question. Because of the hallucination issue, the generated soft negative rationales with high textual quality but illogical semantics do not always help improve answer accuracy. This study proposes a rationale generation method using soft negative sampling (SNSE-CoT) to mitigate hallucinations in multimodal CoT. Five methods were applied to generate soft negative samples that shared highly similar text but had different semantics from the original. Bidirectional margin loss (BML) was applied to introduce them into the traditional contrastive learning framework that involves only positive and negative samples. Extensive experiments on the ScienceQA dataset demonstrated the effectiveness of the proposed method. Code and data are released at https://github.com/zgMin/SNSE-CoT.
- Abstract(参考訳): 思考の連鎖(CoT)は複雑な推論を必要とする問題に有用であることが証明されている。
これらの問題の多くはテキストとマルチモーダルの両方である。
異なるモダリティの入力が与えられた場合、モデルは理性を生成し、それを使って質問に答える。
幻覚の問題のため、生成したソフトな否定的理性は高いテキスト品質を持つが、非論理的意味論は答えの正確性を改善するのに必ずしも役に立たない。
本研究では,マルチモーダルCoTにおける幻覚を緩和するために,ソフトネガティブサンプリング(SNSE-CoT)を用いた合理的な生成法を提案する。
非常に類似したテキストを共有するが、原文と異なる意味を持つソフトネガティブなサンプルを生成するために5つの手法が適用された。
正と負のサンプルのみを含む従来のコントラスト学習フレームワークに、双方向マージン損失(BML)を適用した。
その結果,ScienceQAデータセットの大規模な実験により,提案手法の有効性が示された。
コードとデータはhttps://github.com/zgMin/SNSE-CoT.comで公開されている。
関連論文リスト
- Mitigating Boundary Ambiguity and Inherent Bias for Text Classification in the Era of Large Language Models [24.085614720512744]
本研究では,大規模言語モデル (LLM) がテキスト分類における選択肢の数や配置の変化に対して脆弱であることを示す。
重要なボトルネックは、曖昧な決定境界と、特定のトークンや位置に対する固有のバイアスから生じます。
我々のアプローチは、ペア比較が境界のあいまいさと固有のバイアスを効果的に緩和できるという経験的観察に基づいている。
論文 参考訳(メタデータ) (2024-06-11T06:53:19Z) - CKD: Contrastive Knowledge Distillation from A Sample-wise Perspective [48.99488315273868]
本研究では,試料内およびサンプル間制約によるサンプルワイドアライメント問題として定式化できる,対照的な知識蒸留手法を提案する。
本手法は, 数値を考慮し, 同一試料中のロジット差を最小化する。
CIFAR-100, ImageNet-1K, MS COCOの3つのデータセットについて総合的な実験を行った。
論文 参考訳(メタデータ) (2024-04-22T11:52:40Z) - Enhancing Multimodal Compositional Reasoning of Visual Language Models
with Generative Negative Mining [58.379339799777064]
大規模視覚言語モデル(VLM)は、強力な表現能力を示し、画像およびテキスト理解タスクを強化するためにユビキタスである。
両方向のマイニングだけでなく,両方向の否定的なサンプルを生成するフレームワークを提案する。
私たちのコードとデータセットはhttps://ugorsahin.github.io/enhancing-multimodal-compositional-reasoning-of-vlm.htmlで公開されています。
論文 参考訳(メタデータ) (2023-11-07T13:05:47Z) - Rethinking Negative Pairs in Code Search [56.23857828689406]
我々は、重み項をInfoNCEに挿入する簡易で効果的なSoft-InfoNCE損失を提案する。
我々は,Soft-InfoNCEが学習したコード表現の分布を制御することと,より正確な相互情報推定の導出に与える影響を分析する。
論文 参考訳(メタデータ) (2023-10-12T06:32:42Z) - Multimodal Chain-of-Thought Reasoning in Language Models [94.70184390935661]
言語(テキスト)と視覚(画像)のモダリティを2段階のフレームワークに組み込んだマルチモーダルCoTを提案する。
その結果,ScienceQA と A-OKVQA のベンチマークは,提案手法の有効性を示した。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z) - Rethinking Collaborative Metric Learning: Toward an Efficient
Alternative without Negative Sampling [156.7248383178991]
コラボレーティブ・メトリック・ラーニング(CML)パラダイムはレコメンデーション・システム(RS)分野に広く関心を集めている。
負のサンプリングが一般化誤差のバイアス付き推定に繋がることがわかった。
そこで我々は,SFCML (textitSampling-Free Collaborative Metric Learning) という名前のCMLに対して,負のサンプリングを伴わない効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-06-23T08:50:22Z) - Exploring the Impact of Negative Samples of Contrastive Learning: A Case
Study of Sentence Embedding [14.295787044482136]
文埋め込みのための負のサンプル列を持つモーメントコントラスト学習モデル、すなわちMoCoSEを提案する。
我々は最大トレーサブル距離測定値を定義し、テキストが負のサンプルの履歴情報からどの程度の差があるかを学習する。
実験の結果,最大トレーサブル距離が一定の範囲にある場合に最もよい結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-02-26T08:29:25Z) - Contrastive Multimodal Fusion with TupleInfoNCE [24.93545970229774]
伝統的なアプローチは、異なるモダリティを対比して、それらの間で共有される情報を学ぶことである。
本研究では,新しいコントラスト学習目標であるTupleInfoNCEを提案する。
タプルインフォメーションNCEは,3つの下流タスクにおいて,それまでの最先端のアートを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-07-06T12:26:58Z) - Contrastive Learning with Hard Negative Samples [80.12117639845678]
我々は, 厳密な陰性サンプルを選択するために, 教師なしサンプリング手法を新たに開発する。
このサンプリングの制限ケースは、各クラスをしっかりとクラスタ化し、可能な限り異なるクラスを遠くにプッシュする表現をもたらす。
提案手法は、複数のモードをまたいだダウンストリーム性能を改善し、実装するコード行数が少なく、計算オーバーヘッドを伴わない。
論文 参考訳(メタデータ) (2020-10-09T14:18:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。