論文の概要: Chain-of-Thought Prompting for Demographic Inference with Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2405.15687v1
- Date: Fri, 24 May 2024 16:26:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 13:20:55.756073
- Title: Chain-of-Thought Prompting for Demographic Inference with Large Multimodal Models
- Title(参考訳): 大規模マルチモーダルモデルを用いた図形推論のためのチェーン・オブ・サート・プロンプト
- Authors: Yongsheng Yu, Jiebo Luo,
- Abstract要約: 大規模マルチモーダルモデル (LMM) は、様々な研究課題において変換可能性を示している。
以上の結果から,LMMはゼロショット学習,解釈可能性,未修正入力の処理に長所があることが示唆された。
本稿では,目標外予測問題を効果的に緩和するChain-of-Thought拡張プロンプト手法を提案する。
- 参考スコア(独自算出の注目度): 58.58594658683919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional demographic inference methods have predominantly operated under the supervision of accurately labeled data, yet struggle to adapt to shifting social landscapes and diverse cultural contexts, leading to narrow specialization and limited accuracy in applications. Recently, the emergence of large multimodal models (LMMs) has shown transformative potential across various research tasks, such as visual comprehension and description. In this study, we explore the application of LMMs to demographic inference and introduce a benchmark for both quantitative and qualitative evaluation. Our findings indicate that LMMs possess advantages in zero-shot learning, interpretability, and handling uncurated 'in-the-wild' inputs, albeit with a propensity for off-target predictions. To enhance LMM performance and achieve comparability with supervised learning baselines, we propose a Chain-of-Thought augmented prompting approach, which effectively mitigates the off-target prediction issue.
- Abstract(参考訳): 従来の人口推定手法は、正確にラベル付けされたデータの監督の下で主に運用されてきたが、変化する社会的景観や多様な文化的文脈への適応に苦慮している。
近年,大規模マルチモーダルモデル (LMM) の出現は,視覚的理解や記述など,様々な研究課題にまたがるトランスフォーメーションの可能性を示している。
本研究では,LMMの人口動態推定への応用について検討し,定量評価と定性評価のベンチマークを導入する。
以上の結果から,LMMにはゼロショット学習,解釈可能性,未修正の「イン・ザ・ワイルド」入力の処理に優位性があることが示唆された。
LMMの性能向上と教師付き学習ベースラインとの整合性向上を目的として,目標外予測問題を効果的に緩和するChain-of-Thought拡張プロンプト手法を提案する。
関連論文リスト
- Fair In-Context Learning via Latent Concept Variables [17.216196320585922]
大規模言語モデル(LLM)は、学習前のデータから社会的偏見と差別を継承することができる。
我々は、予測結果と敏感な変数との相関を低減し、潜在概念学習における公平性の促進を支援するデータ強化戦略を設計する。
論文 参考訳(メタデータ) (2024-11-04T23:10:05Z) - The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio [118.75449542080746]
本稿では,大規模マルチモーダルモデル(LMM)における幻覚に関する最初の系統的研究について述べる。
本研究は,幻覚に対する2つの重要な要因を明らかにした。
私たちの研究は、モダリティ統合の不均衡やトレーニングデータからのバイアスなど、重要な脆弱性を強調し、モダリティ間のバランスの取れた学習の必要性を強調した。
論文 参考訳(メタデータ) (2024-10-16T17:59:02Z) - MICM: Rethinking Unsupervised Pretraining for Enhanced Few-shot Learning [18.152453141040464]
教師なしのFew-Shot Learningは、最初のトレーニングフェーズにおける注釈付きデータセットへの依存を減らすことで、この分割を橋渡ししようとしている。
まず,マスクド画像モデリング (MIM) とコントラスト学習 (CL) が学習課題に与える影響を定量的に評価した。
教師なし事前訓練における一般化と差別性の間のトレードオフに対処するために,マスク付き画像コントラストモデリング(MICM)という新しいパラダイムを導入する。
論文 参考訳(メタデータ) (2024-08-23T21:32:53Z) - Adapting Large Multimodal Models to Distribution Shifts: The Role of In-Context Learning [41.59855801010565]
大規模マルチモーダルモデル(LMM)は汎用アシスタントとして機能し、異なる分布に対して非常に堅牢である。
それにもかかわらず、特に医療のような専門分野において、ドメイン固有の適応は依然として必要である。
本研究は,LMMの適応性向上のための効果的な代替手段として,文脈内学習(ICL)について検討する。
論文 参考訳(メタデータ) (2024-05-20T17:59:21Z) - Enhancing Fairness and Performance in Machine Learning Models: A Multi-Task Learning Approach with Monte-Carlo Dropout and Pareto Optimality [1.5498930424110338]
本研究では,モデル不確実性を利用した機械学習におけるバイアス軽減手法を提案する。
提案手法では,モンテカルロ・ドロップアウト(MC)と組み合わせたマルチタスク学習(MTL)フレームワークを用いて,保護ラベルに関連する予測の不確実性を評価・緩和する。
論文 参考訳(メタデータ) (2024-04-12T04:17:50Z) - Benchmarking Sequential Visual Input Reasoning and Prediction in
Multimodal Large Language Models [21.438427686724932]
本稿では,MLLMの予測推論能力を様々なシナリオで評価する新しいベンチマークを提案する。
本ベンチマークでは,抽象パターン推論,人間活動予測,物理的相互作用予測という3つの重要な領域を対象としている。
実験により,提案したベンチマークの音質と評価方法が検証された。
論文 参考訳(メタデータ) (2023-10-20T13:14:38Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。