論文の概要: Behavioral Bias of Vision-Language Models: A Behavioral Finance View
- arxiv url: http://arxiv.org/abs/2409.15256v1
- Date: Mon, 23 Sep 2024 17:54:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 13:43:14.942572
- Title: Behavioral Bias of Vision-Language Models: A Behavioral Finance View
- Title(参考訳): 視覚言語モデルの行動バイアス--行動ファイナンスの視点から
- Authors: Yuhang Xiao, Yudi Lin, Ming-Chang Chiu,
- Abstract要約: 本稿では,LVLM(Large Vision-Language Models)の行動バイアスについて,行動金融の観点から検討する。
評価の結果,LLaVA-NeXT,MobileVLM-V2,Mini-Gemini,Mini-Llama3-V 2.5,Phi-3-vision-128kといったオープンソースのLVLMは,これらの2つのバイアスに大きく影響していることがわかった。
私たちの観察では、オープンソースモデルの改善の方向性を強調しています。
- 参考スコア(独自算出の注目度): 1.7205106391379021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) evolve rapidly as Large Language Models (LLMs) was equipped with vision modules to create more human-like models. However, we should carefully evaluate their applications in different domains, as they may possess undesired biases. Our work studies the potential behavioral biases of LVLMs from a behavioral finance perspective, an interdisciplinary subject that jointly considers finance and psychology. We propose an end-to-end framework, from data collection to new evaluation metrics, to assess LVLMs' reasoning capabilities and the dynamic behaviors manifested in two established human financial behavioral biases: recency bias and authority bias. Our evaluations find that recent open-source LVLMs such as LLaVA-NeXT, MobileVLM-V2, Mini-Gemini, MiniCPM-Llama3-V 2.5 and Phi-3-vision-128k suffer significantly from these two biases, while the proprietary model GPT-4o is negligibly impacted. Our observations highlight directions in which open-source models can improve. The code is available at https://github.com/mydcxiao/vlm_behavioral_fin.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、LLM(Large Language Models)が視覚モジュールを備え、より人間的なモデルを作成することで急速に進化する。
しかし、望ましくないバイアスを持つ可能性があるため、異なるドメインでのアプリケーションの評価を慎重に行う必要がある。
本研究は,LVLMの行動バイアスについて,行動金融の観点から検討した。
本稿では,データ収集から新たな評価指標まで,LVLMの推論能力と,信頼度バイアスと権限バイアスの2つの確立された財務行動バイアスに現れる動的行動を評価するためのエンドツーエンドフレームワークを提案する。
評価の結果,LLaVA-NeXT,MobileVLM-V2,Mini-Gemini,MiniCPM-Llama3-V 2.5,Phi-3-vision-128kといった最近のオープンソースLVLMはこれらの2つのバイアスに大きく影響している。
私たちの観察では、オープンソースモデルの改善の方向性を強調しています。
コードはhttps://github.com/mydcxiao/vlm_behavioral_finで公開されている。
関連論文リスト
- VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - Are Bigger Encoders Always Better in Vision Large Models? [21.797332686137203]
マルチモーダルな大言語モデル (MLLM) は、現実世界の応用において大きな可能性を示している。
現在の主流パラダイム下での視覚言語モデル(VLM)のスケーリング傾向は、広く研究されていない。
我々は,異なるエンコーダサイズと大言語モデル(LLM)サイズを用いて,MLLMの事前学習段階の実験を行う。
論文 参考訳(メタデータ) (2024-08-01T15:05:42Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - CogBench: a large language model walks into a psychology lab [12.981407327149679]
本稿では,7つの認知心理学実験から得られた10の行動指標を含むベンチマークであるCogBenchを紹介する。
本稿では,CagBenchを35大言語モデル(LLM)に適用し,統計的多レベルモデリング手法を用いて解析する。
オープンソースモデルは、プロプライエタリなモデルよりもリスクが高く、コードの微調整は必ずしもLLMの振舞いを促進しない。
論文 参考訳(メタデータ) (2024-02-28T10:43:54Z) - Dynamic Evaluation of Large Language Models by Meta Probing Agents [44.20074234421295]
大規模言語モデル(LLM)を評価するためのメタ・プロブリング・エージェント(MPA)を提案する。
MPAはDyVal 2の重要なコンポーネントであり、DyValcitepzhu2023dyvalを自然に拡張している。
MPAは、探索および判定エージェントを設計し、元の評価問題を心理測定理論に従って新しいものに自動的に変換する。
論文 参考訳(メタデータ) (2024-02-21T06:46:34Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - Are You Sure? Challenging LLMs Leads to Performance Drops in The
FlipFlop Experiment [82.60594940370919]
大規模言語モデル(LLM)のマルチターン動作を研究するためのFlipFlop実験を提案する。
モデルが平均46%の時間で回答を反転させ、全てのモデルが最初の予測と最終予測の間に精度を低下させ、平均17%の低下(FlipFlop効果)を示す。
我々はオープンソースのLLMで微調整実験を行い、合成されたデータに対する微調整は、性能劣化を60%低減させることができるが、サイコファンティックな振る舞いを完全には解決できないことを発見した。
論文 参考訳(メタデータ) (2023-11-14T23:40:22Z) - From Values to Opinions: Predicting Human Behaviors and Stances Using
Value-Injected Large Language Models [10.520548925719565]
本稿では,価値注入型大言語モデル(LLM)を用いて意見や行動を予測することを提案する。
VIMの有効性を検証するために,4つのタスクについて一連の実験を行った。
以上の結果から,基本的アプローチよりも価値注入型LCMの方が,意見や行動の予測が優れていることが示唆された。
論文 参考訳(メタデータ) (2023-10-27T02:18:10Z) - Survey of Social Bias in Vision-Language Models [65.44579542312489]
調査の目的は、NLP、CV、VLをまたいだ事前学習モデルにおける社会バイアス研究の類似点と相違点について、研究者に高いレベルの洞察を提供することである。
ここで提示された発見とレコメンデーションはMLコミュニティの利益となり、公平でバイアスのないAIモデルの開発を促進する。
論文 参考訳(メタデータ) (2023-09-24T15:34:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。