論文の概要: Trustworthy Large Models in Vision: A Survey
- arxiv url: http://arxiv.org/abs/2311.09680v2
- Date: Fri, 17 Nov 2023 17:51:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 16:05:32.868840
- Title: Trustworthy Large Models in Vision: A Survey
- Title(参考訳): 信頼できる大規模ビジョンモデル:サーベイ
- Authors: Ziyan Guo and Jun Liu
- Abstract要約: 大規模モデル(LM)は、自然言語処理(NLP)やコンピュータビジョン(CV)など、ディープラーニングの様々な分野に革命をもたらした。
LMは、強力なパフォーマンスだが信頼できない振る舞いのために、学界や業界によってますます批判され、批判されている。
本調査では,1)人間の誤用,2)脆弱性,3)固有の問題,4)解釈可能性など,LMのビジョンにおける信頼性の高い使用を阻害する4つの懸念点を要約する。
本調査は,この分野に対する読者の理解を深め,人的期待とLMの整合性を高めるとともに,人類社会の災害というよりも,信頼性の高いLMを福祉として機能させることを期待する。
- 参考スコア(独自算出の注目度): 4.755810523109917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid progress of Large Models (LMs) has recently revolutionized various
fields of deep learning with remarkable grades, ranging from Natural Language
Processing (NLP) to Computer Vision (CV). However, LMs are increasingly
challenged and criticized by academia and industry due to their powerful
performance but untrustworthy behavior, which urgently needs to be alleviated
by reliable methods. Despite the abundance of literature on trustworthy LMs in
NLP, a systematic survey specifically delving into the trustworthiness of LMs
in CV remains absent. In order to mitigate this gap, we summarize four relevant
concerns that obstruct the trustworthy usage in vision of LMs in this survey,
including 1) human misuse, 2) vulnerability, 3) inherent issue and 4)
interpretability. By highlighting corresponding challenge, countermeasures, and
discussion in each topic, we hope this survey will facilitate readers'
understanding of this field, promote alignment of LMs with human expectations
and enable trustworthy LMs to serve as welfare rather than disaster for human
society.
- Abstract(参考訳): 大規模モデル(LM)の急速な進歩は、最近、自然言語処理(NLP)からコンピュータビジョン(CV)まで、様々な分野の深層学習に革命をもたらした。
しかし、LMは強力な性能を持つが信頼できない行動のため、学界や業界によってますます批判され、信頼性の高い方法によって緊急に緩和される必要がある。
NLPにおける信頼できるLMに関する文献が豊富にあるにもかかわらず、CVにおけるLMの信頼性を特に調査する体系的な調査はいまだに残っていない。
このギャップを緩和するために,本調査におけるlmsの視点における信頼に値する利用を妨げる4つの懸念を要約する。
1)人間の誤用。
2)脆弱性。
3)本質的な問題
4) 解釈可能。
それぞれの課題、対策、議論を強調することにより、この調査が読者のこの分野に対する理解を促進し、LMと人間の期待との整合を促進し、人類社会の災害というよりは、信頼できるLMを福祉として機能させることを期待する。
関連論文リスト
- Belief in the Machine: Investigating Epistemological Blind Spots of Language Models [51.63547465454027]
言語モデル(LM)は、医療、法律、ジャーナリズムといった分野において、信頼できる意思決定に不可欠である。
本研究は,新しいデータセットであるKaBLEを用いて,GPT-4,Claude-3,Llama-3を含む現代のLMの能力を体系的に評価する。
まず、LMは事実シナリオで86%の精度を達成するが、その性能は偽シナリオで著しく低下する。
第二に、特にこれらの信念が事実データと矛盾する場合、LMは個人的信念を認識し、肯定するのに苦労する。
論文 参考訳(メタデータ) (2024-10-28T16:38:20Z) - A Survey on the Honesty of Large Language Models [115.8458596738659]
正直とは、大きな言語モデル(LLM)を人間の価値と整合させる基本的な原則である。
将来性はあるものの、現在のLLMは依然として重大な不正直な行動を示す。
論文 参考訳(メタデータ) (2024-09-27T14:34:54Z) - Quantitative Insights into Language Model Usage and Trust in Academia: An Empirical Study [29.750000639372203]
LMの使用範囲、アウトプットに対するユーザの信頼度、および現実世界の開発に優先すべき課題について、量的証拠に顕著なギャップがある。
本研究は,私立学校で125名を対象に調査を行い,前処理後の88点のデータを得た。
定量的分析と質的証拠により,信頼度は有意な変動がみられた。
論文 参考訳(メタデータ) (2024-09-13T20:45:50Z) - BeHonest: Benchmarking Honesty in Large Language Models [23.192389530727713]
我々は、大規模言語モデルにおける誠実さを評価するために特別に設計された、先駆的なベンチマークであるBeHonestを紹介する。
BeHonest氏は、知識境界の認識、偽造の回避、応答の一貫性の3つの重要な側面を評価している。
以上の結果から,LSMの正直性には改善の余地がまだ残っていることが示唆された。
論文 参考訳(メタデータ) (2024-06-19T06:46:59Z) - Benchmarking Trustworthiness of Multimodal Large Language Models: A Comprehensive Study [51.19622266249408]
MultiTrustはMLLMの信頼性に関する最初の総合的で統一されたベンチマークである。
我々のベンチマークでは、マルチモーダルリスクとクロスモーダルインパクトの両方に対処する厳格な評価戦略を採用している。
21の近代MLLMによる大規模な実験は、これまで調査されなかった信頼性の問題とリスクを明らかにしている。
論文 参考訳(メタデータ) (2024-06-11T08:38:13Z) - Overconfidence is Key: Verbalized Uncertainty Evaluation in Large Language and Vision-Language Models [6.9060054915724]
言語と視覚言語モデル(LLMs/VLMs)は、人間のようなテキストを生成し、画像を理解する能力によってAIの分野に革命をもたらしたが、信頼性の確保は不可欠である。
本稿では,LLM (GPT4, GPT-3.5, LLaMA2, PaLM2) と VLM (GPT4V, Gemini Pro Vision) の言語的不確実性を評価することを目的とした。
本稿では,難解なクエリやオブジェクトカウントによるVLM機能テストを目的とした日本語不確実シーンデータセットと,誤校正の方向を測定するNet Errorデータセットを提案する。
論文 参考訳(メタデータ) (2024-05-05T12:51:38Z) - Relying on the Unreliable: The Impact of Language Models' Reluctance to Express Uncertainty [53.336235704123915]
提案手法は, 自然言語による応答の信頼度と, LMによる不確実性に応答して下流ユーザーがどのように振る舞うかを考察する。
誤応答を生じた場合でも,LMは疑問に答える際の不確実性を表現することに消極的であることがわかった。
我々は、人間の実験によって、LM過信のリスクを検証し、ユーザがLM世代に大きく依存していることを示します。
最後に、トレーニング後のアライメントに使用する嗜好アノテートデータセットを調査し、不確実性のあるテキストに対して人間がバイアスを受けていることを確認する。
論文 参考訳(メタデータ) (2024-01-12T18:03:30Z) - A Survey of Confidence Estimation and Calibration in Large Language Models [86.692994151323]
大規模言語モデル(LLM)は、様々な領域において幅広いタスクにまたがる顕著な機能を示している。
印象的なパフォーマンスにもかかわらず、彼らは世代内の事実上の誤りのために信頼できない。
信頼度を評価し、異なるタスクで調整することで、リスクを軽減し、LLMがより良い世代を創出できるようになります。
論文 参考訳(メタデータ) (2023-11-14T16:43:29Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。