論文の概要: Trustworthy Large Models in Vision: A Survey
- arxiv url: http://arxiv.org/abs/2311.09680v1
- Date: Thu, 16 Nov 2023 08:49:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 15:32:36.735858
- Title: Trustworthy Large Models in Vision: A Survey
- Title(参考訳): 信頼できる大規模ビジョンモデル:サーベイ
- Authors: Ziyan Guo and Jun Liu
- Abstract要約: 大規模モデル(LM)の急速な進歩は、近年、顕著な成績で様々なディープラーニングの分野に革命をもたらした。
LMは、強力なパフォーマンスだが信頼できない振る舞いのために、学界や業界によってますます批判され、批判されている。
言語における信頼できるLMに関する文献が豊富にあるにもかかわらず、視覚におけるLMの信頼性を特に調査する体系的な調査はいまだに残っていない。
- 参考スコア(独自算出の注目度): 4.755810523109917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid progress of Large Models (LMs) has recently revolutionized various
fields of deep learning with remarkable grades, ranging from Natural Language
Processing (NLP) to Computer Vision (CV). However, LMs are increasingly
challenged and criticized by academia and industry due to their powerful
performance but untrustworthy behavior, which urgently needs to be alleviated
in reliable methods. Despite the abundance of literature on trustworthy LMs in
language, a systematic survey specifically delving into the trustworthiness of
LMs in vision remains absent. In order to mitigate this gap, we summarize four
relevant concerns that obstruct the trustworthy usage in vision of LMs in this
survey, including 1) human misuse, 2) vulnerability, 3) inherent issue and 4)
interpretability. By highlighting corresponding challenge, countermeasures, and
discussion in each topic, we hope this survey will facilitate readers'
understanding of the field, promote alignment of LMs with human expectations
and enable trustworthy LMs to serve as welfare rather than disaster for human
society.
- Abstract(参考訳): 大規模モデル(LM)の急速な進歩は、最近、自然言語処理(NLP)からコンピュータビジョン(CV)まで、様々な分野の深層学習に革命をもたらした。
しかし、LMは強力な性能を持つが信頼できない行動のため、学界や業界によってますます批判され、信頼性の高い方法で緊急に緩和する必要がある。
言語における信頼できるLMに関する文献が豊富にあるにもかかわらず、視覚におけるLMの信頼性を特に調査する体系的な調査はいまだに残っていない。
このギャップを緩和するために,本調査におけるlmsの視点における信頼に値する利用を妨げる4つの懸念を要約する。
1)人間の誤用。
2)脆弱性。
3)本質的な問題
4) 解釈可能。
本調査は,各トピックにおける課題,対策,議論を強調することにより,読者のフィールド理解を促進し,LMと人間の期待の一致を促進し,信頼性の高いLMを人間社会の災害ではなく福祉として機能させることを期待する。
関連論文リスト
- Belief in the Machine: Investigating Epistemological Blind Spots of Language Models [51.63547465454027]
言語モデル(LM)は、医療、法律、ジャーナリズムといった分野において、信頼できる意思決定に不可欠である。
本研究は,新しいデータセットであるKaBLEを用いて,GPT-4,Claude-3,Llama-3を含む現代のLMの能力を体系的に評価する。
まず、LMは事実シナリオで86%の精度を達成するが、その性能は偽シナリオで著しく低下する。
第二に、特にこれらの信念が事実データと矛盾する場合、LMは個人的信念を認識し、肯定するのに苦労する。
論文 参考訳(メタデータ) (2024-10-28T16:38:20Z) - A Survey on the Honesty of Large Language Models [115.8458596738659]
正直とは、大きな言語モデル(LLM)を人間の価値と整合させる基本的な原則である。
将来性はあるものの、現在のLLMは依然として重大な不正直な行動を示す。
論文 参考訳(メタデータ) (2024-09-27T14:34:54Z) - Quantitative Insights into Language Model Usage and Trust in Academia: An Empirical Study [29.750000639372203]
LMの使用範囲、アウトプットに対するユーザの信頼度、および現実世界の開発に優先すべき課題について、量的証拠に顕著なギャップがある。
本研究は,私立学校で125名を対象に調査を行い,前処理後の88点のデータを得た。
定量的分析と質的証拠により,信頼度は有意な変動がみられた。
論文 参考訳(メタデータ) (2024-09-13T20:45:50Z) - BeHonest: Benchmarking Honesty in Large Language Models [23.192389530727713]
我々は、大規模言語モデルにおける誠実さを評価するために特別に設計された、先駆的なベンチマークであるBeHonestを紹介する。
BeHonest氏は、知識境界の認識、偽造の回避、応答の一貫性の3つの重要な側面を評価している。
以上の結果から,LSMの正直性には改善の余地がまだ残っていることが示唆された。
論文 参考訳(メタデータ) (2024-06-19T06:46:59Z) - Benchmarking Trustworthiness of Multimodal Large Language Models: A Comprehensive Study [51.19622266249408]
MultiTrustはMLLMの信頼性に関する最初の総合的で統一されたベンチマークである。
我々のベンチマークでは、マルチモーダルリスクとクロスモーダルインパクトの両方に対処する厳格な評価戦略を採用している。
21の近代MLLMによる大規模な実験は、これまで調査されなかった信頼性の問題とリスクを明らかにしている。
論文 参考訳(メタデータ) (2024-06-11T08:38:13Z) - Overconfidence is Key: Verbalized Uncertainty Evaluation in Large Language and Vision-Language Models [6.9060054915724]
言語と視覚言語モデル(LLMs/VLMs)は、人間のようなテキストを生成し、画像を理解する能力によってAIの分野に革命をもたらしたが、信頼性の確保は不可欠である。
本稿では,LLM (GPT4, GPT-3.5, LLaMA2, PaLM2) と VLM (GPT4V, Gemini Pro Vision) の言語的不確実性を評価することを目的とした。
本稿では,難解なクエリやオブジェクトカウントによるVLM機能テストを目的とした日本語不確実シーンデータセットと,誤校正の方向を測定するNet Errorデータセットを提案する。
論文 参考訳(メタデータ) (2024-05-05T12:51:38Z) - Relying on the Unreliable: The Impact of Language Models' Reluctance to Express Uncertainty [53.336235704123915]
提案手法は, 自然言語による応答の信頼度と, LMによる不確実性に応答して下流ユーザーがどのように振る舞うかを考察する。
誤応答を生じた場合でも,LMは疑問に答える際の不確実性を表現することに消極的であることがわかった。
我々は、人間の実験によって、LM過信のリスクを検証し、ユーザがLM世代に大きく依存していることを示します。
最後に、トレーニング後のアライメントに使用する嗜好アノテートデータセットを調査し、不確実性のあるテキストに対して人間がバイアスを受けていることを確認する。
論文 参考訳(メタデータ) (2024-01-12T18:03:30Z) - A Survey of Confidence Estimation and Calibration in Large Language Models [86.692994151323]
大規模言語モデル(LLM)は、様々な領域において幅広いタスクにまたがる顕著な機能を示している。
印象的なパフォーマンスにもかかわらず、彼らは世代内の事実上の誤りのために信頼できない。
信頼度を評価し、異なるタスクで調整することで、リスクを軽減し、LLMがより良い世代を創出できるようになります。
論文 参考訳(メタデータ) (2023-11-14T16:43:29Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。