論文の概要: Can We Trust a Black-box LLM? LLM Untrustworthy Boundary Detection via Bias-Diffusion and Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.05483v1
- Date: Tue, 07 Apr 2026 06:24:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.660994
- Title: Can We Trust a Black-box LLM? LLM Untrustworthy Boundary Detection via Bias-Diffusion and Multi-Agent Reinforcement Learning
- Title(参考訳): ブラックボックス LLM を信頼できるか? バイアス拡散とマルチエージェント強化学習による信頼できない境界検出
- Authors: Xiaotian Zhou, Di Tang, Xiaofeng Wang, Xiaozhong Liu,
- Abstract要約: 大きな言語モデル(LLM)は、さまざまなトピックに関する質問に答える能力が高いことを示している。
LLMはバイアスのある、イデオロギー化された、あるいは誤ったレスポンスを生成し、どのトピックが信頼できるかを明確に理解していない場合、アプリケーションを制限する。
本稿では,GMRL-BDと命名された新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 22.559085865596728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have shown a high capability in answering questions on a diverse range of topics. However, these models sometimes produce biased, ideologized or incorrect responses, limiting their applications if there is no clear understanding of which topics their answers can be trusted. In this research, we introduce a novel algorithm, named as GMRL-BD, designed to identify the untrustworthy boundaries (in terms of topics) of a given LLM, with black-box access to the LLM and under specific query constraints. Based on a general Knowledge Graph (KG) derived from Wikipedia, our algorithm incorporates with multiple reinforcement learning agents to efficiently identify topics (some nodes in KG) where the LLM is likely to generate biased answers. Our experiments demonstrated the efficiency of our algorithm, which can detect the untrustworthy boundary with just limited queries to the LLM. Additionally, we have released a new dataset containing popular LLMs including Llama2, Vicuna, Falcon, Qwen2, Gemma2 and Yi-1.5, along with labels indicating the topics on which each LLM is likely to be biased.
- Abstract(参考訳): 大きな言語モデル(LLM)は、さまざまなトピックに関する質問に答える能力が高いことを示している。
しかしながら、これらのモデルはバイアス、イデオロギー化、あるいは誤った反応を生じさせ、どのトピックが信頼できるかを明確に理解できない場合、アプリケーションを制限することがある。
本研究では,GMRL-BD と呼ばれる新しいアルゴリズムを導入し,与えられた LLM の信頼できない境界(トピックの観点から)を識別し,ブラックボックスで LLM にアクセスし,特定のクエリ制約を課す。
このアルゴリズムはウィキペディアから派生した一般知識グラフ(KG)に基づいて,複数の強化学習エージェントを組み込んで,LLMが偏りを生じやすいトピック(KG内のノード)を効率的に識別する。
実験では,LLMに対する限られたクエリで信頼できない境界を検出するアルゴリズムの有効性を実証した。
さらに、Llama2、Vicuna、Falcon、Qwen2、Gemma2、Yi-1.5といった人気のあるLLMを含む新しいデータセットもリリースしました。
関連論文リスト
- Perception of Knowledge Boundary for Large Language Models through Semi-open-ended Question Answering [67.94354589215637]
大きな言語モデル(LLM)は知識探索に広く用いられているが、幻覚に悩まされている。
本稿では,LLMの知識境界(KB)を半オープンな質問(SoeQ)で知覚する。
GPT-4 は SoeQ では性能が悪く,KB に気づいていないことが多い。
我々の補助モデルであるLLaMA-2-13Bは、より曖昧な答えを見つけるのに有効である。
論文 参考訳(メタデータ) (2024-05-23T10:00:14Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - Reasoning on Efficient Knowledge Paths:Knowledge Graph Guides Large Language Model for Domain Question Answering [18.94220625114711]
大きな言語モデル(LLM)は驚くほどよく機能し、多くのタスクにおいて人間の専門家より優れています。
本稿では,LLMに基づいてKGから推論経路を選択するパイプラインを統合し,最適化する。
また,思考の連鎖(CoT)とページランクに基づく,シンプルで効果的なサブグラフ検索手法を提案する。
論文 参考訳(メタデータ) (2024-04-16T08:28:16Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - Knowing What LLMs DO NOT Know: A Simple Yet Effective Self-Detection Method [36.24876571343749]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて大きな可能性を示している。
近年の文献では、LLMは断続的に非実効応答を生成する。
本研究では,LLM が知らない質問が非現実的な結果を生成する傾向にあることを検知する新たな自己検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-27T06:22:14Z) - Generating with Confidence: Uncertainty Quantification for Black-box Large Language Models [37.63939774027709]
自然言語生成(NLG)に特化した大規模言語モデル(LLM)が,最近,有望な機能を示すようになった。
我々は、信頼できない結果が無視されるか、さらなる評価のために得られるような、選択的なNLG*に適用し、いくつかの信頼/不確実性対策を提案し、比較する。
その結果, セマンティックな分散の簡易な測定は, LLM応答の質の信頼性を予測できることがわかった。
論文 参考訳(メタデータ) (2023-05-30T16:31:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。