論文の概要: TrueGL: A Truthful, Reliable, and Unified Engine for Grounded Learning in Full-Stack Search
- arxiv url: http://arxiv.org/abs/2506.12072v2
- Date: Fri, 29 Aug 2025 09:25:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 15:42:25.881917
- Title: TrueGL: A Truthful, Reliable, and Unified Engine for Grounded Learning in Full-Stack Search
- Title(参考訳): TrueGL: フルスタック検索における基底学習のための真正で信頼性が高く統一されたエンジン
- Authors: Joydeep Chandra, Aleksandr Algazinov, Satyam Kumar Navneet, Rim El Filali, Matt Laing, Andrew Hanna,
- Abstract要約: 我々は、信頼できる検索結果をよりアクセスしやすくするTrueGLを提示する。
本稿では, インシデントエンジニアリングを用いてシステム評価を行い, それぞれのステートメントを0.1から1の連続信頼性スコアに割り当てる。
モデルの精度、幅広いコンテンツカバレッジ、使いやすさは、信頼できる情報をよりアクセスしやすいものにします。
- 参考スコア(独自算出の注目度): 36.07973770472031
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the age of open and free information, a concerning trend of reliance on AI is emerging. However, existing AI tools struggle to evaluate the credibility of information and to justify their assessments. Hence, there is a growing need for systems that can help users evaluate the trustworthiness of online information. Although major search engines incorporate AI features, they often lack clear reliability indicators. We present TrueGL, a model that makes trustworthy search results more accessible. The model is a fine-tuned version of IBM's Granite-1B, trained on the custom dataset and integrated into a search engine with a reliability scoring system. We evaluate the system using prompt engineering and assigning each statement a continuous reliability score from 0.1 to 1, then instructing the model to return a textual explanation alongside the score. Each model's predicted scores are measured against real scores using standard evaluation metrics. TrueGL consistently outperforms other small-scale LLMs and rule-based approaches across all experiments on key evaluation metrics, including MAE, RMSE, and R2. The model's high accuracy, broad content coverage, and ease of use make trustworthy information more accessible and help reduce the spread of false or misleading content online. Our code is publicly available at https://github.com/AlgazinovAleksandr/TrueGL, and our model is publicly released at https://huggingface.co/JoydeepC/trueGL.
- Abstract(参考訳): オープンで自由な情報の時代には、AIへの依存に関する傾向が出現している。
しかし、既存のAIツールは、情報の信頼性を評価し、それらの評価を正当化するのに苦労している。
そのため,オンライン情報の信頼性を評価するシステムの必要性が高まっている。
主要な検索エンジンにはAI機能が含まれているが、しばしば明確な信頼性指標が欠けている。
我々は、信頼できる検索結果をよりアクセスしやすくするTrueGLを提示する。
このモデルは、カスタムデータセットに基づいてトレーニングされ、信頼性スコアリングシステムを備えた検索エンジンに統合されたIBMのGranite-1Bの微調整バージョンである。
提案手法は, 逐次工学を用いて評価し, それぞれの文に0.1から1までの連続的な信頼性スコアを割り当て, スコアとともにテキストによる説明を返すようモデルに指示する。
各モデルの予測スコアは、標準評価指標を使用して実際のスコアに対して測定される。
TrueGLは、MAE、RMSE、R2を含む主要な評価指標に関するすべての実験において、他の小規模LLMやルールベースのアプローチよりも一貫して優れています。
このモデルの精度、幅広いコンテンツカバレッジ、使いやすさは、信頼できる情報をよりアクセスしやすくし、偽りや誤解を招くコンテンツの拡散を減らすのに役立つ。
私たちのコードはhttps://github.com/AlgazinovAleksandr/TrueGLで公開されており、私たちのモデルはhttps://huggingface.co/JoydeepC/trueGLで公開されています。
関連論文リスト
- Toward Verifiable Misinformation Detection: A Multi-Tool LLM Agent Framework [0.5999777817331317]
本研究は、革新的な誤情報検出LLMエージェントを提案する。
エージェントは、多様なWebソースとの動的相互作用を通じて、クレームを積極的に検証する。
情報ソースの信頼性を評価し、証拠を合成し、完全な検証可能な推論プロセスを提供する。
論文 参考訳(メタデータ) (2025-08-05T05:15:03Z) - Bridging the Data Gap in AI Reliability Research and Establishing DR-AIR, a Comprehensive Data Repository for AI Reliability [4.769924694900377]
AI信頼性の研究における大きな課題は、特に学界の人々にとって、利用可能なAI信頼性データが不足していることである。
本稿では、利用可能なAI信頼性データの総合的なレビューを行い、AI信頼性データのためのデータレポジトリであるDR-AIRを確立する。
論文 参考訳(メタデータ) (2025-02-17T23:50:36Z) - Privacy-Preserving Verifiable Neural Network Inference Service [4.131956503199438]
我々は,クライアントデータサンプルのプライバシを保存するために,プライバシ保護と検証が可能なCNN推論手法を開発した。
vPINは、クライアントデータのプライバシ保証と証明可能な検証性を提供しながら、証明サイズの観点から高い効率を達成する。
論文 参考訳(メタデータ) (2024-11-12T01:09:52Z) - MisinfoEval: Generative AI in the Era of "Alternative Facts" [50.069577397751175]
本稿では,大規模言語モデル(LLM)に基づく誤情報介入の生成と評価を行うフレームワークを提案する。
本研究では,(1)誤情報介入の効果を測定するための模擬ソーシャルメディア環境の実験,(2)ユーザの人口動態や信念に合わせたパーソナライズされた説明を用いた第2の実験について述べる。
以上の結果から,LSMによる介入はユーザの行動の修正に極めて有効であることが確認された。
論文 参考訳(メタデータ) (2024-10-13T18:16:50Z) - Fostering Trust and Quantifying Value of AI and ML [0.0]
AIとML推論の信頼について多くの議論がなされているが、それが何を意味するのかを定義するためにはほとんど行われていない。
より信頼できる機械学習推論を生み出すことは、製品の価値を高めるための道です。
論文 参考訳(メタデータ) (2024-07-08T13:25:28Z) - Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z) - KGTrust: Evaluating Trustworthiness of SIoT via Knowledge Enhanced Graph
Neural Networks [63.531790269009704]
ソーシャル・インターネット・オブ・モノ(Social Internet of Things, SIoT)は、スマート・オブジェクト(物)にソーシャルネットワークの概念を注入する、有望で新興のパラダイムである。
リスクと不確実性のため、解決すべき重要かつ緊急の問題は、SIoT内で信頼性の高い関係、すなわち信頼評価を確立することである。
本稿では,SIoTにおける信頼度向上のための知識強化グラフニューラルネットワーク(KGTrust)を提案する。
論文 参考訳(メタデータ) (2023-02-22T14:24:45Z) - HYCEDIS: HYbrid Confidence Engine for Deep Document Intelligence System [16.542137414609602]
本稿では,文書情報抽出作業における現在のディープラーニングモデルの信頼度を測定するための,完全かつ斬新なアーキテクチャを提案する。
本アーキテクチャは,マルチモーダル・コンフォーマル予測器と変分クラスタ指向異常検出器から構成される。
我々は,本アーキテクチャを実世界のデータセット上で評価し,競合する信頼度推定器を巨大なマージンで上回るだけでなく,分布外データに対する一般化能力を示す。
論文 参考訳(メタデータ) (2022-06-01T09:57:34Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - Personalized multi-faceted trust modeling to determine trust links in
social media and its potential for misinformation management [61.88858330222619]
ソーシャルメディアにおけるピア間の信頼関係を予測するためのアプローチを提案する。
本稿では,データ駆動型多面信頼モデルを提案する。
信頼を意識したアイテムレコメンデーションタスクで説明され、提案したフレームワークを大規模なYelpデータセットのコンテキストで評価する。
論文 参考訳(メタデータ) (2021-11-11T19:40:51Z) - FacTeR-Check: Semi-automated fact-checking through Semantic Similarity
and Natural Language Inference [61.068947982746224]
FacTeR-Checkは、ファクトチェックされた情報の検索、未確認のクレームの検証、ソーシャルメディア上での危険な情報の追跡を可能にする。
このアーキテクチャは、NLI19-SPと呼ばれる新しいデータセットを使って検証されている。
この結果から,各ベンチマークにおける最先端性能と,61種類のホアックスの時間経過に伴う進化の有用な解析結果が得られた。
論文 参考訳(メタデータ) (2021-10-27T15:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。