Fugu-MT 論文翻訳(概要): LLM BiasScope: A Real-Time Bias Analysis Platform for Comparative LLM Evaluation

論文の概要: LLM BiasScope: A Real-Time Bias Analysis Platform for Comparative LLM Evaluation

arxiv url: http://arxiv.org/abs/2603.12522v1
Date: Thu, 12 Mar 2026 23:50:40 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-16 17:38:11.810771
Title: LLM BiasScope: A Real-Time Bias Analysis Platform for Comparative LLM Evaluation
Title（参考訳）: LLM BiasScope: LLMの比較評価のためのリアルタイムバイアス解析プラットフォーム
Authors: Himel Ghosh, Nick Elias Werner,
Abstract要約: LLM BiasScopeは,大規模言語モデル(LLM)とリアルタイムバイアス解析との比較を行うウェブアプリケーションである。このシステムは複数のプロバイダ(Google Gemini、DeepSeek、MiniMax、Mistral、Meituan、Meta Llama)をサポートし、研究者や実践者はバイアスパターンを分析しながら同じプロンプト上のモデルを比較することができる。このインタフェースは、同期されたストリーミング応答、モデルごとのバイアスサマリー、バイアス分布の違いをハイライトする比較ビューの2つを並べて表示する。
参考スコア（独自算出の注目度）: 0.21485350418225244
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As large language models (LLMs) are deployed widely, detecting and understanding bias in their outputs is critical. We present LLM BiasScope, a web application for side-by-side comparison of LLM outputs with real-time bias analysis. The system supports multiple providers (Google Gemini, DeepSeek, MiniMax, Mistral, Meituan, Meta Llama) and enables researchers and practitioners to compare models on the same prompts while analyzing bias patterns. LLM BiasScope uses a two-stage bias detection pipeline: sentence-level bias detection followed by bias type classification for biased sentences. The analysis runs automatically on both user prompts and model responses, providing statistics, visualizations, and detailed breakdowns of bias types. The interface displays two models side-by-side with synchronized streaming responses, per-model bias summaries, and a comparison view highlighting differences in bias distributions. The system is built on Next.js with React, integrates Hugging Face inference endpoints for bias detection, and uses the Vercel AI SDK for multi-provider LLM access. Features include real-time streaming, export to JSON/PDF, and interactive visualizations (bar charts, radar charts) for bias analysis. LLM BiasScope is available as an open-source web application, providing a practical tool for bias evaluation and comparative analysis of LLM behaviour.
Abstract（参考訳）: 大規模言語モデル(LLM)が広くデプロイされているため、アウトプットのバイアスを検出し、理解することが重要である。 LLM出力とリアルタイムバイアス解析を並べて比較する Web アプリケーション LLM BiasScope を提案する。このシステムは複数のプロバイダ(Google Gemini、DeepSeek、MiniMax、Mistral、Meituan、Meta Llama)をサポートし、研究者や実践者はバイアスパターンを分析しながら同じプロンプト上のモデルを比較することができる。 LLM BiasScopeは2段階のバイアス検出パイプラインを使用する。分析はユーザープロンプトとモデル応答の両方で自動的に実行され、統計、視覚化、バイアスタイプの詳細な分析を提供する。このインタフェースは、同期されたストリーミング応答、モデルごとのバイアスサマリー、バイアス分布の違いをハイライトする比較ビューの2つを並べて表示する。このシステムはReactでNext.js上に構築されており、バイアス検出のためにHugging Face推論エンドポイントを統合し、マルチプロジェクタLLMアクセスにVercel AI SDKを使用している。機能としては、リアルタイムストリーミング、JSON/PDFへのエクスポート、バイアス分析のためのインタラクティブな視覚化(バーチャート、レーダチャート)などがある。 LLM BiasScopeはオープンソースのWebアプリケーションとして利用でき、LLMの振る舞いのバイアス評価と比較分析のための実用的なツールを提供する。

関連論文リスト

Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation [89.52571224447111]
大規模言語モデル(LLM)の判断は、要約のようなタスクのために、伝統的なアルゴリズムベースのメトリクスと併用されることが多い。要約領域における人書き応答と重なる関数としてLLM判定バイアス分析を提案する。
論文参考訳（メタデータ） (2026-02-07T19:39:28Z)
BiasFreeBench: a Benchmark for Mitigating Bias in Large Language Model Responses [32.58830706120845]
大規模言語モデル(LLM)のバイアス緩和手法に関する既存の研究は、様々なベースラインとメトリクスを用いてバイアス低減性能を評価する。 BiasFreeBenchは8つの主流バイアス緩和手法を包括的に比較した経験的ベンチマークである。我々は、バイアス軽減研究のための統合テストベッドを確立することを目的として、我々のベンチマークを公開します。
論文参考訳（メタデータ） (2025-09-30T19:56:54Z)
Video-LevelGauge: Investigating Contextual Positional Bias in Large Video Language Models [51.67019924750931]
Video-LevelGaugeは、大規模ビデオ言語モデル(LVLM)における位置バイアスを評価するために設計されたベンチマークである。我々は、標準化されたプローブとカスタマイズされたコンテキスト設定を採用し、コンテキスト長、プローブ位置、コンテキストタイプを柔軟に制御できる。ベンチマークでは、複数のタイプにまたがる438の動画を手動でキュレートし、117の高品質なマルチチョイスの質問と120のオープンエンドの質問を得た。
論文参考訳（メタデータ） (2025-08-27T07:58:16Z)
CLEAR: Error Analysis via LLM-as-a-Judge Made Easy [9.285203198113917]
LLMに基づくエラー解析のための対話型オープンソースパッケージであるCLEARを紹介する。 CLEARはまずインスタンスごとのテキストフィードバックを生成し、次に一連のシステムレベルのエラー問題を生成し、それぞれの問題の有効性を定量化する。当社のパッケージはユーザに対して,集計視覚化による包括的なエラー解析を可能にする,インタラクティブなダッシュボードも提供しています。
論文参考訳（メタデータ） (2025-07-24T13:15:21Z)
Relative Bias: A Comparative Framework for Quantifying Bias in LLMs [29.112649816695203]
相対バイアス(Relative Bias)は、LLMの振る舞いが特定のターゲットドメイン内の他のLLMとどのようにずれているかを評価するために設計された手法である。本稿では,(1)埋め込み空間上の文表現を通して相対的バイアスパターンをキャプチャする埋め込み変換解析と,(2)言語モデルを用いて出力を相対的に評価するLLM-as-a-Judgeという2つの相補的手法を紹介する。検証のための統計的テストに続くバイアスとアライメントのシナリオに関するいくつかのケーススタディに我々のフレームワークを適用し、この2つのスコアリング手法の間に強い整合性を見出した。
論文参考訳（メタデータ） (2025-05-22T01:59:54Z)
Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文参考訳（メタデータ） (2024-02-18T03:10:39Z)
Self-Supervised Position Debiasing for Large Language Models [39.261233221850155]
大規模言語モデル(LLM)における位置バイアスを軽減するための自己教師型位置偏差検出(SOD)フレームワークを提案する。 8つのデータセットと5つのタスクの実験により、SODは3つのタイプの位置バイアスを緩和する既存の手法より一貫して優れていることが示された。
論文参考訳（メタデータ） (2024-01-02T14:12:41Z)
Towards Debiasing Temporal Sentence Grounding in Video [59.42702544312366]
ビデオ(TSGV)タスクの時間文グラウンドングは、未編集のビデオから時間モーメントを見つけ、言語クエリにマッチさせることである。モーメントアノテーションのバイアスを考慮せずに、多くのモデルはモーメントアノテーションの統計的規則性を捉える傾向がある。本稿では,データデバイアスとモデルデバイアスという2つのデバイアス戦略を提案する。
論文参考訳（メタデータ） (2021-11-08T08:18:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。