論文の概要: GPF-LiveNews: A Streaming Evaluation Protocol for Group-Conditioned Framing in Large Language Models
- arxiv url: http://arxiv.org/abs/2605.28848v1
- Date: Sat, 16 May 2026 06:32:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 02:55:43.036637
- Title: GPF-LiveNews: A Streaming Evaluation Protocol for Group-Conditioned Framing in Large Language Models
- Title(参考訳): GPF-LiveNews:大規模言語モデルにおけるグループ定義フレーミングのためのストリーミング評価プロトコル
- Authors: Mohd Ariful Haque, Fahad Rahman, Kishor Datta Gupta, Roy George,
- Abstract要約: GPF-LIVENEWSは、グループ条件フレーミングの監査のためのストリーミング評価プロトコルとベンチマークスナップショットである。
新たなBBC/Reutersニュースアンカーを42のアイデンティティラベルと7つのプロンプトファミリーに拡張し、セマンティックセンシティブと感情格差信号を使用して応答バンドルを評価する。
12回以上の監視走行と23回のモデルで、ポリシー/アクションは最も強力なセマンティック・ムーブメントを生み出す。
我々は,全てのスコアを,ヒトの評定のための観察風監査信号として解釈し,恒久的公正度ランキングや有害バイアスの直接的証明として解釈する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deployed language models are evaluated in a non-stationary environment: model versions, retrieval layers, safety systems, and real-world inputs all change over time. Static bias benchmarks remain useful, but they do not show how models frame newly emerging events for different prompted audiences. We introduce GPF-LIVENEWS, a streaming evaluation protocol and benchmark snapshot for auditing group-conditioned framing in open-ended LLM outputs. The protocol expands fresh BBC/Reuters news anchors across 42 identity labels and seven prompt families, then evaluates response bundles using semantic-sensitivity and sentiment-disparity signals. In a pilot over 12 monitoring runs and 23 hosted models, Policy/Action prompts produce the strongest semantic movement, while sentiment variation is flatter across dimensions and prompt families. The released artifact includes article metadata, prompt templates, instantiated prompts, model-output metadata, score tables, documentation, and reproduction scripts. We interpret all scores as observed-window audit signals for human review, not as permanent fairness rankings or direct proof of harmful bias.
- Abstract(参考訳): デプロイされた言語モデルは、モデルバージョン、検索層、安全システム、実際の入力など、静止しない環境で評価される。
静的バイアスベンチマークは依然として有用であるが、モデルが新しいイベントを異なるオーディエンスにどのようにフレーム化しているかは示していない。
GPF-LIVENEWSは,オープンエンドLLM出力におけるグループ条件フレーミングの監査のための,ストリーミング評価プロトコルおよびベンチマークスナップショットである。
このプロトコルは、BBC/Reutersの新しいニュースアンカーを42のアイデンティティラベルと7つのプロンプトファミリに拡張し、セマンティックセンシティブと感情格差信号を使用して応答バンドルを評価する。
12回以上の監視ランと23回のホストモデルで、ポリシー/アクションのプロンプトは最も強力なセマンティックなムーブメントを生み出します。
リリースされたアーティファクトには、記事メタデータ、プロンプトテンプレート、インスタンス化されたプロンプト、モデル出力メタデータ、スコアテーブル、ドキュメント、再生スクリプトが含まれている。
我々は,全てのスコアを,ヒトの評定のための観察風監査信号として解釈し,恒久的公正度ランキングや有害バイアスの直接的証明として解釈する。
関連論文リスト
- Latent Performance Profiling of Large Language Models [47.009623327601226]
textbfLatent Performance Profiling (LPP) - 隠れたアクティベーションと出力分布からタスクに依存しない診断を導出するフレームワーク。
静的精度スコアとは異なり、LPPは同様のサイズのモデル間で安定でアーキテクチャに敏感なシグネチャを提供する。
類似のベンチマークスコアを持つモデルは、エントロピーや適応性の違いなど、対照的な潜在プロファイルを示すことができることを示す。
論文 参考訳(メタデータ) (2026-05-28T14:41:26Z) - Does it Really Count? Assessing Semantic Grounding in Text-Guided Class-Agnostic Counting [17.927293384172003]
オープンワールドテキスト誘導クラス非依存カウント(CAC)は、自然言語プロンプトを用いて任意のオブジェクトクラスをカウントするためのフレキシブルパラダイムとして登場した。
いくつかの最先端のCACモデルは、与えられたプロンプトに基づいてどのオブジェクトクラスをカウントすべきかを決定するのに苦労している。
モデル堅牢性と信頼性に着目した新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-04T15:55:57Z) - OmniTrace: A Unified Framework for Generation-Time Attribution in Omni-Modal LLMs [31.589945976149973]
我々は、Attributionを世代追跡問題として形式化する軽量でモデルに依存しないフレームワークであるOmniTraceを紹介した。
本研究では, 世代別スパンレベルの属性が, 自己帰属よりも安定かつ解釈可能な説明をもたらすことを示す。
この結果から,属性を構造化された生成時トレース問題として扱うことは,オムニモーダル言語モデルにおける透明性のスケーラブルな基盤となることが示唆された。
論文 参考訳(メタデータ) (2026-03-20T17:25:00Z) - EdiVal-Agent: An Object-Centric Framework for Automated, Fine-Grained Evaluation of Multi-Turn Editing [170.71134330650796]
EdiVal-Agentは、命令ベースの画像編集のためのオブジェクト指向評価フレームワークである。
標準のシングルターンだけでなく、マルチターンの命令ベースの編集を精度良く評価するように設計されている。
EdiVal-Benchは、インコンテキスト、フローマッチング、拡散パラダイムにまたがる9つの命令タイプと13の最先端編集モデルをカバーするベンチマークである。
論文 参考訳(メタデータ) (2025-09-16T17:45:39Z) - FedAPT: Federated Adversarial Prompt Tuning for Vision-Language Models [97.35577473867296]
Federated Adversarial Prompt Tuning (textbfFedAPT)は、FPTの対向性を高めるために設計された新しい手法である。
この問題に対処するために,テキストプロンプトから視覚的なプロンプトを生成するtextbfclass-awareプロンプトジェネレータを提案する。
複数の画像分類データセットの実験は、対向ロバスト性を改善する上でFedAPTの優位性を示している。
論文 参考訳(メタデータ) (2025-09-03T03:46:35Z) - Say It Another Way: Auditing LLMs with a User-Grounded Automated Paraphrasing Framework [17.91981142492207]
本稿では,ユーザ行動に根ざした制御されたフレーズを生成するフレームワークであるAUGMENTを紹介する。
AUGMENTは言語的に情報を得た規則を活用し、命令の順守、意味的類似性、リアリズムのチェックを通じて品質を強制する。
ケーススタディでは、制御されたパラフレーズは、制約のない変動の下で隠されたままの系統的な弱点を明らかにする。
論文 参考訳(メタデータ) (2025-05-06T14:17:30Z) - Vision-Language Models are Strong Noisy Label Detectors [76.07846780815794]
本稿では、視覚言語モデルに適応するためのDeFTと呼ばれるDenoising Fine-Tuningフレームワークを提案する。
DeFTは、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴のロバストなアライメントを利用して、ノイズの多いラベルを抽出する。
7つの合成および実世界のノイズデータセットの実験結果から,ノイズラベル検出と画像分類の両方においてDeFTの有効性が検証された。
論文 参考訳(メタデータ) (2024-09-29T12:55:17Z) - Part-aware Unified Representation of Language and Skeleton for Zero-shot Action Recognition [57.97930719585095]
本稿では,PURLS(Part-aware Unified Representation between Language and Skeleton)を紹介する。
本手法はスケルトン/言語のバックボーンと3つの大規模データセットを用いて評価する。
その結果、PURLSの普遍性と優れた性能を示し、以前のスケルトンベースのソリューションと他のドメインからの標準ベースラインを上回った。
論文 参考訳(メタデータ) (2024-06-19T08:22:32Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。