Fugu-MT 論文翻訳(概要): Quantifying Uncertainty in AI Visibility: A Statistical Framework for Generative Search Measurement

論文の概要: Quantifying Uncertainty in AI Visibility: A Statistical Framework for Generative Search Measurement

arxiv url: http://arxiv.org/abs/2603.08924v1
Date: Mon, 09 Mar 2026 20:47:22 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-11 15:25:23.822211
Title: Quantifying Uncertainty in AI Visibility: A Statistical Framework for Generative Search Measurement
Title（参考訳）: AIの可視性における不確かさの定量化: 生成的検索測定のための統計フレームワーク
Authors: Ronald Sielinski,
Abstract要約: 生成探索における領域可視性の測定への現在のアプローチは、通常、引用共有と有病率の単一実行点推定に依存する。本論では, 参照可視度は, 固定値ではなく, 基礎となる応答分布の標本推定器として扱うべきである。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: AI-powered answer engines are inherently non-deterministic: identical queries submitted at different times can produce different responses and cite different sources. Despite this stochastic behavior, current approaches to measuring domain visibility in generative search typically rely on single-run point estimates of citation share and prevalence, implicitly treating them as fixed values. This paper argues that citation visibility metrics should be treated as sample estimators of an underlying response distribution rather than fixed values. We conduct an empirical study of citation variability across three generative search platforms--Perplexity Search, OpenAI SearchGPT, and Google Gemini--using repeated sampling across three consumer product topics. Two sampling regimes are employed: daily collections over nine days and high-frequency sampling at ten-minute intervals. We show that citation distributions follow a power-law form and exhibit substantial variability across repeated samples. Bootstrap confidence intervals reveal that many apparent differences between domains fall within the noise floor of the measurement process. Distribution-wide rank stability analysis further demonstrates that citation rankings are unstable across samples, not only among top-ranked domains but throughout the frequently cited domain set. These findings demonstrate that single-run visibility metrics provide a misleadingly precise picture of domain performance in generative search. We argue that citation visibility must be reported with uncertainty estimates and provide practical guidance for sample sizes required to achieve interpretable confidence intervals.
Abstract（参考訳）: AIによる回答エンジンは本質的に非決定論的であり、異なるタイミングで送信された同じクエリは異なるレスポンスを生成し、異なるソースを引用することができる。このような確率的振舞いにもかかわらず、生成探索における領域の可視性を測定するための現在のアプローチは、通常、引用共有と有病率の単一実行点推定に依存し、それらを固定値として暗黙的に扱う。本論文は, 参照可視度は, 固定値ではなく, 基礎となる応答分布の標本推定器として扱うべきであることを論じる。我々は,3つの生成検索プラットフォーム – Perplexity Search, OpenAI SearchGPT, Google Gemini – における引用変動に関する実証的研究を行った。毎日9日間の収集と10分間隔の高周波サンプリングという2つのサンプリング体制が採用されている。提案手法では, 励振分布はパワーロー形式に従っており, 繰り返しサンプル間の変動が顕著であることを示す。ブートストラップの信頼性間隔は、測定プロセスのノイズフロアにドメイン間の明らかな相違が多数含まれていることを明らかにする。分布幅の安定解析により、引用ランクはトップランクドメインだけでなく、頻繁に引用されるドメインセット全体でも不安定であることが示された。これらの結果から,単一実行可視性指標は,生成検索におけるドメイン性能の誤解を招くことが示唆された。我々は、引用可視性は不確実性推定で報告されなければならないと論じ、解釈可能な信頼区間を達成するために必要なサンプルサイズについて実践的なガイダンスを提供する。

関連論文リスト

Multimodal Fact-Level Attribution for Verifiable Reasoning [80.60864342985748]
マルチモーダル大言語モデル(MLLM)は、多段階推論と長文生成を含む実世界のタスクにますます利用されている。既存のマルチモーダルグラウンドベンチマークと評価手法は、複雑なマルチモーダル推論における属性評価に失敗する。我々は、直接観察以上の推論を必要とする設定において、ファクトレベルのマルチモーダル属性を評価するためのベンチマークであるMuRGAtを紹介する。
論文参考訳（メタデータ） (2026-02-12T03:10:02Z)
Combating Noisy Labels through Fostering Self- and Neighbor-Consistency [120.4394402099635]
ラベルノイズは様々な現実世界のシナリオで広まり、教師付きディープラーニングの課題を提起する。我々は、Jo-SNC(textbfSelf- と textbfNeighbor-textbfConsistency に基づくサンプル選択とモデル正規化)というノイズロバスト手法を提案する。我々は、クラスごとの選択閾値を調整するための自己適応型データ駆動しきい値設定方式を設計する。
論文参考訳（メタデータ） (2026-01-19T07:55:29Z)
Size-adaptive Hypothesis Testing for Fairness [8.315080617799445]
我々は、公正性評価を証拠に基づく統計的決定に変換する統一的、サイズ適応的、仮説テストフレームワークを導入する。統計的パリティ差に対して中央限の結果が証明され、解析的信頼区間と、タイプI(偽陽性)エラーがレベル$alpha$で保証されるウォルド試験が導かれる。小さな交叉群の長い尾に対して、完全ベイズ的ディリクレ・マルチノミカル推定器を導出する。
論文参考訳（メタデータ） (2025-06-12T11:22:09Z)
TRUST: Test-time Resource Utilization for Superior Trustworthiness [15.031121920821109]
このようなノイズの影響を考慮し,より信頼性の高い信頼度推定を行う新しいテスト時間最適化法を提案する。このスコアは単調なサブセット選択関数を定義し、低いスコアを持つサンプルを除去すると、集団の精度は一貫して上昇する。
論文参考訳（メタデータ） (2025-06-06T12:52:32Z)
Sample, Scrutinize and Scale: Effective Inference-Time Search by Scaling Verification [35.347715518778095]
本研究では,サンプリングに基づく探索を規定するスケーリング傾向について検討する。サンプリングベース検索の最小限の実装を単純にスケールアップするだけで、実用的な推論法が得られます。テスト時間計算で自己検証能力を改善するための2つの有用な原則を同定する。
論文参考訳（メタデータ） (2025-02-03T21:31:07Z)
Investigating Distributions of Telecom Adapted Sentence Embeddings for Document Retrieval [12.135498957287004]
公開可能なモデルとドメイン適応型から得られた埋め込みを評価した。我々は,異なる埋め込みに対する類似度スコアのしきい値を得るための体系的手法を確立する。ドメイン固有の文に対する埋め込みは、ドメインに依存しない文とほとんど重複しないことを示す。
論文参考訳（メタデータ） (2024-06-18T07:03:34Z)
Mitigating LLM Hallucinations via Conformal Abstention [70.83870602967625]
我々は,大言語モデルが一般ドメインでの応答をいつ無視すべきかを決定するための,原則化された手順を開発する。我々は、幻覚率(エラー率)の厳密な理論的保証の恩恵を受けるため、共形予測手法を活用して、禁忌手順を開発する。実験によって得られた共形禁忌法は, 種々の閉書, オープンドメイン生成質問応答データセットに, 幻覚率を確実に拘束する。
論文参考訳（メタデータ） (2024-04-04T11:32:03Z)
DIVERSIFY: A General Framework for Time Series Out-of-distribution Detection and Generalization [58.704753031608625]
時系列は、機械学習研究における最も困難なモダリティの1つである。時系列上でのOODの検出と一般化は、その非定常性によって悩まされる傾向がある。時系列の動的分布のOOD検出と一般化のためのフレームワークであるDIVERSIFYを提案する。
論文参考訳（メタデータ） (2023-08-04T12:27:11Z)
Uncertainty Estimation for Multi-view Data: The Power of Seeing the Whole Picture [5.868139834982011]
ニューラルネットワークを現実世界のアプリケーションで信頼できるものにするためには、不確実性推定が不可欠である。そこで本研究では,不確実性評価と領域外サンプル検出のための新しい多視点分類フレームワークを提案する。
論文参考訳（メタデータ） (2022-10-06T04:47:51Z)
Quantifying Uncertainty in Deep Spatiotemporal Forecasting [67.77102283276409]
本稿では,正規格子法とグラフ法という2種類の予測問題について述べる。我々はベイジアンおよび頻繁な視点からUQ法を解析し、統計的決定理論を通じて統一的な枠組みを提示する。実際の道路ネットワークのトラフィック、疫病、空気質予測タスクに関する広範な実験を通じて、異なるUQ手法の統計計算トレードオフを明らかにする。
論文参考訳（メタデータ） (2021-05-25T14:35:46Z)
A Statistical Analysis of Summarization Evaluation Metrics using Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文参考訳（メタデータ） (2021-03-31T18:28:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。