Fugu-MT 論文翻訳(概要): Accuracy Standards for AI at Work vs. Personal Life: Evidence from an Online Survey

論文の概要: Accuracy Standards for AI at Work vs. Personal Life: Evidence from an Online Survey

arxiv url: http://arxiv.org/abs/2602.13283v1
Date: Fri, 06 Feb 2026 19:13:51 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-23 12:01:13.613533
Title: Accuracy Standards for AI at Work vs. Personal Life: Evidence from an Online Survey
Title（参考訳）: 職場におけるAIの精度基準と個人生活:オンライン調査から
Authors: Gaston Besanson, Federico Todeschini,
Abstract要約: 我々は、AIを活用したツールをプロフェッショナルとパーソナルのコンテキストで使う際に、人々がいかに正確さと引き換えにするかを研究する。現代のAIシステムは許容できるが識別できない出力を生成できるため、我々は「正確性」を文脈固有の信頼性として定義する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study how people trade off accuracy when using AI-powered tools in professional versus personal contexts for adoption purposes, the determinants of those trade-offs, and how users cope when AI/apps are unavailable. Because modern AI systems (especially generative models) can produce acceptable but non-identical outputs, we define "accuracy" as context-specific reliability: the degree to which an output aligns with the user's intent within a tolerance threshold that depends on stakes and the cost of correction. In an online survey (N=300), among respondents with both accuracy items (N=170), the share requiring high accuracy (top-box) is 24.1% at work vs. 8.8% in personal life (+15.3 pp; z=6.29, p<0.001). The gap remains large under a broader top-two-box definition (67.0% vs. 32.9%) and on the full 1-5 ordinal scale (mean 3.86 vs. 3.08). Heavy app use and experience patterns correlate with stricter work standards (H2). When tools are unavailable (H3), respondents report more disruption in personal routines than at work (34.1% vs. 15.3%, p<0.01). We keep the main text focused on these substantive results and place test taxonomy and power derivations in a technical appendix.
Abstract（参考訳）: 我々は、AIベースのツールをプロフェッショナルと個人のコンテキストで採用するために使用する場合の精度と、それらのトレードオフの決定要因、AI/アプリが利用できない場合の対処方法について研究する。現代のAIシステム(特に生成モデル)は許容できるが識別できない出力を生成するため、我々は「正確さ」を文脈固有の信頼性として定義する。オンライン調査(N=300)では、両方の精度項目(N=170)の回答者のうち、高い精度(トップボックス)が24.1%、個人生活が8.8%である(+15.3 pp; z=6.29, p<0.001)。このギャップは、より広いトップ2ボックス定義(67.0% vs. 32.9%)と完全な1-5順序尺度(平均3.86 vs. 3.08)の下では大きいままである。アプリの重い使用と経験パターンは、より厳格な作業標準(H2)と相関します。ツールが利用できない場合(H3)、回答者は仕事よりも個人的なルーチンが混乱していると報告している(34.1%対15.3%、p<0.01)。我々は、これらの実体的な結果に焦点をあてた本文を維持し、技術的付録にテスト分類とパワー導出を配置する。

関連論文リスト

Prompt Architecture Determines Reasoning Quality: A Variable Isolation Study on the Car Wash Problem [0.0]
本研究では,生産システムのアーキテクチャ層が正しい推論を可能にする方法を検討する。 STAR(Situation-Task-Action-Result)推論フレームワークだけでは精度が0%から85%に向上することがわかった。
論文参考訳（メタデータ） (2026-02-25T11:40:15Z)
Powerful Training-Free Membership Inference Against Autoregressive Language Models [3.9380576851378657]
EZ-MIAは、重要な観測値を利用するメンバーシップ推論攻撃であり、記憶はエラー位置において最も強く現れる。本稿では,誤差位置における確率シフトの方向不均衡を計測する誤差ゾーン(EZ)スコアを導入する。その結果、微調整言語モデルのプライバシーリスクは、これまで理解されていたよりもかなり大きいことが判明した。
論文参考訳（メタデータ） (2026-01-17T16:59:41Z)
Does Inference Scaling Improve Reasoning Faithfulness? A Multi-Model Analysis of Self-Consistency Tradeoffs [0.0]
自己整合性は、推論タスクにおける大きな言語モデルの精度を改善するための一般的な手法として現れてきた。推論スケーリングは信頼の推論を改善するのか? 我々は、100 GSM8Kの数学的推論問題に対して、4つのフロンティアモデル(GPT-5.2、Claude Opus 4.5、Gemini-3-flash-preview、DeepSeek-v3.2)にわたる総合的な実証的研究を行った。
論文参考訳（メタデータ） (2026-01-10T04:20:00Z)
Calibrated Uncertainty Quantification for Operator Learning via Conformal Prediction [95.75771195913046]
本稿では, リスク制御型量子ニューラル演算子, 分布のない有限サンプル機能キャリブレーション等式予測法を提案する。関数領域上の点の期待値として定義されるカバレッジ率に関する理論的キャリブレーションを保証する。 2次元ダーシー流と3次元自動車表面圧力予測タスクに関する実験結果から,我々の理論的結果が検証された。
論文参考訳（メタデータ） (2024-02-02T23:43:28Z)
Improving Selective Visual Question Answering by Learning from Your Peers [74.20167944693424]
VQA(Visual Question Answering)モデルは、間違っていた場合の回答を控えるのに苦労する可能性がある。本稿では,複数モーダル選択関数の学習におけるLearning from Your Peers (LYP) アプローチを提案する。提案手法では,学習データの異なるサブセットに基づいて訓練されたモデルの予測を,選択的VQAモデルの最適化のターゲットとして利用する。
論文参考訳（メタデータ） (2023-06-14T21:22:01Z)
Out-of-Distribution Detection with Hilbert-Schmidt Independence Optimization [114.43504951058796]
異常検出タスクはAIの安全性において重要な役割を担っている。ディープニューラルネットワーク分類器は通常、アウト・オブ・ディストリビューション(OOD)の入力を、信頼性の高いイン・ディストリビューション・クラスに誤って分類する傾向がある。我々は,OOD検出タスクにおいて実用的かつ理論的に有効な代替確率論的パラダイムを提案する。
論文参考訳（メタデータ） (2022-09-26T15:59:55Z)
Efficient, Uncertainty-based Moderation of Neural Networks Text Classifiers [8.883733362171034]
本稿では,分類器の出力を効率よく操作できるフレームワークを提案する。予測の不確実性を利用して、不確実で、おそらく不正確な分類を人間のモデレーターに渡す半自動化アプローチを提案する。一連のベンチマーク実験により、我々のフレームワークは分類F1スコアを5.1から11.2%改善できることが示された。
論文参考訳（メタデータ） (2022-04-04T09:07:54Z)
CommonsenseQA 2.0: Exposing the Limits of AI through Gamification [126.85096257968414]
現代自然言語理解モデルの能力をテストするベンチマークを構築した。本研究では,データ構築の枠組みとしてゲーミフィケーションを提案する。
論文参考訳（メタデータ） (2022-01-14T06:49:15Z)
Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文参考訳（メタデータ） (2022-01-11T23:01:12Z)
Using Sampling to Estimate and Improve Performance of Automated Scoring Systems with Guarantees [63.62448343531963]
本稿では,既存のパラダイムを組み合わせることで,人間が知能的に収集する応答をサンプリングする手法を提案する。比較的少ない予算で精度(平均19.80%)と二次重み付きカッパ(平均25.60%)の顕著な増加を観察した。
論文参考訳（メタデータ） (2021-11-17T05:00:51Z)
Out-of-Vocabulary Entities in Link Prediction [1.9036571490366496]
リンク予測はしばしば、埋め込みの品質を評価するプロキシとして使用される。ベンチマークはアルゴリズムの公正な比較に欠かせないため、より良いソリューションを開発するための確固たる基盤を提供するため、その品質が確実に確保される。我々は、そのようなエンティティの発見と削除のためのアプローチの実装を提供し、データセットWN18RR、FB15K-237、YAGO3-10の修正版を提供する。
論文参考訳（メタデータ） (2021-05-26T12:58:18Z)
Fast Uncertainty Quantification for Deep Object Pose Estimation [91.09217713805337]
深層学習に基づくオブジェクトポーズ推定は、しばしば信頼できない、自信過剰である。本研究では,6-DoFオブジェクトのポーズ推定のための,シンプルで効率的かつプラグアンドプレイなUQ手法を提案する。
論文参考訳（メタデータ） (2020-11-16T06:51:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。