論文の概要: An Investigation on How AI-Generated Responses Affect SoftwareEngineering Surveys
- arxiv url: http://arxiv.org/abs/2512.17455v1
- Date: Fri, 19 Dec 2025 11:17:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.354808
- Title: An Investigation on How AI-Generated Responses Affect SoftwareEngineering Surveys
- Title(参考訳): AI生成応答がソフトウエアエンジニアリング調査に与える影響に関する調査
- Authors: Ronnie de Souza Santos, Italo Santos, Maria Teresa Baldassarre, Cleyton Magalhaes, Mairieli Wessel,
- Abstract要約: 本研究では,大規模言語モデル (LLM) がソフトウェア工学のサーベイでいかに誤用されているかを考察する。
我々は2025年にProlificプラットフォームを通じて行われた2回の調査からのデータを分析した。
ソフトウェア工学のサーベイにおいて、データの真正性は新たな妥当性の次元として認識される。
- 参考スコア(独自算出の注目度): 3.183470571353323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Survey research is a fundamental empirical method in software engineering, enabling the systematic collection of data on professional practices, perceptions, and experiences. However, recent advances in large language models (LLMs) have introduced new risks to survey integrity, as participants can use generative tools to fabricate or manipulate their responses. This study explores how LLMs are being misused in software engineering surveys and investigates the methodological implications of such behavior for data authenticity, validity, and research integrity. We collected data from two survey deployments conducted in 2025 through the Prolific platform and analyzed the content of participants' answers to identify irregular or falsified responses. A subset of responses suspected of being AI generated was examined through qualitative pattern inspection, narrative characterization, and automated detection using the Scribbr AI Detector. The analysis revealed recurring structural patterns in 49 survey responses indicating synthetic authorship, including repetitive sequencing, uniform phrasing, and superficial personalization. These false narratives mimicked coherent reasoning while concealing fabricated content, undermining construct, internal, and external validity. Our study identifies data authenticity as an emerging dimension of validity in software engineering surveys. We emphasize that reliable evidence now requires combining automated and interpretive verification procedures, transparent reporting, and community standards to detect and prevent AI generated responses, thereby protecting the credibility of surveys in software engineering.
- Abstract(参考訳): 調査研究は、ソフトウェア工学における基本的な経験的手法であり、専門家の実践、知覚、経験に関するデータの体系的な収集を可能にする。
しかし、大規模言語モデル(LLM)の最近の進歩は、参加者が生成ツールを使用して反応を作成または操作できるため、整合性を調べる新たなリスクをもたらしている。
本研究は,LLMがソフトウェア工学的調査においてどのように誤用されているのかを考察し,データ信頼性,妥当性,研究の整合性に対するそのような行動の方法論的意味について検討する。
2025年に行われた2回の調査からProlificプラットフォームを通じてデータを収集し,参加者の回答の内容を分析し,不規則な回答と偽りの回答を同定した。
Scribbr AI Detectorを用いた定性的パターン検査, 物語的特徴解析, 自動検出により, AIが生成したと思われる応答のサブセットを検討した。
分析の結果, 反復的シークエンシング, 均一な表現, 表面的パーソナライゼーションなど, 49件の質問紙調査で繰り返し構造パターンが認められた。
これらの虚偽の物語は、構成、内部、および外部の妥当性を損なう偽のコンテンツを隠蔽しながら、コヒーレントな推論を模倣した。
本研究は,データ信頼性をソフトウェア工学調査における妥当性の新たな次元として同定する。
信頼性のある証拠は、AI生成された応答を検出し防止するために、自動化および解釈された検証手順、透過的な報告、およびコミュニティ標準を組み合わせることを必要としており、それによってソフトウェア工学における調査の信頼性が保護される。
関連論文リスト
- Large Language Models for Unit Test Generation: Achievements, Challenges, and the Road Ahead [15.43943391801509]
単体テストは、ソフトウェアの検証には不可欠だが、面倒なテクニックである。
大規模言語モデル(LLM)は、コードセマンティクスとプログラミングパターンに関するデータ駆動の知識を活用することで、この制限に対処する。
このフレームワークは、コアジェネレーティブ戦略と一連の拡張テクニックに関する文献を分析します。
論文 参考訳(メタデータ) (2025-11-26T13:30:11Z) - AutoMalDesc: Large-Scale Script Analysis for Cyber Threat Research [81.04845910798387]
脅威検出のための自然言語の説明を生成することは、サイバーセキュリティ研究において未解決の問題である。
本稿では,大規模に独立して動作する自動静的解析要約フレームワークAutoMalDescを紹介する。
アノテーション付きシード(0.9K)データセットや方法論,評価フレームワークなど,100万以上のスクリプトサンプルの完全なデータセットを公開しています。
論文 参考訳(メタデータ) (2025-11-17T13:05:25Z) - Identity Theft in AI Conference Peer Review [50.18240135317708]
人工知能(AI)研究における科学的ピアレビュープロセスにおいて,新たに発見されたID盗難事例について論じる。
論文評価の操作に不正なレビュアープロファイルを作成することにより、不正直な研究者がピアレビューシステムをどのように活用するかを詳述する。
論文 参考訳(メタデータ) (2025-08-06T02:36:52Z) - A validity-guided workflow for robust large language model research in psychology [0.0]
大規模言語モデル(LLM)は、研究ツール、評価対象、人間のシミュレータ、認知モデルとして、心理学研究に急速に統合されている。
これらの「測定幻覚」は、統計的成果を心理学的現象として生み出すもので、成長する研究機関の妥当性を損なうものである。
精神測定と因果推論を統合した二重正当性フレームワークによって導かれた6段階のワークフローで、妥当性要件を研究野心に拡張する。
論文 参考訳(メタデータ) (2025-07-06T18:06:12Z) - InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation [63.55258191625131]
InfoDeepSeekは、現実世界の動的Web環境でエージェント情報を求めるための新しいベンチマークである。
本稿では,決定性,難易度,多様性の基準を満たす課題クエリを構築するための体系的手法を提案する。
本研究では,情報探索結果の正確性,有用性,コンパクト性に関する詳細な指標を含む,動的エージェント情報探索に適した最初の評価フレームワークを開発する。
論文 参考訳(メタデータ) (2025-05-21T14:44:40Z) - Methodological Foundations for AI-Driven Survey Question Generation [41.94295877935867]
本稿では,ジェネレーティブAIを教育調査に活用するための方法論的枠組みを提案する。
大規模言語モデルが適応的でコンテキスト対応のサーベイ質問を生成する方法について検討する。
偏見、プライバシー、透明性などの倫理的問題を考察する。
論文 参考訳(メタデータ) (2025-05-02T09:50:34Z) - AutoSurvey: Large Language Models Can Automatically Write Surveys [77.0458309675818]
本稿では,総合的な文献調査を自動作成する手法であるAutoSurveyを紹介する。
従来の調査論文は、膨大な量の情報と複雑さのために、課題に直面している。
我々の貢献には、調査問題に対する総合的な解決策、信頼性評価方法、AutoSurveyの有効性を実証する実験的な検証が含まれる。
論文 参考訳(メタデータ) (2024-06-10T12:56:06Z) - SoK: Machine Learning for Misinformation Detection [0.8057006406834466]
信頼性と安全性の問題に機械学習を適用する際、奨学金と実践の切り離しについて検討する。
本研究は,現場における248件の有能な論文からなるコーパスにおける誤情報の自動検出に関する文献調査である。
完全自動検出における現在の最先端技術は、人為的誤報の検出において、限られた有効性を有すると結論づける。
論文 参考訳(メタデータ) (2023-08-23T15:52:20Z) - Deepfake Detection: A Comprehensive Survey from the Reliability Perspective [20.873480187150804]
キノコ入りのDeepfake合成材料がインターネット上に流通し、政治家、有名人、そして世界中の個人に深刻な社会的影響を与えている。
現在のDeepfake検出領域では、トランスファービリティ、解釈可能性、堅牢性という、信頼性を重視した3つの研究課題を識別する。
論文 参考訳(メタデータ) (2022-11-20T06:31:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。