このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240731となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# ビデオのためのセグメンテーション:システマティックサーベイ
Segment Anything for Videos: A Systematic Survey ( http://arxiv.org/abs/2408.08315v1 ) ライセンス: Link先を確認 | Chunhui Zhang, Yawen Cui, Weilin Lin, Guanjie Huang, Yan Rong, Li Liu, Shiguang Shan, | (参考訳) 近年のファンデーションモデルの波は、コンピュータビジョン(CV)などにおいて大きな成功を収めており、セグメンテーションのあらゆるモデル(SAM)がタスクに依存しないヴィジュアルファンデーションモデルの探求に熱中している。
SAMは目覚ましいゼロショットの一般化によって現在、CVにおける多くの伝統的なパラダイムに挑戦しており、様々なイメージセグメンテーションやマルチモーダルセグメンテーション(\eg, text-to-mask)タスクだけでなく、ビデオ領域でも素晴らしいパフォーマンスを提供している。
さらに、最新リリースのSAM 2は、画像とビデオの両方の即時的な視覚的セグメンテーションという領域において、再び研究の情熱を喚起している。
しかし、既存の調査は主に様々な画像処理タスクにおけるSAMに焦点を当てており、ビデオ領域における包括的で詳細なレビューは特に欠落している。
このギャップに対処するため、本研究では、基礎モデル時代のビデオのSAMを体系的にレビューする。
本研究は,ビデオにおけるSAMの進歩を初めて概観するものとして,近年の進歩と広義の基盤モデル開発におけるイノベーションの機会を論じ,様々なタスクへの応用に焦点を当てたものである。
まず、SAMおよびビデオ関連研究領域の背景について、簡単な紹介から始める。
次に,既存の手法をビデオ理解,ビデオ生成,ビデオ編集,分析,限界の要約という3つの重要な領域に分類する系統分類法を提案する。
さらに, SAM-based および current-of-the-art method を代表ベンチマークで比較し, 洞察に富んだ分析を行った。
最後に,現在研究が直面している課題について考察し,SAMの分野における今後の研究の方向性について解説する。
The recent wave of foundation models has witnessed tremendous success in computer vision (CV) and beyond, with the segment anything model (SAM) having sparked a passion for exploring task-agnostic visual foundation models. Empowered by its remarkable zero-shot generalization, SAM is currently challenging numerous traditional paradigms in CV, delivering extraordinary performance not only in various image segmentation and multi-modal segmentation (\eg, text-to-mask) tasks, but also in the video domain. Additionally, the latest released SAM 2 is once again sparking research enthusiasm in the realm of promptable visual segmentation for both images and videos. However, existing surveys mainly focus on SAM in various image processing tasks, a comprehensive and in-depth review in the video domain is notably absent. To address this gap, this work conducts a systematic review on SAM for videos in the era of foundation models. As the first to review the progress of SAM for videos, this work focuses on its applications to various tasks by discussing its recent advances, and innovation opportunities of developing foundation models on broad applications. We begin with a brief introduction to the background of SAM and video-related research domains. Subsequently, we present a systematic taxonomy that categorizes existing methods into three key areas: video understanding, video generation, and video editing, analyzing and summarizing their advantages and limitations. Furthermore, comparative results of SAM-based and current state-of-the-art methods on representative benchmarks, as well as insightful analysis are offered. Finally, we discuss the challenges faced by current research and envision several future research directions in the field of SAM for video and beyond. | 翻訳日:2024-08-25 14:30:57 公開日:2024-07-31 |
# SepAl:Sepsisは、デジタルバイオマーカーとオンデバイス・ティニー・機械学習を備えた低消費電力ウェアラブル
SepAl: Sepsis Alerts On Low Power Wearables With Digital Biomarkers and On-Device Tiny Machine Learning ( http://arxiv.org/abs/2408.08316v1 ) ライセンス: Link先を確認 | Marco Giordano, Kanika Dheman, Michele Magno, | (参考訳) セプシス(Sepsis)は、感染症によって引き起こされる臓器不全の致命的な症候群で、全世界で年間1100万人が死亡している。
深層学習に基づく予後アルゴリズムは、実際の事象の数時間前にセプシスの開始を検知するが、バイタルサインや実験室のテストを含む多くのバイオマーカーを使用する。
後者は、病院外のシステムやリソース制限のある環境での展開を極めて困難にしている。
本稿では、光胸腺撮影(PPG)、慣性計測ユニット(IMU)、体温センサーなどの低消費電力のウェアラブルセンサからの情報のみを用いて、リアルタイムにアラートを配信する、エネルギー効率が高く軽量なニューラルネットワークであるSepAlを紹介する。
SepAlは6つのデジタル取得可能なバイタルサインと小さな機械学習アルゴリズムのみを活用し、デバイス上でリアルタイムのセプシス予測を可能にする。
SepAlは、9.8時間のセプシス予測時間でセプシス警告を提供する軽量な時間畳み込みニューラルネットワークを使用している。
モデルは完全に量子化され、低消費電力プロセッサにデプロイでき、ARM Cortex-M33コアで評価されている。
実験により、推定効率は0.11MAC/Cycleで、遅延は143msで、推定エネルギーは2.68mJである。
本研究は,長期にわたる多心電図ウェアラブルデバイスに展開可能な,正確な疾患予測への道を開くことを目的としている。
この作業で使用されたコードはオープンソースで、https://github.com/mgiordy/sepsis-predictionで公開されている。
Sepsis is a lethal syndrome of organ dysfunction that is triggered by an infection and claims 11 million lives per year globally. Prognostic algorithms based on deep learning have shown promise in detecting the onset of sepsis hours before the actual event but use a large number of bio-markers, including vital signs and laboratory tests. The latter makes the deployment of such systems outside hospitals or in resource-limited environments extremely challenging. This paper introduces SepAl, an energy-efficient and lightweight neural network, using only data from low-power wearable sensors, such as photoplethysmography (PPG), inertial measurement units (IMU), and body temperature sensors, designed to deliver alerts in real-time. SepAl leverages only six digitally acquirable vital signs and tiny machine learning algorithms, enabling on-device real-time sepsis prediction. SepAl uses a lightweight temporal convolution neural network capable of providing sepsis alerts with a median predicted time to sepsis of 9.8 hours. The model has been fully quantized, being able to be deployed on any low-power processors, and evaluated on an ARM Cortex-M33 core. Experimental evaluations show an inference efficiency of 0.11MAC/Cycle and a latency of 143ms, with an energy per inference of 2.68mJ. This work aims at paving the way toward accurate disease prediction, deployable in a long-lasting multi-vital sign wearable device, suitable for providing sepsis onset alerts at the point of care. The code used in this work has been open-sourced and is available at https://github.com/mgiordy/sepsis-prediction | 翻訳日:2024-08-25 14:30:57 公開日:2024-07-31 |
# EUアーティフィカルインテリジェンス法の最初の分析 : 信頼できるAIのグローバル標準に向けて
First Analysis of the EU Artifical Intelligence Act: Towards a Global Standard for Trustworthy AI? ( http://arxiv.org/abs/2408.08318v1 ) ライセンス: Link先を確認 | Marion Ho-Dac, | (参考訳) EU人工知能法は2024年8月1日に欧州連合(EU)で施行された。
これは、AI技術の中心にいる市民と、業界内で活動している業界の両方にとって、重要な法律の1つだ。
AI法は、EUで販売および使用されているAIシステムとモデルのグローバルバリューチェーンに関わる組織(民間と公の両方)に対して、進歩的なコンプライアンスを課している。
この法律は、水平かつ拘束力のある規制の範囲において、国際規模では前例がないが、信頼できるAIを支持するという世界的魅力は、その大きな課題の1つだ。
The EU Artificial Intelligence Act (AI Act) came into force in the European Union (EU) on 1 August 2024. It is a key piece of legislation both for the citizens at the heart of AI technologies and for the industry active in the internal market. The AI Act imposes progressive compliance on organisations - both private and public - involved in the global value chain of AI systems and models marketed and used in the EU. While the Act is unprecedented on an international scale in terms of its horizontal and binding regulatory scope, its global appeal in support of trustworthy AI is one of its major challenges. | 翻訳日:2024-08-25 14:30:57 公開日:2024-07-31 |
# 知的物体運動セグメンテーションのための網膜回路のハードウェア・アルゴリズムによる再設計
Hardware-Algorithm Re-engineering of Retinal Circuit for Intelligent Object Motion Segmentation ( http://arxiv.org/abs/2408.08320v1 ) ライセンス: Link先を確認 | Jason Sinaga, Victoria Clerico, Md Abdullah-Al Kaiser, Shay Snyder, Arya Lohia, Gregory Schwartz, Maryam Parsa, Akhilesh Jaiswal, | (参考訳) 網膜神経科学の最近の進歩は、コンピュータビジョンタスクのための網膜に触発されたソリューションを開発するための様々なハードウェアとアルゴリズムの取り組みを加速させた。
本研究では,哺乳動物網膜の基本的な視覚的特徴であるOMS(Object Motion Sensitivity)に着目した。
EV-IMOデータセットからのDVSデータを用いて,エゴモーションの存在下での動作セグメンテーションのためのOMS回路のアルゴリズム実装の性能を解析する。
この総論的な分析は、ハードウェア回路の実装から生じる基礎的な制約を考察する。
本稿では,画像センサの内部にOMS機能を実装した新しいCMOS回路を提案する。
動的環境適応のためのインセンサー技術はシステム性能の確保に不可欠である。
最後に,180nm技術におけるCadenceシミュレーションにより,提案したCMOS回路設計の機能と再構成性を検証する。
まとめると、本論文は、応用ニーズに合うように、既知の生体回路のハードウェア・アルゴリズム再設計の基礎を定めている。
Recent advances in retinal neuroscience have fueled various hardware and algorithmic efforts to develop retina-inspired solutions for computer vision tasks. In this work, we focus on a fundamental visual feature within the mammalian retina, Object Motion Sensitivity (OMS). Using DVS data from EV-IMO dataset, we analyze the performance of an algorithmic implementation of OMS circuitry for motion segmentation in presence of ego-motion. This holistic analysis considers the underlying constraints arising from the hardware circuit implementation. We present novel CMOS circuits that implement OMS functionality inside image sensors, while providing run-time re-configurability for key algorithmic parameters. In-sensor technologies for dynamical environment adaptation are crucial for ensuring high system performance. Finally, we verify the functionality and re-configurability of the proposed CMOS circuit designs through Cadence simulations in 180nm technology. In summary, the presented work lays foundation for hardware-algorithm re-engineering of known biological circuits to suit application needs. | 翻訳日:2024-08-25 14:30:57 公開日:2024-07-31 |
# ChatGPTは視覚障害者の微小ナビゲーションを補助できるか?
Can ChatGPT assist visually impaired people with micro-navigation? ( http://arxiv.org/abs/2408.08321v1 ) ライセンス: Link先を確認 | Junxian He, Shrinivas Pundlik, Gang Luo, | (参考訳) 目的: マイクロナビゲーションは視覚障害者や視覚障害者にとって課題となる。
彼らはよく視力のある援助を求める必要がある。
ナビゲーションナビゲーションのための仮想アシスタントとしてChatGPTを活用する可能性について検討した。
方法:113のシーン画像と人為的なテキスト記述からなる屋外および屋内のマイクロナビゲーションシナリオのテストセットを作成した。
合計412のウェイフィリングクエリと予測応答がシナリオに基づいてコンパイルされた。
すべてのクエリは、シーンイメージで利用可能な情報に基づいて答えられるわけではない。
答えがつかないクエリに対して"私は知らない"応答が期待され、負のケースとして機能した。
高次方向応答が期待され、ステップバイステップガイダンスは不要であった。
ChatGPT 4o は感受性 (SEN) と特異性 (SPE) に基づいて異なる条件下で評価した。
結果: シーンイメージを入力とするデフォルトのChatGPT 4oは、それぞれ64.8%と75.9%のSENとSPEの値となった。
回答不能な質問に対する回答の指導はSENを大幅に改善することはなかったが、SPEは約14ポイント増加した。
SENとSPEは、画像の代わりに人間の記述されたシーンが入力として提供されると、それぞれ平均17と16のポイントで大幅に改善された。
入力がテキスト記述であるときにアシスタントにさらなる指示を与えると、SENとSPEの値は実質的に変化しない。
結論: 現在のネイティブChatGPT 4oは、おそらくそのシーン理解がナビゲーション目的に最適化されていないため、正しいマイクロナビゲーションガイダンスを提供することができない。
マルチモーダルチャットボットが、人間に匹敵する明快さのシーンを解釈し、適切なプロンプトで導くことができれば、視覚障害者にマイクロナビゲーションの補助を提供する可能性がある。
Objective: Micro-navigation poses challenges for blind and visually impaired individuals. They often need to ask for sighted assistance. We explored the feasibility of utilizing ChatGPT as a virtual assistant to provide navigation directions. Methods: We created a test set of outdoor and indoor micro-navigation scenarios consisting of 113 scene images and their human-generated text descriptions. A total of 412 way-finding queries and their expected responses were compiled based on the scenarios. Not all queries are answerable based on the information available in the scene image. "I do not know"response was expected for unanswerable queries, which served as negative cases. High level orientation responses were expected, and step-by-step guidance was not required. ChatGPT 4o was evaluated based on sensitivity (SEN) and specificity (SPE) under different conditions. Results: The default ChatGPT 4o, with scene images as inputs, resulted in SEN and SPE values of 64.8% and 75.9%, respectively. Instruction on how to respond to unanswerable questions did not improve SEN substantially but SPE increased by around 14 percentage points. SEN and SPE both improved substantially, by about 17 and 16 percentage points on average respectively, when human written descriptions of the scenes were provided as input instead of images. Providing further prompt instructions to the assistants when the input was text description did not substantially change the SEN and SPE values. Conclusion: Current native ChatGPT 4o is still unable to provide correct micro-navigation guidance in some cases, probably because its scene understanding is not optimized for navigation purposes. If multi-modal chatbots could interpret scenes with a level of clarity comparable to humans, and also guided by appropriate prompts, they may have the potential to provide assistance to visually impaired for micro-navigation. | 翻訳日:2024-08-25 14:30:57 公開日:2024-07-31 |
# マイクロサービスの脆弱性分析 - 実証的な洞察による文献レビュー
Microservice Vulnerability Analysis: A Literature Review with Empirical Insights ( http://arxiv.org/abs/2408.03960v1 ) ライセンス: Link先を確認 | Raveen Kanishka Jayalath, Hussain Ahmad, Diksha Goel, Muhammad Shuja Syed, Faheem Ullah, | (参考訳) マイクロサービスアーキテクチャは、小規模企業と大企業の両方に革命をもたらしています。
しかしながら、これらのメリットは、サービスインタラクションの複雑さの増大、攻撃面の拡大、依存関係管理の複雑化など、セキュリティ上の大きな課題をもたらしている。
セキュリティに関する懸念が高まる一方で、既存の知識のレビューとマイクロサービスの脆弱性の実証分析を統合する包括的な研究が欠如している。
この研究は、マイクロサービスアーキテクチャに関連するセキュリティ脆弱性に関する既存の文献を収集し、分析し、合成することで、このギャップを埋めることを目的としている。
62の研究の徹底的な調査を通じて、マイクロサービスアーキテクチャに固有の126のセキュリティ脆弱性を特定し、分析し、報告する。
この包括的な分析によって私たちは
i) マイクロサービスアーキテクチャの特徴に基づいて、マイクロサービスの脆弱性を分類する分類法を提案する。
2) 3つの異なるスキャンツールを用いて4種類のマイクロサービスベンチマークアプリケーション上で脆弱性スキャンを行い、我々の分類を検証し、実証分析を行う。
3) 分類上の脆弱性を経験的に特定された脆弱性でマップし、マイクロサービス、アプリケーション、スキャニングツールレベルで詳細な脆弱性分析を提供します。
私たちの研究は、実践者や研究者がマイクロサービスアーキテクチャの安全性を確保する上で、最先端と最先端の両方を前進させるための重要なガイドラインを提供します。
Microservice architectures are revolutionizing both small businesses and large corporations, igniting a new era of innovation with their exceptional advantages in maintainability, reusability, and scalability. However, these benefits come with significant security challenges, as the increased complexity of service interactions, expanded attack surfaces, and intricate dependency management introduce a new array of cybersecurity vulnerabilities. While security concerns are mounting, there is a lack of comprehensive research that integrates a review of existing knowledge with empirical analysis of microservice vulnerabilities. This study aims to fill this gap by gathering, analyzing, and synthesizing existing literature on security vulnerabilities associated with microservice architectures. Through a thorough examination of 62 studies, we identify, analyze, and report 126 security vulnerabilities inherent in microservice architectures. This comprehensive analysis enables us to (i) propose a taxonomy that categorizes microservice vulnerabilities based on the distinctive features of microservice architectures; (ii) conduct an empirical analysis by performing vulnerability scans on four diverse microservice benchmark applications using three different scanning tools to validate our taxonomy; and (iii) map our taxonomy vulnerabilities with empirically identified vulnerabilities, providing an in-depth vulnerability analysis at microservice, application, and scanning tool levels. Our study offers crucial guidelines for practitioners and researchers to advance both the state-of-the-practice and the state-of-the-art in securing microservice architectures. | 翻訳日:2024-08-19 04:27:34 公開日:2024-07-31 |
# GPT-3 ロバスト知識ベース構築のためのパワード情報抽出(GPT-3.情報ネットワーク,一般セッション)
GPT-3 Powered Information Extraction for Building Robust Knowledge Bases ( http://arxiv.org/abs/2408.04641v1 ) ライセンス: Link先を確認 | Ritabrata Roy Choudhury, Soumik Dey, | (参考訳) この研究は、最先端言語モデルGPT-3を用いて、知識ベース開発のための新しい情報抽出方法を提供する。
提案手法は,構造化された情報を抽出するために,構造化されていないテキストから関連エンティティや関連性を得る際の課題を解決する。
提案手法の性能を評価するため,多様な分野から大量のテキストを抽出する実験を行った。
情報抽出タスクに頻繁に使用される評価尺度には、精度、リコール、F1スコアが含まれる。
その結果, GPT-3はテキストから関連する情報や正しい情報を効率的に抽出し, 知識ベース作成の精度と生産性を高めることができることがわかった。
また、提案手法が既に使われている最も先進的な情報抽出手法と比較して、いかに優れているかを評価する。
提案手法は,テキスト内学習において少数の事例のみを活用することで,データアノテーションや工学的費用の面で顕著な節約を図り,競争力のある結果をもたらすことを示す。
さらに,提案手法を用いてバイオメディカル情報を検索し,実環境においてその実用性を実証する。
提案手法は,構造化されていないテキストから構造化データを取得する際の難しさを克服し,知識ベースを構築するための有効な方法である。
チャットボット、レコメンデーションエンジン、質問応答システムを含む多くのアプリケーションで必要とされる情報抽出の精度と効率を大幅に向上させることができる。
This work uses the state-of-the-art language model GPT-3 to offer a novel method of information extraction for knowledge base development. The suggested method attempts to solve the difficulties associated with obtaining relevant entities and relationships from unstructured text in order to extract structured information. We conduct experiments on a huge corpus of text from diverse fields to assess the performance of our suggested technique. The evaluation measures, which are frequently employed in information extraction tasks, include precision, recall, and F1-score. The findings demonstrate that GPT-3 can be used to efficiently and accurately extract pertinent and correct information from text, hence increasing the precision and productivity of knowledge base creation. We also assess how well our suggested approach performs in comparison to the most advanced information extraction techniques already in use. The findings show that by utilizing only a small number of instances in in-context learning, our suggested strategy yields competitive outcomes with notable savings in terms of data annotation and engineering expense. Additionally, we use our proposed method to retrieve Biomedical information, demonstrating its practicality in a real-world setting. All things considered, our suggested method offers a viable way to overcome the difficulties involved in obtaining structured data from unstructured text in order to create knowledge bases. It can greatly increase the precision and effectiveness of information extraction, which is necessary for many applications including chatbots, recommendation engines, and question-answering systems. | 翻訳日:2024-08-19 04:27:34 公開日:2024-07-31 |
# Semantic Semantic Refinement: ジェネレーティブなAI支援セマンティックコミュニケーションフレームワーク
Semantic Successive Refinement: A Generative AI-aided Semantic Communication Framework ( http://arxiv.org/abs/2408.05112v1 ) ライセンス: Link先を確認 | Kexin Zhang, Lixin Li, Wensheng Lin, Yuna Yan, Rui Li, Wenchi Cheng, Zhu Han, | (参考訳) Semantic Communication (SC)は、シャノン限界を超えることを目的とした新興技術である。
従来のSC戦略は、オリジナルのデータと再構成されたデータの間の信号歪みを最小限に抑え、特にSNR(Signal-to-Noise Ratio)の低い環境での知覚的品質を無視する。
この問題に対処するために、単一ユーザシナリオのための新しいジェネレーティブAIセマンティックコミュニケーション(GSC)システムを導入する。
このシステムは、SCで新しいパラダイムを確立するために、深層生成モデルを活用する。
具体的には、送信側でSwin Transformerをベースとしたジョイントソースチャネル符号化機構を用いて、効率的なセマンティック特徴抽出と圧縮を行う。
受信側では、高度な拡散モデル(DM)が劣化した信号から高品質な画像を再構成し、知覚の詳細を高める。
さらに,非同期処理モデルを用いたMulti-User Generative Semantic Communication (MU-GSC)システムを提案する。
このモデルは、複数のユーザ要求を効果的に管理し、並列処理にシステムリソースを最適に利用する。
公開データセット上でのシミュレーション結果から,我々の生成AIセマンティックコミュニケーションシステムは,伝送効率が向上し,通信内容の質が向上することを示した。
CNNをベースとしたDeepJSCCと比較して,Pak Signal-to-Noise Ratio(PSNR)はAWGN(Additive White Gaussian Noise)チャネルで17.75%,Rayleighチャネルで20.86%向上した。
Semantic Communication (SC) is an emerging technology aiming to surpass the Shannon limit. Traditional SC strategies often minimize signal distortion between the original and reconstructed data, neglecting perceptual quality, especially in low Signal-to-Noise Ratio (SNR) environments. To address this issue, we introduce a novel Generative AI Semantic Communication (GSC) system for single-user scenarios. This system leverages deep generative models to establish a new paradigm in SC. Specifically, At the transmitter end, it employs a joint source-channel coding mechanism based on the Swin Transformer for efficient semantic feature extraction and compression. At the receiver end, an advanced Diffusion Model (DM) reconstructs high-quality images from degraded signals, enhancing perceptual details. Additionally, we present a Multi-User Generative Semantic Communication (MU-GSC) system utilizing an asynchronous processing model. This model effectively manages multiple user requests and optimally utilizes system resources for parallel processing. Simulation results on public datasets demonstrate that our generative AI semantic communication systems achieve superior transmission efficiency and enhanced communication content quality across various channel conditions. Compared to CNN-based DeepJSCC, our methods improve the Peak Signal-to-Noise Ratio (PSNR) by 17.75% in Additive White Gaussian Noise (AWGN) channels and by 20.86% in Rayleigh channels. | 翻訳日:2024-08-19 04:16:58 公開日:2024-07-31 |
# Elevation-Aware Flood Extent Mapping のためのクイックで正確なクラウドソースアノテーションの提案
Enabling Quick, Accurate Crowdsourced Annotation for Elevation-Aware Flood Extent Mapping ( http://arxiv.org/abs/2408.05350v1 ) ライセンス: Link先を確認 | Landon Dyken, Saugat Adhikari, Pravin Poudel, Steve Petruzza, Da Yan, Will Usher, Sidharth Kumar, | (参考訳) 被害評価と救援活動の適正配分のためには,災害管理の必要かつ重要な側面として,洪水発生の度合いのマッピングが重要である。
近年,高解像度画像を高速にラベル付けし,必要な洪水範囲をマッピングする手段として,深層学習法が発展してきた。
しかしこれらの方法は、新しい浸水した画像に対して正確で堅牢なモデルを作成するために、大量の注釈付きトレーニングデータを必要とする。
本研究では,機械学習のトレーニングデータに対して,浸水領域アノテーションの効果的なクラウドソーシングを可能にするアプリケーションであるFloodTraceを提案する。
これをアプリケーション内の2つの直交的手法で実現し、ドメインの専門家の要求に応えます。
まず,標高誘導型アノテーションツールと3Dレンダリングを用いて,デジタル標高モデルデータを用いてユーザのアノテーション決定を通知し,アノテーションの精度を向上する。
この目的のために、トポロジカルデータ解析を用いて、最先端の高度誘導アノテーションツールを効率良く上回る独自のアノテーション手法を提案する。
第2に,不確実性ビジュアライゼーションにインスパイアされた手法を用いて,集約されたクラウドソースアノテーションと不正確性を検証するためのフレームワークを提供する。
ノースカロライナのハリケーン・マシューの高分解能空中画像に266人の大学院生が注釈を付けた場合の有効性を検証するために,ユーザスタディを行った。
実験結果から,未学習ユーザに対しても,アプリケーションの精度と効率性について検討した。
さらに,集約と修正フレームワークを用いて,クラウドソースアノテーションでトレーニングした洪水検出モデルは,専門家によるアノテーションでトレーニングしたモデルに匹敵する性能を達成できた。
In order to assess damage and properly allocate relief efforts, mapping the extent of flood events is a necessary and important aspect of disaster management. In recent years, deep learning methods have evolved as an effective tool to quickly label high-resolution imagery and provide necessary flood extent mappings. These methods, though, require large amounts of annotated training data to create models that are accurate and robust to new flooded imagery. In this work, we provide FloodTrace, an application that enables effective crowdsourcing for flooded region annotation for machine learning training data, removing the requirement for annotation to be done solely by researchers. We accomplish this through two orthogonal methods within our application, informed by requirements from domain experts. First, we utilize elevation-guided annotation tools and 3D rendering to inform user annotation decisions with digital elevation model data, improving annotation accuracy. For this purpose, we provide a unique annotation method that uses topological data analysis to outperform the state-of-the-art elevation-guided annotation tool in efficiency. Second, we provide a framework for researchers to review aggregated crowdsourced annotations and correct inaccuracies using methods inspired by uncertainty visualization. We conducted a user study to confirm the application effectiveness in which 266 graduate students annotated high-resolution aerial imagery from Hurricane Matthew in North Carolina. Experimental results show the accuracy and efficiency benefits of our application apply even for untrained users. In addition, using our aggregation and correction framework, flood detection models trained on crowdsourced annotations were able to achieve performance equal to models trained on expert-labeled annotations, while requiring a fraction of the time on the part of the researcher. | 翻訳日:2024-08-19 04:07:11 公開日:2024-07-31 |
# 混合交通流における駆動剤の集団協調性評価
Estimate collective cooperativeness of driving agents in mixed traffic flow ( http://arxiv.org/abs/2408.07297v1 ) ライセンス: Link先を確認 | Di Chen, Jia Li, H. Michael Zhang, | (参考訳) 協力は、多くの自然、社会的、工学的なシステムにおいて、複数のエージェントを含むユビキタスな現象である。
運転エージェントの協調性を評価・定量化することは2つの理由から重要である。
理論的には、マイクロマクロ接続の理解と混在トラフィックにおける協調の出現を高める。
現実的には、この理解は自動化と混合自律性輸送システムの設計と運用に役立ちます。
しかし、どのようにして実験データから協調性を正確に定義し定量化できるかは定かではなく、いつ、どの程度の集合的協調性が存在するかは未定である。
この論文はそのギャップを埋めることを意図している。
混合自律交通の最近の行動均衡モデル(Li et al 2022a)を利用した運転エージェントの集合的協調性を推定するための統一的な概念的枠組みを提案する。
このフレームワークは解釈可能で理論的に一貫性があり、トラジェクトリデータからトラヒックエージェントの集合的協調性を定量化することができる。
NGSIM I-80トラジェクトリデータセットと注意深いデータ選択を用いたマルチレーン高速道路交通に適用する。
本研究は、現実の交通における人間駆動の乗用車とトラックの集合的協調性の存在を示し、そうでなければ未知の他の特性を明らかにしている。
Cooperation is a ubiquitous phenomenon in many natural, social, and engineered systems that contain multiple agents. Characterizing and quantifying cooperativeness of driving agents is of interest and significance for two reasons. Theoretically, it will enhance the understanding of micro-macro connections and emergence of cooperation in mixed traffic. Pragmatically, this understanding will benefit the design and operations of automated and mixed-autonomy transportation systems. However, it remains unclear how the cooperativeness can be accurately defined and quantified from empirical data, and it remains open when and to what extent collective cooperativeness exists. This paper is intended to fill the gap. We propose a unified conceptual framework to estimate collective cooperativeness of driving agents leveraging a recent behavioral equilibrium model of mixed autonomy traffic (Li et al. 2022a). This framework is interpretable, theoretically consistent, and enables quantifying collective cooperativeness of traffic agents from trajectory data. We apply the framework to multilane freeway traffic employing NGSIM I-80 trajectory data set and careful data selection. Our case study indicates the existence of collective cooperativeness between human-driven passenger cars and trucks in real-world traffic and reveals its other properties that are otherwise unknown. | 翻訳日:2024-08-19 03:35:49 公開日:2024-07-31 |
# SSRFlow: 実世界のシーンフローのための空間的時間的再埋め込みによる意味認識融合
SSRFlow: Semantic-aware Fusion with Spatial Temporal Re-embedding for Real-world Scene Flow ( http://arxiv.org/abs/2408.07825v1 ) ライセンス: Link先を確認 | Zhiyang Lu, Qinghan Chen, Zhimin Yuan, Ming Cheng, | (参考訳) 2つの連続する点雲から第1フレームの3次元運動場を提供するシーンフローは、動的シーン知覚に不可欠である。
しかし、現代のシーンフロー法は3つの大きな課題に直面している。
まず、グローバルなフローの埋め込みが欠けているか、あるいは埋め込む前に個々のポイントクラウドのコンテキストだけを考慮するだけで、埋め込みポイントは他のフレームの一貫性のあるセマンティックな関係を理解するのに苦労する。
この問題に対処するために,意味的文脈に基づく2フレーム間の潜伏融合とアライメントのためのDCA (Dual Cross Attentive) という新しい手法を提案する。
その後、これはGlobal Fusion Flow Embedding (GF)に統合され、文脈空間とユークリッド空間の両方のグローバル相関に基づいてフロー埋め込みを初期化する。
第二に、反り層の後、非剛体物体に変形が存在し、連続するフレーム間の時空間関係を歪ませる。
次レベルでの残留流れをより正確に推定するために、時空間再埋め込み(STR)モジュールを現段階での点列の特徴を更新するために考案した。
最後に、合成データセットとLiDARスキャンデータセットの間に大きな領域ギャップがあるため、一般化の低さがしばしば観測される。
我々は、新しいドメイン適応損失を利用して、合成から実世界への動き推論のギャップを効果的に橋渡しする。
実験により,本手法は各種データセットにおけるSOTA(State-of-the-art)性能を実現し,実世界のLiDARスキャン環境では特に顕著な結果が得られた。
私たちのコードは出版時に公開される。
Scene flow, which provides the 3D motion field of the first frame from two consecutive point clouds, is vital for dynamic scene perception. However, contemporary scene flow methods face three major challenges. Firstly, they lack global flow embedding or only consider the context of individual point clouds before embedding, leading to embedded points struggling to perceive the consistent semantic relationship of another frame. To address this issue, we propose a novel approach called Dual Cross Attentive (DCA) for the latent fusion and alignment between two frames based on semantic contexts. This is then integrated into Global Fusion Flow Embedding (GF) to initialize flow embedding based on global correlations in both contextual and Euclidean spaces. Secondly, deformations exist in non-rigid objects after the warping layer, which distorts the spatiotemporal relation between the consecutive frames. For a more precise estimation of residual flow at next-level, the Spatial Temporal Re-embedding (STR) module is devised to update the point sequence features at current-level. Lastly, poor generalization is often observed due to the significant domain gap between synthetic and LiDAR-scanned datasets. We leverage novel domain adaptive losses to effectively bridge the gap of motion inference from synthetic to real-world. Experiments demonstrate that our approach achieves state-of-the-art (SOTA) performance across various datasets, with particularly outstanding results in real-world LiDAR-scanned situations. Our code will be released upon publication. | 翻訳日:2024-08-19 03:35:49 公開日:2024-07-31 |
# 深層学習モデルの低信頼性の空間スケール探索:屋根上太陽光発電システムのリモートセンシングを事例として
Space-scale Exploration of the Poor Reliability of Deep Learning Models: the Case of the Remote Sensing of Rooftop Photovoltaic Systems ( http://arxiv.org/abs/2408.07828v1 ) ライセンス: Link先を確認 | Gabriel Kasmi, Laurent Dubus, Yves-Marie Saint Drenan, Philippe Blanc, | (参考訳) 太陽光発電(PV)エネルギーは急速に成長し、電気システムの脱炭に不可欠である。
しかし、屋上PVシステムの技術的特性を記録する集中型レジストリは、しばしば欠落しており、この成長を正確に監視することは困難である。
モニタリングの欠如は、PVエネルギーのグリッドへの統合を脅かす可能性がある。
このような状況を避けるため、ディープラーニングを用いた屋上PVシステムのリモートセンシングが有望なソリューションとして浮上した。
しかし、既存の技術は公共機関やトランスミッション・システム・オペレーター(TSO)が屋上PVの最新の統計を構築するのに十分な信頼性を持っていない。
信頼性の欠如は、ディープラーニングモデルが分散シフトに敏感であることに起因する。
本研究では,屋上PVパネルの検出を訓練したディープラーニングモデルの分類精度に及ぼす分布シフトの影響を網羅的に評価する。
本稿では,分散シフトの源泉を抽出するベンチマークを構築し,説明可能な人工知能(XAI)と入力画像の分解とモデル決定をスケールの観点から活用して,分散シフトがディープラーニングモデルにどのように影響するかを理解する新しい手法を提案する。
最後に,本分析に基づいて,ディープラーニング分類器の堅牢性向上を目的としたデータ拡張手法を提案する。
提案手法は競合する手法よりも優れていることを示す。
本稿では,オーバーヘッド画像とディープラーニングモデルを用いたPVシステムのマッピングの実践的推奨について論じる。
Photovoltaic (PV) energy grows rapidly and is crucial for the decarbonization of electric systems. However, centralized registries recording the technical characteristifs of rooftop PV systems are often missing, making it difficult to accurately monitor this growth. The lack of monitoring could threaten the integration of PV energy into the grid. To avoid this situation, the remote sensing of rooftop PV systems using deep learning emerged as a promising solution. However, existing techniques are not reliable enough to be used by public authorities or transmission system operators (TSOs) to construct up-to-date statistics on the rooftop PV fleet. The lack of reliability comes from the fact that deep learning models are sensitive to distribution shifts. This work proposes a comprehensive evaluation of the effects of distribution shifts on the classification accuracy of deep learning models trained to detect rooftop PV panels on overhead imagery. We construct a benchmark to isolate the sources of distribution shift and introduce a novel methodology that leverages explainable artificial intelligence (XAI) and decomposition of the input image and model's decision in terms of scales to understand how distribution shifts affect deep learning models. Finally, based on our analysis, we introduce a data augmentation technique meant to improve the robustness of deep learning classifiers to varying acquisition conditions. We show that our proposed approach outperforms competing methods. We discuss some practical recommendations for mapping PV systems using overhead imagery and deep learning models. | 翻訳日:2024-08-19 03:35:49 公開日:2024-07-31 |
# 言語駆動スライス発見とエラー修正
Language Driven Slice Discovery and Error Rectification ( http://arxiv.org/abs/2408.07832v1 ) ライセンス: Link先を確認 | Shantanu Ghosh, Chenyu Wang, Kayhan Batmanghelich, | (参考訳) エラースライス発見は構造化パターンとモデルエラーを関連付ける。
既存の方法では、類似したパターンでエラー発生サンプルをクラスタリングしたり、各サンプルに個別属性を割り当てて、ポストホック分析を行う。
これらの手法は、再重み付けや再バランスによる解釈可能性や緩和を容易にすることを目的としているが、不完全な属性や欠落によるエラーパターンの完全な複雑さを捉えることはできない。
既存のアプローチとは対照的に,本稿では,Large Language Model (LLM) の推論機能を用いて,複雑なエラーパターンを分析し,検証可能な仮説を生成する。
本稿では,Language-Driven slice Discovery and Error Rectificationを提案する。
まず最初に、モデルの表現を言語対応の機能空間(\eg CLIP)に投影し、元のモデル機能空間におけるセマンティクスを保存する。
これにより、モデルのエラーをハイライトする文の正確な検索が保証される。
次に、LLMは文を利用し、誤りスライスを発見するために仮説を生成する。
最後に、仮説を用いてグループバランスデータセットを作成することにより、分類ヘッドを微調整することで誤差を軽減する。
私たちのメソッド全体は、明示的にも外部タグ付けモデルを通しても、属性アノテーションを一切必要としません。
画像分類データセットを用いて,本手法の有効性を検証した。
コードは利用可能である。footnote{\url{https://github.com/batmanlab/Ladder}}
Error slice discovery associates structured patterns with model errors. Existing methods discover error slices by clustering the error-prone samples with similar patterns or assigning discrete attributes to each sample for post-hoc analysis. While these methods aim for interpretability and easier mitigation through reweighting or rebalancing, they may not capture the full complexity of error patterns due to incomplete or missing attributes. Contrary to the existing approach, this paper utilizes the reasoning capabilities of the Large Language Model (LLM) to analyze complex error patterns and generate testable hypotheses. This paper proposes LADDER: Language Driven slice Discovery and Error Rectification. It first projects the model's representation into a language-aligned feature space (\eg CLIP) to preserve semantics in the original model feature space. This ensures the accurate retrieval of sentences that highlight the model's errors. Next, the LLM utilizes the sentences and generates hypotheses to discover error slices. Finally, we mitigate the error by fine-tuning the classification head by creating a group-balanced dataset using the hypotheses. Our entire method does not require any attribute annotation, either explicitly or through external tagging models. We validate our method with \textbf{five} image classification datasets. The code is available\footnote{\url{https://github.com/batmanlab/Ladder}} | 翻訳日:2024-08-19 03:35:49 公開日:2024-07-31 |
# 没入型ディスプレイのためのシングルパスマルチタスク知覚グラフィックスの学習
Learned Single-Pass Multitasking Perceptual Graphics for Immersive Displays ( http://arxiv.org/abs/2408.07836v1 ) ライセンス: Link先を確認 | Doğa Yılmaz, Towaki Takikawa, Duygu Ceylan, Kaan Akşit, | (参考訳) 没入型ディスプレイは、フェーベレートレンダリングのような新たな知覚グラフィック手法を活用することで、知覚的にリアルなイメージを提供するという点で急速に進歩している。
実際には、知覚品質を高めるために、複数の手法を順次実行する必要がある。
しかし、没入型ディスプレイを駆動するデバイスの限られたパワーと計算資源は、複数の知覚モデルを同時に展開することを困難にしている。
計算軽量でテキスト誘導型学習型マルチタスク知覚グラフィックスモデルを提案することで,この問題に対処する。
RGB入力画像が与えられた場合、提案したテキストプロンプトによって記述された1つ以上の知覚的タスクを実行することにより、知覚的に強化された画像を出力する。
我々のモデルは、マルチタスク学習を通じて、フェーベレートレンダリング、ダイナミックレンジエンハンスメント、画像デノイング、クロモステレオプシスなど、様々な知覚タスクをサポートします。
ユニークなことに、我々のモデルの1つの推論ステップは、これらの知覚的タスクの異なる順応(すなわち、軽度、軽度)をサポートし、望まれる知覚的効果を得るためにデイジーチェーンの複数のモデルを必要としない。
我々は、新たなソースと知覚的に拡張された画像のデータセットと、対応するテキストプロンプトに基づいて、モデルをトレーニングする。
組込みプラットフォーム上でのモデルの性能を評価し,ユーザスタディを通じてモデルの知覚的品質を評価する。
提案手法は,高速な推論速度と柔軟性を提供し,様々な強度で効果をブレンドする。
Immersive displays are advancing rapidly in terms of delivering perceptually realistic images by utilizing emerging perceptual graphics methods such as foveated rendering. In practice, multiple such methods need to be performed sequentially for enhanced perceived quality. However, the limited power and computational resources of the devices that drive immersive displays make it challenging to deploy multiple perceptual models simultaneously. We address this challenge by proposing a computationally-lightweight, text-guided, learned multitasking perceptual graphics model. Given RGB input images, our model outputs perceptually enhanced images by performing one or more perceptual tasks described by the provided text prompts. Our model supports a variety of perceptual tasks, including foveated rendering, dynamic range enhancement, image denoising, and chromostereopsis, through multitask learning. Uniquely, a single inference step of our model supports different permutations of these perceptual tasks at different prompted rates (i.e., mildly, lightly), eliminating the need for daisy-chaining multiple models to get the desired perceptual effect. We train our model on our new dataset of source and perceptually enhanced images, and their corresponding text prompts. We evaluate our model's performance on embedded platforms and validate the perceptual quality of our model through a user study. Our method achieves on-par quality with the state-of-the-art task-specific methods using a single inference step, while offering faster inference speeds and flexibility to blend effects at various intensities. | 翻訳日:2024-08-19 03:35:49 公開日:2024-07-31 |
# 文化に配慮したクラウドワーカーのためのツール: 多様なワークスタイルをサポートするためのクロネミクスを活用する
A Culturally-Aware Tool for Crowdworkers: Leveraging Chronemics to Support Diverse Work Styles ( http://arxiv.org/abs/2408.07838v1 ) ライセンス: Link先を確認 | Carlos Toxtli, Christopher Curtis, Saiph Savage, | (参考訳) クラウドソーシング市場は世界中で拡大しているが、労働者の文化的多様性を無視し、幸福と生産性に悪影響を及ぼすような標準化されたインターフェースがしばしばある。
本稿では,これらの職場の動態を変容させるため,モノクロ・ポリクロ・ワークスタイルの文化的側面に特化して,文化的に認知された職場用ツールを作成することを提案する。
我々は,この手法を,クロネミクスと文化理論の広範な研究に基づいて構築したツールであるCultureFitで説明する。
実世界でのツールの研究と評価のために,24カ国の55人の労働者を対象に実地実験を行った。
フィールド実験の結果,CultureFitは,デザイン面で見落とされがちな文化的背景から,労働者の収益を著しく改善した。
我々の研究は、文化的に意識されたデジタル労働介入を検討する先駆的な取り組みの一つである。
また、文化とデジタルワークに関する200万以上のデータポイントを持つデータセットへのアクセスも提供する。
デジタル労働のためのツールの設計に文化的洞察を取り入れることの重要性と将来の可能性について論じる。
Crowdsourcing markets are expanding worldwide, but often feature standardized interfaces that ignore the cultural diversity of their workers, negatively impacting their well-being and productivity. To transform these workplace dynamics, this paper proposes creating culturally-aware workplace tools, specifically designed to adapt to the cultural dimensions of monochronic and polychronic work styles. We illustrate this approach with "CultureFit," a tool that we engineered based on extensive research in Chronemics and culture theories. To study and evaluate our tool in the real world, we conducted a field experiment with 55 workers from 24 different countries. Our field experiment revealed that CultureFit significantly improved the earnings of workers from cultural backgrounds often overlooked in design. Our study is among the pioneering efforts to examine culturally aware digital labor interventions. It also provides access to a dataset with over two million data points on culture and digital work, which can be leveraged for future research in this emerging field. The paper concludes by discussing the importance and future possibilities of incorporating cultural insights into the design of tools for digital labor. | 翻訳日:2024-08-19 03:35:49 公開日:2024-07-31 |
# 新しいタイプのファンデーションモデルを構築するための初対人体験の記録
Recording First-person Experiences to Build a New Type of Foundation Model ( http://arxiv.org/abs/2408.02680v1 ) ライセンス: Link先を確認 | Dionis Barcari, David Gamez, Aliya Grig, | (参考訳) 近年、ファンデーションモデルは大きな影響を与えており、現在のAIブームに何十億ドルも投資されている。
Chat-GPTのような一般的なものは、大量のインターネットデータに基づいて訓練されている。
しかし、このデータはすぐに枯渇しそうで、テクノロジー企業は次世代のファンデーションモデルをトレーニングするための新しいデータソースを探している。
強化学習(Reinforcement learning)、RAG(RAG)、迅速なエンジニアリングと認知モデリングは、基礎モデルの振る舞いを微調整し拡張するためにしばしば用いられる。
これらの技法は、カリン・マージョリー(Caryn Marjorie)のような人々を再現するために使われてきた。
これらのチャットボットは、人々の環境に対する実際の感情的・生理的反応に基づいていないため、せいぜい、彼らが模倣しているキャラクターに対する表面的な近似である。
これらの問題に対処するため、私たちは、着用者が見ているもの、聴いているもの、皮膚コンダクタンス(GSR)、表情、脳状態(14チャンネル脳波)をキャプチャする記録リグを開発した。
AIアルゴリズムは、このデータを対象の環境と内部状態のリッチな図として処理するために使用される。
このデータに基づいてトレーニングされた基礎モデルは、これまで開発されたパーソナリティモデルよりもはるかに正確に人間の振る舞いを再現することができる。
この種のモデルには、推薦、個人支援、GANシステム、デート、採用など、多くの潜在的な応用がある。
本稿では,本研究の背景と,その機能に関する記録リグと予備試験について述べる。
次に、新しいタイプのファンデーションモデルが、rigによってキャプチャされたデータからどのように作成され、いくつかのアプリケーションの概要を示す。
データ収集とモデルトレーニングは高価であるため、私たちは現在、プロジェクトの次のステージに資金を調達できるスタートアップの立ち上げに取り組んでいます。
Foundation models have had a big impact in recent years and billions of dollars are being invested in them in the current AI boom. The more popular ones, such as Chat-GPT, are trained on large amounts of Internet data. However, it is becoming apparent that this data is likely to be exhausted soon, and technology companies are looking for new sources of data to train the next generation of foundation models. Reinforcement learning, RAG, prompt engineering and cognitive modelling are often used to fine-tune and augment the behaviour of foundation models. These techniques have been used to replicate people, such as Caryn Marjorie. These chatbots are not based on people's actual emotional and physiological responses to their environment, so they are, at best, a surface-level approximation to the characters they are imitating. To address these issues, we have developed a recording rig that captures what the wearer is seeing and hearing as well as their skin conductance (GSR), facial expression and brain state (14 channel EEG). AI algorithms are used to process this data into a rich picture of the environment and internal states of the subject. Foundation models trained on this data could replicate human behaviour much more accurately than the personality models that have been developed so far. This type of model has many potential applications, including recommendation, personal assistance, GAN systems, dating and recruitment. This paper gives some background to this work and describes the recording rig and preliminary tests of its functionality. It then suggests how a new type of foundation model could be created from the data captured by the rig and outlines some applications. Data gathering and model training are expensive, so we are currently working on the launch of a start-up that could raise funds for the next stage of the project. | 翻訳日:2024-08-07 18:32:55 公開日:2024-07-31 |
# 患者中心型データサイエンス : デジタルヘルス時代の臨床結果の評価と予測のための統合的枠組み
Patient-centered data science: an integrative framework for evaluating and predicting clinical outcomes in the digital health era ( http://arxiv.org/abs/2408.02677v1 ) ライセンス: Link先を確認 | Mohsen Amoei, Dan Poenaru, | (参考訳) 本研究では,デジタルヘルス時代の患者中心型データサイエンスのための新たな統合的枠組みを提案する。
従来の臨床データと患者の報告した結果、健康の社会的決定要因、および多次元データを組み合わせて総合的なデジタル患者表現を作成する多次元モデルを開発した。
我々のフレームワークは、大規模言語モデルを含む様々な機械学習技術を利用して、複雑で縦長なデータセットを解析するマルチエージェント人工知能アプローチを採用している。
このモデルは、バイアスに対処しながら複数の患者結果を同時に最適化し、一般化性を確保することを目的としている。
我々は、最適な患者ケアのための戦略を継続的に洗練する学習医療システムを構築するために、このフレームワークをどのように実装できるかを実証する。
このアプローチは、AI駆動型医療モデルにおける現在の制限に対処しながら、デジタルヘルスイノベーションを現実の臨床的メリットに大幅に改善する可能性がある。
This study proposes a novel, integrative framework for patient-centered data science in the digital health era. We developed a multidimensional model that combines traditional clinical data with patient-reported outcomes, social determinants of health, and multi-omic data to create comprehensive digital patient representations. Our framework employs a multi-agent artificial intelligence approach, utilizing various machine learning techniques including large language models, to analyze complex, longitudinal datasets. The model aims to optimize multiple patient outcomes simultaneously while addressing biases and ensuring generalizability. We demonstrate how this framework can be implemented to create a learning healthcare system that continuously refines strategies for optimal patient care. This approach has the potential to significantly improve the translation of digital health innovations into real-world clinical benefits, addressing current limitations in AI-driven healthcare models. | 翻訳日:2024-08-07 16:27:42 公開日:2024-07-31 |
# ステップサイズと運動量重みの独立列をもつ確率勾配法の収束率
Convergence rates of stochastic gradient method with independent sequences of step-size and momentum weight ( http://arxiv.org/abs/2408.02678v1 ) ライセンス: Link先を確認 | Wen-Liang Hwang, | (参考訳) 大規模学習アルゴリズムでは、運動量項は通常、局所的な最小値に達するために効率よく渓谷をナビゲートできるため、学習速度を改善する確率的下位段階法に含まれる。
しかし、ステップサイズと運動量重みのハイパーパラメータは収束を最適化するために適切に調整されなければならない。
そこで我々はPolyakの2つの一般的なステップサイズ学習率である ``diminishing-to-zero" と ``constant-and-drop" の確率的プログラミングを用いて収束率を解析した。
前者に対しては、収束速度は運動量重みのステップサイズと多項式の指数関数の積として記述できることを示す。
本分析は,大規模機械学習ソフトウェアにおいて,デフォルトの運動量重み設定と0段階から0段階のステップサイズシーケンスの収束を正当化する。
後者については、各段階で運動量重み列が収束する条件を示す。
In large-scale learning algorithms, the momentum term is usually included in the stochastic sub-gradient method to improve the learning speed because it can navigate ravines efficiently to reach a local minimum. However, step-size and momentum weight hyper-parameters must be appropriately tuned to optimize convergence. We thus analyze the convergence rate using stochastic programming with Polyak's acceleration of two commonly used step-size learning rates: ``diminishing-to-zero" and ``constant-and-drop" (where the sequence is divided into stages and a constant step-size is applied at each stage) under strongly convex functions over a compact convex set with bounded sub-gradients. For the former, we show that the convergence rate can be written as a product of exponential in step-size and polynomial in momentum weight. Our analysis justifies the convergence of using the default momentum weight setting and the diminishing-to-zero step-size sequence in large-scale machine learning software. For the latter, we present the condition for the momentum weight sequence to converge at each stage. | 翻訳日:2024-08-07 16:27:42 公開日:2024-07-31 |
# 多出力因果グラフの視覚的解析
Visual Analysis of Multi-outcome Causal Graphs ( http://arxiv.org/abs/2408.02679v1 ) ライセンス: Link先を確認 | Mengjie Fan, Jinlu Yu, Daniel Weiskopf, Nan Cao, Huai-Yu Wang, Liang Zhou, | (参考訳) 結果変数の異なる複数の因果グラフの視覚的解析法,すなわちマルチアウトカム因果グラフを提案する。
マルチ・アウトカム因果グラフは、マルチモービディティーとコオービディティを理解するために医療において重要である。
視覚分析を支援するために,我々は医療専門家と共同で,分析プロセスの異なる段階における2つの比較可視化手法を考案した。
まず,複数の最先端因果探索アルゴリズムを比較するために,プログレッシブ・ビジュアライゼーション法を提案する。
連続変数とカテゴリー変数の両方からなる混合型データセットを処理し、単一結果の微調整因果グラフの作成を支援する。
次に,複数の因果グラフを高速に比較するために,比較グラフレイアウト法と特殊視覚符号化法を考案した。
視覚分析アプローチでは,まず各結果変数に対して個別の因果グラフを構築することから始め,これらの因果グラフの違いや共通点を分析するための比較手法を用いて,多出力因果グラフを生成し,視覚化する。
評価には、ベンチマークデータセットの定量的測定、医療専門家によるケーススタディ、現実世界の健康調査データによる専門家のユーザスタディが含まれる。
We introduce a visual analysis method for multiple causal graphs with different outcome variables, namely, multi-outcome causal graphs. Multi-outcome causal graphs are important in healthcare for understanding multimorbidity and comorbidity. To support the visual analysis, we collaborated with medical experts to devise two comparative visualization techniques at different stages of the analysis process. First, a progressive visualization method is proposed for comparing multiple state-of-the-art causal discovery algorithms. The method can handle mixed-type datasets comprising both continuous and categorical variables and assist in the creation of a fine-tuned causal graph of a single outcome. Second, a comparative graph layout technique and specialized visual encodings are devised for the quick comparison of multiple causal graphs. In our visual analysis approach, analysts start by building individual causal graphs for each outcome variable, and then, multi-outcome causal graphs are generated and visualized with our comparative technique for analyzing differences and commonalities of these causal graphs. Evaluation includes quantitative measurements on benchmark datasets, a case study with a medical expert, and expert user studies with real-world health research data. | 翻訳日:2024-08-07 16:27:42 公開日:2024-07-31 |
# 指数減衰電位による最小結合フェルミオン-反フェルミオン対
Minimally coupled fermion-antifermion pairs via exponentially decaying potential ( http://arxiv.org/abs/2408.02681v1 ) ライセンス: Link先を確認 | Abdullah Guvendi, Semra Gurtas Dogan, Omar Mustafa, | (参考訳) 本研究では、フェルミオン-反フェルミオン(f\overline{f}$)対が指数関数的に崩壊するポテンシャルを介してどのように相互作用するかを検討する。
共変1時間2体ディラック方程式を用いて3次元平坦な背景下での相対運動について検討する。
我々の手法は結合方程式がそれらの振舞いを制御し、一般の2階波動方程式をもたらす。
これを通じて、ペア形成のための量子化条件を確立し、解析解を導出し、それらの力学に関する洞察を与える。
特に、相互作用する$f\overline{f}$系は時間とともに不安定で崩壊し、崩壊時間はフェルミオンのコンプトン波長に依存する。
In this study, we explore how a fermion-antifermion ($f\overline{f}$) pair interacts via an exponentially decaying potential. Using a covariant one-time two-body Dirac equation, we examine their relative motion in a three-dimensional flat background. Our approach leads to coupled equations governing their behavior, resulting in a general second-order wave equation. Through this, we derive analytical solutions by establishing quantization conditions for pair formation, providing insights into their dynamics. Notably, we find that such interacting $f\overline{f}$ systems are unstable and decay over time, with the decay time depending on the Compton wavelength of the fermions. | 翻訳日:2024-08-07 16:17:55 公開日:2024-07-31 |
# 複雑系の閉ループ拡散制御
Closed-loop Diffusion Control of Complex Physical Systems ( http://arxiv.org/abs/2408.03124v1 ) ライセンス: Link先を確認 | Long Wei, Haodong Feng, Peiyan Hu, Tao Zhang, Yuchen Yang, Xiang Zheng, Ruiqi Feng, Dixia Fan, Tailin Wu, | (参考訳) 複雑な物理系の制御問題は、科学と工学に幅広い応用がある。
いくつかの先行研究は、拡散モデルに基づく生成的制御法がこれらの問題を解決する上で大きな利点があることを証明している。
しかし、既存の生成制御手法は、複雑な物理系の効率的な制御に固有の制約であるクローズドループ制御を扱う際の課題に直面している。
本稿では,物理系制御のための閉ループ拡散法(CL-DiffPhyCon)を提案する。
CL-DiffPhyConは、異なる時間ステップで非同期なdenoisingスケジュールを採用することで、環境からのリアルタイムフィードバックに条件付けられた制御信号を生成する。
したがって、CL-DiffPhyConはクローズドループフレームワークにおける拡散制御を高速化することができる。
CL-DiffPhyConを1D Burgers方程式制御と2D非圧縮性流体制御タスクで評価した。
その結果,CL-DiffPhyConは顕著なサンプリングアクセラレーションを伴う顕著な制御性能を達成できた。
The control problems of complex physical systems have wide applications in science and engineering. Several previous works have demonstrated that generative control methods based on diffusion models have significant advantages for solving these problems. However, existing generative control methods face challenges in handling closed-loop control, which is an inherent constraint for effective control of complex physical systems. In this paper, we propose a Closed-Loop Diffusion method for Physical systems Control (CL-DiffPhyCon). By adopting an asynchronous denoising schedule for different time steps, CL-DiffPhyCon generates control signals conditioned on real-time feedback from the environment. Thus, CL-DiffPhyCon is able to speed up diffusion control methods in a closed-loop framework. We evaluate CL-DiffPhyCon on the 1D Burgers' equation control and 2D incompressible fluid control tasks. The results demonstrate that CL-DiffPhyCon achieves notable control performance with significant sampling acceleration. | 翻訳日:2024-08-07 14:17:45 公開日:2024-07-31 |
# 人工知能による特徴選択と注意ネットワークによる疾患予測の最適化
Optimizing Disease Prediction with Artificial Intelligence Driven Feature Selection and Attention Networks ( http://arxiv.org/abs/2408.03151v1 ) ライセンス: Link先を確認 | D. Dhinakaran, S. Edwin Raja, M. Thiyagarajan, J. Jeno Jasmine, P. Raghavan, | (参考訳) 医療における機械学習の方法論の急速な統合は、特にElectronic Health Records(EHR)データの膨大なリポジトリにおいて、疾病予測のための革新的な戦略を浮き彫りにした。
本稿では,マルチディスリーズ予測の領域を掘り下げ,先駆的なアンサンブル特徴選択モデルを導入した包括的研究を紹介する。
このモデルは学習システムを最適化するために設計され、革新的な安定化エネルギーバレー最適化と拡張境界(SEV-EB)アルゴリズムによって統計的、深く、最適に選択された特徴を組み合わせる。
目的は、様々な障害を予測する際に、非並列の精度と安定性を達成することである。
本研究は,統計的,深度,最適に選択された特徴を相乗的に統合する高度なアンサンブルモデルを提案する。
この組み合わせは、健康データの多様な側面を捉えることにより、モデルの予測能力を高めることを目的としている。
提案モデルの中心には、最適な特徴選択のための新しいアプローチであるSEV-EBアルゴリズムがある。
このアルゴリズムは、拡張された境界と安定化技術を導入し、全体的な予測モデルの堅牢性と正確性に寄与する。
予測能力をさらに高めるために、HSC-AttentionNetを導入している。
このネットワークアーキテクチャは、深層時間畳み込み機能とLSTMを組み合わせることで、モデルが健康データ内の短期パターンと長期依存関係の両方をキャプチャすることを可能にする。
厳密な評価は、提案したモデルの顕著な性能を示す。
95%の精度と94%のF1スコアを達成し、従来の手法を超越し、疾患予測の精度が著しく向上したことを示す。
この研究の意義は学界に及ばない。
The rapid integration of machine learning methodologies in healthcare has ignited innovative strategies for disease prediction, particularly with the vast repositories of Electronic Health Records (EHR) data. This article delves into the realm of multi-disease prediction, presenting a comprehensive study that introduces a pioneering ensemble feature selection model. This model, designed to optimize learning systems, combines statistical, deep, and optimally selected features through the innovative Stabilized Energy Valley Optimization with Enhanced Bounds (SEV-EB) algorithm. The objective is to achieve unparalleled accuracy and stability in predicting various disorders. This work proposes an advanced ensemble model that synergistically integrates statistical, deep, and optimally selected features. This combination aims to enhance the predictive power of the model by capturing diverse aspects of the health data. At the heart of the proposed model lies the SEV-EB algorithm, a novel approach to optimal feature selection. The algorithm introduces enhanced bounds and stabilization techniques, contributing to the robustness and accuracy of the overall prediction model. To further elevate the predictive capabilities, an HSC-AttentionNet is introduced. This network architecture combines deep temporal convolution capabilities with LSTM, allowing the model to capture both short-term patterns and long-term dependencies in health data. Rigorous evaluations showcase the remarkable performance of the proposed model. Achieving a 95% accuracy and 94% F1-score in predicting various disorders, the model surpasses traditional methods, signifying a significant advancement in disease prediction accuracy. The implications of this research extend beyond the confines of academia. | 翻訳日:2024-08-07 14:07:58 公開日:2024-07-31 |
# ユーザアーチタイプの特徴とScored.coに関する議論
Characterizing User Archetypes and Discussions on Scored.co ( http://arxiv.org/abs/2407.21753v1 ) ライセンス: Link先を確認 | Andrea Failla, Salvatore Citraro, Giulio Rossetti, Francesco Cauteruccio, | (参考訳) 近年、ソーシャルプラットフォームの普及は、個人間の交流、組織化、情報の共有の方法を大きく変えている。
このシナリオでは、対話の規模と複雑さが前例のない増加を経験します。
本稿では,ソーシャルハイパーネットワークにおけるノードとハイパーエッジを特徴付ける多次元フレームワークを提案する。
提案手法は,ハイパーネットワーク表現による高次インタラクションや,ユーザ活動や感情,毒性などのノードの特徴を,異なるユーザアーチタイプを定義し,ネットワーク内での役割を理解することを目的とした,高次インタラクションの研究の可能性を統合する。
Scored.coの包括的データセットを利用して、時間とともにこれらのアーチタイプのダイナミクスを分析し、コミュニティ内での相互作用と影響を探る。
このフレームワークの汎用性は、個々のユーザー行動とより広い社会構造の両方を詳細に分析することができる。
本研究は,複雑なオンライン環境に出現する役割や行動に対する新たな洞察を提供するとともに,社会的ダイナミクスを理解する上での高次相互作用の重要性を強調した。
In recent years, the proliferation of social platforms has drastically transformed the way individuals interact, organize, and share information. In this scenario, we experience an unprecedented increase in the scale and complexity of interactions and, at the same time, little to no research about some fringe social platforms. In this paper, we present a multi-dimensional framework for characterizing nodes and hyperedges in social hypernetworks, with a focus on the understudied alt-right platform Scored.co. Our approach integrates the possibility of studying higher-order interactions, thanks to the hypernetwork representation, and various node features such as user activity, sentiment, and toxicity, with the aim to define distinct user archetypes and understand their roles within the network. Utilizing a comprehensive dataset from Scored.co, we analyze the dynamics of these archetypes over time and explore their interactions and influence within the community. The framework's versatility allows for detailed analysis of both individual user behaviors and broader social structures. Our findings highlight the importance of higher-order interactions in understanding social dynamics, offering new insights into the roles and behaviors that emerge in complex online environments. | 翻訳日:2024-08-05 15:40:20 公開日:2024-07-31 |
# インプット・ロバスト強化学習における摂動状態について
On the Perturbed States for Transformed Input-robust Reinforcement Learning ( http://arxiv.org/abs/2408.00023v1 ) ライセンス: Link先を確認 | Tung M. Luu, Haeyong Kang, Tri Ton, Thanh Nguyen, Chang D. Yoo, | (参考訳) 訓練環境における熟練度を示す強化学習(Reinforcement Learning, RL)エージェントは, 展開中の入力観察において, 敵の摂動に対する脆弱性を示す。
これは、実世界のデプロイの前に堅牢なエージェントを構築することの重要性を浮き彫りにする。
この課題を軽減するために、事前の作業は堅牢なトレーニングベースの手順の開発に重点を置いており、ディープニューラルネットワークコンポーネントの堅牢性を強化したり、エージェントに強力な攻撃に対する敵のトレーニングを課すような努力を包含している。
本研究では,入力変換をベースとした防御技術を用いて,敵の攻撃を緩和する新たな手法である「textit{Transformed Input-robust RL(TIRL)」を提案する。
具体的には、元の状態を再構成するために \textit{(1) autoencoder-styled denoising} と、閉じた変換入力を達成するために \textit{(2) bounded transformations (bit-deepth reduction and vector Quantization (VQ)) という、ロバストなRLエージェントの学習に変換ベースの防御を適用するための2つの原則を導入する。
トランスフォーメーションは、ポリシーネットワークに入力する前に、状態に適用されます。
複数のシャムジョコ環境に対する大規模な実験により、入力変換に基づく防御、すなわちVQは、状態観察におけるいくつかの敵に対して防御することを示した。
Reinforcement Learning (RL) agents demonstrating proficiency in a training environment exhibit vulnerability to adversarial perturbations in input observations during deployment. This underscores the importance of building a robust agent before its real-world deployment. To alleviate the challenging point, prior works focus on developing robust training-based procedures, encompassing efforts to fortify the deep neural network component's robustness or subject the agent to adversarial training against potent attacks. In this work, we propose a novel method referred to as \textit{Transformed Input-robust RL (TIRL)}, which explores another avenue to mitigate the impact of adversaries by employing input transformation-based defenses. Specifically, we introduce two principles for applying transformation-based defenses in learning robust RL agents: \textit{(1) autoencoder-styled denoising} to reconstruct the original state and \textit{(2) bounded transformations (bit-depth reduction and vector quantization (VQ))} to achieve close transformed inputs. The transformations are applied to the state before feeding it into the policy network. Extensive experiments on multiple \mujoco environments demonstrate that input transformation-based defenses, \ie, VQ, defend against several adversaries in the state observations. | 翻訳日:2024-08-05 00:36:46 公開日:2024-07-31 |
# 説明を与える知覚AIシステムは、正直なAIシステムよりも説得力があり、誤情報に対する信念を増幅することができる
Deceptive AI systems that give explanations are more convincing than honest AI systems and can amplify belief in misinformation ( http://arxiv.org/abs/2408.00024v1 ) ライセンス: Link先を確認 | Valdemar Danry, Pat Pataranutaporn, Matthew Groh, Ziv Epstein, Pattie Maes, | (参考訳) 高度な人工知能(AI)システム、特に大きな言語モデル(LLM)は、誤情報を生成できるだけでなく、偽情報を正当化し伝播し、真実への信頼を損なうような偽りの説明もできる。
我々は,1,192人の参加者から23,840人の観察を行ったオンライン実験において,騙しAI生成の説明が個人の信念に及ぼす影響を検討した。
正確で率直な説明よりも説得力が高いことに加えて、AIが生成した偽ニュースの見出しに対する信条は、偽ニュースの見出しに対する信条を著しく増幅し、真偽の見出しを誤って分類するAIシステムと比較すると、真偽のニュースの見出しに対する信条を弱めてしまうことがわかりました。
さらに,認知的リフレクションやAIに対する信頼などの個人的要因は,必ずしも,偽りのAIが生成した説明によって引き起こされるこれらの影響から個人を保護しているとは限らないことを示した。
その代わり、私たちの結果は、AIの論理的妥当性が、AIの分類の真理性に因果的な影響があるかどうかを判断し、論理的に無効な説明は信頼性の低いものとみなす上で重要な役割を担っていることを示しています。
このことは、論理的推論と批判的思考スキルを教え、論理的に無効な議論を識別し、先進的なAI駆動の誤情報に対するより大きなレジリエンスを育むことの重要性を浮き彫りにする。
Advanced Artificial Intelligence (AI) systems, specifically large language models (LLMs), have the capability to generate not just misinformation, but also deceptive explanations that can justify and propagate false information and erode trust in the truth. We examined the impact of deceptive AI generated explanations on individuals' beliefs in a pre-registered online experiment with 23,840 observations from 1,192 participants. We found that in addition to being more persuasive than accurate and honest explanations, AI-generated deceptive explanations can significantly amplify belief in false news headlines and undermine true ones as compared to AI systems that simply classify the headline incorrectly as being true/false. Moreover, our results show that personal factors such as cognitive reflection and trust in AI do not necessarily protect individuals from these effects caused by deceptive AI generated explanations. Instead, our results show that the logical validity of AI generated deceptive explanations, that is whether the explanation has a causal effect on the truthfulness of the AI's classification, plays a critical role in countering their persuasiveness - with logically invalid explanations being deemed less credible. This underscores the importance of teaching logical reasoning and critical thinking skills to identify logically invalid arguments, fostering greater resilience against advanced AI-driven misinformation. | 翻訳日:2024-08-05 00:36:46 公開日:2024-07-31 |
# 現代教育におけるAIの必要性 : 説明可能なAI(xAI)の視点から
Need of AI in Modern Education: in the Eyes of Explainable AI (xAI) ( http://arxiv.org/abs/2408.00025v1 ) ライセンス: Link先を確認 | Supriya Manna, Niladri Sett, | (参考訳) 現代教育はAIなしでは「textit{Modern}」ではない。
しかし、AIの複雑な性質は、問題の理解と修正を困難にしている。
世界中の研究によると、親の収入は子どもの教育に大きく影響している。
これにより、AI、特に複雑なモデルが、Explainable AIツールを使用して重要な決定を行う方法を探ることができた。
我々の研究は、親の収入に関連する多くの複雑さを発見し、これらの決定について合理的な説明を提供した。
しかし、教育におけるAIからの要望に反するAIのバイアスも見つかりました。
これらのバイアスは、家族や子供の教育に影響を与え、全員に公正な機会を提供するより良いAIソリューションの必要性を強調します。
この章は、AIの操作方法、特にバイアスに関する複雑な方法を明かそうとしている。
これらは、より信頼性があり、説明責任があり、すべての関係者にとって有益な方法でAIを使用することを含む、より良い教育政策に向けた基本的なステップである。
Modern Education is not \textit{Modern} without AI. However, AI's complex nature makes understanding and fixing problems challenging. Research worldwide shows that a parent's income greatly influences a child's education. This led us to explore how AI, especially complex models, makes important decisions using Explainable AI tools. Our research uncovered many complexities linked to parental income and offered reasonable explanations for these decisions. However, we also found biases in AI that go against what we want from AI in education: clear transparency and equal access for everyone. These biases can impact families and children's schooling, highlighting the need for better AI solutions that offer fair opportunities to all. This chapter tries to shed light on the complex ways AI operates, especially concerning biases. These are the foundational steps towards better educational policies, which include using AI in ways that are more reliable, accountable, and beneficial for everyone involved. | 翻訳日:2024-08-05 00:36:46 公開日:2024-07-31 |
# 量子絡み合いを利用した新しいデータ通信法
A New Horizon of Data Communication through Quantum Entanglement ( http://arxiv.org/abs/2408.00029v1 ) ライセンス: Link先を確認 | S. M. Rashadul Islam, Md Manirul Islam, Umme Salsabil, | (参考訳) 既存のデータ通信システムの祝福により、世界のあらゆる場所において、情報通信や共有を数秒以内に行うことができますが、従来のデータ通信システムにはいくつかの制限があります。
私たちは毎日、これらの制限を克服し、より良いパフォーマンスのためにシステムを改善しようとしています。
それらの中のいくつかは、物理学の非常に基本的なあるいは根本的な依存関係のため、解けないかもしれない。
本稿では,従来の通信システムにおける主な欠点を明らかにし,古典的あるいは近代的な物理現象ではなく,神秘的な量子エンタングルメント定理を用いてこれらの問題を克服するための概念モデルを提供する。
最後に,エンド・ツー・エンドのデータ通信のための量子回路図と量子ネットワークアーキテクチャを提案する。
この仮説モデルデータにより、光よりも高速に伝送でき、従来の通信媒体を使わずに、どの距離からでも100%リアルタイムに伝送できると予測されている。
By the blessing of our existing data communication system, we can communicate or share our information with each other in every nook and corner of the world within some few seconds but there are some limitations in our traditional data communication system. Every day we are trying to overcome these limitations and improve our systems for better performance. Among them some problems may not be resolvable, for the reason of very basic or root dependencies of physics. In this paper, we have clarified some main drawbacks in our traditional communication system and provided a conceptual model to overcome these issues by using mystic Quantum Entanglement theorem rather than classical or modern physics phenomenon. In the end, we introduced a possible Quantum circuit diagram and Quantum network architecture for end-to-end data communication. It is predicted that through this hypothetical model data can be transmitted faster than light and it will be 100% real time between any distances without any kinds of traditional communication medium that are being used to date. | 翻訳日:2024-08-05 00:36:46 公開日:2024-07-31 |
# 人々の感情と生理の記録に基づく新しい基礎モデル
A New Type of Foundation Model Based on Recordings of People's Emotions and Physiology ( http://arxiv.org/abs/2408.00030v1 ) ライセンス: Link先を確認 | David Gamez, Dionis Barcari, Aliya Grig, | (参考訳) 近年、ファンデーションモデルは大きな影響を与えており、現在のAIブームに何十億ドルも投資されている。
より一般的なChat-GPTは、インターネットから大量のデータをトレーニングし、強化学習(RAG)、迅速なエンジニアリングと認知モデリングを使用して、その振る舞いを微調整し、強化する。
この技術は、カーリン・マージョリー(Caryn Marjorie)のような個人のモデルを作成するために使われてきた。
しかし、これらのチャットボットは、人々の実際の環境に対する感情的・生理的反応に基づいていないため、せいぜい、彼らが模倣しているキャラクターに対する表面的な近似である。
本論では,その刺激に対する感情的・生理的反応だけでなく,ある人が何を見たかの録音から,新しいタイプの基礎モデル(一人称基礎モデル)を作成する方法について述べる。
ファースト・パーソン・ファンデーション・モデルは、環境刺激を人の感情的・生理的状態にマッピングし、人の感情的・生理的状態と行動にマッピングする。
ファウンデーションモデルは、新しいタイプのレコメンデーションエンジン、パーソナルアシスタント、生成的敵ネットワーク、デートと採用など、多くのエキサイティングな応用がある。
初対人基礎モデルのトレーニングデータを得るため,装着者が見ているもの,聴いているもの,感情的,生理的状態をキャプチャする記録リグを開発した。
この新たなデータソースは、次世代のファンデーションモデルを構築するための新しいデータ不足に対処するのに役立ちます。
Foundation models have had a big impact in recent years and billions of dollars are being invested in them in the current AI boom. The more popular ones, such as Chat-GPT, are trained on large amounts of data from the Internet, and then reinforcement learning, RAG, prompt engineering and cognitive modelling are used to fine-tune and augment their behavior. This technology has been used to create models of individual people, such as Caryn Marjorie. However, these chatbots are not based on people's actual emotional and physiological responses to their environment, so they are, at best, surface-level approximations to the characters they are imitating. This paper describes how a new type of foundation model - a first-person foundation model - could be created from recordings of what a person sees and hears as well as their emotional and physiological reactions to these stimuli. A first-person foundation model would map environmental stimuli to a person's emotional and physiological states, and map a person's emotional and physiological states to their behavior. First-person foundation models have many exciting applications, including a new type of recommendation engine, personal assistants, generative adversarial networks, dating and recruitment. To obtain training data for a first-person foundation model, we have developed a recording rig that captures what the wearer is seeing and hearing as well as their emotional and physiological states. This novel source of data could help to address the shortage of new data for building the next generation of foundation models. | 翻訳日:2024-08-05 00:36:46 公開日:2024-07-31 |
# 統合的注意機構を用いた断層検出・原因同定の高度化
Enhanced Fault Detection and Cause Identification Using Integrated Attention Mechanism ( http://arxiv.org/abs/2408.00033v1 ) ライセンス: Link先を確認 | Mohammad Ali Labbaf Khaniki, Alireza Golkarieh, Houman Nouri, Mohammad Manthouri, | (参考訳) 本研究では、双方向長短期記憶(BiLSTM)ニューラルネットワークと統合注意機構(IAM)を統合することにより、テネシー・イーストマン・プロセス(TEP)内の障害検出と原因特定のための新しい手法を提案する。
IAMは、スケールドドット製品に対する注意力、残留注意力、動的注意力を組み合わせて、TEP障害検出に不可欠な複雑なパターンや依存関係をキャプチャする。
当初、アテンションメカニズムは入力データから重要な特徴を抽出し、モデルの解釈可能性と妥当性を高める。
BiLSTMネットワークはこれらの特徴を双方向に処理して長距離依存関係をキャプチャし、IAMは出力をさらに改善し、故障検出結果が改善された。
シミュレーションの結果,従来の手法と比較して精度,誤報率,誤分類率に優れた性能を示した。
この手法は、TEPにおける断層検出と診断のための堅牢で解釈可能なソリューションを提供し、産業応用の可能性を強調している。
This study introduces a novel methodology for fault detection and cause identification within the Tennessee Eastman Process (TEP) by integrating a Bidirectional Long Short-Term Memory (BiLSTM) neural network with an Integrated Attention Mechanism (IAM). The IAM combines the strengths of scaled dot product attention, residual attention, and dynamic attention to capture intricate patterns and dependencies crucial for TEP fault detection. Initially, the attention mechanism extracts important features from the input data, enhancing the model's interpretability and relevance. The BiLSTM network processes these features bidirectionally to capture long-range dependencies, and the IAM further refines the output, leading to improved fault detection results. Simulation results demonstrate the efficacy of this approach, showcasing superior performance in accuracy, false alarm rate, and misclassification rate compared to existing methods. This methodology provides a robust and interpretable solution for fault detection and diagnosis in the TEP, highlighting its potential for industrial applications. | 翻訳日:2024-08-05 00:36:46 公開日:2024-07-31 |
# Barlow Twins Deep Neural Network for Advanced 1D Drug-Target Interaction Prediction
Barlow Twins Deep Neural Network for Advanced 1D Drug-Target Interaction Prediction ( http://arxiv.org/abs/2408.00040v1 ) ライセンス: Link先を確認 | Maximilian G. Schuh, Davide Boldini, Stephan A. Sieber, | (参考訳) 薬物と標的の相互作用の正確な予測は、薬物発見を促進するために重要である。
時間とコストを削減することによって、機械学習とディープラーニングはこの発見プロセスを加速することができる。
提案手法は,ターゲットタンパク質の構造を考慮しつつ,特徴抽出のための強力なBarlow Twinsアーキテクチャを活用し,複数の確立されたベンチマークに対して最先端の予測性能を実現する。
勾配推力機械を基礎となる予測装置として用いることで、大きな計算資源を必要とせず、高速かつ効率的な予測が可能になる。
さらに既存のメソッドに対して,新たなベースラインをベンチマークした。
これらのイノベーションは、薬物と標的の相互作用予測の効率と効果を改善し、薬物開発を加速し、分子間相互作用の理解を深めるための堅牢なツールを提供する。
Accurate prediction of drug-target interactions is critical for advancing drug discovery. By reducing time and cost, machine learning and deep learning can accelerate this discovery process. Our approach utilises the powerful Barlow Twins architecture for feature-extraction while considering the structure of the target protein, achieving state-of-the-art predictive performance against multiple established benchmarks. The use of gradient boosting machine as the underlying predictor ensures fast and efficient predictions without the need for large computational resources. In addition, we further benchmarked new baselines against existing methods. Together, these innovations improve the efficiency and effectiveness of drug-target interaction predictions, providing robust tools for accelerating drug development and deepening the understanding of molecular interactions. | 翻訳日:2024-08-05 00:36:46 公開日:2024-07-31 |
# Con4m:セグメンテッド時系列分類のためのコンテキスト対応一貫性学習フレームワーク
Con4m: Context-aware Consistency Learning Framework for Segmented Time Series Classification ( http://arxiv.org/abs/2408.00041v1 ) ライセンス: Link先を確認 | Junru Chen, Tianyu Cao, Jing Xu, Jiahe Li, Zhilong Chen, Tao Xiao, Yang Yang, | (参考訳) 時系列分類(TSC)は、シーケンス全体を分類するか、セグメント化されたサブシーケンスを分類する2つの設定を含む。
セグメント化されたTSCの生の時系列は通常、各クラスのVarying Duration(MVD)を持つ複数のクラスを含む。
したがって、MVDの特徴はセグメント化されたTSCに固有の課題を生じさせるが、既存の研究でほとんど見落とされた。
具体的には、MVD内で分類される連続するインスタンス(セグメント)の間に自然な時間依存性が存在する。
しかし、主流のTSCモデルは独立性と同一分布(すなわち、各セグメントを独立にモデル化すること)の仮定に依存している。
さらに、様々な専門知識を持つアノテータは、一貫性のない境界ラベルを提供し、ノイズのないTSCモデルの不安定な性能をもたらす可能性がある。
これらの課題に対処するために、我々はまず、価値ある文脈情報が分類インスタンスの識別力を高めることを正式に示す。
データレベルとラベルレベルの両方でMVDの文脈的先行性を活用することで、セグメンテーションされたTSCタスクの連続セグメントを識別し、一貫性のない境界ラベルをトレーニング用に調和させながら、文脈的情報を効果的に活用する新しい一貫性学習フレームワークCon4mを提案する。
複数のデータセットにわたる大規模な実験は、MVD上のセグメント化されたTSCタスクの処理におけるCon4mの有効性を検証する。
Time Series Classification (TSC) encompasses two settings: classifying entire sequences or classifying segmented subsequences. The raw time series for segmented TSC usually contain Multiple classes with Varying Duration of each class (MVD). Therefore, the characteristics of MVD pose unique challenges for segmented TSC, yet have been largely overlooked by existing works. Specifically, there exists a natural temporal dependency between consecutive instances (segments) to be classified within MVD. However, mainstream TSC models rely on the assumption of independent and identically distributed (i.i.d.), focusing on independently modeling each segment. Additionally, annotators with varying expertise may provide inconsistent boundary labels, leading to unstable performance of noise-free TSC models. To address these challenges, we first formally demonstrate that valuable contextual information enhances the discriminative power of classification instances. Leveraging the contextual priors of MVD at both the data and label levels, we propose a novel consistency learning framework Con4m, which effectively utilizes contextual information more conducive to discriminating consecutive segments in segmented TSC tasks, while harmonizing inconsistent boundary labels for training. Extensive experiments across multiple datasets validate the effectiveness of Con4m in handling segmented TSC tasks on MVD. | 翻訳日:2024-08-05 00:27:00 公開日:2024-07-31 |
# 非同期量子クロック下でのラウンドトリップなしでの量子粒子の速度測定
Measuring the speed of quantum particles without a round-trip under non-synchronized quantum clocks ( http://arxiv.org/abs/2408.00046v1 ) ライセンス: Link先を確認 | Tomer Shushi, | (参考訳) 光の片方向速度(英: one-way speed)と呼ばれるある空間位置から別の位置へしか移動しない場合、光の速度を測定する際の主要な問題の一つは、分離された空間位置に属する時計が不十分であり、原理的には十分な精度で同期できないことである。
この問題は、これまで光の2方向の速度、すなわち、光源から別の位置へ移動して源に戻る光の速度を計測した全ての光の速度が測定された主な理由であり、そのため、速度を測定するために1つのクロックしか必要としない。
ここでは、原則として、2つの境界条件の下で量子力学的記述を適用すれば、2状態ベクトルの定式化とともに、時間拡張のない非同期量子時計を仮定することで、光速で移動する粒子の速度を測定することができることを示す。
本研究では、量子粒子のクロックと同期しないクロックを持つ試験粒子に対して、速度の弱い値を測定することができることを示す。
提案した設定に従って、システムの時間状態を知ることなく、速度の弱い値が分かっている場合、そのような弱い速度は光の双方向速度である。
そうでなければ、量子時計の時間状態に関する仮定を課す必要があり、光の双方向の速度よりも遅く、あるいはさらに速くなる弱い速度を与える。
さらに、セットアップの基本的な意味についても検討する。
提案手法は、クロック同期に関する相対論的問題を克服しつつ、量子粒子の速度を測定するための新たな道を開く。
One of the main issues in measuring the speed of light when it only travels from one spatial position into another position, known as the one-way speed of light, is that the clocks belonging to each separated spatial position are not and, in principle, cannot be synchronized with sufficient precision. This issue is the main reason why all of the measurements of the speed of light until now have measured the two-way speed of light, i.e., measuring the speed of light that travels from a source to another location and back to the source, and so there is a need for only one clock to measure the speed. Here, we show that it is possible, in principle, to measure the velocity of particles that travel at the speed of light without assuming a round-trip once we adopt a quantum mechanical description under two boundary conditions to the state of the quantum system followed by the two-state-vector formalism while assuming non-synchronized quantum clocks with unknown time dilation. We show that the weak value of velocity can be measured for a test particle that has a clock that is not synchronized with the clock of the quantum particle. Following the proposed setup, when the weak value of the velocity is known even without knowing the time states of the system, such a weak velocity is the two-way speed of light. Otherwise, one has to impose assumptions regarding the time states of the quantum clocks, which then give weak velocities that can be slower or even faster than the two-way speed of light. We further explore some fundamental implications of the setup. The proposed approach opens a new avenue toward measuring the velocities of quantum particles while overcoming relativistic issues regarding the synchronization of clocks. | 翻訳日:2024-08-05 00:27:00 公開日:2024-07-31 |
# 統計的不均一性を考慮した協調学習アルゴリズム
Algorithms for Collaborative Machine Learning under Statistical Heterogeneity ( http://arxiv.org/abs/2408.00050v1 ) ライセンス: Link先を確認 | Seok-Ju Hahn, | (参考訳) それらにアクセスせずに分散データから学ぶことは、間違いなく困難な作業である。
それでも、ローカルデータ所有者のプライバシー上の懸念と、大規模分散データの集中化におけるコストのため、統計モデルの分散トレーニングの必要性が高まっている。
フェデレートラーニング(FL)は現在、ローカルサイロから生データを外すことなく、異種データ所有者間で機械学習モデルをトレーニングするデファクトスタンダードである。
しかし、FLが現実にもっと実用的であるためには、いくつかの課題に対処する必要がある。
これらの課題の中で、統計的不均一性問題は最も重要であり、直ちに注意が必要である。
FLの主な目的から、3つの主要な因子を出発点とみなすことができる - \textit{parameter}, textit{mixing coefficient}, \textit{local data distributions}。
コンポーネントに合わせて、この論文は3つの部分に分けられる。
第2章では、モード接続性にインスパイアされた新しいパーソナライズ手法である \texttt{SuPerFed} が導入された。
第3章では、オンライン凸最適化フレームワークによって実現された、参加クライアントにおける均一な性能分布を誘導する適応的意思決定アルゴリズムである「texttt{AAggFF}」が導入された。
最後に、第4章では、エネルギーベースモデリング手法の柔軟性と構成性を活用して、協調合成データ生成法である「texttt{FedEvg}」を紹介した。
これらすべてのアプローチは、データ分散設定における統計的不均一性問題を緩和し、協調機械学習手法を用いた分散システムやアプリケーションへの道を開くための実践的なソリューションを提供する。
Learning from distributed data without accessing them is undoubtedly a challenging and non-trivial task. Nevertheless, the necessity for distributed training of a statistical model has been increasing, due to the privacy concerns of local data owners and the cost in centralizing the massively distributed data. Federated learning (FL) is currently the de facto standard of training a machine learning model across heterogeneous data owners, without leaving the raw data out of local silos. Nevertheless, several challenges must be addressed in order for FL to be more practical in reality. Among these challenges, the statistical heterogeneity problem is the most significant and requires immediate attention. From the main objective of FL, three major factors can be considered as starting points -- \textit{parameter}, textit{mixing coefficient}, and \textit{local data distributions}. In alignment with the components, this dissertation is organized into three parts. In Chapter II, a novel personalization method, \texttt{SuPerFed}, inspired by the mode-connectivity is introduced. In Chapter III, an adaptive decision-making algorithm, \texttt{AAggFF}, is introduced for inducing uniform performance distributions in participating clients, which is realized by online convex optimization framework. Finally, in Chapter IV, a collaborative synthetic data generation method, \texttt{FedEvg}, is introduced, leveraging the flexibility and compositionality of an energy-based modeling approach. Taken together, all of these approaches provide practical solutions to mitigate the statistical heterogeneity problem in data-decentralized settings, paving the way for distributed systems and applications using collaborative machine learning methods. | 翻訳日:2024-08-05 00:27:00 公開日:2024-07-31 |
# 自律走行車の改良分野:分散レポートの機械学習分析
Areas of Improvement for Autonomous Vehicles: A Machine Learning Analysis of Disengagement Reports ( http://arxiv.org/abs/2408.00051v1 ) ライセンス: Link先を確認 | Tyler Ward, | (参考訳) 2014年以降、カリフォルニア州自動車局(CDMV)は、これらの車両の自動運転モードからの離脱につながる要因について、自動運転車(AV)のメーカーから情報を収集している。
これらの離脱報告(DR)には、運転テスト中に技術障害、手動オーバーライド、その他の要因により自律モードから離脱したAVの詳細情報が含まれている。
本稿では,2023 DRの情報を機械学習(ML)で分析する。
我々は、自然言語処理(NLP)アプローチを用いて、切り離しの記述から重要な情報を抽出し、k-Meansクラスタリングアルゴリズムを用いて、エントリをまとめる。
クラスタの頻度は分析され、各クラスタは分解につながる要因に基づいて手動で分類される。
我々は,前年のDRから得られた知見を考察し,AV改善領域を特定するための独自の分析を行った。
Since 2014, the California Department of Motor Vehicles (CDMV) has compiled information from manufacturers of autonomous vehicles (AVs) regarding factors that lead to the disengagement from autonomous driving mode in these vehicles. These disengagement reports (DRs) contain information detailing whether the AV disengaged from autonomous mode due to technology failure, manual override, or other factors during driving tests. This paper presents a machine learning (ML) based analysis of the information from the 2023 DRs. We use a natural language processing (NLP) approach to extract important information from the description of a disengagement, and use the k-Means clustering algorithm to group report entries together. The cluster frequency is then analyzed, and each cluster is manually categorized based on the factors leading to disengagement. We discuss findings from previous years' DRs, and provide our own analysis to identify areas of improvement for AVs. | 翻訳日:2024-08-05 00:27:00 公開日:2024-07-31 |
# ポスト量子暗号(PQC)ネットワーク機器:PQC導入率の測定とマイグレーションパスの同定
Post-Quantum Cryptography (PQC) Network Instrument: Measuring PQC Adoption Rates and Identifying Migration Pathways ( http://arxiv.org/abs/2408.00054v1 ) ライセンス: Link先を確認 | Jakub Sowa, Bach Hoang, Advaith Yeluru, Steven Qie, Anita Nikolich, Ravishankar Iyer, Phuong Cao, | (参考訳) 量子耐性暗号ネットワークプロトコルやポスト量子暗号(PQC)を採用する問題は、量子コンピューティングの民主化において極めて重要である。
現実的な量子コンピュータは今後数十年で古典的な暗号化を破ることになるため、この問題は緊急である。
過去の暗号化されたデータは、既に収集されており、近い将来に復号化できる。
量子後暗号を採用する主な課題は、アルゴリズムの複雑さとハードウェア/ソフトウェア/ネットワークの実装である。
既存のサイバーインフラ構造がポスト量子暗号をサポートするのかという大きな疑問は、まだ答えられていない。
本論文は以下のとおりである。
一 イリノイ大学アーバナ・シャンペーン校の国立計算応用センター(NCSA)に置かれる新規な量子暗号(PQC)ネットワーク機器及びFABRICテストベッドの一部の設計
二 幅広いネットワークプロトコル(セキュアシェル、SSH、トランスポート層セキュリティ、TLS等)におけるPQC採用率に関する最新の結果。
三 重要な科学的応用(例えば、OpenSSH又はSciTokens)におけるPQCの実施の現状
四 量子抵抗の課題、及び
五 新規攻撃の可能性についての議論
これは、全国規模のスーパーコンピュータセンターとFABRICテストベッドにおけるPQC導入の大規模測定としては初めてである。
OARNET, GTT, Google Fiber Webpass (U.S.) や Uppsala Lans Landsting (Sweden) といった主要なインターネットサービスプロバイダや自律システム(AS)から来るNCSAにおけるOpenSSHコネクションの初回採用率は0.029\% (20,556,816のうち6,044 %) に達し,2023-2024 年で全体の採用率が増加した。
解析により、電流アプリケーションを量子抵抗に移行する経路を同定する。
The problem of adopting quantum-resistant cryptographic network protocols or post-quantum cryptography (PQC) is critically important to democratizing quantum computing. The problem is urgent because practical quantum computers will break classical encryption in the next few decades. Past encrypted data has already been collected and can be decrypted in the near future. The main challenges of adopting post-quantum cryptography lie in algorithmic complexity and hardware/software/network implementation. The grand question of how existing cyberinfrastructure will support post-quantum cryptography remains unanswered. This paper describes: i) the design of a novel Post-Quantum Cryptography (PQC) network instrument placed at the National Center for Supercomputing Applications (NCSA) at the University of Illinois at Urbana-Champaign and a part of the FABRIC testbed; ii) the latest results on PQC adoption rate across a wide spectrum of network protocols (Secure Shell -- SSH, Transport Layer Security -- TLS, etc.); iii) the current state of PQC implementation in key scientific applications (e.g., OpenSSH or SciTokens); iv) the challenges of being quantum-resistant; and v) discussion of potential novel attacks. This is the first large-scale measurement of PQC adoption at national-scale supercomputing centers and FABRIC testbeds. Our results show that only OpenSSH and Google Chrome have successfully implemented PQC and achieved an initial adoption rate of 0.029\% (6,044 out of 20,556,816) for OpenSSH connections at NCSA coming from major Internet Service Providers or Autonomous Systems (ASes) such as OARNET, GTT, Google Fiber Webpass (U.S.) and Uppsala Lans Landsting (Sweden), with an overall increasing adoption rate year-over-year for 2023-2024. Our analyses identify pathways to migrate current applications to be quantum-resistant. | 翻訳日:2024-08-05 00:27:00 公開日:2024-07-31 |
# 分子動力学データの時空間クラスタリング
Temporal Subspace Clustering for Molecular Dynamics Data ( http://arxiv.org/abs/2408.00056v1 ) ライセンス: Link先を確認 | Anna Beer, Martin Heinrigs, Claudia Plant, Ira Assent, | (参考訳) 分子動力学データのためのサブスペースクラスタリングであるMOSCITO(MOlecular Dynamics Subspace Clustering with Temporal Observance)を紹介する。
MOSCITOは分子動力学軌道の時間ステップを、分子が類似した配座を持つクラスターにまとめる。
最先端の手法とは対照的に、MOSCITOは時系列データに見られるシーケンシャルな関係を利用する。
既存の作業とは異なり、MOSCITOは面倒な後処理を伴う2段階の手順を必要としないが、データの本質的な特性を直接モデル化する。
Markov状態としてクラスタを解釈することで、結果のMarkov状態モデルに基づいてクラスタリングのパフォーマンスを評価することができます。
60のトラジェクトリーと4つの異なるタンパク質の実験において、MOSCITOの性能は、新しい単一ステップ法で最先端のパフォーマンスを達成することを示す。
さらに、時間的側面をモデル化することにより、MOSCITOは、特に少数のクラスターに対して、軌道のより優れたセグメンテーションを得る。
We introduce MOSCITO (MOlecular Dynamics Subspace Clustering with Temporal Observance), a subspace clustering for molecular dynamics data. MOSCITO groups those timesteps of a molecular dynamics trajectory together into clusters in which the molecule has similar conformations. In contrast to state-of-the-art methods, MOSCITO takes advantage of sequential relationships found in time series data. Unlike existing work, MOSCITO does not need a two-step procedure with tedious post-processing, but directly models essential properties of the data. Interpreting clusters as Markov states allows us to evaluate the clustering performance based on the resulting Markov state models. In experiments on 60 trajectories and 4 different proteins, we show that the performance of MOSCITO achieves state-of-the-art performance in a novel single-step method. Moreover, by modeling temporal aspects, MOSCITO obtains better segmentation of trajectories, especially for small numbers of clusters. | 翻訳日:2024-08-05 00:27:00 公開日:2024-07-31 |
# GOProteinGNN:タンパク質表現学習のためのタンパク質知識グラフの活用
GOProteinGNN: Leveraging Protein Knowledge Graphs for Protein Representation Learning ( http://arxiv.org/abs/2408.00057v1 ) ライセンス: Link先を確認 | Dan Kalifa, Uriel Singer, Kira Radinsky, | (参考訳) タンパク質は生物学的プロセスにおいて重要な役割を担い、生物にとって不可欠である。
タンパク質の正確な表現は、特に薬物開発において重要である。
近年,タンパク質表現の教師なし学習に機械学習とディープラーニング技術を活用することへの関心が高まっている。
しかしながら、これらのアプローチはタンパク質のアミノ酸配列のみに焦点を合わせ、タンパク質とその相互作用に関する現実的な知識を欠いているため、その性能は制限される。
本研究では,アミノ酸レベル表現の作成において,タンパク質知識グラフ情報を統合することにより,タンパク質言語モデルを強化する新しいアーキテクチャであるGOProteinGNNを提案する。
我々のアプローチは、個々のアミノ酸レベルとタンパク質レベルの両方で情報の統合を可能にし、グラフベースの学習を通じて包括的で効果的な学習プロセスを可能にする。
そうすることで、タンパク質とそれらの機能アノテーションの間の複雑な関係や依存関係を捉えることができ、その結果、より堅牢でコンテキストに富んだタンパク質表現が得られる。
従来の融合法とは異なり、GOProteinGNNはトレーニング中にタンパク質知識グラフ全体を一意に学習する。
我々は,GOProteinGNNが従来手法より一貫して優れており,その有効性を示し,タンパク質表現学習の最先端ソリューションとして確立していることを示す。
Proteins play a vital role in biological processes and are indispensable for living organisms. Accurate representation of proteins is crucial, especially in drug development. Recently, there has been a notable increase in interest in utilizing machine learning and deep learning techniques for unsupervised learning of protein representations. However, these approaches often focus solely on the amino acid sequence of proteins and lack factual knowledge about proteins and their interactions, thus limiting their performance. In this study, we present GOProteinGNN, a novel architecture that enhances protein language models by integrating protein knowledge graph information during the creation of amino acid level representations. Our approach allows for the integration of information at both the individual amino acid level and the entire protein level, enabling a comprehensive and effective learning process through graph-based learning. By doing so, we can capture complex relationships and dependencies between proteins and their functional annotations, resulting in more robust and contextually enriched protein representations. Unlike previous fusion methods, GOProteinGNN uniquely learns the entire protein knowledge graph during training, which allows it to capture broader relational nuances and dependencies beyond mere triplets as done in previous work. We perform a comprehensive evaluation on several downstream tasks demonstrating that GOProteinGNN consistently outperforms previous methods, showcasing its effectiveness and establishing it as a state-of-the-art solution for protein representation learning. | 翻訳日:2024-08-05 00:27:00 公開日:2024-07-31 |
# 高温混合状態における持続的トポロジカル負性
Persistent Topological Negativity in a High-Temperature Mixed-State ( http://arxiv.org/abs/2408.00066v1 ) ライセンス: Link先を確認 | Yonna Kim, Ali Lavasani, Sagar Vijay, | (参考訳) 逆温度$\beta$における$d$次元古典イジングモデルに対するメトロポリス・ハスティングス力学を記述した強い対称量子チャネルの下で熱化するグリーンベルガー・ホルン・ザイリンガー状態(GHZ)の絡み合い構造について検討する。
このチャネルは、計算ベースで製品状態に作用するときに古典的なギブス状態を出力する。
このチャネルを空間次元$d>1$のGHZ状態に印加すると、その結果、Ising相転移温度における混合状態は、温度が上昇するにつれて、長範囲の絡み合いから短範囲の絡み合いに変化する。
しかしながら, 大面積領域のトポロジカルエンタングルメント負性はこの遷移に敏感であり, 任意の有限温度$\beta>0$で純粋なGHZ状態と同じ値を取ることを示す。
熱力学限界における負性度に一致する下限と上限を提供する局所演算と古典的通信(LOCC) ``デコーダ" を考案することによって、この結果を確立する。
この視点は、$(d-1)$-次元二分割曲面上の誤差補正問題と結びつき、過去の研究で見いだされた特定の相関ノイズモデルにおける持続的負性を説明する。
数値的な結果は我々の分析を裏付ける。
We study the entanglement structure of the Greenberger-Horne-Zeilinger (GHZ) state as it thermalizes under a strongly-symmetric quantum channel describing the Metropolis-Hastings dynamics for the $d$-dimensional classical Ising model at inverse temperature $\beta$. This channel outputs the classical Gibbs state when acting on a product state in the computational basis. When applying this channel to a GHZ state in spatial dimension $d>1$, the resulting mixed state changes character at the Ising phase transition temperature from being long-range entangled to short-range-entangled as temperature increases. Nevertheless, we show that the topological entanglement negativity of a large region is insensitive to this transition and takes the same value as that of the pure GHZ state at any finite temperature $\beta>0$. We establish this result by devising a local operations and classical communication (LOCC) ``decoder" that provides matching lower and upper bounds on the negativity in the thermodynamic limit which may be of independent interest. This perspective connects the negativity to an error-correction problem on the $(d-1)$-dimensional bipartitioning surface and explains the persistent negativity in certain correlated noise models found in previous studies. Numerical results confirm our analysis. | 翻訳日:2024-08-05 00:27:00 公開日:2024-07-31 |
# 2+1)次元格子ゲージ理論における量子コンピューティングユニバーサル熱化ダイナミクス
Quantum Computing Universal Thermalization Dynamics in a (2+1)D Lattice Gauge Theory ( http://arxiv.org/abs/2408.00069v1 ) ライセンス: Link先を確認 | Niklas Mueller, Tianyi Wang, Or Katz, Zohreh Davoudi, Marko Cetina, | (参考訳) 熱化を含む強い相互作用を持つ量子多体系における非平衡現象のシミュレーションは、近未来の量子計算の有望な応用である。
完全に接続された光制御されたイオンからなるデジタル量子コンピュータの実験により、2+1次元におけるZ_2$格子ゲージ理論の熱力学における絡み合いの役割について検討した。
ランダム化測度プロトコルを用いて,非平衡状態の古典的近似を効率よく学習し,交絡ハミルトニアンのギャップ比分布とスペクトル形成係数を導出する。
これらの観測対象は、量子カオスのための普遍的な早期信号であり、熱化の前提条件である。
したがって、我々の研究は、ゲージ理論を含む複雑な多体系における熱化の普遍的な特徴を研究するための堅牢なツールとして量子コンピュータを確立している。
Simulating non-equilibrium phenomena in strongly-interacting quantum many-body systems, including thermalization, is a promising application of near-term and future quantum computation. By performing experiments on a digital quantum computer consisting of fully-connected optically-controlled trapped ions, we study the role of entanglement in the thermalization dynamics of a $Z_2$ lattice gauge theory in 2+1 spacetime dimensions. Using randomized-measurement protocols, we efficiently learn a classical approximation of non-equilibrium states that yields the gap-ratio distribution and the spectral form factor of the entanglement Hamiltonian. These observables exhibit universal early-time signals for quantum chaos, a prerequisite for thermalization. Our work, therefore, establishes quantum computers as robust tools for studying universal features of thermalization in complex many-body systems, including in gauge theories. | 翻訳日:2024-08-05 00:27:00 公開日:2024-07-31 |
# ある非アーベル群に対する高効率量子フーリエ変換
Highly-efficient quantum Fourier transformations for some nonabelian groups ( http://arxiv.org/abs/2408.00075v1 ) ライセンス: Link先を確認 | Edison Muarari, M. Sohaib Alam, Henry Lamm, Stuart Hadfield, Erik Gustafson, | (参考訳) 量子フーリエ変換は素因数分解から量子シミュレーションまで、多くの量子アルゴリズムの重要な構成要素である。
標準アーベル QFT はよく研究されているが、興味のある 'emph{nonabelian} 群に対応する重要な変種はより少ない発展をみせている。
特に、高速非アーベルフーリエ変換は場の理論の量子シミュレーションや非アーベル隠れ部分群問題へのアプローチにおいて重要な要素である。
本研究では、高エネルギー物理学における多くの非アーベル群に対する高速量子フーリエ変換、$\mathbb{BT}$, $\mathbb{BO}$, $\Delta(27)$, $\Delta(54)$, $\Sigma(36\times3)$を示す。
各グループに対して、明示的な量子回路とフォールトトレラント実装のリソーススケーリングを導出する。
我々の研究は、高速フーリエ変換の開発が、我々が調査した有限群に対して、シミュレーションコストを最大で3桁削減できることを示している。
Quantum Fourier transformations are an essential component of many quantum algorithms, from prime factoring to quantum simulation. While the standard abelian QFT is well-studied, important variants corresponding to \emph{nonabelian} groups of interest have seen less development. In particular, fast nonabelian Fourier transformations are important components for both quantum simulations of field theories as well as approaches to the nonabelian hidden subgroup problem. In this work, we present fast quantum Fourier transformations for a number of nonabelian groups of interest for high energy physics, $\mathbb{BT}$, $\mathbb{BO}$, $\Delta(27)$, $\Delta(54)$, and $\Sigma(36\times3)$. For each group, we derive explicit quantum circuits and estimate resource scaling for fault-tolerant implementations. Our work shows that the development of a fast Fourier transformation can substantively reduce simulation costs by up to three orders of magnitude for the finite groups that we have investigated. | 翻訳日:2024-08-05 00:27:00 公開日:2024-07-31 |
# 量子コンピュータを用いた量子回路のコンパイル
Quantum circuit compilation with quantum computers ( http://arxiv.org/abs/2408.00077v1 ) ライセンス: Link先を確認 | Davide Rattacaso, Daniel Jaschke, Marco Ballarin, Ilaria Siloi, Simone Montangero, | (参考訳) コンパイルは、現実世界の量子コンピュータ上での量子アルゴリズムのパフォーマンスを最適化する。
現在までに、古典的な最適化戦略によって行われている。
我々は、量子コンピュータによるコンパイルを行うための量子アルゴリズムのクラスを導入し、コンパイルにおける量子アドバンテージの道を開く。
我々は、最大64キュービットと64タイムステップのトロッター化ハミルトンシミュレーションと、最大40キュービットと71タイムステップの量子フーリエ変換のコンパイルに成功した。
変換不変回路では, 入力回路のサイズが広く増加し, 局所的あるいは準局所的なコンパイル手法よりも優れていることを示す。
Compilation optimizes quantum algorithms performances on real-world quantum computers. To date, it is performed via classical optimization strategies. We introduce a class of quantum algorithms to perform compilation via quantum computers, paving the way for a quantum advantage in compilation. We demonstrate the effectiveness of this approach via Quantum and Simulated Annealing-based compilation: we successfully compile a Trotterized Hamiltonian simulation with up to 64 qubits and 64 time-steps and a Quantum Fourier Transform with up to 40 qubits and 771 time steps. We show that, for a translationally invariant circuit, the compilation results in a fidelity gain that grows extensively in the size of the input circuit, outperforming any local or quasi-local compilation approach. | 翻訳日:2024-08-05 00:27:00 公開日:2024-07-31 |
# 小相関は最適雑音量子メトロジーに十分である
Small correlation is sufficient for optimal noisy quantum metrology ( http://arxiv.org/abs/2408.00079v1 ) ライセンス: Link先を確認 | Chao Yin, Victor V. Albert, Sisi Zhou, | (参考訳) 本稿では,量子フィッシャー情報がシステムサイズとノイズ率の両方で最適にスケールする,気象資源状態のクラスを提案する。
これらの状態において、量子ビットは、グループ内で相対的に大きな相関を持つセンシング群に分割されるが、グループ間の相関は小さい。
状態はハミルトンの局所的な進化から得ることができ、時間反転力学と単一キュービット局所測定を利用した気象学的に最適で効率的な測定プロトコルを設計する。
また、量子ドミノダイナミクスを用いて、推定誤差が約2倍の時間反転ステップのないプロトコルを提案する。
We propose a class of metrological resource states whose quantum Fisher information scales optimally in both system size and noise rate. In these states, qubits are partitioned into sensing groups with relatively large correlations within a group but small correlations between groups. The states are obtainable from local Hamiltonian evolution, and we design a metrologically optimal and efficient measurement protocol utilizing time-reversed dynamics and single-qubit local measurements. Using quantum domino dynamics, we also present a protocol free of the time-reversal step that has an estimation error roughly twice the best possible value. | 翻訳日:2024-08-05 00:27:00 公開日:2024-07-31 |
# パウリ・リー代数の完全分類
Full classification of Pauli Lie algebras ( http://arxiv.org/abs/2408.00081v1 ) ライセンス: Link先を確認 | Gerard Aguilar, Simon Cichy, Jens Eisert, Lennart Bittel, | (参考訳) リー群(英: Lie group)、すなわちリー代数(英: Lie algebra)は、進化する系の軌道の空間を決定する量子物理学の基本構造である。
しかし、これらの構造の分類と特徴付け手法は、より大きなシステムでは実用的ではないことが多い。
本研究では、任意のパウリ作用素の集合によって生成されるリー代数の包括的分類を提供する。
問題をグラフの設定にマッピングすることで、自由フェルミオンリー代数、n 量子ビット上の全ての反対称パウリの集合、n 量子ビット上のシンプレクティック・パウリのリー代数、およびn 量子ビット上の全てのパウリ作用素の空間、およびその制御されたバージョンといった、同値類の縮小された集合を同定する。
さらに、これらのうち、クリフォードの不等式を6つ区別し、それぞれに単純な正準作用素の集合を見つけ、各クラスの力学を物理的に解釈することができる。
この結果から, 極小リー代数の存在は, パウリ集合における自由フェルミオンのケースを超え, ゲート集合の普遍性と拡張性について, 効率的に計算可能な基準を提供することが明らかとなった。
これらの結果は、量子制御、量子機械学習、量子回路の古典的なシミュレーションなど、多くの分野におけるアイデアに大きな影響を与える。
Lie groups, and therefore Lie algebras, are fundamental structures in quantum physics that determine the space of possible trajectories of evolving systems. However, classification and characterization methods for these structures are often impractical for larger systems. In this work, we provide a comprehensive classification of Lie algebras generated by an arbitrary set of Pauli operators, from which an efficient method to characterize them follows. By mapping the problem to a graph setting, we identify a reduced set of equivalence classes: the free-fermionic Lie algebra, the set of all anti-symmetric Paulis on n qubits, the Lie algebra of symplectic Paulis on n qubits, and the space of all Pauli operators on n qubits, as well as controlled versions thereof. Moreover, out of these, we distinguish 6 Clifford inequivalent cases and find a simple set of canonical operators for each, which allow us to give a physical interpretation of the dynamics of each class. Our findings reveal a no-go result for the existence of small Lie algebras beyond the free-fermionic case in the Pauli setting and offer efficiently computable criteria for universality and extendibility of gate sets. These results bear significant impact in ideas in a number of fields like quantum control, quantum machine learning, or classical simulation of quantum circuits. | 翻訳日:2024-08-05 00:27:00 公開日:2024-07-31 |
# 機械学習のための物理に関するTASI講義
TASI Lectures on Physics for Machine Learning ( http://arxiv.org/abs/2408.00082v1 ) ライセンス: Link先を確認 | Jim Halverson, | (参考訳) これらのノートは、TASI 2024で行ったScience for Machine Learningの講義に基づいている。
ニューラルネットワーク理論は、ネットワーク表現性、統計、ダイナミクスに基づいて組織化されている。
本稿では、普遍近似定理やニューラルネットワーク/ガウス過程対応などの古典的な結果や、ニューラルタンジェントカーネル、最大更新パラメータ化による特徴学習、コルモゴロフ・アルノルドネットワークなどの最近の結果を紹介する。
ニューラルネットワーク理論の展示は、理論物理学者に精通した場の理論的な視点を強調している。
フィールド理論へのニューラルネットワークアプローチを含む、この2つの関係について詳しく説明します。
These notes are based on lectures I gave at TASI 2024 on Physics for Machine Learning. The focus is on neural network theory, organized according to network expressivity, statistics, and dynamics. I present classic results such as the universal approximation theorem and neural network / Gaussian process correspondence, and also more recent results such as the neural tangent kernel, feature learning with the maximal update parameterization, and Kolmogorov-Arnold networks. The exposition on neural network theory emphasizes a field theoretic perspective familiar to theoretical physicists. I elaborate on connections between the two, including a neural network approach to field theory. | 翻訳日:2024-08-05 00:27:00 公開日:2024-07-31 |
# 文脈認識による局所ガウススティング編集
Localized Gaussian Splatting Editing with Contextual Awareness ( http://arxiv.org/abs/2408.00083v1 ) ライセンス: Link先を確認 | Hanyuan Xiao, Yingshu Chen, Huajian Huang, Haolin Xiong, Jing Yang, Pratusha Prasad, Yajie Zhao, | (参考訳) 近年のテキスト誘導による個人3Dオブジェクトの生成は,拡散先行法を用いて大きな成功を収めている。
しかし、これらの手法は背景を考慮しないため、オブジェクト挿入や置換作業には適さないため、環境内の照明ミスマッチにつながる。
このギャップを埋めるために,3次元ガウススプラッティング(3DGS)表現のための照明対応3Dシーン編集パイプラインを導入する。
我々のキーとなる観察は、最先端条件2次元拡散モデルによる塗装が光の背景と一致していることである。
3次元オブジェクト生成のためのよく訓練された拡散モデルからの事前知識を活用するため,本手法では,粗大から細いオブジェクトの最適化パイプラインをインペイントしたビューで導入する。
最初の粗いステップでは、理想的インペイントされたビューが与えられた画像から3Dへのリフトを実現する。
このプロセスは、条件付き画像に存在する照明を保存するビュー条件付き拡散モデルに先立って、3D対応拡散を用いる。
理想のインペイント画像を得るために,対象領域のシーン照明を最もよく表現する単一のビューを見つけるために,アンカービュープロポーザル (AVP) アルゴリズムを導入する。
第2のテクスチャ強化ステップでは、第1の粗いステップにおける3D-認識拡散前の知識の範囲を超えて、塗装拡散による幾何学的・テクスチャ的詳細性を高める新しいDepth-guided Inpainting Score Distillation Smpling (DI-SDS)を導入する。
DI-SDSはきめ細かいテクスチャの強化を提供するだけでなく、シーンライティングを尊重するよう最適化を促す。
提案手法は,光輸送を明示的にモデル化することなく,局所的な照明の整合性を効果的に実現している。
本手法のロバスト性は,鮮明なハイライトと影を含む実シーンでの編集を評価することで実証し,最先端のテキスト・ツー・3D編集手法と比較した。
Recent text-guided generation of individual 3D object has achieved great success using diffusion priors. However, these methods are not suitable for object insertion and replacement tasks as they do not consider the background, leading to illumination mismatches within the environment. To bridge the gap, we introduce an illumination-aware 3D scene editing pipeline for 3D Gaussian Splatting (3DGS) representation. Our key observation is that inpainting by the state-of-the-art conditional 2D diffusion model is consistent with background in lighting. To leverage the prior knowledge from the well-trained diffusion models for 3D object generation, our approach employs a coarse-to-fine objection optimization pipeline with inpainted views. In the first coarse step, we achieve image-to-3D lifting given an ideal inpainted view. The process employs 3D-aware diffusion prior from a view-conditioned diffusion model, which preserves illumination present in the conditioning image. To acquire an ideal inpainted image, we introduce an Anchor View Proposal (AVP) algorithm to find a single view that best represents the scene illumination in target region. In the second Texture Enhancement step, we introduce a novel Depth-guided Inpainting Score Distillation Sampling (DI-SDS), which enhances geometry and texture details with the inpainting diffusion prior, beyond the scope of the 3D-aware diffusion prior knowledge in the first coarse step. DI-SDS not only provides fine-grained texture enhancement, but also urges optimization to respect scene lighting. Our approach efficiently achieves local editing with global illumination consistency without explicitly modeling light transport. We demonstrate robustness of our method by evaluating editing in real scenes containing explicit highlight and shadows, and compare against the state-of-the-art text-to-3D editing methods. | 翻訳日:2024-08-05 00:27:00 公開日:2024-07-31 |
# 物理インフォームドニューラルネットワーク(PINN)による外惑星大気中のレイリー散乱の近似
Approximating Rayleigh Scattering in Exoplanetary Atmospheres using Physics-informed Neural Networks (PINNs) ( http://arxiv.org/abs/2408.00084v1 ) ライセンス: Link先を確認 | David Dahlbüdding, Karan Molaverdikhani, Barbara Ercolano, Tommaso Grassi, | (参考訳) 本研究では、外惑星大気における放射移動(RT)モデリングの複雑な課題に取り組むために、物理情報ニューラルネットワーク(PINN)の革新的な応用を紹介し、特に散乱現象を効率的に扱うことに焦点を当てる。
伝統的なRTモデルは、しばしば散乱を吸収として単純化し、不正確な結果をもたらす。
提案手法は,RTの制御微分方程式を直接損失関数に組み込むことができるPINNを用いており,より正確かつ高速なモデリング技術を提供する。
本手法の中核は, 改良RT方程式に適したパラメータ化PINNの開発であり, 種々の大気シナリオへの適応性を高めている。
本研究では,吸収係数とレイリー散乱係数を持つ簡易1次元等温モデルを用いて,太陽系外惑星大気の遷移におけるRTに着目した。
純粋な吸収のシナリオでは、PINNは様々な吸収プロファイルに対する透過スペクトルの予測の有効性を示す。
レイリー散乱では、直接成分と拡散光成分の両方に対処し、RT方程式をうまく計算する。
単純化されたモデルによる予備的な結果が期待でき、RT計算の改善におけるPINNの可能性を示しているが、我々はこの手法をより複雑な大気環境に適用する上での誤りを認めている。
具体的には、複雑な温度圧力プロファイルと雲や干し草など様々な散乱特性を持つ大気へのアプローチは、今後の発展にとって重要な領域である。
This research introduces an innovative application of physics-informed neural networks (PINNs) to tackle the intricate challenges of radiative transfer (RT) modeling in exoplanetary atmospheres, with a special focus on efficiently handling scattering phenomena. Traditional RT models often simplify scattering as absorption, leading to inaccuracies. Our approach utilizes PINNs, noted for their ability to incorporate the governing differential equations of RT directly into their loss function, thus offering a more precise yet potentially fast modeling technique. The core of our method involves the development of a parameterized PINN tailored for a modified RT equation, enhancing its adaptability to various atmospheric scenarios. We focus on RT in transiting exoplanet atmospheres using a simplified 1D isothermal model with pressure-dependent coefficients for absorption and Rayleigh scattering. In scenarios of pure absorption, the PINN demonstrates its effectiveness in predicting transmission spectra for diverse absorption profiles. For Rayleigh scattering, the network successfully computes the RT equation, addressing both direct and diffuse stellar light components. While our preliminary results with simplified models are promising, indicating the potential of PINNs in improving RT calculations, we acknowledge the errors stemming from our approximations as well as the challenges in applying this technique to more complex atmospheric conditions. Specifically, extending our approach to atmospheres with intricate temperature-pressure profiles and varying scattering properties, such as those introduced by clouds and hazes, remains a significant area for future development. | 翻訳日:2024-08-04 22:36:04 公開日:2024-07-31 |
# 量子非破壊測定とレゲット-ガーグ不等式
Quantum Non-Demolition Measurements and Leggett-Garg inequality ( http://arxiv.org/abs/2408.00088v1 ) ライセンス: Link先を確認 | Paolo Solinas, Stefano Gherardini, | (参考訳) 量子非破壊測定は、私たちが監視しようとしている量子システムから情報を抽出する非侵襲的プロトコルを定義する。
彼らは、システムに逐次結合された追加の量子システムを利用する。
最終的に、追加のシステムを測定することで、与えられた可観測性に関して量子系力学によって開発された時間的相関に関する情報を抽出することができる。
このプロトコルは測定された可観測結果に対して準確率分布をもたらすが、これは負である可能性がある。
これらの負の領域の存在は、マクロ現実主義の違反に必要かつ十分な条件であることを示す。
これは、レゲット=ガルグの不等式が同じタスクに一般的に使用されることよりもはるかに強い条件である。
実際、マクロ現実主義条件に違反しても、レゲット=ガルグの不等式が満たされる状況が示されている。
その結果、量子非分解プロトコルは、システムの量子的振る舞いを確実に識別するための特権的なツールである。
そのため、量子性の証明から量子-古典遷移の研究まで、様々な分野への多くの応用がある。
Quantum non-demolition measurements define a non-invasive protocol to extract information from a quantum system that we aim to monitor. They exploit an additional quantum system that is sequentially coupled to the system. Eventually, by measuring the additional system, we can extract information about temporal correlations developed by the quantum system dynamics with respect to a given observable. This protocol leads to a quasi-probability distribution for the measured observable outcomes, which can be negative. We prove that the presence of these negative regions is a necessary and sufficient condition for the violation of macrorealism. This is a much stronger condition than the violation of the Leggett-Garg inequalities commonly used for the same task. Indeed, we show that there are situations in which Leggett-Garg inequalities are satisfied even if the macrorealism condition is violated. As a consequence, the quantum non-demolition protocol is a privileged tool to identify with certainty the quantum behavior of a system. As such, it has a vast number of applications to different fields from the certification of quantumness to the study of the quantum-to-classical transition. | 翻訳日:2024-08-04 22:36:04 公開日:2024-07-31 |
# ロボット応用における行動木の実行意味論
Execution Semantics of Behavior Trees in Robotic Applications ( http://arxiv.org/abs/2408.00090v1 ) ライセンス: Link先を確認 | Enrico Ghiorzi, Armando Tacchella, | (参考訳) この文書は、ロボットアプリケーションで使われる行動木の実行セマンティクス、特にハルトのセマンティクスに注意を払って、適切に正確で曖昧な非公式な方法で記述することを目的としている。
This document aims at describing, in a suitably precise and unambiguous though informal way, the execution semantics of Behavior Trees as used in Robotics applications, with particular attention to the Halt semantics. | 翻訳日:2024-08-04 22:36:04 公開日:2024-07-31 |
# 重力波検出に関するコメント
Comments on graviton detection ( http://arxiv.org/abs/2408.00094v1 ) ライセンス: Link先を確認 | Daniel Carney, | (参考訳) 単一の重力を吸収した後にクリックする検出器を作ることができる。
同様に、重力波検出器は重力子の特定の高度に絞られた状態によって誘導される量子ノイズを見ることができる。
しかし、最近の文献の議論とは対照的に、これらの信号のどちらか一方または両方を観測しても、重力場が量子化されているという証拠や証拠は得られない。
古典的な重力波は検出器内で同じ出力データを生成することができる。
ここでは、量子光学における古代の議論の直接的な拡張であるarXiv:2308.12988で示されたこの結果を説明する。
It is possible to make a detector which clicks after absorbing a single graviton. Similarly, it is possible to make a gravitational wave detector which can see the quantum noise induced by certain highly squeezed states of the graviton. However, contrary to some recent arguments in the literature, observation of either or both of these signals would not constitute proof or even evidence that the gravitational field is quantized. This is a simple technical statement: a classical gravitational wave can produce the same output data in a detector. Here we explain this result, presented earlier in arXiv:2308.12988, which is a straightforward extension of an ancient argument in quantum optics. | 翻訳日:2024-08-04 22:36:04 公開日:2024-07-31 |
# 属性から自然言語へ:テキストに基づく人物再識別に関する調査と展望
From Attributes to Natural Language: A Survey and Foresight on Text-based Person Re-identification ( http://arxiv.org/abs/2408.00096v1 ) ライセンス: Link先を確認 | Fanzhi Jiang, Su Yang, Mark W. Jones, Liumei Zhang, | (参考訳) テキストに基づく人物再識別(Re-ID)は、複雑なマルチモーダル分析の分野における課題であり、属性や自然言語の記述を精査することで、特定の歩行者を認識することを目的としている。
セキュリティ監視、ビデオ検索、人物追跡、ソーシャルメディア分析など、幅広い分野に当てはまるが、技術的観点からテキストベースの人物Re-IDを要約する包括的なレビューはない。
このギャップに対処するために、評価、戦略、アーキテクチャ、最適化の次元にまたがる分類を導入し、テキストベースの人物Re-IDタスクを包括的に調査することを提案する。
まず、テキストベースの人物Re-IDの基盤を置き、属性/自然言語に基づく識別に関する基本的な概念を解明する。
次に、既存のベンチマークデータセットとメトリクスの徹底的な検証を示す。
その後、テキストベースのRe-ID研究で使われる一般的な特徴抽出戦略を探求し、続いてドメイン内の共通ネットワークアーキテクチャを簡潔に要約する。
また、テキストベースの人物Re-IDにおけるモデル最適化やモダリティアライメントに有効な損失関数についても精査する。
結論として,本研究の成果を簡潔に要約し,テキストベースの人物Re-IDにおける課題の指摘を行う。
これらの課題に対応するために、将来のオープンセットのテキストベースの人物Re-IDの潜在的な道筋を概説し、テキストベースの歩行者画像生成誘導再識別(TBPGR)のためのベースラインアーキテクチャを提案する。
Text-based person re-identification (Re-ID) is a challenging topic in the field of complex multimodal analysis, its ultimate aim is to recognize specific pedestrians by scrutinizing attributes/natural language descriptions. Despite the wide range of applicable areas such as security surveillance, video retrieval, person tracking, and social media analytics, there is a notable absence of comprehensive reviews dedicated to summarizing the text-based person Re-ID from a technical perspective. To address this gap, we propose to introduce a taxonomy spanning Evaluation, Strategy, Architecture, and Optimization dimensions, providing a comprehensive survey of the text-based person Re-ID task. We start by laying the groundwork for text-based person Re-ID, elucidating fundamental concepts related to attribute/natural language-based identification. Then a thorough examination of existing benchmark datasets and metrics is presented. Subsequently, we further delve into prevalent feature extraction strategies employed in text-based person Re-ID research, followed by a concise summary of common network architectures within the domain. Prevalent loss functions utilized for model optimization and modality alignment in text-based person Re-ID are also scrutinized. To conclude, we offer a concise summary of our findings, pinpointing challenges in text-based person Re-ID. In response to these challenges, we outline potential avenues for future open-set text-based person Re-ID and present a baseline architecture for text-based pedestrian image generation-guided re-identification(TBPGR). | 翻訳日:2024-08-04 22:36:04 公開日:2024-07-31 |
# 交通マイクロシミュレーション環境における深部強化学習と連結車両に基づく適応的信号優先性
Adaptive Transit Signal Priority based on Deep Reinforcement Learning and Connected Vehicles in a Traffic Microsimulation Environment ( http://arxiv.org/abs/2408.00098v1 ) ライセンス: Link先を確認 | Dickness Kwesiga, Angshuman Guin, Michael Hunter, | (参考訳) モデル自由強化学習(RL)は、複雑で非線形な目的関数を必要とする数学的プログラミングに基づく適応トランジット信号優先アルゴリズム(TSP)の初期の定式化の代替となる可能性がある。
本研究では,RTLに基づくトラヒック制御をTSPを含むように拡張する。
微視的シミュレーション環境と連結車両データを用いて、TSPイベントベースのRLエージェントを開発し、テストした。
TSPエージェントは、トランジットバスが交差点の専用短距離通信(DSRC)ゾーンに入ると制御される。
本剤は, バスの走行時間を約21%短縮し, 飽和速度0.95で一般交通に限界の影響を及ぼした。
また、TSPエージェントは、TSPによるアクティベート信号制御と比較して、バス走行時間も若干改善されている。
エージェントのアーキテクチャとシミュレーションは、シミュレーション実行時間効率を改善する必要性を考慮して選択される。
Model free reinforcement learning (RL) provides a potential alternative to earlier formulations of adaptive transit signal priority (TSP) algorithms based on mathematical programming that require complex and nonlinear objective functions. This study extends RL - based traffic control to include TSP. Using a microscopic simulation environment and connected vehicle data, the study develops and tests a TSP event-based RL agent that assumes control from another developed RL - based general traffic signal controller. The TSP agent assumes control when transit buses enter the dedicated short-range communication (DSRC) zone of the intersection. This agent is shown to reduce the bus travel time by about 21%, with marginal impacts to general traffic at a saturation rate of 0.95. The TSP agent also shows slightly better bus travel time compared to actuated signal control with TSP. The architecture of the agent and simulation is selected considering the need to improve simulation run time efficiency. | 翻訳日:2024-08-04 22:36:04 公開日:2024-07-31 |
# ReLiK: Retrieve and LinK, Fast and accurate Entity Linking and Relation extract on a Academic Budget
ReLiK: Retrieve and LinK, Fast and Accurate Entity Linking and Relation Extraction on an Academic Budget ( http://arxiv.org/abs/2408.00103v1 ) ライセンス: Link先を確認 | Riccardo Orlando, Pere-Lluis Huguet-Cabot, Edoardo Barba, Roberto Navigli, | (参考訳) エンティティリンク(EL)と関係抽出(RE)は自然言語処理の基本的なタスクであり、幅広いアプリケーションにおいて重要なコンポーネントとして機能します。
本稿では,ELとREの両方を対象としたRetriever-ReaderアーキテクチャであるReLiKを提案する。
その後、Readerモジュールは、関連する検索されたエンティティやリレーションを識別し、対応するテキストスパンとのアライメントを確立する。
特に,テキストに付随する候補エンティティや関係を組み込んだ革新的な入力表現を提案し,各候補に対してフォワードパスを必要とする従来のRetriever-Readerベースの手法とは対照的に,エンティティをリンクしたり,単一のフォワードパスで関係を抽出したり,事前学習された言語モデルの文脈化機能を完全に活用することを可能にする。
ELとREの定式化は,学術予算のトレーニングと,競合他社と比較して最大40倍の推論速度で,ドメイン内ベンチマークとドメイン外ベンチマークの両方で最先端のパフォーマンスを実現する。
最後に、情報抽出(cIE)やEL + RE(EL + RE)、エンティティとリレーションを同時に抽出する共有リーダ(Shared Reader)を用いることで、新しい最先端技術の設定に、私たちのアーキテクチャをどのようにシームレスに利用することができるかを示す。
Entity Linking (EL) and Relation Extraction (RE) are fundamental tasks in Natural Language Processing, serving as critical components in a wide range of applications. In this paper, we propose ReLiK, a Retriever-Reader architecture for both EL and RE, where, given an input text, the Retriever module undertakes the identification of candidate entities or relations that could potentially appear within the text. Subsequently, the Reader module is tasked to discern the pertinent retrieved entities or relations and establish their alignment with the corresponding textual spans. Notably, we put forward an innovative input representation that incorporates the candidate entities or relations alongside the text, making it possible to link entities or extract relations in a single forward pass and to fully leverage pre-trained language models contextualization capabilities, in contrast with previous Retriever-Reader-based methods, which require a forward pass for each candidate. Our formulation of EL and RE achieves state-of-the-art performance in both in-domain and out-of-domain benchmarks while using academic budget training and with up to 40x inference speed compared to competitors. Finally, we show how our architecture can be used seamlessly for Information Extraction (cIE), i.e. EL + RE, and setting a new state of the art by employing a shared Reader that simultaneously extracts entities and relations. | 翻訳日:2024-08-04 22:36:04 公開日:2024-07-31 |
# WAS:アーティスティックテキストセグメンテーションのためのデータセットと方法
WAS: Dataset and Methods for Artistic Text Segmentation ( http://arxiv.org/abs/2408.00106v1 ) ライセンス: Link先を確認 | Xudong Xie, Yuzhe Li, Yang Liu, Zhifei Zhang, Zhaowen Wang, Wei Xiong, Xiang Bai, | (参考訳) テキスト分割の結果は、テキスト画像生成、テキスト編集、テキスト削除、テキストスタイル転送などのテキスト関連生成タスクに不可欠である。
近年,シーンテキストのセグメンテーション手法は,通常のテキストのセグメンテーションにおいて大きな進歩を遂げている。
しかし、これらの手法は芸術的テキストを含むシナリオでは不十分である。
そこで本研究では,芸術的テキストセグメンテーションの課題に焦点を当て,実際の芸術的テキストセグメンテーションデータセットを構築する。
この課題の1つは、芸術テキストの局所的なストローク形状が多様性と複雑さによって変化可能であることである。
本稿では,モデルが特別な形状のストローク領域を無視するのを防ぐために,レイヤワイド・モーメント・クエリを用いたデコーダを提案する。
もう一つの課題は、大域的位相構造の複雑さである。
我々はさらに骨格支援ヘッドを設計し、モデルがグローバルな構造に焦点を合わせるように誘導する。
さらに,テキストセグメンテーションモデルの一般化性能を高めるため,大規模なマルチモーダルモデルと拡散モデルに基づくデータ合成の学習戦略を提案する。
実験結果から,提案手法と合成データセットは,芸術的テキストセグメンテーションの性能を著しく向上させ,他の公開データセットに対して最先端の結果が得られることが示された。
Accurate text segmentation results are crucial for text-related generative tasks, such as text image generation, text editing, text removal, and text style transfer. Recently, some scene text segmentation methods have made significant progress in segmenting regular text. However, these methods perform poorly in scenarios containing artistic text. Therefore, this paper focuses on the more challenging task of artistic text segmentation and constructs a real artistic text segmentation dataset. One challenge of the task is that the local stroke shapes of artistic text are changeable with diversity and complexity. We propose a decoder with the layer-wise momentum query to prevent the model from ignoring stroke regions of special shapes. Another challenge is the complexity of the global topological structure. We further design a skeleton-assisted head to guide the model to focus on the global structure. Additionally, to enhance the generalization performance of the text segmentation model, we propose a strategy for training data synthesis, based on the large multi-modal model and the diffusion model. Experimental results show that our proposed method and synthetic dataset can significantly enhance the performance of artistic text segmentation and achieve state-of-the-art results on other public datasets. | 翻訳日:2024-08-04 22:36:04 公開日:2024-07-31 |
# ケースベース推論のための選好に基づく抽象的論証
Preference-Based Abstract Argumentation for Case-Based Reasoning (with-Appendix) ( http://arxiv.org/abs/2408.00108v1 ) ライセンス: Link先を確認 | Adam Gould, Guilherme Paulino-Passos, Seema Dadhania, Matthew Williams, Francesca Toni, | (参考訳) 本研究は、解釈可能なデータ駆動型分類モデルの有効性と柔軟性を高めるために、抽象論とケースベース推論(CBR)を用いた、ユーザ定義の新規な嗜好の導入を提案する。
具体的には、ケースベース推論のためのPreference-based Abstract Argumentationを導入する(AA-CBR-Pと呼ぶ)。
このモデルが予測を行う際に本質的にこれらの嗜好に従うことを証明し、従来のケースベース推論手法の抽象的議論が議論の構成要素に対する嗜好を表現するのに不十分であることを示す。
次に,脳腫瘍患者の異なる評価方法を評価する臨床試験から得られた実世界の医療データセットに対して,これが適用可能であることを実証した。
我々は、このデータセット上で、我々のアプローチが他の解釈可能な機械学習モデルより優れていることを実証的に示す。
In the pursuit of enhancing the efficacy and flexibility of interpretable, data-driven classification models, this work introduces a novel incorporation of user-defined preferences with Abstract Argumentation and Case-Based Reasoning (CBR). Specifically, we introduce Preference-Based Abstract Argumentation for Case-Based Reasoning (which we call AA-CBR-P), allowing users to define multiple approaches to compare cases with an ordering that specifies their preference over these comparison approaches. We prove that the model inherently follows these preferences when making predictions and show that previous abstract argumentation for case-based reasoning approaches are insufficient at expressing preferences over constituents of an argument. We then demonstrate how this can be applied to a real-world medical dataset sourced from a clinical trial evaluating differing assessment methods of patients with a primary brain tumour. We show empirically that our approach outperforms other interpretable machine learning models on this dataset. | 翻訳日:2024-08-04 22:36:04 公開日:2024-07-31 |
# 継続的トラクターに戻る
Back to the Continuous Attractor ( http://arxiv.org/abs/2408.00109v1 ) ライセンス: Link先を確認 | Ábel Ságodi, Guillermo Martín-Sánchez, Piotr Sokół, Il Memming Park, | (参考訳) 連続誘引器は、連続値変数を無限に長い時間間隔の連続系状態に保存するためのユニークな解のクラスを提供する。
残念なことに、連続引力は一般に深刻な構造不安定に悩まされ、それらを定義する力学則のほとんど無限小の変化によって破壊される。
この不安定性は、特に生体系において、リカレント力学が一定の摂動を受けるため、その実用性を制限している。
理論神経科学モデルにおける連続的誘引子からの分岐は、様々な構造的に安定な形態を示す。
記憶を維持するための漸近的行動は分類的に異なるが、その有限時間行動は類似している。
持続多様体理論に基づいて、連続的誘引子の分岐と近似との共通性を説明する。
高速スロー分解解析は、破壊的な分岐を生き残る持続多様体を明らかにする。
さらに、アナログメモリタスクでトレーニングされたリカレントニューラルネットワークは、予測された遅い多様体構造を持つほぼ連続的なアトラクタを表示する。
したがって、連続アトラクタは機能的に堅牢であり、アナログメモリを理解するための普遍的なアナロジーとして有用である。
Continuous attractors offer a unique class of solutions for storing continuous-valued variables in recurrent system states for indefinitely long time intervals. Unfortunately, continuous attractors suffer from severe structural instability in general--they are destroyed by most infinitesimal changes of the dynamical law that defines them. This fragility limits their utility especially in biological systems as their recurrent dynamics are subject to constant perturbations. We observe that the bifurcations from continuous attractors in theoretical neuroscience models display various structurally stable forms. Although their asymptotic behaviors to maintain memory are categorically distinct, their finite-time behaviors are similar. We build on the persistent manifold theory to explain the commonalities between bifurcations from and approximations of continuous attractors. Fast-slow decomposition analysis uncovers the persistent manifold that survives the seemingly destructive bifurcation. Moreover, recurrent neural networks trained on analog memory tasks display approximate continuous attractors with predicted slow manifold structures. Therefore, continuous attractors are functionally robust and remain useful as a universal analogy for understanding analog memory. | 翻訳日:2024-08-04 22:36:04 公開日:2024-07-31 |
# インスタンス認識部分分割に基づく精子形態の自動解析
Automated Sperm Morphology Analysis Based on Instance-Aware Part Segmentation ( http://arxiv.org/abs/2408.00112v1 ) ライセンス: Link先を確認 | Wenyuan Chen, Haocong Song, Changsheng Dai, Aojun Jiang, Guanqiao Shan, Hang Liu, Yanlong Zhou, Khaled Abdalla, Shivani N Dhanani, Katy Fatemeh Moosavi, Shruti Pathak, Clifford Librach, Zhuoran Zhang, Yu Sun, | (参考訳) 従来の精子形態解析は退屈な手作業による注釈に基づいている。
多数の精子の自動形態解析は、各精子部分の正確な分節と定量的な形態評価を必要とする。
State-of-the-the-art instance-aware part segmentation networkは"detect-then-segment"パラダイムに従っている。
しかし、精子のスリムな形状のため、そのセグメンテーションは、ROI調整中に境界箱の刈り取りやリサイズによって大きなコンテキストロスと特徴的歪みに悩まされる。
また, 精子の尾部の形態計測は, 長く湾曲した形状と不均一な幅が要求される。
本稿では,精子形態パラメータを自動的,定量的に測定する自動化手法を提案する。
特徴ピラミッドネットワークによって抽出された特徴をマージすることで、注目に基づく新規なインスタンス認識部分分割ネットワークは、境界ボックスの外側の失われたコンテキストを再構築し、事前セグメンテーションマスクを精錬することにより歪んだ特徴を修正するように設計されている。
また, 終端を正確に再構成するために, 外乱フィルタ法と終端検出アルゴリズムを設計し, 自動中心線を用いた末尾形態計測法も提案した。
実験により,提案ネットワークは最先端のRP-R-CNNを9.2%[AP]_vol^pで上回り,自動尾部形状計測法は長さ,幅,曲率それぞれ95.34%,96.39%,91.2%の高測定精度を達成した。
Traditional sperm morphology analysis is based on tedious manual annotation. Automated morphology analysis of a high number of sperm requires accurate segmentation of each sperm part and quantitative morphology evaluation. State-of-the-art instance-aware part segmentation networks follow a "detect-then-segment" paradigm. However, due to sperm's slim shape, their segmentation suffers from large context loss and feature distortion due to bounding box cropping and resizing during ROI Align. Moreover, morphology measurement of sperm tail is demanding because of the long and curved shape and its uneven width. This paper presents automated techniques to measure sperm morphology parameters automatically and quantitatively. A novel attention-based instance-aware part segmentation network is designed to reconstruct lost contexts outside bounding boxes and to fix distorted features, by refining preliminary segmented masks through merging features extracted by feature pyramid network. An automated centerline-based tail morphology measurement method is also proposed, in which an outlier filtering method and endpoint detection algorithm are designed to accurately reconstruct tail endpoints. Experimental results demonstrate that the proposed network outperformed the state-of-the-art top-down RP-R-CNN by 9.2% [AP]_vol^p, and the proposed automated tail morphology measurement method achieved high measurement accuracies of 95.34%,96.39%,91.2% for length, width and curvature, respectively. | 翻訳日:2024-08-04 22:36:04 公開日:2024-07-31 |
# ボードゲームモデルを用いた言語モデル解釈可能性のための辞書学習の進歩度測定
Measuring Progress in Dictionary Learning for Language Model Interpretability with Board Game Models ( http://arxiv.org/abs/2408.00113v1 ) ライセンス: Link先を確認 | Adam Karvonen, Benjamin Wright, Can Rager, Rico Angell, Jannik Brinkmann, Logan Smith, Claudio Mayrink Verdun, David Bau, Samuel Marks, | (参考訳) 言語モデル(LM)では、どの潜在機能がエンコードされているか?
近年,Sparse Autoencoder (SAEs) を訓練して,LM表現の解釈可能な特徴を分解する研究が盛んに行われている。
しかし,これらのSAEの質を評価することは困難である。
そこで本研究では,チェスやオセロの書き起こしを訓練したLMの設定を用いて,解釈可能な辞書学習の進展を測定することを提案する。
これらの設定は、解釈可能な機能の自然なコレクション -- 例えば、"F3にはナイトがあります" -- を持ち、SAE品質のための$\textit{supervised}$メトリックに活用します。
解釈可能な辞書学習の進歩を導くため,新しいSAEトレーニング手法である$\textit{p-annealing}$を導入する。
What latent features are encoded in language model (LM) representations? Recent work on training sparse autoencoders (SAEs) to disentangle interpretable features in LM representations has shown significant promise. However, evaluating the quality of these SAEs is difficult because we lack a ground-truth collection of interpretable features that we expect good SAEs to recover. We thus propose to measure progress in interpretable dictionary learning by working in the setting of LMs trained on chess and Othello transcripts. These settings carry natural collections of interpretable features -- for example, "there is a knight on F3" -- which we leverage into $\textit{supervised}$ metrics for SAE quality. To guide progress in interpretable dictionary learning, we introduce a new SAE training technique, $\textit{p-annealing}$, which improves performance on prior unsupervised metrics as well as our new metrics. | 翻訳日:2024-08-04 22:36:04 公開日:2024-07-31 |
# インダクティブかデダクティブか? LLMの基本的推論能力を再考する
Inductive or Deductive? Rethinking the Fundamental Reasoning Abilities of LLMs ( http://arxiv.org/abs/2408.00114v1 ) ライセンス: Link先を確認 | Kewei Cheng, Jingfeng Yang, Haoming Jiang, Zhengyang Wang, Binxuan Huang, Ruirui Li, Shiyang Li, Zheng Li, Yifan Gao, Xian Li, Bing Yin, Yizhou Sun, | (参考訳) 推論には2つの典型型がある: 帰納的推論(deductive reasoning)と帰納的推論(inductive reasoning)。
LLM(Large Language Models)の推論能力に関する広範な研究にもかかわらず、ほとんどの研究は帰納的推論と帰納的推論を厳密に区別することができなかった。
LLM推論では、帰納的または帰納的推論という、より大きな課題を引き起こします。
LLMの帰納的推論能力(すなわち、推論タスクの指示に従う能力)は、かなり注目されているが、真の帰納的推論能力は、まだ明らかにされていない。
LLMの真の帰納的推論能力を明らかにするために,新しいフレームワークであるSolverLearnerを提案する。
このフレームワークはLLMが基礎となる関数(例えば$y = f_w)を学習できるようにする。
(x)$) - 入力データポイントを$にマッピングする。
(x)$ を対応する出力値 $
(y)$, in-context例のみを使用する。
帰納的推論に焦点をあて, LLMに基づく帰納的推論から分離することにより, SolverLearner による LLM の帰納的推論を分離し,研究することができる。
以上の結果から, LLMはソルバーラーナーを介して顕著な帰納的推論能力を示し, ACCが1例でほぼ完璧な性能を示した。
驚くべきことに、強い帰納的推論能力にもかかわらず、LLMは演能的推論能力に欠ける傾向にある。
Reasoning encompasses two typical types: deductive reasoning and inductive reasoning. Despite extensive research into the reasoning capabilities of Large Language Models (LLMs), most studies have failed to rigorously differentiate between inductive and deductive reasoning, leading to a blending of the two. This raises an essential question: In LLM reasoning, which poses a greater challenge - deductive or inductive reasoning? While the deductive reasoning capabilities of LLMs, (i.e. their capacity to follow instructions in reasoning tasks), have received considerable attention, their abilities in true inductive reasoning remain largely unexplored. To delve into the true inductive reasoning capabilities of LLMs, we propose a novel framework, SolverLearner. This framework enables LLMs to learn the underlying function (i.e., $y = f_w(x)$), that maps input data points $(x)$ to their corresponding output values $(y)$, using only in-context examples. By focusing on inductive reasoning and separating it from LLM-based deductive reasoning, we can isolate and investigate inductive reasoning of LLMs in its pure form via SolverLearner. Our observations reveal that LLMs demonstrate remarkable inductive reasoning capabilities through SolverLearner, achieving near-perfect performance with ACC of 1 in most cases. Surprisingly, despite their strong inductive reasoning abilities, LLMs tend to relatively lack deductive reasoning capabilities, particularly in tasks involving ``counterfactual'' reasoning. | 翻訳日:2024-08-04 22:36:04 公開日:2024-07-31 |
# 大規模量子マルコフノイズの容量
Capacities of quantum Markovian noise for large times ( http://arxiv.org/abs/2408.00116v1 ) ライセンス: Link先を確認 | Omar Fawzi, Mizanur Rahaman, Mostafa Taheri, | (参考訳) 量子マルコフノイズモデルが与えられた場合、任意に長時間保存できる古典的あるいは量子的システムの最大次元について検討する。
固定時間設定とは異なり、無限時間の極限において、古典的および量子的容量は、量子チャネルの周辺スペクトルの効率的な計算可能特性によって特徴づけられることを示す。
さらに、この容量はテンソル積の下で加法的であり、シャノン理論の言語では、ワンショットと漸近的i.d.容量は同じであることを意味する。
また、量子チャネルの周辺部分空間の構造を計算するための改良されたアルゴリズムも提供する。
Given a quantum Markovian noise model, we study the maximum dimension of a classical or quantum system that can be stored for arbitrarily large time. We show that, unlike the fixed time setting, in the limit of infinite time, the classical and quantum capacities are characterized by efficiently computable properties of the peripheral spectrum of the quantum channel. In addition, the capacities are additive under tensor product, which implies in the language of Shannon theory that the one-shot and the asymptotic i.i.d. capacities are the same. We also provide an improved algorithm for computing the structure of the peripheral subspace of a quantum channel, which might be of independent interest. | 翻訳日:2024-08-04 22:36:04 公開日:2024-07-31 |
# 学習に基づくキーポイント検出とポーズ推定のロバスト性認定
Certifying Robustness of Learning-Based Keypoint Detection and Pose Estimation Methods ( http://arxiv.org/abs/2408.00117v1 ) ライセンス: Link先を確認 | Xusheng Luo, Tianhao Wei, Simin Liu, Ziwei Wang, Luis Mattei-Mendez, Taylor Loper, Joshua Neighbor, Casidhe Hutchison, Changliu Liu, | (参考訳) この研究は、視覚に基づく2段階の6次元オブジェクトのポーズ推定における局所的ロバスト性の評価に対処する。
オブジェクトポーズ推定のための2段階の手法は、まずディープニューラルネットワーク駆動のキーポイント回帰を用い、次にパースペクティブ-n-Point(PnP)技術を適用することにより、より優れた精度を実現する。
進歩にも拘わらず、これらの方法の堅牢性の認定は依然として不十分である。
本研究の目的は,システムレベルでの局所的ロバスト性(セマンティック入力摂動下でのロバストな推定能力)に着目し,このギャップを埋めることである。
中心となる考え方は、ローカルロバストネスの認定を、分類タスクのニューラルネットワーク検証に変換することである。
課題は、市販の検証ツールと一致したモデル、インプット、アウトプットの仕様を開発することです。
検証を容易にするため,検証プロセスに適合する非線形操作を代用してキーポイント検出モデルを変更する。
画像にランダムノイズを注入する代わりに、入力仕様として画像の凸殻表現を用いて、意味摂動をより正確に表現する。
さらに、感度分析を行うことで、ポーズからキーポイント精度までロバスト性基準を伝播させ、最大許容キーポイント偏差閾値の設定を可能にする最適誤差閾値割り当て問題を定式化する。
各ピクセルを個別のクラスと見なすと、これらの閾値は線形で分類なしの出力仕様となる。
一定の条件下では,認証フレームワークの主な構成要素が健全かつ完全であることを実証し,現実的な摂動に対する広範囲な評価を通じてその効果を検証した。
我々の知る限り、これは現実世界のシナリオで与えられた画像に対して、大規模でキーポイントベースのポーズ推定の堅牢性を証明する最初の研究である。
This work addresses the certification of the local robustness of vision-based two-stage 6D object pose estimation. The two-stage method for object pose estimation achieves superior accuracy by first employing deep neural network-driven keypoint regression and then applying a Perspective-n-Point (PnP) technique. Despite advancements, the certification of these methods' robustness remains scarce. This research aims to fill this gap with a focus on their local robustness on the system level--the capacity to maintain robust estimations amidst semantic input perturbations. The core idea is to transform the certification of local robustness into neural network verification for classification tasks. The challenge is to develop model, input, and output specifications that align with off-the-shelf verification tools. To facilitate verification, we modify the keypoint detection model by substituting nonlinear operations with those more amenable to the verification processes. Instead of injecting random noise into images, as is common, we employ a convex hull representation of images as input specifications to more accurately depict semantic perturbations. Furthermore, by conducting a sensitivity analysis, we propagate the robustness criteria from pose to keypoint accuracy, and then formulating an optimal error threshold allocation problem that allows for the setting of a maximally permissible keypoint deviation thresholds. Viewing each pixel as an individual class, these thresholds result in linear, classification-akin output specifications. Under certain conditions, we demonstrate that the main components of our certification framework are both sound and complete, and validate its effects through extensive evaluations on realistic perturbations. To our knowledge, this is the first study to certify the robustness of large-scale, keypoint-based pose estimation given images in real-world scenarios. | 翻訳日:2024-08-04 22:36:04 公開日:2024-07-31 |
# Gemma 2: 実用規模でオープン言語モデルを改善する
Gemma 2: Improving Open Language Models at a Practical Size ( http://arxiv.org/abs/2408.00118v1 ) ライセンス: Link先を確認 | Gemma Team, Morgane Riviere, Shreya Pathak, Pier Giuseppe Sessa, Cassidy Hardin, Surya Bhupatiraju, Léonard Hussenot, Thomas Mesnard, Bobak Shahriari, Alexandre Ramé, Johan Ferret, Peter Liu, Pouya Tafti, Abe Friesen, Michelle Casbon, Sabela Ramos, Ravin Kumar, Charline Le Lan, Sammy Jerome, Anton Tsitsulin, Nino Vieillard, Piotr Stanczyk, Sertan Girgin, Nikola Momchev, Matt Hoffman, Shantanu Thakoor, Jean-Bastien Grill, Behnam Neyshabur, Alanna Walton, Aliaksei Severyn, Alicia Parrish, Aliya Ahmad, Allen Hutchison, Alvin Abdagic, Amanda Carl, Amy Shen, Andy Brock, Andy Coenen, Anthony Laforge, Antonia Paterson, Ben Bastian, Bilal Piot, Bo Wu, Brandon Royal, Charlie Chen, Chintu Kumar, Chris Perry, Chris Welty, Christopher A. Choquette-Choo, Danila Sinopalnikov, David Weinberger, Dimple Vijaykumar, Dominika Rogozińska, Dustin Herbison, Elisa Bandy, Emma Wang, Eric Noland, Erica Moreira, Evan Senter, Evgenii Eltyshev, Francesco Visin, Gabriel Rasskin, Gary Wei, Glenn Cameron, Gus Martins, Hadi Hashemi, Hanna Klimczak-Plucińska, Harleen Batra, Harsh Dhand, Ivan Nardini, Jacinda Mein, Jack Zhou, James Svensson, Jeff Stanway, Jetha Chan, Jin Zhou, Joana Carrasqueira, Joana Iljazi, Jocelyn Becker, Joe Fernandez, Joost van Amersfoort, Josh Gordon, Josh Lipschultz, Josh Newlan, Ju-yeong Ji, Kareem Mohamed, Kartikeya Badola, Kat Black, Katie Millican, Keelin McDonell, Kelvin Nguyen, Kiranbir Sodhia, Kish Greene, Lars Lowe Sjoesund, Lauren Usui, Laurent Sifre, Lena Heuermann, Leticia Lago, Lilly McNealus, Livio Baldini Soares, Logan Kilpatrick, Lucas Dixon, Luciano Martins, Machel Reid, Manvinder Singh, Mark Iverson, Martin Görner, Mat Velloso, Mateo Wirth, Matt Davidow, Matt Miller, Matthew Rahtz, Matthew Watson, Meg Risdal, Mehran Kazemi, Michael Moynihan, Ming Zhang, Minsuk Kahng, Minwoo Park, Mofi Rahman, Mohit Khatwani, Natalie Dao, Nenshad Bardoliwalla, Nesh Devanathan, Neta Dumai, Nilay Chauhan, Oscar Wahltinez, Pankil Botarda, Parker Barnes, Paul Barham, Paul Michel, Pengchong Jin, Petko Georgiev, Phil Culliton, Pradeep Kuppala, Ramona Comanescu, Ramona Merhej, Reena Jana, Reza Ardeshir Rokni, Rishabh Agarwal, Ryan Mullins, Samaneh Saadat, Sara Mc Carthy, Sarah Perrin, Sébastien Arnold, Sebastian Krause, Shengyang Dai, Shruti Garg, Shruti Sheth, Sue Ronstrom, Susan Chan, Timothy Jordan, Ting Yu, Tom Eccles, Tom Hennigan, Tomas Kocisky, Tulsee Doshi, Vihan Jain, Vikas Yadav, Vilobh Meshram, Vishal Dharmadhikari, Warren Barkley, Wei Wei, Wenming Ye, Woohyun Han, Woosuk Kwon, Xiang Xu, Zhe Shen, Zhitao Gong, Zichuan Wei, Victor Cotruta, Phoebe Kirk, Anand Rao, Minh Giang, Ludovic Peran, Tris Warkentin, Eli Collins, Joelle Barral, Zoubin Ghahramani, Raia Hadsell, D. Sculley, Jeanine Banks, Anca Dragan, Slav Petrov, Oriol Vinyals, Jeff Dean, Demis Hassabis, Koray Kavukcuoglu, Clement Farabet, Elena Buchatskaya, Sebastian Borgeaud, Noah Fiedel, Armand Joulin, Kathleen Kenealy, Robert Dadashi, Alek Andreev, | (参考訳) 本稿では、Gemma 2を紹介します。これは、20億から27億のパラメータのスケールで、軽量で最先端のオープンモデルのGemmaファミリに新たに追加されたものです。
本稿では,トランスフォーマーアーキテクチャにいくつかの技術的変更を加え,例えば,局所的言語的注意(Beltagy et al , 2020a)とグループクエリ的注意(Ainslie et al , 2023)をインターリーブする。
また、次のトークン予測の代わりに、2Bおよび9Bモデルを知識蒸留(Hinton et al , 2015)で訓練する。
結果として得られたモデルは、そのサイズで最高のパフォーマンスを提供し、さらに2~3倍の大きさのモデルに対して、競争力のある代替手段を提供する。
すべてのモデルをコミュニティにリリースします。
In this work, we introduce Gemma 2, a new addition to the Gemma family of lightweight, state-of-the-art open models, ranging in scale from 2 billion to 27 billion parameters. In this new version, we apply several known technical modifications to the Transformer architecture, such as interleaving local-global attentions (Beltagy et al., 2020a) and group-query attention (Ainslie et al., 2023). We also train the 2B and 9B models with knowledge distillation (Hinton et al., 2015) instead of next token prediction. The resulting models deliver the best performance for their size, and even offer competitive alternatives to models that are 2-3 times bigger. We release all our models to the community. | 翻訳日:2024-08-04 22:25:51 公開日:2024-07-31 |
# スペクトルクラスタリングを用いたパラメトリック量子ゲートのパルスファミリー最適化
Pulse family optimization for parametrized quantum gates using spectral clustering ( http://arxiv.org/abs/2408.00119v1 ) ライセンス: Link先を確認 | Robert de Keijzer, Jurgen Snijders, André Carvalho, Servaas Kokkelmans, | (参考訳) パラメタライズドゲート回路は、量子コンピューティングの現在のNISQ時代の多くの応用に使われている。
これらのパラメタライズドゲートは、主に分析的に発見されたパルスプロトコルを用いて実装され、しばしば最適なゲート時間、その結果、忠実性をもたらす。
あるいは、ゲート最適化アルゴリズムは、連続パラメータ空間における個々の固定点に対する高忠実度パルスを構成するように設計されている。
その後、中間パラメータのゲートは、以前に構築されたパルス間のある種の補間によって見つけることができる。
それでも、最適化アルゴリズムで見つかるパルスが解の同じ \textit{ Family} に属することは(解析的プロトコルのように)保証されていない。
異なる解系列の2つのパルス間の補間は、しばしば、パラメータ/忠実さのランドスケープにおいて、パルスが最小値から遠ざかるため、高い不完全性をもたらす。
本研究では,高忠実度をソートし,家族内パルスを最適化し,家族内のパルスのみを補間する「textit{spectral clustering}」手法を提案する。
したがって、補間は常に最大忠実度に近づく。
さらに、複数のパルスファミリが構築されるにつれて、このパラメータ空間は、ファミリーが忠実度的に優位に立つように分割することができる。
この研究は、Rydberg および Cat qubits の普遍ゲート集合に雑音下で適用することで、構成的連続ゲートファミリーの構成を綿密に実証する。
Parametrized gate circuits are used in plentiful applications in the current NISQ era of quantum computing. These parametrized gates are chiefly implemented using analytically found pulse protocols, often yielding suboptimal gate times, and consequently, fidelities. Alternatively, gate optimization algorithms are designed to construct high fidelity pulses for individual, fixed points in continuous parameter space. Gates for intermediate parameters can subsequently be found by some form of interpolation between previously constructed pulses. Nevertheless, it is not guaranteed (as with analytic protocols) that the pulses found by the optimization algorithms belong to the same \textit{family} of solutions and thus show resemblance. Interpolation between two pulses of differing solution families often leads to high infidelities, as the pulse strays away from the minimum in the parameter/fidelity landscape. In this work, we introduce a \textit{spectral clustering} method to sort high-fidelity, optimized pulses in families, and interpolating solely between pulses of the same family. Accordingly, interpolations will always approach maximal fidelity. Furthermore, as more than one pulse family is constructed, the parameter space can be partitioned according to which family prevails fidelity-wise. This work provides a meticulous demonstration of our constitutive continuous gate family construction by applying it to a universal gate set for Rydberg and Cat qubits under noise. | 翻訳日:2024-08-04 22:25:51 公開日:2024-07-31 |
# 臨床におけるLCMのアウトプット評価に関する共通課題
A Course Shared Task on Evaluating LLM Output for Clinical Questions ( http://arxiv.org/abs/2408.00122v1 ) ライセンス: Link先を確認 | Yufang Hou, Thy Thy Tran, Doan Nam Long Vu, Yiwen Cao, Kai Li, Lukas Rohde, Iryna Gurevych, | (参考訳) 本稿では, ダームシュタット工科大学における2023/2024年のFoLT講座において, 健康関連臨床問題に対する有害な回答を生み出すために, LLM(Large Language Models)のアウトプットを評価することを目的とした共通課題について述べる。
課題設計について考察し,学生からのフィードバックを報告する。
本論文では,自然言語処理(NLP)とデザインコースの課題について,その課題と成果について考察する。
This paper presents a shared task that we organized at the Foundations of Language Technology (FoLT) course in 2023/2024 at the Technical University of Darmstadt, which focuses on evaluating the output of Large Language Models (LLMs) in generating harmful answers to health-related clinical questions. We describe the task design considerations and report the feedback we received from the students. We expect the task and the findings reported in this paper to be relevant for instructors teaching natural language processing (NLP) and designing course assignments. | 翻訳日:2024-08-04 22:25:51 公開日:2024-07-31 |
# 動的レコメンデーションモデルのための意味的コードブック学習
Semantic Codebook Learning for Dynamic Recommendation Models ( http://arxiv.org/abs/2408.00123v1 ) ライセンス: Link先を確認 | Zheqi Lv, Shaoxuan He, Tianyu Zhan, Shengyu Zhang, Wenqiao Zhang, Jingyuan Chen, Zhou Zhao, Fei Wu, | (参考訳) 動的シーケンシャルレコメンデーション(DSR)は、ユーザの振る舞いに基づいてモデルパラメータを生成し、様々なユーザの好みの下でシーケンシャルレコメンデーションのパーソナライズを改善する。
しかし、大きなパラメータ探索空間とスパースでノイズの多いユーザ・イテム相互作用の課題に直面するため、生成されたモデルパラメータの適用性が低下する。
Semantic Codebook Learning for Dynamic Recommendation Models (SOLID)フレームワークは、これらの課題に効果的に取り組むことで、DSRの大幅な進歩を示す。
アイテムシーケンスをセマンティックシーケンスに変換し、デュアルパラメータモデルを使用することで、SOLIDはパラメータ生成検索空間を圧縮し、レコメンデーションシステム内で均質性を活用する。
区切られた項目表現を格納する意味メタコードと意味コードブックの導入により、堅牢で正確なパラメータ生成が保証される。
大規模な実験は、SOLIDが既存のDSRを一貫して上回り、より正確で安定した、堅牢なレコメンデーションを提供することを示した。
Dynamic sequential recommendation (DSR) can generate model parameters based on user behavior to improve the personalization of sequential recommendation under various user preferences. However, it faces the challenges of large parameter search space and sparse and noisy user-item interactions, which reduces the applicability of the generated model parameters. The Semantic Codebook Learning for Dynamic Recommendation Models (SOLID) framework presents a significant advancement in DSR by effectively tackling these challenges. By transforming item sequences into semantic sequences and employing a dual parameter model, SOLID compresses the parameter generation search space and leverages homogeneity within the recommendation system. The introduction of the semantic metacode and semantic codebook, which stores disentangled item representations, ensures robust and accurate parameter generation. Extensive experiments demonstrates that SOLID consistently outperforms existing DSR, delivering more accurate, stable, and robust recommendations. | 翻訳日:2024-08-04 22:25:51 公開日:2024-07-31 |
# モンテカルロ強度評価の再検討
Revisiting Monte Carlo Strength Evaluation ( http://arxiv.org/abs/2408.00124v1 ) ライセンス: Link先を確認 | Martin Stanek, | (参考訳) Dell'AmicoとFilipponeによって提案されたモンテカルロ法は、パスワード生成の確率モデル内でパスワードのランクを推定する。
推定の精度や速度を改善するためのいくつかのアイデアを提案する。
実験により, 改良されたサンプリングにより, 精度がわずかに向上することを示した。
さらに、事前計算を追加すると、メモリ使用量がわずかに増加し、より高速な推定が可能になる。
The Monte Carlo method, proposed by Dell'Amico and Filippone, estimates a password's rank within a probabilistic model for password generation, i.e., it determines the password's strength according to this model. We propose several ideas to improve the precision or speed of the estimation. Through experimental tests, we demonstrate that improved sampling can yield slightly better precision. Moreover, additional precomputation results in faster estimations with a modest increase in memory usage. | 翻訳日:2024-08-04 22:25:51 公開日:2024-07-31 |
# Vera Verto:マルチモーダル・ハイジャック攻撃
Vera Verto: Multimodal Hijacking Attack ( http://arxiv.org/abs/2408.00129v1 ) ライセンス: Link先を確認 | Minxing Zhang, Ahmed Salem, Michael Backes, Yang Zhang, | (参考訳) マシンラーニング(ML)モデルのトレーニングコストの増大により、トレーニングデータにコントリビュートするユーザや、コンピューティングリソースを提供する企業など、トレーニングパイプラインに新たなパーティを含めることが可能になった。
MLトレーニングプロセスにおけるこのような新たなパーティの関与は、敵が悪用する新たなアタックサーフェスを導入している。
このドメインにおける最近の攻撃は、モデルハイジャック攻撃であり、敵が被害者モデルをハイジャックして、自身の-おそらく悪意のある-ハイジャックタスクを実装する。
しかし、モデルハイジャック攻撃のスコープは、これまでのところ同質なモダリティタスクに限られている。
本稿では、モデルハイジャック攻撃をより一般的なマルチモーダル設定に変換し、異なるモーダルデータに基づいて、ハイジャックとオリジナルタスクを実行する。
具体的には、相手が自然言語処理(NLP)ハイジャックタスクを画像分類モデルに実装する設定に焦点を当てる。
攻撃をマウントするために,先進的な画像モデルと言語モデルに依存する新しいエンコーダデコーダベースのフレームワークであるBlenderを提案する。
実験結果から,モーダルハイジャック攻撃は異なる設定で強い性能を発揮することが示された。
例えば、私たちの攻撃は、STL10、CIFAR-10、MNIST分類器をハイジャックするためにSogouニュースデータセットを使用する場合、94%、94%、95%の攻撃成功率を達成する。
The increasing cost of training machine learning (ML) models has led to the inclusion of new parties to the training pipeline, such as users who contribute training data and companies that provide computing resources. This involvement of such new parties in the ML training process has introduced new attack surfaces for an adversary to exploit. A recent attack in this domain is the model hijacking attack, whereby an adversary hijacks a victim model to implement their own -- possibly malicious -- hijacking tasks. However, the scope of the model hijacking attack is so far limited to the homogeneous-modality tasks. In this paper, we transform the model hijacking attack into a more general multimodal setting, where the hijacking and original tasks are performed on data of different modalities. Specifically, we focus on the setting where an adversary implements a natural language processing (NLP) hijacking task into an image classification model. To mount the attack, we propose a novel encoder-decoder based framework, namely the Blender, which relies on advanced image and language models. Experimental results show that our modal hijacking attack achieves strong performances in different settings. For instance, our attack achieves 94%, 94%, and 95% attack success rate when using the Sogou news dataset to hijack STL10, CIFAR-10, and MNIST classifiers. | 翻訳日:2024-08-04 22:25:51 公開日:2024-07-31 |
# 極値分布を特徴付けるスケーラブルなフレームワークとしての分散ロバスト最適化
Distributionally Robust Optimization as a Scalable Framework to Characterize Extreme Value Distributions ( http://arxiv.org/abs/2408.00131v1 ) ライセンス: Link先を確認 | Patrick Kuiper, Ali Hasan, Wenhao Yang, Yuting Ng, Hoda Bidkhori, Jose Blanchet, Vahid Tarokh, | (参考訳) 本研究の目的は分散ロバストな最適化 (DRO) 推定器を開発することであり、特に多次元極値理論 (EVT) 統計学のためのものである。
EVTは空間ポアソン点プロセスから構築された最大安定分布と呼ばれる半パラメトリックモデルを使用する。
強力ではあるが、これらのモデルは大きなサンプルに対して漸近的にのみ有効である。
しかし、極端なデータは定義が乏しいため、モデル不特定誤差の可能性はこれらのアプリケーションに固有のものであり、DRO推定器は自然なものである。
点過程の空間における半パラメトリックな最大安定制約によって予測されるDRO推定器について検討した。
興味のある問題(例えばCVaR)と、より一般的なニューラルネットワークに基づく推定器について、トラクタブル凸の定式化について検討する。
両手法は, 合成データを用いて検証し, 所定の特性を回復し, 提案手法の有効性を検証する。
さらに, 提案手法は, 従来の分析結果と比較して, 財務利益の実際のデータセットに適用される。
提案手法を多変量EVT領域の新規な定式化として確立し,関連する代替提案と比較した場合の性能面で革新的であった。
The goal of this paper is to develop distributionally robust optimization (DRO) estimators, specifically for multidimensional Extreme Value Theory (EVT) statistics. EVT supports using semi-parametric models called max-stable distributions built from spatial Poisson point processes. While powerful, these models are only asymptotically valid for large samples. However, since extreme data is by definition scarce, the potential for model misspecification error is inherent to these applications, thus DRO estimators are natural. In order to mitigate over-conservative estimates while enhancing out-of-sample performance, we study DRO estimators informed by semi-parametric max-stable constraints in the space of point processes. We study both tractable convex formulations for some problems of interest (e.g. CVaR) and more general neural network based estimators. Both approaches are validated using synthetically generated data, recovering prescribed characteristics, and verifying the efficacy of the proposed techniques. Additionally, the proposed method is applied to a real data set of financial returns for comparison to a previous analysis. We established the proposed model as a novel formulation in the multivariate EVT domain, and innovative with respect to performance when compared to relevant alternate proposals. | 翻訳日:2024-08-04 22:25:51 公開日:2024-07-31 |
# ハイゼンベルクスピン鎖量子電池のエルゴトロピーと容量最適化
Ergotropy and Capacity Optimization in Heisenberg Spin Chain Quantum Batteries ( http://arxiv.org/abs/2408.00133v1 ) ライセンス: Link先を確認 | Asad Ali, Saif Al-Kuwari, M. I. Hussain, Tim Byrnes, M. T. Rahim, James Q. Quach, Mehrdad Ghominejad, Saeed Haddadi, | (参考訳) 本研究は, ハイゼンベルクスピンモデルを用いた有限スピン量子電池 (QB) の性能を, ジアルシンスキー-モリヤ (DM) とカプラン-シェフトマン-エンチン-ヴルマン-アハロニー (KSEA) 相互作用を用いて検討した。
QBは局所的不均一磁場における相互作用量子スピンとしてモデル化され、可変ゼーマン分裂を誘導する。
最近 Yang et al [Phys. Rev. Lett. 131, 030402 (2023)] が検討したように, 最大抽出可能作業, エルゴトロピー, QBs の容量に関する解析式を導出する。
これらの量は、前述の研究で示されたように、特定の量子相関を通じて分析的にリンクされる。
異なるハイゼンベルクスピンチェーンモデルは異なる条件下での異なる挙動を示し、QB性能を最適化するためのモデル選択の重要性を強調している。
反強磁性(AFM)系では、最大エルゴトロピーはいずれのスピンにも作用するゼーマン分裂場と共に起こるが、強磁性(FM)系は均一なゼーマン場から恩恵を受ける。
AFM症例のエルゴトロピーは, FM症例と比較して温度上昇に対して概ね強いが, 温度はQB性能に大きく影響した。
DMとKSEAの結合はQBのキャパシティとエルゴトロピーの抽出を著しく向上させる。
しかし、これらの相互作用のさらなる増加がキャパシティとエルゴトロピーの急激な減少を引き起こすしきい値が存在する。
この挙動は温度と量子コヒーレンスの影響を受けており、これは突然の相転移の発生を示唆している。
Baumgratzらによって提唱された量子コヒーレンスの資源理論(Phys. Lett. 113, 140401 (2014))は、エルゴトロピーとキャパシティを高める上で重要な役割を果たす。
しかしながら、エルゴトロピーはシステムの能力とコヒーレンス量の両方によって制限される。
これらの知見はスピンベースのQBの理論的枠組みを支持しており、将来の量子エネルギー貯蔵装置の研究に役立つかもしれない。
This study examines the performance of finite spin quantum batteries (QBs) using Heisenberg spin models with Dzyaloshinsky-Moriya (DM) and Kaplan--Shekhtman--Entin-Wohlman--Aharony (KSEA) interactions. The QBs are modeled as interacting quantum spins in local inhomogeneous magnetic fields, inducing variable Zeeman splitting. We derive analytical expressions for the maximal extractable work, ergotropy and the capacity of QBs, as recently examined by Yang et al. [Phys. Rev. Lett. 131, 030402 (2023)]. These quantities are analytically linked through certain quantum correlations, as posited in the aforementioned study. Different Heisenberg spin chain models exhibit distinct behaviors under varying conditions, emphasizing the importance of model selection for optimizing QB performance. In antiferromagnetic (AFM) systems, maximum ergotropy occurs with a Zeeman splitting field applied to either spin, while ferromagnetic (FM) systems benefit from a uniform Zeeman field. Temperature significantly impacts QB performance, with ergotropy in the AFM case being generally more robust against temperature increases compared to the FM case. Incorporating DM and KSEA couplings can significantly enhance the capacity and ergotropy extraction of QBs. However, there exists a threshold beyond which additional increases in these interactions cause a sharp decline in capacity and ergotropy. This behavior is influenced by temperature and quantum coherence, which signal the occurrence of a sudden phase transition. The resource theory of quantum coherence proposed by Baumgratz et al. [Phys. Rev. Lett. 113, 140401 (2014)] plays a crucial role in enhancing ergotropy and capacity. However, ergotropy is limited by both the system's capacity and the amount of coherence. These findings support the theoretical framework of spin-based QBs and may benefit future research on quantum energy storage devices. | 翻訳日:2024-08-04 22:25:51 公開日:2024-07-31 |
# 負のアテンションスコアアライメントによる大言語モデルの負のバイアスの補正
Correcting Negative Bias in Large Language Models through Negative Attention Score Alignment ( http://arxiv.org/abs/2408.00137v1 ) ライセンス: Link先を確認 | Sangwon Yu, Jongyoon Song, Bongkyu Hwang, Hoyoung Kang, Sooah Cho, Junhwa Choi, Seongho Joe, Taehee Lee, Youngjune L. Gwon, Sungroh Yoon, | (参考訳) 二分決定タスクは、イエスノー質問や回答検証のように、ユーザが特定の問題に対する決定の正当性を確認するなど、現実的な重要なシナリオを反映している。
本研究では,複雑な推論タスクのバイナリ決定において,言語モデルに負のバイアスが生じることを観察する。
本研究は,注意に基づくモデル力学の理論的根拠と観測結果に基づいて,負のバイアスを体系的かつ定量的に定式化するための負の注意スコア(NAS)を提案する。
NASに基づいて、指示書に記載された負のトークンに対応する注意ヘッドを、プロンプトの質問によらず二項決定の解答候補として同定し、負のバイアスとの関連性を検証する。
また,パラメータ効率のよい微調整手法であるネガティブアテンションスコアアライメント(NASA)手法を提案する。
様々な推論タスクと大規模なモデル探索空間による実験結果から、NASAは一般化能力を保ちながら、負のバイアスによる精度とリコールのギャップを著しく減らすことを示した。
私たちのコードは \url{https://github.com/ysw1021/NASA} で利用可能です。
A binary decision task, like yes-no questions or answer verification, reflects a significant real-world scenario such as where users look for confirmation about the correctness of their decisions on specific issues. In this work, we observe that language models exhibit a negative bias in the binary decisions of complex reasoning tasks. Based on our observations and the rationale about attention-based model dynamics, we propose a negative attention score (NAS) to systematically and quantitatively formulate negative bias. Based on NAS, we identify attention heads that attend to negative tokens provided in the instructions as answer candidate of binary decisions, regardless of the question in the prompt, and validate their association with the negative bias. Additionally, we propose the negative attention score alignment (NASA) method, which is a parameter-efficient fine-tuning technique to address the extracted negatively biased attention heads. Experimental results from various domains of reasoning tasks and large model search space demonstrate that NASA significantly reduces the gap between precision and recall caused by negative bias while preserving their generalization abilities. Our codes are available at \url{https://github.com/ysw1021/NASA}. | 翻訳日:2024-08-04 22:25:51 公開日:2024-07-31 |
# マクロエンタングルメントの決定論的分布のための量子リピータプロトコル
Quantum repeater protocol for deterministic distribution of macroscopic entanglement ( http://arxiv.org/abs/2408.00141v1 ) ライセンス: Link先を確認 | Alexey N. Pyrkov, Ilia D. Lazarev, Tim Byrnes, | (参考訳) 長距離の絡み合いの分散は、量子通信、分散量子コンピューティング、量子メートル法といった様々なタスクに必要な基本的な目標である。
現在、量子リピータ方式は、通常は1つのベル対の絡み合いに相当する1つのエビットを1度に分配することを目的としている。
本稿では,鎖長にのみ線形にスケールする多数の演算を用いて,長距離におけるマクロな絡み合いを分布させる手法を提案する。
このスキームは量子ビットのアンサンブルを伴い、それをS^z S^z$相互作用で絡み合わせ、共有光学モードで結合された原子ガスアンサンブルを用いて実現することができる。
中間アンサンブルの局所的な測定だけを用いることで、鎖の端のアンサンブルは絡み合っている。
チェーン長の劣化を伴わずに、完全忠実な絡み合いの分布を可能にする「マジック」相互作用時間が存在することを示す。
このスキームは決定論的であり、適切な局所的条件付きユニタリ補正では、常に同じ絡み合った状態が良い近似で作成できる。
Distributing long-distance entanglement is a fundamental goal that is necessary for a variety of tasks such as quantum communication, distributed quantum computing, and quantum metrology. Currently quantum repeater schemes typically aim to distribute one ebit at a time, the equivalent of one Bell pair's worth of entanglement. Here we present a method to distribute a macroscopic amount of entanglement across long-distances using a number of operations that scales only linearly with the chain length. The scheme involves ensembles of qubits and entangling them with an $S^z S^z$ interaction, which can be realized using atomic gas ensembles coupled by a shared optical mode. Using only local measurements on the intermediate ensembles, this leaves the ensembles at the ends of the chain entangled. We show that there are particular ``magic'' interaction times that allow for distribution of entanglement with perfect fidelity, with no degradation with chain length. The scheme is deterministic, such that with suitable local conditional unitary corrections, the same entangled state can always be prepared with good approximation. | 翻訳日:2024-08-04 22:25:51 公開日:2024-07-31 |
# クライアント間の非IID環境下での分散インコンテキスト学習
Distributed In-Context Learning under Non-IID Among Clients ( http://arxiv.org/abs/2408.00144v1 ) ライセンス: Link先を確認 | Siqi Liang, Sumyeong Ahn, Jiayu Zhou, | (参考訳) 大規模言語モデル(LLM)の進歩は、複数の複雑な自然言語推論タスクにおいてその効果を示した。
重要な課題は、これらのモデルを新しいタスクや馴染みのないタスクに効率的に適応させることである。
In-context Learning(ICL)は、クエリに関連する一連のデータポイント(ICE)をトレーニングデータセットから取得し、推論中にコンテキストとして提供することで、数ショット適応のための有望なソリューションを提供する。
既存の研究の多くは集中型トレーニングデータセットを使用しているが、現実のデータセットは複数のクライアントに分散し、リモートデータ検索はコストに関連付けられる。
特に、クライアントデータが識別できない独立した分散(非IID)である場合、テストクエリに必要なICEの適切なセットをクライアントから取得することは、重大な課題となる。
本稿では、まず、この難易度設定において、テストクエリが非IID性のためクライアント間で異なる嗜好を持つことを示し、同じコントリビューションは、しばしば最適以下のパフォーマンスをもたらすことを示す。
次に,データ利用予算が存在する場合の分散非IID ICL問題に対処するための新しい手法を提案する。
原則として、各クライアントの適切なコントリビューション(予算)は、そのクライアントに対する各クエリの好みに応じて設計されるべきである。
このアプローチでは、データ駆動方式を使用して、各テストクエリに合わせて、各クライアントの予算を割り当てます。
多様なデータセットに関する広範な実証研究を通じて,本フレームワークは,競合するベースラインと比較して優れた性能を示す。
Advancements in large language models (LLMs) have shown their effectiveness in multiple complicated natural language reasoning tasks. A key challenge remains in adapting these models efficiently to new or unfamiliar tasks. In-context learning (ICL) provides a promising solution for few-shot adaptation by retrieving a set of data points relevant to a query, called in-context examples (ICE), from a training dataset and providing them during the inference as context. Most existing studies utilize a centralized training dataset, yet many real-world datasets may be distributed among multiple clients, and remote data retrieval can be associated with costs. Especially when the client data are non-identical independent distributions (non-IID), retrieving from clients a proper set of ICEs needed for a test query presents critical challenges. In this paper, we first show that in this challenging setting, test queries will have different preferences among clients because of non-IIDness, and equal contribution often leads to suboptimal performance. We then introduce a novel approach to tackle the distributed non-IID ICL problem when a data usage budget is present. The principle is that each client's proper contribution (budget) should be designed according to the preference of each query for that client. Our approach uses a data-driven manner to allocate a budget for each client, tailored to each test query. Through extensive empirical studies on diverse datasets, our framework demonstrates superior performance relative to competing baselines. | 翻訳日:2024-08-04 22:25:51 公開日:2024-07-31 |
# 強化学習エージェントにおける形式的倫理的義務:検証と政策更新
Formal Ethical Obligations in Reinforcement Learning Agents: Verification and Policy Updates ( http://arxiv.org/abs/2408.00147v1 ) ライセンス: Link先を確認 | Colin Shea-Blymyer, Houssam Abbas, | (参考訳) 不確実な環境で運用するエージェントを設計する場合、設計者は、エージェントがすべきことを自動で判断するツール、それが実際に起きていることとどのように衝突するか、そして競合を取り除くためにポリシーをどう修正するかを設計する必要がある。
これらの義務には、倫理的・社会的義務、許可、禁止が含まれており、エージェントがその任務を遂行し、その政策を実行する方法を制限している。
我々は、エージェントの戦略的義務を特定・検証し、それらの義務を満たすための基準政策からポリシーを変更するという、設計時にこの推論を可能にするために、新しいデオン論理、期待されるUtilitarian deontic logicを提案する。
報酬レベルで働くアプローチとは異なり、論理レベルで働くことはトレードオフの透明性を高める。
本稿では,RLエージェントが適切な戦略上の義務を持つかどうかをモデルチェックするアルゴリズムと,論理に表される義務を満たすための基準決定ポリシーを変更するアルゴリズムを導入する。
DAC-MDPは神経決定ポリシーを正確に抽象化し,また,おもちゃのグリッドワールド環境についてもアルゴリズムを解説する。
When designing agents for operation in uncertain environments, designers need tools to automatically reason about what agents ought to do, how that conflicts with what is actually happening, and how a policy might be modified to remove the conflict. These obligations include ethical and social obligations, permissions and prohibitions, which constrain how the agent achieves its mission and executes its policy. We propose a new deontic logic, Expected Act Utilitarian deontic logic, for enabling this reasoning at design time: for specifying and verifying the agent's strategic obligations, then modifying its policy from a reference policy to meet those obligations. Unlike approaches that work at the reward level, working at the logical level increases the transparency of the trade-offs. We introduce two algorithms: one for model-checking whether an RL agent has the right strategic obligations, and one for modifying a reference decision policy to make it meet obligations expressed in our logic. We illustrate our algorithms on DAC-MDPs which accurately abstract neural decision policies, and on toy gridworld environments. | 翻訳日:2024-08-04 22:25:51 公開日:2024-07-31 |
# マルチノード量子ネットワークのためのマルチパーティ・エンタングルメント
Multipartite Entanglement for Multi-node Quantum Networks ( http://arxiv.org/abs/2408.00149v1 ) ライセンス: Link先を確認 | E. M. Ainley, A. Agrawal, D. Main, P. Drmota, D. P. Nadlinger, B. C. Nichol, R. Srinivas, G. Araneda, | (参考訳) 量子ネットワークにおける絡み合ったノードの数をスケーリングすることは、量子コンピューティング、クロック同期、セキュア通信、量子センシングに重要な意味を持つ。
量子ネットワークでは、光子は異なるノードの物質量子ビットと相互作用し、それらの間のリモートの絡み合いを柔軟に生成することができる。
複数のノード間のマルチパーティの絡み合いは、量子計算タスクや量子メトロジーを含む多くの提案された量子ネットワークアプリケーションにとって重要である。
現在まで、量子ネットワークの基本的な量子資源として広く見なされているノード間の二部結合の生成に重点を置いている。
しかし、より複雑な多部交絡を形成するために二部交絡にのみ依存することは、いくつかの問題を引き起こす。
これには、アシラリーキュービットの必要性、準備遅延を増加させる広範囲な局所エンタングリング操作、ノード数が増加するにつれてコヒーレンス時間に対する厳しい要求などが含まれる。
ここでは,ノード間のマルチパーティント絡みを単一ステップで解析し,複数ラウンドのバイパートント絡みを回避した。
異なるスキームによって異なる多部交絡状態が生成され、その忠実度と生成率が異なることが実証された。
さらに、これらのスキームが様々な実験プラットフォームにまたがって適用可能であることについて議論し、主な利点と欠点を強調した。
Scaling the number of entangled nodes in a quantum network is a challenge with significant implications for quantum computing, clock synchronisation, secure communications, and quantum sensing. In a quantum network, photons interact with matter qubits at different nodes, flexibly enabling the creation of remote entanglement between them. Multipartite entanglement among multiple nodes will be crucial for many proposed quantum network applications, including quantum computational tasks and quantum metrology. To date, experimental efforts have primarily focused on generating bipartite entanglement between nodes, which is widely regarded as the fundamental quantum resource for quantum networks. However, relying exclusively on bipartite entanglement to form more complex multipartite entanglement introduces several challenges. These include the need for ancillary qubits, extensive local entangling operations which increases the preparation latency, and increasingly stringent requirements on coherence times as the number of nodes grows. Here, we analyse various schemes that achieve multipartite entanglement between nodes in a single step, bypassing the need for multiple rounds of bipartite entanglement. We demonstrate that different schemes can produce distinct multipartite entangled states, with varying fidelity and generation rates. Additionally, we discuss the applicability of these schemes across different experimental platforms, highlighting their primary advantages and disadvantages. | 翻訳日:2024-08-04 22:25:51 公開日:2024-07-31 |
# スタイルRF-VolVis:表現量可視化のためのニューラルラジアンスフィールドのスタイル転送
StyleRF-VolVis: Style Transfer of Neural Radiance Fields for Expressive Volume Visualization ( http://arxiv.org/abs/2408.00150v1 ) ライセンス: Link先を確認 | Kaiyuan Tang, Chaoli Wang, | (参考訳) ボリュームビジュアライゼーションでは、従来のレンダリングパイプラインに従わずに新しいビジュアライゼーションを生成する能力のために、可視化合成が注目されている。
しかし、生成的敵ネットワークに基づく既存のソリューションは、多くの訓練画像を必要とし、かなりの訓練時間を要することが多い。
それでも、低品質、一貫性、柔軟性といった問題は続いている。
本稿では,ニューラルラジアンスフィールド(NeRF)を用いた表現量可視化(VolVis)のための革新的なスタイル転送フレームワークであるStyleRF-VolVisを紹介する。
StyleRF-VolVisの表現力は、基礎となるシーン形状(コンテンツ)と色外観(スタイル)を正確に分離し、ビュー全体にわたって視覚的コンテントの一貫性を維持しつつ、色、透明度、照明を都合よく変更し、参照画像から再構成された3Dシーンへ任意のスタイルを効果的に転送する能力によって支えられている。
そこで我々は,シーン形状抽出のための基礎となるNeRFモデル,光リアル性編集のためのラディアンスフィールドの領域を分類するパレットカラーネットワーク,および非フォトリアル性編集のための知識蒸留によるカラーパレット制約を解除する無制限カラーネットワークを設計した。
本稿では,様々なボリュームレンダリングシーンと参照イメージを実験し,StyleRF-VolVisを他の画像ベース(AdaIN),ビデオベース(ReReVST),NeRFベース(ARFおよびSNeRF)スタイルレンダリングソリューションと比較することにより,StyleRF-VolVisの優れた品質,一貫性,柔軟性を実証する。
In volume visualization, visualization synthesis has attracted much attention due to its ability to generate novel visualizations without following the conventional rendering pipeline. However, existing solutions based on generative adversarial networks often require many training images and take significant training time. Still, issues such as low quality, consistency, and flexibility persist. This paper introduces StyleRF-VolVis, an innovative style transfer framework for expressive volume visualization (VolVis) via neural radiance field (NeRF). The expressiveness of StyleRF-VolVis is upheld by its ability to accurately separate the underlying scene geometry (i.e., content) and color appearance (i.e., style), conveniently modify color, opacity, and lighting of the original rendering while maintaining visual content consistency across the views, and effectively transfer arbitrary styles from reference images to the reconstructed 3D scene. To achieve these, we design a base NeRF model for scene geometry extraction, a palette color network to classify regions of the radiance field for photorealistic editing, and an unrestricted color network to lift the color palette constraint via knowledge distillation for non-photorealistic editing. We demonstrate the superior quality, consistency, and flexibility of StyleRF-VolVis by experimenting with various volume rendering scenes and reference images and comparing StyleRF-VolVis against other image-based (AdaIN), video-based (ReReVST), and NeRF-based (ARF and SNeRF) style rendering solutions. | 翻訳日:2024-08-04 22:25:51 公開日:2024-07-31 |
# 社会ロボットによるグループ会話ダイナミクスの調整
Moderating Group Conversation Dynamics with Social Robots ( http://arxiv.org/abs/2408.00151v1 ) ライセンス: Link先を確認 | Lucrezia Grassi, Carmine Tommaso Recchiuto, Antonio Sgorbissa, | (参考訳) 本研究は,グループ会話におけるソーシャルロボットの参加の影響を調査し,様々な対処方針の有効性を評価する。
研究には300人の参加者が参加し、4人グループに分かれ、モデレーターとして機能するヒューマノイドロボットと対話した。
ロボットは会話データを利用して、最も適切な話者を決定する。
その結果,ロボットの対処方針は会話のダイナミクスに大きく影響し,各参加者に対するよりバランスの取れた注意力とサブグループ形成の低下が示唆された。
This research investigates the impact of social robot participation in group conversations and assesses the effectiveness of various addressing policies. The study involved 300 participants, divided into groups of four, interacting with a humanoid robot serving as the moderator. The robot utilized conversation data to determine the most appropriate speaker to address. The findings indicate that the robot's addressing policy significantly influenced conversation dynamics, resulting in more balanced attention to each participant and a reduction in subgroup formation. | 翻訳日:2024-08-04 22:25:51 公開日:2024-07-31 |
# 機械学習Jupyterノートにおけるフィードバックメカニズムの理解
Understanding Feedback Mechanisms in Machine Learning Jupyter Notebooks ( http://arxiv.org/abs/2408.00153v1 ) ライセンス: Link先を確認 | Arumoy Shome, Luis Cruz, Diomidis Spinellis, Arie van Deursen, | (参考訳) 機械学習開発ライフサイクルは、データとモデルの整合性を保証するためのフィードバックメカニズムに依存する反復的で探索的なプロセスによって特徴づけられる。
機械学習工学におけるフィードバックの重要な役割にもかかわらず、これらのメカニズムを識別し理解するための事前の研究は行われていない。
この知識ギャップに対処するため、297.8000のJupyterノートブックをマイニングし、230万のコードセルを分析しました。
我々は、アサーション、プリントステートメント、最後のセルステートメントという3つの重要なフィードバックメカニズムを特定し、それらを暗黙的かつ明示的なフィードバック形式に分類する。
本研究は,設計決定における暗黙的なフィードバックの活用と,明示的なフィードバック機構の導入が比較的限定されていることを明らかにする。
選択したフィードバックインスタンスで詳細なケーススタディを行うことで、アサーションを用いた機械学習ワークフローにおけるクリティカルな仮定の自動検証の可能性を明らかにする。
最後に、この研究は、改善されたドキュメントの必要性を強調し、ML開発ワークフローにおける既存のフィードバックメカニズムを、技術的負債の軽減と再現性の向上に効果的に利用するための実践的なレコメンデーションを提供する。
The machine learning development lifecycle is characterized by iterative and exploratory processes that rely on feedback mechanisms to ensure data and model integrity. Despite the critical role of feedback in machine learning engineering, no prior research has been conducted to identify and understand these mechanisms. To address this knowledge gap, we mine 297.8 thousand Jupyter notebooks and analyse 2.3 million code cells. We identify three key feedback mechanisms -- assertions, print statements and last cell statements -- and further categorize them into implicit and explicit forms of feedback. Our findings reveal extensive use of implicit feedback for critical design decisions and the relatively limited adoption of explicit feedback mechanisms. By conducting detailed case studies with selected feedback instances, we uncover the potential for automated validation of critical assumptions in ML workflows using assertions. Finally, this study underscores the need for improved documentation, and provides practical recommendations on how existing feedback mechanisms in the ML development workflow can be effectively used to mitigate technical debt and enhance reproducibility. | 翻訳日:2024-08-04 22:16:07 公開日:2024-07-31 |
# 着想と誇張に基づくニュース記事の虚偽性測定
Measuring Falseness in News Articles based on Concealment and Overstatement ( http://arxiv.org/abs/2408.00156v1 ) ライセンス: Link先を確認 | Jiyoung Lee, Keeheon Lee, | (参考訳) 本研究では,あるジャーナリスト記事における誤報の程度を,虚偽の度合いを評価するための新しい測定ツールを導入することによって調査する。
2つの指標(認識と過剰表現)を用いて誤情報を測定することを目的としている。
これは、一部真偽情報を含む記事が、完全に偽造された情報よりも識別が難しいため、読者に悪影響を及ぼす可能性があるかを調べるのに役立つだろう。
本研究では,事実確認サイトが提供する全記事が,偽ニュースと実ニュースの差異を比較するための標準化された情報源として機能する。
その結果、偽ニュースは、より長く、より複雑な新しい物語が短く、曖昧に表現されるため、より隠蔽され、誇張されてしまうことが示唆された。
政治学と市民学には大きな違いはないが、誤報は重要な詳細を欠き、さらに冗長な言葉を同時に含んでいることが示されている。
したがって、誤報に分類される部分的な虚偽を含むニュース記事は、背景知識に欠ける不注意な読者を欺くことができる。
このアプローチは、将来的なファクトチェックやジャーナリスト、読者に、回復力のある情報環境のための高品質な記事の確保を促すことを願っている。
This research investigates the extent of misinformation in certain journalistic articles by introducing a novel measurement tool to assess the degrees of falsity. It aims to measure misinformation using two metrics (concealment and overstatement) to explore how information is interpreted as false. This should help examine how articles containing partly true and partly false information can potentially harm readers, as they are more challenging to identify than completely fabricated information. In this study, the full story provided by the fact-checking website serves as a standardized source of information for comparing differences between fake and real news. The result suggests that false news has greater concealment and overstatement, due to longer and more complex new stories being shortened and ambiguously phrased. While there are no major distinctions among categories of politics science and civics, it demonstrates that misinformation lacks crucial details while simultaneously containing more redundant words. Hence, news articles containing partial falsity, categorized as misinformation, can deceive inattentive readers who lack background knowledge. Hopefully, this approach instigates future fact-checkers, journalists, and the readers to secure high quality articles for a resilient information environment. | 翻訳日:2024-08-04 22:16:07 公開日:2024-07-31 |
# 誘導拡散モデルと仮想観測を用いたパラメトリック部分微分方程式の解の生成学習
Generative Learning of the Solution of Parametric Partial Differential Equations Using Guided Diffusion Models and Virtual Observations ( http://arxiv.org/abs/2408.00157v1 ) ライセンス: Link先を確認 | Han Gao, Sebastian Kaltenbach, Petros Koumoutsakos, | (参考訳) 勾配誘導と仮想観測を用いた高次元パラメトリックシステムのモデル化のための生成学習フレームワークを提案する。
我々は,部分微分方程式(PDE)で記述されたシステムについて,構造的あるいは非構造的グリッドで識別する。
このフレームワークはマルチレベル情報を統合し、システムダイナミクスの高忠実度時間シーケンスを生成する。
構造メッシュ上の非圧縮性, 2次元低レイノルズ気筒流, 構造メッシュ上の非圧縮性乱流流, およびReynolds数でパラメータ化された非圧縮性乱流流の2つのケーススタディにより, 本フレームワークの有効性と汎用性を実証した。
本研究は, 各種パラメータ設定にまたがって正確な流れ列を生成するためのフレームワークの頑健さと能力を示し, 計算コストを大幅に削減し, フローダイナミクスの効率的な予測と再構築を可能にした。
We introduce a generative learning framework to model high-dimensional parametric systems using gradient guidance and virtual observations. We consider systems described by Partial Differential Equations (PDEs) discretized with structured or unstructured grids. The framework integrates multi-level information to generate high fidelity time sequences of the system dynamics. We demonstrate the effectiveness and versatility of our framework with two case studies in incompressible, two dimensional, low Reynolds cylinder flow on an unstructured mesh and incompressible turbulent channel flow on a structured mesh, both parameterized by the Reynolds number. Our results illustrate the framework's robustness and ability to generate accurate flow sequences across various parameter settings, significantly reducing computational costs allowing for efficient forecasting and reconstruction of flow dynamics. | 翻訳日:2024-08-04 22:16:07 公開日:2024-07-31 |
# 生物樹を用いた拡散モデルの階層的条件付けによる種進化の研究
Hierarchical Conditioning of Diffusion Models Using Tree-of-Life for Studying Species Evolution ( http://arxiv.org/abs/2408.00160v1 ) ライセンス: Link先を確認 | Mridul Khurana, Arka Daw, M. Maruf, Josef C. Uyeda, Wasila Dahdul, Caleb Charpentier, Yasin Bakış, Henry L. Bart Jr., Paula M. Mabee, Hilmar Lapp, James P. Balhoff, Wei-Lun Chao, Charles Stewart, Tanya Berger-Wolf, Anuj Karpatne, | (参考訳) 生物学の中心的な問題は、生物がどう進化して環境に適応するかを理解することである。
生物学における大規模画像レポジトリの利用可能化と、生成モデリングの最近の進歩により、画像からの進化的特徴の自動発見を加速する機会がある。
この目的に向けて, ヒエラルキ的埋め込み (HIER-Embeds) の形で表現された系統的知識を持つ拡散モデルを条件付ける新しいフレームワークであるPhylo-Diffusionを紹介する。
また,Phylo-Diffusionの組込み空間を摂動させる2つの新しい実験を提案する。
本研究は,木系知識を用いた拡散モデルの埋め込み空間を構築するための生成モデリングの方法論的進歩を示す。
私たちの研究は、生成モデルを用いて画像から直接進化的変化を可視化することで、進化生物学の新しい章も開きます。
魚類や鳥類の有意な形質変化を捉える上でのフィロ拡散の有用性を実証的に実証し,その進化の生物学的機構に関する新たな知見を明らかにした。
A central problem in biology is to understand how organisms evolve and adapt to their environment by acquiring variations in the observable characteristics or traits of species across the tree of life. With the growing availability of large-scale image repositories in biology and recent advances in generative modeling, there is an opportunity to accelerate the discovery of evolutionary traits automatically from images. Toward this goal, we introduce Phylo-Diffusion, a novel framework for conditioning diffusion models with phylogenetic knowledge represented in the form of HIERarchical Embeddings (HIER-Embeds). We also propose two new experiments for perturbing the embedding space of Phylo-Diffusion: trait masking and trait swapping, inspired by counterpart experiments of gene knockout and gene editing/swapping. Our work represents a novel methodological advance in generative modeling to structure the embedding space of diffusion models using tree-based knowledge. Our work also opens a new chapter of research in evolutionary biology by using generative models to visualize evolutionary changes directly from images. We empirically demonstrate the usefulness of Phylo-Diffusion in capturing meaningful trait variations for fishes and birds, revealing novel insights about the biological mechanisms of their evolution. | 翻訳日:2024-08-04 22:16:07 公開日:2024-07-31 |
# クラスタリングとプロンプトを用いた自然言語処理のための行動テストケースの自動生成
Automatic Generation of Behavioral Test Cases For Natural Language Processing Using Clustering and Prompting ( http://arxiv.org/abs/2408.00161v1 ) ライセンス: Link先を確認 | Ying Li, Rahul Singh, Tarun Joshi, Agus Sudjianto, | (参考訳) Checklistのような自然言語処理(NLP)モデルの振る舞いテストにおける最近の研究は、ソフトウェアエンジニアリングテストにおける関連するパラダイムにインスパイアされている。
それらは一般的な言語能力とドメイン理解の評価を可能にするため、概念的健全性を評価し、モデルの弱点を特定するのに役立つ。
しかし、大きな課題は、テストケースの作成です。
現在のパッケージは、ドメインの専門知識を必要とし、時間を要する、手動開発を使った半自動化アプローチに依存しています。
本稿では,大規模言語モデルと統計的手法の力を活用したテストケースの自動開発手法を提案する。
テキスト表現をクラスタ化して、意味のあるグループを慎重に構築し、次にプロンプト技術を適用して、MFT(Minimmal Functionality Tests)を自動的に生成する。
有名なAmazon Reviewsコーパスは、私たちのアプローチを実証するために使われています。
4つの異なる分類アルゴリズムを用いて行動テストプロファイルを分析し、それらのモデルの限界と強みについて議論する。
Recent work in behavioral testing for natural language processing (NLP) models, such as Checklist, is inspired by related paradigms in software engineering testing. They allow evaluation of general linguistic capabilities and domain understanding, hence can help evaluate conceptual soundness and identify model weaknesses. However, a major challenge is the creation of test cases. The current packages rely on semi-automated approach using manual development which requires domain expertise and can be time consuming. This paper introduces an automated approach to develop test cases by exploiting the power of large language models and statistical techniques. It clusters the text representations to carefully construct meaningful groups and then apply prompting techniques to automatically generate Minimal Functionality Tests (MFT). The well-known Amazon Reviews corpus is used to demonstrate our approach. We analyze the behavioral test profiles across four different classification algorithms and discuss the limitations and strengths of those models. | 翻訳日:2024-08-04 22:16:07 公開日:2024-07-31 |
# 大規模言語モデルにおけるステレオタイプの分類
A Taxonomy of Stereotype Content in Large Language Models ( http://arxiv.org/abs/2408.00162v1 ) ライセンス: Link先を確認 | Gandalf Nicolas, Aylin Caliskan, | (参考訳) 本研究では,現代大言語モデル (LLM) におけるステレオタイプ内容の分類について紹介する。
87の社会的カテゴリー(例えば、性別、人種、職業)に関連する特徴について、ChatGPT 3.5、Llama 3、Mixtral 8x7Bの3つの強力なLLMを誘導する。
LLMステレオタイプ関係の約90%を占める14のステレオタイプ次元(例えば、モラル、能力、健康、信念、感情)を同定した。
ウォームスとコンピテンス・フェイスは最も頻繁な内容であったが、他の次元は全て顕著に普及した。
ステレオタイプは LLM ではより肯定的であったが, カテゴリーや次元に有意な変動が認められた。
最後に, LLMの社会的カテゴリーに対する内的評価(例えば, そのカテゴリーがいかに肯定的/否定的であったか)を予測し, LLMステレオタイプを特徴付けるための多次元分類の関連性を支持した。
以上の結果から,LLMには高次元のヒトステレオタイプが反映されていることが示唆され,LLMの低次元観に依拠する不特定害を最小化するために,AI監査やデバイアス化において考慮する必要がある。
This study introduces a taxonomy of stereotype content in contemporary large language models (LLMs). We prompt ChatGPT 3.5, Llama 3, and Mixtral 8x7B, three powerful and widely used LLMs, for the characteristics associated with 87 social categories (e.g., gender, race, occupations). We identify 14 stereotype dimensions (e.g., Morality, Ability, Health, Beliefs, Emotions), accounting for ~90% of LLM stereotype associations. Warmth and Competence facets were the most frequent content, but all other dimensions were significantly prevalent. Stereotypes were more positive in LLMs (vs. humans), but there was significant variability across categories and dimensions. Finally, the taxonomy predicted the LLMs' internal evaluations of social categories (e.g., how positively/negatively the categories were represented), supporting the relevance of a multidimensional taxonomy for characterizing LLM stereotypes. Our findings suggest that high-dimensional human stereotypes are reflected in LLMs and must be considered in AI auditing and debiasing to minimize unidentified harms from reliance in low-dimensional views of bias in LLMs. | 翻訳日:2024-08-04 22:16:07 公開日:2024-07-31 |
# 非畳み込みグラフニューラルネットワーク
Non-convolutional Graph Neural Networks ( http://arxiv.org/abs/2408.00165v1 ) ライセンス: Link先を確認 | Yuanqing Wang, Kyunghyun Cho, | (参考訳) 畳み込みベースのグラフニューラルネットワーク(GNN)を再考する -- 表現力の制限、過度なスムース化、過剰なスキャッシングが特徴であり、効率的な計算には特別なスパースカーネルが必要である。
本稿では、RNNが各ノードで終了するランダムウォークに沿ってトポロジカルグラフとセマンティックグラフの特徴をマージする、畳み込み演算子を完全に含まない単純なグラフ学習モジュールを設計する。
RNNの挙動とグラフトポロジーに関する豊富な文献に関連して,RUMが上記の症状を緩和し,Weisfeiler-Lehman(WL)同型性試験よりも表現力が高いことを理論的に証明し,実験的に検証した。
様々なノードレベルの分類と回帰タスクにおいて、RUMは競争性能を達成するだけでなく、最も単純な畳み込みGNNよりも堅牢で、メモリ効率が良く、スケーラブルで、高速である。
Rethink convolution-based graph neural networks (GNN) -- they characteristically suffer from limited expressiveness, over-smoothing, and over-squashing, and require specialized sparse kernels for efficient computation. Here, we design a simple graph learning module entirely free of convolution operators, coined \textit{random walk with unifying memory} (RUM) neural network, where an RNN merges the topological and semantic graph features along the random walks terminating at each node. Relating the rich literature on RNN behavior and graph topology, we theoretically show and experimentally verify that RUM attenuates the aforementioned symptoms and is more expressive than the Weisfeiler-Lehman (WL) isomorphism test. On a variety of node- and graph-level classification and regression tasks, RUM not only achieves competitive performance, but is also robust, memory-efficient, scalable, and faster than the simplest convolutional GNNs. | 翻訳日:2024-08-04 22:16:07 公開日:2024-07-31 |
# 説明可能なグラフベースレコメンダシステムの概要
Review of Explainable Graph-Based Recommender Systems ( http://arxiv.org/abs/2408.00166v1 ) ライセンス: Link先を確認 | Thanet Markchom, Huizhi Liang, James Ferryman, | (参考訳) ユーザの信頼と満足を確実にするために,レコメンデータシステムの説明可能性の重要性が不可欠になっている。
説明可能なグラフベースレコメンデータシステムを含む,さまざまなタイプの説明可能なレコメンデータシステムが提案されている。
本稿では,これらのシステムの現状を論じ,学習方法,説明方法,説明型という3つの側面に基づいて分類する。
また、一般的なデータセット、説明可能性評価方法、研究領域の今後の方向性についても検討する。
本稿では,従来のレビュー論文と比較して,グラフに基づく説明可能性に注目し,新しい説明可能なグラフベースレコメンデータシステムの開発に必要なトピックについて述べる。
Explainability of recommender systems has become essential to ensure users' trust and satisfaction. Various types of explainable recommender systems have been proposed including explainable graph-based recommender systems. This review paper discusses state-of-the-art approaches of these systems and categorizes them based on three aspects: learning methods, explaining methods, and explanation types. It also explores the commonly used datasets, explainability evaluation methods, and future directions of this research area. Compared with the existing review papers, this paper focuses on explainability based on graphs and covers the topics required for developing novel explainable graph-based recommender systems. | 翻訳日:2024-08-04 22:16:07 公開日:2024-07-31 |
# Finch: プロンプト誘導キーバリューキャッシュ圧縮
Finch: Prompt-guided Key-Value Cache Compression ( http://arxiv.org/abs/2408.00167v1 ) ライセンス: Link先を確認 | Giulio Corallo, Paolo Papotti, | (参考訳) Retrieval-Augmented Generationやチャットボットといった最近の大規模言語モデルは、より長い入力コンテキストを処理する必要性が高まっている。
しかし、この要件は固有の制限によって妨げられている。
アーキテクチャ上、モデルはトレーニング中に定義されたコンテキストウィンドウによって制約される。
さらに、広範なテキストを処理するには、相当なGPUメモリが必要である。
本稿では,事前学習した自己意図の重みを生かして,入力コンテキストを圧縮する新しい手法Finchを提案する。
プロンプトと長いテキストが与えられた後、フィンチはプロンプトに条件付けられたテキストのチャンク上で最も関連性の高いキー(K)と値(V)のペアを反復的に識別する。
このようなペアのみがKVキャッシュに格納され、コンテキストウィンドウによって制約された空間内には、最終的に長いテキストの圧縮版が含まれている。
本提案では,高圧縮(最大93倍)のモデルでも,微調整を必要とせずにセマンティックな整合性を保ちながら大きな入力を消費することができる。
Recent large language model applications, such as Retrieval-Augmented Generation and chatbots, have led to an increased need to process longer input contexts. However, this requirement is hampered by inherent limitations. Architecturally, models are constrained by a context window defined during training. Additionally, processing extensive texts requires substantial GPU memory. We propose a novel approach, Finch, to compress the input context by leveraging the pre-trained model weights of the self-attention. Given a prompt and a long text, Finch iteratively identifies the most relevant Key (K) and Value (V) pairs over chunks of the text conditioned on the prompt. Only such pairs are stored in the KV cache, which, within the space constrained by the context window, ultimately contains a compressed version of the long text. Our proposal enables models to consume large inputs even with high compression (up to 93x) while preserving semantic integrity without the need for fine-tuning. | 翻訳日:2024-08-04 22:16:07 公開日:2024-07-31 |
# Strike the Balance: 長期ビデオオブジェクトセグメンテーションのためのオンザフライ不確実性に基づくユーザインタラクション
Strike the Balance: On-the-Fly Uncertainty based User Interactions for Long-Term Video Object Segmentation ( http://arxiv.org/abs/2408.00169v1 ) ライセンス: Link先を確認 | Stéphane Vujasinović, Stefan Becker, Sebastian Bullinger, Norbert Scherer-Negenborn, Michael Arens, | (参考訳) 本稿では,対話的かつ半自動的なアプローチを橋渡しするビデオオブジェクトセグメンテーション(VOS)について紹介する。
対照的に、ビデオオブジェクトのセグメント化をオフラインで処理するタスク(例えば、事前記録されたシーケンス)については、ziVOSを通じてオンライン記録シーケンスをターゲットとして提案する。
ここでは,セグメンテーションプロセス中にユーザフィードバックのオンザフライを要請することで,長期シナリオのパフォーマンスと堅牢性のバランスを保とうとしている。
したがって,関心対象の追跡期間を最大化しつつ,追跡期間の延長を最小限に抑えることを目的としている。
本稿では,ziVOSにおける今後の研究の参考として,競争力のあるベースライン,すなわちLazy-XMemを提案する。
提案手法では,ユーザのインタラクションがモデルの予測を洗練するために必要かどうかを判断するために,追跡状態の不確実性推定を用いる。
提案手法とユーザの作業負荷を定量的に評価するために,すでに確立されている指標と相補的な指標を導入する。
我々は,最近導入されたLVOSデータセットを用いて,多数の長期ビデオを提供するアプローチを評価した。
私たちのコードはhttps://github.com/Vujas-Eteph/LazyXMem.comで公開されています。
In this paper, we introduce a variant of video object segmentation (VOS) that bridges interactive and semi-automatic approaches, termed Lazy Video Object Segmentation (ziVOS). In contrast, to both tasks, which handle video object segmentation in an off-line manner (i.e., pre-recorded sequences), we propose through ziVOS to target online recorded sequences. Here, we strive to strike a balance between performance and robustness for long-term scenarios by soliciting user feedback's on-the-fly during the segmentation process. Hence, we aim to maximize the tracking duration of an object of interest, while requiring minimal user corrections to maintain tracking over an extended period. We propose a competitive baseline, i.e., Lazy-XMem, as a reference for future works in ziVOS. Our proposed approach uses an uncertainty estimation of the tracking state to determine whether a user interaction is necessary to refine the model's prediction. To quantitatively assess the performance of our method and the user's workload, we introduce complementary metrics alongside those already established in the field. We evaluate our approach using the recently introduced LVOS dataset, which offers numerous long-term videos. Our code is publicly available at https://github.com/Vujas-Eteph/LazyXMem. | 翻訳日:2024-08-04 22:16:07 公開日:2024-07-31 |
# CREW:人間とAIのコラボレーション研究に成功
CREW: Facilitating Human-AI Teaming Research ( http://arxiv.org/abs/2408.00170v1 ) ライセンス: Link先を確認 | Lingyu Zhang, Zhengran Ji, Boyuan Chen, | (参考訳) 人工知能(AI)技術の展開の増加に伴い、AIエージェントを扱う人間の可能性は大きく成長している。
人間とAIエージェントが一緒に働くとき、さまざまな側面を研究するための重要なパラダイムである。
人間-AIチーム研究のユニークな側面は、人間とAIエージェントを共同で研究することであり、機械学習から人間-コンピュータインタラクション、ロボティクス、認知科学、神経科学、心理学、社会科学、複雑なシステムまで、多分野にわたる研究活動を要求することである。
しかしながら、Human-AIチーム研究のための既存のプラットフォームは限定的であり、多くの場合、過度に単純化されたシナリオと単一のタスクをサポートし、特に人間チーム研究またはマルチエージェントAIアルゴリズムに焦点を当てている。
我々は,人間とAIのコラボレーション研究を促進するプラットフォームであるCREWを導入し,人間の関与を重視した,複数の科学分野のコラボレーションを行う。
これには、認知研究のための事前構築されたタスクや、モジュール設計から拡張可能なポテンシャルを備えたヒューマンAIコラボレーションが含まれます。
従来の認知神経科学の研究に続いて、CREWは行動分析のためのマルチモーダルヒト生理的信号記録もサポートする。
さらにCREWは、最先端のアルゴリズムと十分に調整されたベースラインを使用して、リアルタイムの人間誘導型強化学習エージェントをベンチマークする。
CREWでは、1週間以内に50人の被験者による研究を行い、ベンチマークの有効性を検証することができた。
With the increasing deployment of artificial intelligence (AI) technologies, the potential of humans working with AI agents has been growing at a great speed. Human-AI teaming is an important paradigm for studying various aspects when humans and AI agents work together. The unique aspect of Human-AI teaming research is the need to jointly study humans and AI agents, demanding multidisciplinary research efforts from machine learning to human-computer interaction, robotics, cognitive science, neuroscience, psychology, social science, and complex systems. However, existing platforms for Human-AI teaming research are limited, often supporting oversimplified scenarios and a single task, or specifically focusing on either human-teaming research or multi-agent AI algorithms. We introduce CREW, a platform to facilitate Human-AI teaming research and engage collaborations from multiple scientific disciplines, with a strong emphasis on human involvement. It includes pre-built tasks for cognitive studies and Human-AI teaming with expandable potentials from our modular design. Following conventional cognitive neuroscience research, CREW also supports multimodal human physiological signal recording for behavior analysis. Moreover, CREW benchmarks real-time human-guided reinforcement learning agents using state-of-the-art algorithms and well-tuned baselines. With CREW, we were able to conduct 50 human subject studies within a week to verify the effectiveness of our benchmark. | 翻訳日:2024-08-04 22:16:07 公開日:2024-07-31 |
# 新たなグラスプにスキルを適応する - 自己監督型アプローチ
Adapting Skills to Novel Grasps: A Self-Supervised Approach ( http://arxiv.org/abs/2408.00178v1 ) ライセンス: Link先を確認 | Georgios Papagiannis, Kamil Dreczkowski, Vitalis Vosylius, Edward Johns, | (参考訳) 本稿では,1つのグリップポーズに対して定義されたグリップオブジェクト(egツール)を含む操作軌跡を新しいグリップポーズに適応させる問題について検討する。
この問題に対処するための一般的なアプローチは、可能な各ググルーピングに対して新しい軌跡を定義することであるが、これは非常に非効率である。
そこで本研究では,カメラがロボットのエンドエフェクターの動きを厳密に把握する様子を観察する手法を提案する。
重要なことに,本手法では把握対象の事前知識(3次元CADモデルなど)は必要とせず,RGB画像や深度画像,あるいはその両方を扱うことができ,カメラキャリブレーションも必要としない。
1360の評価を含む実世界の一連の実験を通して、自己教師付きRGBデータは、いくつかの最先端のポーズ推定方法を含む深度画像に依存する選択肢を一貫して上回っていることがわかった。
その結果, 操作軌跡を日常的な作業に適応させる場合, 平均28.5%の成功率が得られることがわかった。
実験のビデオは、Webページhttps://www.robot-learning.uk/adapting-skillsで公開されている。
In this paper, we study the problem of adapting manipulation trajectories involving grasped objects (e.g. tools) defined for a single grasp pose to novel grasp poses. A common approach to address this is to define a new trajectory for each possible grasp explicitly, but this is highly inefficient. Instead, we propose a method to adapt such trajectories directly while only requiring a period of self-supervised data collection, during which a camera observes the robot's end-effector moving with the object rigidly grasped. Importantly, our method requires no prior knowledge of the grasped object (such as a 3D CAD model), it can work with RGB images, depth images, or both, and it requires no camera calibration. Through a series of real-world experiments involving 1360 evaluations, we find that self-supervised RGB data consistently outperforms alternatives that rely on depth images including several state-of-the-art pose estimation methods. Compared to the best-performing baseline, our method results in an average of 28.5% higher success rate when adapting manipulation trajectories to novel grasps on several everyday tasks. Videos of the experiments are available on our webpage at https://www.robot-learning.uk/adapting-skills | 翻訳日:2024-08-04 22:16:07 公開日:2024-07-31 |
# CC-SAM:超音波画像セグメンテーションのためのクロスフィーチャーアテンションとコンテキスト付きSAM
CC-SAM: SAM with Cross-feature Attention and Context for Ultrasound Image Segmentation ( http://arxiv.org/abs/2408.00181v1 ) ライセンス: Link先を確認 | Shreyank N Gowda, David A. Clifton, | (参考訳) SAM(Segment Anything Model)は、自然画像のセグメンテーションの領域で顕著な成功を収めてきたが、医療画像分野への展開は課題に直面している。
特に、このモデルは、低コントラスト、薄暗い境界、複雑な形態、そして小さなサイズの物体を特徴とする医療画像に苦しむ。
これらの課題に対処し,医療領域におけるSAMの性能を高めるために,包括的修正を導入する。
まず、フリーズした畳み込みニューラルネットワーク(CNN)をイメージエンコーダとして組み込み、SAMのオリジナルのビジョントランスフォーマー(ViT)エンコーダを新しい可変注意融合モジュールを介してシナジする。
この統合は、しばしば医療画像において最重要となる局所的な空間情報をキャプチャするモデルの能力を後押しする。
さらに,医療画像のSAMをさらに最適化するために,VTブランチ内の特徴と位置のアダプタを導入し,エンコーダの表現を精査する。
超音波医用セグメンテーションにおいてSAMを微調整する現在のプロンプトと比べ,SAMのテキストプロンプトとして機能するテキスト記述の使用は,パフォーマンスを著しく向上させる。
ChatGPTの自然言語理解機能を活用して、SAMにコンテキスト情報とガイダンスを提供するプロンプトを生成し、超音波医療画像のニュアンスをよりよく理解し、セグメンテーション精度を向上させる。
本手法は, 医用領域において, 画像分割モデルをより適応し, 効率的にするための重要な一歩である。
The Segment Anything Model (SAM) has achieved remarkable successes in the realm of natural image segmentation, but its deployment in the medical imaging sphere has encountered challenges. Specifically, the model struggles with medical images that feature low contrast, faint boundaries, intricate morphologies, and small-sized objects. To address these challenges and enhance SAM's performance in the medical domain, we introduce a comprehensive modification. Firstly, we incorporate a frozen Convolutional Neural Network (CNN) branch as an image encoder, which synergizes with SAM's original Vision Transformer (ViT) encoder through a novel variational attention fusion module. This integration bolsters the model's capability to capture local spatial information, which is often paramount in medical imagery. Moreover, to further optimize SAM for medical imaging, we introduce feature and position adapters within the ViT branch, refining the encoder's representations. We see that compared to current prompting strategies to fine-tune SAM for ultrasound medical segmentation, the use of text descriptions that serve as text prompts for SAM helps significantly improve the performance. Leveraging ChatGPT's natural language understanding capabilities, we generate prompts that offer contextual information and guidance to SAM, enabling it to better understand the nuances of ultrasound medical images and improve its segmentation accuracy. Our method, in its entirety, represents a significant stride towards making universal image segmentation models more adaptable and efficient in the medical domain. | 翻訳日:2024-08-04 22:16:07 公開日:2024-07-31 |
# 室温におけるグラフェン中の電流渦の観測
Observation of current whirlpools in graphene at room temperature ( http://arxiv.org/abs/2408.00182v1 ) ライセンス: Link先を確認 | Marius L. Palm, Chaoxin Ding, William S. Huxter, Takashi Taniguchi, Kenji Watanabe, Christian L. Degen, | (参考訳) 高移動度導体における電子-電子相互作用は、古典的な流体力学で説明されるような輸送シグネチャを生じさせる。
ナノスケールの走査型磁力計を用いて室温で単層グラフェンデバイスに特徴的な流体力学的輸送パターン(定常流渦)を撮像した。
特性値が大きくなるデバイスを計測することにより,電流渦の消失を観測し,流体力学モデルの予測を検証した。
さらに, ボーテックスフローは, 孔状および電子的に支配される輸送系の両方に存在し, 両極性では消失することがわかった。
この効果は電荷中性近傍の渦拡散長の減少に起因する。
本研究は,エキゾチックなメソスコピック輸送現象を明らかにするための局所イメージング技術の力を示す。
Electron-electron interactions in high-mobility conductors can give rise to transport signatures resembling those described by classical hydrodynamics. Using a nanoscale scanning magnetometer, we imaged a distinctive hydrodynamic transport pattern - stationary current vortices - in a monolayer graphene device at room temperature. By measuring devices with increasing characteristic size, we observed the disappearance of the current vortex and thus verify a prediction of the hydrodynamic model. We further observed that vortex flow is present for both hole- and electron-dominated transport regimes, while disappearing in the ambipolar regime. We attribute this effect to a reduction of the vorticity diffusion length near charge neutrality. Our work showcases the power of local imaging techniques for unveiling exotic mesoscopic transport phenomena. | 翻訳日:2024-08-04 22:16:07 公開日:2024-07-31 |
# S-SYNTH:知識に基づく皮膚画像の合成生成
S-SYNTH: Knowledge-Based, Synthetic Generation of Skin Images ( http://arxiv.org/abs/2408.00191v1 ) ライセンス: Link先を確認 | Andrea Kim, Niloufar Saharkhiz, Elena Sizikova, Miguel Lago, Berkman Sahiner, Jana Delfino, Aldo Badano, | (参考訳) 医用画像における人工知能(AI)技術の開発には、訓練と評価のための大規模で多様なデータセットへのアクセスが必要である。
皮膚科では, 患者数, 照明条件, 取得システム特性が著しく異なるため, このようなデータセットの取得は依然として困難である。
本研究では,S-SYNTHを提案する。S-SYNTHは,合成皮膚,3Dモデル,デジタルレンダリング画像を高速に生成する,知識ベースで適応可能な初のオープンソーススキンシミュレーションフレームワークである。
皮膚モデルでは、皮膚の色、毛髪の存在、病変の形状、血液分画など、皮膚の外観の変化を制御できる。
この枠組みは, 皮膚病変のセグメンテーションのためのAIモデルの開発と評価に, 可能なバリエーションが与える影響について検討し, 合成データを用いて得られた結果は, 実際の皮膚画像と類似した傾向を辿りながら, データセットサイズ, 多様性の欠如, 表現不足など, 既存のデータセットからのバイアスや制限を軽減していることを示す。
Development of artificial intelligence (AI) techniques in medical imaging requires access to large-scale and diverse datasets for training and evaluation. In dermatology, obtaining such datasets remains challenging due to significant variations in patient populations, illumination conditions, and acquisition system characteristics. In this work, we propose S-SYNTH, the first knowledge-based, adaptable open-source skin simulation framework to rapidly generate synthetic skin, 3D models and digitally rendered images, using an anatomically inspired multi-layer, multi-component skin and growing lesion model. The skin model allows for controlled variation in skin appearance, such as skin color, presence of hair, lesion shape, and blood fraction among other parameters. We use this framework to study the effect of possible variations on the development and evaluation of AI models for skin lesion segmentation, and show that results obtained using synthetic data follow similar comparative trends as real dermatologic images, while mitigating biases and limitations from existing datasets including small dataset size, lack of diversity, and underrepresentation. | 翻訳日:2024-08-04 22:16:07 公開日:2024-07-31 |
# 意図的・意図的摂動に対するディープニューラルネットワークのレジリエンスとセキュリティ:調査と研究課題
Resilience and Security of Deep Neural Networks Against Intentional and Unintentional Perturbations: Survey and Research Challenges ( http://arxiv.org/abs/2408.00193v1 ) ライセンス: Link先を確認 | Sazzad Sayyed, Milin Zhang, Shahriar Rifat, Ananthram Swami, Michael De Lucia, Francesco Restuccia, | (参考訳) ディープニューラルネットワーク(DNN)を高リスクシナリオに展開するためには、DNNが外部の摂動(意図的かつ意図的)に頑健な推論を提供することが不可欠である。DNNの意図的かつ意図的(意図的)な摂動に対するレジリエンスは広く研究されているが、これらの本質的に相互に絡み合う問題領域の統一的なビジョンはいまだに欠如している。この研究では、提案されたアプローチの類似性を明らかにすることによって、このギャップを埋める。また、レジリエントでセキュアなDNNの展開に対処するために必要な研究課題も分析する。DNNのレジリエンスを意図的かつ意図的(意図的)な摂動に結び付けるための調査は行われていないが、この2つのドメインの両ドメイン間の交換において、このギャップを前進させることができると信じている。
In order to deploy deep neural networks (DNNs) in high-stakes scenarios, it is imperative that DNNs provide inference robust to external perturbations - both intentional and unintentional.Although the resilience of DNNs to intentional and unintentional perturbations has been widely investigated, a unified vision of these inherently intertwined problem domains is still missing.In this work, we fill this gap by providing a survey of the state of the art and highlighting the similarities of the proposed approaches.We also analyze the research challenges that need to be addressed to deploy resilient and secure DNNs.As there has not been any such survey connecting the resilience of DNNs to intentional and unintentional perturbations, we believe this work can help advance the frontier in both domains by enabling the exchange of ideas between the two communities. | 翻訳日:2024-08-04 22:04:56 公開日:2024-07-31 |
# 超微粒子イオン化しきい値を持つ二価原子におけるRydberg-pair相互作用
Engineering Rydberg-pair interactions in divalent atoms with hyperfine-split ionization thresholds ( http://arxiv.org/abs/2408.00195v1 ) ライセンス: Link先を確認 | Frederic Hummel, Sebastian Weber, Johannes Moegerle, Henri Menke, Jonathan King, Benjamin Bloom, Sebastian Hofferberth, Ming Li, | (参考訳) 中性原子による量子情報処理は、エンタングルメント生成にRydberg励起に依存する。
ストロンチウムやイッテルビウムのような重い二価または開殻元素の使用は、光学活性コアと様々な量子ビット符号化の利点があるが、Rydbergの構造は概して複雑である。
特にいくつかの同位体では、高励起電子状態においても超微細な相互作用が関係している。
我々はマルチチャネル量子欠陥理論を用いて、非ゼロ核スピンを持つ同位体のリドベルク構造を推定し、非摂動的リドベルク対ペア相互作用計算を行う。
外部場に対する高レベル密度と感度のため、実験パラメータを正確に制御する必要がある。
具体的には、${}^{87}$Srにおいて、外界変動に対する線安定性と長距離相互作用の強化を同時に提供する2価原子に特有の本質的なF\"オースター共鳴を研究する。
さらに、単一チャネルのRydberg級数で効果的に記述できるペア状態のパラメータも提供する。
探索されたペア状態は、封鎖体制における応用や、主に平坦で距離に依存しないポテンシャルのようなよりエキゾチックな長距離相互作用にエキサイティングな機会を与える。
Quantum information processing with neutral atoms relies on Rydberg excitation for entanglement generation. While the use of heavy divalent or open-shell elements, such as strontium or ytterbium, has benefits due to their optically active core and a variety of possible qubit encodings, their Rydberg structure is generally complex. For some isotopes in particular, hyperfine interactions are relevant even for highly excited electronic states. We employ multi-channel quantum defect theory to infer the Rydberg structure of isotopes with non-zero nuclear spin and perform non-perturbative Rydberg-pair interaction calculations. We find that due to the high level density and sensitivities to external fields, experimental parameters must be precisely controlled. Specifically in ${}^{87}$Sr, we study an intrinsic F\"orster resonance, unique to divalent atoms with hyperfine-split thresholds, which simultaneously provides line stability with respect to external field fluctuations and enhanced long-range interactions. Additionally, we provide parameters for pair states that can be effectively described by single-channel Rydberg series. The explored pair states provide exciting opportunities for applications in the blockade regime as well as for more exotic long-range interactions such as largely flat, distance-independent potentials. | 翻訳日:2024-08-04 22:04:56 公開日:2024-07-31 |
# 潜時拡散を用いた音声制御とスタイル伝達の併用
Combining audio control and style transfer using latent diffusion ( http://arxiv.org/abs/2408.00196v1 ) ライセンス: Link先を確認 | Nils Demerlé, Philippe Esling, Guillaume Doras, David Genova, | (参考訳) 深層生成モデルは高品質な音声信号を合成することができ、音質から制御能力に重要な側面を移すことができる。
テキスト・ツー・ミュージック・ジェネレーションは一般大衆に広く採用されているが、アーティストやミュージシャンの意図を捉えるのに、明示的な制御とサンプルベースのスタイル・トランスファーの方が適している。
本稿では,局所的な情報とグローバルな情報を分離し,音楽構造と音色をそれぞれ捉えることで,単一モデル内での明示的な制御とスタイル伝達を統一することを目的とする。
そこで我々は,2つの表現空間を構築するために,拡散オートエンコーダの機能を活用して意味的特徴を抽出する。
対向的基準と2段階の訓練戦略を用いて,これらの空間間の絡み合いを強制する。
得られたモデルは、明示的な制御と他のオーディオ例を通して構造を指定しながら、音色にマッチした音声を生成することができる。
楽器録音におけるワンショット音色伝達とMIDI-to-audioタスクによるモデルの評価を行い,音質や目標忠実度の観点から,既存のベースラインよりも優れていたことを示す。
さらに,本手法では,リズミカルとメロディックのコンテンツを異なるジャンルのターゲットオーディオのスタイルに転送することで,完全な楽曲のカバーバージョンを生成することができることを示す。
Deep generative models are now able to synthesize high-quality audio signals, shifting the critical aspect in their development from audio quality to control capabilities. Although text-to-music generation is getting largely adopted by the general public, explicit control and example-based style transfer are more adequate modalities to capture the intents of artists and musicians. In this paper, we aim to unify explicit control and style transfer within a single model by separating local and global information to capture musical structure and timbre respectively. To do so, we leverage the capabilities of diffusion autoencoders to extract semantic features, in order to build two representation spaces. We enforce disentanglement between those spaces using an adversarial criterion and a two-stage training strategy. Our resulting model can generate audio matching a timbre target, while specifying structure either with explicit controls or through another audio example. We evaluate our model on one-shot timbre transfer and MIDI-to-audio tasks on instrumental recordings and show that we outperform existing baselines in terms of audio quality and target fidelity. Furthermore, we show that our method can generate cover versions of complete musical pieces by transferring rhythmic and melodic content to the style of a target audio in a different genre. | 翻訳日:2024-08-04 22:04:56 公開日:2024-07-31 |
# 生成事前学習型変圧器モデルを用いた自動ソフトウェア脆弱性静的コード解析
Automated Software Vulnerability Static Code Analysis Using Generative Pre-Trained Transformer Models ( http://arxiv.org/abs/2408.00197v1 ) ライセンス: Link先を確認 | Elijah Pelofske, Vincent Urias, Lorie M. Liebrock, | (参考訳) Generative Pre-Trained Transformerモデルは、コンピュータコードの生成を含む、さまざまな自然言語処理タスクにおいて驚くほど効果的であることが示されている。
脆弱なコード構文(特にCとC++のソースコードを対象とする)の存在を自動的に識別するタスクにおいて,オープンソースのGPTモデルの有効性を評価する。
このタスクは、NIST SARDデータセットから36のソースコードサンプルを選択して評価される。
NIST SARDソースコードデータセットには、GPT出力分類エラー率の正確な定量化を可能にする、839の異なる共通弱度列挙(CWE)のうちの1つの一例である、脆弱性のあるソースコードの行が含まれている。
合計5つのGPTモデルが評価され、10の異なる推論温度と100の繰り返しを使用して、脆弱性のあるソースコード毎に5,000のGPTクエリが分析される。
最終的に、評価したGPTモデルは、偽陽性と偽陰性率が高すぎるため、完全に自動化された脆弱性スキャンには適さないことが判明した。
しかし、GPTモデルは、いくつかのテストケース、特にランダムサンプリングを超越した自動脆弱性検出において驚くほどよく機能し、低い成功率で脆弱なコード行を識別できることが判明した。
NIST SARDテストケース149165(バッファオーバーフロー脆弱性の例)に0.1の推論温度を持つLlama-2-70b-chat-hfは、バイナリ分類のリコールスコア1.0と、脆弱性のあるコード行と正しいCWE番号を正確かつ一意に識別するための1.0の精度を持つ。
Generative Pre-Trained Transformer models have been shown to be surprisingly effective at a variety of natural language processing tasks -- including generating computer code. We evaluate the effectiveness of open source GPT models for the task of automatic identification of the presence of vulnerable code syntax (specifically targeting C and C++ source code). This task is evaluated on a selection of 36 source code examples from the NIST SARD dataset, which are specifically curated to not contain natural English that indicates the presence, or lack thereof, of a particular vulnerability. The NIST SARD source code dataset contains identified vulnerable lines of source code that are examples of one out of the 839 distinct Common Weakness Enumerations (CWE), allowing for exact quantification of the GPT output classification error rate. A total of 5 GPT models are evaluated, using 10 different inference temperatures and 100 repetitions at each setting, resulting in 5,000 GPT queries per vulnerable source code analyzed. Ultimately, we find that the GPT models that we evaluated are not suitable for fully automated vulnerability scanning because the false positive and false negative rates are too high to likely be useful in practice. However, we do find that the GPT models perform surprisingly well at automated vulnerability detection for some of the test cases, in particular surpassing random sampling, and being able to identify the exact lines of code that are vulnerable albeit at a low success rate. The best performing GPT model result found was Llama-2-70b-chat-hf with inference temperature of 0.1 applied to NIST SARD test case 149165 (which is an example of a buffer overflow vulnerability), which had a binary classification recall score of 1.0 and a precision of 1.0 for correctly and uniquely identifying the vulnerable line of code and the correct CWE number. | 翻訳日:2024-08-04 22:04:56 公開日:2024-07-31 |
# UnPaSt:オミクスデータにおける差分表現二クラスターによる教師なし患者の層序化
UnPaSt: unsupervised patient stratification by differentially expressed biclusters in omics data ( http://arxiv.org/abs/2408.00200v1 ) ライセンス: Link先を確認 | Michael Hartung, Andreas Maier, Fernando Delgado-Chaves, Yuliya Burankova, Olga I. Isaeva, Fábio Malta de Sá Patroni, Daniel He, Casey Shannon, Katharina Kaufmann, Jens Lohmann, Alexey Savchik, Anne Hartebrodt, Zoe Chervontseva, Farzaneh Firoozbakht, Niklas Probul, Evgenia Zotova, Olga Tsoy, David B. Blumenthal, Martin Ester, Tanja Laske, Jan Baumbach, Olga Zolotareva, | (参考訳) 喘息のような癌や非悪性疾患を含むほとんどの複雑な疾患は、異なる臨床的アプローチを必要とする異なる分子サブタイプを持つ。
しかし、既存の計算患者階層化手法は、がんオミクスデータにのみベンチマークされ、互いに排他的なサブタイプが多くのバイオマーカーによって特徴づけられる場合にのみ、うまく機能する。
そこで本研究では,シミュレーションデータと実際の転写産物データの両方を用いて,22の教師なし患者階層化手法のパワーを定量的に検討する,大規模な評価の試みを行った。
この経験から,UnPaSt (https://apps.cosy.bio/unpast/) は,少数のサブタイプ予測バイオマーカーでのみ機能し,教師なし患者の階層化を最適化する。
実際の乳癌および喘息検診データに対する23の方法について検討した。
多くの方法が乳がんの亜型を確実に検出したが、Th2高喘息とUnPaStは両テストデータセットにおいて最も近い競合相手よりも有意に優れていた。
以上の結果から,UnPaStは生化学的に洞察に富んだ,再現可能な多くのパターンを検出できることが示唆された。
Most complex diseases, including cancer and non-malignant diseases like asthma, have distinct molecular subtypes that require distinct clinical approaches. However, existing computational patient stratification methods have been benchmarked almost exclusively on cancer omics data and only perform well when mutually exclusive subtypes can be characterized by many biomarkers. Here, we contribute with a massive evaluation attempt, quantitatively exploring the power of 22 unsupervised patient stratification methods using both, simulated and real transcriptome data. From this experience, we developed UnPaSt (https://apps.cosy.bio/unpast/) optimizing unsupervised patient stratification, working even with only a limited number of subtype-predictive biomarkers. We evaluated all 23 methods on real-world breast cancer and asthma transcriptomics data. Although many methods reliably detected major breast cancer subtypes, only few identified Th2-high asthma, and UnPaSt significantly outperformed its closest competitors in both test datasets. Essentially, we showed that UnPaSt can detect many biologically insightful and reproducible patterns in omic datasets. | 翻訳日:2024-08-04 22:04:56 公開日:2024-07-31 |
# オブジェクト検出器のマルチソース領域適応のためのアテンションに基づくクラス定義アライメント
Attention-based Class-Conditioned Alignment for Multi-Source Domain Adaptation of Object Detectors ( http://arxiv.org/abs/2403.09918v3 ) ライセンス: Link先を確認 | Atif Belal, Akhil Meethal, Francisco Perdigon Romero, Marco Pedersoli, Eric Granger, | (参考訳) オブジェクト検出(OD)のドメイン適応手法は、ソースドメインとターゲットドメイン間の特徴調整を促進することによって、分散シフトの影響を軽減する。
マルチソースドメイン適応(MSDA)は、複数のアノテーション付きソースデータセットとラベルなしターゲットデータを活用することで、検出モデルの正確性と堅牢性を向上させる。
ODのための最先端MSDA手法の多くは、クラスに依存しない方法で特徴アライメントを実行する。
オブジェクトはドメイン間のオブジェクトの外観の変化のため、ユニークなモーダル情報を持っているため、これは難しい。
最近のプロトタイプベースのアプローチでは、クラスワイドアライメントが提案されているが、ノイズの多い擬似ラベルが不均衡なデータへの適応に悪影響を及ぼすため、エラーの蓄積に悩まされている。
これらの制約を克服するために、各オブジェクトカテゴリのインスタンスをドメイン間でアライメントするMSDAのアライメント手法を提案する。
特に、敵対的ドメイン分類器と結合されたアテンションモジュールは、ドメイン不変およびクラス固有のインスタンス表現を学習することができる。
複数のベンチマークMSDAデータセットに対する実験結果から,本手法は最先端の手法よりも優れ,概念的に単純なクラス条件付き手法によるクラス不均衡に頑健であることが示唆された。
私たちのコードはhttps://github.com/imatif17/ACIA.comで公開されています。
Domain adaptation methods for object detection (OD) strive to mitigate the impact of distribution shifts by promoting feature alignment across source and target domains. Multi-source domain adaptation (MSDA) allows leveraging multiple annotated source datasets and unlabeled target data to improve the accuracy and robustness of the detection model. Most state-of-the-art MSDA methods for OD perform feature alignment in a class-agnostic manner. This is challenging since the objects have unique modal information due to variations in object appearance across domains. A recent prototype-based approach proposed a class-wise alignment, yet it suffers from error accumulation due to noisy pseudo-labels that can negatively affect adaptation with imbalanced data. To overcome these limitations, we propose an attention-based class-conditioned alignment method for MSDA that aligns instances of each object category across domains. In particular, an attention module coupled with an adversarial domain classifier allows learning domain-invariant and class-specific instance representations. Experimental results on multiple benchmarking MSDA datasets indicate that our method outperforms the state-of-the-art methods and is robust to class imbalance using a conceptually simple class-conditioning method. Our code is available at https://github.com/imatif17/ACIA. | 翻訳日:2024-08-02 18:59:12 公開日:2024-07-31 |
# 階層的視点:信頼性の高い3次元セマンティックセグメンテーションのための構造的類似点の爆発的発見
Hierarchical Insights: Exploiting Structural Similarities for Reliable 3D Semantic Segmentation ( http://arxiv.org/abs/2404.06124v3 ) ライセンス: Link先を確認 | Mariella Dreissig, Simon Ruehle, Florian Piewak, Joschka Boedecker, | (参考訳) 自律運転のような安全クリティカルなアプリケーションは、多様であいまいな環境を扱うことのできる堅牢な3D環境認識アルゴリズムを必要とする。
分類モデルの予測性能は、アノテートラベルによって提供されるデータセットと事前知識の影響を強く受けている。
ラベルは学習過程を導くが、人間によって自然に理解されるクラス間の固有の関係を捉えるのに失敗することが多い。
本稿では,抽象を通してクラス間の構造的関係を学習する3次元LiDARセマンティックセマンティックセマンティクスモデルのトレーニング戦略を提案する。
これは、階層的マルチラベル分類(HMC)の学習規則を用いて、これらの関係を暗黙的にモデル化することで達成される。
詳細な分析により、このトレーニング戦略はモデルの信頼性校正を改善するだけでなく、融合、予測、計画といった下流タスクに有用な追加情報を保持することが示される。
Safety-critical applications such as autonomous driving require robust 3D environment perception algorithms capable of handling diverse and ambiguous surroundings. The predictive performance of classification models is heavily influenced by the dataset and the prior knowledge provided by the annotated labels. While labels guide the learning process, they often fail to capture the inherent relationships between classes that are naturally understood by humans. We propose a training strategy for a 3D LiDAR semantic segmentation model that learns structural relationships between classes through abstraction. This is achieved by implicitly modeling these relationships using a learning rule for hierarchical multi-label classification (HMC). Our detailed analysis demonstrates that this training strategy not only improves the model's confidence calibration but also retains additional information useful for downstream tasks such as fusion, prediction, and planning. | 翻訳日:2024-08-02 18:59:12 公開日:2024-07-31 |
# Debiased Distribution Compression
Debiased Distribution Compression ( http://arxiv.org/abs/2404.12290v3 ) ライセンス: Link先を確認 | Lingxiao Li, Raaz Dwivedi, Lester Mackey, | (参考訳) 現代の圧縮法では、ターゲット分布 $\mathbb{P}$ をサンプリングよりも簡潔に要約することができるが、マルコフ連鎖のような低バイアスの入力シーケンスへのアクセスは、$\mathbb{P}$ に素早く収束する。
本稿では, バイアス入力シーケンスによる圧縮に適した新しい圧縮手法を提案する。
間違った分布と二次時間をターゲットにした$n$ポイントが与えられたとき、スタインカーネルのシンニング(SKT)は$\sqrt{n}$等重点を$\widetilde{O}(n^{-1/2})$最大平均離散(MMD)から$\mathbb{P}$を返却する。
大規模圧縮タスクでは、低ランクSKTは、独立した関心を持つ可能性のある適応型低ランクデバイアス処理を用いて、サブクアクラティック時間で同じ偉業を達成する。
SKT の保証を $\text{poly-log}(n)$ 加重点に合わせることで、Stein recombination と Stein Cholesky はさらに多くのパーシモニーを実現している。
これらの進歩の下には、単純重み付きコアセットの品質、カーネル行列のスペクトル減衰、およびスタイン核ヒルベルト空間の被覆数に対する新しい保証がある。
実験では, 燃焼イン, 近似マルコフ連鎖モンテカルロ, テンパリングによるバイアスを克服しつつ, 簡潔かつ正確な後続サマリーを提供する。
Modern compression methods can summarize a target distribution $\mathbb{P}$ more succinctly than i.i.d. sampling but require access to a low-bias input sequence like a Markov chain converging quickly to $\mathbb{P}$. We introduce a new suite of compression methods suitable for compression with biased input sequences. Given $n$ points targeting the wrong distribution and quadratic time, Stein kernel thinning (SKT) returns $\sqrt{n}$ equal-weighted points with $\widetilde{O}(n^{-1/2})$ maximum mean discrepancy (MMD) to $\mathbb{P}$. For larger-scale compression tasks, low-rank SKT achieves the same feat in sub-quadratic time using an adaptive low-rank debiasing procedure that may be of independent interest. For downstream tasks that support simplex or constant-preserving weights, Stein recombination and Stein Cholesky achieve even greater parsimony, matching the guarantees of SKT with as few as $\text{poly-log}(n)$ weighted points. Underlying these advances are new guarantees for the quality of simplex-weighted coresets, the spectral decay of kernel matrices, and the covering numbers of Stein kernel Hilbert spaces. In our experiments, our techniques provide succinct and accurate posterior summaries while overcoming biases due to burn-in, approximate Markov chain Monte Carlo, and tempering. | 翻訳日:2024-08-02 18:59:12 公開日:2024-07-31 |
# サイズとクラスバランスを超えて - ディープラーニングのための新しいデータセット品質指標としてのAlpha
Beyond Size and Class Balance: Alpha as a New Dataset Quality Metric for Deep Learning ( http://arxiv.org/abs/2407.15724v2 ) ライセンス: Link先を確認 | Josiah Couch, Rima Arnaout, Ramy Arnaout, | (参考訳) ディープラーニングでは、画像分類タスクで高いパフォーマンスを達成するには、多様なトレーニングセットが必要である。
しかし、現在のベストプラクティスである$\unicode{x2013}$maximizing dataset size and class balance$\unicode{x2013}$does not guarantee dataset diversity。
我々は、与えられたモデルアーキテクチャーに対して、より直接的に多様性を最大化することでモデル性能を改善することができると仮定した。
この仮説を検証するために、画像間の類似性を考慮し、シャノンエントロピーのようなよく知られた量を一般化する生態学からの多様性測定の包括的枠組みを導入する。
(特例として規模・階級バランスが出現する。)
7つの医学データセットから数千のサブセットを分析したところ、パフォーマンスの最良の相関はサイズやクラスバランスではなく、$A$$\unicode{x2013}$"big alpha"$\unicode{x2013}$a 一般化エントロピーのセットは、画像類似性を考慮して、データセット内のイメージクラスのペアの有効数として解釈された。
これらのうちの1つ、$A_0$は、バランスの取れた精度のばらつきの67%、クラスバランスの54%、サイズがわずか39%である。
最良の尺度はサイズプラスA_1$(79%)であり、サイズプラスクラスバランス(74%)を上回った。
最大の$A_0$のサブセットは、最大サイズのサブセットよりも16%向上した(中間改善、8%)。
本稿では,医療画像の深層学習性能向上のための手段として,$A$の最大化を提案する。
In deep learning, achieving high performance on image classification tasks requires diverse training sets. However, the current best practice$\unicode{x2013}$maximizing dataset size and class balance$\unicode{x2013}$does not guarantee dataset diversity. We hypothesized that, for a given model architecture, model performance can be improved by maximizing diversity more directly. To test this hypothesis, we introduce a comprehensive framework of diversity measures from ecology that generalizes familiar quantities like Shannon entropy by accounting for similarities among images. (Size and class balance emerge as special cases.) Analyzing thousands of subsets from seven medical datasets showed that the best correlates of performance were not size or class balance but $A$$\unicode{x2013}$"big alpha"$\unicode{x2013}$a set of generalized entropy measures interpreted as the effective number of image-class pairs in the dataset, after accounting for image similarities. One of these, $A_0$, explained 67% of the variance in balanced accuracy, vs. 54% for class balance and just 39% for size. The best pair of measures was size-plus-$A_1$ (79%), which outperformed size-plus-class-balance (74%). Subsets with the largest $A_0$ performed up to 16% better than those with the largest size (median improvement, 8%). We propose maximizing $A$ as a way to improve deep learning performance in medical imaging. | 翻訳日:2024-08-02 18:59:12 公開日:2024-07-31 |
# 非パラメトリックIVモデルにおける適応的・最適仮説テスト
Adaptive, Rate-Optimal Hypothesis Testing in Nonparametric IV Models ( http://arxiv.org/abs/2006.09587v5 ) ライセンス: Link先を確認 | Christoph Breunig, Xiaohong Chen, | (参考訳) 非パラメトリック機器変数(NPIV)モデルにおける構造関数に対する不等式(例えば、単調性、凸性)と等式(例えば、パラメトリック、半パラメトリック)の新たな適応仮説テストを提案する。
実験統計は,制限された2段最小2乗推定器間の2次距離の2次距離を改良した1次サンプルアナログをベースとした。
そこで我々は,Sieve のチューニングパラメータとBonferroni 調整したchi-squared 臨界値の,計算学的に単純でデータ駆動的な選択法を提案する。
本試験は,楽器の内在性と未知強度の存在下での代替関数の未知の滑らかさに適応する。
L^2$のアダプティブなミニマックステストを達成する。
すなわち、合成ヌル上のI型誤差の上限と、非パラメトリックな代替モデルに対するII型誤差の上限の和は、未知の正則性のNPIVモデルの他のテストでは最小化できない。
L^2$の信頼集合は、適応テストの反転によって得られる。
シミュレーションにより、楽器とサンプルサイズの異なる強度において、我々の適応テスト制御サイズとその有限サンプルパワーは、NPIVモデルにおけるモノトニック性およびパラメトリック制限に対する既存の非適応テストよりもはるかに大きいことが確認された。
異なる製品需要とエンゲル曲線の形状制限を試験するための実証的応用について述べる。
We propose a new adaptive hypothesis test for inequality (e.g., monotonicity, convexity) and equality (e.g., parametric, semiparametric) restrictions on a structural function in a nonparametric instrumental variables (NPIV) model. Our test statistic is based on a modified leave-one-out sample analog of a quadratic distance between the restricted and unrestricted sieve two-stage least squares estimators. We provide computationally simple, data-driven choices of sieve tuning parameters and Bonferroni adjusted chi-squared critical values. Our test adapts to the unknown smoothness of alternative functions in the presence of unknown degree of endogeneity and unknown strength of the instruments. It attains the adaptive minimax rate of testing in $L^2$. That is, the sum of the supremum of type I error over the composite null and the supremum of type II error over nonparametric alternative models cannot be minimized by any other tests for NPIV models of unknown regularities. Confidence sets in $L^2$ are obtained by inverting the adaptive test. Simulations confirm that, across different strength of instruments and sample sizes, our adaptive test controls size and its finite-sample power greatly exceeds existing non-adaptive tests for monotonicity and parametric restrictions in NPIV models. Empirical applications to test for shape restrictions of differentiated products demand and of Engel curves are presented. | 翻訳日:2024-08-02 15:13:26 公開日:2024-07-31 |
# 強化学習におけるオフ政治価値推定のための一般化されたベルマン誤差
A Generalized Projected Bellman Error for Off-policy Value Estimation in Reinforcement Learning ( http://arxiv.org/abs/2104.13844v3 ) ライセンス: Link先を確認 | Andrew Patterson, Adam White, Martha White, | (参考訳) 多くの強化学習アルゴリズムは値推定に頼っているが、最も広く使われているアルゴリズム、すなわち時間差アルゴリズムは、オフポリシーサンプリングと非線形関数近似の両方の下で分岐することができる。
線形平均2乗射影ベルマン誤差(MSPBE)に基づくオフ政治値推定のための多くのアルゴリズムが開発されており、線形関数近似の下では音が聞こえる。
これらの手法を非線形ケースに拡張することは、ほとんど成功しなかった。
近年,非線形近似を容易にする平均二乗ベルマン誤差 (MSBE) を近似する手法がいくつか導入されている。
本研究では,これらの知見に基づいて,線形 MSPBE を非線形設定に拡張する新たな一般化 MSPBE を導入する。
一般化された目的が過去の作業をどのように統合し、一般化された目的の解の値誤差の新しい境界を得るかを示す。
我々は、一般化された目的を最小化するための、使い易いが、音、アルゴリズムを導き、ランをまたいだ安定性が向上し、ハイパーパラメータに敏感でなく、ニューラルネットワーク機能を近似した4つの制御領域で好適に機能することを示す。
Many reinforcement learning algorithms rely on value estimation, however, the most widely used algorithms -- namely temporal difference algorithms -- can diverge under both off-policy sampling and nonlinear function approximation. Many algorithms have been developed for off-policy value estimation based on the linear mean squared projected Bellman error (MSPBE) and are sound under linear function approximation. Extending these methods to the nonlinear case has been largely unsuccessful. Recently, several methods have been introduced that approximate a different objective -- the mean-squared Bellman error (MSBE) -- which naturally facilitate nonlinear approximation. In this work, we build on these insights and introduce a new generalized MSPBE that extends the linear MSPBE to the nonlinear setting. We show how this generalized objective unifies previous work and obtain new bounds for the value error of the solutions of the generalized objective. We derive an easy-to-use, but sound, algorithm to minimize the generalized objective, and show that it is more stable across runs, is less sensitive to hyperparameters, and performs favorably across four control domains with neural network function approximation. | 翻訳日:2024-08-02 15:13:26 公開日:2024-07-31 |
# ニューラルネットワークの一般化: 広範なサーベイ
Generalization in Neural Networks: A Broad Survey ( http://arxiv.org/abs/2209.01610v3 ) ライセンス: Link先を確認 | Chris Rohlfs, | (参考訳) 本稿では,(1)サンプル,(2)分布,(3)ドメイン,(4)タスク,(5)モダリティ,(6)スコープの一般化を含む,ニューラルネットワークモデルのさまざまな抽象化レベルに関する概念,モデリングアプローチ,最近の知見についてレビューする。
1) トレーニングからテストデータへのサンプル一般化について考察し、少なくともImageNetデータセットでは、一般的な分類モデルにかなりのオーバーフィッティングがあることが示唆された。
統計学の実証的な例と視点は、(2)分布の一般化が因果関係や反事実シナリオの考慮からどのように恩恵を受けるかを示している。
(3)ドメイン一般化のための移行学習アプローチと結果が要約され、利用可能なドメイン一般化ベンチマークデータセットが豊富である。
(4)タスク一般化における最近のブレークスルーは, メタラーニングアプローチや, 言語処理に使用されるトランスフォーマーベース基盤モデルの出現などである。
画像とテキストデータを統合し、嗅覚、視覚、聴覚のモダリティに生物学的にインスパイアされたネットワークを適用することを含む、(5)モダリティの一般化を行う研究についてレビューする。
ネットワークにおける記号的知識を表現するグラフベースのアプローチや,ネットワークの説明可能性向上のための帰属戦略など,高レベル(6)スコープの一般化結果を調査した。
さらに、神経科学の概念は、脳のモジュラー構造と、ドーパミン駆動の条件付けが抽象的思考に繋がるステップについて論じられている。
This paper reviews concepts, modeling approaches, and recent findings along a spectrum of different levels of abstraction of neural network models including generalization across (1) Samples, (2) Distributions, (3) Domains, (4) Tasks, (5) Modalities, and (6) Scopes. Strategies for (1) sample generalization from training to test data are discussed, with suggestive evidence presented that, at least for the ImageNet dataset, popular classification models show substantial overfitting. An empirical example and perspectives from statistics highlight how models' (2) distribution generalization can benefit from consideration of causal relationships and counterfactual scenarios. Transfer learning approaches and results for (3) domain generalization are summarized, as is the wealth of domain generalization benchmark datasets available. Recent breakthroughs surveyed in (4) task generalization include few-shot meta-learning approaches and the emergence of transformer-based foundation models such as those used for language processing. Studies performing (5) modality generalization are reviewed, including those that integrate image and text data and that apply a biologically-inspired network across olfactory, visual, and auditory modalities. Higher-level (6) scope generalization results are surveyed, including graph-based approaches to represent symbolic knowledge in networks and attribution strategies for improving networks' explainability. Additionally, concepts from neuroscience are discussed on the modular architecture of brains and the steps by which dopamine-driven conditioning leads to abstract thinking. | 翻訳日:2024-08-02 15:13:26 公開日:2024-07-31 |
# 隠れたポゾン: マシン・アンラーニングでカモフラージュされたポゾン攻撃が可能に
Hidden Poison: Machine Unlearning Enables Camouflaged Poisoning Attacks ( http://arxiv.org/abs/2212.10717v2 ) ライセンス: Link先を確認 | Jimmy Z. Di, Jack Douglas, Jayadev Acharya, Gautam Kamath, Ayush Sekhari, | (参考訳) モデル再学習が誘発される場合,機械学習や他の設定の文脈で発生する新たな攻撃ベクトルである,カモフラージュしたデータ中毒攻撃を導入する。
相手はまず、モデルの予測への影響を最小限に抑えるために、トレーニングデータセットに慎重に作成されたポイントをいくつか追加する。
敵はその後、導入されたポイントのサブセットを削除するよう要求するが、その時点で攻撃は解かれ、モデルの予測は負の影響を受ける。
特に、CIFAR-10、Imagenette、Imagewoofなどのデータセット上で、クリーンラベルのターゲットアタック(モデルに特定のテストポイントを誤分類させることが目的)について検討する。
この攻撃は、有毒なデータセットの効果を隠蔽するカモフラージュデータポイントを構築することで実現される。
We introduce camouflaged data poisoning attacks, a new attack vector that arises in the context of machine unlearning and other settings when model retraining may be induced. An adversary first adds a few carefully crafted points to the training dataset such that the impact on the model's predictions is minimal. The adversary subsequently triggers a request to remove a subset of the introduced points at which point the attack is unleashed and the model's predictions are negatively affected. In particular, we consider clean-label targeted attacks (in which the goal is to cause the model to misclassify a specific test point) on datasets including CIFAR-10, Imagenette, and Imagewoof. This attack is realized by constructing camouflage datapoints that mask the effect of a poisoned dataset. | 翻訳日:2024-08-02 15:07:44 公開日:2024-07-31 |
# 分散ロバストQ-ラーニングのための有限サンプル複素境界
A Finite Sample Complexity Bound for Distributionally Robust Q-learning ( http://arxiv.org/abs/2302.13203v3 ) ライセンス: Link先を確認 | Shengbo Wang, Nian Si, Jose Blanchet, Zhengyuan Zhou, | (参考訳) 我々は,展開環境が訓練環境と異なる強化学習環境を考える。
堅牢なMarkov決定プロセスの定式化を適用することで、Liuらで研究されている$Q$-learningフレームワークを拡張します。
さらに,マルチレベルモンテカルロ推定器の設計と解析を改善した。
シミュレーターへのアクセスを仮定すると、supノルムにおける最適ロバストな$Q$関数を学習するアルゴリズムの最悪のサンプル複雑さが、$\tilde O(|S||A|(1-\gamma)^{-5}\epsilon^{-2}p_{\wedge}^{-6}\delta^{-4})$で上界であることが証明され、$\gamma$は割引率、$p_{\wedge}$は遷移カーネルのゼロ最小サポート確率、$\delta$は不確実サイズである。
これはモデルのないロバストなRL問題に対する最初のサンプル複雑性結果である。
シミュレーション研究は、我々の理論結果をさらに検証する。
We consider a reinforcement learning setting in which the deployment environment is different from the training environment. Applying a robust Markov decision processes formulation, we extend the distributionally robust $Q$-learning framework studied in Liu et al. [2022]. Further, we improve the design and analysis of their multi-level Monte Carlo estimator. Assuming access to a simulator, we prove that the worst-case expected sample complexity of our algorithm to learn the optimal robust $Q$-function within an $\epsilon$ error in the sup norm is upper bounded by $\tilde O(|S||A|(1-\gamma)^{-5}\epsilon^{-2}p_{\wedge}^{-6}\delta^{-4})$, where $\gamma$ is the discount rate, $p_{\wedge}$ is the non-zero minimal support probability of the transition kernels and $\delta$ is the uncertainty size. This is the first sample complexity result for the model-free robust RL problem. Simulation studies further validate our theoretical results. | 翻訳日:2024-08-02 15:07:44 公開日:2024-07-31 |
# 一方向画像倍率・デマグニフィケーションのためのピラミッド回折光ネットワーク
Pyramid diffractive optical networks for unidirectional image magnification and demagnification ( http://arxiv.org/abs/2308.15019v2 ) ライセンス: Link先を確認 | Bijie Bai, Xilin Yang, Tianyi Gan, Jingxi Li, Deniz Mengu, Mona Jarrahi, Aydogan Ozcan, | (参考訳) D2NN(Diffractive Deep Neural Network)は、教師付きディープラーニングを用いて最適化された連続的な透過層で構成され、入力フィールドと出力フィールド・オブ・ビュー(FOV)の間の様々な計算タスクを全光学的に実装する。
本稿では、一方向画像の倍率化とデマジニフィケーションに特化して最適化されたピラミッド構造型回折光ネットワーク設計(P-D2NN)を提案する。
この設計では、回折層は、画像倍率またはデマグニフィケーションの方向に沿ってピラミッド的にスケールする。
本発明のP-D2NN設計は、光学プロセッサボリューム内の回折自由度をはるかに少なくして、所望の一方向撮像動作を達成し、一方の方向のみに高忠実で拡大またはデマジネーションされた画像を生成する。
さらに、P-D2NNの設計では、単一波長でトレーニングされているにもかかわらず、大きな波長帯にわたる一方向画像倍率/デマグニフィケーション機能を維持している。
また、波長多重化P-D2NNを設計し、一方向の拡大器と一方向のデマジネータを2つの異なる照明波長で同時に動作させた。
さらに,複数の一方向P-D2NNモジュールをカスケードすることで,高い倍率係数が得られることを示す。
テラヘルツ照明を用いてP-D2NNアーキテクチャの有効性を実験的に検証し,数値シミュレーションの整合性を確認した。
P-D2NNは、タスク固有のビジュアルプロセッサを設計するための物理に着想を得た戦略を提供する。
Diffractive deep neural networks (D2NNs) are composed of successive transmissive layers optimized using supervised deep learning to all-optically implement various computational tasks between an input and output field-of-view (FOV). Here, we present a pyramid-structured diffractive optical network design (which we term P-D2NN), optimized specifically for unidirectional image magnification and demagnification. In this design, the diffractive layers are pyramidally scaled in alignment with the direction of the image magnification or demagnification. This P-D2NN design creates high-fidelity magnified or demagnified images in only one direction, while inhibiting the image formation in the opposite direction - achieving the desired unidirectional imaging operation using a much smaller number of diffractive degrees of freedom within the optical processor volume. Furthermore, P-D2NN design maintains its unidirectional image magnification/demagnification functionality across a large band of illumination wavelengths despite being trained with a single wavelength. We also designed a wavelength-multiplexed P-D2NN, where a unidirectional magnifier and a unidirectional demagnifier operate simultaneously in opposite directions, at two distinct illumination wavelengths. Furthermore, we demonstrate that by cascading multiple unidirectional P-D2NN modules, we can achieve higher magnification factors. The efficacy of the P-D2NN architecture was also validated experimentally using terahertz illumination, successfully matching our numerical simulations. P-D2NN offers a physics-inspired strategy for designing task-specific visual processors. | 翻訳日:2024-08-02 14:55:39 公開日:2024-07-31 |
# 物性構造:化学要素埋め込みと化学特性の正確な予測のための深層学習アプローチ
Structure to Property: Chemical Element Embeddings and a Deep Learning Approach for Accurate Prediction of Chemical Properties ( http://arxiv.org/abs/2309.09355v2 ) ライセンス: Link先を確認 | Shokirbek Shermukhamedov, Dilorom Mamurjonova, Michael Probst, | (参考訳) 化学分類タスクのためのelEmBERTモデルを提案する。
これは多層エンコーダアーキテクチャのようなディープラーニング技術に基づいている。
我々は, 有機, 無機, 結晶化合物の集合に対して, アプローチがもたらす機会を実証する。
特に, 結晶特性と薬物設計関連ベンチマークを含むMatebench と Moleculenet ベンチマークを用いて, モデルの開発と試験を行った。
また, 化学化合物のベクトル表現を解析し, 構造データの基本パターンに光を当てる。
本モデルは異常な予測能力を示し,分子および材料データセットに普遍的に適用可能であることを証明している。
例えば、Tox21データセットでは、平均96%の精度を達成し、これまでで最高の結果の10%を上回りました。
We introduce the elEmBERT model for chemical classification tasks. It is based on deep learning techniques, such as a multilayer encoder architecture. We demonstrate the opportunities offered by our approach on sets of organic, inorganic and crystalline compounds. In particular, we developed and tested the model using the Matbench and Moleculenet benchmarks, which include crystal properties and drug design-related benchmarks. We also conduct an analysis of vector representations of chemical compounds, shedding light on the underlying patterns in structural data. Our model exhibits exceptional predictive capabilities and proves universally applicable to molecular and material datasets. For instance, on the Tox21 dataset, we achieved an average precision of 96%, surpassing the previously best result by 10%. | 翻訳日:2024-08-02 14:55:39 公開日:2024-07-31 |
# SurrogatePrompt: テキスト対画像モデルの安全フィルタを置換によってバイパスする
SurrogatePrompt: Bypassing the Safety Filter of Text-To-Image Models via Substitution ( http://arxiv.org/abs/2309.14122v2 ) ライセンス: Link先を確認 | Zhongjie Ba, Jieming Zhong, Jiachen Lei, Peng Cheng, Qinglong Wang, Zhan Qin, Zhibo Wang, Kui Ren, | (参考訳) DALL-E 2やMidjourneyのような高度なテキスト・ツー・イメージモデルには、非常にリアルな画像を生成する能力がある。
これには、政治的人物の大人、暴力的、または軽蔑的なイメージが含まれる。
安全でない作業(NSFW)コンテンツの生成を制限するためにこれらのモデルに厳密な安全機構が実装されているにもかかわらず、我々はMidjourneyに対する最初の迅速な攻撃を考案し、その結果、豊富なフォトリアリスティックなNSFW画像を生成することに成功した。
本研究では,このような攻撃の基本的な原則を明らかにするとともに,被疑者内の高リスク区間を戦略的に代替し,クローズドソースの安全対策を回避することを提案する。
我々の新しいフレームワークであるSurrogatePromptは、大規模言語モデル、画像とテキスト、画像と画像のモジュールを利用して、攻撃のプロンプトを体系的に生成し、大規模に攻撃のプロンプトを自動生成する。
評価結果によると、Midjourneyのプロプライエタリな安全フィルタを攻撃プロンプトでバイパスする成功率は88%であり、暴力的なシナリオで政治的人物を描写した偽造画像が生成される。
主観的および客観的な評価は、攻撃によって生成された画像がかなりの安全性の危険をもたらすことを証明している。
Advanced text-to-image models such as DALL-E 2 and Midjourney possess the capacity to generate highly realistic images, raising significant concerns regarding the potential proliferation of unsafe content. This includes adult, violent, or deceptive imagery of political figures. Despite claims of rigorous safety mechanisms implemented in these models to restrict the generation of not-safe-for-work (NSFW) content, we successfully devise and exhibit the first prompt attacks on Midjourney, resulting in the production of abundant photorealistic NSFW images. We reveal the fundamental principles of such prompt attacks and suggest strategically substituting high-risk sections within a suspect prompt to evade closed-source safety measures. Our novel framework, SurrogatePrompt, systematically generates attack prompts, utilizing large language models, image-to-text, and image-to-image modules to automate attack prompt creation at scale. Evaluation results disclose an 88% success rate in bypassing Midjourney's proprietary safety filter with our attack prompts, leading to the generation of counterfeit images depicting political figures in violent scenarios. Both subjective and objective assessments validate that the images generated from our attack prompts present considerable safety hazards. | 翻訳日:2024-08-02 14:55:39 公開日:2024-07-31 |
# プロトタイプベース平均教師によるオブジェクト検出のためのマルチソースドメイン適応
Multi-Source Domain Adaptation for Object Detection with Prototype-based Mean-teacher ( http://arxiv.org/abs/2309.14950v3 ) ライセンス: Link先を確認 | Atif Belal, Akhil Meethal, Francisco Perdigon Romero, Marco Pedersoli, Eric Granger, | (参考訳) 視覚オブジェクト検出器を操作対象領域に適応させることは難しい課題であり、一般には教師なし領域適応(UDA)法を用いて達成される。
最近の研究では、ラベル付きデータセットが複数のソースドメインから来ている場合、それらを別々のドメインとして扱い、マルチソースドメイン適応(MSDA)を実行することで、これらのソースドメインをブレンドしてUDAを実行するよりも正確性と堅牢性を向上させることが示されている。
適応のために、既存のMSDAメソッドはドメイン不変およびドメイン固有パラメータ(各ソースドメイン)を学習する。
しかし、単一ソースのUDAメソッドとは異なり、ドメイン固有のパラメータを学習することで、ソースドメインの数に比例して大きく成長する。
本稿では、ドメイン固有のサブネットの代わりにクラスプロトタイプを用いて、ドメイン固有の情報をエンコードする、プロトタイプベース平均教師(PMT)と呼ばれる新しいMSDA手法を提案する。
これらのプロトタイプは対照的な損失を用いて学習され、ドメイン間で同じカテゴリを整列させ、異なるカテゴリを遠くに分離する。
プロトタイプの使用を考えると、PMT法に必要なパラメータの数はソースドメインの数によって大きくは増加しないため、メモリの問題が少なくなり、オーバーフィッティングが可能となる。
実験的な研究により、PMTはいくつかの挑戦的なオブジェクト検出データセットにおいて最先端のMSDA法より優れていることが示された。
私たちのコードはhttps://github.com/imatif17/Prototype-Mean-Teacherで利用可能です。
Adapting visual object detectors to operational target domains is a challenging task, commonly achieved using unsupervised domain adaptation (UDA) methods. Recent studies have shown that when the labeled dataset comes from multiple source domains, treating them as separate domains and performing a multi-source domain adaptation (MSDA) improves the accuracy and robustness over blending these source domains and performing a UDA. For adaptation, existing MSDA methods learn domain-invariant and domain-specific parameters (for each source domain). However, unlike single-source UDA methods, learning domain-specific parameters makes them grow significantly in proportion to the number of source domains. This paper proposes a novel MSDA method called Prototype-based Mean Teacher (PMT), which uses class prototypes instead of domain-specific subnets to encode domain-specific information. These prototypes are learned using a contrastive loss, aligning the same categories across domains and separating different categories far apart. Given the use of prototypes, the number of parameters required for our PMT method does not increase significantly with the number of source domains, thus reducing memory issues and possible overfitting. Empirical studies indicate that PMT outperforms state-of-the-art MSDA methods on several challenging object detection datasets. Our code is available at https://github.com/imatif17/Prototype-Mean-Teacher. | 翻訳日:2024-08-02 14:55:39 公開日:2024-07-31 |
# 化学理解の促進のための非対称コントラストマルチモーダル学習
Asymmetric Contrastive Multimodal Learning for Advancing Chemical Understanding ( http://arxiv.org/abs/2311.06456v3 ) ライセンス: Link先を確認 | Hao Xu, Yifei Wang, Yunrui Li, Pengyu Hong, | (参考訳) マルチモーダル深層学習の汎用性は、科学的研究と実践的応用の進歩に非常に有望である。
この分野が発展を続けるにつれて、クロスモーダル分析の集団的力は変革的イノベーションを加速させ、化学理解と発見の新たなフロンティアへと繋がる。
そこで, 分子に適した新しいアプローチとして, 非対称コントラスト型マルチモーダルラーニング (ACML) を導入し, 化学分野の進展の可能性を示した。
ACMLは効果的な非対称コントラスト学習の力を利用して、様々な化学修飾物から分子グラフ表現への情報をシームレスに伝達する。
事前訓練された化学ユニモーダルエンコーダと浅層設計のグラフエンコーダを組み合わせることで、ACMLは、異なるモダリティから協調した化学意味論の同化を促進し、効率的なトレーニングによる包括的な表現学習を実現する。
このフレームワークの有効性を,大規模な相互モダリティ検索と異性判別タスクによって実証する。
さらに、ACMLはグラフプレゼンテーションで化学意味を明らかにすることで解釈可能性を高め、グラフニューラルネットワークの表現力を高める。
ACMLは、化学研究と応用に革命をもたらす能力を示し、様々なモダリティの化学的意味をより深く理解している。
The versatility of multimodal deep learning holds tremendous promise for advancing scientific research and practical applications. As this field continues to evolve, the collective power of cross-modal analysis promises to drive transformative innovations, leading us to new frontiers in chemical understanding and discovery. Hence, we introduce Asymmetric Contrastive Multimodal Learning (ACML) as a novel approach tailored for molecules, showcasing its potential to advance the field of chemistry. ACML harnesses the power of effective asymmetric contrastive learning to seamlessly transfer information from various chemical modalities to molecular graph representations. By combining pre-trained chemical unimodal encoders and a shallow-designed graph encoder, ACML facilitates the assimilation of coordinated chemical semantics from different modalities, leading to comprehensive representation learning with efficient training. We demonstrate the effectiveness of this framework through large-scale cross-modality retrieval and isomer discrimination tasks. Additionally, ACML enhances interpretability by revealing chemical semantics in graph presentations and bolsters the expressive power of graph neural networks, as evidenced by improved performance in molecular property prediction tasks from MoleculeNet. ACML exhibits its capability to revolutionize chemical research and applications, providing a deeper understanding of the chemical semantics of different modalities. | 翻訳日:2024-08-02 14:45:13 公開日:2024-07-31 |
# ChatGPTはあなたが誰だか読めるか?
Can ChatGPT Read Who You Are? ( http://arxiv.org/abs/2312.16070v2 ) ライセンス: Link先を確認 | Erik Derner, Dalibor Kučera, Nuria Oliver, Jan Zahálka, | (参考訳) 人工知能(AI)と心理学の相互作用は、特に人格評価において重要な研究分野である。
人-コンピュータインタラクションにおけるパーソナライズを高めるだけでなく、メンタルヘルスから教育まで幅広い応用のためにも、正確な性格特性推定が不可欠である。
本稿では、チャットボットChatGPTの短文から人格特性を効果的に推測する能力について分析する。
チェコ語で書かれたテキストを代表とする総合的なユーザスタディの結果を155人のサンプルで報告した。
ビッグファイブ・インベントリ(BFI)のアンケートに基づく自己評価が根拠となる。
本研究は,ChatGPTによる性格特性推定と人間による評価とを比較し,テキストから人格特性を推定する際のChatGPTの競争性能を報告する。
また,ChatGPTの評価における「肯定的バイアス」をすべての個性次元にわたって発見し,素早い構成が正確性に与える影響を考察した。
この研究は、心理評価におけるAI能力の理解に寄与し、人格推論に大規模言語モデルを使用することの可能性と限界の両方を強調している。
我々の研究は、プライバシ、同意、自律性、AIアプリケーションにおけるバイアスといった倫理的意味を考慮し、責任あるAI開発の重要性を強調しています。
The interplay between artificial intelligence (AI) and psychology, particularly in personality assessment, represents an important emerging area of research. Accurate personality trait estimation is crucial not only for enhancing personalization in human-computer interaction but also for a wide variety of applications ranging from mental health to education. This paper analyzes the capability of a generic chatbot, ChatGPT, to effectively infer personality traits from short texts. We report the results of a comprehensive user study featuring texts written in Czech by a representative population sample of 155 participants. Their self-assessments based on the Big Five Inventory (BFI) questionnaire serve as the ground truth. We compare the personality trait estimations made by ChatGPT against those by human raters and report ChatGPT's competitive performance in inferring personality traits from text. We also uncover a 'positivity bias' in ChatGPT's assessments across all personality dimensions and explore the impact of prompt composition on accuracy. This work contributes to the understanding of AI capabilities in psychological assessment, highlighting both the potential and limitations of using large language models for personality inference. Our research underscores the importance of responsible AI development, considering ethical implications such as privacy, consent, autonomy, and bias in AI applications. | 翻訳日:2024-08-02 14:45:13 公開日:2024-07-31 |
# 多粒子系における投影マップによる遺伝子交絡検出
Genuine entanglement detection via projection map in multipartite systems ( http://arxiv.org/abs/2401.03052v2 ) ライセンス: Link先を確認 | Bivas Mallick, Sumit Nandi, | (参考訳) 正だが完全に正の写像ではない射影写像を考慮し、真の多部交絡を検出するフォーマリズムを提案する。
射影写像は、ブロッホ球面を赤道に沿って円盤に写す量子演算の存在を否定するノー・パンケーキの定理によって動機付けられている。
射影写像の完全でない肯定的特徴は、任意のN-量子ビット量子系における真の多重粒子の絡み合いを調べるために研究される。
提案フレームワークは,三部体および四部体のシナリオにおいて,真に絡み合った状態のいくつかの重要なクラスを検出することができる。
そこで本研究では,PPT結合絡み状態のクラスを検出するためのフォーマリズムの有効性を示すための図示的な例を示す。
最後に、プロジェクションマップに基づく適切な目撃者演算子を構築し、真の三部交絡を証明し、実験的に実現可能である可能性が示唆された。
We present a formalism to detect genuine multipartite entanglement by considering projection map which is a positive but not completely positive map. Projection map has been motivated by the no-pancake theorem which repudiates the existence of a quantum operation that maps the Bloch sphere onto a disk along its equator. The not complete positivity feature of projection map is explored to investigate genuine multipartite entanglement in arbitrary N-qubit quantum systems. Our proposed framework can detect some important classes of genuinely entangled states in tripartite and quadripartite scenarios. We provide illustrative example to show the efficacy of our formalism to detect a class of tripartite PPT bound entangled states. Finally, we construct a suitable witness operator based on projection map to certify genuine tripartite entanglement, which is likely to be feasible experimentally. | 翻訳日:2024-08-02 14:45:13 公開日:2024-07-31 |
# アプリレビューの公平性に関する懸念:AIベースのモバイルアプリに関する研究
Fairness Concerns in App Reviews: A Study on AI-based Mobile Apps ( http://arxiv.org/abs/2401.08097v4 ) ライセンス: Link先を確認 | Ali Rezaei Nasab, Maedeh Dashti, Mojtaba Shahin, Mansooreh Zahedi, Hourieh Khalajzadeh, Chetan Arora, Peng Liang, | (参考訳) 公平さは、ソフトウェアシステムで対処しなければならない社会技術的懸念の1つです。
世界中の幅広い個人の間でモバイルソフトウェアアプリケーション(アプリケーション)の人気を考えると、不公平な振る舞いと結果を持つモバイルアプリは、世界の人口のかなりの割合、おそらく他のタイプのソフトウェアシステムよりも影響を受けうる。
ユーザは、モバイルアプリレビューで幅広い社会技術的懸念を表明している。
本研究は,モバイルアプリレビューにおける公平性の懸念を調査することを目的としている。
我々の研究は、AIベースのモバイルアプリにおける不公平な振る舞いや結果の機会として、AIベースのモバイルアプリレビューに焦点を当てている。
この目的のために、我々はまず1,132フェアネスと1,473ノンフェアネスレビューを含む、地中真実のデータセットを手作業で構築した。
基礎構造データセットを活用して、フェアネスレビューとフェアネスレビューを区別する機械学習モデルとディープラーニングモデルを開発し、評価した。
実験の結果, ベストパフォーマンスモデルでは, 94%の精度でフェアネスレビューを検出できることがわかった。
次に、AIベースの108のアプリから収集された約950万のレビューに対して、最高のパフォーマンスモデルを適用し、92万のフェアネスレビューを特定しました。
次に、92KフェアネスレビューにK-meansクラスタリング技術を適用し、それに続いて手動分析により、6種類のフェアネス関心事(例えば、"異なるプラットフォームやデバイスにおける機能やサービスの異なる品質を知覚する"、"ユーザ生成コンテンツを扱う上で透明性とフェアネスの欠如")を識別した。
最後に、フェアネスレビューに対する2,248人のアプリオーナーの回答のマニュアル分析では、アプリオーナーがフェアネスの懸念を正当化するために報告する6つの根本原因(例:「コピーライト問題」)を特定した。
Fairness is one of the socio-technical concerns that must be addressed in software systems. Considering the popularity of mobile software applications (apps) among a wide range of individuals worldwide, mobile apps with unfair behaviors and outcomes can affect a significant proportion of the global population, potentially more than any other type of software system. Users express a wide range of socio-technical concerns in mobile app reviews. This research aims to investigate fairness concerns raised in mobile app reviews. Our research focuses on AI-based mobile app reviews as the chance of unfair behaviors and outcomes in AI-based mobile apps may be higher than in non-AI-based apps. To this end, we first manually constructed a ground-truth dataset, including 1,132 fairness and 1,473 non-fairness reviews. Leveraging the ground-truth dataset, we developed and evaluated a set of machine learning and deep learning models that distinguish fairness reviews from non-fairness reviews. Our experiments show that our best-performing model can detect fairness reviews with a precision of 94%. We then applied the best-performing model on approximately 9.5M reviews collected from 108 AI-based apps and identified around 92K fairness reviews. Next, applying the K-means clustering technique to the 92K fairness reviews, followed by manual analysis, led to the identification of six distinct types of fairness concerns (e.g., 'receiving different quality of features and services in different platforms and devices' and 'lack of transparency and fairness in dealing with user-generated content'). Finally, the manual analysis of 2,248 app owners' responses to the fairness reviews identified six root causes (e.g., 'copyright issues') that app owners report to justify fairness concerns. | 翻訳日:2024-08-02 14:34:15 公開日:2024-07-31 |
# 物理誘導RLによるブラックアウト緩和
Blackout Mitigation via Physics-guided RL ( http://arxiv.org/abs/2401.09640v2 ) ライセンス: Link先を確認 | Anmol Dwivedi, Santiago Paternain, Ali Tajer, | (参考訳) 本稿では,ブラックアウト防止の究極の目的として,システム異常に応答する修復的制御行動の逐次設計について考察する。
物理誘導強化学習(RL)フレームワークは、システムの安定性に対する長期的影響を考慮に入れた、リアルタイムリメディカルなルックアヘッド決定の効果的なシーケンスを識別するように設計されている。
本稿では,伝送線路切替決定(線再接続と除去)と連続値発生器調整の両方を含む制御動作の空間について考察する。
効果的なブラックアウト緩和策を特定するため, エージェントトレーニング中のRL探査を誘導するために, 送電網に付随する電力フロー感度因子を用いた物理誘導方式が考案された。
オープンソースのGrid2Opプラットフォームを用いた総合的な経験的評価は、物理信号をRL決定に組み込むことの顕著な利点を示し、提案された物理誘導アプローチの利点をブラックボックスのそれと比較して確立した。
重要な観察の1つは、複数のリアルタイム・ジェネレータ調整と共に、戦略的に〜\emph{removing}伝送線が、ブラックアウトを予防または遅らせる可能性のある効果的な長期的決定を下すことである。
This paper considers the sequential design of remedial control actions in response to system anomalies for the ultimate objective of preventing blackouts. A physics-guided reinforcement learning (RL) framework is designed to identify effective sequences of real-time remedial look-ahead decisions accounting for the long-term impact on the system's stability. The paper considers a space of control actions that involve both discrete-valued transmission line-switching decisions (line reconnections and removals) and continuous-valued generator adjustments. To identify an effective blackout mitigation policy, a physics-guided approach is designed that uses power-flow sensitivity factors associated with the power transmission network to guide the RL exploration during agent training. Comprehensive empirical evaluations using the open-source Grid2Op platform demonstrate the notable advantages of incorporating physical signals into RL decisions, establishing the gains of the proposed physics-guided approach compared to its black box counterparts. One important observation is that strategically~\emph{removing} transmission lines, in conjunction with multiple real-time generator adjustments, often renders effective long-term decisions that are likely to prevent or delay blackouts. | 翻訳日:2024-08-02 14:34:15 公開日:2024-07-31 |
# 強結合開量子系に対する非エルミート擬似体-解離・相関・熱力学
Non-Hermitian Pseudomodes for Strongly Coupled Open Quantum Systems: Unravelings, Correlations and Thermodynamics ( http://arxiv.org/abs/2401.11830v3 ) ライセンス: Link先を確認 | Paul Menczel, Ken Funo, Mauro Cirio, Neill Lambert, Franco Nori, | (参考訳) 擬モードフレームワークは、非マルコフ環境に結合した開量子系の力学の正確な記述を提供する。
この枠組みを用いて、環境がシステムに与える影響を同値なモデルで研究し、開系は時間局所マスター方程式に従う有限個の非物理的擬モデックに結合される。
このマスター方程式は擬モード状態の相似性を保存する必要はないという知見に基づいて、系の元の力学の正しい再現を保証するマスター方程式の最も一般的な条件を求める。
一般化されたアプローチは、例えば、有限温度で過度に損傷された環境をモデル化するために必要な擬似モデックの数を減らすことを実証する。
また,非エルミート状態の量子ジャンプ軌道へのマスター方程式の展開を提案し,容易に並列化可能なモンテカルロシミュレーションを用いることで数値計算における擬モード法の利用をさらに促進する。
最後に、擬似モデムは、その非物理的性質にもかかわらず、システム-バス相関の生成や熱交換といった物理過程を研究することができる自然像であることを示す。
したがって、我々の研究結果は、マルコフの弱結合限界から遠く離れたオープン量子系をよりよく理解するために、システムと環境の相互作用に関する将来の研究の道を開く。
The pseudomode framework provides an exact description of the dynamics of an open quantum system coupled to a non-Markovian environment. Using this framework, the influence of the environment on the system is studied in an equivalent model, where the open system is coupled to a finite number of unphysical pseudomodes that follow a time-local master equation. Building on the insight that this master equation does not need to conserve the hermiticity of the pseudomode state, we here ask for the most general conditions on the master equation that guarantee the correct reproduction of the system's original dynamics. We demonstrate that our generalized approach decreases the number of pseudomodes that are required to model, for example, underdamped environments at finite temperature. We also provide an unraveling of the master equation into quantum jump trajectories of non-Hermitian states, which further facilitates the utilization of the pseudomode technique for numerical calculations by enabling the use of easily parallelizable Monte Carlo simulations. Finally, we show that pseudomodes, despite their unphysical nature, provide a natural picture in which physical processes, such as the creation of system-bath correlations or the exchange of heat, can be studied. Hence, our results pave the way for future investigations of the system-environment interaction leading to a better understanding of open quantum systems far from the Markovian weak-coupling limit. | 翻訳日:2024-08-02 14:34:15 公開日:2024-07-31 |
# チャットトランスクリプト要約のためのハイブリッド戦略
A Hybrid Strategy for Chat Transcript Summarization ( http://arxiv.org/abs/2402.01510v2 ) ライセンス: Link先を確認 | Pratik K. Biswas, | (参考訳) テキスト要約(英: Text summarization)とは、テキストを少ない文に縮める過程である。
チャット書き起こし(Chat transcript)は、顧客(呼び出し者)とエージェント(s)の間のデジタルまたはオンライン会話のテキストコピーである。
本稿では,まず,不動あるいは不動のチャット書き起こしを圧縮し,より読みやすい要約文を生成するために,抽出的および抽象的要約技術を組み合わせて,強化学習による要約の全体的な品質を最適化する,土着(地方)開発ハイブリッド手法を提案する。
大規模なテスト,評価,比較,検証は,手作業による参照(注釈付き)要約の欠如において,チャット書き起こし要約の大規模展開において,このアプローチの有効性を実証している。
Text summarization is the process of condensing a piece of text to fewer sentences, while still preserving its content. Chat transcript, in this context, is a textual copy of a digital or online conversation between a customer (caller) and agent(s). This paper presents an indigenously (locally) developed hybrid method that first combines extractive and abstractive summarization techniques in compressing ill-punctuated or un-punctuated chat transcripts to produce more readable punctuated summaries and then optimizes the overall quality of summarization through reinforcement learning. Extensive testing, evaluations, comparisons, and validation have demonstrated the efficacy of this approach for large-scale deployment of chat transcript summarization, in the absence of manually generated reference (annotated) summaries. | 翻訳日:2024-08-02 14:34:15 公開日:2024-07-31 |
# 連続列列列モデリングのための階層的状態空間モデル
Hierarchical State Space Models for Continuous Sequence-to-Sequence Modeling ( http://arxiv.org/abs/2402.10211v3 ) ライセンス: Link先を確認 | Raunaq Bhirangi, Chenyu Wang, Venkatesh Pattabiraman, Carmel Majidi, Abhinav Gupta, Tess Hellebrekers, Lerrel Pinto, | (参考訳) 生の知覚データのシーケンスから推論することは、医療機器からロボティクスまで、あらゆる分野にまたがる問題である。
これらの問題はしばしば、望ましい物理量のシーケンス(例えば力、慣性測定)を予測するために、センサーデータの長いシーケンス(例えば磁力計、ピエゾ抵抗器)を使用する。
古典的なアプローチは、局所的な線形予測問題には強力だが、実世界のセンサーを使用すると、しばしば不足する。
これらのセンサーは典型的には非線形であり、外部変数(例えば振動)に影響を受け、データ依存のドリフトを示す。
多くの問題において、地上のトラスラベルを取得するには高価な機器を必要とするため、小さなラベル付きデータセットによって予測タスクが悪化する。
本研究では,階層型状態空間モデル(HiSS)を提案する。
HiSSスタックは、時間階層を生成するために、互いに上にステートスペースモデルを構造化する。
触覚に基づく状態予測から加速度計による慣性測定に至るまで、現実世界の6つのセンサデータセットにわたって、HiSSは、因果変換器、LSTM、S4、Mambaといった最先端のシーケンスモデルを、MSEで少なくとも23%上回っている。
我々の実験は、HiSSがより小さなデータセットへの効率的なスケーリングを示し、既存のデータフィルタリング技術と互換性があることを示唆している。
コード、データセット、ビデオはhttps://hiss-csp.github.io.comで見ることができる。
Reasoning from sequences of raw sensory data is a ubiquitous problem across fields ranging from medical devices to robotics. These problems often involve using long sequences of raw sensor data (e.g. magnetometers, piezoresistors) to predict sequences of desirable physical quantities (e.g. force, inertial measurements). While classical approaches are powerful for locally-linear prediction problems, they often fall short when using real-world sensors. These sensors are typically non-linear, are affected by extraneous variables (e.g. vibration), and exhibit data-dependent drift. For many problems, the prediction task is exacerbated by small labeled datasets since obtaining ground-truth labels requires expensive equipment. In this work, we present Hierarchical State-Space Models (HiSS), a conceptually simple, new technique for continuous sequential prediction. HiSS stacks structured state-space models on top of each other to create a temporal hierarchy. Across six real-world sensor datasets, from tactile-based state prediction to accelerometer-based inertial measurement, HiSS outperforms state-of-the-art sequence models such as causal Transformers, LSTMs, S4, and Mamba by at least 23% on MSE. Our experiments further indicate that HiSS demonstrates efficient scaling to smaller datasets and is compatible with existing data-filtering techniques. Code, datasets and videos can be found on https://hiss-csp.github.io. | 翻訳日:2024-08-02 14:24:21 公開日:2024-07-31 |
# EXACT-Net:EHR-guided lung tumor auto-segmentationによる非小細胞肺癌放射線治療
EXACT-Net:EHR-guided lung tumor auto-segmentation for non-small cell lung cancer radiotherapy ( http://arxiv.org/abs/2402.14099v2 ) ライセンス: Link先を確認 | Hamed Hooshangnejad, Xue Feng, Gaofeng Huang, Rui Zhang, Katelyn Kelly, Quan Chen, Kai Ding, | (参考訳) 肺癌は、がんの種類の中で最も死亡率の高い壊滅的な疾患である。
診断の87%を占める非小細胞肺癌(NSCLC)患者の60%以上が放射線治療を必要とする。
迅速な治療開始は患者の生存率を著しく増加させ、死亡率を低下させる。
NSCLCの診断と治療において,腫瘍の正確な分節化が重要なステップである。
手作業のセグメンテーションは時間と労力を消費し、治療開始の遅れを引き起こす。
深層学習モデルを含む多くの肺結節検出法が提案されているが、これらの方法のほとんどで高偽陽性(FPs)の長年の問題が残っている。
そこで我々は,ExACT-Net (EHR-enhanced eXACtitude in tumor segmentation, EHR-enhanced eXACtitude in tumor segmentation) と呼ばれる電子健康記録(EHR)を作成した。
オートセグメンテーションモデルはNSCLC患者のCT(Computed tomography)に基づいて訓練され, ゼロショット学習アプローチでは事前訓練したLCMが使用された。
当院で治療した10例のNSCLCデータを用いて結節検出が250%向上した。
Lung cancer is a devastating disease with the highest mortality rate among cancer types. Over 60% of non-small cell lung cancer (NSCLC) patients, which accounts for 87% of diagnoses, require radiation therapy. Rapid treatment initiation significantly increases the patient's survival rate and reduces the mortality rate. Accurate tumor segmentation is a critical step in the diagnosis and treatment of NSCLC. Manual segmentation is time and labor-consuming and causes delays in treatment initiation. Although many lung nodule detection methods, including deep learning-based models, have been proposed, there is still a long-standing problem of high false positives (FPs) with most of these methods. Here, we developed an electronic health record (EHR) guided lung tumor auto-segmentation called EXACT-Net (EHR-enhanced eXACtitude in Tumor segmentation), where the extracted information from EHRs using a pre-trained large language model (LLM), was used to remove the FPs and keep the TP nodules only. The auto-segmentation model was trained on NSCLC patients' computed tomography (CT), and the pre-trained LLM was used with the zero-shot learning approach. Our approach resulted in a 250% boost in successful nodule detection using the data from ten NSCLC patients treated in our institution. | 翻訳日:2024-08-02 14:24:21 公開日:2024-07-31 |
# Reputational Algorithm Aversion
Reputational Algorithm Aversion ( http://arxiv.org/abs/2402.15418v3 ) ライセンス: Link先を確認 | Gregory Weitzner, | (参考訳) 人々はしばしばアルゴリズムによって生成された情報をその決定に組み込むことに消極的であり、それは 'algorithm aversion'' と呼ばれる現象である。
本稿では,アルゴリズムに従う選択が人間の能力に関する情報を伝達するときに,アルゴリズムの逆転が生じることを示す。
労働者が自分のプライベート情報とアルゴリズムの信号に基づいて不確実な結果を予測するモデルを開発する。
低熟練労働者はアルゴリズムよりも悪い情報を受け取り、従って常にアルゴリズムの信号に従うべきであるが、高熟練労働者はアルゴリズムよりも優れた情報を受け取り、時にはそれを上書きするべきである。
しかし、評判の懸念から、低スキル労働者はアルゴリズムを非効率にオーバーライドし、高いスキルと見なされる可能性を高める。
このモデルは、AIシステムが多くの種類の労働者を置き換えるという幅広い懸念に沿うアルゴリズム回避のための、完全に合理的なマイクロファウンドを提供する。
People are often reluctant to incorporate information produced by algorithms into their decisions, a phenomenon called ``algorithm aversion''. This paper shows how algorithm aversion arises when the choice to follow an algorithm conveys information about a human's ability. I develop a model in which workers make forecasts of an uncertain outcome based on their own private information and an algorithm's signal. Low-skill workers receive worse information than the algorithm and hence should always follow the algorithm's signal, while high-skill workers receive better information than the algorithm and should sometimes override it. However, due to reputational concerns, low-skill workers inefficiently override the algorithm to increase the likelihood they are perceived as high-skill. The model provides a fully rational microfoundation for algorithm aversion that aligns with the broad concern that AI systems will displace many types of workers. | 翻訳日:2024-08-02 14:24:21 公開日:2024-07-31 |
# 視覚言語表現学習におけるショートカットの実証と削減
Demonstrating and Reducing Shortcuts in Vision-Language Representation Learning ( http://arxiv.org/abs/2402.17510v2 ) ライセンス: Link先を確認 | Maurits Bleeker, Mariya Hendriksen, Andrew Yates, Maarten de Rijke, | (参考訳) 視覚言語モデル(VLM)は主に画像やキャプションの汎用表現を学ぶための対照的な訓練に依存している。
一つの画像が複数のキャプションに関連付けられている場合、各キャプションには、すべてのキャプション間で共有される情報と、画像に表示されるシーンに関するユニークな情報の両方が含まれている。
このようなケースでは、キャプションが提供する全ての情報を含むタスク最適表現を学習するのにコントラスト的損失が十分であるかどうか、あるいはコントラスト的損失を最小限に抑える単純なショートカットの学習を奨励しているかどうかが不明である。
画像テキストデータに合成ショートカットを注入する学習・評価フレームワークである視覚言語のための合成ショートカットを紹介する。
我々は,これらの合成ショートカットを含むデータを用いて,スクラッチや微調整で訓練された対照的なVLMが,主にショートカットを表す特徴を学習していることを示す。
したがって、画像と関連するキャプション間で共有されるすべてのタスク関連情報を含む、タスク最適表現を学ぶのに、対照的な損失は十分ではない。
トレーニングおよび評価フレームワークにおけるショートカット学習を減らすための2つの方法を検討する。
(i)潜在目標復号・復号
(ii)暗黙的な特徴修正。
両手法が評価課題の性能を向上させることを実証的に示すが,ショートカット学習のトレーニングや,ショートカット学習フレームワークによる評価では,部分的にしかショートカット学習を減らさない。
したがって、コントラッシブな視覚言語表現学習のためのショートカット学習フレームワークの難しさと課題を示す。
Vision-language models (VLMs) mainly rely on contrastive training to learn general-purpose representations of images and captions. We focus on the situation when one image is associated with several captions, each caption containing both information shared among all captions and unique information per caption about the scene depicted in the image. In such cases, it is unclear whether contrastive losses are sufficient for learning task-optimal representations that contain all the information provided by the captions or whether the contrastive learning setup encourages the learning of a simple shortcut that minimizes contrastive loss. We introduce synthetic shortcuts for vision-language: a training and evaluation framework where we inject synthetic shortcuts into image-text data. We show that contrastive VLMs trained from scratch or fine-tuned with data containing these synthetic shortcuts mainly learn features that represent the shortcut. Hence, contrastive losses are not sufficient to learn task-optimal representations, i.e., representations that contain all task-relevant information shared between the image and associated captions. We examine two methods to reduce shortcut learning in our training and evaluation framework: (i) latent target decoding and (ii) implicit feature modification. We show empirically that both methods improve performance on the evaluation task, but only partly reduce shortcut learning when training and evaluating with our shortcut learning framework. Hence, we show the difficulty and challenge of our shortcut learning framework for contrastive vision-language representation learning. | 翻訳日:2024-08-02 14:24:21 公開日:2024-07-31 |
# 野生におけるカルテック・エアリアルRGB熱データセット
Caltech Aerial RGB-Thermal Dataset in the Wild ( http://arxiv.org/abs/2403.08997v2 ) ライセンス: Link先を確認 | Connor Lee, Matthew Anderson, Nikhil Raganathan, Xingxing Zuo, Kevin Do, Georgia Gkioxari, Soon-Jo Chung, | (参考訳) 本稿では,自然環境下での航空ロボットのためのRGB熱水モデルについて紹介する。
我々のデータセットは、川、湖、海岸線、砂漠、森林など、米国中の様々な地形を捉え、同期RGB、熱、地球位置、慣性データで構成されています。
本研究では,悪天候や夜間条件に頑健な認識アルゴリズムの開発を促進するために,自然環境において一般的に遭遇する10のクラスに対してセマンティックセグメンテーションアノテーションを提供する。
本データセットを用いて,RGB-Tのセマンティックセグメンテーション,RGB-T画像変換,モーショントラッキングのための新しい,挑戦的なベンチマークを提案する。
我々は、最先端の手法を用いて広範な結果を提示し、我々のデータにおける時間的および地理的領域シフトによる課題を強調した。
データセットと付属コードはhttps://github.com/aerorobotics/caltech-aerial-rgbt-datasetで公開されている。
We present the first publicly-available RGB-thermal dataset designed for aerial robotics operating in natural environments. Our dataset captures a variety of terrain across the United States, including rivers, lakes, coastlines, deserts, and forests, and consists of synchronized RGB, thermal, global positioning, and inertial data. We provide semantic segmentation annotations for 10 classes commonly encountered in natural settings in order to drive the development of perception algorithms robust to adverse weather and nighttime conditions. Using this dataset, we propose new and challenging benchmarks for thermal and RGB-thermal (RGB-T) semantic segmentation, RGB-T image translation, and motion tracking. We present extensive results using state-of-the-art methods and highlight the challenges posed by temporal and geographical domain shifts in our data. The dataset and accompanying code is available at https://github.com/aerorobotics/caltech-aerial-rgbt-dataset. | 翻訳日:2024-08-02 14:14:35 公開日:2024-07-31 |
# 公正をナビゲートする - AI/ML開発における実践者の理解、課題、戦略
Navigating Fairness: Practitioners' Understanding, Challenges, and Strategies in AI/ML Development ( http://arxiv.org/abs/2403.15481v2 ) ライセンス: Link先を確認 | Aastha Pant, Rashina Hoda, Chakkrit Tantithamthavorn, Burak Turhan, | (参考訳) 産業におけるAI/MLアプリケーションの普及は、近年のAI/MLの公平性に関する議論を巻き起こしている。
AI/MLの公正性に関する以前の研究は存在するが、公正なAI/MLシステムの開発において、AI実践者の視点と経験を理解することに焦点を当てた実証的研究は存在しない。
AI実践者の、AI/MLシステムの公正性に関する視点と経験を理解することは、その開発とデプロイメントに直接関わっており、彼らの洞察は、AI/MLシステムの公正性を保証するための課題に関する貴重な現実世界の視点を提供することができるため、重要である。
フェアAI/ML”とは何か,公正なAI/MLシステムを開発する上で直面する課題,不公平なAI/MLシステムの開発結果,AI/MLシステムの公平性を保証するための戦略などについて,22人のAI実践者との半構造化インタビューを行った。
我々は,AI実践者の「フェアAI/ML」システム理解と,その関連性を示す枠組みを開発した。
i) 開発における彼らの課題
二 不公平なAI/MLシステムの開発の結果
三 AI/MLシステムの公平性を確保するための戦略。
この研究は、AI実践者の視点と経験を探求することによって、より公平なシステムを促進し、バイアスを低減し、AIテクノロジに対する公的な信頼を促進する、AI/ML公正性を高めるための実用的な洞察を提供する。
さらに、さらなる調査のための領域も特定し、フェアネスをナビゲートするAI実践者やAI企業を支援するためのレコメンデーションを提供します。
The rise in the use of AI/ML applications across industries has sparked more discussions about the fairness of AI/ML in recent times. While prior research on the fairness of AI/ML exists, there is a lack of empirical studies focused on understanding the perspectives and experiences of AI practitioners in developing a fair AI/ML system. Understanding AI practitioners' perspectives and experiences on the fairness of AI/ML systems are important because they are directly involved in its development and deployment and their insights can offer valuable real-world perspectives on the challenges associated with ensuring fairness in AI/ML systems. We conducted semi-structured interviews with 22 AI practitioners to investigate their understanding of what a 'fair AI/ML' is, the challenges they face in developing a fair AI/ML system, the consequences of developing an unfair AI/ML system, and the strategies they employ to ensure AI/ML system fairness. We developed a framework showcasing the relationship between AI practitioners' understanding of 'fair AI/ML' system and (i) their challenges in its development, (ii) the consequences of developing an unfair AI/ML system, and (iii) strategies used to ensure AI/ML system fairness. By exploring AI practitioners' perspectives and experiences, this study provides actionable insights to enhance AI/ML fairness, which may promote fairer systems, reduce bias, and foster public trust in AI technologies. Additionally, we also identify areas for further investigation and offer recommendations to aid AI practitioners and AI companies in navigating fairness. | 翻訳日:2024-08-02 14:14:35 公開日:2024-07-31 |
# 事前知識を使わずにオブジェクト検出適応のためのモダリティ変換
Modality Translation for Object Detection Adaptation Without Forgetting Prior Knowledge ( http://arxiv.org/abs/2404.01492v3 ) ライセンス: Link先を確認 | Heitor Rapela Medeiros, Masih Aminbeidokhti, Fidel Guerrero Pena, David Latortue, Eric Granger, Marco Pedersoli, | (参考訳) ディープラーニングの一般的なプラクティスは、さまざまなドメインやタスクにわたって高い精度を達成するために、大規模なデータセット上で大規模なニューラルネットワークをトレーニングすることである。
このアプローチは多くのアプリケーション領域でうまく機能するが、新しいモダリティからデータを処理する際に、モデルの事前トレーニングに使用するデータから大きな分散シフトが発生すると、大失敗することが多い。
本稿では,RGB画像に基づいて学習した大規模物体検出モデルを,IR画像から抽出した新たなデータに適応させることに焦点をあてる。
モーダリティ変換器 (ModTr) を, 大規模モデルを新しいモーダリティに微調整する一般的な手法の代替として提案する。
ModTrはIR入力画像を小さな変換ネットワークで適応させ、検出損失を直接最小化する。
元のRGBモデルは、さらなる変更やパラメータの微調整をすることなく、変換された入力で作業することができる。
2つのよく知られたデータセット上のIRからRGB画像への変換実験の結果、我々の単純なアプローチは、元のモデルの知識を忘れずに、標準の微調整よりも多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多様の検出器を提供することを示した。
これにより、よりフレキシブルで効率的なサービスベースの検出パイプラインへの扉が開かれ、RGB検出器のようなユニークで未修正のサーバは、対応する翻訳モデルでIRなどの異なるモダリティによってクエリされながら、常に実行されます。
私たちのコードは、https://github.com/heitorrapela/ModTr.comで利用可能です。
A common practice in deep learning involves training large neural networks on massive datasets to achieve high accuracy across various domains and tasks. While this approach works well in many application areas, it often fails drastically when processing data from a new modality with a significant distribution shift from the data used to pre-train the model. This paper focuses on adapting a large object detection model trained on RGB images to new data extracted from IR images with a substantial modality shift. We propose Modality Translator (ModTr) as an alternative to the common approach of fine-tuning a large model to the new modality. ModTr adapts the IR input image with a small transformation network trained to directly minimize the detection loss. The original RGB model can then work on the translated inputs without any further changes or fine-tuning to its parameters. Experimental results on translating from IR to RGB images on two well-known datasets show that our simple approach provides detectors that perform comparably or better than standard fine-tuning, without forgetting the knowledge of the original model. This opens the door to a more flexible and efficient service-based detection pipeline, where a unique and unaltered server, such as an RGB detector, runs constantly while being queried by different modalities, such as IR with the corresponding translations model. Our code is available at: https://github.com/heitorrapela/ModTr. | 翻訳日:2024-08-02 14:14:35 公開日:2024-07-31 |
# 変圧器は文脈強化学習のための時間差分法を学習する
Transformers Learn Temporal Difference Methods for In-Context Reinforcement Learning ( http://arxiv.org/abs/2405.13861v3 ) ライセンス: Link先を確認 | Jiuqi Wang, Ethan Blaser, Hadi Daneshmand, Shangtong Zhang, | (参考訳) インコンテキスト学習(In-context learning)とは、パラメータを適応することなく、推論時間中にモデルの学習能力をいう。
モデルへの入力(例えば、プロンプト)(例えば、トランスフォーマー)は、コンテキスト(例えば、インスタンスとラベルのペア)とクエリインスタンスの両方から構成される。
モデルでは、推論中にコンテキストに応じてクエリインスタンスのラベルを出力することができる。
文脈内学習の可能な説明として、(線形)変換器の前方通過は、コンテキスト内のインスタンスとラベルのペアに勾配降下の繰り返しを実装する。
本稿では,変換器が前方パスで時間差(TD)学習を実装できることを示す。
我々は,マルチタスクTDアルゴリズムを用いてトランスフォーマーを訓練した後の文脈内TDの出現を理論的解析とともに示す。
さらに, 変圧器は, 残差勾配, 可視性トレース付きTD, 平均回帰TDなど, フォワードパスで多くのポリシー評価アルゴリズムを実装するのに十分であることを示す。
In-context learning refers to the learning ability of a model during inference time without adapting its parameters. The input (i.e., prompt) to the model (e.g., transformers) consists of both a context (i.e., instance-label pairs) and a query instance. The model is then able to output a label for the query instance according to the context during inference. A possible explanation for in-context learning is that the forward pass of (linear) transformers implements iterations of gradient descent on the instance-label pairs in the context. In this paper, we prove by construction that transformers can also implement temporal difference (TD) learning in the forward pass, a phenomenon we refer to as in-context TD. We demonstrate the emergence of in-context TD after training the transformer with a multi-task TD algorithm, accompanied by theoretical analysis. Furthermore, we prove that transformers are expressive enough to implement many other policy evaluation algorithms in the forward pass, including residual gradient, TD with eligibility trace, and average-reward TD. | 翻訳日:2024-08-02 13:55:00 公開日:2024-07-31 |
# 駆動量子システムのための体系的時間粗粒度化
Systematic time-coarse graining for driven quantum systems ( http://arxiv.org/abs/2407.06068v2 ) ライセンス: Link先を確認 | Leon Bello, Wentao Fan, Aditya Gandotra, Hakan E. Türeci, | (参考訳) 量子コンピューティングにおける最近の多くの進歩は、状態準備、信号増幅、ゲート操作のために非線形システムの強い駆動を利用する。
しかし、そのような強く駆動されたシステム内の相互作用は、モデル化が非常に難しい非自明な方法でシステムの長時間の挙動に影響を与える、マルチスケールのダイナミクスを導入している。
したがって、これらの系の解析は、しばしば、高振動項を無視するように長時間の力学を近似する追加の非線形過程を導入する効果的なハミルトンモデルに依存する。
しかし、そのような周波数遷移の除去は、基本的に不可逆な操作である時間粗粒化の体系的な枠組みの中でのみ厳密に行うことができる。
これは、一元的有効モデルによる標準的なアプローチは、強駆動の非線形量子系全般の長時間の挙動を正確に捉えることができないことを意味する。
本稿では,結合強度の任意の順序に対して,駆動量子系の時間粗粒度(TCG)の完全な非単位実効モデルを得るための体系的摂動理論を導入する。
我々は、有効ハミルトニアンおよび非ユニタリ(擬似)散逸器の形で、ユニタリと非ユニタリの両方に対する閉形式解析式を導出する。
注目すべきは、有効理論が顕微鏡レベルでの単体時間進化を仮定しているにもかかわらず、時間粗い粒度のダイナミクスは一般に単体時間進化に従うことが分かることである。
これは、システムが絡み合ったり散らされたりするためのオープンな熱貯水池が存在しない場合でも起こる。
超伝導回路における駆動非線形系の典型的なモデルを用いた新しい手法の有効性を実証し、より正確な結果を提供し、説明されていない現象を説明することによって、既存の手法を一般化し、改善することを示す。
Many recent advancements in quantum computing leverage strong drives on nonlinear systems for state preparation, signal amplification, or gate operation. However, the interplay within such strongly driven system introduces multi-scale dynamics that affects the long-time behavior of the system in non-trivial ways that are very difficult to model. Therefore, the analysis of these systems often relies on effective Hamiltonian models that introduce additional nonlinear processes which approximate the long-time dynamics so that highly oscillatory terms may be ignored. However, the removal of such high frequency transitions can only be performed rigorously within a systematic framework of time-coarse graining, which is a fundamentally irreversible operation. This implies that standard approaches with unitary effective models cannot accurately capture the long-time behavior of strongly driven nonlinear quantum systems in general. We introduce a systematic perturbation theory for obtaining the complete non-unitary effective model of the time-coarse grained (TCG) dynamics of a driven quantum system to any order in the coupling strengths. We derive a closed-form analytical formula for both unitary and non-unitary contributions, in the form of an effective Hamiltonian and non-unitary (pseudo-)dissipators. Remarkably, even though the effective theory presumes unitary time evolution at the microscopic level, the time-coarse grained dynamics is found to follow a non-unitary time evolution in general. This occurs even when there is no open heat reservoir for the system to become entangled with or dissipate into. We demonstrate the effectiveness of the new method using several typical models of driven nonlinear systems in superconducting circuits, and show that it generalizes and improves on existing methods by providing more accurate results and explaining phenomena that have not been accounted for. | 翻訳日:2024-08-02 13:45:15 公開日:2024-07-31 |
# チャート理解のためのマルチモーダル言語モデルの事前学習について
On Pre-training of Multimodal Language Models Customized for Chart Understanding ( http://arxiv.org/abs/2407.14506v2 ) ライセンス: Link先を確認 | Wan-Cyuan Fan, Yen-Chun Chen, Mengchen Liu, Lu Yuan, Leonid Sigal, | (参考訳) 近年,多モーダル大規模言語モデル(MLLM)をドメイン固有のタスクにカスタマイズする研究は,特に科学的チャート理解の分野で有望な結果をもたらしている。
これらの研究は、一般的に、グラフ領域内の質問と回答(QA)の精度を高めるために、専門的なデータセットを用いた視覚的インストラクションチューニングを利用する。
しかし、自然画像キャプチャ事前学習データとデジタルチャート画像QAデータとの根本的な相違は、特にグラフから基礎となる数値を抽出するモデルの能力において無視されることが多い。
本稿では,MLLMのチャート理解を改善するために必要なトレーニングプロセスを検討することで,この監視に対処する。
1)アライメント事前学習における生データ値の導入は,チャートデータの理解を著しく向上させる。
2) 言語推論能力のチャート化に際し, テキスト表現をランダムに置き換える手法について検討した。
(3) 基礎となるグラフデータを抽出し, 微調整で質問に答えるモデルが必要であると, さらに精度が向上する。
そこで我々は,詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介した。
CHOPINLLMは、ロバストな推論能力を維持しながら、注釈のないチャートを含む様々な種類のチャートを効果的に解釈する。
さらに,MLLMの様々な理解レベルにおけるチャートタイプに対する理解度を評価するための新しいベンチマークを構築した。
実験の結果,CHOPINLLMは注釈付きチャートと注釈なしチャートの両方を多種多様なタイプで理解する上で高い性能を示した。
Recent studies customizing Multimodal Large Language Models (MLLMs) for domain-specific tasks have yielded promising results, especially in the field of scientific chart comprehension. These studies generally utilize visual instruction tuning with specialized datasets to enhance question and answer (QA) accuracy within the chart domain. However, they often neglect the fundamental discrepancy between natural image-caption pre-training data and digital chart image-QA data, particularly in the models' capacity to extract underlying numeric values from charts. This paper tackles this oversight by exploring the training processes necessary to improve MLLMs' comprehension of charts. We present three key findings: (1) Incorporating raw data values in alignment pre-training markedly improves comprehension of chart data. (2) Replacing images with their textual representation randomly during end-to-end fine-tuning transfer the language reasoning capability to chart interpretation skills. (3) Requiring the model to first extract the underlying chart data and then answer the question in the fine-tuning can further improve the accuracy. Consequently, we introduce CHOPINLLM, an MLLM tailored for in-depth chart comprehension. CHOPINLLM effectively interprets various types of charts, including unannotated ones, while maintaining robust reasoning abilities. Furthermore, we establish a new benchmark to evaluate MLLMs' understanding of different chart types across various comprehension levels. Experimental results show that CHOPINLLM exhibits strong performance in understanding both annotated and unannotated charts across a wide range of types. | 翻訳日:2024-08-02 13:45:14 公開日:2024-07-31 |
# Longhorn: ステートスペースモデルはオンライン学習者の記憶に残るもの
Longhorn: State Space Models are Amortized Online Learners ( http://arxiv.org/abs/2407.14207v4 ) ライセンス: Link先を確認 | Bo Liu, Rui Wang, Lemeng Wu, Yihao Feng, Peter Stone, Qiang Liu, | (参考訳) LLM(Large Language Models)のような現代のAIメソッドの最も基本的な能力は、'sequence modeling'として知られる長いトークン列で次のトークンを予測する能力である。
「トランスフォーマーモデルは、現在、シーケンスモデリングにおいて支配的なアプローチであるが、シーケンス長に関する2次計算コストは、大きな欠点である。
ステートスペースモデル(SSM)は、線形復号効率と訓練中の高い並列化性のために、有望な代替手段を提供する。
しかし、既存のSSMは、しばしばアドホックな線形リカレンス設計に依存している。
本研究では、オンライン学習のレンズを通してSSM設計を探求し、特定のオンライン学習問題のメタモジュールとしてSSMを概念化する。
このアプローチは、SSM設計と正確なオンライン学習目標の定式化を結びつけ、これらの目的を最適化した状態遷移規則を導出する。
この知見に基づいて,オンライン回帰目標を最適化するための暗黙の更新に基づく,新しい深層SSMアーキテクチャを提案する。
実験の結果,我々のモデルは,標準シーケンスモデリングベンチマークや言語モデリングタスクにおいて,Mambaモデルを含む最先端のSSMよりも優れていることがわかった。
The most fundamental capability of modern AI methods such as Large Language Models (LLMs) is the ability to predict the next token in a long sequence of tokens, known as ``sequence modeling." Although the Transformers model is the current dominant approach to sequence modeling, its quadratic computational cost with respect to sequence length is a significant drawback. State-space models (SSMs) offer a promising alternative due to their linear decoding efficiency and high parallelizability during training. However, existing SSMs often rely on seemingly ad hoc linear recurrence designs. In this work, we explore SSM design through the lens of online learning, conceptualizing SSMs as meta-modules for specific online learning problems. This approach links SSM design to formulating precise online learning objectives, with state transition rules derived from optimizing these objectives. Based on this insight, we introduce a novel deep SSM architecture based on the implicit update for optimizing an online regression objective. Our experimental results show that our models outperform state-of-the-art SSMs, including the Mamba model, on standard sequence modeling benchmarks and language modeling tasks. | 翻訳日:2024-08-02 13:35:28 公開日:2024-07-31 |
# センチネル-1画像のランク付けによる地震マグニチュードの推定
Estimating Earthquake Magnitude in Sentinel-1 Imagery via Ranking ( http://arxiv.org/abs/2407.18128v2 ) ライセンス: Link先を確認 | Daniele Rege Cambrin, Isaac Corley, Paolo Garza, Peyman Najafirad, | (参考訳) 地震は一般に物理地震観測所を用いて推定されるが、これらの駅の設置要件とコストのため、世界的なカバー範囲は急速に非現実的になる。
効率的で低コストな代替手段は、地球観測データを世界規模で監視する機械学習モデルを開発し、これらの自然災害の影響を受けやすい領域に配置することである。
しかし, 歴史的に記録された地震の量が少なかったため, 地震の規模を縮小する学習において, ピーク性能を達成するために, アルゴリズム改良を必要とする低データ構造問題となる。
本稿では, 地震の規模を計量学習問題として推定し, センチネル-1衛星画像から地震の規模を推定するだけでなく, 対角サンプルのランク付けを行うためのトレーニングモデルを提案する。
実験の結果,従来の回帰のみに基づく手法,特にトランスフォーマーに基づくアーキテクチャに比べて,最大30%以上のMAEの改善が見られた。
Earthquakes are commonly estimated using physical seismic stations, however, due to the installation requirements and costs of these stations, global coverage quickly becomes impractical. An efficient and lower-cost alternative is to develop machine learning models to globally monitor earth observation data to pinpoint regions impacted by these natural disasters. However, due to the small amount of historically recorded earthquakes, this becomes a low-data regime problem requiring algorithmic improvements to achieve peak performance when learning to regress earthquake magnitude. In this paper, we propose to pose the estimation of earthquake magnitudes as a metric-learning problem, training models to not only estimate earthquake magnitude from Sentinel-1 satellite imagery but to additionally rank pairwise samples. Our experiments show at max a 30%+ improvement in MAE over prior regression-only based methods, particularly transformer-based architectures. | 翻訳日:2024-08-02 13:35:28 公開日:2024-07-31 |
# CogNarrエコシステム: 大規模グループ認知の実現
CogNarr Ecosystem: Facilitating Group Cognition at Scale ( http://arxiv.org/abs/2407.18945v2 ) ライセンス: Link先を確認 | John C. Boik, | (参考訳) あらゆる大きさと種類の人間グループは、熟考、問題解決、戦略、意思決定、そしてより一般的に認知に携わる。
一部のグループは大きなグループで、その設定には固有の課題があります。
小グループ設定は、しばしば対面対話を伴うが、大規模なグループ設定におけるグループ認知は、通常、何らかの形でのオンライン対話を必要とする。
オンライン環境で効果的な機能的認知のために必要とされる、リッチなコミュニケーションや情報処理を促進するために、特に、潜在的に複雑で曖昧でダイナミックな視点を共有したい何千から数百万の参加者が特徴とするグループに対して、新しいアプローチが必要である。
本稿では,大規模なグループ設定における機能的認知を促進するために,CogNarr(認知的ナラティブ)エコシステムを提案する。
この論文の貢献は、認知科学、人工知能、自然言語処理、および関連分野の最近の発展が、どのようにして大規模グループ認知に適用されるかという新しいビジョンであり、それ自体がさらなる科学的進歩を促進するアプローチである。
重要な視点は、世界を理解し、情報を処理し、記憶し、学習し、予測し、決定し、変化する状況に適応するために、ある種の認知アーキテクチャを使用する有機体としてグループを見ることである。
CogNarrエコシステムは、そのアーキテクチャのコンポーネントとして機能するように設計されている。
Human groups of all sizes and kinds engage in deliberation, problem solving, strategizing, decision making, and more generally, cognition. Some groups are large, and that setting presents unique challenges. The small-group setting often involves face-to-face dialogue, but group cognition in the large-group setting typically requires some form of online interaction. New approaches are needed to facilitate the kind of rich communication and information processing that are required for effective, functional cognition in the online setting, especially for groups characterized by thousands to millions of participants who wish to share potentially complex, nuanced, and dynamic perspectives. This concept paper proposes the CogNarr (Cognitive Narrative) ecosystem, which is designed to facilitate functional cognition in the large-group setting. The paper's contribution is a novel vision as to how recent developments in cognitive science, artificial intelligence, natural language processing, and related fields might be scaled and applied to large-group cognition, using an approach that itself promotes further scientific advancement. A key perspective is to view a group as an organism that uses some form of cognitive architecture to sense the world, process information, remember, learn, predict, make decisions, and adapt to changing conditions. The CogNarr ecosystem is designed to serve as a component within that architecture. | 翻訳日:2024-08-02 13:35:28 公開日:2024-07-31 |
# オンラインビデオから3D動物の動きを学習するPonymation
Ponymation: Learning Articulated 3D Animal Motions from Unlabeled Online Videos ( http://arxiv.org/abs/2312.13604v3 ) ライセンス: Link先を確認 | Keqiang Sun, Dor Litvak, Yunzhi Zhang, Hongsheng Li, Jiajun Wu, Shangzhe Wu, | (参考訳) そこで,本研究では,生の未表示オンラインビデオから3次元動物運動の合成モデルを学習するための新しい手法を提案する。
既存の3Dモーション合成手法とは異なり、我々のモデルはポーズアノテーションやパラメトリック形状モデルを必要としない。
本手法のコアとなるのが、ビデオ・ジオメトリ・オートエンコーディング・フレームワークである。このフレームワークは、各トレーニングビデオクリップを3次元形状、調音されたポーズシーケンス、テクスチャを含む、明示的な幾何学的および測光的表現の集合に分解する。
この分解により、外部のポーズアノテーションを必要とせず、変分自動符号化(VAE)の定式化に類似した、基礎となる調音されたポーズ列に関する生成モデルを学習することができる。
推論時に学習した動きVAEをサンプリングして新しい動き系列を生成し、単一の入力画像から数秒以内に動物の可塑性4Dアニメーションを自動生成する。
We introduce a new method for learning a generative model of articulated 3D animal motions from raw, unlabeled online videos. Unlike existing approaches for 3D motion synthesis, our model requires no pose annotations or parametric shape models for training; it learns purely from a collection of unlabeled web video clips, leveraging semantic correspondences distilled from self-supervised image features. At the core of our method is a video Photo-Geometric Auto-Encoding framework that decomposes each training video clip into a set of explicit geometric and photometric representations, including a rest-pose 3D shape, an articulated pose sequence, and texture, with the objective of re-rendering the input video via a differentiable renderer. This decomposition allows us to learn a generative model over the underlying articulated pose sequences akin to a Variational Auto-Encoding (VAE) formulation, but without requiring any external pose annotations. At inference time, we can generate new motion sequences by sampling from the learned motion VAE, and create plausible 4D animations of an animal automatically within seconds given a single input image. | 翻訳日:2024-08-02 11:29:04 公開日:2024-07-31 |
# Perm:マルチスタイル3次元ヘアモデリングのためのパラメトリック表現
Perm: A Parametric Representation for Multi-Style 3D Hair Modeling ( http://arxiv.org/abs/2407.19451v2 ) ライセンス: Link先を確認 | Chengan He, Xin Sun, Zhixin Shu, Fujun Luan, Sören Pirk, Jorge Alejandro Amador Herrera, Dominik L. Michels, Tuanfeng Y. Wang, Meng Zhang, Holly Rushmeier, Yi Zhou, | (参考訳) 本稿では,人間の3D髪のパラメトリックモデルであるPermについて紹介する。
グローバルヘア形状と局所ストランド詳細を共同でモデル化する以前の研究とは異なり、周波数領域におけるPCAベースのストランド表現を用いてそれらを分離し、より正確な編集と出力制御を可能にすることを提案する。
具体的には, ヘアテクスチャを低周波・高周波ヘア構造に適合・分解するために, ストランド表現を利用する。
これらの分解されたテクスチャは、後に異なる生成モデルでパラメータ化され、ヘアモデリングプロセスの一般的な段階をエミュレートする。
本研究は,3次元ヘアパラメータ化,ヘアスタイル補間,単一視野ヘア再構成,ヘアコンディショニングなどのタスクにおいて,その柔軟性と優位性を示す。
私たちのコードとデータは、https://github.com/c-he/perm.com/で公開されます。
We present Perm, a learned parametric model of human 3D hair designed to facilitate various hair-related applications. Unlike previous work that jointly models the global hair shape and local strand details, we propose to disentangle them using a PCA-based strand representation in the frequency domain, thereby allowing more precise editing and output control. Specifically, we leverage our strand representation to fit and decompose hair geometry textures into low- to high-frequency hair structures. These decomposed textures are later parameterized with different generative models, emulating common stages in the hair modeling process. We conduct extensive experiments to validate the architecture design of \textsc{Perm}, and finally deploy the trained model as a generic prior to solve task-agnostic problems, further showcasing its flexibility and superiority in tasks such as 3D hair parameterization, hairstyle interpolation, single-view hair reconstruction, and hair-conditioned image generation. Our code and data will be available at: https://github.com/c-he/perm. | 翻訳日:2024-08-02 11:29:04 公開日:2024-07-31 |
# 機械学習分類器における予測誤差の理解
Understanding Prediction Discrepancies in Machine Learning Classifiers ( http://arxiv.org/abs/2104.05467v2 ) ライセンス: Link先を確認 | Xavier Renard, Thibault Laugel, Marcin Detyniecki, | (参考訳) 多数の分類器を同じデータでトレーニングして、テスト期間中に同様のパフォーマンスを達成できる一方で、かなり異なる分類パターンを学習することができる。
この現象は予測不一致と呼ばれ、しばしば類似した性能を持つモデルではなく、あるモデルの盲点選択と関連づけられる。
選択を行う場合、機械学習の実践者はモデルの違い、その限界、どこに同意するか、どこがそうでないかを理解できません。
しかし、彼の選択は、選択された分類パターンに基づいて最終決定を行うため、インスタンスが不一致ゾーンに分類されるという具体的な結果をもたらす。
結果の任意の性質に加えて、機会の喪失や公平性の欠如など、悪い選択がさらにネガティブな結果をもたらす可能性がある。
本稿では,同一データ上で訓練された最高の性能モデル群における予測誤差を解析することにより,この問題に対処することを提案する。
モデルに依存しないアルゴリズムであるDIGは、不一致を局所的に捉え、説明し、その潜在的な望ましくない結果を予測することによって、モデルを選択する際に最適な教育的判断を行なえるように提案されている。
実験を再現するコードはすべて利用可能です。
A multitude of classifiers can be trained on the same data to achieve similar performances during test time, while having learned significantly different classification patterns. This phenomenon, which we call prediction discrepancies, is often associated with the blind selection of one model instead of another with similar performances. When making a choice, the machine learning practitioner has no understanding on the differences between models, their limits, where they agree and where they don't. But his/her choice will result in concrete consequences for instances to be classified in the discrepancy zone, since the final decision will be based on the selected classification pattern. Besides the arbitrary nature of the result, a bad choice could have further negative consequences such as loss of opportunity or lack of fairness. This paper proposes to address this question by analyzing the prediction discrepancies in a pool of best-performing models trained on the same data. A model-agnostic algorithm, DIG, is proposed to capture and explain discrepancies locally, to enable the practitioner to make the best educated decision when selecting a model by anticipating its potential undesired consequences. All the code to reproduce the experiments is available. | 翻訳日:2024-08-01 22:39:37 公開日:2024-07-31 |
# 胸部X線量推定のためのU-Netベースの肺厚さマップ
U-Net-based Lung Thickness Map for Pixel-level Lung Volume Estimation of Chest X-rays ( http://arxiv.org/abs/2110.12509v5 ) ライセンス: Link先を確認 | Tina Dorosti, Manuel Schultheiss, Philipp Schmette, Jule Heuchert, Johannes Thalhammer, Florian Schaff, Thorsten Sellerer, Rafael Schick, Kirsten Taphorn, Korbinian Mechlem, Lorenz Birnbacher, Franz Pfeiffer, Daniela Pfeiffer, | (参考訳) 目的:U-Netにより生成された肺の厚みマップを用いて,実画像および合成X線写真から肺総容積(TLV)を画素レベルで推定することを目的とした。
方法: 5,959 thorax X-ray Computed Tomography (CT) スキャンを肺結節解析 2016 (n=656) と RSNA 肺塞栓症検出 2020 (n=5,303) の2つの公開データセットから検索した。
また,健常者72名(健常者20名,平均年齢62.4[34,80],慢性閉塞性肺疾患39名,男性25名,平均年齢69.0[47,91])の胸部CT検査を行った。
全CTスキャンと対応する肺分画は, それぞれ合成X線と肺の厚みマップを生成するために, 模擬X線スペクトルを用いて前方に投影された。
U-Netモデルは、肺の厚さマップを推定し、TLVを推定するために、公開データセットから合成ラジオグラフィーで訓練され、試験された。
さらに、Pearson相関係数(r)と重要性試験を用いて、室内の合成および実線写真対のTLV推定値を評価することにより、モデル性能を更に評価した。
結果: 合成(n_{Public}$=1,191, r=0.987, P < 0.001; $n_{In-house}$=72, r=0.973, P < 0.001)と実線写真(n=72, r=0.908, P < 0.001)から得られた試験データに対するCT由来の地中真理TLV値の相関について検討した。
結語:U-Netで生成した画素レベルの肺の厚さマップからのTLVは、合成および実際のラジオグラフィーで正常に推定された。
Purpose: We aimed to estimate the total lung volume (TLV) from real and synthetic frontal X-ray radiographs on a pixel level using lung thickness maps generated by a U-Net. Methods: 5,959 thorax X-ray computed tomography (CT) scans were retrieved from two publicly available datasets of the lung nodule analysis 2016 (n=656) and the RSNA pulmonary embolism detection challenge 2020 (n=5,303). Additionally, thorax CT scans from 72 subjects (33 healthy: 20 men, mean age [range] = 62.4 [34, 80]; 39 suffering from chronic obstructive pulmonary disease: 25 men, mean age [range] = 69.0 [47, 91]) were retrospectively selected (10.2018-12.2019) from our in-house dataset such that for each subject, a frontal chest X-ray radiograph no older than seven days was available. All CT scans and their corresponding lung segmentation were forward projected using a simulated X-ray spectrum to generate synthetic radiographs and lung thickness maps, respectively. A U-Net model was trained and tested on synthetic radiographs from the public datasets to predict lung thickness maps and consequently estimate TLV. Model performance was further assessed by evaluating the TLV estimations for the in-house synthetic and real radiograph pairs using Pearson correlation coefficient (r) and significance testing. Results: Strong correlations were measured between the predicted and CT-derived ground truth TLV values for test data from synthetic ($n_{Public}$=1,191, r=0.987, P < 0.001; $n_{In-house}$=72, r=0.973, P < 0.001) and real radiographs (n=72, r=0.908, P < 0.001). Conclusion: TLV from U-Net-generated pixel-level lung thickness maps were successfully estimated for synthetic and real radiographs. | 翻訳日:2024-08-01 22:39:37 公開日:2024-07-31 |
# ソフトウェア工学実験における金融インセンティブの異なる手法を用いた実験室実験
A Laboratory Experiment on Using Different Financial-Incentivization Schemes in Software-Engineering Experimentation ( http://arxiv.org/abs/2202.10985v7 ) ライセンス: Link先を確認 | Dmitri Bershadskyy, Jacob Krüger, Gül Çalıklı, Siegmar Otto, Sarah Zabel, Jannik Greif, Robert Heyer, | (参考訳) ソフトウェア工学の研究では、多くの経験的研究がオープンソースや業界開発者によって行われている。
しかし、経済学や心理学のような他の研究コミュニティとは対照的に、参加者の行動を動機づけ、パフォーマンスに報いる戦略として金銭的インセンティブ(すなわち、お金を払うこと)を使用する実験はごくわずかである。
最新のSIGSOFT Empirical Standardsでは、調査への参加の増加のためだけに、実際のモチベーションや実験の振る舞いを模倣するためではなく、支払いについて言及している。
本稿では、金融インセンティブの異なるスキームが開発者に与える影響を研究することによって、このギャップに対処する制御実験を報告する。
そこで我々はまず,(1)従業員が好むパフォーマンス依存型スキーム,(2)パフォーマンス非依存型スキーム,(3)オープンソース開発を模倣するスキームの3つのインセンティブを設計した実世界の金融インセンティブに関する調査を行った。
そして,これらの3つのスキームが参加者のパフォーマンスに与える影響について検討した。
提案手法は,ソフトウェア工学実験における参加者のパフォーマンスに影響を及ぼす可能性が示唆された。
サンプルサイズが小さいため、統計的に有意ではないが、それでも明らかな傾向が観察できる。
私たちのコントリビューションは、ファイナンシャルインセンティブが実験参加者や実世界のシナリオに与える影響を理解し、研究者が実験を設計し、開発者を補償する組織を指導する上で役立ちます。
In software-engineering research, many empirical studies are conducted with open-source or industry developers. However, in contrast to other research communities like economics or psychology, only few experiments use financial incentives (i.e., paying money) as a strategy to motivate participants' behavior and reward their performance. The most recent version of the SIGSOFT Empirical Standards mentions payouts only for increasing participation in surveys, but not for mimicking real-world motivations and behavior in experiments. Within this article, we report a controlled experiment in which we tackled this gap by studying how different financial incentivization schemes impact developers. For this purpose, we first conducted a survey on financial incentives used in the real-world, based on which we designed three incentivization schemes: (1) a performance-dependent scheme that employees prefer, (2) a scheme that is performance-independent, and (3) a scheme that mimics open-source development. Then, using a between-subject experimental design, we explored how these three schemes impact participants' performance. Our findings indicate that the different schemes can impact participants' performance in software-engineering experiments. Due to the small sample sizes, our results are not statistically significant, but we can still observe clear tendencies. Our contributions help understand the impact of financial incentives on participants in experiments as well as real-world scenarios, guiding researchers in designing experiments and organizations in compensating developers. | 翻訳日:2024-08-01 20:47:15 公開日:2024-07-31 |
# RepGhost: 再パラメータ化によるハードウェア効率の良いゴーストモジュール
RepGhost: A Hardware-Efficient Ghost Module via Re-parameterization ( http://arxiv.org/abs/2211.06088v2 ) ライセンス: Link先を確認 | Chengpeng Chen, Zichao Guo, Haien Zeng, Pengfei Xiong, Jian Dong, | (参考訳) 機能再利用は、軽量畳み込みニューラルネットワーク(CNN)アーキテクチャ設計において重要な技術である。
現在の手法では、他のレイヤから特徴マップを再利用することで、大容量のチャネル番号を安価に維持するために、連結演算子を利用する。
連結はパラメータフリーであり、FLOPはフリーだが、ハードウェアデバイスでの計算コストは無視できない。
そこで本稿では,結合ではなく,機能再利用を暗黙的に,より効率的に実現するための新たな視点を提供する。
結合演算子の代わりに、再パラメータ化による暗黙的な機能再利用のために、ハードウェア効率の良いRepGhostモジュールが提案されている。
RepGhostモジュールに基づいて、効率的なRepGhostボトルネックとRepGhostNetを開発する。
ImageNetとCOCOベンチマークの実験によると、モバイルデバイス上でのRepGhostNetはGhostNetやMobileNetV3よりも効率的で効率的です。
特に、私たちのRepGhostNetは、パラメータが少なく、ARMベースのモバイルデバイスで同等のレイテンシで、ImageNetデータセットでGhostNet 0.5倍の2.5%のTop-1精度を達成しています。
コードとモデルの重み付けはhttps://github.com/ChengpengChen/RepGhost.comで確認できる。
Feature reuse has been a key technique in light-weight convolutional neural networks (CNNs) architecture design. Current methods usually utilize a concatenation operator to keep large channel numbers cheaply (thus large network capacity) by reusing feature maps from other layers. Although concatenation is parameters- and FLOPs-free, its computational cost on hardware devices is non-negligible. To address this, this paper provides a new perspective to realize feature reuse implicitly and more efficiently instead of concatenation. A novel hardware-efficient RepGhost module is proposed for implicit feature reuse via reparameterization, instead of using concatenation operator. Based on the RepGhost module, we develop our efficient RepGhost bottleneck and RepGhostNet. Experiments on ImageNet and COCO benchmarks demonstrate that our RepGhostNet is much more effective and efficient than GhostNet and MobileNetV3 on mobile devices. Specially, our RepGhostNet surpasses GhostNet 0.5x by 2.5% Top-1 accuracy on ImageNet dataset with less parameters and comparable latency on an ARM-based mobile device. Code and model weights are available at https://github.com/ChengpengChen/RepGhost. | 翻訳日:2024-08-01 20:47:15 公開日:2024-07-31 |
# 画像の逆問題に対する後方変動に基づく誤差定量化
Posterior-Variance-Based Error Quantification for Inverse Problems in Imaging ( http://arxiv.org/abs/2212.12499v2 ) ライセンス: Link先を確認 | Dominik Narnhofer, Andreas Habring, Martin Holler, Thomas Pock, | (参考訳) 本研究では,逆画像問題のベイズ正規化における画素単位の誤差境界を求める手法を提案する。
提案手法では, 後方分散の予測と共形予測の手法を用いて, 基礎となるデータ分布を仮定することなく, 誤差境界のカバレッジ保証を得る。
これは一般に、前者の具体的な選択の独立性、例えば g に対してベイズ正則化アプローチに適用できる。
また、後部からの近似サンプリングのみが可能な場合にも、カバレッジ保証を得ることができる。
特に、提案されたフレームワークは、学習済みのすべてをブラックボックス方式で組み込むことができる。
基礎となる分布に関する仮定のない保証されたカバレッジは、誤差境界の大きさが一般には、事前に未知であるため、達成できるだけである。
それにもかかわらず、本論文で示された複数の正則化手法による実験は、実際に得られた誤差境界がかなり厳密であることを確認した。
数値実験を実現するために、非滑らかな分布からサンプリングする新しい原始双対ランゲヴィンアルゴリズムを導入する。
In this work, a method for obtaining pixel-wise error bounds in Bayesian regularization of inverse imaging problems is introduced. The proposed method employs estimates of the posterior variance together with techniques from conformal prediction in order to obtain coverage guarantees for the error bounds, without making any assumption on the underlying data distribution. It is generally applicable to Bayesian regularization approaches, independent, e.g., of the concrete choice of the prior. Furthermore, the coverage guarantees can also be obtained in case only approximate sampling from the posterior is possible. With this in particular, the proposed framework is able to incorporate any learned prior in a black-box manner. Guaranteed coverage without assumptions on the underlying distributions is only achievable since the magnitude of the error bounds is, in general, unknown in advance. Nevertheless, experiments with multiple regularization approaches presented in the paper confirm that in practice, the obtained error bounds are rather tight. For realizing the numerical experiments, also a novel primal-dual Langevin algorithm for sampling from non-smooth distributions is introduced in this work. | 翻訳日:2024-08-01 20:47:15 公開日:2024-07-31 |
# BetaZero:学習近似を用いた長距離PMDPの信頼状態計画
BetaZero: Belief-State Planning for Long-Horizon POMDPs using Learned Approximations ( http://arxiv.org/abs/2306.00249v4 ) ライセンス: Link先を確認 | Robert J. Moss, Anthony Corso, Jef Caers, Mykel J. Kochenderfer, | (参考訳) 自律走行や炭素貯蔵や資源探査といった持続可能なエネルギー応用を含む現実的な計画問題は、最近、部分的に観測可能なマルコフ決定プロセス(POMDP)としてモデル化され、近似手法を用いて解決されている。
高次元のPOMDPを現実的に解くために、最先端の手法では、問題固有のヒューリスティックを用いたオンラインプランニングを用いて、計画の地平線を小さくし、問題を抽出できるようにする。
ヒューリスティックスに代わる近似を学習するアルゴリズムは、最近、大規模で完全に観測可能な領域で成功している。
重要な洞察は、オンラインモンテカルロツリーサーチと、最適ポリシーと値関数のオフラインニューラルネットワーク近似の組み合わせである。
本研究では、この知見を部分的に観測可能な領域に持ち込み、高次元POMDPのための信念状態計画アルゴリズムであるBetaZeroを提案する。
BetaZeroは、時間軸問題におけるオンライン意思決定を可能にするために、ヒューリスティックスを置き換えるオフライン近似を学習する。
大規模部分観測可能な領域に固有の課題として,確率的環境への移行,検索予算の制限による行動分岐の優先順位付け,ネットワークへの入力としての信念の表現,などがあげられる。
限定的な検索情報の利用を形式化するために、新規な$Q$重み付き訪問カウントポリシーをトレーニングする。
文献および臨界鉱物探査の現実的な問題に見いだされた様々な確立されたPOMDPベンチマーク上でBetaZeroを検証した。
実験により、BetaZeroは様々なタスクにおいて最先端のPOMDPソルバより優れていることが示された。
Real-world planning problems, including autonomous driving and sustainable energy applications like carbon storage and resource exploration, have recently been modeled as partially observable Markov decision processes (POMDPs) and solved using approximate methods. To solve high-dimensional POMDPs in practice, state-of-the-art methods use online planning with problem-specific heuristics to reduce planning horizons and make the problems tractable. Algorithms that learn approximations to replace heuristics have recently found success in large-scale fully observable domains. The key insight is the combination of online Monte Carlo tree search with offline neural network approximations of the optimal policy and value function. In this work, we bring this insight to partially observable domains and propose BetaZero, a belief-state planning algorithm for high-dimensional POMDPs. BetaZero learns offline approximations that replace heuristics to enable online decision making in long-horizon problems. We address several challenges inherent in large-scale partially observable domains; namely challenges of transitioning in stochastic environments, prioritizing action branching with a limited search budget, and representing beliefs as input to the network. To formalize the use of all limited search information, we train against a novel $Q$-weighted visit counts policy. We test BetaZero on various well-established POMDP benchmarks found in the literature and a real-world problem of critical mineral exploration. Experiments show that BetaZero outperforms state-of-the-art POMDP solvers on a variety of tasks. | 翻訳日:2024-08-01 20:47:15 公開日:2024-07-31 |
# RAPGen: ゼロショットにおけるコードの非効率性を修正するためのアプローチ
RAPGen: An Approach for Fixing Code Inefficiencies in Zero-Shot ( http://arxiv.org/abs/2306.17077v3 ) ライセンス: Link先を確認 | Spandan Garg, Roshanak Zilouchian Moghaddam, Neel Sundaresan, | (参考訳) パフォーマンスのバグは機能しないバグで、十分にテストされた商用製品に現れます。
これらのパフォーマンスバグを修正することは重要な問題ですが、難しい問題です。
本稿では,この課題に対処し,RAPGen(Retrieval-Augmented Prompt Generation)と呼ばれる新しいアプローチを提案する。
パフォーマンス問題のあるコードスニペットが与えられた後、RAPGenは最初に、以前のパフォーマンスバグ修正の事前構築された知識ベースからプロンプト命令を取得し、その後、検索された命令を使用してプロンプトを生成する。
次に、このプロンプトをゼロショットのLarge Language Model(Codexなど)で使用して修正を生成する。
提案手法を,パフォーマンスバグ修正作業における各種の急激な変化と最先端の手法と比較した。
我々の評価によると、RAPGenは、C#開発者が過去のパフォーマンス変更を専門家が検証したデータセットで、約60%のケースで開発者よりも同等かそれ以上のパフォーマンス改善提案を生成できる。
Performance bugs are non-functional bugs that can even manifest in well-tested commercial products. Fixing these performance bugs is an important yet challenging problem. In this work, we address this challenge and present a new approach called Retrieval-Augmented Prompt Generation (RAPGen). Given a code snippet with a performance issue, RAPGen first retrieves a prompt instruction from a pre-constructed knowledge-base of previous performance bug fixes and then generates a prompt using the retrieved instruction. It then uses this prompt on a Large Language Model (such as Codex) in zero-shot to generate a fix. We compare our approach with the various prompt variations and state of the art methods in the task of performance bug fixing. Our evaluation shows that RAPGen can generate performance improvement suggestions equivalent or better than a developer in ~60% of the cases, getting ~42% of them verbatim, in an expert-verified dataset of past performance changes made by C# developers. | 翻訳日:2024-08-01 20:47:15 公開日:2024-07-31 |
# 非局所相関のためのワンタイムパッド暗号化モデル
One-time Pad Encryption Model for Non-local Correlations ( http://arxiv.org/abs/2307.03395v2 ) ライセンス: Link先を確認 | Govind Lal Sidhardh, Manik Banik, | (参考訳) 我々はベル非局所相関をモデル化するための暗号に着想を得たフレームワークを提案する。
De Broglie-Bohm理論からインスピレーションを得て、非局所的ボックスを隠れ変数レベルで即時シグナルを特徴とする現実的なシステムとして概念化する。
隠れ変数の分布にランダム性を導入することにより、スーパールミナルシグナリングモデルが動作不能条件に適合する。
我々の設計では、有名な対称鍵暗号システム {\it One-time Pad} (OTP) を模倣し、非ローカルボックスのOPPモデルと呼ぶ。
非局所的ボックスの非古典的性質に関連する様々な難解な例を通して、このモデルの有効性を説明する。
特に、非局所的ボックスを用いた通信の複雑さの分解は、このフレームワークでよりよく理解することができる。
さらに、我々はVan Damプロトコルを掘り下げ、暗号学で研究された同型暗号化との関係を明らかにした。
量子実現可能な非局所的な相関関係を,我々のフレームワーク内でカプセル化するための潜在的方法を探究し,情報因果性原理が隠れ変数レベルで追加的な制約を課すことを強調した。
そこで本研究では,非局所的な相関関係の理解を深めるため,古典暗号における結果を整理し,その関連性についてさらなる研究を歓迎する。
We present a cryptographic-inspired framework for modeling Bell nonlocal correlations. Drawing inspiration from the renowned De Broglie-Bohm theory, we conceptualize nonlocal boxes as realistic systems featuring instantaneous signaling at the hidden variable level. By introducing randomness into the distribution of the hidden variable the superluminal signaling model is made compatible with the operational no-signalling condition. As our design mimics the famous symmetric key encryption system called {\it One-time Pad} (OTP), we call this the OTP model for nonlocal boxes. We illustrate the efficacy of this model through various esoteric examples related to the non-classical nature of nonlocal boxes. In particular, the breakdown of communication complexity using nonlocal boxes can be better understood in this framework. Additionally, we delve into the Van Dam protocol, revealing its connection to homomorphic encryption studied in cryptography. Exploring potential avenues for encapsulating quantum-realizable nonlocal correlations within our framework, we highlight that the Information Causality principle imposes additional constraints at the hidden variable level. Present work thus orchestrates the results in classical cryptography to improve our understanding of nonlocal correlations and welcomes further research to this connection. | 翻訳日:2024-08-01 20:47:15 公開日:2024-07-31 |
# SILO言語モデル:非パラメトリックデータストアにおける法的リスクの解消
SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore ( http://arxiv.org/abs/2308.04430v2 ) ライセンス: Link先を確認 | Sewon Min, Suchin Gururangan, Eric Wallace, Weijia Shi, Hannaneh Hajishirzi, Noah A. Smith, Luke Zettlemoyer, | (参考訳) 著作権や制限されたデータに対する訓練言語モデル(LM)の合法性は、激しい議論の対象となっている。
しかし、そのサイズとドメインカバレッジが制限されているため、低リスクテキスト(例えば、コピーライト外書籍や政府文書)でのみトレーニングされた場合、モデルのパフォーマンスは大幅に低下する。
推論中にこのリスクパフォーマンストレードオフを管理する新しい言語モデルであるSILOを提案する。
SILOは、(1)公開ドメインの228Bトークンとパーミッシブライセンスのテキストをキュレートした新しいコーパスであるオープンライセンスコーパス(OLC)でパラメトリックLMをトレーニングし、(2)推論時にのみクエリされる、より汎用的で簡単に修正可能な非パラメトリックデータストア(例えば、著作権付き書籍やニュースを含む)で拡張することで構築される。
データストアは、トレーニングなしでハイリスクデータを使用することができ、文レベルのデータ属性をサポートし、データプロデューサがストアからコンテンツを削除することで、モデルからオプトアウトできる。
これらの能力は、米国の公正使用原則や欧州連合のGDPRなどのデータ利用規制の遵守を促進することができる。
実験の結果,パラメトリックLMはOLCでカバーされていない領域で苦労していることがわかった。
しかし、データストアへのアクセスはドメインのパフォーマンスを大幅に改善し、Pileで訓練されたLMのパフォーマンスギャップの90%を埋める。
また、どの非パラメトリックアプローチが最善か、残りのエラーがどこにあるか、そしてデータストアサイズでパフォーマンスがどのようにスケールするかを分析します。
この結果から,法的なリスクを軽減しつつ,高品質な言語モデルを構築することが可能であることが示唆された。
The legality of training language models (LMs) on copyrighted or otherwise restricted data is under intense debate. However, as we show, model performance significantly degrades if trained only on low-risk text (e.g., out-of-copyright books or government documents), due to its limited size and domain coverage. We present SILO, a new language model that manages this risk-performance tradeoff during inference. SILO is built by (1) training a parametric LM on Open License Corpus (OLC), a new corpus we curate with 228B tokens of public domain and permissively licensed text and (2) augmenting it with a more general and easily modifiable nonparametric datastore (e.g., containing copyrighted books or news) that is only queried during inference. The datastore allows use of high-risk data without training on it, supports sentence-level data attribution, and enables data producers to opt out from the model by removing content from the store. These capabilities can foster compliance with data-use regulations such as the fair use doctrine in the United States and the GDPR in the European Union. Our experiments show that the parametric LM struggles on domains not covered by OLC. However, access to the datastore greatly improves out of domain performance, closing 90% of the performance gap with an LM trained on the Pile, a more diverse corpus with mostly high-risk text. We also analyze which nonparametric approach works best, where the remaining errors lie, and how performance scales with datastore size. Our results suggest that it is possible to build high quality language models while mitigating their legal risk. | 翻訳日:2024-08-01 20:47:15 公開日:2024-07-31 |
# AIの多様化 - AlphaZeroによる創造的なチェスを目指して
Diversifying AI: Towards Creative Chess with AlphaZero ( http://arxiv.org/abs/2308.09175v3 ) ライセンス: Link先を確認 | Tom Zahavy, Vivek Veeriah, Shaobo Hou, Kevin Waugh, Matthew Lai, Edouard Leurent, Nenad Tomasev, Lisa Schut, Demis Hassabis, Satinder Singh, | (参考訳) 近年、人工知能(AI)システムは、様々な計算タスクにおいて人間の知能を上回っている。
しかし、人間のようなAIシステムは、間違いを犯し、盲点を持ち、幻覚を持ち、新しい状況に一般化するのに苦労する。
この研究は、AIがその計算合理性の限界に突き当たれば、創造的な意思決定メカニズムの恩恵を受けることができるかどうかを探求する。
特に、多様なAIシステムからなるチームが、グループとしてより多くのアイデアを生成し、最高のAIを選択することで、困難なタスクにおいて1つのAIより優れているかどうかを調査する。
我々はこの問題を、いわゆるAIのドロソフィラ(drosophila)と呼ばれるチェスのゲームで研究する。
我々はAlphaZero(AZ)上に構築し、エージェントの集合を表現するために潜在条件アーキテクチャを用いて拡張し、AZ_dbと呼ぶ。
我々はAZ_dbを訓練し、行動多様性技術を用いてより広い範囲のアイデアを生成し、サブ付加計画で最も有望なアイデアを選択する。
我々の実験は、AZ_dbが様々な方法でチェスをし、グループとしてより多くのパズルを解き、より均質なチームを上回ることを示唆している。
AZ_dbはAZの2倍の難解パズルを解く。
異なるオープニングからチェスを行う場合、AZ_dbのプレイヤーは異なるオープニングを専門とし、サブアダプティブプランニングを用いて各オープニングのプレイヤーを選択すると、AZよりも50エロ改善が達成される。
我々の研究結果は、AIエージェントのチームでは、人間のチームと同じように多様性のボーナスが出現し、ダイバーシティが計算的に難しい問題を解決する上で貴重な資産であることが示唆されている。
In recent years, Artificial Intelligence (AI) systems have surpassed human intelligence in a variety of computational tasks. However, AI systems, like humans, make mistakes, have blind spots, hallucinate, and struggle to generalize to new situations. This work explores whether AI can benefit from creative decision-making mechanisms when pushed to the limits of its computational rationality. In particular, we investigate whether a team of diverse AI systems can outperform a single AI in challenging tasks by generating more ideas as a group and then selecting the best ones. We study this question in the game of chess, the so-called drosophila of AI. We build on AlphaZero (AZ) and extend it to represent a league of agents via a latent-conditioned architecture, which we call AZ_db. We train AZ_db to generate a wider range of ideas using behavioral diversity techniques and select the most promising ones with sub-additive planning. Our experiments suggest that AZ_db plays chess in diverse ways, solves more puzzles as a group and outperforms a more homogeneous team. Notably, AZ_db solves twice as many challenging puzzles as AZ, including the challenging Penrose positions. When playing chess from different openings, we notice that players in AZ_db specialize in different openings, and that selecting a player for each opening using sub-additive planning results in a 50 Elo improvement over AZ. Our findings suggest that diversity bonuses emerge in teams of AI agents, just as they do in teams of humans and that diversity is a valuable asset in solving computationally hard problems. | 翻訳日:2024-08-01 20:47:15 公開日:2024-07-31 |
# 冗長弦対称性に基づく誤り訂正:量子デバイスにおける実証
Redundant string symmetry-based error correction: Demonstrations on quantum devices ( http://arxiv.org/abs/2310.12854v2 ) ライセンス: Link先を確認 | Zhangjie Qin, Daniel Azses, Eran Sela, Robert Raussendorf, V. W. Scarola, | (参考訳) 測定ベースの量子コンピューティングにおける計算力は、絡み合った資源状態の対称性保護トポロジカル(SPT)順序に由来する。
しかし、資源状態はエラーを準備する傾向がある。
資源状態の冗長な非局所対称性を用いた量子誤差補正手法を提案する。
1次元クラスタ状態の$\mathbb{Z}_2 \times \mathbb{Z}_2$対称性を他のグラフ状態に拡張したテレポーテーションプロトコル内でこれを実証する。
量子デバイスで顕著なQubit ZZ-crosstalkエラーは、通常のクラスタ状態のテレポーテーション忠実度を低下させる。
しかし、量子ハードウェア上で示すように、冗長対称性を持つグラフ状態が成長すると、完全テレポーテーションの忠実度が回復する。
本研究は, アンタングル化スペクトルにおける誤り保護デジネシスとして, 下位の冗長SPT順序を同定する。
Computational power in measurement-based quantum computing stems from the symmetry-protected topological (SPT) order of entangled resource states. However, resource states are prone to preparation errors. We introduce a quantum error correction approach using redundant nonlocal symmetry of the resource state. We demonstrate it within a teleportation protocol based on extending the $\mathbb{Z}_2 \times \mathbb{Z}_2$ symmetry of one-dimensional cluster states to other graph states. Qubit ZZ-crosstalk errors, which are prominent in quantum devices, degrade the teleportation fidelity of the usual cluster state. However, as we demonstrate on quantum hardware, once we grow graph states with redundant symmetry, perfect teleportation fidelity is restored. We identify the underlying redundant-SPT order as error-protected degeneracies in the entanglement spectrum. | 翻訳日:2024-08-01 20:35:03 公開日:2024-07-31 |
# イジングモデルにおけるテンソル学習のための相互作用スクリーニングと擬似的アプローチ
Interaction Screening and Pseudolikelihood Approaches for Tensor Learning in Ising Models ( http://arxiv.org/abs/2310.13232v2 ) ライセンス: Link先を確認 | Tianyu Liu, Somabha Mukherjee, | (参考訳) 本稿では,Ising構造学習の2つのよく知られた手法,すなわち擬似類似性アプローチと相互作用スクリーニング手法について,k$-spin Isingモデルにおけるテンソル回復の文脈で検討する。
両手法とも、適切な正規化により、ネットワークノード数のサンプルサイズ対数を用いて、基盤となるハイパーネットワーク構造を復元し、最大相互作用強度と最大ノード度を指数関数化することを示した。
また、相互作用順序の$k$に対するテンソルリカバリの率の正確な依存性も追跡する。
次に、シミュレーション研究に基づく2つの手法の性能の比較検討を行い、最大結合強度に対するテンソル回収率の指数的依存性を示す。
このテンソル回収法はCuMiDa(CuMiDa)から得られた遺伝子データに応用され,肝細胞癌に関連する重要な遺伝子を理解することに重点を置いている。
In this paper, we study two well known methods of Ising structure learning, namely the pseudolikelihood approach and the interaction screening approach, in the context of tensor recovery in $k$-spin Ising models. We show that both these approaches, with proper regularization, retrieve the underlying hypernetwork structure using a sample size logarithmic in the number of network nodes, and exponential in the maximum interaction strength and maximum node-degree. We also track down the exact dependence of the rate of tensor recovery on the interaction order $k$, that is allowed to grow with the number of samples and nodes, for both the approaches. We then provide a comparative discussion of the performance of the two approaches based on simulation studies, which also demonstrates the exponential dependence of the tensor recovery rate on the maximum coupling strength. Our tensor recovery methods are then applied on gene data taken from the Curated Microarray Database (CuMiDa), where we focus on understanding the important genes related to hepatocellular carcinoma. | 翻訳日:2024-08-01 20:35:03 公開日:2024-07-31 |
# ニューラルレトリバーはLLM生成コンテンツに向けてバイアスがかかる
Neural Retrievers are Biased Towards LLM-Generated Content ( http://arxiv.org/abs/2310.20501v3 ) ライセンス: Link先を確認 | Sunhao Dai, Yuqi Zhou, Liang Pang, Weihao Liu, Xiaolin Hu, Yong Liu, Xiao Zhang, Gang Wang, Jun Xu, | (参考訳) 近年,大規模な言語モデル (LLM) の出現は,インターネット上で大量の人文を生成することで,情報検索 (IR) のパラダイム,特にWeb検索に革命をもたらした。
結果として、LLM時代のIRシステムは新たな課題に直面している: インデックス化された文書は人間によって書かれただけでなく、LLMによって自動的に生成される。
これらのLCM生成した文書がIRシステムにどのように影響するかは、迫りつつも未解明の疑問である。
本研究では,人間の書き起こしテキストとLLM生成テキストの両方が関与するシナリオにおいて,IRモデルの定量的評価を行う。
意外なことに, ニューラルネットワークによる検索モデルでは, LLM生成文書のランクが高くなる傾向が示唆された。
我々は、LLM生成コンテンツに対するニューラルレトリバーのこのバイアスのカテゴリを、textbf{source bias} と呼ぶ。
さらに,このバイアスは第1段階のニューラルレトリバーに限らず,第2段階のニューラルリランカに限っていることが判明した。
そして、テキスト圧縮の観点からの詳細な分析により、LLM生成したテキストはノイズが少なく、より焦点を絞ったセマンティクスを示し、ニューラル検索モデルがセマンティクスマッチングを容易にすることを示した。
また、ソースバイアスを軽減するため、最適化目的に対するプラグアンドプレイのデバイアス制約を提案し、実験結果によりその効果が示された。
最後に、観測源バイアスに起因する潜在的な深刻な懸念について論じ、我々の発見がIRコミュニティなどへの重要な起床のきっかけとなることを期待する。
LLM時代のIRの今後の探索を容易にするため、2つの新しいベンチマークがhttps://github.com/KID-22/Source-Biasで公開されている。
Recently, the emergence of large language models (LLMs) has revolutionized the paradigm of information retrieval (IR) applications, especially in web search, by generating vast amounts of human-like texts on the Internet. As a result, IR systems in the LLM era are facing a new challenge: the indexed documents are now not only written by human beings but also automatically generated by the LLMs. How these LLM-generated documents influence the IR systems is a pressing and still unexplored question. In this work, we conduct a quantitative evaluation of IR models in scenarios where both human-written and LLM-generated texts are involved. Surprisingly, our findings indicate that neural retrieval models tend to rank LLM-generated documents higher. We refer to this category of biases in neural retrievers towards the LLM-generated content as the \textbf{source bias}. Moreover, we discover that this bias is not confined to the first-stage neural retrievers, but extends to the second-stage neural re-rankers. Then, in-depth analyses from the perspective of text compression indicate that LLM-generated texts exhibit more focused semantics with less noise, making it easier for neural retrieval models to semantic match. To mitigate the source bias, we also propose a plug-and-play debiased constraint for the optimization objective, and experimental results show its effectiveness. Finally, we discuss the potential severe concerns stemming from the observed source bias and hope our findings can serve as a critical wake-up call to the IR community and beyond. To facilitate future explorations of IR in the LLM era, the constructed two new benchmarks are available at https://github.com/KID-22/Source-Bias. | 翻訳日:2024-08-01 20:35:03 公開日:2024-07-31 |
# AIペアプログラミングの問題点とその原因と解決策を探る:GitHubとStack Overflowの検討
Exploring the Problems, their Causes and Solutions of AI Pair Programming: A Study on GitHub and Stack Overflow ( http://arxiv.org/abs/2311.01020v3 ) ライセンス: Link先を確認 | Xiyu Zhou, Peng Liang, Beiqi Zhang, Zengyang Li, Aakash Ahmad, Mojtaba Shahin, Muhammad Waseem, | (参考訳) 人工知能(AI)とLarge Language Models(LLM)の最近の進歩により、AIベースのコード生成ツールはソフトウェア開発の実践的なソリューションとなる。
AIペアプログラマであるGitHub Copilotは、大量のコードスニペットでトレーニングされた機械学習モデルを使用して、自然言語処理を使用してコード提案を生成する。
ソフトウェア開発で人気があるにもかかわらず、Copilotと仕事をする実践者の実際の経験に関する実証的な証拠は限られている。
そこで我々は,Copilotを使用する際の実践者が直面する問題と,その根底にある原因と潜在的な解決策を理解するための実証的研究を行った。
473のGitHubイシュー、706のGitHubディスカッション、142のStack Overflowポストからデータを収集しました。
その結果,(1)コパイロット利用者が直面する最も一般的な問題,(2)コパイロット内部エラー,ネットワーク接続エラー,およびエディタ/IDE適合性問題が最も頻繁な原因とされ,(3)コパイロットによるバグ修正,設定・設定の修正,利用適バージョンなどが主な解決法であることがわかった。
結果から,Copilotの潜在的な領域について考察し,Copilotユーザ,Copilotチーム,研究者にその影響について述べる。
With the recent advancement of Artificial Intelligence (AI) and Large Language Models (LLMs), AI-based code generation tools become a practical solution for software development. GitHub Copilot, the AI pair programmer, utilizes machine learning models trained on a large corpus of code snippets to generate code suggestions using natural language processing. Despite its popularity in software development, there is limited empirical evidence on the actual experiences of practitioners who work with Copilot. To this end, we conducted an empirical study to understand the problems that practitioners face when using Copilot, as well as their underlying causes and potential solutions. We collected data from 473 GitHub issues, 706 GitHub discussions, and 142 Stack Overflow posts. Our results reveal that (1) Operation Issue and Compatibility Issue are the most common problems faced by Copilot users, (2) Copilot Internal Error, Network Connection Error, and Editor/IDE Compatibility Issue are identified as the most frequent causes, and (3) Bug Fixed by Copilot, Modify Configuration/Setting, and Use Suitable Version are the predominant solutions. Based on the results, we discuss the potential areas of Copilot for enhancement, and provide the implications for the Copilot users, the Copilot team, and researchers. | 翻訳日:2024-08-01 20:35:03 公開日:2024-07-31 |
# 光子分解フロケ理論II:開量子系
Photon-resolved Floquet theory II: Open quantum systems ( http://arxiv.org/abs/2311.01509v2 ) ライセンス: Link先を確認 | G. Engelhardt, JunYan Luo, V. M. Bastidas, G. Platero, | (参考訳) 光子分解フロケ理論は、コヒーレントな駆動場を持つ量子系の光子交換を追跡する。
したがって、非コヒーレントな光子モードと交換された光子の数を数え、消散を引き起こす標準的な全計数統計を補完する。
本稿では,両状況を説明する統一フレームワークを提案する。
我々は,フォトニック確率分布の低次累積値の解析的評価に適した方法を開発した。
このフレームワーク内では、2モードのJaynes-Cummingsモデルを分析し、光子分解フロケ理論と標準フルカウント統計が一貫した統計的予測を行うことを示す。
興味深いことに、光子流束変動は、駆動物系と駆動場との間の絡み合い効果に関係し得る散逸を解消するために分岐する。
その結果を裏付けるために,我々は,高信号対雑音比を特徴とするac駆動型ラムダシステムにおいて,効率的な光子アップコンバージョンを記述するために,我々のフレームワークを用いた。
フレームワークは非摂動的であり、揺らぎを予測するため、非摂動分光への道を開いた。
Photon-resolved Floquet theory keeps track of the photon exchange of a quantum system with a coherent driving field. It thus complements the standard full-counting statistics that counts the number of photons exchanged with incoherent photon modes giving rise to dissipation. In this paper, we introduce a unifying framework describing both situations. We develop methods suitable for an analytical evaluation of low-order cumulants of photonic probability distributions. Within this framework we analyze the two-mode Jaynes-Cummings model to demonstrate that the Photon-resolved Floquet theory and the standard full-counting statistics make consistent statistical predictions. Interestingly, we find that the photon-flux fluctuations diverge for vanishing dissipation, which can be related to an entanglement effect between the driven matter system and the driving field. To substantiate our results, we use our framework to describe efficient photon up-conversion in an ac-driven lambda system, that is characterized by a high signal-to-noise ratio. As the framework is non-perturbative and predicts fluctuations, it paves the way towards non-perturbative spectroscopy, which will assist to improve metrological methods. | 翻訳日:2024-08-01 20:35:03 公開日:2024-07-31 |
# コンピュータサイエンス教授と学生の学歴と個人的背景に基づく予測成功
Forecasting Success of Computer Science Professors and Students Based on Their Academic and Personal Backgrounds ( http://arxiv.org/abs/2311.02476v3 ) ライセンス: Link先を確認 | Ghazal Kalhor, Behnam Bahrak, | (参考訳) 大学院を卒業した後、多くのコンピュータサイエンス(CS)の学生が北米の競争力のある大学院プログラムに応募した。
彼らの長期的な目標は、大手5社のうちの1社に採用されるか、あるいは教授になることだ。
したがって、受け入れ基準の役割に気付くことは、目標に向かって最良の道を選ぶのに役立つかもしれない。
本稿では,北米の高名な大学に入学し,将来教授として学界に復帰する可能性について,学生の過去の大学の影響を分析した。
以上の結果から,従来の大学ランキングが目標達成の重要な要因であることが示唆された。
次に、上位25のコンピュータサイエンスプログラムを受講した学部の学生に偏見があることを示す。
最後に,これらの大学における教授の成功を予測するために,機械学習モデルを用いた。
我々はこの予測のために7.85のRMSEを達成した。
After completing their undergraduate studies, many computer science (CS) students apply for competitive graduate programs in North America. Their long-term goal is often to be hired by one of the big five tech companies or to become a faculty member. Therefore, being aware of the role of admission criteria may help them choose the best path towards their goals. In this paper, we analyze the influence of students' previous universities on their chances of being accepted to prestigious North American universities and returning to academia as professors in the future. Our findings demonstrate that the ranking of their prior universities is a significant factor in achieving their goals. We then illustrate that there is a bias in the undergraduate institutions of students admitted to the top 25 computer science programs. Finally, we employ machine learning models to forecast the success of professors at these universities. We achieved an RMSE of 7.85 for this prediction task. | 翻訳日:2024-08-01 20:35:03 公開日:2024-07-31 |
# ワッサーシュタイン空間における多様体学習
Manifold learning in Wasserstein space ( http://arxiv.org/abs/2311.08549v2 ) ライセンス: Link先を確認 | Keaton Hamm, Caroline Moosmüller, Bernhard Schmitzer, Matthew Thorpe, | (参考訳) 本稿では,Wasserstein-2 距離 $\mathrm{W}$ で計算された$\mathbb{R}^d$ のコンパクトかつ凸部分集合上の絶対連続確率測度空間における多様体学習アルゴリズムの理論的基礎を構築することを目的とする。
まず、計量 $\mathrm{W}_\Lambda$ を備えた確率測度のサブ多様体 $\Lambda$ の構成を導入する。
他の構成とは対照的に、これらの部分多様体は必ずしも平坦ではないが、それでも、$\mathbb{R}^d$ のリーマン部分多様体と同様の方法で局所線型化が可能である。
次に、$(\Lambda,\mathrm{W}_{\Lambda})$ の潜在多様体構造がサンプル $\{\lambda_i\}_{i=1}^N$ of $\Lambda$ からどのように学習できるかを示す。
特に、計量空間 $(\Lambda,\mathrm{W}_{\Lambda})$ は、ノード $\{\lambda_i\}_{i=1}^N$ と辺重み $W(\lambda_i,\lambda_j)$ のグラフからグロモフ=ワッサーシュタインの意味で漸近的に回復できることを示す。
さらに、サンプル $\lambda$ における接空間が、適切な「共分散作用素」のスペクトル解析によって、十分に近い、多様なサンプル $\{\lambda_i\}_{i=1}^N$ への最適な輸送写像を用いて、どのように漸近的に回復できるかを示す。
この論文は、部分多様体$\Lambda$の明示的な構成と、スペクトル解析による接空間の回復に関する数値的な例で締めくくられる。
This paper aims at building the theoretical foundations for manifold learning algorithms in the space of absolutely continuous probability measures on a compact and convex subset of $\mathbb{R}^d$, metrized with the Wasserstein-2 distance $\mathrm{W}$. We begin by introducing a construction of submanifolds $\Lambda$ of probability measures equipped with metric $\mathrm{W}_\Lambda$, the geodesic restriction of $W$ to $\Lambda$. In contrast to other constructions, these submanifolds are not necessarily flat, but still allow for local linearizations in a similar fashion to Riemannian submanifolds of $\mathbb{R}^d$. We then show how the latent manifold structure of $(\Lambda,\mathrm{W}_{\Lambda})$ can be learned from samples $\{\lambda_i\}_{i=1}^N$ of $\Lambda$ and pairwise extrinsic Wasserstein distances $\mathrm{W}$ only. In particular, we show that the metric space $(\Lambda,\mathrm{W}_{\Lambda})$ can be asymptotically recovered in the sense of Gromov--Wasserstein from a graph with nodes $\{\lambda_i\}_{i=1}^N$ and edge weights $W(\lambda_i,\lambda_j)$. In addition, we demonstrate how the tangent space at a sample $\lambda$ can be asymptotically recovered via spectral analysis of a suitable "covariance operator" using optimal transport maps from $\lambda$ to sufficiently close and diverse samples $\{\lambda_i\}_{i=1}^N$. The paper closes with some explicit constructions of submanifolds $\Lambda$ and numerical examples on the recovery of tangent spaces through spectral analysis. | 翻訳日:2024-08-01 20:35:03 公開日:2024-07-31 |
# Masked Latent Generative Modeling を用いた説明可能な時系列異常検出
Explainable Time Series Anomaly Detection using Masked Latent Generative Modeling ( http://arxiv.org/abs/2311.12550v5 ) ライセンス: Link先を確認 | Daesoo Lee, Sara Malacarne, Erlend Aune, | (参考訳) 本稿では,より優れた説明性を提供しながら,優れた検出精度を実現する新しい時系列異常検出手法を提案する。
提案手法であるTimeVQVAE-ADは、TimeVQVAEとして知られる最先端の時系列生成法に適応したマスク付き生成モデルを利用する。
先行モデルは、時間周波数領域の離散潜在空間に基づいて訓練される。
特に、時間周波数領域の次元的意味論は潜時空間に保存され、異なる周波数帯域にわたる異常スコアを計算し、検出された異常についてより深い洞察を与えることができる。
さらに、先行モデルの生成特性は、検出された異常に対する通常の状態のサンプリングを可能にし、検出された異常の説明可能性を高める。
UCR Time Series Anomaly アーカイブを用いた実験により,TimeVQVAE-AD が検出精度と説明可能性において既存の手法を大幅に上回っていることが示された。
https://github.com/ML4ITS/TimeVQVAE-AnomalyDetection。
We present a novel time series anomaly detection method that achieves excellent detection accuracy while offering a superior level of explainability. Our proposed method, TimeVQVAE-AD, leverages masked generative modeling adapted from the cutting-edge time series generation method known as TimeVQVAE. The prior model is trained on the discrete latent space of a time-frequency domain. Notably, the dimensional semantics of the time-frequency domain are preserved in the latent space, enabling us to compute anomaly scores across different frequency bands, which provides a better insight into the detected anomalies. Additionally, the generative nature of the prior model allows for sampling likely normal states for detected anomalies, enhancing the explainability of the detected anomalies through counterfactuals. Our experimental evaluation on the UCR Time Series Anomaly archive demonstrates that TimeVQVAE-AD significantly surpasses the existing methods in terms of detection accuracy and explainability. We provide our implementation on GitHub: https://github.com/ML4ITS/TimeVQVAE-AnomalyDetection. | 翻訳日:2024-08-01 20:35:03 公開日:2024-07-31 |
# リアルタイムレイアウトへの移行 - シーン適応のための奥行き認識フレームワーク
Transferring to Real-World Layouts: A Depth-aware Framework for Scene Adaptation ( http://arxiv.org/abs/2311.12682v2 ) ライセンス: Link先を確認 | Mu Chen, Zhedong Zheng, Yi Yang, | (参考訳) 教師なしドメイン適応(UDA)によるシーンセグメンテーションは、ソース合成データから取得した知識を現実のターゲットデータに転送することを可能にする。
ドメイン不変の機能学習を容易にするため、既存のメソッドは通常、ピクセルをコピー&ペーストするだけで、ソースドメインとターゲットドメインの両方からのデータを混合する。
このようなバニラ法は通常、混合レイアウトが現実世界のシナリオとどの程度うまく対応しているかを考慮していないため、準最適である。
現実世界のシナリオには固有のレイアウトがあります。
我々は,歩道,建物,空などの意味カテゴリーが比較的一貫した深度分布を示し,深度マップで明確に区別できることを示した。
このような観察に基づいて,深度推定を的確に活用してカテゴリを混合し,2つの補完的タスク,すなわちセグメント化と深度学習をエンドツーエンドで促進する,深度認識フレームワークを提案する。
特に、このフレームワークには、DCF(Depth-guided Contextual Filter)フォーンデータ拡張と、コンテキスト学習のためのクロスタスクエンコーダが含まれている。
DCFは現実世界のレイアウトをシミュレートし、クロスタスクエンコーダは2つのタスク間の補完機能を適応的に融合する。
さらに、いくつかの公開データセットが深さアノテーションを提供していない点にも注意が必要だ。
そこで本研究では,既設深度推定ネットワークを利用して擬似深度を生成する。
GTAからCityscapesへの77.7 mIoUとSynthiaからCityscapesへの69.3 mIoUの2つの広く使われているベンチマークに対して,提案手法が擬似深度でも競争性能を発揮することを示す。
Scene segmentation via unsupervised domain adaptation (UDA) enables the transfer of knowledge acquired from source synthetic data to real-world target data, which largely reduces the need for manual pixel-level annotations in the target domain. To facilitate domain-invariant feature learning, existing methods typically mix data from both the source domain and target domain by simply copying and pasting the pixels. Such vanilla methods are usually sub-optimal since they do not take into account how well the mixed layouts correspond to real-world scenarios. Real-world scenarios are with an inherent layout. We observe that semantic categories, such as sidewalks, buildings, and sky, display relatively consistent depth distributions, and could be clearly distinguished in a depth map. Based on such observation, we propose a depth-aware framework to explicitly leverage depth estimation to mix the categories and facilitate the two complementary tasks, i.e., segmentation and depth learning in an end-to-end manner. In particular, the framework contains a Depth-guided Contextual Filter (DCF) forndata augmentation and a cross-task encoder for contextual learning. DCF simulates the real-world layouts, while the cross-task encoder further adaptively fuses the complementing features between two tasks. Besides, it is worth noting that several public datasets do not provide depth annotation. Therefore, we leverage the off-the-shelf depth estimation network to generate the pseudo depth. Extensive experiments show that our proposed methods, even with pseudo depth, achieve competitive performance on two widely-used bench-marks, i.e. 77.7 mIoU on GTA to Cityscapes and 69.3 mIoU on Synthia to Cityscapes. | 翻訳日:2024-08-01 20:35:03 公開日:2024-07-31 |
# 自然言語誘導型ドローンに向けて:空間関係マッチングを用いたGeoText-1652ベンチマーク
Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with Spatial Relation Matching ( http://arxiv.org/abs/2311.12751v4 ) ライセンス: Link先を確認 | Meng Chu, Zhedong Zheng, Wei Ji, Tingyu Wang, Tat-Seng Chua, | (参考訳) 自然言語コマンドを通じてドローンをナビゲートすることは、アクセス可能なマルチモーダルデータセットの欠如と、視覚的データとテキストデータの整列のための厳密な精度要件のため、依然として難しい。
このようなニーズに対処するため,新しい自然言語誘導ジオローカライゼーションベンチマークGeoText-1652を導入する。
このデータセットは、Large Language Model(LLM)駆動のアノテーション技術と事前学習された視覚モデルを利用する対話型ヒューマンコンピュータプロセスによって体系的に構築される。
GeoText-1652は、確立されたUniversity-1652イメージデータセットを空間対応のテキストアノテーションで拡張し、画像、テキスト、バウンディングボックス要素の1対1対応を確立する。
さらに、領域レベルの空間関係マッチングにおいて、混合空間マッチングと呼ばれる、きめ細かい空間関係を利用するための新しい最適化目標を導入する。
大規模な実験により,本手法は,他の一般的なクロスモダリティ手法と比較して,競争力のあるリコール率を維持していることが明らかとなった。
このことは、現実のシナリオにおける自然言語コマンドのシームレスな統合を通じて、ドローンの制御とナビゲーションを向上する我々のアプローチの有望な可能性を浮き彫りにしている。
Navigating drones through natural language commands remains challenging due to the dearth of accessible multi-modal datasets and the stringent precision requirements for aligning visual and textual data. To address this pressing need, we introduce GeoText-1652, a new natural language-guided geo-localization benchmark. This dataset is systematically constructed through an interactive human-computer process leveraging Large Language Model (LLM) driven annotation techniques in conjunction with pre-trained vision models. GeoText-1652 extends the established University-1652 image dataset with spatial-aware text annotations, thereby establishing one-to-one correspondences between image, text, and bounding box elements. We further introduce a new optimization objective to leverage fine-grained spatial associations, called blending spatial matching, for region-level spatial relation matching. Extensive experiments reveal that our approach maintains a competitive recall rate comparing other prevailing cross-modality methods. This underscores the promising potential of our approach in elevating drone control and navigation through the seamless integration of natural language commands in real-world scenarios. | 翻訳日:2024-08-01 20:35:03 公開日:2024-07-31 |
# ロボット合成 : バイオオタクティルセンシングによる手作業操作
Robot Synesthesia: In-Hand Manipulation with Visuotactile Sensing ( http://arxiv.org/abs/2312.01853v3 ) ライセンス: Link先を確認 | Ying Yuan, Haichuan Che, Yuzhe Qin, Binghao Huang, Zhao-Heng Yin, Kang-Won Lee, Yi Wu, Soo-Chul Lim, Xiaolong Wang, | (参考訳) コンタクトリッチな操作タスクの実行は、触覚と視覚的フィードバックの融合を必要とする。
しかし、これらのモダリティの独特な性質は重大な課題を生じさせる。
本稿では,視覚的・触覚的な感覚入力を活用して,手作業の巧妙な操作を可能にするシステムを提案する。
具体的には,人間の触覚と視覚の合成にインスパイアされた,新しい点の雲に基づく触覚表現であるRobot Synesthesiaを提案する。
このアプローチは、両方の感覚入力を同時かつシームレスに統合し、より豊かな空間情報を提供し、ロボットアクションに関するより良い推論を容易にする。
シミュレーション環境で訓練され、実際のロボットにデプロイされたこの方法は、様々な手動物体の回転タスクに適用できる。
視覚と触覚の統合によって強化学習とSim2Realのパフォーマンスが向上する。
私たちのプロジェクトページはhttps://yingyuan0414.github.io/visuotactile/ で公開されています。
Executing contact-rich manipulation tasks necessitates the fusion of tactile and visual feedback. However, the distinct nature of these modalities poses significant challenges. In this paper, we introduce a system that leverages visual and tactile sensory inputs to enable dexterous in-hand manipulation. Specifically, we propose Robot Synesthesia, a novel point cloud-based tactile representation inspired by human tactile-visual synesthesia. This approach allows for the simultaneous and seamless integration of both sensory inputs, offering richer spatial information and facilitating better reasoning about robot actions. The method, trained in a simulated environment and then deployed to a real robot, is applicable to various in-hand object rotation tasks. Comprehensive ablations are performed on how the integration of vision and touch can improve reinforcement learning and Sim2Real performance. Our project page is available at https://yingyuan0414.github.io/visuotactile/ . | 翻訳日:2024-08-01 20:35:03 公開日:2024-07-31 |
# iMatching: 命令対応学習
iMatching: Imperative Correspondence Learning ( http://arxiv.org/abs/2312.02141v2 ) ライセンス: Link先を確認 | Zitong Zhan, Dasong Gao, Yun-Jou Lin, Youjie Xia, Chen Wang, | (参考訳) 学習特徴対応はコンピュータビジョンの基本課題であり、視覚計測や3次元再構成といった下流の応用において極めて重要である。
データ駆動型モデルの最近の進歩にもかかわらず、画素ごとの正確な対応ラベルが欠如しているため、特徴対応学習は依然として限られている。
この難しさを克服するため、我々は、特徴対応の訓練を行うための新しい自己教師型スキーム、命令学習(IL)を導入する。
カメラのポーズやディープラベルを使わずに、任意の未中断ビデオの対応学習を可能にし、自己教師型対応学習の新しい時代を告げる。
具体的には、対応学習の問題を二段階最適化として定式化し、バンドル調整から再射誤差をモデルのための監視信号として取り込む。
メモリと計算のオーバーヘッドが大きくなるのを避けるため、我々は固定点を利用して、バンドル調整によって暗黙の勾配を効果的にバックプロパゲートする。
実験により,特徴マッチングやポーズ推定などのタスクにおいて,最先端のマッチングモデルよりも平均30%の精度向上が得られることを示す。
このプレプリントは、European Conference on Computer Vision (ECCV) 2024で承認されたマニュアルに対応している。
Learning feature correspondence is a foundational task in computer vision, holding immense importance for downstream applications such as visual odometry and 3D reconstruction. Despite recent progress in data-driven models, feature correspondence learning is still limited by the lack of accurate per-pixel correspondence labels. To overcome this difficulty, we introduce a new self-supervised scheme, imperative learning (IL), for training feature correspondence. It enables correspondence learning on arbitrary uninterrupted videos without any camera pose or depth labels, heralding a new era for self-supervised correspondence learning. Specifically, we formulated the problem of correspondence learning as a bilevel optimization, which takes the reprojection error from bundle adjustment as a supervisory signal for the model. To avoid large memory and computation overhead, we leverage the stationary point to effectively back-propagate the implicit gradients through bundle adjustment. Through extensive experiments, we demonstrate superior performance on tasks including feature matching and pose estimation, in which we obtained an average of 30% accuracy gain over the state-of-the-art matching models. This preprint corresponds to the Accepted Manuscript in European Conference on Computer Vision (ECCV) 2024. | 翻訳日:2024-08-01 20:35:03 公開日:2024-07-31 |
# DGInStyle:画像拡散モデルとスティル化セマンティック制御によるドメイン一般化可能なセマンティックセマンティックセグメンテーション
DGInStyle: Domain-Generalizable Semantic Segmentation with Image Diffusion Models and Stylized Semantic Control ( http://arxiv.org/abs/2312.03048v3 ) ライセンス: Link先を確認 | Yuru Jia, Lukas Hoyer, Shengyu Huang, Tianfu Wang, Luc Van Gool, Konrad Schindler, Anton Obukhov, | (参考訳) 大規模で事前訓練された潜伏拡散モデル(LDM)は、創造的なコンテンツを生成し、数ショットの微調整によってユーザーデータに特化し、セマンティックマップのような他のモダリティに出力を条件付けるという異常な能力を示した。
しかし、セマンティックセグメンテーションのような知覚スタックのタスクを改善するために、大規模なデータジェネレータとして使用できるだろうか?
自律運転の文脈でこの疑問を調査し,それを「はい」という言い換えで答える。
DGInStyleと呼ばれる効率的なデータ生成パイプラインを提案する。
まず,学習済みの LDM を,狭い領域内で意味的に制御された生成に限定する問題について検討する。
第2に、学習した意味制御に先立って、リッチな生成を支援するスタイルスワップ手法を提案する。
第3に, LDMの主対象への偏りを克服する多分解能ラテント融合法を設計する。
DGInStyleを用いて、街路シーンの多様なデータセットを生成し、ドメインに依存しないセマンティックセマンティックセマンティクスモデルをトレーニングし、複数の人気のある自動運転データセット上でモデルを評価する。
提案手法は,従来の最先端手法と比較して,いくつかの領域一般化手法の性能を一貫して向上させる。
ソースコードと生成されたデータセットはhttps://dginstyle.github.io.comで入手できる。
Large, pretrained latent diffusion models (LDMs) have demonstrated an extraordinary ability to generate creative content, specialize to user data through few-shot fine-tuning, and condition their output on other modalities, such as semantic maps. However, are they usable as large-scale data generators, e.g., to improve tasks in the perception stack, like semantic segmentation? We investigate this question in the context of autonomous driving, and answer it with a resounding "yes". We propose an efficient data generation pipeline termed DGInStyle. First, we examine the problem of specializing a pretrained LDM to semantically-controlled generation within a narrow domain. Second, we propose a Style Swap technique to endow the rich generative prior with the learned semantic control. Third, we design a Multi-resolution Latent Fusion technique to overcome the bias of LDMs towards dominant objects. Using DGInStyle, we generate a diverse dataset of street scenes, train a domain-agnostic semantic segmentation model on it, and evaluate the model on multiple popular autonomous driving datasets. Our approach consistently increases the performance of several domain generalization methods compared to the previous state-of-the-art methods. The source code and the generated dataset are available at https://dginstyle.github.io. | 翻訳日:2024-08-01 20:35:03 公開日:2024-07-31 |
# 普遍的および非普遍的資源を持つマッチゲート回路の絡み合いスペクトル
Entanglement spectrum of matchgate circuits with universal and non-universal resources ( http://arxiv.org/abs/2312.08447v3 ) ライセンス: Link先を確認 | Andrew M. Projansky, Joshuah T. Heath, James D. Whitfield, | (参考訳) 量子状態の絡み合いレベル統計は、最近、基礎となる量子回路における普遍性の符号として提案されている。
これは、エンタングルメントスペクトルのレベル反発が、生成したエンタングルメントの可積分性と結びついている結果である。
しかしながら、エンタングルメントスペクトルにおけるレベルスポーティング統計学の研究は、製品状態入力におけるクリフォードとハールランダム回路の出力状態に制限されている。
本研究では、シミュレーション可能なゲート集合からなる回路の最初の例を示すが、摂動普遍要素を持たないウィグナー・ダイソン分散絡み合いレベルスペクトルを持つ。
まず、無作為な積状態に作用するマッチゲート回路に対して、ウィグナー・ダイソンの統計は、クリフォード回路に関する以前の研究と直接的に類似して、単一のSWAPゲートによって現れることを示す。
次に、入力状態の異なるマッチゲート回路の絡み合いスペクトルを調べ、2ビットから3ビットの絡み合い入力へと進むと、絡み合いの複雑さの急激な跳躍を求める。
クリフォードとマッチゲートのハイブリッド回路を調べたところ、普遍的な量子ゲート要素が存在しない場合、出力状態がウィグナー・ダイソンの絡み合いレベル統計を示す古典的にシミュレート可能な回路の例が見つかった。
そこで本研究では, 絡み合いスペクトルが任意の量子回路におけるシミュラビリティの概念と強く結びついていないことを示す。
The entanglement level statistics of a quantum state have recently been proposed to be a signature of universality in the underlying quantum circuit. This is a consequence of level repulsion in the entanglement spectra being tied to the integrability of entanglement generated. However, such studies of the level-spacing statistics in the entanglement spectrum have thus far been limited to the output states of Clifford and Haar random circuits on product state inputs. In this work, we provide the first example of a circuit which is composed of a simulable gate set, yet has a Wigner-Dyson distributed entanglement level spectrum without any perturbing universal element. We first show that, for matchgate circuits acting on random product states, Wigner-Dyson statistics emerge by virtue of a single SWAP gate, in direct analog to previous studies on Clifford circuits. We then examine the entanglement spectrum of matchgate circuits with varied input states, and find a sharp jump in the complexity of entanglement as we go from two- to three-qubit entangled inputs. Studying Clifford and matchgate hybrid circuits, we find examples of classically simulable circuits whose output states exhibit Wigner-Dyson entanglement level statistics in the absence of universal quantum gate elements. Our study thus provides strong evidence that entanglement spectrum is not strongly connected to notions of simulability in any given quantum circuit. | 翻訳日:2024-08-01 20:35:03 公開日:2024-07-31 |
# 遠絡3次元形状と外観生成のためのニューラルポイント雲拡散
Neural Point Cloud Diffusion for Disentangled 3D Shape and Appearance Generation ( http://arxiv.org/abs/2312.14124v2 ) ライセンス: Link先を確認 | Philipp Schröppel, Christopher Wewer, Jan Eric Lenssen, Eddy Ilg, Thomas Brox, | (参考訳) コントロール可能な3Dアセットの生成は、映画、ゲーム、エンジニアリングにおけるコンテンツ作成やAR/VRなど、多くの実用的なアプリケーションにとって重要である。
近年,拡散モデルにより3次元オブジェクトの生成品質が著しく向上した。
しかし、既存のモデルでは形状と外観を別々に制御できない。
本稿では,3次元拡散モデルに対して,ハイブリッド・ポイント・クラウドとニューラル・ラディアンス・フィールド・アプローチを導入することで,このような絡み合いを実現するための適切な表現を提案する。
局所密度と放射デコーダのための高次元特徴空間と協調して点位置上の拡散過程をモデル化する。
点位置は物体の粗い形状を表すが、点の特徴は幾何学や外観の詳細をモデル化することができる。
この絡み合いは、独立して両方のサンプルをサンプリングし、したがって、両方を別々に制御することを可能にする。
提案手法は, FIDスコアを30~90%削減し, 従来の非非非非非非非非非非非非非非非非非非非非非非非非非非非非干渉的手法と比較した。
Controllable generation of 3D assets is important for many practical applications like content creation in movies, games and engineering, as well as in AR/VR. Recently, diffusion models have shown remarkable results in generation quality of 3D objects. However, none of the existing models enable disentangled generation to control the shape and appearance separately. For the first time, we present a suitable representation for 3D diffusion models to enable such disentanglement by introducing a hybrid point cloud and neural radiance field approach. We model a diffusion process over point positions jointly with a high-dimensional feature space for a local density and radiance decoder. While the point positions represent the coarse shape of the object, the point features allow modeling the geometry and appearance details. This disentanglement enables us to sample both independently and therefore to control both separately. Our approach sets a new state of the art in generation compared to previous disentanglement-capable methods by reduced FID scores of 30-90% and is on-par with other non disentanglement-capable state-of-the art methods. | 翻訳日:2024-08-01 20:25:13 公開日:2024-07-31 |
# 雑音出力を考慮した最適決定木と適応部分モジュラランク付け
Optimal Decision Tree and Adaptive Submodular Ranking with Noisy Outcomes ( http://arxiv.org/abs/2312.15357v2 ) ライセンス: Link先を確認 | Su Jia, Fatemeh Navidi, Viswanath Nagarajan, R. Ravi, | (参考訳) プールベースのアクティブラーニングでは、学習者にラベルのないデータセットが与えられ、データポイントのラベルを問い合わせることで未知の仮説を効率的に学習することを目的としている。
これは古典的最適決定木(ODT)問題として定式化できる: テストのセット、仮説のセット、各テストと仮説に対する結果が与えられた場合、我々の目標は、真の仮説を識別する低コストなテスト手順(すなわち決定木)を見つけることである。
この最適化問題は、各テストが決定論的結果を生成するという仮定の下で広範囲に研究されてきた。
しかし、多くの応用、例えば臨床試験において、結果は不確実であり、決定論的な設定から考えを無効にする。
本研究は,音が持続的である場合,すなわち繰り返しテストが同じ雑音出力を与える場合においても,いくつかのテスト結果がノイズであるODT問題の基本的な変形について検討する。
我々の近似アルゴリズムは、この数で性能が連続的に低下するテストや仮説あたりのノイズの多い結果の一般的なケースに対して、ほぼ可能な限りの保証を提供する。
有害化学物質を同定し,線形分類器を学習するアルゴリズムを数値的に評価し,我々のアルゴリズムは情報理論の最小値に非常に近い費用がかかることを示した。
In pool-based active learning, the learner is given an unlabeled data set and aims to efficiently learn the unknown hypothesis by querying the labels of the data points. This can be formulated as the classical Optimal Decision Tree (ODT) problem: Given a set of tests, a set of hypotheses, and an outcome for each pair of test and hypothesis, our objective is to find a low-cost testing procedure (i.e., decision tree) that identifies the true hypothesis. This optimization problem has been extensively studied under the assumption that each test generates a deterministic outcome. However, in numerous applications, for example, clinical trials, the outcomes may be uncertain, which renders the ideas from the deterministic setting invalid. In this work, we study a fundamental variant of the ODT problem in which some test outcomes are noisy, even in the more general case where the noise is persistent, i.e., repeating a test gives the same noisy output. Our approximation algorithms provide guarantees that are nearly best possible and hold for the general case of a large number of noisy outcomes per test or per hypothesis where the performance degrades continuously with this number. We numerically evaluated our algorithms for identifying toxic chemicals and learning linear classifiers, and observed that our algorithms have costs very close to the information-theoretic minimum. | 翻訳日:2024-08-01 20:25:13 公開日:2024-07-31 |
# AttackEval: 大規模言語モデルにおけるジェイルブレイク攻撃の有効性を評価する方法
AttackEval: How to Evaluate the Effectiveness of Jailbreak Attacking on Large Language Models ( http://arxiv.org/abs/2401.09002v4 ) ライセンス: Link先を確認 | Dong shu, Mingyu Jin, Chong Zhang, Liangyao Li, Zihao Zhou, Yongfeng Zhang, | (参考訳) 大規模言語モデル(LLM)の攻撃に対するセキュリティの確保は、最も洗練された脅威の1つとして、ますます緊急になっている。
このようなリスクに対処するため,我々はLDMに対するジェイルブレイク攻撃の有効性を評価する革新的な枠組みを導入する。
LLMのロバスト性にのみ焦点をあてた従来のバイナリ評価とは異なり、本手法は攻撃プロンプト自体の有効性を評価する。
粗粒度評価と細粒度評価の2つの異なる評価フレームワークを提案する。
各フレームワークは0から1までのスコアリング範囲を使用しており、ユニークな視点を提供し、異なるシナリオにおける攻撃の有効性を評価することができる。
さらに,脱獄プロンプトに適した総合的真実データセットを開発した。
このデータセットは、我々の現在の研究にとって重要なベンチマークとなり、将来の研究の基盤となるリソースを提供する。
本研究は,従来の評価手法と比較して,より微妙できめ細かな評価を行いながら,現在の結果が基準値と一致していることを示す。
また、従来の評価では無害に見える可能性のある、潜在的に有害な攻撃プロンプトを特定するのにも役立ちます。
全体として、我々の研究は、即発注射領域における広範囲の攻撃プロンプトを評価するためのしっかりとした基盤を確立している。
Ensuring the security of large language models (LLMs) against attacks has become increasingly urgent, with jailbreak attacks representing one of the most sophisticated threats. To deal with such risks, we introduce an innovative framework that can help evaluate the effectiveness of jailbreak attacks on LLMs. Unlike traditional binary evaluations focusing solely on the robustness of LLMs, our method assesses the effectiveness of the attacking prompts themselves. We present two distinct evaluation frameworks: a coarse-grained evaluation and a fine-grained evaluation. Each framework uses a scoring range from 0 to 1, offering unique perspectives and allowing for the assessment of attack effectiveness in different scenarios. Additionally, we develop a comprehensive ground truth dataset specifically tailored for jailbreak prompts. This dataset serves as a crucial benchmark for our current study and provides a foundational resource for future research. By comparing with traditional evaluation methods, our study shows that the current results align with baseline metrics while offering a more nuanced and fine-grained assessment. It also helps identify potentially harmful attack prompts that might appear harmless in traditional evaluations. Overall, our work establishes a solid foundation for assessing a broader range of attack prompts in the area of prompt injection. | 翻訳日:2024-08-01 20:25:13 公開日:2024-07-31 |
# FedADMM-InSa: フェデレートラーニングのための非現実的で自己適応型ADMM
FedADMM-InSa: An Inexact and Self-Adaptive ADMM for Federated Learning ( http://arxiv.org/abs/2402.13989v3 ) ライセンス: Link先を確認 | Yongcun Song, Ziqi Wang, Enrique Zuazua, | (参考訳) フェデレートラーニング(FL)は、プライバシを維持しながら分散データから学習するための有望なフレームワークである。
効率的なFLアルゴリズムの開発は、異種データやシステム、限られた通信能力、制約のあるローカル計算資源など、様々な課題に直面している。
最近開発されたFedADMM法は、データとシステムの不均一性の両方に優れたレジリエンスを示す。
しかし、ハイパーパラメータを慎重に調整しなければ、パフォーマンスの劣化に悩まされる。
この問題に対処するため,FedADMM-InSaと呼ばれる不正確な自己適応型FedADMMアルゴリズムを提案する。
まず、クライアントのローカル更新に対する不正確な基準を設計し、ローカルトレーニングの精度を実証的に設定する必要をなくす。
この不正確な基準は、そのユニークな条件に基づいて各クライアントによって独立に評価することができ、それによって局所的な計算コストを低減し、望ましくないトラグル効果を軽減できる。
結果の不正確なADMMの収束は、強い凸損失関数の仮定の下で証明される。
さらに,各クライアントのペナルティパラメータを動的に調整し,各クライアントに対する経験的ペナルティパラメータの選択の必要性を軽減し,アルゴリズムの堅牢性を向上する自己適応型スキームを提案する。
合成と実世界の両方のデータセットに関する大規模な数値実験を行った。
いくつかの数値実験で検証されているように、提案アルゴリズムはクライアントの局所的な計算負荷を大幅に削減し、また、バニラFedADMMと比較して学習プロセスを高速化することができる。
Federated learning (FL) is a promising framework for learning from distributed data while maintaining privacy. The development of efficient FL algorithms encounters various challenges, including heterogeneous data and systems, limited communication capacities, and constrained local computational resources. Recently developed FedADMM methods show great resilience to both data and system heterogeneity. However, they still suffer from performance deterioration if the hyperparameters are not carefully tuned. To address this issue, we propose an inexact and self-adaptive FedADMM algorithm, termed FedADMM-InSa. First, we design an inexactness criterion for the clients' local updates to eliminate the need for empirically setting the local training accuracy. This inexactness criterion can be assessed by each client independently based on its unique condition, thereby reducing the local computational cost and mitigating the undesirable straggle effect. The convergence of the resulting inexact ADMM is proved under the assumption of strongly convex loss functions. Additionally, we present a self-adaptive scheme that dynamically adjusts each client's penalty parameter, enhancing algorithm robustness by mitigating the need for empirical penalty parameter choices for each client. Extensive numerical experiments on both synthetic and real-world datasets are conducted. As validated by some numerical tests, our proposed algorithm can reduce the clients' local computational load significantly and also accelerate the learning process compared to the vanilla FedADMM. | 翻訳日:2024-08-01 20:25:13 公開日:2024-07-31 |
# 高温多モードアルカリ希ガスメモリを用いた多重量子リピータ
Multiplexed quantum repeaters with hot multimode alkali-noble gas memories ( http://arxiv.org/abs/2402.17752v2 ) ライセンス: Link先を確認 | Alexandre Barbosa, Hugo Terças, Emmanuel Zambrini Cruzeiro, | (参考訳) 我々は、原子周波数コム(AFC)プロトコルに基づく希ガス核スピンの非低温光量子メモリを提案する。
貴ガススピンの時間長コヒーレンス寿命とAFCによって提供される大きな帯域幅から,アルカリ金属原子を中間体として,実測的な実験構成で最大9.7 \times 10^{15}$の時間帯域幅積を推定した。
この長寿命マルチモードメモリを活用することで、2000ドル以上の距離をまたいだ絡み合い分布を可能にするファイバーベースの量子リピータ方式を提案する。
最後に、これらの量子メモリが衛星量子通信ネットワークの速度をどのように向上させるかについて議論する。
We propose a non-cryogenic optical quantum memory for noble-gas nuclear spins based on the Atomic Frequency Comb (AFC) protocol. Owing to the hours-long coherence lifetimes of the noble-gas spins and the large bandwidth provided by the AFC independently of the optical depth, we estimate a time-bandwidth product of up to $9.7 \times 10^{15}$ for a realistic experimental configuration, using alkali-metal atoms as mediators. Leveraging this long-lived multimode memory, we propose a fiber-based quantum repeater scheme that could enable entanglement distribution across distances over $2000 \ \mathrm{km}$ with only $8$ elementary links, operating fully without cryogenics. Finally, we discuss how these quantum memories can enhance rates in satellite quantum communication networks. | 翻訳日:2024-08-01 20:25:13 公開日:2024-07-31 |
# NISQデジタル量子コンピュータにおけるトポロジカル量子ウォークの実現
Realizing Topological Quantum Walks on NISQ Digital Quantum Computer ( http://arxiv.org/abs/2402.18685v2 ) ライセンス: Link先を確認 | Mrinal Kanti Giri, Sudhindu Bikash Mandal, | (参考訳) 本稿では,デジタル量子コンピュータを用いた周期変調を用いたAubry-Andr\e-Harper(AAH)格子上の量子ウォークについて検討する。
単一粒子レベルでの様々な初期状態について検討し, ホッピング変調強度と位相因子について検討した。
量子ウォークを格子エッジで粒子で開始すると、AAHモデルのトポロジカルな性質に起因するエッジ状態の堅牢性が明らかになり、このエッジ状態に対する位相因子の影響が示される。
一方、量子ウォークは格子バルク内の粒子から始まるとき、特に強いホッピング変調の下で、バルクウォーカーのエッジからの反発を観察する。
さらに、近辺相互作用(NN)を持つ2つの粒子の量子ウォーク(quantum walk)について調べる。
2人の歩行者が相互作用によって格子の端とバルクから発せられるとき、量子ウォークにおける反発効果を示す。
さらに、NN部位に2つの粒子が配置され、強いホッピング変調強度を受けると、相互作用の存在下での局在を示す。
本研究では, 密度進化, 2粒子相関, 参加エントロピーなどの物理量を調べ, これらの現象を解析し, 量子技術への応用の可能性について考察する。
We study the quantum walk on the off-diagonal Aubry-Andr\'e-Harper (AAH) lattice with periodic modulation using a digital quantum computer. We investigate various initial states at the single-particle level, considering different hopping modulation strengths and phase factors. Initiating the quantum walk with a particle at the lattice edge reveals the robustness of the edge state, attributed to the topological nature of the AAH model, and displays the influence of the phase factor on this edge state. On the other hand, when the quantum walk begins with a particle in the lattice bulk, we observe a repulsion of the bulk walker from the edge, especially under strong hopping modulation. Furthermore, we extend our investigation to the quantum walk of two particles with nearest-neighbour (NN) interaction. We show the repulsion effect in the quantum walk when two walkers originate from the edge and bulk of the lattice due to the interaction. Additionally, when two particles are positioned at NN sites and subjected to strong hopping modulation strength, they exhibit localization in the presence of interaction. We analyze these phenomena by examining physical quantities such as density evolution, two-particle correlation, and participation entropy, and discuss their potential applications in quantum technologies. | 翻訳日:2024-08-01 20:25:13 公開日:2024-07-31 |
# DISORF - 移動ロボットのための分散オンライン3D再構成フレームワーク
DISORF: A Distributed Online 3D Reconstruction Framework for Mobile Robots ( http://arxiv.org/abs/2403.00228v2 ) ライセンス: Link先を確認 | Chunlin Li, Hanrui Fan, Xiaorui Huang, Ruofan Liang, Sankeerth Durvasula, Nandita Vijaykumar, | (参考訳) 本研究では,資源制約された移動ロボットやエッジデバイスが捉えたシーンのオンライン3次元再構成と可視化を実現するためのフレームワークであるDIORFを提案する。
エッジデバイスの限られた計算能力と潜在的に限られたネットワーク可用性に対処するため,エッジデバイスとリモートサーバ間で効率的に計算を分散するフレームワークを設計する。
我々は、オンデバイスSLAMシステムを活用して、ポーズ付きキーフレームを生成し、それらを遠隔サーバに送信し、ニューラル3D手法の最近の進歩を活用して、実行時に高品質な3D再構成と可視化を行う。
我々は、画像サンプリング戦略がレンダリング品質を著しく低下させるおそれのあるオンライントレーニングにおいて、重要な課題を識別する。
本稿では,オンライン学習におけるこの課題に対処する,シフト指数型フレームサンプリング手法を提案する。
我々は,移動ロボットやエッジデバイスのカメラから撮影・ストリームされる未知シーンの高品質なリアルタイム再構築と可視化を実現する上で,我々のフレームワークの有効性を実証する。
We present a framework, DISORF, to enable online 3D reconstruction and visualization of scenes captured by resource-constrained mobile robots and edge devices. To address the limited computing capabilities of edge devices and potentially limited network availability, we design a framework that efficiently distributes computation between the edge device and the remote server. We leverage on-device SLAM systems to generate posed keyframes and transmit them to remote servers that can perform high-quality 3D reconstruction and visualization at runtime by leveraging recent advances in neural 3D methods. We identify a key challenge with online training where naive image sampling strategies can lead to significant degradation in rendering quality. We propose a novel shifted exponential frame sampling method that addresses this challenge for online training. We demonstrate the effectiveness of our framework in enabling high-quality real-time reconstruction and visualization of unknown scenes as they are captured and streamed from cameras in mobile robots and edge devices. | 翻訳日:2024-08-01 20:25:13 公開日:2024-07-31 |
# 人間対機械:ウォーゲームシミュレーションにおける専門家人間と言語モデル間の行動的差異
Human vs. Machine: Behavioral Differences Between Expert Humans and Language Models in Wargame Simulations ( http://arxiv.org/abs/2403.03407v3 ) ライセンス: Link先を確認 | Max Lamparth, Anthony Corso, Jacob Ganz, Oriana Skylar Mastro, Jacquelyn Schneider, Harold Trinkunas, | (参考訳) 一部の人にとって、AIの出現は、より良い意思決定と軍事効果の向上を約束すると同時に、人間のエラーや感情の影響を減らす。
しかし、多くのタスクに適用可能なAIシステム、特に大規模言語モデル(LLM)が、エスカレーションや不必要な紛争に対するリスクの増加の可能性を持つ、高い軍事的意思決定シナリオにおいて、人間と比較してどのように振る舞うかについては、依然として議論がある。
この可能性を検証し、LLMの使用を精査するために、我々は、架空の米中シナリオにおける危機エスカレーションを調査し、人間のプレイヤーチームの行動とLLMシミュレーションされたチームの反応を別々のシミュレーションで比較するように設計された107人の国家安全保障専門家による新たなウォーゲーム実験を使用する。
ここでは, LLMシミュレーションによる応答は, シナリオの変化によってより攻撃的になり, 影響が大きいことが判明した。
LLMとヒトの反応にはかなり高いレベルの一致を示し、個々の行動と戦略傾向の有意な量的および質的な差異を示した。
これらの違いは、戦略的な指示による暴力の適切なレベル、LSMの選択、LLMがプレイヤーのチームを直接決定するか、最初にプレイヤーのチーム間の対話をシミュレートするかに関して、LSMの固有のバイアスに依存する。
ダイアログをシミュレートする場合、議論は品質を欠き、極端に調和を維持します。
LLMシミュレーションは「平和主義者」や「攻撃的な社会パス」のような極端な特徴でさえ有意な違いを示さず、人間のプレイヤーの特徴を説明できない。
シミュレーションの個々の動作間での挙動整合性を求めると、試験されたLCMは互いに逸脱するが、概して何らかの一貫した挙動を示した。
当社の結果は、自律性を認める前に政策立案者が慎重であること、あるいはAIベースの戦略レコメンデーションに従うことを動機付けています。
To some, the advent of AI promises better decision-making and increased military effectiveness while reducing the influence of human error and emotions. However, there is still debate about how AI systems, especially large language models (LLMs) that can be applied to many tasks, behave compared to humans in high-stakes military decision-making scenarios with the potential for increased risks towards escalation and unnecessary conflicts. To test this potential and scrutinize the use of LLMs for such purposes, we use a new wargame experiment with 107 national security experts designed to examine crisis escalation in a fictional US-China scenario and compare the behavior of human player teams to LLM-simulated team responses in separate simulations. Here, we find that the LLM-simulated responses can be more aggressive and significantly affected by changes in the scenario. We show a considerable high-level agreement in the LLM and human responses and significant quantitative and qualitative differences in individual actions and strategic tendencies. These differences depend on intrinsic biases in LLMs regarding the appropriate level of violence following strategic instructions, the choice of LLM, and whether the LLMs are tasked to decide for a team of players directly or first to simulate dialog between a team of players. When simulating the dialog, the discussions lack quality and maintain a farcical harmony. The LLM simulations cannot account for human player characteristics, showing no significant difference even for extreme traits, such as "pacifist" or "aggressive sociopath." When probing behavioral consistency across individual moves of the simulation, the tested LLMs deviated from each other but generally showed somewhat consistent behavior. Our results motivate policymakers to be cautious before granting autonomy or following AI-based strategy recommendations. | 翻訳日:2024-08-01 20:25:13 公開日:2024-07-31 |
# PIPsUS:超音波による自己監督点追跡
PIPsUS: Self-Supervised Point Tracking in Ultrasound ( http://arxiv.org/abs/2403.04969v2 ) ライセンス: Link先を確認 | Wanwen Chen, Adam Schmidt, Eitan Prisman, Septimiu E Salcudean, | (参考訳) 点レベルの対応を見つけることは超音波(US)の基本的な問題であり、頭部や頸部を含む異なる外科手術における術中画像誘導のための米国のランドマーク追跡を可能にする。
例えば、光学フローや特徴マッチングに基づく既存のアメリカの追跡手法は、当初、米国に適用される前にRGBイメージ用に設計されていた。
そのため、ドメインシフトはパフォーマンスに影響を与える可能性がある。
訓練は地道な通信によって監督されるが、アメリカでの取得は高価である。
これらの問題を解決するために,PIPsUSと呼ばれる自己教師付き画素レベルの追跡モデルを提案する。
我々のモデルは、1つの前方通過において任意の数の点を追跡でき、連続するフレームではなく複数の時間情報を利用することができる。
我々は,教師としてRGB画像のために訓練された長期的点追跡モデルを利用して,現実的な動きを学習し,データ拡張を用いて,米国外見からの追跡を強制する,新たな自己教師型トレーニング戦略を開発した。
本手法を頚部, 経口超音波検査, 心エコー検査で評価し, 高速な正規化相互相関と調整光流との比較で高い点追跡精度を示した。
論文が受理されれば、コードは利用可能になる。
Finding point-level correspondences is a fundamental problem in ultrasound (US), since it can enable US landmark tracking for intraoperative image guidance in different surgeries, including head and neck. Most existing US tracking methods, e.g., those based on optical flow or feature matching, were initially designed for RGB images before being applied to US. Therefore domain shift can impact their performance. Training could be supervised by ground-truth correspondences, but these are expensive to acquire in US. To solve these problems, we propose a self-supervised pixel-level tracking model called PIPsUS. Our model can track an arbitrary number of points in one forward pass and exploits temporal information by considering multiple, instead of just consecutive, frames. We developed a new self-supervised training strategy that utilizes a long-term point-tracking model trained for RGB images as a teacher to guide the model to learn realistic motions and use data augmentation to enforce tracking from US appearance. We evaluate our method on neck and oral US and echocardiography, showing higher point tracking accuracy when compared with fast normalized cross-correlation and tuned optical flow. Code will be available once the paper is accepted. | 翻訳日:2024-08-01 20:25:13 公開日:2024-07-31 |
# 加速度MRIのロバスト再構成のための雑音レベル適応拡散モデル
Noise Level Adaptive Diffusion Model for Robust Reconstruction of Accelerated MRI ( http://arxiv.org/abs/2403.05245v2 ) ライセンス: Link先を確認 | Shoujin Huang, Guanxiong Luo, Xi Wang, Ziran Chen, Yuwan Wang, Huaishui Yang, Pheng-Ann Heng, Lingyan Zhang, Mengye Lyu, | (参考訳) 一般に、拡散モデルに基づくMRI再構成法は、画像の再構成にデータ一貫性を付与しながら、人工的な付加ノイズを段階的に除去する。
しかし、現実のMRIは熱ゆらぎによる固有のノイズを既に含んでいる。
この現象は、先進的な研究のために超高速で高解像度の画像シーケンスを使用する場合や、低所得国や中所得国に好まれる低フィールドシステムを使用する場合、特に顕著である。
これらの一般的なシナリオは、既存の拡散モデルに基づく再構築手法の準最適性能や完全な失敗につながる可能性がある。
具体的には、人工的な付加ノイズが徐々に除去されるにつれて、固有のMRIノイズがますます顕著になり、実際のノイズレベルが予め定義された復調スケジュールと矛盾し、結果として不正確な画像再構成が行われる。
この問題に対処するために,新しいNila-DC(NoIse Level Adaptive Data Consistency)演算を用いた後方サンプリング手法を提案する。
2つの公開データセットと0.3Tから3Tまでのフィールド強度を持つ社内臨床データセットを用いて大規模な実験を行い、この手法が最先端のMRI再構成法を超越し、様々なノイズレベルに対して高い堅牢性を有することを示した。
Nilaのコードはhttps://github.com/Solor-pikachu/Nila.comで公開されている。
In general, diffusion model-based MRI reconstruction methods incrementally remove artificially added noise while imposing data consistency to reconstruct the underlying images. However, real-world MRI acquisitions already contain inherent noise due to thermal fluctuations. This phenomenon is particularly notable when using ultra-fast, high-resolution imaging sequences for advanced research, or using low-field systems favored by low- and middle-income countries. These common scenarios can lead to sub-optimal performance or complete failure of existing diffusion model-based reconstruction techniques. Specifically, as the artificially added noise is gradually removed, the inherent MRI noise becomes increasingly pronounced, making the actual noise level inconsistent with the predefined denoising schedule and consequently inaccurate image reconstruction. To tackle this problem, we propose a posterior sampling strategy with a novel NoIse Level Adaptive Data Consistency (Nila-DC) operation. Extensive experiments are conducted on two public datasets and an in-house clinical dataset with field strength ranging from 0.3T to 3T, showing that our method surpasses the state-of-the-art MRI reconstruction methods, and is highly robust against various noise levels. The code for Nila is available at https://github.com/Solor-pikachu/Nila. | 翻訳日:2024-08-01 20:25:13 公開日:2024-07-31 |
# FrameQuant: 変換器のフレキシブルな低ビット量子化
FrameQuant: Flexible Low-Bit Quantization for Transformers ( http://arxiv.org/abs/2403.06082v2 ) ライセンス: Link先を確認 | Harshavardhan Adepu, Zhanpeng Zeng, Li Zhang, Vikas Singh, | (参考訳) トランスフォーマーは多くのビジョンと自然言語処理タスクのための強力な基盤モデルのバックボーンです。
しかし、その計算とメモリ/ストレージのフットプリントは大きいので、そのようなモデルを提供するにはハイエンドのハードウェアを必要とすることが多い。
この難しさを軽減するために、Post-Training Quantizationは、事前訓練されたモデルを変更し、それを8ビット以下に量子化し、計算/メモリ/レイテンシ効率を大幅に向上させようとしている。
このようなモデルは、4ビットに量子化され、性能が損なわれている。
本研究では,Transformerをベースとしたモデルを,わずかに精度を低下させるだけで,わずか2ビット(オーバーヘッドを含む)に定量化する簡単なスキームを概説する。
私たちの定式化の鍵は、Fusion Framesと呼ばれる調和解析から借りた概念です。
我々の主な発見は、量子化は元々の重み空間ではなく、Fusion Frame表現で行われなければならないということである。
量子化をノイズの付加と解釈すると、この問題のキャスティングにより、既知の一貫した回復とノイズの堅牢性を保証する広範囲なボディを起動することができる。
さらに、もし望めば、非雑音フィルタは閉形式で知られている。
様々な実験を通して、トランスフォーマーモデルに対する(ほとんど)2ビット量子化は、大きな効率向上を約束することを示す。
コードはhttps://github.com/vsingh-group/FrameQuantで入手できる。
Transformers are the backbone of powerful foundation models for many Vision and Natural Language Processing tasks. But their compute and memory/storage footprint is large, and so, serving such models is expensive often requiring high-end hardware. To mitigate this difficulty, Post-Training Quantization seeks to modify a pre-trained model and quantize it to eight bits or lower, significantly boosting compute/memory/latency efficiency. Such models have been successfully quantized to four bits with some performance loss. In this work, we outline a simple scheme to quantize Transformer-based models to just two bits (plus some overhead) with only a small drop in accuracy. Key to our formulation is a concept borrowed from Harmonic analysis called Fusion Frames. Our main finding is that the quantization must take place not in the original weight space, but instead in the Fusion Frame representations. If quantization is interpreted as the addition of noise, our casting of the problem allows invoking an extensive body of known consistent recovery and noise robustness guarantees. Further, if desired, de-noising filters are known in closed form. We show empirically, via a variety of experiments, that (almost) two-bit quantization for Transformer models promises sizable efficiency gains. The code is available at https://github.com/vsingh-group/FrameQuant | 翻訳日:2024-08-01 20:25:13 公開日:2024-07-31 |
# 教師なし領域適応のための親和性誘導画像ワープ
Saliency Guided Image Warping for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2403.12712v2 ) ライセンス: Link先を確認 | Shen Zheng, Anurag Ghosh, Srinivasa G. Narasimhan, | (参考訳) 夜間、雨、雪などでは運転が難しい。
良質なラベル付きデータセットの欠如は、そのような条件下でのシーン理解の進歩を妨げている。
大規模ラベル付き明日データセットを用いた教師なしドメイン適応(UDA)は、そのようなケースにおいて有望な研究方向である。
しかし、現在のUDA法では、すべての画像ピクセルを均一に処理し、ドメイン間で劇的に異なるシーン背景(道路、空、歩道など)に過度に依存する。
その結果、より小さく、しばしば疎い前景の物体(例えば、人、車、標識)の効果的な特徴を学ぶのに苦労した。
本研究は、位置画像ワープを用いて、有能な対象領域に焦点を合わせることにより、UDAトレーニングを改善するものである。
我々の洞察では、背景は領域によって大きく異なるが(例:雪の夜と晴れた日)、物体の外観はそれほど変化しない。
そこで我々は,背景環境からの悪影響を低減し,バックボーンの特徴学習を強化するため,オブジェクト領域を適応的にオーバーサンプリングするインスタンスレベルのサリエンシガイダンスを設計する。
そして、ソースからターゲットに適応しながら、より良い学習機能をアンウォープします。
提案手法は,地理,照明,気象条件の順応性を改善し,タスク(セグメンテーション,検出),ドメイン適応アルゴリズム,サリエンシガイダンス,基礎となるモデルアーキテクチャに依存しない。
結果のハイライトは、BDD100K Clear $\rightarrow$ DENSE Foggy, +3.7 mAP50 for BDD100K Day $\rightarrow$ Night, +3.0 mAP50 for BDD100K Clear $\rightarrow$ Rainy, +6.3 mooU for Cityscapes $\rightarrow$ ACDCである。
我々の方法は、最小限のトレーニングメモリを追加し、追加の推論遅延を発生させない。
さらなる結果と分析については、Appendixをご覧ください。
Driving is challenging in conditions like night, rain, and snow. The lack of good labeled datasets has hampered progress in scene understanding under such conditions. Unsupervised domain adaptation (UDA) using large labeled clear-day datasets is a promising research direction in such cases. Current UDA methods, however, treat all image pixels uniformly, leading to over-reliance on the dominant scene backgrounds (e.g., roads, sky, sidewalks) that appear dramatically different across domains. As a result, they struggle to learn effective features of smaller and often sparse foreground objects (e.g., people, vehicles, signs). In this work, we improve UDA training by using in-place image warping to focus on salient object regions. Our insight is that while backgrounds vary significantly across domains (e.g., snowy night vs. clear day), object appearances vary to a lesser extent. Therefore, we design instance-level saliency guidance to adaptively oversample object regions, which reduces adverse effects from background context and enhances backbone feature learning. We then unwarp the better learned features while adapting from source to target. Our approach improves adaptation across geographies, lighting, and weather conditions, and is agnostic to the task (segmentation, detection), domain adaptation algorithm, saliency guidance, and underlying model architecture. Result highlights include +6.1 mAP50 for BDD100K Clear $\rightarrow$ DENSE Foggy, +3.7 mAP50 for BDD100K Day $\rightarrow$ Night, +3.0 mAP50 for BDD100K Clear $\rightarrow$ Rainy, and +6.3 mIoU for Cityscapes $\rightarrow$ ACDC. Our method adds minimal training memory and incurs no additional inference latency. Please see Appendix for more results and analysis. | 翻訳日:2024-08-01 20:15:23 公開日:2024-07-31 |
# ラベルのないデータから言語モデリングを計画するための学習
Learning to Plan for Language Modeling from Unlabeled Data ( http://arxiv.org/abs/2404.00614v2 ) ライセンス: Link先を確認 | Nathan Cornille, Marie-Francine Moens, Florian Mai, | (参考訳) ラベルのないコーパスで次のトークンを予測するトレーニングによって、大きな言語モデルはラベル付きデータなしで多くのタスクを実行することを学ぶ。
しかしながら、彼らの次のToken-Predictionの目標は、コヒーレントな記事を書くなど、計画を必要とするシナリオにおけるパフォーマンスを確実に制限する。
本稿では,自己指導型学習目標を用いて,将来の執筆プロセスを計画するためのモジュールを訓練する。
テキストコンテキストを考えると、この計画モジュールは、クラスタ化されたテキスト埋め込み空間のセントロイドに対応する、将来の抽象的な書き込みアクションを予測することを学習する。
これらの動作を条件づけることで、我々のモデルは、成功した言語モデルの公式を、教師なしの方法でより抽象的な計画へと拡張する。
実験により,本手法は,特にテキスト構造に関して,言語モデルの性能を全般的に向上させることを示した。
我々のフレームワークは、教師なしで言語モデル外部のプランナーモジュールを使っているので、新しいプランナーモジュールは大規模に訓練でき、コミュニティと簡単に共有できる。
By training to predict the next token in an unlabeled corpus, large language models learn to perform many tasks without any labeled data. However, their next-token-prediction objective arguably limits their performance in scenarios that require planning, such as writing a coherent article. In this paper, we train a module for planning the future writing process via a self-supervised learning objective. Given the textual context, this planning module learns to predict future abstract writing actions, which correspond to centroids in a clustered text embedding space. By conditioning on these actions, our model extends the successful language model formula to more abstract planning in an unsupervised way. Empirically, we demonstrate that our method improves language modeling performance in general, particularly with respect to the text structure. Because our framework uses a planner module that is unsupervised and external to the language model, new planner modules can be trained at large scale and easily be shared with the community. | 翻訳日:2024-08-01 20:15:23 公開日:2024-07-31 |
# 人間の解釈可能なプロトタイプを用いた脊椎骨折の解釈可能性の向上
Enhancing Interpretability of Vertebrae Fracture Grading using Human-interpretable Prototypes ( http://arxiv.org/abs/2404.02830v2 ) ライセンス: Link先を確認 | Poulami Sinhamahapatra, Suprosanna Shit, Anjany Sekuboyina, Malek Husseini, David Schinz, Nicolas Lenhart, Joern Menze, Jan Kirschke, Karsten Roscher, Stephan Guennemann, | (参考訳) 椎骨骨折の重症度は, 画像診断の課題である脊椎骨折の重症度を分類し, 近年, 深層学習(DL)モデルが注目されている。
DL支援医療診断のような重要なユースケースにおいて、透明性と信頼性が要求されるにもかかわらず、そのようなモデルを人間に解釈できるようにする試みはごくわずかであった。
さらに、そのようなモデルはポストホックメソッドや追加アノテーションに依存する。
本研究では,脊椎骨折(原型)の関連部分を見つけるための新しい解釈可能・設計手法であるProtoVerseを提案し,そのモデルの決定を人間に理解可能な方法で確実に説明する。
具体的には、複雑なセマンティクスを持つ小さなデータセットにおいて、プロトタイプの反復を緩和するために、新しい多様性促進損失を導入する。
We have been experiment with the VerSe'19 dataset and outformed the existing prototype-based method。
さらに,本モデルはポストホック法に対して優れた解釈性を提供する。
専門の放射線科医は,臨床応用の可能性を示し,その結果の視覚的解釈可能性について検証した。
Vertebral fracture grading classifies the severity of vertebral fractures, which is a challenging task in medical imaging and has recently attracted Deep Learning (DL) models. Only a few works attempted to make such models human-interpretable despite the need for transparency and trustworthiness in critical use cases like DL-assisted medical diagnosis. Moreover, such models either rely on post-hoc methods or additional annotations. In this work, we propose a novel interpretable-by-design method, ProtoVerse, to find relevant sub-parts of vertebral fractures (prototypes) that reliably explain the model's decision in a human-understandable way. Specifically, we introduce a novel diversity-promoting loss to mitigate prototype repetitions in small datasets with intricate semantics. We have experimented with the VerSe'19 dataset and outperformed the existing prototype-based method. Further, our model provides superior interpretability against the post-hoc method. Importantly, expert radiologists validated the visual interpretability of our results, showing clinical applicability. | 翻訳日:2024-08-01 20:15:23 公開日:2024-07-31 |
# 白血球画像の軽量・ロバスト・説明可能な分類のための神経細胞オートマタ
Neural Cellular Automata for Lightweight, Robust and Explainable Classification of White Blood Cell Images ( http://arxiv.org/abs/2404.05584v2 ) ライセンス: Link先を確認 | Michael Deutges, Ario Sadafi, Nassir Navab, Carsten Marr, | (参考訳) 血液悪性腫瘍の診断は末梢血腫の白血球の正確な同定に依存する。
ディープラーニング技術は、このプロセスを自動細胞分類によって拡張し最適化するための、実行可能なソリューションとして登場しています。
しかし、これらの手法は、限定的な一般化可能性、ドメインシフトに対する感受性、説明可能性の欠如など、いくつかの課題に直面している。
本稿では,神経細胞オートマトン(NCA)に基づく白血球分類の新しいアプローチを提案する。
白血球画像の3つのデータセットを用いて本手法を検証し,従来の方法と比較して競争性能が向上したことを示す。
NCAに基づく手法はパラメータの面で著しく小さく,ドメインシフトに対する堅牢性を示す。
さらに、アーキテクチャは本質的に説明可能であり、各分類の意思決定プロセスに関する洞察を提供し、モデルの予測を理解し、検証するのに役立ちます。
以上の結果から,NAAは画像分類に利用でき,臨床応用の可能性が高く,従来の手法の課題に対処できることが示唆された。
Diagnosis of hematological malignancies depends on accurate identification of white blood cells in peripheral blood smears. Deep learning techniques are emerging as a viable solution to scale and optimize this process by automatic cell classification. However, these techniques face several challenges such as limited generalizability, sensitivity to domain shifts, and lack of explainability. Here, we introduce a novel approach for white blood cell classification based on neural cellular automata (NCA). We test our approach on three datasets of white blood cell images and show that we achieve competitive performance compared to conventional methods. Our NCA-based method is significantly smaller in terms of parameters and exhibits robustness to domain shifts. Furthermore, the architecture is inherently explainable, providing insights into the decision process for each classification, which helps to understand and validate model predictions. Our results demonstrate that NCA can be used for image classification, and that they address key challenges of conventional methods, indicating a high potential for applicability in clinical practice. | 翻訳日:2024-08-01 20:15:23 公開日:2024-07-31 |
# 干ばつストレス同定のための説明可能な軽量深層学習パイプライン
Explainable Light-Weight Deep Learning Pipeline for Improved Drought Stress Identification ( http://arxiv.org/abs/2404.10073v3 ) ライセンス: Link先を確認 | Aswini Kumar Patra, Lingaraj Sahoo, | (参考訳) 作物の干ばつストレスの早期同定は、効果的な緩和対策と収量損失の低減に不可欠である。
非侵襲イメージング技術は、水不足下の植物の微妙な生理的変化を捉え、大きな可能性を秘めている。
センサベースのイメージングデータは、機械学習とディープラーニングアルゴリズムのための豊富な情報源として機能し、干ばつストレスの特定を目的としたさらなる分析を容易にする。
これらのアプローチは好意的な結果をもたらすが、実時間分野の応用には、自然の農業条件の複雑さに特化して設計されたアルゴリズムが必要である。
本研究は,UAVが自然環境下で捕獲したジャガイモの干ばつストレスを分類するための,新しいディープラーニングフレームワークを提案する。
この斬新さは、事前訓練されたネットワークと慎重に設計されたカスタムレイヤの相乗的な組み合わせにある。
このアーキテクチャは、トレーニング済みネットワークの機能抽出機能を活用し、カスタムレイヤはターゲット次元の削減と正規化の強化を可能にし、最終的にパフォーマンスが向上する。
私たちの研究の重要な革新は、説明可能性のテクニックであるグラディエントクラスの活性化マッピング(Grad-CAM)の統合です。
Grad-CAMは、一般的にブラックボックスと呼ばれるディープラーニングモデルの内部動作に光を当てる。
画像内のモデルの焦点領域を可視化することにより、Grad-CAMは解釈可能性を高め、モデルの意思決定プロセスにおける信頼を構築する。
提案フレームワークは,特にDenseNet121事前学習ネットワークにおいて,ストレスクラスを91%の精度で識別するために,97%の精度を達成している。
既存の最先端物体検出アルゴリズムの比較解析により,提案手法の精度と精度が著しく向上したことが明らかとなった。
Early identification of drought stress in crops is vital for implementing effective mitigation measures and reducing yield loss. Non-invasive imaging techniques hold immense potential by capturing subtle physiological changes in plants under water deficit. Sensor based imaging data serves as a rich source of information for machine learning and deep learning algorithms, facilitating further analysis aimed at identifying drought stress. While these approaches yield favorable results, real-time field applications requires algorithms specifically designed for the complexities of natural agricultural conditions. Our work proposes a novel deep learning framework for classifying drought stress in potato crops captured by UAVs in natural settings. The novelty lies in the synergistic combination of a pre-trained network with carefully designed custom layers. This architecture leverages feature extraction capabilities of the pre-trained network while the custom layers enable targeted dimensionality reduction and enhanced regularization, ultimately leading to improved performance. A key innovation of our work involves the integration of Gradient-Class Activation Mapping (Grad-CAM), an explainability technique. Grad-CAM sheds light on the internal workings of the deep learning model, typically referred to as a black box. By visualizing the focus areas of the model within the images, Grad-CAM fosters interpretability and builds trust in the decision-making process of the model. Our proposed framework achieves superior performance, particularly with the DenseNet121 pre-trained network, reaching a precision of 97% to identify the stressed class with an overall accuracy of 91%. Comparative analysis of existing state-of-the-art object detection algorithms reveals the superiority of our approach in significantly higher precision and accuracy. | 翻訳日:2024-08-01 20:15:23 公開日:2024-07-31 |
# 画像内容とメタデータを用いた前立腺MRシリーズの分類
Automatic classification of prostate MR series type using image content and metadata ( http://arxiv.org/abs/2404.10892v2 ) ライセンス: Link先を確認 | Deepa Krishnaswamy, Bálint Kovács, Stefan Denner, Steve Pieper, David Clunie, Christopher P. Bridge, Tina Kapur, Klaus H. Maier-Hein, Andrey Fedorov, | (参考訳) 医用画像データが豊富にあるため、効率的なキュレーションが不可欠である。
磁気共鳴画像に配列型を割り当てることは、科学研究と人工知能に基づく分析に必要である。
しかし、不完全または欠落したメタデータは、効果的な自動化を妨げる。
そこで本稿では,画像データとDICOMメタデータを組み合わせて前立腺癌スキャンシーケンスを分類する深層学習手法を提案する。
メタデータやイメージデータのみと比較して優れた結果を示し、コードをhttps://github.com/deepakri201/DICOMScanClassification.comで公開しています。
With the wealth of medical image data, efficient curation is essential. Assigning the sequence type to magnetic resonance images is necessary for scientific studies and artificial intelligence-based analysis. However, incomplete or missing metadata prevents effective automation. We therefore propose a deep-learning method for classification of prostate cancer scanning sequences based on a combination of image data and DICOM metadata. We demonstrate superior results compared to metadata or image data alone, and make our code publicly available at https://github.com/deepakri201/DICOMScanClassification. | 翻訳日:2024-08-01 20:15:23 公開日:2024-07-31 |
# ホン・オ・マンデル干渉計による量子プラズモニックセンシング
Quantum plasmonic sensing by Hong-Ou-Mandel interferometry ( http://arxiv.org/abs/2404.10994v3 ) ライセンス: Link先を確認 | Seungjin Yoon, Yu Sung Choi, Mark Tame, Jae Woong Yoon, Sergey V. Polyakov, Changhyoup Lee, | (参考訳) 本稿では, 2重クレッツマン構成からなるプラズモンビームスプリッタに埋め込まれ, 分析液の屈折率を計測するHong-Ou-Mandel (HOM) 干渉計を用いて, フラストレーションされた全内部反射ビームスプリッタとして機能する量子プラズモンセンサを提案する。
単一光子検出器と組み合わせたHOM干渉計のセンシング性能をフィッシャー情報を用いて評価し, 分析液の屈折率を推定した。
これはその後、プラズモンビームスプリッターへの光のコヒーレントな状態の注入を考える古典的なベンチマークと比較される。
単一光子の波長と分析体の屈折率を変化させることで、50%の量子増強が達成される範囲を特定し、古典的なベンチマークと比較して観察された挙動について議論する。
本研究は、広範囲のナノフォトニックビームスプリッター構造に直接的な意味を持たせるために、量子強化センシング技術の進歩に関する有用な知見を提供することを期待する。
We propose a quantum plasmonic sensor using Hong-Ou-Mandel (HOM) interferometry that measures the refractive index of an analyte, embedded in a plasmonic beam splitter composed of a dual-Kretschmann configuration, which serves as a frustrated total internal reflection beamsplitter. The sensing performance of the HOM interferometry, combined with single-photon detectors, is evaluated through Fisher information for estimation of the refractive index of the analyte. This is subsequently compared with the classical benchmark that considers the injection of a coherent state of light into the plasmonic beamsplitter. By varying the wavelength of the single photons and the refractive index of the analyte, we identify a wide range where a 50 % quantum enhancement is achieved and discuss the observed behaviors in comparison with the classical benchmark. We expect this study to provide a useful insight into the advancement of quantum-enhanced sensing technologies, with direct implications for a wide range of nanophotonic beamsplitter structures. | 翻訳日:2024-08-01 20:15:23 公開日:2024-07-31 |
# プロセスマイニングの埋め込み:ペトリネットのためのベクトル表現の学習
Process Mining Embeddings: Learning Vector Representations for Petri Nets ( http://arxiv.org/abs/2404.17129v3 ) ライセンス: Link先を確認 | Juan G. Colonna, Ahmed A. Fares, Márcio Duarte, Ricardo Sousa, | (参考訳) プロセスマイニングは、現実世界のビジネスプロセスを発見し、分析し、最適化するための強力なフレームワークを提供する。
ペトリネットは、プロセスの振る舞いをモデリングするための多用途手段を提供する。
しかし、伝統的な手法は複雑なペトリネットを効果的に比較するのに苦労し、プロセスの強化の可能性を妨げている。
この課題に対処するために、Doc2Vecにインスパイアされた教師なしの方法論であるPetriNet2Vecを紹介します。
このアプローチはペトリネットを埋め込みベクトルに変換し、プロセスモデルの比較、クラスタリング、分類を容易にする。
96種類のペトリネットモデルからなるPDCデータセットを用いて,本手法の有効性を検証した。
その結果,PetriNet2Vecはプロセスモデルの構造特性を効果的に把握し,プロセスの正確な分類と効率的なプロセス検索を可能にした。
具体的には、プロセス分類とプロセス検索という2つの重要な下流タスクにおける学習された埋め込みの有用性を強調した。
プロセス分類において、埋め込みはプロセスモデルの構造的特性に基づいた正確な分類を可能にした。
プロセス検索において、埋め込みはコサイン距離を用いて類似したプロセスモデルの効率的な検索を可能にした。
これらの結果はペトリネット2Vecがプロセスマイニング能力を大幅に向上させる可能性を示している。
Process Mining offers a powerful framework for uncovering, analyzing, and optimizing real-world business processes. Petri nets provide a versatile means of modeling process behavior. However, traditional methods often struggle to effectively compare complex Petri nets, hindering their potential for process enhancement. To address this challenge, we introduce PetriNet2Vec, an unsupervised methodology inspired by Doc2Vec. This approach converts Petri nets into embedding vectors, facilitating the comparison, clustering, and classification of process models. We validated our approach using the PDC Dataset, comprising 96 diverse Petri net models. The results demonstrate that PetriNet2Vec effectively captures the structural properties of process models, enabling accurate process classification and efficient process retrieval. Specifically, our findings highlight the utility of the learned embeddings in two key downstream tasks: process classification and process retrieval. In process classification, the embeddings allowed for accurate categorization of process models based on their structural properties. In process retrieval, the embeddings enabled efficient retrieval of similar process models using cosine distance. These results demonstrate the potential of PetriNet2Vec to significantly enhance process mining capabilities. | 翻訳日:2024-08-01 20:15:23 公開日:2024-07-31 |
# ハイパースペクトル画像分類のための分光・空間マンバ
Spectral-Spatial Mamba for Hyperspectral Image Classification ( http://arxiv.org/abs/2404.18401v2 ) ライセンス: Link先を確認 | Lingbo Huang, Yushi Chen, Xin He, | (参考訳) 近年,ハイパースペクトル画像(HSI)分類におけるディープラーニングモデルの性能が向上している。
多くの深層モデルの中で、Transformerは徐々に、HSIにおける空間スペクトルの特徴の長距離依存性のモデリングにおける卓越性に関心を惹きつけてきた。
しかし、Transformerは、他のモデルよりも重く、したがってHSI処理に限られる自己保持機構のため、2次計算複雑性の問題を抱えている。
幸いなことに、最近登場した状態空間モデルベースのMambaは、トランスフォーマーのモデリング能力を実現しつつ、計算効率が優れている。
そこで本稿では,MambaをHSI分類に適用する予備的な試みを行い,スペクトル空間マンバ(SS-Mamba)を提案する。
具体的には、提案されたSS-マンバは、主にスペクトル空間トークン生成モジュールと、いくつかの重ねられたスペクトル空間マンバブロックから構成される。
まず、トークン生成モジュールは任意のHSI立方体を、空間およびスペクトルトークンをシーケンスとして変換する。
そしてこれらのトークンは、スタック化されたスペクトル空間マンバブロック(SS-MB)に送られる。
各SS-MBブロックは2つの基本マンバブロックとスペクトル空間的特徴拡張モジュールから構成される。
空間トークンとスペクトルトークンはそれぞれ2つの基本マンバブロックによって別々に処理される。
さらに、この機能拡張モジュールは、HSIサンプルの中心領域情報を用いて、空間トークンとスペクトルトークンを変調する。
このように、スペクトルトークンと空間トークンは互いに協調し、各ブロック内で情報融合を実現する。
広く利用されているHSIデータセットを用いた実験結果から,提案手法は最先端の手法と比較して,競争力のある結果が得られることがわかった。
Mambaベースの手法は、HSI分類のための新しいウィンドウを開く。
Recently, deep learning models have achieved excellent performance in hyperspectral image (HSI) classification. Among the many deep models, Transformer has gradually attracted interest for its excellence in modeling the long-range dependencies of spatial-spectral features in HSI. However, Transformer has the problem of quadratic computational complexity due to the self-attention mechanism, which is heavier than other models and thus has limited adoption in HSI processing. Fortunately, the recently emerging state space model-based Mamba shows great computational efficiency while achieving the modeling power of Transformers. Therefore, in this paper, we make a preliminary attempt to apply the Mamba to HSI classification, leading to the proposed spectral-spatial Mamba (SS-Mamba). Specifically, the proposed SS-Mamba mainly consists of spectral-spatial token generation module and several stacked spectral-spatial Mamba blocks. Firstly, the token generation module converts any given HSI cube to spatial and spectral tokens as sequences. And then these tokens are sent to stacked spectral-spatial mamba blocks (SS-MB). Each SS-MB block consists of two basic mamba blocks and a spectral-spatial feature enhancement module. The spatial and spectral tokens are processed separately by the two basic mamba blocks, respectively. Besides, the feature enhancement module modulates spatial and spectral tokens using HSI sample's center region information. In this way, the spectral and spatial tokens cooperate with each other and achieve information fusion within each block. The experimental results conducted on widely used HSI datasets reveal that the proposed model achieves competitive results compared with the state-of-the-art methods. The Mamba-based method opens a new window for HSI classification. | 翻訳日:2024-08-01 20:15:23 公開日:2024-07-31 |
# 会話不規則を理解する大規模言語モデル -中国のシットコムを事例として-
Do Large Language Models Understand Conversational Implicature -- A case study with a chinese sitcom ( http://arxiv.org/abs/2404.19509v2 ) ライセンス: Link先を確認 | Shisen Yue, Siyuan Song, Xinyuan Cheng, Hai Hu, | (参考訳) 発話の非リテラルな意味を理解することは、大きな言語モデル(LLM)が人間のような社会コミュニケーション者になるために重要である。
本研究では,中国語の sitcom $\textit{My Own Swordsman}$ の対話をベースとした,会話不規則を目的とした,最初の中国語多元対話型データセットである SwordsmanImp を紹介する。
200の注意深い手作りの質問が含まれており、すべての注釈がグリサンの最大値が違反している。
我々は,複数選択質問タスクと不合理な説明タスクという2つのタスクの下で,オープンソースかつオープンソースな8つのLSMをテストした。
以上の結果から, GPT-4は, 複数質問に対する人間レベルの精度(94%)を達成できることがわかった。
CausalLMはGPT-4の78.5%の精度を示している。
GPT-3.5やいくつかのオープンソースモデルを含む他のモデルは、複数の質問に対して20%から60%の低い精度を示している。
人間のラッカーは、LLMが生み出す障害を、その理性、論理性、および流布度に基づいて評価するよう求められた。
全てのモデルは、主に流動的で自己整合性のあるテキストを生成するが、その説明は、GPT-4を除いては、推論性に乏しい。
さらに,LLMの性能はGricean maximsによって大きくは変化せず,LLMは異なる最大値から導出される不適応を異なる方法で処理していないことが示唆された。
私たちのデータとコードはhttps://github.com/sjtu-compling/llm-pragmatics.comで公開されています。
Understanding the non-literal meaning of an utterance is critical for large language models (LLMs) to become human-like social communicators. In this work, we introduce SwordsmanImp, the first Chinese multi-turn-dialogue-based dataset aimed at conversational implicature, sourced from dialogues in the Chinese sitcom $\textit{My Own Swordsman}$. It includes 200 carefully handcrafted questions, all annotated on which Gricean maxims have been violated. We test eight close-source and open-source LLMs under two tasks: a multiple-choice question task and an implicature explanation task. Our results show that GPT-4 attains human-level accuracy (94%) on multiple-choice questions. CausalLM demonstrates a 78.5% accuracy following GPT-4. Other models, including GPT-3.5 and several open-source models, demonstrate a lower accuracy ranging from 20% to 60% on multiple-choice questions. Human raters were asked to rate the explanation of the implicatures generated by LLMs on their reasonability, logic and fluency. While all models generate largely fluent and self-consistent text, their explanations score low on reasonability except for GPT-4, suggesting that most LLMs cannot produce satisfactory explanations of the implicatures in the conversation. Moreover, we find LLMs' performance does not vary significantly by Gricean maxims, suggesting that LLMs do not seem to process implicatures derived from different maxims differently. Our data and code are available at https://github.com/sjtu-compling/llm-pragmatics. | 翻訳日:2024-08-01 20:15:23 公開日:2024-07-31 |
# 合成語彙データ検証:ダイバージェンスに基づくアプローチ
Synthetic Tabular Data Validation: A Divergence-Based Approach ( http://arxiv.org/abs/2405.07822v2 ) ライセンス: Link先を確認 | Patricia A. Apellániz, Ana Jiménez, Borja Arroyo Galende, Juan Parras, Santiago Zazo, | (参考訳) 表データを使用するさまざまな分野における生成モデルの利用が増加し続けており、実際のデータと合成データの類似性を評価するための堅牢で標準化された検証指標の必要性が強調されている。
現在の手法には統一された枠組みが欠如しており、多様かつしばしば決定的でない統計測度に依存している。
データ分散間の相違を定量化するダイバージェンスは、バリデーションのための有望な道を提供する。
しかし、従来の手法は、結合分布モデリングの複雑さのため、各特徴に対して独立に発散を計算している。
本稿では,差分推定を用いて限界比較の限界を克服する手法を提案する。
我々の中核的な貢献は、実データと合成データの連成分布を考慮した検証指標を構築するために分散推定器を適用することである。
確率的分類器を用いてデータセット間の密度比を近似し、複雑な関係を捕捉する。
具体的には、KL(Kulback-Leibler)の発散とJS(Jensen-Shannon)の発散の2つの発散を計算する。
KL の発散はこの分野で確立された用途を提供し、JS の発散は対称で有界であり、信頼性のある計量を提供する。
このアプローチの有効性は、様々な分布の複雑さを持つ一連の実験によって実証される。
最初のフェーズでは、推定発散と単純な分布に対する解析解を比較し、精度のベンチマークを設定する。
最後に,実世界のデータセットとその対応する合成データを用いて,本手法の有効性を実証する。
本研究は, 表データを超える適用性や, 各種分野における合成データの妥当性向上に大きく貢献する。
The ever-increasing use of generative models in various fields where tabular data is used highlights the need for robust and standardized validation metrics to assess the similarity between real and synthetic data. Current methods lack a unified framework and rely on diverse and often inconclusive statistical measures. Divergences, which quantify discrepancies between data distributions, offer a promising avenue for validation. However, traditional approaches calculate divergences independently for each feature due to the complexity of joint distribution modeling. This paper addresses this challenge by proposing a novel approach that uses divergence estimation to overcome the limitations of marginal comparisons. Our core contribution lies in applying a divergence estimator to build a validation metric considering the joint distribution of real and synthetic data. We leverage a probabilistic classifier to approximate the density ratio between datasets, allowing the capture of complex relationships. We specifically calculate two divergences: the well-known Kullback-Leibler (KL) divergence and the Jensen-Shannon (JS) divergence. KL divergence offers an established use in the field, while JS divergence is symmetric and bounded, providing a reliable metric. The efficacy of this approach is demonstrated through a series of experiments with varying distribution complexities. The initial phase involves comparing estimated divergences with analytical solutions for simple distributions, setting a benchmark for accuracy. Finally, we validate our method on a real-world dataset and its corresponding synthetic counterpart, showcasing its effectiveness in practical applications. This research offers a significant contribution with applicability beyond tabular data and the potential to improve synthetic data validation in various fields. | 翻訳日:2024-08-01 20:15:23 公開日:2024-07-31 |
# コンピュータビジョンとARIMA-LSTMネットワークを用いた太陽コロナホールの解析と予測モデリング
Analysis and Predictive Modeling of Solar Coronal Holes Using Computer Vision and ARIMA-LSTM Networks ( http://arxiv.org/abs/2405.09802v3 ) ライセンス: Link先を確認 | Juyoung Yun, Jungmin Shin, | (参考訳) 宇宙探査の時代には、太陽上のコロナホールは、オープン磁場による衛星や航空機への影響と太陽風の放出の増加により重要な役割を担っている。
本研究では,SDO(Solar Dynamics Observatory)の画像を用いて,コロナホール領域を検出し,その大きさを推定するコンピュータビジョン技術を用いた。
さらに,Long Short-Term Memory(LSTM)ネットワークとARIMAを組み合わせたハイブリッド時系列予測モデルを用いて,コロナホール領域のトレンドを分析し,その地域を7日間にわたって予測する。
時系列データを調べることで、コロナホールの挙動のパターンを特定し、宇宙気象に対するその潜在的な影響を理解することを目指している。
In the era of space exploration, coronal holes on the sun play a significant role due to their impact on satellites and aircraft through their open magnetic fields and increased solar wind emissions. This study employs computer vision techniques to detect coronal hole regions and estimate their sizes using imagery from the Solar Dynamics Observatory (SDO). Additionally, we utilize hybrid time series prediction model, specifically combination of Long Short-Term Memory (LSTM) networks and ARIMA, to analyze trends in the area of coronal holes and predict their areas across various solar regions over a span of seven days. By examining time series data, we aim to identify patterns in coronal hole behavior and understand their potential effects on space weather. | 翻訳日:2024-08-01 20:15:23 公開日:2024-07-31 |
# 不確実性評価を用いたモデルフリー予測
Model Free Prediction with Uncertainty Assessment ( http://arxiv.org/abs/2405.12684v4 ) ライセンス: Link先を確認 | Yuling Jiao, Lican Kang, Jin Liu, Heng Peng, Heng Zuo, | (参考訳) 近年,目的関数を学習するためのディープニューラルネットワークの利用を特徴とするディープ非パラメトリック回帰が,研究の焦点となっている。
理解収束率のかなりの進歩にもかかわらず、漸近性の欠如は厳密な統計的推測を妨げる。
このギャップに対処するため, 条件付き平均推定を行うプラットフォームに, 条件付き拡散モデルを活用して, 深い推定パラダイムを変換する新しいフレームワークを提案する。
理論的には,条件付き拡散モデルのための終端収束率を開発し,生成したサンプルの漸近正規性を確立する。
その結果,信頼性領域の構築が可能となり,統計的に頑健な推測が可能となった。
さらに,数値実験により提案手法の有効性を実証的に検証した。
Deep nonparametric regression, characterized by the utilization of deep neural networks to learn target functions, has emerged as a focus of research attention in recent years. Despite considerable progress in understanding convergence rates, the absence of asymptotic properties hinders rigorous statistical inference. To address this gap, we propose a novel framework that transforms the deep estimation paradigm into a platform conducive to conditional mean estimation, leveraging the conditional diffusion model. Theoretically, we develop an end-to-end convergence rate for the conditional diffusion model and establish the asymptotic normality of the generated samples. Consequently, we are equipped to construct confidence regions, facilitating robust statistical inference. Furthermore, through numerical experiments, we empirically validate the efficacy of our proposed methodology. | 翻訳日:2024-08-01 20:05:33 公開日:2024-07-31 |
# SiNGR : サイン付き正規化ジオデシックトランスフォーメーションレグレッションによる脳腫瘍分離
SiNGR: Brain Tumor Segmentation via Signed Normalized Geodesic Transform Regression ( http://arxiv.org/abs/2405.16813v3 ) ライセンス: Link先を確認 | Trung Dang, Huy Hoang Nguyen, Aleksei Tiulpin, | (参考訳) 脳腫瘍のセグメンテーションにおける主要な課題の1つは、腫瘍の境界に近いボクセルの不確実性から生じる。
しかし、地上の真理分割マスクを生成する従来のプロセスでは、そのような不確かさを適切に扱えない。
0 と 1 の「硬いラベル」は、脳画像のセグメンテーションに関する以前の研究の大多数に概念的に影響を与えた。
その結果、腫瘍の分節は、しばしばボクセル分類によって解決される。
この研究では、この問題をボクセルレベルの回帰とみなし、基底真理は任意のピクセルから腫瘍の境界への確実なマッピングを表す。
我々は,脳腫瘍近傍の不確実性を捉えるために,サイン付き測地線変換に基づく新しい基底真理ラベル変換を提案する。
このアイデアをFocalライクな回帰L1-lossと組み合わせ、その難易度に応じてボクセルを適切に重み付けすることで、高次元出力空間での効果的な回帰学習を可能にする。
提案手法の構成要素を検証し, 各種の最先端セグメンテーションモデルと比較し, アーキテクチャに依存しないことを示す。
提案手法のコードは公開されている(\url{https://github.com/Oulu-IMEDS/SiNGR/})。
One of the primary challenges in brain tumor segmentation arises from the uncertainty of voxels close to tumor boundaries. However, the conventional process of generating ground truth segmentation masks fails to treat such uncertainties properly. Those "hard labels" with 0s and 1s conceptually influenced the majority of prior studies on brain image segmentation. As a result, tumor segmentation is often solved through voxel classification. In this work, we instead view this problem as a voxel-level regression, where the ground truth represents a certainty mapping from any pixel to the border of the tumor. We propose a novel ground truth label transformation, which is based on a signed geodesic transform, to capture the uncertainty in brain tumors' vicinity. We combine this idea with a Focal-like regression L1-loss that enables effective regression learning in high-dimensional output space by appropriately weighting voxels according to their difficulty. We thoroughly conduct an experimental evaluation to validate the components of our proposed method, compare it to a diverse array of state-of-the-art segmentation models, and show that it is architecture-agnostic. The code of our method is made publicly available (\url{https://github.com/Oulu-IMEDS/SiNGR/}). | 翻訳日:2024-08-01 20:05:33 公開日:2024-07-31 |
# Inverse Concave-Utility Reinforcement Learning is Inverse Game Theory
Inverse Concave-Utility Reinforcement Learning is Inverse Game Theory ( http://arxiv.org/abs/2405.19024v2 ) ライセンス: Link先を確認 | Mustafa Mert Çelikok, Frans A. Oliehoek, Jan-Willem van de Meent, | (参考訳) 凹凸ユーティリティによる逆強化学習問題を考察する。
コンケーブユーティリティ強化学習(Concave Utility Reinforcement Learning, CURL)は、線形関数ではなく、状態占有率のコンケーブ関数を用いる標準RL目標の一般化である。
CURLは、模倣学習、純粋な探索、制約されたMDP、オフラインRL、人間規則化されたRLなどの標準RLを含む多くの重要なアプリケーションのインスタンスを表現できることで近年注目を集めている。
逆強化学習は、エージェントの観察された振る舞いを合理化できる未知の報酬関数の回復に焦点を当てた強力なパラダイムである。
逆 RL では、この問題は実現可能な報酬関数の集合を識別するものとして定式化されている。
しかし、CURL問題に対する逆RLは、これまで検討されていない。
本稿では、CURLが古典ベルマン方程式を無効にするため、標準IRL結果の大部分が一般には適用されないことを示す。
これにより、逆CURL問題に対する新たな理論的枠組みが要求される。
CURLと平均場ゲーム間の最近の等価結果を用いて、平均場ゲームサブクラスにおける逆ゲーム理論問題と等価であることを証明し、I-CURLに対する実現可能な報酬の新たな定義を提案する。
本稿では,I-CURL問題に対するLipschitz-Continuityのような仮定の下で,初期クエリとサンプルの複雑性について述べる。
最後に,人間とAIのコラボレーションにおける今後の方向性と応用について概説する。
We consider inverse reinforcement learning problems with concave utilities. Concave Utility Reinforcement Learning (CURL) is a generalisation of the standard RL objective, which employs a concave function of the state occupancy measure, rather than a linear function. CURL has garnered recent attention for its ability to represent instances of many important applications including the standard RL such as imitation learning, pure exploration, constrained MDPs, offline RL, human-regularized RL, and others. Inverse reinforcement learning is a powerful paradigm that focuses on recovering an unknown reward function that can rationalize the observed behaviour of an agent. There has been recent theoretical advances in inverse RL where the problem is formulated as identifying the set of feasible reward functions. However, inverse RL for CURL problems has not been considered previously. In this paper we show that most of the standard IRL results do not apply to CURL in general, since CURL invalidates the classical Bellman equations. This calls for a new theoretical framework for the inverse CURL problem. Using a recent equivalence result between CURL and Mean-field Games, we propose a new definition for the feasible rewards for I-CURL by proving that this problem is equivalent to an inverse game theory problem in a subclass of mean-field games. We present initial query and sample complexity results for the I-CURL problem under assumptions such as Lipschitz-continuity. Finally, we outline future directions and applications in human--AI collaboration enabled by our results. | 翻訳日:2024-08-01 20:05:33 公開日:2024-07-31 |
# 位置:認知神経科学の教訓に触発されたAIの内的解釈可能性フレームワーク
Position: An Inner Interpretability Framework for AI Inspired by Lessons from Cognitive Neuroscience ( http://arxiv.org/abs/2406.01352v2 ) ライセンス: Link先を確認 | Martina G. Vilas, Federico Adolfi, David Poeppel, Gemma Roig, | (参考訳) 内的解釈可能性(Inner Interpretability)は、AIシステムの内部メカニズムを明らかにすることを任務とする、有望な新興分野である。
さらに、最近の批判は、AIのより広い目標を前進させるための有用性に疑問を呈する問題を提起している。
しかし、これらの問題は別の分野の認知神経科学と類似していることが見過ごされている。
ここでは、関係する関係を描き、フィールド間で生産的に伝達できる教訓を強調します。
そこで本研究では,AIの内部解釈可能性研究における機械的説明を構築するための,一般的な概念的枠組みを提案し,具体的な方法論的戦略を提案する。
この概念的なフレームワークによって、インナー・インタプリタビリティは批判を排除し、AIシステムを説明する生産的なパスに自らを置くことができる。
Inner Interpretability is a promising emerging field tasked with uncovering the inner mechanisms of AI systems, though how to develop these mechanistic theories is still much debated. Moreover, recent critiques raise issues that question its usefulness to advance the broader goals of AI. However, it has been overlooked that these issues resemble those that have been grappled with in another field: Cognitive Neuroscience. Here we draw the relevant connections and highlight lessons that can be transferred productively between fields. Based on these, we propose a general conceptual framework and give concrete methodological strategies for building mechanistic explanations in AI inner interpretability research. With this conceptual framework, Inner Interpretability can fend off critiques and position itself on a productive path to explain AI systems. | 翻訳日:2024-08-01 20:05:33 公開日:2024-07-31 |
# 表面符号症候群統計による一般雑音モデルパラメータのベイズ推定
Bayesian Inference of General Noise Model Parameters from Surface Code's Syndrome Statistics ( http://arxiv.org/abs/2406.08981v2 ) ライセンス: Link先を確認 | Takumi Kobori, Synge Todo, | (参考訳) 表面符号のアクティブな研究は、ノイズモデルの情報を活用し、グリッド形状と復号アルゴリズムを最適化することにより、その復号性能を著しく向上できることを示している。
通常、量子誤り訂正符号のノイズモデルのパラメータは、量子プロセストモグラフィーのようないくつかの方法を用いて別々に作成されなければならない。
トモグラフィー前処置の要求を回避するため,デコード中の症候群計測と並行してノイズモデル推定を行う必要がある。
シンドローム計測統計に基づくノイズモデル推定はパウリのノイズに対して十分に研究されているが、振幅減衰のようなより複雑なノイズモデルについては未検討である。
本稿では,モンテカルロサンプリング手法を用いて,表面符号のテンソルネットワークシミュレータを効率的にシミュレートできる一般雑音モデルベイズ推論手法を提案する。
雑音パラメータが一定であり変化しない定常雑音に対しては,マルコフ連鎖モンテカルロに基づく手法を提案する。
より現実的な状況である時間変化ノイズに対しては、シーケンシャルなモンテカルロに基づく別の手法を導入する。
提案手法を静的,時変,非一様などの様々なノイズモデルに適用し,その性能を詳細に評価する。
Active research on the surface code shows that its decoding performance can be significantly enhanced by utilizing the information of the noise model and optimizing the grid shape and decoding algorithm. Usually, the parameters in the noise model for the quantum error correction code must be prepared separately using some method, such as the quantum process tomography. There is a strong need to perform noise model estimation in parallel with the syndrome measurement during decoding to avoid the demanding prior tomography procedure. While noise model estimation based on syndrome measurement statistics is well-explored for Pauli noise, it remains under-studied for more complex noise models like amplitude damping. In this paper, we propose general noise model Bayesian inference methods that integrate the surface code's tensor network simulator, which can efficiently simulate various noise models, with Monte Carlo sampling techniques. For stationary noise, where the noise parameters are constant and do not change, we propose a method based on the Markov chain Monte Carlo. For time-varying noise, which is a more realistic situation, we introduce another method based on the sequential Monte Carlo. We present the numerical results of applying the proposed methods to various noise models, such as static, time-varying, and non-uniform cases, and evaluate their performance in detail. | 翻訳日:2024-08-01 20:05:33 公開日:2024-07-31 |
# 科学研究のためのブラックボックスの解説:生成人工知能時代における科学的手法の再考
Explain the Black Box for the Sake of Science: Revisiting the Scientific Method in the Era of Generative Artificial Intelligence ( http://arxiv.org/abs/2406.10557v2 ) ライセンス: Link先を確認 | Gianmarco Mengaldo, | (参考訳) 科学的手法は、人間の身体の理解から宇宙の仕組みの説明に至るまで、自然科学と応用科学のすべての分野における人間の進歩の基盤となっている。
科学的手法は、実験的な証拠を通じて検証できる再現可能な方法で興味の現象を記述する体系的な規則や原則を識別することに基づいている。
人工知能(AI)の時代、AIシステムが新しい知識を発見する方法について議論がある。
我々は、人類の科学的発見のための複雑な推論が、少なくとも人工知能の出現以前には重要な存在であると主張している。
しかし、AIは説明可能なAIを介して科学的発見に活用することができる。
具体的には、決定を下す上で重要なデータAIシステムが何かを知ることは、ドメインの専門家や科学者との接触点になり得る。
ダイバージェントな見解は、新たな科学的知識に繋がるさらなる科学的調査を引き起こす可能性がある。
The scientific method is the cornerstone of human progress across all branches of the natural and applied sciences, from understanding the human body to explaining how the universe works. The scientific method is based on identifying systematic rules or principles that describe the phenomenon of interest in a reproducible way that can be validated through experimental evidence. In the era of artificial intelligence (AI), there are discussions on how AI systems may discover new knowledge. We argue that human complex reasoning for scientific discovery remains of vital importance, at least before the advent of artificial general intelligence. Yet, AI can be leveraged for scientific discovery via explainable AI. More specifically, knowing what data AI systems deemed important to make decisions can be a point of contact with domain experts and scientists, that can lead to divergent or convergent views on a given scientific problem. Divergent views may spark further scientific investigations leading to new scientific knowledge. | 翻訳日:2024-08-01 20:05:33 公開日:2024-07-31 |
# Vid3D:2次元ビデオ拡散を用いた動的3次元シーンの合成
Vid3D: Synthesis of Dynamic 3D Scenes using 2D Video Diffusion ( http://arxiv.org/abs/2406.11196v3 ) ライセンス: Link先を確認 | Rishab Parthasarathy, Zachary Ankner, Aaron Gokaslan, | (参考訳) コンピュータビジョンにおける最近のフロンティアは、シーンの時間変化した3D表現を生成する3Dビデオ生成のタスクである。
動的3Dシーンを生成するために、現在の手法は、時間とシーンのビューの両方の一貫性を共同で最適化することにより、3Dの時間的ダイナミクスを明示的にモデル化する。
本稿では,現行のアプローチのように時間とともに多視点の一貫性を明示的に実施する必要があるか,あるいはモデルが各タイムステップの3次元表現を独立して生成するのに十分なのかを検討する。
そこで我々は,2次元映像拡散を利用したモデルVid3Dを提案し,まずビデオの時間的ダイナミクスの2次元「シード」を生成し,その後,シードビデオの各ステップ毎に独立して3次元表現を生成する。
我々は,Vid3Dを最先端の2つの3Dビデオ生成手法に対して評価し,3D時間力学を明示的にモデル化していないにもかかわらず,Vid3Dが同等の結果が得られることを確認した。
さらに、Vid3Dの品質が、フレーム毎に生成されたビュー数に依存するかについても検討する。
より少ないビューでいくつかの劣化を観察する一方で、パフォーマンスの劣化は小さいままです。
この結果から,高品質な動的3次元シーンを生成するには3次元時間的知識は必要ない可能性が示唆された。
A recent frontier in computer vision has been the task of 3D video generation, which consists of generating a time-varying 3D representation of a scene. To generate dynamic 3D scenes, current methods explicitly model 3D temporal dynamics by jointly optimizing for consistency across both time and views of the scene. In this paper, we instead investigate whether it is necessary to explicitly enforce multiview consistency over time, as current approaches do, or if it is sufficient for a model to generate 3D representations of each timestep independently. We hence propose a model, Vid3D, that leverages 2D video diffusion to generate 3D videos by first generating a 2D "seed" of the video's temporal dynamics and then independently generating a 3D representation for each timestep in the seed video. We evaluate Vid3D against two state-of-the-art 3D video generation methods and find that Vid3D is achieves comparable results despite not explicitly modeling 3D temporal dynamics. We further ablate how the quality of Vid3D depends on the number of views generated per frame. While we observe some degradation with fewer views, performance degradation remains minor. Our results thus suggest that 3D temporal knowledge may not be necessary to generate high-quality dynamic 3D scenes, potentially enabling simpler generative algorithms for this task. | 翻訳日:2024-08-01 20:05:33 公開日:2024-07-31 |
# MINT-1T: オープンソースのマルチモーダルデータを10倍スケールする: 1トリリオントークンを持つマルチモーダルデータセット
MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens ( http://arxiv.org/abs/2406.11271v3 ) ライセンス: Link先を確認 | Anas Awadalla, Le Xue, Oscar Lo, Manli Shu, Hannah Lee, Etash Kumar Guha, Matt Jordan, Sheng Shen, Mohamed Awadalla, Silvio Savarese, Caiming Xiong, Ran Xu, Yejin Choi, Ludwig Schmidt, | (参考訳) 画像とテキストのフリーフォームなインターリーブ配列を含むマルチモーダルインターリーブデータセットは、フロンティア大規模マルチモーダルモデル(LMM)のトレーニングに不可欠である。
オープンソースLMMの急速な進歩にもかかわらず、大規模で多様なオープンソースマルチモーダルインターリーブデータセットが不足している。
MINT-1Tは,これまでで最も広く多様なオープンソースMultimodal INTerleavedデータセットである。
MINT-1Tは1兆個のテキストトークンと340億の画像で構成され、既存のオープンソースデータセットの10倍のスケールアップである。
さらに、PDFやArXivなどの未使用の資料も含んでいます。
マルチモーダルなインターリーブデータセットのスケーリングには、データキュレーションプロセスを共有し、データセットをリリースすることで、コミュニティにとって大きなメリットがある。
実験の結果,MINT-1TでトレーニングしたLMMは,以前の先行データセット OBELICS でトレーニングしたモデルの性能に匹敵することがわかった。
私たちのデータとコードはhttps://github.com/mlfoundations/MINT-1T.comで公開されます。
Multimodal interleaved datasets featuring free-form interleaved sequences of images and text are crucial for training frontier large multimodal models (LMMs). Despite the rapid progression of open-source LMMs, there remains a pronounced scarcity of large-scale, diverse open-source multimodal interleaved datasets. In response, we introduce MINT-1T, the most extensive and diverse open-source Multimodal INTerleaved dataset to date. MINT-1T comprises one trillion text tokens and 3.4 billion images, a 10x scale-up from existing open-source datasets. Additionally, we include previously untapped sources such as PDFs and ArXiv papers. As scaling multimodal interleaved datasets requires substantial engineering effort, sharing the data curation process and releasing the dataset greatly benefits the community. Our experiments show that LMMs trained on MINT-1T rival the performance of models trained on the previous leading dataset, OBELICS. Our data and code will be released at https://github.com/mlfoundations/MINT-1T. | 翻訳日:2024-08-01 20:05:33 公開日:2024-07-31 |
# ファイングラインドインストラクションバリアントによるインストラクションフォローの強化と評価
Enhancing and Assessing Instruction-Following with Fine-Grained Instruction Variants ( http://arxiv.org/abs/2406.11301v2 ) ライセンス: Link先を確認 | Jiuding Yang, Weidong Guo, Kaitong Yang, Xiangyang Li, Zhuwei Rao, Yu Xu, Di Niu, | (参考訳) 大きな言語モデル(LLM)と正確な命令との効果的なアライメントは、様々な現実世界のシナリオにおいて、それらの応用に不可欠である。
現在の手法は、トレーニングと評価サンプルの多様性と複雑さの向上に重点を置いているが、LLMが類似の命令変種に従う能力を正確に評価するには不十分である。
複雑な命令を単純なサブコンポーネントに分解し、それらを修正し、それらを新しい変種に再構成することで、LLMの命令追従精度のトレーニングおよび評価に欠かせない可変性を導入しながら、元の命令のコンテキストと複雑さを維持できる効果的なデータ拡張手法を提案する。
この手法を用いて,LLMの微調整と評価を行うDeMoReconデータセットを開発した。
以上の結果から,DeMoReconで微調整したLCMは,命令追従ベンチマークと一般的な命令追従ベンチマークの両方において,大幅な性能向上が期待できることがわかった。
The effective alignment of Large Language Models (LLMs) with precise instructions is essential for their application in diverse real-world scenarios. Current methods focus on enhancing the diversity and complexity of training and evaluation samples, yet they fall short in accurately assessing LLMs' ability to follow similar instruction variants. We introduce an effective data augmentation technique that decomposes complex instructions into simpler sub-components, modifies these, and reconstructs them into new variants, thereby preserves the original instruction's context and complexity while introducing variability, which is critical for training and evaluating LLMs' instruction-following precision. We developed the DeMoRecon dataset using this method to both fine-tune and evaluate LLMs. Our findings show that LLMs fine-tuned with DeMoRecon will gain significant performance boost on both ours and commonly used instructions-following benchmarks. | 翻訳日:2024-08-01 20:05:33 公開日:2024-07-31 |
# 語彙意味変化検出のための定義生成
Definition generation for lexical semantic change detection ( http://arxiv.org/abs/2406.14167v2 ) ライセンス: Link先を確認 | Mariia Fedorova, Andrey Kutuzov, Yves Scherrer, | (参考訳) ダイアクロニック語彙変化検出(LSCD)タスクにおける意味表現として,大規模言語モデルによって生成された文脈的単語定義を用いる。
簡単に言えば、生成された定義を「センス」として使用し、比較中の2つの期間における分布を比較することにより、対象単語の変化スコアを検索する。
5つのデータセットと3つの言語を用いて、生成した定義は、時間とともに意味の変化の度合いによって単語の集合をランク付けするのに十分な信号を伝えるのに十分であることを示す。
本手法は,従来の非教師付きセンスベースLSCD法と同等か優れる。
同時に、解釈可能性を保持し、個別の定義=感覚の観点から、特定のシフトの背後にある理由を検査することができる。
これは、説明可能なセマンティックチェンジモデリングの方向性の別のステップである。
We use contextualized word definitions generated by large language models as semantic representations in the task of diachronic lexical semantic change detection (LSCD). In short, generated definitions are used as `senses', and the change score of a target word is retrieved by comparing their distributions in two time periods under comparison. On the material of five datasets and three languages, we show that generated definitions are indeed specific and general enough to convey a signal sufficient to rank sets of words by the degree of their semantic change over time. Our approach is on par with or outperforms prior non-supervised sense-based LSCD methods. At the same time, it preserves interpretability and allows to inspect the reasons behind a specific shift in terms of discrete definitions-as-senses. This is another step in the direction of explainable semantic change modeling. | 翻訳日:2024-08-01 20:05:33 公開日:2024-07-31 |
# 低コストLCM4VISレコメンダV-RECSの解説, キャプション, 提案
V-RECS, a Low-Cost LLM4VIS Recommender with Explanations, Captioning and Suggestions ( http://arxiv.org/abs/2406.15259v2 ) ライセンス: Link先を確認 | Luca Podo, Marco Angelini, Paola Velardi, | (参考訳) NL2VIS(自然言語からビジュアライゼーションまで)は、自然言語クエリを解釈し、基礎となるデータを正確に表現する視覚化に変換する、有望で最近の研究分野である。
ビッグデータの時代を旅する中で、NL2VISは、専門家でないユーザによるデータ探索を大いに促進するので、アプリケーションの可能性はかなり高い。
NL2VISアプリケーションにおける生成AIの利用がますます広まる中で,本論文では,説明文(E),キャプション(C),提案文(S)を付加した最初のLCMベースのビジュアルレコメンダであるV-RECSについて述べる。
V-RECSの視覚化は、専門家でないユーザによる応答検証とデータ探索の両方を容易にする。
さらに,提案手法は,小型モデルを効果的に微調整する手法を活用することにより,強力なLCMの使用に伴う計算,制御可能性,コスト問題を緩和する。
洞察に富んだ視覚化の物語を生成するために,我々は,LLMが正しい回答を得るための論理的ステップを識別し生成するのに役立つ,迅速なエンジニアリング技術であるChain-of-Thoughts (CoT) を用いている。
そこで我々は,教師として働く大規模LLM(GPT-4)が,小さなモデルであるLlama-2-7Bを微調整するためのCoTベースの命令を生成する戦略を採用した。
AIに基づく可視化の定量的評価のためのフレームワークと、参加者のグループによる手作業による評価に基づく大規模な実験により、より低コストで、V-RECSがGPT-4に匹敵するパフォーマンススコアを達成できることを示す。
V-RECSの教師-学生パラダイムの有効性は、未調整のLlamaがほとんどのテストケースでそのタスクを実行できないという事実によっても証明されている。
我々はビジュアライゼーションコミュニティ向けにV-RECSをリリースし、ビジュアライゼーション生成プロセス全体を通してビジュアライゼーションデザイナーを支援する。
NL2VIS (natural language to visualization) is a promising and recent research area that involves interpreting natural language queries and translating them into visualizations that accurately represent the underlying data. As we navigate the era of big data, NL2VIS holds considerable application potential since it greatly facilitates data exploration by non-expert users. Following the increasingly widespread usage of generative AI in NL2VIS applications, in this paper we present V-RECS, the first LLM-based Visual Recommender augmented with explanations(E), captioning(C), and suggestions(S) for further data exploration. V-RECS' visualization narratives facilitate both response verification and data exploration by non-expert users. Furthermore, our proposed solution mitigates computational, controllability, and cost issues associated with using powerful LLMs by leveraging a methodology to effectively fine-tune small models. To generate insightful visualization narratives, we use Chain-of-Thoughts (CoT), a prompt engineering technique to help LLM identify and generate the logical steps to produce a correct answer. Since CoT is reported to perform poorly with small LLMs, we adopted a strategy in which a large LLM (GPT-4), acting as a Teacher, generates CoT-based instructions to fine-tune a small model, Llama-2-7B, which plays the role of a Student. Extensive experiments-based on a framework for the quantitative evaluation of AI-based visualizations and on manual assessment by a group of participants-show that V-RECS achieves performance scores comparable to GPT-4, at a much lower cost. The efficacy of the V-RECS teacher-student paradigm is also demonstrated by the fact that the un-tuned Llama fails to perform the task in the vast majority of test cases. We release V-RECS for the visualization community to assist visualization designers throughout the entire visualization generation process. | 翻訳日:2024-08-01 20:05:33 公開日:2024-07-31 |
# PerAct2:ロボットによる双方向操作タスクのベンチマークと学習
PerAct2: Benchmarking and Learning for Robotic Bimanual Manipulation Tasks ( http://arxiv.org/abs/2407.00278v2 ) ライセンス: Link先を確認 | Markus Grotz, Mohit Shridhar, Tamim Asfour, Dieter Fox, | (参考訳) 両腕間の正確な空間的・時間的調整が要求されるため、両腕の操作は困難である。
実世界のバイマニュアルシステムにはいくつか存在するが、広範囲のテーブルトップタスクにまたがってバイマニュアル機能を体系的に研究する上で、大きなタスク多様性を持つシミュレーションベンチマークが欠如している。
本稿では,RLBenchを双方向操作に拡張することで,そのギャップを解消する。
コードとベンチマークをオープンソースで公開し、23のタスクバリエーションを備えた13の新しいタスクで構成されています。
ベンチマークを開始するために、いくつかの最先端の手法をバイマン的操作に拡張し、また、バイマン的6-DoF操作タスクの学習と実行を可能にする言語条件のビヘイビアクローニングエージェントであるPerAct2を提示した。
我々の新しいネットワークアーキテクチャは、言語処理とアクション予測を効率的に統合し、ロボットがユーザの指定した目標に応じて複雑なバイマニュアルタスクを理解し実行できるようにする。
コード付きプロジェクトのWebサイトは以下の通り。
Bimanual manipulation is challenging due to precise spatial and temporal coordination required between two arms. While there exist several real-world bimanual systems, there is a lack of simulated benchmarks with a large task diversity for systematically studying bimanual capabilities across a wide range of tabletop tasks. This paper addresses the gap by extending RLBench to bimanual manipulation. We open-source our code and benchmark comprising 13 new tasks with 23 unique task variations, each requiring a high degree of coordination and adaptability. To kickstart the benchmark, we extended several state-of-the art methods to bimanual manipulation and also present a language-conditioned behavioral cloning agent -- PerAct2, which enables the learning and execution of bimanual 6-DoF manipulation tasks. Our novel network architecture efficiently integrates language processing with action prediction, allowing robots to understand and perform complex bimanual tasks in response to user-specified goals. Project website with code is available at: http://bimanual.github.io | 翻訳日:2024-08-01 20:05:33 公開日:2024-07-31 |
# 熱力学的作業抽出による多部量子相関の測定
Measuring multipartite quantum correlations by thermodynamic work extraction ( http://arxiv.org/abs/2407.04058v2 ) ライセンス: Link先を確認 | Toshihiro Yada, Nobuyuki Yoshioka, Takahiro Sagawa, | (参考訳) 量子相関は量子力学の核であり、様々な分野において重要な役割を果たす。
両部量子相関は広く研究されているが、多体系の多部量子相関は、その複雑な構造のために解明され続けている。
特に大きな課題は、多部量子相関測度の計算がしばしば指数的なコストを必要とするという事実にある。
本研究では,大域演算と局所演算と古典通信(LOCC)による抽出可能な熱力学的作業の違いに基づいて,多部量子相関の尺度を導入する。
これは仕事不足の多部一般化と見なすことができ、二部量子相関の熱力学的尺度として注目されている。
多部量子相関に対する熱力学的アプローチの際立った特徴は、量子相関の度合いと明確な操作的意味を比較することができることである。
重要なことは、多部労働赤字の効率的な計算方法を開発することである。
この効率的な方法は、行列積状態 (MPS) によって記述される量子多体系の特別なクラスに作用し、数値的なコストはシステムサイズに比例することが示され、直接計算に必要な指数的なコストが大幅に削減される。
AKLT状態とクラスタ状態において,この効率的な手法を実証し,その正確な値を解析的に取得する。
さらに,MPSで記述された量子相転移が,多部作業不足によってよく捉えられていることを示す。
これは、多部量子相関と量子熱力学の基本的な関係を浮き彫りにするだけでなく、量子多体系の構造を効率的に計算可能なプローブとしても機能することを示している。
Quantum correlations are at the core of quantum mechanics and play a crucial role in various fields. While bipartite quantum correlations have been extensively studied, multipartite quantum correlations in many-body systems remain elusive due to their complex structure. In particular, a primary challenge lies in the fact that the calculation of multipartite quantum correlation measure often requires exponential cost. In this work, we tackle this problem by adopting a thermodynamic approach; we introduce a measure of multipartite quantum correlations based on the difference in extractable thermodynamic work by global operations and local operations and classical communication (LOCC). This can be regarded as a multipartite generalization of the work deficit, which has attracted attention as a thermodynamic measure of bipartite quantum correlation. A distinguishing feature of the thermodynamic approach to multipartite quantum correlation is that we can compare the degree of quantum correlations with clear operational meaning. Importantly, we develop an efficient calculation method of the multipartite work deficit. This efficient method works for a special class of quantum many-body systems described by matrix product states (MPS), where the numerical cost is shown to be proportional to the system size, significantly reducing the exponential cost required for the direct calculations. We demonstrate this efficient method in the AKLT state and the cluster state, and analytically obtain the exact values of this measure. We further show that a quantum phase transition described by MPS is well captured by the multipartite work deficit. This shows that the multipartite work deficit does not only highlight the fundamental connection between multipartite quantum correlations and quantum thermodynamics, but also serves as an efficiently-computable probe of the structures of quantum many-body systems. | 翻訳日:2024-08-01 19:55:28 公開日:2024-07-31 |
# 非焦点単眼ビデオからの動的ニューラルラジアンス場
Dynamic Neural Radiance Field From Defocused Monocular Video ( http://arxiv.org/abs/2407.05586v2 ) ライセンス: Link先を確認 | Xianrui Luo, Huiqiang Sun, Juewen Peng, Zhiguo Cao, | (参考訳) 近年,一眼レフビデオからの動的ニューラルラジアンス場 (NeRF) を時空の新規なビュー合成のために探索し,優れた結果を得た。
しかし、深度変化によるデフォーカスのぼかしは、しばしばビデオキャプチャーで発生し、鋭い詳細の欠如が入力ビュー間の時間的一貫性のモデリングに干渉するため、動的再構成の品質を損なう。
この問題に対処するために,D2RF法を提案する。D2RF法は,非焦点単眼ビデオから鋭い新しいビューを復元するための最初の動的NeRF法である。
我々は,デフォーカスのぼかしをモデル化し,非集中的な視点で監督される鋭いNeRFを再構成するために,層状Depth-of-Field (DoF)ボリュームレンダリングを導入する。
ブラーモデルはDoFレンダリングとボリュームレンダリングの接続にインスパイアされている。
ボリュームレンダリングの不透明さは、DoFレンダリングのレイヤ可視性と一致します。
このぼかしを実行するために、層状ぼかしカーネルをレイベースカーネルに変更し、最適化されたスパースカーネルを用いて効率よく入力線を収集し、層状DoFボリュームレンダリングで最適化された光線をレンダリングする。
我々は,タスクに焦点を絞った動的シーンを用いたデータセットを合成し,提案手法は空間的時間的一貫性を維持しつつ,デフォーカスのぼやけからオール・イン・フォーカス・ノベルビューを合成する既存手法よりも優れていることを示す。
Dynamic Neural Radiance Field (NeRF) from monocular videos has recently been explored for space-time novel view synthesis and achieved excellent results. However, defocus blur caused by depth variation often occurs in video capture, compromising the quality of dynamic reconstruction because the lack of sharp details interferes with modeling temporal consistency between input views. To tackle this issue, we propose D2RF, the first dynamic NeRF method designed to restore sharp novel views from defocused monocular videos. We introduce layered Depth-of-Field (DoF) volume rendering to model the defocus blur and reconstruct a sharp NeRF supervised by defocused views. The blur model is inspired by the connection between DoF rendering and volume rendering. The opacity in volume rendering aligns with the layer visibility in DoF rendering. To execute the blurring, we modify the layered blur kernel to the ray-based kernel and employ an optimized sparse kernel to gather the input rays efficiently and render the optimized rays with our layered DoF volume rendering. We synthesize a dataset with defocused dynamic scenes for our task, and extensive experiments on our dataset show that our method outperforms existing approaches in synthesizing all-in-focus novel views from defocus blur while maintaining spatial-temporal consistency in the scene. | 翻訳日:2024-08-01 19:55:28 公開日:2024-07-31 |
# ICRA@40パーティで記録されたアースローバーのデータセット
An Earth Rover dataset recorded at the ICRA@40 party ( http://arxiv.org/abs/2407.05735v2 ) ライセンス: Link先を確認 | Qi Zhang, Zhihao Lin, Arnoud Visser, | (参考訳) ICRAは2024年9月にロッテルダムで40周年を迎えた。
1ヶ月後、IROSカンファレンスが開催され、アースローバーチャレンジが予定されている。
この課題では、オープンワールドの自律ナビゲーションモデルが真にオープンワールドの設定について研究されている。
アースローバーチャレンジの一環として、オークランド、オーストラリア、中国武漢など、いくつかの都市で現実のナビゲーションセットが世界中に展開されている。
オランダで記録されている唯一のデータセットは、小さな村のオーデウォーターである。
提案では、ハッピーバースデーICRAパーティーが始まる前に、ホランド・アメリカライン・クルーズターミナルの前にあるロッテルダムのアースローバー・チャレンジで使用されたロボットのデータセットを記録する。
https://github.com/SlamMate/vSLAM-on-FrodoBots-2K
The ICRA conference is celebrating its $40^{th}$ anniversary in Rotterdam in September 2024, with as highlight the Happy Birthday ICRA Party at the iconic Holland America Line Cruise Terminal. One month later the IROS conference will take place, which will include the Earth Rover Challenge. In this challenge open-world autonomous navigation models are studied truly open-world settings. As part of the Earth Rover Challenge several real-world navigation sets in several cities world-wide, like Auckland, Australia and Wuhan, China. The only dataset recorded in the Netherlands is the small village Oudewater. The proposal is to record a dataset with the robot used in the Earth Rover Challenge in Rotterdam, in front of the Holland America Line Cruise Terminal, before the festivities of the Happy Birthday ICRA Party start. See: https://github.com/SlamMate/vSLAM-on-FrodoBots-2K | 翻訳日:2024-08-01 19:55:28 公開日:2024-07-31 |
# ドメイン一般化セグメンテーションのためのテキストクエリ駆動型マスク変換器
Textual Query-Driven Mask Transformer for Domain Generalized Segmentation ( http://arxiv.org/abs/2407.09033v2 ) ライセンス: Link先を確認 | Byeonghyun Pak, Byeongju Woo, Sunghwan Kim, Dae-hwan Kim, Hoseong Kim, | (参考訳) 本稿では,視覚言語モデルのテキスト埋め込みから,ドメイン不変の意味知識を活用することによって,ドメイン一般化セマンティックセマンティックセマンティックセマンティックセマンティクス(DGSS)に取り組む手法を提案する。
我々は、変換器ベースのセグメンテーションフレームワーク(テキストオブジェクトクエリ)内で、オブジェクトクエリとしてテキスト埋め込みを使用します。
これらのクエリは、DGSSにおけるピクセルグループ化のドメイン不変基底と見なされる。
テキスト・オブジェクト・クエリのパワーを活用するために,テキスト・クエリ・ドリブン・マスク・トランスフォーマ (tqdm) と呼ばれる新しいフレームワークを導入する。
tqdmの目的は,(1)ドメイン不変セマンティクスを最大エンコードするテキストオブジェクトクエリを生成し,(2)高密度な視覚的特徴のセマンティクスを明確にすることである。
さらに,視覚的特徴とテキスト的特徴の整合により,tqdmの有効性を向上させるために3つの正規化損失を提案する。
本手法を用いることで,本モデルは興味のあるクラスに固有の意味情報を理解し,極端なドメイン(スケッチスタイルなど)に一般化することができる。
我々のtqdmはGTA5$\rightarrow$Cityscapes上で68.9 mIoUを達成した。
プロジェクトのページはhttps://byeonghyunpak.github.io/tqdm.comで公開されている。
In this paper, we introduce a method to tackle Domain Generalized Semantic Segmentation (DGSS) by utilizing domain-invariant semantic knowledge from text embeddings of vision-language models. We employ the text embeddings as object queries within a transformer-based segmentation framework (textual object queries). These queries are regarded as a domain-invariant basis for pixel grouping in DGSS. To leverage the power of textual object queries, we introduce a novel framework named the textual query-driven mask transformer (tqdm). Our tqdm aims to (1) generate textual object queries that maximally encode domain-invariant semantics and (2) enhance the semantic clarity of dense visual features. Additionally, we suggest three regularization losses to improve the efficacy of tqdm by aligning between visual and textual features. By utilizing our method, the model can comprehend inherent semantic information for classes of interest, enabling it to generalize to extreme domains (e.g., sketch style). Our tqdm achieves 68.9 mIoU on GTA5$\rightarrow$Cityscapes, outperforming the prior state-of-the-art method by 2.5 mIoU. The project page is available at https://byeonghyunpak.github.io/tqdm. | 翻訳日:2024-08-01 19:55:28 公開日:2024-07-31 |
# Restore-RWKV:RWKVを用いた効率的な医用画像修復
Restore-RWKV: Efficient and Effective Medical Image Restoration with RWKV ( http://arxiv.org/abs/2407.11087v2 ) ライセンス: Link先を確認 | Zhiwen Yang, Hui Zhang, Dan Zhao, Bingzheng Wei, Yan Xu, | (参考訳) トランスフォーマーは、医療画像の復元に革命をもたらしたが、この二次的な複雑さは、高解像度の医療画像への応用に制限を与えている。
最近のNLP分野におけるRWKVの出現は、長いシーケンスを効率的に処理できるため、多くの注目を集めている。
医用画像復元のためのRWKVモデルであるRestore-RWKVを提案する。
元のRWKVモデルは1次元シーケンス用に設計されているため、2次元画像における空間関係をモデル化するための2つの必要な修正を行う。
まず,線形計算複雑性を伴う大域的依存関係を捕捉する再帰的WKV(Re-WKV)アテンション機構を提案する。
Re-WKVは、グローバルな受容場の基本として双方向の注意を取り入れ、様々なスキャン方向からの2D依存を効果的にモデル化する。
第2に、全方向のトークンシフト(Omni-Shift)層を開発し、全方向から広いコンテキスト範囲にわたってトークンをシフトすることで、局所的な依存関係を高める。
これらの適応により、提案したRestore-RWKVは、医用画像復元の効率的かつ効果的なモデルとなる。
広範囲にわたる実験により、Restore-RWKVはMRI画像の超解像、CT画像のデノイング、PET画像合成、オールインワンの医用画像復元など、様々な医療用画像復元タスクにおいて優れた性能を発揮することが示された。
コードは以下の通り。 \href{https://github.com/Yaziwel/Restore-RWKV.git}{https://github.com/Yaziwel/Restore-RWKV}。
Transformers have revolutionized medical image restoration, but the quadratic complexity still poses limitations for their application to high-resolution medical images. The recent advent of RWKV in the NLP field has attracted much attention as it can process long sequences efficiently. To leverage its advanced design, we propose Restore-RWKV, the first RWKV-based model for medical image restoration. Since the original RWKV model is designed for 1D sequences, we make two necessary modifications for modeling spatial relations in 2D images. First, we present a recurrent WKV (Re-WKV) attention mechanism that captures global dependencies with linear computational complexity. Re-WKV incorporates bidirectional attention as basic for a global receptive field and recurrent attention to effectively model 2D dependencies from various scan directions. Second, we develop an omnidirectional token shift (Omni-Shift) layer that enhances local dependencies by shifting tokens from all directions and across a wide context range. These adaptations make the proposed Restore-RWKV an efficient and effective model for medical image restoration. Extensive experiments demonstrate that Restore-RWKV achieves superior performance across various medical image restoration tasks, including MRI image super-resolution, CT image denoising, PET image synthesis, and all-in-one medical image restoration. Code is available at: \href{https://github.com/Yaziwel/Restore-RWKV.git}{https://github.com/Yaziwel/Restore-RWKV}. | 翻訳日:2024-08-01 19:55:28 公開日:2024-07-31 |
# バイナリ画像認識のためのグラディエントペナルティ付きハイブリッドPix2PixとWGANモデル
Novel Hybrid Integrated Pix2Pix and WGAN Model with Gradient Penalty for Binary Images Denoising ( http://arxiv.org/abs/2407.11865v2 ) ライセンス: Link先を確認 | Luca Tirel, Ali Mohamed Ali, Hashim A. Hashim, | (参考訳) 本稿では,GAN(Generative Adversarial Networks)の利点を活用した画像復号化手法を提案する。
具体的には、Pix2PixモデルとWasserstein GAN(WGAN)とGradient Penalty(WGAN-GP)の要素を組み合わせるモデルを提案する。
このハイブリッドフレームワークは、Pix2Pixモデルで示されているように、条件付きGANの復調能力を活かし、学習プロセスの安定性を損なう可能性のある最適なハイパーパラメータの徹底的な探索の必要性を軽減しようとしている。
提案手法では, ノイズ低減のための条件付きGANのパワーを生かし, 分解画像の生成にGANのジェネレータを用いる。
同時に、更新中のリプシッツ連続性制約の実装は、WGAN-GPで特徴付けられるように、モード崩壊に対する感受性の低下を助長する。
この革新的な設計により、提案モデルはPix2PixとWGAN-GPの双方の強みの恩恵を受けることができ、訓練安定性を確保しつつ優れたデノナイジング結果が得られる。
画像から画像への変換とGAN安定化技術に関するこれまでの研究に基づいて,GANの汎用的解法としての可能性を強調した。
本稿では,本モデルの開発と試験について詳述し,数値実験による有効性を示す。
データセットは、クリーンな画像に合成ノイズを加えることで作成されました。
実世界のデータセット検証に基づく数値的な結果から、画像デノベーションタスクにおけるこのアプローチの有効性が評価され、従来の手法よりも大幅に向上した。
特に,提案モデルでは,合成雑音を訓練しても有効に機能する,強力な一般化能力を示す。
This paper introduces a novel approach to image denoising that leverages the advantages of Generative Adversarial Networks (GANs). Specifically, we propose a model that combines elements of the Pix2Pix model and the Wasserstein GAN (WGAN) with Gradient Penalty (WGAN-GP). This hybrid framework seeks to capitalize on the denoising capabilities of conditional GANs, as demonstrated in the Pix2Pix model, while mitigating the need for an exhaustive search for optimal hyperparameters that could potentially ruin the stability of the learning process. In the proposed method, the GAN's generator is employed to produce denoised images, harnessing the power of a conditional GAN for noise reduction. Simultaneously, the implementation of the Lipschitz continuity constraint during updates, as featured in WGAN-GP, aids in reducing susceptibility to mode collapse. This innovative design allows the proposed model to benefit from the strong points of both Pix2Pix and WGAN-GP, generating superior denoising results while ensuring training stability. Drawing on previous work on image-to-image translation and GAN stabilization techniques, the proposed research highlights the potential of GANs as a general-purpose solution for denoising. The paper details the development and testing of this model, showcasing its effectiveness through numerical experiments. The dataset was created by adding synthetic noise to clean images. Numerical results based on real-world dataset validation underscore the efficacy of this approach in image-denoising tasks, exhibiting significant enhancements over traditional techniques. Notably, the proposed model demonstrates strong generalization capabilities, performing effectively even when trained with synthetic noise. | 翻訳日:2024-08-01 19:55:28 公開日:2024-07-31 |
# ICAGC 2024: Inspirational and Convincing Audio Generation Challenge 2024
ICAGC 2024: Inspirational and Convincing Audio Generation Challenge 2024 ( http://arxiv.org/abs/2407.12038v2 ) ライセンス: Link先を確認 | Ruibo Fu, Rui Liu, Chunyu Qiang, Yingming Gao, Yi Lu, Shuchen Shi, Tao Wang, Ya Li, Zhengqi Wen, Chen Zhang, Hui Bu, Yukun Liu, Xin Qi, Guanjun Li, | (参考訳) ICAGC 2024(Inspirational and Convincing Audio Generation Challenge 2024)は、ISCSLP 2024コンペティション・アンド・チャレンジ・トラックの1つである。
現在のTTS(text-to-speech)技術は高品質な音声を生成することができるが、複雑な感情と制御された詳細コンテンツを伝える能力は依然として限られている。
この制約は、子供向けの共用ロボットやマーケティングボットといった実践的な応用において、生成された音声と人間の主観的知覚との間に相違をもたらす。
問題は、高品質なオーディオ生成と究極の人間の主観的体験の矛盾にある。
そこで本課題は、人間のアライメントの説得力とインスピレーションによる音声生成に焦点を当て、合成音声の説得性と受容性を高めることを目的とする。
本論文では,19チームが参加登録を行い,競技結果と競技結果について述べる。
The Inspirational and Convincing Audio Generation Challenge 2024 (ICAGC 2024) is part of the ISCSLP 2024 Competitions and Challenges track. While current text-to-speech (TTS) technology can generate high-quality audio, its ability to convey complex emotions and controlled detail content remains limited. This constraint leads to a discrepancy between the generated audio and human subjective perception in practical applications like companion robots for children and marketing bots. The core issue lies in the inconsistency between high-quality audio generation and the ultimate human subjective experience. Therefore, this challenge aims to enhance the persuasiveness and acceptability of synthesized audio, focusing on human alignment convincing and inspirational audio generation. A total of 19 teams have registered for the challenge, and the results of the competition and the competition are described in this paper. | 翻訳日:2024-08-01 19:55:28 公開日:2024-07-31 |
# 自律クラウドのためのAIエージェントの構築 - 課題と設計原則
Building AI Agents for Autonomous Clouds: Challenges and Design Principles ( http://arxiv.org/abs/2407.12165v2 ) ライセンス: Link先を確認 | Manish Shetty, Yinfang Chen, Gagan Somashekar, Minghua Ma, Yogesh Simmhan, Xuchao Zhang, Jonathan Mace, Dax Vandevoorde, Pedro Las-Casas, Shachee Mishra Gupta, Suman Nath, Chetan Bansal, Saravan Rajmohan, | (参考訳) ソフトウェア開発とデプロイメントの一部としてのLarge Language Models(LLM)とAI Agentsの利用の急速な成長は、情報技術の展望に革命をもたらしている。
コード生成は大きな注目を集める一方で、AIエージェントをクラウドサービスの運用上のレジリエンスに使用する場合、よりインパクトの高いアプリケーションは、現在、かなりの人的努力とドメイン知識を必要としている。
AI for IT Operations(AIOps)には、障害のローカライゼーションや根本原因分析といった複雑な運用タスクを自動化することを目的としている。
しかし、AIOpsによる自律的および自己修復クラウドのビジョンを達成するには、AIOpsエージェントの構築、評価、改善のための標準フレームワークが欠如しているため、障害となる。
このビジョンペーパーは、まず要求をフレーミングし、それを満たす設計決定について議論することで、そのようなフレームワークの基礎を定めます。
また、アプリケーションをオーケストレーションし、カオスエンジニアリングを使用してリアルタイム障害を注入するエージェント-クラウドインターフェースを活用したプロトタイプ実装であるAIOpsLabや、障害のローカライズと解決を行うエージェントとのインターフェースも提案する。
我々は有望な結果を報告し、自律クラウドのエージェントの構築、評価、改善のためのモジュラーで堅牢なフレームワークを構築するための基礎を築きます。
The rapid growth in the use of Large Language Models (LLMs) and AI Agents as part of software development and deployment is revolutionizing the information technology landscape. While code generation receives significant attention, a higher-impact application lies in using AI agents for operational resilience of cloud services, which currently require significant human effort and domain knowledge. There is a growing interest in AI for IT Operations (AIOps) which aims to automate complex operational tasks, like fault localization and root cause analysis, thereby reducing human intervention and customer impact. However, achieving the vision of autonomous and self-healing clouds through AIOps is hampered by the lack of standardized frameworks for building, evaluating, and improving AIOps agents. This vision paper lays the groundwork for such a framework by first framing the requirements and then discussing design decisions that satisfy them. We also propose AIOpsLab, a prototype implementation leveraging agent-cloud-interface that orchestrates an application, injects real-time faults using chaos engineering, and interfaces with an agent to localize and resolve the faults. We report promising results and lay the groundwork to build a modular and robust framework for building, evaluating, and improving agents for autonomous clouds. | 翻訳日:2024-08-01 19:55:28 公開日:2024-07-31 |
# 潜在因果探索:データ因果モデルによる因果探索の形式的視点
Latent Causal Probing: A Formal Perspective on Probing with Causal Models of Data ( http://arxiv.org/abs/2407.13765v2 ) ライセンス: Link先を確認 | Charles Jin, Martin Rinard, | (参考訳) 言語モデル(LM)は、様々なNLPタスクにおいてパフォーマンスが向上するにつれて、内部動作をよりよく理解するために、分類器の探索は必須の手法となっている。
典型的な設定では、(1)ラベルに注釈付けされたテキストのデータセットからなる補助タスクを定義し、(2)データセットを処理する際に、事前訓練されたLMの表現からラベルを予測するための小さな分類器を監督する。
高い探索精度は、LMが元の事前訓練対象の教師なし副産物として補助タスクを実行することを学習した証拠として解釈される。
しかし、プローブが広く使われているにもかかわらず、探査実験の頑健な設計と分析は依然として課題である。
構造因果モデル (SCM) を用いた探索の形式的視点を開発する。
具体的には、トレーニング中に観測されたトークンの分布を説明するSCMを考慮し、LMがSCMの潜伏変数を表すことを学習したかどうかを中心仮説とする。
実験により,本研究は,基礎となる因果構造の正確なモデルを持つことで,探索実験の結果から強い推論を導き出すことができる,合成グリッドワールドナビゲーションタスクの文脈における最近のLMの研究を拡張した。
我々の手法は、LMがテキストの根底にある潜在概念を誘発する能力を示す、堅牢な実証的な証拠を提供する。
As language models (LMs) deliver increasing performance on a range of NLP tasks, probing classifiers have become an indispensable technique in the effort to better understand their inner workings. A typical setup involves (1) defining an auxiliary task consisting of a dataset of text annotated with labels, then (2) supervising small classifiers to predict the labels from the representations of a pretrained LM as it processed the dataset. A high probing accuracy is interpreted as evidence that the LM has learned to perform the auxiliary task as an unsupervised byproduct of its original pretraining objective. Despite the widespread usage of probes, however, the robust design and analysis of probing experiments remains a challenge. We develop a formal perspective on probing using structural causal models (SCM). Specifically, given an SCM which explains the distribution of tokens observed during training, we frame the central hypothesis as whether the LM has learned to represent the latent variables of the SCM. Empirically, we extend a recent study of LMs in the context of a synthetic grid-world navigation task, where having an exact model of the underlying causal structure allows us to draw strong inferences from the result of probing experiments. Our techniques provide robust empirical evidence for the ability of LMs to induce the latent concepts underlying text. | 翻訳日:2024-08-01 19:55:28 公開日:2024-07-31 |
# F_1$Score Suboptimal for Cybersecurity Models? $C_{score}$の紹介
Is $F_1$ Score Suboptimal for Cybersecurity Models? Introducing $C_{score}$, a Cost-Aware Alternative for Model Assessment ( http://arxiv.org/abs/2407.14664v2 ) ライセンス: Link先を確認 | Manish Marwah, Asad Narayanan, Stephan Jou, Martin Arlitt, Maria Pospelova, | (参考訳) 機械学習分類器、すなわち偽陽性と偽陰性に関する誤差のコストは等しくなく、応用に依存している。
例えば、サイバーセキュリティアプリケーションでは、攻撃を検知しないコストは、攻撃として良心的な活動をマークすることとは大きく異なる。
ハイパーパラメータチューニングやモデル選択など、機械学習モデル構築時のさまざまな設計選択により、データサイエンティストはこの2つのエラー間でトレードオフを行うことができる。
しかし、モデルの精度とリコールの観点から定義される$F_1$ scoreのような、モデル品質を評価するために一般的に使用される指標のほとんどは、これらのエラーを等しく扱い、ユーザがこれらのエラーの実際のコストに対して最適化することが困難である。
本稿では,モデル評価と選択のためにF_1$スコアを置き換える,精度とリコールに基づく新しいコスト対応メトリック,$C_{score}$を提案する。
これには、偽陽性と偽陰性を扱うコストの相違を考慮したコスト比が含まれる。
我々は、新しいコストメトリックを導出し、特徴付けし、それを$F_1$スコアと比較する。
さらに,この指標を,複数コスト比で5つのサイバーセキュリティ関連データセットのしきい値設定に用いた。
その結果、平均的なコスト削減率は49%であった。
The cost of errors related to machine learning classifiers, namely, false positives and false negatives, are not equal and are application dependent. For example, in cybersecurity applications, the cost of not detecting an attack is very different from marking a benign activity as an attack. Various design choices during machine learning model building, such as hyperparameter tuning and model selection, allow a data scientist to trade-off between these two errors. However, most of the commonly used metrics to evaluate model quality, such as $F_1$ score, which is defined in terms of model precision and recall, treat both these errors equally, making it difficult for users to optimize for the actual cost of these errors. In this paper, we propose a new cost-aware metric, $C_{score}$ based on precision and recall that can replace $F_1$ score for model evaluation and selection. It includes a cost ratio that takes into account the differing costs of handling false positives and false negatives. We derive and characterize the new cost metric, and compare it to $F_1$ score. Further, we use this metric for model thresholding for five cybersecurity related datasets for multiple cost ratios. The results show an average cost savings of 49%. | 翻訳日:2024-08-01 19:55:28 公開日:2024-07-31 |
# 大規模言語モデルにおける知識メカニズム:調査と展望
Knowledge Mechanisms in Large Language Models: A Survey and Perspective ( http://arxiv.org/abs/2407.15017v2 ) ライセンス: Link先を確認 | Mengru Wang, Yunzhi Yao, Ziwen Xu, Shuofei Qiao, Shumin Deng, Peng Wang, Xiang Chen, Jia-Chen Gu, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen, Ningyu Zhang, | (参考訳) 大規模言語モデル(LLM)における知識メカニズムの理解は、信頼できるAGIへ進む上で不可欠である。
本稿では,知識利用と進化を含む新しい分類法から知識メカニズムの解析をレビューする。
知識利用は記憶、理解、応用、創造のメカニズムに根ざす。
知識進化は、個人およびグループLLM内の知識の動的進行に焦点を当てている。
さらに, LLMが学んだ知識, パラメトリック知識の脆弱性の理由, 対処が難しい暗黒知識(仮説)についても論じる。
この研究がLLMにおける知識の理解を助け、将来の研究に洞察を与えてくれることを願っています。
Understanding knowledge mechanisms in Large Language Models (LLMs) is crucial for advancing towards trustworthy AGI. This paper reviews knowledge mechanism analysis from a novel taxonomy including knowledge utilization and evolution. Knowledge utilization delves into the mechanism of memorization, comprehension and application, and creation. Knowledge evolution focuses on the dynamic progression of knowledge within individual and group LLMs. Moreover, we discuss what knowledge LLMs have learned, the reasons for the fragility of parametric knowledge, and the potential dark knowledge (hypothesis) that will be challenging to address. We hope this work can help understand knowledge in LLMs and provide insights for future research. | 翻訳日:2024-08-01 19:55:28 公開日:2024-07-31 |
# 拡散モデルにおける記憶の緩和のための反勾配制御による反復的アンサンブル訓練
Iterative Ensemble Training with Anti-Gradient Control for Mitigating Memorization in Diffusion Models ( http://arxiv.org/abs/2407.15328v2 ) ライセンス: Link先を確認 | Xiao Liu, Xiaoliu Guan, Yu Wu, Jiaxu Miao, | (参考訳) 拡散モデルは、新鮮で高品質なサンプルを生成する能力で知られており、最近、データ記憶の振る舞いがプライバシーのリスクを引き起こすという懸念を提起している。
最近のメモリ緩和手法は、クロスモーダル生成タスクにおけるテキストモダリティ問題にのみ焦点をあてるか、あるいはデータ拡張戦略を利用するかのどちらかである。
本稿では,視覚的モダリティの観点からの拡散モデルのための新しいトレーニングフレームワークを提案する。
拡散モデルパラメータに格納された情報を忘れるのを容易にするため,複数のモデルのトレーニングのためにデータを複数のシャードに分割し,間欠的にこれらのモデルパラメータを集約することで,反復的なアンサンブルトレーニング戦略を提案する。
さらに, 記憶し易い画像に対するトレーニング損失が明らかに低い傾向にあることを示す。
そこで本研究では,従来のミニバッチから損失値の低いサンプルを排除し,メモリ化を回避するための逆勾配制御手法を提案する。
提案手法の有効性を示すために,4つのデータセットの大規模な実験と解析を行い,本手法が性能をわずかに改善しつつ,メモリ容量の削減に成功していることを示す。
さらに, 計算コストの削減を図るため, 十分に訓練された拡散モデルを限られたエポックで微調整し, 本手法の適用性を実証した。
コードはhttps://github.com/liuxiao-guan/IET_AGCで入手できる。
Diffusion models, known for their tremendous ability to generate novel and high-quality samples, have recently raised concerns due to their data memorization behavior, which poses privacy risks. Recent approaches for memory mitigation either only focused on the text modality problem in cross-modal generation tasks or utilized data augmentation strategies. In this paper, we propose a novel training framework for diffusion models from the perspective of visual modality, which is more generic and fundamental for mitigating memorization. To facilitate forgetting of stored information in diffusion model parameters, we propose an iterative ensemble training strategy by splitting the data into multiple shards for training multiple models and intermittently aggregating these model parameters. Moreover, practical analysis of losses illustrates that the training loss for easily memorable images tends to be obviously lower. Thus, we propose an anti-gradient control method to exclude the sample with a lower loss value from the current mini-batch to avoid memorizing. Extensive experiments and analysis on four datasets are conducted to illustrate the effectiveness of our method, and results show that our method successfully reduces memory capacity while even improving the performance slightly. Moreover, to save the computing cost, we successfully apply our method to fine-tune the well-trained diffusion models by limited epochs, demonstrating the applicability of our method. Code is available in https://github.com/liuxiao-guan/IET_AGC. | 翻訳日:2024-08-01 19:55:28 公開日:2024-07-31 |
# 自己注意型ニューラルネットワークの実証能力モデル
Empirical Capacity Model for Self-Attention Neural Networks ( http://arxiv.org/abs/2407.15425v2 ) ライセンス: Link先を確認 | Aki Härmä, Marcin Pietrasik, Anna Wilbik, | (参考訳) 大規模な事前学習型自己アテンションニューラルネットワーク(トランスフォーマー)は、近年、様々なタスクで大きな成功を収めている。
与えられたタスクにおけるモデルの性能は、トレーニングデータを記憶し、一般化する能力に依存する。
数十億のパラメータを持つ可能性のある大規模なトランスフォーマーモデルは、理論上、コンテンツを記憶する大きな能力を持っている。
しかし、現在の最適化アルゴリズムは理論的な能力に欠けており、その能力も内容に大きく依存している。
本稿では,一般的なトレーニングアルゴリズムと合成トレーニングデータを用いて得られたモデルのメモリ容量に着目した。
この結果に基づいて,汎用変換器の実証容量モデル(ECM)を導出する。
ECMは、タスクの目標記憶能力を定義する場合に最適なパラメータ数を持つタスク固有トランスフォーマーモデルの設計に使用できる。
Large pretrained self-attention neural networks, or transformers, have been very successful in various tasks recently. The performance of a model on a given task depends on its ability to memorize and generalize the training data. Large transformer models, which may have billions of parameters, in theory have a huge capacity to memorize content. However, the current algorithms for the optimization fall short of the theoretical capacity, and the capacity is also highly dependent on the content. In this paper, we focus on the memory capacity of these models obtained using common training algorithms and synthetic training data. Based on the results, we derive an empirical capacity model (ECM) for a generic transformer. The ECM can be used to design task-specific transformer models with an optimal number of parameters in cases where the target memorization capability of the task can be defined. | 翻訳日:2024-08-01 19:55:28 公開日:2024-07-31 |
# YOLOv10アルゴリズムとデュアルラベルアサインメントシステムによるX線診断
Pediatric Wrist Fracture Detection in X-rays via YOLOv10 Algorithm and Dual Label Assignment System ( http://arxiv.org/abs/2407.15689v2 ) ライセンス: Link先を確認 | Ammar Ahmed, Abdul Manaf, | (参考訳) 関節骨折は小児に多く見られ、学校への通学、スポーツへの参加、基本的なセルフケアなどの日常生活に大きな影響を及ぼす。
適切に治療しなければ、これらの骨折は慢性的な痛み、手首の機能低下、その他の長期合併症を引き起こす可能性がある。
近年、物体検出の進歩は、人間の放射線学者に匹敵する、あるいは超える精度のシステムを含む、骨折検出の強化を約束している。
特にYOLOシリーズは、この領域で顕著な成功を収めた。
本研究は, GRAZPEDWRI-DXデータセットを用いて, 小児手首骨折の診断成績を評価するために, 様々なYOLOv10変異体を徹底的に評価した最初のものである。
モデル複雑性の変化、アーキテクチャのスケーリング、デュアルラベル割り当て戦略の実装によって検出性能が向上する方法について検討する。
実験結果から,このデータセットの平均精度(mAP@50-95)は,現在のYOLOv9ベンチマークの43.3\%を上回った。
これは8.6\%の改善である。
実装コードはhttps://github.com/ammarlodhi255/YOLOv10-Fracture-Detectionで公開されている。
Wrist fractures are highly prevalent among children and can significantly impact their daily activities, such as attending school, participating in sports, and performing basic self-care tasks. If not treated properly, these fractures can result in chronic pain, reduced wrist functionality, and other long-term complications. Recently, advancements in object detection have shown promise in enhancing fracture detection, with systems achieving accuracy comparable to, or even surpassing, that of human radiologists. The YOLO series, in particular, has demonstrated notable success in this domain. This study is the first to provide a thorough evaluation of various YOLOv10 variants to assess their performance in detecting pediatric wrist fractures using the GRAZPEDWRI-DX dataset. It investigates how changes in model complexity, scaling the architecture, and implementing a dual-label assignment strategy can enhance detection performance. Experimental results indicate that our trained model achieved mean average precision (mAP@50-95) of 51.9\% surpassing the current YOLOv9 benchmark of 43.3\% on this dataset. This represents an improvement of 8.6\%. The implementation code is publicly available at https://github.com/ammarlodhi255/YOLOv10-Fracture-Detection | 翻訳日:2024-08-01 19:55:28 公開日:2024-07-31 |
# 分析に基づく大規模言語モデルに対するジェイルブレイク攻撃
Figure it Out: Analyzing-based Jailbreak Attack on Large Language Models ( http://arxiv.org/abs/2407.16205v2 ) ライセンス: Link先を確認 | Shi Lin, Rongchang Li, Xun Wang, Changting Lin, Wenpeng Xing, Meng Han, | (参考訳) LLM(Large Language Models)の急速な開発は、様々なタスクにまたがって顕著な生成能力をもたらしました。
しかし、驚くべき成果にもかかわらず、これらのモデルにはセキュリティ上の脆弱性が数多く残っており、特にジェイルブレイク攻撃に直面している場合はなおさらだ。
したがって, 脱獄攻撃を捜査することで, LLMの隠れた弱点を解明し, より堅牢な防御機構の開発を指導することができる。
本稿では,LLMに対するジェイルブレイク攻撃の境界についてさらに検討し,解析に基づくジェイルブレイク(ABJ)を提案する。
この効果的なジェイルブレイク攻撃法は、LLMの増大する分析と推論能力を活用し、解析ベースのタスクに直面した際の基盤となる脆弱性を明らかにする。
我々は、GPT-4-turbo-0409上で94.8%の攻撃成功率(ASR)と1.06の攻撃効率(AE)を達成し、様々なオープンソースおよびクローズドソース LLM のABJ の詳細な評価を行い、最先端の攻撃効率と効率を示す。
我々の研究は、誤用リスクを軽減するためにLCMの安全性の優先順位付けと強化の重要性を強調しており、コードはhttps://github.com/theshi-1128/ABJ-Attack.comで公開されている。
The rapid development of Large Language Models (LLMs) has brought remarkable generative capabilities across diverse tasks. However, despite the impressive achievements, these models still have numerous security vulnerabilities, particularly when faced with jailbreak attacks. Therefore, by investigating jailbreak attacks, we can uncover hidden weaknesses in LLMs and guide us in developing more robust defense mechanisms to fortify their security. In this paper, we further explore the boundary of jailbreak attacks on LLMs and propose Analyzing-based Jailbreak (ABJ). This effective jailbreak attack method takes advantage of LLMs' growing analyzing and reasoning capability and reveals their underlying vulnerabilities when facing analysis-based tasks. We conduct a detailed evaluation of ABJ across various open-source and closed-source LLMs, which achieves 94.8% Attack Success Rate (ASR) and 1.06 Attack Efficiency (AE) on GPT-4-turbo-0409, demonstrating state-of-the-art attack effectiveness and efficiency. Our research highlights the importance of prioritizing and enhancing the safety of LLMs to mitigate the risks of misuse.The code is publicly available at https://github.com/theshi-1128/ABJ-Attack. | 翻訳日:2024-08-01 19:45:44 公開日:2024-07-31 |
# 多変量ラジアル基底関数ニューラルネットワークによる時系列計算
Time Series Imputation with Multivariate Radial Basis Function Neural Network ( http://arxiv.org/abs/2407.17040v2 ) ライセンス: Link先を確認 | Chanyoung Jung, Yun Jang, | (参考訳) 研究者たちは、時系列データに欠落する値の問題に絶えず取り組んできた。
データの分布を推定するために多くのモデルが提案されている。
Radial Basis Functions Neural Network (RBFNN) は先日,データ分布の推定において異常な性能を示した。
本稿では,RBFNNに基づく時系列計算モデルを提案する。
我々の計算モデルは、タイムスタンプから局所情報を学習し、連続関数を生成する。
さらに、欠落した値の項を考慮し、学習情報を容易にするための時間ギャップも組み込んだ。
我々はこのモデルをMissing Imputation Multivariate RBFNN (MIM-RBFNN)と名付けた。
しかし、MIM-RBFNNは、時間情報の活用に困難をもたらすローカル情報に基づく学習アプローチに依存している。
そこで本研究では,MIM-RBFNNが生成した連続関数を用いたMIRNN-CF(Missing Value Imputation Recurrent Neural Network with Continuous Function)と呼ばれる拡張を提案する。
非ランダムでランダムなパターンを欠いた2つの実世界のデータセットを用いて評価を行い、MIM-RBFNNとMIRNN-CFを比較してアブレーション実験を行った。
Researchers have been persistently working to address the issue of missing values in time series data. Numerous models have been proposed, striving to estimate the distribution of the data. The Radial Basis Functions Neural Network (RBFNN) has recently exhibited exceptional performance in estimating data distribution. In this paper, we propose a time series imputation model based on RBFNN. Our imputation model learns local information from timestamps to create a continuous function. Additionally, we incorporate time gaps to facilitate learning information considering the missing terms of missing values. We name this model the Missing Imputation Multivariate RBFNN (MIM-RBFNN). However, MIM-RBFNN relies on a local information-based learning approach, which presents difficulties in utilizing temporal information. Therefore, we propose an extension called the Missing Value Imputation Recurrent Neural Network with Continuous Function (MIRNN-CF) using the continuous function generated by MIM-RBFNN. We evaluate the performance using two real-world datasets with non-random missing and random missing patterns, and conduct an ablation study comparing MIM-RBFNN and MIRNN-CF. | 翻訳日:2024-08-01 19:45:44 公開日:2024-07-31 |
# XMeCap: サブイメージ適応性を備えたミームキャプション生成
XMeCap: Meme Caption Generation with Sub-Image Adaptability ( http://arxiv.org/abs/2407.17152v2 ) ライセンス: Link先を確認 | Yuyan Chen, Songzhou Yan, Zhihong Zhu, Zhixu Li, Yanghua Xiao, | (参考訳) 社会的な意味や文化的な詳細に深く根ざした噂は、機械にとってユニークな挑戦である。
自然言語処理の進歩はあったが、現実世界のユーモアは、しばしばマルチモーダルな文脈で繁栄し、ミームによって独特にカプセル化されている。
本稿では,マルチイメージがミームキャプションに与える影響を特に強調する。
その後、革新的報酬モデルに基づく教師付き微調整と強化学習を取り入れた新しいアプローチである「textsc{XMeCap} framework」を導入する。
また,同時代のモデルに対してベンチマークを行った結果,単一画像および複数画像のミームと異なるミームカテゴリのキャプション生成に顕著な改善が認められた。
\textsc{XMeCap} は、シングルイメージのミームの平均評価スコアが 75.85 であり、マルチイメージのミームは 66.32 であり、それぞれ最高のベースラインを 3.71 % と 4.82 % で上回っている。
この研究は、ミーム関連研究における新たなフロンティアを確立するだけでなく、マルチモーダル環境でのユーモアの理解と生成における機械の可能性も浮き彫りにしている。
Humor, deeply rooted in societal meanings and cultural details, poses a unique challenge for machines. While advances have been made in natural language processing, real-world humor often thrives in a multi-modal context, encapsulated distinctively by memes. This paper poses a particular emphasis on the impact of multi-images on meme captioning. After that, we introduce the \textsc{XMeCap} framework, a novel approach that adopts supervised fine-tuning and reinforcement learning based on an innovative reward model, which factors in both global and local similarities between visuals and text. Our results, benchmarked against contemporary models, manifest a marked improvement in caption generation for both single-image and multi-image memes, as well as different meme categories. \textsc{XMeCap} achieves an average evaluation score of 75.85 for single-image memes and 66.32 for multi-image memes, outperforming the best baseline by 3.71\% and 4.82\%, respectively. This research not only establishes a new frontier in meme-related studies but also underscores the potential of machines in understanding and generating humor in a multi-modal setting. | 翻訳日:2024-08-01 19:45:44 公開日:2024-07-31 |
# 企業サステナビリティ分析のための説明可能な自然言語処理
Explainable Natural Language Processing for Corporate Sustainability Analysis ( http://arxiv.org/abs/2407.17487v2 ) ライセンス: Link先を確認 | Keane Ong, Rui Mao, Ranjan Satapathy, Ricardo Shirota Filho, Erik Cambria, Johan Sulaeman, Gianmarco Mengaldo, | (参考訳) サステナビリティ(サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ)とは、環境、社会、経済に非破壊的(あるいはプラス的)
持続可能性が受け入れられ、合法的な行動のシノニムとなるにつれ、それはますます要求され、規制されている。
国連の持続可能な開発目標や最近導入された世界的な持続可能性報告フレームワークなど、企業の持続可能性への影響を測定するために、いくつかのフレームワークや標準が提案されている。
しかし、コーポレートサステナビリティの概念は、企業運営(地理的、規模、事業活動、他の利害関係者との相互関係など)の多様で複雑な性質のため複雑である。
その結果、企業サステナビリティ評価は、企業サステナビリティの取り組み(すなわち企業サステナビリティ開示)を反映したデータと、それらを評価するアナリストの両方において主観性に悩まされている。
この主観性は、不完全性、曖昧性、不確実性、データ次元の高度化、および限られた資源とアナリスト次元の潜在的なバイアスなど、異なる課題に蒸留することができる。
総じて、主観性は、サステナビリティの期待に従わない団体への効果的なコスト貢献を妨げ、サステナビリティの取り組みとその関連する規制を無駄にする可能性がある。
この目的のために、説明可能な自然言語処理(XNLP)は企業サステナビリティ分析を大幅に向上させることができると論じる。
具体的には、言語理解アルゴリズム(語彙、意味、構文)とXAI機能(解釈可能性、説明可能性、忠実性)を統合し、分析資源のギャップを埋め、データ内の主観性問題を緩和することができる。
Sustainability commonly refers to entities, such as individuals, companies, and institutions, having a non-detrimental (or even positive) impact on the environment, society, and the economy. With sustainability becoming a synonym of acceptable and legitimate behaviour, it is being increasingly demanded and regulated. Several frameworks and standards have been proposed to measure the sustainability impact of corporations, including United Nations' sustainable development goals and the recently introduced global sustainability reporting framework, amongst others. However, the concept of corporate sustainability is complex due to the diverse and intricate nature of firm operations (i.e. geography, size, business activities, interlinks with other stakeholders). As a result, corporate sustainability assessments are plagued by subjectivity both within data that reflect corporate sustainability efforts (i.e. corporate sustainability disclosures) and the analysts evaluating them. This subjectivity can be distilled into distinct challenges, such as incompleteness, ambiguity, unreliability and sophistication on the data dimension, as well as limited resources and potential bias on the analyst dimension. Put together, subjectivity hinders effective cost attribution to entities non-compliant with prevailing sustainability expectations, potentially rendering sustainability efforts and its associated regulations futile. To this end, we argue that Explainable Natural Language Processing (XNLP) can significantly enhance corporate sustainability analysis. Specifically, linguistic understanding algorithms (lexical, semantic, syntactic), integrated with XAI capabilities (interpretability, explainability, faithfulness), can bridge gaps in analyst resources and mitigate subjectivity problems within data. | 翻訳日:2024-08-01 19:45:44 公開日:2024-07-31 |
# LAPIS:Language Model-Augmented Police Investigation System
LAPIS: Language Model-Augmented Police Investigation System ( http://arxiv.org/abs/2407.20248v2 ) ライセンス: Link先を確認 | Heedou Kim, Dain Kim, Jiwoo Lee, Chanwoong Yoon, Donghee Choi, Mogan Gim, Jaewoo Kang, | (参考訳) 犯罪は時間に反する。
AIが支援する刑事捜査システムでは、警官には迅速だが正確な法的なカウンセリングが必要とされる。
LAPIS(Language Model Augmented Police Investigation System)は,警察官が合理的かつ法的調査を行うのを支援する自動システムである。
そこで我々は,犯罪捜査法理処理を専門とする微調整データセットと検索知識ベースを構築した。
ドメインの専門家のグループによる手作業によるキュレーションの取り組みを取り入れることで、データセットの品質を向上しました。
そこで我々は,より小規模な韓国語モデルの事前学習重量を新たに構築したデータセットに微調整し,犯罪調査知識ベース検索手法と統合した。
実験結果は、LAPISが警察官に信頼できる法的ガイダンスを提供する可能性を示しており、プロプライエタリなGPT-4モデルよりも優れていることを示している。
LAPISが生成した理論的根拠に関する質的な分析は、モデルが前提を活用し、法的に正しい結論を導出する推論能力を示す。
Crime situations are race against time. An AI-assisted criminal investigation system, providing prompt but precise legal counsel is in need for police officers. We introduce LAPIS (Language Model Augmented Police Investigation System), an automated system that assists police officers to perform rational and legal investigative actions. We constructed a finetuning dataset and retrieval knowledgebase specialized in crime investigation legal reasoning task. We extended the dataset's quality by incorporating manual curation efforts done by a group of domain experts. We then finetuned the pretrained weights of a smaller Korean language model to the newly constructed dataset and integrated it with the crime investigation knowledgebase retrieval approach. Experimental results show LAPIS' potential in providing reliable legal guidance for police officers, even better than the proprietary GPT-4 model. Qualitative analysis on the rationales generated by LAPIS demonstrate the model's reasoning ability to leverage the premises and derive legally correct conclusions. | 翻訳日:2024-08-01 19:45:44 公開日:2024-07-31 |
# 生涯的人物探索
Lifelong Person Search ( http://arxiv.org/abs/2407.21252v1 ) ライセンス: Link先を確認 | Jae-Won Yang, Seungbin Hong, Jae-Young Sim, | (参考訳) 人物検索は、クエリ対象をシーンイメージのギャラリーデータセットにローカライズするタスクである。
既存の手法は主に1つのターゲットデータセットのみを扱うために開発されたが、個人検索の実践的応用において、多様なデータセットが継続的に提供される。
このような場合、彼らは、新しいデータセットでトレーニングされた古いデータセットを忘れてしまう破滅的な知識に悩まされる。
本稿では,従来のデータセットで学習した知識を保存しながら,モデルが新たなデータセット上で漸進的に訓練される,生涯人物探索(LPS)の新たな問題を紹介する。
本稿では,前景のプロトタイプ機能と,旧領域におけるハードバックグラウンドの提案を活用することで,知識蒸留を容易にし,旧モデルと新モデルの整合性学習を強制するエンド・ツー・エンドのLPSフレームワークを提案する。
さらに、リハーサルベースのインスタンスマッチングを考案し、ラベルのない人物のインスタンスを付加することにより、古いドメインの識別能力をさらに向上する。
実験の結果,提案手法は,従来の手法と比較して,旧領域で学習した知識を保存するために,検出と再同定の両方において極めて優れた性能を発揮することが示された。
Person search is the task to localize a query person in gallery datasets of scene images. Existing methods have been mainly developed to handle a single target dataset only, however diverse datasets are continuously given in practical applications of person search. In such cases, they suffer from the catastrophic knowledge forgetting in the old datasets when trained on new datasets. In this paper, we first introduce a novel problem of lifelong person search (LPS) where the model is incrementally trained on the new datasets while preserving the knowledge learned in the old datasets. We propose an end-to-end LPS framework that facilitates the knowledge distillation to enforce the consistency learning between the old and new models by utilizing the prototype features of the foreground persons as well as the hard background proposals in the old domains. Moreover, we also devise the rehearsal-based instance matching to further improve the discrimination ability in the old domains by using the unlabeled person instances additionally. Experimental results demonstrate that the proposed method achieves significantly superior performance of both the detection and re-identification to preserve the knowledge learned in the old domains compared with the existing methods. | 翻訳日:2024-08-01 19:04:58 公開日:2024-07-31 |
# 超高分解能画像分割のための適応型インシシト表現マッピングの活用
Leveraging Adaptive Implicit Representation Mapping for Ultra High-Resolution Image Segmentation ( http://arxiv.org/abs/2407.21256v1 ) ライセンス: Link先を確認 | Ziyu Zhao, Xiaoguang Li, Pingping Cai, Canyu Zhang, Song Wang, | (参考訳) 入射表現マッピング(IRM)は、画像特徴を任意の連続分解能に変換することができ、超高分解能画像分割精細化のための強力な能力を示す。
超高解像度画像セグメンテーションを精細化する現在のIRM法は、画像特徴の抽出にCNNベースのエンコーダを頼り、画像特徴のセグメント化にSIRMF(Shared Implicit Representation Mapping Function)を適用していることが多い。
したがって、これらの方法には2つの重要な制限がある。
第一に、CNNベースのエンコーダは、長距離情報を効果的にキャプチャすることができず、ピクセルワイズ機能にグローバルな意味情報が欠落する可能性がある。
第2に、SIRMFはすべてのサンプル間で共有され、多様な入力を一般化し処理する能力を制限する。
これらの制約に対処するために,新たに提案された適応命令表現マッピング(AIRM)を超高解像度画像分割に活用する手法を提案する。
具体的には,(1)アフィニティ・エンパワー・エンコーダ(AEE, Affinity Empowered Encoder, AEE)と,(2)アダプティブ・インプリシット・表現変換関数(AIRMF, Adaptive Implicit Representation Mapping Function, AIRMF)の2つのコンポーネントから構成される。
提案手法は,BIGとPASCAL VOC 2012という超高分解能セグメンテーション精細化データセットを用いて評価した。
大規模な実験により,本手法は競争相手をはるかに上回る結果を得た。
コードには補足材料が備わっている。
Implicit representation mapping (IRM) can translate image features to any continuous resolution, showcasing its potent capability for ultra-high-resolution image segmentation refinement. Current IRM-based methods for refining ultra-high-resolution image segmentation often rely on CNN-based encoders to extract image features and apply a Shared Implicit Representation Mapping Function (SIRMF) to convert pixel-wise features into segmented results. Hence, these methods exhibit two crucial limitations. Firstly, the CNN-based encoder may not effectively capture long-distance information, resulting in a lack of global semantic information in the pixel-wise features. Secondly, SIRMF is shared across all samples, which limits its ability to generalize and handle diverse inputs. To address these limitations, we propose a novel approach that leverages the newly proposed Adaptive Implicit Representation Mapping (AIRM) for ultra-high-resolution Image Segmentation. Specifically, the proposed method comprises two components: (1) the Affinity Empowered Encoder (AEE), a robust feature extractor that leverages the benefits of the transformer architecture and semantic affinity to model long-distance features effectively, and (2) the Adaptive Implicit Representation Mapping Function (AIRMF), which adaptively translates pixel-wise features without neglecting the global semantic information, allowing for flexible and precise feature translation. We evaluated our method on the commonly used ultra-high-resolution segmentation refinement datasets, i.e., BIG and PASCAL VOC 2012. The extensive experiments demonstrate that our method outperforms competitors by a large margin. The code is provided in supplementary material. | 翻訳日:2024-08-01 19:04:58 公開日:2024-07-31 |
# 一般値関数近似を用いた最適分散強化学習
Tractable and Provably Efficient Distributional Reinforcement Learning with General Value Function Approximation ( http://arxiv.org/abs/2407.21260v1 ) ライセンス: Link先を確認 | Taehyun Cho, Seungyub Han, Kyungjae Lee, Seokhun Ju, Dohyeong Kim, Jungwoo Lee, | (参考訳) 分散強化学習は環境確率性を効果的に把握することで性能を向上させるが、その効果に関する包括的な理論的理解はいまだ解明されていない。
本稿では,有限エピソードマルコフ決定過程における一般値関数近似を用いた分布強化学習の後悔解析について述べる。
まず,統計関数型動的計画法を用いて,難解で正確に学習可能な更新に対して,ベルマン不偏性という重要な概念を導入する。
理論的には、有限個のモーメント関数で無限次元の戻り分布を近似することは、統計的統計関数を含む統計情報をバイアスなく学習する唯一の方法である。
第二に、証明可能な効率の良いアルゴリズムである$\texttt{SF-LSVI}$を提案し、$\tilde{O}(d_E H^{\frac{3}{2}}\sqrt{K})$、$H$は地平線、$K$はエピソード数、$d_E$は関数クラスのエリューダー次元である。
Distributional reinforcement learning improves performance by effectively capturing environmental stochasticity, but a comprehensive theoretical understanding of its effectiveness remains elusive. In this paper, we present a regret analysis for distributional reinforcement learning with general value function approximation in a finite episodic Markov decision process setting. We first introduce a key notion of Bellman unbiasedness for a tractable and exactly learnable update via statistical functional dynamic programming. Our theoretical results show that approximating the infinite-dimensional return distribution with a finite number of moment functionals is the only method to learn the statistical information unbiasedly, including nonlinear statistical functionals. Second, we propose a provably efficient algorithm, $\texttt{SF-LSVI}$, achieving a regret bound of $\tilde{O}(d_E H^{\frac{3}{2}}\sqrt{K})$ where $H$ is the horizon, $K$ is the number of episodes, and $d_E$ is the eluder dimension of a function class. | 翻訳日:2024-08-01 19:04:58 公開日:2024-07-31 |
# UMAPを用いた大規模ラジオロジカルデータセットの異常検出
Outlier Detection in Large Radiological Datasets using UMAP ( http://arxiv.org/abs/2407.21263v1 ) ライセンス: Link先を確認 | Mohammad Tariqul Islam, Jason W. Fleischer, | (参考訳) 機械学習アルゴリズムの成功は、サンプルの品質と対応するラベルの精度に大きく依存している。
しかし、大規模で高品質なデータセットの構築とメンテナンスは膨大な作業である。
これは特にバイオメディカルデータや、画像品質、ラベル付け、レポート、アーカイビングのバリエーションがエラー、矛盾、繰り返しサンプルなど、より小さなものからコンパイルされたメタセットに当てはまる。
ここでは、一様多様体近似および投影法(UMAP)アルゴリズムが、本質的には主(良い)データとは異なるが、同じエラー型を持つ他の点と類似した独立クラスタを形成することにより、これらの異常を見つけることができることを示す。
代表的な例として、UMAPを適用して、公開されているChestX-ray14、CheXpert、muraデータセットの外れ値を検出する。
結果はアーカイブと振り返りであり、放射線画像に焦点を当てるが、グラフベースの手法はどんなデータ型でも機能し、データセット作成時のキュレーションにも等しく有用である。
The success of machine learning algorithms heavily relies on the quality of samples and the accuracy of their corresponding labels. However, building and maintaining large, high-quality datasets is an enormous task. This is especially true for biomedical data and for meta-sets that are compiled from smaller ones, as variations in image quality, labeling, reports, and archiving can lead to errors, inconsistencies, and repeated samples. Here, we show that the uniform manifold approximation and projection (UMAP) algorithm can find these anomalies essentially by forming independent clusters that are distinct from the main (good) data but similar to other points with the same error type. As a representative example, we apply UMAP to discover outliers in the publicly available ChestX-ray14, CheXpert, and MURA datasets. While the results are archival and retrospective and focus on radiological images, the graph-based methods work for any data type and will prove equally beneficial for curation at the time of dataset creation. | 翻訳日:2024-08-01 19:04:58 公開日:2024-07-31 |
# 機械生成情報におけるモデル属性:教師付きコントラスト学習を用いた領域一般化手法
Model Attribution in Machine-Generated Disinformation: A Domain Generalization Approach with Supervised Contrastive Learning ( http://arxiv.org/abs/2407.21264v1 ) ライセンス: Link先を確認 | Alimohammad Beigi, Zhen Tan, Nivedh Mudiam, Canyu Chen, Kai Shu, Huan Liu, | (参考訳) 機械生成情報に対するモデル帰属は、その起源を理解し、その拡散を緩和する上で重要な課題となる。
現代の大規模言語モデル(LLM)は、人間のような品質の偽情報を生成するため、この課題は特に困難である。
さらに、偽情報を生成するための方法の多様性は、正確な情報源の属性を複雑にする。
これらの手法は、モデルの基本的特徴を隠蔽できるドメイン固有の特徴を導入している。
本稿では,各プロンプト法が一意なドメインを表す領域一般化問題として,モデル帰属の概念を紹介する。
我々は、効果的な帰属モデルはこれらのドメイン固有の特徴に不変でなければならないと論じる。
また、すべてのシナリオにまたがって発生モデルを識別し、実世界の検出課題を反映することにも長けるべきである。
そこで我々は,教師付きコントラスト学習に基づく新しいアプローチを提案する。
本手法は,プロンプトの変動に対するモデルのロバスト性を高めるために設計され,異なるソースLLMの識別に重点を置いている。
提案手法は,「open-ended'」,「`rewriting'」,「`paraphrasing'」,「`llama 2'」,「`chatgpt'」,「`vicuna'」の3つの先進LDMを含む厳密な実験によって評価される。
本結果は,モデル帰属タスクにおけるアプローチの有効性を実証し,多種多様な未知のデータセットにまたがって最先端のパフォーマンスを実現する。
Model attribution for machine-generated disinformation poses a significant challenge in understanding its origins and mitigating its spread. This task is especially challenging because modern large language models (LLMs) produce disinformation with human-like quality. Additionally, the diversity in prompting methods used to generate disinformation complicates accurate source attribution. These methods introduce domain-specific features that can mask the fundamental characteristics of the models. In this paper, we introduce the concept of model attribution as a domain generalization problem, where each prompting method represents a unique domain. We argue that an effective attribution model must be invariant to these domain-specific features. It should also be proficient in identifying the originating models across all scenarios, reflecting real-world detection challenges. To address this, we introduce a novel approach based on Supervised Contrastive Learning. This method is designed to enhance the model's robustness to variations in prompts and focuses on distinguishing between different source LLMs. We evaluate our model through rigorous experiments involving three common prompting methods: ``open-ended'', ``rewriting'', and ``paraphrasing'', and three advanced LLMs: ``llama 2'', ``chatgpt'', and ``vicuna''. Our results demonstrate the effectiveness of our approach in model attribution tasks, achieving state-of-the-art performance across diverse and unseen datasets. | 翻訳日:2024-08-01 19:04:58 公開日:2024-07-31 |
# DDU-Net: 複数のGPU上のドメイン分解ベースのCNN
DDU-Net: A Domain Decomposition-based CNN on Multiple GPUs ( http://arxiv.org/abs/2407.21266v1 ) ライセンス: Link先を確認 | Corné Verburg, Alexander Heinlein, Eric C. Cyr, | (参考訳) 超高解像度画像のセグメンテーションは、空間情報の喪失や計算不効率といった問題を引き起こす。
本研究では,エンコーダ・デコーダアーキテクチャとドメイン分解戦略を組み合わせた新しい手法を提案する。
具体的には、ドメイン分解に基づくU-Net(DDU-Net)アーキテクチャを導入し、入力イメージを別のデバイスで独立に処理可能な非重複パッチに分割する。
空間コンテキストの理解を高めるために、パッチ間情報交換を容易にするための通信ネットワークが追加される。
通信ネットワークの有効性を測定するために設計された合成データセット上で実験的な検証を行う。
次に、実世界のベンチマークデータセットとして、DeepGlobeランドカバー分類データセット上で性能を試験する。
提案手法は, 画像の非重複部分画像に分割した16\times16$のパッチ間通信を含む手法で, パッチ間通信のない同一ネットワークと比較して, ユニオン(IoU)のスコアが2~3\,\%高くなることを示す。
通信を含むネットワークの性能は,全画像上でトレーニングされたベースラインU-Netと同等であり,空間的コンテキストを保ちながら,超高解像度画像のセグメント化に有効なソリューションを提供することを示す。
コードはhttps://github.com/corne00/HiRes-Seg-CNNで公開されている。
The segmentation of ultra-high resolution images poses challenges such as loss of spatial information or computational inefficiency. In this work, a novel approach that combines encoder-decoder architectures with domain decomposition strategies to address these challenges is proposed. Specifically, a domain decomposition-based U-Net (DDU-Net) architecture is introduced, which partitions input images into non-overlapping patches that can be processed independently on separate devices. A communication network is added to facilitate inter-patch information exchange to enhance the understanding of spatial context. Experimental validation is performed on a synthetic dataset that is designed to measure the effectiveness of the communication network. Then, the performance is tested on the DeepGlobe land cover classification dataset as a real-world benchmark data set. The results demonstrate that the approach, which includes inter-patch communication for images divided into $16\times16$ non-overlapping subimages, achieves a $2-3\,\%$ higher intersection over union (IoU) score compared to the same network without inter-patch communication. The performance of the network which includes communication is equivalent to that of a baseline U-Net trained on the full image, showing that our model provides an effective solution for segmenting ultra-high-resolution images while preserving spatial context. The code is available at https://github.com/corne00/HiRes-Seg-CNN. | 翻訳日:2024-08-01 19:04:58 公開日:2024-07-31 |
# DEF-oriCORN:実演なしでの堅牢な言語操作のための効率的な3Dシーン理解
DEF-oriCORN: efficient 3D scene understanding for robust language-directed manipulation without demonstrations ( http://arxiv.org/abs/2407.21267v1 ) ライセンス: Link先を確認 | Dongwon Son, Sanghyeon Son, Jaehyung Kim, Beomjoon Kim, | (参考訳) 言語指向の操作タスクのためのフレームワークであるDEF-oriCORNを提案する。
オブジェクトをベースとした新しいシーン表現と拡散モデルに基づく状態推定アルゴリズムを活用することで,デモを伴わずにカメラビューの狭い密集環境でも,音声コマンドに応答して効率的でロバストな操作計画が可能になる。
従来の表現とは異なり、我々の表現は効率的な衝突チェックと言語接地を行うことができる。
現状のベースラインと比較すると,本フレームワークは,シミュレーションに特化して訓練されているにもかかわらず,粗いRGB画像からより優れた推定と運動計画性能を達成し,透明で反射的な物体を含む多種多様な物質を含む実世界のシナリオにゼロショットを一般化する。
データ生成、トレーニング、推論、事前トレーニングされたウェイトに関する私たちのコードは、https://sites.google.com/view/def-oricorn/home.comで公開されています。
We present DEF-oriCORN, a framework for language-directed manipulation tasks. By leveraging a novel object-based scene representation and diffusion-model-based state estimation algorithm, our framework enables efficient and robust manipulation planning in response to verbal commands, even in tightly packed environments with sparse camera views without any demonstrations. Unlike traditional representations, our representation affords efficient collision checking and language grounding. Compared to state-of-the-art baselines, our framework achieves superior estimation and motion planning performance from sparse RGB images and zero-shot generalizes to real-world scenarios with diverse materials, including transparent and reflective objects, despite being trained exclusively in simulation. Our code for data generation, training, inference, and pre-trained weights are publicly available at: https://sites.google.com/view/def-oricorn/home. | 翻訳日:2024-08-01 19:04:58 公開日:2024-07-31 |
# 糖尿病網膜症におけるSD-OCTの高反射域自動定量化
Automated Quantification of Hyperreflective Foci in SD-OCT With Diabetic Retinopathy ( http://arxiv.org/abs/2407.21272v1 ) ライセンス: Link先を確認 | Idowu Paul Okuwobi, Zexuan Ji, Wen Fan, Songtao Yuan, Loza Bekalo, Qiang Chen, | (参考訳) 高反射性焦点(HFs)の存在は網膜疾患の進行と関係しており、様々な網膜疾患における視覚的および解剖学的結果の予後因子であることが証明されている。
しかし、HFsを評価するための効率的な定量的ツールが欠如しているため、眼科医はHFsの量を評価することは出来なくなった。
そこで本研究では,スペクトル領域光コヒーレンストモグラフィ(SD-OCT)におけるHFの分別と定量化のための自動定量化アルゴリズムを提案する。
提案アルゴリズムは、関心領域(ROI)生成とHFs推定という2つの並列プロセスからなる。
ROIを生成するために,データ分散とクラスタリングのために構築された再構成画像とヒストグラムを得るために形態的再構成を用いる。
並行して、成分木から得られた連結領域から極端領域を抽出することにより、HFを推定する。
最後に、ROIとHFs推定プロセスの両方をマージして、セグメント化されたHFを得る。
提案アルゴリズムは,非増殖性糖尿病網膜症 (NPDR), 増殖性糖尿病網膜症 (PDR), 糖尿病性黄斑浮腫 (DME) と診断された40例の3D SD-OCTボリュームについて検討した。
平均ダイス類似係数(DSC)と相関係数(r)はそれぞれ69.70%、NPDRは0.99、PDRは70.31%、PDRは0.99、DMEは71.30%、DMEは0.99である。
提案アルゴリズムは,HFsの体積,サイズ,位置など,優れたHFs定量情報を眼科医に提供する。
The presence of hyperreflective foci (HFs) is related to retinal disease progression, and the quantity has proven to be a prognostic factor of visual and anatomical outcome in various retinal diseases. However, lack of efficient quantitative tools for evaluating the HFs has deprived ophthalmologist of assessing the volume of HFs. For this reason, we propose an automated quantification algorithm to segment and quantify HFs in spectral domain optical coherence tomography (SD-OCT). The proposed algorithm consists of two parallel processes namely: region of interest (ROI) generation and HFs estimation. To generate the ROI, we use morphological reconstruction to obtain the reconstructed image and histogram constructed for data distributions and clustering. In parallel, we estimate the HFs by extracting the extremal regions from the connected regions obtained from a component tree. Finally, both the ROI and the HFs estimation process are merged to obtain the segmented HFs. The proposed algorithm was tested on 40 3D SD-OCT volumes from 40 patients diagnosed with non-proliferative diabetic retinopathy (NPDR), proliferative diabetic retinopathy (PDR), and diabetic macular edema (DME). The average dice similarity coefficient (DSC) and correlation coefficient (r) are 69.70%, 0.99 for NPDR, 70.31%, 0.99 for PDR, and 71.30%, 0.99 for DME, respectively. The proposed algorithm can provide ophthalmologist with good HFs quantitative information, such as volume, size, and location of the HFs. | 翻訳日:2024-08-01 19:04:58 公開日:2024-07-31 |
# MSU-Netを用いた超音波画像分割における不確かさ推定の高速化
Enhanced Uncertainty Estimation in Ultrasound Image Segmentation with MSU-Net ( http://arxiv.org/abs/2407.21273v1 ) ライセンス: Link先を確認 | Rohini Banerjee, Cecilia G. Morales, Artur Dubrawski, | (参考訳) 外傷や重篤なケアにおける効果的な血管内アクセスは、患者の予後に大きな影響を及ぼす。
しかし、熟練した医療従事者がアスタール環境で利用できることは、しばしば限られている。
自律型ロボット超音波システムは、薬の配達に針の挿入を補助し、そのようなタスクで非専門家をサポートする。
自律針挿入の進歩にもかかわらず、血管分割予測の不正確さはリスクを引き起こす。
超音波画像における予測モデルの不確実性を理解することは、その信頼性を評価するために重要である。
MSU-Netは,U-Netのアンサンブルをトレーニングし,正確な超音波画像分割マップを生成するための,新しい多段階アプローチである。
1つのモンテカルロU-Netに対して18.1%の大幅な改善、不確実性評価の強化、モデルの透明性、信頼性を実証する。
モデル確実性の領域を強調することで、MSU-Netは安全な針挿入をガイドし、非専門家にそのようなタスクを遂行する権限を与える。
Efficient intravascular access in trauma and critical care significantly impacts patient outcomes. However, the availability of skilled medical personnel in austere environments is often limited. Autonomous robotic ultrasound systems can aid in needle insertion for medication delivery and support non-experts in such tasks. Despite advances in autonomous needle insertion, inaccuracies in vessel segmentation predictions pose risks. Understanding the uncertainty of predictive models in ultrasound imaging is crucial for assessing their reliability. We introduce MSU-Net, a novel multistage approach for training an ensemble of U-Nets to yield accurate ultrasound image segmentation maps. We demonstrate substantial improvements, 18.1% over a single Monte Carlo U-Net, enhancing uncertainty evaluations, model transparency, and trustworthiness. By highlighting areas of model certainty, MSU-Net can guide safe needle insertions, empowering non-experts to accomplish such tasks. | 翻訳日:2024-08-01 19:04:58 公開日:2024-07-31 |
# FreqTSF: 周波数クラマー-クロニッヒ関係を模擬した時系列予測
FreqTSF: Time Series Forecasting Via Simulating Frequency Kramer-Kronig Relations ( http://arxiv.org/abs/2407.21275v1 ) ライセンス: Link先を確認 | Rujia Shen, Liangliang Liu, Boran Wang, Yi Guan, Yang Yang, Jingchi Jiang, | (参考訳) 時系列予測(TSF)は、電気変換、金融取引、医療モニタリング、スマート農業などの広範な応用において非常に重要である。
Transformer をベースとした手法は時系列データを処理できるが,自己保持機構の ‘anti-order' 特性のため,長期時系列を予測できる能力は限られている。
この問題に対処するために、周波数領域に着目して、TSFにおける順序の影響を弱めるとともに、FreqBlockを提案し、まず周波数変換モジュールを通して周波数表現を得る。
その後、新たに設計された周波数クロスアテンションを用いて実部と虚部の間の拡張周波数表現をオブザーバし、アテンション機構と固有のクラマー・クロニッヒ関係(KKR)のリンクを確立する。
我々のバックボーンネットワークであるFreqTSFは、複数のFreqBlocksを結合して周波数領域のKKRをシミュレートし、劣化問題を回避し、残留構造を採用する。
理論的レベルでは、提案した2つのモジュールは、各 FreqBlock 計算に対して $\mathcal{O}(L^2)$ から $\mathcal{O}(L)$ まで、時間とメモリの複雑さを著しく低減できることを示した。
4つのベンチマークデータセットに関する実証研究により、FreqTSFは、最先端の手法と比較して、全体の相対的MSEの15倍、総合的相対的MAEの11倍を達成していることが示された。
コードはまもなく利用可能になる。
Time series forecasting (TSF) is immensely important in extensive applications, such as electricity transformation, financial trade, medical monitoring, and smart agriculture. Although Transformer-based methods can handle time series data, their ability to predict long-term time series is limited due to the ``anti-order" nature of the self-attention mechanism. To address this problem, we focus on frequency domain to weaken the impact of order in TSF and propose the FreqBlock, where we first obtain frequency representations through the Frequency Transform Module. Subsequently, a newly designed Frequency Cross Attention is used to obtian enhanced frequency representations between the real and imaginary parts, thus establishing a link between the attention mechanism and the inherent Kramer-Kronig relations (KKRs). Our backbone network, FreqTSF, adopts a residual structure by concatenating multiple FreqBlocks to simulate KKRs in the frequency domain and avoid degradation problems. On a theoretical level, we demonstrate that the proposed two modules can significantly reduce the time and memory complexity from $\mathcal{O}(L^2)$ to $\mathcal{O}(L)$ for each FreqBlock computation. Empirical studies on four benchmark datasets show that FreqTSF achieves an overall relative MSE reduction of 15\% and an overall relative MAE reduction of 11\% compared to the state-of-the-art methods. The code will be available soon. | 翻訳日:2024-08-01 19:04:58 公開日:2024-07-31 |
# 知識ピラミッドを用いたマルチレベルクエリ
Multi-Level Querying using A Knowledge Pyramid ( http://arxiv.org/abs/2407.21276v1 ) ライセンス: Link先を確認 | Rubing Chen, Xulu Zhang, Jiaxin Wu, Wenqi Fan, Xiao-Yong Wei, Qing Li, | (参考訳) 本稿では,リコールの強化に主眼を置き,既存のRetrieval-Augmented Generation(RAG)手法の精度向上の必要性に対処する。
精度とリコールのバランスを改善するために,RAGフレームワーク内の多層知識ピラミッドアプローチを提案する。
知識ピラミッドはオントロジー、知識グラフ(KG)、チャンクベースの生テキストの3層で構成されている。
我々は,オントロジースキーマとインスタンスの包括的知識カバレッジと動的更新のために,層間拡張技術を採用している。
コンパクト性を確保するため,KGの知識凝縮に層間フィルタリング法を用いる。
我々のアプローチであるPolyRAGは、ピラミッドの頂上からスタートし、自信ある答えが得られるまで進行する、検索のためのウォーターフォールモデルに従っています。
ドメイン固有の知識検索のためのベンチマークを2つ導入する。1つは学術ドメイン、もう1つは金融ドメインである。
提案手法の有効性は, 総合的な実験により評価され, 19SOTA法より優れていた。
提案手法はGPT-4を改良し, 0.1636 から 0.8109 に改良することで 395 % F1 ゲインを提供する。
This paper addresses the need for improved precision in existing Retrieval-Augmented Generation (RAG) methods that primarily focus on enhancing recall. We propose a multi-layer knowledge pyramid approach within the RAG framework to achieve a better balance between precision and recall. The knowledge pyramid consists of three layers: Ontologies, Knowledge Graphs (KGs), and chunk-based raw text. We employ cross-layer augmentation techniques for comprehensive knowledge coverage and dynamic updates of the Ontology schema and instances. To ensure compactness, we utilize cross-layer filtering methods for knowledge condensation in KGs. Our approach, named PolyRAG, follows a waterfall model for retrieval, starting from the top of the pyramid and progressing down until a confident answer is obtained. We introduce two benchmarks for domain-specific knowledge retrieval, one in the academic domain and the other in the financial domain. The effectiveness of the methods has been validated through comprehensive experiments by outperforming 19 SOTA methods. An encouraging observation is that the proposed method has augmented the GPT-4, providing 395\% F1 gain by improving its performance from 0.1636 to 0.8109. | 翻訳日:2024-08-01 19:04:58 公開日:2024-07-31 |
# 健康データ転送におけるバインディングコーポレート・ルール(BCR)の可能性の解き放つ
Unlocking the Potential of Binding Corporate Rules (BCRs) in Health Data Transfers ( http://arxiv.org/abs/2407.21281v1 ) ライセンス: Link先を確認 | Marcelo Corrales Compagnucci, Mark Fenwick, Helena Haapio, | (参考訳) 本章では、EU一般データ保護規則(GDPR)の下での企業グループ内の安全な健康データ転送の管理と促進において、BCR(Bing Corporate Rules)が果たす重要な役割について論じる。
BCRはGDPRやその他の国際データ保護法に準拠するように調整されており、機密性のある健康データやゲノムデータを転送するための柔軟なメカニズムを提供する。
この章は、GDPR国際データ転送メカニズムの幅広い範囲にBCRを配置し、健康データに敏感な性質とAIテクノロジの採用の増加によって引き起こされるユニークな課題に対処する。
欧州データ保護委員会(EDPB)は、Schrems IIの決定に従って発行されたBCRに関する勧告1/2022を批判的に分析し、データ保護とAIガバナンスフレームワークを優先するバランスのとれたアプローチの必要性を強調した。
章では、BCR承認プロセスの概要と、このプロセスの合理化の重要性を強調して、より広範な採用を促進する。
組織が信頼できるAI管理システムを構築するための貴重なガイダンスを提供する、最近採用されている国際標準とフレームワークを取り入れた、BCR開発における多分野的なアプローチの必要性を強調している。
それらはAIの倫理的開発、展開、運用を保証する。
結論として、BCRは、健康データ管理の安全、透明性の促進、説明責任、国際的国境を越えての協力に不可欠なツールとして位置づけられている。
この章では、BCR導入のインセンティブ化、承認プロセスの合理化、より革新的なアプローチの推進を積極的に求め、BCRがグローバルなデータ保護とコンプライアンスの堅牢なメカニズムであることを保証する。
This chapter explores the essential role of Binding Corporate Rules (BCRs) in managing and facilitating secure health data transfers within corporate groups under the EU General Data Protection Regulation (GDPR). BCRs are tailored to ensure compliance with the GDPR and similar international data protection laws, presenting a flexible mechanism for transferring sensitive health and genomic data. The chapter situates BCRs within the broader spectrum of the GDPR international data transfer mechanisms, addressing the unique challenges posed by the sensitive nature of health data and the increased adoption of AI technologies. The European Data Protection Board (EDPB) Recommendations 1/2022 on BCRs, issued following the Schrems II decision, are critically analyzed, highlighting their stringent requirements and the need for a balanced approach that prioritizes data protection and an AI governance framework. The chapter outlines the BCR approval process, stressing the importance of streamlining this process to encourage broader adoption. It underscores the necessity of a multidisciplinary approach in developing BCRs, incorporating recently adopted international standards and frameworks, which offer valuable guidance for organizations to build trustworthy AI management systems. They guarantee the ethical development, deployment, and operation of AI, which is essential for its successful integration and the broader digital transformation. In conclusion, BCRs are positioned as essential tools for secure health data management, fostering transparency, accountability, and collaboration across international borders. The chapter calls for proactive measures to incentivize BCR adoption, streamline approval processes, and promote more innovative approaches, ensuring BCRs remain a robust mechanism for global data protection and compliance. | 翻訳日:2024-08-01 19:04:58 公開日:2024-07-31 |
# ロバストボックスプロンプトを用いた医用画像セグメンテーションのためのSAM
Robust Box Prompt based SAM for Medical Image Segmentation ( http://arxiv.org/abs/2407.21284v1 ) ライセンス: Link先を確認 | Yuhao Huang, Xin Yang, Han Zhou, Yan Cao, Haoran Dou, Fajin Dong, Dong Ni, | (参考訳) SAM(Segment Anything Model)は、高品質なボックスプロンプト下での良好なセグメンテーション性能を実現する。
しかし、SAMの堅牢性はボックス品質の低下によって損なわれ、臨床における実用性は制限されている。
本研究では,新しいロバストボックスプロンプト SAM (\textbf{RoBox-SAM}) を提案する。
私たちの貢献は3倍です。
まず、潜在的なターゲットを暗黙的に知覚するプロンプト改良モジュールを提案し、オフセットを出力して、低品質のボックスプロンプトを直接高品質のプロンプトに変換する。
そして、さらなる改善を迅速にするためのオンライン反復戦略を提供します。
第2に,プロンプト拡張モジュールを導入し,ポイントプロンプトを自動生成し,ボックスプロンプト可能なセグメンテーションを効果的に支援する。
最後に,入力画像から先行情報をエンコードする自己情報抽出器を構築する。
これらの特徴は画像埋め込みと注意計算を最適化することができ、SAMの堅牢性をさらに強化することができる。
99,299枚の画像,5つのモダリティ,25個の臓器/ターゲットを含む大規模医療セグメント化データセットの大規模な実験により,提案したRoBox-SAMの有効性が検証された。
The Segment Anything Model (SAM) can achieve satisfactory segmentation performance under high-quality box prompts. However, SAM's robustness is compromised by the decline in box quality, limiting its practicality in clinical reality. In this study, we propose a novel Robust Box prompt based SAM (\textbf{RoBox-SAM}) to ensure SAM's segmentation performance under prompts with different qualities. Our contribution is three-fold. First, we propose a prompt refinement module to implicitly perceive the potential targets, and output the offsets to directly transform the low-quality box prompt into a high-quality one. We then provide an online iterative strategy for further prompt refinement. Second, we introduce a prompt enhancement module to automatically generate point prompts to assist the box-promptable segmentation effectively. Last, we build a self-information extractor to encode the prior information from the input image. These features can optimize the image embeddings and attention calculation, thus, the robustness of SAM can be further enhanced. Extensive experiments on the large medical segmentation dataset including 99,299 images, 5 modalities, and 25 organs/targets validated the efficacy of our proposed RoBox-SAM. | 翻訳日:2024-08-01 19:04:58 公開日:2024-07-31 |
# 点雲セマンティックセマンティックセグメンテーションのためのきめ細かい計量
Fine-grained Metrics for Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2407.21289v1 ) ライセンス: Link先を確認 | Zhuheng Lu, Ting Wu, Yuewei Dai, Weiqing Li, Zhiyong Su, | (参考訳) 2種類の不均衡がポイントクラウドセマンティックセグメンテーションデータセットでよく見られる: (1) カテゴリー不均衡、 特定のオブジェクトが他のオブジェクトよりも一般的である場合、(2) サイズ不均衡、 特定のオブジェクトが他のオブジェクトよりも多くのポイントを占める場合。
このため、ほとんどのカテゴリや大きなオブジェクトは、既存の評価指標で好まれる。
本稿では,これらの問題に対処するために,点雲分割アルゴリズムのより詳細な評価を行うために,mIoUとmAccの微細化を提案する。
よりリッチな統計情報は、これらのきめ細かいメトリクスによってモデルやデータセットに提供され、これはまた、現在のセマンティックセグメンテーションメトリクスの大きなオブジェクトへのバイアスを小さくする。
提案手法は,屋内および屋外の3つのセマンティックセマンティックセマンティクスデータセットに基づいて,様々なセマンティクスセマンティクスアルゴリズムを訓練・評価するために用いられる。
Two forms of imbalances are commonly observed in point cloud semantic segmentation datasets: (1) category imbalances, where certain objects are more prevalent than others; and (2) size imbalances, where certain objects occupy more points than others. Because of this, the majority of categories and large objects are favored in the existing evaluation metrics. This paper suggests fine-grained mIoU and mAcc for a more thorough assessment of point cloud segmentation algorithms in order to address these issues. Richer statistical information is provided for models and datasets by these fine-grained metrics, which also lessen the bias of current semantic segmentation metrics towards large objects. The proposed metrics are used to train and assess various semantic segmentation algorithms on three distinct indoor and outdoor semantic segmentation datasets. | 翻訳日:2024-08-01 19:04:58 公開日:2024-07-31 |
# SimpleLLM4AD: 自動走行のためのグラフ視覚質問応答を用いたエンドツーエンドビジョンランゲージモデル
SimpleLLM4AD: An End-to-End Vision-Language Model with Graph Visual Question Answering for Autonomous Driving ( http://arxiv.org/abs/2407.21293v1 ) ライセンス: Link先を確認 | Peiru Zheng, Yun Zhao, Zhan Gong, Hong Zhu, Shaohua Wu, | (参考訳) 多くの分野は、大規模言語モデル(LLM)の急速な発展の恩恵を受けることができる。
エンド・ツー・エンドの自動運転(e2eAD)は、LLMがより多くのモダリティをサポートしてきたため、一般的に新しい機会に直面する分野の1つである。
本稿では,視覚言語モデル(VLM)を用いて,SimpleLLM4ADと呼ばれるe2eAD手法を提案する。
本手法では,e2eADタスクは知覚,予測,計画,行動の4段階に分けられる。
各ステージは、複数の視覚的質問応答(VQA)ペアと、グラフVQA(GVQA)と呼ばれるグラフを構成するVQAペアで構成されている。
GVQAの各VQAペアをステージ毎に解析することにより,言語によるe2e駆動を実現することができた。
本手法では、視覚変換器(ViT)モデルを用いてヌースシーンの視覚データを処理し、VLMを用いて視覚入力から抽出した情報を解釈・解析する。
認識段階では、システムは運転環境から物体を特定し、分類する。
予測段階は、これらの物体の潜在的な動きを予測することを含む。
計画段階は、収集した情報を利用して運転戦略を策定し、自動運転車の安全性と効率を確保する。
最後に、行動段階は、計画されたアクションを車両の実行可能なコマンドに変換する。
我々の実験は、SimpleLLM4ADが複雑な運転シナリオで競合性能を達成することを示した。
Many fields could benefit from the rapid development of the large language models (LLMs). The end-to-end autonomous driving (e2eAD) is one of the typically fields facing new opportunities as the LLMs have supported more and more modalities. Here, by utilizing vision-language model (VLM), we proposed an e2eAD method called SimpleLLM4AD. In our method, the e2eAD task are divided into four stages, which are perception, prediction, planning, and behavior. Each stage consists of several visual question answering (VQA) pairs and VQA pairs interconnect with each other constructing a graph called Graph VQA (GVQA). By reasoning each VQA pair in the GVQA through VLM stage by stage, our method could achieve e2e driving with language. In our method, vision transformers (ViT) models are employed to process nuScenes visual data, while VLM are utilized to interpret and reason about the information extracted from the visual inputs. In the perception stage, the system identifies and classifies objects from the driving environment. The prediction stage involves forecasting the potential movements of these objects. The planning stage utilizes the gathered information to develop a driving strategy, ensuring the safety and efficiency of the autonomous vehicle. Finally, the behavior stage translates the planned actions into executable commands for the vehicle. Our experiments demonstrate that SimpleLLM4AD achieves competitive performance in complex driving scenarios. | 翻訳日:2024-08-01 18:51:29 公開日:2024-07-31 |
# 永続図形における最大マージン分類によるベクトル化法
A Vectorization Method Induced By Maximal Margin Classification For Persistent Diagrams ( http://arxiv.org/abs/2407.21298v1 ) ライセンス: Link先を確認 | An Wu, Yu Pan, Fuqi Zhou, Jinghui Yan, Chuanlu Liu, | (参考訳) 永続ホモロジー(Persistent homology)は、空間構造データの永続図として表される位相情報を抽出する効果的な方法である。
したがって、タンパク質構造の研究には適している。
タンパク質機能予測の機械学習手法に永続ホモロジーを組み込もうとする試みは、永続図のベクトル化にいくつかの技術をもたらした。
しかし、現在のベクトル化法は過度に人工的であり、情報の有効利用や方法の合理性を保証することはできない。
この問題に対処するために,バナッハ空間の最大マージン分類に基づく永続図のより幾何学的なベクトル化法を提案し,また,トポロジ的データ解析を用いて特定の機能を持つタンパク質を同定するフレームワークを提案する。
タンパク質のバイナリ分類タスクを用いてベクター化法を評価し,13種類のベクター化法の中で最高の性能を示す統計的手法と比較した。
実験結果から,本手法はロバスト性および精度の両方において統計的手法を超越していることが示唆された。
Persistent homology is an effective method for extracting topological information, represented as persistent diagrams, of spatial structure data. Hence it is well-suited for the study of protein structures. Attempts to incorporate Persistent homology in machine learning methods of protein function prediction have resulted in several techniques for vectorizing persistent diagrams. However, current vectorization methods are excessively artificial and cannot ensure the effective utilization of information or the rationality of the methods. To address this problem, we propose a more geometrical vectorization method of persistent diagrams based on maximal margin classification for Banach space, and additionaly propose a framework that utilizes topological data analysis to identify proteins with specific functions. We evaluated our vectorization method using a binary classification task on proteins and compared it with the statistical methods that exhibit the best performance among thirteen commonly used vectorization methods. The experimental results indicate that our approach surpasses the statistical methods in both robustness and precision. | 翻訳日:2024-08-01 18:51:29 公開日:2024-07-31 |
# 誰を信頼すべきか? ネット負荷予測モデルの比較のためのビジュアル分析手法
Who should I trust? A Visual Analytics Approach for Comparing Net Load Forecasting Models ( http://arxiv.org/abs/2407.21299v1 ) ライセンス: Link先を確認 | Kaustav Bhattacharjee, Soumya Kundu, Indrasis Chakraborty, Aritra Dasgupta, | (参考訳) ネット負荷予測は、エネルギー計画と、貿易と負荷分布に関する情報的意思決定の促進に不可欠である。
しかし,ベンチマークモデルに対する予測モデルの性能評価は依然として困難であり,モデルの性能に対する専門家の信頼を損なうことになる。
この文脈では、科学者が様々な時間枠と太陽の浸透レベルにわたるモデルを比較することができる技術介入が要求されている。
本稿では,ディープラーニングに基づくネット負荷予測モデルと,確率的ネット負荷予測のための他のモデルとの比較を目的とした,ビジュアル分析に基づくアプリケーションを提案する。
このアプリケーションは慎重に選択された視覚分析の介入を採用しており、ユーザーは異なる太陽透過レベル、データセットの解像度、数ヵ月間の1日の時間におけるモデルパフォーマンスの違いを識別することができる。
また,本アプリケーションを用いて行った観測を事例スタディで実施し,科学者が情報的意思決定を行い,ネット負荷予測モデルの信頼性を高める上での可視化の有効性を実証した。
Net load forecasting is crucial for energy planning and facilitating informed decision-making regarding trade and load distributions. However, evaluating forecasting models' performance against benchmark models remains challenging, thereby impeding experts' trust in the model's performance. In this context, there is a demand for technological interventions that allow scientists to compare models across various timeframes and solar penetration levels. This paper introduces a visual analytics-based application designed to compare the performance of deep-learning-based net load forecasting models with other models for probabilistic net load forecasting. This application employs carefully selected visual analytic interventions, enabling users to discern differences in model performance across different solar penetration levels, dataset resolutions, and hours of the day over multiple months. We also present observations made using our application through a case study, demonstrating the effectiveness of visualizations in aiding scientists in making informed decisions and enhancing trust in net load forecasting models. | 翻訳日:2024-08-01 18:51:29 公開日:2024-07-31 |
# ストリームアルゴリズムとk平均クラスタをRAGに実装する
Implementing Streaming algorithm and k-means clusters to RAG ( http://arxiv.org/abs/2407.21300v1 ) ライセンス: Link先を確認 | Haoyu Kang, Yuzhou Zhu, Yukun Zhong, Ke Wang, | (参考訳) 検索拡張世代(RAG)は,外部知識データベースを構築するため,大規模モデルを支援する情報検索において大きな成功を収めている。
しかし、巨大なデータベースのために大量のメモリを消費するなど、多くの問題がある。
巨大なストリーミングデータに直面した場合には、確立したインデックスデータベースを時間内に更新することはできない。
データベース構築のメモリを節約し、精度を同時に維持するために、ストリーミングアルゴリズムとk-meansクラスタをRAGと組み合わせた新しいアプローチを提案する。
我々の手法は、インデックスを更新し、メモリ消費を減らすためにストリーミングアルゴリズムを適用している。
次に、k-meansアルゴリズムを用いて、高い類似性を持つドキュメントをクラスタリングし、クエリ時間を短縮する。
提案手法の比較実験により,ストリーミングアルゴリズムとk平均クラスタを用いたRAGが精度とメモリにおいて良好に動作することを示した。
大規模ストリーミングデータの場合、従来のRAGよりも動作がよいことが分かりました。
Retrieval-augmented generation (RAG) has achieved great success in information retrieval to assist large models because it builds an external knowledge database. However, it also has many problems: it consumes a lot of memory because of the huge database. When faced with massive streaming data, it is unable to update the established index database in time. To save the memory of building the database and maintain accuracy simultaneously, we proposed a new approach combining a streaming algorithm and k-means cluster with RAG. Our approach applies a streaming algorithm to update the index and reduce memory consumption. Then use the k-means algorithm to cluster documents with high similarities together, the query time will be shortened by doing this. We conducted comparative experiments on four methods, and the results show that RAG with streaming algorithm and k-means cluster performs well in accuracy and memory. For massive streaming data, we find that our method behaves better than traditional RAG | 翻訳日:2024-08-01 18:51:29 公開日:2024-07-31 |
# 改良型YOLOv10に基づく小売店用セルフチェックアウトシステム
Enhanced Self-Checkout System for Retail Based on Improved YOLOv10 ( http://arxiv.org/abs/2407.21308v1 ) ライセンス: Link先を確認 | Lianghao Tan, Shubing Liu, Jing Gao, Xiaoyi Liu, Linyue Chu, Huangqi Jiang, | (参考訳) ディープラーニング技術の急速な進歩により、コンピュータビジョンは小売自動化において大きな可能性を秘めている。
本稿では,改良型YOLOv10ネットワークに基づく小売店向けセルフチェックアウトシステムを提案する。
製品認識精度を大幅に向上するYOLOv8から検出ヘッド構造を取り入れたYOLOv10モデルに対するターゲット最適化を提案する。
さらに,自己チェックアウトシナリオに適した後処理アルゴリズムを開発し,システム適用をさらに強化する。
実験結果から,本システムは製品認識精度とチェックアウト速度の両方において既存手法よりも優れていることがわかった。
この研究は小売自動化のための新しい技術ソリューションを提供するだけでなく、現実世界のアプリケーションのためのディープラーニングモデルの最適化に関する貴重な洞察を提供する。
With the rapid advancement of deep learning technologies, computer vision has shown immense potential in retail automation. This paper presents a novel self-checkout system for retail based on an improved YOLOv10 network, aimed at enhancing checkout efficiency and reducing labor costs. We propose targeted optimizations to the YOLOv10 model, by incorporating the detection head structure from YOLOv8, which significantly improves product recognition accuracy. Additionally, we develop a post-processing algorithm tailored for self-checkout scenarios, to further enhance the application of system. Experimental results demonstrate that our system outperforms existing methods in both product recognition accuracy and checkout speed. This research not only provides a new technical solution for retail automation but offers valuable insights into optimizing deep learning models for real-world applications. | 翻訳日:2024-08-01 18:51:29 公開日:2024-07-31 |
# EUDA: 自己監督型視覚変換器による効率的な教師なしドメイン適応
EUDA: An Efficient Unsupervised Domain Adaptation via Self-Supervised Vision Transformer ( http://arxiv.org/abs/2407.21311v1 ) ライセンス: Link先を確認 | Ali Abedi, Q. M. Jonathan Wu, Ning Zhang, Farhad Pourpanah, | (参考訳) 教師なしドメイン適応(UDA)は、トレーニング(ソース)データの分散がテスト(ターゲット)データと異なる領域シフトの問題を軽減することを目的としている。
この問題に対処するために多くのモデルが開発され、近年では視覚変換器(ViT)が有望な結果を示している。
しかし、ViTの複雑さとトレーニング可能なパラメータの多さは、実用アプリケーションへの展開を制限している。
これにより、トレーニング可能なパラメータを削減できるだけでなく、特定のニーズに基づいて調整可能な複雑性を実現し、同等のパフォーマンスを提供する効率的なモデルの必要性が浮き彫りになる。
そこで本稿では,EUDA(Efficient Unsupervised Domain Adaptation)フレームワークを紹介する。
EUDAは、自己監督型ViTであるDINOv2を特徴抽出器として採用し、拡張されたドメイン適応のための機能を洗練するために完全に接続されたレイヤのボトルネックを単純化した。
さらに、EUDAは、ソースドメインとターゲットドメインの分布を整列させながら、ソースドメインの分類エラーを最小限に抑えることで適応のバランスをとるために、クロスエントロピー(CE)と最大平均誤差(MMD)を統合したシナジスティックドメインアライメントロス(SDAL)を採用している。
実験の結果、EUDAは、訓練可能なパラメータが著しく少なく、42%から99.7%少ないドメイン適応における、他の最先端の手法と比較して、同等の結果を生み出す効果を示している。
これはリソース制限された環境でモデルをトレーニングする能力を示す。
モデルのコードは、https://github.com/A-Abedi/EUDA.comで公開されている。
Unsupervised domain adaptation (UDA) aims to mitigate the domain shift issue, where the distribution of training (source) data differs from that of testing (target) data. Many models have been developed to tackle this problem, and recently vision transformers (ViTs) have shown promising results. However, the complexity and large number of trainable parameters of ViTs restrict their deployment in practical applications. This underscores the need for an efficient model that not only reduces trainable parameters but also allows for adjustable complexity based on specific needs while delivering comparable performance. To achieve this, in this paper we introduce an Efficient Unsupervised Domain Adaptation (EUDA) framework. EUDA employs the DINOv2, which is a self-supervised ViT, as a feature extractor followed by a simplified bottleneck of fully connected layers to refine features for enhanced domain adaptation. Additionally, EUDA employs the synergistic domain alignment loss (SDAL), which integrates cross-entropy (CE) and maximum mean discrepancy (MMD) losses, to balance adaptation by minimizing classification errors in the source domain while aligning the source and target domain distributions. The experimental results indicate the effectiveness of EUDA in producing comparable results as compared with other state-of-the-art methods in domain adaptation with significantly fewer trainable parameters, between 42% to 99.7% fewer. This showcases the ability to train the model in a resource-limited environment. The code of the model is available at: https://github.com/A-Abedi/EUDA. | 翻訳日:2024-08-01 18:51:29 公開日:2024-07-31 |
# 非線形同化のための状態観測拡張拡散モデル
State-observation augmented diffusion model for nonlinear assimilation ( http://arxiv.org/abs/2407.21314v1 ) ライセンス: Link先を確認 | Zhuoyuan Li, Bin Dong, Pingwen Zhang, | (参考訳) データ同化は物理モデルと観測データを組み合わせて状態変数を推定する重要な手法となっている。
従来の同化アルゴリズムは、物理モデルと観測モデルの両方によってもたらされる高い非線形性の課題に直面することが多い。
本研究では,このような問題に対処するための生成モデルに基づく新しいデータ駆動同化アルゴリズムを提案する。
我々の状態観測拡張拡散モデル(SOAD)は、非線形物理モデルと観測モデルをより効率的に扱うように設計されている。
SOADと関連する限界後部は導出され、その後、軽微な仮定の下で実際の後部と一致することが証明され、これは従来のスコアベースの同化処理よりも理論的に優れていることを示している。
実験の結果、SOADモデルは既存のデータ駆動手法よりも精度が向上する可能性が示唆された。
Data assimilation has become a crucial technique aiming to combine physical models with observational data to estimate state variables. Traditional assimilation algorithms often face challenges of high nonlinearity brought by both the physical and observational models. In this work, we propose a novel data-driven assimilation algorithm based on generative models to address such concerns. Our State-Observation Augmented Diffusion (SOAD) model is designed to handle nonlinear physical and observational models more effectively. The marginal posterior associated with SOAD has been derived and then proved to match the real posterior under mild assumptions, which shows theoretical superiority over previous score-based assimilation works. Experimental results also indicate that our SOAD model may offer improved accuracy over existing data-driven methods. | 翻訳日:2024-08-01 18:51:29 公開日:2024-07-31 |
# サイレントレターを超えて:声のニュアンスによる感情認識におけるLLMの増幅
Beyond Silent Letters: Amplifying LLMs in Emotion Recognition with Vocal Nuances ( http://arxiv.org/abs/2407.21315v1 ) ライセンス: Link先を確認 | Zehui Wu, Ziwei Gong, Lin Ai, Pengyuan Shi, Kaan Donbekci, Julia Hirschberg, | (参考訳) 本稿では,Large Language Models (LLM) を用いた音声における感情検出手法を提案する。
音声の特徴を自然言語記述に変換することで音声入力処理におけるLLMの限界に対処する。
提案手法はこれらの記述をテキストプロンプトに統合し,LLMがアーキテクチャ変更なしにマルチモーダル感情分析を行うことを可能にする。
我々は、IEMOCAPとMELDという2つのデータセットに対するアプローチを評価し、特に高品質な音声データに対して、感情認識精度を大幅に改善したことを示す。
実験の結果,IEMOCAPの重み付きF1スコアは70.111\%から72.596\%に2ポイント上昇した。
また、様々なLLMアーキテクチャを比較し、異なる特徴表現の有効性について検討する。
本研究は,LLMの感情検出能力向上におけるこのアプローチの可能性を明らかにするとともに,音声による感情認識タスクにおける音質の重要性を明らかにするものである。
ソースコードはGithubで公開します。
This paper introduces a novel approach to emotion detection in speech using Large Language Models (LLMs). We address the limitation of LLMs in processing audio inputs by translating speech characteristics into natural language descriptions. Our method integrates these descriptions into text prompts, enabling LLMs to perform multimodal emotion analysis without architectural modifications. We evaluate our approach on two datasets: IEMOCAP and MELD, demonstrating significant improvements in emotion recognition accuracy, particularly for high-quality audio data. Our experiments show that incorporating speech descriptions yields a 2 percentage point increase in weighted F1 score on IEMOCAP (from 70.111\% to 72.596\%). We also compare various LLM architectures and explore the effectiveness of different feature representations. Our findings highlight the potential of this approach in enhancing emotion detection capabilities of LLMs and underscore the importance of audio quality in speech-based emotion recognition tasks. We'll release the source code on Github. | 翻訳日:2024-08-01 18:51:29 公開日:2024-07-31 |
# Diff-Cleanse:拡散モデルにおけるバックドアアタックの同定と修正
Diff-Cleanse: Identifying and Mitigating Backdoor Attacks in Diffusion Models ( http://arxiv.org/abs/2407.21316v1 ) ライセンス: Link先を確認 | Jiang Hao, Xiao Jin, Hu Xiaoguang, Chen Tianyou, | (参考訳) 拡散モデル(DM)は、今日では最も先進的な生成モデルの一つであるが、最近の研究では、DMはバックドア攻撃に弱いことが示唆されている。
バックドアアタックは、特定の入力パターンとモデル動作の隠れた関連を確立し、操作された入力データで望ましくないアクションをトリガーすることでモデルの整合性を損なう。
この脆弱性は、モデル所有者への評判のダメージや有害なコンテンツの拡散など、重大なリスクを引き起こす。
バックドア攻撃の脅威を軽減するため、バックドア検出とモデル修復に関するいくつかの調査が行われた。
しかし、これまでの作業では、最先端の攻撃によって生成されたバックドアのDMを浄化することができず、フィールドの探索は過小評価された。
このギャップを埋めるために、DM用に特別に設計された2段階のバックドア防御フレームワークである「textbf{Diff-Cleanse}」を紹介した。
第1段は、バックドアを検出してトリガーを再構築するために革新的なトリガー反転技術を採用し、第2段は、バックドアを除去するために構造的なプルーニング手法を使用している。
既存の3つのバックドアアタック手法によって攻撃された数百のDMについて,本フレームワークの評価を行った。
大規模な実験では、Diff-Cleanseが検出精度を100倍近く達成し、バックドアへの影響を効果的に軽減し、モデルの良質な性能を最小限の妥協で維持することを示した。
私たちのコードはhttps://github.com/shymuel/diff-cleanse.comで有効です。
Diffusion models (DM) represent one of the most advanced generative models today, yet recent studies suggest that DMs are vulnerable to backdoor attacks. Backdoor attacks establish hidden associations between particular input patterns and model behaviors, compromising model integrity by triggering undesirable actions with manipulated input data. This vulnerability poses substantial risks, including reputational damage to model owners and the dissemination of harmful content. To mitigate the threat of backdoor attacks, there have been some investigations on backdoor detection and model repair. However, previous work fails to purify the backdoored DMs created by state-of-the-art attacks, rendering the field much underexplored. To bridge this gap, we introduce \textbf{Diff-Cleanse}, a novel two-stage backdoor defense framework specifically designed for DMs. The first stage employs a innovative trigger inversion technique to detect the backdoor and reconstruct the trigger, and the second stage utilizes a structural pruning method to eliminate the backdoor. We evaluate our framework on hundreds of DMs attacked by 3 existing backdoor attack methods. Extensive experiments demonstrate that Diff-Cleanse achieves nearly 100\% detection accuracy and effectively mitigates backdoor impacts, preserving the model's benign performance with minimal compromise. Our code is avaliable at https://github.com/shymuel/diff-cleanse. | 翻訳日:2024-08-01 18:51:29 公開日:2024-07-31 |
# 病理基礎モデル
Pathology Foundation Models ( http://arxiv.org/abs/2407.21317v1 ) ライセンス: Link先を確認 | Mieko Ochi, Daisuke Komura, Shumpei Ishikawa, | (参考訳) 病理学は、長年にわたり外科と生検から得られた患者組織サンプルの診断と評価に重要な役割を果たしてきた。
Whole Slide Scannersの出現とディープラーニング技術の発展はこの分野を大きく進歩させ、病理学AI(Artificial Intelligence)の広範な研究と開発につながった。
これらの進歩は、病理医の作業量を減らし、治療計画における意思決定を支援することに寄与している。
近年では、従来のAIと比較して、より正確で幅広いタスクに適用可能な、ファンデーションモデル(FM)と呼ばれる大規模なAIモデルが登場し、医療分野での応用範囲を広げている。
疾患診断,まれな癌診断,予後予測,バイオマーカー発現予測,免疫組織化学的発現強度の評価など,様々な課題にFMが応用されていることが報告されている。
しかし、医療専門家がユーザとして認識しなければならないFMの臨床応用には、いくつかの課題が残っている。
研究はこれらの課題に対処し続けている。
今後,病的FMと他の医療領域のFMを統合した一般医用AIの開発が進むことが期待され,精度とパーソナライズド医療を促進するために,臨床現場でのAIの有効活用が期待できる。
Pathology has played a crucial role in the diagnosis and evaluation of patient tissue samples obtained from surgeries and biopsies for many years. The advent of Whole Slide Scanners and the development of deep learning technologies have significantly advanced the field, leading to extensive research and development in pathology AI (Artificial Intelligence). These advancements have contributed to reducing the workload of pathologists and supporting decision-making in treatment plans. Recently, large-scale AI models known as Foundation Models (FMs), which are more accurate and applicable to a wide range of tasks compared to traditional AI, have emerged, and expanded their application scope in the healthcare field. Numerous FMs have been developed in pathology, and there are reported cases of their application in various tasks, such as disease diagnosis, rare cancer diagnosis, patient survival prognosis prediction, biomarker expression prediction, and the scoring of immunohistochemical expression intensity. However, several challenges remain for the clinical application of FMs, which healthcare professionals, as users, must be aware of. Research is ongoing to address these challenges. In the future, it is expected that the development of Generalist Medical AI, which integrates pathology FMs with FMs from other medical domains, will progress, leading to the effective utilization of AI in real clinical settings to promote precision and personalized medicine. | 翻訳日:2024-08-01 18:51:29 公開日:2024-07-31 |
# 大規模協調学習
Big Cooperative Learning ( http://arxiv.org/abs/2407.21319v1 ) ライセンス: Link先を確認 | Yulai Cong, | (参考訳) 協力は、人間の知能の進化において重要な役割を担い、また、基礎モデルによって駆動される最近の人工知能(AI)の革命的な進歩にも根ざしている。
具体的には,基礎モデルのトレーニングを,大きな協調学習(\textit{abbr>)の一形態として解釈できることを明らかにする。
大規模学習の個人/タスク \emph{cooperate} が、データ予測のさまざまな視点からデータの本質にアプローチし、普遍的なモデルを活用する。
提示されたビッグデータは、基礎となる前提が同時に公開されている一貫したフレームワーク内で、基礎モデルのトレーニング目標の大部分を統一する。
我々は,基礎モデルの成功に対する学習のパースペクティブな正当化を,興味深い副産物で提供する,大規模学習の原理を実証するために,最適化されたシミュレーションを設計する。
さらに、ビッグデータは従来の機械学習パラダイムを改良するための新しい次元であり、関連するアプリケーションに再活性化を与えるのに有用なものであることを明らかにし、実例として、多目的データサンプリング機能を備えた新しい逆学習基盤モデルであるBigLearn-GANを提案する。
コードは \texttt{https://github.com/YulaiCong/BigCooperativeLearning} で公開されている。
Cooperation plays a pivotal role in the evolution of human intelligence; moreover, it also underlies the recent revolutionary advancement of artificial intelligence (AI) that is driven by foundation models. Specifically, we reveal that the training of foundation models can be interpreted as a form of big cooperative learning (\textit{abbr.} big learning), where massive learning individuals/tasks \emph{cooperate} to approach the unique essence of data from diverse perspectives of data prediction, leveraging a universal model. The presented big learning therefore unifies most training objectives of foundation models within a consistent framework, where their underlying assumptions are exposed simultaneously. We design tailored simulations to demonstrate the principle of big learning, based on which we provide learning-perspective justifications for the successes of foundation models, with interesting side-products. Furthermore, we reveal that big learning is a new dimension for upgrading conventional machine learning paradigms, valuable for endowing reinvigorations to associated applications; as an illustrative example, we propose the BigLearn-GAN, which is a novel adversarially-trained foundation model with versatile data sampling capabilities. Code is available at \texttt{https://github.com/YulaiCong/BigCooperativeLearning}. | 翻訳日:2024-08-01 18:51:29 公開日:2024-07-31 |
# MetaOpenFOAM:CFDのためのLLMベースのマルチエージェントフレームワーク
MetaOpenFOAM: an LLM-based multi-agent framework for CFD ( http://arxiv.org/abs/2407.21320v1 ) ライセンス: Link先を確認 | Yuxuan Chena, Xu Zhua, Hua Zhoua, Zhuyin Rena, | (参考訳) 大規模言語モデル(LLM)に基づくエージェントの社会による自動問題解決において,顕著な進歩がみられた。
計算流体力学(CFD、Computational fluid dynamics)は複雑な問題である。
MetaOpenFOAMは、新しいマルチエージェントコラボレーションフレームワークであり、入力として自然言語のみを用いてCFDシミュレーションタスクを完了することを目的としている。
これらのシミュレーションタスクには、メッシュ前処理、シミュレーション、後処理などが含まれる。
MetaOpenFOAMはMetaGPTのアセンブリラインパラダイムのパワーを活用し、多様な役割をさまざまなエージェントに割り当て、複雑なCFDタスクを効率的に管理可能なサブタスクに分割する。
Langchainはさらに、Retrieval-Augmented Generation (RAG)技術を統合することでMetaOpenFOAMを補完し、LLM用のOpenFOAMチュートリアルの検索可能なデータベースを統合することにより、フレームワークの能力を高める。
8つのCFDシミュレーションタスクからなる自然言語ベースのCFDソルバのベンチマークテストでは、MetaOpenFOAMがテスト毎の高パスレート(85%)を達成したことが示されており、各テストケースの平均費用は0.22ドルである。
8つのCFDシミュレーションタスクには、圧縮性と非圧縮性の流れ、2Dと3Dの流れ、伝熱と燃焼が含まれており、自然言語入力と反復的誤りのみを用いてCFDシミュレーションを自動化し、所望のシミュレーションを低コストで達成する能力を示している。
マルチエージェントシステムとRAG技術における各コンポーネントの必要性を検証するためのアブレーション試験を行った。
LLMのランダム性に関する感度研究により、低ランダム性LLMはより安定かつ正確な結果が得られることが示された。
さらに、MetaOpenFOAMは、ユーザ要求のキーパラメータを識別し、修正する機能を持ち、障害発生時に、人による参加の有無にかかわらず、バグの修正に優れており、MetaOpenFOAMの一般化を実証している。
Remarkable progress has been made in automated problem solving through societies of agents based on large language models (LLMs). Computational fluid dynamics (CFD), as a complex problem, presents unique challenges in automated simulations that require sophisticated solutions. MetaOpenFOAM, as a novel multi-agent collaborations framework, aims to complete CFD simulation tasks with only natural language as input. These simulation tasks include mesh pre-processing, simulation and post-processing, etc. MetaOpenFOAM harnesses the power of MetaGPT's assembly line paradigm, which assigns diverse roles to various agents, efficiently breaking down complex CFD tasks into manageable subtasks. Langchain further complements MetaOpenFOAM by integrating Retrieval-Augmented Generation (RAG) technology, which enhances the framework's ability by integrating a searchable database of OpenFOAM tutorials for LLMs. Tests on a benchmark for natural language-based CFD solver, consisting of 8 CFD simulation tasks, have shown that MetaOpenFOAM achieved a high pass rate per test (85%), with each test case costing only $0.22 on average. The 8 CFD simulation tasks include compressible and incompressible flows, 2D and 3D flows, heat transfer, and combustion, demonstrating the ability to automate CFD simulations using only natural language input and iteratively correct errors to achieve the desired simulation at a low cost. An ablation study was conducted to verify the necessity of each component in the multi-agent system and the RAG technology. A sensitivity study on the randomness of LLM showed that LLM with low randomness can obtain more stable and accurate results. Additionally, MetaOpenFOAM own the ability to identify and modify key parameters in user requirements and excels in correcting bugs when failures occur, with or without human participation, which demonstrates the generalization of MetaOpenFOAM. | 翻訳日:2024-08-01 18:51:29 公開日:2024-07-31 |
# STANet:小・不均衡FMRIデータを用いた縮退分類のための新しい時空間アグリゲーションネットワーク
STANet: A Novel Spatio-Temporal Aggregation Network for Depression Classification with Small and Unbalanced FMRI Data ( http://arxiv.org/abs/2407.21323v1 ) ライセンス: Link先を確認 | Wei Zhang, Weiming Zeng, Hongyu Chen, Jie Liu, Hongjie Yan, Kaile Zhang, Ran Tao, Wai Ting Siok, Nizhuan Wang, | (参考訳) うつ病の正確な診断は、最適な治療のタイムリーな実施、合併症の予防、自殺リスクの低減に不可欠である。
従来の方法では、客観的なバイオマーカーが欠如しており、自己報告のアンケートや臨床評価に頼っている。
fMRIと人工知能を組み合わせることで、ニューロイメージングインジケータを統合することでうつ病の診断を強化することができる。
しかし、うつ病に対するfMRI取得の特異性は、しばしば不均衡で小さなデータセットをもたらし、分類モデルの感度と精度に挑戦する。
本研究では,脳活動の時間的・空間的特徴を捉えるために,CNNとRNNを統合してうつ病を診断するための時空間集約ネットワーク(STANet)を提案する。
STANetは、(1)ICAを介して時空間情報を集約する。
2) 詳細な特徴を捉えるためにマルチスケールの深層畳み込みを利用する。
(3) マイノリティクラスのための新しいサンプルを生成するためにSMOTEを使用したバランスデータ。
(4) フーリエ変換とGRUを組み合わせたAFGRU分類器を用いて長期依存を捕捉し、モデル一般化を強化する適応重み付け機構を用いる。
実験の結果、STANetは82.38%の精度と90.72%のAUCでうつ病診断性能に優れていた。
STFAモジュールは、複数のスケールでより深い特徴をキャプチャすることで分類を強化する。
AFGRU分類器は適応重みと積み重ねGRUを備えており、精度とAUCが向上している。
SMOTEは他のオーバーサンプリング手法より優れている。
さらに、時空間的特徴のみを使用する場合よりも、時空間集約的特徴の方が優れた性能が得られる。
STANetは10倍のクロスバリデーションで示されるように、従来のあるいはディープラーニングの分類器や機能的な接続ベースの分類器よりも優れている。
Accurate diagnosis of depression is crucial for timely implementation of optimal treatments, preventing complications and reducing the risk of suicide. Traditional methods rely on self-report questionnaires and clinical assessment, lacking objective biomarkers. Combining fMRI with artificial intelligence can enhance depression diagnosis by integrating neuroimaging indicators. However, the specificity of fMRI acquisition for depression often results in unbalanced and small datasets, challenging the sensitivity and accuracy of classification models. In this study, we propose the Spatio-Temporal Aggregation Network (STANet) for diagnosing depression by integrating CNN and RNN to capture both temporal and spatial features of brain activity. STANet comprises the following steps:(1) Aggregate spatio-temporal information via ICA. (2) Utilize multi-scale deep convolution to capture detailed features. (3) Balance data using the SMOTE to generate new samples for minority classes. (4) Employ the AFGRU classifier, which combines Fourier transformation with GRU, to capture long-term dependencies, with an adaptive weight assignment mechanism to enhance model generalization. The experimental results demonstrate that STANet achieves superior depression diagnostic performance with 82.38% accuracy and a 90.72% AUC. The STFA module enhances classification by capturing deeper features at multiple scales. The AFGRU classifier, with adaptive weights and stacked GRU, attains higher accuracy and AUC. SMOTE outperforms other oversampling methods. Additionally, spatio-temporal aggregated features achieve better performance compared to using only temporal or spatial features. STANet outperforms traditional or deep learning classifiers, and functional connectivity-based classifiers, as demonstrated by ten-fold cross-validation. | 翻訳日:2024-08-01 18:51:29 公開日:2024-07-31 |
# 生涯脳MRI画像分割のための知識ガイド型プロンプト学習
Knowledge-Guided Prompt Learning for Lifespan Brain MR Image Segmentation ( http://arxiv.org/abs/2407.21328v1 ) ライセンス: Link先を確認 | Lin Teng, Zihao Zhao, Jiawei Huang, Zehong Cao, Runqi Meng, Feng Shi, Dinggang Shen, | (参考訳) 脳のMRI画像から組織や組織への自動的かつ正確な分割は、脳の発達と疾患の診断に不可欠である。
しかし、課題は、手動でラベル付けされたデータセットの限られた可用性によって、迅速な初期脳の発達、老化、障害による脳の外観の複雑な変化によって生じる。
そこで我々は,脳MRIにKGPL(Knowledge-Guided Prompt Learning)を用いた2段階のセグメンテーションフレームワークを提案する。
具体的には,画像テキストアライメントから学習した知識駆動型埋め込みをモデルに組み込むことにより,大規模データセットと準最適ラベルを用いた事前訓練セグメンテーションモデルを提案する。
知識的プロンプトの導入は、解剖学的多様性と生物学的プロセスのセマンティックな関係を捉え、モデルが様々な年齢グループにまたがる構造的特徴埋め込みを学習できるようにする。
Swin UNETR を背骨として用いた場合, 提案手法の優位性とロバスト性について実験的に検討した。
本手法は, 脳組織および組織分節の平均DSC値は95.17%, 94.19%である。
私たちのコードはhttps://github.com/TL9792/KGPLで公開されています。
Automatic and accurate segmentation of brain MR images throughout the human lifespan into tissue and structure is crucial for understanding brain development and diagnosing diseases. However, challenges arise from the intricate variations in brain appearance due to rapid early brain development, aging, and disorders, compounded by the limited availability of manually-labeled datasets. In response, we present a two-step segmentation framework employing Knowledge-Guided Prompt Learning (KGPL) for brain MRI. Specifically, we first pre-train segmentation models on large-scale datasets with sub-optimal labels, followed by the incorporation of knowledge-driven embeddings learned from image-text alignment into the models. The introduction of knowledge-wise prompts captures semantic relationships between anatomical variability and biological processes, enabling models to learn structural feature embeddings across diverse age groups. Experimental findings demonstrate the superiority and robustness of our proposed method, particularly noticeable when employing Swin UNETR as the backbone. Our approach achieves average DSC values of 95.17% and 94.19% for brain tissue and structure segmentation, respectively. Our code is available at https://github.com/TL9792/KGPL. | 翻訳日:2024-08-01 18:51:29 公開日:2024-07-31 |
# 低リソース言語のための最近の大規模言語モデルの性能
Performance of Recent Large Language Models for a Low-Resourced Language ( http://arxiv.org/abs/2407.21330v1 ) ライセンス: Link先を確認 | Ravindu Jayakody, Gihan Dias, | (参考訳) 大規模言語モデル(LLM)は、過去1年間で大きな進歩を見せている。
GPTとLlamaの新バージョンに加えて、最近いくつかのLLMが導入されている。
いくつかは、ダウンロードと修正が可能なオープンモデルである。
Sinhalaのような低リソース言語での性能は劣っている。
我々は,近年の4つのLLMを,シンハラ語で直接演奏し,英語への翻訳によって評価した。
また、少量の微調整データを用いて、それらの微調整性を評価した。
Claude と GPT 4o は最初からうまく動作し、以前のバージョンよりも大幅に改善されている。
LlamaとMistralはパフォーマンスが良くないが、微調整で改善の約束を示す。
Large Language Models (LLMs) have shown significant advances in the past year. In addition to new versions of GPT and Llama, several other LLMs have been introduced recently. Some of these are open models available for download and modification. Although multilingual large language models have been available for some time, their performance on low-resourced languages such as Sinhala has been poor. We evaluated four recent LLMs on their performance directly in the Sinhala language, and by translation to and from English. We also evaluated their fine-tunability with a small amount of fine-tuning data. Claude and GPT 4o perform well out-of-the-box and do significantly better than previous versions. Llama and Mistral perform poorly but show some promise of improvement with fine tuning. | 翻訳日:2024-08-01 18:51:29 公開日:2024-07-31 |
# CAMAv2: 静的マップ要素アノテーションに対するビジョン中心アプローチ
CAMAv2: A Vision-Centric Approach for Static Map Element Annotation ( http://arxiv.org/abs/2407.21331v1 ) ライセンス: Link先を確認 | Shiyuan Chen, Jiaxin Zhang, Ruohong Mei, Yingfeng Cai, Haoran Yin, Tao Chen, Wei Sui, Cong Yang, | (参考訳) オンライン静的マップ要素(すなわちHDマップ)構築アルゴリズムの最近の開発により、地上の真理アノテーションを持つデータに対する膨大な需要が高まっている。
しかし、現在利用可能な公開データセットは、一貫性と正確性に関する高品質なトレーニングデータを提供できない。
例えば、手動でラベル付けされた(低効率) nuScenes には、HDマップと画像(例えば、平均8.03ピクセルの再投影誤差)の間の不一致と不整合が含まれている。
そこで我々は、一貫性と正確なマップアノテーションのためのビジョン中心のアプローチであるCAMAv2を提案する。
提案するフレームワークは,LiDAR入力がなければ,静的マップ要素の高品質な3Dアノテーションを生成することができる。
具体的には、このアノテーションは周囲のすべてのカメラに対して高い再投影精度を達成でき、全シーケンスにわたって空間的・時間的整合性を持つ。
提案するフレームワークを一般的なnuScenesデータセットに適用して,効率的かつ高精度なアノテーションを提供する。
元のnuScenesの静的マップエレメントと比較すると、CAMAv2アノテーションは低い再投影エラー(例:4.96対8.03ピクセル)を達成する。
CAMAv2からのアノテーションで訓練されたモデルは、低い再投影エラー(例: 5.62 vs. 8.43 ピクセル)も達成している。
The recent development of online static map element (a.k.a. HD map) construction algorithms has raised a vast demand for data with ground truth annotations. However, available public datasets currently cannot provide high-quality training data regarding consistency and accuracy. For instance, the manual labelled (low efficiency) nuScenes still contains misalignment and inconsistency between the HD maps and images (e.g., around 8.03 pixels reprojection error on average). To this end, we present CAMAv2: a vision-centric approach for Consistent and Accurate Map Annotation. Without LiDAR inputs, our proposed framework can still generate high-quality 3D annotations of static map elements. Specifically, the annotation can achieve high reprojection accuracy across all surrounding cameras and is spatial-temporal consistent across the whole sequence. We apply our proposed framework to the popular nuScenes dataset to provide efficient and highly accurate annotations. Compared with the original nuScenes static map element, our CAMAv2 annotations achieve lower reprojection errors (e.g., 4.96 vs. 8.03 pixels). Models trained with annotations from CAMAv2 also achieve lower reprojection errors (e.g., 5.62 vs. 8.43 pixels). | 翻訳日:2024-08-01 18:41:45 公開日:2024-07-31 |
# Chat2Layout:マルチモーダルLCMを用いたインタラクティブ3D家具レイアウト
Chat2Layout: Interactive 3D Furniture Layout with a Multimodal LLM ( http://arxiv.org/abs/2407.21333v1 ) ライセンス: Link先を確認 | Can Wang, Hongliang Zhong, Menglei Chai, Mingming He, Dongdong Chen, Jing Liao, | (参考訳) 家具の自動レイアウトは、便利なインテリアデザインのために長い間望まれている。
マルチモーダル大規模言語モデル(MLLM)の目覚ましい視覚的推論機能を活用することで、最近の手法では、インタラクティブなユーザエンゲージメントに必要なフィードバック駆動の改良が欠如している。
本稿では,インタラクティブなレイアウト設計の領域にMLLMの機能を拡張した,インタラクティブな家具レイアウト生成システムChat2Layoutを紹介する。
そこで本研究では,MLLMとのシームレスなコミュニケーションにより,モデル重みの変更を伴わずに動作を制御できる,コンテキスト内学習のための統合型視覚探索パラダイムを構築した。
本フレームワークでは,新しい学習自由な視覚刺激機構を提案する。
これには、MLLMが可視なレイアウト計画の推論を支援する視覚テキストプロンプト技術、続いてオフラインからオンラインへの検索(O2O-Search)メソッドがあり、視覚テキストプロンプトの例を提供するために、最小限の情報参照を自動的に識別する。
MLLMをコアコントローラとするエージェントシステムを用いることで,双方向インタラクションを実現する。
エージェントは、3D環境とユーザ要求を言語的・視覚的に理解するだけでなく、仮想空間内で家具を作成・配置するためのタスクや理由も計画する。
さらに、エージェントは実行結果からの視覚的フィードバックに基づいて反復的に更新する。
実験により,本手法は多種多様な複雑な3次元家具の言語間相互作用の生成と配置を容易にすることが示された。
Automatic furniture layout is long desired for convenient interior design. Leveraging the remarkable visual reasoning capabilities of multimodal large language models (MLLMs), recent methods address layout generation in a static manner, lacking the feedback-driven refinement essential for interactive user engagement. We introduce Chat2Layout, a novel interactive furniture layout generation system that extends the functionality of MLLMs into the realm of interactive layout design. To achieve this, we establish a unified vision-question paradigm for in-context learning, enabling seamless communication with MLLMs to steer their behavior without altering model weights. Within this framework, we present a novel training-free visual prompting mechanism. This involves a visual-text prompting technique that assist MLLMs in reasoning about plausible layout plans, followed by an Offline-to-Online search (O2O-Search) method, which automatically identifies the minimal set of informative references to provide exemplars for visual-text prompting. By employing an agent system with MLLMs as the core controller, we enable bidirectional interaction. The agent not only comprehends the 3D environment and user requirements through linguistic and visual perception but also plans tasks and reasons about actions to generate and arrange furniture within the virtual space. Furthermore, the agent iteratively updates based on visual feedback from execution results. Experimental results demonstrate that our approach facilitates language-interactive generation and arrangement for diverse and complex 3D furniture. | 翻訳日:2024-08-01 18:41:45 公開日:2024-07-31 |
# 点雲解析のためのオンザフライポイント特徴表現
On-the-fly Point Feature Representation for Point Clouds Analysis ( http://arxiv.org/abs/2407.21335v1 ) ライセンス: Link先を確認 | Jiangyi Wang, Zhongyao Cheng, Na Zhao, Jun Cheng, Xulei Yang, | (参考訳) 点雲解析は、不規則性、疎性、不規則性の独特の特徴のために困難である。
先行研究は、座標から幾何学的情報を暗黙的に利用して、畳み込み操作や注意機構によって局所的な関係を捉えようとする。
しかし、これらの手法は明示的な局所幾何学、例えば曲率や向きを記述するには不十分である。
本稿では,曲線特徴生成モジュールを通じて,豊富な幾何学的情報を明示的にキャプチャするOPFR(On-the-fly Point Feature Representation)を提案する。
これはコンピュータビジョンコミュニティのポイント・フィーチャー・ヒストグラム(PFH)にインスパイアされている。
しかしながら、バニラPFHの利用は、大きなデータセットや高密度の点雲に適用する場合、機能生成にかなりの時間を要するため、大きな困難に直面する。
対照的に、三角形集合に基づく局所座標系を近似するローカル参照コンストラクタモジュールを導入する。
このため,OPFRは推論に1.56ms(バニラPFHより65倍速い)と0.012M以上のパラメータしか必要とせず,様々なバックボーン,特にMLPベースおよびTransformerベースのバックボーンの汎用的なプラグイン・アンド・プレイモジュールとして機能する。
さらに,三角集合の品質向上を目的とした新しい階層サンプリングモジュールを導入し,得られた幾何学的特徴の堅牢性を確保する。
提案手法は,ModelNet40の総合精度(OA)を90.7%から94.5%(+3.8%)に改善し,S3DIS Area-5のOAを86.4%から90.0%(+3.6%)に改善し,PointNet++のバックボーン上に構築する。
Point Transformerのバックボーンと統合すると、どちらのタスクでも94.8%のOA、S3DIS Area-5では91.7%のOAが得られる。
Point cloud analysis is challenging due to its unique characteristics of unorderness, sparsity and irregularity. Prior works attempt to capture local relationships by convolution operations or attention mechanisms, exploiting geometric information from coordinates implicitly. These methods, however, are insufficient to describe the explicit local geometry, e.g., curvature and orientation. In this paper, we propose On-the-fly Point Feature Representation (OPFR), which captures abundant geometric information explicitly through Curve Feature Generator module. This is inspired by Point Feature Histogram (PFH) from computer vision community. However, the utilization of vanilla PFH encounters great difficulties when applied to large datasets and dense point clouds, as it demands considerable time for feature generation. In contrast, we introduce the Local Reference Constructor module, which approximates the local coordinate systems based on triangle sets. Owing to this, our OPFR only requires extra 1.56ms for inference (65x faster than vanilla PFH) and 0.012M more parameters, and it can serve as a versatile plug-and-play module for various backbones, particularly MLP-based and Transformer-based backbones examined in this study. Additionally, we introduce the novel Hierarchical Sampling module aimed at enhancing the quality of triangle sets, thereby ensuring robustness of the obtained geometric features. Our proposed method improves overall accuracy (OA) on ModelNet40 from 90.7% to 94.5% (+3.8%) for classification, and OA on S3DIS Area-5 from 86.4% to 90.0% (+3.6%) for semantic segmentation, respectively, building upon PointNet++ backbone. When integrated with Point Transformer backbone, we achieve state-of-the-art results on both tasks: 94.8% OA on ModelNet40 and 91.7% OA on S3DIS Area-5. | 翻訳日:2024-08-01 18:41:45 公開日:2024-07-31 |
# 本質的に動機づけされた刺激を用いた画像に基づく深層強化学習:複雑なロボット作業の実行について
Image-Based Deep Reinforcement Learning with Intrinsically Motivated Stimuli: On the Execution of Complex Robotic Tasks ( http://arxiv.org/abs/2407.21338v1 ) ライセンス: Link先を確認 | David Valencia, Henry Williams, Yuning Xing, Trevor Gee, Minas Liarokapis, Bruce A. MacDonald, | (参考訳) 強化学習(Reinforcement Learning, RL)は、環境が常に深い報酬値を提供するタスクを解決するために広く用いられている。
しかし、現実世界のシナリオでは、報酬は定義が不十分でスパースであることが多い。
補助的な信号は、効率的な探索戦略を発見し、学習プロセスを支援するのに不可欠である。
本研究は, 内在的モチベーション理論に触発されて, 新規性と驚きの内在的刺激が, 複雑で軽微な環境における探索改善に役立つと仮定した。
本稿では,TD3のイメージベース拡張であるピクセルから直接学習可能な,新しいサンプル効率の手法を提案する。
実験では、NaSA-TD3は訓練が容易で、シミュレーション環境と実世界の環境の両方において、複雑な連続制御ロボットタスクに対処する効率的な方法が示されている。
NaSA-TD3は、訓練済みのモデルや人間のデモンストレーションを必要とせず、最終的なパフォーマンスの観点から既存の最先端のRL画像ベースの手法より優れている。
Reinforcement Learning (RL) has been widely used to solve tasks where the environment consistently provides a dense reward value. However, in real-world scenarios, rewards can often be poorly defined or sparse. Auxiliary signals are indispensable for discovering efficient exploration strategies and aiding the learning process. In this work, inspired by intrinsic motivation theory, we postulate that the intrinsic stimuli of novelty and surprise can assist in improving exploration in complex, sparsely rewarded environments. We introduce a novel sample-efficient method able to learn directly from pixels, an image-based extension of TD3 with an autoencoder called \textit{NaSA-TD3}. The experiments demonstrate that NaSA-TD3 is easy to train and an efficient method for tackling complex continuous-control robotic tasks, both in simulated environments and real-world settings. NaSA-TD3 outperforms existing state-of-the-art RL image-based methods in terms of final performance without requiring pre-trained models or human demonstrations. | 翻訳日:2024-08-01 18:41:45 公開日:2024-07-31 |
# 収穫機におけるジャガイモ塊茎の高出力3次元形状仕上げ
High-throughput 3D shape completion of potato tubers on a harvester ( http://arxiv.org/abs/2407.21341v1 ) ライセンス: Link先を確認 | Pieter M. Blok, Federico Magistri, Cyrill Stachniss, Haozhou Wang, James Burridge, Wei Guo, | (参考訳) ジャガイモの収穫は農夫にとって栽培の慣行をさらに最適化する重要な指標である。
ジャガイモの3次元(3D)体積を推定できるRGB-Dカメラを用いて,収穫機上でのジャガイモ収量の推定を行うことができる。
しかし、RGB-D画像から得られる3次元形状は部分的にしか完成せず、実際の体積を過小評価していない。
この問題に対処するため,我々は,RGB-D画像から3次元形状を完結できるCoRe++という3次元形状補完ネットワークを開発した。
CoRe++は、畳み込みエンコーダとデコーダで構成されるディープラーニングネットワークである。
エンコーダは、深部符号距離場ネットワーク(DeepSDF)を用いて、デコーダが使用する遅延ベクトルにRGB-D画像を圧縮して3次元形状を完成させる。
筆者らはCoRe++ネットワークの評価のために, ジャガイモ339羽の3D点群の部分的および完全な3D点群を日本の収穫機で収集した。
テストセットの1425枚のRGB-D画像(51個のポテトポテトポテトポテトポテトポテトを表現)では,ネットワークの完成精度は平均2.8mmに達した。
体積推定では、根平均二乗誤差(RMSE)は22.6mlであり、線形回帰(31.1ml)とベースモデル(36.9ml)のRMSEよりも優れていた。
RGB-D画像の中心で3次元形状完了を行う場合,RMSEはさらに18.2mlまで低減できることがわかった。
高出力ジャガイモ収量推定のための操作式収穫機において,CoRe++の3次元形状完了時間は平均10ミリ秒であり,高速かつ高精度である。
私たちのコード、ネットワークウェイト、データセットはhttps://github.com/UTokyo-FieldPhenomics-Lab/corepp.git.comで公開されています。
Potato yield is an important metric for farmers to further optimize their cultivation practices. Potato yield can be estimated on a harvester using an RGB-D camera that can estimate the three-dimensional (3D) volume of individual potato tubers. A challenge, however, is that the 3D shape derived from RGB-D images is only partially completed, underestimating the actual volume. To address this issue, we developed a 3D shape completion network, called CoRe++, which can complete the 3D shape from RGB-D images. CoRe++ is a deep learning network that consists of a convolutional encoder and a decoder. The encoder compresses RGB-D images into latent vectors that are used by the decoder to complete the 3D shape using the deep signed distance field network (DeepSDF). To evaluate our CoRe++ network, we collected partial and complete 3D point clouds of 339 potato tubers on an operational harvester in Japan. On the 1425 RGB-D images in the test set (representing 51 unique potato tubers), our network achieved a completion accuracy of 2.8 mm on average. For volumetric estimation, the root mean squared error (RMSE) was 22.6 ml, and this was better than the RMSE of the linear regression (31.1 ml) and the base model (36.9 ml). We found that the RMSE can be further reduced to 18.2 ml when performing the 3D shape completion in the center of the RGB-D image. With an average 3D shape completion time of 10 milliseconds per tuber, we can conclude that CoRe++ is both fast and accurate enough to be implemented on an operational harvester for high-throughput potato yield estimation. Our code, network weights and dataset are publicly available at https://github.com/UTokyo-FieldPhenomics-Lab/corepp.git. | 翻訳日:2024-08-01 18:41:45 公開日:2024-07-31 |
# MIST: シンプルでスケーラブルな3Dメディカルイメージングセグメンテーションフレームワーク
MIST: A Simple and Scalable End-To-End 3D Medical Imaging Segmentation Framework ( http://arxiv.org/abs/2407.21343v1 ) ライセンス: Link先を確認 | Adrian Celaya, Evan Lim, Rachel Glenn, Brayden Mi, Alex Balsells, Tucker Netherton, Caroline Chung, Beatrice Riviere, David Fuentes, | (参考訳) 医用画像のセグメンテーションは非常に活発な研究領域であり、いくつかのベンチマークで最先端の結果を達成するディープラーニングベースの手法がある。
しかし、新しい手法を訓練、テスト、評価するための標準化されたツールが欠如しているため、手法の比較は困難である。
そこで本研究では,医用イメージングセグメンテーション・ツールキット(MIST, Medical Imaging Segmentation Toolkit, MIST)を導入し,一貫したトレーニング,テスト,深層学習に基づく医用画像セグメンテーション手法の評価を行う。
MISTはデータ分析、前処理、評価パイプラインを標準化し、複数のアーキテクチャと損失関数を収容する。
この標準化により、異なるメソッド間で再現性と公正な比較が保証される。
MISTのデータフォーマット要件、パイプライン、補助機能について詳述し、BraTS Adult Glioma Post-Treatment Challengeデータセットを使用してその有効性を実証する。
我々の結果は、MISTが正確なセグメンテーションマスクを作成する能力と、複数のGPUにまたがるスケーラビリティを強調し、将来の医用画像研究と開発のための強力なツールとしての可能性を示している。
Medical imaging segmentation is a highly active area of research, with deep learning-based methods achieving state-of-the-art results in several benchmarks. However, the lack of standardized tools for training, testing, and evaluating new methods makes the comparison of methods difficult. To address this, we introduce the Medical Imaging Segmentation Toolkit (MIST), a simple, modular, and end-to-end medical imaging segmentation framework designed to facilitate consistent training, testing, and evaluation of deep learning-based medical imaging segmentation methods. MIST standardizes data analysis, preprocessing, and evaluation pipelines, accommodating multiple architectures and loss functions. This standardization ensures reproducible and fair comparisons across different methods. We detail MIST's data format requirements, pipelines, and auxiliary features and demonstrate its efficacy using the BraTS Adult Glioma Post-Treatment Challenge dataset. Our results highlight MIST's ability to produce accurate segmentation masks and its scalability across multiple GPUs, showcasing its potential as a powerful tool for future medical imaging research and development. | 翻訳日:2024-08-01 18:41:45 公開日:2024-07-31 |
# 曖昧性を考慮した連続感情予測のための二重拘束型動的ニューラル・ニューラル・オード
Dual-Constrained Dynamical Neural ODEs for Ambiguity-aware Continuous Emotion Prediction ( http://arxiv.org/abs/2407.21344v1 ) ライセンス: Link先を確認 | Jingyao Wu, Ting Dang, Vidhyasaharan Sethu, Eliathamby Ambikairajah, | (参考訳) 近年、感情のあいまいさをモデル化することに大きな焦点が当てられ、感情をあいまいさを捉えるための分布として表現する進歩が見られた。
しかし、感情分布の時間的依存を考慮し、時間とともにスムーズに進化する知覚的感情のあいまいさをエンコードする努力は比較的少ない。
時間列を動的プロセスとしてモデル化するための制約付き動的ニューラル常微分方程式 (CD-NODE) の利点を認識し, 覚醒および原子価上での感情分布のダイナミクスをモデル化するための曖昧性を考慮した二重拘束型ニューラルODEアプローチを提案する。
提案手法では,ニューラルネットワークによってパラメータ化されたODEを用いて分布パラメータを推定し,予測された分布の妥当性を確保するために,システム出力の範囲を制限するために追加の制約を統合する。
提案手法を利用可能なRECOLAデータセット上で評価し,様々な評価指標で非常に有望な性能を示した。
There has been a significant focus on modelling emotion ambiguity in recent years, with advancements made in representing emotions as distributions to capture ambiguity. However, there has been comparatively less effort devoted to the consideration of temporal dependencies in emotion distributions which encodes ambiguity in perceived emotions that evolve smoothly over time. Recognizing the benefits of using constrained dynamical neural ordinary differential equations (CD-NODE) to model time series as dynamic processes, we propose an ambiguity-aware dual-constrained Neural ODE approach to model the dynamics of emotion distributions on arousal and valence. In our approach, we utilize ODEs parameterised by neural networks to estimate the distribution parameters, and we integrate additional constraints to restrict the range of the system outputs to ensure the validity of predicted distributions. We evaluated our proposed system on the publicly available RECOLA dataset and observed very promising performance across a range of evaluation metrics. | 翻訳日:2024-08-01 18:41:45 公開日:2024-07-31 |
# ディープラーニングのための分別的ブロックワイドグラディエントシャッフル
Differentially Private Block-wise Gradient Shuffle for Deep Learning ( http://arxiv.org/abs/2407.21347v1 ) ライセンス: Link先を確認 | David Zagardo, | (参考訳) 従来のDP-SGD(Dis differentially Private Stochastic Gradient Descent)は、ガウス分布から引き出された勾配の上に統計的ノイズを導入し、プライバシーを確保する。
本稿では,ディープラーニングのためのDP-BloGSアルゴリズムを提案する。
BloGSは、既存のプライベートなディープラーニングの文献から成り立っているが、情報理論のプライバシー分析に基づいてモデル化されたシャッフルを通じて、勾配ノイズ導入の確率論的アプローチをとることによって、決定的なシフトを行う。
本稿では, シャッフル, パラメータ固有のブロックサイズ選択, バッチ層クリッピング, 勾配蓄積の組み合わせにより, DP-BloGSは, DP-SGDと同様のプライバシーと実用性を確保しつつ, 非プライベートトレーニングに近い訓練時間を実現できることを示す。
DP-BloGSはDP-SGDよりもデータ抽出に抵抗性が高い。
実験結果から理論的結果が得られた。
Traditional Differentially Private Stochastic Gradient Descent (DP-SGD) introduces statistical noise on top of gradients drawn from a Gaussian distribution to ensure privacy. This paper introduces the novel Differentially Private Block-wise Gradient Shuffle (DP-BloGS) algorithm for deep learning. BloGS builds off of existing private deep learning literature, but makes a definitive shift by taking a probabilistic approach to gradient noise introduction through shuffling modeled after information theoretic privacy analyses. The theoretical results presented in this paper show that the combination of shuffling, parameter-specific block size selection, batch layer clipping, and gradient accumulation allows DP-BloGS to achieve training times close to that of non-private training while maintaining similar privacy and utility guarantees to DP-SGD. DP-BloGS is found to be significantly more resistant to data extraction attempts than DP-SGD. The theoretical results are validated by the experimental findings. | 翻訳日:2024-08-01 18:41:45 公開日:2024-07-31 |
# 視覚に基づく産業検査のための小物体Few-shotセグメンテーション
Small Object Few-shot Segmentation for Vision-based Industrial Inspection ( http://arxiv.org/abs/2407.21351v1 ) ライセンス: Link先を確認 | Zilong Zhang, Chang Niu, Zhibin Zhao, Xingwu Zhang, Xuefeng Chen, | (参考訳) 視覚に基づく産業検査(VII)は、欠陥を迅速かつ正確に発見することを目的としている。
密接な設定と工業的異常検出に基づく教師付き学習は、VIIの2つの共通パラダイムとして、実践的応用において異なる問題に直面している。
前者は、様々な十分な欠陥を得るのが困難であり、後者は特定の欠陥を見つけることができないことである。
これらの問題を解決するために,本論文では,いくつかのアノテーションに条件付された未知の欠陥を再学習することなく検出する,FSS法に焦点をあてる。
自然画像の一般的な物体と比較して、VIIの欠陥は小さい。
これは現在のFSSメソッドに2つの問題をもたらす。1つのターゲットセマンティクスの歪みと2つの背景に対する偽陽性である。
これらの問題を緩和するため、我々は小さなオブジェクト・ショット・セグメンテーション(SOFS)モデルを提案する。
1を緩和する鍵となる考え方は、元のイメージの縮小を回避し、ターゲットセマンティクスの強度を正しく示すことである。
SOFSは、非サイズ化プロシージャと、サポートアノテーションのプロトタイプ強度ダウンサンプリングによって、このアイデアを実現している。
2 を緩和するために、SOFS における異常事前マップを設計し、偽陽性を減少させるためにモデルを誘導し、偽陽性の予測を優先的に防止するために混合正規Dice損失を提案する。
SOFSは、サポートマスクによって決定されたFSSと数発の異常検出を達成できる。
各種実験はSOFSの優れた性能を裏付けるものである。
コードはhttps://github.com/zhangzilongc/SOFSで入手できる。
Vision-based industrial inspection (VII) aims to locate defects quickly and accurately. Supervised learning under a close-set setting and industrial anomaly detection, as two common paradigms in VII, face different problems in practical applications. The former is that various and sufficient defects are difficult to obtain, while the latter is that specific defects cannot be located. To solve these problems, in this paper, we focus on the few-shot semantic segmentation (FSS) method, which can locate unseen defects conditioned on a few annotations without retraining. Compared to common objects in natural images, the defects in VII are small. This brings two problems to current FSS methods: 1 distortion of target semantics and 2 many false positives for backgrounds. To alleviate these problems, we propose a small object few-shot segmentation (SOFS) model. The key idea for alleviating 1 is to avoid the resizing of the original image and correctly indicate the intensity of target semantics. SOFS achieves this idea via the non-resizing procedure and the prototype intensity downsampling of support annotations. To alleviate 2, we design an abnormal prior map in SOFS to guide the model to reduce false positives and propose a mixed normal Dice loss to preferentially prevent the model from predicting false positives. SOFS can achieve FSS and few-shot anomaly detection determined by support masks. Diverse experiments substantiate the superior performance of SOFS. Code is available at https://github.com/zhangzilongc/SOFS. | 翻訳日:2024-08-01 18:41:45 公開日:2024-07-31 |
# 社会的に適応した汎用的創造物のためのインタラクティブな具体的進化
Interactive embodied evolution for socially adept Artificial General Creatures ( http://arxiv.org/abs/2407.21357v1 ) ライセンス: Link先を確認 | Kevin Godin-Dubois, Olivier Weissl, Karine Miras, Anna V. Kononova, | (参考訳) ここでは、ロボットまたは仮想エージェントを包含する「人工汎用創造(Artificial General Creatures:AGC)」の概念を紹介します。
そこで我々は,AGCの技術と信頼性の両方を段階的に構築することを目的とした研究ラインを提案する。
このアプローチの中核的な要素は、信頼は、明らかに相互に有益な相互作用を通じて、時間とともにのみ構築できる、ということです。
この目的のために、私たちは、家畜と同じように、人間と明示的に協調する無防備で無防備な人工エージェントから始めることを提唱します。
進化型ロボティクスから神経科学、倫理から人間と機械の相互作用まで、複数の研究分野を組み合わせることで、人間との社会的および感情的なつながりを形成する、体現的で自己持続的な人工一般創造物を作ることを目指している。
競争力のあるオンラインゲームをしたり、詩を作ったりすることはできないが、人工的なペットに似た生物は、共生的な人工知能(AI)への重要な一歩だと私たちは主張する。
We introduce here the concept of Artificial General Creatures (AGC) which encompasses "robotic or virtual agents with a wide enough range of capabilities to ensure their continued survival". With this in mind, we propose a research line aimed at incrementally building both the technology and the trustworthiness of AGC. The core element in this approach is that trust can only be built over time, through demonstrably mutually beneficial interactions. To this end, we advocate starting from unobtrusive, nonthreatening artificial agents that would explicitly collaborate with humans, similarly to what domestic animals do. By combining multiple research fields, from Evolutionary Robotics to Neuroscience, from Ethics to Human-Machine Interaction, we aim at creating embodied, self-sustaining Artificial General Creatures that would form social and emotional connections with humans. Although they would not be able to play competitive online games or generate poems, we argue that creatures akin to artificial pets would be invaluable stepping stones toward symbiotic Artificial General Intelligence. | 翻訳日:2024-08-01 18:41:45 公開日:2024-07-31 |
# Tree-of-Traversals:知識グラフを用いたブラックボックス言語モデルの拡張のためのゼロショット推論アルゴリズム
Tree-of-Traversals: A Zero-Shot Reasoning Algorithm for Augmenting Black-box Language Models with Knowledge Graphs ( http://arxiv.org/abs/2407.21358v1 ) ライセンス: Link先を確認 | Elan Markowitz, Anil Ramakrishna, Jwala Dhamala, Ninareh Mehrabi, Charith Peris, Rahul Gupta, Kai-Wei Chang, Aram Galstyan, | (参考訳) 知識グラフ(KG)は、信頼性があり、構造化され、ドメイン固有であり、最新の外部知識を提供することで、Large Language Models(LLM)を補完する。
しかしながら、KGとLLMは個別に開発され、訓練後に統合されなければならない。
そこで本研究では,ゼロショット推論アルゴリズムであるTree-of-Traversalsを導入する。
このアルゴリズムは、LLMにKGと対面するアクションを装備し、LLMが可能な思考や行動に対してツリーサーチを実行し、高い信頼性の推論経路を見つけることを可能にする。
人気のあるベンチマークデータセットを2つ評価する。
この結果から,質問応答およびKG質問応答タスクの性能が著しく向上することが示唆された。
コードは \url{https://github.com/amazon-science/tree-of-traversals} で公開されている。
Knowledge graphs (KGs) complement Large Language Models (LLMs) by providing reliable, structured, domain-specific, and up-to-date external knowledge. However, KGs and LLMs are often developed separately and must be integrated after training. We introduce Tree-of-Traversals, a novel zero-shot reasoning algorithm that enables augmentation of black-box LLMs with one or more KGs. The algorithm equips a LLM with actions for interfacing a KG and enables the LLM to perform tree search over possible thoughts and actions to find high confidence reasoning paths. We evaluate on two popular benchmark datasets. Our results show that Tree-of-Traversals significantly improves performance on question answering and KG question answering tasks. Code is available at \url{https://github.com/amazon-science/tree-of-traversals} | 翻訳日:2024-08-01 18:41:45 公開日:2024-07-31 |
# ProSpec RL: 計画に先んじて実行
ProSpec RL: Plan Ahead, then Execute ( http://arxiv.org/abs/2407.21359v1 ) ライセンス: Link先を確認 | Liangliang Liu, Yi Guan, BoRan Wang, Rujia Shen, Yi Lin, Chaoran Kong, Lian Yan, Jingchi Jiang, | (参考訳) 実行前の行動の潜在的な成果を想像することは、エージェントがより情報的な決定を下すのに役立つ。
しかし、主流のモデルフリー強化学習(RL)手法には、将来のシナリオ、計画、ガイド戦略を積極的に想定する能力がない。
これらの手法は、たとえ高水準の判断が環境を極めて危険な状態に配置しても、概算的な報酬や長期的価値を最大化することを目的として、政策機能を調整するために試行錯誤に依存するのが一般的である。
そこで本研究では,将来的なn-stream軌道を想像して,高値,低リスクの最適決定を行うProspective (ProSpec) RL法を提案する。
具体的には、ProSpecは動的モデルを使用して、現在の状態と一連のサンプルアクションに基づいて将来の状態(「想像された状態」と呼ばれる)を予測する。
さらに,モデル予測制御の概念とサイクル整合性制約を導入し,エージェントがこれらの軌道から最適な行動を評価し,選択できるようにする。
さらに、ProSpecはサイクル一貫性を使用して、RLの2つの基本的な問題を緩和する: 不可逆事象(リスクの低い)を避けるために状態の可逆性を向上し、多数の仮想軌道を生成するためにアクションを増強し、データ効率を向上させる。
提案手法の有効性をDMControlベンチマークで検証した。
コードは受理時にオープンソース化される。
Imagining potential outcomes of actions before execution helps agents make more informed decisions, a prospective thinking ability fundamental to human cognition. However, mainstream model-free Reinforcement Learning (RL) methods lack the ability to proactively envision future scenarios, plan, and guide strategies. These methods typically rely on trial and error to adjust policy functions, aiming to maximize cumulative rewards or long-term value, even if such high-reward decisions place the environment in extremely dangerous states. To address this, we propose the Prospective (ProSpec) RL method, which makes higher-value, lower-risk optimal decisions by imagining future n-stream trajectories. Specifically, ProSpec employs a dynamic model to predict future states (termed "imagined states") based on the current state and a series of sampled actions. Furthermore, we integrate the concept of Model Predictive Control and introduce a cycle consistency constraint that allows the agent to evaluate and select the optimal actions from these trajectories. Moreover, ProSpec employs cycle consistency to mitigate two fundamental issues in RL: augmenting state reversibility to avoid irreversible events (low risk) and augmenting actions to generate numerous virtual trajectories, thereby improving data efficiency. We validated the effectiveness of our method on the DMControl benchmarks, where our approach achieved significant performance improvements. Code will be open-sourced upon acceptance. | 翻訳日:2024-08-01 18:41:45 公開日:2024-07-31 |
# ESIQA:視覚プロを用いたエゴセントリック空間画像の知覚的品質評価
ESIQA: Perceptual Quality Assessment of Vision-Pro-based Egocentric Spatial Images ( http://arxiv.org/abs/2407.21363v1 ) ライセンス: Link先を確認 | Xilei Zhu, Liu Yang, Huiyu Duan, Xiongkuo Min, Guangtao Zhai, Patrick Le Callet, | (参考訳) eXtended Reality (XR)の開発により、ヘッドマウント・シューティングとディスプレイ技術は飛躍的な進歩を遂げ、注目を集めている。
エゴセントリックな空間画像とビデオは、立体XRコンテンツの魅力的な形態として現れつつある。
従来の2次元画像とは違って、自我中心の空間画像は、特別な撮影方法、処理方法、立体的特徴による知覚的品質評価の課題を示す。
しかし、エゴセントリック空間画像に対する対応する画像品質評価(IQA)研究はいまだに欠落している。
本稿では,エゴセントリック空間画像品質評価データベース (ESIQAD) を構築し,エゴセントリック空間画像を対象とした最初のIQAデータベースである。
ESIQADには、Apple Vision Proで撮影した400枚の画像と、iPhoneの「Spatial Camera」アプリで生成された100枚の画像が含まれています。
対応する平均意見スコア(MOS)は、2Dディスプレイ、3Dウィンドウディスプレイ、3D没入ディスプレイを含む3つの視聴モードで収集される。
さらに,本データベースをベースとしたベンチマーク実験を行い,22種類の最先端IQAモデルの性能を3つの異なる視聴モードで評価した。
この研究によって、エゴ中心空間画像のIQA研究が促進されることを願っている。
データベースはhttps://github.com/IntMeGroup/ESIQA.comで入手できる。
With the development of eXtended Reality (XR), head-mounted shooting and display technology have experienced significant advancement and gained considerable attention. Egocentric spatial images and videos are emerging as a compelling form of stereoscopic XR content. Different from traditional 2D images, egocentric spatial images present challenges for perceptual quality assessment due to their special shooting, processing methods, and stereoscopic characteristics. However, the corresponding image quality assessment (IQA) research for egocentric spatial images is still lacking. In this paper, we establish the Egocentric Spatial Images Quality Assessment Database (ESIQAD), the first IQA database dedicated for egocentric spatial images as far as we know. Our ESIQAD includes 500 egocentric spatial images, containing 400 images captured with the Apple Vision Pro and 100 images generated via an iPhone's "Spatial Camera" app. The corresponding mean opinion scores (MOSs) are collected under three viewing modes, including 2D display, 3D-window display, and 3D-immersive display. Furthermore, based on our database, we conduct a benchmark experiment and evaluate the performance of 22 state-of-the-art IQA models under three different viewing modes. We hope this research can facilitate future IQA research on egocentric spatial images. The database is available at https://github.com/IntMeGroup/ESIQA. | 翻訳日:2024-08-01 18:41:45 公開日:2024-07-31 |
# 視力検査による診断のための医用大規模視線モデルの提案
Prompting Medical Large Vision-Language Models to Diagnose Pathologies by Visual Question Answering ( http://arxiv.org/abs/2407.21368v1 ) ライセンス: Link先を確認 | Danfeng Guo, Demetri Terzopoulos, | (参考訳) 近年、LVLM(Large Vision-Language Models)は大きな成功を収めており、医療分野にも拡張されている。
医療用視覚質問応答(VQA)タスクにおいて満足なパフォーマンスを示す一方で、医療用LVLM(MLVLM)は幻覚障害に悩まされ、複雑な病態の診断に失敗する。
さらに,不均衡なトレーニングデータにより,マイノリティーな病理の学習に失敗する。
本稿では,幻覚を減らし,VQA性能を向上させるMLVLMの2つのプロンプト戦略を提案する。
第1の戦略では、クエリされた病理の詳細な説明を提供する。
第2の戦略では、安価で弱い学習者を微調整し、特定のメトリクスで高い性能を達成し、MLVLMにその判断をテキストで提供する。
MIMIC-CXR-JPGおよびChexpertデータセットを用いて測定したところ,診断精度は0.27。
また、我々のプロンプト戦略が一般のLVLMドメインに拡張可能であることを示す。
POPE測定値に基づいて、既存のLVLMの偽陰性予測を効果的に抑制し、リコールを約0.07改善する。
Large Vision-Language Models (LVLMs) have achieved significant success in recent years, and they have been extended to the medical domain. Although demonstrating satisfactory performance on medical Visual Question Answering (VQA) tasks, Medical LVLMs (MLVLMs) suffer from the hallucination problem, which makes them fail to diagnose complex pathologies. Moreover, they readily fail to learn minority pathologies due to imbalanced training data. We propose two prompting strategies for MLVLMs that reduce hallucination and improve VQA performance. In the first strategy, we provide a detailed explanation of the queried pathology. In the second strategy, we fine-tune a cheap, weak learner to achieve high performance on a specific metric, and textually provide its judgment to the MLVLM. Tested on the MIMIC-CXR-JPG and Chexpert datasets, our methods significantly improve the diagnostic F1 score, with the highest increase being 0.27. We also demonstrate that our prompting strategies can be extended to general LVLM domains. Based on POPE metrics, it effectively suppresses the false negative predictions of existing LVLMs and improves Recall by approximately 0.07. | 翻訳日:2024-08-01 18:41:45 公開日:2024-07-31 |
# LLMによる単体テストの文脈認識入力の可読性測定
An LLM-based Readability Measurement for Unit Tests' Context-aware Inputs ( http://arxiv.org/abs/2407.21369v1 ) ライセンス: Link先を確認 | Zhichao Zhou, Yutian Tang, Yun Lin, Jingzhu He, | (参考訳) 自動テスト技術は通常、手動テストよりも高いコードカバレッジで単体テストを生成する。
しかし、自動テストの可読性はコードの理解とメンテナンスに不可欠である。
単体テストの可読性は多くの側面を含む。
本稿では,テストインプットに焦点をあてる。
入力可読性に関する既存の研究の中心的な制限は、テスト済みのソースコードを考慮に入れずに、テストコードのみに焦点を当てることであり、異なるソースコードの異なる可読性要件を無視したり、読みやすい入力を書くために手作業を必要とする。
しかし、ソースコードは、テスト入力が満たさなければならないコンテキストを指定する。
このような観察に基づいて、大言語モデルを利用した可読性測定ツールである \underline{C}ontext \underline{C}onsistency \underline{C}onsistency \underline{C}riterion (a.a.a.C3) を導入し、ソースコードからプリミティブ型(文字列型を含む)パラメータの可読性コンテキストを抽出し、テスト入力がそれらのコンテキストと整合であるかどうかを確認する。
EvoSuiteC3も提案しました。
これはC3の抽出したコンテキストを活用して、EvoSuiteが読みやすいテストインプットを生成するのに役立つ。
我々は C3 のパフォーマンスを 409$ \java{} クラスで評価し,手動および自動テストの可読性を比較した。
結果は2倍になる。
まず、C3のマイニングされた可読性コンテキストの精度、リコール、F1スコアはそれぞれ \precision{} と \recall{} と \fone{} である。
第二に、C3の測定では、EvoSuiteC3、ChatUniTest(LLMベースのテスト生成ツール)、手動テスト、および2つの従来のツール(EvoSuiteとRandoop)の文字列型の入力可読性スコアは、90 %$、83\%$、68 %$、8 %$、そして8 %$である。
Automated test techniques usually generate unit tests with higher code coverage than manual tests. However, the readability of automated tests is crucial for code comprehension and maintenance. The readability of unit tests involves many aspects. In this paper, we focus on test inputs. The central limitation of existing studies on input readability is that they focus on test codes alone without taking the tested source codes into consideration, making them either ignore different source codes' different readability requirements or require manual efforts to write readable inputs. However, we observe that the source codes specify the contexts that test inputs must satisfy. Based on such observation, we introduce the \underline{C}ontext \underline{C}onsistency \underline{C}riterion (a.k.a, C3), which is a readability measurement tool that leverages Large Language Models to extract primitive-type (including string-type) parameters' readability contexts from the source codes and checks whether test inputs are consistent with those contexts. We have also proposed EvoSuiteC3. It leverages C3's extracted contexts to help EvoSuite generate readable test inputs. We have evaluated C3's performance on $409$ \java{} classes and compared manual and automated tests' readability under C3 measurement. The results are two-fold. First, The Precision, Recall, and F1-Score of C3's mined readability contexts are \precision{}, \recall{}, and \fone{}, respectively. Second, under C3's measurement, the string-type input readability scores of EvoSuiteC3, ChatUniTest (an LLM-based test generation tool), manual tests, and two traditional tools (EvoSuite and Randoop) are $90\%$, $83\%$, $68\%$, $8\%$, and $8\%$, showing the traditional tools' inability in generating readable string-type inputs. | 翻訳日:2024-08-01 18:41:45 公開日:2024-07-31 |
# SHA-CNN:エッジAIのためのスケーラブルな階層的認識畳み込みニューラルネットワーク
SHA-CNN: Scalable Hierarchical Aware Convolutional Neural Network for Edge AI ( http://arxiv.org/abs/2407.21370v1 ) ライセンス: Link先を確認 | Narendra Singh Dhakad, Yuvnish Malhotra, Santosh Kumar Vishvakarma, Kaushik Roy, | (参考訳) 本稿では,エッジAIアプリケーションのためのスケーラブルな階層型認識畳み込みニューラルネットワーク(SHA-CNN)モデルアーキテクチャを提案する。
提案した階層型CNNモデルは,資源制約されたエッジデバイスがもたらす課題に対処するため,計算効率と精度のバランスをとるために精巧に設計されている。
SHA-CNNは、最先端の階層モデルに匹敵する精度を達成し、精度の指標でベースラインモデルを上回る性能を示す。
重要なイノベーションは、モデルの階層的な認識にあり、複数の抽象化レベルで関連する機能を識別し、優先順位付けすることができる。
提案したアーキテクチャは、データセット内の複雑な特徴の微妙な理解を容易にし、階層的な方法でデータを分類する。
さらに、SHA-CNNはスケーラビリティに優れた能力を示し、新しいクラスをシームレスに組み込むことができる。
この柔軟性は、モデルが進化するデータセットに適応し、広範な再トレーニングを必要とせずに追加のクラスに対応する必要がある動的な環境において特に有利である。
提案したモデルを検証するため,PYNQ Z2 FPGAボード上で試験を行った。
結果は、それぞれMNIST、CIFAR-10、CIFAR-100データセットの99.34%、83.35%、63.66%の精度を達成した。
CIFAR-100の場合、提案アーキテクチャは10%削減された計算で階層的分類を行い、精度は0.7%に過ぎなかった。
SHA-CNNのFPGAアーキテクチャへの適応性は、計算資源が限られているエッジデバイスへの展開の可能性を示している。
したがって、SHA-CNNフレームワークは、階層的なCNN、スケーラビリティ、FPGAベースのEdge AIの交差点における有望な進歩として現れる。
This paper introduces a Scalable Hierarchical Aware Convolutional Neural Network (SHA-CNN) model architecture for Edge AI applications. The proposed hierarchical CNN model is meticulously crafted to strike a balance between computational efficiency and accuracy, addressing the challenges posed by resource-constrained edge devices. SHA-CNN demonstrates its efficacy by achieving accuracy comparable to state-of-the-art hierarchical models while outperforming baseline models in accuracy metrics. The key innovation lies in the model's hierarchical awareness, enabling it to discern and prioritize relevant features at multiple levels of abstraction. The proposed architecture classifies data in a hierarchical manner, facilitating a nuanced understanding of complex features within the datasets. Moreover, SHA-CNN exhibits a remarkable capacity for scalability, allowing for the seamless incorporation of new classes. This flexibility is particularly advantageous in dynamic environments where the model needs to adapt to evolving datasets and accommodate additional classes without the need for extensive retraining. Testing has been conducted on the PYNQ Z2 FPGA board to validate the proposed model. The results achieved an accuracy of 99.34%, 83.35%, and 63.66% for MNIST, CIFAR-10, and CIFAR-100 datasets, respectively. For CIFAR-100, our proposed architecture performs hierarchical classification with 10% reduced computation while compromising only 0.7% accuracy with the state-of-the-art. The adaptability of SHA-CNN to FPGA architecture underscores its potential for deployment in edge devices, where computational resources are limited. The SHA-CNN framework thus emerges as a promising advancement in the intersection of hierarchical CNNs, scalability, and FPGA-based Edge AI. | 翻訳日:2024-08-01 18:32:01 公開日:2024-07-31 |
# 非凸(強い)凹極小問題に対する2つの完全パラメータ自由交互勾配射影アルゴリズム
Two Completely Parameter-Free Alternating Gradient Projection Algorithms for Nonconvex-(strongly) Concave Minimax Problems ( http://arxiv.org/abs/2407.21372v1 ) ライセンス: Link先を確認 | Junnan Yang, Huiling Zhang, Zi Xu, | (参考訳) 様々な新興アプリケーションにおいて重要であるため、ミニマックス問題を解くための効率的なアルゴリズムが近年注目されている。
しかし、多くの既存のアルゴリズムは、最適なイテレーションの複雑さを達成するために、問題パラメータの事前の知識を必要とする。
本稿では,リプシッチ定数$L$や強いコンケーブ定数$\mu$といったパラメータの事前知識を必要としないバックトラック戦略を用いて,スムーズな非凸(強)凹小マックス問題を解くために,完全にパラメータフリーな交互勾配射影(PF-AGP)アルゴリズムを提案する。
PF-AGPアルゴリズムはパラメータフリーの勾配投影ステップを使用して、各イテレーションの外側変数と内側変数を交互に更新する。
PF-AGPアルゴリズムの勾配呼び出しの総数は、非凸-強凸ミニマックス問題に対する$\varepsilon$-定常点を、$\mathcal{O}\left(L\kappa^3\varepsilon^{-2} \right)$で上界、$\kappa$を条件数とし、$\varepsilon$-定常点を非凸-凸ミニマックス問題に対する$\varepsilon$-定常点を、$\mathcal{O}\left(L^4\varepsilon^{-4} \right)$で上界とすることを示した。
われわれが知る限り、このアルゴリズムは非凸凸極小問題を解くための最初の完全パラメータフリーアルゴリズムであり、また、非凸凸極小問題を解くための単一ループ法において、最高の反復複雑性を達成する完全パラメータフリーのアルゴリズムでもある。
提案したPF-AGPアルゴリズムの有効性を数値計算により検証した。
Due to their importance in various emerging applications, efficient algorithms for solving minimax problems have recently received increasing attention. However, many existing algorithms require prior knowledge of the problem parameters in order to achieve optimal iteration complexity. In this paper, we propose a completely parameter-free alternating gradient projection (PF-AGP) algorithm to solve the smooth nonconvex-(strongly) concave minimax problems using a backtracking strategy, which does not require prior knowledge of parameters such as the Lipschtiz constant $L$ or the strongly concave constant $\mu$. The PF-AGP algorithm utilizes a parameter-free gradient projection step to alternately update the outer and inner variables in each iteration. We show that the total number of gradient calls of the PF-AGP algorithm to obtain an $\varepsilon$-stationary point for nonconvex-strongly concave minimax problems is upper bounded by $\mathcal{O}\left( L\kappa^3\varepsilon^{-2} \right)$ where $\kappa$ is the condition number, while the total number of gradient calls to obtain an $\varepsilon$-stationary point for nonconvex-concave minimax problems is upper bounded by $\mathcal{O}\left( L^4\varepsilon^{-4} \right)$. As far as we know, this is the first completely parameter-free algorithm for solving nonconvex-strongly concave minimax problems, and it is also the completely parameter-free algorithm which achieves the best iteration complexity in single loop method for solving nonconvex-concave minimax problems. Numerical results validate the efficiency of the proposed PF-AGP algorithm. | 翻訳日:2024-08-01 18:32:01 公開日:2024-07-31 |
# 超長距離距離における人-ロボットの効果的なインタラクションのための動的ジェスチャー認識
Dynamic Gesture Recognition in Ultra-Range Distance for Effective Human-Robot Interaction ( http://arxiv.org/abs/2407.21374v1 ) ライセンス: Link先を確認 | Eran Bamani Beeri, Eden Nissinman, Avishai Sintov, | (参考訳) 本稿では,人間-ロボットインタラクション(HRI)の課題を遠距離で解決する,超距離ジェスチャー認識のための新しいアプローチを提案する。
ビデオデータに人間のジェスチャーを活用することで,現在の手法の限界を超える時間時空間融合ネットワーク(TSFN)モデルを提案し,ロボットが長距離からのジェスチャーを理解できるようにする。
サービスロボット、捜索・救助活動、ドローンによるインタラクションの応用により、我々のアプローチは拡張環境におけるHRIを強化する。
実験による検証は、特に長時間のジェスチャーシーケンスにおいて、ジェスチャー認識精度が著しく向上していることを示す。
This paper presents a novel approach for ultra-range gesture recognition, addressing Human-Robot Interaction (HRI) challenges over extended distances. By leveraging human gestures in video data, we propose the Temporal-Spatiotemporal Fusion Network (TSFN) model that surpasses the limitations of current methods, enabling robots to understand gestures from long distances. With applications in service robots, search and rescue operations, and drone-based interactions, our approach enhances HRI in expansive environments. Experimental validation demonstrates significant advancements in gesture recognition accuracy, particularly in prolonged gesture sequences. | 翻訳日:2024-08-01 18:32:01 公開日:2024-07-31 |
# 動的重み付きグラフ上の拡張カルマンフィルタ統合潜在特徴モデル
An Extended Kalman Filter Integrated Latent Feature Model on Dynamic Weighted Directed Graphs ( http://arxiv.org/abs/2407.21376v1 ) ライセンス: Link先を確認 | Hongxun Zhou, Xiangyu Chen, Ye Yuan, | (参考訳) 動的重み付き有向グラフ(DWDG)は、様々なアプリケーションシナリオでよく見られる。
多数のノード間の広範な動的相互作用を含む。
既存のほとんどのアプローチでは、DWDGに隠された複雑な時間パターンを純粋にデータ駆動の観点から探索し、DWDGが時間とともに強い変動を示すと精度が低下する。
そこで本研究では,DWDGをモデル駆動の観点から表現するための,拡張カルマン・フィルター内包潜在特徴(EKLF)モデルを提案する。
主な考え方は以下の2つに分かれている。
a) 制御モデル、すなわち拡張カルマンフィルタ(EKF)を採用して、複素時間パターンをその非線形状態遷移及び観測関数で正確に追跡すること。
b) DWDGを正確に表すために、代わりに潜伏特徴(LF)を訓練するための交互最小二乗法(ALS)アルゴリズムを導入すること。
DWDGデータセットに関する実証的研究により、提案したEKLFモデルは、DWDGのエッジウェイト不足に対する予測精度と計算効率において、最先端のモデルよりも優れていることを示した。
制御モデルを組み込むことでDWDGを正確に表現する可能性を明らかにする。
A dynamic weighted directed graph (DWDG) is commonly encountered in various application scenarios. It involves extensive dynamic interactions among numerous nodes. Most existing approaches explore the intricate temporal patterns hidden in a DWDG from the purely data-driven perspective, which suffers from accuracy loss when a DWDG exhibits strong fluctuations over time. To address this issue, this study proposes a novel Extended-Kalman-Filter-Incorporated Latent Feature (EKLF) model to represent a DWDG from the model-driven perspective. Its main idea is divided into the following two-fold ideas: a) adopting a control model, i.e., the Extended Kalman Filter (EKF), to track the complex temporal patterns precisely with its nonlinear state-transition and observation functions; and b) introducing an alternating least squares (ALS) algorithm to train the latent features (LFs) alternatively for precisely representing a DWDG. Empirical studies on DWDG datasets demonstrate that the proposed EKLF model outperforms state-of-the-art models in prediction accuracy and computational efficiency for missing edge weights of a DWDG. It unveils the potential for precisely representing a DWDG by incorporating a control model. | 翻訳日:2024-08-01 18:32:01 公開日:2024-07-31 |
# 放射線画像診断における変形性膝関節症進行に対するID-Consistent Diffusion Network
Identity-Consistent Diffusion Network for Grading Knee Osteoarthritis Progression in Radiographic Imaging ( http://arxiv.org/abs/2407.21381v1 ) ライセンス: Link先を確認 | Wenhua Wu, Kun Hu, Wenxi Yue, Wei Li, Milena Simic, Changyang Li, Wei Xiang, Zhiyong Wang, | (参考訳) 変形性膝関節症(KOA)は、身体障害を引き起こす一般的な関節炎である。
KOAの重症度と進行度を自動的に評価するためにコンピュータ支援技術を利用することは、KOA治療と疾患管理に大きな利益をもたらす。
特に、KOAにおけるX線技術の進歩は、その可能性を示している。
しかし、既存のX線予後研究は一般的に、進行結果の理解と説明のための潜在的な視覚的変化を見越して、特異な進行重症度を生じる。
そこで本研究では,新しい生成モデル,IC-RDN(Identity-Consistent Radiographic Diffusion Network)を提案する。
具体的には、拡散のためのアイデンティティ事前モジュールと、下流生成誘導進行予測モジュールを導入する。
従来のイメージ・ツー・イメージ生成モデルと比較して、アイデンティティは正規化され、対照的な学習戦略に基づいて、予後の臨床的ニュアンスにもっと焦点を合わせるように拡散を誘導する。
進行予測モジュールは, 予測およびベースライン膝スキャンを併用し, KOA重症度評価のより包括的な定式化が期待される。
広く利用されている公開データセットであるOAIの大規模な実験により,提案手法の有効性が実証された。
Knee osteoarthritis (KOA), a common form of arthritis that causes physical disability, has become increasingly prevalent in society. Employing computer-aided techniques to automatically assess the severity and progression of KOA can greatly benefit KOA treatment and disease management. Particularly, the advancement of X-ray technology in KOA demonstrates its potential for this purpose. Yet, existing X-ray prognosis research generally yields a singular progression severity grade, overlooking the potential visual changes for understanding and explaining the progression outcome. Therefore, in this study, a novel generative model is proposed, namely Identity-Consistent Radiographic Diffusion Network (IC-RDN), for multifaceted KOA prognosis encompassing a predicted future knee X-ray scan conditioned on the baseline scan. Specifically, an identity prior module for the diffusion and a downstream generation-guided progression prediction module are introduced. Compared to conventional image-to-image generative models, identity priors regularize and guide the diffusion to focus more on the clinical nuances of the prognosis based on a contrastive learning strategy. The progression prediction module utilizes both forecasted and baseline knee scans, and a more comprehensive formulation of KOA severity progression grading is expected. Extensive experiments on a widely used public dataset, OAI, demonstrate the effectiveness of the proposed method. | 翻訳日:2024-08-01 18:32:01 公開日:2024-07-31 |
# GEGA:文書レベルの関係抽出のためのグラフ畳み込みネットワークとエビデンス検索ガイド
GEGA: Graph Convolutional Networks and Evidence Retrieval Guided Attention for Enhanced Document-level Relation Extraction ( http://arxiv.org/abs/2407.21384v1 ) ライセンス: Link先を確認 | Yanxu Mao, Peipei Liu, Tiehan Cui, | (参考訳) ドキュメントレベルの関係抽出(DocRE)は、構造化されていない文書テキストからエンティティ間の関係を抽出することを目的としている。
文レベルの関係抽出と比較して、より広いテキストコンテキストからより複雑な意味理解が必要である。
現在、いくつかの研究はDocREの性能を高めるためにエビデンス文内の論理ルールを活用している。
しかし、証拠文が提供されていないデータでは、研究者は証拠検索(ER)を通じて文書全体の証拠文のリストを得ることが多い。
したがって、DocREは2つの課題に悩まされる: 第一に、エビデンスとエンティティペアの関係は弱く、第二に、長距離マルチエンティティ間の複雑な相互関係の抽出が不十分である。
これらの課題を克服するために,DocREの新しいモデルであるGEGAを提案する。
このモデルはグラフニューラルネットワークを利用して、複数の重み行列を構築し、証拠文への注意割当を導く。
また、ERを強化するためにマルチスケールの表現アグリゲーションも採用している。
その後、モデルのための完全教師付きおよび弱教師付きトレーニングプロセスの両方を実装するために、最も効率的なエビデンス情報を統合する。
我々は、広く使用されている3つのベンチマークデータセット、DocRED、Re-DocRED、Revisit-DocREDでGEGAモデルを評価する。
実験結果から,既存のSOTAモデルと比較して総合的な改善が得られたことが示唆された。
Document-level relation extraction (DocRE) aims to extract relations between entities from unstructured document text. Compared to sentence-level relation extraction, it requires more complex semantic understanding from a broader text context. Currently, some studies are utilizing logical rules within evidence sentences to enhance the performance of DocRE. However, in the data without provided evidence sentences, researchers often obtain a list of evidence sentences for the entire document through evidence retrieval (ER). Therefore, DocRE suffers from two challenges: firstly, the relevance between evidence and entity pairs is weak; secondly, there is insufficient extraction of complex cross-relations between long-distance multi-entities. To overcome these challenges, we propose GEGA, a novel model for DocRE. The model leverages graph neural networks to construct multiple weight matrices, guiding attention allocation to evidence sentences. It also employs multi-scale representation aggregation to enhance ER. Subsequently, we integrate the most efficient evidence information to implement both fully supervised and weakly supervised training processes for the model. We evaluate the GEGA model on three widely used benchmark datasets: DocRED, Re-DocRED, and Revisit-DocRED. The experimental results indicate that our model has achieved comprehensive improvements compared to the existing SOTA model. | 翻訳日:2024-08-01 18:32:01 公開日:2024-07-31 |
# SmileyNet -- AIで茶葉を読むことでロテリの予測を目指す
SmileyNet -- Towards the Prediction of the Lottery by Reading Tea Leaves with AI ( http://arxiv.org/abs/2407.21385v1 ) ライセンス: Link先を確認 | Andreas Birk, | (参考訳) スマイリーネット(SmileyNet)は、サイキック能力を持つニューラルネットワークである。
ポジティブなムードが、分類タスクを含む認知能力の向上につながるという事実にインスパイアされている。
したがって、ネットワークはスマイリーのある第1フェーズで表示され、良い気分にバイアスするために、励まし損失関数が定義される。
スマイリーネット(SmileyNet)は、タセロジの確立した方法、すなわち茶葉の読み方に基づいて硬貨の反転を予測するために使われる。
この第2フェーズのトレーニングとテストは、プロのティーリーディングカップから採取した実世界のピクセルに基づく高忠実度シミュレーションによって行われる。
SmileyNetは、コインのフリップを正確に予測するために、驚くべき精度が72%ある。
Resnet-34, YOLOv5はそれぞれ49%, 53%であった。
次に、複数のSmileyNetを組み合わせることで、宝くじを勝ち取ることができるかが示される。
We introduce SmileyNet, a novel neural network with psychic abilities. It is inspired by the fact that a positive mood can lead to improved cognitive capabilities including classification tasks. The network is hence presented in a first phase with smileys and an encouraging loss function is defined to bias it into a good mood. SmileyNet is then used to forecast the flipping of a coin based on an established method of Tasseology, namely by reading tea leaves. Training and testing in this second phase are done with a high-fidelity simulation based on real-world pixels sampled from a professional tea-reading cup. SmileyNet has an amazing accuracy of 72% to correctly predict the flip of a coin. Resnet-34, respectively YOLOv5 achieve only 49%, respectively 53%. It is then shown how multiple SmileyNets can be combined to win the lottery. | 翻訳日:2024-08-01 18:32:01 公開日:2024-07-31 |
# 逐次超音波画像による動脈-静脈分画の強制センシング
Force Sensing Guided Artery-Vein Segmentation via Sequential Ultrasound Images ( http://arxiv.org/abs/2407.21394v1 ) ライセンス: Link先を確認 | Yimeng Geng, Gaofeng Meng, Mingcong Chen, Guanglin Cao, Mingyang Zhao, Jianbo Zhao, Hongbin Liu, | (参考訳) 超音波画像における動脈と静脈の正確な同定は,血管検査や外科手術の介入に不可欠である。
しかし, 超音波血管分割法では, 形態的類似性から動脈と静脈の鑑別が困難である。
この課題に対処するため,本研究では,動脈-静脈間分節の精度を高めるための新たな力覚的分節法を提案する。
提案手法は,超音波画像の列において,最も顕著な血管変形を伴う鍵フレームの同定に力量を用いる。
これらの鍵フレームは、アテンション機構を通じて現在のフレームに統合され、力の大きさに応じて重みが割り当てられる。
提案手法は,U-Net,Swin-unet,Transunetなどの複数のU字型ネットワークにおいて,シームレスに様々なセグメントネットワークに統合可能であり,大幅な性能向上を実現している。
さらに, 超音波動脈-静脈間分節データセットMus-Vについて検討した。
このデータセットは、105のビデオから抽出された頸動脈と大腿骨の血管の超音波画像3114枚と、米国の探査機に搭載された力センサーによって記録された対応する力データからなる。
コードとデータセットは公開されます。
Accurate identification of arteries and veins in ultrasound images is crucial for vascular examinations and interventions in robotics-assisted surgeries. However, current methods for ultrasound vessel segmentation face challenges in distinguishing between arteries and veins due to their morphological similarities. To address this challenge, this study introduces a novel force sensing guided segmentation approach to enhance artery-vein segmentation accuracy by leveraging their distinct deformability. Our proposed method utilizes force magnitude to identify key frames with the most significant vascular deformation in a sequence of ultrasound images. These key frames are then integrated with the current frame through attention mechanisms, with weights assigned in accordance with force magnitude. Our proposed force sensing guided framework can be seamlessly integrated into various segmentation networks and achieves significant performance improvements in multiple U-shaped networks such as U-Net, Swin-unet and Transunet. Furthermore, we contribute the first multimodal ultrasound artery-vein segmentation dataset, Mus-V, which encompasses both force and image data simultaneously. The dataset comprises 3114 ultrasound images of carotid and femoral vessels extracted from 105 videos, with corresponding force data recorded by the force sensor mounted on the US probe. Our code and dataset will be publicly available. | 翻訳日:2024-08-01 18:32:01 公開日:2024-07-31 |
# DD-rPPGNet:教師なしrPPG推定のための非干渉・記述型特徴学習
DD-rPPGNet: De-interfering and Descriptive Feature Learning for Unsupervised rPPG Estimation ( http://arxiv.org/abs/2407.21402v1 ) ライセンス: Link先を確認 | Pei-Kai Huang, Tzu-Hsien Chen, Ya-Ting Chan, Kuan-Wen Chen, Chiou-Ting Hsu, | (参考訳) RPPG(Remote Photoplethysmography)は、顔画像から生理的信号と心拍数を測定することを目的としている。
最近の非教師なしrPPG推定法は、真理rPPG信号に頼ることなく、顔領域からrPPG信号を推定する有望な可能性を示している。
しかし、これらの手法は、rPPG信号に存在する干渉には耐え難いように思われ、それでも不満足な性能をもたらす。
本稿では,真の rPPG 信号の学習のための rPPG 特徴の干渉を取り除くために,新しい rPPG 推定ネットワーク (DD-rPPGNet) を提案する。
まず、干渉の局所的空間的類似性の特徴について検討し、干渉を推定する新しい教師なしモデルの設計を行う。
次に、2つのステージで真のrPPG信号を学習するための教師なし非干渉手法を提案する。
第1段階では、トレーニングデータと強化データの両方から対照的な学習を行うことで、初期rPPG信号を推定する。
第2段階では、推定された干渉特徴を用いて、非干渉rPPG特徴を導出し、rPPG信号が干渉と区別されるように促す。
さらに,3次元学習可能な記述的畳み込み(DLDC)を開発し,rPPG推定を向上するために,微妙な色変化を捉えることにより,効果的な記述的rPPG特徴学習を提案する。
DD-rPPGNetは従来の教師なしrPPG推定法より優れ,最先端の教師付きrPPG法と競合する性能を示す。
Remote Photoplethysmography (rPPG) aims to measure physiological signals and Heart Rate (HR) from facial videos. Recent unsupervised rPPG estimation methods have shown promising potential in estimating rPPG signals from facial regions without relying on ground truth rPPG signals. However, these methods seem oblivious to interference existing in rPPG signals and still result in unsatisfactory performance. In this paper, we propose a novel De-interfered and Descriptive rPPG Estimation Network (DD-rPPGNet) to eliminate the interference within rPPG features for learning genuine rPPG signals. First, we investigate the characteristics of local spatial-temporal similarities of interference and design a novel unsupervised model to estimate the interference. Next, we propose an unsupervised de-interfered method to learn genuine rPPG signals with two stages. In the first stage, we estimate the initial rPPG signals by contrastive learning from both the training data and their augmented counterparts. In the second stage, we use the estimated interference features to derive de-interfered rPPG features and encourage the rPPG signals to be distinct from the interference. In addition, we propose an effective descriptive rPPG feature learning by developing a strong 3D Learnable Descriptive Convolution (3DLDC) to capture the subtle chrominance changes for enhancing rPPG estimation. Extensive experiments conducted on five rPPG benchmark datasets demonstrate that the proposed DD-rPPGNet outperforms previous unsupervised rPPG estimation methods and achieves competitive performances with state-of-the-art supervised rPPG methods. | 翻訳日:2024-08-01 18:32:01 公開日:2024-07-31 |
# AIGCビデオ品質評価のベンチマーク:データセットと統一モデル
Benchmarking AIGC Video Quality Assessment: A Dataset and Unified Model ( http://arxiv.org/abs/2407.21408v1 ) ライセンス: Link先を確認 | Zhichao Zhang, Xinyue Li, Wei Sun, Jun Jia, Xiongkuo Min, Zicheng Zhang, Chunyi Li, Zijian Chen, Puyi Wang, Zhongpeng Ji, Fengyu Sun, Shangling Jui, Guangtao Zhai, | (参考訳) 近年、人工知能(AI)による映像生成は、安定した拡散と大規模言語モデル技術の進歩により、大きな注目を集めている。
したがって、AIGC(AIGC)ビデオの知覚品質を測定するとともに、映像生成技術を最適化するために、正確な映像品質評価(VQA)モデルが要求される。
しかし、AIGCビデオの品質を評価することは、それらが示す非常に複雑な歪み(例えば、不自然なアクション、不合理なオブジェクトなど)のために非常に難しい。
そこで本稿では,AIGC-VQA問題を主観的,客観的な品質評価の観点から体系的に検討する。
主観的には、468個の慎重に選択されたテキストプロンプトを用いて6つのビデオ生成モデルによって生成された2,808個のAIGCビデオからなる大規模Vdeo Quality Assessment (LGVQ)データセットを構築する。
従来の主観的VQA実験とは異なり, 空間的品質, 時間的品質, テキスト・ツー・ビデオアライメントの3次元からAIGC映像の知覚品質を評価する。
目的として、LGVQデータセット上で既存の品質評価指標を評価するためのベンチマークを構築し、現在の指標がLGVQデータセットで不十分であることを明らかにする。
そこで我々は,映像の視覚的,テキスト的,運動的特徴とそれに対応するプロンプトを用いた統合モデルを用いて,AIGCビデオの品質を包括的かつ正確に評価するUnify Generated Video Quality Assessment (UGVQ)モデルを提案し,特徴表現を強化するために重要な特徴を統合する。
われわれのベンチマークがAIGCビデオの品質評価指標の開発を促進することを願っている。
LGVQデータセットとUGVQメトリックが公開される。
In recent years, artificial intelligence (AI) driven video generation has garnered significant attention due to advancements in stable diffusion and large language model techniques. Thus, there is a great demand for accurate video quality assessment (VQA) models to measure the perceptual quality of AI-generated content (AIGC) videos as well as optimize video generation techniques. However, assessing the quality of AIGC videos is quite challenging due to the highly complex distortions they exhibit (e.g., unnatural action, irrational objects, etc.). Therefore, in this paper, we try to systemically investigate the AIGC-VQA problem from both subjective and objective quality assessment perspectives. For the subjective perspective, we construct a Large-scale Generated Vdeo Quality assessment (LGVQ) dataset, consisting of 2,808 AIGC videos generated by 6 video generation models using 468 carefully selected text prompts. Unlike previous subjective VQA experiments, we evaluate the perceptual quality of AIGC videos from three dimensions: spatial quality, temporal quality, and text-to-video alignment, which hold utmost importance for current video generation techniques. For the objective perspective, we establish a benchmark for evaluating existing quality assessment metrics on the LGVQ dataset, which reveals that current metrics perform poorly on the LGVQ dataset. Thus, we propose a Unify Generated Video Quality assessment (UGVQ) model to comprehensively and accurately evaluate the quality of AIGC videos across three aspects using a unified model, which uses visual, textual and motion features of video and corresponding prompt, and integrates key features to enhance feature expression. We hope that our benchmark can promote the development of quality evaluation metrics for AIGC videos. The LGVQ dataset and the UGVQ metric will be publicly released. | 翻訳日:2024-08-01 18:32:01 公開日:2024-07-31 |
# VIPeR: 適応マイニングと生涯学習による視覚的インクリメンタルな位置認識
VIPeR: Visual Incremental Place Recognition with Adaptive Mining and Lifelong Learning ( http://arxiv.org/abs/2407.21416v1 ) ライセンス: Link先を確認 | Yuhang Ming, Minyang Xu, Xingrui Yang, Weicai Ye, Weihan Wang, Yong Peng, Weichen Dai, Wanzeng Kong, | (参考訳) 視覚的位置認識(VPR)は、多くの自律的・拡張現実/仮想現実システムにおいて不可欠な要素である。
これにより、システムは大規模環境で堅牢なローカライズが可能となる。
既存のVPR法は、事前学習と限定的な一般化のコストで魅力的な性能を示す。
目に見えない環境でデプロイすると、これらのメソッドは大幅なパフォーマンス低下を示す。
そこで本研究では,視覚的インクリメンタルな位置認識のための新しいアプローチであるVIPeRを提案する。
まず、単一環境における性能と、複数の環境における一般化可能性のバランスをとるための適応的なマイニング戦略を導入する。
そして、生涯学習における破滅的な忘れを防止するために、人間の記憶システムからインスピレーションを得て、VPeRのための新しい記憶バンクを設計する。
私たちのメモリバンクには、センサメモリ、ワーキングメモリ、長期メモリが含まれており、最初の2つは現在の環境に焦点を当てており、最後の1つは以前に訪れたすべての環境に焦点を当てています。
さらに,従来の知識を明示的に保護するために,確率論的知識蒸留を提案する。
提案したVIPeRを,Oxford Robotcar, Nordland, TartanAirの3つの大規模データセットで評価した。
比較のために,まず,素早い微調整によるベースライン性能を設定した。
次に,近年の生涯学習手法を比較した。
私たちのVIPeRは、ほぼすべての面でパフォーマンスが向上し、平均パフォーマンスは13.65%向上しました。
Visual place recognition (VPR) is an essential component of many autonomous and augmented/virtual reality systems. It enables the systems to robustly localize themselves in large-scale environments. Existing VPR methods demonstrate attractive performance at the cost of heavy pre-training and limited generalizability. When deployed in unseen environments, these methods exhibit significant performance drops. Targeting this issue, we present VIPeR, a novel approach for visual incremental place recognition with the ability to adapt to new environments while retaining the performance of previous environments. We first introduce an adaptive mining strategy that balances the performance within a single environment and the generalizability across multiple environments. Then, to prevent catastrophic forgetting in lifelong learning, we draw inspiration from human memory systems and design a novel memory bank for our VIPeR. Our memory bank contains a sensory memory, a working memory and a long-term memory, with the first two focusing on the current environment and the last one for all previously visited environments. Additionally, we propose a probabilistic knowledge distillation to explicitly safeguard the previously learned knowledge. We evaluate our proposed VIPeR on three large-scale datasets, namely Oxford Robotcar, Nordland, and TartanAir. For comparison, we first set a baseline performance with naive finetuning. Then, several more recent lifelong learning methods are compared. Our VIPeR achieves better performance in almost all aspects with the biggest improvement of 13.65% in average performance. | 翻訳日:2024-08-01 18:32:01 公開日:2024-07-31 |
# 鎖のダンシング:言語モデルにおける指示の追従と忠実さの再検討
Dancing in Chains: Reconciling Instruction Following and Faithfulness in Language Models ( http://arxiv.org/abs/2407.21417v1 ) ライセンス: Link先を確認 | Zhengxuan Wu, Yuhao Zhang, Peng Qi, Yumo Xu, Rujun Han, Yian Zhang, Jifan Chen, Bonan Min, Zhiheng Huang, | (参考訳) 現代の言語モデル(LM)は、忠実である一方で人間の指示に従う必要があるが、それらが両方を達成するのに失敗することが多い。
ここでは、これらの目的によりLMを訓練する際の指示(すなわち、オープンエンドの指示に従う)と忠実(すなわち、与えられた文脈における地上応答)のトレードオフの具体的な証拠を提供する。
例えば、データセットに従って命令を微調整するLLaMA-7Bは、信頼性を低下させる。
逆に、命令チューニングされたVicuna-7Bは、コンテキストグラウンドを必要とするタスクにさらなる最適化を行うと、次の命令で性能が低下することを示している。
一般的な治療法は、データミキシングを伴うマルチタスク学習(MTL)であるが、相乗効果を得るには程遠い。
本稿では,Vanilla MTLを著しく上回るRejection Smpling for Continued Self-Instruction Tuning(ReSet)を提案する。
驚くべきことに、ReSetを高品質でトレーニングするほど、より少ないデータ(3倍少ないデータ)が優れた結果をもたらすことがわかりました。
本研究は, LMのアライメントトレーニングにおいて, 目的の相違点をよりよく理解するものである。
Modern language models (LMs) need to follow human instructions while being faithful; yet, they often fail to achieve both. Here, we provide concrete evidence of a trade-off between instruction following (i.e., follow open-ended instructions) and faithfulness (i.e., ground responses in given context) when training LMs with these objectives. For instance, fine-tuning LLaMA-7B on instruction following datasets renders it less faithful. Conversely, instruction-tuned Vicuna-7B shows degraded performance at following instructions when further optimized on tasks that require contextual grounding. One common remedy is multi-task learning (MTL) with data mixing, yet it remains far from achieving a synergic outcome. We propose a simple yet effective method that relies on Rejection Sampling for Continued Self-instruction Tuning (ReSet), which significantly outperforms vanilla MTL. Surprisingly, we find that less is more, as training ReSet with high-quality, yet substantially smaller data (three-fold less) yields superior results. Our findings offer a better understanding of objective discrepancies in alignment training of LMs. | 翻訳日:2024-08-01 18:32:01 公開日:2024-07-31 |
# ジェネレーティブAI時代の一般的なタンパー付きシーンテキスト検出
Generalized Tampered Scene Text Detection in the era of Generative AI ( http://arxiv.org/abs/2407.21422v1 ) ライセンス: Link先を確認 | Chenfan Qu, Yiwu Zhong, Fengjun Guo, Lianwen Jin, | (参考訳) 生成AIの急速な進歩は、偽情報拡散の脅威をエスカレートしつつ、生成テキスト画像編集の可能性を高めている。
しかし、既存の法医学的手法では、訓練されていない未確認の偽造型を検知することは困難であり、未解決問題として、改ざんされたシーンテキストの一般的な検出が可能なモデルの開発が残されている。
そこで,本研究では,これまで見つからなかった偽造型とを識別する上で,法科学モデルの評価を行うオープンセット・タンパードシーンテキスト検出手法を提案する。
我々は,8つのテキスト編集モデルによって改ざんされたテキストを含む包括的で高品質なデータセットをキュレートし,オープンセットの一般化能力を徹底的に評価した。
さらに、画像内の選択したテキストのテクスチャを微調整し、これらの領域を特定するためにモデルを訓練する、新規で効果的な事前学習パラダイムを導入する。
このアプローチは、高品質なトレーニングデータの不足を緩和するだけでなく、モデルのきめ細かい認識とオープンセットの一般化能力を高める。
さらに,改ざんされたテキストの特徴のみに焦点をあてるのではなく,テキストの特徴と改ざんされたテキストの特徴を区別することで,オープンセットの一般化を改善する新しいフレームワークであるDAFを提案する。
本手法の顕著な有効性を検証するため, 広範囲な実験を行った。
例えば、ゼロショットのパフォーマンスは、以前の最先端フルショットモデルよりも大きなマージンで勝てるのです。
データセットとコードはオープンソースになります。
The rapid advancements of generative AI have fueled the potential of generative text image editing while simultaneously escalating the threat of misinformation spreading. However, existing forensics methods struggle to detect unseen forgery types that they have not been trained on, leaving the development of a model capable of generalized detection of tampered scene text as an unresolved issue. To tackle this, we propose a novel task: open-set tampered scene text detection, which evaluates forensics models on their ability to identify both seen and previously unseen forgery types. We have curated a comprehensive, high-quality dataset, featuring the texts tampered by eight text editing models, to thoroughly assess the open-set generalization capabilities. Further, we introduce a novel and effective pre-training paradigm that subtly alters the texture of selected texts within an image and trains the model to identify these regions. This approach not only mitigates the scarcity of high-quality training data but also enhances models' fine-grained perception and open-set generalization abilities. Additionally, we present DAF, a novel framework that improves open-set generalization by distinguishing between the features of authentic and tampered text, rather than focusing solely on the tampered text's features. Our extensive experiments validate the remarkable efficacy of our methods. For example, our zero-shot performance can even beat the previous state-of-the-art full-shot model by a large margin. Our dataset and code will be open-source. | 翻訳日:2024-08-01 18:32:01 公開日:2024-07-31 |
# LLMのコスト効果型幻覚検出
Cost-Effective Hallucination Detection for LLMs ( http://arxiv.org/abs/2407.21424v1 ) ライセンス: Link先を確認 | Simon Valentin, Jinmiao Fu, Gianluca Detommaso, Shaoyuan Xu, Giovanni Zappella, Bryan Wang, | (参考訳) 大規模な言語モデル(LLM)は幻覚を起こす傾向があり、入力、外部事実、あるいは内部的矛盾に反する信頼できない出力を生成する。
本研究では,生産環境下での幻覚後検出におけるいくつかの課題に対処する。
まず、生成した回答が幻覚である可能性を示す信頼スコアを生成し、次に、入力の属性と候補応答に基づいてスコア条件を校正し、最後に、校正されたスコアを閾値付けして検出する。
我々は,質問応答,事実確認,要約タスクを含む,さまざまなデータセットに対する最先端評価手法をベンチマークする。
性能の総合的な評価を確保するため,多種多様なLCMを用いている。
個別の採点方法の校正は、下流の意思決定にリスクを意識する上で重要であることを示す。
個々のスコアがすべての状況で最高のパフォーマンスを発揮できないという知見に基づいて、異なるスコアを組み合わせて、すべてのデータセットで最高のパフォーマンスを達成するマルチスコアフレームワークを提案する。
さらに、コスト効率の良いマルチスコーリングを導入し、計算オーバーヘッドを大幅に削減しつつ、より高価な検出方法に適合したり、性能を向上したりすることができる。
Large language models (LLMs) can be prone to hallucinations - generating unreliable outputs that are unfaithful to their inputs, external facts or internally inconsistent. In this work, we address several challenges for post-hoc hallucination detection in production settings. Our pipeline for hallucination detection entails: first, producing a confidence score representing the likelihood that a generated answer is a hallucination; second, calibrating the score conditional on attributes of the inputs and candidate response; finally, performing detection by thresholding the calibrated score. We benchmark a variety of state-of-the-art scoring methods on different datasets, encompassing question answering, fact checking, and summarization tasks. We employ diverse LLMs to ensure a comprehensive assessment of performance. We show that calibrating individual scoring methods is critical for ensuring risk-aware downstream decision making. Based on findings that no individual score performs best in all situations, we propose a multi-scoring framework, which combines different scores and achieves top performance across all datasets. We further introduce cost-effective multi-scoring, which can match or even outperform more expensive detection methods, while significantly reducing computational overhead. | 翻訳日:2024-08-01 18:32:01 公開日:2024-07-31 |
# 変形可能な3次元形状拡散モデル
Deformable 3D Shape Diffusion Model ( http://arxiv.org/abs/2407.21428v1 ) ライセンス: Link先を確認 | Dengsheng Chen, Jie Hu, Xiaoming Wei, Enhua Wu, | (参考訳) 画像生成用に最初に設計されたガウス拡散モデルは、最近3Dポイントクラウド生成に適応した。
しかし、これらの適応は3次元形状の内在的な幾何学的特性を十分に考慮していないため、拡散モデルの3次元形状操作の可能性は制限されている。
この制限に対処するために、ポイントクラウド生成、メッシュ変形、顔アニメーションを含む包括的3次元形状操作を容易にする、変形可能な新しい3次元形状拡散モデルを導入する。
提案手法は, 幾何構造の生成を連続的な非剛性変形段階に分解する微分変形カーネルを革新的に組み込んだものである。
このステップ・バイ・ステップ・プロセスのシミュレーションに確率的拡散モデルを活用することで,グラフィクスレンダリングから表情アニメーションまで幅広いアプリケーションに対して,汎用的で効率的なソリューションを提供する。
実証的な証拠は、我々のアプローチの有効性を強調し、ポイントクラウド生成における最先端のパフォーマンスとメッシュ変形の競争結果を示している。
さらに、広範囲な視覚的なデモンストレーションにより、我々のアプローチが実用的な応用にもたらす有意義な可能性を明らかにした。
本手法は,バーチャルリアリティの領域において,3次元形状操作の進展と新たな機会の解放のためのユニークな経路を提供する。
The Gaussian diffusion model, initially designed for image generation, has recently been adapted for 3D point cloud generation. However, these adaptations have not fully considered the intrinsic geometric characteristics of 3D shapes, thereby constraining the diffusion model's potential for 3D shape manipulation. To address this limitation, we introduce a novel deformable 3D shape diffusion model that facilitates comprehensive 3D shape manipulation, including point cloud generation, mesh deformation, and facial animation. Our approach innovatively incorporates a differential deformation kernel, which deconstructs the generation of geometric structures into successive non-rigid deformation stages. By leveraging a probabilistic diffusion model to simulate this step-by-step process, our method provides a versatile and efficient solution for a wide range of applications, spanning from graphics rendering to facial expression animation. Empirical evidence highlights the effectiveness of our approach, demonstrating state-of-the-art performance in point cloud generation and competitive results in mesh deformation. Additionally, extensive visual demonstrations reveal the significant potential of our approach for practical applications. Our method presents a unique pathway for advancing 3D shape manipulation and unlocking new opportunities in the realm of virtual reality. | 翻訳日:2024-08-01 18:32:01 公開日:2024-07-31 |
# 大規模言語モデルを用いたチャット型アサート予測
Chat-like Asserts Prediction with the Support of Large Language Model ( http://arxiv.org/abs/2407.21429v1 ) ライセンス: Link先を確認 | Han Wang, Han Hu, Chunyang Chen, Burak Turhan, | (参考訳) 単体テストはソフトウェアテストの重要なコンポーネントであり、アサーションステートメントはテストされた関数が期待通りに動作しているかどうかを決定する上で重要な役割を果たす。
研究は自動テストケース生成を探求しているが、意味のあるアサーションの生成は今も進行中の課題である。
Javaでアサート文の生成を調査する研究はいくつかあるが、Pythonのような動的型付け言語でこの課題に対処する作業は限られている。
本稿では,Pythonプロジェクトで意味のあるアサーションを生成するための,大規模言語モデルに基づく新しいアプローチであるChat-like execution-based Asserts Prediction (\tool)を紹介する。
\toolはペルソナ、Chain-of-Thought、ワンショットの学習技術を利用してプロンプト設計を行い、LLMやPythonインタプリタと通信して意味のあるアサート文を生成する。
また、GitHubから抽出されたPythonアサートステートメントデータセットも提示します。
評価の結果, 単一アサーション文生成では64.7 %, 全体アサーション文生成では62 %, 既存のアプローチより優れていた。
我々はまた、同じ機能を共有している不一致のアサーションステートメントを分析し、自動化されたPythonユニットテスト生成に対して \toolがもたらす潜在的助けについて議論する。
この結果から,より実践的な利用シナリオを通じて,‘tool’ が SE コミュニティにメリットをもたらす可能性が示唆された。
Unit testing is an essential component of software testing, with the assert statements playing an important role in determining whether the tested function operates as expected. Although research has explored automated test case generation, generating meaningful assert statements remains an ongoing challenge. While several studies have investigated assert statement generation in Java, limited work addresses this task in popular dynamically-typed programming languages like Python. In this paper, we introduce Chat-like execution-based Asserts Prediction (\tool), a novel Large Language Model-based approach for generating meaningful assert statements for Python projects. \tool utilizes the persona, Chain-of-Thought, and one-shot learning techniques in the prompt design, and conducts rounds of communication with LLM and Python interpreter to generate meaningful assert statements. We also present a Python assert statement dataset mined from GitHub. Our evaluation demonstrates that \tool achieves 64.7\% accuracy for single assert statement generation and 62\% for overall assert statement generation, outperforming the existing approaches. We also analyze the mismatched assert statements, which may still share the same functionality and discuss the potential help \tool could offer to the automated Python unit test generation. The findings indicate that \tool has the potential to benefit the SE community through more practical usage scenarios. | 翻訳日:2024-08-01 18:22:18 公開日:2024-07-31 |
# セマンティックLoD3ビルディングモデルが画像ベース車両のローカライゼーションに及ぼす影響の解析
Analyzing the impact of semantic LoD3 building models on image-based vehicle localization ( http://arxiv.org/abs/2407.21432v1 ) ライセンス: Link先を確認 | Antonia Bieringer, Olaf Wysocki, Sebastian Tuttas, Ludwig Hoegner, Christoph Holst, | (参考訳) 多くのナビゲーションアプリケーションはグローバルナビゲーション衛星システム(GNSS)のデータに依存しているが、その精度は都市部で損なわれており、特に正確な自動運転車のローカライゼーションにおいて重要な課題となっている。
広汎な研究は、この問題に対処するために様々なセンサータイプを統合することで、ローカライズ精度の向上に重点を置いている。
本稿では,高精細なセマンティック3Dビルディングモデルに対応する画像特徴を活かして,カーローカライズのための新しいアプローチを提案する。
中心となる概念は、事前の幾何学的知識と意味論的知識を計算に取り入れることで、位置決め精度を増大させることである。
この研究は、レベル・オブ・ディテール2(LoD2)とレベル・オブ・ディテール3(LoD3)モデルを用いて結果を評価し、ファサードに富んだモデルの方が精度が高いかどうかを分析する。
この包括的分析は、既製の特徴マッチングやディープラーニングなど、さまざまな手法を含み、徹底的な議論を促進する。
我々の実験は、LoD3がLoD2モデルよりも最大で69倍の機能を検出できることを示している。
本研究は, GNSSを用いた都市峡谷における位置決め精度の向上研究に寄与すると考えられる。
また、地図に基づく車の位置決めに未探索のLoD3ビルディングモデルの実用的応用を示す。
Numerous navigation applications rely on data from global navigation satellite systems (GNSS), even though their accuracy is compromised in urban areas, posing a significant challenge, particularly for precise autonomous car localization. Extensive research has focused on enhancing localization accuracy by integrating various sensor types to address this issue. This paper introduces a novel approach for car localization, leveraging image features that correspond with highly detailed semantic 3D building models. The core concept involves augmenting positioning accuracy by incorporating prior geometric and semantic knowledge into calculations. The work assesses outcomes using Level of Detail 2 (LoD2) and Level of Detail 3 (LoD3) models, analyzing whether facade-enriched models yield superior accuracy. This comprehensive analysis encompasses diverse methods, including off-the-shelf feature matching and deep learning, facilitating thorough discussion. Our experiments corroborate that LoD3 enables detecting up to 69\% more features than using LoD2 models. We believe that this study will contribute to the research of enhancing positioning accuracy in GNSS-denied urban canyons. It also shows a practical application of under-explored LoD3 building models on map-based car positioning. | 翻訳日:2024-08-01 18:22:17 公開日:2024-07-31 |
# 多様体上の確率論的学習のための過渡的異方性核
Transient anisotropic kernel for probabilistic learning on manifolds ( http://arxiv.org/abs/2407.21435v1 ) ライセンス: Link先を確認 | Christian Soize, Roger Ghanem, | (参考訳) PLoM(Probabilistic Learning on Manifolds, Probabilistic Learning on Manifolds)は、2016年にMCMCジェネレータとして機能し、トレーニングデータセットを用いたKDE推定確率測度が不変測度である確率散逸ハミルトン力学系からI\^o方程式を投影することにより、小さなトレーニングデータセットを扱う方法である。
PLoMは、時間非依存の等方性カーネルで構築された拡散マップ(DMAPS)ベースを用いて、トレーニングデータセットに関連する低次ベクトルベースで投影を行う。
本稿では、一過性異方性カーネルから構築された新しいISDE射影ベクトル基底を提案し、不均一なデータを持つ確率多様体の統計代用量を改善するためにDMAPS基底の代替となる。
この構成により、初期時間に近い時間に、DMAPS基底が過渡基底と一致することが保証される。
より長い時間に、2つの基底間の差は、その拡大ベクトル部分空間の角度によって特徴づけられる。
エントロピー推定により正規化され、推定に使用される実現数の影響を考慮に入れた情報理論からの相互情報の推定を用いて、最適過渡ベースを最適に生成する。
したがって、この新しいベクトル基底は、任意の次元の学習された確率測度における統計的依存関係をより良く表現する。
統計的複雑性とデータ不均一性の異なる3つの応用が提案された理論を検証し、過渡的異方性カーネルが学習された確率測定を改善することを示す。
PLoM (Probabilistic Learning on Manifolds) is a method introduced in 2016 for handling small training datasets by projecting an It\^o equation from a stochastic dissipative Hamiltonian dynamical system, acting as the MCMC generator, for which the KDE-estimated probability measure with the training dataset is the invariant measure. PLoM performs a projection on a reduced-order vector basis related to the training dataset, using the diffusion maps (DMAPS) basis constructed with a time-independent isotropic kernel. In this paper, we propose a new ISDE projection vector basis built from a transient anisotropic kernel, providing an alternative to the DMAPS basis to improve statistical surrogates for stochastic manifolds with heterogeneous data. The construction ensures that for times near the initial time, the DMAPS basis coincides with the transient basis. For larger times, the differences between the two bases are characterized by the angle of their spanned vector subspaces. The optimal instant yielding the optimal transient basis is determined using an estimation of mutual information from Information Theory, which is normalized by the entropy estimation to account for the effects of the number of realizations used in the estimations. Consequently, this new vector basis better represents statistical dependencies in the learned probability measure for any dimension. Three applications with varying levels of statistical complexity and data heterogeneity validate the proposed theory, showing that the transient anisotropic kernel improves the learned probability measure. | 翻訳日:2024-08-01 18:22:17 公開日:2024-07-31 |
# セマンティック3次元ビルディングモデルを用いた建物の熱点雲の濃縮
Enriching thermal point clouds of buildings using semantic 3D building modelsenriching thermal point clouds of buildings using semantic 3D building models ( http://arxiv.org/abs/2407.21436v1 ) ライセンス: Link先を確認 | Jingwei Zhu, Olaf Wysocki, Christoph Holst, Thomas H. Kolbe, | (参考訳) 熱点雲は熱放射とレーザー点雲を効果的に統合する。
しかし、熱点雲の構築を解釈するための意味情報は正確には推測できない。
LoD3で3Dビルディングモデルにカプセル化されたセマンティクスの転送は、このギャップを埋める可能性がある。
本研究は,LoD3ビルディングモデルのジオポジションとセマンティクスを用いて,熱点雲を濃縮するワークフローを提案する。
濃縮された熱点雲は熱解析をサポートし、現在少ない深層学習モデルの開発を熱点雲上で直接行うことができる。
Thermal point clouds integrate thermal radiation and laser point clouds effectively. However, the semantic information for the interpretation of building thermal point clouds can hardly be precisely inferred. Transferring the semantics encapsulated in 3D building models at LoD3 has a potential to fill this gap. In this work, we propose a workflow enriching thermal point clouds with the geo-position and semantics of LoD3 building models, which utilizes features of both modalities: The proposed method can automatically co-register the point clouds from different sources and enrich the thermal point cloud in facade-detailed semantics. The enriched thermal point cloud supports thermal analysis and can facilitate the development of currently scarce deep learning models operating directly on thermal point clouds. | 翻訳日:2024-08-01 18:22:17 公開日:2024-07-31 |
# ブリッジ・ドメイン・ギャップによる希少物体間相互作用検出のためのプラグ・アンド・プレイ法
A Plug-and-Play Method for Rare Human-Object Interactions Detection by Bridging Domain Gap ( http://arxiv.org/abs/2407.21438v1 ) ライセンス: Link先を確認 | Lijun Zhang, Wei Suo, Peng Wang, Yanning Zhang, | (参考訳) 人間と物体の相互作用(Human-object Interaction, HOI)の検出は、画像中の人間と物体のペアとそれに対応するアクションをキャプチャすることを目的としている。
高レベルの視覚的推論とシーン理解に向けた重要なステップである。
しかし、現実世界からの自然な偏見のため、既存の手法はまれな人間と物体のペアとほとんど苦労し、準最適結果をもたらす。
近年, 生成モデルの開発において, 補足サンプル群に基づいて, よりバランスのとれたデータセットを構築するという簡単なアプローチが提案されている。
残念ながら、生成されたデータと元のデータの間には大きなドメインギャップがあり、生成されたイメージを元のデータセットにマージするだけでは、パフォーマンスを大幅に向上することはできない。
上記の問題を緩和するために、生成したデータと特徴レベルの元のデータとを効果的に整合させ、ドメインギャップを埋める新しいモデル非依存のフレームワークである \textbf{C}ontext-\textbf{E}nhanced \textbf{F}eature \textbf{A}lignment (CEFA) を提案する。
具体的には、CEFAは機能アライメントモジュールとコンテキスト拡張モジュールで構成される。
一方、HOIタスクにおける人-物対の情報の重要な役割を考えると、特徴アライメントモジュールは、インスタンス情報を集約することで人-物対を整列させる。
一方,従来の識別器方式のアライメント手法による重要なコンテキスト情報を失う問題を軽減するために,コンテキスト強化画像再構成モジュールを用いて,文脈的手がかりの学習能力を向上する。
実験により,本手法は稀なカテゴリにおけるHOIモデルの検出性能を向上させるためのプラグイン・アンド・プレイ・モジュールとして機能することが確認された。
Human-object interactions (HOI) detection aims at capturing human-object pairs in images and corresponding actions. It is an important step toward high-level visual reasoning and scene understanding. However, due to the natural bias from the real world, existing methods mostly struggle with rare human-object pairs and lead to sub-optimal results. Recently, with the development of the generative model, a straightforward approach is to construct a more balanced dataset based on a group of supplementary samples. Unfortunately, there is a significant domain gap between the generated data and the original data, and simply merging the generated images into the original dataset cannot significantly boost the performance. To alleviate the above problem, we present a novel model-agnostic framework called \textbf{C}ontext-\textbf{E}nhanced \textbf{F}eature \textbf{A}lignment (CEFA) module, which can effectively align the generated data with the original data at the feature level and bridge the domain gap. Specifically, CEFA consists of a feature alignment module and a context enhancement module. On one hand, considering the crucial role of human-object pairs information in HOI tasks, the feature alignment module aligns the human-object pairs by aggregating instance information. On the other hand, to mitigate the issue of losing important context information caused by the traditional discriminator-style alignment method, we employ a context-enhanced image reconstruction module to improve the model's learning ability of contextual cues. Extensive experiments have shown that our method can serve as a plug-and-play module to improve the detection performance of HOI models on rare categories\footnote{https://github.com/LijunZhang01/CEFA}. | 翻訳日:2024-08-01 18:22:17 公開日:2024-07-31 |
# MLLMは強力なリランカ:知識強化とノイズ注入によるマルチモーダル検索強化ジェネレーションの強化
MLLM Is a Strong Reranker: Advancing Multimodal Retrieval-augmented Generation via Knowledge-enhanced Reranking and Noise-injected Training ( http://arxiv.org/abs/2407.21439v1 ) ライセンス: Link先を確認 | Zhanpeng Chen, Chengjin Xu, Yiyan Qi, Jian Guo, | (参考訳) MLLM(Multimodal Large Language Models)は、テキスト、画像、オーディオ、ビデオなど、複数のデータモダリティにまたがるコンテンツの処理と生成において顕著な能力を示す。
しかし、MLLMの重大な欠点は、静的トレーニングデータへの依存であり、時代遅れの情報と文脈認識の制限につながる。
この静的な性質は、特に動的または急速に進化するコンテキストにおいて、正確で最新の応答を提供する能力を損なう。
MNC(Multimodal Retrieval-augmented Generation)の統合は、有望な解決策を提供するが、システムは必然的に、粗い粒度(クエリーキャプション)ときめ細かい粒度(クエリーイメージ)の2種類のノイズを含むマルチグラニュラリティノイズ対応(MNC)問題に遭遇する。
このノイズは正確な検索と生成を妨げる。
本研究では,これらの制約に対処するために,知識向上と雑音注入訓練を備えた新しいフレームワークである「textbf{RagLLaVA}」を提案する。
我々はMLLMに簡単な命令テンプレートを付け、そのランク付け能力を誘導し、トップk検索画像を正確にフィルタするリランカとして機能させる。
例えば、データとトークンレベルでのトレーニング中に視覚ノイズを注入して、ジェネレータの堅牢性を高める。
与えられたクエリに答えるために、画像の検索と推論を必要とする2つのデータセットのサブセットに対して、大規模な実験が行われる。
以上の結果から,RagLLaVAが精度良く回収し,頑健に生成できることが示唆された。
コードとモデルはhttps://github.com/IDEA-FinAI/RagLLaVAで公開されている。
Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities in processing and generating content across multiple data modalities, including text, images, audio, and video. However, a significant drawback of MLLMs is their reliance on static training data, leading to outdated information and limited contextual awareness. This static nature hampers their ability to provide accurate, up-to-date responses, particularly in dynamic or rapidly evolving contexts. Integrating Multimodal Retrieval-augmented Generation (Multimodal RAG) offers a promising solution, but the system would inevitably encounter the multi-granularity noisy correspondence (MNC) problem, which involves two types of noise: coarse-grained (query-caption) and fine-grained (query-image). This noise hinders accurate retrieval and generation. In this work, we propose \textbf{RagLLaVA}, a novel framework with knowledge-enhanced reranking and noise-injected training, to address these limitations. We instruction-tune the MLLM with a simple yet effective instruction template to induce its ranking ability and serve it as a reranker to precisely filter the top-k retrieved images. For generation, we inject visual noise during training at the data and token levels to enhance the generator's robustness. Extensive experiments are conducted on the subsets of two datasets that require retrieving and reasoning over images to answer a given query. Our results demonstrate the superiority of RagLLaVA in retrieving accurately and generating robustly. Code and models are available at https://github.com/IDEA-FinAI/RagLLaVA. | 翻訳日:2024-08-01 18:22:17 公開日:2024-07-31 |
# QuestGen: Fact-Checking アプリケーションにおける質問生成手法の有効性
QuestGen: Effectiveness of Question Generation Methods for Fact-Checking Applications ( http://arxiv.org/abs/2407.21441v1 ) ライセンス: Link先を確認 | Rivik Setty, Vinay Setty, | (参考訳) 事実チェックの主張を検証することは、人間にとっても大きな課題となる。
近年のアプローチでは、証拠を収集するために主張を関連する問題に分解することで、事実確認プロセスの効率が向上することが示されている。
本稿では,この問題の分解を効果的に自動化できることを示す実証的証拠を提供する。
様々なデータセットからのデータ拡張を用いて質問生成タスクを微調整したより小さな生成モデルが、最大8%の精度で大きな言語モデルより優れていることを示す。
意外なことに、機械による質問で得られた証拠は、人間が書いた質問よりも、事実チェックにかなり効果的であることが証明されている。
また,分解された質問を手動で評価し,生成した質問の質を評価する。
Verifying fact-checking claims poses a significant challenge, even for humans. Recent approaches have demonstrated that decomposing claims into relevant questions to gather evidence enhances the efficiency of the fact-checking process. In this paper, we provide empirical evidence showing that this question decomposition can be effectively automated. We demonstrate that smaller generative models, fine-tuned for the question generation task using data augmentation from various datasets, outperform large language models by up to 8%. Surprisingly, in some cases, the evidence retrieved using machine-generated questions proves to be significantly more effective for fact-checking than that obtained from human-written questions. We also perform manual evaluation of the decomposed questions to assess the quality of the questions generated. | 翻訳日:2024-08-01 18:22:17 公開日:2024-07-31 |
# スライディング生成と自己整合性による要約における大規模言語モデルの忠実度向上
Improving Faithfulness of Large Language Models in Summarization via Sliding Generation and Self-Consistency ( http://arxiv.org/abs/2407.21443v1 ) ライセンス: Link先を確認 | Taiji Li, Zhi Li, Yin Zhang, | (参考訳) 大規模言語モデル(LLM)は様々なタスクにおいて顕著なパフォーマンスを示してきたが、幻覚と呼ばれる現実的な矛盾の問題に悩まされている。
例えば、LLMは、ソース記事から分岐するコンテンツを生成し、特に長い文書要約において、コンテキストの開始と終了に現れる情報を抽出することを好む。
これらの知見に触発されて,本論文全体をより公平かつ忠実に処理するよう促すことにより,要約におけるLCMの忠実さを向上させることを提案する。
本稿では,スライディングウィンドウと自己整合性を利用した新しい要約生成戦略,すなわちSliSumを提案する。
具体的には、SliSumはソース記事を重なり合うウィンドウに分割し、LLMを使用してウィンドウ内のコンテンツの局所的な要約を生成する。
最後に、SliSumはクラスタリングと多数決投票アルゴリズムを使ってすべてのローカル要約を集約し、記事全体のより忠実な要約を生成する。
SliSumは,LLaMA-2,Claude-2,GPT-3.5といった多種多様なLCMの短文要約における忠実さを向上すると同時に,その流速と情報性を維持しつつ,追加の微調整や資源を必要とせずに向上することを示した。
さらに、SliSumがなぜ機能するのか、またSliSumのハイパーパラメータが性能に与える影響を定性的かつ定量的に研究する。
Despite large language models (LLMs) have demonstrated impressive performance in various tasks, they are still suffering from the factual inconsistency problem called hallucinations. For instance, LLMs occasionally generate content that diverges from source article, and prefer to extract information that appears at the beginning and end of the context, especially in long document summarization. Inspired by these findings, we propose to improve the faithfulness of LLMs in summarization by impelling them to process the entire article more fairly and faithfully. We present a novel summary generation strategy, namely SliSum, which exploits the ideas of sliding windows and self-consistency. Specifically, SliSum divides the source article into overlapping windows, and utilizes LLM to generate local summaries for the content in the windows. Finally, SliSum aggregates all local summaries using clustering and majority voting algorithm to produce more faithful summary of entire article. Extensive experiments demonstrate that SliSum significantly improves the faithfulness of diverse LLMs including LLaMA-2, Claude-2 and GPT-3.5 in both short and long text summarization, while maintaining their fluency and informativeness and without additional fine-tuning and resources. We further conduct qualitative and quantitative studies to investigate why SliSum works and impacts of hyperparameters in SliSum on performance. | 翻訳日:2024-08-01 18:22:17 公開日:2024-07-31 |
# 画素レベル分類による画像超解像ネットワークの高速化
Accelerating Image Super-Resolution Networks with Pixel-Level Classification ( http://arxiv.org/abs/2407.21448v1 ) ライセンス: Link先を確認 | Jinho Jeong, Jinwoo Kim, Younghyun Jo, Seon Joo Kim, | (参考訳) 近年、特に2Kから8Kの解像度の大規模な画像に対して、効果的な超解像(SR)技術の必要性が高まっている。
DNNベースのSISRでは、イメージを重なり合うパッチに分解する必要がある。
このようなパッチ分解方式では、SR性能を維持しながら、各パッチの難易度に基づいて異なる計算資源を割り当てることができる。
しかし、このアプローチには制限がある: 計算資源はパッチ内で均一に割り当てられ、パッチが様々なレベルの復元困難を持つピクセルを含む場合、効率が低下する。
そこで本研究では,ピクセルレベルで計算資源を適応的に分配する新しい手法であるシングルイメージ超解法(PCSR)のPixelレベル分類器を提案する。
PCSRモデルは、バックボーン、画素レベル分類器、および様々な容量を持つ画素レベルアップサンプラーからなる。
画素レベル分類器は、その復元難易度に基づいて各画素を適切なアップサンプラーに割り当て、計算資源の使用を最適化する。
提案手法では,再学習を伴わない推論における性能と計算コストのバランスが可能である。
本実験は,PSNR-FLOPトレードオフにおける既存のパッチ配布方式に対するPCSRの利点を,異なるバックボーンモデルとベンチマークで示すものである。
コードはhttps://github.com/3587jh/PCSRで公開されている。
In recent times, the need for effective super-resolution (SR) techniques has surged, especially for large-scale images ranging 2K to 8K resolutions. For DNN-based SISR, decomposing images into overlapping patches is typically necessary due to computational constraints. In such patch-decomposing scheme, one can allocate computational resources differently based on each patch's difficulty to further improve efficiency while maintaining SR performance. However, this approach has a limitation: computational resources is uniformly allocated within a patch, leading to lower efficiency when the patch contain pixels with varying levels of restoration difficulty. To address the issue, we propose the Pixel-level Classifier for Single Image Super-Resolution (PCSR), a novel method designed to distribute computational resources adaptively at the pixel level. A PCSR model comprises a backbone, a pixel-level classifier, and a set of pixel-level upsamplers with varying capacities. The pixel-level classifier assigns each pixel to an appropriate upsampler based on its restoration difficulty, thereby optimizing computational resource usage. Our method allows for performance and computational cost balance during inference without re-training. Our experiments demonstrate PCSR's advantage over existing patch-distributing methods in PSNR-FLOP trade-offs across different backbone models and benchmarks. The code is available at https://github.com/3587jjh/PCSR. | 翻訳日:2024-08-01 18:22:17 公開日:2024-07-31 |
# ディスタングル3次元シーン表現による新しい視点からの今後の映像の予測
Forecasting Future Videos from Novel Views via Disentangled 3D Scene Representation ( http://arxiv.org/abs/2407.21450v1 ) ライセンス: Link先を確認 | Sudhir Yarram, Junsong Yuan, | (参考訳) 空間と時間の映像補間(VEST)により、視聴者は未来への3Dシーンを予測し、新しい視点から見ることができる。
近年の手法では,各シーン層における簡易なアフィンの動きとホモグラフィに基づくワープを仮定しながら,階層化されたシーン形状,動き予測,新しいビュー合成をモデル化することを目的として,絡み合った表現を学習し,不正確な映像外挿を実現する。
シーン表現やレンダリングを絡める代わりに、2Dシーンを3Dポイントの雲に持ち上げることで、シーンの動きからシーンの幾何学を解き放つことで、新しい視点からの映像の高品質なレンダリングを可能にします。
将来の3Dシーン動作をモデル化するために,まず自我運動を予測し,その後動的物体(車,人など)の残留運動を予測する2段階のアンタングル手法を提案する。
このアプローチは、動的物体運動との絡み合いから不正確な動きを減らし、より正確な動き予測を可能にする。
2つの都市景観データセットの大規模解析により,提案手法の強塩基性と比較して優れた性能を示した。
Video extrapolation in space and time (VEST) enables viewers to forecast a 3D scene into the future and view it from novel viewpoints. Recent methods propose to learn an entangled representation, aiming to model layered scene geometry, motion forecasting and novel view synthesis together, while assuming simplified affine motion and homography-based warping at each scene layer, leading to inaccurate video extrapolation. Instead of entangled scene representation and rendering, our approach chooses to disentangle scene geometry from scene motion, via lifting the 2D scene to 3D point clouds, which enables high quality rendering of future videos from novel views. To model future 3D scene motion, we propose a disentangled two-stage approach that initially forecasts ego-motion and subsequently the residual motion of dynamic objects (e.g., cars, people). This approach ensures more precise motion predictions by reducing inaccuracies from entanglement of ego-motion with dynamic object motion, where better ego-motion forecasting could significantly enhance the visual outcomes. Extensive experimental analysis on two urban scene datasets demonstrate superior performance of our proposed method in comparison to strong baselines. | 翻訳日:2024-08-01 18:22:17 公開日:2024-07-31 |
# 指示を超えたナビゲーション: 障害物環境における視覚・言語ナビゲーション
Navigating Beyond Instructions: Vision-and-Language Navigation in Obstructed Environments ( http://arxiv.org/abs/2407.21452v1 ) ライセンス: Link先を確認 | Haodong Hong, Sen Wang, Zi Huang, Qi Wu, Jiajun Liu, | (参考訳) 現実世界のナビゲーションは、しばしばドアや移動した物体、予測不可能な実体などの予期せぬ障害に対処する。
しかしながら、主流のVision-and-Language Navigation (VLN)タスクは、通常、命令は邪魔なしに、固定および事前定義されたナビゲーショングラフと完全に一致していると仮定する。
この仮定は、実際のナビゲーショングラフと与えられた指示の潜在的な相違を見落とし、屋内および屋外のエージェントに大きな障害を引き起こす可能性がある。
この問題に対処するために、ナビゲーショングラフと視覚観測の両方を修正し、UNexpected Obstructions (R2R-UNO)を用いたR2Rという革新的なデータセットとタスクを導入することにより、多様な障害物をR2Rデータセットに統合する。
R2R-UNOは、VLN研究のための命令-現実ミスマッチを生成するために、様々な種類の経路障害を含む。
R2R-UNOの実験では、最先端のVLN手法がこのようなミスマッチに直面した場合、必然的に重大な問題に遭遇し、適応的な操作よりも厳格に指示に従うことが示されている。
そこで本研究では,Obstructed VLN(Obstructed VLN)と呼ばれる新しい手法を提案する。
実証的な結果から、ObVLNは障害のないシナリオで堅牢なパフォーマンスを維持するだけでなく、予期せぬ障害を伴って大幅なパフォーマンスの優位性も達成している。
Real-world navigation often involves dealing with unexpected obstructions such as closed doors, moved objects, and unpredictable entities. However, mainstream Vision-and-Language Navigation (VLN) tasks typically assume instructions perfectly align with the fixed and predefined navigation graphs without any obstructions. This assumption overlooks potential discrepancies in actual navigation graphs and given instructions, which can cause major failures for both indoor and outdoor agents. To address this issue, we integrate diverse obstructions into the R2R dataset by modifying both the navigation graphs and visual observations, introducing an innovative dataset and task, R2R with UNexpected Obstructions (R2R-UNO). R2R-UNO contains various types and numbers of path obstructions to generate instruction-reality mismatches for VLN research. Experiments on R2R-UNO reveal that state-of-the-art VLN methods inevitably encounter significant challenges when facing such mismatches, indicating that they rigidly follow instructions rather than navigate adaptively. Therefore, we propose a novel method called ObVLN (Obstructed VLN), which includes a curriculum training strategy and virtual graph construction to help agents effectively adapt to obstructed environments. Empirical results show that ObVLN not only maintains robust performance in unobstructed scenarios but also achieves a substantial performance advantage with unexpected obstructions. | 翻訳日:2024-08-01 18:22:17 公開日:2024-07-31 |
# TinyChirp:低消費電力無線音響センサを用いたTinyMLモデルによる鳥の歌声認識
TinyChirp: Bird Song Recognition Using TinyML Models on Low-power Wireless Acoustic Sensors ( http://arxiv.org/abs/2407.21453v1 ) ライセンス: Link先を確認 | Zhaolan Huang, Adrien Tousnakhoff, Polina Kozyr, Roman Rehausen, Felix Bießmann, Robert Lachlan, Cedric Adjih, Emmanuel Baccelli, | (参考訳) 大規模な生物多様性のモニタリングは難しい。
微細な分類学における種の検出と同定には、高度に正確な機械学習(ML)手法が必要である。
このようなモデルのトレーニングには、大きな高品質なデータセットが必要です。
そして、これらのモデルを低消費電力デバイスにデプロイするには、新しい圧縮技術とモデルアーキテクチャが必要である。
種分類法は、ML法、特にニューラルネットワークの新たなデータセットから利益を得てきたが、これらの最先端モデルを低消費電力デバイスに展開することは依然として困難である。
本稿では,様々な小型MLニューラルネットワークアーキテクチャと種分類のための圧縮技術について,包括的比較を行った。
鳥の鳴き声検出の例としては,より具体的には,トウモロコシの羽ばたき鳥の研究用に収集されたデータセットに着目した。
データセットは、この研究のすべてのコードと実験と共にリリースされます。
実験では,古典的スペクトログラムに基づく手法と,生音声信号を用いた最近のアプローチの予測性能,記憶量,時間的複雑さを比較した。
本研究は,低消費電力デバイスに容易に展開可能な比較的単純なアーキテクチャを用いて,個々の鳥類種を頑健に検出できることを示唆する。
Monitoring biodiversity at scale is challenging. Detecting and identifying species in fine grained taxonomies requires highly accurate machine learning (ML) methods. Training such models requires large high quality data sets. And deploying these models to low power devices requires novel compression techniques and model architectures. While species classification methods have profited from novel data sets and advances in ML methods, in particular neural networks, deploying these state of the art models to low power devices remains difficult. Here we present a comprehensive empirical comparison of various tinyML neural network architectures and compression techniques for species classification. We focus on the example of bird song detection, more concretely a data set curated for studying the corn bunting bird species. The data set is released along with all code and experiments of this study. In our experiments we compare predictive performance, memory and time complexity of classical spectrogram based methods and recent approaches operating on raw audio signal. Our results indicate that individual bird species can be robustly detected with relatively simple architectures that can be readily deployed to low power devices. | 翻訳日:2024-08-01 18:22:17 公開日:2024-07-31 |
# StreetSurfaceVis: 道路面のタイプと品質の半自動アノテーションによるクラウドソースによるストリートレベルの画像のデータセット
StreetSurfaceVis: a dataset of crowdsourced street-level imagery with semi-automated annotations of road surface type and quality ( http://arxiv.org/abs/2407.21454v1 ) ライセンス: Link先を確認 | Alexandra Kapp, Edith Hoffmann, Esther Weigmann, Helena Mihaljević, | (参考訳) 道路の不均一性は、様々な交通参加者の安全と快適性、特に自転車や車椅子のような脆弱な道路利用者に大きな影響を及ぼす。
本稿では,クラウドソーシングプラットフォームから収集した9,122枚のストリートレベルの画像からなる新しいデータセットであるStreetSurfaceVisを紹介し,道路面のタイプと品質を手動でアノテートする。
このデータセットは、道路ネットワークの総合的な表面評価のためのモデルをトレーニングすることを目的としている。
既存のオープンデータセットは、通常はサイクルウェイとフットウェイを除く、限られた地理空間カバレッジとカメラセットアップによって制限されている。
不均一なデータセットを作成することで、このギャップを埋め、多様な画像ソース間で高い精度を維持する堅牢なモデルを実現することを目指している。
しかし,道路路面のタイプと品質の周波数分布は極めて不均衡である。
様々な外部ラベル予測資源を組み込んだサンプリング戦略を提案することにより,手動によるアノテーションを低減しつつ,クラス毎に十分な画像を確保するという課題に対処する。
より正確には,(1)OpenStreetMapタグによる画像データの充実,(2)カスタム表面型分類モデルの反復的トレーニングと適用,(3)GPT-4oを用いた即時分類,あるいは画像埋め込みを用いた類似検索による下記表現クラスを増幅することの影響を推定する。
これらの戦略を組み合わせることで、十分なクラス表現を確保しつつ、手作業によるアノテーションの作業量を効果的に削減できることを示す。
Road unevenness significantly impacts the safety and comfort of various traffic participants, especially vulnerable road users such as cyclists and wheelchair users. This paper introduces StreetSurfaceVis, a novel dataset comprising 9,122 street-level images collected from a crowdsourcing platform and manually annotated by road surface type and quality. The dataset is intended to train models for comprehensive surface assessments of road networks. Existing open datasets are constrained by limited geospatial coverage and camera setups, typically excluding cycleways and footways. By crafting a heterogeneous dataset, we aim to fill this gap and enable robust models that maintain high accuracy across diverse image sources. However, the frequency distribution of road surface types and qualities is highly imbalanced. We address the challenge of ensuring sufficient images per class while reducing manual annotation by proposing a sampling strategy that incorporates various external label prediction resources. More precisely, we estimate the impact of (1) enriching the image data with OpenStreetMap tags, (2) iterative training and application of a custom surface type classification model, (3) amplifying underrepresented classes through prompt-based classification with GPT-4o or similarity search using image embeddings. We show that utilizing a combination of these strategies effectively reduces manual annotation workload while ensuring sufficient class representation. | 翻訳日:2024-08-01 18:22:17 公開日:2024-07-31 |
# KemenkeuGPT: インドネシア政府の財務データに基づく大規模言語モデルの導入と意思決定の促進のための規制
KemenkeuGPT: Leveraging a Large Language Model on Indonesia's Government Financial Data and Regulations to Enhance Decision Making ( http://arxiv.org/abs/2407.21459v1 ) ライセンス: Link先を確認 | Gilang Fajar Febrian, Grazziela Figueredo, | (参考訳) データは証拠に基づく政策立案と公共サービスの向上に不可欠であり、その中にはインドネシア大蔵省も含まれる。
しかし、政府の財務データや規制の複雑さと動的な性質は意思決定を妨げる可能性がある。
本研究では,インドネシアの金融データと規制に着目し,これらの課題に対処する大規模言語モデル(LLM)の可能性を検討する。
LLMは金融分野では有効であるが、インドネシアの公共部門では使われていない。
本研究では,LangChain with Retrieval-Augmented Generation (RAG)を用いたケメンケウGPTの開発を反復的に進める。
2003年から2023年までのデータセットは、インドネシア財務省とIMF(国際通貨基金)から収集された。
財務省の職員による調査とインタビューは、このモデルに情報を提供し、強化し、微調整した。
人間のフィードバック, LLMに基づく評価, ベンチマークを用いて, モデルの評価を行った。
モデルの精度は35%から61%に改善され、正しさは48%から64%に向上した。
Retrieval-Augmented Generation Assessment (RAGAS) フレームワークは、ケメンキューGPTが73%の忠実さ、40%の正確さ、60%のリコールで44%の正当性を達成し、他のいくつかのベースモデルを上回ったことを示している。
財務省の専門家とのインタビューは、ケメンケウGPTが意思決定に不可欠なツールになる可能性を示唆している。
これらの結果は、継続的な人間のフィードバックによって改善されることが期待されている。
Data is crucial for evidence-based policymaking and enhancing public services, including those at the Ministry of Finance of the Republic of Indonesia. However, the complexity and dynamic nature of governmental financial data and regulations can hinder decision-making. This study investigates the potential of Large Language Models (LLMs) to address these challenges, focusing on Indonesia's financial data and regulations. While LLMs are effective in the financial sector, their use in the public sector in Indonesia is unexplored. This study undertakes an iterative process to develop KemenkeuGPT using the LangChain with Retrieval-Augmented Generation (RAG), prompt engineering and fine-tuning. The dataset from 2003 to 2023 was collected from the Ministry of Finance, Statistics Indonesia and the International Monetary Fund (IMF). Surveys and interviews with Ministry officials informed, enhanced and fine-tuned the model. We evaluated the model using human feedback, LLM-based evaluation and benchmarking. The model's accuracy improved from 35% to 61%, with correctness increasing from 48% to 64%. The Retrieval-Augmented Generation Assessment (RAGAS) framework showed that KemenkeuGPT achieved 44% correctness with 73% faithfulness, 40% precision and 60% recall, outperforming several other base models. An interview with an expert from the Ministry of Finance indicated that KemenkeuGPT has the potential to become an essential tool for decision-making. These results are expected to improve with continuous human feedback. | 翻訳日:2024-08-01 18:22:17 公開日:2024-07-31 |
# 車両ネットワークにおけるHDマップ更新のためのQoS強調によるマルチエージェント評価
Multi-agent Assessment with QoS Enhancement for HD Map Updates in a Vehicular Network ( http://arxiv.org/abs/2407.21460v1 ) ライセンス: Link先を確認 | Jeffrey Redondo, Nauman Aslam, Juan Zhang, Zhenhui Yuan, | (参考訳) Reinforcement Learning (RL)アルゴリズムは、車載アドホックネットワーク(VANET)のオフロードプロセスにおける問題に対処するために使用されている。
近年,ハイデフィニション(HD)マップの普及に活用されている。
それでも、DQN(Deep Q-learning)やAV(Actor-critic at the autonomous vehicle)のようなソリューションを実装すると、計算負荷が増加し、計算装置に大きな負担がかかり、コストが上昇する可能性がある。
さらに、それらの実装は標準の変更が必要なため、技術間の互換性の問題を引き起こす可能性がある。
そこで本研究では,分散マルチエージェント環境におけるQラーニング単一エージェントソリューションを利用したアプリケーションのスケーラビリティを評価する。
このアプリケーションは、マルチエージェントアプローチを用いて、より小さな状態とアクション空間を活用することにより、ネットワーク性能を向上させる。
提案手法は,個々のネットワーク性能,エージェント数,集中型および分散学習比較を考慮した報奨関数を含む様々なテストケースで広く評価されている。
その結果, 音声, ビデオ, HD Map, ベストエフォートケースにおける提案手法の時間レイテンシは, シングルエージェント方式と比較して, 40.4%, 36%, 43%, 12%, それぞれ有意な改善が認められた。
Reinforcement Learning (RL) algorithms have been used to address the challenging problems in the offloading process of vehicular ad hoc networks (VANET). More recently, they have been utilized to improve the dissemination of high-definition (HD) Maps. Nevertheless, implementing solutions such as deep Q-learning (DQN) and Actor-critic at the autonomous vehicle (AV) may lead to an increase in the computational load, causing a heavy burden on the computational devices and higher costs. Moreover, their implementation might raise compatibility issues between technologies due to the required modifications to the standards. Therefore, in this paper, we assess the scalability of an application utilizing a Q-learning single-agent solution in a distributed multi-agent environment. This application improves the network performance by taking advantage of a smaller state, and action space whilst using a multi-agent approach. The proposed solution is extensively evaluated with different test cases involving reward function considering individual or overall network performance, number of agents, and centralized and distributed learning comparison. The experimental results demonstrate that the time latencies of our proposed solution conducted in voice, video, HD Map, and best-effort cases have significant improvements, with 40.4%, 36%, 43%, and 12% respectively, compared to the performances with the single-agent approach. | 翻訳日:2024-08-01 18:22:17 公開日:2024-07-31 |
# MarvelOVD:ロバストなオープン語彙オブジェクト検出のためのオブジェクト認識と視覚言語モデル
MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection ( http://arxiv.org/abs/2407.21465v1 ) ライセンス: Link先を確認 | Kuo Wang, Lechao Cheng, Weikai Chen, Pingping Zhang, Liang Lin, Fan Zhou, Guanbin Li, | (参考訳) VLM(Vision Language Models)で生成された擬似ラベルからの学習は、近年の研究では、オープンな語彙検出(OVD)を支援するための有望なソリューションとして示されている。
しかしながら、VLMと視覚検出タスクのドメインギャップのため、VLMが生成する擬似ラベルはノイズが多く、検出器のトレーニング設計はバイアスをさらに増幅する。
本稿では,VLMの偏差予測の根本原因について,OVDの文脈下で検討する。
この手法は,視覚言語モデルと検出器の能力を組み合わせることで,学習手順をオンライン的に最適化し,トレーニング目標を大幅に改善する。
我々の重要な洞察は、検出器自体が強力な補助的ガイダンスとして機能し、VLMが ``background'' と画像内の提案のコンテキストの両方を理解することができないことに対応することができるということである。
そこで本研究では,オンラインマイニングを用いて,ノイズの多い擬似ラベルを効果的に浄化し,対象物とうまく一致しないバイアス付きトレーニングボックスを効果的に抑制する適応的リウェイト化を提案する。
さらに、無視された ``base-novel-conflict'' 問題を特定し、それを防ぐために階層化されたラベル割り当てを導入する。
COCOとLVISデータセットの大規模な実験は、我々の手法が他の最先端技術よりも大きなマージンで優れていることを示した。
コードはhttps://github.com/wkfdb/MarvelOVDで入手できる。
Learning from pseudo-labels that generated with VLMs~(Vision Language Models) has been shown as a promising solution to assist open vocabulary detection (OVD) in recent studies. However, due to the domain gap between VLM and vision-detection tasks, pseudo-labels produced by the VLMs are prone to be noisy, while the training design of the detector further amplifies the bias. In this work, we investigate the root cause of VLMs' biased prediction under the OVD context. Our observations lead to a simple yet effective paradigm, coded MarvelOVD, that generates significantly better training targets and optimizes the learning procedure in an online manner by marrying the capability of the detector with the vision-language model. Our key insight is that the detector itself can act as a strong auxiliary guidance to accommodate VLM's inability of understanding both the ``background'' and the context of a proposal within the image. Based on it, we greatly purify the noisy pseudo-labels via Online Mining and propose Adaptive Reweighting to effectively suppress the biased training boxes that are not well aligned with the target object. In addition, we also identify a neglected ``base-novel-conflict'' problem and introduce stratified label assignments to prevent it. Extensive experiments on COCO and LVIS datasets demonstrate that our method outperforms the other state-of-the-arts by significant margins. Codes are available at https://github.com/wkfdb/MarvelOVD | 翻訳日:2024-08-01 18:12:32 公開日:2024-07-31 |
# 基礎画像シーケンスとベースライン屈折データを用いた深層学習に基づく小児近視の経時的予測
Deep Learning-Based Longitudinal Prediction of Childhood Myopia Progression Using Fundus Image Sequences and Baseline Refraction Data ( http://arxiv.org/abs/2407.21467v1 ) ライセンス: Link先を確認 | Mengtian Kang, Yansong Hu, Shuo Gao, Yuanyuan Liu, Hongbei Meng, Xuemeng Li, Xuhang Chen, Hubin Zhao, Jing Fu, Guohua Hu, Wei Wang, Yanning Dai, Arokia Nathan, Peter Smielewski, Ningli Wang, Shiming Li, | (参考訳) 小児期のミオピアは、世界的な健康上の重要な問題となっている。
人口増加の傾向を示し、家族の健康に有害な深刻な、不可逆的な状況に発展し、実質的な経済的コストを生み出す可能性がある。
現代の研究は、時間的かつ効果的な介入を可能にするために、近視の進行を正確に予測することの重要性を強調している。
このような予測は主に主観的臨床評価に依存しており、それは本質的に偏りがあり、資源が集中しているため、広く応用されるのを妨げている。
本研究では,眼底画像とベースライン屈折データのみを用いて,小児の近視・近視リスクを定量的に予測する新しい高精度手法を提案する。
16,211眼底画像とそれに対応する屈折率データを用いて,ヘナンの3,408人の子どもを対象に6年間の縦断調査を行った。
深層学習による予測精度は, 平均誤差が0.311D, AUCスコアが0.944, 0.995で, 近視・近視のリスクを予測できた。
以上の結果から,早期介入戦略の支援や医療費の大幅な削減,特にメタデータの追加やコンサルテーションの反復の必要性を回避し,本モデルの有用性が確認された。
さらに,本手法は,メタデータや医師からの複数の問い合わせを必要とせず,眼底画像と屈折誤差データのみを頼りに設計され,医療費の大幅な削減と大規模検診の容易化が図られた。
我々のモデルは、単一の時間計測のみに基づいて良い予測を提供することもできる。
提案手法は, 経済格差による医療的不平等を軽減する重要な手段である。
Childhood myopia constitutes a significant global health concern. It exhibits an escalating prevalence and has the potential to evolve into severe, irreversible conditions that detrimentally impact familial well-being and create substantial economic costs. Contemporary research underscores the importance of precisely predicting myopia progression to enable timely and effective interventions, thereby averting severe visual impairment in children. Such predictions predominantly rely on subjective clinical assessments, which are inherently biased and resource-intensive, thus hindering their widespread application. In this study, we introduce a novel, high-accuracy method for quantitatively predicting the myopic trajectory and myopia risk in children using only fundus images and baseline refraction data. This approach was validated through a six-year longitudinal study of 3,408 children in Henan, utilizing 16,211 fundus images and corresponding refractive data. Our method based on deep learning demonstrated predictive accuracy with an error margin of 0.311D per year and AUC scores of 0.944 and 0.995 for forecasting the risks of developing myopia and high myopia, respectively. These findings confirm the utility of our model in supporting early intervention strategies and in significantly reducing healthcare costs, particularly by obviating the need for additional metadata and repeated consultations. Furthermore, our method was designed to rely only on fundus images and refractive error data, without the need for meta data or multiple inquiries from doctors, strongly reducing the associated medical costs and facilitating large-scale screening. Our model can even provide good predictions based on only a single time measurement. Consequently, the proposed method is an important means to reduce medical inequities caused by economic disparities. | 翻訳日:2024-08-01 18:12:32 公開日:2024-07-31 |
# プロセスツリーの可逆状態空間
An Invertible State Space for Process Trees ( http://arxiv.org/abs/2407.21468v1 ) ライセンス: Link先を確認 | Gero Kolhof, Sebastiaan J. van Zelst, | (参考訳) プロセスモデルは、イベントデータと同様に、ほとんどのプロセスマイニングアプローチにおける第一級市民である。
例えば、ペトリネット、BPMN、プロセスツリーなどです。
頻繁な使用にもかかわらず、プロセスツリーの形式的性質と、一般的な計算問題を解く効率を改善するための対応するポテンシャルについてはほとんど研究されていない。
そこで本稿では,プロセスツリーに対する可逆な状態空間定義を提案し,対応する状態空間グラフがツリーの逆状態空間グラフに同型であることを実証する。
その結果,プロセスツリーの新規,時間効率,分解戦略の開発を支援した。
実験により、状態空間の定義により、双方向の状態空間探索が採用でき、状態空間探索の全体的な性能が大幅に向上することが確認された。
Process models are, like event data, first-class citizens in most process mining approaches. Several process modeling formalisms have been proposed and used, e.g., Petri nets, BPMN, and process trees. Despite their frequent use, little research addresses the formal properties of process trees and the corresponding potential to improve the efficiency of solving common computational problems. Therefore, in this paper, we propose an invertible state space definition for process trees and demonstrate that the corresponding state space graph is isomorphic to the state space graph of the tree's inverse. Our result supports the development of novel, time-efficient, decomposition strategies for applications of process trees. Our experiments confirm that our state space definition allows for the adoption of bidirectional state space search, which significantly improves the overall performance of state space searches. | 翻訳日:2024-08-01 18:12:32 公開日:2024-07-31 |
# ファイン・ゲインド・ゼロショット・ビデオ・サンプリング
Fine-gained Zero-shot Video Sampling ( http://arxiv.org/abs/2407.21475v1 ) ライセンス: Link先を確認 | Dengsheng Chen, Jie Hu, Xiaoming Wei, Enhua Wu, | (参考訳) ビデオ生成のための事前学習画像拡散モデルに時間次元を組み込むことが一般的である。
しかし、この手法は大規模ビデオデータセットを計算的に要求し、必要としている。
さらに重要なことに、画像データセットとビデオデータセットの不均一性はしばしば、画像の専門性を壊滅的に忘れてしまう。
画像拡散モデルからビデオスニペットを直接抽出する最近の試みは、これらの問題を幾らか緩和している。
それにもかかわらず、これらの手法は単純な動きを伴う短いビデオクリップしか生成できず、細かい動きや非格子変形を捉えることができない。
本稿では,安定拡散などの既存の画像合成手法から高品質なビデオクリップを直接サンプリングできる,$\mathcal{ZS}^2$のZero-Shotビデオサンプリングアルゴリズムを提案する。
具体的には、$\mathcal{ZS}^2$は、コンテンツ一貫性とアニメーションコヒーレンスを確保するために、依存性ノイズモデルと時間的モーメントアテンションアテンションを利用する。
この機能は、条件付きおよびコンテキスト特化ビデオ生成や命令誘導ビデオ編集など、関連するタスクの最適化を可能にする。
実験の結果、$\mathcal{ZS}^2$はゼロショットビデオ生成における最先端のパフォーマンスを達成し、時々最新の教師付き手法よりも優れていた。
ホームページ: \url{https://densechen.github.io/zss/}。
Incorporating a temporal dimension into pretrained image diffusion models for video generation is a prevalent approach. However, this method is computationally demanding and necessitates large-scale video datasets. More critically, the heterogeneity between image and video datasets often results in catastrophic forgetting of the image expertise. Recent attempts to directly extract video snippets from image diffusion models have somewhat mitigated these problems. Nevertheless, these methods can only generate brief video clips with simple movements and fail to capture fine-grained motion or non-grid deformation. In this paper, we propose a novel Zero-Shot video Sampling algorithm, denoted as $\mathcal{ZS}^2$, capable of directly sampling high-quality video clips from existing image synthesis methods, such as Stable Diffusion, without any training or optimization. Specifically, $\mathcal{ZS}^2$ utilizes the dependency noise model and temporal momentum attention to ensure content consistency and animation coherence, respectively. This ability enables it to excel in related tasks, such as conditional and context-specialized video generation and instruction-guided video editing. Experimental results demonstrate that $\mathcal{ZS}^2$ achieves state-of-the-art performance in zero-shot video generation, occasionally outperforming recent supervised methods. Homepage: \url{https://densechen.github.io/zss/}. | 翻訳日:2024-08-01 18:12:32 公開日:2024-07-31 |
# 音声認識における合成データ生成のためのテキスト音声モデル選択の問題について
On the Problem of Text-To-Speech Model Selection for Synthetic Data Generation in Automatic Speech Recognition ( http://arxiv.org/abs/2407.21476v1 ) ライセンス: Link先を確認 | Nick Rossenbach, Ralf Schlüter, Sakriani Sakti, | (参考訳) 音声認識 (ASR) や音声翻訳 (SLT) といった自然言語処理の分野で, 音声合成システム(TTS) の急速な発展が実現した。
多数の異なるTSアーキテクチャとその拡張のため、合成データ生成に使用するTSシステムを選択するのは容易ではない。
我々は、合成データ生成の範囲内で5種類のTSデコーダアーキテクチャを比較し、CTCに基づく音声認識訓練への影響を示す。
NISQA MOSやインテリジェンスといった計算可能な指標と比較した結果,ASRの性能には明確な相関性がないことがわかった。
また,データ生成の自己回帰復号化は非自己回帰復号化よりも優れており,TTSの一般化能力を定量化する手法を提案する。
The rapid development of neural text-to-speech (TTS) systems enabled its usage in other areas of natural language processing such as automatic speech recognition (ASR) or spoken language translation (SLT). Due to the large number of different TTS architectures and their extensions, selecting which TTS systems to use for synthetic data creation is not an easy task. We use the comparison of five different TTS decoder architectures in the scope of synthetic data generation to show the impact on CTC-based speech recognition training. We compare the recognition results to computable metrics like NISQA MOS and intelligibility, finding that there are no clear relations to the ASR performance. We also observe that for data generation auto-regressive decoding performs better than non-autoregressive decoding, and propose an approach to quantify TTS generalization capabilities. | 翻訳日:2024-08-01 18:12:32 公開日:2024-07-31 |
# eSPARQL: RDF-star Knowledge GraphsにおけるAgnosticおよびAtheistic Beliefの表現と再構成
eSPARQL: Representing and Reconciling Agnostic and Atheistic Beliefs in RDF-star Knowledge Graphs ( http://arxiv.org/abs/2407.21483v1 ) ライセンス: Link先を確認 | Xiny Pan, Daniel Hernández, Philipp Seifer, Ralf Lämmel, Steffen Staab, | (参考訳) 過去数年間、複数の情報源からの情報を組み合わせた大きな知識グラフが出現してきた。
この情報は時として、他のアサーションに関するアサーションの形式で提供され、アサーションが有効なコンテキストを定義する。
RDF-starと呼ばれるステートメントに対するステートメントを認めるRDFへの最近の拡張は、W3C標準になるように改訂されている。
しかしながら、これらのRDF星のステートメントのセマンティクスや、それらを操作するためのビルトイン設備の提案はない。
本稿では,eSPARQLと呼ばれる4値論理に基づく認識型RDF星メタデータのクエリ言語を提案する。
提案する問合せ言語は,RDF-starの問合せ言語であるSPARQL-starを拡張した。
提案したクエリ言語は,以下の機能を含む4つのユースケースクエリを表現可能であることを示す。
一 個人の信条を問うこと。
(二)信条の集約
三 誰かと対立している者を問うこと、
(四)信仰に関する信仰(すなわち信仰の営巣)
Over the past few years, we have seen the emergence of large knowledge graphs combining information from multiple sources. Sometimes, this information is provided in the form of assertions about other assertions, defining contexts where assertions are valid. A recent extension to RDF which admits statements over statements, called RDF-star, is in revision to become a W3C standard. However, there is no proposal for a semantics of these RDF-star statements nor a built-in facility to operate over them. In this paper, we propose a query language for epistemic RDF-star metadata based on a four-valued logic, called eSPARQL. Our proposed query language extends SPARQL-star, the query language for RDF-star, with a new type of FROM clause to facilitate operating with multiple and sometimes conflicting beliefs. We show that the proposed query language can express four use case queries, including the following features: (i) querying the belief of an individual, (ii) the aggregating of beliefs, (iii) querying who is conflicting with somebody, and (iv) beliefs about beliefs (i.e., nesting of beliefs). | 翻訳日:2024-08-01 18:12:32 公開日:2024-07-31 |
# ベストファースト総合計画のための並列戦略
Parallel Strategies for Best-First Generalized Planning ( http://arxiv.org/abs/2407.21485v1 ) ライセンス: Link先を確認 | Alejandro Fernández-Alburquerque, Javier Segovia-Aguas, | (参考訳) 近年,複数の古典的計画インスタンスを解くことができるアルゴリズム的ソリューションの自動合成を研究するAIの研究分野である,最先端の計画解法と一般化計画(GP)のパフォーマンスギャップを埋めることに対する新たな関心が高まっている。
現在の進歩の1つはBest-First Generalized Planning (BFGP) の導入である。BFGPは、現代のプランナーの基礎の一つであるヒューリスティック探索を用いて探索できる新しい解空間に基づくGPアルゴリズムである。
本稿では,並列探索手法をBFGPに適用し,性能ギャップを埋める上で重要な要素であることを示す。
まず,BFGPが並列化に適している理由と,古典的プランナーとの相違点について論じる。
次に,コア数で優れたスケーリングが可能な2つの単純な共有メモリ並列戦略を提案する。
In recent years, there has been renewed interest in closing the performance gap between state-of-the-art planning solvers and generalized planning (GP), a research area of AI that studies the automated synthesis of algorithmic-like solutions capable of solving multiple classical planning instances. One of the current advancements has been the introduction of Best-First Generalized Planning (BFGP), a GP algorithm based on a novel solution space that can be explored with heuristic search, one of the foundations of modern planners. This paper evaluates the application of parallel search techniques to BFGP, another critical component in closing the performance gap. We first discuss why BFGP is well suited for parallelization and some of its differentiating characteristics from classical planners. Then, we propose two simple shared-memory parallel strategies with good scaling with the number of cores. | 翻訳日:2024-08-01 18:12:32 公開日:2024-07-31 |
# 残留量子化の時間ガラス現象を破る:生成的検索の上限を高める
Breaking the Hourglass Phenomenon of Residual Quantization: Enhancing the Upper Bound of Generative Retrieval ( http://arxiv.org/abs/2407.21488v1 ) ライセンス: Link先を確認 | Zhirui Kuai, Zuxu Chen, Huimu Wang, Mingming Li, Dadong Miao, Binbin Wang, Xusong Chen, Li Kuang, Yuxing Han, Jiaxing Wang, Guoyu Tang, Lin Liu, Songlin Wang, Jingwei Zhuo, | (参考訳) ジェネレーティブ検索(GR)は、数値に基づく識別子表現を利用して効率と一般化を向上し、検索とレコメンデーションシステムにおいてトランスフォーメーションパラダイムとして登場した。
特に、Residual Quantization-based Semantic Identifiers (RQ-SID) を用いたTIGERのような手法は、アイテムIDを効果的に管理することで、eコマースのシナリオにおいて大きな可能性を示している。
しかし、「\textbf{Hourglass}」現象と呼ばれる重要な問題は、中間コードブックトークンが過度に集中し、生成的検索手法の完全活用を妨げるRQ-SIDにおいて発生し、本論文では、データの疎さと長期分布を主な原因として同定し、この問題に対処する。包括的実験と詳細なアブレーション研究により、これらの要因がコードブックの利用とデータ分布に与える影響を解析し、この現象が生成的検索におけるRQ-SIDの性能に著しく影響することを明らかにする。
本研究では,この問題を緩和する効果的なソリューションを提案し,現実のEコマースアプリケーションにおける生成検索の有効性を著しく向上させる。
Generative retrieval (GR) has emerged as a transformative paradigm in search and recommender systems, leveraging numeric-based identifier representations to enhance efficiency and generalization. Notably, methods like TIGER employing Residual Quantization-based Semantic Identifiers (RQ-SID), have shown significant promise in e-commerce scenarios by effectively managing item IDs. However, a critical issue termed the "\textbf{Hourglass}" phenomenon, occurs in RQ-SID, where intermediate codebook tokens become overly concentrated, hindering the full utilization of generative retrieval methods. This paper analyses and addresses this problem by identifying data sparsity and long-tailed distribution as the primary causes. Through comprehensive experiments and detailed ablation studies, we analyze the impact of these factors on codebook utilization and data distribution. Our findings reveal that the "Hourglass" phenomenon substantially impacts the performance of RQ-SID in generative retrieval. We propose effective solutions to mitigate this issue, thereby significantly enhancing the effectiveness of generative retrieval in real-world E-commerce applications. | 翻訳日:2024-08-01 18:12:32 公開日:2024-07-31 |
# Maverick: 最近のトレンドを定義した効率的で正確な参照解決
Maverick: Efficient and Accurate Coreference Resolution Defying Recent Trends ( http://arxiv.org/abs/2407.21489v1 ) ライセンス: Link先を確認 | Giuliano Martinelli, Edoardo Barba, Roberto Navigli, | (参考訳) 大規模な自己回帰生成モデルは、いくつかの自然言語処理タスクで最高のパフォーマンスを達成するための基盤として現れてきた。
しかし、優れた結果を得るという衝動は、時には、徹底的な実験をせずに、慎重に設計されたタスク固有のアプローチを早期に置き換えることにつながった。
コア参照解決タスクは例外ではなく、最新の最先端ソリューションはすべて、エンコーダベースの識別システムを上回る大きな生成自己回帰モデルを採用している。
これは、学術予算の制約の中で最先端のCoreference Resolutionシステムを実行可能にするもので、最大13億のパラメータを持つモデルと5億のパラメータしか持たない。
MaverickはCoNLL-2012ベンチマークで最先端のパフォーマンスを達成し、最大0.006倍のメモリリソースをトレーニングし、従来の最先端システムと比較して170倍高速な推論が得られる。
我々は、データスカース、長期ドキュメント、ドメイン外設定における以前のシステムに対する改善を報告し、様々な実験を行い、Maverickフレームワークの堅牢性を広範囲に検証する。
コードとモデルは、https://github.com/SapienzaNLP/maverick-coref.comで公開しています。
Large autoregressive generative models have emerged as the cornerstone for achieving the highest performance across several Natural Language Processing tasks. However, the urge to attain superior results has, at times, led to the premature replacement of carefully designed task-specific approaches without exhaustive experimentation. The Coreference Resolution task is no exception; all recent state-of-the-art solutions adopt large generative autoregressive models that outperform encoder-based discriminative systems. In this work,we challenge this recent trend by introducing Maverick, a carefully designed - yet simple - pipeline, which enables running a state-of-the-art Coreference Resolution system within the constraints of an academic budget, outperforming models with up to 13 billion parameters with as few as 500 million parameters. Maverick achieves state-of-the-art performance on the CoNLL-2012 benchmark, training with up to 0.006x the memory resources and obtaining a 170x faster inference compared to previous state-of-the-art systems. We extensively validate the robustness of the Maverick framework with an array of diverse experiments, reporting improvements over prior systems in data-scarce, long-document, and out-of-domain settings. We release our code and models for research purposes at https://github.com/SapienzaNLP/maverick-coref. | 翻訳日:2024-08-01 18:12:32 公開日:2024-07-31 |
# 心エコー画像生成のための説明可能・制御可能な運動曲線
Explainable and Controllable Motion Curve Guided Cardiac Ultrasound Video Generation ( http://arxiv.org/abs/2407.21490v1 ) ライセンス: Link先を確認 | Junxuan Yu, Rusi Chen, Yongsong Zhou, Yanlin Chen, Yaofei Duan, Yuhao Huang, Han Zhou, Tan Tao, Xin Yang, Dong Ni, | (参考訳) 心エコービデオは心臓疾患の診断において主要な手段であるが、この限られたデータは臨床教育と機械学習トレーニングの両方に課題をもたらす。
近年,映像生成モデルはこの問題を緩和するための有望な戦略として浮上している。
しかし、従来の手法は、しばしば生成中の全体的条件に依存しており、特定の心構造に対する柔軟な運動制御を妨げていた。
そこで本研究では,心エコー画像生成のための説明可能な制御可能な手法を提案し,初期フレームと運動曲線をガイダンスとして用いた。
私たちの貢献は3倍です。
まず,各心臓のサブ構造から運動情報を抽出して運動曲線を構築する。
第2に、心構造を横断する運動曲線に意味的特徴をマッピングできる構造間アライメントモジュールを提案する。
第三に、位置認識型アテンション機構は、構造的位置情報を持つガウスマスクを用いて、映像の一貫性を高めるように設計されている。
心エコー図データを用いた拡張実験により,本手法は心電図の忠実度や整合性に優れることがわかった。
完全なコードはhttps://github.com/mlmi-2024-72/ECMでリリースされる。
Echocardiography video is a primary modality for diagnosing heart diseases, but the limited data poses challenges for both clinical teaching and machine learning training. Recently, video generative models have emerged as a promising strategy to alleviate this issue. However, previous methods often relied on holistic conditions during generation, hindering the flexible movement control over specific cardiac structures. In this context, we propose an explainable and controllable method for echocardiography video generation, taking an initial frame and a motion curve as guidance. Our contributions are three-fold. First, we extract motion information from each heart substructure to construct motion curves, enabling the diffusion model to synthesize customized echocardiography videos by modifying these curves. Second, we propose the structure-to-motion alignment module, which can map semantic features onto motion curves across cardiac structures. Third, The position-aware attention mechanism is designed to enhance video consistency utilizing Gaussian masks with structural position information. Extensive experiments on three echocardiography datasets show that our method outperforms others regarding fidelity and consistency. The full code will be released at https://github.com/mlmi-2024-72/ECM. | 翻訳日:2024-08-01 18:12:32 公開日:2024-07-31 |
# 生成的表現型会話音声合成
Generative Expressive Conversational Speech Synthesis ( http://arxiv.org/abs/2407.21491v1 ) ライセンス: Link先を確認 | Rui Liu, Yifan Hu, Ren Yi, Yin Xiang, Haizhou Li, | (参考訳) 会話音声合成(CSS)は,ユーザエージェントによる会話設定において,適切な発話スタイルでターゲット発話を表現することを目的としている。
既存のCSSメソッドでは、共感理解と表現を実現するために効果的なマルチモーダルコンテキストモデリング技術を採用している。
しかし、複雑なネットワークアーキテクチャを設計し、内部のモジュールを慎重に最適化する必要があることが多い。
さらに、スクリプティングされた記録スタイルを含む小規模なデータセットの制限のため、実際の自然な会話スタイルをシミュレートすることができないことが多い。
上記の課題に対処するため,GPT-Talkerと呼ばれる新しい生成表現型CSSシステムを提案し,マルチターン対話履歴のマルチモーダル情報を離散トークンシーケンスに変換し,それらをシームレスに統合し,包括的ユーザエージェント対話コンテキストを形成する。
GPTの力を利用して、エージェントに対する応答のセマンティック知識とスタイル知識の両方を含むトークンシーケンスを予測する。
その後、会話に富んだVITSを用いて表現的な会話音声を合成し、ユーザへのフィードバックを提供するとともに、即興スタイルの会話音声とテレビ番組から抽出した対話文の両方を含むNCSSDと呼ばれる大規模自然CSSデータセットを提案する。
中国語と英語を合わせて236時間, NCSSDの信頼性とGPT-Talkerの有効性について総合的な実験を行った。
主観的および客観的評価は,本モデルが他の最先端CSSシステムよりも自然性や表現性に優れていたことを示す。
Code、Dataset、Pre-trained Modelは、https://github.com/AI-S2-Lab/GPT-Talker.comで入手できる。
Conversational Speech Synthesis (CSS) aims to express a target utterance with the proper speaking style in a user-agent conversation setting. Existing CSS methods employ effective multi-modal context modeling techniques to achieve empathy understanding and expression. However, they often need to design complex network architectures and meticulously optimize the modules within them. In addition, due to the limitations of small-scale datasets containing scripted recording styles, they often fail to simulate real natural conversational styles. To address the above issues, we propose a novel generative expressive CSS system, termed GPT-Talker.We transform the multimodal information of the multi-turn dialogue history into discrete token sequences and seamlessly integrate them to form a comprehensive user-agent dialogue context. Leveraging the power of GPT, we predict the token sequence, that includes both semantic and style knowledge, of response for the agent. After that, the expressive conversational speech is synthesized by the conversation-enriched VITS to deliver feedback to the user.Furthermore, we propose a large-scale Natural CSS Dataset called NCSSD, that includes both naturally recorded conversational speech in improvised styles and dialogues extracted from TV shows. It encompasses both Chinese and English languages, with a total duration of 236 hours.We conducted comprehensive experiments on the reliability of the NCSSD and the effectiveness of our GPT-Talker. Both subjective and objective evaluations demonstrate that our model outperforms other state-of-the-art CSS systems significantly in terms of naturalness and expressiveness. The Code, Dataset, and Pre-trained Model are available at: https://github.com/AI-S2-Lab/GPT-Talker. | 翻訳日:2024-08-01 18:12:32 公開日:2024-07-31 |
# 継続的セキュリティコンプライアンスの自動化に向けて
Towards Automated Continuous Security Compliance ( http://arxiv.org/abs/2407.21494v1 ) ライセンス: Link先を確認 | Florian Angermeir, Jannik Fischbach, Fabiola Moyón, Daniel Mendez, | (参考訳) コンテキスト: 継続的ソフトウェアエンジニアリングは、高度に規制されたドメインでますます採用され、継続的コンプライアンスの必要性が高まっています。
高度に規制されたドメインにおける主要な関心事である、特にセキュリティ規制の遵守は、業界や研究に高い関連性を持つ継続的セキュリティコンプライアンスをもたらす。
問題: 業界で継続的ソフトウェアエンジニアリングを採用する上で重要な障壁の1つは、従来の手動のセキュリティコンプライアンス活動において、リソース集約的でエラーを起こしやすい性質です。
自動化は有利であると約束する。
しかし、継続的セキュリティコンプライアンスは、効果的に採用される前に、あまり研究されていない。
コントリビューション:私たちは、これらの問題に対処するため、業界パートナーと長期的な研究プロジェクトを開始しました。
本書では,(1) 現状に整合した継続的セキュリティコンプライアンスという用語の正確な定義,(2) 第三次学術研究を通じての継続的セキュリティコンプライアンスの分野における課題の概観,(3) 自動的な継続的セキュリティコンプライアンスを通じてこれらの課題に対処するための研究ロードマップを提示する。
Context: Continuous Software Engineering is increasingly adopted in highly regulated domains, raising the need for continuous compliance. Adherence to especially security regulations -- a major concern in highly regulated domains -- renders Continuous Security Compliance of high relevance to industry and research. Problem: One key barrier to adopting continuous software engineering in the industry is the resource-intensive and error-prone nature of traditional manual security compliance activities. Automation promises to be advantageous. However, continuous security compliance is under-researched, precluding an effective adoption. Contribution: We have initiated a long-term research project with our industry partner to address these issues. In this manuscript, we make three contributions: (1) We provide a precise definition of the term continuous security compliance aligning with the state-of-art, (2) elaborate a preliminary overview of challenges in the field of automated continuous security compliance through a tertiary literature study, and (3) present a research roadmap to address those challenges via automated continuous security compliance. | 翻訳日:2024-08-01 18:12:32 公開日:2024-07-31 |
# MaskUno: インスタンスのセグメンテーションを強化するスイッチスプリットブロック
MaskUno: Switch-Split Block For Enhancing Instance Segmentation ( http://arxiv.org/abs/2407.21498v1 ) ライセンス: Link先を確認 | Jawad Haidar, Marc Mouawad, Imad Elhajj, Daniel Asmar, | (参考訳) インスタンスセグメンテーションは画像セグメンテーションの高度な形式であり、従来のセグメンテーションを超えて、シーン内のオブジェクトを繰り返す個々のインスタンスを特定する必要がある。
Mask R-CNNは、インスタンスセグメンテーションにおいて最も一般的なアーキテクチャであり、このアーキテクチャの改善には、バウンディングボックスのリファインメントの恩恵、セマンティクスの追加、バックボーン拡張などのステップが含まれる。
これまでに提案されたすべてのバリエーションにおいて、競合するカーネル(各クラスは自身の精度を最大化することを目的としている)の問題は、モデルが複数のクラスを同期的に学習しようとするときに持続する。
本稿では、マスク予測を洗練されたROIを処理し、それらを分類し、特殊なマスク予測器に割り当てるスイッチスプリットブロックに置き換えることで、この問題を軽減することを提案する。
我々はMaskUnoメソッドを命名し、文献から様々なモデルでテストし、ベンチマークCOCOデータセットを使用して複数のクラスでトレーニングする。
平均平均精度(mAP)が2.03%上昇し,80クラスにおいて高い成績を示した。
MaskUnoは、数や型に関わらず、インスタンスセグメンテーションモデルのmAPを強化することを証明した
Instance segmentation is an advanced form of image segmentation which, beyond traditional segmentation, requires identifying individual instances of repeating objects in a scene. Mask R-CNN is the most common architecture for instance segmentation, and improvements to this architecture include steps such as benefiting from bounding box refinements, adding semantics, or backbone enhancements. In all the proposed variations to date, the problem of competing kernels (each class aims to maximize its own accuracy) persists when models try to synchronously learn numerous classes. In this paper, we propose mitigating this problem by replacing mask prediction with a Switch-Split block that processes refined ROIs, classifies them, and assigns them to specialized mask predictors. We name the method MaskUno and test it on various models from the literature, which are then trained on multiple classes using the benchmark COCO dataset. An increase in the mean Average Precision (mAP) of 2.03% was observed for the high-performing DetectoRS when trained on 80 classes. MaskUno proved to enhance the mAP of instance segmentation models regardless of the number and typ | 翻訳日:2024-08-01 18:12:32 公開日:2024-07-31 |
# アンサンブル機械学習を利用した生産システムにおける生産性損失の根本原因分析
Root Cause Analysis Of Productivity Losses In Manufacturing Systems Utilizing Ensemble Machine Learning ( http://arxiv.org/abs/2407.21503v1 ) ライセンス: Link先を確認 | Jonas Gram, Brandon K. Sai, Thomas Bauernhansl, | (参考訳) 自動化と製造システムの急速な発展の中で、生産性損失の効率的な解決が最重要である。
本研究では,2成分センサとPLC(Programmable Logic Controllers)の信号から周期的多変量時系列データを利用する,データ駆動型アンサンブル手法を提案する。
目的は、システム要素に損失を割り当てることで、サイクル毎の生産性損失を自動的に分析し、根本原因を特定することである。
本発表で導入されたアンサンブルアプローチは、情報理論や機械学習行動モデルを含む様々な手法を統合し、生産サイクル毎に堅牢な分析を提供する。
生産性損失の解消を迅速化し、応答時間を短くするためには、ストリーム処理が必要である。
これに対応するために、このアプローチはデータストリーム分析として実装され、バッチ処理に転送され、大規模な履歴データ解析を必要とせずに、既存のシステムにシームレスに統合される。
この方法には2つのポジティブな効果がある。
まず、分析の結果、生産性損失の潜在的な根本原因を特定することにより、生産性の低下期間を確実にする。
第二に、これらの結果はアンサンブルアプローチにより信頼性が高く、したがって技術専門家への依存を避ける。
本手法は, 半自動溶接システム, 射出成形自動化システム, および合成生成試験PLCデータセットを用いて検証した。
その結果、プロセスの挙動をデータ駆動で理解し、自律的な製造システム分析の進歩を示す方法の有効性が示された。
In today's rapidly evolving landscape of automation and manufacturing systems, the efficient resolution of productivity losses is paramount. This study introduces a data-driven ensemble approach, utilizing the cyclic multivariate time series data from binary sensors and signals from Programmable Logic Controllers (PLCs) within these systems. The objective is to automatically analyze productivity losses per cycle and pinpoint their root causes by assigning the loss to a system element. The ensemble approach introduced in this publication integrates various methods, including information theory and machine learning behavior models, to provide a robust analysis for each production cycle. To expedite the resolution of productivity losses and ensure short response times, stream processing becomes a necessity. Addressing this, the approach is implemented as data-stream analysis and can be transferred to batch processing, seamlessly integrating into existing systems without the need for extensive historical data analysis. This method has two positive effects. Firstly, the result of the analysis ensures that the period of lower productivity is reduced by identifying the likely root cause of the productivity loss. Secondly, these results are more reliable due to the ensemble approach and therefore avoid dependency on technical experts. The approach is validated using a semi-automated welding manufacturing system, an injection molding automation system, and a synthetically generated test PLC dataset. The results demonstrate the method's efficacy in offering a data-driven understanding of process behavior and mark an advancement in autonomous manufacturing system analysis. | 翻訳日:2024-08-01 18:12:32 公開日:2024-07-31 |
# FSSC:意味的画像通信のためのトランスフォーマーニューラルネットワークのフェデレーション学習
FSSC: Federated Learning of Transformer Neural Networks for Semantic Image Communication ( http://arxiv.org/abs/2407.21507v1 ) ライセンス: Link先を確認 | Yuna Yan, Xin Zhang, Lixin Li, Wensheng Lin, Rui Li, Wenchi Cheng, Zhu Han, | (参考訳) 本稿では,マルチユーザ配置シナリオにおけるイメージセマンティックコミュニケーションの問題に対処し,Swin Transformerベースのセマンティックコミュニケーションシステム(FSSC)のためのフェデレーションラーニング(FL)戦略を提案する。
まず,ジョイントソースチャネル符号化(JSCC)におけるSwin Transformerの導入により,通信システム内の意味情報を効果的に抽出できることを実証する。
次に、FLフレームワークを導入し、クライアントのデータを直接共有するのではなく、ローカルモデルパラメータを集約することで、グローバルモデルを協調的に学習する。
このアプローチにより、ユーザのプライバシ保護が強化され、サーバやモバイルエッジのワークロードが削減される。
シミュレーション評価の結果,本手法は従来のJSCCアルゴリズムや従来の個別通信アルゴリズムよりも優れていた。
特に局所的セマンティクスの統合後,グローバルアグリゲーションモデルは2dB以上のピーク信号対雑音比(PSNR)をさらに増加させ,アルゴリズムの有効性を徹底的に証明した。
In this paper, we address the problem of image semantic communication in a multi-user deployment scenario and propose a federated learning (FL) strategy for a Swin Transformer-based semantic communication system (FSSC). Firstly, we demonstrate that the adoption of a Swin Transformer for joint source-channel coding (JSCC) effectively extracts semantic information in the communication system. Next, the FL framework is introduced to collaboratively learn a global model by aggregating local model parameters, rather than directly sharing clients' data. This approach enhances user privacy protection and reduces the workload on the server or mobile edge. Simulation evaluations indicate that our method outperforms the typical JSCC algorithm and traditional separate-based communication algorithms. Particularly after integrating local semantics, the global aggregation model has further increased the Peak Signal-to-Noise Ratio (PSNR) by more than 2dB, thoroughly proving the effectiveness of our algorithm. | 翻訳日:2024-08-01 18:12:32 公開日:2024-07-31 |
# ロボットシステムのための大規模言語モデルによる音声コマンドの解釈と学習
Interpreting and learning voice commands with a Large Language Model for a robot system ( http://arxiv.org/abs/2407.21512v1 ) ライセンス: Link先を確認 | Stanislau Stankevich, Wojciech Dudek, | (参考訳) ロボットは、従業員を援助できる介護施設など、産業や日常生活でますます一般的になっている。
重要な課題は、簡単なコミュニケーションのための直感的なインターフェースを開発することだ。
GPT-4のようなLarge Language Models (LLM)を使用することで、ロボットの能力が向上し、リアルタイムの対話や意思決定が可能になった。
この統合により、ロボットの適応性と機能が改善される。
本研究の目的は,LLMとデータベースを融合して意思決定を改善し,要求解釈問題に対する知識獲得を可能にすることである。
Robots are increasingly common in industry and daily life, such as in nursing homes where they can assist staff. A key challenge is developing intuitive interfaces for easy communication. The use of Large Language Models (LLMs) like GPT-4 has enhanced robot capabilities, allowing for real-time interaction and decision-making. This integration improves robots' adaptability and functionality. This project focuses on merging LLMs with databases to improve decision-making and enable knowledge acquisition for request interpretation problems. | 翻訳日:2024-08-01 18:02:39 公開日:2024-07-31 |
# Medical Decathlon データセットの拡張:CT画像による大腸癌と大腸癌の分節化
Expanding the Medical Decathlon dataset: segmentation of colon and colorectal cancer from computed tomography images ( http://arxiv.org/abs/2407.21516v1 ) ライセンス: Link先を確認 | I. M. Chernenkiy, Y. A. Drach, S. R. Mustakimova, V. V. Kazantseva, N. A. Ushakov, S. K. Efetov, M. V. Feldsherov, | (参考訳) 大腸癌は西半球で3番目に多いがんである。
CTによる大腸癌と大腸癌の分節化は,医学における緊急の課題である。
実際、この問題を解決できるシステムは、疾患の初期段階における大腸癌の検出を可能にし、放射線技師による病理検索を容易にし、疾患の診断過程を著しく加速する。
しかし、医療画像処理に関する科学出版物は、主に非公開のクローズドなデータを使用する。
本稿では,分類アルゴリズムの品質向上のために,大腸癌マークアップを用いたメディカルデスロンデータセットの拡張を提案する。
経験豊富な放射線学者がデータを検証し、それを品質でサブセットに分類し、パブリックドメインで公開した。
得られた結果から,UNetアーキテクチャのニューラルネットワークモデルを5部クロスバリデーションでトレーニングし,Diceのメトリック品質を0.6988 \pm 0.3$とした。
公表されたマークアップは、大腸癌検出の品質を改善し、研究記述のための放射線技師の仕事を簡素化する。
Colorectal cancer is the third-most common cancer in the Western Hemisphere. The segmentation of colorectal and colorectal cancer by computed tomography is an urgent problem in medicine. Indeed, a system capable of solving this problem will enable the detection of colorectal cancer at early stages of the disease, facilitate the search for pathology by the radiologist, and significantly accelerate the process of diagnosing the disease. However, scientific publications on medical image processing mostly use closed, non-public data. This paper presents an extension of the Medical Decathlon dataset with colorectal markups in order to improve the quality of segmentation algorithms. An experienced radiologist validated the data, categorized it into subsets by quality, and published it in the public domain. Based on the obtained results, we trained neural network models of the UNet architecture with 5-part cross-validation and achieved a Dice metric quality of $0.6988 \pm 0.3$. The published markups will improve the quality of colorectal cancer detection and simplify the radiologist's job for study description. | 翻訳日:2024-08-01 18:02:39 公開日:2024-07-31 |
# AIアバターの出現と開示がユーザモチベーションに及ぼす影響
The Impacts of AI Avatar Appearance and Disclosure on User Motivation ( http://arxiv.org/abs/2407.21521v1 ) ライセンス: Link先を確認 | Boele Visser, Peter van der Putten, Amirhossein Zohrehvand, | (参考訳) 本研究では,仮想インタラクションにおけるAI特徴がユーザのモチベーションに与える影響について検討する。
AIアバターは、AIである、または特定の性別を具現化するものとして公開されており、ユーザーとAIのインタラクションに使用することができる。
AIとアバター研究からの洞察を活用して、AIの開示とジェンダーがユーザーのモチベーションにどのように影響するかを探求する。
探索問題のみ, あるいはAIコンパニオンを用いて72,500人以上の参加者を対象に, ゲームベースの実験を行った。
さまざまなグループがさまざまなAIの出現と開示を経験した。
私たちは遊びの強さを測定した。
結果, 他のアバターの存在は, ソロ演奏に比べ, 強烈な演奏に繋がることがわかった。
AIとしてのアバターの開示は、非開示のAIコンパニオンと比べて努力の強度を高めた。
さらに、男性AIの外観は、努力の強度を低下させた。
This study examines the influence of perceived AI features on user motivation in virtual interactions. AI avatars, being disclosed as being an AI, or embodying specific genders, could be used in user-AI interactions. Leveraging insights from AI and avatar research, we explore how AI disclosure and gender affect user motivation. We conducted a game-based experiment involving over 72,500 participants who solved search problems alone or with an AI companion. Different groups experienced varying AI appearances and disclosures. We measured play intensity. Results revealed that the presence of another avatar led to less intense play compared to solo play. Disclosure of the avatar as AI heightened effort intensity compared to non-disclosed AI companions. Additionally, a masculine AI appearance reduced effort intensity. | 翻訳日:2024-08-01 18:02:39 公開日:2024-07-31 |
# 機械学習のためのタブラルデータ拡張 : 生成AIの導入の進展と展望
Tabular Data Augmentation for Machine Learning: Progress and Prospects of Embracing Generative AI ( http://arxiv.org/abs/2407.21523v1 ) ライセンス: Link先を確認 | Lingxi Cui, Huan Li, Ke Chen, Lidan Shou, Gang Chen, | (参考訳) 表データ上の機械学習(ML)はユビキタスだが、モデルトレーニングのための高品質な表データを取得することは大きな障害である。
多数の作業がTDA(Tabular Data Augmentation)に重点を置いており、元のテーブルにデータを追加して拡張することで、下流のMLタスクを改善している。
近年、TDAに生成AIの能力を活用することへの関心が高まっている。
したがって、我々はTDAの進歩と今後の展望を包括的にレビューする時が来たと信じており、特にトレンドとなるジェネレーティブAIに重点を置いている。
具体的には,前処理,拡張処理,後処理の3つの主要な手順を含む,TDAパイプラインのアーキテクチャビューを示す。
事前拡張には、エラー処理、テーブルアノテーション、テーブルの単純化、テーブル表現、テーブルインデックス、テーブルナビゲーション、スキーママッチング、エンティティマッチングなど、その後のTDAを促進する準備作業が含まれる。
Augmentationは、現在のTDAメソッドを体系的に分析し、外部データを取得する検索ベースメソッドと、合成データを生成する生成ベースメソッドに分類する。
さらに, 行, 列, セル, テーブルレベルの増大過程の粒度に基づいて, これらの手法を分割する。
後強化は、TDAのデータセット、評価、最適化の側面に焦点を当てている。
我々はまた、TDAの現在の傾向と今後の方向性を要約し、生成AIの時代における有望な機会を強調した。
さらに、関連する論文や関連リソースは、GitHubリポジトリのhttps://github.com/SuDIS-ZJU/awesome-tabular-data-augmentationで継続的に更新され、メンテナンスされる。
Machine learning (ML) on tabular data is ubiquitous, yet obtaining abundant high-quality tabular data for model training remains a significant obstacle. Numerous works have focused on tabular data augmentation (TDA) to enhance the original table with additional data, thereby improving downstream ML tasks. Recently, there has been a growing interest in leveraging the capabilities of generative AI for TDA. Therefore, we believe it is time to provide a comprehensive review of the progress and future prospects of TDA, with a particular emphasis on the trending generative AI. Specifically, we present an architectural view of the TDA pipeline, comprising three main procedures: pre-augmentation, augmentation, and post-augmentation. Pre-augmentation encompasses preparation tasks that facilitate subsequent TDA, including error handling, table annotation, table simplification, table representation, table indexing, table navigation, schema matching, and entity matching. Augmentation systematically analyzes current TDA methods, categorized into retrieval-based methods, which retrieve external data, and generation-based methods, which generate synthetic data. We further subdivide these methods based on the granularity of the augmentation process at the row, column, cell, and table levels. Post-augmentation focuses on the datasets, evaluation and optimization aspects of TDA. We also summarize current trends and future directions for TDA, highlighting promising opportunities in the era of generative AI. In addition, the accompanying papers and related resources are continuously updated and maintained in the GitHub repository at https://github.com/SuDIS-ZJU/awesome-tabular-data-augmentation to reflect ongoing advancements in the field. | 翻訳日:2024-08-01 18:02:39 公開日:2024-07-31 |
# 空間構造グラフ畳み込みを用いた骨格に基づく行動認識
Skeleton-Based Action Recognition with Spatial-Structural Graph Convolution ( http://arxiv.org/abs/2407.21525v1 ) ライセンス: Link先を確認 | Jingyao Wang, Emmanuel Bergeret, Issam Falih, | (参考訳) HAR(Human Activity Recognition)は、人間の活動の識別と分類に焦点を当てた研究分野である。
近年、スケルトンを基盤としたヒューマンアクティビティ認識が注目されており、グラフ畳み込みネットワーク(GCN)ベースの手法が広く使われ、目覚ましい成果を上げている。
しかし, 骨格データの表現やGCNの過剰な平滑化の問題について検討する必要がある。
1)。
中央ノードと比較して、エッジノードは限られた隣り合う情報のみを集約することができ、人体の異なるエッジノードは常に構造的に関連している。
しかし、エッジノードからの情報は、きめ細かいアクティビティ認識に不可欠である。
2)。
Graph Convolutional Networkは、重大なオーバースムースな問題に悩まされており、ネットワーク層の増加に伴い、ノードがますます類似するようになる。
これら2つのアイデアに基づいて,空間構造GCN (Spatial-Structural GCN) と呼ばれる2ストリームグラフ畳み込み法を提案する。
空間GCNは人体の位相構造に基づいて情報集約を行い、構造GCNはエッジノード配列の類似性に基づいて微分を行う。
空間接続は固定され、人間の骨格はこのトポロジーを人間の行動にかかわらず自然に維持する。
しかし、構造的接続は動的であり、人体が実行している動きの種類に依存する。
この考え方に基づいて、完全にデータ駆動構造接続を提案し、柔軟性を大幅に向上させる。
提案手法は,NTU RGB+DとNTU RGB+D 120の2つの大規模データセットに対して評価を行った。
提案手法は効率的でありながら良好な結果が得られる。
Human Activity Recognition (HAR) is a field of study that focuses on identifying and classifying human activities. Skeleton-based Human Activity Recognition has received much attention in recent years, where Graph Convolutional Network (GCN) based method is widely used and has achieved remarkable results. However, the representation of skeleton data and the issue of over-smoothing in GCN still need to be studied. 1). Compared to central nodes, edge nodes can only aggregate limited neighbor information, and different edge nodes of the human body are always structurally related. However, the information from edge nodes is crucial for fine-grained activity recognition. 2). The Graph Convolutional Network suffers from a significant over-smoothing issue, causing nodes to become increasingly similar as the number of network layers increases. Based on these two ideas, we propose a two-stream graph convolution method called Spatial-Structural GCN (SpSt-GCN). Spatial GCN performs information aggregation based on the topological structure of the human body, and structural GCN performs differentiation based on the similarity of edge node sequences. The spatial connection is fixed, and the human skeleton naturally maintains this topology regardless of the actions performed by humans. However, the structural connection is dynamic and depends on the type of movement the human body is performing. Based on this idea, we also propose an entirely data-driven structural connection, which greatly increases flexibility. We evaluate our method on two large-scale datasets, i.e., NTU RGB+D and NTU RGB+D 120. The proposed method achieves good results while being efficient. | 翻訳日:2024-08-01 18:02:39 公開日:2024-07-31 |
# 2024年ConDA共有タスクのデータ汚染報告
Data Contamination Report from the 2024 CONDA Shared Task ( http://arxiv.org/abs/2407.21530v1 ) ライセンス: Link先を確認 | Oscar Sainz, Iker García-Ferrero, Alon Jacovi, Jon Ander Campos, Yanai Elazar, Eneko Agirre, Yoav Goldberg, Wei-Lin Chen, Jenny Chim, Leshem Choshen, Luca D'Amico-Wong, Melissa Dell, Run-Ze Fan, Shahriar Golchin, Yucheng Li, Pengfei Liu, Bhavish Pahwa, Ameya Prabhu, Suryansh Sharma, Emily Silcock, Kateryna Solonko, David Stap, Mihai Surdeanu, Yu-Min Tseng, Vishaal Udandarao, Zengzhi Wang, Ruijie Xu, Jinglin Yang, | (参考訳) 第1回データ汚染ワークショップ(CONDA 2024)は、自然言語処理におけるデータ汚染に関するすべての側面に焦点を当てており、データ汚染は、大規模モデルのトレーニングに使用される事前学習コーパスに評価データが含まれている状況として理解され、評価結果が妥協される。
ワークショップでは、現在の利用可能なデータセットとモデルのデータの汚染に関する証拠を収集する共有タスクを育成した。
共有タスクと関連するデータベースの目標は,問題の範囲の理解と,既知の汚染資源に対する報告評価結果の回避を支援することにある。
共有タスクは、GitHubプールリクエストを通じてコミュニティからコントリビューションを受けることができる、汚染証拠の収集のための構造化された、集中型のパブリックデータベースを提供する。
この最初のコンピレーション・ペーパーは、合計23人のコントリビュータから91件以上の汚染された資料が報告された566件を基にしている。
個々の汚染イベントの詳細はプラットフォームで確認できる。
プラットフォームは引き続きオンラインであり、コミュニティからのコントリビューションも受け付けている。
The 1st Workshop on Data Contamination (CONDA 2024) focuses on all relevant aspects of data contamination in natural language processing, where data contamination is understood as situations where evaluation data is included in pre-training corpora used to train large scale models, compromising evaluation results. The workshop fostered a shared task to collect evidence on data contamination in current available datasets and models. The goal of the shared task and associated database is to assist the community in understanding the extent of the problem and to assist researchers in avoiding reporting evaluation results on known contaminated resources. The shared task provides a structured, centralized public database for the collection of contamination evidence, open to contributions from the community via GitHub pool requests. This first compilation paper is based on 566 reported entries over 91 contaminated sources from a total of 23 contributors. The details of the individual contamination events are available in the platform. The platform continues to be online, open to contributions from the community. | 翻訳日:2024-08-01 18:02:39 公開日:2024-07-31 |
# 音楽におけるLLMの「推論」は可能か? : LLMの音楽理解・生成能力の評価
Can LLMs "Reason" in Music? An Evaluation of LLMs' Capability of Music Understanding and Generation ( http://arxiv.org/abs/2407.21531v1 ) ライセンス: Link先を確認 | Ziya Zhou, Yuhang Wu, Zhiyue Wu, Xinyue Zhang, Ruibin Yuan, Yinghao Ma, Lu Wang, Emmanouil Benetos, Wei Xue, Yike Guo, | (参考訳) シンボリック・ミュージック(英: Symbolic Music)は、言語に似た、離散的な記号で符号化される。
近年, GPT-4 や Llama2 などの大規模言語モデル (LLM) を理解・生成を含む記号的音楽領域に適用する研究が進んでいる。
しかし、Scant Researchは、これらのLLMが高度な音楽理解と条件付き生成、特に、条件付き、編集可能、インタラクティブな人-コンピュータの共同創造プロセスにおいて重要な側面である多段階推論の観点から、どのように振舞うかを詳細に調査している。
本研究は, シンボリック・ミュージック・プロセッシングにおけるLLMの能力と限界について, 徹底的に検討する。
曲レベルの多段階音楽推論において,現在のLLMは低性能であり,複雑な音楽課題に対処する際,学習した音楽知識の活用に失敗することが多い。
LLMの反応の分析は、その長所と短所を明確に強調している。
今後の研究は、音楽の知識と推論のギャップを埋めることに集中して、ミュージシャンの共創体験を改善することにある。
Symbolic Music, akin to language, can be encoded in discrete symbols. Recent research has extended the application of large language models (LLMs) such as GPT-4 and Llama2 to the symbolic music domain including understanding and generation. Yet scant research explores the details of how these LLMs perform on advanced music understanding and conditioned generation, especially from the multi-step reasoning perspective, which is a critical aspect in the conditioned, editable, and interactive human-computer co-creation process. This study conducts a thorough investigation of LLMs' capability and limitations in symbolic music processing. We identify that current LLMs exhibit poor performance in song-level multi-step music reasoning, and typically fail to leverage learned music knowledge when addressing complex musical tasks. An analysis of LLMs' responses highlights distinctly their pros and cons. Our findings suggest achieving advanced musical capability is not intrinsically obtained by LLMs, and future research should focus more on bridging the gap between music knowledge and reasoning, to improve the co-creation experience for musicians. | 翻訳日:2024-08-01 18:02:39 公開日:2024-07-31 |
# 解釈可能な機械学習のための確率的スコアリスト
Probabilistic Scoring Lists for Interpretable Machine Learning ( http://arxiv.org/abs/2407.21535v1 ) ライセンス: Link先を確認 | Jonas Hanselle, Stefan Heid, Johannes Fürnkranz, Eyke Hüllermeier, | (参考訳) スコアリングシステムは、一連の特徴を確認し、満足している各特徴の合計スコアに一定数のポイントを追加し、最終的にスコアをしきい値と比較して決定する単純な決定モデルである。
スコーリングシステムは、医療や司法などの安全上重要な領域において、客観的かつ正確な決定を行うためのガイダンスを提供するために、長い歴史がある。
真の解釈可能性を考えると、データからスコアリングシステムを学ぶという考えは、説明可能なAIの観点から明らかに魅力的である。
本稿では,確率的スコアリングリスト(PSL)と呼ばれるスコアリングシステムの実践的な拡張と,データからPSLを学習する方法を提案する。
決定論的決定をする代わりに、PSLは確率分布の形での不確実性を表す。
さらに、意思決定リストの精神では、PSLは特徴を一つずつ評価し、十分な自信を持って決定を下すことができるとすぐに停止する。
アプローチを評価するため,医療分野でケーススタディを実施している。
A scoring system is a simple decision model that checks a set of features, adds a certain number of points to a total score for each feature that is satisfied, and finally makes a decision by comparing the total score to a threshold. Scoring systems have a long history of active use in safety-critical domains such as healthcare and justice, where they provide guidance for making objective and accurate decisions. Given their genuine interpretability, the idea of learning scoring systems from data is obviously appealing from the perspective of explainable AI. In this paper, we propose a practically motivated extension of scoring systems called probabilistic scoring lists (PSL), as well as a method for learning PSLs from data. Instead of making a deterministic decision, a PSL represents uncertainty in the form of probability distributions, or, more generally, probability intervals. Moreover, in the spirit of decision lists, a PSL evaluates features one by one and stops as soon as a decision can be made with enough confidence. To evaluate our approach, we conduct a case study in the medical domain. | 翻訳日:2024-08-01 18:02:39 公開日:2024-07-31 |
# 対話における複雑なキューの追跡:マルチモーダル感情認識のための共同グラフ構造と知覚ダイナミクス
Tracing Intricate Cues in Dialogue: Joint Graph Structure and Sentiment Dynamics for Multimodal Emotion Recognition ( http://arxiv.org/abs/2407.21536v1 ) ライセンス: Link先を確認 | Jiang Li, Xiaoping Wang, Zhigang Zeng, | (参考訳) 近年,会話におけるマルチモーダル感情認識 (MERC) が注目されている。
既存のMERC手法では,(1)モーダル間の直接的手がかりを十分に活用できないこと,(2)モーダル間モデリングの精度が低いこと,(2)同一かつ異なるモダリティから情報を同時に抽出すること,(3)動的感情変化を検出するために必要な機敏さが欠如していること,(3)突然の感情変化を伴う発話の分類が不正確なこと,など,いくつかの課題に直面している。
これらの問題に対処するために、マルチモーダル対話における複雑な感情的手がかりを追跡するために、GraphSmileという新しいアプローチが提案されている。
GraphSmileは2つの重要なコンポーネント、すなわちGSFとSDPモジュールから構成される。
GSFはグラフ構造を巧みに利用し、相互依存層と相互依存層を層ごとに交互に同化し、相互依存層を適切に捕捉し、核融合の衝突を効果的に回避する。
SDPは、発話間の感情のダイナミクスを明確に説明し、感情の相違を識別するモデルの能力を促進する補助的なタスクである。
さらに、GraphSmileは会話におけるマルチモーダル感情分析(MSAC)に適用され、MERCおよびMSACタスクの実行が可能な統合マルチモーダル感情モデルが構築される。
複数のベンチマークにおける実証的な結果は、GraphSmileが複雑な感情的および感情的パターンを処理できることを示し、ベースラインモデルよりも大幅に優れています。
Multimodal emotion recognition in conversation (MERC) has garnered substantial research attention recently. Existing MERC methods face several challenges: (1) they fail to fully harness direct inter-modal cues, possibly leading to less-than-thorough cross-modal modeling; (2) they concurrently extract information from the same and different modalities at each network layer, potentially triggering conflicts from the fusion of multi-source data; (3) they lack the agility required to detect dynamic sentimental changes, perhaps resulting in inaccurate classification of utterances with abrupt sentiment shifts. To address these issues, a novel approach named GraphSmile is proposed for tracking intricate emotional cues in multimodal dialogues. GraphSmile comprises two key components, i.e., GSF and SDP modules. GSF ingeniously leverages graph structures to alternately assimilate inter-modal and intra-modal emotional dependencies layer by layer, adequately capturing cross-modal cues while effectively circumventing fusion conflicts. SDP is an auxiliary task to explicitly delineate the sentiment dynamics between utterances, promoting the model's ability to distinguish sentimental discrepancies. Furthermore, GraphSmile is effortlessly applied to multimodal sentiment analysis in conversation (MSAC), forging a unified multimodal affective model capable of executing MERC and MSAC tasks. Empirical results on multiple benchmarks demonstrate that GraphSmile can handle complex emotional and sentimental patterns, significantly outperforming baseline models. | 翻訳日:2024-08-01 18:02:39 公開日:2024-07-31 |
# スパース・リワード環境に対するブラックボックスメタ学習固有の報酬
Black box meta-learning intrinsic rewards for sparse-reward environments ( http://arxiv.org/abs/2407.21546v1 ) ライセンス: Link先を確認 | Octavio Pappalardo, Rodrigo Ramele, Juan Miguel Santos, | (参考訳) 過去10年間の深い強化学習の成功と進歩にもかかわらず、幅広い応用を妨げるいくつかの課題が残っている。
改善すべき基本的な側面には、データ効率、一般化能力、スパース・リワード環境での学習能力などがある。
メタラーニングは、学習アルゴリズムのコンポーネントを最適化して望ましい特徴を満たすことによって、これらの問題を解決するための有望なアプローチとして現れてきた。
さらに、アルゴリズムの探索能力を高めるために本質的な報酬の使用について、様々な研究がなされている。
本研究では,RLエージェントが受信した学習信号がメタラーニングによってどのように改善されるかを検討する。
焦点は、メタグラディエントの使用に依存しないフレームワークの下でのメタ学習固有の報酬に焦点を当てている。
我々は,この手法をメタ学習の利点関数と外因性報酬を用いて分析・比較する。
開発したアルゴリズムは、パラメトリックおよび非パラメトリックな変動を伴う連続制御タスクの分布に基づいて評価され、その評価タスクに利用できる報酬はスパースのみである。
Despite the successes and progress of deep reinforcement learning over the last decade, several challenges remain that hinder its broader application. Some fundamental aspects to improve include data efficiency, generalization capability, and ability to learn in sparse-reward environments, which often require human-designed dense rewards. Meta-learning has emerged as a promising approach to address these issues by optimizing components of the learning algorithm to meet desired characteristics. Additionally, a different line of work has extensively studied the use of intrinsic rewards to enhance the exploration capabilities of algorithms. This work investigates how meta-learning can improve the training signal received by RL agents. The focus is on meta-learning intrinsic rewards under a framework that doesn't rely on the use of meta-gradients. We analyze and compare this approach to the use of extrinsic rewards and a meta-learned advantage function. The developed algorithms are evaluated on distributions of continuous control tasks with both parametric and non-parametric variations, and with only sparse rewards accessible for the evaluation tasks. | 翻訳日:2024-08-01 18:02:39 公開日:2024-07-31 |
# 選択プログラムのためのオペレータベースのセマンティクス: 損失を選択するか? (フルバージョン)
Operator-based semantics for choice programs: is choosing losing? (full version) ( http://arxiv.org/abs/2407.21556v1 ) ライセンス: Link先を確認 | Jesse Heyninck, | (参考訳) 選択構成は論理プログラミングの重要な部分であるが、それらの意味論の研究は難しい課題であった。
これまでに2つの意味論が研究されており、このような意味論の異なる提案は原則的に比較されていない。
本稿では,演算子に基づくフレームワークを用いて,異なる意味論の定義と比較を原則的に提案する。
Choice constructs are an important part of the language of logic programming, yet the study of their semantics has been a challenging task. So far, only two-valued semantics have been studied, and the different proposals for such semantics have not been compared in a principled way. In this paper, an operator-based framework allow for the definition and comparison of different semantics in a principled way is proposed. | 翻訳日:2024-08-01 18:02:39 公開日:2024-07-31 |
# 潜在カテゴリー分布と制約デコードによる生成感度解析
Generative Sentiment Analysis via Latent Category Distribution and Constrained Decoding ( http://arxiv.org/abs/2407.21560v1 ) ライセンス: Link先を確認 | Jun Zhou, Dongyang Yu, Kamran Aziz, Fangfang Su, Qing Zhang, Fei Li, Donghong Ji, | (参考訳) きめ細かい感情分析では、テキストデータから感情要素を抽出し、整理する。
しかし、既存のアプローチは、しばしばカテゴリの意味的包摂と重複の問題や、ターゲットシーケンスに固有の構造パターンを見落としている。
本研究では,生成的感情分析モデルを提案する。
カテゴリ意味包摂と重複に関連する課題に対処するため、潜在カテゴリ分布変数を導入する。
変分オートエンコーダの入力を再構成することにより、カテゴリとテキストの関係の強度を学習し、シーケンス生成を改善する。
さらに、トリエデータ構造と制約付き復号戦略を利用して構造パターンを利用することにより、探索空間を小さくし、生成プロセスを規則化する。
Restaurant-ACOSとLaptop-ACOSデータセットの実験結果は、ベースラインモデルと比較して大きなパフォーマンス改善を示している。
アブレーション実験により、潜在圏分布と制約付き復号法の有効性がさらに確認される。
Fine-grained sentiment analysis involves extracting and organizing sentiment elements from textual data. However, existing approaches often overlook issues of category semantic inclusion and overlap, as well as inherent structural patterns within the target sequence. This study introduces a generative sentiment analysis model. To address the challenges related to category semantic inclusion and overlap, a latent category distribution variable is introduced. By reconstructing the input of a variational autoencoder, the model learns the intensity of the relationship between categories and text, thereby improving sequence generation. Additionally, a trie data structure and constrained decoding strategy are utilized to exploit structural patterns, which in turn reduces the search space and regularizes the generation process. Experimental results on the Restaurant-ACOS and Laptop-ACOS datasets demonstrate a significant performance improvement compared to baseline models. Ablation experiments further confirm the effectiveness of latent category distribution and constrained decoding strategy. | 翻訳日:2024-08-01 18:02:39 公開日:2024-07-31 |
# TRGR:壁を通したRIS支援歩行認識
TRGR: Transmissive RIS-aided Gait Recognition Through Walls ( http://arxiv.org/abs/2407.21566v1 ) ライセンス: Link先を確認 | Yunlong Huang, Junshuo Liu, Jianan Zhang, Tiebin Mi, Xin Shi, Robert Caiming Qiu, | (参考訳) 無線周波数(RF)信号による歩行認識は、正確な識別を必要とする多くの潜在的な応用を可能にする。
しかし、現在のシステムでは、信号がコンクリートと厚い壁を横切る場合、個人はLOS(Line-of-sight)環境に留まり、低信号対雑音比(SNR)に苦しむ必要がある。
これらの課題に対処するために,新しい透過的再構成可能なインテリジェントサーフェス(RIS)支援歩行認識システムTRGRを提案する。
TRGRは、一対のトランシーバーからのチャネル状態情報(CSI)の大きさ測定のみを用いて、壁を通して人間のアイデンティティを認識することができる。
具体的には、透過的RISと構成変更最適化アルゴリズムを併用することにより、TRGRは壁透過性と信号品質を高め、正確な歩行認識を可能にする。
さらに,頑健な人的情報を学習するためのバックボーンネットワークとして,残差畳み込みネットワーク(RCNN)を提案する。
実験の結果, 透過性RISの有効性が確認され, RFを用いた歩行認識システムにおける透過性RISの有効性が示唆された。
その結果, TRGRは, 信号がコンクリート壁を横切るときの平均精度を97.88倍に向上し, TRGRの有効性とロバスト性を示した。
Gait recognition with radio frequency (RF) signals enables many potential applications requiring accurate identification. However, current systems require individuals to be within a line-of-sight (LOS) environment and struggle with low signal-to-noise ratio (SNR) when signals traverse concrete and thick walls. To address these challenges, we present TRGR, a novel transmissive reconfigurable intelligent surface (RIS)-aided gait recognition system. TRGR can recognize human identities through walls using only the magnitude measurements of channel state information (CSI) from a pair of transceivers. Specifically, by leveraging transmissive RIS alongside a configuration alternating optimization algorithm, TRGR enhances wall penetration and signal quality, enabling accurate gait recognition. Furthermore, a residual convolution network (RCNN) is proposed as the backbone network to learn robust human information. Experimental results confirm the efficacy of transmissive RIS, highlighting the significant potential of transmissive RIS in enhancing RF-based gait recognition systems. Extensive experiment results show that TRGR achieves an average accuracy of 97.88\% in identifying persons when signals traverse concrete walls, demonstrating the effectiveness and robustness of TRGR. | 翻訳日:2024-08-01 18:02:39 公開日:2024-07-31 |
# PMoE: 連続学習のための非対称変圧器を用いたプログレッシブ・ミックス
PMoE: Progressive Mixture of Experts with Asymmetric Transformer for Continual Learning ( http://arxiv.org/abs/2407.21571v1 ) ライセンス: Link先を確認 | Min Jae Jung, JooHee Kim, | (参考訳) 大規模言語モデル(LLM)は、これまで獲得した知識を新しい情報が上書きする破滅的な忘れ込みによって、継続的な学習において重大な課題に直面する。
この制限は、実質的な環境と経済の浪費につながる。
本研究では,非対称トランスを用いたプログレッシブ・ミックス・オブ・エキスパート(PMOE, Progressive Mixture of Experts with Asymmetric Transformer)を紹介する。
PMoEは、深層に徐々に加えられたエキスパートと、適切な専門家に効率的に新しい知識を割り当てるルータを組み込んでいる。
ディープ層に隣接した位置にあるルータは、統合された情報を集約するディープ特徴を利用する。
これにより、ルータが効率的に動作し、適切な専門家に新たな知識を割り当てることが可能になる。
TRACEデータセットと一般言語理解データセットに関する大規模な実験は、提案されたPMoEが従来の最先端アプローチよりも優れていることを示した。
Large Language Models (LLMs) encounter significant challenges in continual learning due to catastrophic forgetting, where new information overwrites previously acquired knowledge. This limitation leads to substantial environmental and economic waste. In this study, we introduce the PMoE, Progressive Mixture of Experts with Asymmetric Transformer, which aims to minimize forgetting by utilizing an asymmetric design with shallow layers dedicated to general knowledge and deep layers for new knowledge. PMoE incorporates progressively added experts in deep layers and a router that allocates new knowledge to the appropriate experts efficiently. The router, positioned adjacent to the deep layers, utilizes deep features aggregating consolidated information. This enables the router to perform efficiently, allocating new knowledge to the appropriate experts, which progressively increase in the deep layers. Extensive experiments on TRACE datasets and general language understanding datasets demonstrate that the proposed PMoE outperforms previous state-of-the-art approaches. | 翻訳日:2024-08-01 18:02:39 公開日:2024-07-31 |
# 心エコー図における重度専門家によるマルチサイトクラスインクリメンタルラーニング
Multi-Site Class-Incremental Learning with Weighted Experts in Echocardiography ( http://arxiv.org/abs/2407.21577v1 ) ライセンス: Link先を確認 | Kit M. Bransby, Woo-jin Cho Kim, Jorge Oliveira, Alex Thorley, Arian Beqiri, Alberto Gomez, Agisilaos Chartsias, | (参考訳) 実生活におけるパフォーマンスを維持するエコー心電図ビュー分類器を構築するには、多様な多地点データが必要であり、モデルドリフトを緩和するためには、新たに利用可能なデータと頻繁な更新が必要である。
新しいデータセットを微調整するだけで「破滅的な忘れ」が起こり、サイト間のビューラベルのバリエーションに適応できない。
あるいは、単一のサーバ上のすべてのデータを収集して再トレーニングすることは、データ共有契約が画像転送を制限する可能性があることや、データセットが異なるタイミングでのみ利用可能になる可能性があるため、実現不可能である。
さらに、再トレーニングに関連する時間とコストは、新しいデータセット毎に増加します。
本稿では,各データセットのエキスパートネットワークを学習し,すべてのエキスパートネットワークとスコア融合モデルを組み合わせたクラスインクリメンタル学習手法を提案する。
「無資格専門家」の影響は、各貢献を学習内分配スコアで重み付けすることで最小化される。
これらの重みは、推論中に各専門家の貢献が知られているため、透明性を促進する。
オリジナルのイメージを使う代わりに、各データセットから学んだ機能を使用します。
複数のサイトから得られた6つのデータセットの検証を行い、ビュー分類性能を改善しながら、トレーニング時間の大幅な短縮を実証した。
Building an echocardiography view classifier that maintains performance in real-life cases requires diverse multi-site data, and frequent updates with newly available data to mitigate model drift. Simply fine-tuning on new datasets results in "catastrophic forgetting", and cannot adapt to variations of view labels between sites. Alternatively, collecting all data on a single server and re-training may not be feasible as data sharing agreements may restrict image transfer, or datasets may only become available at different times. Furthermore, time and cost associated with re-training grows with every new dataset. We propose a class-incremental learning method which learns an expert network for each dataset, and combines all expert networks with a score fusion model. The influence of ``unqualified experts'' is minimised by weighting each contribution with a learnt in-distribution score. These weights promote transparency as the contribution of each expert is known during inference. Instead of using the original images, we use learned features from each dataset, which are easier to share and raise fewer licensing and privacy concerns. We validate our work on six datasets from multiple sites, demonstrating significant reductions in training time while improving view classification performance. | 翻訳日:2024-08-01 18:02:39 公開日:2024-07-31 |
# リート符号上でのLLM生成符号の性能評価
A Performance Study of LLM-Generated Code on Leetcode ( http://arxiv.org/abs/2407.21579v1 ) ライセンス: Link先を確認 | Tristan Coignion, Clément Quinton, Romain Rouvoy, | (参考訳) 本研究では,Lietcode のデータセットを用いて,Large Language Models (LLMs) によるコード生成の効率を評価し,その性能を人為的ソリューションと比較した。
モデル温度や成功率などの要因とコード性能への影響を考慮し、18個のLLMを比較した。
本研究は,LLM生成コードの速度を計測し,比較する新しい手法を提案し,LLMが採用されているLLMによらず,同等の性能のコードを生成することを示した。
また、LLMは、人間によって書かれたコードよりも平均的に、より効率的なコードを生成することができる。
さらに、ベンチマークデータセットとしてのLeetcodeの使用、潜在的なデータ汚染による制限、プラットフォームの信頼性について論じる。
我々の発見は、コード生成におけるLLMの能力をより深く理解し、将来的な最適化の舞台となると信じている。
This study evaluates the efficiency of code generation by Large Language Models (LLMs) and measures their performance against human-crafted solutions using a dataset from Leetcode. We compare 18 LLMs, considering factors such as model temperature and success rate, and their impact on code performance. This research introduces a novel method for measuring and comparing the speed of LLM-generated code, revealing that LLMs produce code with comparable performance, irrespective of the adopted LLM. We also find that LLMs are capable of generating code that is, on average, more efficient than the code written by humans. The paper further discusses the use of Leetcode as a benchmarking dataset, the limitations imposed by potential data contamination, and the platform's measurement reliability. We believe that our findings contribute to a better understanding of LLM capabilities in code generation and set the stage for future optimizations in the field. | 翻訳日:2024-08-01 17:52:02 公開日:2024-07-31 |
# 頭蓋内出血に対するVoxel Scene Graph
Voxel Scene Graph for Intracranial Hemorrhage ( http://arxiv.org/abs/2407.21580v1 ) ライセンス: Link先を確認 | Antoine P. Sanner, Nils F. Grauhan, Marc A. Brockmann, Ahmed E. Othman, Anirban Mukhopadhyay, | (参考訳) 頭蓋内出血 (ICH) 患者は致命的な生命予後を呈し, 患者中心の個別治療は, 臨床合併症の可能性から依然として困難である。
ディープラーニングに基づく方法は、日常的に取得した頭部CTを効率的に分析し、臨床的意思決定を支援する。
初期の研究の大部分は、ICHの検出とセグメンテーションに焦点を当てているが、ICHと隣接する脳構造の間の複雑な関係をモデル化していない。
本研究では, 臨床脳シーンの全体像を学習するために, セグメンテーション・グラウンドド・シーングラフ生成(SGG)法と組み合わせた, ICHの調整対象検出法を設計する。
我々の知る限りでは、これが3Dボクセル画像に対するSGGの最初の応用である。
本手法を2つの頭部CTデータセット上で評価し,臨床関係の最大74%を再現できることを実証した。
この研究は、3DボクセルデータのためのSGGに向けた基礎を築いた。
生成されたScene Graphsは、すでに臨床医に洞察を提供することができるが、すべての下流タスクにはコンパクトで解釈可能な表現として価値がある。
Patients with Intracranial Hemorrhage (ICH) face a potentially life-threatening condition, and patient-centered individualized treatment remains challenging due to possible clinical complications. Deep-Learning-based methods can efficiently analyze the routinely acquired head CTs to support the clinical decision-making. The majority of early work focuses on the detection and segmentation of ICH, but do not model the complex relations between ICH and adjacent brain structures. In this work, we design a tailored object detection method for ICH, which we unite with segmentation-grounded Scene Graph Generation (SGG) methods to learn a holistic representation of the clinical cerebral scene. To the best of our knowledge, this is the first application of SGG for 3D voxel images. We evaluate our method on two head-CT datasets and demonstrate that our model can recall up to 74% of clinically relevant relations. This work lays the foundation towards SGG for 3D voxel data. The generated Scene Graphs can already provide insights for the clinician, but are also valuable for all downstream tasks as a compact and interpretable representation. | 翻訳日:2024-08-01 17:52:02 公開日:2024-07-31 |
# 何が重要なのかを測る: 内在的距離保存を組み込むためのロバストな指標として
Measuring What Matters: Intrinsic Distance Preservation as a Robust Metric for Embedding Quality ( http://arxiv.org/abs/2407.21590v1 ) ライセンス: Link先を確認 | Steven N. Hart, Thomas E. Tavolara, | (参考訳) 教師なしの埋め込みは多くの機械学習アプリケーションに基礎を置いているが、その評価は依然として難しい課題である。
従来のアセスメント手法は、ダウンストリームタスクのパフォーマンスなど、外在変数に依存することが多い。
本稿では,元空間と埋め込み空間におけるデータポイント間のマハラノビス距離の保存に基づく埋め込み品質の評価手法である,固有距離保存評価法を提案する。
簡単な例で外在的評価手法の限界を実証し, 組込み品質に関する誤解を招く要因を明らかにした。
IDPEは、元のデータ固有の構造をいかにうまく埋め込むかというタスク非依存の尺度を提供することで、これらの問題に対処する。
提案手法は,効率的な類似性探索手法を活用し,大規模データセットに適用できるようにする。
我々は、IDPEと、信頼性や継続性といった確立された内在的指標、および平均ランクや平均相互ランクといった外在的指標を比較した。
以上の結果から,IDPEは様々なシナリオにまたがって,より包括的で信頼性の高い組込み品質評価を提供することが示された。
我々はIDPEを用いてPCAとt-SNEの埋め込みを評価し、従来のメトリクスでは捉えられない性能に関する洞察を明らかにした。
この研究は、組込み評価のための堅牢で効率的で解釈可能な方法を提供することによって、この分野に寄与する。
IDPEの本質的な性質へのフォーカスは、さまざまな機械学習アプリケーションのための高品質な埋め込みを開発し評価しようとする研究者や実践者にとって、貴重なツールを提供する。
Unsupervised embeddings are fundamental to numerous machine learning applications, yet their evaluation remains a challenging task. Traditional assessment methods often rely on extrinsic variables, such as performance in downstream tasks, which can introduce confounding factors and mask the true quality of embeddings. This paper introduces the Intrinsic Distance Preservation Evaluation (IDPE) method, a novel approach for assessing embedding quality based on the preservation of Mahalanobis distances between data points in the original and embedded spaces. We demonstrate the limitations of extrinsic evaluation methods through a simple example, highlighting how they can lead to misleading conclusions about embedding quality. IDPE addresses these issues by providing a task-independent measure of how well embeddings preserve the intrinsic structure of the original data. Our method leverages efficient similarity search techniques to make it applicable to large-scale datasets. We compare IDPE with established intrinsic metrics like trustworthiness and continuity, as well as extrinsic metrics such as Average Rank and Mean Reciprocal Rank. Our results show that IDPE offers a more comprehensive and reliable assessment of embedding quality across various scenarios. We evaluate PCA and t-SNE embeddings using IDPE, revealing insights into their performance that are not captured by traditional metrics. This work contributes to the field by providing a robust, efficient, and interpretable method for embedding evaluation. IDPE's focus on intrinsic properties offers a valuable tool for researchers and practitioners seeking to develop and assess high-quality embeddings for diverse machine learning applications. | 翻訳日:2024-08-01 17:52:02 公開日:2024-07-31 |
# 警告の源泉はワーナーの至る所における警告ラベルの有効性について
Does the Source of a Warning Matter? Examining the Effectiveness of Veracity Warning Labels Across Warners ( http://arxiv.org/abs/2407.21592v1 ) ライセンス: Link先を確認 | Benjamin D. Horne, | (参考訳) 本研究では,情報信頼と共有意図に対する警告ラベルソースの影響をよりよく理解するために,オンライン・オブジェクト間比較実験(N = 2,049)を行った。
4人のワーナー(ソーシャルメディアプラットフォーム、他のソーシャルメディアユーザー、人工知能(AI)、ファクトチェッカー)のうち、いずれも制御に関する誤った情報の信頼性を著しく低下させたが、AIからの警告はわずかに効果があった。
すべてのワーナーは、他のソーシャルメディアユーザーからの警告を除いて、偽情報の共有の意図を著しく減らした。
AIは、再び最も効果的だった。
これらの結果は、メディアと情報そのものに対する事前の信頼によって中和された。
最も注目すべきは、AIからの警告ラベルが、ニュース組織への信頼度が低いと報告した参加者に対して、他の警告ラベルよりもはるかに効果的であること、そして、ニュース組織への信頼度が高いと報告した参加者に対して、AIからの警告ラベルが他の警告ラベルよりも効果的であることである。
In this study, we conducted an online, between-subjects experiment (N = 2,049) to better understand the impact of warning label sources on information trust and sharing intentions. Across four warners (the social media platform, other social media users, Artificial Intelligence (AI), and fact checkers), we found that all significantly decreased trust in false information relative to control, but warnings from AI were modestly more effective. All warners significantly decreased the sharing intentions of false information, except warnings from other social media users. AI was again the most effective. These results were moderated by prior trust in media and the information itself. Most noteworthy, we found that warning labels from AI were significantly more effective than all other warning labels for participants who reported a low trust in news organizations, while warnings from AI were no more effective than any other warning label for participants who reported a high trust in news organizations. | 翻訳日:2024-08-01 17:52:02 公開日:2024-07-31 |
# 深部生成前駆体を用いたロバスト同時マルチスライスMRI再構成
Robust Simultaneous Multislice MRI Reconstruction Using Deep Generative Priors ( http://arxiv.org/abs/2407.21600v1 ) ライセンス: Link先を確認 | Shoujin Huang, Guanxiong Luo, Yuwan Wang, Kexin Yang, Lingyan Zhang, Jingzhe Liu, Hua Guo, Min Wang, Mengye Lyu, | (参考訳) 同時マルチスライス(SMS)イメージングはMRI取得を加速させる強力な技術である。
しかし、励起スライス間の複雑な信号相互作用のため、SMSの再構築は依然として困難である。
本研究は, 深部生成前駆体を用いた頑健なSMS MRI再構成法を提案する。
ガウス雑音から始めると、縮退拡散確率モデル(DDPM)を利用して、逆拡散繰り返しにより個々のスライスを徐々に復元し、読み出し結合フレームワークの下で測定k空間からデータ一貫性を付与する。
後方サンプリング手順は、SMSタスクを特別に調整することなく、シングルスライス画像上でDDPMトレーニングを行うことができるように設計されている。
さらに,SMS加速型高速スピンエコー (FSE) とエコープラナーイメージング (EPI) シーケンスが自己校正信号を容易に埋め込むことができないという現実的な問題に対処するために,低周波拡張 (LFE) モジュールを統合した。
大規模な実験により、我々のアプローチは既存の手法を一貫して上回り、目に見えないデータセットを一般化することを示した。
コードはレビュープロセスの後にhttps://github.com/Solor-pikachu/ROGERで入手できる。
Simultaneous multislice (SMS) imaging is a powerful technique for accelerating magnetic resonance imaging (MRI) acquisitions. However, SMS reconstruction remains challenging due to the complex signal interactions between and within the excited slices. This study presents a robust SMS MRI reconstruction method using deep generative priors. Starting from Gaussian noise, we leverage denoising diffusion probabilistic models (DDPM) to gradually recover the individual slices through reverse diffusion iterations while imposing data consistency from the measured k-space under readout concatenation framework. The posterior sampling procedure is designed such that the DDPM training can be performed on single-slice images without special adjustments for SMS tasks. Additionally, our method integrates a low-frequency enhancement (LFE) module to address a practical issue that SMS-accelerated fast spin echo (FSE) and echo-planar imaging (EPI) sequences cannot easily embed autocalibration signals. Extensive experiments demonstrate that our approach consistently outperforms existing methods and generalizes well to unseen datasets. The code is available at https://github.com/Solor-pikachu/ROGER after the review process. | 翻訳日:2024-08-01 17:52:02 公開日:2024-07-31 |
# ソフトウェアドキュメンテーションのための対話型ダイアグラム
Interactive Diagrams for Software Documentation ( http://arxiv.org/abs/2407.21621v1 ) ライセンス: Link先を確認 | Adam Štěpánek, David Kuťák, Barbora Kozlíková, Jan Byška, | (参考訳) 大きなコードベースに慣れることは、ソフトウェア開発者にとって、新しいものと経験豊富なものの両方にとって、大変な作業です。
コードベースとその開発についての説明は、そのドキュメントの目的であるべきです。
しかし、ソフトウェアドキュメンテーションは、もし存在するなら、通常テキストで、単純な静的図のみを添付します。
手動でメンテナンスするのにも時間がかかる。
コードベースから自動生成できるAPI参照でさえ、多くの欠点があります。
コードベースから抽出できるものに限定されており、ナビゲートが面倒で、コード間の性質を捉えられない。
コードベースの構造を表すノードリンク図を中心にした代替手法について検討する。
ダイアグラムはインタラクティブでフィルタ可能で、需要の詳細を提供する。
コードベースの静的解析に依存して、自動化のために設計されており、その結果を迅速に生成し、欠落や時代遅れのドキュメントに代わる実行可能な代替手段を提供する。
このアプローチを評価するために、私たちはHelvegというプロトタイプを実装しました。
5人のプロのプログラマとテストすることで、アプローチのメリットと課題に対するフィードバックが得られました。
Getting acquainted with a large codebase can be a daunting task for software developers, both new and seasoned. The description of a codebase and its development should be the purpose of its documentation. However, software documentation, if it exists at all, is usually textual and accompanied only by simple static diagrams. It is also time-consuming to maintain manually. Even an API reference, which can be generated automatically from the codebase itself, has many drawbacks. It is limited to what it can extract from the codebase, is cumbersome to navigate, and fails to capture the interwoven nature of code. We explore an alternative approach centered around a node-link diagram representing the structure of a codebase. The diagram is interactive and filterable, providing details on demand. It is designed for automation, relying on static analysis of the codebase, and thus produces results quickly and offers a viable alternative to missing or outdated documentation. To evaluate this approach, we implemented a prototype named Helveg that is able to analyze and visualize C# code. Testing with five professional programmers provided feedback on the approach's benefits and challenges, which we discuss in detail. | 翻訳日:2024-08-01 17:52:02 公開日:2024-07-31 |
# 拡張されたフィデューシャル推論:統計的推論の自動化プロセスに向けて
Extended Fiducial Inference: Toward an Automated Process of Statistical Inference ( http://arxiv.org/abs/2407.21622v1 ) ライセンス: Link先を確認 | Faming Liang, Sehwan Kim, Yan Sun, | (参考訳) フィデューシャル推論は R.A. Fisher によって広く見なされてきたが、当初「観測に基づくモデルパラメータの不確実性」を目標とした目標は、多くの統計学者によって継続的に追求されてきた。
この目的のために,拡張フィデューシャル推論 (EFI) と呼ばれる新しい統計的推論手法を開発した。
提案手法は,ビッグデータにスケーラブルなまま,高度な統計計算技術を活用することで,フィデューシャル推論の目標を達成する。
EFIは、確率勾配チェインモンテカルロを用いた観測で実現されたランダムエラーを共同で計算し、スパースディープニューラルネットワーク(DNN)を用いて逆関数を推定する。
スパースDNN推定器の整合性により、観測に埋め込まれた不確実性が推定逆関数を介してモデルパラメータに適切に伝播されることが保証され、下流の統計的推測が検証される。
頻繁な手法やベイズ的手法と比較して、EFIはパラメータ推定と仮説テストにおいて大きな利点がある。
具体的には、EFIは、特に観測中に外れ値が存在する場合、パラメータ推定における忠実度を高くし、仮説テストにおける理論的基準分布の必要性を排除し、統計的推論プロセスを自動化する。
EFIはまた、セミ教師付き学習のための革新的なフレームワークを提供する。
While fiducial inference was widely considered a big blunder by R.A. Fisher, the goal he initially set --`inferring the uncertainty of model parameters on the basis of observations' -- has been continually pursued by many statisticians. To this end, we develop a new statistical inference method called extended Fiducial inference (EFI). The new method achieves the goal of fiducial inference by leveraging advanced statistical computing techniques while remaining scalable for big data. EFI involves jointly imputing random errors realized in observations using stochastic gradient Markov chain Monte Carlo and estimating the inverse function using a sparse deep neural network (DNN). The consistency of the sparse DNN estimator ensures that the uncertainty embedded in observations is properly propagated to model parameters through the estimated inverse function, thereby validating downstream statistical inference. Compared to frequentist and Bayesian methods, EFI offers significant advantages in parameter estimation and hypothesis testing. Specifically, EFI provides higher fidelity in parameter estimation, especially when outliers are present in the observations; and eliminates the need for theoretical reference distributions in hypothesis testing, thereby automating the statistical inference process. EFI also provides an innovative framework for semi-supervised learning. | 翻訳日:2024-08-01 17:52:02 公開日:2024-07-31 |
# TAROT:ポリシー最適化手法を用いたタスク指向オーサリング難読化
TAROT: Task-Oriented Authorship Obfuscation Using Policy Optimization Methods ( http://arxiv.org/abs/2407.21630v1 ) ライセンス: Link先を確認 | Gabriel Loiseau, Damien Sileo, Damien Riquet, Maxime Meyer, Marc Tommasi, | (参考訳) 著者の難読化は、著者の著作スタイル、語彙、構文、その他の言語的特徴を変更することによって、著者の身元をテキスト内で偽装することを目的としている。
この変更は、プライバシーとユーティリティのバランスを取る必要がある。
強い難読化技術は、著者のアイデンティティを効果的に隠すことができるが、意図した目的のために、しばしばテキストの品質と有用性を低下させる。
逆に、高いユーティリティを維持することはプライバシーの不足をもたらす傾向にあり、敵が著者を匿名化することが容易になる。
したがって、この2つの対立する目標間の最適なトレードオフを達成することが不可欠である。
本稿では,TAROT: Task-Oriented Authorship Obfuscation Using Policy Optimizationを提案する。
提案手法は,著者のアイデンティティと下流タスクユーティリティを保存することで,テキストの書き直しを行うため,小言語モデルに対する微調整パラダイムとしてポリシー最適化を利用する。
提案手法は,有効性を維持しながら攻撃者の精度を大幅に低下させることを示す。
コードとモデルを公開しています。
Authorship obfuscation aims to disguise the identity of an author within a text by altering the writing style, vocabulary, syntax, and other linguistic features associated with the text author. This alteration needs to balance privacy and utility. While strong obfuscation techniques can effectively hide the author's identity, they often degrade the quality and usefulness of the text for its intended purpose. Conversely, maintaining high utility tends to provide insufficient privacy, making it easier for an adversary to de-anonymize the author. Thus, achieving an optimal trade-off between these two conflicting objectives is crucial. In this paper, we propose TAROT: Task-Oriented Authorship Obfuscation Using Policy Optimization, a new unsupervised authorship obfuscation method whose goal is to optimize the privacy-utility trade-off by regenerating the entire text considering its downstream utility. Our approach leverages policy optimization as a fine-tuning paradigm over small language models in order to rewrite texts by preserving author identity and downstream task utility. We show that our approach largely reduce the accuracy of attackers while preserving utility. We make our code and models publicly available. | 翻訳日:2024-08-01 17:52:02 公開日:2024-07-31 |
# シンボリック回帰問題に対するダウンサンプリングを用いた語彙ベース選択法:概要とベンチマーク
Lexicase-based Selection Methods with Down-sampling for Symbolic Regression Problems: Overview and Benchmark ( http://arxiv.org/abs/2407.21632v1 ) ライセンス: Link先を確認 | Alina Geiger, Dominik Sobania, Franz Rothlauf, | (参考訳) 近年,様々なアプリケーション領域におけるレキシケース選択の成功により,いくつかの新しいレキシケース選択変種が出現している。
シンボリック回帰問題では、epsilon-thresholdやトレーニングケースのバッチを使用する変種がパフォーマンス改善につながっている。
近年では、特にレキシケースの選択とダウンサンプリング戦略を組み合わせたバリエーションが注目されている。
本稿では, 広範囲の記号回帰問題に対して, 関連する語彙に基づく選択法と組み合わせて, ランダムかつ情報的なダウンサンプリングを評価する。
ほとんどの作業とは対照的に、特定の評価予算でメソッドを比較するだけでなく、時間的に制限されるため、特定の時間でメソッドを比較します。
評価予算について,エプシロン・レキシケース選択とランダムあるいはインフォメーション・ダウンサンプリングの組み合わせにより,他の手法よりも優れた結果が得られた。
比較的長時間の24時間のみ、最高の演奏方法は、インフォメーション・ダウンサンプリングと組み合わせてトーナメントの選択である。
与えられた実行時間が非常に短い場合、トレーニングケースのバッチを使用したレキシケース変種がベストに動作する。
In recent years, several new lexicase-based selection variants have emerged due to the success of standard lexicase selection in various application domains. For symbolic regression problems, variants that use an epsilon-threshold or batches of training cases, among others, have led to performance improvements. Lately, especially variants that combine lexicase selection and down-sampling strategies have received a lot of attention. This paper evaluates random as well as informed down-sampling in combination with the relevant lexicase-based selection methods on a wide range of symbolic regression problems. In contrast to most work, we not only compare the methods over a given evaluation budget, but also over a given time as time is usually limited in practice. We find that for a given evaluation budget, epsilon-lexicase selection in combination with random or informed down-sampling outperforms all other methods. Only for a rather long running time of 24h, the best performing method is tournament selection in combination with informed down-sampling. If the given running time is very short, lexicase variants using batches of training cases perform best. | 翻訳日:2024-08-01 17:52:02 公開日:2024-07-31 |
# デュアルローランク適応によるゼロショットクロスドメイン対話状態追跡
Zero-Shot Cross-Domain Dialogue State Tracking via Dual Low-Rank Adaptation ( http://arxiv.org/abs/2407.21633v1 ) ライセンス: Link先を確認 | Xiang Luo, Zhiwen Tang, Jin Wang, Xuejie Zhang, | (参考訳) ゼロショット対話状態追跡(Zero-shot dialogue state tracking, DST)は、対話システムが手動のアノテーションや広範囲なリトレーニングなしに、馴染みのないドメインに移行できるようにする。
これまでの研究では、プロンプトを言語モデル(LM)に埋め込むことで、この目標にアプローチしている。
一般的な手法としては、入力層にプロンプトを統合することや、各トランス層に学習可能な変数を導入することが挙げられる。
それでも、それぞれの戦略には固有の制限がある。
入力層に統合されたプロンプトは、連続するトランスフォーマー層にまたがる影響を減少させる可能性がある。
逆に、各レイヤに学習可能な変数を追加することで、トレーニングプロセスが複雑になり、推論遅延が増加する。
上記の問題に対処するため, ゼロショットDST用に設計されたDual Low-Rank Adaptation (DualLoRA)を提案する。
DualLoRAは2つの異なるローランク適応(LoRA)コンポーネントを組み込んでおり、対話コンテキスト処理とプロンプト最適化の両方をターゲットにしており、トランスフォーマーモデル層全体のプロンプトの包括的な影響を保証する。
これは、追加の推論遅延を発生させることなく達成され、既存のアーキテクチャへの効率的な統合を示す。
MultiWOZデータセットとSGDデータセットの厳密な評価を通じて、DualLoRAは、ゼロショット設定における従来のベースラインメソッドよりも優れた、複数のドメインにわたる顕著な改善を示している。
私たちのコードは、次の通りアクセスできます。
Zero-shot dialogue state tracking (DST) seeks to enable dialogue systems to transition to unfamiliar domains without manual annotation or extensive retraining. Prior research has approached this objective by embedding prompts into language models (LMs). Common methodologies include integrating prompts at the input layer or introducing learnable variables at each transformer layer. Nonetheless, each strategy exhibits inherent limitations. Prompts integrated at the input layer risk underutilization, with their impact potentially diminishing across successive transformer layers. Conversely, the addition of learnable variables to each layer can complicate the training process and increase inference latency. To tackle the issues mentioned above, this paper proposes Dual Low-Rank Adaptation (DualLoRA), a plug-and-play architecture designed for zero-shot DST. DualLoRA incorporates two distinct Low-Rank Adaptation (LoRA) components, targeting both dialogue context processing and prompt optimization, to ensure the comprehensive influence of prompts throughout the transformer model layers. This is achieved without incurring additional inference latency, showcasing an efficient integration into existing architectures. Through rigorous evaluation on the MultiWOZ and SGD datasets, DualLoRA demonstrates notable improvements across multiple domains, outperforming traditional baseline methods in zero-shot settings. Our code is accessible at: \url{https://github.com/suntea233/DualLoRA}. | 翻訳日:2024-08-01 17:52:02 公開日:2024-07-31 |
# MART:Multi-Adnt Trajectory PredictionのためのMulti-Scleリレーショナルトランスネットワーク
MART: MultiscAle Relational Transformer Networks for Multi-agent Trajectory Prediction ( http://arxiv.org/abs/2407.21635v1 ) ライセンス: Link先を確認 | Seongju Lee, Junseok Lee, Yeonguk Yu, Taeri Kim, Kyoobin Lee, | (参考訳) マルチエージェント軌道予測は、自動運転と周囲環境の理解に不可欠である。
グラフニューラルネットワーク、グラフトランスフォーマー、ハイパーグラフニューラルネットワークなど、マルチエージェントの軌道予測のための学習ベースのアプローチは、近年、実世界のデータセットで顕著なパフォーマンスを示している。
しかし、軌跡予測のためのハイパーグラフ変換器を用いた手法はまだ検討されていない。
そこで我々はマルチエージェント軌道予測のためのMultiscAle Relational Transformer (MART) ネットワークを提案する。
MARTは、変圧器機械の個人およびグループ動作を考えるためのハイパーグラフトランスフォーマーアーキテクチャである。
MARTのコアモジュールはエンコーダであり、Pair-wise Relational Transformer (PRT)とHyper Relational Transformer (HRT)で構成されている。
エンコーダは、ハイパーエッジ機能をトランス機構に統合するHRTを導入し、グループワイド関係に焦点を合わせるための注意重み付けを促進することで、リレーショナルトランスフォーマの機能を拡張する。
さらに,実環境における複雑なグループ関係の推測を目的とした適応型グループ推定器 (AGE) を提案する。
NBA, SDD, ETH-UCYの3つの実世界のデータセットに対する大規模な実験により, NBAデータセットのADE/FDEを3.9%/11.8%向上させることができた。
コードはhttps://github.com/gist-ailab/MARTで入手できる。
Multi-agent trajectory prediction is crucial to autonomous driving and understanding the surrounding environment. Learning-based approaches for multi-agent trajectory prediction, such as primarily relying on graph neural networks, graph transformers, and hypergraph neural networks, have demonstrated outstanding performance on real-world datasets in recent years. However, the hypergraph transformer-based method for trajectory prediction is yet to be explored. Therefore, we present a MultiscAle Relational Transformer (MART) network for multi-agent trajectory prediction. MART is a hypergraph transformer architecture to consider individual and group behaviors in transformer machinery. The core module of MART is the encoder, which comprises a Pair-wise Relational Transformer (PRT) and a Hyper Relational Transformer (HRT). The encoder extends the capabilities of a relational transformer by introducing HRT, which integrates hyperedge features into the transformer mechanism, promoting attention weights to focus on group-wise relations. In addition, we propose an Adaptive Group Estimator (AGE) designed to infer complex group relations in real-world environments. Extensive experiments on three real-world datasets (NBA, SDD, and ETH-UCY) demonstrate that our method achieves state-of-the-art performance, enhancing ADE/FDE by 3.9%/11.8% on the NBA dataset. Code is available at https://github.com/gist-ailab/MART. | 翻訳日:2024-08-01 17:52:02 公開日:2024-07-31 |
# 補助監査コンポーネントを用いた放射線学レポート生成モデルの品質管理
Quality Control for Radiology Report Generation Models via Auxiliary Auditing Components ( http://arxiv.org/abs/2407.21638v1 ) ライセンス: Link先を確認 | Hermione Warr, Yasin Ibrahim, Daniel R. McGowan, Konstantinos Kamnitsas, | (参考訳) 医用画像解釈の自動化は、診断ワークフローのボトルネックを軽減する可能性があり、近年は自然言語処理の進歩により特に注目されている。
AIによる自動放射線学レポート生成に向けて大きな進歩を遂げてきたが、生成されたレポートの臨床的正確性を保証することは重要な課題であり、臨床実践におけるそのような手法の展開を妨げている。
本研究では,モジュール型補助監査コンポーネント (AC) を用いた診断の重要性のセマンティクスに関して,AI生成放射線学レポートの信頼性を評価するための品質管理フレームワークを提案する。
MIMIC-CXRデータセット上でのパイプライン評価により,ACを病型分類器に組み込むことで,信頼性の高い報告を識別する監査が可能であり,未フィルタリングレポートと比較してF1スコアが高いことがわかった。
さらに、ACラベルの信頼性を活用することにより、監査の有効性がさらに向上する。
Automation of medical image interpretation could alleviate bottlenecks in diagnostic workflows, and has become of particular interest in recent years due to advancements in natural language processing. Great strides have been made towards automated radiology report generation via AI, yet ensuring clinical accuracy in generated reports is a significant challenge, hindering deployment of such methods in clinical practice. In this work we propose a quality control framework for assessing the reliability of AI-generated radiology reports with respect to semantics of diagnostic importance using modular auxiliary auditing components (AC). Evaluating our pipeline on the MIMIC-CXR dataset, our findings show that incorporating ACs in the form of disease-classifiers can enable auditing that identifies more reliable reports, resulting in higher F1 scores compared to unfiltered generated reports. Additionally, leveraging the confidence of the AC labels further improves the audit's effectiveness. | 翻訳日:2024-08-01 17:52:02 公開日:2024-07-31 |
# MSA2Net:医療画像分割のためのマルチスケール適応注意誘導ネットワーク
MSA2Net: Multi-scale Adaptive Attention-guided Network for Medical Image Segmentation ( http://arxiv.org/abs/2407.21640v1 ) ライセンス: Link先を確認 | Sina Ghorbani Kolahi, Seyed Kamal Chaharsooghi, Toktam Khatibi, Afshin Bozorgpour, Reza Azad, Moein Heidari, Ilker Hacihaliloglu, Dorit Merhof, | (参考訳) 医用画像のセグメンテーションは、様々な組織や構造を規定するために、医療画像中のオブジェクトのインスタンスを特定し、分離することを含む。
畳み込みニューラルネットワーク(CNN)は伝統的にこのタスクに用いられてきたが、長距離依存関係のキャプチャには制限がある。
自己注意機構を備えた変圧器は,この問題に対処することを目的としている。
しかし、医用画像のセグメンテーションにおいて、局所的特徴とグローバル的特徴を融合して、様々なスケールにわたる特徴マップを効果的に統合し、構造の変化を扱うための詳細な特徴とより広い意味要素の両方を捉えることは有益である。
本稿では,スキップ接続の迅速設計を特徴とする新しいディープセグメンテーションフレームワークであるMSA2Netを紹介する。
これらの接続は、粗いエンコーダ特徴ときめ細かいデコーダ特徴写像を動的に重み付けし結合することによって特徴融合を促進する。
具体的には,マルチスケール適応型空間注意ゲート (MASAG) を提案し,背景の乱れを最小限に抑えつつ,空間的特徴が選択的に強調されるように受容場(局所的・グローバル的文脈情報)を動的に調整する。
皮膚科と放射線学的データセットを含む広範囲な評価は、我々のMSA2Netが最先端(SOTA)の動作より優れているか、その性能と一致していることを示している。
ソースコードはhttps://github.com/xmindflow/MSA-2Netで公開されている。
Medical image segmentation involves identifying and separating object instances in a medical image to delineate various tissues and structures, a task complicated by the significant variations in size, shape, and density of these features. Convolutional neural networks (CNNs) have traditionally been used for this task but have limitations in capturing long-range dependencies. Transformers, equipped with self-attention mechanisms, aim to address this problem. However, in medical image segmentation it is beneficial to merge both local and global features to effectively integrate feature maps across various scales, capturing both detailed features and broader semantic elements for dealing with variations in structures. In this paper, we introduce MSA2Net, a new deep segmentation framework featuring an expedient design of skip-connections. These connections facilitate feature fusion by dynamically weighting and combining coarse-grained encoder features with fine-grained decoder feature maps. Specifically, we propose a Multi-Scale Adaptive Spatial Attention Gate (MASAG), which dynamically adjusts the receptive field (Local and Global contextual information) to ensure that spatially relevant features are selectively highlighted while minimizing background distractions. Extensive evaluations involving dermatology, and radiological datasets demonstrate that our MSA2Net outperforms state-of-the-art (SOTA) works or matches their performance. The source code is publicly available at https://github.com/xmindflow/MSA-2Net. | 翻訳日:2024-08-01 17:52:02 公開日:2024-07-31 |
# 物理学インフォームドニューラルネットワークにおける時間の意味を伝達するリアプノフ重み
Lyapunov weights to convey the meaning of time in physics-informed neural networks ( http://arxiv.org/abs/2407.21642v1 ) ライセンス: Link先を確認 | Gabriel Turinici, | (参考訳) 時間は他のものほど次元ではない。
物理情報ニューラルネットワーク (PINN) では、この特殊次元の特異性を考慮するために、時間サンプリングや時間重み付けを適応させようとする提案がいくつかあった。
しかし、これらの提案は原則化されておらず、使用するためのガイダンスが必要である。
ここでは、リアプノフ指数が作用可能な洞察を与える理由を理論的に説明し、カオス的、周期的または安定な力学に自動的に適応する重み付けスキームを提案する。
理論的には、計算制約下での最良の重み付けスキームを、局所リアプノフ指数推定器の累積指数積分として特徴づけ、上述の法則の下では、実際にうまく動作することを示す。
Time is not a dimension as the others. In Physics-Informed Neural Networks (PINN) several proposals attempted to adapt the time sampling or time weighting to take into account the specifics of this special dimension. But these proposals are not principled and need guidance to be used. We explain here theoretically why the Lyapunov exponents give actionable insights and propose a weighting scheme to automatically adapt to chaotic, periodic or stable dynamics. We characterize theoretically the best weighting scheme under computational constraints as a cumulative exponential integral of the local Lyapunov exponent estimators and show that it performs well in practice under the regimes mentioned above. | 翻訳日:2024-08-01 17:52:02 公開日:2024-07-31 |
# エンド・ツー・エンド同時音声翻訳におけるLLMエージェントによる人間親の獲得に向けて
Towards Achieving Human Parity on End-to-end Simultaneous Speech Translation via LLM Agent ( http://arxiv.org/abs/2407.21646v1 ) ライセンス: Link先を確認 | Shanbo Cheng, Zhichao Huang, Tom Ko, Hang Li, Ningxin Peng, Lu Xu, Qini Zhang, | (参考訳) 本稿では,クロス言語エージェントであるCLASIについて述べる。
プロフェッショナルなヒューマンインタプリタにインスパイアされた私たちは、新しいデータ駆動の読み書き戦略を使用して、翻訳品質とレイテンシのバランスを取ります。
ドメイン内用語の翻訳の課題に対処するため、CLASIは多モーダル検索モジュールを使用して翻訳を強化するための関連情報を取得する。
提案手法は, 入力音声, 履歴状況, 検索情報を考慮し, 誤り許容翻訳を生成する。
実験結果から,本システムは他システムよりも優れた性能を示した。
専門家の人間通訳と相まって,より優れた評価基準,有効な情報比率(VIP)でCLASIを評価し,聴取者に伝達できる情報量を測定した。
実世界のシナリオでは、言語が不流で非公式で不明瞭な場合、CLASIは中国語と英語と中国語の翻訳方向それぞれ81.3%と78.0%のVIPを達成している。
対照的に、最先端の商用またはオープンソースシステムは35.4%と41.6%しか達成していない。
非常に厳しいデータセットでは、他のシステムが13%のVIPで達成できるが、CLASIは70%のVIPを達成できる。
In this paper, we present Cross Language Agent -- Simultaneous Interpretation, CLASI, a high-quality and human-like Simultaneous Speech Translation (SiST) System. Inspired by professional human interpreters, we utilize a novel data-driven read-write strategy to balance the translation quality and latency. To address the challenge of translating in-domain terminologies, CLASI employs a multi-modal retrieving module to obtain relevant information to augment the translation. Supported by LLMs, our approach can generate error-tolerated translation by considering the input audio, historical context, and retrieved information. Experimental results show that our system outperforms other systems by significant margins. Aligned with professional human interpreters, we evaluate CLASI with a better human evaluation metric, valid information proportion (VIP), which measures the amount of information that can be successfully conveyed to the listeners. In the real-world scenarios, where the speeches are often disfluent, informal, and unclear, CLASI achieves VIP of 81.3% and 78.0% for Chinese-to-English and English-to-Chinese translation directions, respectively. In contrast, state-of-the-art commercial or open-source systems only achieve 35.4% and 41.6%. On the extremely hard dataset, where other systems achieve under 13% VIP, CLASI can still achieve 70% VIP. | 翻訳日:2024-08-01 17:52:02 公開日:2024-07-31 |
# LLMに基づくチャットボットのためのヒューマンインタラクション分類器
Human interaction classifier for LLM based chatbot ( http://arxiv.org/abs/2407.21647v1 ) ライセンス: Link先を確認 | Diego Martín, Jordi Sanchez, Xavier Vizcaíno, | (参考訳) 本研究では、人工知能に基づく環境における人間のインタラクションを分類するための様々なアプローチ、特にApplus+IDIADAのインテリジェントエージェントAIDAについて検討する。
主な目的は、受信したインタラクションのタイプ(会話、サービス、文書翻訳)を正確に識別し、適切なチャネルにリクエストを送信し、より専門的で効率的なサービスを提供する分類器を開発することである。
LLMベースの分類器、TitanとCohereの埋め込みを使ったKNN、SVM、人工ニューラルネットワークなど、さまざまなモデルが比較されている。
その結果,Chereを組み込んだSVMおよびANNモデルは,LCMベースのアプローチに比べてF1スコアが優れ,実行時間も高速であることがわかった。
この研究は、コヘア埋め込みを用いたSVMモデルはAIDA環境における人間のインタラクションを分類するのに最適な選択肢であり、精度と計算効率の最適なバランスを提供すると結論付けている。
This study investigates different approaches to classify human interactions in an artificial intelligence-based environment, specifically for Applus+ IDIADA's intelligent agent AIDA. The main objective is to develop a classifier that accurately identifies the type of interaction received (Conversation, Services, or Document Translation) to direct requests to the appropriate channel and provide a more specialized and efficient service. Various models are compared, including LLM-based classifiers, KNN using Titan and Cohere embeddings, SVM, and artificial neural networks. Results show that SVM and ANN models with Cohere embeddings achieve the best overall performance, with superior F1 scores and faster execution times compared to LLM-based approaches. The study concludes that the SVM model with Cohere embeddings is the most suitable option for classifying human interactions in the AIDA environment, offering an optimal balance between accuracy and computational efficiency. | 翻訳日:2024-08-01 17:41:37 公開日:2024-07-31 |
# 農業用物体検出のための空間変圧器ネットワークYOLOモデル
Spatial Transformer Network YOLO Model for Agricultural Object Detection ( http://arxiv.org/abs/2407.21652v1 ) ライセンス: Link先を確認 | Yash Zambre, Ekdev Rajkitkul, Akshatha Mohan, Joshua Peeples, | (参考訳) 物体検出は、関心のある物体を自律的に識別し、配置することで、コンピュータビジョンの分野において重要な役割を果たす。
You Only Look Once (YOLO)モデルは効果的な単発検出器である。
しかし、YOLOは散らばった、あるいは部分的に隠されたシーンの課題に直面し、小さな、低コントラストのオブジェクトと戦うことができる。
本稿では,空間変換器ネットワーク(STN)をYOLOに統合し,性能を向上させる手法を提案する。
提案するSTN-YOLOは,画像の重要な領域に着目し,検出前のモデルの空間的不変性を改善することにより,モデルの有効性を高めることを目的としている。
提案手法は,定性的かつ定量的に物体検出性能を向上する。
我々はSTNモジュール内の異なるローカライゼーションネットワークの影響と、異なる空間変換におけるモデルのロバスト性について検討する。
農業オブジェクト検出のためのベンチマークデータセットと、最先端の植物表現型温室施設からの新たなデータセットにSTN-YOLOを適用した。
コードとデータセットは公開されています。
Object detection plays a crucial role in the field of computer vision by autonomously identifying and locating objects of interest. The You Only Look Once (YOLO) model is an effective single-shot detector. However, YOLO faces challenges in cluttered or partially occluded scenes and can struggle with small, low-contrast objects. We propose a new method that integrates spatial transformer networks (STNs) into YOLO to improve performance. The proposed STN-YOLO aims to enhance the model's effectiveness by focusing on important areas of the image and improving the spatial invariance of the model before the detection process. Our proposed method improved object detection performance both qualitatively and quantitatively. We explore the impact of different localization networks within the STN module as well as the robustness of the model across different spatial transformations. We apply the STN-YOLO on benchmark datasets for Agricultural object detection as well as a new dataset from a state-of-the-art plant phenotyping greenhouse facility. Our code and dataset are publicly available. | 翻訳日:2024-08-01 17:41:37 公開日:2024-07-31 |
# Comgra: ニューラルネットワークの分析とデバッグツール
Comgra: A Tool for Analyzing and Debugging Neural Networks ( http://arxiv.org/abs/2407.21656v1 ) ライセンス: Link先を確認 | Florian Dietz, Sophie Fellenz, Dietrich Klakow, Marius Kloft, | (参考訳) ニューラルネットワークは検査が難しいことで有名です。
PyTorchで使用するオープンソースのpythonライブラリであるcomgraを紹介します。
Comgraはモデルの内部アクティベーションに関するデータを抽出し、GUI(グラフィックユーザインタフェース)で整理する。
要約統計と個々のデータポイントの両方を示し、トレーニングの初期段階と後期を比較し、関心のある個々のサンプルに注目し、ネットワークを通しての勾配の流れを可視化する。
これにより、さまざまな角度からモデルの振る舞いを検査し、異なる仮説を素早くテストすることで、再実行することなく時間を節約することができる。
Comgraにはデバッギング、ニューラルアーキテクチャ設計、メカニスティック解釈可能性のためのアプリケーションがある。
Python Package Index (PyPI)を通じてライブラリを公開し、https://github.com/FlorianDietz/comgra.comでコード、ドキュメント、チュートリアルを提供します。
Neural Networks are notoriously difficult to inspect. We introduce comgra, an open source python library for use with PyTorch. Comgra extracts data about the internal activations of a model and organizes it in a GUI (graphical user interface). It can show both summary statistics and individual data points, compare early and late stages of training, focus on individual samples of interest, and visualize the flow of the gradient through the network. This makes it possible to inspect the model's behavior from many different angles and save time by rapidly testing different hypotheses without having to rerun it. Comgra has applications for debugging, neural architecture design, and mechanistic interpretability. We publish our library through Python Package Index (PyPI) and provide code, documentation, and tutorials at https://github.com/FlorianDietz/comgra. | 翻訳日:2024-08-01 17:41:37 公開日:2024-07-31 |
# クロスモダリティ情報検出器によるVLMの脱獄防止
Defending Jailbreak Attack in VLMs via Cross-modality Information Detector ( http://arxiv.org/abs/2407.21659v1 ) ライセンス: Link先を確認 | Yue Xu, Xiuyuan Qi, Zhan Qin, Wenjie Wang, | (参考訳) 視覚言語モデル(VLM)は、視覚情報を包括的に理解するためにLLMの能力を拡張し、多くの視覚中心のタスクにおいて顕著な性能を達成する。
それにもかかわらず、最近の研究では、これらのモデルがジェイルブレイク攻撃の影響を受けやすいことが示されている。
この潜在的な脅威は、LLMの固有の脆弱性と、視覚入力によって導入されたより大きな攻撃範囲の両方によって引き起こされる。
ジェイルブレイク攻撃に対するVLMの安全性を高めるため、研究者は様々な防御技術を開発した。
しかし、これらの手法はモデルの内部構造の変更を必要とするか、推論フェーズ中に重要な計算資源を必要とするかのいずれかである。
マルチモーダル・インフォメーション(Multimodal Information)は、両刃の剣。
攻撃のリスクを増大させる一方で、安全対策を強化するための追加データも提供する。
このことにインスパイアされた、$\underline{\textbf{C}}$ross-modality $\underline{\textbf{I}}$nformation $\underline{\textbf{DE}}$tecto$\underline{\textbf{R}}$$$$\textit{CIDER})$, 悪質なクエリと敵対的なイメージの相互類似性を利用して、悪意ある摂動イメージの入力を識別するために設計されたプラグインとプレイのジェイルブレイク検出器である。
この単純で効果的なクロスモダリティ情報検出器である$\textit{CIDER}$は、ターゲットのVLMとは独立であり、計算コストが低い。
大規模な実験結果から,$\textit{CIDER}$の有効性と有効性,およびWhite-boxおよびBlack-box VLMへの転送性を示す。
Vision Language Models (VLMs) extend the capacity of LLMs to comprehensively understand vision information, achieving remarkable performance in many vision-centric tasks. Despite that, recent studies have shown that these models are susceptible to jailbreak attacks, which refer to an exploitative technique where malicious users can break the safety alignment of the target model and generate misleading and harmful answers. This potential threat is caused by both the inherent vulnerabilities of LLM and the larger attack scope introduced by vision input. To enhance the security of VLMs against jailbreak attacks, researchers have developed various defense techniques. However, these methods either require modifications to the model's internal structure or demand significant computational resources during the inference phase. Multimodal information is a double-edged sword. While it increases the risk of attacks, it also provides additional data that can enhance safeguards. Inspired by this, we propose $\underline{\textbf{C}}$ross-modality $\underline{\textbf{I}}$nformation $\underline{\textbf{DE}}$tecto$\underline{\textbf{R}}$ ($\textit{CIDER})$, a plug-and-play jailbreaking detector designed to identify maliciously perturbed image inputs, utilizing the cross-modal similarity between harmful queries and adversarial images. This simple yet effective cross-modality information detector, $\textit{CIDER}$, is independent of the target VLMs and requires less computation cost. Extensive experimental results demonstrate the effectiveness and efficiency of $\textit{CIDER}$, as well as its transferability to both white-box and black-box VLMs. | 翻訳日:2024-08-01 17:41:37 公開日:2024-07-31 |
# 支援ベクトルマシンによる効率的な干ばつ応力同定と伝達学習を組み合わせた説明可能な視覚変換器
An Explainable Vision Transformer with Transfer Learning Combined with Support Vector Machine Based Efficient Drought Stress Identification ( http://arxiv.org/abs/2407.21666v1 ) ライセンス: Link先を確認 | Aswini Kumar Patra, Ankit Varshney, Lingaraj Sahoo, | (参考訳) 干ばつストレスの早期検出は、干ばつの影響が不可逆になる前に、作物の損失を減らすためのタイムリーな対策をとるために重要である。
干ばつストレスに対する微妙な表現型および生理的変化は、非侵襲的なイメージング技術によって捉えられ、これらの画像データは、干ばつストレスを特定する機械学習手法の貴重な資源となる。
畳み込みニューラルネットワーク(CNN)が広く使われている一方で、視覚トランスフォーマー(ViT)は、長距離依存を捉え、空間的関係を複雑にすることで、干ばつストレスの微妙な指標の検出を向上する、有望な代替手段を提供する。
航空画像を用いたジャガイモの干ばつストレス検出にViTの力を利用する,説明可能なディープラーニングパイプラインを提案する。
我々は,VTとサポートベクターマシン(SVM)の相乗的組み合わせにより,VTが空中画像から複雑な空間的特徴を抽出し,SVMが作物をストレスまたは健康であると分類し,VT内の専用分類層を用いて干ばつストレスを直接検出した。
我々の重要な知見は、注目マップを可視化することで、ViTモデルの意思決定プロセスを説明する。
これらの地図は、ViTモデルが干ばつストレスシグネチャとして注目する空中画像内の特定の空間的特徴を強調している。
以上の結果から, 提案手法は干ばつストレス同定の精度を高めるだけでなく, 干ばつストレスにかかわる多彩な植物の特徴にも光を当てることが示唆された。
これは、農家が作物管理を改善するための情報的な決定を下すために、干ばつストレスモニタリングのための堅牢で解釈可能なソリューションを提供する。
Early detection of drought stress is critical for taking timely measures for reducing crop loss before the drought impact becomes irreversible. The subtle phenotypical and physiological changes in response to drought stress are captured by non-invasive imaging techniques and these imaging data serve as valuable resource for machine learning methods to identify drought stress. While convolutional neural networks (CNNs) are in wide use, vision transformers (ViTs) present a promising alternative in capturing long-range dependencies and intricate spatial relationships, thereby enhancing the detection of subtle indicators of drought stress. We propose an explainable deep learning pipeline that leverages the power of ViTs for drought stress detection in potato crops using aerial imagery. We applied two distinct approaches: a synergistic combination of ViT and support vector machine (SVM), where ViT extracts intricate spatial features from aerial images, and SVM classifies the crops as stressed or healthy and an end-to-end approach using a dedicated classification layer within ViT to directly detect drought stress. Our key findings explain the ViT model's decision-making process by visualizing attention maps. These maps highlight the specific spatial features within the aerial images that the ViT model focuses as the drought stress signature. Our findings demonstrate that the proposed methods not only achieve high accuracy in drought stress identification but also shedding light on the diverse subtle plant features associated with drought stress. This offers a robust and interpretable solution for drought stress monitoring for farmers to undertake informed decisions for improved crop management. | 翻訳日:2024-08-01 17:41:37 公開日:2024-07-31 |
# 合成共感:高品質な合成共感データを目指して
Synth-Empathy: Towards High-Quality Synthetic Empathy Data ( http://arxiv.org/abs/2407.21669v1 ) ライセンス: Link先を確認 | Hao Liang, Linzhuang Sun, Jingxuan Wei, Xijie Huang, Linkun Sun, Bihui Yu, Conghui He, Wentao Zhang, | (参考訳) 近年,大規模言語モデル(LLM)の急速な進歩に伴い,共感的応答能力の向上が重要視されている。
その結果,共感的データセットの管理と理解の重要性が高まっている。
しかし、共感的なデータは典型的には人間のラベルで書かれており、不十分なデータセットと人間の労働を浪費する。
本研究では,低品質データを破棄しながら,高品質な共感データを自動的に生成するLLMベースのデータ生成・品質・多様性選択パイプラインであるSynth-Empathyを提案する。
低共感モデルから生成されたデータにより、共感的応答性能をさらに向上し、複数のベンチマークで最先端(SoTA)結果が得られる。
さらに,本モデルでは,様々な評価ベンチマーク上でのSoTA性能を実現し,実世界のアプリケーションにおけるその有効性とロバスト性を実証する。
さらに、データ量と品質のトレードオフを示し、共感的データ生成と選択に関する洞察を提供する。
In recent years, with the rapid advancements in large language models (LLMs), achieving excellent empathetic response capabilities has become a crucial prerequisite. Consequently, managing and understanding empathetic datasets have gained increasing significance. However, empathetic data are typically human-labeled, leading to insufficient datasets and wasted human labor. In this work, we present Synth-Empathy, an LLM-based data generation and quality and diversity selection pipeline that automatically generates high-quality empathetic data while discarding low-quality data. With the data generated from a low empathetic model, we are able to further improve empathetic response performance and achieve state-of-the-art (SoTA) results across multiple benchmarks. Moreover, our model achieves SoTA performance on various human evaluation benchmarks, demonstrating its effectiveness and robustness in real-world applications. Furthermore, we show the trade-off between data quantity and quality, providing insights into empathetic data generation and selection. | 翻訳日:2024-08-01 17:41:37 公開日:2024-07-31 |
# 普遍近似理論:ニューラルネットワークにおける並列性の基礎
Universal Approximation Theory: Foundations for Parallelism in Neural Networks ( http://arxiv.org/abs/2407.21670v1 ) ライセンス: Link先を確認 | Wei Wang, Qing Li, | (参考訳) ニューラルネットワークは、多くのタスクで優れたパフォーマンスを示す方法であるビッグデータによる大規模モデルのトレーニングに向けて、ますます進化している。
しかし、このアプローチには緊急の問題がある: 現在のディープラーニングモデルは、主にシリアルであり、ネットワーク層の数が増えるにつれて、トレーニングと推論時間も増加する。
ディープラーニングが今後も進むのであれば、これは受け入れがたいことだ。
そこで本研究では,UAT(Universal Approximation Theorem)に基づくディープラーニング並列化戦略を提案する。
そこで我々はPara-Formerという並列ネットワークを設計し,その理論を検証した。
従来のシリアルモデルとは異なり、Para-Formerの推論時間はレイヤ数で増加せず、多層ネットワークの推論速度が著しく向上する。
このネットワークの有効性を実験的に検証した。
Neural networks are increasingly evolving towards training large models with big data, a method that has demonstrated superior performance across many tasks. However, this approach introduces an urgent problem: current deep learning models are predominantly serial, meaning that as the number of network layers increases, so do the training and inference times. This is unacceptable if deep learning is to continue advancing. Therefore, this paper proposes a deep learning parallelization strategy based on the Universal Approximation Theorem (UAT). From this foundation, we designed a parallel network called Para-Former to test our theory. Unlike traditional serial models, the inference time of Para-Former does not increase with the number of layers, significantly accelerating the inference speed of multi-layer networks. Experimental results validate the effectiveness of this network. | 翻訳日:2024-08-01 17:41:37 公開日:2024-07-31 |
# シンセティック・シンプルさ:医療データ強化におけるバイアスの解消
Synthetic Simplicity: Unveiling Bias in Medical Data Augmentation ( http://arxiv.org/abs/2407.21674v1 ) ライセンス: Link先を確認 | Krishan Agyakari Raja Babu, Rachana Sathish, Mrunal Pattanaik, Rahul Venkataramani, | (参考訳) 医用画像などのデータ・スカース分野において, 合成データは, リアルデータの代用として, ますます複雑化しつつある。
しかし、その固有の統計特性は下流のタスクに大きな影響を与え、デプロイメントのパフォーマンスを損なう可能性がある。
下流ニューラルネットワークは、データソースとタスクラベルの間に強い相関関係がある場合、実データと合成データの間の急激な区別をしばしば利用します。
このエクスプロイトは「textit{simplicity bias}」として現れ、モデルが真のタスク関連の複雑さよりも表面的な特徴に過度に依存している。
原理的な実験を通して、データのソース(実対実対実対実対実対実対実対実)が示される。
\ 合成) 相関が欠如している場合、デプロイメント中にパフォーマンスが低下する急激な関連要因を導入することができる。
最初に、この脆弱性を桁分類タスクで示し、モデルが桁の代わりにデータソースを突如利用して推論を行う。
心エコー図における心電図分類に関する医療画像問題におけるこの現象のさらなる証拠として,特に2-chamberと4-chamberの区別について述べる。
合成データセットの利用の役割が増す中、我々の実験がモデルトレーニングにおける合成データセットの利用の効果的なガイドラインとなることを期待する。
Synthetic data is becoming increasingly integral in data-scarce fields such as medical imaging, serving as a substitute for real data. However, its inherent statistical characteristics can significantly impact downstream tasks, potentially compromising deployment performance. In this study, we empirically investigate this issue and uncover a critical phenomenon: downstream neural networks often exploit spurious distinctions between real and synthetic data when there is a strong correlation between the data source and the task label. This exploitation manifests as \textit{simplicity bias}, where models overly rely on superficial features rather than genuine task-related complexities. Through principled experiments, we demonstrate that the source of data (real vs.\ synthetic) can introduce spurious correlating factors leading to poor performance during deployment when the correlation is absent. We first demonstrate this vulnerability on a digit classification task, where the model spuriously utilizes the source of data instead of the digit to provide an inference. We provide further evidence of this phenomenon in a medical imaging problem related to cardiac view classification in echocardiograms, particularly distinguishing between 2-chamber and 4-chamber views. Given the increasing role of utilizing synthetic datasets, we hope that our experiments serve as effective guidelines for the utilization of synthetic datasets in model training. | 翻訳日:2024-08-01 17:41:37 公開日:2024-07-31 |
# 変圧器を用いたインクリメンタルオブジェクト検出のための動的オブジェクトクエリ
Dynamic Object Queries for Transformer-based Incremental Object Detection ( http://arxiv.org/abs/2407.21687v1 ) ライセンス: Link先を確認 | Jichuan Zhang, Wei Li, Shuang Cheng, Ya-Li Li, Shengjin Wang, | (参考訳) インクリメンタルオブジェクト検出(IOD)は、新しいクラスを逐次学習することを目的としている。
トレーニングデータが新しいクラスでのみアノテーションと共にやってくると、IODは破滅的な忘れに苦しむ。
それまでの方法論は主に、知識の蒸留と模範的な再生を通じて忘れられる問題に取り組み、限られたモデル能力と知識の増加の間の矛盾を無視していた。
本稿では,Transformer アーキテクチャ上に構築されたインクリメンタルオブジェクト検出のための textit{dynamic object query} について検討する。
本稿では, 安定性と塑性のトレードオフを実現するために, モデル表現能力を漸進的に拡張する, \textbf{Dy}namic object \textbf{Q}uery-based \textbf{DE}tection \textbf{TR}ansformer (DyQ-DETR)を提案する。
まず、新しいクラスを表現するために、学習可能な新しいオブジェクトクエリのセットがデコーダに入力される。
これらの新しいオブジェクトクエリは、古い知識と新しい知識の両方をうまく適応させるために、以前のフェーズのクエリと集約されます。
第2に,不整合自己意図に基づく,異なる位相のオブジェクトクエリに対する分離された二部マッチングを提案する。
異なるフェーズにおけるオブジェクトクエリ間の相互作用を排除し、クラス間の混乱を減らす。
オブジェクトクエリに対する個別の監視と計算により、リスクバランスの取れた部分キャリブレーションを有効に再現する。
大規模な実験により、DyQ-DETRはパラメータのオーバーヘッドが限られ、最先端の手法を大幅に上回っていることが示された。
コードは公開されます。
Incremental object detection (IOD) aims to sequentially learn new classes, while maintaining the capability to locate and identify old ones. As the training data arrives with annotations only with new classes, IOD suffers from catastrophic forgetting. Prior methodologies mainly tackle the forgetting issue through knowledge distillation and exemplar replay, ignoring the conflict between limited model capacity and increasing knowledge. In this paper, we explore \textit{dynamic object queries} for incremental object detection built on Transformer architecture. We propose the \textbf{Dy}namic object \textbf{Q}uery-based \textbf{DE}tection \textbf{TR}ansformer (DyQ-DETR), which incrementally expands the model representation ability to achieve stability-plasticity tradeoff. First, a new set of learnable object queries are fed into the decoder to represent new classes. These new object queries are aggregated with those from previous phases to adapt both old and new knowledge well. Second, we propose the isolated bipartite matching for object queries in different phases, based on disentangled self-attention. The interaction among the object queries at different phases is eliminated to reduce inter-class confusion. Thanks to the separate supervision and computation over object queries, we further present the risk-balanced partial calibration for effective exemplar replay. Extensive experiments demonstrate that DyQ-DETR significantly surpasses the state-of-the-art methods, with limited parameter overhead. Code will be made publicly available. | 翻訳日:2024-08-01 17:41:37 公開日:2024-07-31 |
# TransferTOD: 転送機能を備えた汎用的な中国語マルチドメインタスク指向対話システム
TransferTOD: A Generalizable Chinese Multi-Domain Task-Oriented Dialogue System with Transfer Capabilities ( http://arxiv.org/abs/2407.21693v1 ) ライセンス: Link先を確認 | Ming Zhang, Caishuang Huang, Yilong Wu, Shichun Liu, Huiyuan Zheng, Yurui Dong, Yujiong Shen, Shihan Dou, Jun Zhao, Junjie Ye, Qi Zhang, Tao Gui, Xuanjing Huang, | (参考訳) タスク指向対話(TOD)システムは、情報収集を含むタスク指向の会話を効率的に処理することを目的としている。
ToDの精度、効率、有効性を情報収集に活用する方法は、常に重要かつ困難な課題であった。
近年,Large Language Models (LLMs) は対話,命令生成,推論において優れており,微調整によりTODの性能を大幅に向上させることができることが実証されている。
しかし、現在のデータセットはユーザー主導のシステムに特化しており、事前に定義された特定のシナリオやスロットに限定されているため、TODの積極性、多様性、能力の改善が必要である。
本研究では、会話のための多分野タスク指向データ構築プロセスと、このプロセスに基づいて生成された中国語対話データセットである「textbf{TransferTOD}」について述べる。
このデータセットを利用することで、フルパラメータの微調整とスロットフィリングと質問の顕著な能力を示すために、 \textbf{TransferTOD-7B}モデルを訓練した。
我々の研究は、様々なダウンストリームシナリオにおいて強力な一般化能力を示し、データ利用効率とシステム性能の両方を大幅に向上させた。
データはhttps://github.com/KongLongGeFDU/TransferTODで公開されている。
Task-oriented dialogue (TOD) systems aim to efficiently handle task-oriented conversations, including information gathering. How to utilize ToD accurately, efficiently and effectively for information gathering has always been a critical and challenging task. Recent studies have demonstrated that Large Language Models (LLMs) excel in dialogue, instruction generation, and reasoning, and can significantly enhance the performance of TOD through fine-tuning. However, current datasets primarily cater to user-led systems and are limited to predefined specific scenarios and slots, thereby necessitating improvements in the proactiveness, diversity, and capabilities of TOD. In this study, we present a detailed multi-domain task-oriented data construction process for conversations, and a Chinese dialogue dataset generated based on this process, \textbf{TransferTOD}, which authentically simulates human-machine dialogues in 30 popular life service scenarios. Leveraging this dataset, we trained a \textbf{TransferTOD-7B} model using full-parameter fine-tuning, showcasing notable abilities in slot filling and questioning. Our work has demonstrated its strong generalization capabilities in various downstream scenarios, significantly enhancing both data utilization efficiency and system performance. The data is released in https://github.com/KongLongGeFDU/TransferTOD. | 翻訳日:2024-08-01 17:41:37 公開日:2024-07-31 |
# CEAR:化学物質の知識グラフと科学文献からの役割の自動構築
CEAR: Automatic construction of a knowledge graph of chemical entities and roles from scientific literature ( http://arxiv.org/abs/2407.21708v1 ) ライセンス: Link先を確認 | Stefan Langer, Fabian Neuhaus, Andreas Nürnberger, | (参考訳) オントロジ(英: Ontology)は、複雑な情報を整理し理解するための構造化された枠組みを提供する特定の領域における知識の形式的表現である。
しかし、オントロジの作成は複雑で時間を要する作業である。
ChEBIは化学の分野でよく知られたオントロジーであり、化学物質とその性質を定義するための包括的な資源を提供する。
しかし、化学の急速に成長する知識のごく一部に過ぎず、科学文献に言及していない。
そこで本研究では,Chebiの知識を付加して既存の注釈テキストコーパスを拡大し,化学物質とその科学テキストにおける役割を認識するための大規模言語モデル(LLM)を微調整する手法を提案する。
我々の実験は我々のアプローチの有効性を実証している。
LLMのオントロジ的知識と言語理解能力を組み合わせることで、科学文献における化学物質と役割の識別において、高精度かつ高精度なリコール率を実現する。
さらに,ChemRxiv の8,000個の記事からそれらを抽出し,第2の LLM を用いてケミカルエンティティと役割の知識グラフ (KG) を作成し,ChEBI に補完的な情報を提供し,拡張に役立てる。
Ontologies are formal representations of knowledge in specific domains that provide a structured framework for organizing and understanding complex information. Creating ontologies, however, is a complex and time-consuming endeavor. ChEBI is a well-known ontology in the field of chemistry, which provides a comprehensive resource for defining chemical entities and their properties. However, it covers only a small fraction of the rapidly growing knowledge in chemistry and does not provide references to the scientific literature. To address this, we propose a methodology that involves augmenting existing annotated text corpora with knowledge from Chebi and fine-tuning a large language model (LLM) to recognize chemical entities and their roles in scientific text. Our experiments demonstrate the effectiveness of our approach. By combining ontological knowledge and the language understanding capabilities of LLMs, we achieve high precision and recall rates in identifying both the chemical entities and roles in scientific literature. Furthermore, we extract them from a set of 8,000 ChemRxiv articles, and apply a second LLM to create a knowledge graph (KG) of chemical entities and roles (CEAR), which provides complementary information to ChEBI, and can help to extend it. | 翻訳日:2024-08-01 17:41:37 公開日:2024-07-31 |
# 他エージェントとのインタラクションによるソーシャルラーニング:調査
Social Learning through Interactions with Other Agents: A Survey ( http://arxiv.org/abs/2407.21713v1 ) ライセンス: Link先を確認 | Dylan hillier, Cheston Tan, Jing Jiang, | (参考訳) 社会学習は人間の知性の発展に重要な役割を果たしている。
子どものころは、音を出すまで両親の発話パターンを模倣し、私たちを賞賛し、非難し、大人として、他の人と一緒に働くことで学びます。
本研究では,このパラダイム – 社会学習 – が機械学習にどのように反映されているかを調査する。
特に、学習は他者との対話を必要とするため、エージェントがどのように体現し、これらのテクニックを活用できるかに興味がある。
特に,近年の自然言語処理(NLP)の進歩により,新たな社会学習が実現された。
我々は、行動的クローン化と次世代の予測が人間の模倣をどのように反映するか、人間のフィードバックからの学習が人間の教育を反映しているか、そして、相互から学習する完全なコミュニケーションエージェントを実現するために、どのようにさらに進むことができるかを考察する。
個別の社会的学習技術は成功したが、それらを社会的に具体化したエージェントにどのように組み込むかを示す統一的な作業はほとんど行われていない。
Social learning plays an important role in the development of human intelligence. As children, we imitate our parents' speech patterns until we are able to produce sounds; we learn from them praising us and scolding us; and as adults, we learn by working with others. In this work, we survey the degree to which this paradigm -- social learning -- has been mirrored in machine learning. In particular, since learning socially requires interacting with others, we are interested in how embodied agents can and have utilised these techniques. This is especially in light of the degree to which recent advances in natural language processing (NLP) enable us to perform new forms of social learning. We look at how behavioural cloning and next-token prediction mirror human imitation, how learning from human feedback mirrors human education, and how we can go further to enable fully communicative agents that learn from each other. We find that while individual social learning techniques have been used successfully, there has been little unifying work showing how to bring them together into socially embodied agents. | 翻訳日:2024-08-01 17:41:37 公開日:2024-07-31 |
# UMMAN:腸内フローラに基づく疾患予測のための教師なしマルチグラフマージアドバイサルネットワーク
UMMAN: Unsupervised Multi-graph Merge Adversarial Network for Disease Prediction Based on Intestinal Flora ( http://arxiv.org/abs/2407.21714v1 ) ライセンス: Link先を確認 | Dingkun Liu, Hongjie Zhou, Yilu Qu, Huimei Zhang, Yongdong Xu, | (参考訳) 腸内細菌の豊富さはヒトの疾患と密接に関連しているが、単一の腸内微生物によって引き起こされるわけではない。
代わりに、多くの微生物の複雑な相互作用が引き起こされる。
腸内細菌間のこの複雑で暗黙的な結合は、OTUデータからの豊富な情報を用いた疾患予測に重大な課題をもたらす。
近年、いくつかの方法により、対応する疾患を予測できる可能性が示されている。
しかし、これらの方法は異なる宿主から腸内微生物の内的関連を学ばず、不満足なパフォーマンスをもたらす。
本稿では,Unsupervised Multi-graph Merge Adversarial Network (UMMAN)を提案する。
UMMANは、教師なしのシナリオでマルチグラフのノードの埋め込みを得ることができ、多重化関連を学習するのに役立ちます。
本手法は,グラフニューラルネットと腸内フローラ病予測を併用した最初の手法である。
本稿では,ノード間の関係を乱し,対応するShuffled-Graphを生成するために,複雑な関係型を用いる。
グラフのグローバル機能を表現するため,Node Feature Global Integration (NFGI) モジュールを紹介した。
さらに,実グラフの埋め込みがオリジナルグラフと密接に一致し,シャッフルグラフから分岐することを保証するために,対向損失とハイブリッドアテンション損失を含む共同損失を設計する。
従来のOTU腸内マイクロバイオームデータセットの総合的な実験により,本手法の有効性と安定性が示された。
(まもなくコードを公開します。)
The abundance of intestinal flora is closely related to human diseases, but diseases are not caused by a single gut microbe. Instead, they result from the complex interplay of numerous microbial entities. This intricate and implicit connection among gut microbes poses a significant challenge for disease prediction using abundance information from OTU data. Recently, several methods have shown potential in predicting corresponding diseases. However, these methods fail to learn the inner association among gut microbes from different hosts, leading to unsatisfactory performance. In this paper, we present a novel architecture, Unsupervised Multi-graph Merge Adversarial Network (UMMAN). UMMAN can obtain the embeddings of nodes in the Multi-Graph in an unsupervised scenario, so that it helps learn the multiplex association. Our method is the first to combine Graph Neural Network with the task of intestinal flora disease prediction. We employ complex relation-types to construct the Original-Graph and disrupt the relationships among nodes to generate corresponding Shuffled-Graph. We introduce the Node Feature Global Integration (NFGI) module to represent the global features of the graph. Furthermore, we design a joint loss comprising adversarial loss and hybrid attention loss to ensure that the real graph embedding aligns closely with the Original-Graph and diverges from the Shuffled-Graph. Comprehensive experiments on five classical OTU gut microbiome datasets demonstrate the effectiveness and stability of our method. (We will release our code soon.) | 翻訳日:2024-08-01 17:41:37 公開日:2024-07-31 |
# AI政策の状況を評価する
Assessing the State of AI Policy ( http://arxiv.org/abs/2407.21717v1 ) ライセンス: Link先を確認 | Joanna F. DeFranco, Luke Biersmith, | (参考訳) 人工知能(AI)応用の展開は急速に加速している。
AIを有効にするテクノロジは、インフラストラクチャやコンシューマ製品、ホームアプリケーションなど、さまざまな面で、一般の注目を集めている。
これらの技術の多くは、物理的損傷または偏見の形でリスクをもたらし、不公平な結果をもたらす可能性があるため、政策立案者は監視の必要性を考慮する必要がある。
しかし、ほとんどの政策立案者は、新興のAI技術が安全で効果的かどうかを判断する技術知識を欠いているため、政策立案者は専門家の意見に頼らなければならない。
しかし、政策立案者は専門家の意見に加えて、既存のガイドラインや規制をある程度理解した方が良い。
この研究は、国際、米国、都市、および連邦レベルでAI法と指令の概要を提供する。
また、関連するビジネス標準や技術社会のイニシアチブも見直している。
そして、重複とギャップ分析を行い、将来の政策決定のための勧告とガイダンスを含む参照ガイドを作成する。
The deployment of artificial intelligence (AI) applications has accelerated rapidly. AI enabled technologies are facing the public in many ways including infrastructure, consumer products and home applications. Because many of these technologies present risks either in the form of physical injury, or bias, potentially yielding unfair outcomes, policy makers must consider the need for oversight. Most policymakers, however, lack the technical knowledge to judge whether an emerging AI technology is safe, effective, and requires oversight, therefore policy makers must depend on expert opinion. But policymakers are better served when, in addition to expert opinion, they have some general understanding of existing guidelines and regulations. This work provides an overview [the landscape] of AI legislation and directives at the international, U.S. state, city and federal levels. It also reviews relevant business standards, and technical society initiatives. Then an overlap and gap analysis are performed resulting in a reference guide that includes recommendations and guidance for future policy making. | 翻訳日:2024-08-01 17:41:37 公開日:2024-07-31 |
# Open-Vocabulary Audio-Visual Semantic Segmentation
Open-Vocabulary Audio-Visual Semantic Segmentation ( http://arxiv.org/abs/2407.21721v1 ) ライセンス: Link先を確認 | Ruohao Guo, Liao Qu, Dantong Niu, Yanyu Qi, Wenzhen Yue, Ji Shi, Bowei Xing, Xianghua Ying, | (参考訳) 音声-視覚的セマンティックセグメンテーション(AVSS)は、音響的手がかりのあるビデオ内の音質オブジェクトを分類・分類することを目的としている。
しかし、ほとんどのアプローチはクローズセットの仮定に基づいており、トレーニングデータから事前定義されたカテゴリのみを識別し、実用的な応用において新しいカテゴリを検出する一般化能力に欠ける。
本稿では,AVSSタスクをアノテートされたラベル空間を超えたオープンワールドシナリオに拡張するオープンボキャブラリ型音声視覚セマンティックセマンティックセマンティックセマンティクスを提案する。
これは、トレーニング中に見たことも聴いたこともなかったものでさえ、すべてのカテゴリを認識する必要がある、より困難なタスクです。
さらに、主に2つの部分から構成される最初のオープン語彙型AVSSフレームワークであるOV-AVSSを提案する。
1) 音声・視覚融合を行い、全ての潜在的な音像を特定できるユニバーサル音源定位モジュール
2) 大規模事前学習型視覚言語モデルからの事前知識の助けを借りてカテゴリを予測するオープン語彙分類モジュール。
AVSBench-semanticベンチマーク,すなわちAVSBench-OVに基づいて,ゼロショットトレーニングとテストサブセットを適切に評価する。
広範囲な実験は、全てのカテゴリにおいて、我々のモデルの強いセグメンテーションとゼロショット一般化能力を示す。
AVSBench-OVデータセットでは、OV-AVSSは55.43% mIoU、新しいカテゴリでは29.14% mIoU、最先端のゼロショット法は41.88%/20.61%、オープン語彙法は10.2%/11.6%である。
コードはhttps://github.com/ruohaoguo/ovavss.comで公開されている。
Audio-visual semantic segmentation (AVSS) aims to segment and classify sounding objects in videos with acoustic cues. However, most approaches operate on the close-set assumption and only identify pre-defined categories from training data, lacking the generalization ability to detect novel categories in practical applications. In this paper, we introduce a new task: open-vocabulary audio-visual semantic segmentation, extending AVSS task to open-world scenarios beyond the annotated label space. This is a more challenging task that requires recognizing all categories, even those that have never been seen nor heard during training. Moreover, we propose the first open-vocabulary AVSS framework, OV-AVSS, which mainly consists of two parts: 1) a universal sound source localization module to perform audio-visual fusion and locate all potential sounding objects and 2) an open-vocabulary classification module to predict categories with the help of the prior knowledge from large-scale pre-trained vision-language models. To properly evaluate the open-vocabulary AVSS, we split zero-shot training and testing subsets based on the AVSBench-semantic benchmark, namely AVSBench-OV. Extensive experiments demonstrate the strong segmentation and zero-shot generalization ability of our model on all categories. On the AVSBench-OV dataset, OV-AVSS achieves 55.43% mIoU on base categories and 29.14% mIoU on novel categories, exceeding the state-of-the-art zero-shot method by 41.88%/20.61% and open-vocabulary method by 10.2%/11.6%. The code is available at https://github.com/ruohaoguo/ovavss. | 翻訳日:2024-08-01 17:41:37 公開日:2024-07-31 |
# エネルギー効率のための人工知能のアプローチ
Artificial Intelligence Approaches for Energy Efficiency: A Review ( http://arxiv.org/abs/2407.21726v1 ) ライセンス: Link先を確認 | Alberto Pasqualetto, Lorenzo Serafini, Michele Sprocatti, | (参考訳) 国連は持続可能な開発目標を設定し、この論文は、第7(住宅・クリーンエネルギー)、第9(産業・イノベーション・インフラ)、第13(クライムアクション)の目標に焦点を当てている。
気候変動は我々の社会の大きな関心事であり、このため、現在のグローバルな目的はエネルギーの無駄を減らすことである。
この研究は、人工知能を用いたエネルギー効率に対する主要なアプローチをすべて要約し、スマートな建物を作るためのマルチエージェントシステムに焦点を当てている。
AI、特にIoTとビッグデータの密接な関係について言及している。
スマートな建物における異常検出へのAIの適用と、Intelligent Energy Management Systems: Direct and Indirectの分類について説明している。
最後に、AIアプローチのいくつかの欠点と将来の研究の焦点が提案されている。
United Nations set Sustainable Development Goals and this paper focuses on 7th (Affordable and Clean Energy), 9th (Industries, Innovation and Infrastructure), and 13th (Climate Action) goals. Climate change is a major concern in our society; for this reason, a current global objective is to reduce energy waste. This work summarizes all main approaches towards energy efficiency using Artificial Intelligence with a particular focus on multi-agent systems to create smart buildings. It mentions the tight relationship between AI, especially IoT, and Big Data. It explains the application of AI to anomaly detection in smart buildings and a possible classification of Intelligent Energy Management Systems: Direct and Indirect. Finally, some drawbacks of AI approaches and some possible future research focuses are proposed. | 翻訳日:2024-08-01 17:31:11 公開日:2024-07-31 |
# ParLS-PBO:擬似ブール最適化のための並列局所探索法
ParLS-PBO: A Parallel Local Search Solver for Pseudo Boolean Optimization ( http://arxiv.org/abs/2407.21729v1 ) ライセンス: Link先を確認 | Zhihan Chen, Peng Lin, Hao Hu, Shaowei Cai, | (参考訳) 近年,多くの最適化問題において広く応用されている手法として,PBO(Pseudo-Boolean Optimization)問題の解法として局所探索が採用されている。
PBOの代表的なローカルサーチソルバはLSPBOである。
本稿では,まず,動的スコアリング機構によりLSPBOを改良し,ハード制約のスコアと目標関数のスコアのバランスを動的に決定する。
さらに、この改良されたLSPBOを用いて、最初の並列ローカル検索PBOソルバを開発する。
主なアイデアは、実現可能なソリューションのプールを維持することによって、検索をガイドするために、異なるスレッド間で優れたソリューションを共有することである。
プールを更新する際の解を評価するために,プールの品質とプールの多様性を両立する関数を提案する。
さらに,プール内の極性密度を算出し,局所探索のスコアリング機能を強化する。
我々の実証実験は、提案した並列手法の利点を明らかに示しており、有名な商用解法であるGurobiの並列バージョンと競合する。
As a broadly applied technique in numerous optimization problems, recently, local search has been employed to solve Pseudo-Boolean Optimization (PBO) problem. A representative local search solver for PBO is LSPBO. In this paper, firstly, we improve LSPBO by a dynamic scoring mechanism, which dynamically strikes a balance between score on hard constraints and score on the objective function. Moreover, on top of this improved LSPBO , we develop the first parallel local search PBO solver. The main idea is to share good solutions among different threads to guide the search, by maintaining a pool of feasible solutions. For evaluating solutions when updating the pool, we propose a function that considers both the solution quality and the diversity of the pool. Furthermore, we calculate the polarity density in the pool to enhance the scoring function of local search. Our empirical experiments show clear benefits of the proposed parallel approach, making it competitive with the parallel version of the famous commercial solver Gurobi. | 翻訳日:2024-08-01 17:31:11 公開日:2024-07-31 |
# 超音波スキャン映像を用いた胎児心臓平面分類における自己監督学習の活用
Leveraging Self-Supervised Learning for Fetal Cardiac Planes Classification using Ultrasound Scan Videos ( http://arxiv.org/abs/2407.21738v1 ) ライセンス: Link先を確認 | Joseph Geo Benjamin, Mothilal Asokan, Amna Alhosani, Hussain Alasmawi, Werner Gerhard Diehl, Leanne Bricker, Karthik Nandakumar, Mohammad Yaqub, | (参考訳) 自己教師付き学習(SSL)メソッドは、基礎となるデータ分散を直接利用することで、限られた注釈付きデータで状況に対処できるため、人気がある。
しかし、超音波(US)イメージングでは、特に胎児評価において、そのような方法の採用が十分に検討されていない。
2次元US画像のラベル付けによる下流標準胎児心臓平面(SFCP)分類の性能向上を図るため,非ラベル付きUSビデオデータを利用したデュアルエンコーダSSLの可能性を検討する。
本研究では, 再構成, コントラスト損失, 蒸留, 情報理論に基づく7つのSSL手法について検討し, 大規模な米国データセット上で広く評価する。
我々は,異なる条件下で500以上の下流トレーニング実験から,観測と知見を統合した。
我々の第一の観察は、SSLトレーニングでは、データセットの分散はそのサイズよりも重要であり、なぜならモデルが一般化可能な表現を学習でき、下流タスクのパフォーマンスが向上するからである。
全体として、BarlowTwinsメソッドは、下流タスクの初期化として使用する場合、トレーニング設定やデータバリエーションに関係なく、堅牢なパフォーマンスを示す。
特に、ラベル付きデータの1%による完全な微調整は、ImageNetの初期化をF1スコアで12%上回り、他のSSLの初期化をF1スコアで少なくとも4%上回る。
Self-supervised learning (SSL) methods are popular since they can address situations with limited annotated data by directly utilising the underlying data distribution. However, the adoption of such methods is not explored enough in ultrasound (US) imaging, especially for fetal assessment. We investigate the potential of dual-encoder SSL in utilizing unlabelled US video data to improve the performance of challenging downstream Standard Fetal Cardiac Planes (SFCP) classification using limited labelled 2D US images. We study 7 SSL approaches based on reconstruction, contrastive loss, distillation, and information theory and evaluate them extensively on a large private US dataset. Our observations and findings are consolidated from more than 500 downstream training experiments under different settings. Our primary observation shows that for SSL training, the variance of the dataset is more crucial than its size because it allows the model to learn generalisable representations, which improve the performance of downstream tasks. Overall, the BarlowTwins method shows robust performance, irrespective of the training settings and data variations, when used as an initialisation for downstream tasks. Notably, full fine-tuning with 1% of labelled data outperforms ImageNet initialisation by 12% in F1-score and outperforms other SSL initialisations by at least 4% in F1-score, thus making it a promising candidate for transfer learning from US video to image data. | 翻訳日:2024-08-01 17:31:11 公開日:2024-07-31 |
# 3次元セグメンテーションにおけるSAMのパラメータ効率の良い微調整のためのフェデレートラーニングフレンドリーなアプローチ
A Federated Learning-Friendly Approach for Parameter-Efficient Fine-Tuning of SAM in 3D Segmentation ( http://arxiv.org/abs/2407.21739v1 ) ライセンス: Link先を確認 | Mothilal Asokan, Joseph Geo Benjamin, Mohammad Yaqub, Karthik Nandakumar, | (参考訳) 医用画像解析に基礎モデルを適用するには、事前トレーニングに使用される自然(ソース)データと医療(ターゲット)データの間の極端な分布シフトのため、かなりの量のデータを微調整する必要がある。
しかし、こうした微調整のためのタスク固有の医療データを中央で収集することは、多くのプライバシー上の懸念を引き起こす。
フェデレートラーニング(FL)は、プライベートな分散データのトレーニングに効果的な手段を提供するが、大規模な基盤モデルをフェデレートする際の通信コストは、すぐに重大なボトルネックとなり、ソリューションのスケーラビリティに影響を及ぼす可能性がある。
本研究では,パラメータ・エフェクト・ファインチューニング(PEFT)の強みをFLと組み合わせることで,FLにおける効果的な学習を確保しつつ,効率的なコミュニケーションの課題に対処する。
具体的には、3次元医用画像のセグメンテーションにセグメンメント・アニーシング・モデル(SAM)を適用するために、プラグアンドプレイのローランド・アダプタ(LoRA)を連合的に研究する。
LoRAを利用してデコーダ全体を微調整する以前の作業とは異なり、SAMの各粒状成分が微調整性能に与える影響を批判的に分析する。
そこで本研究では,通信コストの面で非常に効率のよい特定の層を同定し,オンパー精度を実現した。
実験により,SAMモデル(デコーダのほとんどを含む)のパラメータを適応時の元の状態に保持することは,基礎となる基盤モデルの性質を歪ませる傾向があるため,有用であることがわかった。
Fed-KiTSでは,3Dセグメンテーションタスクの性能を向上しながら,完全な微調整に比べて通信コスト(〜48倍)を低下させる。
提案手法はSAMedと類似し,通信の約2.8倍の低減を実現し,パラメータを微調整する。
我々は、Fed-IXIとProstate MRIデータセットの実験により、我々のアプローチをさらに検証する。
Adapting foundation models for medical image analysis requires finetuning them on a considerable amount of data because of extreme distribution shifts between natural (source) data used for pretraining and medical (target) data. However, collecting task-specific medical data for such finetuning at a central location raises many privacy concerns. Although Federated learning (FL) provides an effective means for training on private decentralized data, communication costs in federating large foundation models can quickly become a significant bottleneck, impacting the solution's scalability. In this work, we address this problem of efficient communication while ensuring effective learning in FL by combining the strengths of Parameter-Efficient Fine-tuning (PEFT) with FL. Specifically, we study plug-and-play Low-Rank Adapters (LoRA) in a federated manner to adapt the Segment Anything Model (SAM) for 3D medical image segmentation. Unlike prior works that utilize LoRA and finetune the entire decoder, we critically analyze the contribution of each granular component of SAM on finetuning performance. Thus, we identify specific layers to be federated that are very efficient in terms of communication cost while producing on-par accuracy. Our experiments show that retaining the parameters of the SAM model (including most of the decoder) in their original state during adaptation is beneficial because fine-tuning on small datasets tends to distort the inherent capabilities of the underlying foundation model. On Fed-KiTS, our approach decreases communication cost (~48x) compared to full fine-tuning while increasing performance (~6% Dice score) in 3D segmentation tasks. Our approach performs similar to SAMed while achieving ~2.8x reduction in communication and parameters to be finetuned. We further validate our approach with experiments on Fed-IXI and Prostate MRI datasets. | 翻訳日:2024-08-01 17:31:11 公開日:2024-07-31 |
# コントラスト要因分析
Contrastive Factor Analysis ( http://arxiv.org/abs/2407.21740v1 ) ライセンス: Link先を確認 | Zhibin Duan, Tiansheng Wen, Yifei Wang, Chen Zhu, Bo Chen, Mingyuan Zhou, | (参考訳) 因子分析は、しばしば行列分解のベイズ変種と見なされるが、不確実性を捉え、複雑な依存関係をモデル化し、堅牢性を確保するのに優れた能力を提供する。
深層学習の時代が到来するにつれ、因子分析は表現力の限界により、徐々に注目されるようになってきている。
対照的に、対照的な学習は、教師なし表現学習における効果を示す強力な手法として現れてきた。
2つの手法は異なるパラダイムであるが、最近の理論的解析により、対照的学習と行列分解の数学的等価性が明らかとなり、因子分析と対照的学習が組み合わさる可能性が高まっている。
本稿では, コントラスト学習の相互接続性, 行列分解, 因子分析の動機付けにより, コントラスト学習の領域における因子分析の有利性を活用することを目的とした, 新たなコントラスト要因分析フレームワークを提案する。
不整合表現を学習できる非負因子分析の解釈可能性特性をさらに活用するために、コントラスト係数解析を非負バージョンに拡張する。
最後に, 提案手法の有効性を, 表現性, 頑健性, 解釈可能性, 正確な不確実性評価など, 複数の重要な特性にわたって検証した。
Factor analysis, often regarded as a Bayesian variant of matrix factorization, offers superior capabilities in capturing uncertainty, modeling complex dependencies, and ensuring robustness. As the deep learning era arrives, factor analysis is receiving less and less attention due to their limited expressive ability. On the contrary, contrastive learning has emerged as a potent technique with demonstrated efficacy in unsupervised representational learning. While the two methods are different paradigms, recent theoretical analysis has revealed the mathematical equivalence between contrastive learning and matrix factorization, providing a potential possibility for factor analysis combined with contrastive learning. Motivated by the interconnectedness of contrastive learning, matrix factorization, and factor analysis, this paper introduces a novel Contrastive Factor Analysis framework, aiming to leverage factor analysis's advantageous properties within the realm of contrastive learning. To further leverage the interpretability properties of non-negative factor analysis, which can learn disentangled representations, contrastive factor analysis is extended to a non-negative version. Finally, extensive experimental validation showcases the efficacy of the proposed contrastive (non-negative) factor analysis methodology across multiple key properties, including expressiveness, robustness, interpretability, and accurate uncertainty estimation. | 翻訳日:2024-08-01 17:31:11 公開日:2024-07-31 |
# HGOE: グラフアウトオブディストリビューション検出のためのハイブリッド外部および内部グラフアウトラヤ露光
HGOE: Hybrid External and Internal Graph Outlier Exposure for Graph Out-of-Distribution Detection ( http://arxiv.org/abs/2407.21742v1 ) ライセンス: Link先を確認 | Junwei He, Qianqian Xu, Yangbangyan Jiang, Zitai Wang, Yuchen Sun, Qingming Huang, | (参考訳) ディープグラフ学習の進歩に伴い、グラフデータのアウト・オブ・ディストリビューション(OOD)検出が重要な課題となっている。
OOD検出における補助的データセットの有効性は画像データやテキストデータでは広く研究されているが、グラフデータではそのようなアプローチが検討されていない。
ユークリッドのデータとは異なり、グラフデータはより多様性を示すが、摂動に対する堅牢性は低く、外れ値の統合を複雑にする。
これらの課題に対処するために、グラフOOD検出性能を改善するために、内的および内的 \textbf{G}raph \textbf{O}utlier \textbf{E}xposure (HGOE) の導入を提案する。
本フレームワークでは,各種ドメインからのリアルな外部グラフデータの利用と,IDサブグループ内の内部外部値の合成により,IDクラス内のOODサンプルのロバスト性や存在感に対処する。
さらに,高品質なOODサンプルの使用を最大化しつつ,低品質なOODサンプルの影響を最小限に抑えつつ,重みを外れ値に適応的に割り当てる境界認識型OE損失を開発した。
提案するHGOEフレームワークはモデルに依存しず,既存のグラフOOD検出モデルの有効性を高めるために設計されている。
実験結果から,HGOEフレームワークは,既存のOOD検出モデルの性能を大幅に向上させることができることがわかった。
With the progressive advancements in deep graph learning, out-of-distribution (OOD) detection for graph data has emerged as a critical challenge. While the efficacy of auxiliary datasets in enhancing OOD detection has been extensively studied for image and text data, such approaches have not yet been explored for graph data. Unlike Euclidean data, graph data exhibits greater diversity but lower robustness to perturbations, complicating the integration of outliers. To tackle these challenges, we propose the introduction of \textbf{H}ybrid External and Internal \textbf{G}raph \textbf{O}utlier \textbf{E}xposure (HGOE) to improve graph OOD detection performance. Our framework involves using realistic external graph data from various domains and synthesizing internal outliers within ID subgroups to address the poor robustness and presence of OOD samples within the ID class. Furthermore, we develop a boundary-aware OE loss that adaptively assigns weights to outliers, maximizing the use of high-quality OOD samples while minimizing the impact of low-quality ones. Our proposed HGOE framework is model-agnostic and designed to enhance the effectiveness of existing graph OOD detection models. Experimental results demonstrate that our HGOE framework can significantly improve the performance of existing OOD detection models across all 8 real datasets. | 翻訳日:2024-08-01 17:31:11 公開日:2024-07-31 |
# インターリーブ型マルチモーダルシーケンスとしてのビデオコンテキストの学習
Learning Video Context as Interleaved Multimodal Sequences ( http://arxiv.org/abs/2407.21757v1 ) ライセンス: Link先を確認 | Kevin Qinghong Lin, Pengchuan Zhang, Difei Gao, Xide Xia, Joya Chen, Ziteng Gao, Jinheng Xie, Xuhong Xiao, Mike Zheng Shou, | (参考訳) 映画などのナラティブビデオは、リッチなコンテキスト(キャラクタ、対話、ストーリーライン)と多様な要求(誰、関係、理性)のために、ビデオ理解において重大な課題を提起する。
本稿では,ビデオコンテキスト理解における幅広い課題に対処するために開発されたマルチモーダル言語モデルであるMovieSeqを紹介する。
私たちの中核的な考え方は、動画をインターリーブされたマルチモーダルシーケンス(画像、プロット、ビデオ、サブタイトルを含む)として表現することであり、外部知識データベースをリンクするか、オフラインモデル(サブタイトルのwhisperなど)を使用することで表現します。
インストラクションチューニングにより、インターリーブされたマルチモーダル命令を用いてビデオと対話する言語モデルが強化される。
例えば、入力としてビデオのみに頼るのではなく、名前や対話と共に文字写真を提供し、モデルがこれらの要素を関連付け、より包括的な応答を生成することができる。
その効果を示すため,ビデオ分類,音声記述,ビデオテキスト検索,ビデオキャプション,ビデオ質問応答の6つのデータセット(LVU,MAD,Movienet,CMD,TVC,MovieQA)でMovieSeqの性能を検証した。
コードはhttps://github.com/showlab/MovieSeq.comで公開される。
Narrative videos, such as movies, pose significant challenges in video understanding due to their rich contexts (characters, dialogues, storylines) and diverse demands (identify who, relationship, and reason). In this paper, we introduce MovieSeq, a multimodal language model developed to address the wide range of challenges in understanding video contexts. Our core idea is to represent videos as interleaved multimodal sequences (including images, plots, videos, and subtitles), either by linking external knowledge databases or using offline models (such as whisper for subtitles). Through instruction-tuning, this approach empowers the language model to interact with videos using interleaved multimodal instructions. For example, instead of solely relying on video as input, we jointly provide character photos alongside their names and dialogues, allowing the model to associate these elements and generate more comprehensive responses. To demonstrate its effectiveness, we validate MovieSeq's performance on six datasets (LVU, MAD, Movienet, CMD, TVC, MovieQA) across five settings (video classification, audio description, video-text retrieval, video captioning, and video question-answering). The code will be public at https://github.com/showlab/MovieSeq. | 翻訳日:2024-08-01 17:31:11 公開日:2024-07-31 |
# MoMa: Modality-Aware Expertsを併用した効率的な早期フュージョン事前トレーニング
MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts ( http://arxiv.org/abs/2407.21770v1 ) ライセンス: Link先を確認 | Xi Victoria Lin, Akshat Shrivastava, Liang Luo, Srinivasan Iyer, Mike Lewis, Gargi Gosh, Luke Zettlemoyer, Armen Aghajanyan, | (参考訳) 混合モーダル・アーリーフュージョン言語モデルの事前学習用に設計された新しいモダリティ対応ミックス・オブ・エキスパート(MoE)アーキテクチャであるMoMaを紹介する。
MoMaは、専門家モジュールをモダリティ固有のグループに分割することで、任意のシーケンスで画像とテキストを処理する。
これらのグループは、意味的にインフォメーションされた適応性を維持するために、各グループ内で学習されたルーティングを使用しながら、指定されたトークンを排他的に処理する。
実験結果から, このモーダリティ比パラメータ割り当てにより, 事前学習効率が著しく向上することがわかった。
1トリルのトレーニング予算の下では、MoMa 1.4Bモデルは4人のテキスト専門家と4人の画像専門家をフィーチャーし、FLOPの大幅な節約を実現している: 全体として3.7倍、テキストは2.6倍、画像処理は5.2倍である。
これは8つの混合モードの専門家による標準的な専門家選択MoEよりも優れており、FLOP全体の3倍の節約(テキストでは3倍、画像では2.8倍)を実現している。
MoMaとミキシング・オブ・ディープス(MoD)を組み合わせることで、FLOPの事前トレーニングは4.2倍(テキスト:3.4倍、画像:5.3倍)に改善されるが、この組み合わせはルータ精度に対する感度の向上による因果推論の性能を損なう。
これらの結果は、MoMaが混合モーダル、アーリーフュージョン言語モデルの事前トレーニングの効率を大幅に向上する可能性を示し、よりリソース効率が高く有能なマルチモーダルAIシステムへの道を開いた。
We introduce MoMa, a novel modality-aware mixture-of-experts (MoE) architecture designed for pre-training mixed-modal, early-fusion language models. MoMa processes images and text in arbitrary sequences by dividing expert modules into modality-specific groups. These groups exclusively process designated tokens while employing learned routing within each group to maintain semantically informed adaptivity. Our empirical results reveal substantial pre-training efficiency gains through this modality-specific parameter allocation. Under a 1-trillion-token training budget, the MoMa 1.4B model, featuring 4 text experts and 4 image experts, achieves impressive FLOPs savings: 3.7x overall, with 2.6x for text and 5.2x for image processing compared to a compute-equivalent dense baseline, measured by pre-training loss. This outperforms the standard expert-choice MoE with 8 mixed-modal experts, which achieves 3x overall FLOPs savings (3x for text, 2.8x for image). Combining MoMa with mixture-of-depths (MoD) further improves pre-training FLOPs savings to 4.2x overall (text: 3.4x, image: 5.3x), although this combination hurts performance in causal inference due to increased sensitivity to router accuracy. These results demonstrate MoMa's potential to significantly advance the efficiency of mixed-modal, early-fusion language model pre-training, paving the way for more resource-efficient and capable multimodal AI systems. | 翻訳日:2024-08-01 17:31:11 公開日:2024-07-31 |
# ShieldGemma: Gemmaに基づいた生成AIコンテンツモデレーション
ShieldGemma: Generative AI Content Moderation Based on Gemma ( http://arxiv.org/abs/2407.21772v1 ) ライセンス: Link先を確認 | Wenjun Zeng, Yuchi Liu, Ryan Mullins, Ludovic Peran, Joe Fernandez, Hamza Harkous, Karthik Narasimhan, Drew Proud, Piyush Kumar, Bhaktipriya Radharapu, Olivia Sturman, Oscar Wahltinez, | (参考訳) Gemma2 上に構築された LLM ベースの安全コンテンツモデレーションモデルの包括的スイートである ShieldGemma を紹介する。
これらのモデルは、ユーザ入力とLCM生成出力の両方において、主要な害タイプ(性的に明示的で危険なコンテンツ、ハラスメント、ヘイトスピーチ)にわたる安全リスクの、堅牢で最先端の予測を提供する。
Llama Guard (+10.8\% AU-PRC on public benchmarks) やWildCard (+4.3\%) など,既存のモデルと比較して優れたパフォーマンスを示す。
さらに,LLMに基づく新たなデータキュレーションパイプラインを提案する。
我々は、主に合成データに基づいて訓練されたモデルに対して、強力な一般化性能を示した。
ShieldGemmaをリリースすることによって、研究コミュニティに貴重なリソースを提供し、LLMの安全性を向上し、開発者にとってより効果的なコンテンツモデレーションソリューションの作成を可能にします。
We present ShieldGemma, a comprehensive suite of LLM-based safety content moderation models built upon Gemma2. These models provide robust, state-of-the-art predictions of safety risks across key harm types (sexually explicit, dangerous content, harassment, hate speech) in both user input and LLM-generated output. By evaluating on both public and internal benchmarks, we demonstrate superior performance compared to existing models, such as Llama Guard (+10.8\% AU-PRC on public benchmarks) and WildCard (+4.3\%). Additionally, we present a novel LLM-based data curation pipeline, adaptable to a variety of safety-related tasks and beyond. We have shown strong generalization performance for model trained mainly on synthetic data. By releasing ShieldGemma, we provide a valuable resource to the research community, advancing LLM safety and enabling the creation of more effective content moderation solutions for developers. | 翻訳日:2024-08-01 17:31:11 公開日:2024-07-31 |
# チューリップエージェント -- LLMベースのエージェントを駆使して大きなツールライブラリーを用いたタスクを解決
Tulip Agent -- Enabling LLM-Based Agents to Solve Tasks Using Large Tool Libraries ( http://arxiv.org/abs/2407.21778v1 ) ライセンス: Link先を確認 | Felix Ocker, Daniel Tanneberg, Julian Eggert, Michael Gienger, | (参考訳) 我々は、Create、Read、Update、Deleteといった自動LLMエージェントのためのアーキテクチャであるTulip Agentを紹介した。
最先端の実装とは対照的に、チューリップエージェントはシステムプロンプトで利用可能なすべてのツールの記述をエンコードしていない。
代わりに、チューリップエージェントは、ベクトルストアとして例示的に実装された拡張可能なツールライブラリで、適切なツールを再帰的に検索することができる。
チューリップエージェントアーキテクチャは推論コストを大幅に削減し、大きなツールライブラリの使用を可能にし、エージェントがそのツールセットを適応し拡張することを可能にする。
数学の文脈でいくつかのアブレーション研究を行い,その一般化可能性とロボット工学への応用を実証した。
リファレンス実装とベンチマークはgithub.com/HRI-EU/tulip_agentで公開されている。
We introduce tulip agent, an architecture for autonomous LLM-based agents with Create, Read, Update, and Delete access to a tool library containing a potentially large number of tools. In contrast to state-of-the-art implementations, tulip agent does not encode the descriptions of all available tools in the system prompt, which counts against the model's context window, or embed the entire prompt for retrieving suitable tools. Instead, the tulip agent can recursively search for suitable tools in its extensible tool library, implemented exemplarily as a vector store. The tulip agent architecture significantly reduces inference costs, allows using even large tool libraries, and enables the agent to adapt and extend its set of tools. We evaluate the architecture with several ablation studies in a mathematics context and demonstrate its generalizability with an application to robotics. A reference implementation and the benchmark are available at github.com/HRI-EU/tulip_agent. | 翻訳日:2024-08-01 17:31:11 公開日:2024-07-31 |
# Llama 3のモデル群
The Llama 3 Herd of Models ( http://arxiv.org/abs/2407.21783v1 ) ライセンス: Link先を確認 | Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey, Abhishek Kadian, Ahmad Al-Dahle, Aiesha Letman, Akhil Mathur, Alan Schelten, Amy Yang, Angela Fan, Anirudh Goyal, Anthony Hartshorn, Aobo Yang, Archi Mitra, Archie Sravankumar, Artem Korenev, Arthur Hinsvark, Arun Rao, Aston Zhang, Aurelien Rodriguez, Austen Gregerson, Ava Spataru, Baptiste Roziere, Bethany Biron, Binh Tang, Bobbie Chern, Charlotte Caucheteux, Chaya Nayak, Chloe Bi, Chris Marra, Chris McConnell, Christian Keller, Christophe Touret, Chunyang Wu, Corinne Wong, Cristian Canton Ferrer, Cyrus Nikolaidis, Damien Allonsius, Daniel Song, Danielle Pintz, Danny Livshits, David Esiobu, Dhruv Choudhary, Dhruv Mahajan, Diego Garcia-Olano, Diego Perino, Dieuwke Hupkes, Egor Lakomkin, Ehab AlBadawy, Elina Lobanova, Emily Dinan, Eric Michael Smith, Filip Radenovic, Frank Zhang, Gabriel Synnaeve, Gabrielle Lee, Georgia Lewis Anderson, Graeme Nail, Gregoire Mialon, Guan Pang, Guillem Cucurell, Hailey Nguyen, Hannah Korevaar, Hu Xu, Hugo Touvron, Iliyan Zarov, Imanol Arrieta Ibarra, Isabel Kloumann, Ishan Misra, Ivan Evtimov, Jade Copet, Jaewon Lee, Jan Geffert, Jana Vranes, Jason Park, Jay Mahadeokar, Jeet Shah, Jelmer van der Linde, Jennifer Billock, Jenny Hong, Jenya Lee, Jeremy Fu, Jianfeng Chi, Jianyu Huang, Jiawen Liu, Jie Wang, Jiecao Yu, Joanna Bitton, Joe Spisak, Jongsoo Park, Joseph Rocca, Joshua Johnstun, Joshua Saxe, Junteng Jia, Kalyan Vasuden Alwala, Kartikeya Upasani, Kate Plawiak, Ke Li, Kenneth Heafield, Kevin Stone, Khalid El-Arini, Krithika Iyer, Kshitiz Malik, Kuenley Chiu, Kunal Bhalla, Lauren Rantala-Yeary, Laurens van der Maaten, Lawrence Chen, Liang Tan, Liz Jenkins, Louis Martin, Lovish Madaan, Lubo Malo, Lukas Blecher, Lukas Landzaat, Luke de Oliveira, Madeline Muzzi, Mahesh Pasupuleti, Mannat Singh, Manohar Paluri, Marcin Kardas, Mathew Oldham, Mathieu Rita, Maya Pavlova, Melanie Kambadur, Mike Lewis, Min Si, Mitesh Kumar Singh, Mona Hassan, Naman Goyal, Narjes Torabi, Nikolay Bashlykov, Nikolay Bogoychev, Niladri Chatterji, Olivier Duchenne, Onur Çelebi, Patrick Alrassy, Pengchuan Zhang, Pengwei Li, Petar Vasic, Peter Weng, Prajjwal Bhargava, Pratik Dubal, Praveen Krishnan, Punit Singh Koura, Puxin Xu, Qing He, Qingxiao Dong, Ragavan Srinivasan, Raj Ganapathy, Ramon Calderer, Ricardo Silveira Cabral, Robert Stojnic, Roberta Raileanu, Rohit Girdhar, Rohit Patel, Romain Sauvestre, Ronnie Polidoro, Roshan Sumbaly, Ross Taylor, Ruan Silva, Rui Hou, Rui Wang, Saghar Hosseini, Sahana Chennabasappa, Sanjay Singh, Sean Bell, Seohyun Sonia Kim, Sergey Edunov, Shaoliang Nie, Sharan Narang, Sharath Raparthy, Sheng Shen, Shengye Wan, Shruti Bhosale, Shun Zhang, Simon Vandenhende, Soumya Batra, Spencer Whitman, Sten Sootla, Stephane Collot, Suchin Gururangan, Sydney Borodinsky, Tamar Herman, Tara Fowler, Tarek Sheasha, Thomas Georgiou, Thomas Scialom, Tobias Speckbacher, Todor Mihaylov, Tong Xiao, Ujjwal Karn, Vedanuj Goswami, Vibhor Gupta, Vignesh Ramanathan, Viktor Kerkez, Vincent Gonguet, Virginie Do, Vish Vogeti, Vladan Petrovic, Weiwei Chu, Wenhan Xiong, Wenyin Fu, Whitney Meers, Xavier Martinet, Xiaodong Wang, Xiaoqing Ellen Tan, Xinfeng Xie, Xuchao Jia, Xuewei Wang, Yaelle Goldschlag, Yashesh Gaur, Yasmine Babaei, Yi Wen, Yiwen Song, Yuchen Zhang, Yue Li, Yuning Mao, Zacharie Delpierre Coudert, Zheng Yan, Zhengxing Chen, Zoe Papakipos, Aaditya Singh, Aaron Grattafiori, Abha Jain, Adam Kelsey, Adam Shajnfeld, Adithya Gangidi, Adolfo Victoria, Ahuva Goldstand, Ajay Menon, Ajay Sharma, Alex Boesenberg, Alex Vaughan, Alexei Baevski, Allie Feinstein, Amanda Kallet, Amit Sangani, Anam Yunus, Andrei Lupu, Andres Alvarado, Andrew Caples, Andrew Gu, Andrew Ho, Andrew Poulton, Andrew Ryan, Ankit Ramchandani, Annie Franco, Aparajita Saraf, Arkabandhu Chowdhury, Ashley Gabriel, Ashwin Bharambe, Assaf Eisenman, Azadeh Yazdan, Beau James, Ben Maurer, Benjamin Leonhardi, Bernie Huang, Beth Loyd, Beto De Paola, Bhargavi Paranjape, Bing Liu, Bo Wu, Boyu Ni, Braden Hancock, Bram Wasti, Brandon Spence, Brani Stojkovic, Brian Gamido, Britt Montalvo, Carl Parker, Carly Burton, Catalina Mejia, Changhan Wang, Changkyu Kim, Chao Zhou, Chester Hu, Ching-Hsiang Chu, Chris Cai, Chris Tindal, Christoph Feichtenhofer, Damon Civin, Dana Beaty, Daniel Kreymer, Daniel Li, Danny Wyatt, David Adkins, David Xu, Davide Testuggine, Delia David, Devi Parikh, Diana Liskovich, Didem Foss, Dingkang Wang, Duc Le, Dustin Holland, Edward Dowling, Eissa Jamil, Elaine Montgomery, Eleonora Presani, Emily Hahn, Emily Wood, Erik Brinkman, Esteban Arcaute, Evan Dunbar, Evan Smothers, Fei Sun, Felix Kreuk, Feng Tian, Firat Ozgenel, Francesco Caggioni, Francisco Guzmán, Frank Kanayet, Frank Seide, Gabriela Medina Florez, Gabriella Schwarz, Gada Badeer, Georgia Swee, Gil Halpern, Govind Thattai, Grant Herman, Grigory Sizov, Guangyi, Zhang, Guna Lakshminarayanan, Hamid Shojanazeri, Han Zou, Hannah Wang, Hanwen Zha, Haroun Habeeb, Harrison Rudolph, Helen Suk, Henry Aspegren, Hunter Goldman, Igor Molybog, Igor Tufanov, Irina-Elena Veliche, Itai Gat, Jake Weissman, James Geboski, James Kohli, Japhet Asher, Jean-Baptiste Gaya, Jeff Marcus, Jeff Tang, Jennifer Chan, Jenny Zhen, Jeremy Reizenstein, Jeremy Teboul, Jessica Zhong, Jian Jin, Jingyi Yang, Joe Cummings, Jon Carvill, Jon Shepard, Jonathan McPhie, Jonathan Torres, Josh Ginsburg, Junjie Wang, Kai Wu, Kam Hou U, Karan Saxena, Karthik Prasad, Kartikay Khandelwal, Katayoun Zand, Kathy Matosich, Kaushik Veeraraghavan, Kelly Michelena, Keqian Li, Kun Huang, Kunal Chawla, Kushal Lakhotia, Kyle Huang, Lailin Chen, Lakshya Garg, Lavender A, Leandro Silva, Lee Bell, Lei Zhang, Liangpeng Guo, Licheng Yu, Liron Moshkovich, Luca Wehrstedt, Madian Khabsa, Manav Avalani, Manish Bhatt, Maria Tsimpoukelli, Martynas Mankus, Matan Hasson, Matthew Lennie, Matthias Reso, Maxim Groshev, Maxim Naumov, Maya Lathi, Meghan Keneally, Michael L. Seltzer, Michal Valko, Michelle Restrepo, Mihir Patel, Mik Vyatskov, Mikayel Samvelyan, Mike Clark, Mike Macey, Mike Wang, Miquel Jubert Hermoso, Mo Metanat, Mohammad Rastegari, Munish Bansal, Nandhini Santhanam, Natascha Parks, Natasha White, Navyata Bawa, Nayan Singhal, Nick Egebo, Nicolas Usunier, Nikolay Pavlovich Laptev, Ning Dong, Ning Zhang, Norman Cheng, Oleg Chernoguz, Olivia Hart, Omkar Salpekar, Ozlem Kalinli, Parkin Kent, Parth Parekh, Paul Saab, Pavan Balaji, Pedro Rittner, Philip Bontrager, Pierre Roux, Piotr Dollar, Polina Zvyagina, Prashant Ratanchandani, Pritish Yuvraj, Qian Liang, Rachad Alao, Rachel Rodriguez, Rafi Ayub, Raghotham Murthy, Raghu Nayani, Rahul Mitra, Raymond Li, Rebekkah Hogan, Robin Battey, Rocky Wang, Rohan Maheswari, Russ Howes, Ruty Rinott, Sai Jayesh Bondu, Samyak Datta, Sara Chugh, Sara Hunt, Sargun Dhillon, Sasha Sidorov, Satadru Pan, Saurabh Verma, Seiji Yamamoto, Sharadh Ramaswamy, Shaun Lindsay, Shaun Lindsay, Sheng Feng, Shenghao Lin, Shengxin Cindy Zha, Shiva Shankar, Shuqiang Zhang, Shuqiang Zhang, Sinong Wang, Sneha Agarwal, Soji Sajuyigbe, Soumith Chintala, Stephanie Max, Stephen Chen, Steve Kehoe, Steve Satterfield, Sudarshan Govindaprasad, Sumit Gupta, Sungmin Cho, Sunny Virk, Suraj Subramanian, Sy Choudhury, Sydney Goldman, Tal Remez, Tamar Glaser, Tamara Best, Thilo Kohler, Thomas Robinson, Tianhe Li, Tianjun Zhang, Tim Matthews, Timothy Chou, Tzook Shaked, Varun Vontimitta, Victoria Ajayi, Victoria Montanez, Vijai Mohan, Vinay Satish Kumar, Vishal Mangla, Vlad Ionescu, Vlad Poenaru, Vlad Tiberiu Mihailescu, Vladimir Ivanov, Wei Li, Wenchen Wang, Wenwen Jiang, Wes Bouaziz, Will Constable, Xiaocheng Tang, Xiaofang Wang, Xiaojian Wu, Xiaolan Wang, Xide Xia, Xilun Wu, Xinbo Gao, Yanjun Chen, Ye Hu, Ye Jia, Ye Qi, Yenda Li, Yilin Zhang, Ying Zhang, Yossi Adi, Youngjin Nam, Yu, Wang, Yuchen Hao, Yundi Qian, Yuzi He, Zach Rait, Zachary DeVito, Zef Rosnbrick, Zhaoduo Wen, Zhenyu Yang, Zhiwei Zhao, | (参考訳) 現代の人工知能(AI)システムは基礎モデルによって駆動される。
本稿ではLlama 3と呼ばれる新しい基礎モデルについて述べる。
多言語性、コーディング、推論、ツールの使用をネイティブにサポートする言語モデルの群れである。
私たちの最大のモデルは、405Bパラメータと最大128Kトークンのコンテキストウィンドウを持つ高密度トランスフォーマーです。
本報告ではLlama 3の広範な評価について述べる。
Llama 3は、GPT-4のような主要な言語モデルに匹敵する品質を多くのタスクで提供しています。
Llama 3には405Bパラメータ言語モデルとLlama Guard 3モデルの事前訓練後バージョンが含まれています。
また,Llama 3に画像,映像,音声の機能を組み込む実験を行った。
我々は,この手法が画像,ビデオ,音声認識タスクの最先端技術と競合する様子を観察する。
結果として得られたモデルは、まだ開発中であるため、まだ広くリリースされていない。
Modern artificial intelligence (AI) systems are powered by foundation models. This paper presents a new set of foundation models, called Llama 3. It is a herd of language models that natively support multilinguality, coding, reasoning, and tool usage. Our largest model is a dense Transformer with 405B parameters and a context window of up to 128K tokens. This paper presents an extensive empirical evaluation of Llama 3. We find that Llama 3 delivers comparable quality to leading language models such as GPT-4 on a plethora of tasks. We publicly release Llama 3, including pre-trained and post-trained versions of the 405B parameter language model and our Llama Guard 3 model for input and output safety. The paper also presents the results of experiments in which we integrate image, video, and speech capabilities into Llama 3 via a compositional approach. We observe this approach performs competitively with the state-of-the-art on image, video, and speech recognition tasks. The resulting models are not yet being broadly released as they are still under development. | 翻訳日:2024-08-01 17:31:11 公開日:2024-07-31 |
# 大規模言語モンキー:反復サンプリングによる推論計算のスケーリング
Large Language Monkeys: Scaling Inference Compute with Repeated Sampling ( http://arxiv.org/abs/2407.21787v1 ) ライセンス: Link先を確認 | Bradley Brown, Jordan Juravsky, Ryan Ehrlich, Ronald Clark, Quoc V. Le, Christopher Ré, Azalia Mirhoseini, | (参考訳) 言語モデルのトレーニングに使用する計算量をスケールアップすることで、その能力は劇的に向上した。
しかし、推論に関して言えば、計算量は問題ごとの1回の試行に制限されることが多い。
そこで本研究では,生成サンプル数を増大させることにより,推論計算をスケーリングの別の軸として検討する。
複数のタスクやモデルにまたがって、あらゆる試みによって解決された問題のごく一部であるカバレッジは、4桁以上のサンプル数でスケールする。
すべての回答を自動的に検証できるコーディングや形式証明のようなドメインでは、カバレッジの増加は直接的にパフォーマンスの向上に変換される。
SWE-bench Liteに繰り返しサンプリングを適用すると、DeepSeek-V2-Coder-Instructで解決された問題の割合は15.9%に増加し、1サンプルで56%、250サンプルで56%に増加し、より有能なフロンティアモデルを用いた43%の単一回避状態よりも優れていた。
さらに、現在のAPI価格を使用すると、5つのサンプルでより安価なDeepSeekモデルを増幅する方がコスト効率が高く、GPT-4oやClaude 3.5 Sonnetから1つのサンプルに対してプレミアムを支払うよりも多くの問題を解決する。
興味深いことに、カバレッジとサンプル数の関係は、しばしば対数線形であり、指数化されたパワー法則でモデル化することができ、推論時スケーリング法則の存在を示唆している。
最後に、多くの世代から正しいサンプルを同定することは、自動検証のない領域における将来の研究にとって重要な方向であることがわかった。
GSM8KとMATHから数学語を解くと、Llama-3モデルのカバレッジは1万のサンプルで95%以上になる。
しかし、多数決や報奨モデルなど、サンプルコレクションから正しいソリューションを選択する一般的な方法は、数百のサンプルを超越し、サンプル予算で完全にスケールできない。
Scaling the amount of compute used to train language models has dramatically improved their capabilities. However, when it comes to inference, we often limit the amount of compute to only one attempt per problem. Here, we explore inference compute as another axis for scaling by increasing the number of generated samples. Across multiple tasks and models, we observe that coverage - the fraction of problems solved by any attempt - scales with the number of samples over four orders of magnitude. In domains like coding and formal proofs, where all answers can be automatically verified, these increases in coverage directly translate into improved performance. When we apply repeated sampling to SWE-bench Lite, the fraction of issues solved with DeepSeek-V2-Coder-Instruct increases from 15.9% with one sample to 56% with 250 samples, outperforming the single-attempt state-of-the-art of 43% which uses more capable frontier models. Moreover, using current API pricing, amplifying the cheaper DeepSeek model with five samples is more cost-effective and solves more issues than paying a premium for one sample from GPT-4o or Claude 3.5 Sonnet. Interestingly, the relationship between coverage and the number of samples is often log-linear and can be modelled with an exponentiated power law, suggesting the existence of inference-time scaling laws. Finally, we find that identifying correct samples out of many generations remains an important direction for future research in domains without automatic verifiers. When solving math word problems from GSM8K and MATH, coverage with Llama-3 models grows to over 95% with 10,000 samples. However, common methods to pick correct solutions from a sample collection, such as majority voting or reward models, plateau beyond several hundred samples and fail to fully scale with the sample budget. | 翻訳日:2024-08-01 17:31:11 公開日:2024-07-31 |
# 視覚言語モデルに基づく手書き検証
Vision-Language Model Based Handwriting Verification ( http://arxiv.org/abs/2407.21788v1 ) ライセンス: Link先を確認 | Mihir Chauhan, Abhishek Satbhai, Mohammad Abuzar Hashemi, Mir Basheer Ali, Bina Ramamurthy, Mingchen Gao, Siwei Lyu, Sargur Srihari, | (参考訳) 手書き検証は、文書の法医学において重要なものである。
深層学習に基づくアプローチは、説明可能性の欠如と広範囲なトレーニングデータと手作りの特徴への依存のため、法医学的な文書検査官からの懐疑に直面することが多い。
本稿では,OpenAI の GPT-4o や Google の PaliGemma などの視覚言語モデル (VLM) を用いてこれらの課題に対処する。
Visual Question Answering機能と0-shot Chain-of-Thought (CoT)推論を活用することで、私たちの目標は、モデル決定に対して明確で人間に理解可能な説明を提供することです。
CEDAR手書きデータセットの実験は、VLMが拡張された解釈可能性を提供し、大規模なトレーニングデータセットの必要性を低減し、多様な手書きスタイルに適応できることを実証している。
しかし、CNNベースのResNet-18アーキテクチャは、GPT-4o(精度:70%)で0ショットのCoTプロンプトエンジニアリングアプローチを上回り、微調整されたPaliGemma(精度:71%)を監督し、CEDARとデータセットで84%の精度を実現している。
これらの知見は、人間の解釈可能な決定を生成する上でのVLMの可能性を強調し、専門的なディープラーニングモデルの性能に合わせたさらなる進歩の必要性を強調している。
Handwriting Verification is a critical in document forensics. Deep learning based approaches often face skepticism from forensic document examiners due to their lack of explainability and reliance on extensive training data and handcrafted features. This paper explores using Vision Language Models (VLMs), such as OpenAI's GPT-4o and Google's PaliGemma, to address these challenges. By leveraging their Visual Question Answering capabilities and 0-shot Chain-of-Thought (CoT) reasoning, our goal is to provide clear, human-understandable explanations for model decisions. Our experiments on the CEDAR handwriting dataset demonstrate that VLMs offer enhanced interpretability, reduce the need for large training datasets, and adapt better to diverse handwriting styles. However, results show that the CNN-based ResNet-18 architecture outperforms the 0-shot CoT prompt engineering approach with GPT-4o (Accuracy: 70%) and supervised fine-tuned PaliGemma (Accuracy: 71%), achieving an accuracy of 84% on the CEDAR AND dataset. These findings highlight the potential of VLMs in generating human-interpretable decisions while underscoring the need for further advancements to match the performance of specialized deep learning models. | 翻訳日:2024-08-01 17:31:11 公開日:2024-07-31 |
# AIの安全基準は実際に安全の進歩を測るのか?
Safetywashing: Do AI Safety Benchmarks Actually Measure Safety Progress? ( http://arxiv.org/abs/2407.21792v1 ) ライセンス: Link先を確認 | Richard Ren, Steven Basart, Adam Khoja, Alice Gatti, Long Phan, Xuwang Yin, Mantas Mazeika, Alexander Pan, Gabriel Mukobi, Ryan H. Kim, Stephen Fitz, Dan Hendrycks, | (参考訳) 人工知能システムがより強力になるにつれて、新たなリスクと将来のリスクに対処する"AI安全"研究への関心が高まっている。
しかし、AIの安全性の分野はいまだに十分に定義されておらず、不整合的に測定されているため、研究者がどのように貢献できるかという混乱を招いている。
この明確さの欠如は、AIの安全性ベンチマークと上流の一般的な能力(例えば、一般的な知識と推論)の間の不明瞭な関係によって複雑化している。
これらの問題に対処するため、私たちはAI安全性ベンチマークの包括的なメタ分析を行い、数十のモデルにわたる一般的な機能との相関を実証的に分析し、AI安全性における既存の方向性を調査します。
この結果から,多くの安全ベンチマークが上流モデルの能力と高い相関関係があることが判明した。
これらの知見に基づいて、より有意義な安全性指標を開発し、汎用能力の進歩から経験的に分離可能な、明確に記述された研究目標のセットとして、機械学習研究コンテキストにおけるAI安全性を定義するための実証的基盤を提案する。
そこで我々は、AI安全研究のためのより厳格なフレームワークの提供、安全性評価の科学の進歩、測定可能な進歩への道のりを明確にすることを目的としている。
As artificial intelligence systems grow more powerful, there has been increasing interest in "AI safety" research to address emerging and future risks. However, the field of AI safety remains poorly defined and inconsistently measured, leading to confusion about how researchers can contribute. This lack of clarity is compounded by the unclear relationship between AI safety benchmarks and upstream general capabilities (e.g., general knowledge and reasoning). To address these issues, we conduct a comprehensive meta-analysis of AI safety benchmarks, empirically analyzing their correlation with general capabilities across dozens of models and providing a survey of existing directions in AI safety. Our findings reveal that many safety benchmarks highly correlate with upstream model capabilities, potentially enabling "safetywashing" -- where capability improvements are misrepresented as safety advancements. Based on these findings, we propose an empirical foundation for developing more meaningful safety metrics and define AI safety in a machine learning research context as a set of clearly delineated research goals that are empirically separable from generic capabilities advancements. In doing so, we aim to provide a more rigorous framework for AI safety research, advancing the science of safety evaluations and clarifying the path towards measurable progress. | 翻訳日:2024-08-01 17:31:11 公開日:2024-07-31 |
# 一般化された分布外検出と視覚言語モデル時代の超越:調査
Generalized Out-of-Distribution Detection and Beyond in Vision Language Model Era: A Survey ( http://arxiv.org/abs/2407.21794v1 ) ライセンス: Link先を確認 | Atsuyuki Miyai, Jingkang Yang, Jingyang Zhang, Yifei Ming, Yueqian Lin, Qing Yu, Go Irie, Shafiq Joty, Yixuan Li, Hai Li, Ziwei Liu, Toshihiko Yamasaki, Kiyoharu Aizawa, | (参考訳) オフ・オブ・ディストリビューション(OOD)サンプルの検出は、機械学習システムの安全性を確保する上で不可欠であり、OOD検出の分野を形成している。
一方、他のいくつかの問題は、異常検出(AD)、新規検出(ND)、オープンセット認識(OSR)、外れ値検出(OD)など、OOD検出と密接に関連している。
これらの問題を分類学的に分類した一般化OOD検出フレームワークが提案された。
しかし、CLIPのようなビジョン言語モデル(VLM)はパラダイムを大きく変え、これらの領域の境界を曖昧にし、研究者を混乱させた。
本調査では, VLM時代のAD, ND, OSR, OOD, ODの進化をカプセル化した一般OOD検出v2を最初に提示する。
我々のフレームワークは、いくつかのフィールド不活性と統合により、要求される課題がOOD検出とADになっていることを明らかにしている。
さらに、我々は、OOD検出の方法論を包括的に検討し、OOD検出との関係を明らかにするために、他の関連するタスクに関する議論を含め、その定義、問題設定、ベンチマークの大幅な変化を強調した。
最後に、GPT-4VのようなLVLM(Large Vision Language Model)時代の進展について検討する。
この調査はオープンな課題と今後の方向性で締めくくります。
Detecting out-of-distribution (OOD) samples is crucial for ensuring the safety of machine learning systems and has shaped the field of OOD detection. Meanwhile, several other problems are closely related to OOD detection, including anomaly detection (AD), novelty detection (ND), open set recognition (OSR), and outlier detection (OD). To unify these problems, a generalized OOD detection framework was proposed, taxonomically categorizing these five problems. However, Vision Language Models (VLMs) such as CLIP have significantly changed the paradigm and blurred the boundaries between these fields, again confusing researchers. In this survey, we first present a generalized OOD detection v2, encapsulating the evolution of AD, ND, OSR, OOD detection, and OD in the VLM era. Our framework reveals that, with some field inactivity and integration, the demanding challenges have become OOD detection and AD. In addition, we also highlight the significant shift in the definition, problem settings, and benchmarks; we thus feature a comprehensive review of the methodology for OOD detection, including the discussion over other related tasks to clarify their relationship to OOD detection. Finally, we explore the advancements in the emerging Large Vision Language Model (LVLM) era, such as GPT-4V. We conclude this survey with open challenges and future directions. | 翻訳日:2024-08-01 17:31:11 公開日:2024-07-31 |
# 量子フォトニックプロセッサの学習理論
A learning theory for quantum photonic processors and beyond ( http://arxiv.org/abs/2209.03075v4 ) ライセンス: Link先を確認 | Matteo Rosati, | (参考訳) 連続可変(CV)量子回路によって生成された量子状態、測定、チャネルを学習するタスクについて考察する。
この回路群は光量子技術を記述するのに適しており、特に量子優位性を示すことのできる最先端のフォトニクスプロセッサを含んでいる。
CV回路パラメータに符号化された古典変数をそれらの回路上で評価された結果確率にマッピングする関数のクラスを定義する。
次に、擬似次元や被覆数の境界を計算することによって、そのようなクラスに対する効率的な学習可能性を保証するとともに、CV量子回路が回路サイズ、すなわちモードの数と多項式的にスケールするサンプルの複雑さで学習可能であることを示す。
その結果, CV回路は, 有限次元の回路と異なり, 回路深度によらず, 効率よくトレーニングできることがわかった。
We consider the tasks of learning quantum states, measurements and channels generated by continuous-variable (CV) quantum circuits. This family of circuits is suited to describe optical quantum technologies and in particular it includes state-of-the-art photonic processors capable of showing quantum advantage. We define classes of functions that map classical variables, encoded into the CV circuit parameters, to outcome probabilities evaluated on those circuits. We then establish efficient learnability guarantees for such classes, by computing bounds on their pseudo-dimension or covering numbers, showing that CV quantum circuits can be learned with a sample complexity that scales polynomially with the circuit's size, i.e., the number of modes. Our results show that CV circuits can be trained efficiently using a number of training samples that, unlike their finite-dimensional counterpart, does not scale with the circuit depth. | 翻訳日:2024-08-01 13:43:16 公開日:2024-07-31 |
# パウリ演算子の期待値に基づく量子エンタングルメント測定の導入
Introduction Of Quantum Entanglement Measure Based On The Expectation Values Of Pauli Operators ( http://arxiv.org/abs/2211.08981v4 ) ライセンス: Link先を確認 | Mahmood Zeheiry, | (参考訳) 本稿では, 粒子の分離状態において, 1粒子の測定が第2粒子の測定に影響を与えないことを考えると, アリスとボブは粒子のスピンにおける測定結果が常に最大になる方向を見つけることができることを示す。
言い換えれば、粒子の状態はその方向に適用される作用素の固有状態であり、2つの粒子のスピンの和は最大値を持つことができる。
絡み合った状態においては、粒子測定結果が互いに影響するため、アリスとボブは所望の作用素を見つけることができない。
したがって、そのような測定では、粒子の総スピンは常に上述の最大値よりも小さくなる。
しかし、最も価値を得られる方向を測ってみるように頼みます。
この値は分離可能な状態に対して最大であり、完全に絡み合った状態に対して最小であり、残りの状態では2つの最大値と最小値の間の絡み合いの程度に比例するので、このパラメータを「分離性指数」と呼ぶように設定する。
そして、この指標に基づいて、絡み合いの尺度を導入し、より高い次元の状態に拡張した。
最後に,2量子状態の例,2量子状態の例,および2量子状態の例について検討し,実験結果から測定の効率を確認した。
この尺度では, 絡み値の値は期待値に基づいて算出され, 実験で期待値を測定することができることから, 絡み値の検証可能性に一歩近づくことを期待する。
In this paper, firstly considering that in separable states, the measurement of one particle has no effect on the measurement of the second particle, we show that Alice and Bob can find directions in which the results of their measurements on the spin of the particle are always maximized. In other words, the state of the particle is an eigenstate for the operator that is applied in that direction, so the sum of the spins of two particles can have a maximum value. We will argue that in entangled states, due to the effect of particle measurement results on each other, Alice and Bob cannot find the desired operators. Therefore, in such measurements, the total spin of the particles will always be less than the mentioned maximum. But we ask them to try and measure in directions that will get the most value. Because this value is maximum for separable states and minimum for fully entangled states, and for the rest of the states, it will be proportional to the degree of entanglement between the two maximum and minimum values, we set this parameter as We are calling it the "separability index". Then, based on this index, the measure of entanglement was introduced and extended to states with higher dimensions. In the end, examples of di-qubit states di-qutrit states, and di-qudit states were investigated and the efficiency of the measure was confirmed by the results of the examples. Considering that in this measure, the values of entanglement are calculated based on the expectation values and we can measure the expectation values in the experiment, we hope to be one step closer to the testability of the entanglement value. | 翻訳日:2024-08-01 13:43:16 公開日:2024-07-31 |
# 再パラメータ化と補間による厳密なフラクショナル推論 : 木重重みと信念の伝播-アルゴリズム
Exact Fractional Inference via Re-Parametrization & Interpolation between Tree-Re-Weighted- and Belief Propagation- Algorithms ( http://arxiv.org/abs/2301.10369v3 ) ライセンス: Link先を確認 | Hamidreza Behjoo, Michael Chertkov, | (参考訳) N$'spins" グラフ上のイジングモデルのパーティション関数の計算に要する推論の計算複雑性は、おそらく$N$で指数関数である。
Belief Propagation (BP) や Tree Re-Weighted (TRW) アルゴリズムのような効率的な変分法は、各 (BP- または TRW-) 自由エネルギーを最小化することによって、およそ$Z$を計算する。
我々は,$\lambda$-fractional interpolation, $Z^{(\lambda)}$, $\lambda=0$と$\lambda=1$をそれぞれTRW-およびBP-approximationsに対応付けることで,変分スキームを一般化する。
この分数的スキームは、FBP(Fractional Belief Propagation)と呼ばれ、魅力的な(強磁性)ケース$Z^{(TRW)} \geq Z^{(\lambda)} \geq Z^{(BP)}$であり、$Z=Z^{(\lambda_*)}$のようなユニークな(`exact)$\lambda_*$が存在することを保証している。
フロフp{wainwright_tree-based_2002} の再パラメトリゼーションアプローチと \citep{chertkov_loop_2006} のループ級数アプローチを一般化し、積として $Z$ を $\forall \lambda:\ Z=Z^{(\lambda)}{\tilde Z}^{(\lambda)}$ で表現する方法を示す。
我々の理論解析は、中規模および大規模の平面およびランダムグラフ上のIsingアンサンブルのモデルによる広範な実験によって補完される。
経験的研究は、${\tilde Z}^{(\lambda)}$を$O(N^{2::4})$分数サンプルで推定する機能や、特定のランダムなIsingアンサンブルからインスタンスに対して$N$の増加を伴う$\lambda_*$ゆらぎの抑制など、興味深い観測をもたらす。
また,画像デノイズ化問題に対する本手法の適用性についても検証し,検討する。
The computational complexity of inference -- required to compute the partition function, $Z$, of an Ising model over a graph of $N$''spins" -- is most likely exponential in $N$. Efficient variational methods, such as Belief Propagation (BP) and Tree Re-Weighted (TRW) algorithms, compute $Z$ approximately by minimizing the respective (BP- or TRW-) free energy. We generalize the variational scheme by building a $\lambda$-fractional interpolation, $Z^{(\lambda)}$, where $\lambda=0$ and $\lambda=1$ correspond to TRW- and BP-approximations, respectively. This fractional scheme -- coined Fractional Belief Propagation (FBP) -- guarantees that in the attractive (ferromagnetic) case $Z^{(TRW)} \geq Z^{(\lambda)} \geq Z^{(BP)}$, and there exists a unique (``exact") $\lambda_*$ such that $Z=Z^{(\lambda_*)}$. Generalizing the re-parametrization approach of \citep{wainwright_tree-based_2002} and the loop series approach of \citep{chertkov_loop_2006}, we show how to express $Z$ as a product, $\forall \lambda:\ Z=Z^{(\lambda)}{\tilde Z}^{(\lambda)}$, where the multiplicative correction, ${\tilde Z}^{(\lambda)}$, is an expectation over a node-independent probability distribution built from node-wise fractional marginals. Our theoretical analysis is complemented by extensive experiments with models from Ising ensembles over planar and random graphs of medium- and large-sizes. The empirical study yields a number of interesting observations, such as the ability to estimate ${\tilde Z}^{(\lambda)}$ with $O(N^{2::4})$ fractional samples and suppression of $\lambda_*$ fluctuations with an increase in $N$ for instances from a particular random Ising ensemble. We also verify and discuss the applicability of this approach to the problem of image de-noising. | 翻訳日:2024-08-01 13:43:16 公開日:2024-07-31 |
# Naeural AI OS -- 分散ユビキタスコンピューティングMLOps実行エンジン
Naeural AI OS -- Decentralized ubiquitous computing MLOps execution engine ( http://arxiv.org/abs/2306.08708v3 ) ライセンス: Link先を確認 | Beatrice Milik, Stefan Saraev, Cristian Bleotiu, Radu Lupaescu, Bogdan Hobeanu, Andrei Ionut Damian, | (参考訳) 過去数年間、ユビキタス、あるいは広く普及したコンピューティングは、エンタープライズグレードシステム、コンシューマアプリケーション、ゲームシステムなど、幅広いアプリケーションの主要なアプローチとして人気を集めてきた。
ユビキタスコンピューティング(ユビキタスコンピューティング、Ubiquitous Computing)とは、コンピュータ技術を日常のオブジェクトや環境に統合し、相互や人間と通信可能な相互接続されたデバイスのネットワークを構築することを指す。
ユビキタスコンピューティング技術を使用することで、コミュニティはよりつながりやすく、効率的になり、メンバーはコミュニケーションやコラボレーションがより容易になる。
これによって相互接続性とコラボレーションが,より成功し,持続可能なコミュニティに結びつくのです。
しかし、ユビキタスコンピューティングの普及は、自動化学習とスマートアプリケーション全般の重要性を強調している。
人工知能とディープラーニングには大きな進歩があったが、高価で複雑なクラウド数値計算インフラに圧力がかかるため、大規模な採用が妨げられている。
実践的な機械学習システムの採用や開発には、複雑なインフラストラクチャだけでなく、データサイエンスや機械学習の専門知識の面でも、禁止的なコストが伴う。
本稿では、エンド・ツー・エンドのAI協調アプリケーションパイプラインのローコード開発と展開のための革新的なアプローチを提案する。
我々は、トークン化経済に基づいて、完全に分散したグローバルな協力コミュニティにおけるインフラ割り当て、コスト、および安全な雇用分配について論じる。
Over the past few years, ubiquitous, or pervasive computing has gained popularity as the primary approach for a wide range of applications, including enterprise-grade systems, consumer applications, and gaming systems. Ubiquitous computing refers to the integration of computing technologies into everyday objects and environments, creating a network of interconnected devices that can communicate with each other and with humans. By using ubiquitous computing technologies, communities can become more connected and efficient, with members able to communicate and collaborate more easily. This enabled interconnectedness and collaboration can lead to a more successful and sustainable community. The spread of ubiquitous computing, however, has emphasized the importance of automated learning and smart applications in general. Even though there have been significant strides in Artificial Intelligence and Deep Learning, large scale adoption has been hesitant due to mounting pressure on expensive and highly complex cloud numerical-compute infrastructures. Adopting, and even developing, practical machine learning systems can come with prohibitive costs, not only in terms of complex infrastructures but also of solid expertise in Data Science and Machine Learning. In this paper we present an innovative approach for low-code development and deployment of end-to-end AI cooperative application pipelines. We address infrastructure allocation, costs, and secure job distribution in a fully decentralized global cooperative community based on tokenized economics. | 翻訳日:2024-08-01 13:43:16 公開日:2024-07-31 |
# インタフェース最適制御問題に対するハードコントラストPINN
The Hard-Constraint PINNs for Interface Optimal Control Problems ( http://arxiv.org/abs/2308.06709v2 ) ライセンス: Link先を確認 | Ming-Chih Lai, Yongcun Song, Xiaoming Yuan, Hangrui Yue, Tianyou Zeng, | (参考訳) 物理インフォームドニューラルネットワーク(PINN)は、最近開発された不連続性キャプチャニューラルネットワークと組み合わせて、インターフェイスといくつかの制御制約を持つ偏微分方程式(PDE)に基づく最適制御問題を解くことができることを示す。
結果として得られるアルゴリズムはメッシュフリーで、異なるPDEに対してスケーラブルであり、制御の制約を厳格に保証する。
境界条件と界面条件は、PDEと同様に、すべて重み付き損失関数にまとめることでソフト制約として扱われるため、同時に学習する必要があるため、境界条件と界面条件が正確に満たされる保証はない。
これにより、対応する損失関数の重みを調整したり、ニューラルネットワークを訓練したりするのが困難になる。
これらの課題に対処し、数値的精度を保証するため、新しいニューラルネットワークアーキテクチャを開発することにより、PINNの制約として境界条件とインターフェース条件を課すことを提案する。
結果として生じる制約付きPINNのアプローチは、境界条件とインターフェース条件の両方が正確にあるいは高い精度で満たされ、それらがPDEの学習から切り離されていることを保証している。
その効率性は楕円型および放物型インタフェースの最適制御問題によって有望に検証される。
We show that the physics-informed neural networks (PINNs), in combination with some recently developed discontinuity capturing neural networks, can be applied to solve optimal control problems subject to partial differential equations (PDEs) with interfaces and some control constraints. The resulting algorithm is mesh-free and scalable to different PDEs, and it ensures the control constraints rigorously. Since the boundary and interface conditions, as well as the PDEs, are all treated as soft constraints by lumping them into a weighted loss function, it is necessary to learn them simultaneously and there is no guarantee that the boundary and interface conditions can be satisfied exactly. This immediately causes difficulties in tuning the weights in the corresponding loss function and training the neural networks. To tackle these difficulties and guarantee the numerical accuracy, we propose to impose the boundary and interface conditions as hard constraints in PINNs by developing a novel neural network architecture. The resulting hard-constraint PINNs approach guarantees that both the boundary and interface conditions can be satisfied exactly or with a high degree of accuracy, and they are decoupled from the learning of the PDEs. Its efficiency is promisingly validated by some elliptic and parabolic interface optimal control problems. | 翻訳日:2024-08-01 13:37:09 公開日:2024-07-31 |
# ほぼ区別不可能なボソンの異常集団化
Anomalous bunching of nearly indistinguishable bosons ( http://arxiv.org/abs/2308.12226v2 ) ライセンス: Link先を確認 | Léo Pioge, Benoit Seron, Leonardo Novo, Nicolas J. Cerf, | (参考訳) 量子干渉法におけるボソン束と粒子の区別不可能性の間によく仮定される直交関係は、最近 [Nat. Photon. 17, 702 (2023)] に挑戦されている。
量子光学干渉とマトリックス永久体の接続を爆発させると、いくつかの干渉計で部分的に識別可能な光子の特異な偏光状態を注入することによって、完全に区別不可能な粒子の期待される限界を超える集団効果が生じる可能性がある。
驚くべきことに、このような異常な束縛を引き起こす全ての状態は、完全に区別不可能な粒子の状態とは程遠いことが判明し、この興味深い現象がほぼ区別不可能な粒子と共に存在するかどうかという疑問が提起された。
ここでは,1986年以降の行列永久数に関する数学的予想と,物理解釈がまだ明らかにされていない数学的予想を関連づけることで,この疑問に肯定的に答える。
この予想に対して最近発見された反例を用いて、同じ偏光を持つ全ての光子の状態を適切に摂動させることで、全ての光子が2つの出力モードに束縛される確率を高めることができるように、10モードで8個の光子を含む光干渉計が存在することを示した。
このような発見は、異常なボソンの群れの面を反映している。
The commonly assumed straight link between boson bunching and particle indistinguishability in quantum interferometry has recently been challenged [Nat. Photon. 17, 702 (2023)]. Exploiting the connection between quantum optical interferences and matrix permanents, it appeared that bunching effects may arise that exceed the expected limit of fully indistinguishable particles by injecting peculiar polarization states of partially distinguishable photons in some interferometers. Surprisingly, all states giving rise to such an anomalous bunching were found to be far from the state of fully indistinguishable particles, raising the question of whether this intriguing phenomenon might even possibly exist with nearly indistinguishable particles. Here, we answer this question positively by relating it to a mathematical conjecture on matrix permanents dating from 1986, whose physical interpretation had not yet been unveiled. Using a recently found counterexample to this conjecture, we demonstrate that there is an optical interferometer involving 8 photons in 10 modes such that the probability that all photons bunch into two output modes can be enhanced by suitably perturbing the state of all photons having the same polarization. Such a finding reflects still another -- even less expected -- facet of anomalous boson bunching. | 翻訳日:2024-08-01 13:37:09 公開日:2024-07-31 |
# 双方向ラマン増幅器最適化のための黒・灰色・白ボックスモデルの比較
A comparison between black-, grey- and white-box modeling for the bidirectional Raman amplifier optimization ( http://arxiv.org/abs/2310.05954v2 ) ライセンス: Link先を確認 | Metodi P. Yankov, Mehran Soltani, Andrea Carena, Darko Zibar, Francesco Da Ros, | (参考訳) スループット向上を目指す光通信システムにおいて,システム性能を最大化するための光増幅器の設計と最適化がますます重要になっている。
光学増幅器のオフライン最適化は、物理に深く根ざしたホワイトボックスモデルからブラックボックスのデータ駆動および物理に依存しないモデルまで幅広いモデルに依存している。
ここでは、双方向分散ラマン増幅器を最適化し、ターゲット周波数距離信号のパワープロファイルを実現するという課題に対して、ホワイトボックス、グレイボックス、ブラックボックスモデルの有効性を比較した。
実験手法のいずれにおいても,80km間隔でCバンド上の1~3.6dB(平坦度の定義に依存する)の同様の周波数および距離平坦性が得られることを示す。
次に、対象のアプリケーションシナリオ、特に柔軟性、最適化速度、トレーニングデータへのアクセスに基づくモデルの適用性、利点、欠点について論じる。
Designing and optimizing optical amplifiers to maximize system performance is becoming increasingly important as optical communication systems strive to increase throughput. Offline optimization of optical amplifiers relies on models ranging from white-box models deeply rooted in physics to black-box data-driven and physics-agnostic models. Here, we compare the capabilities of white-, grey- and black-box models on the challenging test case of optimizing a bidirectional distributed Raman amplifier to achieve a target frequency-distance signal power profile. We show that any of the studied methods can achieve similar frequency and distance flatness of between 1 and 3.6 dB (depending on the definition of flatness) over the C-band in an 80-km span. Then, we discuss the models' applicability, advantages, and drawbacks based on the target application scenario, in particular in terms of flexibility, optimization speed, and access to training data. | 翻訳日:2024-08-01 13:37:09 公開日:2024-07-31 |
# Angular Momentum Flowは、何も持たない
Angular Momentum Flows without anything carrying it ( http://arxiv.org/abs/2310.07568v6 ) ライセンス: Link先を確認 | Yakir Aharonov, Daniel Collins, Sandu Popescu, | (参考訳) 保存された量の2つの領域間での移動は、一般的には、保存された量を運ぶ粒子の束が、ある領域から別の領域へ伝播する、かなり自明な過程であると仮定される。
しかしながら、ある領域から別の領域への角運動量のフローは、任意の粒子(または場)が存在するという、消えるほど小さな確率が存在する空間の領域にまたがる。
このことは、保存法がどのように機能するかに関する通常の見解を再考する必要があることを示している。
Transfer of conserved quantities between two remote regions is generally assumed to be a rather trivial process: a flux of particles carrying the conserved quantities propagates from one region to another. We however demonstrate a flow of angular momentum from one region to another across a region of space in which there is a vanishingly small probability of any particles (or fields) being present. This shows that the usual view of how conservation laws work needs to be revisited. | 翻訳日:2024-08-01 13:37:09 公開日:2024-07-31 |
# 遷移金属ジカルコゲナイドヘテロ構造を有する可変ボース-フェルミ混合系のトポロジカル超伝導の実現
Realizing Topological Superconductivity in Tunable Bose-Fermi Mixtures with Transition Metal Dichalcogenide Heterostructures ( http://arxiv.org/abs/2310.10720v2 ) ライセンス: Link先を確認 | Caterina Zerba, Clemens Kuhlenkamp, Ataç Imamoğlu, Michael Knap, | (参考訳) 2次元遷移金属ジアルコゲナイド(TMD)のヘテロ構造は、物質のエキゾチックな相関状態を研究するための有望な基盤として現れている。
本稿では, 層間エキシトンを3層構造にドープ電荷に結合させることにより, これらの系のボース・フェルミ混合体を設計する。
これらの相互作用は、スピン選択的な性質を持つトリオンの層間相互作用によって決定され、エクシトンは1つのスピン種の電荷キャリア間の魅力的な相互作用を媒介する。
注目すべきは、このことが、低温でトポロジカルp+ip超伝導が不安定になることである。
次に、固体フェシュバッハ共鳴を用いてトリオンの結合エネルギーを調整することにより、この非伝統的な状態を開発し制御する一般的なメカニズムを実証する。
Heterostructures of two-dimensional transition metal dichalcogenides (TMDs) are emerging as a promising platform for investigating exotic correlated states of matter. Here, we propose to engineer Bose-Fermi mixtures in these systems by coupling inter-layer excitons to doped charges in a trilayer structure. Their interactions are determined by the inter-layer trion, whose spin-selective nature allows excitons to mediate an attractive interaction between charge carriers of only one spin species. Remarkably, we find that this causes the system to become unstable to topological p+ip superconductivity at low temperatures. We then demonstrate a general mechanism to develop and control this unconventional state by tuning the trion binding energy using a solid-state Feshbach resonance. | 翻訳日:2024-08-01 13:37:09 公開日:2024-07-31 |
# 多モード機械学習を用いた炎症性関節炎の早期発見 : 血液検査,半構造化,非構造化患者の記録から
Early detection of inflammatory arthritis to improve referrals using multimodal machine learning from blood testing, semi-structured and unstructured patient records ( http://arxiv.org/abs/2310.19967v3 ) ライセンス: Link先を確認 | Bing Wang, Weizi Li, Anthony Bradlow, Antoni T. Y. Chan, Eghosa Bazuaye, | (参考訳) 炎症性関節炎 (IA) の早期発見は, 医療資源の制限の下で, タイムリーな治療とIA病コースの悪化を防止するために, 効率的かつ正確な病院紹介トリアージに重要である。
手動による評価プロセスは、IAの早期発見において、実際に最も一般的なアプローチであるが、非常に労働集約的で非効率である。
一般診療(GP)から病院への紹介ごとに、大量の臨床情報を評価する必要がある。
機械学習は、繰り返しアセスメントタスクの自動化と、IAの早期検出のための意思決定支援において、大きな可能性を秘めている。
しかし、ほとんどの機械学習によるIA検出法は血液検査の結果に依存している。
しかし、実際には、血液検査データは参照の時点では必ずしも利用できないので、IAを早期に検出するためには、半構造化データや非構造化データのようなマルチモーダルデータを活用する方法が必要である。
本研究では,IA早期検出における意思決定を支援するマルチモーダルデータを用いた融合・アンサンブル学習法と,予測の不確実性を定量化し,信頼できない予測を検出するコンフォーマル予測に基づく手法を提案する。
我々の知る限り、GPレファラールからのIAの早期検出を支援するためにマルチモーダルデータを利用した最初の試みである。
Early detection of inflammatory arthritis (IA) is critical to efficient and accurate hospital referral triage for timely treatment and preventing the deterioration of the IA disease course, especially under limited healthcare resources. The manual assessment process is the most common approach in practice for the early detection of IA, but it is extremely labor-intensive and inefficient. A large amount of clinical information needs to be assessed for every referral from General Practice (GP) to the hospitals. Machine learning shows great potential in automating repetitive assessment tasks and providing decision support for the early detection of IA. However, most machine learning-based methods for IA detection rely on blood testing results. But in practice, blood testing data is not always available at the point of referrals, so we need methods to leverage multimodal data such as semi-structured and unstructured data for early detection of IA. In this research, we present fusion and ensemble learning-based methods using multimodal data to assist decision-making in the early detection of IA, and a conformal prediction-based method to quantify the uncertainty of the prediction and detect any unreliable predictions. To the best of our knowledge, our study is the first attempt to utilize multimodal data to support the early detection of IA from GP referrals. | 翻訳日:2024-08-01 13:37:09 公開日:2024-07-31 |
# 応用数学と関連分野におけるモデルとアルゴリズムのオントロジー
Ontologies for Models and Algorithms in Applied Mathematics and Related Disciplines ( http://arxiv.org/abs/2310.20443v2 ) ライセンス: Link先を確認 | Björn Schembera, Frank Wübbeling, Hendrik Kleikamp, Christine Biedinger, Jochen Fiedler, Marco Reidelbach, Aurela Shehu, Burkhard Schmidt, Thomas Koprucki, Dorothea Iglezakis, Dominik Göddeke, | (参考訳) 応用数学と関連する分野において、モデリング-シミュレーション-最適化ワークフローは、数学モデルと数値アルゴリズムが重要な役割を果たす顕著なスキームである。
このような数学的研究データのために、数学的研究データイニシアチブはオントロジーと知識グラフを開発し、統合し、実装した。
これは、意味技術を導入し、数学的基礎を文書化する数学的研究データFAIRの作成に寄与する。
多孔質体のマイクロフラクチャー解析の具体例を用いて、基礎となる数学的モデルとそれに対応する数値アルゴリズムの知識がオントロジーによってどのように表現できるかを示す。
In applied mathematics and related disciplines, the modeling-simulation-optimization workflow is a prominent scheme, with mathematical models and numerical algorithms playing a crucial role. For these types of mathematical research data, the Mathematical Research Data Initiative has developed, merged and implemented ontologies and knowledge graphs. This contributes to making mathematical research data FAIR by introducing semantic technology and documenting the mathematical foundations accordingly. Using the concrete example of microfracture analysis of porous media, it is shown how the knowledge of the underlying mathematical model and the corresponding numerical algorithms for its solution can be represented by the ontologies. | 翻訳日:2024-08-01 13:37:09 公開日:2024-07-31 |
# データセンターにおける大規模エンクレーブの管理
Managing Large Enclaves in a Data Center ( http://arxiv.org/abs/2311.06991v2 ) ライセンス: Link先を確認 | Sandeep Kumar, Abhisek Panda, Smruti R. Sarangi, | (参考訳) データセンターにおけるアプリケーションとVMのライブマイグレーションは、古くて重要な問題である。
これはIntel SGXのような信頼できる実行環境(TEE)で動作するセキュアなエンクレーブ(サンドボックス)のマイグレーションである。
ここでは、アプリケーション全体の実行が停止し、状態が収集され、転送される10年前のストップアンドコピーベースのメソッドが使用されます。
メモリフットプリントが大きいエンクレーブを考えると,この手法は極めて長いダウンタイムを持つ。
例えば、エンクレーブ内のデータの不透明さ(OS/ハイパーバイザには見えない)や、セキュアなページの書き込みを追跡するメカニズムの欠如などです。
我々は,これらの制限を回避し,ほぼゼロのダウンタイムでセキュアなエンクレーブマイグレーションを実現する新しい手法であるOpsMigを提案する。
我々は、短いコンパイラパスに依存し、新しいマイグレーションメカニズムを提案する。
我々の最適化は、マルチGBメモリフットプリントを持つIntel SGXアプリケーションスイートの総ダウンタイムを77-96%削減する。
実際のクラウドとコンテナ、VM、マイクロVMを使用する設定で、システムの結果を示します。
Live migration of applications and VMs in data centers is an old and quintessential problem. In this large body of work, an important open problem still remains, which is the migration of secure enclaves (sandboxes) running on trusted execution environments (TEEs) like Intel SGX. Here, the decade-old stop-and-copy-based method is used, in which the entire application`s execution is stopped and the state is collected and transferred. This method has an exceedingly long downtime when we consider enclaves with large memory footprints. Better solutions have eluded us because of some design limitations posed by TEEs like Intel SGX, such as the opacity of data within enclaves (not visible to the OS/hypervisor) and the lack of mechanisms to track writes on secure pages. We propose a new technique, OptMig, to circumvent these limitations and implement secure enclave migration with a near-zero downtime. We rely on a short compiler pass and propose a novel migration mechanism. Our optimizations reduce the total downtime by 77-96% for a suite of Intel SGX applications that have multi-GB memory footprints. We show results for our system on a real cloud and in settings that use containers, VMs, and microVMs | 翻訳日:2024-08-01 13:37:09 公開日:2024-07-31 |
# 異方性開量子Rabiモデルにおける多臨界散逸相転移
Multicritical dissipative phase transitions in the anisotropic open quantum Rabi model ( http://arxiv.org/abs/2311.11346v2 ) ライセンス: Link先を確認 | Guitao Lyu, Korbinian Kottmann, Martin B. Plenio, Myung-Joong Hwang, | (参考訳) 回転項と反回転項のカップリング強度の異方性の度合いを変化させて、一階および二階の散逸相転移を示す異方性オープン量子Rabiモデルの非平衡定常状態について検討する。
半古典的アプローチと量子的アプローチの両方を用いて、異方性と散逸の間の相互作用から生じる豊富な位相図を見つける。
第一に、通常相と超ラジアント相の両方が安定な双安定相が存在する。
第2に、第1および第2次相転移の位相境界が一致する多臨界点が存在する。
新たな臨界指数の集合が多臨界点のスケーリングを支配していることを示す。
最後に,ラマン転移の強度を制御して異方性を調整可能な一対のイオンを用いた多臨界遷移と不安定性観測の可能性について論じる。
本研究は, 有限成分量子系における臨界現象の範囲を拡大し, 臨界量子センシングへの応用に有用であることを示す。
We investigate the nonequilibrium steady state of the anisotropic open quantum Rabi model, which exhibits first-order and second-order dissipative phase transitions upon varying the degree of anisotropy between the coupling strengths of rotating and counterrotating terms. Using both semiclassical and quantum approaches, we find a rich phase diagram resulting from the interplay between the anisotropy and the dissipation. First, there exists a bistable phase where both the normal and superradiant phases are stable. Second, there are multicritical points where the phase boundaries for the first- and second-order phase transitions meet. We show that a new set of critical exponents governs the scaling of the multicritical points. Finally, we discuss the feasibility of observing the multicritical transitions and bistability using a pair of trapped ions where the anisotropy can be tuned by controlling the intensity of the Raman transitions. Our study enlarges the scope of critical phenomena that may occur in finite-component quantum systems, which could be useful for applications in critical quantum sensing. | 翻訳日:2024-08-01 13:37:09 公開日:2024-07-31 |
# ラジオインターフェロメトリイメージングのためのデータ駆動前駆体を用いたスケーラブルベイズ不確実性定量化
Scalable Bayesian uncertainty quantification with data-driven priors for radio interferometric imaging ( http://arxiv.org/abs/2312.00125v3 ) ライセンス: Link先を確認 | Tobías I. Liaudat, Matthijs Mars, Matthew A. Price, Marcelo Pereyra, Marta M. Betcke, Jason D. McEwen, | (参考訳) Square Kilometer Arrayのような次世代の電波干渉計は、前例のない角の解像度と感度のおかげで、科学的発見を解き放つ可能性がある。
潜在的な可能性を解き放つ鍵の1つは、受信データの希薄さと複雑さを扱うことである。
この課題は、大量のデータサイズに対処し、不確実な定量化(UQ)を伴う高品質な画像再構成を提供する無線干渉画像法を構築する必要がある。
本研究は、高次元設定のためのデータ駆動(学習)プリエントを用いた無線干渉画像におけるUQに対処するQuantifAIという手法を提案する。
ベイジアン・フレームワークをルーツとする我々のモデルは、物理的動機付けされたモデルを用いる。
このモデルは、シミュレーションから暗黙的に学習された複雑な情報をエンコードし、後部の対数凹度を保証する。
我々は、MCMCサンプリング技術を避けるために、高次元対数凹後部の確率集中現象を利用して後部に関する情報を得る。
我々は、MCMCサンプリング戦略よりも高速でスケールの良いMAP推定法として、凸最適化法を頼りにしている。
提案手法により, 局所信頼区間, すなわちベイズ誤差バーを計算し, 再構成画像上の構造の仮説テストを行うことができる。
さらに,異なるスケールで画素単位の不確かさを計算できる新しいブレージング高速手法を提案する。
シミュレーション環境での電波干渉画像の再構成と高速でスケーラブルなUQの実現により, MCMCサンプリングで検証した。
提案手法は, 画像の画質が向上し, より有意義な不確実性を示す。
QuantifAIのソースコードは、https://github.com/astro-informatics/QuantifAIである。
Next-generation radio interferometers like the Square Kilometer Array have the potential to unlock scientific discoveries thanks to their unprecedented angular resolution and sensitivity. One key to unlocking their potential resides in handling the deluge and complexity of incoming data. This challenge requires building radio interferometric imaging methods that can cope with the massive data sizes and provide high-quality image reconstructions with uncertainty quantification (UQ). This work proposes a method coined QuantifAI to address UQ in radio-interferometric imaging with data-driven (learned) priors for high-dimensional settings. Our model, rooted in the Bayesian framework, uses a physically motivated model for the likelihood. The model exploits a data-driven convex prior, which can encode complex information learned implicitly from simulations and guarantee the log-concavity of the posterior. We leverage probability concentration phenomena of high-dimensional log-concave posteriors that let us obtain information about the posterior, avoiding MCMC sampling techniques. We rely on convex optimisation methods to compute the MAP estimation, which is known to be faster and better scale with dimension than MCMC sampling strategies. Our method allows us to compute local credible intervals, i.e., Bayesian error bars, and perform hypothesis testing of structure on the reconstructed image. In addition, we propose a novel blazing-fast method to compute pixel-wise uncertainties at different scales. We demonstrate our method by reconstructing radio-interferometric images in a simulated setting and carrying out fast and scalable UQ, which we validate with MCMC sampling. Our method shows an improved image quality and more meaningful uncertainties than the benchmark method based on a sparsity-promoting prior. QuantifAI's source code: https://github.com/astro-informatics/QuantifAI. | 翻訳日:2024-08-01 13:37:09 公開日:2024-07-31 |
# Green Edge AI - 現代の調査
Green Edge AI: A Contemporary Survey ( http://arxiv.org/abs/2312.00333v2 ) ライセンス: Link先を確認 | Yuyi Mao, Xianghao Yu, Kaibin Huang, Ying-Jun Angela Zhang, Jun Zhang, | (参考訳) 人工知能(AI)技術は、過去10年で大きな復活を遂げたために、様々な産業において重要な実現手段として登場した。
AIの変換力は、主に深層ニューラルネットワーク(DNN)の利用に由来する。
その結果、DNNモデルは一般的にトレーニングされ、リソース豊富なクラウドサーバにデプロイされる。
しかし、クラウド通信に関連する潜在的なレイテンシの問題により、ディープラーニング(DL)ワークフローは、エンドユーザーデバイス(EUD)に近いワイヤレスエッジネットワークに移行しつつある。
このシフトはレイテンシに敏感なアプリケーションをサポートするように設計されており、エッジAIの新しいパラダイムが生まれ、ユビキタスAIアプリケーションをサポートする第6世代(6G)ネットワークにおいて重要な役割を果たす。
その大きな可能性にもかかわらず、エッジAIは大きな課題に直面している。主に、無線エッジネットワークのリソース制限と、DLのリソース集約性との間の二分法が原因である。
具体的には、大規模なデータ取得とDNNのトレーニングおよび推論プロセスにより、EUDのバッテリエネルギーが急速に低下する可能性がある。
これにより、最適なパフォーマンスと持続可能なパフォーマンスを確保するために、エッジAIに対するエネルギーを意識したアプローチが必要になる。
本稿では,グリーンエッジAIに関する現代の調査を紹介する。
我々は、グリーンエッジAIの基本設計原則を特定するために、エッジAIシステムの主要なエネルギー消費成分を分析して開始する。
これらの原則に導かれ、トレーニングデータ取得、エッジトレーニング、エッジ推論を含む、エッジAIシステムにおける3つの重要なタスクのためのエネルギー効率の高い設計方法論を探索する。
最後に、エッジAIのエネルギー効率をさらに高めるために、将来的な研究の方向性を明らかにします。
Artificial intelligence (AI) technologies have emerged as pivotal enablers across a multitude of industries largely due to their significant resurgence over the past decade. The transformative power of AI is primarily derived from the utilization of deep neural networks (DNNs), which require extensive data for training and substantial computational resources for processing. Consequently, DNN models are typically trained and deployed on resource-rich cloud servers. However, due to potential latency issues associated with cloud communications, deep learning (DL) workflows are increasingly being transitioned to wireless edge networks in proximity to end-user devices (EUDs). This shift is designed to support latency-sensitive applications and has given rise to a new paradigm of edge AI, which will play a critical role in upcoming sixth-generation (6G) networks to support ubiquitous AI applications. Despite its considerable potential, edge AI faces substantial challenges, mostly due to the dichotomy between the resource limitations of wireless edge networks and the resource-intensive nature of DL. Specifically, the acquisition of large-scale data, as well as the training and inference processes of DNNs, can rapidly deplete the battery energy of EUDs. This necessitates an energy-conscious approach to edge AI to ensure both optimal and sustainable performance. In this paper, we present a contemporary survey on green edge AI. We commence by analyzing the principal energy consumption components of edge AI systems to identify the fundamental design principles of green edge AI. Guided by these principles, we then explore energy-efficient design methodologies for the three critical tasks in edge AI systems, including training data acquisition, edge training, and edge inference. Finally, we underscore potential future research directions to further enhance the energy efficiency of edge AI. | 翻訳日:2024-08-01 13:37:09 公開日:2024-07-31 |
# 計算ユニバーサルから厳密な測定ベース量子計算への触媒変換
Catalytic Transformation from Computationally Universal to Strictly Universal Measurement-Based Quantum Computation ( http://arxiv.org/abs/2312.16433v2 ) ライセンス: Link先を確認 | Yuki Takeuchi, | (参考訳) 測定ベースの量子計算(MBQC: ${\it strict}$と${\it computer}$の2種類の普遍性がある。
前者の方が後者より強いことはよく知られている。
本稿では,計算量的に普遍なMBQCから厳密な普遍的なMBQCへ変換する方法を提案する。
提案手法は,資源状態の単一キュービットをPauli-$Y$固有状態に置き換える。
我々は,超グラフ状態はパウリ測度のみで厳密に普遍化できることを示すために,この手法を適用した。
There are two types of universality in measurement-based quantum computation (MBQC): ${\it strict}$ and ${\it computational}$. It is well known that the former is stronger than the latter. We present a method of transforming from a certain type of computationally universal MBQC to a strictly universal one. Our method simply replaces a single qubit in a resource state with a Pauli-$Y$ eigenstate. We applied our method to show that hypergraph states can be made strictly universal with only Pauli measurements, while only computationally universal hypergraph states were known. | 翻訳日:2024-08-01 13:37:09 公開日:2024-07-31 |
# $^{164}$Dy超固体と液滴のトンネル力学
Tunneling dynamics of $^{164}$Dy supersolids and droplets ( http://arxiv.org/abs/2401.03725v2 ) ライセンス: Link先を確認 | S. I. Mistakidis, K. Mukherjee, S. M. Reimann, H. R. Sadeghpour, | (参考訳) 時間依存型Gross-Pitaevskiiアプローチを用いて, 磁気的$^{164}$Dy量子気体のトンネル力学について検討した。
エネルギーオフセットを持ち上げると、異なるトンネル機構が特定できる。
伸長トラップと十分に大きなオフセットでは、異なる構成が集合的なマクロなトンネルを示す。
小さいオフセットでは、バリアを通過する部分反射と透過は、両方の井戸に密度の蓄積をもたらし、最終的にはトンネルロックに繋がる。
また、相対的な双極子相互作用の強度を高めるために、マクロな自己トラッピング状態に到達でき、トンネルは大きな障壁の高さのために消滅する。
パンケーキのようなトラップに対してよりリッチな動的挙動が観察される。
例えば、超固体は形状を保ち、超流動密度は、マクロなトンネル構造における特異な励起パターンの出現を示す歪む。
ここで報告された発見は、超固体および液滴系における特異な動的特徴を探索する新しい方法を提供するかもしれない。
The tunneling dynamics of a magnetic $^{164}$Dy quantum gas in an elongated or pancake skewed double-well trap is investigated with a time-dependent extended Gross-Pitaevskii approach. Upon lifting the energy offset, different tunneling regimes can be identified. In the elongated trap and for sufficiently large offset, the different configurations exhibit collective macroscopic tunneling. For smaller offset, partial reflection from and transmission through the barrier lead to density accumulation in both wells, and eventually to tunneling-locking. One can also reach the macroscopic self-trapping regime for increasing relative dipolar interaction strength, while tunneling vanishes for large barrier heights. A richer dynamical behavior is observed for the pancake-like trap. For instance, the supersolid maintains its shape, while the superfluid density gets distorted signifying the emergence of peculiar excitation patterns in the macroscopic tunneling regime. The findings reported here may offer new ways to probe distinctive dynamical features in the supersolid and droplet regimes. | 翻訳日:2024-08-01 13:37:09 公開日:2024-07-31 |
# 大規模グラフに対する不整合凝縮
Disentangled Condensation for Large-scale Graphs ( http://arxiv.org/abs/2401.12231v2 ) ライセンス: Link先を確認 | Zhenbang Xiao, Shunyu Liu, Yu Wang, Tongya Zheng, Mingli Song, | (参考訳) グラフ凝縮は、元のグラフに縮合した小さなグラフを置換することにより、グラフニューラルネットワーク(GNN)の高価なトレーニングコストを削減できる興味深い手法として登場した。
期待された結果にもかかわらず、従来の手法は通常、冗長パラメータ(ノード、エッジ、GNN)の絡み合ったパラダイムを用いており、凝縮中に複雑な共同最適化を引き起こす。
このパラダイムは、グラフ凝縮のスケーラビリティを著しく阻害し、非常に大規模なグラフを凝縮し、高忠実な凝縮グラフを生成するのを困難にしている。
そこで本研究では,この凝縮過程を2段階のGNNフリーパラダイムに分解し,ノードを独立に凝縮し,エッジを生成するとともに,同時にGNNを最適化する必要がなくなることを提案する。
ノード凝縮モジュールは、元のグラフのアンカーとのノード特徴アライメントに着目してGNNの複雑さを回避する一方、エッジ翻訳モジュールは、元の構造知識を近傍アンカーで転送することで、凝縮ノードのエッジを構成する。
この単純で効果的なアプローチは、中規模グラフの精度に匹敵する精度で最先端の手法よりも少なくとも10倍高速に達成できる。
さらに、提案したDisCoは、フレキシブルリダクションレートでOgbn-papers100Mグラフにスケールアップできる。
5つの共通データセットに対する大規模なダウンストリームタスクとアブレーションスタディは、提案したDisCoフレームワークの有効性をさらに証明している。
ソースコードは一般公開される予定だ。
Graph condensation has emerged as an intriguing technique to save the expensive training costs of Graph Neural Networks (GNNs) by substituting a condensed small graph with the original graph. Despite the promising results achieved, previous methods usually employ an entangled paradigm of redundant parameters (nodes, edges, GNNs), which incurs complex joint optimization during condensation. This paradigm has considerably impeded the scalability of graph condensation, making it challenging to condense extremely large-scale graphs and generate high-fidelity condensed graphs. Therefore, we propose to disentangle the condensation process into a two-stage GNN-free paradigm, independently condensing nodes and generating edges while eliminating the need to optimize GNNs at the same time. The node condensation module avoids the complexity of GNNs by focusing on node feature alignment with anchors of the original graph, while the edge translation module constructs the edges of the condensed nodes by transferring the original structure knowledge with neighborhood anchors. This simple yet effective approach achieves at least 10 times faster than state-of-the-art methods with comparable accuracy on medium-scale graphs. Moreover, the proposed DisCo can successfully scale up to the Ogbn-papers100M graph with flexible reduction rates. Extensive downstream tasks and ablation study on five common datasets further demonstrate the effectiveness of the proposed DisCo framework. The source code will be made publicly available. | 翻訳日:2024-08-01 13:27:16 公開日:2024-07-31 |
# エネルギー交換のための一般化量子ゆらぎ理論
Generalized Quantum Fluctuation Theorem for Energy Exchange ( http://arxiv.org/abs/2401.15533v2 ) ライセンス: Link先を確認 | Wei Wu, Jun-Hong An, | (参考訳) 非平衡変動関係は量子熱力学の基礎である。
システムバス熱交換は有名なヤジンスキー-W\'{o}jcikゆらぎ定理に従うと広く信じられている。
しかし、この定理は弱結合条件の下でボルン・マルコフ近似で成立する。
非マルコフ力学における調和振動子と結合浴の間のエネルギー交換を研究することにより、任意の結合強度に有効であるエネルギー交換に対する一般化された量子ゆらぎ定理を確立する。
Jarzynski-W\'{o}jcik の揺らぎ定理は弱結合極限で回復する。
また, 平均エネルギー交換は, システムバス境界状態の数が異なる場合に, 豊富な非平衡特性を示し, 量子熱の制御に有用であることが示唆された。
量子熱力学におけるゆらぎ関係の理解を深めることにより、高効率な量子熱エンジンの設計の基礎となる。
The nonequilibrium fluctuation relation is a cornerstone of quantum thermodynamics. It is widely believed that the system-bath heat exchange obeys the famous Jarzynski-W\'{o}jcik fluctuation theorem. However, this theorem is established in the Born-Markovian approximation under the weak-coupling condition. Via studying the energy exchange between a harmonic oscillator and its coupled bath in the non-Markovian dynamics, we establish a generalized quantum fluctuation theorem for energy exchange being valid for arbitrary coupling strength. The Jarzynski-W\'{o}jcik fluctuation theorem is recovered in the weak-coupling limit. We also find the average energy exchange exhibits rich nonequilibrium characteristics when different numbers of system-bath bound states are formed, which suggests a useful way to control the quantum heat. Deepening our understanding of the fluctuation relation in quantum thermodynamics, our result lays the foundation to design high-efficiency quantum heat engines. | 翻訳日:2024-08-01 13:27:16 公開日:2024-07-31 |
# インテントベースアクセス制御:LLMを用いた知的アクセス制御
Intent-Based Access Control: Using LLMs to Intelligently Manage Access Control ( http://arxiv.org/abs/2402.07332v2 ) ライセンス: Link先を確認 | Pranav Subramaniam, Sanjay Krishnan, | (参考訳) すべてのエンタープライズデータベースにおいて、管理者は、どのユーザーがどの資産にアクセスしているかを指定するアクセス制御ポリシーを定義する必要がある。
アクセス制御は、ポリシー(誰がアクセスするかを定義する組織レベルの原則)とプロセス(実際にポリシーを実装するデータベースレベルのプリミティブ)という2つの世界に分かれています。
ポリシーに対するプロセスのコンプライアンスを評価し、強制することは、手作業であり、アドホックな作業である。
本稿では,Intent-Based Access Control for Databases (IBAC-DB) と呼ばれるアクセス制御の新しいパラダイムを提案する。
IBAC-DBでは、新しいフォーマットである自然言語アクセス制御マトリックス(NLACM)を用いて、アクセス制御ポリシーをより正確に表現する。
データベースアクセス制御プリミティブはこれらのNLACMから自動的に合成される。
これらのプリミティブは、新しいDB構成の生成や既存の設定の評価に使用することができる。
本稿では、IBAC-DBインタフェースの参照アーキテクチャ、PostgreSQLの初期実装(LLM4ACと呼ぶ)、システムの精度とスコープを評価する初期ベンチマークについて述べる。
私たちの選択した実装であるLLM4ACは、外部知識を必要とする最先端のNL2SQLデータや、Amazon Accessデータセットの現実的なロール階層を含む、最初のベンチマークで高い精度とF1スコアを達成したことで、他のベースラインを大幅に上回っていることが分かりました。
In every enterprise database, administrators must define an access control policy that specifies which users have access to which assets. Access control straddles two worlds: policy (organization-level principles that define who should have access) and process (database-level primitives that actually implement the policy). Assessing and enforcing process compliance with a policy is a manual and ad-hoc task. This paper introduces a new paradigm for access control called Intent-Based Access Control for Databases (IBAC-DB). In IBAC-DB, access control policies are expressed more precisely using a novel format, the natural language access control matrix (NLACM). Database access control primitives are synthesized automatically from these NLACMs. These primitives can be used to generate new DB configurations and/or evaluate existing ones. This paper presents a reference architecture for an IBAC-DB interface, an initial implementation for PostgreSQL (which we call LLM4AC), and initial benchmarks that evaluate the accuracy and scope of such a system. We find that our chosen implementation, LLM4AC, vastly outperforms other baselines, achieving high accuracies and F1 scores on our initial benchmarks, which include state-of-the-art NL2SQL data requiring external knowledge, and real-world role hierarchies from the Amazon Access dataset. | 翻訳日:2024-08-01 13:27:16 公開日:2024-07-31 |
# スマートエネルギー貯蔵建物におけるモデル予測制御の性能に及ぼす予測データの影響
Impact of data for forecasting on performance of model predictive control in buildings with smart energy storage ( http://arxiv.org/abs/2402.12539v2 ) ライセンス: Link先を確認 | Max Langtry, Vijja Wichitwechkarn, Rebecca Ward, Chaoqun Zhuang, Monika J. Kreitmair, Nikolas Makasis, Zack Xuereb Conti, Ruchi Choudhary, | (参考訳) データは、エネルギーシステム構築におけるモデル予測制御(MPC)スキームで使用する予測モデルを開発するために必要である。
しかし、データは収集と利用の両方に費用がかかる。
コスト最適データ利用戦略を決定するには、予測精度と、それを可能にするMPC運用性能の理解が必要である。
本研究では, 歴史的建築エネルギーデータを用いたシミュレーションケーススタディを用いて, マルチビルエネルギーシステムにおけるMPCの単純・最先端機械学習予測モデルの性能について検討した。
モデルデータ効率を改善するための尺度の予測精度への影響は,特に,予測モデルの再利用,トレーニングデータ期間の短縮,モデルデータの特徴の低減,オンラインモデルトレーニングなどによって定量化されている。
単純な線形多層パーセプトロンモデルにより、データ効率と一般化性が高く、最先端モデルに等価な予測精度が提供される。
負荷予測モデルに2年以上のトレーニングデータを使用することで,予測精度が大幅に向上することはなかった。
画面トレーニングデータに変化点解析を用いて予測精度とデータ効率を同時に改善した。
再使用したモデルと3ヶ月のデータでトレーニングされたモデルでは、ベースラインよりも平均10%高いエラーがあった。
Data is required to develop forecasting models for use in Model Predictive Control (MPC) schemes in building energy systems. However, data is costly to both collect and exploit. Determining cost optimal data usage strategies requires understanding of the forecast accuracy and resulting MPC operational performance it enables. This study investigates the performance of both simple and state-of-the-art machine learning prediction models for MPC in multi-building energy systems using a simulated case study with historic building energy data. The impact on forecast accuracy of measures to improve model data efficiency are quantified, specifically for: reuse of prediction models, reduction of training data duration, reduction of model data features, and online model training. A simple linear multi-layer perceptron model is shown to provide equivalent forecast accuracy to state-of-the-art models, with greater data efficiency and generalisability. The use of more than 2 years of training data for load prediction models provided no significant improvement in forecast accuracy. Forecast accuracy and data efficiency were improved simultaneously by using change-point analysis to screen training data. Reused models and those trained with 3 months of data had on average 10% higher error than baseline, indicating that deploying MPC systems without prior data collection may be economic. | 翻訳日:2024-08-01 13:27:16 公開日:2024-07-31 |
# 普遍的非マルコフ雑音下での単一量子ビットゲートの動的量子写像
Dynamical quantum maps for single-qubit gates under universal non-Markovian noise ( http://arxiv.org/abs/2402.14530v3 ) ライセンス: Link先を確認 | J. M. Sánchez Velázquez, A. Steiner, R. Freund, M. Guevara-Bertsch, Ch. D. Marciniak, T. Monz, A. Bermudez, | (参考訳) ノイズはユビキタスで、精度が要求される環境では一般的に有害である。
これは、システムユーティリティがその影響下で急速に崩壊する量子技術分野において特に当てはまる。
したがって、量子デバイスにおけるノイズを理解することは、その有害な影響を軽減または排除するための効率的な戦略の前提となる。
しかし、これはしばしば禁止されるリソースを必要とするため、一般的に使用されるノイズモデルは、しばしば実験的な現実から逸脱する単純化に依存している。
ここでは、1つの実験的な入力(ノイズパワースペクトル密度)のみを必要とする単一量子ゲートのコンパクトな顕微鏡誤差モデルを導出する。
我々のモデルは標準的な偏極化あるいはパウリ旋回ノイズモデルを超えており、非クリフォードおよび非マルコフの動的誤差写像への寄与を明示的に含んでいる。
我々は,トラップイオン量子コンピュータ上で動作している確立された特性評価技術に対して,実験的な指標の予測を行う。
特に,ランダム化ベンチマークを用いて測定し,量子プロセストモグラフィーを用いて再構成した平均ゲート誤差の実験的推定は,解析的推定により厳密に下界し,非分極モデルではゲート誤差を過大評価することがわかった。
非マルコフ的寄与を含むノイズモデリングは、動的デカップリングや動的修正ゲートなどの確立されたフレームワークや、量子誤り訂正のためのより現実的なしきい値を提供するために、容易に適用することができる。
Noise is both ubiquitous and generally deleterious in settings where precision is required. This is especially true in the quantum technology sector where system utility typically decays rapidly under its influence. Understanding the noise in quantum devices is thus a prerequisite for efficient strategies to mitigate or even eliminate its harmful effects. However, this requires resources that are often prohibitive, such that the typically-used noise models rely on simplifications that sometimes depart from experimental reality. Here we derive a compact microscopic error model for single-qubit gates that only requires a single experimental input - the noise power spectral density. Our model goes beyond standard depolarizing or Pauli-twirled noise models, explicitly including non-Clifford and non-Markovian contributions to the dynamical error map. We gauge our predictions for experimentally relevant metrics against established characterization techniques run on a trapped-ion quantum computer. In particular, we find that experimental estimates of average gate errors measured through randomized benchmarking and reconstructed via quantum process tomography are tightly lower-bounded by our analytical estimates, while the depolarizing model overestimates the gate error. Our noise modeling including non-Markovian contributions can be readily applied to established frameworks such as dynamical decoupling and dynamically-corrected gates, or to provide more realistic thresholds for quantum error correction. | 翻訳日:2024-08-01 13:27:16 公開日:2024-07-31 |
# ユーザ表現リペインを用いたマルチTowerマルチゲストレコメンデーション
Multi-Tower Multi-Interest Recommendation with User Representation Repel ( http://arxiv.org/abs/2403.05122v2 ) ライセンス: Link先を確認 | Tianyu Xiong, Xiaohan Yu, | (参考訳) 情報過剰の時代において、推薦システムの価値は、学術や産業でも深く認識されてきた。
特に多目的レコメンデーションは近年注目を集めているサブフィールドである。
複数のユーザ表現を生成することで、理論的にも経験的にも、シングルユーザ表現モデルよりも、多目的学習モデルの方が優れた表現性を示す。
この分野の大きな進歩にもかかわらず、多目的学習手法の性能と適用性、訓練と展開目標の違い、アイテム情報へのアクセス不能、シングルトウワーアーキテクチャによる産業採用の難しさの3つの大きな問題が続いている。
これらの課題に対処するために,ユーザ表現を撃退した新しい多層多目的フレームワークを提案する。
複数の大規模産業データセットにまたがる実験結果から,提案手法の有効性と一般化性が確認された。
In the era of information overload, the value of recommender systems has been profoundly recognized in academia and industry alike. Multi-interest sequential recommendation, in particular, is a subfield that has been receiving increasing attention in recent years. By generating multiple-user representations, multi-interest learning models demonstrate superior expressiveness than single-user representation models, both theoretically and empirically. Despite major advancements in the field, three major issues continue to plague the performance and adoptability of multi-interest learning methods, the difference between training and deployment objectives, the inability to access item information, and the difficulty of industrial adoption due to its single-tower architecture. We address these challenges by proposing a novel multi-tower multi-interest framework with user representation repel. Experimental results across multiple large-scale industrial datasets proved the effectiveness and generalizability of our proposed framework. | 翻訳日:2024-08-01 13:27:16 公開日:2024-07-31 |
# クラスタ化フェデレーション学習における総変分最小化の分析
Analysis of Total Variation Minimization for Clustered Federated Learning ( http://arxiv.org/abs/2403.06298v2 ) ライセンス: Link先を確認 | A. Jung, | (参考訳) 連合学習アプリケーションにおける重要な課題は、局所的なデータセットの統計的不均一性である。
クラスタ化されたフェデレーション学習は、ほぼ均一なローカルデータセットのクラスタを特定することで、この問題に対処する。
クラスタ化フェデレーション学習における最近のアプローチの1つは、一般化された総変分最小化(GTVMin)である。
このアプローチでは、ドメインの専門知識によって得ることができる類似性グラフ、あるいはグラフ学習技術を介してデータ駆動型で得ることができる。
広く適用可能なクラスタリングの仮定の下では、GTVMinソリューションとクラスタ平均との偏差の上限を導出する。
この境界は、連合学習環境における統計的不均一性に対処する上で、GTVMinの有効性と堅牢性に関する貴重な洞察を提供する。
A key challenge in federated learning applications is the statistical heterogeneity of local datasets. Clustered federated learning addresses this challenge by identifying clusters of local datasets that are approximately homogeneous. One recent approach to clustered federated learning is generalized total variation minimization (GTVMin). This approach requires a similarity graph which can be obtained by domain expertise or in a data-driven fashion via graph learning techniques. Under a widely applicable clustering assumption, we derive an upper bound the deviation between GTVMin solutions and their cluster-wise averages. This bound provides valuable insights into the effectiveness and robustness of GTVMin in addressing statistical heterogeneity within federated learning environments. | 翻訳日:2024-08-01 13:27:16 公開日:2024-07-31 |
# UPS: クロスモーダル適応によるPDE問題解決のための効率的な基礎モデルの構築
UPS: Efficiently Building Foundation Models for PDE Solving via Cross-Modal Adaptation ( http://arxiv.org/abs/2403.07187v3 ) ライセンス: Link先を確認 | Junhong Shen, Tanya Marwah, Ameet Talwalkar, | (参考訳) 我々は、様々な領域、次元、解像度の時空間PDEの多種多様なファミリーのための統一ニューラル演算子を開発するための、データおよび計算効率のよいアプローチであるUnified PDE Solvers(UPS)を提案する。
UPSは異なるPDEを共有表現空間に埋め込み、それらをFNO変換アーキテクチャを使って処理する。
データオンデマンドで計算コストのかかるスクラッチからネットワークをトレーニングする代わりに、事前訓練されたLCMからトランスフォーマーをウォームスタートさせ、データの改善と計算効率の向上を図りながら、モダリティギャップを小さくするために明示的なアライメントを行う。
クロスモーダルUPSは、PDEBenchから1Dおよび2D PDEファミリの広い範囲における最先端の結果を達成し、4倍の少ないデータと26倍の計算量で既存の統一モデルより優れている。
一方、未知のPDEファミリーや係数への数発の転送も可能である。
We present Unified PDE Solvers (UPS), a data- and compute-efficient approach to developing unified neural operators for diverse families of spatiotemporal PDEs from various domains, dimensions, and resolutions. UPS embeds different PDEs into a shared representation space and processes them using a FNO-transformer architecture. Rather than training the network from scratch, which is data-demanding and computationally expensive, we warm-start the transformer from pretrained LLMs and perform explicit alignment to reduce the modality gap while improving data and compute efficiency. The cross-modal UPS achieves state-of-the-art results on a wide range of 1D and 2D PDE families from PDEBench, outperforming existing unified models using 4 times less data and 26 times less compute. Meanwhile, it is capable of few-shot transfer to unseen PDE families and coefficients. | 翻訳日:2024-08-01 13:27:16 公開日:2024-07-31 |
# AFGI:フェデレートラーニングにおける高精度かつ高速収束型グラディエント・インバージョン・アタックを目指して
AFGI: Towards Accurate and Fast-convergent Gradient Inversion Attack in Federated Learning ( http://arxiv.org/abs/2403.08383v3 ) ライセンス: Link先を確認 | Can Liu, Jin Wang, and Yipeng Zhou, Yachao Yuan, Quanzheng Sheng, Kejie Lu, | (参考訳) フェデレートラーニング(FL)は、ユーザのモデル勾配のみを公開することによって、モデルトレーニングにおけるプライバシ保護を強化する。
しかし, FLユーザは, モデル勾配に基づく画像などの地中真実のトレーニングデータを再構成できる, 勾配反転攻撃 (GIA) の影響を受けやすい。
しかし、既存のGIAによる高解像度画像の再構成には、特にラベルの重複がトレーニングバッチに存在する場合、精度の低下と収束の遅さの2つの課題がある。
これらの課題に対処するため、AFGIと呼ばれる高精度かつ高速収束な逆転攻撃アルゴリズムを、露出勾配に基づくプライベート画像の重複ラベルを正確に復元できるラベルリカバリブロック(LRB)と、再構成画像の総分散を含むVME正規化項、露出勾配と再構成画像の値間の3チャンネル平均とエッジの相違という2つのコンポーネントで提示する。
AFGIは、RBBが回収したラベルを活用して画像を再構築するホワイトボックス攻撃戦略と見なすことができる。
特に、AFGIは、ユーザのトレーニングバッチサイズが最大48である場合に、地上の真実像を正確に再構成する効率がよい。
実験結果から,AFGIは85%のコスト削減が可能であり,ImageNetデータセットの超高精度なインバージョン品質を実現することができることがわかった。
最後に、プライバシー保護におけるFLの欠点を明らかにし、より先進的な対策戦略の開発を促した。
Federated learning (FL) empowers privacypreservation in model training by only exposing users' model gradients. Yet, FL users are susceptible to gradient inversion attacks (GIAs) which can reconstruct ground-truth training data such as images based on model gradients. However, reconstructing high-resolution images by existing GIAs faces two challenges: inferior accuracy and slow-convergence, especially when duplicating labels exist in the training batch. To address these challenges, we present an Accurate and Fast-convergent Gradient Inversion attack algorithm, called AFGI, with two components: Label Recovery Block (LRB) which can accurately restore duplicating labels of private images based on exposed gradients; VME Regularization Term, which includes the total variance of reconstructed images, the discrepancy between three-channel means and edges, between values from exposed gradients and reconstructed images, respectively. The AFGI can be regarded as a white-box attack strategy to reconstruct images by leveraging labels recovered by LRB. In particular, AFGI is efficient that accurately reconstruct ground-truth images when users' training batch size is up to 48. Our experimental results manifest that AFGI can diminish 85% time costs while achieving superb inversion quality in the ImageNet dataset. At last, our study unveils the shortcomings of FL in privacy-preservation, prompting the development of more advanced countermeasure strategies. | 翻訳日:2024-08-01 13:27:16 公開日:2024-07-31 |
# シャットリングベースのスピン量子プロセッサによるスケーラブルなパリティアーキテクチャ
Scalable Parity Architecture With a Shuttling-Based Spin Qubit Processor ( http://arxiv.org/abs/2403.09574v2 ) ライセンス: Link先を確認 | Florian Ginzel, Michael Fellner, Christian Ertler, Lars R. Schreiber, Hendrik Bluhm, Wolfgang Lechner, | (参考訳) 半導体スピン量子ビットの2次元2乗格子幾何学の展望により、量子ドット(QD)を用いたパリティアーキテクチャの実現を探求する。
回路深さが常に一定であるように、同一の単位セルからなる格子上に、スピンシャットリングと量子ゲートのシーケンスを示し、パリティ量子近似アルゴリズム(QAOA)を実装した。
さらに、Parity Architectureのハードウェア固有の分析のための詳細なエラーモデルを開発し、Parity QAOAの一ラウンドにおける誤差を推定する。
このモデルには、バレー分割の確率分布関数の関数としてのシャットリング誤差の一般的な記述が含まれており、これは性能の主な限界である。
超伝導トランスモン量子ビットチップに対する我々のアプローチを比較すると、スピン量子ビットの性能をシャットする高忠実なスピンが競合的であるか、あるいはトランスモンの結果を超えていることが分かる。
最後に、論理量子状態の復号化と量子エラー軽減の可能性について議論する。
短期スピンキュービットデバイスでは、成功確率が標準QAOAと良好に比較可能な状態において、Parity QAOAを短時間で確実に行うことが期待できる。
Motivated by the prospect of a two-dimensional square-lattice geometry for semiconductor spin qubits, we explore the realization of the Parity Architecture with quantum dots (QDs). We present sequences of spin shuttling and quantum gates that implement the Parity Quantum Approximate Optimization Algorithm (QAOA) on a lattice constructed of identical unit cells, such that the circuit depth is always constant. We further develop a detailed error model for a hardware-specific analysis of the Parity Architecture and we estimate the errors during one round of Parity QAOA. The model includes a general description of the shuttling errors as a function of the probability distribution function of the valley splitting, which is the main limitation for the performance. We compare our approach to a superconducting transmon qubit chip and we find that with high-fidelity spin shuttling the performance of the spin qubits is competitive or even exceeds the results of the transmons. Finally, we discuss the possibility of decoding the logical quantum state and of quantum error mitigation. We find that already with near-term spin qubit devices a sufficiently low physical error probability can be expected to reliably perform Parity QAOA with a short depth in a regime where the success probability compares favorably to standard QAOA. | 翻訳日:2024-08-01 13:27:16 公開日:2024-07-31 |
# 量子過程の回復可能性に関する基礎的限界
Fundamental limitations on the recoverability of quantum processes ( http://arxiv.org/abs/2403.12947v2 ) ライセンス: Link先を確認 | Sohail, Vivek Pandey, Uttam Singh, Siddhartha Das, | (参考訳) 量子情報処理と計算タスクは量子ネットワークとして理解でき、量子状態とチャネルとそれら上の物理的変換が可能である。
したがって、量子プロセスの物理的変換による情報内容の変化を見積もることが重要となる。
量子状態の物理的変換は量子チャネルによって記述され、量子チャネルの変換は量子スーパーチャネルによって記述される。
本研究では,量子チャネルの物理変換がいかにうまく切り離されるか,あるいは逆転するか,という基本的な制約を定め,量子情報や計算装置の設計とベンチマークを行う上で重要な関心事である。
特に、量子スーパーチャネルの作用の下で量子チャネルの量子データ処理の不等式を洗練(強化)する。
我々は、任意の量子チャネルのエントロピーが非減少する作用の下で、サブユニット量子チャネルのスーパーチャネルアナログであるように見える量子スーパーチャネルのクラスを同定する。
また、任意の量子超チャネルの作用下での量子チャネルのエントロピー変化に対する洗練された不等式も提供する。
Quantum information processing and computing tasks can be understood as quantum networks, comprising quantum states and channels and possible physical transformations on them. It is hence pertinent to estimate the change in informational content of quantum processes due to physical transformations they undergo. The physical transformations of quantum states are described by quantum channels, while the transformations of quantum channels are described by quantum superchannels. In this work, we determine fundamental limitations on how well the physical transformation on quantum channels can be undone or reversed, which are of crucial interest to design and benchmark quantum information and computation devices. In particular, we refine (strengthen) the quantum data processing inequality for quantum channels under the action of quantum superchannels. We identify a class of quantum superchannels, which appears to be the superchannel analogue of subunital quantum channels, under the action of which the entropy of an arbitrary quantum channel is nondecreasing. We also provide a refined inequality for the entropy change of quantum channels under the action of an arbitrary quantum superchannel. | 翻訳日:2024-08-01 13:27:16 公開日:2024-07-31 |
# 自己監督型グラフ基礎モデルに関するサーベイ:知識に基づく視点
A Survey on Self-Supervised Graph Foundation Models: Knowledge-Based Perspective ( http://arxiv.org/abs/2403.16137v2 ) ライセンス: Link先を確認 | Ziwen Zhao, Yixin Su, Yuhua Li, Yixiong Zou, Ruixuan Li, Rui Zhang, | (参考訳) グラフ自己教師型学習(SSL)は、グラフ基礎モデル(GFM)を事前学習するためのゴートメソッドである。
グラフデータには、ノード特性やクラスタなど、さまざまな知識パターンが組み込まれており、GFMの一般化表現の学習に不可欠である。
しかし、GFMの既存の調査にはいくつかの欠点がある: 最新の進歩に関する包括性が欠如し、自己管理手法の分類が不明確であり、特定の種類のグラフモデルに限られる限定的なアーキテクチャに基づく視点を採っている。
GFMの最終的な目標は、一般化されたグラフ知識を学習することである。
本稿では,自己教師付きグラフモデルを用いた知識に基づく分類法を提案する。
我々の分類学は、ミクロ(ノード、リンクなど)、メソスコピック(コンテキスト、クラスタなど)、マクロ的知識(グローバル構造、多様体など)から構成される。
9つの知識カテゴリと25以上のプレテキストタスクを事前訓練し、様々な下流タスクの一般化戦略をカバーしている。
このような知識に基づく分類は、グラフ言語モデルのような新しいアーキテクチャに基づいたグラフモデルをより明確に再検討し、GFMを構築するためのより深い洞察を提供する。
Graph self-supervised learning (SSL) is now a go-to method for pre-training graph foundation models (GFMs). There is a wide variety of knowledge patterns embedded in the graph data, such as node properties and clusters, which are crucial to learning generalized representations for GFMs. However, existing surveys of GFMs have several shortcomings: they lack comprehensiveness regarding the most recent progress, have unclear categorization of self-supervised methods, and take a limited architecture-based perspective that is restricted to only certain types of graph models. As the ultimate goal of GFMs is to learn generalized graph knowledge, we provide a comprehensive survey of self-supervised GFMs from a novel knowledge-based perspective. We propose a knowledge-based taxonomy, which categorizes self-supervised graph models by the specific graph knowledge utilized. Our taxonomy consists of microscopic (nodes, links, etc.), mesoscopic (context, clusters, etc.), and macroscopic knowledge (global structure, manifolds, etc.). It covers a total of 9 knowledge categories and more than 25 pretext tasks for pre-training GFMs, as well as various downstream task generalization strategies. Such a knowledge-based taxonomy allows us to re-examine graph models based on new architectures more clearly, such as graph language models, as well as provide more in-depth insights for constructing GFMs. | 翻訳日:2024-08-01 13:27:16 公開日:2024-07-31 |
# 応用数学におけるワークフローとモデルのFAIRドキュメンテーションに向けて
Towards a FAIR Documentation of Workflows and Models in Applied Mathematics ( http://arxiv.org/abs/2403.17778v2 ) ライセンス: Link先を確認 | Marco Reidelbach, Björn Schembera, Marcus Weber, | (参考訳) モデリング・シミュレーション・最適化のワークフローは応用数学において基本的な役割を果たす。
Mathematical Research Data Initiative、MaRDIは、このようなワークフローの包括的なドキュメントのためのFAIRおよびマシン解釈可能なテンプレートを開発することで、これに答えた。
Research Data Management OrganiserのプラグインであるMaRDMOは、様々な分野の科学者が、MaRDIテンプレートを使用してシームレスにMaRDIポータル上でワークフローを文書化し、公開することができる。
これらのワークフローの中心は数学的モデルである。
MaRDIはそれらをMathModDBオントロジーで扱い、構造化された形式的なモデル記述を提供する。
本稿では、MathModDB Knowledge GraphとMathRDMOの相互作用について、Digital Humanitiesの代数的モデリングワークフローを通して紹介する。
このデモンストレーションは、元の数値領域を超えて、両方のサービスの汎用性を強調します。
Modeling-Simulation-Optimization workflows play a fundamental role in applied mathematics. The Mathematical Research Data Initiative, MaRDI, responded to this by developing a FAIR and machine-interpretable template for a comprehensive documentation of such workflows. MaRDMO, a Plugin for the Research Data Management Organiser, enables scientists from diverse fields to document and publish their workflows on the MaRDI Portal seamlessly using the MaRDI template. Central to these workflows are mathematical models. MaRDI addresses them with the MathModDB ontology, offering a structured formal model description. Here, we showcase the interaction between MaRDMO and the MathModDB Knowledge Graph through an algebraic modeling workflow from the Digital Humanities. This demonstration underscores the versatility of both services beyond their original numerical domain. | 翻訳日:2024-08-01 13:27:16 公開日:2024-07-31 |
# LLMはコンピュータネットワークを理解できるか? -仮想システム管理者を目指して-
Can LLMs Understand Computer Networks? Towards a Virtual System Administrator ( http://arxiv.org/abs/2404.12689v2 ) ライセンス: Link先を確認 | Denis Donadel, Francesco Marchiori, Luca Pajola, Mauro Conti, | (参考訳) 人工知能の最近の進歩、特にLarge Language Models (LLMs)は、現代のネットワークの複雑さを管理するシステム管理者を支援するための有望な見通しを提供する。
しかし、この可能性にもかかわらず、LLMがコンピュータネットワークを理解できる範囲に関する文献には大きなギャップがある。
実証的な証拠がなければ、システム管理者はネットワーク関連のタスクを正確に実行する上での有効性を保証することなく、これらのモデルに依存するかもしれない。
本稿では,LLMのコンピュータネットワーク理解に関する総合的研究を初めて行った。
ネットワークトポロジとそれに関する質問に対して、LLMが正しい回答を提供できるかどうかを決定するために、いくつかの研究質問を定式化する。
評価のために,様々なネットワーク関連タスクにおいてLLMの能力を評価するための網羅的なフレームワークを開発した。
我々は,プロプライエタリな (g , GPT4) とオープンソース (e , Llama2) モデルを用いたマルチコンピュータネットワーク上でのフレームワークの評価を行った。
ゼロショットシナリオを用いた汎用LCMでは,最高のモデルで平均79.3%の精度で,有望な結果が得られた。
プロプライエタリなLLMは、特にオープンソースモデルにおいて、複雑なネットワークトポロジを理解する上での課題に対して、中小のネットワークにおいて注目すべき結果を得る。
さらに,いくつかのタスクの精度を高めるために,迅速なエンジニアリングを行う方法についての知見を提供する。
Recent advancements in Artificial Intelligence, and particularly Large Language Models (LLMs), offer promising prospects for aiding system administrators in managing the complexity of modern networks. However, despite this potential, a significant gap exists in the literature regarding the extent to which LLMs can understand computer networks. Without empirical evidence, system administrators might rely on these models without assurance of their efficacy in performing network-related tasks accurately. In this paper, we are the first to conduct an exhaustive study on LLMs' comprehension of computer networks. We formulate several research questions to determine whether LLMs can provide correct answers when supplied with a network topology and questions on it. To assess them, we developed a thorough framework for evaluating LLMs' capabilities in various network-related tasks. We evaluate our framework on multiple computer networks employing proprietary (e.g., GPT4) and open-source (e.g., Llama2) models. Our findings in general purpose LLMs using a zero-shot scenario demonstrate promising results, with the best model achieving an average accuracy of 79.3%. Proprietary LLMs achieve noteworthy results in small and medium networks, while challenges persist in comprehending complex network topologies, particularly for open-source models. Moreover, we provide insight into how prompt engineering can enhance the accuracy of some tasks. | 翻訳日:2024-08-01 13:17:29 公開日:2024-07-31 |
# MOD-UV:未ラベルビデオからモバイルオブジェクト検出器を学習する
MOD-UV: Learning Mobile Object Detectors from Unlabeled Videos ( http://arxiv.org/abs/2405.14841v3 ) ライセンス: Link先を確認 | Yihong Sun, Bharath Hariharan, | (参考訳) エージェントは、例えば自動運転車の交通参加者など、興味のある対象を検出し、ローカライズする必要がある。
このタスクのバウンディングボックスという形でのスーパービジョンは非常に高価です。
このように、事前の研究では教師なしのインスタンス検出とセグメンテーションが検討されているが、注釈付きボックスが存在しないため、どのようにピクセルをオブジェクトに分類し、どのオブジェクトが興味を持つかは明らかでない。
これにより、オーバー/アンダー・セグメンテーションと無関係なオブジェクトが生成される。
人間の視覚システムと実用的な応用に触発されて、教師なし検出の鍵を欠いたキューは動きである、と仮定する: 興味のあるオブジェクトは、通常、頻繁に動く移動物体であり、動きは別々のインスタンスを指定できる。
本稿では,未ラベルビデオのみから学習した移動体検出器MOD-UVを提案する。
動作セグメンテーションから派生した擬似ラベルから始めるが、動きセグメンテーションによって欠落する小さな物体や静的な移動物体を段階的に発見する新しい訓練パラダイムを導入する。
その結果、ラベル付けされていないビデオからしか学ばないが、MOD-UVは単一の静的画像からモバイルオブジェクトを検出し、セグメンテーションすることができる。
Waymo Open, nuScenes, およびKITTIデータセット上で, 外部データや教師付きモデルを用いることなく, 教師なし移動体検出における最先端の性能を実証的に達成する。
コードはhttps://github.com/YihongSun/MOD-UV.comで入手できる。
Embodied agents must detect and localize objects of interest, e.g. traffic participants for self-driving cars. Supervision in the form of bounding boxes for this task is extremely expensive. As such, prior work has looked at unsupervised instance detection and segmentation, but in the absence of annotated boxes, it is unclear how pixels must be grouped into objects and which objects are of interest. This results in over-/under-segmentation and irrelevant objects. Inspired by human visual system and practical applications, we posit that the key missing cue for unsupervised detection is motion: objects of interest are typically mobile objects that frequently move and their motions can specify separate instances. In this paper, we propose MOD-UV, a Mobile Object Detector learned from Unlabeled Videos only. We begin with instance pseudo-labels derived from motion segmentation, but introduce a novel training paradigm to progressively discover small objects and static-but-mobile objects that are missed by motion segmentation. As a result, though only learned from unlabeled videos, MOD-UV can detect and segment mobile objects from a single static image. Empirically, we achieve state-of-the-art performance in unsupervised mobile object detection on Waymo Open, nuScenes, and KITTI Datasets without using any external data or supervised models. Code is available at https://github.com/YihongSun/MOD-UV. | 翻訳日:2024-08-01 13:17:29 公開日:2024-07-31 |
# 完全同型暗号化による離散時間STLの異常モニタリング
Oblivious Monitoring for Discrete-Time STL via Fully Homomorphic Encryption ( http://arxiv.org/abs/2405.16767v2 ) ライセンス: Link先を確認 | Masaki Waga, Kotaro Matsuoka, Takashi Suwa, Naoki Matsumoto, Ryotaro Banno, Song Bian, Kohei Suenaga, | (参考訳) リモートサーバからサイバー物理システム(CPS)を監視する場合、特に生体や位置情報などの機密情報を含む場合、監視されたデータを秘密にしておくことが重要である。
最近、Banno et al (CAV'22)は、完全同型暗号化(FHE)を使用してサーバからデータを隠蔽するオンラインLTL監視プロトコルを提案した。
このプロトコルは,例えば,距離や速度などを組み合わせた安全性測定を行うために,暗号化された値上での算術演算を可能にする。
本プロトコルは,信号時間論理(STL)に対する離散時間実数値信号のオンラインモニタリングを可能にする。
提案プロトコルは, CKKSとTFHEの2つのFHEスキームを組み合わせて, それぞれの強度を利用する。
我々は CKKS を用いて、STL 式から派生した DFA を用いて TFHE を用いて計算を行い、STL 式における算術述語の評価を行う。
責任・敏感性安全(RSS)ルールに対する血糖値と車両の行動のモニタリングについて事例研究を行った。
その結果,プロトコルの実践的妥当性が示唆された。
When monitoring a cyber-physical system (CPS) from a remote server, keeping the monitored data secret is crucial, particularly when they contain sensitive information, e.g., biological or location data. Recently, Banno et al. (CAV'22) proposed a protocol for online LTL monitoring that keeps data concealed from the server using Fully Homomorphic Encryption (FHE). We build on this protocol to allow arithmetic operations over encrypted values, e.g., to compute a safety measurement combining distance, velocity, and so forth. Overall, our protocol enables oblivious online monitoring of discrete-time real-valued signals against signal temporal logic (STL) formulas. Our protocol combines two FHE schemes, CKKS and TFHE, leveraging their respective strengths. We employ CKKS to evaluate arithmetic predicates in STL formulas while utilizing TFHE to process them using a DFA derived from the STL formula. We conducted case studies on monitoring blood glucose levels and vehicles' behavior against the Responsibility-Sensitive Safety (RSS) rules. Our results suggest the practical relevance of our protocol. | 翻訳日:2024-08-01 13:17:29 公開日:2024-07-31 |
# AI支援戦略を用いたラベル付予算最適化フィールド記録からの音声データセット作成のための実践的側面
Practical aspects for the creation of an audio dataset from field recordings with optimized labeling budget with AI-assisted strategy ( http://arxiv.org/abs/2405.18153v2 ) ライセンス: Link先を確認 | Javier Naranjo-Alcazar, Jordi Grau-Haro, Ruben Ribes-Serrano, Pedro Zuccarello, | (参考訳) 機械リスニングは、音声信号から関連する情報を抽出する技術開発に焦点を当てている。
これらのプロジェクトの重要な側面は、コンテキスト化されたデータの取得とラベル付けである。
いくつかのオーディオデータセットが利用可能であるにもかかわらず、多くは商用アプリケーションには適さない。
この論文は、クラウドソーシングよりも専門家ラベルを用いたアクティブラーニング(AL)の重要性を強調し、データセット構造に関する詳細な洞察を欠いていることが多い。
ALは、人間のラベルとAIモデルを組み合わせて、人間のレビューのためのサンプルをインテリジェントに選択することで、ラベル付け予算を最適化する反復的なプロセスである。
このアプローチは、利用可能な計算リソースやメモリを超える大規模で絶えず成長するデータセットを扱うという課題に対処する。
本稿では, データベース構造, ラベル付け予算の最適化など, 資源制約のあるシナリオにおける記録ノードの構成を詳述した, マシンリスニングプロジェクトのための包括的なデータ中心フレームワークを提案する。
スペインのバレンシアの産業港に適用されたこのフレームワークは、小さなチームで5ヶ月にわたって6540の10秒のオーディオサンプルをラベル付けし、その有効性とさまざまなリソース可用性状況への適応性を実証した。
Javier Naranjo-Alcazar、Jordi Grau-Haro、Pedro Zuccarelloの参加は、Valencian Institute for Business Competitiveness(IVACE)とFEDER Fund(プロジェクト Soroll-IA2 (IMDEEA/2023/91))が出資した。
Machine Listening focuses on developing technologies to extract relevant information from audio signals. A critical aspect of these projects is the acquisition and labeling of contextualized data, which is inherently complex and requires specific resources and strategies. Despite the availability of some audio datasets, many are unsuitable for commercial applications. The paper emphasizes the importance of Active Learning (AL) using expert labelers over crowdsourcing, which often lacks detailed insights into dataset structures. AL is an iterative process combining human labelers and AI models to optimize the labeling budget by intelligently selecting samples for human review. This approach addresses the challenge of handling large, constantly growing datasets that exceed available computational resources and memory. The paper presents a comprehensive data-centric framework for Machine Listening projects, detailing the configuration of recording nodes, database structure, and labeling budget optimization in resource-constrained scenarios. Applied to an industrial port in Valencia, Spain, the framework successfully labeled 6540 ten-second audio samples over five months with a small team, demonstrating its effectiveness and adaptability to various resource availability situations. Acknowledgments: The participation of Javier Naranjo-Alcazar, Jordi Grau-Haro and Pedro Zuccarello in this research was funded by the Valencian Institute for Business Competitiveness (IVACE) and the FEDER funds by means of project Soroll-IA2 (IMDEEA/2023/91). | 翻訳日:2024-08-01 13:17:29 公開日:2024-07-31 |
# Occam Gradient Descent
Occam Gradient Descent ( http://arxiv.org/abs/2405.20194v4 ) ライセンス: Link先を確認 | B. N. Kausik, | (参考訳) ディープラーニングニューラルネットワークモデルは、問題領域に適応するのに十分な大きさでなければならないが、勾配降下時のトレーニングデータの過度な適合を回避するには十分である。
これらの競合する要求のバランスをとるために、トランスフォーマーのような過剰な予測されたディープラーニングモデルは、大きなデータセット上で1つのエポックのために訓練されるため、コンピューティングリソースとトレーニングデータの両方で非効率である。
これらの非効率性に対応するために、我々は学習理論を利用してOccam Gradient Descentを導出する。Occam Gradient Descentはモデルサイズを適応的に減少させ、一般化誤差を最小限に抑えるアルゴリズムである。
対照的に、従来の勾配降下は、一般化誤差によらず、嵌合誤差を極度に最小化する。
我々のアルゴリズムは、修正することなく、あらゆるニューラルネットワークの重みとトポロジ的な大きさの空間を同時に下降させる。
損失、計算、モデルサイズについては、我々の実験が示している。
(a)Occam Gradient Descent を用いた線形・畳み込みニューラルネットワークによる画像分類ベンチマークでは,列車走行後プルーニングの有無にかかわらず,従来の勾配勾配よりも優れていた。
b) 表型データ分類タスクにおいて,Occam Gradient Descentで訓練されたニューラルネットワークは,従来の勾配勾配よりも優れており,またランダムフォレストも優れている。
(c) 自然言語変換器において, Occam Gradient Descent は従来の勾配勾配よりも優れる。
Deep learning neural network models must be large enough to adapt to their problem domain, while small enough to avoid overfitting training data during gradient descent. To balance these competing demands, overprovisioned deep learning models such as transformers are trained for a single epoch on large data sets, and hence inefficient with both computing resources and training data. In response to these inefficiencies, we exploit learning theory to derive Occam Gradient Descent, an algorithm that interleaves adaptive reduction of model size to minimize generalization error, with gradient descent on model weights to minimize fitting error. In contrast, traditional gradient descent greedily minimizes fitting error without regard to generalization error. Our algorithm simultaneously descends the space of weights and topological size of any neural network without modification. With respect to loss, compute and model size, our experiments show (a) on image classification benchmarks, linear and convolutional neural networks trained with Occam Gradient Descent outperform traditional gradient descent with or without post-train pruning; (b) on a range of tabular data classification tasks, neural networks trained with Occam Gradient Descent outperform traditional gradient descent, as well as Random Forests; (c) on natural language transformers, Occam Gradient Descent outperforms traditional gradient descent. | 翻訳日:2024-08-01 13:17:29 公開日:2024-07-31 |
# QQQ:大規模言語モデルのための品質クアチュアビット量子化
QQQ: Quality Quattuor-Bit Quantization for Large Language Models ( http://arxiv.org/abs/2406.09904v3 ) ライセンス: Link先を確認 | Ying Zhang, Peng Zhang, Mincong Huang, Jingyang Xiang, Yujie Wang, Chao Wang, Yineng Zhang, Lei Yu, Chuan Liu, Wei Lin, | (参考訳) 量子化は、大きな言語モデルを圧縮する有効な方法として証明されている。
W8A8やW4A16のような一般的なテクニックは、モデルのパフォーマンスを効果的に維持するが、プリフィルと推論の復号を同時に高速化することができないことが多い。
W4A8は両者を加速する上で有望な戦略であり、通常は大幅なパフォーマンス低下につながる。
これらの問題に対処するため、QQQは、4ビットの重みと8ビットのアクティベーションを持つQuality Quattuor-bit Quantization法である。
QQQは適応的平滑化とヘッセン型補償を採用し、広範囲のトレーニングなしに量子化されたモデルの性能を大幅に向上させる。
さらに,W4A8 GEMMカーネルを巧みに設計し,推論速度を向上した。
専用チャネルごとのW4A8 GEMMとグループごとのW4A8 GEMMは、3.67$\times$と3.29$\times$ over FP16 GEMMの大幅な高速化を実現している。
以上の結果から,従来のLLM量子化手法と同等の性能を示すとともに,FP16,W8A8,W4A16と比較して,2.24$\times$,2.10$\times$,1.25$\times$に高速化された。
Quantization is a proven effective method for compressing large language models. Although popular techniques like W8A8 and W4A16 effectively maintain model performance, they often fail to concurrently speed up the prefill and decoding stages of inference. W4A8 is a promising strategy to accelerate both of them while usually leads to a significant performance degradation. To address these issues, we present QQQ, a Quality Quattuor-bit Quantization method with 4-bit weights and 8-bit activations. QQQ employs adaptive smoothing and Hessian-based compensation, significantly enhancing the performance of quantized models without extensive training. Furthermore, we meticulously engineer W4A8 GEMM kernels to increase inference speed. Our specialized per-channel W4A8 GEMM and per-group W4A8 GEMM achieve impressive speed increases of 3.67$\times$ and 3.29 $\times$ over FP16 GEMM. Our extensive experiments show that QQQ achieves performance on par with existing state-of-the-art LLM quantization methods while significantly accelerating inference, achieving speed boosts up to 2.24 $\times$, 2.10$\times$, and 1.25$\times$ compared to FP16, W8A8, and W4A16, respectively. | 翻訳日:2024-08-01 13:17:29 公開日:2024-07-31 |
# CAT:解釈可能な概念ベーステイラー付加モデル
CAT: Interpretable Concept-based Taylor Additive Models ( http://arxiv.org/abs/2406.17931v3 ) ライセンス: Link先を確認 | Viet Duong, Qiong Wu, Zhengyi Zhou, Hongjue Zhao, Chenxiang Luo, Eric Zavesky, Huaxiu Yao, Huajie Shao, | (参考訳) 一般化付加モデル(GAM)は、新しい解釈可能な手法として、ニューラルネットワークを用いて各特徴の非線形関数を個別に学習し、最終的な予測のために線形モデルを介して結合する。
GAMは、機能レベルではディープニューラルネットワーク(DNN)を説明することができるが、大量のモデルパラメータを必要とし、オーバーフィットする傾向があり、トレーニングとスケールが困難である。
さらに、多くの特徴を持つ現実世界のデータセットでは、特徴に基づく説明の解釈可能性が人間にとって低下する。
これらの課題に対処するため、近年の研究は概念に基づく解釈方法へと移行している。
これらのアプローチは、予測を行う前に概念学習を中間段階として統合し、人間の理解可能な概念の観点から予測を説明する。
しかし、これらの手法はドメインの専門家に対して、関連する名前とその基礎的真理値で広く概念をラベル付けする必要がある。
そこで本研究では,このプロセスに対して,新しい解釈可能な概念bAsed Taylor加法モデルであるCATを提案する。
CATは、ドメインの専門家が概念とその基盤となる真理値に注釈を付ける必要はない。
代わりに、ユーザーは入力機能をより広いグループに分類するだけでよい。
特に、CATはまず入力特徴群を1次元の高次概念表現に埋め込み、その概念表現を新しいホワイトボックスTaylorNet(TaylorNet)に供給する。
TaylorNetは、入力と出力の間の非線形関係を多項式を用いて学習することを目的としている。
複数のベンチマークによる評価結果は、CATが広範なモデルパラメータの必要性を減らしながら、ベースラインを上回り、競争することができることを示している。
重要なのは、人間が理解できる高レベルの概念を通じて、モデル予測を説明することができることだ。
As an emerging interpretable technique, Generalized Additive Models (GAMs) adopt neural networks to individually learn non-linear functions for each feature, which are then combined through a linear model for final predictions. Although GAMs can explain deep neural networks (DNNs) at the feature level, they require large numbers of model parameters and are prone to overfitting, making them hard to train and scale. Additionally, in real-world datasets with many features, the interpretability of feature-based explanations diminishes for humans. To tackle these issues, recent research has shifted towards concept-based interpretable methods. These approaches try to integrate concept learning as an intermediate step before making predictions, explaining the predictions in terms of human-understandable concepts. However, these methods require domain experts to extensively label concepts with relevant names and their ground-truth values. In response, we propose CAT, a novel interpretable Concept-bAsed Taylor additive model to simply this process. CAT does not have to require domain experts to annotate concepts and their ground-truth values. Instead, it only requires users to simply categorize input features into broad groups, which can be easily accomplished through a quick metadata review. Specifically, CAT first embeds each group of input features into one-dimensional high-level concept representation, and then feeds the concept representations into a new white-box Taylor Neural Network (TaylorNet). The TaylorNet aims to learn the non-linear relationship between the inputs and outputs using polynomials. Evaluation results across multiple benchmarks demonstrate that CAT can outperform or compete with the baselines while reducing the need of extensive model parameters. Importantly, it can explain model predictions through high-level concepts that human can understand. | 翻訳日:2024-08-01 13:17:29 公開日:2024-07-31 |
# 脳波と言語モデルを用いた言語処理の時間スケールの検討
Investigating the Timescales of Language Processing with EEG and Language Models ( http://arxiv.org/abs/2406.19884v2 ) ライセンス: Link先を確認 | Davide Turco, Conor Houghton, | (参考訳) 本研究では,事前学習したトランスフォーマーベース言語モデルと脳波データからの単語表現のアライメントを検討することで,言語処理の時間的ダイナミクスについて検討する。
テンポラルレスポンス関数(TRF)モデルを用いて,言語理解における人工言語モデルと脳反応の相互作用に関する知見を明らかにする。
分析の結果,異なる層からのTRFのパターンが明らかとなり,語彙的および構成的処理への様々な貢献が明らかになった。
さらに,線形判別分析(LDA)を用いて音声部分表現(POS)を分離し,それらが神経応答や構文処理の基盤となるメカニズムに与える影響について考察した。
これらの知見は,高時間分解能の言語処理ダイナミクスを探索するための脳波の有用性を裏付けるものである。
人工言語モデルとニューラルアクティビティをブリッジすることで、微細な時間スケールでの相互作用の理解を深める。
This study explores the temporal dynamics of language processing by examining the alignment between word representations from a pre-trained transformer-based language model, and EEG data. Using a Temporal Response Function (TRF) model, we investigate how neural activity corresponds to model representations across different layers, revealing insights into the interaction between artificial language models and brain responses during language comprehension. Our analysis reveals patterns in TRFs from distinct layers, highlighting varying contributions to lexical and compositional processing. Additionally, we used linear discriminant analysis (LDA) to isolate part-of-speech (POS) representations, offering insights into their influence on neural responses and the underlying mechanisms of syntactic processing. These findings underscore EEG's utility for probing language processing dynamics with high temporal resolution. By bridging artificial language models and neural activity, this study advances our understanding of their interaction at fine timescales. | 翻訳日:2024-08-01 13:17:29 公開日:2024-07-31 |
# 視覚・言語モデルにおけるマルチモーダルハロシン化雪玉の探索と緩和
Investigating and Mitigating the Multimodal Hallucination Snowballing in Large Vision-Language Models ( http://arxiv.org/abs/2407.00569v3 ) ライセンス: Link先を確認 | Weihong Zhong, Xiaocheng Feng, Liang Zhao, Qiming Li, Lei Huang, Yuxuan Gu, Weitao Ma, Yuan Xu, Bing Qin, | (参考訳) 視覚情報を人間の言語で理解する手法は進歩しているが、LVLM(Large Vision-Language Models)は多モード幻覚に悩まされている。
自然な懸念は、マルチモーダル相互作用の間、生成された幻覚がLVLMの次の世代に影響を与える可能性があることである。
先述した幻覚に関する質問を提示した場合、LVLMは、地上の視覚情報が存在するとしても、誤解され、誤った反応をするのか?
そこで我々はMMHalSnowball (MMHalSnowball) というフレームワークを提案し,LVLMが学習した幻覚的会話の中で,特定の視覚的質問に答えることが求められている。
我々の実験は、オープンソースのLVLMの性能が少なくとも311\%低下していることを示し、LVLMは生成した幻覚を受け入れる傾向があり、邪魔なしにはサポートできないという誤った主張をすることを示している。
この現象をマルチモーダル・ハロシン化スノーボールと呼ぶ。
これを軽減するために,残差視覚入力からの出力分布を補正し,視覚情報に直接アクセス可能なモデルを提供するResidual Visual Decodingと呼ばれるトレーニング不要な手法を提案する。
実験により,雪玉型多モード幻覚の2,4 %以上を低減できることを確認した。
Though advanced in understanding visual information with human languages, Large Vision-Language Models (LVLMs) still suffer from multimodal hallucinations. A natural concern is that during multimodal interaction, the generated hallucinations could influence the LVLMs' subsequent generation. Thus, we raise a question: When presented with a query relevant to the previously generated hallucination, will LVLMs be misled and respond incorrectly, even though the ground visual information exists? To answer this, we propose a framework called MMHalSnowball to evaluate LVLMs' behaviors when encountering generated hallucinations, where LVLMs are required to answer specific visual questions within a curated hallucinatory conversation. Crucially, our experiment shows that the performance of open-source LVLMs drops by at least $31\%$, indicating that LVLMs are prone to accept the generated hallucinations and make false claims that they would not have supported without distractions. We term this phenomenon Multimodal Hallucination Snowballing. To mitigate this, we further propose a training-free method called Residual Visual Decoding, where we revise the output distribution of LVLMs with the one derived from the residual visual input, providing models with direct access to the visual information. Experiments show that our method can mitigate more than $24\%$ of the snowballed multimodal hallucination while maintaining capabilities. | 翻訳日:2024-08-01 13:17:29 公開日:2024-07-31 |
# ZeroDDI: セマンティック強化学習とデュアルモーダル一様アライメントを用いたゼロショットドラッグドラッグインタラクションイベント予測手法
ZeroDDI: A Zero-Shot Drug-Drug Interaction Event Prediction Method with Semantic Enhanced Learning and Dual-Modal Uniform Alignment ( http://arxiv.org/abs/2407.00891v2 ) ライセンス: Link先を確認 | Ziyan Wang, Zhankun Xiong, Feng Huang, Xuan Liu, Wen Zhang, | (参考訳) 薬物と薬物の相互作用(DDIs)は、様々な薬理学的変化をもたらし、DDIイベント(DDIEs)として知られるクラスに分類される。
近年、未観測/未確認のDDIEが出現し、ゼロショットDDIE予測(ZS-DDIE)タスクとして定式化された未確認クラスがトレーニング段階でラベル付きインスタンスを持たない場合に、新たな分類タスクを呈している。
しかし、既存の計算手法はZS-DDIEには直接適用されない。
これらの課題を克服するために,ZS-DDIEタスクのためのZeroDDIという新しい手法を提案する。
具体的には、重要な生物学的意味論を強調し、DDIE表現学習のための識別的分子構造関連意味論を蒸留する生体意味強化DDIE表現学習モジュールを設計する。
さらに, 薬物対表現とDDIE意味表現を単位球内に均一に分散し, 一致した表現をアライメントし, クラス不均衡の問題を緩和するデュアルモーダル一様アライメント戦略を提案する。
大規模な実験により、ZeroDDIはベースラインを超越し、未知のDDIEを検出するための有望なツールであることが示された。
私たちのコードはhttps://github.com/wzy-Sarah/ZeroDDI.comで公開されています。
Drug-drug interactions (DDIs) can result in various pharmacological changes, which can be categorized into different classes known as DDI events (DDIEs). In recent years, previously unobserved/unseen DDIEs have been emerging, posing a new classification task when unseen classes have no labelled instances in the training stage, which is formulated as a zero-shot DDIE prediction (ZS-DDIE) task. However, existing computational methods are not directly applicable to ZS-DDIE, which has two primary challenges: obtaining suitable DDIE representations and handling the class imbalance issue. To overcome these challenges, we propose a novel method named ZeroDDI for the ZS-DDIE task. Specifically, we design a biological semantic enhanced DDIE representation learning module, which emphasizes the key biological semantics and distills discriminative molecular substructure-related semantics for DDIE representation learning. Furthermore, we propose a dual-modal uniform alignment strategy to distribute drug pair representations and DDIE semantic representations uniformly in a unit sphere and align the matched ones, which can mitigate the issue of class imbalance. Extensive experiments showed that ZeroDDI surpasses the baselines and indicate that it is a promising tool for detecting unseen DDIEs. Our code has been released in https://github.com/wzy-Sarah/ZeroDDI. | 翻訳日:2024-08-01 13:17:29 公開日:2024-07-31 |
# カラーノイズ下におけるゲートセットトモグラフィーの微視的パラメトリゼーション
Microscopic parametrizations for gate set tomography under coloured noise ( http://arxiv.org/abs/2407.11539v2 ) ライセンス: Link先を確認 | P. Viñas, A. Bermudez, | (参考訳) ゲートセットトモグラフィ(GST)は、ノイズの多い量子情報プロセッサの自己整合性評価を可能にする。
標準的なデバイスに依存しないアプローチは、QIPを物理法則に制約されるブラックボックスとして扱い、かなりのリソースコストで完全な汎用性を得る:ゲートセットから構築された多数の回路はゲートセットのパラメータを増幅するために実行されなければならない。
本研究では, 駆動相における時間相関ノイズ下での量子ゲートの微視的パラメトリゼーションにより, GSTのより効率的なバージョンを実現するために必要な資源を削減できることを示す。
雑音スペクトル密度上のフィルタ関数の定式化を利用して、各ゲートにおける有限相関時間と非マルコフ量子進化の影響を含むゲートセットの最小パラメトリゼーションについて議論する。
我々は,本手法と標準長周期GSTを用いて得られた推定ゲートセットを比較し,それらの精度を確立された指標の観点から論じるとともに,特定例のサンプリング複雑性の観点からパラメタライズドアプローチの利点を示す。
Gate set tomography (GST) allows for a self-consistent characterization of noisy quantum information processors. The standard device-agnostic approach treats the QIPs as black boxes that are only constrained by the laws of physics, attaining full generality at a considerable resource cost: numerous circuits built from the gate set must be run in order to amplify each of the gate set parameters. In this work, we show that a microscopic parametrization of quantum gates under time-correlated noise on the driving phase, motivated by recent experiments with trapped-ion gates, reduces the required resources enabling a more efficient version of GST. By making use of the formalism of filter functions over the noise spectral densities, we discuss the minimal parametrizations of the gate set that include the effect of finite correlation times and non-Markovian quantum evolutions during the individual gates. We compare the estimated gate sets obtained by our method and the standard long-sequence GST, discussing their accuracies in terms of established metrics, as well as showcasing the advantages of the parametrized approach in terms of the sampling complexity for specific examples. | 翻訳日:2024-08-01 13:17:29 公開日:2024-07-31 |
# 短時間ビデオ推薦における不確かさウォッチタイムの条件量子推定
Conditional Quantile Estimation for Uncertain Watch Time in Short-Video Recommendation ( http://arxiv.org/abs/2407.12223v3 ) ライセンス: Link先を確認 | Chengzhi Lin, Shuchang Liu, Chuyuan Wang, Yongqi Liu, | (参考訳) ウォッチタイムの正確な予測は、短いビデオプラットフォームにおける推奨事項とユーザーエクスペリエンスの最適化に不可欠である。
しかし、単一の平均時計時間を見積もる既存の方法は、ユーザエンゲージメントパターンの固有の不確実性や多様性を捉えるのに失敗することが多い。
本稿では,時計時間全体の条件分布をモデル化する条件量子推定(CQE)フレームワークを提案する。
量子回帰を用いて、CQEは、ユーザとビデオのペアごとに複雑なウォッチタイム分布を特徴付け、ユーザの振る舞いを理解するための柔軟で包括的なアプローチを提供する。
さらに、様々なレコメンデーションシナリオやユーザの好みに適応して、定量推定と組み合わせるための複数の戦略を設計します。
大規模なオフライン実験とオンラインA/Bテストは、ウォッチタイム予測とユーザエンゲージメントモデリングにおけるCQEの優位性を示している。
特に、KuaiShowにおけるCQEのオンライン展開は、アクティブデイ、アクティブユーザ、エンゲージメント期間、ビデオビュー数など、重要な評価指標を大幅に改善した。
これらの結果は,短いビデオレコメンデーションシステムのユーザエクスペリエンスと全体的なパフォーマンス向上における,提案手法の実践的影響を浮き彫りにしている。
コードは公開後に公開される。
Accurately predicting watch time is crucial for optimizing recommendations and user experience in short video platforms. However, existing methods that estimate a single average watch time often fail to capture the inherent uncertainty and diversity in user engagement patterns. In this paper, we propose the Conditional Quantile Estimation (CQE) framework to model the entire conditional distribution of watch time. Using quantile regression, CQE characterizes the complex watch-time distribution for each user-video pair, providing a flexible and comprehensive approach to understanding user behavior. We further design multiple strategies to combine the quantile estimates, adapting to different recommendation scenarios and user preferences. Extensive offline experiments and online A/B tests demonstrate the superiority of CQE in watch time prediction and user engagement modeling. In particular, the online deployment of CQE in KuaiShow has led to significant improvements in key evaluation metrics, including active days, active users, engagement duration, and video view counts. These results highlight the practical impact of our proposed approach in enhancing the user experience and overall performance of the short video recommendation system. The code will be released after publication. | 翻訳日:2024-08-01 13:17:29 公開日:2024-07-31 |
# Rydberg tweezer配列の超硬度
Supersolidity in Rydberg tweezer arrays ( http://arxiv.org/abs/2407.12752v2 ) ライセンス: Link先を確認 | Lukas Homeier, Simon Hollerith, Sebastian Geier, Neng-Chun Chiu, Antoine Browaeys, Lode Pollet, | (参考訳) Rydberg tweezer アレイは、双極子 XY または van-der-Waals Ising ZZ 相互作用で量子磁石を探索するための汎用的なプラットフォームを提供する。
本稿では、リドベルク原子間の双極子相互作用とファンダーワール相互作用を組み合わせたスキームを提案し、後者の振幅は前者よりも大きく、光ツイーザアレイの長距離トンネルによる拡張ハバードモデルを実現する。
反発的相互作用では、大規模量子モンテカルロシミュレーションによって支えられた三角格子上でのRydberg tweezer実験において、${}^{87}$Rbの明示的に計算された対の相互作用と、粒子あたり$S/N \approx 0.19$の臨界エントロピーにより、安定な超固体相の存在を予測する。
このような格子超固体は長寿命であり、等方的かつ平坦な2次元幾何学において広いパラメータ範囲で発見され、100個の粒子に対して実現可能である。
その熱力学と力学特性は、ヒッヘルトよりもはるかに大きなスケールで研究することができる。
Rydberg tweezer arrays provide a versatile platform to explore quantum magnets with dipolar XY or van-der-Waals Ising ZZ interactions. Here, we propose a scheme combining dipolar and van-der-Waals interactions between Rydberg atoms, where the amplitude of the latter can be greater than that of the former, realizing an extended Hubbard model with long-range tunnelings in optical tweezer arrays. For repulsive interactions, we predict the existence of a robust supersolid phase accessible in current Rydberg tweezer experiments on the triangular lattice supported by large-scale quantum Monte Carlo simulations based on explicitly calculated pair interactions for ${}^{87}$Rb and with a critical entropy per particle $S/N \approx 0.19$. Such a lattice supersolid is long-lived, found over a wide parameter range in an isotropic and flat two-dimensional geometry, and can be realized for 100s of particles. Its thermodynamical and dynamical properties can hence be studied at a far larger scale than hitherto possible. | 翻訳日:2024-08-01 13:17:29 公開日:2024-07-31 |
# 安定したオーディオオープン
Stable Audio Open ( http://arxiv.org/abs/2407.14358v2 ) ライセンス: Link先を確認 | Zach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons, | (参考訳) オープンな生成モデルはコミュニティにとって極めて重要であり、ファインチューンを可能にし、新しいモデルを提示する際にベースラインとして機能する。
しかし、現在のテキスト・トゥ・オーディオモデルのほとんどはプライベートであり、アーティストや研究者が構築するにはアクセスできない。
本稿では、Creative Commonsデータでトレーニングされた新しいオープンウェイトテキスト・トゥ・オーディオモデルのアーキテクチャとトレーニングプロセスについて述べる。
評価の結果、モデルの性能は様々な指標で最先端と競合していることがわかった。
特に、報告されたFDopenl3の結果(世代のリアリズムを測る)は、44.1kHzで高品質なステレオ音声合成の可能性を示している。
Open generative models are vitally important for the community, allowing for fine-tunes and serving as baselines when presenting new models. However, most current text-to-audio models are private and not accessible for artists and researchers to build upon. Here we describe the architecture and training process of a new open-weights text-to-audio model trained with Creative Commons data. Our evaluation shows that the model's performance is competitive with the state-of-the-art across various metrics. Notably, the reported FDopenl3 results (measuring the realism of the generations) showcase its potential for high-quality stereo sound synthesis at 44.1kHz. | 翻訳日:2024-08-01 13:07:45 公開日:2024-07-31 |
# The syzygy distinguisher―the syzygy distinguisher
The syzygy distinguisher ( http://arxiv.org/abs/2407.15740v4 ) ライセンス: Link先を確認 | Hugues Randriambololona, | (参考訳) 本稿では, 誤り訂正能力において, 複雑度が劣等であり, 一般的な復号アルゴリズムよりも優れる交代符号とゴッパ符号の新しい区別器を提案する。
さらに、以前の区別器や構造回復アルゴリズムの強い規則的制限に苦しめられず、特に、量子後暗号標準化のための古典的なマッケイリーの候補で使われるコードに適用される。
区別できる不変量は、双対符号の短縮の同次座標環のベッチ数である。
1978年に導入されて以来、McEliece暗号系の解析が指数障壁を破るのはこれが初めてである。
We present a new distinguisher for alternant and Goppa codes, whose complexity is subexponential in the error-correcting capability, hence better than that of generic decoding algorithms. Moreover it does not suffer from the strong regime limitations of the previous distinguishers or structure recovery algorithms: in particular, it applies to the codes used in the Classic McEliece candidate for postquantum cryptography standardization. The invariants that allow us to distinguish are graded Betti numbers of the homogeneous coordinate ring of a shortening of the dual code. Since its introduction in 1978, this is the first time an analysis of the McEliece cryptosystem breaks the exponential barrier. | 翻訳日:2024-08-01 13:07:45 公開日:2024-07-31 |
# 適応的勾配正規化法
An Adaptive Gradient Regularization Method ( http://arxiv.org/abs/2407.16944v2 ) ライセンス: Link先を確認 | Huixiu Jiang, Ling Yang, Yu Bao, Rutong Si, | (参考訳) 最適化は、高い効率とパフォーマンスを持つニューラルネットワークトレーニングにおいて重要な役割を果たす。
勾配に基づく重み更新は、オプティマイザの中心部分である。
重みと勾配の正規化および標準化操作は、トレーニングプロセスを加速し、ウェイト標準化(WS)、ウェイト正規化(WN)、勾配正規化(GN)などの性能を向上させることが示されている。
本研究では,任意の次元の勾配ベクトルを係数ベクトルとして正規化し,バニラ勾配によって勾配とその係数ベクトルの積を減算する勾配ベクトルの勾配等級に基づく新しい最適化手法を提案する。
これは適応的な勾配クリッピング法と見なすことができる。
AGRは、より安定したトレーニングプロセスとより優れた一般化性能により、損失関数リプシッツネスを改善することができることを示す。
AGRは3行のコードだけで、AdanやAdamWといったバニラオプティマイザに組み込むことができる。
実験は画像生成,画像分類,言語表現において行われ,AGRがトレーニング結果を改善することを示す。
Optimizer plays an important role in neural network training with high efficiency and performance. Weight update based on its gradient is the central part of the optimizer. It has been shown that normalization and standardization operation on weight and gradient can accelerate the training process and improve performance such as Weight Standardization (WS), weight normalization (WN) and gradient normalization (GN); there is also gradient centralization (GC). In this work, we introduce a new optimization technique based on the gradient magnitude in a gradient vector named adaptive gradient regularization (AGR), which normalizes the gradient vector in all dimensions as a coefficient vector and subtracts the product of the gradient and its coefficient vector by the vanilla gradient. It can be viewed as an adaptive gradient clipping method. We show that the AGR can improve the loss function Lipschitzness with a more stable training process and better generalization performance. AGR is very simple to be embedded into vanilla optimizers such as Adan and AdamW with only three lines of code. Our experiments are conducted in image generation, image classification and language representation, which shows that our AGR improves the training result. | 翻訳日:2024-08-01 13:07:45 公開日:2024-07-31 |
# ArtA: スピン量子アーキテクチャの設計空間探索を自動化する
ArtA: Automating Design Space Exploration of Spin Qubit Architectures ( http://arxiv.org/abs/2407.18151v2 ) ライセンス: Link先を確認 | Nikiforos Paraskevopoulos, David Hamel, Aritra Sarkar, Carmen G. Almudever, Sebastian Feld, | (参考訳) 量子コンピューティングの分野では、量子プロセッサが様々な量子アルゴリズムで高い性能を達成できるようなアーキテクチャ的特徴を識別することが大きな課題である。
そこで本研究では,量子ドット型スピンキュービットアーキテクチャのためのDSE(Design Space Exploration)を提案する。
改良されたSpinQコンパイルフレームワークを用いて,29,312のスピンキュービットアーキテクチャからなる設計空間を探索し,設計空間を高速にするために,革新的な最適化ツールArtA(Artificial Architect)を適用した。
ArtAは17の最適化構成を利用することができ、同じ結果の品質を維持しながら、従来のブルートフォースアプローチと比較して探索時間を最大99.1%削減できる。
量子回路毎の最適マッチング最適化構成を総合的に評価した後、ArtAは、検査された回路間で最適な性能を提供する、特異かつ普遍的なアーキテクチャ特徴を提案する。
我々の研究は、DSE手法と最適化アルゴリズムの相乗効果を効果的に展開し、量子プロセッサ設計者に有用な提案を提供することを実証している。
In the fast-paced field of quantum computing, identifying the architectural characteristics that will enable quantum processors to achieve high performance across a diverse range of quantum algorithms continues to pose a significant challenge. Given the extensive and costly nature of experimentally testing different designs, this paper introduces the first Design Space Exploration (DSE) for quantum-dot spin-qubit architectures. Utilizing the upgraded SpinQ compilation framework, this study explores a substantial design space comprising 29,312 spin-qubit-based architectures and applies an innovative optimization tool, ArtA (Artificial Architect), to speed up the design space traversal. ArtA can leverage 17 optimization configurations, significantly reducing exploration times by up to 99.1% compared to a traditional brute force approach while maintaining the same result quality. After a comprehensive evaluation of best-matching optimization configurations per quantum circuit, ArtA suggests specific and universal architectural features that provide optimal performance across the examined circuits. Our work demonstrates that the synergy between DSE methodologies and optimization algorithms can effectively be deployed to provide useful suggestions to quantum processor designers. | 翻訳日:2024-08-01 13:07:45 公開日:2024-07-31 |
# 立体差分に基づく眼科相談における役割特化指導型大言語モデル
A Role-specific Guided Large Language Model for Ophthalmic Consultation Based on Stylistic Differentiation ( http://arxiv.org/abs/2407.18483v4 ) ライセンス: Link先を確認 | Laiyi Fu, Binbin Fan, Hongkai Du, Yanxiang Feng, Chunhua Li, Huping Song, | (参考訳) 眼科相談は、眼疾患の診断、治療、予防に不可欠である。
しかし、コンサルテーションの需要は眼科医以上のものになっている。
事前訓練された大規模な言語モデルを活用することで、特定のシナリオに対する効果的な対話を設計し、相談を支援することができる。
従来の質問応答タスクの微調整戦略は、モデルのサイズが大きくなることと、コンサルテーション中に患者・医師の役割を無視することがしばしばあるため、現実的ではない。
本稿では,医師の役割認識をガイドした眼科医療問合せ大言語モデルであるEyeDoctorと,外部疾患情報を用いた知識ベースを提案する。
眼科相談においてEyeDoctorはより高い質問応答精度を達成できることを示す実験結果を得た。
特に、EyeDoctorは第2のベストモデルであるChatGPTと比較してルージュ-1スコアが7.25%改善し、F1スコアが10.16%改善した。
EyeDocは無料のWebベースサービスとしても機能し、souceコードはhttps://github.com/sperfu/EyeDoc.comで入手できる。
Ophthalmology consultations are crucial for diagnosing, treating, and preventing eye diseases. However, the growing demand for consultations exceeds the availability of ophthalmologists. By leveraging large pre-trained language models, we can design effective dialogues for specific scenarios, aiding in consultations. Traditional fine-tuning strategies for question-answering tasks are impractical due to increasing model size and often ignoring patient-doctor role function during consultations. In this paper, we propose EyeDoctor, an ophthalmic medical questioning large language model that enhances accuracy through doctor-patient role perception guided and an augmented knowledge base with external disease information. Experimental results show EyeDoctor achieves higher question-answering precision in ophthalmology consultations. Notably, EyeDoctor demonstrated a 7.25% improvement in Rouge-1 scores and a 10.16% improvement in F1 scores on multi-round datasets compared to second best model ChatGPT, highlighting the importance of doctor-patient role differentiation and dynamic knowledge base expansion for intelligent medical consultations. EyeDoc also serves as a free available web based service and souce code is available at https://github.com/sperfu/EyeDoc. | 翻訳日:2024-08-01 13:07:45 公開日:2024-07-31 |
# チップ設計における強化学習に基づくマクロ細胞の非重複配置
Non-Overlapping Placement of Macro Cells based on Reinforcement Learning in Chip Design ( http://arxiv.org/abs/2407.18499v2 ) ライセンス: Link先を確認 | Tao Yu, Peng Gao, Fei Wang, Ru-Yue Yuan, | (参考訳) チップ設計の複雑さが増大しているため、既存の配置法では、マクロセルのカバレッジと最適化効率に多くの欠点がある。
本稿では,既存のチップ設計手法におけるレイアウトの重複,性能の低下,最適化効率の低下といった問題に着目し,強化学習に基づくエンドツーエンド配置手法SRLPlacerを提案する。
まず、配置問題をマクロセル間の結合関係グラフモデルを確立することによりマルコフ決定プロセスに変換し、レイアウトの最適化戦略を学ぶ。
第2に、標準セルレイアウトを統合した後、配置プロセス全体を最適化する。
提案するSRLPlacerは,一般ベンチマークISPD2005に基づいて,混雑のルーティングやワイヤ長さの短縮を考慮しつつ,マクロセル間の重なり合う問題を効果的に解くことができる。
Due to the increasing complexity of chip design, existing placement methods still have many shortcomings in dealing with macro cells coverage and optimization efficiency. Aiming at the problems of layout overlap, inferior performance, and low optimization efficiency in existing chip design methods, this paper proposes an end-to-end placement method, SRLPlacer, based on reinforcement learning. First, the placement problem is transformed into a Markov decision process by establishing the coupling relationship graph model between macro cells to learn the strategy for optimizing layouts. Secondly, the whole placement process is optimized after integrating the standard cell layout. By assessing on the public benchmark ISPD2005, the proposed SRLPlacer can effectively solve the overlap problem between macro cells while considering routing congestion and shortening the total wire length to ensure routability. | 翻訳日:2024-08-01 13:07:45 公開日:2024-07-31 |
# PP-TIL:インスタンスを用いた移動模倣学習による自律運転の個人化計画
PP-TIL: Personalized Planning for Autonomous Driving with Instance-based Transfer Imitation Learning ( http://arxiv.org/abs/2407.18569v2 ) ライセンス: Link先を確認 | Fangze Lin, Ying He, Fei Yu, | (参考訳) パーソナライズド・モーション・プランニングは、都会の自動運転において重要な役割を担い、個々の利用者のユニークな要求に応えている。
それにもかかわらず、事前の取り組みは、複雑な都市環境におけるパーソナライズされた計画と、データ利用による計画性能の向上の2つの重要な側面に同時に対処する上で、しばしば困難に直面している。
この課題は、ユーザデータの高価で制限された性質と、無限大に傾向するシーン状態空間から生じます。
これらの要因は、モデルトレーニングにおける過度な適合と一般化の問題に寄与する。
そこで本研究では,インスタンスベースの伝達模倣学習手法を提案する。
本手法は,知識を専門領域データからユーザ領域へ移行し,これらの課題に対する根本的な解決方法を示す。
私たちは最初、大規模な専門家データを使って事前訓練されたモデルをトレーニングします。
その後、微調整フェーズにおいて、専門家とユーザデータからなるバッチデータをフィードする。
逆強化学習手法を用いて,ユーザ・デモからスタイル特徴分布を抽出し,ユーザ・スタイルの近似のための正規化項を構築する。
実験では,提案手法の広範な評価を行った。
本手法は,基本手法と比較して,スパースユーザデータによるオーバーフィッティング問題を緩和する。
さらに、エンド・ツー・エンドのパーソナライズされた微調整結果に対する安全保護層として、運転モデルと微分非線形オプティマイザを統合することにより、計画性能が向上することを発見した。
Personalized motion planning holds significant importance within urban automated driving, catering to the unique requirements of individual users. Nevertheless, prior endeavors have frequently encountered difficulties in simultaneously addressing two crucial aspects: personalized planning within intricate urban settings and enhancing planning performance through data utilization. The challenge arises from the expensive and limited nature of user data, coupled with the scene state space tending towards infinity. These factors contribute to overfitting and poor generalization problems during model training. Henceforth, we propose an instance-based transfer imitation learning approach. This method facilitates knowledge transfer from extensive expert domain data to the user domain, presenting a fundamental resolution to these issues. We initially train a pre-trained model using large-scale expert data. Subsequently, during the fine-tuning phase, we feed the batch data, which comprises expert and user data. Employing the inverse reinforcement learning technique, we extract the style feature distribution from user demonstrations, constructing the regularization term for the approximation of user style. In our experiments, we conducted extensive evaluations of the proposed method. Compared to the baseline methods, our approach mitigates the overfitting issue caused by sparse user data. Furthermore, we discovered that integrating the driving model with a differentiable nonlinear optimizer as a safety protection layer for end-to-end personalized fine-tuning results in superior planning performance. | 翻訳日:2024-08-01 13:07:45 公開日:2024-07-31 |
# 量子場理論のための普遍型オイラー・カルタン回路
Universal Euler-Cartan Circuits for Quantum Field Theories ( http://arxiv.org/abs/2407.21278v1 ) ライセンス: Link先を確認 | Ananda Roy, Robert M. Konik, David Rogerson, | (参考訳) 量子コンピュータは、古典的なコンピュータの範囲を超えて広く信じられている問題を効率的に解くことができる。
短期的には、量子ハードウェアを古典的フレームワークに効率的に埋め込むハイブリッド量子古典アルゴリズムは、純粋量子アルゴリズムとその古典的アルゴリズムの性能の大幅な分断を埋めるのに不可欠である。
ここでは、量子場理論の非摂動特性の計算のためのハイブリッド量子古典アルゴリズムを提案する。
提案アルゴリズムは、オイラーとカルタンの単一および2量子ビット作用素の分解に基づく普遍的なパラメトリズド量子回路アンサッツに依存する。
量子場理論の格子実現のエネルギースペクトルを、短距離相互作用と長距離相互作用の両方で計算することで、ベンチマークされる。
低深さ回路は、解析されたモデルで発生するメソニックおよびバリニック励起に対応する高い励起状態と同様に、偽の真空に対して提供される。
記述されたアルゴリズムは、量子場理論における質量比、散乱振幅、偽真空崩壊の研究のための未探索の道を開く。
Quantum computers can efficiently solve problems which are widely believed to lie beyond the reach of classical computers. In the near-term, hybrid quantum-classical algorithms, which efficiently embed quantum hardware in classical frameworks, are crucial in bridging the vast divide in the performance of the purely-quantum algorithms and their classical counterparts. Here, a hybrid quantum-classical algorithm is presented for the computation of non-perturbative characteristics of quantum field theories. The presented algorithm relies on a universal parametrized quantum circuit ansatz based on Euler and Cartan's decompositions of single and two-qubit operators. It is benchmarked by computing the energy spectra of lattice realizations of quantum field theories with both short and long range interactions. Low depth circuits are provided for false vacua as well as highly excited states corresponding to mesonic and baryonic excitations occurring in the analyzed models. The described algorithm opens a hitherto-unexplored avenue for the investigation of mass-ratios, scattering amplitudes and false-vacuum decays in quantum field theories. | 翻訳日:2024-08-01 12:56:56 公開日:2024-07-31 |
# FedBChain - DeepConvLSTMを改善するブロックチェーン対応のフェデレート学習フレームワーク
FedBChain: A Blockchain-enabled Federated Learning Framework for Improving DeepConvLSTM with Comparative Strategy Insights ( http://arxiv.org/abs/2407.21282v1 ) ライセンス: Link先を確認 | Gaoxuan Li, Chern Hong Lim, Qiyao Ma, Xinyu Tang, Hwa Hui Tew, | (参考訳) 近年の人間行動認識の分野では,LSTM層数を減らすことにより,予測性能の向上が図られている。
しかし、この種の拡張はモノリシックなアーキテクチャにおいてのみ重要であり、大規模な分散トレーニングを実行すると、データセキュリティとプライバシの問題を再考し、その予測性能が不明になる。
本稿では,修正されたDeepConvLSTMアーキテクチャに基づくフェデレート学習パラダイムを単一のLSTM層に統合した新しいフレームワークであるFedBChainを紹介する。
本フレームワークは,3つの隠れレイヤユニット(128,256,512)と5つの異なるフェデレート学習戦略を組み合わせた実世界の3つのデータセットに対する予測性能の比較試験を行う。
FedAvg戦略は平均4.54%改善し、FedProxは平均4.57%改善し、FedTrimmedAvgは平均4.35%改善し、Krumは平均4.18%改善し、FedAvgMは平均4.46%改善した。
この結果から、FedBChainはパフォーマンスの向上だけでなく、トレーニングプロセス中の集中的なトレーニング方法と比較して、ユーザデータのセキュリティとプライバシも保証していることがわかる。
私たちの実験のコードは公開されています(https://github.com/Glen909/FedBChain)。
Recent research in the field of Human Activity Recognition has shown that an improvement in prediction performance can be achieved by reducing the number of LSTM layers. However, this kind of enhancement is only significant on monolithic architectures, and when it runs on large-scale distributed training, data security and privacy issues will be reconsidered, and its prediction performance is unknown. In this paper, we introduce a novel framework: FedBChain, which integrates the federated learning paradigm based on a modified DeepConvLSTM architecture with a single LSTM layer. This framework performs comparative tests of prediction performance on three different real-world datasets based on three different hidden layer units (128, 256, and 512) combined with five different federated learning strategies, respectively. The results show that our architecture has significant improvements in Precision, Recall and F1-score compared to the centralized training approach on all datasets with all hidden layer units for all strategies: FedAvg strategy improves on average by 4.54%, FedProx improves on average by 4.57%, FedTrimmedAvg improves on average by 4.35%, Krum improves by 4.18% on average, and FedAvgM improves by 4.46% on average. Based on our results, it can be seen that FedBChain not only improves in performance, but also guarantees the security and privacy of user data compared to centralized training methods during the training process. The code for our experiments is publicly available (https://github.com/Glen909/FedBChain). | 翻訳日:2024-08-01 12:56:56 公開日:2024-07-31 |
# TrackSorter:高エネルギー物理学におけるトラック探索のためのトランスフォーマーに基づくソートアルゴリズム
TrackSorter: A Transformer-based sorting algorithm for track finding in High Energy Physics ( http://arxiv.org/abs/2407.21290v1 ) ライセンス: Link先を確認 | Yash Melkani, Xiangyang Ju, | (参考訳) 粒子データの追跡は高エネルギー物理学において難しいパターン認識問題である。
同じ粒子によって生成された空間点が同じラベルを持つように、入力として空間点の点雲をラベル付けする。
同じラベルを持つ空間点のリストは、トラック候補である。
このパターン認識問題はソート問題として定式化することができ、その入力は衝突点からの距離でソートされた空間点のリストであり、出力はラベルでソートされた空間点である。
本論文では,粒子データにおけるパターン認識のためのトランスフォーマーに基づくTrackSorterアルゴリズムを提案する。
TrackSorterは単純なトークン化スキームを使用して、空間点を離散トークンに変換する。
その後、トークン化されたスペースポイントを入力として使用し、入力トークンをトラック候補にソートする。
TrackSorterは、Transformerベースのモデルを利用してパターン認識問題を解決する、新しいエンドツーエンドのトラック探索アルゴリズムである。
TrackMLデータセットで評価され、トラック検出性能が良好である。
Track finding in particle data is a challenging pattern recognition problem in High Energy Physics. It takes as inputs a point cloud of space points and labels them so that space points created by the same particle have the same label. The list of space points with the same label is a track candidate. We argue that this pattern recognition problem can be formulated as a sorting problem, of which the inputs are a list of space points sorted by their distances away from the collision points and the outputs are the space points sorted by their labels. In this paper, we propose the TrackSorter algorithm: a Transformer-based algorithm for pattern recognition in particle data. TrackSorter uses a simple tokenization scheme to convert space points into discrete tokens. It then uses the tokenized space points as inputs and sorts the input tokens into track candidates. TrackSorter is a novel end-to-end track finding algorithm that leverages Transformer-based models to solve pattern recognition problems. It is evaluated on the TrackML dataset and has good track finding performance. | 翻訳日:2024-08-01 12:56:56 公開日:2024-07-31 |
# 安定マッチングの分散学習と非協調学習--ゲーム理論によるアプローチ
Decentralized and Uncoordinated Learning of Stable Matchings: A Game-Theoretic Approach ( http://arxiv.org/abs/2407.21294v1 ) ライセンス: Link先を確認 | S. Rasoul Etesami, R. Srikant, | (参考訳) 我々は、完全に分散化され、協調していない方法で安定したマッチングを学習する問題を考察する。
この問題では、男性$n$と女性$n$があり、それぞれが反対側を好みます。
女性は男性よりも好みを知っていると推定されるが、男性は女性よりも好みに気付いておらず、女性に合うように提案され、成功した場合にのみ学習する。
男女が現在の試合よりもお互いを好まない場合は、マッチングは安定と呼ばれる。
全ての選好が優先的であると、Galle と Shapley が提案した有名なDedeerred-Acceptance アルゴリズムは、安定なマッチングを得るために、分散化された非協調アルゴリズムを提供する。
しかし、選好が不明な場合、協調性の欠如により、そのようなアルゴリズムの開発は大きな課題に直面している。
我々は,非協調ゲームにおいて,安定マッチングとナッシュ均衡(NE)の学習を関連付けることで,この目標を達成する。
まず, 完全情報ゲームの定式化を行い, 純NEの集合は安定マッチングの集合と一致し, 混合NEは分散的に安定マッチングに丸められるようにした。
このようなゲーム理論の定式化に基づき、階層市場において、安定マッチングゲームに指数重み(EXP)学習アルゴリズムを採用することにより、プレイヤー数に多項式依存した対数的後悔を達成し、過去の文献で提起された疑問に答えることを示す。
さらに、同じEXP学習アルゴリズムが、一般市場における安定したマッチングに局所的に、指数的に高速に収束することを示す。
我々は、この結果を補うために、安定化された非協調的な学習アルゴリズムを導入し、安定なマッチングゲームの弱い非循環性を生かして、任意に高い確率で安定なマッチングにグローバルに収束する。
We consider the problem of learning stable matchings in a fully decentralized and uncoordinated manner. In this problem, there are $n$ men and $n$ women, each having preference over the other side. It is assumed that women know their preferences over men, but men are not aware of their preferences over women, and they only learn them if they propose and successfully get matched to women. A matching is called stable if no man and woman prefer each other over their current matches. When all the preferences are known a priori, the celebrated Deferred-Acceptance algorithm proposed by Gale and Shapley provides a decentralized and uncoordinated algorithm to obtain a stable matching. However, when the preferences are unknown, developing such an algorithm faces major challenges due to a lack of coordination. We achieve this goal by making a connection between stable matchings and learning Nash equilibria (NE) in noncooperative games. First, we provide a complete information game formulation for the stable matching problem with known preferences such that its set of pure NE coincides with the set of stable matchings, while its mixed NE can be rounded in a decentralized manner to a stable matching. Relying on such a game-theoretic formulation, we show that for hierarchical markets, adopting the exponential weight (EXP) learning algorithm for the stable matching game achieves logarithmic regret with polynomial dependence on the number of players, thus answering a question posed in previous literature. Moreover, we show that the same EXP learning algorithm converges locally and exponentially fast to a stable matching in general matching markets. We complement this result by introducing another decentralized and uncoordinated learning algorithm that globally converges to a stable matching with arbitrarily high probability, leveraging the weak acyclicity property of the stable matching game. | 翻訳日:2024-08-01 12:56:56 公開日:2024-07-31 |
# シリコンチップ上に発生する遠隔時間エンタングルメントの長距離分布
Long-distance distribution of telecom time-energy entanglement generated on a silicon chip ( http://arxiv.org/abs/2407.21305v1 ) ライセンス: Link先を確認 | Yuan-yuan Zhao, Fuyong Yue, Feng Gao, Qibing Wang, Chao Li, Zichen Liu, Lei Wang, Zhixue He, | (参考訳) 絡み合い分布は、多くの量子応用を可能にする重要な技術である。
これまで報告された繊維ベースの長距離実験の多くは、偏光度にエンタングルメントをエンコードしたバルク光学結晶で生成された光子対源を利用してきた。
ここでは、SFWMプロセスによりオンチップシリコンリング共振器から発生する光子対の時間エネルギー的絡み合わせを作成し、81km以下の標準光ファイバ上の絡み合わせの分布を報告する。
我々の研究は、遠方の量子ノードを接続した将来の大規模量子ネットワークの道を開いた。
Entanglement distribution is a critical technique that enables numerous quantum applications. Most fiber-based long-distance experiments reported to date have utilized photon pair sources generated in bulk optical crystals, with the entanglement encoded in the polarization degree of freedom. Here, we create time-energy entanglement for photon pairs generated from an on-chip silicon ring resonator via SFWM process and report the distribution of the entanglement over standard optical fiber with distance >81 km. Our work paves the way for future large-scale quantum networks with connect of distant quantum nodes. | 翻訳日:2024-08-01 12:56:56 公開日:2024-07-31 |
# MSMA:マルチソースデータ統合による連結・自律走行環境におけるマルチエージェント軌道予測
MSMA: Multi-agent Trajectory Prediction in Connected and Autonomous Vehicle Environment with Multi-source Data Integration ( http://arxiv.org/abs/2407.21310v1 ) ライセンス: Link先を確認 | Xi Chen, Rahul Bhadani, Zhanbo Sun, Larry Head, | (参考訳) 衝突のない経路計画には周囲の車両軌道の予測が不可欠である。
本研究では、自律走行車(AV)、連結車両(CV)、人力車両(HDV)からなる周囲の交通を知覚するために、センサと通信技術の両方を利用して、コネクテッド・自律走行車(CAV)が中心となるシナリオに焦点を当てた。
我々の軌道予測タスクは、検出された周辺車両すべてを対象としている。
センサと通信技術の両方のマルチソースデータを効果的に統合するために,マルチソースデータ融合のためのクロスアテンションモジュールを用いたMSMAと呼ばれるディープラーニングフレームワークを提案する。
ベクトルマップデータを用いてコンテキスト情報を提供する。
軌道データセットは、合成データエラーを導入したCARLAシミュレータで収集される。
数値実験により、混在した交通流のシナリオにおいて、異なるソースからのデータの統合が環境の理解を高めることが示されている。
これは特にCV市場浸透率の高い状況において、軌道予測精度を著しく向上させる。
コードは、https://github.com/xichennn/MSMA.comで入手できる。
The prediction of surrounding vehicle trajectories is crucial for collision-free path planning. In this study, we focus on a scenario where a connected and autonomous vehicle (CAV) serves as the central agent, utilizing both sensors and communication technologies to perceive its surrounding traffics consisting of autonomous vehicles (AVs), connected vehicles (CVs), and human-driven vehicles (HDVs). Our trajectory prediction task is aimed at all the detected surrounding vehicles. To effectively integrate the multi-source data from both sensor and communication technologies, we propose a deep learning framework called MSMA utilizing a cross-attention module for multi-source data fusion. Vector map data is utilized to provide contextual information. The trajectory dataset is collected in CARLA simulator with synthesized data errors introduced. Numerical experiments demonstrate that in a mixed traffic flow scenario, the integration of data from different sources enhances our understanding of the environment. This notably improves trajectory prediction accuracy, particularly in situations with a high CV market penetration rate. The code is available at: https://github.com/xichennn/MSMA. | 翻訳日:2024-08-01 12:56:56 公開日:2024-07-31 |
# 超電導量子ビットの高速リセットと保護読み出しのための多目的アーキテクチャ
Multi-Purpose Architecture for Fast Reset and Protective Readout of Superconducting Qubits ( http://arxiv.org/abs/2407.21332v1 ) ライセンス: Link先を確認 | Jiayu Ding, Yulong Li, He Wang, Guangming Xue, Tang Su, Chenlu Wang, Weijie Sun, Feiyu Li, Yujia Zhang, Yang Gao, Jun Peng, Zhi Hao Jiang, Yang Yu, Haifeng Yu, Fei Yan, | (参考訳) 量子ビット状態の高速リセットは、量子情報処理に不可欠である。
しかし、量子ビットを積極的にリセットするためには、放散浴と相互作用する経路が必要であり、しばしば環境からの量子ビット保護を減らすコストがかかる。
本稿では,超電導量子ビットの制御および読み出し時の高速リセットと保護を可能にする,新しい多目的アーキテクチャを提案する。
本設計では、2つのオンチップダイプレクサを2つの伝送線路で接続する。
高域分岐は、キュービット周波数以上の読み出し共振器を簡便に割り当てるための平坦なパスバンドを提供し、測定誘起状態遷移の低減に好適である。
低域分岐では、最大量子ビット周波数以下の定常波モードを用いて高速リセットを行う。
クビットはコヒーレント操作中の消散を抑制するため、共通のストップバンドに位置している。
トランスモンの量子ビットを最初の励起状態から基底状態に100nsでリセットし, 残留個体数は2.7%で, 主に熱効果によって制限された。
リセット時間は、コヒーレントな集団反転効果を利用して27nsにさらに短縮することができる。
さらに、量子ビットを第2の励起状態からリセットするように拡張する。
当社のアプローチでは,制御および読み出し中における高速リセットとキュービット保護のスケーラブルな実装を約束し,消散工学のツールボックスを付加する。
The ability to fast reset a qubit state is crucial for quantum information processing. However, to actively reset a qubit requires engineering a pathway to interact with a dissipative bath, which often comes with the cost of reduced qubit protection from the environment. Here, we present a novel multi-purpose architecture that enables fast reset and protection of superconducting qubits during control and readout. In our design, two on-chip diplexers are connected by two transmission lines. The high-pass branch provides a flat passband for convenient allocation of readout resonators above the qubit frequencies, which is preferred for reducing measurement-induced state transitions. In the low-pass branch, we leverage a standing-wave mode below the maximum qubit frequency for a rapid reset. The qubits are located in the common stopband to inhibit dissipation during coherent operations. We demonstrate resetting a transmon qubit from its first excited state to the ground state in 100 ns, achieving a residual population of 2.7%, mostly limited by the thermal effect. The reset time may be further shortened to 27 ns by exploiting the coherent population inversion effect. We further extend the technique to resetting the qubit from its second excited state. Our approach promises scalable implementation of fast reset and qubit protection during control and readout, adding to the toolbox of dissipation engineering. | 翻訳日:2024-08-01 12:47:12 公開日:2024-07-31 |
# 原子空洞系のリミットサイクルとエントラクションに及ぼす量子ノイズの影響
The impact of quantum noise on limit cycles and entrainment in an atom-cavity system ( http://arxiv.org/abs/2407.21390v1 ) ライセンス: Link先を確認 | Richelle Jade L. Tuquero, Jayson G. Cosme, | (参考訳) 量子ノイズは任意の開量子系に固有のものであり、初期状態の統計的性質だけでなく、系の時間進化にも影響を及ぼす。
横に励起された原子空洞はそのような開放系の原型であり、極限周期(LC)が観測され、連続時間結晶(CTC)として同定される。
truncated Wigner approximation (TWA) を用いて、固有量子ノイズは、平均場理論により予測される臨界値よりも低い相互作用強度のLCのシグネチャをシステムに示し、時間的順序付けの雑音による増強を示唆することを示す。
1次元(1D)と2次元(2D)のLCの発振周波数を比較することで、LCの周波数は2次元よりも1次元のショット・ツー・ショットの変動が大きいことがわかった。
本研究は, 周期駆動ポンプ強度および光物質結合強度に対するLCの拘束効果に重要な影響があることを実証する。
Quantum noise is inherent in any open quantum system as it affects not only the statistical properties of the initial state but also the time evolution of the system. A transversely pumped atom-cavity setup is a prototypical example of such an open system, wherein limit cycles (LCs) have been observed and identified as continuous time crystals (CTCs). Using truncated Wigner approximation (TWA), we show that the inherent quantum noise pushes the system to exhibit signatures of LCs for interaction strengths lower than the critical value predicted by mean-field theory, suggesting a noise-induced enhancement of temporal ordering. By comparing the oscillation frequencies of the LCs for the one-dimensional (1D) and two-dimensional (2D) regimes, we find that the LC frequencies have larger shot-to-shot fluctuations in 1D than in 2D. We demonstrate that this has an important consequence in the effectiveness of entrainment of LCs for a periodically driven pump intensity or light-matter coupling strength. | 翻訳日:2024-08-01 12:47:12 公開日:2024-07-31 |
# マルチモーダルフュージョンとディープラーニングに基づく娘認識システムの設計と開発
Design and Development of Laughter Recognition System Based on Multimodal Fusion and Deep Learning ( http://arxiv.org/abs/2407.21391v1 ) ライセンス: Link先を確認 | Fuzheng Zhao, Yu Bai, | (参考訳) 本研究の目的は,マルチモーダル融合と深層学習に基づく笑い認識システムの設計と実装であり,画像および音声処理技術を活用して正確な笑い認識と感情分析を実現することである。
まず、ビデオファイルをロードし、OpenCVライブラリを使用して顔情報を抽出し、Librosaライブラリを使用してMFCCなどのオーディオ機能を処理する。
次に、マルチモーダル融合技術を用いて画像と音声の機能を統合し、続いてディープラーニングモデルを用いたトレーニングと予測を行う。
評価結果は、モデルがテストデータセット上で80%の精度、精度、リコールを達成したことを示し、F1スコアは80%であり、堅牢なパフォーマンスと実世界のデータ可変性を扱う能力を示す。
本研究は、笑い認識におけるマルチモーダル融合法の有効性を検証するだけでなく、感情コンピューティングや人間とコンピュータの相互作用におけるその可能性も強調する。
今後の課題は、特徴抽出とモデルアーキテクチャのさらなる最適化、認識精度の向上と応用シナリオの拡大、メンタルヘルスモニタリングや教育活動評価といった分野における笑い認識技術の発展を促進することである。
This study aims to design and implement a laughter recognition system based on multimodal fusion and deep learning, leveraging image and audio processing technologies to achieve accurate laughter recognition and emotion analysis. First, the system loads video files and uses the OpenCV library to extract facial information while employing the Librosa library to process audio features such as MFCC. Then, multimodal fusion techniques are used to integrate image and audio features, followed by training and prediction using deep learning models. Evaluation results indicate that the model achieved 80% accuracy, precision, and recall on the test dataset, with an F1 score of 80%, demonstrating robust performance and the ability to handle real-world data variability. This study not only verifies the effectiveness of multimodal fusion methods in laughter recognition but also highlights their potential applications in affective computing and human-computer interaction. Future work will focus on further optimizing feature extraction and model architecture to improve recognition accuracy and expand application scenarios, promoting the development of laughter recognition technology in fields such as mental health monitoring and educational activity evaluation | 翻訳日:2024-08-01 12:47:12 公開日:2024-07-31 |
# スマートパドロックを用いた指紋盗難:Droplockの爆発と防御
Fingerprint Theft Using Smart Padlocks: Droplock Exploits and Defenses ( http://arxiv.org/abs/2407.21398v1 ) ライセンス: Link先を確認 | Steve Kerrison, | (参考訳) リモートコントロールと高度な認証機構を備えたデジタルロックのようなスマートデバイスの採用が増えている。
しかし、これらのIoTデバイスの主要な機能以上のデバイスセキュリティとユーザ認識に注意が払われていないことは、ユーザを目に見えないリスクに晒している可能性がある。
本論文は、スマートロックを無線指紋採取装置に変換する攻撃である「ドロップロック」を定義した先行研究を拡張した。
より広範囲の脆弱性やエクスプロイトを詳細に分析することで、ドロップロック攻撃が実行しやすく、検出が困難になります。
分析は他のスマートロックモデルにも拡張され、攻撃のようなリスクを軽減する強力なセキュリティ制御を推奨する基盤として脅威モデルが使用される。
There is growing adoption of smart devices such as digital locks with remote control and sophisticated authentication mechanisms. However, a lack of attention to device security and user-awareness beyond the primary function of these IoT devices may be exposing users to invisible risks. This paper extends upon prior work that defined the "droplock", an attack whereby a smart lock is turned into a wireless fingerprint harvester. We perform a more in-depth analysis of a broader range of vulnerabilities and exploits that make a droplock attack easier to perform and harder to detect. Analysis is extended to a range of other smart lock models, and a threat model is used as the basis to recommend stronger security controls that may mitigate the risks of such as attack. | 翻訳日:2024-08-01 12:47:12 公開日:2024-07-31 |
# Deep Fréchet Regression
Deep Fréchet Regression ( http://arxiv.org/abs/2407.21407v1 ) ライセンス: Link先を確認 | Su I Iao, Yidong Zhou, Hans-Georg Müller, | (参考訳) 現代科学の進歩は、計量空間における非ユークリッドデータの増加につながっている。
本稿では,非ユークリッド応答と多変量ユークリッド予測器の関係をモデル化することの課題について述べる。
パラメトリックな仮定を課さずに高次元予測器を扱えるフレキシブル回帰モデルを提案する。
非パラメトリック回帰における次元性の呪いと一般距離空間における線形構造の欠如である。
前者はディープニューラルネットワークを用いて取り組まれ、後者については、応答が多様体学習を用いて低次元ユークリッド空間に存在する距離空間をマッピング可能であることを示す。
局所Fr\'echet回帰を用いた逆写像手法を導入し、低次元多様体表現を元の距離空間のオブジェクトに写像する。
我々は、依存的なガウス雑音下でのディープニューラルネットワークの収束速度をバイアスで検討する理論的枠組みを開発する。
提案した回帰モデルの収束速度は、局所的なFr'echet回帰の範囲を広げて、予測器の誤差の存在下で多変量予測器に適合させることにより得られる。
シミュレーションとケーススタディにより,提案手法は非ユークリッド応答の既存手法よりも優れており,確率測度やネットワークの特殊事例に着目している。
Advancements in modern science have led to the increasing availability of non-Euclidean data in metric spaces. This paper addresses the challenge of modeling relationships between non-Euclidean responses and multivariate Euclidean predictors. We propose a flexible regression model capable of handling high-dimensional predictors without imposing parametric assumptions. Two primary challenges are addressed: the curse of dimensionality in nonparametric regression and the absence of linear structure in general metric spaces. The former is tackled using deep neural networks, while for the latter we demonstrate the feasibility of mapping the metric space where responses reside to a low-dimensional Euclidean space using manifold learning. We introduce a reverse mapping approach, employing local Fr\'echet regression, to map the low-dimensional manifold representations back to objects in the original metric space. We develop a theoretical framework, investigating the convergence rate of deep neural networks under dependent sub-Gaussian noise with bias. The convergence rate of the proposed regression model is then obtained by expanding the scope of local Fr\'echet regression to accommodate multivariate predictors in the presence of errors in predictors. Simulations and case studies show that the proposed model outperforms existing methods for non-Euclidean responses, focusing on the special cases of probability measures and networks. | 翻訳日:2024-08-01 12:47:12 公開日:2024-07-31 |
# 信頼度とプロンプトを用いたASRシステムによる大規模言語モデルとの対話
Towards interfacing large language models with ASR systems using confidence measures and prompting ( http://arxiv.org/abs/2407.21414v1 ) ライセンス: Link先を確認 | Maryam Naderi, Enno Hermann, Alexandre Nanchen, Sevada Hovsepyan, Mathew Magimai. -Doss, | (参考訳) 大規模言語モデル(LLM)は、プロンプトによるインタラクションなどのパラメータサイズや能力が増大するにつれて、n-bestリストを再構成する以外の自動音声認識(ASR)システムと対話する新たな方法が開かれる。
本研究は,LLMによるASR転写のポストホック補正について検討する。
精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。
その結果,競争力の低いASRシステムの性能が向上することが示唆された。
As large language models (LLMs) grow in parameter size and capabilities, such as interaction through prompting, they open up new ways of interfacing with automatic speech recognition (ASR) systems beyond rescoring n-best lists. This work investigates post-hoc correction of ASR transcripts with LLMs. To avoid introducing errors into likely accurate transcripts, we propose a range of confidence-based filtering methods. Our results indicate that this can improve the performance of less competitive ASR systems. | 翻訳日:2024-08-01 12:47:12 公開日:2024-07-31 |
# スケーラブル超伝導量子コンピューティングのための In situ Qubit 周波数調整回路:スキームと実験
In situ Qubit Frequency Tuning Circuit for Scalable Superconducting Quantum Computing: Scheme and Experiment ( http://arxiv.org/abs/2407.21415v1 ) ライセンス: Link先を確認 | Lei Jiang, Yu Xu, Shaowei Li, Zhiguang Yan, Ming Gong, Tao Rong, Chenyin Sun, Tianzuo Sun, Tao Jiang, Hui Deng, Chen Zha, Jin Lin, Fusheng Chen, Qingling Zhu, Yangsen Ye, Hao Rong, Kai Yan, Sirui Cao, Yuan Li, Shaojun Guo, Haoran Qian, Yisen Hu, Yulin Wu, Yuhuai Li, Gang Wu, Xueshen Wang, Shijian Wang, Wenhui Cao, Yeru Wang, Jinjin Li, Cheng-Zhi Peng, Xiaobo Zhu, Jian-Wei Pan, | (参考訳) 周波数可変量子ビットは、スケーラブルな超伝導量子プロセッサにおいて重要な役割を果たす。
量子ビット周波数をチューニングするための最先端の室温エレクトロニクスは、加熱問題や制御ケーブルの線形成長など、計算不能な限界に悩まされている。
本稿では、無線周波数超伝導量子干渉装置(rf-SQUID)をベースとしたIn situ超伝導回路を用いて、量子ビット周波数の調整を行うスケーラブルな手法を提案する。
我々は、数個の単一パルスをrf-SQUIDに入力することで、量子ビット周波数を変調できることを理論的および実験的に証明した。
従来の方式と比較して,本方式は加熱問題を解くだけでなく,rf-SQUIDとスイッチアレイを組み合わせた時間分割多重化(TDM)方式により,希薄冷凍機内部のケーブル数を指数関数的に削減し,キュービット周波数をチューニングするための室温電子資源を提供する。
このような TDM スキームでは、ケーブルの数は通常の $\sim 3n$ から $\sim \log_2{(3n)} + 1$ に減らすことができる。
我々の研究は超伝導量子プロセッサの大規模制御の道を開いた。
Frequency tunable qubit plays a significant role for scalable superconducting quantum processors. The state-of-the-art room-temperature electronics for tuning qubit frequency suffers from unscalable limit, such as heating problem, linear growth of control cables, etc. Here we propose a scalable scheme to tune the qubit frequency by using in situ superconducting circuit, which is based on radio frequency superconducting quantum interference device (rf-SQUID). We demonstrate both theoretically and experimentally that the qubit frequency could be modulated by inputting several single pulses into rf-SQUID. Compared with the traditional scheme, our scheme not only solves the heating problem, but also provides the potential to exponentially reduce the number of cables inside the dilute refrigerator and the room-temperature electronics resource for tuning qubit frequency, which is achieved by a time-division-multiplex (TDM) scheme combining rf-SQUID with switch arrays. With such TDM scheme, the number of cables could be reduced from the usual $\sim 3n$ to $\sim \log_2{(3n)} + 1$ for two-dimensional quantum processors comprising $n$ qubits and $\sim 2n$ couplers. Our work paves the way for large-scale control of superconducting quantum processor. | 翻訳日:2024-08-01 12:47:12 公開日:2024-07-31 |
# FTuner: ディープラーニングコンパイラのための高速な動的形状テンソルプログラムAuto-Tuner
FTuner: A Fast Dynamic Shape Tensors Program Auto-Tuner for Deep Learning Compilers ( http://arxiv.org/abs/2407.21418v1 ) ライセンス: Link先を確認 | Pengyu Mu, Linquan Wei, Yi Liu, Rui Wang, | (参考訳) 多くの人工知能モデルは、異なる長さと解像度の入力データを処理し、テンソルの形状を動的にする。
これらのモデルの性能はテンソルの形状に依存するため、モデルが実行される前にテンソルを最適化することは困難である。
この問題には2つの共通解がある。
ひとつは、事前に最適化されたテンソルライブラリにマッチするように、入力に無駄なデータを追加することです。
2つ目は、小さな基本テンソルを使用して入力データに最も近いテンソルを生成し、パディングを最小限にするために調整することだ。
しかし、この2つ目の解決策は時間がかかる可能性がある。
本稿では,FTunerと呼ばれるディープラーニングコンパイラの新しい手法を提案する。
大規模な設計空間を使用するか、コストモデルを訓練する代わりに、uKernelと呼ばれる抽象計算ユニットを使用して、入力テンソルの形状に合わせて、小さくて様々なサイズのテンソルをまとめる。
解析ハードウェア情報モデルを用いて,uKernelの形状を決定する。
実験によると、FTunerはベンダーライブラリに匹敵する演算子とエンドツーエンドのパフォーマンスを達成でき、モデルトレーニングコンパイラで既存のオートチューニングコンパイラで3倍のスピードアップを実現し、チューニング時間を2桁に短縮できる。
Many artificial intelligence models process input data of different lengths and resolutions, making the shape of the tensors dynamic. The performance of these models depends on the shape of the tensors, which makes it difficult to optimize the tensors before the model runs. There are two common solutions to this problem. The first is to add useless data to the input to match a pre-optimized tensor library. The second is to use small basic tensors to create a tensor that is closest in size to the input data and then tune it to minimize padding. However, this second solution can be time-consuming. This paper proposes a new technique for deep learning compilers called FTuner. Instead of using a large design space or training a cost model, we use an abstract computational unit called the uKernel to patch together small, various-sized tensors to match the shape of the input tensor. We determine the shape of the uKernel using an analytic hardware information model. Experiments show that the FTuner can achieve comparable operators and end-to-end performance to vendor libraries and achieves 3\% speedup on existing auto-tuner with the model-training compiler while reducing tuning time by two orders of magnitude. | 翻訳日:2024-08-01 12:47:12 公開日:2024-07-31 |
# 対称空間上のホイットニー拡大定理、一例
Whitney extension theorems on symmetric spaces, an example ( http://arxiv.org/abs/2407.21420v1 ) ライセンス: Link先を確認 | Birgit Speh, Peter Vang Uttenthal, | (参考訳) H. Whitney は1934年に、$\mathbb{R}^n$ の点の集合上の函数を周囲空間上の解析函数に拡張する問題を紹介した。
本稿では、ある同次空間上のデータに対するホイットニー型拡張定理を証明する。
我々は、同次空間上の調和解析とコンパクトの表現論、および非コンパクト簡約簡約群を用いる。
H. Whitney introduced in 1934 the problem of extending a function on a set of points in $\mathbb{R}^n$ to an analytic function on the ambient space. In this article we prove Whitney type extension theorems for data on some homogeneous spaces. We use harmonic analysis on the homogeneous spaces and representation theory of compact as well as noncompact reductive groups. | 翻訳日:2024-08-01 12:47:12 公開日:2024-07-31 |
# 原子空洞状態のパラメトリック制御による量子絡み合いの促進
Enhancing Quantum Entanglement Through Parametric Control of Atom-Cavity States ( http://arxiv.org/abs/2407.21434v1 ) ライセンス: Link先を確認 | Arthur Vesperini, Roberto Franzosi, | (参考訳) ディック状態は絡み合った状態のクラスを形成し、様々な量子アルゴリズムへの応用に多くの注目を集めている。
タビス・カミングス・ハミルトニアン(Tavis-Cummings Hamiltonian)の固有状態として登場し、電磁空洞に閉じ込められた二層原子の集合を記述するディックモデルを単純化した。
本文では, 電界エネルギーが原子エネルギー分裂に対して大きい状態においては, 基底状態の精密制御が可能であることを示す。
具体的には、純粋なディック状態はパラメータの適切なチューニングによって選択および生成することができる。
この結果は量子工学と量子情報理論に重要な応用をもたらす可能性がある。
Dicke states form a class of entangled states that has attracted much attention for their applications in various quantum algorithms. They emerge as eigenstates of the Tavis-Cummings Hamiltonian, a simplification of the Dicke model, which describes an assembly of two-level atoms trapped in an electromagnetic cavity. In this letter, we show that in the regime where the field energy is large with respect to the atomic energy splitting, precise control of the ground state can be implemented. Specifically, pure Dicke states can be selected and produced by appropriate tuning of the parameters. This result may have important applications in quantum engineering and quantum information theory. | 翻訳日:2024-08-01 12:47:12 公開日:2024-07-31 |
# GPUクラスタ上での高性能フォックマトリックス構築技術
Advanced Techniques for High-Performance Fock Matrix Construction on GPU Clusters ( http://arxiv.org/abs/2407.21445v1 ) ライセンス: Link先を確認 | Elise Palethorpe, Ryan Stocks, Giuseppe M. J. Barca, | (参考訳) 本稿では,Fock行列構築に最適化された2つのマルチGPUアルゴリズム,Ufimtsev et al と Barca et al の作業に基づいて構築された新しいアルゴリズム Op-UM と opt-Brc について述べる。
Opt-Brc はより小さな系と高度に収縮された三重値の基底集合に対して優れ、Opti-UM は大きな分子系に対して有利である。
NVIDIA A100 GPUのパフォーマンスベンチマークによると、EXESS(Exetreme-scale Electronic Structure System)のアルゴリズムは、TeraChem, QUICK, GPU4PySCF, LibIntX, ORCA, Q-Chemの現在のGPUとCPUのFockビルド実装よりも優れています。
実装は線形系と球形系でベンチマークされ、平均速度は1.5$\times$, 5.2$\times$, 8.5$\times$ の3つの倍値\zeta$ のベースセットで、それぞれ TeraChem, GPU4PySCF, QUICK と比較された。
強いスケーリング分析により、Op-Brcの4つのGPUで91%以上の並列効率が明らかになり、一般的にマルチGPU実行が高速化される。
ORCAやQ-ChemのようなCPUベースのソフトウェアと比較すると、それぞれ最大42$\times$と31$\times$のスピードアップを示し、電力効率を最大18$\times$に向上させる。
This Article presents two optimized multi-GPU algorithms for Fock matrix construction, building on the work of Ufimtsev et al. and Barca et al. The novel algorithms, opt-UM and opt-Brc, introduce significant enhancements, including improved integral screening, exploitation of sparsity and symmetry, a linear scaling exchange matrix assembly algorithm, and extended capabilities for Hartree-Fock caculations up to $f$-type angular momentum functions. Opt-Brc excels for smaller systems and for highly contracted triple-$\zeta$ basis sets, while opt-UM is advantageous for large molecular systems. Performance benchmarks on NVIDIA A100 GPUs show that our algorithms in the EXtreme-scale Electronic Structure System (EXESS), when combined, outperform all current GPU and CPU Fock build implementations in TeraChem, QUICK, GPU4PySCF, LibIntX, ORCA, and Q-Chem. The implementations were benchmarked on linear and globular systems and average speed ups across three double-$\zeta$ basis sets of 1.5$\times$, 5.2$\times$, and 8.5$\times$ were observed compared to TeraChem, GPU4PySCF, and QUICK respectively. Strong scaling analysis reveals over 91% parallel efficiency on four GPUs for opt-Brc, making it typically faster for multi-GPU execution. Single-compute-node comparisons with CPU-based software like ORCA and Q-Chem show speedups of up to 42$\times$ and 31$\times$, respectively, enhancing power efficiency by up to 18$\times$. | 翻訳日:2024-08-01 12:47:12 公開日:2024-07-31 |
# NISQデバイスにおける誤り認識コンパイル手法における校正データの利用について
On the use of calibration data in error-aware compilation techniques for NISQ devices ( http://arxiv.org/abs/2407.21462v1 ) ライセンス: Link先を確認 | Handy Kurniawan, Laura Rodríguez-Soriano, Daniele Cuomo, Carmen G. Almudever, Francisco García Herrero, | (参考訳) ノイズの多い中間スケール量子(NISQ)デバイス上で量子アルゴリズムを確実に実行することは困難である。
したがって、量子回路の効率的なコンパイル技術は、それらの制限を克服し、高いエラー率を扱うために重要である。
これらの技術は、量子ビット接続の制限のような量子ハードウェアの制約を考慮し、与えられた量子プロセッサ上で実行できる元の回路への変換を行う。
あるコンパイル方法は、キャリブレーションデータに基づくエラー情報を使用して、実行する回路の成功確率や忠実度をさらに向上する。
しかし、コンパイルプロセスに校正情報を組み込むことで回路性能が向上するかは不透明である。
例えば、プロセッサのキャリブレーション後にベンダーが提供した最新のエラーデータを考えると、量子システムがドリフトの対象となり、最新のキャリブレーションデータが数分で時代遅れになるため、十分に機能しない可能性がある。
本稿では、複数のコンパイル技術と量子プロセッサ(IBM Perth と Brisbane)を用いて、キャリブレーションデータの異なる使用法が回路忠実性に与える影響について検討する。
そこで本研究では,最先端のノイズ認識と非ノイズ認識のコンパイル技術を組み込んだフレームワークを実装し,類似のプロセッサ条件下での公正な比較を可能にする。
本実験は,ノイズ認識手法の効果とキャリブレーションデータの利用に関する貴重な知見を得たものである。
主な発見は、履歴キャリブレーションデータを前処理することで、クラウドサービスのレイテンシや、量子バックエンド上でのコンパイルと実行の待ち待ち待ちといった要因により、リアルタイムキャリブレーションデータが利用できない場合、忠実性を改善することができることである。
Reliably executing quantum algorithms on noisy intermediate-scale quantum (NISQ) devices is challenging, as they are severely constrained and prone to errors. Efficient quantum circuit compilation techniques are therefore crucial for overcoming their limitations and dealing with their high error rates. These techniques consider the quantum hardware restrictions, such as the limited qubit connectivity, and perform some transformations to the original circuit that can be executed on a given quantum processor. Certain compilation methods use error information based on calibration data to further improve the success probability or the fidelity of the circuit to be run. However, it is uncertain to what extent incorporating calibration information in the compilation process can enhance the circuit performance. For instance, considering the most recent error data provided by vendors after calibrating the processor might not be functional enough as quantum systems are subject to drift, making the latest calibration data obsolete within minutes. In this paper, we explore how different usage of calibration data impacts the circuit fidelity, by using several compilation techniques and quantum processors (IBM Perth and Brisbane). To this aim, we implemented a framework that incorporates some of the state-of-the-art noise-aware and non-noise-aware compilation techniques and allows the user to perform fair comparisons under similar processor conditions. Our experiments yield valuable insights into the effects of noise-aware methodologies and the employment of calibration data. The main finding is that pre-processing historical calibration data can improve fidelity when real-time calibration data is not available due to factors such as cloud service latency and waiting queues between compilation and execution on the quantum backend. | 翻訳日:2024-08-01 12:47:12 公開日:2024-07-31 |
# ボース・アインシュタイン凝縮体における非線形誘起動的自己組織化二層格子
Nonlinearity-induced dynamical self-organized twisted-bilayer lattices in Bose-Einstein condensates ( http://arxiv.org/abs/2407.21466v1 ) ライセンス: Link先を確認 | Rui Tian, Yue Zhang, Tianhao Wu, Min Liu, Yong-Chang Zhang, Shuai Li, Bo Liu, | (参考訳) 結晶の2層が互いにねじれ合っていると、大きな周期的なスーパーセル構造が生まれ、この構造は様々な新しい電子相関現象を支え、完全な理解はまだ議論中である。
本稿では,原子ボース・アインシュタイン凝縮体(BEC)における非線形誘起動的自己組織二層格子を実現するための新しい手法を提案する。
ここでの鍵となる考え方は、固有の原子間相互作用の非線形効果を2つの異なる層に利用し、動的に自己組織化されたスーパーセル構造を誘導することである。
そこで本研究では,2成分BECのダイナミクスを考察し,相互作用する超低温原子のグロス-ピタエフスキー方程式に自然に現れる非線形相互作用効果が,周期的(可観測性)と非周期的(可観測性)のモワール\'{e}構造の両方を動的に誘導できることを示した。
BECの波動パケットのダイナミクスを解明することで、興味深いモワール現象の1つ、すなわちフラットバンド物理学が示される。
提案手法は最先端実験技術を用いて実装可能であり, 低温原子量子シミュレータにおける非線形性とツイストロンの深い関係を明らかにすることができる。
Creating crystal bilayers twisted with respect to each other would lead to large periodic supercell structures, which can support a wide range of novel electron correlated phenomena, where the full understanding is still under debate. Here, we propose a new scheme to realize a nonlinearity-induced dynamical self-organized twisted-bilayer lattice in an atomic Bose-Einstein condensate (BEC). The key idea here is to utilize the nonlinear effect from the intrinsic atomic interactions to couple different layers and induce a dynamical self-organized supercell structure, dramatically distinct from the conventional wisdom to achieve the static twisted-bilayer lattices. To illustrate that, we study the dynamics of a two-component BEC and show that the nonlinear interaction effect naturally emerged in the Gross-Pitaevskii equation of interacting bosonic ultracold atoms can dynamically induce both periodic (commensurable) and aperiodic (incommensurable) moir\'{e} structures. One of the interesting moir\'{e} phenomena, i.e., the flat-band physics, is shown through investigating the dynamics of the wave packet of BEC. Our proposal can be implemented using available state-of-the-art experimental techniques and reveal a profound connection between the nonlinearity and twistronics in cold atom quantum simulators. | 翻訳日:2024-08-01 12:47:12 公開日:2024-07-31 |
# 入力濃度が小さい完全量子戦略
Perfect quantum strategies with small input cardinality ( http://arxiv.org/abs/2407.21473v1 ) ライセンス: Link先を確認 | Stefan Trandafir, Junior R. Gonzales-Ureta, Adan Cabello, | (参考訳) 完全戦略は、非ローカルゲームの相互にコミュニケーションの取れないプレイヤーが、ゲームのすべてのトライアルで勝利することを可能にする戦略である。
完全戦略は、量子計算における基本的な結果と、量子情報におけるいくつかの応用のための重要なリソースのための基本的なツールである。
ここでは、少数の設定で完全量子戦略を生成するという問題に対処する。
そのため、任意の完全量子戦略がKochen-Specker集合を誘導することを示す最近の結果を利用する。
偶数次元 $d \ge 6$ の KS 集合の族は、多くの次元において、最小の直交基底:$d+1$ を必要とする。
このファミリーは$d$でしか定義されていない。
まず、家族を無限に多くの次元に拡張する。
次に,各集合を最適に使用して,最小入力基数で2部完全戦略を生成する方法を示す。
その結果、$d = 2^kp^m$ for $p$ prime, $m \geq k \geq 0$ ( excepting $m=k=0$), $d = 8p$ for $p \geq 19$, $d=kp$ for $p > ((k-2)2^{k-2})^2$ という任意の$(2,d-1,d)$ Bellシナリオに完全量子戦略の族を提示する。
それらのベルの不等式を同定し、それらが厳密でないことを証明し、2007年の予想に対する第2の反例を与える。
A perfect strategy is one that allows the mutually in-communicated players of a nonlocal game to win every trial of the game. Perfect strategies are basic tools for some fundamental results in quantum computation and crucial resources for some applications in quantum information. Here, we address the problem of producing qudit-qudit perfect quantum strategies with a small number of settings. For that, we exploit a recent result showing that any perfect quantum strategy induces a Kochen-Specker set. We identify a family of KS sets in even dimension $d \ge 6$ that, for many dimensions, require the smallest number of orthogonal bases known: $d+1$. This family was only defined for some $d$. We first extend the family to infinitely many more dimensions. Then, we show the optimal way to use each of these sets to produce a bipartite perfect strategy with minimum input cardinality. As a result, we present a family of perfect quantum strategies in any $(2,d-1,d)$ Bell scenario, with $d = 2^kp^m$ for $p$ prime, $m \geq k \geq 0$ (excluding $m=k=0$), $d = 8p$ for $p \geq 19$, $d=kp$ for $p > ((k-2)2^{k-2})^2$ whenever there exists a Hadamard matrix of order $k$, other sporadic examples, as well as a recursive construction that produces perfect quantum strategies for infinitely many dimensions $d$ from any dimension $d'$ with a perfect quantum strategy. We identify their associated Bell inequalities and prove that they are not tight, which provides a second counterexample to a conjecture of 2007. | 翻訳日:2024-08-01 12:47:12 公開日:2024-07-31 |
# 高Q共振器に結合したスピン量子ビットの全電動作
All-electrical operation of a spin qubit coupled to a high-Q resonator ( http://arxiv.org/abs/2407.21484v1 ) ライセンス: Link先を確認 | Rafael S. Eggli, Taras Patlatiuk, Eoin G. Kelly, Alexei Orekhov, Gian Salis, Richard J. Warburton, Dominik M. Zumbühl, Andreas V. Kuhlmann, | (参考訳) 実用的な量子プロセッサを構築するには、数百万の物理量子ビットと個々の量子ビット操作と読み出しに必要なコンポーネントを統合する必要がある。
ゲート状シリコンスピンの配列は、この目標を達成するための有望な経路を提供する。
内部品質係数の高い最適化無線周波数共振器は超伝導インダクタをベースとし、高速スピン読み出しを可能にする。
全電動スピン制御とゲート分散リードアウトは、追加のデバイスコンポーネントの必要性を排除し、スケーリングを簡素化する。
しかし、超伝導高Qタンク回路は、量子ドット電位の変動を引き起こし、量子ビット性能の低下を疑われる電気量子ビット制御パルスからのクロストーク誘起リングアップの影響を受けやすい。
本稿では、1.5Kのホールスピン量子ビットのコヒーレントかつ全電気的制御について報告し、シリコンフィン電界効果トランジスタに統合され、窒化ニオブナノワイヤインダクタゲートセンサに接続されている。
実験により、制御パルススペクトルがタンク共鳴と重なり合うとき、より広い範囲の高調波域を持つ量子ビット制御パルスがタンクを巻き上げることを示した。
これは、タンクリング振幅が量子ドットの励起状態分裂を超えると、読み出し可視性が低下し、パウリのスピン遮断が持ち上げられ、状態準備と測定誤差が生じる。
我々は、タンク共鳴の周囲のパルスを工学的に制御することで、これらの効果を回避する方法を実証する。
重要なことに、リングアップはスピンコヒーレンス時間を制限するものではなく、ゲートセンシングにおける効率的な高Q共振器が全電スピン制御と互換性があることが示される。
Building a practical quantum processor involves integrating millions of physical qubits along with the necessary components for individual qubit manipulation and readout. Arrays of gated silicon spins offer a promising route toward achieving this goal. Optimized radio frequency resonators with high internal quality factor are based on superconducting inductors and enable fast spin readout. All-electrical spin control and gate-dispersive readout remove the need for additional device components and simplify scaling. However, superconducting high-Q tank circuits are susceptible to crosstalk induced ringup from electrical qubit control pulses, which causes fluctuations of the quantum dot potential and is suspected to degrade qubit performance. Here, we report on the coherent and all-electrical control of a hole spin qubit at 1.5K, integrated into a silicon fin field-effect transistor and connected to a niobium nitride nanowire inductor gate-sensor. Our experiments show that qubit control pulses with their broad range of higher harmonics ring up the tank when the control pulse spectrum overlaps with the tank resonance. This can cause a reduction of the readout visibility if the tank ringing amplitude exceeds the excited state splitting of the quantum dot, lifting Pauli spin blockade and thus leading to state preparation and measurement errors. We demonstrate how to circumvent these effects by engineering control pulses around the tank resonances. Importantly, we find that the ringup does not limit the spin coherence time, indicating that efficient high-Q resonators in gate-sensing are compatible with all-electrical spin control. | 翻訳日:2024-08-01 12:47:12 公開日:2024-07-31 |
# 量子シミュレーションによる有限温度におけるリアルタイムカイラルダイナミクス
Real-time chiral dynamics at finite temperature from quantum simulation ( http://arxiv.org/abs/2407.21496v1 ) ライセンス: Link先を確認 | Kazuki Ikeda, Zhong-Bo Kang, Dmitri E. Kharzeev, Wenyang Qian, Fanyi Zhao, | (参考訳) 本研究では, (1+1)-次元QED, 質量シュウィンガーモデルにおいて, キラル磁気効果(CME)の有限温度におけるリアルタイムダイナミクスについて検討した。
キラル化学ポテンシャル$\mu_5$をクエンチ過程を通じて導入することにより、系を平衡状態から追い出し、誘導されるベクトル電流とその時間的変化を解析する。
ハミルトニアンは時間依存のキラル化学ポテンシャルを含むように修正され、量子コンピューティングの枠組みの中でCMEを研究することができる。
熱状態の研究には量子想像時間進化法(QITE)アルゴリズムを用い,実時間進化には鈴木・トロッター分解法を用いる。
この研究は、CMEをモデル化するための量子シミュレーション能力についての洞察を提供し、低次元の量子場理論におけるカイラル力学を研究するための経路を提供する。
In this study, we explore the real-time dynamics of the chiral magnetic effect (CME) at a finite temperature in the (1+1)-dimensional QED, the massive Schwinger model. By introducing a chiral chemical potential $\mu_5$ through a quench process, we drive the system out of equilibrium and analyze the induced vector currents and their evolution over time. The Hamiltonian is modified to include the time-dependent chiral chemical potential, thus allowing the investigation of the CME within a quantum computing framework. We employ the quantum imaginary time evolution (QITE) algorithm to study the thermal states, and utilize the Suzuki-Trotter decomposition for the real-time evolution. This study provides insights into the quantum simulation capabilities for modeling the CME and offers a pathway for studying chiral dynamics in low-dimensional quantum field theories. | 翻訳日:2024-08-01 12:37:28 公開日:2024-07-31 |
# 残差増幅による非教師付きアウトオブディストリビューション検出に基づく僧帽弁逆流認識
Mitral Regurgitation Recogniton based on Unsupervised Out-of-Distribution Detection with Residual Diffusion Amplification ( http://arxiv.org/abs/2407.21497v1 ) ライセンス: Link先を確認 | Zhe Liu, Xiliang Zhu, Tong Han, Yuhao Huang, Jian Wang, Lian Liu, Fang Wang, Dong Ni, Zhongshan Gou, Xin Yang, | (参考訳) 僧帽弁閉鎖不全(MR)は重篤な心臓弁疾患である。
超音波画像によるMRの早期かつ正確な診断は、タイムリーな臨床的意思決定と外科的介入に重要である。
しかし、手動MR診断は操作者の経験に大きく依存しており、誤診やサーバ間変動を引き起こす可能性がある。
MRデータは限定的であり,クラス内変動が大きいため,深い分類器を構築するのではなく,MRを識別するための教師なしアウト・オブ・ディストリビューション(OOD)検出法を提案する。
我々の知る限り、私たちはMR超音波ビデオでOODを初めて探求した人物です。
提案手法は,特徴抽出器,特徴再構成モデル,残留蓄積増幅アルゴリズムから構成される。
特徴抽出器は、ビデオクリップから特徴を取得し、特徴再構成モデルにフィードして元の特徴を復元する。
残積増幅アルゴリズムは、繰り返しノイズ特徴再構成を行い、OOD特徴の再構成誤差を増幅する。
このアルゴリズムは単純だが効率的であり、再構成に基づくOOD検出手法においてプラグイン・アンド・プレイコンポーネントとしてシームレスに統合できる。
提案手法を893個の非MRビデオと267個のMRビデオを含む大規模超音波データセット上で検証した。
実験の結果,OOD検出法はMRサンプルを効果的に同定できることがわかった。
Mitral regurgitation (MR) is a serious heart valve disease. Early and accurate diagnosis of MR via ultrasound video is critical for timely clinical decision-making and surgical intervention. However, manual MR diagnosis heavily relies on the operator's experience, which may cause misdiagnosis and inter-observer variability. Since MR data is limited and has large intra-class variability, we propose an unsupervised out-of-distribution (OOD) detection method to identify MR rather than building a deep classifier. To our knowledge, we are the first to explore OOD in MR ultrasound videos. Our method consists of a feature extractor, a feature reconstruction model, and a residual accumulation amplification algorithm. The feature extractor obtains features from the video clips and feeds them into the feature reconstruction model to restore the original features. The residual accumulation amplification algorithm then iteratively performs noise feature reconstruction, amplifying the reconstructed error of OOD features. This algorithm is straightforward yet efficient and can seamlessly integrate as a plug-and-play component in reconstruction-based OOD detection methods. We validated the proposed method on a large ultrasound dataset containing 893 non-MR and 267 MR videos. Experimental results show that our OOD detection method can effectively identify MR samples. | 翻訳日:2024-08-01 12:37:28 公開日:2024-07-31 |
# CdSe/ZnSナノプレートからの室温効率単一光子生成
Room-temperature efficient single-photon generation from CdSe/ZnS nanoplateletes ( http://arxiv.org/abs/2407.21504v1 ) ライセンス: Link先を確認 | M. D'Amato, Ningyuan Fu, Quentin Glorieux, Elisabeth Giacobino, Hanna Le Jeannic, Sandrine Ithurria, Emmanuel Lhuillier, Alberto Bramati, | (参考訳) 量子情報科学応用のための材料探索において、コロイド半導体ナノプレート(NPL)は、室温での細い発光線幅や高速光発光(PL)寿命などの興味深い光学特性のために、非常に有望な新しい種類の材料として出現している。
しかし、原子スケールの厚さと1次元の量子閉じ込めを持つNPLは単光子源として期待できる候補となっている。
ここでは,コア/シェルCdSe/ZnS NPLの室温単一光子放射を8$x$20nm$^2$表面積と1nmシェルで示す。
限られた表面積は効果的なアウガー非放射的再結合を保証するため、光子純度の値が$g^{(2)}(\tau)=0.04$という高い効率のよい単一光子生成をもたらす。
このような薄い殻に典型的な長時間点滅および漂白は、殻の厚みを増大させることで容易に低減できる。
この研究は、量子フォトニクス系への統合に非常に適した新しい単一光子源としてNPLを確立する。
In the search for materials for quantum information science applications, colloidal semiconductor nanoplatelets (NPLs) have emerged as a highly promising new class of materials due to their interesting optical properties, such as narrow emission linewidth and fast photoluminescence (PL) lifetimes at room temperature. So far only few works focused on the quantum properties of their emission, however, NPLs, with their atomic-scale thickness and one-dimensional quantum confinement, are promising candidates for single-photon sources. Here, we demonstrate room-temperature single-photon emission from core/shell CdSe/ZnS NPLs, which feature 8$x$20 nm$^2$ surface area and 1 nm shell. The limited surface area ensures effective Auger non-radiative recombination, resulting in highly efficient single-photon generation with values of photon purity as low as $g^{(2)}(\tau)=0.04$. The observed long-period blinking and bleaching, typical of such thin shells, can be easily reduced by increasing the shell thickness. This work establishes NPLs as new single-photon sources very well suited for integration into quantum photonic systems. | 翻訳日:2024-08-01 12:37:28 公開日:2024-07-31 |
# PEAR: フレーズベースハンドオブジェクトインタラクション予測
PEAR: Phrase-Based Hand-Object Interaction Anticipation ( http://arxiv.org/abs/2407.21510v1 ) ライセンス: Link先を確認 | Zichen Zhang, Hongchen Luo, Wei Zhai, Yang Cao, Yu Kang, | (参考訳) 対人対人インタラクション予測は,現在のシーンとプロンプトに基づいて,今後のインタラクションプロセスを予測することを目的としている。
この能力は、インテリジェンスと人間とロボットのコラボレーションに不可欠である。
完全な相互作用プロセスは、事前接触相互作用意図(手の動き傾向と相互作用ホットスポット)と後接触相互作用操作(つまり、軌跡の操作と接触による手ポーズ)の両方を含む。
既存の研究は、操作を無視しながらの相互作用意図のみを予測し、結果として不完全な予測と、操作制約の欠如による意図的誤りの可能性が増大する。
そこで我々は,インタラクションの意図と操作を共同で予測する新しいモデルPEAR(Phrase-based Hand-Object Interaction Precipation)を提案する。
相互作用プロセスの不確実性に対処するために、我々は2倍のアプローチを採用する。
まず,動詞,名詞,画像の相互アライメントを行い,手の動きパターンや対象機能属性の多様性を低減し,意図的不確実性を緩和する。
次に、動的統合と残差接続を用いた意図と操作の双方向的な制約を確立し、要素間の整合性を確保し、操作の不確実性を克服する。
提案モデルの性能を厳密に評価するために,包括的なアノテーションを用いたタスク関連データセット EGO-HOIP を新たに収集する。
大規模な実験結果から,本手法の優位性が確認された。
First-person hand-object interaction anticipation aims to predict the interaction process over a forthcoming period based on current scenes and prompts. This capability is crucial for embodied intelligence and human-robot collaboration. The complete interaction process involves both pre-contact interaction intention (i.e., hand motion trends and interaction hotspots) and post-contact interaction manipulation (i.e., manipulation trajectories and hand poses with contact). Existing research typically anticipates only interaction intention while neglecting manipulation, resulting in incomplete predictions and an increased likelihood of intention errors due to the lack of manipulation constraints. To address this, we propose a novel model, PEAR (Phrase-Based Hand-Object Interaction Anticipation), which jointly anticipates interaction intention and manipulation. To handle uncertainties in the interaction process, we employ a twofold approach. Firstly, we perform cross-alignment of verbs, nouns, and images to reduce the diversity of hand movement patterns and object functional attributes, thereby mitigating intention uncertainty. Secondly, we establish bidirectional constraints between intention and manipulation using dynamic integration and residual connections, ensuring consistency among elements and thus overcoming manipulation uncertainty. To rigorously evaluate the performance of the proposed model, we collect a new task-relevant dataset, EGO-HOIP, with comprehensive annotations. Extensive experimental results demonstrate the superiority of our method. | 翻訳日:2024-08-01 12:37:28 公開日:2024-07-31 |
# ビデオスナップショット圧縮イメージングのための簡易低ビット量子化フレームワーク
A Simple Low-bit Quantization Framework for Video Snapshot Compressive Imaging ( http://arxiv.org/abs/2407.21517v1 ) ライセンス: Link先を確認 | Miao Cao, Lishun Wang, Huan Wang, Xin Yuan, | (参考訳) Video Snapshot Compressive Imaging (SCI)は、低速2Dカメラを使用して、スナップショット圧縮された計測結果として高速シーンをキャプチャし、次に高速ビデオフレームを再構築する再構成アルゴリズムを使用する。
State-of-the-art(SOTA)ディープラーニングベースのアルゴリズムは、計算負荷が重いにもかかわらず、優れたパフォーマンスを実現している。
ネットワーク量子化は計算コストを削減するための有望な方法である。
しかし、直接の低ビット量子化は大きな性能低下をもたらす。
この課題に対処するため,本稿では,機能抽出,機能拡張,ビデオ再構成モジュールで構成される,エンドツーエンドの深層学習に基づくビデオSCI再構成のための,シンプルな低ビット量子化フレームワーク(dubed Q-SCI)を提案する。
具体的には、まず高品質な特徴抽出モジュールと高精度なビデオ再構成モジュールを設計し、低ビット量子化モデルで高品質な特徴を抽出し、伝達する。
さらに、量子化機能拡張モジュールにおけるTransformerブランチの情報歪みを軽減するために、クエリとキー分布のシフト操作を導入し、パフォーマンスギャップをさらに橋渡しする。
その結果,Q-SCIフレームワークは,Q-SCIフレームワークから得られた4ビット量子化効率SCI-Sにより,実数値化効率SCI-Sを7.8Xで理論的に高速化することができ,シミュレーションテストデータセットの性能差は2.3%に留まった。
コードはhttps://github.com/mcao92/QuantizedSCIで入手できる。
Video Snapshot Compressive Imaging (SCI) aims to use a low-speed 2D camera to capture high-speed scene as snapshot compressed measurements, followed by a reconstruction algorithm to reconstruct the high-speed video frames. State-of-the-art (SOTA) deep learning-based algorithms have achieved impressive performance, yet with heavy computational workload. Network quantization is a promising way to reduce computational cost. However, a direct low-bit quantization will bring large performance drop. To address this challenge, in this paper, we propose a simple low-bit quantization framework (dubbed Q-SCI) for the end-to-end deep learning-based video SCI reconstruction methods which usually consist of a feature extraction, feature enhancement, and video reconstruction module. Specifically, we first design a high-quality feature extraction module and a precise video reconstruction module to extract and propagate high-quality features in the low-bit quantized model. In addition, to alleviate the information distortion of the Transformer branch in the quantized feature enhancement module, we introduce a shift operation on the query and key distributions to further bridge the performance gap. Comprehensive experimental results manifest that our Q-SCI framework can achieve superior performance, e.g., 4-bit quantized EfficientSCI-S derived by our Q-SCI framework can theoretically accelerate the real-valued EfficientSCI-S by 7.8X with only 2.3% performance gap on the simulation testing datasets. Code is available at https://github.com/mcao92/QuantizedSCI. | 翻訳日:2024-08-01 12:37:28 公開日:2024-07-31 |
# PhysFlow:条件付き正規化流による遠隔心拍数推定のための皮膚音伝達
PhysFlow: Skin tone transfer for remote heart rate estimation through conditional normalizing flows ( http://arxiv.org/abs/2407.21519v1 ) ライセンス: Link先を確認 | Joaquim Comas, Antonia Alomar, Adria Ruiz, Federico Sukno, | (参考訳) 近年, 深層学習法は, カメラを用いた遠隔生理信号推定において, 従来の手法をはるかに超え, 顕著な結果を示している。
しかし、ディープニューラルネットワークの性能と一般化能力は、実際のアプリケーションで遭遇する様々な要因を真に表すリッチなトレーニングデータに大きく依存している。
残念なことに、多くのリモート光胸腺撮影(rPPG)データセットは、特に暗い肌の色調において多様性に欠けており、既存のrPPGアプローチのパフォーマンスに偏っている。
このバイアスを軽減するために,条件付き正規化フローを用いた遠隔心拍数推定において皮膚の多様性を増大させる新しい方法であるPhysFlowを紹介した。
PhysFlowはエンドツーエンドのトレーニング最適化を採用し、オリジナルのデータと生成されたデータの両方で教師付きrPPGアプローチの同時トレーニングを可能にする。
また,顔画像から直接抽出したCIELABカラースキンの特徴を,スキントーンラベルを必要とせずに使用した。
我々はPhysFlowを一般公開データセットであるUCLA-rPPGとMMPDで検証し、特に暗い肌の色調における心拍数誤差の低減を実証した。
さらに,データ駆動型 rPPG 法にまたがる汎用性と適応性を示す。
In recent years, deep learning methods have shown impressive results for camera-based remote physiological signal estimation, clearly surpassing traditional methods. However, the performance and generalization ability of Deep Neural Networks heavily depends on rich training data truly representing different factors of variation encountered in real applications. Unfortunately, many current remote photoplethysmography (rPPG) datasets lack diversity, particularly in darker skin tones, leading to biased performance of existing rPPG approaches. To mitigate this bias, we introduce PhysFlow, a novel method for augmenting skin diversity in remote heart rate estimation using conditional normalizing flows. PhysFlow adopts end-to-end training optimization, enabling simultaneous training of supervised rPPG approaches on both original and generated data. Additionally, we condition our model using CIELAB color space skin features directly extracted from the facial videos without the need for skin-tone labels. We validate PhysFlow on publicly available datasets, UCLA-rPPG and MMPD, demonstrating reduced heart rate error, particularly in dark skin tones. Furthermore, we demonstrate its versatility and adaptability across different data-driven rPPG methods. | 翻訳日:2024-08-01 12:37:28 公開日:2024-07-31 |
# ControlMLLM:マルチモーダル大規模言語モデルのための学習不要なビジュアルプロンプト学習
ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models ( http://arxiv.org/abs/2407.21534v1 ) ライセンス: Link先を確認 | Mingrui Wu, Xinyue Cai, Jiayi Ji, Jiale Li, Oucheng Huang, Gen Luo, Hao Fei, Xiaoshuai Sun, Rongrong Ji, | (参考訳) 本研究では,学習可能な視覚トークン最適化により,MLLM(Multimodal Large Language Models)に視覚参照を注入する学習自由手法を提案する。
MLLMにおけるテキストプロンプトトークンと視覚トークンの関係を観察する。
提案手法では,推測中にMLP出力から視覚トークンを調整し,どのテキストプロンプトがどの視覚トークンに参加するかを制御する。
我々は,エネルギー関数に基づいて学習可能な視覚トークンを最適化し,注目マップにおける参照領域の強度を高める。
これにより、相当なトレーニングコストやモデル再トレーニングを必要とせずに、詳細な地域説明と推論が可能になる。
本手法は,MLLMに参照能力を統合するための有望な方向を提供する。
我々の方法は、ボックス、マスク、スクリブル、ポイントを参照することをサポートしている。
その結果,本手法は制御性と解釈性を示すことがわかった。
In this work, we propose a training-free method to inject visual referring into Multimodal Large Language Models (MLLMs) through learnable visual token optimization. We observe the relationship between text prompt tokens and visual tokens in MLLMs, where attention layers model the connection between them. Our approach involves adjusting visual tokens from the MLP output during inference, controlling which text prompt tokens attend to which visual tokens. We optimize a learnable visual token based on an energy function, enhancing the strength of referential regions in the attention map. This enables detailed region description and reasoning without the need for substantial training costs or model retraining. Our method offers a promising direction for integrating referential abilities into MLLMs. Our method support referring with box, mask, scribble and point. The results demonstrate that our method exhibits controllability and interpretability. | 翻訳日:2024-08-01 12:37:28 公開日:2024-07-31 |
# NOMAネットワークにおけるアクティブユーザ検出のためのスケジューリング量子アニーリング
Scheduling Quantum Annealing for Active User Detection in a NOMA Network ( http://arxiv.org/abs/2407.21547v1 ) ライセンス: Link先を確認 | Romain Piron, Claire Goursaud, | (参考訳) 非直交多重アクセス(NOMA)ネットワークにおけるアクティブユーザ検出は、5G/6Gアプリケーションにとって大きな課題である。
しかし、このタスクを実行できる古典的なアルゴリズムは、複雑さや性能の低下に悩まされている。
この研究は、このトレードオフを克服するために量子アニールアプローチを提案することを目的としている。
まず,Ising Hamiltonian の基底状態として,ネットワークの動作パターンの最大アプテリデコーダを見ることができることを示す。
完全チャネルを持つネットワーク上のNユーザに対しては,アニーリングプロセスのスケジューリングに普遍的な制御関数を提案する。
本手法では, 最適制御関数の連続計算は避けるが, 線形制御関数よりもアニール時間が少なくても高い成功率を保証できる。
このアドバンテージは、ネットワーク内の不完全性の存在においても有効である。
Active user detection in a non-orthogonal multiple access (NOMA) network is a major challenge for 5G/6G applications. However, classical algorithms that can perform this task suffer either from complexity or reduced performances. This work aims at proposing a quantum annealing approach to overcome this trade-off. Firstly, we show that the maximum a posteriori decoder of the activity pattern of the network can be seen as the ground state of an Ising Hamiltonian. For N users in a network with perfect channels, we propose a universal control function to schedule the annealing process. Our approach avoids to continuously compute the optimal control function but still ensures high success probability while demanding a lower annealing time than a linear control function. This advantage holds even in the presence of imperfections in the network. | 翻訳日:2024-08-01 12:37:28 公開日:2024-07-31 |
# CXSimulator: WebマーケティングキャンペーンアセスメントのためのLCM埋め込みを用いたユーザ行動シミュレーション
CXSimulator: A User Behavior Simulation using LLM Embeddings for Web-Marketing Campaign Assessment ( http://arxiv.org/abs/2407.21553v1 ) ライセンス: Link先を確認 | Akira Kasuga, Ryo Yonetani, | (参考訳) 本稿では、ユーザ行動シミュレーションを通じて、未テストのWebマーケティングキャンペーンの効果を評価するための新しいフレームワーク、Customer Experience (CX) Simulatorを提案する。
提案フレームワークは,大規模言語モデル(LLM)を利用して,アイテムの閲覧,クーポンの適用,あるいはアイテムの購入など,ユーザの行動履歴におけるさまざまなイベントをセマンティックな埋め込みベクトルとして表現する。
LLM埋め込みからイベント間の遷移を予測するためにモデルをトレーニングし、多様なトレーニングデータから学習することで、目に見えないイベントに一般化することもできる。
ウェブマーケティングアプリケーションでは、この遷移予測モデルを利用して、新しいキャンペーンや製品が提示されると、ユーザーがどう反応するかをシミュレートする。
これにより、コストのかかるオンラインテストの必要性を排除し、マーケターの洞察力を高めます。
Google Merchandise StoreのBigQuery Public Datasetsを利用した数値評価とユーザスタディは,我々のフレームワークの有効性を実証する。
This paper presents the Customer Experience (CX) Simulator, a novel framework designed to assess the effects of untested web-marketing campaigns through user behavior simulations. The proposed framework leverages large language models (LLMs) to represent various events in a user's behavioral history, such as viewing an item, applying a coupon, or purchasing an item, as semantic embedding vectors. We train a model to predict transitions between events from their LLM embeddings, which can even generalize to unseen events by learning from diverse training data. In web-marketing applications, we leverage this transition prediction model to simulate how users might react differently when new campaigns or products are presented to them. This allows us to eliminate the need for costly online testing and enhance the marketers' abilities to reveal insights. Our numerical evaluation and user study, utilizing BigQuery Public Datasets from the Google Merchandise Store, demonstrate the effectiveness of our framework. | 翻訳日:2024-08-01 12:37:28 公開日:2024-07-31 |
# 連続ディープフェイク検出のための条件付きプロンプト最適化
Conditioned Prompt-Optimization for Continual Deepfake Detection ( http://arxiv.org/abs/2407.21554v1 ) ライセンス: Link先を確認 | Francesco Laiti, Benedetta Liberatori, Thomas De Min, Elisa Ricci, | (参考訳) 生成モデルの急速な進歩により、デジタルコンテンツ作成のリアリズムとカスタマイズが大幅に向上した。
これらのツールのパワーは、アクセスの容易さと相まって、ディープフェイク(deepfakes)と呼ばれるフォトリアリスティックなフェイクコンテンツの作成を促進する。
これに対し、これらの先進的なシステムによって生成されたコンテンツを識別する検出メカニズムの開発が目覚ましい進展を遂げている。
しかし、既存の手法は、ディープフェイク・ジェネレーションの継続的な発展に適応するのに苦慮することが多い。
本稿では、VLM(Vision-Language Models)とドメイン固有のマルチモーダルプロンプトを利用する、画像の非正規な連続的なディープフェイク検出のための新しいソリューションであるPrompt2Guardを紹介する。
従来のVLMベースのアプローチと比較して,選択精度が向上するか,複数前方通過が必要であった場合と比較して,読み出しのみのプロンプトを用いた予測アンサンブル手法を利用する。
読み取り専用プロンプトはVLMの内部表現とは相互作用せず、複数のフォワードパスの必要性を緩和する。
これにより、生成されたコンテンツを検出する効率と精度を高めることができる。
さらに,本手法では,ディープフェイク検出に適したテキスト・プロンプト・コンディショニングを利用する。
我々は、複数のドメインとジェネレータにまたがる5つのディープフェイク検出データセットからなる連続的なディープフェイク検出ベンチマークであるCDDB-Hard上でPrompt2Guardを評価し、新しい最先端を実現する。
さらに,本研究の結果は, 深度検出による課題に対処する上でのアプローチの有効性を強調し, 深度検出におけるより堅牢で適応性の高いソリューションへの道を開いた。
The rapid advancement of generative models has significantly enhanced the realism and customization of digital content creation. The increasing power of these tools, coupled with their ease of access, fuels the creation of photorealistic fake content, termed deepfakes, that raises substantial concerns about their potential misuse. In response, there has been notable progress in developing detection mechanisms to identify content produced by these advanced systems. However, existing methods often struggle to adapt to the continuously evolving landscape of deepfake generation. This paper introduces Prompt2Guard, a novel solution for exemplar-free continual deepfake detection of images, that leverages Vision-Language Models (VLMs) and domain-specific multimodal prompts. Compared to previous VLM-based approaches that are either bounded by prompt selection accuracy or necessitate multiple forward passes, we leverage a prediction ensembling technique with read-only prompts. Read-only prompts do not interact with VLMs internal representation, mitigating the need for multiple forward passes. Thus, we enhance efficiency and accuracy in detecting generated content. Additionally, our method exploits a text-prompt conditioning tailored to deepfake detection, which we demonstrate is beneficial in our setting. We evaluate Prompt2Guard on CDDB-Hard, a continual deepfake detection benchmark composed of five deepfake detection datasets spanning multiple domains and generators, achieving a new state-of-the-art. Additionally, our results underscore the effectiveness of our approach in addressing the challenges posed by continual deepfake detection, paving the way for more robust and adaptable solutions in deepfake detection. | 翻訳日:2024-08-01 12:37:28 公開日:2024-07-31 |
# ブロックチェーンを用いた医療記録へのコンセンサスおよびコンテンツベースアクセスのためのセルフソブリンアイデンティティ
Self-Sovereign Identity for Consented and Content-Based Access to Medical Records using Blockchain ( http://arxiv.org/abs/2407.21559v1 ) ライセンス: Link先を確認 | Marie Tcholakian, Karolina Gorna, Maryline Laurent, Hella Kaffel Ben Ayed, Montassar Naghmouchi, | (参考訳) 電子健康記録(EHR)と医療データは、すべてのプライバシー法において個人データに分類される。
健康データ管理のソリューションは、保存、共有、処理のように急速に発展し、オンラインでの移動の必要性を生んだCovid-19のパンデミックによって大幅に加速した。
EHRはデジタルIDデータにおいて重要な部分を占めており、Blockchainのような分散型台帳技術を活用した自己主権IDのトレンドは、医療施設、患者、医療専門家間のデジタルインタラクションを管理する文脈で研究または実施されている。
本稿では,自己主権ID(SSI)ウォレットと分散識別子をベースとした,異なるパーティ間でのEHRのセキュアな交換を可能にするブロックチェーンベースのソリューションを提案する。
また、データ機密性と整合性を確保するために、オフチェーンストレージと属性ベースの暗号化(ABE)のためのコンソーシアムIPFSネットワークも利用しています。
弊社のソリューションは、ユーザの医療データを完全にコントロールし、暗号化を使ってユーザウォレット間のセキュアな通信チャネルに対して、完全な機密性でそれを安全に共有できるようにする。
また、ユーザプライバシの向上や、ペアのDIDを使用することによる相関や識別の制限にもDIDを使用します。
全体として、この一連の技術を組み合わせることで、EHRの安全な交換、安全なストレージと管理、および技術スタックから継承された設計上の特徴が保証される。
Electronic Health Records (EHRs) and Medical Data are classified as personal data in every privacy law, meaning that any related service that includes processing such data must come with full security, confidentiality, privacy and accountability. Solutions for health data management, as in storing it, sharing and processing it, are emerging quickly and were significantly boosted by the Covid-19 pandemic that created a need to move things online. EHRs makes a crucial part of digital identity data, and the same digital identity trends -- as in self sovereign identity powered by decentralized ledger technologies like Blockchain, are being researched or implemented in contexts managing digital interactions between health facilities, patients and health professionals. In this paper, we propose a blockchain-based solution enabling secure exchange of EHRs between different parties powered by a self-sovereign identity (SSI) wallet and decentralized identifiers. We also make use of a consortium IPFS network for off-chain storage and attribute-based encryption (ABE) to ensure data confidentiality and integrity. Through our solution, we grant users full control over their medical data, and enable them to securely share it in total confidentiality over secure communication channels between user wallets using encryption. We also use DIDs for better user privacy and limit any possible correlations or identification by using pairwise DIDs. Overall, combining this set of technologies guarantees secure exchange of EHRs, secure storage and management along with by-design features inherited from the technological stack. | 翻訳日:2024-08-01 12:37:28 公開日:2024-07-31 |
# 三次元レイリー・ベナード対流制御のためのマルチエージェント強化学習
Multi-agent reinforcement learning for the control of three-dimensional Rayleigh-Bénard convection ( http://arxiv.org/abs/2407.21565v1 ) ライセンス: Link先を確認 | Joel Vasanth, Jean Rabault, Francisco Alcántara-Ávila, Mikael Mortensen, Ricardo Vinuesa, | (参考訳) 深部強化学習(DRL)は、フロー制御に関する多くのユースケースに応用されている。
DRLの変種であるMARL(Multi-agent RL)は,局所性および翻訳的不変性を示す流れの制御において,単エージェントRLよりも有効であることが示されている。
本稿では,3次元レイリー・ブエナード対流(RBC)のMARL制御の実装を初めて紹介する。
制御は、底壁に沿った温度分布を複数の制御セグメントに分割して行い、それぞれが独立したエージェントとして機能する。
RBCの2つの体制はレイリー数$\mathrm{Ra}=500$と750$で検討されている。
学習した制御ポリシーの評価では、対流強度をそれぞれ$23.5\%$と$8.7\%$を$500$と$750$で下げている。
MARLコントローラは不規則形状の対流パターンを、比較的安定した状態での流れに似た低い対流を持つ通常の直流ロールに変換する。
それぞれ$\mathrm{Ra}$で比例制御との比較を行い、MARLが比例制御器より優れていることを示す。
学習された制御戦略は複雑で、異なる非線形セグメントワイドアクチュエータ遅延とアクティベーションマグニチュードが特徴である。
また,MARLの不変性は学習ポリシーの直接伝達を可能にすることを示す。
Deep reinforcement learning (DRL) has found application in numerous use-cases pertaining to flow control. Multi-agent RL (MARL), a variant of DRL, has shown to be more effective than single-agent RL in controlling flows exhibiting locality and translational invariance. We present, for the first time, an implementation of MARL-based control of three-dimensional Rayleigh-B\'enard convection (RBC). Control is executed by modifying the temperature distribution along the bottom wall divided into multiple control segments, each of which acts as an independent agent. Two regimes of RBC are considered at Rayleigh numbers $\mathrm{Ra}=500$ and $750$. Evaluation of the learned control policy reveals a reduction in convection intensity by $23.5\%$ and $8.7\%$ at $\mathrm{Ra}=500$ and $750$, respectively. The MARL controller converts irregularly shaped convective patterns to regular straight rolls with lower convection that resemble flow in a relatively more stable regime. We draw comparisons with proportional control at both $\mathrm{Ra}$ and show that MARL is able to outperform the proportional controller. The learned control strategy is complex, featuring different non-linear segment-wise actuator delays and actuation magnitudes. We also perform successful evaluations on a larger domain than used for training, demonstrating that the invariant property of MARL allows direct transfer of the learnt policy. | 翻訳日:2024-08-01 12:37:28 公開日:2024-07-31 |
# MPCトラジェクトリプランナのSOTIF改善のための機能不全とトリガー条件の解析
Analysis of Functional Insufficiencies and Triggering Conditions to Improve the SOTIF of an MPC-based Trajectory Planner ( http://arxiv.org/abs/2407.21569v1 ) ライセンス: Link先を確認 | Mirko Conrad, Georg Schildbach, | (参考訳) 自動運転と自動運転は、過去10年で顕著な技術的飛躍を遂げた。
このプロセスでは、車両制御に使用されるアルゴリズムの複雑さが著しく増大している。
モデル予測制御(MPC)は顕著な例であり、非常に人気を集め、現在では車両の運動計画と制御に広く利用されている。
しかし、安全性に関する懸念は、特に従来の機能安全(FS)の手順であるISO26262が限界に達しているため、その実用的適用を制限している。
対照的に、SOTIF(Safety-of-the-intended-Function)の新たな側面は注目の中心へと移り、ISO21448は2022年にリリースされたばかりである。
したがって、SOTIFの使用経験は低く、業界や研究でのケーススタディは少ない。
そこで本研究では,(1)汎用MPCベーストラジェクトリプランナのSOTIFの分析,(2)機能不全(FIs)とトリガー条件(TCs)を決定するためのISO21448で記述されたジェネリックプロシージャの解釈と具体的応用を行う。
具体的には,SOTIF関連要素(SOTIF-EooC)のアウト・オブ・コンテクスト開発へのアプローチ,MPCベースのトラジェクトリプランナーのための重要なFIとTCのコンパイル,MPCベースのトラジェクトリプランナーのための特定FIとTCの最適化された安全性概念などについて述べる。
Automated and autonomous driving has made a significatnt technological leap over the past decade. In this process, the complexity of algorithms used for vehicle control has grown significantly. Model Predictive Control (MPC) is a prominent example, which has gained enormous popularity and is now widely used for vehicle motion planning and control. However, safety concerns constrain its practical application, especially since traditional procedures of functional safety (FS), with its universal standard ISO26262, reach their limits. Concomitantly, the new aspect of safety-of-the-intended-Function (SOTIF) has moved into the center of attention, whose standard, ISO21448, has only been released in 2022. Thus, experience with SOTIF is low and few case studies are available in industry and research. Hence this paper aims to make two main contributions: (1) an analysis of the SOTIF for a generic MPC-based trajectory planner and (2) an interpretation and concrete application of the generic procedures described in ISO21448 for determining functional insufficiencies (FIs) and triggering conditions (TCs). Particular novelties of the paper include an approach for the out-of-context development of SOTIF-related elements (SOTIF-EooC), a compilation of important FIs and TCs for a MPC-based trajectory planner, and an optimized safety concept based on the identified FIs and TCs for the MPC-based trajectory planner. | 翻訳日:2024-08-01 12:37:28 公開日:2024-07-31 |
# InScope: オープントラフィックシナリオのための3Dインフラストラクチャサイドコラボレーションパーセプションデータセット
InScope: A New Real-world 3D Infrastructure-side Collaborative Perception Dataset for Open Traffic Scenarios ( http://arxiv.org/abs/2407.21581v1 ) ライセンス: Link先を確認 | Xiaofei Zhang, Yining Li, Jinping Wang, Xiangyi Qin, Ying Shen, Zhengping Fan, Xiaojun Tan, | (参考訳) 自動運転車の知覚システムは、特に車両中心の視点で調べると、閉塞の影響を受けやすい。
例えば、トラックやバスのような大型車両は、サイクリストや歩行者が見えない場所を作ることができ、そのような認識システムの制限に関連する安全上の懸念を強調できる。
これらの課題を軽減するため、V2Xパラダイムは、より広い知覚範囲で自動運転車を補完するインフラ側認識システム(IPS)を採用することを提案している。
それでも、現実世界の3Dインフラストラクチャサイドデータセットの不足は、V2X技術の進歩を妨げている。
これらのギャップを埋めるために,本研究では,インスコープ(inscope)と呼ばれる,新しい3次元インフラ側協調認識データセットを提案する。
特に、InScopeは、インフラストラクチャ側で複数位置光検出およびランキング(LiDAR)システムを戦略的にデプロイすることで、オクルージョンの課題に対処するための最初のデータセットである。
具体的には、InScopeは303の追跡軌道と187,787の3D境界ボックスで20日間の捕獲期間をカプセル化している。
ベンチマークの分析を通じて、協調的な3Dオブジェクト検出、マルチソースデータ融合、データドメイン転送、および3Dマルチオブジェクト追跡タスクを含む、オープントラフィックシナリオのための4つの異なるベンチマークが提示される。
さらに,オクルージョンの影響を定量化し,様々なアルゴリズムによる検出劣化率の評価を容易にする。
実験結果から,InScopeを利用した実世界のシナリオにおける3次元多目的物体の検出・追跡,特に隠れた,小さな,遠く離れた物体の追跡に有効であることが示された。
データセットとベンチマークはhttps://github.com/xf-zh/InScope.comで公開されている。
Perception systems of autonomous vehicles are susceptible to occlusion, especially when examined from a vehicle-centric perspective. Such occlusion can lead to overlooked object detections, e.g., larger vehicles such as trucks or buses may create blind spots where cyclists or pedestrians could be obscured, accentuating the safety concerns associated with such perception system limitations. To mitigate these challenges, the vehicle-to-everything (V2X) paradigm suggests employing an infrastructure-side perception system (IPS) to complement autonomous vehicles with a broader perceptual scope. Nevertheless, the scarcity of real-world 3D infrastructure-side datasets constrains the advancement of V2X technologies. To bridge these gaps, this paper introduces a new 3D infrastructure-side collaborative perception dataset, abbreviated as inscope. Notably, InScope is the first dataset dedicated to addressing occlusion challenges by strategically deploying multiple-position Light Detection and Ranging (LiDAR) systems on the infrastructure side. Specifically, InScope encapsulates a 20-day capture duration with 303 tracking trajectories and 187,787 3D bounding boxes annotated by experts. Through analysis of benchmarks, four different benchmarks are presented for open traffic scenarios, including collaborative 3D object detection, multisource data fusion, data domain transfer, and 3D multiobject tracking tasks. Additionally, a new metric is designed to quantify the impact of occlusion, facilitating the evaluation of detection degradation ratios among various algorithms. The Experimental findings showcase the enhanced performance of leveraging InScope to assist in detecting and tracking 3D multiobjects in real-world scenarios, particularly in tracking obscured, small, and distant objects. The dataset and benchmarks are available at https://github.com/xf-zh/InScope. | 翻訳日:2024-08-01 12:37:28 公開日:2024-07-31 |
# オープン量子系の量子熱力学:熱ゆらぎの性質
Quantum Thermodynamics of Open Quantum Systems: Nature of Thermal Fluctuations ( http://arxiv.org/abs/2407.21584v1 ) ライセンス: Link先を確認 | Neha Pathania, Devvrat Tiwari, Subhashish Banerjee, | (参考訳) 平均力のハミルトニアンによる開量子系の熱力学挙動を考察し、熱浴と相互作用する2ビット系と、回転波近似を伴わないJaynes-Cummingsモデルという2つのモデルに焦点をあてる。
弱い結合状態と強い結合状態の両方を分析することで、特定の熱容量、内部エネルギー、エントロピーを含む量子熱力学量に対する環境相互作用の影響を明らかにする。
さらに、エルゴトロピーとエントロピーの生成を計算する。
また,信号対雑音比の上限を設定する熱力学的不確実性関係についても検討する。
We investigate the thermodynamic behavior of open quantum systems through the Hamiltonian of Mean Force, focusing on two models: a two-qubit system interacting with a thermal bath and a Jaynes-Cummings Model without the rotating wave approximation. By analyzing both weak and strong coupling regimes, we uncover the impact of environmental interactions on quantum thermodynamic quantities, including specific heat capacity, internal energy, and entropy. Further, the ergotropy and entropy production are computed. We also explore the thermodynamic uncertainty relation, which sets an upper bound on the signal-to-noise ratio. | 翻訳日:2024-08-01 12:37:28 公開日:2024-07-31 |
# 半監督型医用画像分割のための適応ミックス
Adaptive Mix for Semi-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2407.21586v1 ) ライセンス: Link先を確認 | Zhiqiang Shen, Peng Cao, Junming Su, Jinzhu Yang, Osmar R. Zaiane, | (参考訳) Mix-upは、整合正則化に基づく半教師付き学習手法の重要な手法であり、強弱擬似スーパービジョンのための強い摂動サンプルを生成する。
既存の混合処理はランダムに実行されるか、低信頼のパッチを高信頼のパッチに置き換えるといった事前定義されたルールで実行される。
前者は摂動の度合いを制御できず、ランダムに摂動されたサンプルに過度に適合し、後者は自明な摂動を持つ画像を生成する傾向にあり、どちらも一貫性学習の有効性を制限している。
本稿では,画像混合摂動をトレーニング中に適応的に行うにはどうすればよいのか,という疑問に答える。
そこで本研究では,自己ペースト学習方式で画像混合を行うAdaptive Mixアルゴリズム(AdaMix)を提案する。
一般に、モデルの性能が訓練中に徐々に向上することを考えると、AdaMixは比較的単純な摂動サンプルを提供するセルフペースのカリキュラムを備え、その後、自己ペースの正規化によって推定されるモデルの学習状態に基づいて摂動度を適応的に制御することにより、摂動画像の難易度を徐々に増大させる。
AdaMix-ST, AdaMix-MT, AdaMix-CTの3つのフレームワークを半教師付き医用画像分割用として開発した。
2Dおよび3Dモダリティを含む3つの公開データセットに対する大規模な実験は、提案フレームワークが優れたパフォーマンスを達成することができることを示している。
例えば、最先端技術と比較すると、AdaMix-CTはDiceの2.62%とACDCデータセットの平均表面距離48.25%の相対的な改善を10%ラベル付きデータで達成している。
その結果, セグメンテーションモデルの状態に基づく動的に調整された摂動強度の混合演算は, 整合正則化の有効性を著しく向上させることができることを示した。
Mix-up is a key technique for consistency regularization-based semi-supervised learning methods, generating strong-perturbed samples for strong-weak pseudo-supervision. Existing mix-up operations are performed either randomly or with predefined rules, such as replacing low-confidence patches with high-confidence ones. The former lacks control over the perturbation degree, leading to overfitting on randomly perturbed samples, while the latter tends to generate images with trivial perturbations, both of which limit the effectiveness of consistency learning. This paper aims to answer the following question: How can image mix-up perturbation be adaptively performed during training? To this end, we propose an Adaptive Mix algorithm (AdaMix) for image mix-up in a self-paced learning manner. Given that, in general, a model's performance gradually improves during training, AdaMix is equipped with a self-paced curriculum that, in the initial training stage, provides relatively simple perturbed samples and then gradually increases the difficulty of perturbed images by adaptively controlling the perturbation degree based on the model's learning state estimated by a self-paced regularize. We develop three frameworks with our AdaMix, i.e., AdaMix-ST, AdaMix-MT, and AdaMix-CT, for semi-supervised medical image segmentation. Extensive experiments on three public datasets, including both 2D and 3D modalities, show that the proposed frameworks are capable of achieving superior performance. For example, compared with the state-of-the-art, AdaMix-CT achieves relative improvements of 2.62% in Dice and 48.25% in average surface distance on the ACDC dataset with 10% labeled data. The results demonstrate that mix-up operations with dynamically adjusted perturbation strength based on the segmentation model's state can significantly enhance the effectiveness of consistency regularization. | 翻訳日:2024-08-01 12:27:41 公開日:2024-07-31 |
# カモフラージュ物体検出におけるSAM2の役割評価:SAMからSAM2へ
Evaluating SAM2's Role in Camouflaged Object Detection: From SAM to SAM2 ( http://arxiv.org/abs/2407.21596v1 ) ライセンス: Link先を確認 | Lv Tang, Bo Li, | (参考訳) Meta AI Researchがジェネリックオブジェクトセグメンテーションモデルとして導入したSegment Anything Model (SAM)は、急速に注目を集め、学術コミュニティに大きな影響を与えた。
アプリケーションをビデオに拡張するために、Metaはさらに、ビデオと画像のセグメンテーションの両方が可能な統一モデルであるSegment Anything Model 2 (SAM2)を開発した。
SAM2は、適用可能なドメイン、迅速なセグメンテーション精度、実行速度の観点から、前者よりも顕著に改善されている。
しかし,本報告では,SAM2がオートモードでのプロンプトを伴わずに,画像内の異なる物体を知覚する能力が,SAM2と比較して低下していることを明らかにする。
具体的には、この性能低下を評価するために、キャモフラージュされた物体検出の困難なタスクを採用し、研究者によるSAMモデルファミリーのさらなる探索を期待する。
本論文の結果は, <url{https://github.com/luckybird 1994/SAMCOD} に記載されている。
The Segment Anything Model (SAM), introduced by Meta AI Research as a generic object segmentation model, quickly garnered widespread attention and significantly influenced the academic community. To extend its application to video, Meta further develops Segment Anything Model 2 (SAM2), a unified model capable of both video and image segmentation. SAM2 shows notable improvements over its predecessor in terms of applicable domains, promptable segmentation accuracy, and running speed. However, this report reveals a decline in SAM2's ability to perceive different objects in images without prompts in its auto mode, compared to SAM. Specifically, we employ the challenging task of camouflaged object detection to assess this performance decrease, hoping to inspire further exploration of the SAM model family by researchers. The results of this paper are provided in \url{https://github.com/luckybird1994/SAMCOD}. | 翻訳日:2024-08-01 12:27:41 公開日:2024-07-31 |
# 非侵入型還元次モデルのための高次量子貯水池計算
Higher order quantum reservoir computing for non-intrusive reduced-order models ( http://arxiv.org/abs/2407.21602v1 ) ライセンス: Link先を確認 | Vinamr Jain, Romit Maulik, | (参考訳) 動的システムの予測は多くの実世界のアプリケーションにとって重要である。
可能であれば、微分方程式のような第一原理に基づくモデルに基づいて力学系の予測が構築される。
これらの方程式が未知の場合、データのみから予測モデルを構築するために非侵入的手法を利用する必要がある。
機械学習(ML)メソッドは、最近そのようなタスクに使われている。
さらに、ML法は、第一原理に基づくモデルとは対照的に、予測のための時間と解法の大幅な削減の利点を付加する。
しかし、最先端のMLベースの予測手法の多くはニューラルネットワークに依存しており、大量のメモリの要求をトレーニングし、必要とする場合に費用がかかる可能性がある。
本研究では、複雑な力学系に対して、トレーニング時間とメモリコストを削減したデータ駆動予測を提供する非線形力学系を学習するための、量子力学にインスパイアされたMLモデリング戦略を提案する。
このアプローチは量子貯水池計算技術(QRC)と呼ばれ、古典的な線形フィードバック接続を通じて相互接続された小さな量子システムのアンサンブルを利用するハイブリッド量子古典的フレームワークである。
動的状態をユニタリ演算に相応しい量子表現にマッピングすることにより、QRCは複雑な非線形力学系を安定かつ正確な方法で予測することができる。
本研究では,NOAA Optimal Interpolation Sea Surface Temperature データセットのベンチマーク予測を通じて,このフレームワークの有効性を実証し,QRCの性能を他のML手法と比較する。
Forecasting dynamical systems is of importance to numerous real-world applications. When possible, dynamical systems forecasts are constructed based on first-principles-based models such as through the use of differential equations. When these equations are unknown, non-intrusive techniques must be utilized to build predictive models from data alone. Machine learning (ML) methods have recently been used for such tasks. Moreover, ML methods provide the added advantage of significant reductions in time-to-solution for predictions in contrast with first-principle based models. However, many state-of-the-art ML-based methods for forecasting rely on neural networks, which may be expensive to train and necessitate requirements for large amounts of memory. In this work, we propose a quantum mechanics inspired ML modeling strategy for learning nonlinear dynamical systems that provides data-driven forecasts for complex dynamical systems with reduced training time and memory costs. This approach, denoted the quantum reservoir computing technique (QRC), is a hybrid quantum-classical framework employing an ensemble of interconnected small quantum systems via classical linear feedback connections. By mapping the dynamical state to a suitable quantum representation amenable to unitary operations, QRC is able to predict complex nonlinear dynamical systems in a stable and accurate manner. We demonstrate the efficacy of this framework through benchmark forecasts of the NOAA Optimal Interpolation Sea Surface Temperature dataset and compare the performance of QRC to other ML methods. | 翻訳日:2024-08-01 12:27:41 公開日:2024-07-31 |
# MicroMIL:顕微鏡画像を用いた患者診断のためのグラフベースのコンテキスト多重学習
MicroMIL: Graph-based Contextual Multiple Instance Learning for Patient Diagnosis Using Microscopy Images ( http://arxiv.org/abs/2407.21604v1 ) ライセンス: Link先を確認 | JongWoo Kim, Bryan Wong, YoungSin Ko, MunYong Yi, | (参考訳) 現在の病理組織学研究は、主に、弱教師付き多重インスタンス学習(MIL)を持つスキャナーによって生成される全スライディング画像(WSI)の使用に焦点を当てている。
しかし、WSIはコストが高く、メモリ集約的で、広範な分析時間を必要とします。
代替として、顕微鏡ベースの分析はコストとメモリ効率を提供するが、顕微鏡画像は、病理学者の主観的視点から複数のキャプチャーが得られたため、未知の絶対位置と冗長な画像で問題に直面している。
この目的のために,DCE(Deep Cluster Embedding)とGumbel Softmax(Gumbel Softmax)を用いた画像の動的クラスタリングにより,これらの課題に対処するために構築された,弱教師付きMILフレームワークであるMicroMILを紹介した。
グラフエッジは上部三角形の類似性行列から構築され、ノードは最も類似した隣人に接続され、グラフニューラルネットワーク(GNN)を使用して、局所的および多様なコンテキスト情報の領域をキャプチャする。
絶対位置を必要とするWSI向けに設計された既存のグラフベースのMILメソッドとは異なり、MicroMILは必要なしにグラフエッジを効率的に処理する。
実世界の大腸癌(Seegene)と公共のBreakHisデータセットに対する広範な評価は、MicroMILが最先端(SOTA)メソッドより優れており、顕微鏡画像を用いた患者診断のための堅牢で効率的なソリューションを提供することを示している。
コードはhttps://anonymous.4open.science/r/MicroMIL-6C7Cで公開されている。
Current histopathology research has primarily focused on using whole-slide images (WSIs) produced by scanners with weakly-supervised multiple instance learning (MIL). However, WSIs are costly, memory-intensive, and require extensive analysis time. As an alternative, microscopy-based analysis offers cost and memory efficiency, though microscopy images face issues with unknown absolute positions and redundant images due to multiple captures from the subjective perspectives of pathologists. To this end, we introduce MicroMIL, a weakly-supervised MIL framework specifically built to address these challenges by dynamically clustering images using deep cluster embedding (DCE) and Gumbel Softmax for representative image extraction. Graph edges are then constructed from the upper triangular similarity matrix, with nodes connected to their most similar neighbors, and a graph neural network (GNN) is utilized to capture local and diverse areas of contextual information. Unlike existing graph-based MIL methods designed for WSIs that require absolute positions, MicroMIL efficiently handles the graph edges without this need. Extensive evaluations on real-world colon cancer (Seegene) and public BreakHis datasets demonstrate that MicroMIL outperforms state-of-the-art (SOTA) methods, offering a robust and efficient solution for patient diagnosis using microscopy images. The code is available at https://anonymous.4open.science/r/MicroMIL-6C7C | 翻訳日:2024-08-01 12:27:41 公開日:2024-07-31 |
# グラフのアイアンリング: 大規模グラフの正確な幾何学的解析に向けて
Ironing the Graphs: Toward a Correct Geometric Analysis of Large-Scale Graphs ( http://arxiv.org/abs/2407.21609v1 ) ライセンス: Link先を確認 | Saloua Naama, Kavé Salamatian, Francesco Bronzino, | (参考訳) グラフ埋め込みアプローチはグラフを幾何学的実体、すなわち多様体に投影しようとする。
この考え方は、射影多様体の幾何学的性質がグラフ特性の推論に有用である、というものである。
しかし、埋め込み多様体の選択が誤って実行されると、それは誤った幾何学的推論につながる可能性がある。
本稿では,古典的な埋め込み手法は,多様体の各点における曲率を欠いているため,正確な幾何学的解釈を導出できないことを論じる。
正確な幾何学的解釈を行うためには、グラフの埋め込みは正則な定曲率多様体上で行うべきである。
この目的を達成するために、グラフ内のノード間の距離を調整する離散リッチフロー(dRfge)に基づく離散リッチフローグラフ埋め込み(dRfge)を提案する。
この論文の主な貢献は、離散リッチフローの一定曲率とエッジ上の安定距離メトリクスへの収束性を初めて証明したことである。
離散リッチフローを使うことの欠点は、大規模グラフ解析においてその使用を妨げた高い計算複雑性である。
この論文のもう1つの貢献は、最大50kノードのグラフに対するリッチフローを計算可能にする新しいアルゴリズム解である。
離散リッチフローの背後にある直感は、大規模グラフの構造に関する新たな洞察を得ることを可能にする。
本稿は、BGPレベルにおける各国間のインターネット接続構造の分析に関するケーススタディを通じて、これを実証する。
Graph embedding approaches attempt to project graphs into geometric entities, i.e, manifolds. The idea is that the geometric properties of the projected manifolds are helpful in the inference of graph properties. However, if the choice of the embedding manifold is incorrectly performed, it can lead to incorrect geometric inference. In this paper, we argue that the classical embedding techniques cannot lead to correct geometric interpretation as they miss the curvature at each point, of manifold. We advocate that for doing correct geometric interpretation the embedding of graph should be done over regular constant curvature manifolds. To this end, we present an embedding approach, the discrete Ricci flow graph embedding (dRfge) based on the discrete Ricci flow that adapts the distance between nodes in a graph so that the graph can be embedded onto a constant curvature manifold that is homogeneous and isotropic, i.e., all directions are equivalent and distances comparable, resulting in correct geometric interpretations. A major contribution of this paper is that for the first time, we prove the convergence of discrete Ricci flow to a constant curvature and stable distance metrics over the edges. A drawback of using the discrete Ricci flow is the high computational complexity that prevented its usage in large-scale graph analysis. Another contribution of this paper is a new algorithmic solution that makes it feasible to calculate the Ricci flow for graphs of up to 50k nodes, and beyond. The intuitions behind the discrete Ricci flow make it possible to obtain new insights into the structure of large-scale graphs. We demonstrate this through a case study on analyzing the internet connectivity structure between countries at the BGP level. | 翻訳日:2024-08-01 12:27:41 公開日:2024-07-31 |
# 境界認識型アテンション機構による部分的発声音像定位の実現
Enhancing Partially Spoofed Audio Localization with Boundary-aware Attention Mechanism ( http://arxiv.org/abs/2407.21611v1 ) ライセンス: Link先を確認 | Jiafeng Zhong, Bin Li, Jiangyan Yi, | (参考訳) 部分的にスプーフされた音像定位作業は,フレームレベルでの音像の正当性を正確に判定することを目的としている。
いくつかの研究は奨励的な成果を上げているが、単一のモデルにおける境界情報の利用は未調査の研究トピックのままである。
本研究では,BAM(Boundary-Aware Attention Mechanism)と呼ばれる新しい手法を提案する。
具体的には、境界拡張(Boundary Enhancement)と境界フレーム(Bundary Frame-wise Attention)の2つのコアモジュールで構成されている。
前者はフレーム内およびフレーム間情報を組み立て、その後境界位置検出および認証決定に使用される識別境界特徴を抽出し、後者は境界予測結果を利用してフレーム間の特徴相互作用を明示的に制御し、実フレームと偽フレームの効果的な識別を実現する。
partialSpoofデータベースの実験結果から,提案手法が最高の性能を実現することを示す。
コードはhttps://github.com/media-sec-lab/BAMで公開されている。
The task of partially spoofed audio localization aims to accurately determine audio authenticity at a frame level. Although some works have achieved encouraging results, utilizing boundary information within a single model remains an unexplored research topic. In this work, we propose a novel method called Boundary-aware Attention Mechanism (BAM). Specifically, it consists of two core modules: Boundary Enhancement and Boundary Frame-wise Attention. The former assembles the intra-frame and inter-frame information to extract discriminative boundary features that are subsequently used for boundary position detection and authenticity decision, while the latter leverages boundary prediction results to explicitly control the feature interaction between frames, which achieves effective discrimination between real and fake frames. Experimental results on PartialSpoof database demonstrate our proposed method achieves the best performance. The code is available at https://github.com/media-sec-lab/BAM. | 翻訳日:2024-08-01 12:27:41 公開日:2024-07-31 |
# AIと私:AIと人間によるプログレッシブメタル音楽における聴取者の視点の分析
Between the AI and Me: Analysing Listeners' Perspectives on AI- and Human-Composed Progressive Metal Music ( http://arxiv.org/abs/2407.21615v1 ) ライセンス: Link先を確認 | Pedro Sarmento, Jackson Loth, Mathieu Barthet, | (参考訳) ジェネレーティブAIモデルは、最近花を咲かせ、芸術や音楽の伝統に大きな影響を与えている。
したがって、人間がどのようにこれらのモデルと相互作用し、評価するかを研究することが重要である。
リスニング・リフレクション研究を通じて、参加者のAI対人為的プログレッシブメタルに対する視点を象徴的な形式で探求し、ロックミュージックをコントロールグループとして利用した。
AI生成の例は、TransformerベースのモデルであるProgGPによって作成された。
本稿では,世代タイプ(人間対AI),ジャンル(プログレッシブメタル対ロック),キュレーションプロセス(ランダム対チェリーピック)の効果を評価するための混合手法を提案する。
これは、ジャンルの一致、好み、創造性、一貫性、遊びやすさ、人間性、再現性に関する定量的フィードバックと、聞き手の体験に対する洞察を提供する定性的なフィードバックを組み合わせたものである。
合計32人のプログレッシブメタルファンがこの研究を完了した。
我々の研究は,AI生成したロックとプログレッシブメタルを区別できるため,AI音楽生成におけるジャンル別特化を実現するための微調整の活用を検証した。
人間の音楽に類似した評価を受けるAI生成の抜粋はいくつかあったが、聴取者は人間の作曲を好んだ。
テーマ分析は、ジャンルとAIと人間の区別の主な特徴を特定した。
最後に,MIR研究における音楽データ多様性の促進に向けた我々の研究の倫理的意義について考察する。
Generative AI models have recently blossomed, significantly impacting artistic and musical traditions. Research investigating how humans interact with and deem these models is therefore crucial. Through a listening and reflection study, we explore participants' perspectives on AI- vs human-generated progressive metal, in symbolic format, using rock music as a control group. AI-generated examples were produced by ProgGP, a Transformer-based model. We propose a mixed methods approach to assess the effects of generation type (human vs. AI), genre (progressive metal vs. rock), and curation process (random vs. cherry-picked). This combines quantitative feedback on genre congruence, preference, creativity, consistency, playability, humanness, and repeatability, and qualitative feedback to provide insights into listeners' experiences. A total of 32 progressive metal fans completed the study. Our findings validate the use of fine-tuning to achieve genre-specific specialization in AI music generation, as listeners could distinguish between AI-generated rock and progressive metal. Despite some AI-generated excerpts receiving similar ratings to human music, listeners exhibited a preference for human compositions. Thematic analysis identified key features for genre and AI vs. human distinctions. Finally, we consider the ethical implications of our work in promoting musical data diversity within MIR research by focusing on an under-explored genre. | 翻訳日:2024-08-01 12:27:41 公開日:2024-07-31 |
# EZSR:イベントベースのゼロショット認識
EZSR: Event-based Zero-Shot Recognition ( http://arxiv.org/abs/2407.21616v1 ) ライセンス: Link先を確認 | Yan Yang, Liyuan Pan, Dongxu Li, Liu Liu, | (参考訳) 本稿では,イベントカメラデータを用いたゼロショット物体認識について検討する。
既存のアプローチでは,イベントエンコーダでエンコードされたイベントデータと,CLIP画像エンコーダでエンコードされたRGBイメージとの類似性を最大化することにより,ゼロショットオブジェクト認識を実現する。
あるいは、CLIP画像エンコーダのイベントデータからRGBフレーム再構成を学ぶ方法もある。
しかし、これらのアプローチは、しばしば準最適ゼロショット性能をもたらす。
本研究では,イベントエンコーダを追加の再構成ネットワークに頼ることなく開発する。
グローバルな類似性に基づく目的(つまり、埋め込み類似性を最大化する)は、学習したイベント埋め込み空間とCLIPテキスト埋め込み空間とのセマンティックなミスアライメントを引き起こす。
問題を緩和するために、スカラーワイドな正規化戦略を検討する。
さらに、トレーニング用イベント数とRGBデータペアのスケールアップのために、静的なRGB画像からイベントデータを合成するためのパイプラインも提案する。
提案手法は,従来の教師付き学習手法と比較して,広範囲な標準ベンチマークデータセットにおいて,より優れたゼロショットオブジェクト認識性能を実現する。
例えば、N-ImageNetデータセットで47.84%のゼロショット精度を達成する。
This paper studies zero-shot object recognition using event camera data. Guided by CLIP, which is pre-trained on RGB images, existing approaches achieve zero-shot object recognition by maximizing embedding similarities between event data encoded by an event encoder and RGB images encoded by the CLIP image encoder. Alternatively, several methods learn RGB frame reconstructions from event data for the CLIP image encoder. However, these approaches often result in suboptimal zero-shot performance. This study develops an event encoder without relying on additional reconstruction networks. We theoretically analyze the performance bottlenecks of previous approaches: global similarity-based objective (i.e., maximizing the embedding similarities) cause semantic misalignments between the learned event embedding space and the CLIP text embedding space due to the degree of freedom. To mitigate the issue, we explore a scalar-wise regularization strategy. Furthermore, to scale up the number of events and RGB data pairs for training, we also propose a pipeline for synthesizing event data from static RGB images. Experimentally, our data synthesis strategy exhibits an attractive scaling property, and our method achieves superior zero-shot object recognition performance on extensive standard benchmark datasets, even compared with past supervised learning approaches. For example, we achieve 47.84% zero-shot accuracy on the N-ImageNet dataset. | 翻訳日:2024-08-01 12:27:41 公開日:2024-07-31 |
# 衝突型量子温度測定における情報流強調精度
Information flow-enhanced precision in collisional quantum thermometry ( http://arxiv.org/abs/2407.21618v1 ) ライセンス: Link先を確認 | Taysa M. Mendonça, Diogo O. Soares-Pinto, Mauro Paternostro, | (参考訳) 多層衝突モデルに基づいて量子温度計を記述・解析する。
提案アーキテクチャは, 温度計と探査対象システムとの間の短時間の相互作用時間, 少数の情報獲得衝突に対して, 高い感度を提供する。
層状温度計内およびシステムと温度計間の情報の流れの評価により,情報相互の逆流の調整が温度測定の精度に肯定的な影響を及ぼし,提案アーキテクチャの動作原理の背後にある情報理論のメカニズムを明らかにするのに役立つことが明らかになった。
We describe and analyze a quantum thermometer based on a multi-layered collisional model. The proposed architecture provides significant sensitivity even for short interaction times between the ancillae comprised in the thermometer and the system to be probed, and a small number of information-acquiring collisions. The assessment of the flow of information taking place within the layered thermometer and between system and thermometer reveals that the tuning of the mutual backflow of information has a positive influence on the precision of thermometry, and helps unveiling the information-theoretic mechanisms behind the working principles of the proposed architecture. | 翻訳日:2024-08-01 12:27:41 公開日:2024-07-31 |
# 局所微分プライバシー下における空間データのグリッドによる分解
Grid-Based Decompositions for Spatial Data under Local Differential Privacy ( http://arxiv.org/abs/2407.21624v1 ) ライセンス: Link先を確認 | Berkay Kemal Balioglu, Alireza Khodaie, Ameer Taweel, Mehmet Emre Gursoy, | (参考訳) ローカルディファレンシャルプライバシ(LDP)は、最近、一般的なプライバシ標準として登場した。
LDPの普及に伴い、近年のいくつかの研究が空間データにLDPを適用し、グリッドベースの分解はDPとLDPの下での空間データの収集と解析において一般的なビルディングブロックとなっている。
本稿では,LDPの下での空間データに対するグリッドを用いた3つの分解手法について検討する。
UGは、等サイズの細胞からなる静的なアプローチである。
データ依存分解を可能にするため、PrivAGはYangらによって最新の適応格子法として提案された。
本稿では,適応格子の最先端化に向けて,Advanced Adaptive Grid (AAG) 法を提案する。
各格子細胞について、細胞の内部密度分布が隣人によって影響を受けるという直感に続いて、AAGは隣人の細胞密度に応じて不均一な細胞分裂を行う。
UG,PrivAG,AAGの3つの実世界の位置情報データセット,さまざまなプライバシ予算,クエリサイズを実験的に比較した。
その結果,AAGはPrivAGよりも有効性が高く,提案手法の優位性を示している。
さらに、UGの性能はグリッドサイズの選択に大きく依存している。
グリッドサイズがUGで最適に選択されると、AAGは小さなクエリでUGに勝るが、UGは大きな(粗い)クエリでAAGに勝る。
Local differential privacy (LDP) has recently emerged as a popular privacy standard. With the growing popularity of LDP, several recent works have applied LDP to spatial data, and grid-based decompositions have been a common building block in the collection and analysis of spatial data under DP and LDP. In this paper, we study three grid-based decomposition methods for spatial data under LDP: Uniform Grid (UG), PrivAG, and AAG. UG is a static approach that consists of equal-sized cells. To enable data-dependent decomposition, PrivAG was proposed by Yang et al. as the most recent adaptive grid method. To advance the state-of-the-art in adaptive grids, in this paper we propose the Advanced Adaptive Grid (AAG) method. For each grid cell, following the intuition that the cell's intra-cell density distribution will be affected by its neighbors, AAG performs uneven cell divisions depending on the neighboring cells' densities. We experimentally compare UG, PrivAG, and AAG using three real-world location datasets, varying privacy budgets, and query sizes. Results show that AAG provides higher utility than PrivAG, demonstrating the superiority of our proposed approach. Furthermore, UG's performance is heavily dependent on the choice of grid size. When the grid size is chosen optimally in UG, AAG still beats UG for small queries, but UG beats AAG for large (coarse-grained) queries. | 翻訳日:2024-08-01 12:27:41 公開日:2024-07-31 |
# RoadFormer+: 大規模情報デカップリングと高度不均一特徴融合によるRGB-Xシーンの構文解析
RoadFormer+: Delivering RGB-X Scene Parsing through Scale-Aware Information Decoupling and Advanced Heterogeneous Feature Fusion ( http://arxiv.org/abs/2407.21631v1 ) ライセンス: Link先を確認 | Jianxin Huang, Jiahang Li, Ning Jia, Yuxiang Sun, Chengju Liu, Qijun Chen, Rui Fan, | (参考訳) タスク固有のデータ融合ネットワークは、都市景観解析において大きな成果を上げている。
これらのネットワークの中で,最近提案したRoadFormerは,RGB画像と表面正規マップから異種特徴を抽出し,注意機構を通じてそれらの特徴を融合させ,RGB-Normal道路シーン解析において有意義な有効性を示す。
しかし、他のタイプのデータやソースを扱う場合や、より普遍的でオールカテゴリのシーン解析タスクを実行する場合、その性能は著しく低下する。
これらの制限を克服するために、RoadFormer+は効率的で堅牢で適応可能なモデルであり、RGB-Xデータを効果的に融合させることができる。
具体的には、異種特徴を抽出し、それらをグローバルおよびローカルなコンポーネントに分離するハイブリッド機能デカップリングエンコーダを提案する。
これらの分離された機能は、並列トランスフォーマーの注意と畳み込みニューラルネットワークモジュールを使用して、異なるスケールと受容フィールドにまたがるマルチスケールの機能をマージする、デュアルブランチのマルチスケールの異種機能融合ブロックを通じて融合される。
融合した特徴はその後デコーダに入力され、最終的な意味予測を生成する。
特に,提案した RoadFormer+ は KITTI Road ベンチマークで第1位であり,Cityscapes,MFNet,FMB,ZJU のデータセット上での結合平均で最先端のパフォーマンスを達成している。
さらに、RoadFormerと比較して学習可能なパラメータの数を65\%削減します。
私たちのソースコードは mias.group/RoadFormerPlus で公開されます。
Task-specific data-fusion networks have marked considerable achievements in urban scene parsing. Among these networks, our recently proposed RoadFormer successfully extracts heterogeneous features from RGB images and surface normal maps and fuses these features through attention mechanisms, demonstrating compelling efficacy in RGB-Normal road scene parsing. However, its performance significantly deteriorates when handling other types/sources of data or performing more universal, all-category scene parsing tasks. To overcome these limitations, this study introduces RoadFormer+, an efficient, robust, and adaptable model capable of effectively fusing RGB-X data, where ``X'', represents additional types/modalities of data such as depth, thermal, surface normal, and polarization. Specifically, we propose a novel hybrid feature decoupling encoder to extract heterogeneous features and decouple them into global and local components. These decoupled features are then fused through a dual-branch multi-scale heterogeneous feature fusion block, which employs parallel Transformer attentions and convolutional neural network modules to merge multi-scale features across different scales and receptive fields. The fused features are subsequently fed into a decoder to generate the final semantic predictions. Notably, our proposed RoadFormer+ ranks first on the KITTI Road benchmark and achieves state-of-the-art performance in mean intersection over union on the Cityscapes, MFNet, FMB, and ZJU datasets. Moreover, it reduces the number of learnable parameters by 65\% compared to RoadFormer. Our source code will be publicly available at mias.group/RoadFormerPlus. | 翻訳日:2024-08-01 12:27:41 公開日:2024-07-31 |
# 大きな条件数を持つシステムにおけるHHLアルゴリズムの強化
Enhancing the Harrow-Hassidim-Lloyd (HHL) algorithm in systems with large condition numbers ( http://arxiv.org/abs/2407.21641v1 ) ライセンス: Link先を確認 | Peniel Bertrand Tsemo, Akshaya Jayashankar, K. Sugisaki, Nishanth Baskaran, Sayan Chakraborty, V. S. Prasannaa, | (参考訳) HHL (Harrow-Hassidim-Lloyd) アルゴリズムは、A$行列の条件数 (\mathcal{\kappa}$) のスケーリングに関連する問題に直面している。
本研究では,HHLアルゴリズムの単純かつ効果的な修正を伴い,|x\rangle$という特徴を抽出し,大条件条件条件に対して$\mathcal{\kappa$(線形スケーリング)の最適動作を実現する,ポストセレクション改良HHL(Psi-HHL)アプローチを導入することでこの問題に対処する。
これは、従来のHHLアルゴリズムと比較してかなり少ないショットを使用する必要があるという重要な実践的意味を持っている。
2組のシミュレーションを行い、26量子ビットの計算を行い、Psi-HHLが大きな$\mathcal{\kappa}$行列を扱えることを示す。
(a)おもちゃの行列のセットで、64ドルと$\mathcal{\kappaの64ドルと$\mathcal{\kappaの値が最大$\approx$100M(100万ドル)になる。
b) 量子化学の深い研究で、行列は最大で256 \times 256$で、$\mathcal{\kappa} は約466である。
私たちが考える分子系は、Li$_{\mathrm{2}}$, RbH, CsHである。
私たちの例では、|x\rangle$ の特徴は HHL アルゴリズムの入力状態と出力状態の重複であるが、我々のアプローチは一般的であり、|x\rangle$ を含む任意の遷移行列要素に原理的に適用することができる。
Although the Harrow-Hassidim-Lloyd (HHL) algorithm offers an exponential speedup in system size for treating linear equations of the form $A\vec{x}=\vec{b}$ on quantum computers when compared to their traditional counterparts, it faces a challenge related to the condition number ($\mathcal{\kappa}$) scaling of the $A$ matrix. In this work, we address the issue by introducing the post-selection-improved HHL (Psi-HHL) approach that involves a simple yet effective modification of the HHL algorithm to extract a feature of $|x\rangle$, and which leads to achieving optimal behaviour in $\mathcal{\kappa}$ (linear scaling) for large condition number situations. This has the important practical implication of having to use substantially fewer shots relative to the traditional HHL algorithm. We carry out two sets of simulations, where we go up to 26-qubit calculations, to demonstrate the ability of Psi-HHL to handle situations involving large $\mathcal{\kappa}$ matrices via: (a) a set of toy matrices, for which we go up to size $64 \times 64$ and $\mathcal{\kappa}$ values of up to $\approx$ 1 million, and (b) a deep-dive into quantum chemistry, where we consider matrices up to size $256 \times 256$ that reach $\mathcal{\kappa}$ of about 466. The molecular systems that we consider are Li$_{\mathrm{2}}$, RbH, and CsH. Although the feature of $|x\rangle$ considered in our examples is an overlap between the input and output states of the HHL algorithm, our approach is general and can be applied in principle to any transition matrix element involving $|x\rangle$. | 翻訳日:2024-08-01 12:27:41 公開日:2024-07-31 |
# 相関関数の緩和ゆらぎ:スピンおよびランダム行列モデル
Relaxation Fluctuations of Correlation Functions: Spin and Random Matrix Models ( http://arxiv.org/abs/2407.21644v1 ) ライセンス: Link先を確認 | Tanay Pathak, | (参考訳) スペクトル統計と相関は、量子系における量子カオスの有無を研究する通常の方法である。
本稿では,量子カオスの診断尺度として,ある相関関数の変動平均と分散について検討し,それに基づいて量子システムを特徴づける可能性について述べる。
これらの量は固有ベクトル分布と固有ベクトル相関と関連している。
ランダム行列理論(Random Matrix Theory)を用いて、ガウス直交アンサンブルの場合、これらの量のある解析的表現を以前に計算した。
最初のステップとして、ガウスユニタリアンサンブルの場合のこれらの量について数値的に検討し、同じ解析結果を導出する。
次に、混合フィールドイジングモデルなどの物理システムに関する調査を行う。
このモデルでは、固有値統計は対応するランダム行列の挙動に従うが、これらの相関関数のゆらぎ平均と分散は予測されたランダム行列理論の挙動から逸脱する。
次に、ガウス直交アンサンブルとガウスユニタリアンサンブル型のローゼンツヴァイク・ポーターモデルに焦点をあてる。
これらの相関関係のゆらぎ平均と分散を用いて、エルゴード、フラクタル、局在相の3つの異なる位相を同定する。
量子カオスを特徴づける代替手段として,これらの相関ゆらぎの利用をしっかりと確立する。
Spectral statistics and correlations are the usual way to study the presence or absence of quantum chaos in quantum systems. We present our investigation on the study of the fluctuation average and variance of certain correlation functions as a diagnostic measure of quantum chaos and to possibly characterize quantum systems based on it. These quantities are related to eigenvector distribution and eigenvector correlation. Using the Random Matrix Theory certain analytical expressions of these quantities, for the Gaussian orthogonal ensemble case, were calculated before. So as a first step, we study these quantities for the Gaussian unitary ensemble case numerically, and deduce certain analytical results for the same. We then carry out our investigations in physical system, such as the mixed-field Ising model. For this model, we find that although the eigenvalue statistics follow the behaviour of corresponding random matrices, the fluctuation average and variance of these correlation functions deviate from the expected random matrix theory behaviour. We then turn our focus on the Rosenzweig-Porter model of the Gaussian Orthogonal Ensemble and Gaussian Unitary Ensemble types. By using the fluctuation average and variance of these correlations, we identify the three distinct phases of these models: the ergodic, the fractal, and the localized phases. We provide an alternative way to study and distinguish the three phases and firmly establish the use of these correlation fluctuations as an alternative way to characterize quantum chaos. | 翻訳日:2024-08-01 12:27:41 公開日:2024-07-31 |
# MTA-CLIP:マスクテキストアライメントによる言語誘導セマンティックセマンティックセグメンテーション
MTA-CLIP: Language-Guided Semantic Segmentation with Mask-Text Alignment ( http://arxiv.org/abs/2407.21654v1 ) ライセンス: Link先を確認 | Anurag Das, Xinting Hu, Li Jiang, Bernt Schiele, | (参考訳) 近年、CLIPのような大規模視覚言語モデルではセマンティックセグメンテーションの性能が向上することが示されている。
これらの手法は一般的にピクセルレベルの視覚言語アライメントを目標としているが、しばしばCLIPの低解像度画像機能に依存しており、その結果境界に沿ったクラス曖昧さが生じる。
さらに、CLIPテキスト埋め込みにおけるグローバルなシーン表現は、局所的および詳細なピクセルレベルの特徴と直接相関しないため、意味のあるアライメントがより困難になる。
マスクレベルの視覚言語アライメントを用いた新しいフレームワークであるMTA-CLIPを導入する。
具体的には,CLIP言語モデルを用いたリッチテキストデータを用いてマスク表現を強化するMask-Text Decoderを提案する。
その後、マスクからテキストへのコントラスト学習を用いて、マスク表現とテキスト埋め込みを連携させる。
さらに,MaskText Prompt Learningを導入し,複数のコンテキスト固有のプロンプトを用いてテキスト埋め込みを行い,マスク間の多様なクラス表現をキャプチャする。
全体として、MTA-CLIPは最先端を達成し、標準ベンチマークデータセット、ADE20k、Cityscapesでそれぞれ平均2.8%、平均1.3%の先行作業を上回っている。
Recent approaches have shown that large-scale vision-language models such as CLIP can improve semantic segmentation performance. These methods typically aim for pixel-level vision-language alignment, but often rely on low resolution image features from CLIP, resulting in class ambiguities along boundaries. Moreover, the global scene representations in CLIP text embeddings do not directly correlate with the local and detailed pixel-level features, making meaningful alignment more difficult. To address these limitations, we introduce MTA-CLIP, a novel framework employing mask-level vision-language alignment. Specifically, we first propose Mask-Text Decoder that enhances the mask representations using rich textual data with the CLIP language model. Subsequently, it aligns mask representations with text embeddings using Mask-to-Text Contrastive Learning. Furthermore, we introduce MaskText Prompt Learning, utilizing multiple context-specific prompts for text embeddings to capture diverse class representations across masks. Overall, MTA-CLIP achieves state-of-the-art, surpassing prior works by an average of 2.8% and 1.3% on on standard benchmark datasets, ADE20k and Cityscapes, respectively. | 翻訳日:2024-08-01 12:27:41 公開日:2024-07-31 |
# DBN後処理なしでの正確なビートトラッキング
Beat this! Accurate beat tracking without DBN postprocessing ( http://arxiv.org/abs/2407.21658v1 ) ライセンス: Link先を確認 | Francesco Foscarin, Jan Schlüter, Gerhard Widmer, | (参考訳) 本研究では,多種多様な音楽範囲にまたがる一般性と高精度の2つの目標を用いて,ビートとダウンビートを追跡するシステムを提案する。
我々は,複数のデータセット(ソロ楽器録音,時間変化のある曲,テンポ変化の高いクラシック音楽など)をトレーニングし,一般的な動的ベイズネットワーク(DBN)ポストプロセッシングを取り除き,メーターとテンポの制約を導入することで,汎用性を実現する。
高精度化のために、アノテーションの小さな時間シフトに耐性のあるロス関数を開発し、周波数や時間とともに変換器と畳み込みを交互に行うアーキテクチャを開発した。
本システムはDBNを使用しないにもかかわらずF1スコアの最先端を超越している。
しかし、特に難解で表現不足なジャンルでは失敗する可能性があり、継続性メトリクスが悪化しているため、私たちはモデル、コード、前処理されたデータセットを公開し、他の人にこれを打ち負かそうとしています。
We propose a system for tracking beats and downbeats with two objectives: generality across a diverse music range, and high accuracy. We achieve generality by training on multiple datasets -- including solo instrument recordings, pieces with time signature changes, and classical music with high tempo variations -- and by removing the commonly used Dynamic Bayesian Network (DBN) postprocessing, which introduces constraints on the meter and tempo. For high accuracy, among other improvements, we develop a loss function tolerant to small time shifts of annotations, and an architecture alternating convolutions with transformers either over frequency or time. Our system surpasses the current state of the art in F1 score despite using no DBN. However, it can still fail, especially for difficult and underrepresented genres, and performs worse on continuity metrics, so we publish our model, code, and preprocessed datasets, and invite others to beat this. | 翻訳日:2024-08-01 12:27:41 公開日:2024-07-31 |
# 医療における経時的ウェアラブルセンサデータ分析のための計算モデルの現状
A State-of-the-Art Review of Computational Models for Analyzing Longitudinal Wearable Sensor Data in Healthcare ( http://arxiv.org/abs/2407.21665v1 ) ライセンス: Link先を確認 | Paula Lago, | (参考訳) ウェアラブルデバイスは、彼らが収集する行動や生理的なデータの連続的な流れが、日々の状況における私たちの健康についての洞察を提供するため、生物医学研究のツールとしてますます使われています。
長期追跡は、数ヶ月のタイムスケールで定義されており、健康変化の指標としてパターンや変化の洞察を与えることができる。
これらの洞察は、医療と医療をより予測し、予防し、パーソナライズし、参加させる(The 4P's)。
しかし, 縦断的データのモデリング, 理解, 処理の課題は, 研究研究や臨床現場における採用にとって大きな障壁となる。
本稿では,時系列データ(ルーチン,リズム,安定性指標)の理解に使用される3つのモデルについて検討し,考察する。
本稿では,縦型ウェアラブルセンサデータの処理と解析に関わる課題について述べる。
次に、現在の制限について議論し、今後の作業の方向性を特定します。
本総説は,広範医療における縦型センサデータのモデリングと解析の進歩に欠かせないものである。
Wearable devices are increasingly used as tools for biomedical research, as the continuous stream of behavioral and physiological data they collect can provide insights about our health in everyday contexts. Long-term tracking, defined in the timescale of months of year, can provide insights of patterns and changes as indicators of health changes. These insights can make medicine and healthcare more predictive, preventive, personalized, and participative (The 4P's). However, the challenges in modeling, understanding and processing longitudinal data are a significant barrier to their adoption in research studies and clinical settings. In this paper, we review and discuss three models used to make sense of longitudinal data: routines, rhythms and stability metrics. We present the challenges associated with the processing and analysis of longitudinal wearable sensor data, with a special focus on how to handle the different temporal dynamics at various granularities. We then discuss current limitations and identify directions for future work. This review is essential to the advancement of computational modeling and analysis of longitudinal sensor data for pervasive healthcare. | 翻訳日:2024-08-01 12:17:56 公開日:2024-07-31 |
# 長距離拡張Dzyaloshinskii-Moriya相互作用による相関の緩やかな崩壊速度
Slow decay rate of correlations induced by long-range extended Dzyaloshinskii-Moriya interactions ( http://arxiv.org/abs/2407.21668v1 ) ライセンス: Link先を確認 | Tanoy Kanti Konar, Leela Ganesh Chandra Lakkaraju, Aditi Sen De, | (参考訳) 拡張XYモデルにおける長距離ジアロシンスキー・モリヤ相互作用が位相図および量子および古典的相関関数の静的および動的性質に及ぼす影響について検討する。
DM相互作用を伴う近傍XYモデルでは、DM相互作用と異方性の強度が一致するときに、ギャップのないキラル相からギャップ付き相への遷移が発生することが知られている。
臨界線は、パワー・ローに従って減衰する相互作用の範囲で修正されることを示す。
具体的には、強いDM相互作用の存在下でギャップレスである代わりに、横磁場の存在下での中間降下速度(準長距離状態)の増加に伴って成長するギャップ付き領域が出現する。
ギャップレスキラル相は、量子的相互情報の崩壊パターンと、ギャップレスゾーンの崩壊速度に依存しない基底状態の遠い場所との古典的相関により、ギャップレス相から分離することもできる。
転倒速度に依存する臨界線は, 絡み合いエントロピーのスケーリングに係わる有効中心電荷から決定できる。
非平衡条件下では、古典的相関の緩和力学、全相関の崩壊速度、およびエンタングルメントエントロピーの成長速度を用いて、初期状態に対応するハミルトンとハミルトンがギャップを持つかギャップのないかを明らかにすることができる。
We examine the impact of long-range Dzyaloshinskii-Moriya (DM) interaction in the extended XY model on the phase diagram as well as the static and dynamical properties of quantum and classical correlation functions. It is known that in the nearest-neighbor XY model with DM interaction, the transition from the gapless chiral phase to a gapped one occurs when the strengths of the DM interaction and anisotropy coincide. We exhibit that the critical line gets modified with the range of interactions which decay according to power-law. Specifically, instead of being gapless in the presence of a strong DM interaction, a gapped region emerges which grows with the increase of the moderate fall-off rate (quasi-long range regime) in the presence of a transverse magnetic field. The gapless chiral phase can also be separated from a gapped one by the decay patterns of quantum mutual information and classical correlation with distant sites of the ground state which are independent of the fall-off rate in the gapless zone. We observe that the corresponding critical lines that depend on the fall-off rate can also be determined from the effective central charge involved in the scaling of entanglement entropy. We illustrate that in a non-equilibrium setting, the relaxation dynamics of classical correlation, the decay rate of total correlation, and the growth rate of entanglement entropy can be employed to uncover whether the evolving Hamiltonian and the Hamiltonian corresponding to the initial state are gapped or gapless. | 翻訳日:2024-08-01 12:17:56 公開日:2024-07-31 |
# ライドバーグ格子の均一磁束
Homogeneous Magnetic Flux in Rydberg Lattices ( http://arxiv.org/abs/2407.21681v1 ) ライセンス: Link先を確認 | Joseph Eix, Rukmani Bai, Thierry Lahaye, Antoine Browaeys, Hans Peter Büchler, Sebastian Weber, | (参考訳) 本稿では,Rydberg原子を用いた格子内のボゾン粒子の均一磁束と可変磁束を生成する方法を提案する。
我々のセットアップは、双極子交換相互作用によって格子をホッピングするリドバーグ励起に依存している。
磁束は、アンシラ原子による複雑なホッピングから生じる。
注目すべきことに、磁気単位セル内の全フラックスは直接、格子部位のアシラ原子への比に依存するため、原子の位置の小さな変化に対して位相的に保護される。
これにより、アシラ原子の位置を最適化して磁束を均一にすることができる。
この均一なフラックスにより、一粒子状態において位相的平坦なバンドが得られる。
多体系では、ボゾン分数チャーン絶縁体の状態を$\nu = 1/2$で表す。
We present a method for generating homogeneous and tunable magnetic flux for bosonic particles in a lattice using Rydberg atoms. Our setup relies on Rydberg excitations hopping through the lattice by dipolar exchange interactions. The magnetic flux arises from complex hopping via ancilla atoms. Remarkably, the total flux within a magnetic unit cell directly depends on the ratio of the number of lattice sites to ancilla atoms, making it topologically protected to small changes in the positions of the atoms. This allows us to optimize the positions of the ancilla atoms to make the flux through the magnetic unit cell homogeneous. With this homogeneous flux, we get a topological flat band in the single-particle regime. In the many-body regime, we obtain indications of a bosonic fractional Chern insulator state at $\nu = 1/2$ filling. | 翻訳日:2024-08-01 12:17:56 公開日:2024-07-31 |
# 表現的全体3次元ガウスアバター
Expressive Whole-Body 3D Gaussian Avatar ( http://arxiv.org/abs/2407.21686v1 ) ライセンス: Link先を確認 | Gyeongsik Moon, Takaaki Shiratori, Shunsuke Saito, | (参考訳) 表情と手の動きは、私たちの感情を表現し、世界と対話するために必要です。
それにもかかわらず、カジュアルにキャプチャーされたビデオからモデル化された3D人間のアバターのほとんどは、表情や手の動きを伴わない身体の動きしかサポートしていない。
本研究では,全体パラメトリックメッシュモデル(SMPL-X)と3次元ガウススプラッティング(3DGS)の組み合わせとしてExAvatarを設計する。
主な課題は
1)ビデオにおける表情とポーズの多様性の限定
2)3DスキャンやRGBD画像などの3D観察の欠如。
動画の多様性は限られており、新しい表情でアニメーションを作り、非自明なポーズをとっています。
さらに、3Dの観察がないことは、ビデオに映っていない人間の部分に大きな曖昧さを生じさせ、新しい動きの下で顕著な成果をもたらす可能性がある。
これらの問題に対処するために,メッシュと3Dガウスのハイブリッド表現を紹介した。
我々のハイブリッド表現は、SMPL-Xのメッシュトポロジーに従って、各3次元ガウスを予め定義された接続情報(三角形面)を持つ頂点として扱う。
SMPL-Xの表情空間を駆使して,ExAvatarに新しい表情を付与する。
さらに,接続型正規化器を用いることで,新しい表情やポーズのアーティファクトを大幅に削減する。
Facial expression and hand motions are necessary to express our emotions and interact with the world. Nevertheless, most of the 3D human avatars modeled from a casually captured video only support body motions without facial expressions and hand motions.In this work, we present ExAvatar, an expressive whole-body 3D human avatar learned from a short monocular video. We design ExAvatar as a combination of the whole-body parametric mesh model (SMPL-X) and 3D Gaussian Splatting (3DGS). The main challenges are 1) a limited diversity of facial expressions and poses in the video and 2) the absence of 3D observations, such as 3D scans and RGBD images. The limited diversity in the video makes animations with novel facial expressions and poses non-trivial. In addition, the absence of 3D observations could cause significant ambiguity in human parts that are not observed in the video, which can result in noticeable artifacts under novel motions. To address them, we introduce our hybrid representation of the mesh and 3D Gaussians. Our hybrid representation treats each 3D Gaussian as a vertex on the surface with pre-defined connectivity information (i.e., triangle faces) between them following the mesh topology of SMPL-X. It makes our ExAvatar animatable with novel facial expressions by driven by the facial expression space of SMPL-X. In addition, by using connectivity-based regularizers, we significantly reduce artifacts in novel facial expressions and poses. | 翻訳日:2024-08-01 12:17:56 公開日:2024-07-31 |
# ツイルド世界--対称性によるトモグラフィーの局所性の失敗-
Twirled worlds: symmetry-induced failures of tomographic locality ( http://arxiv.org/abs/2407.21688v1 ) ライセンス: Link先を確認 | Daniel Centeno, Marco Erba, David Schmid, John H. Selby, Robert W. Spekkens, Sina Soltani, Jacopo Surace, Alex Wilce, Yìlè Yīng, | (参考訳) トモグラフィーの局所性(英: Tomography locality)は、考えられる理論の風景の中で量子論を選ぶ公理を見つけるプログラムで一般的に用いられる原理である。
この原理は、任意の二部体のトモグラフィー特性を達成するための局所測定の十分性を主張している。
本研究では,この原理に反する多種多様な理論を生成するための簡単なスキームを開発することで,トモグラフィー的局所性の原理の意味を探求する。
このスキームでは、トモグラフィ的局所理論(古典的、量子的、後量子的)と物理対称性から始まり、理論の過程は、その対称性に関して共変であるものすべてとのみに制限される。
得られた理論を、ツワール世界(twirled worlds)と呼ぶ。
トモグラフィー・ローカリティの失敗は、ツワール世界において至るところで見られる。
古典的ツワール世界におけるそのような失敗の可能性から、トモグラフィー的局所性(トモグラフィ的非局所性)の失敗は、オントロジカルホリズムを含まないと論じる。
また, 量子論を公理化して, 基本的地位を持つ超選択規則が存在するかどうかを論じる研究者の必要性も示した。
Tomographic locality is a principle commonly used in the program of finding axioms that pick out quantum theory within the landscape of possible theories. The principle asserts the sufficiency of local measurements for achieving a tomographic characterization of any bipartite state. In this work, we explore the meaning of the principle of tomographic locality by developing a simple scheme for generating a wide variety of theories that violate the principle. In this scheme, one starts with a tomographically local theory -- which can be classical, quantum or post-quantum -- and a physical symmetry, and one restricts the processes in the theory to all and only those that are covariant with respect to that symmetry. We refer to the resulting theories as twirled worlds. We show that failures of tomographic locality are ubiquitous in twirled worlds. From the possibility of such failures in classical twirled worlds, we argue that the failure of tomographic locality (i.e., tomographic nonlocality) does not imply ontological holism. Our results also demonstrate the need for researchers seeking to axiomatize quantum theory to take a stand on the question of whether there are superselection rules that have a fundamental status. | 翻訳日:2024-08-01 12:17:56 公開日:2024-07-31 |
# 暗黒物質候補検出のためのSQUID
SQUIDs for detection of potential dark matter candidates ( http://arxiv.org/abs/2407.21689v1 ) ライセンス: Link先を確認 | Siddarth Sivakumar, Manan Agarwal, Hannah Rana, | (参考訳) 超伝導QUantum Interference Devices (SQUID) は、非常に感度の高い磁束センサであり、広範囲の機器で有用である。
SQUIDは、定量的な洞察を得るための読み出し機構として、他の検出器と組み合わせられることが多い。
SQUIDは多くの分野に影響を与えているが、基礎物理学の分野、特に暗黒物質探索における影響はより少ない。
ダークマターは宇宙の全質量エネルギーの約27%を占め、宇宙の大規模構造を理解するための重要な洞察を与えると考えられている。
アクシオンとWIMPは2つのダークマター候補であり、SQUIDの読み出しによって探索が加速されている。
Superconducting QUantum Interference Devices (SQUIDs) are extremely sensitive magnetic flux sensors which render them useful in a wide array of instrumentation. SQUIDs are often paired with other detectors as a readout mechanism to obtain quantitative insight. SQUIDs have impacted many fields but much less addressed is its impact on the field of fundamental physics, particularly in the search for dark matter. Dark matter is believed to make up around 27% of all mass-energy content of the universe and will provide critical insight into understanding large-scale structures of the universe. Axions and WIMPs are the prominent two dark matter candidates whose search has been fueled by the usage of SQUID read-outs. | 翻訳日:2024-08-01 12:17:56 公開日:2024-07-31 |
# 量子多体状態におけるランダウアーの原理の実験的証明
Experimentally probing Landauer's principle in the quantum many-body regime ( http://arxiv.org/abs/2407.21690v1 ) ライセンス: Link先を確認 | Stefan Aimet, Mohammadamin Tajik, Gabrielle Tournaire, Philipp Schüttelkopf, João Sabino, Spyros Sotiriadis, Giacomo Guarnieri, Jörg Schmiedmayer, Jens Eisert, | (参考訳) ランダウアーの原理は、プロセス中のシステムのエントロピー変化と、その環境に放出される平均エネルギーを結びつけることによって、情報理論と熱力学を橋渡しする。
典型的には1ビットの情報を消去する文脈で議論されるが、ランダウアーの原理は複雑な量子多体系を含むような非平衡過程における不可逆性を特徴づけるために一般化することができる。
具体的には、システムのエントロピー変化と環境に放出されるエネルギーの関係を、量子的相互情報の変化と環境の相対エントロピーの差に分解することができる。
ここでは、超低温ボース気体の量子場シミュレータを用いて、量子多体状態におけるランダウアーの原理を実験的に探索する。
動的トモグラフィー再構成法を用いて,Klein-Gordon から Tomonaga-Luttinger 液体モデルへの大域的質量クエンチに続く量子場の時間的進化を追跡し,複合系の様々な環境分割に対するランダウアーの原理に対する情報理論的貢献を分析する。
本結果は,半古典的準粒子像を用いて解釈した理論的予測と一致する。
我々の研究は、量子熱力学を実験的に研究するための超低温原子系量子場シミュレータの可能性を示す。
Landauer's principle bridges information theory and thermodynamics by linking the entropy change of a system during a process to the average energy dissipated to its environment. Although typically discussed in the context of erasing a single bit of information, Landauer's principle can be generalised to characterise irreversibility in out-of-equilibrium processes, such as those involving complex quantum many-body systems. Specifically, the relationship between the entropy change of the system and the energy dissipated to its environment can be decomposed into changes in quantum mutual information and a difference in relative entropies of the environment. Here we experimentally probe Landauer's principle in the quantum many-body regime using a quantum field simulator of ultracold Bose gases. Employing a dynamical tomographic reconstruction scheme, we track the temporal evolution of the quantum field following a global mass quench from a Klein-Gordon to a Tomonaga-Luttinger liquid model and analyse the information-theoretic contributions to Landauer's principle for various system-environment partitions of the composite system. Our results agree with theoretical predictions, interpreted using a semi-classical quasiparticle picture. Our work demonstrates the potential of ultracold atom-based quantum field simulators to experimentally investigate quantum thermodynamics. | 翻訳日:2024-08-01 12:17:56 公開日:2024-07-31 |
# プライバシー保護ビデオ分析を用いた実世界授業環境における自閉症スペクトラム障害の干渉・高リスク行動の定量化のための説明可能な人工知能
Explainable Artificial Intelligence for Quantifying Interfering and High-Risk Behaviors in Autism Spectrum Disorder in a Real-World Classroom Environment Using Privacy-Preserving Video Analysis ( http://arxiv.org/abs/2407.21691v1 ) ライセンス: Link先を確認 | Barun Das, Conor Anderson, Tania Villavicencio, Johanna Lantz, Jenny Foster, Theresa Hamlin, Ali Bahrami Rad, Gari D. Clifford, Hyeokhyen Kwon, | (参考訳) 攻撃性,自己傷害,破壊,制限された反復行動など,ASDにおける干渉行動と高リスク行動の迅速かつ正確な文書化は,介入効果の追跡とケアニーズ管理のための適切なリソース配分のために,日々の教室環境において重要である。
しかし、観察専用のスタッフを持つことは、ほとんどの教育現場では費用がかかり、珍しい。
近年, 機械学習モデルを用いた自動的, 連続的, 客観的ツールの開発について検討している。
しかし,研究の大部分は制御された環境下で行われ,実環境下での検証は行われていない。
本研究では,ビデオに基づくグループ行動認識技術の最新の進歩が,教室環境における実環境における行動におけるASDの行動の定量化に有効であることを実証する。
説明可能なモデルは、77%のF1スコアで問題行動のエピソードを検出し、ASDの異なる種類の行動の特徴を捉えることができる。
我々の知る限りでは、実際の環境でのASDにおける行動の客観的定量化の約束を示す最初の作品であり、教室職員のデータ収集の負担を軽減できる実用的なツールの開発に向けた重要なステップである。
Rapid identification and accurate documentation of interfering and high-risk behaviors in ASD, such as aggression, self-injury, disruption, and restricted repetitive behaviors, are important in daily classroom environments for tracking intervention effectiveness and allocating appropriate resources to manage care needs. However, having a staff dedicated solely to observing is costly and uncommon in most educational settings. Recently, multiple research studies have explored developing automated, continuous, and objective tools using machine learning models to quantify behaviors in ASD. However, the majority of the work was conducted under a controlled environment and has not been validated for real-world conditions. In this work, we demonstrate that the latest advances in video-based group activity recognition techniques can quantify behaviors in ASD in real-world activities in classroom environments while preserving privacy. Our explainable model could detect the episode of problem behaviors with a 77% F1-score and capture distinctive behavior features in different types of behaviors in ASD. To the best of our knowledge, this is the first work that shows the promise of objectively quantifying behaviors in ASD in a real-world environment, which is an important step toward the development of a practical tool that can ease the burden of data collection for classroom staff. | 翻訳日:2024-08-01 12:17:56 公開日:2024-07-31 |
# 分散量子センシングのためのプライベートおよびロバスト状態
Private and Robust States for Distributed Quantum Sensing ( http://arxiv.org/abs/2407.21701v1 ) ライセンス: Link先を確認 | Luís Bugalho, Majid Hassani, Yasser Omar, Damian Markham, | (参考訳) 分散量子センシングにより、空間的に分離されたプローブに符号化された複数のパラメータを推定できる。
従来の量子センシングは最大精度で1つのパラメータを推定することに焦点を当てることが多いが、分散量子センシングは各パーティにのみアクセス可能な複数のパラメータの関数を推定しようとする。
このような設定では、必要以上に多くの情報を与えたくないのは自然なことです。
この問題に対処するために、私たちは、機能に関するプライバシーの概念を使用し、ターゲット機能に関する情報だけがすべてのパーティで利用可能であり、その他の情報がないことを保証します。
我々は、プライバシーの尺度(実際、この条件がどの程度満足しているか)を定義し、そのような尺度の自然に望ましい性質のセットを満たすことを示す。
このプライバシ尺度を用いて、ハミルトンの進化を特徴とする、異なるリソース分布下での特定の関数のプライバシを確保し、動的を符号化する、絡み合ったリソース状態を特定し、構築する。
分離可能かつ平行なハミルトニアンに対しては、GHZ状態がSLOCCまで必要最小限のリソースを持つある種の線型函数の唯一のプライベート状態であることを証明する。
粒子損失に対するこの状態の脆弱性を認識し、追加の資源を組み込むことで、量子ビットの損失に対してさえ堅牢なプライベート状態の族を創出する。
次に、研究結果を異なる資源分布シナリオとハミルトン分布に拡張し、分散量子推定のためのプライベート状態とロバスト状態の包括的集合を導出する。
これらの結果は、マルチパラメータ量子センシングにおけるプライバシーと堅牢性の理解を促進する。
Distributed quantum sensing enables the estimation of multiple parameters encoded in spatially separated probes. While traditional quantum sensing is often focused on estimating a single parameter with maximum precision, distributed quantum sensing seeks to estimate some function of multiple parameters that are only locally accessible for each party involved. In such settings it is natural to not want to give away more information than is necessary. To address this, we use the concept of privacy with respect to a function, ensuring that only information about the target function is available to all the parties, and no other information. We define a measure of privacy (essentially how close we are to this condition being satisfied), and show it satisfies a set of naturally desirable properties of such a measure. Using this privacy measure, we identify and construct entangled resources states that ensure privacy for a given function under different resource distributions and encoding dynamics, characterized by Hamiltonian evolution. For separable and parallel Hamiltonians, we prove that the GHZ state is the only private state for certain linear functions, with the minimum amount of required resources, up to SLOCC. Recognizing the vulnerability of this state to particle loss, we create families of private states, that remain robust even against loss of qubits, by incorporating additional resources. We then extend our findings to different resource distribution scenarios and Hamiltonians, resulting in a comprehensive set of private and robust states for distributed quantum estimation. These results advance the understanding of privacy and robustness in multi-parameter quantum sensing. | 翻訳日:2024-08-01 12:17:56 公開日:2024-07-31 |
# テキストガイド画像編集のためのハイパーパラメータチューニング
Hyper-parameter tuning for text guided image editing ( http://arxiv.org/abs/2407.21703v1 ) ライセンス: Link先を確認 | Shiwen Zhang, | (参考訳) テスト時の微調整テキスト誘導画像編集方法であるForgeditは、入力画像自体とターゲットテキストプロンプトのみに与えられる一般的な複雑な画像編集問題に対処することができる。
微調整の段階では、各画像に対して毎回同じ微調整のハイパーパラメータを使用して、Forgeditは入力イメージを30秒で記憶し、理解する。
編集段階では、Forgeditのワークフローは複雑に思えるかもしれない。
しかし、実際には、Forgeditの編集プロセスは以前のSOTA Imagicほど複雑ではないが、Imagicの過度な問題を完全に解決している。
本稿では、Forgedit編集ステージのワークフローを例に紹介する。
最適な編集結果を得るために,ハイパーパラメータを効率的に調整する方法を示す。
The test-time finetuning text-guided image editing method, Forgedit, is capable of tackling general and complex image editing problems given only the input image itself and the target text prompt. During finetuning stage, using the same set of finetuning hyper-paramters every time for every given image, Forgedit remembers and understands the input image in 30 seconds. During editing stage, the workflow of Forgedit might seem complicated. However, in fact, the editing process of Forgedit is not more complex than previous SOTA Imagic, yet completely solves the overfitting problem of Imagic. In this paper, we will elaborate the workflow of Forgedit editing stage with examples. We will show how to tune the hyper-parameters in an efficient way to obtain ideal editing results. | 翻訳日:2024-08-01 12:17:56 公開日:2024-07-31 |
# Tora:ビデオ生成のための軌道指向拡散変換器
Tora: Trajectory-oriented Diffusion Transformer for Video Generation ( http://arxiv.org/abs/2407.21705v1 ) ライセンス: Link先を確認 | Zhenghao Zhang, Junchao Liao, Menghao Li, Long Qin, Weizhi Wang, | (参考訳) 拡散変換器(DiT)の最近の進歩は,高品質な映像コンテンツの製作に顕著な熟練性を示している。
それでも、制御可能なモーションで映像を効果的に生成するトランスフォーマーベースの拡散モデルの可能性は、探索の限られた領域に留まっている。
本稿では,ビデオ生成のためにテキスト,視覚,軌跡条件を同時に統合した最初のトラジェクトリ指向のDiTフレームワークであるToraを紹介する。
具体的には、トラジェクティブ・エクストラクタ〜(TE)、空間的テンポラル・ディT、モーションガイダンス・フーザー〜(MGF)から構成される。
TEは、任意の軌道を階層的な時空運動パッチに3Dビデオ圧縮ネットワークで符号化する。
MGFは、モーションパッチをDiTブロックに統合し、トラジェクトリに続く一貫したビデオを生成する。
我々の設計はDiTのスケーラビリティとシームレスに一致し、様々な期間、アスペクト比、解像度で映像コンテンツのダイナミクスを正確に制御できる。
広範囲にわたる実験は、Toraが高い動きの忠実さを達成するのに優れており、物理世界の動きを巧みにシミュレートしていることを示している。
Pageはhttps://ali-videoai.github.io/tora_videoで見ることができる。
Recent advancements in Diffusion Transformer (DiT) have demonstrated remarkable proficiency in producing high-quality video content. Nonetheless, the potential of transformer-based diffusion models for effectively generating videos with controllable motion remains an area of limited exploration. This paper introduces Tora, the first trajectory-oriented DiT framework that integrates textual, visual, and trajectory conditions concurrently for video generation. Specifically, Tora consists of a Trajectory Extractor~(TE), a Spatial-Temporal DiT, and a Motion-guidance Fuser~(MGF). The TE encodes arbitrary trajectories into hierarchical spacetime motion patches with a 3D video compression network. The MGF integrates the motion patches into the DiT blocks to generate consistent videos following trajectories. Our design aligns seamlessly with DiT's scalability, allowing precise control of video content's dynamics with diverse durations, aspect ratios, and resolutions. Extensive experiments demonstrate Tora's excellence in achieving high motion fidelity, while also meticulously simulating the movement of the physical world. Page can be found at https://ali-videoai.github.io/tora_video. | 翻訳日:2024-08-01 12:17:56 公開日:2024-07-31 |
# 会話システムのための適応検索拡張生成法
Adaptive Retrieval-Augmented Generation for Conversational Systems ( http://arxiv.org/abs/2407.21712v1 ) ライセンス: Link先を確認 | Xi Wang, Procheta Sen, Ruizhe Li, Emine Yilmaz, | (参考訳) 対話型システムの開発に大規模な言語モデルを統合することに成功したにもかかわらず、多くの研究は、情報応答のための外部知識の検索と強化の有効性を示した。
したがって、既存の多くの研究は、明示的な制御なしに会話システムにおいて、常にRAG(Retrieval Augmented Generation)の必要性を前提としている。
これはそのような必要性について研究上の疑問を提起する。
本研究では,システム応答の各ターンを外部知識で拡張する必要性について検討する。
特に,適応的拡張のバイナリ選択に対する人間の判断を活用することで,会話コンテキストと関連する入力をモデル化したゲーティングモデルであるRAGateを開発し,対話システムは応答改善のためにRAGを必要とするかどうかを予測する。
我々は、対話モデルにRAGateを考案し、適用するための広範囲な実験を行い、様々な会話シナリオを包括的に分析する。
実験結果と分析結果から,RAGに基づく会話システムにおけるRAGateの有効性が示唆された。
また,世代間の信頼度と強化知識の関連性についても検討した。
Despite the success of integrating large language models into the development of conversational systems, many studies have shown the effectiveness of retrieving and augmenting external knowledge for informative responses. Hence, many existing studies commonly assume the always need for Retrieval Augmented Generation (RAG) in a conversational system without explicit control. This raises a research question about such a necessity. In this study, we propose to investigate the need for each turn of system response to be augmented with external knowledge. In particular, by leveraging human judgements on the binary choice of adaptive augmentation, we develop RAGate, a gating model, which models conversation context and relevant inputs to predict if a conversational system requires RAG for improved responses. We conduct extensive experiments on devising and applying RAGate to conversational models and well-rounded analyses of different conversational scenarios. Our experimental results and analysis indicate the effective application of RAGate in RAG-based conversational systems in identifying system responses for appropriate RAG with high-quality responses and a high generation confidence. This study also identifies the correlation between the generation's confidence level and the relevance of the augmented knowledge. | 翻訳日:2024-08-01 12:17:56 公開日:2024-07-31 |
# 線形ポテンシャルを有するタイト結合鎖におけるデファス化支援輸送
Dephasing-assisted transport in a tight-binding chain with a linear potential ( http://arxiv.org/abs/2407.21715v1 ) ライセンス: Link先を確認 | Samuel L. Jacob, Laetitia P. Bettman, Artur M. Lacerda, Krissia Zawadzki, Stephen R. Clark, John Goold, Juan José Mendoza-Arenas, | (参考訳) 量子システムと相互作用する環境は、局在化に関与する量子効果の抑制を通じて輸送を強化することができる。
本稿では,境界駆動型強結合鎖におけるバルクデファスティングと線形ポテンシャルの相互作用について検討する。
線形ポテンシャルはノイズがないときにワニエ・スタークの局在を誘導し、デフォーカスは傾きがないときに拡散輸送を誘導する。
本研究では, 定常電流の近似式を, 幅広いパラメータの正確な解と密に一致する, 偏差と傾きの両方の関数として導出する。
そこから、ワニエ・スターク局在系におけるブロッホ振動の周期に等しい減圧速度で最大電流が発生することが分かる。
また、チェーンを横切る全電位傾きが一定であることから、電流がシステムサイズの関数として最大値を示すことも見出した。
この結果は, 現状の実験プラットフォームで検証可能であり, 環境支援輸送に関する分析研究の一歩となる。
An environment interacting with a quantum system can enhance transport through the suppression of quantum effects responsible for localization. In this paper, we study the interplay between bulk dephasing and a linear potential in a boundary-driven tight-binding chain. A linear potential induces Wannier-Stark localization in the absence of noise, while dephasing induces diffusive transport in the absence of a tilt. We derive an approximate expression for the steady-state current as a function of both dephasing and tilt which closely matches the exact solution for a wide range of parameters. From it, we find that the maximum current occurs for a dephasing rate equal to the period of Bloch oscillations in the Wannier-Stark localized system. We also find that the current displays a maximum as a function of the system size, provided that the total potential tilt across the chain remains constant. Our results can be verified in current experimental platforms and represents a step forward in analytical studies of environment-assisted transport. | 翻訳日:2024-08-01 12:17:56 公開日:2024-07-31 |
# 拡散モデルにおける記憶の検出・説明・緩和
Detecting, Explaining, and Mitigating Memorization in Diffusion Models ( http://arxiv.org/abs/2407.21720v1 ) ライセンス: Link先を確認 | Yuxin Wen, Yuchen Liu, Chen Chen, Lingjuan Lyu, | (参考訳) 拡散モデルにおける最近のブレークスルーは、例外的な画像生成能力を示している。
しかしながら、いくつかの出力は単にトレーニングデータの複製であることを示している。
このような複製は、特に生成されたコンテンツがプロプライエタリな情報を含んでいる場合、モデル所有者にとって潜在的に法的課題を示す。
本研究では,テキスト条件予測の大きさを検査することで,暗黙のプロンプトを検出する方法を提案する。
提案手法は,サンプリングアルゴリズムを中断することなくシームレスに統合し,第1世代でも高い精度を実現し,各プロンプトを1世代ずつ生成する。
検出戦略に基づいて,個々の単語やトークンの記憶への寄与を示す説明可能なアプローチを提示する。
これはユーザーがプロンプトを調整するためのインタラクティブな媒体を提供する。
さらに,推測中の最小化やトレーニング中のフィルタリングによって,テキスト条件予測の規模を最大限に活用することで,暗記を緩和する2つの戦略を提案する。
これらの戦略は, 高品質を維持しつつ, 記憶を効果的に抑制するものである。
コードはhttps://github.com/YuxinWenRick/diffusion_memorizationで入手できる。
Recent breakthroughs in diffusion models have exhibited exceptional image-generation capabilities. However, studies show that some outputs are merely replications of training data. Such replications present potential legal challenges for model owners, especially when the generated content contains proprietary information. In this work, we introduce a straightforward yet effective method for detecting memorized prompts by inspecting the magnitude of text-conditional predictions. Our proposed method seamlessly integrates without disrupting sampling algorithms, and delivers high accuracy even at the first generation step, with a single generation per prompt. Building on our detection strategy, we unveil an explainable approach that shows the contribution of individual words or tokens to memorization. This offers an interactive medium for users to adjust their prompts. Moreover, we propose two strategies i.e., to mitigate memorization by leveraging the magnitude of text-conditional predictions, either through minimization during inference or filtering during training. These proposed strategies effectively counteract memorization while maintaining high-generation quality. Code is available at https://github.com/YuxinWenRick/diffusion_memorization. | 翻訳日:2024-08-01 12:17:56 公開日:2024-07-31 |
# 量子テレパシーによる決定の調整
Coordinating Decisions via Quantum Telepathy ( http://arxiv.org/abs/2407.21723v1 ) ライセンス: Link先を確認 | Dawei Ding, Liang Jiang, | (参考訳) 量子テレパシー(Quantum telepathy, pseudotelepathy)は、2つの非コミュニケーション当事者が古典力学を用いて達成できない相関行動を示す現象である。
これはベルの不等式違反としても知られ、量子絡みによって可能である。
本研究では,実世界の問題に量子テレパシーを適用するための概念的枠組みを提案する。
一般に、問題は、コミュニケーションすることができない観察セットを与えられた決定をコーディネートすることを含む。
この障害は、コンピュータプロセッサの意思決定タイムスケールが非常に短く、光遅延の速度が実際にかなり高い現代において、実際に非常に多い、と我々は主張する。
我々は、マイクロ秒の時間スケールで取引を行う高周波取引(HFT)の例を強調するが、異なる交換所間の光遅延の速度は、10マイクロ秒から10ミリ秒の範囲である。
ベルの不等式違反実験の成熟により、実世界の問題に対して量子的優位性が得られる量子テレパシースキームを実験的に実現した。
我々は、CHSHゲームの一般化をもたらす具体的なHFTシナリオのケーススタディを実施し、量子的優位性を達成するための様々な物理的実装を評価することでこれを実証する。
ベルの不等式違反は古典的戦略よりも厳密な数学的証明であり、$\text{BQP}\neq\text{BPP}$のような複雑性理論的な仮定は必要ないことが知られている。
さらに、量子的優位性を実現するためにフォールトトレランスは必要ない: 例えば、CHSH不等式に違反する場合は、2つの絡み合った量子ビットにのみシングルキュービットゲートが適用される。
Quantum telepathy, or pseudotelepathy, is the phenomenon where two non-communicating parties can exhibit correlated behaviors that are impossible to achieve using classical mechanics. This is also known as Bell inequality violation and is made possible by quantum entanglement. In this work, we present a conceptual framework for applying quantum telepathy to real-world problems. In general, the problems involve coordinating decisions given a set of observations without being able to communicate. We argue this inability is actually quite prevalent in the modern era where the decision-making timescales of computer processors are so short that speed of light delay is actually quite appreciable in comparison. We highlight the example of high-frequency trading (HFT), where trades are made at microsecond timescales, but the speed of light delay between different exchanges can range from the order of 10 microseconds to 10 milliseconds. Due to the maturity of Bell inequality violation experiments, experimental realization of quantum telepathy schemes that can attain a quantum advantage for real-world problems $\textit{is already almost immediately possible}$. We demonstrate this by conducting a case study for a concrete HFT scenario that gives rise to a generalization of the CHSH game and evaluate different possible physical implementations for achieving a quantum advantage. It is well known that Bell inequality violation is a rigorous mathematical proof of a quantum advantage over any classical strategy and does not need any complexity-theoretic assumptions such as $\text{BQP}\neq\text{BPP}$. Moreover, fault tolerance is not necessary to realize a quantum advantage: for example, violating the CHSH inequality only requires single-qubit gates applied on two entangled qubits. | 翻訳日:2024-08-01 12:17:56 公開日:2024-07-31 |
# ベイズゲーム理論と量子不一致のリンク
Linking quantum discord with Bayesian game theory ( http://arxiv.org/abs/2407.21730v1 ) ライセンス: Link先を確認 | Adam Lowe, | (参考訳) 現実的な実験的なセットアップにおける量子相関のウィットネス化は、近未来の量子技術の発展における重要な焦点である。
絡み合いを目撃するための実験的なプロトコルはいくつかあるが、量子的不協和の検出はいまだに明らかになっていない。
最近提案された量子不協和の目撃者は、量子不協和が相関関数の非線形結合によって観測できる実験的にアクセス可能なセットアップを提供する。
興味深いことに、実験的なセットアップはベイズゲーム理論にマッピングすることができ、提案された目撃者のさらなる一般化を可能にする。
その後、ベイズゲーム理論において期待されるペイオフと、より確立されたCHSHゲームを通してこれらの2つの概念を統一することにより、以前に提案された量子不協和の証人との間に直接リンクがあることが示されている。
Witnessing quantum correlation in real, practical experimental set-ups is a key focus for the development of near-future quantum technologies. Whilst there are several experimental protocols for witnessing entanglement, detecting quantum discord remains far more elusive. A recently proposed quantum discord witness offers an experimentally accessible set-up which allows the quantum discord to be witnessed through a non-linear combination of correlation functions. Interestingly, the experimental set-up can be mapped to Bayesian game theory allowing for an extended generalisation of the proposed witness. Subsequently, it is shown that there is a direct link between the expected payoff in Bayesian game theory and the previously proposed quantum discord witness by uniting these two concepts through the established CHSH game. | 翻訳日:2024-08-01 12:08:13 公開日:2024-07-31 |
# 特徴類似性マッチングによるイベントベースフロー, ステレオ, 深さ推定の統一
Unifying Event-based Flow, Stereo and Depth Estimation via Feature Similarity Matching ( http://arxiv.org/abs/2407.21735v1 ) ライセンス: Link先を確認 | Pengjie Zhang, Lin Zhu, Lizhi Wang, Hua Huang, | (参考訳) 新たな視覚センサとして、このイベントカメラは、高速でスパースで非同期なイベントストリームのため、光学フロー推定、ステレオマッチング、深さ推定などの様々なビジョンタスクで人気を博している。
特定のタスクごとに特別なアーキテクチャを使用する従来のアプローチとは異なり、これらのタスクをイベントベースの高密度対応マッチング問題として再構成する統合フレームワークであるEventMatchを提案し、特徴の類似性を直接比較することで、単一のモデルで解決することができる。
時間的・空間的相互作用による他のイベントフローと異なるタスクヘッドによる知識を統合した共有特徴類似モジュールを利用することで、時間的入力(例えば、時間的領域におけるイベントストリームの2つのセグメント)と空間的入力(例えば、空間的領域における異なる視点からのイベントストリームの2つのセグメント)から光学的フロー推定を同時に行うことができる。
さらに、アーキテクチャとパラメータがタスク間で共有されているため、我々の統一モデルは本質的にクロスタスク転送をサポートすることを実証する。
タスク毎に再トレーニングを行う必要がなく,光学的フローと不均一性推定の両方を同時に処理することが可能である。
DSECベンチマークで行った実験は、我々のモデルは、既存の最先端手法よりも優れた光学的フローと不均一性推定タスクにおいて優れた性能を示すことを示した。
我々の統一的アプローチは、イベントベースモデルだけでなく、空間次元と時間次元の両方において、クロスタスク転送とタスク間融合の新たな可能性を開く。
私たちのコードは後で入手できます。
As an emerging vision sensor, the event camera has gained popularity in various vision tasks such as optical flow estimation, stereo matching, and depth estimation due to its high-speed, sparse, and asynchronous event streams. Unlike traditional approaches that use specialized architectures for each specific task, we propose a unified framework, EventMatch, that reformulates these tasks as an event-based dense correspondence matching problem, allowing them to be solved with a single model by directly comparing feature similarities. By utilizing a shared feature similarities module, which integrates knowledge from other event flows via temporal or spatial interactions, and distinct task heads, our network can concurrently perform optical flow estimation from temporal inputs (e.g., two segments of event streams in the temporal domain) and stereo matching from spatial inputs (e.g., two segments of event streams from different viewpoints in the spatial domain). Moreover, we further demonstrate that our unified model inherently supports cross-task transfer since the architecture and parameters are shared across tasks. Without the need for retraining on each task, our model can effectively handle both optical flow and disparity estimation simultaneously. The experiment conducted on the DSEC benchmark demonstrates that our model exhibits superior performance in both optical flow and disparity estimation tasks, outperforming existing state-of-the-art methods. Our unified approach not only advances event-based models but also opens new possibilities for cross-task transfer and inter-task fusion in both spatial and temporal dimensions. Our code will be available later. | 翻訳日:2024-08-01 12:08:13 公開日:2024-07-31 |
# 量子ハードウェア制御のためのオープンソースフレームワーク
An open-source framework for quantum hardware control ( http://arxiv.org/abs/2407.21737v1 ) ライセンス: Link先を確認 | Edoardo Pedicillo, Alessandro Candido, Stavros Efthymiou, Hayk Sargsyan, Yuanzheng Paul Tan, Juan Cereijo, Jun Yong Khoo, Andrea Pasquale, Matteo Robbiati, Stefano Carrazza, | (参考訳) 量子コンピュータの開発には、様々な量子プラットフォームに特有の電子を制御するための信頼性の高い量子ハードウェアと調整されたソフトウェアが必要である。
ミドルウエア(Middleware)は、量子コンピューティングアルゴリズムのハイレベル実行から、機器を含む特定の実験的な設定に合わせて調整された低レベルドライバ命令まで、パイプライン全体にわたって標準化されたソフトウェアツールを提供することを目的としたコンピュータソフトウェアプログラムの一種である。
本稿では、Qiboの機能を活用して、自己ホスト型量子ハードウェアプラットフォーム上で量子アルゴリズムを実行するソフトウェアライブラリであるQibolabの更新について述べる。
Qibolabは任意のパルスとスイーパーを含むドライバ操作による機器制御のためのアプリケーションプログラミングインターフェース(API)を提供する。
本稿では,Qibolabで実装された新機能の概要として,プラットフォームクラスとチャネルクラスの境界の再定義,量子ハードウェア動作をシミュレートするエミュレータの統合,単一キュービットキャリブレーションルーチンの超伝導に対する実行時間ベンチマークの更新などを紹介する。
The development of quantum computers needs reliable quantum hardware and tailored software for controlling electronics specific to various quantum platforms. Middleware is a type of computer software program that aims to provide standardized software tools across the entire pipeline, from high level execution of quantum computing algorithms to low level driver instructions tailored to specific experimental setups, including instruments. This paper presents updates to Qibolab, a software library that leverages Qibo capabilities to execute quantum algorithms on self hosted quantum hardware platforms. Qibolab offers an application programming interface (API) for instrument control through arbitrary pulses and driver operations including sweepers. This paper offers an overview of the new features implemented in Qibolab, including the redefined boundaries between platform and channel classes, the integration of an emulator for simulating quantum hardware behaviour, and it shows updated execution times benchmarks for superconducting single qubit calibration routines. | 翻訳日:2024-08-01 12:08:13 公開日:2024-07-31 |
# Martingalesによる診断ランタイムモニタリング
Diagnostic Runtime Monitoring with Martingales ( http://arxiv.org/abs/2407.21748v1 ) ライセンス: Link先を確認 | Ali Hindy, Rachel Luo, Somrita Banerjee, Jonathan Kuck, Edward Schmerling, Marco Pavone, | (参考訳) 安全クリティカルなロボティクス設定にデプロイされる機械学習システムは、分散シフトに対して堅牢でなければならない。
しかし,システム設計者は適切な介入や緩和戦略を実行し,システム障害を防止するために,分散シフトの原因を理解する必要がある。
本稿では,複数の確率的マーチンガレットを同時に配置することにより,ストリーミング方式で分散シフトを診断するための新しいフレームワークを提案する。
分散シフトの根底にある原因に関する知識は、デプロイされたシステムのライフサイクルに対する適切な介入につながる可能性があることを示す。
我々の実験フレームワークは、様々な種類の分散シフト、モデル、データセットに容易に適応できる。
提案手法は, 速度, 精度, 柔軟性の観点から分布変化の診断において, 既存手法よりも優れており, シミュレーションおよびライブハードウェア設定の両方において, モデルの有効性を検証する。
Machine learning systems deployed in safety-critical robotics settings must be robust to distribution shifts. However, system designers must understand the cause of a distribution shift in order to implement the appropriate intervention or mitigation strategy and prevent system failure. In this paper, we present a novel framework for diagnosing distribution shifts in a streaming fashion by deploying multiple stochastic martingales simultaneously. We show that knowledge of the underlying cause of a distribution shift can lead to proper interventions over the lifecycle of a deployed system. Our experimental framework can easily be adapted to different types of distribution shifts, models, and datasets. We find that our method outperforms existing work on diagnosing distribution shifts in terms of speed, accuracy, and flexibility, and validate the efficiency of our model in both simulated and live hardware settings. | 翻訳日:2024-08-01 12:08:13 公開日:2024-07-31 |
# ユニバーサルエンタングル化のノーゴー理論
No-Go Theorems for Universal Entanglement Purification ( http://arxiv.org/abs/2407.21760v1 ) ライセンス: Link先を確認 | Allen Zang, Xinan Chen, Eric Chitambar, Martin Suchara, Tian Zhong, | (参考訳) 絡み合った浄化プロトコル(EPP)は、複数のノイズの絡み合った状態がより忠実な単一の絡み合った状態に変換することを目的としている。
この研究において、常に出力の忠実さをもたらすEPPは、元のノイズ状態のそれぞれよりも悪くはない、これは普遍性と呼ばれる性質である。
局所演算や古典的通信によって実装可能な$n$-to-1 EPPが存在しないことが証明されている。
また,局所的なクリフォード EPP では,任意に高い閾値を超える忠実度を持つ状態に制限された場合でも,普遍性は不可能であることを示す。
An entanglement purification protocol (EPP) aims to transform multiple noisy entangled states into a single entangled state with higher fidelity. In this work we consider EPPs that always yield an output fidelity no worse than each of the original noisy states, a property we call universality. We prove there is no $n$-to-1 EPP implementable by local operations and classical communication that is universal for all two-qubit entangled states, whereas such an EPP is possible using more general positive partial transpose-preserving (PPT) operations. We also show that universality is not possible by bilocal Clifford EPPs even when restricted to states with fidelities above an arbitrarily high threshold. | 翻訳日:2024-08-01 12:08:13 公開日:2024-07-31 |
# フィボナッチ異性体シミュレーションのための最小量子回路
Minimal Quantum Circuits for Simulating Fibonacci Anyons ( http://arxiv.org/abs/2407.21761v1 ) ライセンス: Link先を確認 | Sary Bseiso, Joel Pommerening, Richard R. Allen, Steven H. Simon, Layla Hormozi, | (参考訳) フィボナッチ位相順序は普遍位相量子計算の実現の第一候補である。
我々は最小の量子回路を考案し、レヴィン=ウェン弦網モデルで実現された二重フィボナッチ位相秩序の非アベリア的性質を実証した。
我々の回路は、基底状態を効果的に初期化し、励起を生成し、ねじり、それらを可能な限り最小の格子で編む。
さらに、単一量子ビット測定を行うことにより、複数の励起の融合振幅とブレイディング位相を決定する方法も設計する。
両立フィボナッチモデルの融合チャネルは3量子ビットのみを用いて検出でき、ツイスト位相は5量子ビットで測定でき、ブレイディングは9量子ビットで示すことができる。
これらの設計は、フィボナッチ・アロンの性質を示すための最も単純な設定を提供し、現代の多くの量子アーキテクチャの実装のための現実的な青写真として使用することができる。
The Fibonacci topological order is the prime candidate for the realization of universal topological quantum computation. We devise minimal quantum circuits to demonstrate the non-Abelian nature of the doubled Fibonacci topological order, as realized in the Levin-Wen string net model. Our circuits effectively initialize the ground state, create excitations, twist and braid them, all in the smallest lattices possible. We further design methods to determine the fusion amplitudes and braiding phases of multiple excitations by carrying out a single qubit measurement. We show that the fusion channels of the doubled Fibonacci model can be detected using only three qubits, twisting phases can be measured using five, and braiding can be demonstrated using nine qubits. These designs provide the simplest possible settings for demonstrating the properties of Fibonacci anyons and can be used as realistic blueprints for implementation on many modern quantum architectures. | 翻訳日:2024-08-01 12:08:13 公開日:2024-07-31 |
# 高純度原子間のエネルギー輸送
Energy Transport Among Highly-Polarized Atoms ( http://arxiv.org/abs/2407.21764v1 ) ライセンス: Link先を確認 | Catherine D. Opsahl, Yuan Jiang, Samantha A. Grubb, Alan T. Okinaka, Nicolaus A. Chlanda, Hannah S. Conley, Aidan T. Kirk, Sarah E. Spielman, Thomas J. Carroll, Michael W. Noel, | (参考訳) 数V/cmの静電場は、磁気光学トラップ内の超低温のリドバーグ原子のエネルギーレベルをシフトさせる。
与えられた原理量子数に対して、エネルギー準位のほとんどはゼロ場においてほとんど退化し、拡大する場を伴って多様体を形成する。
我々はリドベルク原子を多様体の中心付近のエネルギー準位に励起し、間隔はほぼ調和し、共鳴双極子-双極子相互作用によってエネルギーを交換する。
エネルギーが多様体の中心から遠ざかるにつれて、時間的進化を測定することで、長い相互作用時間の間システムが熱化に失敗することを明らかにする。
システムの本質的な特徴のみを含む計算モデルは、この結果に定性的に一致する。
A static electric field of a few V/cm shifts the energy levels of ultracold Rydberg atoms in a magneto-optical trap. For a given principle quantum number, most of the energy levels are nearly degenerate at zero field and fan out with increasing field to form a manifold. We excite Rydberg atoms to energy levels near the center of the manifold, where the spacing is nearly harmonic, and allow them to exchange energy via resonant dipole-dipole interactions. We measure the time evolution as energy spreads away from the center of the manifold, which reveals that the system fails to thermalize for long interaction times. A computational model that includes only a few essential features of the system qualitatively agrees with this result. | 翻訳日:2024-08-01 12:08:13 公開日:2024-07-31 |
# 三波混合パラメトリック駆動を用いた多段トランスモン浴の工学
Engineering a multi-level bath for transmon with three-wave mixing and parametric drives ( http://arxiv.org/abs/2407.21765v1 ) ライセンス: Link先を確認 | Xi Cao, Maria Mucci, Gangqiang Liu, David Pekker, Michael Hatridge, | (参考訳) 調整可能な浴環境を持つフォトニックシステムは、量子シミュレーターに余分な自由を与える。
このようなシステムは、システムと浴のカップリングをパラメトリックに調節することで実現できる。
本稿では、トランスモン量子ビットを損失型超伝導非線形非対称誘導型eLement(SNAIL)モードに結合することにより、量子ビットモードの調整可能な化学ポテンシャルを実験的に生成する。
パラメトリックポンピング条件が異なる場合, キュービットは, 個体数分布の異なる平衡に熱化可能であることを示す。
さらに,本手法をトランスモンの第3レベルまで拡張し,単純な2レベルケース以上の実用性を示した。
この結果は、非自明な光子集団分布の恩恵を受ける量子シミュレータと容易に統合できる有用なツールを提供する。
A photonic system with a tunable bath environment provides an extra degree of freedom for quantum simulators. Such a system can be realized by parametrically modulating the coupling between the system and bath. In this letter, by coupling a transmon qubit to a lossy Superconducting Nonlinear Asymmetric Inductive eLement (SNAIL) mode, we experimentally create a tunable chemical potential for the qubit mode. We show that the qubit can be thermalized to equilibrium with different population distributions under different parametric pumping conditions. We further extend our method to the third level of the transmon, showing its practical use beyond the simple two-level case. Our results provide a useful tool that can be readily integrated with quantum simulators that would benefit from a non-trivial photon population distribution. | 翻訳日:2024-08-01 12:08:13 公開日:2024-07-31 |
# 画像にもっと注意を払う:LVLMにおける幻覚の緩和のための訓練不要な方法
Paying More Attention to Image: A Training-Free Method for Alleviating Hallucination in LVLMs ( http://arxiv.org/abs/2407.21771v1 ) ライセンス: Link先を確認 | Shi Liu, Kecheng Zheng, Wei Chen, | (参考訳) 既存のLVLM(Large Vision-Language Models)は、主に視覚エンコーダのイメージ特徴とLLM(Large Language Models)を連携させて、優れたテキスト生成機能を利用する。
しかし、視覚エンコーダと言語モデルとのスケール格差は、マルチモーダル理解において主要な役割を担っていると仮定するLLMに繋がる可能性がある。
このLVLMの不均衡は幻覚の原因となる可能性がある。
具体的には、LVLMは視覚的入力の有無にかかわらず一貫した記述を生成し、特定の出力が文脈テキストにのみ影響されることを示す。
この現象を「テキスト慣性」と呼ぶ。
この問題に対処するため,画像理解と言語推論の平衡点を求める学習自由アルゴリズムを提案する。
具体的には、画像トークンに割り当てられた注意重みの調整と増幅に適応的に関与し、視覚的要素により大きな優位性を与える。
一方、純粋なテキスト入力からマルチモーダル入力のロジットを減じ、LVLMがLLMに偏らないのに役立つ。
画像トークンの増大とLVLMのスタブボーン出力の低減により、LVLMは画像により多くの注意を払うことができ、テキスト慣性を緩和し、LVLMの幻覚を低減できる。
本手法は,種々のLVLMの幻覚出力の周波数を,異なる測定基準で大幅に低減することを示す。
プロジェクトページはhttps://lalbj.github.io/projects/PAI/で公開されている。
Existing Large Vision-Language Models (LVLMs) primarily align image features of vision encoder with Large Language Models (LLMs) to leverage their superior text generation capabilities. However, the scale disparity between vision encoder and language model may led to LLMs assuming a predominant role in multi-modal comprehension. This imbalance in LVLMs may result in the instances of hallucinatory. Concretely, LVLMs may generate consistent descriptions with or without visual input, indicating that certain outputs are influenced solely by context text. We refer to this phenomenon as "text inertia." To counteract this issue, we introduce a training-free algorithm to find an equilibrium point between image comprehension and language inference. Specifically, we adaptively involve adjusting and amplifying the attention weights assigned to image tokens, thereby granting greater prominence to visual elements. Meanwhile, we subtract the logits of multi-modal inputs from ones of pure text input, which can help LVLMs be not biased towards LLMs. By enhancing images tokens and reducing the stubborn output of LLM, we can let LVLM pay more attention to images, towards alleviating text inertia and reducing the hallucination in LVLMs. Our extensive experiments shows that this method substantially reduces the frequency of hallucinatory outputs in various LVLMs in terms of different metrics. Project page is available at https://lalbj.github.io/projects/PAI/. | 翻訳日:2024-08-01 12:08:13 公開日:2024-07-31 |
# RainMamba: ビデオレイアウトのためのステートスペースモデルによるローカル学習の強化
RainMamba: Enhanced Locality Learning with State Space Models for Video Deraining ( http://arxiv.org/abs/2407.21773v1 ) ライセンス: Link先を確認 | Hongtao Wu, Yijun Yang, Huihui Xu, Weiming Wang, Jinni Zhou, Lei Zhu, | (参考訳) 屋外の視覚システムは、しばしばレインストリークやレインドロップによって汚染され、視覚タスクやマルチメディアアプリケーションの性能を著しく低下させる。
ビデオの性質は、より安定性の高い雨除去のための冗長な時間的手がかりを示す。
従来のビデオデラリニング手法は、受容場が限られている光フロー推定やカーネルベースの手法に大きく依存している。
しかし、トランスフォーマーアーキテクチャは、長期的な依存関係を実現する一方で、計算複雑性を著しく増加させます。
近年、状態空間モデル(SSM)の線形複雑度演算子は、ビデオにおける雨害や雨滴除去に欠かせない、効率的な長期時間モデリングを促進している。
ビデオ上の一次元のシーケンシャルプロセスは、隣接するピクセルを分散することにより、時空間の局所的相関を破壊します。
そこで本研究では,新しいヒルベルトスキャン機構により,SSMに基づくビデオデライニングネットワーク(RainMamba)を改良し,シーケンスレベルのローカル情報をよりよくキャプチャする。
また,提案したネットワークのパッチレベルの自己相似学習能力を高めるために,差分誘導動的コントラスト学習戦略を導入する。
4つの合成ビデオデラミニングデータセットと実世界の雨天ビデオによる大規模な実験は、雨天や雨水滴の除去における我々のネットワークの優位性を実証している。
The outdoor vision systems are frequently contaminated by rain streaks and raindrops, which significantly degenerate the performance of visual tasks and multimedia applications. The nature of videos exhibits redundant temporal cues for rain removal with higher stability. Traditional video deraining methods heavily rely on optical flow estimation and kernel-based manners, which have a limited receptive field. Yet, transformer architectures, while enabling long-term dependencies, bring about a significant increase in computational complexity. Recently, the linear-complexity operator of the state space models (SSMs) has contrarily facilitated efficient long-term temporal modeling, which is crucial for rain streaks and raindrops removal in videos. Unexpectedly, its uni-dimensional sequential process on videos destroys the local correlations across the spatio-temporal dimension by distancing adjacent pixels. To address this, we present an improved SSMs-based video deraining network (RainMamba) with a novel Hilbert scanning mechanism to better capture sequence-level local information. We also introduce a difference-guided dynamic contrastive locality learning strategy to enhance the patch-level self-similarity learning ability of the proposed network. Extensive experiments on four synthesized video deraining datasets and real-world rainy videos demonstrate the superiority of our network in the removal of rain streaks and raindrops. | 翻訳日:2024-08-01 12:08:13 公開日:2024-07-31 |
# シャドウ・ハミルトンシミュレーション
Shadow Hamiltonian Simulation ( http://arxiv.org/abs/2407.21775v1 ) ライセンス: Link先を確認 | Rolando D. Somma, Robbie King, Robin Kothari, Thomas O'Brien, Ryan Babbush, | (参考訳) 我々は「シャドウ状態」と呼ばれる圧縮量子状態を用いて量子力学をシミュレーションするフレームワークであるシャドウ・ハミルトンシミュレーションを提案する。
この影状態の振幅は、一連の興味のある作用素の期待に比例する。
シャドウ状態は自身のシュリンガー方程式に従って進化し、広い条件下では量子コンピュータ上でシミュレートできる。
我々は、このフレームワークの量子シミュレーション問題に対する多くの応用を分析した。
これには、指数的に大きい自由フェルミオン系の力学や指数的に大きい自由ボソン系の力学をシミュレートすることが含まれ、後者の例は指数的に多くの古典的高調波発振器をシミュレートする最近のアルゴリズムを復元するものである。
シャドウ・ハミルトンシミュレーションは、双時間コレレータやグリーン函数のようなより複雑な作用素の期待をシミュレートし、ハイゼンベルク図形の作用素自体の進化を研究するために拡張することができる。
We present shadow Hamiltonian simulation, a framework for simulating quantum dynamics using a compressed quantum state that we call the "shadow state". The amplitudes of this shadow state are proportional to the expectations of a set of operators of interest. The shadow state evolves according to its own Schr\"odinger equation, and under broad conditions can be simulated on a quantum computer. We analyze a number of applications of this framework to quantum simulation problems. This includes simulating the dynamics of exponentially large systems of free fermions, or exponentially large systems of free bosons, the latter example recovering a recent algorithm for simulating exponentially many classical harmonic oscillators. Shadow Hamiltonian simulation can be extended to simulate expectations of more complex operators such as two-time correlators or Green's functions, and to study the evolution of operators themselves in the Heisenberg picture. | 翻訳日:2024-08-01 12:08:13 公開日:2024-07-31 |
# 量子力学におけるクリロフ状態複雑性の性質
Properties of Krylov state complexity in qubit dynamics ( http://arxiv.org/abs/2407.21776v1 ) ライセンス: Link先を確認 | Siddharth Seetharaman, Chetanya Singh, Rejish Nath, | (参考訳) 量子ビット力学におけるクリロフ状態の複雑性の性質を,1つの量子ビットと1つの量子ビット対を考慮して解析する。
クリロフ複雑性の幾何学的図面は、単量子の場合では議論されるが、2量子の場合では非自明となる。
相互作用するリドベルク原子の特定の場合を考えると、実効ハミルトニアンを用いて得られるクリロフ基底は、元のハミルトニアンから得られるものと比べて複雑さを最小化することを示す。
さらに後者の性質を任意のハミルトニアンに一般化し、ヒルベルト空間全体はそれらの間に弱結合を持つ2つの部分空間からなる。
We analyze the properties of Krylov-state complexity in qubit dynamics, considering a single qubit and a qubit pair. A geometrical picture of the Krylov complexity is discussed for the single-qubit case, whereas it becomes non-trivial for the two-qubit case. Considering the particular case of interacting Rydberg atoms, we show that the Krylov basis obtained using an effective Hamiltonian minimizes the complexity compared to that obtained from the original Hamiltonian. We further generalize the latter property to an arbitrary Hamiltonian in which the entire Hilbert space comprises two subspaces with a weak coupling between them. | 翻訳日:2024-08-01 12:08:13 公開日:2024-07-31 |
# 荷電二元回路の非平衡ダイナミクス
Non-equilibrium dynamics of charged dual-unitary circuits ( http://arxiv.org/abs/2407.21786v1 ) ライセンス: Link先を確認 | Alessandro Foligno, Pasquale Calabrese, Bruno Bertini, | (参考訳) 平衡外量子系における対称性と絡み合いの相互作用は、現在、激しい多分野研究の中心にある。
ここでは、任意の数の$U(1)$の電荷を持つ二重単位回路を考えることにより、これらの質問を正確に特徴付けることができる設定を導入する。
これらのシステムの完全な特性化を提供した後、一般の双対ユニタリ回路を拡張し、非平衡力学を正確に解けるような可解状態のクラスを導入することができることを示す。
無限の温度状態に緩和する既知の可解状態のクラスとは対照的に、これらの状態は非自明な一般化されたギブスアンサンブルの族に緩和する。
これらの状態の緩和過程は、エントロピーの線形成長と、非最大値に飽和するが、最大エントロピー速度で簡単に説明できる。
続いて、非可解状態からの力学を考察し、正確な結果をエンタングルメント膜図と組み合わせて、これらの状態からのエンタングルメントダイナミクスは、可解状態の力学と質的に異なると論じる。
これは2つの異なる傾斜によって特徴づけられる2つの異なる成長様式を示し、どちらも最大下絡み速度に対応する。
さらに、非可解な初期状態は、より対称性の低い初期状態がより多くの対称状態よりも早く対称性を回復する量子Mpemba効果を引き起こす可能性があることを示す。
The interplay between symmetries and entanglement in out-of-equilibrium quantum systems is currently at the centre of an intense multidisciplinary research effort. Here we introduce a setting where these questions can be characterised exactly by considering dual-unitary circuits with an arbitrary number of $U(1)$ charges. After providing a complete characterisation of these systems we show that one can introduce a class of solvable states, which extends that of generic dual unitary circuits, for which the non-equilibrium dynamics can be solved exactly. In contrast to the known class of solvable states, which relax to the infinite temperature state, these states relax to a family of non-trivial generalised Gibbs ensembles. The relaxation process of these states can be simply described by a linear growth of the entanglement entropy followed by saturation to a non-maximal value but with maximal entanglement velocity. We then move on to consider the dynamics from non-solvable states, combining exact results with the entanglement membrane picture we argue that the entanglement dynamics from these states is qualitatively different from that of the solvable ones. It shows two different growth regimes characterised by two distinct slopes, both corresponding to sub-maximal entanglement velocities. Moreover, we show that non-solvable initial states can give rise to the quantum Mpemba effect, where less symmetric initial states restore the symmetry faster than more symmetric ones. | 翻訳日:2024-08-01 12:08:13 公開日:2024-07-31 |
# オプション取引のためのディープラーニング: エンドツーエンドアプローチ
Deep Learning for Options Trading: An End-To-End Approach ( http://arxiv.org/abs/2407.21791v1 ) ライセンス: Link先を確認 | Wee Ling Tan, Stephen Roberts, Stefan Zohren, | (参考訳) 我々は、高度にスケーラブルでデータ駆動の機械学習アルゴリズムを用いて、オプショントレーディング戦略に新しいアプローチを導入する。
オプション価格モデルに基礎となるマーケットダイナミクスや仮定の仕様を必要とする従来のアプローチとは対照的に、私たちのモデルは、市場データから最適なトレーディングシグナルへの非自明なマッピングを直接学習することで、これらの前提条件の必要性から根本的に離れています。
S&P100に記載された株式オプション契約の10年以上を振り返って、私たちのエンドツーエンドアプローチで訓練されたディープラーニングモデルが、既存のルールベースのトレーディング戦略よりも、リスク調整されたパフォーマンスを著しく改善していることを示します。
ターンオーバー規則化をモデルに組み込むことで,取引コストの極めて高いレベルにおいて,さらなるパフォーマンス向上が期待できる。
We introduce a novel approach to options trading strategies using a highly scalable and data-driven machine learning algorithm. In contrast to traditional approaches that often require specifications of underlying market dynamics or assumptions on an option pricing model, our models depart fundamentally from the need for these prerequisites, directly learning non-trivial mappings from market data to optimal trading signals. Backtesting on more than a decade of option contracts for equities listed on the S&P 100, we demonstrate that deep learning models trained according to our end-to-end approach exhibit significant improvements in risk-adjusted performance over existing rules-based trading strategies. We find that incorporating turnover regularization into the models leads to further performance enhancements at prohibitively high levels of transaction costs. | 翻訳日:2024-08-01 12:08:13 公開日:2024-07-31 |
# 対称性分解エンタングルメントとエンタングルメント非対称性の非平衡ダイナミクス:ルール54における励起漸近
Non-equilibrium dynamics of symmetry-resolved entanglement and entanglement asymmetry: Exact asymptotics in Rule 54 ( http://arxiv.org/abs/2407.21793v1 ) ライセンス: Link先を確認 | Katja Klobas, | (参考訳) 対称性分解された絡み合いと絡み合い非対称性は、系の対称性に敏感な量子相関の2つの尺度である。
ここではルール54セルオートマトンにおける非平衡ダイナミクスについて論じる。
どちらの量も、より解析的に抽出可能な「荷電モーメント」、すなわち好適に変形した密度行列のパワーのトレースの言葉で表すことができる。
テンソルネットワークという観点から表現し、局所代数的関係系を用いて空間で縮約する。
これにより、荷電モーメントに対する漸近形式が得られ、すべての関連するサブシステムサイズよりも短い大きなが有限時間のレジームで有効である。
この状態において、電荷モーメントは立方体方程式の先頭解によって与えられる速度で指数関数的に崩壊する。
Symmetry resolved entanglement and entanglement asymmetry are two measures of quantum correlations sensitive to symmetries of the system. Here we discuss their non-equilibrium dynamics in the Rule 54 cellular automaton, a simple, yet interacting, integrable model. Both quantities can be expressed in terms of the more analytically tractable "charged moments", i.e. traces of powers of a suitably deformed density matrix, via a replica trick. We express them in terms of a tensor network, which we contract in space using a system of local algebraic relations. This gives the asymptotic form for the charged moments, valid in the regime of large but finite time that is shorter than all the relevant subsystem sizes. In this regime the charge moments decay exponentially with the rate given by the leading solution to a cubic equation. | 翻訳日:2024-08-01 12:08:12 公開日:2024-07-31 |
# 変位相マニフォールド学習によるスケーラブルなグループコレオグラフィ
Scalable Group Choreography via Variational Phase Manifold Learning ( http://arxiv.org/abs/2407.18839v2 ) ライセンス: Link先を確認 | Nhat Le, Khoa Do, Xuan Bui, Tuong Do, Erman Tjiputra, Quang D. Tran, Anh Nguyen, | (参考訳) 音楽からグループダンスの動きを生成することは、いくつかの産業的応用において難しい課題である。
この問題に対処するためにいくつかの方法が提案されているが、そのほとんどは、データセット内の所定のダンサー数に制約されたダンス運動の忠実度を最適化することを優先している。
この制限は現実世界のアプリケーションへの適応性を妨げている。
本研究は,自然性と同期性を維持しつつ,グループコレオグラフィーにおけるスケーラビリティの問題に対処する。
特に、生成多様体の学習に基づくグループダンス生成のための位相ベース変分生成モデルを提案する。
提案手法は,高忠実度群舞踊動作を実現し,最小限のメモリと一定量のメモリしか消費せず,無制限なダンサー生成を可能にする。
2つの公開データセットに対する集中的な実験は、提案手法が最近の最先端のアプローチを大きなマージンで上回り、トレーニングデータを超える多くのダンサーにスケーラブルであることを示している。
Generating group dance motion from the music is a challenging task with several industrial applications. Although several methods have been proposed to tackle this problem, most of them prioritize optimizing the fidelity in dancing movement, constrained by predetermined dancer counts in datasets. This limitation impedes adaptability to real-world applications. Our study addresses the scalability problem in group choreography while preserving naturalness and synchronization. In particular, we propose a phase-based variational generative model for group dance generation on learning a generative manifold. Our method achieves high-fidelity group dance motion and enables the generation with an unlimited number of dancers while consuming only a minimal and constant amount of memory. The intensive experiments on two public datasets show that our proposed method outperforms recent state-of-the-art approaches by a large margin and is scalable to a great number of dancers beyond the training data. | 翻訳日:2024-08-01 11:58:12 公開日:2024-07-31 |
# Mamba-UIE:物理モデル制約による水中画像の強調
Mamba-UIE: Enhancing Underwater Images with Physical Model Constraint ( http://arxiv.org/abs/2407.19248v2 ) ライセンス: Link先を確認 | Song Zhang, Yuqing Duan, Daoliang Li, Ran Zhao, | (参考訳) 水中画像強調(UIE)では、畳み込みニューラルネットワーク(CNN)は長距離依存のモデリングに固有の制限があり、グローバルな特徴の回復にはあまり効果がない。
トランスフォーマーは長距離依存のモデリングに優れていますが、画像解像度の増大に伴う2次計算の複雑さは、大きな効率上の課題を示します。
さらに、ほとんどの教師付き学習手法は効果的な物理モデル制約を欠いているため、現実主義が不十分になり、生成した画像に過度に適合する可能性がある。
これらの課題に対処するために,物理モデル制約に基づく水中画像強調フレームワークであるMamba-UIEを提案する。
具体的には、入力画像を水中のシーンラディアンス、ダイレクトトランスミッションマップ、バックスキャッタートランスミッションマップ、グローバルバックグラウンドライトの4つのコンポーネントに分解する。
これらの部品は、改良された水中画像形成モデルに従って再組み立てされ、再構成画像と原画像との再構成一貫性制約が適用され、水中画像強調処理に有効な物理的制約が達成される。
長い列を扱う場合のトランスフォーマーの2次計算複雑性に対処するために,線形複雑性状態空間モデルに基づくMamba-UIEネットワークを導入する。
コンボリューションブロックにMambaを組み込むことで、長距離依存はチャネルレベルと空間レベルの両方でモデル化され、CNNバックボーンは局所的な特徴と詳細を回復するために保持される。
3つの公開データセットに対する大規模な実験により、提案したMamba-UIEは既存の最先端手法より優れており、PSNRは27.13、SSIMは0.93であることがわかった。
私たちのメソッドはhttps://github.com/zhangsong1213/Mamba-UIEで利用可能です。
In underwater image enhancement (UIE), convolutional neural networks (CNN) have inherent limitations in modeling long-range dependencies and are less effective in recovering global features. While Transformers excel at modeling long-range dependencies, their quadratic computational complexity with increasing image resolution presents significant efficiency challenges. Additionally, most supervised learning methods lack effective physical model constraint, which can lead to insufficient realism and overfitting in generated images. To address these issues, we propose a physical model constraint-based underwater image enhancement framework, Mamba-UIE. Specifically, we decompose the input image into four components: underwater scene radiance, direct transmission map, backscatter transmission map, and global background light. These components are reassembled according to the revised underwater image formation model, and the reconstruction consistency constraint is applied between the reconstructed image and the original image, thereby achieving effective physical constraint on the underwater image enhancement process. To tackle the quadratic computational complexity of Transformers when handling long sequences, we introduce the Mamba-UIE network based on linear complexity state space models. By incorporating the Mamba in Convolution block, long-range dependencies are modeled at both the channel and spatial levels, while the CNN backbone is retained to recover local features and details. Extensive experiments on three public datasets demonstrate that our proposed Mamba-UIE outperforms existing state-of-the-art methods, achieving a PSNR of 27.13 and an SSIM of 0.93 on the UIEB dataset. Our method is available at https://github.com/zhangsong1213/Mamba-UIE. | 翻訳日:2024-08-01 11:58:12 公開日:2024-07-31 |
# FTF-ER:連続グラフ学習のための特徴トポロジー融合に基づく体験再生法
FTF-ER: Feature-Topology Fusion-Based Experience Replay Method for Continual Graph Learning ( http://arxiv.org/abs/2407.19429v2 ) ライセンス: Link先を確認 | Jinhui Pang, Changqing Lin, Xiaoshuai Hao, Rong Yin, Zixuan Wang, Zhihui Zhang, Jinglin He, Huang Tai Sheng, | (参考訳) 連続グラフ学習(CGL)は,静的GNNを動的タスクフローシナリオに拡張することを目的とした,重要かつ困難なタスクである。
主要なCGL手法の1つとして、経験再生(ER)法が優れた性能のために広く注目を集めている。
しかし,既存のER法では特徴量やトポロジ的関連性によるサンプルの同定に重点を置いており,包括的なグラフデータの利用を制限している。
さらに、トポロジベースのER手法では、局所的なトポロジ情報のみを考慮し、バッファに隣接ノードを追加することで、グローバルなトポロジ情報を無視し、メモリオーバーヘッドを増大させる。
これらのギャップを埋めるため,我々はFTF-ER(Feature-Topology Fusion-based Experience Replay)と呼ばれる新しい手法を提案する。
具体的には,グラフデータ全体の利用を最大化するために,特徴情報と大域的トポロジ情報の両方を含む極めて相補的な手法を提案する。
さらに,グローバルなトポロジ情報を活用するために,ノードのトポロジ的重要性を計算する新しいモジュールとしてホッジポテンシャルスコア(HPS)を提案する。
HPSは、グラフ上のホッジ分解によるグローバルノードランキングを導出し、近隣のサンプリングと比較してより正確なグローバルトポロジ情報を提供する。
隣接するサンプリングを除外することで、HPSはトポロジカル情報を取得するためのバッファストレージコストを大幅に削減し、同時にトレーニング時間を短縮する。
最先端の手法と比較して、FTF-ERは、OGB-Arxivデータセット上でのAAが3.6%、AFが7.1%の大幅な改善を実現し、クラスインクリメンタルな学習環境での優れたパフォーマンスを示している。
Continual graph learning (CGL) is an important and challenging task that aims to extend static GNNs to dynamic task flow scenarios. As one of the mainstream CGL methods, the experience replay (ER) method receives widespread attention due to its superior performance. However, existing ER methods focus on identifying samples by feature significance or topological relevance, which limits their utilization of comprehensive graph data. In addition, the topology-based ER methods only consider local topological information and add neighboring nodes to the buffer, which ignores the global topological information and increases memory overhead. To bridge these gaps, we propose a novel method called Feature-Topology Fusion-based Experience Replay (FTF-ER) to effectively mitigate the catastrophic forgetting issue with enhanced efficiency. Specifically, from an overall perspective to maximize the utilization of the entire graph data, we propose a highly complementary approach including both feature and global topological information, which can significantly improve the effectiveness of the sampled nodes. Moreover, to further utilize global topological information, we propose Hodge Potential Score (HPS) as a novel module to calculate the topological importance of nodes. HPS derives a global node ranking via Hodge decomposition on graphs, providing more accurate global topological information compared to neighbor sampling. By excluding neighbor sampling, HPS significantly reduces buffer storage costs for acquiring topological information and simultaneously decreases training time. Compared with state-of-the-art methods, FTF-ER achieves a significant improvement of 3.6% in AA and 7.1% in AF on the OGB-Arxiv dataset, demonstrating its superior performance in the class-incremental learning setting. | 翻訳日:2024-08-01 11:58:12 公開日:2024-07-31 |
# Prometheus Chatbot:コンピュータコンポーネント推奨のための知識グラフ協調大規模言語モデル
Prometheus Chatbot: Knowledge Graph Collaborative Large Language Model for Computer Components Recommendation ( http://arxiv.org/abs/2407.19643v2 ) ライセンス: Link先を確認 | Yunsheng Wang, Songhao Chen, Kevin Jin, | (参考訳) 知識グラフ(KG)は、間接関係の推論を容易にする構造化された関係データを提供するため、ネットワークアライメント、質問応答、レコメンダシステム(RS)などのアプリケーションに必須である。
しかし、自然言語でユーザ入力を処理できるKGベースのRSの開発は、大きな課題に直面している。
まず、自然言語処理ユニットは、ユーザの意図を正確に解釈するために、人間の言語におけるあいまいさと可変性を効果的に処理する必要がある。
第二に、システムは製品名のようなエンティティをKG内の対応するノードに正確に識別し、リンクする必要がある。
Lenovoがサポートしたこれらの課題を克服するため,我々は,コンピュータコンポーネントを推奨するKGと大規模言語モデル(LLM)を統合した,"Prometheus"という新しいチャットボットを開発した。
このチャットボットは、ユーザの要求を正確にデコードし、KGから派生したパーソナライズされたレコメンデーションを提供し、コンピュータのセットアップニーズに対する正確な理解と応答を保証する。
Knowledge graphs (KGs) are essential in applications such as network alignment, question-answering, and recommender systems (RSs) since they offer structured relational data that facilitate the inference of indirect relationships. However, the development of KG-based RSs capable of processing user inputs in natural language faces significant challenges. Firstly, natural language processing units must effectively handle the ambiguity and variability in human language to interpret user intents accurately. Secondly, the system must precisely identify and link entities, like product names, to their corresponding nodes in KGs. To overcome these challenges, supported by Lenovo, we developed a novel chatbot called "Prometheus," which integrates a KG with a large language model (LLM), specifically designed for recommending computer components. This chatbot can accurately decode user requests and deliver personalized recommendations derived from KGs, ensuring precise comprehension and response to their computer setup needs. | 翻訳日:2024-08-01 11:58:12 公開日:2024-07-31 |
# SpaER:胎児脳運動追跡のための時空間等価表現の学習
SpaER: Learning Spatio-temporal Equivariant Representations for Fetal Brain Motion Tracking ( http://arxiv.org/abs/2407.20198v3 ) ライセンス: Link先を確認 | Jian Wang, Razieh Faghihpirayesh, Polina Golland, Ali Gholipour, | (参考訳) 本稿では,同変フィルタと自己注意機構を利用して時空間表現を効果的に学習する胎児運動追跡の先駆的手法であるSpERを紹介する。
一対の画像から胎児の脳の運動を静的に推定する従来の手法とは異なり、本手法は胎児の頭部の時間的・空間的な動きパターンを動的に追跡する。
具体的には、まず、画像の低次元空間表現による剛性運動列を効率的に学習する同変ニューラルネットワークを開発する。
その後、時間符号化と自己注意型ニューラルネットワーク層を組み込むことで時空間表現を学習する。
このアプローチは、胎児の脳の運動の長期的依存関係を捕捉し、コントラストの変化と重度の運動アーチファクトによるアライメントエラーに対処する。
また,全時間フレーム間の画像歪みを適切に扱える幾何学的変形推定も提供する。
我々の知る限り、我々のアプローチは、データ拡張なしで胎児の動き追跡のための深層ニューラルネットワークを介して空間時間表現を初めて学習するものである。
シミュレーションおよび実動作を用いた実胎児エコープラナー画像を用いて本モデルの有効性を検証した。
本手法は胎児MRIにおける胎児の動きを正確に測定・追跡・補正する上で有意な潜在性を持っている。
In this paper, we introduce SpaER, a pioneering method for fetal motion tracking that leverages equivariant filters and self-attention mechanisms to effectively learn spatio-temporal representations. Different from conventional approaches that statically estimate fetal brain motions from pairs of images, our method dynamically tracks the rigid movement patterns of the fetal head across temporal and spatial dimensions. Specifically, we first develop an equivariant neural network that efficiently learns rigid motion sequences through low-dimensional spatial representations of images. Subsequently, we learn spatio-temporal representations by incorporating time encoding and self-attention neural network layers. This approach allows for the capture of long-term dependencies of fetal brain motion and addresses alignment errors due to contrast changes and severe motion artifacts. Our model also provides a geometric deformation estimation that properly addresses image distortions among all time frames. To the best of our knowledge, our approach is the first to learn spatial-temporal representations via deep neural networks for fetal motion tracking without data augmentation. We validated our model using real fetal echo-planar images with simulated and real motions. Our method carries significant potential value in accurately measuring, tracking, and correcting fetal motion in fetal MRI sequences. | 翻訳日:2024-08-01 11:58:12 公開日:2024-07-31 |
# LLMの編集はハームを注入できるか?
Can Editing LLMs Inject Harm? ( http://arxiv.org/abs/2407.20224v2 ) ライセンス: Link先を確認 | Canyu Chen, Baixiang Huang, Zekun Li, Zhaorun Chen, Shiyang Lai, Xiongxiao Xu, Jia-Chen Gu, Jindong Gu, Huaxiu Yao, Chaowei Xiao, Xifeng Yan, William Yang Wang, Philip Torr, Dawn Song, Kai Shu, | (参考訳) 知識編集技術は、スクラッチからリトレーニングするコストが高いため、Large Language Models (LLMs) の誤りや時代遅れの知識を効率的に修正するために、ますます採用されている。
LLMに害を注入するために知識編集を使用できるのか?
本稿では,LLMの新たなタイプの安全脅威である編集攻撃として知識編集を再構築し,新たに構築されたデータセットEditAttackを用いて体系的な調査を行うことを提案する。
具体的には、誤情報注入とバイアス注入を含む編集攻撃の典型的な2つの安全性リスクに焦点を当てる。
誤情報注入の危険性については,まずコモンセンス誤情報注入とロングテール誤情報注入に分類する。
そして, 編集攻撃は両種類の誤報をLSMに注入し, 特にコモンセンスな誤報注入に有効であることが判明した。
偏差注入のリスクは, 偏差文をLLMに高効率で注入できるだけでなく, 1つの偏差文注入は, LLMの一般出力に偏差を生じさせる可能性があること, また, LLMの全体公正性に対する破滅的な影響を示す。
さらに,LLMの一般的な知識と推論能力に影響を及ぼすような,編集攻撃のステルス性の高さを明らかにし,実証的証拠による編集攻撃の防御の難しさを示す。
本研究は,LLMの安全性向上に向けた知識編集技術の誤用リスクの顕在化を実証するものである。
Knowledge editing techniques have been increasingly adopted to efficiently correct the false or outdated knowledge in Large Language Models (LLMs), due to the high cost of retraining from scratch. Meanwhile, one critical but under-explored question is: can knowledge editing be used to inject harm into LLMs? In this paper, we propose to reformulate knowledge editing as a new type of safety threat for LLMs, namely Editing Attack, and conduct a systematic investigation with a newly constructed dataset EditAttack. Specifically, we focus on two typical safety risks of Editing Attack including Misinformation Injection and Bias Injection. For the risk of misinformation injection, we first categorize it into commonsense misinformation injection and long-tail misinformation injection. Then, we find that editing attacks can inject both types of misinformation into LLMs, and the effectiveness is particularly high for commonsense misinformation injection. For the risk of bias injection, we discover that not only can biased sentences be injected into LLMs with high effectiveness, but also one single biased sentence injection can cause a bias increase in general outputs of LLMs, which are even highly irrelevant to the injected sentence, indicating a catastrophic impact on the overall fairness of LLMs. Then, we further illustrate the high stealthiness of editing attacks, measured by their impact on the general knowledge and reasoning capacities of LLMs, and show the hardness of defending editing attacks with empirical evidence. Our discoveries demonstrate the emerging misuse risks of knowledge editing techniques on compromising the safety alignment of LLMs. | 翻訳日:2024-08-01 11:58:12 公開日:2024-07-31 |
# YOLOによる頭蓋内出血分節の軽度改善と不確実性切除分節モデル
Weakly Supervised Intracranial Hemorrhage Segmentation with YOLO and an Uncertainty Rectified Segment Anything Model ( http://arxiv.org/abs/2407.20461v2 ) ライセンス: Link先を確認 | Pascal Spiegler, Amirhossein Rasoulian, Yiming Xiao, | (参考訳) 頭蓋内出血 (ICH) は, 治療成績と生存率を改善するために, 迅速かつ正確な診断を必要とする生命予後である。
教師付き深層学習の最近の進歩は、医用画像の分析を大幅に改善してきたが、しばしば高品質なアノテーションを備えた広範囲なデータセットに依存しており、費用がかかり、時間もかかり、医療の専門知識を必要としている。
そこで我々は, YOLOオブジェクト検出モデルと不確実性補正セグメンテーションモデル(SAM)を利用した, 弱い教師付きICHセグメンテーション法を開発した。
さらに, YOLO予測ボックスプロンプトを用いて, セグメンテーション結果を改善するために, 新たなポイントプロンプト生成器を提案する。
ICH検出の精度は0.933,AUCは0.796,Diceスコアは0.629であった。
提案手法は, モデルトレーニングにおいて, 精巧なセグメンテーション基底の真理を必要とせず, より一般的に使用されているICH定量化手法に, 頑健で正確な代替手段を提供する。
Intracranial hemorrhage (ICH) is a life-threatening condition that requires rapid and accurate diagnosis to improve treatment outcomes and patient survival rates. Recent advancements in supervised deep learning have greatly improved the analysis of medical images, but often rely on extensive datasets with high-quality annotations, which are costly, time-consuming, and require medical expertise to prepare. To mitigate the need for large amounts of expert-prepared segmentation data, we have developed a novel weakly supervised ICH segmentation method that utilizes the YOLO object detection model and an uncertainty-rectified Segment Anything Model (SAM). In addition, we have proposed a novel point prompt generator for this model to further improve segmentation results with YOLO-predicted bounding box prompts. Our approach achieved a high accuracy of 0.933 and an AUC of 0.796 in ICH detection, along with a mean Dice score of 0.629 for ICH segmentation, outperforming existing weakly supervised and popular supervised (UNet and Swin-UNETR) approaches. Overall, the proposed method provides a robust and accurate alternative to the more commonly used supervised techniques for ICH quantification without requiring refined segmentation ground truths during model training. | 翻訳日:2024-08-01 11:58:12 公開日:2024-07-31 |
# A2SF: 変圧器デコーダにおけるトーケンプルーニングの予測因子による累積アテンションスコアリング
A2SF: Accumulative Attention Scoring with Forgetting Factor for Token Pruning in Transformer Decoder ( http://arxiv.org/abs/2407.20485v2 ) ライセンス: Link先を確認 | Hyun-rae Jo, Dongkun Shin, | (参考訳) 近年,大規模な言語モデル(LLM)がKVキャッシュによるメモリボトルネックに直面している。
従来の研究では、累積注意スコアに基づいて重要なトークンを識別し、KVキャッシュからアイテムを除去するKVキャッシュ圧縮技術が提案されており、注意操作において重要な役割を果たすトークンはごくわずかである。
しかし,既存の累積アテンションスコアはトランスデコーダ構造には適さないことがわかった。
デコーダモデルでは、アテンションスコアが蓄積する回数はマスキングの影響によりトークンの出現順序によって異なり、トークン間の不均一な比較を引き起こす。
そこで本研究では, 留意点蓄積プロセスにおいて, 留意点累積係数を導入した累積留意点(A2SF)技術を提案する。
A2SFは古いトークンから生成された過去の注意スコアにペナルティを適用します。
したがって、古いトークンはより大きなペナルティを受け、異なる時代のトークンに公平さをもたらす。
トークン間の公正比較により、重要なトークンをより効果的に選択できる。
OPTおよびLLaMAモデルにおけるA2SFによる精度向上を検証し、A2SFは1ショットと0ショットでLLaMA 2の精度を最大7.8%改善する。
Recently, large language models (LLM) based on transformers are facing memory bottleneck issues due to KV cache, especially in long sequence handling. Previous researches proposed KV cache compression techniques that identify insignificant tokens based on Accumulative Attention Scores and removes their items from KV cache, noting that only few tokens play an important role in attention operations. However, we have observed that the existing Accumulative Attention Score is not suitable for the transformer decoder structure. In the decoder model, the number of times the Attention Score accumulates varies depending on the order of token appearance due to the effect of masking, causing an uneven comparison between tokens. To solve this, we propose Accumulative Attention Score with Forgetting Factor (A2SF) technique, which introduces a Forgetting Factor in the Attention Score accumulation process. A2SF applies a penalty to the past Attention Score generated from old tokens by repeatedly multiplying the Forgetting Factor to the Attention Score over time. Therefore, older tokens receive a larger penalty, providing fairness among different ages of tokens. Through the fair comparison among tokens, we can more effectively select important tokens. We have verified the accuracy improvement through A2SF in the OPT and LLaMA models and A2SF improves the accuracy of LLaMA 2 by up to 7.8% and 5.1% on 1-shot and 0-shot. | 翻訳日:2024-08-01 11:58:12 公開日:2024-07-31 |
# 同時音声翻訳のためのコントラストフィードバック機構
Contrastive Feedback Mechanism for Simultaneous Speech Translation ( http://arxiv.org/abs/2407.20524v2 ) ライセンス: Link先を確認 | Haotian Tan, Sakriani Sakti, | (参考訳) 同時音声翻訳(SST)の最近の進歩は、オフライン学習STモデルによる同時推論を可能にする決定ポリシーに焦点を当てている。
これらの決定ポリシは、SSTの品質レイテンシトレードオフを制御するだけでなく、よりコンテキストの翻訳を遅らせたり、安定した仮説検出を通じてこれらの予測を捨てることで、不安定な予測が翻訳品質に与える影響を軽減する。
しかし、これらの政策はしばしば不安定な予測を利用する潜在的な利点を見落としている。
本稿では、これらの不安定な予測をフィードバックとして活用し、翻訳品質を向上させる新しい手法であるSSTのコントラストフィードバック機構(CFM)を紹介する。
CFMは、これらの予測から望ましくないモデルの振る舞いを、対照的な目的を通じて排除するようシステムに誘導する。
MuST-C v1.0データセットの8言語にまたがる3つの最先端決定ポリシーの実験は、CFMがSSTの性能を効果的に改善することを示している。
Recent advances in simultaneous speech translation (SST) focus on the decision policies that enable the use of offline-trained ST models for simultaneous inference. These decision policies not only control the quality-latency trade-off in SST but also mitigate the impact of unstable predictions on translation quality by delaying translation for more context or discarding these predictions through stable hypothesis detection. However, these policies often overlook the potential benefits of utilizing unstable predictions. We introduce the contrastive feedback mechanism (CFM) for SST, a novel method that leverages these unstable predictions as feedback to improve translation quality. CFM guides the system to eliminate undesired model behaviors from these predictions through a contrastive objective. The experiments on 3 state-of-the-art decision policies across 8 languages in the MuST-C v1.0 dataset show that CFM effectively improves the performance of SST. | 翻訳日:2024-08-01 11:58:12 公開日:2024-07-31 |
# 野生における単眼の物体再構成
Monocular Human-Object Reconstruction in the Wild ( http://arxiv.org/abs/2407.20566v2 ) ライセンス: Link先を確認 | Chaofan Huo, Ye Shi, Jingya Wang, | (参考訳) 画像から人間と物体の相互作用を再構築し、人間が3次元空間内の物体とどのように相互作用するかを理解するためには、3次元物体空間関係の事前知識の習得が不可欠である。
以前の研究では、制御された環境で収集されたデータセットから、事前にこれを学習していましたが、ドメインの多様性のため、現実のシナリオへの一般化に苦労しています。
この制限を克服するため,野生の2次元画像から3次元対象空間関係を学習する2次元教師付き手法を提案する。
本手法では,フローベースニューラルネットワークを用いて,データセットの各画像に対する2次元人間オブジェクトのキーポイントレイアウトとビューポートの事前分布を学習する。
2次元画像から先行学習した2次元画像の有効性は、人・物体間の相対的なポーズを調整するための事前調整を行うことにより、人・物体再構成作業において実証される。
In-the-wildイメージに対する我々の手法の検証とベンチマークを行うため、実世界のシナリオにおいて8つのオブジェクトとのさまざまなインタラクションからなるWildHOIデータセットをYouTubeのWebサイトから収集した。
本研究では,屋内BEHAVEデータセットと屋外WildHOIデータセットを用いて実験を行った。
提案手法は,2次元レイアウト情報しか利用していない場合でも,BEHAVEデータセット上で完全な3次元教師付き手法を用いてほぼ同等の性能を達成し,ワイド画像における一般性やインタラクションの多様性の観点から,従来の手法よりも優れていることを示す。
Learning the prior knowledge of the 3D human-object spatial relation is crucial for reconstructing human-object interaction from images and understanding how humans interact with objects in 3D space. Previous works learn this prior from datasets collected in controlled environments, but due to the diversity of domains, they struggle to generalize to real-world scenarios. To overcome this limitation, we present a 2D-supervised method that learns the 3D human-object spatial relation prior purely from 2D images in the wild. Our method utilizes a flow-based neural network to learn the prior distribution of the 2D human-object keypoint layout and viewports for each image in the dataset. The effectiveness of the prior learned from 2D images is demonstrated on the human-object reconstruction task by applying the prior to tune the relative pose between the human and the object during the post-optimization stage. To validate and benchmark our method on in-the-wild images, we collect the WildHOI dataset from the YouTube website, which consists of various interactions with 8 objects in real-world scenarios. We conduct the experiments on the indoor BEHAVE dataset and the outdoor WildHOI dataset. The results show that our method achieves almost comparable performance with fully 3D supervised methods on the BEHAVE dataset, even if we have only utilized the 2D layout information, and outperforms previous methods in terms of generality and interaction diversity on in-the-wild images. | 翻訳日:2024-08-01 11:58:12 公開日:2024-07-31 |
# 因果性誘導型自己適応表現による一般化型強化学習に向けて
Towards Generalizable Reinforcement Learning via Causality-Guided Self-Adaptive Representations ( http://arxiv.org/abs/2407.20651v2 ) ライセンス: Link先を確認 | Yupei Yang, Biwei Huang, Fan Feng, Xinyue Wang, Shikui Tu, Lei Xu, | (参考訳) 汎用インテリジェンスには、タスク間の迅速な適応が必要です。
既存の強化学習(RL)法は一般化に進展したが、典型的にはソースとターゲットドメイン間の分布変化のみを仮定する。
本稿では,分布空間と環境空間の両方が変化するような,より広い範囲のシナリオについて検討する。
例えば、Atariゲームでは、エージェントに様々なレベルのモードと難易度を持つタスクに一般化するように訓練します。
この課題に対処するために、我々はCSRと呼ばれる因果性誘導型自己適応表現に基づくアプローチを導入し、エージェントに動的に進化する一連のタスクを効果的かつ効率的に一般化させる。
具体的には、RLシステム内の潜在因果変数と世界モデルを特徴付けるために因果表現学習を用いる。
このようなコンパクトな因果表現は変数間の構造的関係を解明し、エージェントが環境の変化が空間の分布変化や変動に由来するかどうかを自律的に決定し、これらの変化を正確に特定することを可能にする。
次に、異なるシナリオの下でモデルを微調整する3段階の戦略を考案します。
実験により、CSRは少数のサンプルでターゲットドメインに効率よく適応し、シミュレーション環境、カートポール、アタリゲームなど、幅広いシナリオで最先端のベースラインを上回ります。
General intelligence requires quick adaption across tasks. While existing reinforcement learning (RL) methods have made progress in generalization, they typically assume only distribution changes between source and target domains. In this paper, we explore a wider range of scenarios where both the distribution and environment spaces may change. For example, in Atari games, we train agents to generalize to tasks with different levels of mode and difficulty, where there could be new state or action variables that never occurred in previous environments. To address this challenging setting, we introduce a causality-guided self-adaptive representation-based approach, called CSR, that equips the agent to generalize effectively and efficiently across a sequence of tasks with evolving dynamics. Specifically, we employ causal representation learning to characterize the latent causal variables and world models within the RL system. Such compact causal representations uncover the structural relationships among variables, enabling the agent to autonomously determine whether changes in the environment stem from distribution shifts or variations in space, and to precisely locate these changes. We then devise a three-step strategy to fine-tune the model under different scenarios accordingly. Empirical experiments show that CSR efficiently adapts to the target domains with only a few samples and outperforms state-of-the-art baselines on a wide range of scenarios, including our simulated environments, Cartpole, and Atari games. | 翻訳日:2024-08-01 11:58:12 公開日:2024-07-31 |
# 3D-GRES: 一般化された3D参照式セグメンテーション
3D-GRES: Generalized 3D Referring Expression Segmentation ( http://arxiv.org/abs/2407.20664v2 ) ライセンス: Link先を確認 | Changli Wu, Yihang Liu, Jiayi Ji, Yiwei Ma, Haowei Wang, Gen Luo, Henghui Ding, Xiaoshuai Sun, Rongrong Ji, | (参考訳) 3D参照式セグメンテーション(3D-RES)は、自然言語の記述に基づいて、特定のインスタンスを3D空間内にセグメント化することを目的としている。
しかし、現在のアプローチは単一のターゲットをセグメント化することに限定され、タスクの汎用性を制限する。
この制限を克服するために、自然言語命令に基づいて任意のインスタンスをセグメント化できるGeneralized 3D Referring Expression Segmentation (3D-GRES)を導入する。
この課題に対処するために,多目的セグメンテーションタスクをより単純な個別セグメンテーションに分割する,MDIN(Multi-Query Decoupled Interaction Network)を提案する。
MDINはテキスト駆動スパースクエリ(TSQ)とマルチオブジェクトデカップリング最適化(MDO)の2つの基本コンポーネントから構成される。
TSQは、クエリの初期化としてキーターゲット上に分散されたスパースポイントクラウド機能を生成する。
一方、MDOは、セマンティック一貫性を維持しながら、複数のオブジェクトシナリオのそれぞれのターゲットを異なるクエリに割り当てる。
このタスクに適応するために、我々は新しいデータセット、すなわちMulti3DRを構築します。
このデータセットに対する総合的な評価は、既存のモデルよりも大幅に拡張され、複雑な多目的3Dシーン理解のための新しいパスがチャート化される。
ベンチマークとコードはhttps://github.com/sosppxo/MDINで公開されている。
3D Referring Expression Segmentation (3D-RES) is dedicated to segmenting a specific instance within a 3D space based on a natural language description. However, current approaches are limited to segmenting a single target, restricting the versatility of the task. To overcome this limitation, we introduce Generalized 3D Referring Expression Segmentation (3D-GRES), which extends the capability to segment any number of instances based on natural language instructions. In addressing this broader task, we propose the Multi-Query Decoupled Interaction Network (MDIN), designed to break down multi-object segmentation tasks into simpler, individual segmentations. MDIN comprises two fundamental components: Text-driven Sparse Queries (TSQ) and Multi-object Decoupling Optimization (MDO). TSQ generates sparse point cloud features distributed over key targets as the initialization for queries. Meanwhile, MDO is tasked with assigning each target in multi-object scenarios to different queries while maintaining their semantic consistency. To adapt to this new task, we build a new dataset, namely Multi3DRes. Our comprehensive evaluations on this dataset demonstrate substantial enhancements over existing models, thus charting a new path for intricate multi-object 3D scene comprehension. The benchmark and code are available at https://github.com/sosppxo/MDIN. | 翻訳日:2024-08-01 11:58:12 公開日:2024-07-31 |
# 高性能かつエネルギー効率の高い物体検出のための整数値トレーニングとスパイク駆動型推論スパイクニューラルネットワーク
Integer-Valued Training and Spike-Driven Inference Spiking Neural Network for High-performance and Energy-efficient Object Detection ( http://arxiv.org/abs/2407.20708v2 ) ライセンス: Link先を確認 | Xinhao Luo, Man Yao, Yuhong Chou, Bo Xu, Guoqi Li, | (参考訳) 脳にインスパイアされたスパイキングニューラルネット(SNN)は、ANN(Artificial Neural Networks)に対して、バイオ楽観性と低パワーのアドバンテージを持っている。
SNNの応用は、その性能が劣っているため、現時点では単純な分類タスクに限られている。
本研究では,オブジェクト検出におけるANNとSNNのパフォーマンスギャップを埋めることに焦点を当てる。
私たちの設計はネットワークアーキテクチャとスパイクニューロンを中心に展開しています。
まず、過剰に複雑なモジュール設計は、YOLOシリーズが対応するスパイクバージョンに変換されたときにスパイク劣化を引き起こす。
我々は,バニラYOLOを単純化し,メタSNNブロックを組み込むことで,この問題を解決するためにSpikeYOLOアーキテクチャを設計する。
第二に、物体検出は、スパイクニューロンによる膜電位のバイナリスパイクへの変換における量子化誤差に対してより敏感である。
この課題に対処するために、推論中に仮想タイムステップを拡張してスパイク駆動を維持しながら、トレーニング中にInteger値を活性化する新しいスパイクニューロンを設計する。
提案手法は静的およびニューロモルフィックな物体検出データセットの両方で検証される。
静的COCOデータセットでは、66.2%のmAP@50と48.9%のmAP@50:95が得られる。
ニューロモルフィックなGen1データセットでは67.2%のmAP@50が得られ、これは同等のアーキテクチャを持つANNよりも+2.5%大きく、エネルギー効率は5.7*向上する。
コード:https://github.com/BICLab/SpikeYOLO
Brain-inspired Spiking Neural Networks (SNNs) have bio-plausibility and low-power advantages over Artificial Neural Networks (ANNs). Applications of SNNs are currently limited to simple classification tasks because of their poor performance. In this work, we focus on bridging the performance gap between ANNs and SNNs on object detection. Our design revolves around network architecture and spiking neuron. First, the overly complex module design causes spike degradation when the YOLO series is converted to the corresponding spiking version. We design a SpikeYOLO architecture to solve this problem by simplifying the vanilla YOLO and incorporating meta SNN blocks. Second, object detection is more sensitive to quantization errors in the conversion of membrane potentials into binary spikes by spiking neurons. To address this challenge, we design a new spiking neuron that activates Integer values during training while maintaining spike-driven by extending virtual timesteps during inference. The proposed method is validated on both static and neuromorphic object detection datasets. On the static COCO dataset, we obtain 66.2% mAP@50 and 48.9% mAP@50:95, which is +15.0% and +18.7% higher than the prior state-of-the-art SNN, respectively. On the neuromorphic Gen1 dataset, we achieve 67.2% mAP@50, which is +2.5% greater than the ANN with equivalent architecture, and the energy efficiency is improved by 5.7*. Code: https://github.com/BICLab/SpikeYOLO | 翻訳日:2024-08-01 11:58:12 公開日:2024-07-31 |
# 非一貫性な重み付き知識ベース検索のためのコストベースセマンティクス
Cost-Based Semantics for Querying Inconsistent Weighted Knowledge Bases ( http://arxiv.org/abs/2407.20754v2 ) ライセンス: Link先を確認 | Meghyn Bienvenu, Camille Bourgaux, Robin Jean, | (参考訳) 本稿では,一貫性のない記述論理知識ベースを問合せするための定量的アプローチについて検討する。
我々は、公理とアサーションの両方が(おそらく無限の)重みを持つ重み付き知識ベースを考察し、それが違反する公理とアサーションに基づいて各解釈にコストを割り当てる。
確実かつ可能な答えの2つの概念は、コストが与えられた限界を超えない解釈を考慮し、最適コストの解釈に注意を向けることによって定義される。
我々の主な貢献は、ELbot と ALCO 間の記述ロジックに対して、有界コスト満足度と確実かつ可能な回答認識の組合せとデータ複雑さを包括的に分析することである。
In this paper, we explore a quantitative approach to querying inconsistent description logic knowledge bases. We consider weighted knowledge bases in which both axioms and assertions have (possibly infinite) weights, which are used to assign a cost to each interpretation based upon the axioms and assertions it violates. Two notions of certain and possible answer are defined by either considering interpretations whose cost does not exceed a given bound or restricting attention to optimal-cost interpretations. Our main contribution is a comprehensive analysis of the combined and data complexity of bounded cost satisfiability and certain and possible answer recognition, for description logics between ELbot and ALCO. | 翻訳日:2024-08-01 11:58:12 公開日:2024-07-31 |
# MoFO: LLMファインチューニングにおけるフォーミングの緩和のためのモーメントフィルタ最適化
MoFO: Momentum-Filtered Optimizer for Mitigating Forgetting in LLM Fine-Tuning ( http://arxiv.org/abs/2407.20999v2 ) ライセンス: Link先を確認 | Yupeng Chen, Senmiao Wang, Zhihang Lin, Zeyu Qin, Yushun Zhang, Tian Ding, Ruoyu Sun, | (参考訳) 近年,大規模言語モデル (LLM) は様々なタスクにおいて顕著な能力を発揮している。
通常、LLMは大きなコーパスで事前訓練され、タスク固有のデータセットで微調整される。
しかし、微調整の間、LLMは事前学習段階で得られた知識を忘れてしまい、一般的な能力は低下する。
この問題に対処するために,Momentum-Filtered Optimizer (MoFO) と呼ばれる新しい微調整アルゴリズムを提案する。
MoFOの鍵となる考え方は、モデルパラメータを最大運動量で反復的に選択し、更新することである。
フルパラメータトレーニングと比較して、MoFOはトレーニング済みモデルにパラメータを近づけながら、同様の微調整性能を達成し、知識の忘れを緩和する。
緩和を忘れる既存の方法とは異なり、MoFOは以下の2つの利点を組み合わせている。
まず、MoFOは事前トレーニングデータへのアクセスを必要としない。
これにより、MoFOは特に、チェックポイントのみのオープンソース LLM など、事前トレーニングデータが利用できない微調整シナリオに適している。
第二に、MoFOは元の損失関数を変更しない。
これにより、微調整タスクのモデルパフォーマンスが損なわれるのを避けることができる。
我々は、厳密な収束解析と広範囲な実験を通してMoFOを検証し、既存の方法よりも優れていることを実証し、微調整性能を低下させ、向上させた。
Recently, large language models (LLMs) have demonstrated remarkable capabilities in a wide range of tasks. Typically, an LLM is pre-trained on large corpora and subsequently fine-tuned on task-specific datasets. However, during fine-tuning, LLMs may forget the knowledge acquired in the pre-training stage, leading to a decline in general capabilities. To address this issue, we propose a new fine-tuning algorithm termed Momentum-Filtered Optimizer (MoFO). The key idea of MoFO is to iteratively select and update the model parameters with the largest momentum magnitudes. Compared to full-parameter training, MoFO achieves similar fine-tuning performance while keeping parameters closer to the pre-trained model, thereby mitigating knowledge forgetting. Unlike most existing methods for forgetting mitigation, MoFO combines the following two advantages. First, MoFO does not require access to pre-training data. This makes MoFO particularly suitable for fine-tuning scenarios where pre-training data is unavailable, such as fine-tuning checkpoint-only open-source LLMs. Second, MoFO does not alter the original loss function. This could avoid impairing the model performance on the fine-tuning tasks. We validate MoFO through rigorous convergence analysis and extensive experiments, demonstrating its superiority over existing methods in mitigating forgetting and enhancing fine-tuning performance. | 翻訳日:2024-08-01 11:58:12 公開日:2024-07-31 |