このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240828となっている論文です。

PDF登録状況(公開日: 20240828)

TitleAuthorsAbstract論文公表日・翻訳日
# アクティベーション関数最適化法:学習可能な直列線形単位(LSLU)

Activation function optimization method: Learnable series linear units (LSLUs) ( http://arxiv.org/abs/2409.08283v1 )

ライセンス: Link先を確認
Chuan Feng, Xi Lin, Shiping Zhu, Hongkang Shi, Maojie Tang, Hua Huang, (参考訳) 効果的なアクティベーション関数は非線形変換を導入し、より強力なキャパビリティを持つニューラルネットワークを提供し、実際のデータ分布に適応するのに役立つ。 Huawei Noah's Labは、動的アクティベーション関数は、ニューラルネットワークの非線形能力を高めるために静的アクティベーション関数よりも適していると考えている。 清華大学の関連研究も、動的に調節された活性化関数を使うことを示唆している。 清華大学とHuawei Noah's Labの微調整アクティベーション関数を利用するアイデアに基づいて,LSLU(Learnable Series Linear Units)と呼ばれる一連の学習可能なアクティベーション関数を提案する。 この方法は、精度を向上しつつ、ディープラーニングネットワークを単純化する。 この方法は、学習可能なパラメータ {\theta} と {\omega} を導入し、アクティベーション関数を制御し、それを現在のレイヤのトレーニング段階に適応させ、モデルの一般化を改善する。 原則は、各アクティベーション層における非線形性を高め、ネットワーク全体の非線形性を高めることである。 CIFAR10, CIFAR100および特定のタスクデータセット(例えばSilkworm)上でのLSLUの性能を評価し, その有効性を検証する。 学習可能なパラメータ {\theta} と {\omega} の収束挙動と一般化への影響を解析した。 実験の結果,LSLUはトレーニングを高速化しながら,様々なタスクにおいて,元のモデルの一般化能力を向上することが示された。 バニラネットのトレーニングでは、パラメータ {\theta} は最初減少し、安定化前に増加し、一方 {\omega} は反対の傾向を示す。 最終的にLSLUは、VanillaNetのCIFAR100で3.17%の精度向上を実現している(Table 3)。 コードはhttps://github.com/vontran2021/Learnable-series-linear-units-LSLUで公開されている。

Effective activation functions introduce non-linear transformations, providing neural networks with stronger fitting capa-bilities, which help them better adapt to real data distributions. Huawei Noah's Lab believes that dynamic activation functions are more suitable than static activation functions for enhancing the non-linear capabilities of neural networks. Tsinghua University's related research also suggests using dynamically adjusted activation functions. Building on the ideas of using fine-tuned activation functions from Tsinghua University and Huawei Noah's Lab, we propose a series-based learnable ac-tivation function called LSLU (Learnable Series Linear Units). This method simplifies deep learning networks while im-proving accuracy. This method introduces learnable parameters {\theta} and {\omega} to control the activation function, adapting it to the current layer's training stage and improving the model's generalization. The principle is to increase non-linearity in each activation layer, boosting the network's overall non-linearity. We evaluate LSLU's performance on CIFAR10, CIFAR100, and specific task datasets (e.g., Silkworm), validating its effectiveness. The convergence behavior of the learnable parameters {\theta} and {\omega}, as well as their effects on generalization, are analyzed. Our empirical results show that LSLU enhances the general-ization ability of the original model in various tasks while speeding up training. In VanillaNet training, parameter {\theta} initially decreases, then increases before stabilizing, while {\omega} shows an opposite trend. Ultimately, LSLU achieves a 3.17% accuracy improvement on CIFAR100 for VanillaNet (Table 3). Codes are available at https://github.com/vontran2021/Learnable-series-linear-units-LSLU.
翻訳日:2024-09-22 21:50:24 公開日:2024-08-28
# 遠隔教育環境におけるデータベース学習の活用

Empowering Database Learning Through Remote Educational Escape Rooms ( http://arxiv.org/abs/2409.08284v1 )

ライセンス: Link先を確認
Enrique Barra, Sonsoles López-Pernas, Aldo Gordillo, Alejandro Pozo, Andres Muñoz-Arcentales, Javier Conde, (参考訳) データベースについて学ぶことは、ソフトウェア工学やコンピュータサイエンスを学ぶ個人や、IT産業に関わる個人にとって不可欠である。 2年連続で4つの高等教育コースのデータベースを学習するための遠隔教育避難室を解析した。 本研究では,学生の学習効果を評価するための事前試験とポストテスト,学生の知覚を収集するためのアンケート,学生のインタラクションとパフォーマンスを客観的に記録するWebプラットフォームという3つの評価手段を用いた。 遠隔で実施した教育避難室は,データベースの教育に有効かつ効果的であることを示す。

Learning about databases is indispensable for individuals studying software engineering or computer science or those involved in the IT industry. We analyzed a remote educational escape room for teaching about databases in four different higher education courses in two consecutive academic years. We employed three instruments for evaluation: a pre- and post-test to assess the escape room's effectiveness for student learning, a questionnaire to gather students' perceptions, and a Web platform that unobtrusively records students' interactions and performance. We show novel evidence that educational escape rooms conducted remotely can be engaging as well as effective for teaching about databases.
翻訳日:2024-09-22 21:50:24 公開日:2024-08-28
# AutoGeo: 幾何学的画像データセット作成の自動化による幾何学的理解の強化

AutoGeo: Automating Geometric Image Dataset Creation for Enhanced Geometry Understanding ( http://arxiv.org/abs/2409.09039v1 )

ライセンス: Link先を確認
Zihan Huang, Tao Wu, Wang Lin, Shengyu Zhang, Jingyuan Chen, Fei Wu, (参考訳) 大規模言語モデルの急速な進歩により、数学的推論におけるそれらの能力への関心が高まっている。 しかし、既存の研究は主にテキストベースの代数問題に焦点を当てており、高品質な幾何学的データセットが欠如していることから幾何学の研究は無視されている。 このギャップに対処するために,大規模かつ多様な幾何学的データセットの需要を満たすために,数学的幾何学的画像を自動的に生成する新しいアプローチであるAutoGeoを紹介する。 AutoGeoは100kの高品質な画像テキストペアからなる広範なリポジトリであるAutoGeo-100kの作成を容易にする。 正確に定義された幾何学的節を活用することで、AutoGeo-100kは、線、多角形、円、複雑な空間関係など、幅広い幾何学的形状を含む。 さらに,マルチモーダル大規模言語モデルの性能向上にAutoGeo-100kが有効であることを示す。 実験結果から,幾何学的キャプションや数学的推論といったタスクにおいて,精度が向上していることが証明された。 この研究は、幾何学的データセットの可用性における重要なギャップを埋めるだけでなく、教育と研究における高度なAI駆動ツールの進歩の道を開く。 プロジェクトページ: https://autogeo-official.github.io/.com

With the rapid advancement of large language models, there has been a growing interest in their capabilities in mathematical reasoning. However, existing research has primarily focused on text-based algebra problems, neglecting the study of geometry due to the lack of high-quality geometric datasets. To address this gap, this paper introduces AutoGeo, a novel approach for automatically generating mathematical geometric images to fulfill the demand for large-scale and diverse geometric datasets. AutoGeo facilitates the creation of AutoGeo-100k, an extensive repository comprising 100k high-quality geometry image-text pairs. By leveraging precisely defined geometric clauses, AutoGeo-100k contains a wide variety of geometric shapes, including lines, polygons, circles, and complex spatial relationships, etc. Furthermore, this paper demonstrates the efficacy of AutoGeo-100k in enhancing the performance of multimodal large language models through fine-tuning. Experimental results indicate significant improvements in the model's ability in handling geometric images, as evidenced by enhanced accuracy in tasks such as geometric captioning and mathematical reasoning. This research not only fills a critical gap in the availability of geometric datasets but also paves the way for the advancement of sophisticated AI-driven tools in education and research. Project page: https://autogeo-official.github.io/.
翻訳日:2024-09-22 21:50:24 公開日:2024-08-28
# ARSecure:拡張現実を利用した新しいエンドツーエンド暗号化メッセージングシステム

ARSecure: A Novel End-to-End Encryption Messaging System Using Augmented Reality ( http://arxiv.org/abs/2409.04457v1 )

ライセンス: Link先を確認
Hamish Alsop, Douglas Alsop, Joseph Solomon, Liam Aumento, Mark Butters, Cameron Millar, Yagmur Yigit, Leandros Maglaras, Naghmeh Moradpoor, (参考訳) End-to-End Encryption (E2EE)は、意図した受信者だけがメッセージを読むことを保証する。 Signal、WhatsApp、AppleのiMessage、Telegramなどの人気のインスタントメッセージング(IM)アプリケーションがE2EEを提供していると主張している。 しかし、クライアントサイドスキャン(CSS)は、送信端と受信端の両方でテキスト、画像、オーディオ、ビデオファイルを含むすべてのメッセージをスキャンすることで、これらの主張を損なう。 産業や政府機関はCSSを支持し、児童ポルノ、テロリズム、その他の違法行為のような有害なコンテンツと戦う。 本稿では,拡張現実メガネを利用したエンドツーエンドの暗号化メッセージングソリューションであるARSecureを紹介する。 ARSecureでは、携帯電話端末に到達する前にメッセージを暗号化し、復号化することが可能で、E2EEシステムにおけるCSS技術に効果的に対抗できる。

End-to-End Encryption (E2EE) ensures that only the intended recipient(s) can read messages. Popular instant messaging (IM) applications such as Signal, WhatsApp, Apple's iMessage, and Telegram claim to offer E2EE. However, client-side scanning (CSS) undermines these claims by scanning all messages, including text, images, audio, and video files, on both sending and receiving ends. Industry and government parties support CSS to combat harmful content such as child pornography, terrorism, and other illegal activities. In this paper, we introduce ARSecure, a novel end-to-end encryption messaging solution utilizing augmented reality glasses. ARSecure allows users to encrypt and decrypt their messages before they reach their phone devices, effectively countering the CSS technology in E2EE systems.
翻訳日:2024-09-15 05:31:27 公開日:2024-08-28
# Caenorhabditis ElegansにおけるAversive Olfactory Learning Circuitによる画像分類のためのニューラルネットワーク

An Artificial Neural Network for Image Classification Inspired by Aversive Olfactory Learning Circuits in Caenorhabditis Elegans ( http://arxiv.org/abs/2409.07466v1 )

ライセンス: Link先を確認
Xuebin Wang, Chunxiuzi Liu, Meng Zhao, Ke Zhang, Zengru Di, He Liu, (参考訳) 本研究では,線虫Caenorhabditis elegans(C. elegans)の逆嗅覚学習回路に触発された画像分類タスクのためのニューラルネットワーク(ANN)を提案する。 さまざまなタスクにおけるANNの顕著なパフォーマンスにもかかわらず、過度なパラメータ化、高いトレーニングコスト、限られた一般化能力といった課題に直面している。 C. elegansは、わずか302の神経細胞からなる単純な神経系を持ち、神経生物学研究のパラダイムとして機能し、学習を含む複雑な行動を可能にする。 本研究では、行動実験と高スループット遺伝子シークエンシングを通じて、C. elegansの可逆嗅覚学習に関連する重要な神経回路を同定し、それらを画像分類ANNアーキテクチャに翻訳する。 さらに、異なるアーキテクチャを持つ他の2つの画像分類ANNは、バイオインスパイアされた設計の利点を強調するために、比較性能解析のために構築された。 C. elegansの逆嗅覚学習回路にインスパイアされたANNは、画像分類タスクにおいて、特により複雑な分類課題に取り組む際に、高い精度、より良い一貫性、より高速な収束率を達成することを示す。 本研究は,ANNの能力向上におけるバイオインスピレーションドデザインの可能性を示すだけでなく,将来的なANN設計のための新たな視点と方法論を提供する。

This study introduces an artificial neural network (ANN) for image classification task, inspired by the aversive olfactory learning circuits of the nematode Caenorhabditis elegans (C. elegans). Despite the remarkable performance of ANNs in a variety of tasks, they face challenges such as excessive parameterization, high training costs and limited generalization capabilities. C. elegans, with its simple nervous system comprising only 302 neurons, serves as a paradigm in neurobiological research and is capable of complex behaviors including learning. This research identifies key neural circuits associated with aversive olfactory learning in C. elegans through behavioral experiments and high-throughput gene sequencing, translating them into an image classification ANN architecture. Additionally, two other image classification ANNs with distinct architectures were constructed for comparative performance analysis to highlight the advantages of bio-inspired design. The results indicate that the ANN inspired by the aversive olfactory learning circuits of C. elegans achieves higher accuracy, better consistency and faster convergence rates in image classification task, especially when tackling more complex classification challenges. This study not only showcases the potential of bio-inspired design in enhancing ANN capabilities but also provides a novel perspective and methodology for future ANN design.
翻訳日:2024-09-15 05:01:16 公開日:2024-08-28
# フィードフォワードニューラルネットワークを用いた制御パラメータをもつ非線形力学系の機械学習

Machine Learning of Nonlinear Dynamical Systems with Control Parameters Using Feedforward Neural Networks ( http://arxiv.org/abs/2409.07468v1 )

ライセンス: Link先を確認
Hidetsugu Sakaguchi, (参考訳) いくつかの著者は、エコー状態ネットワークがいくつかの制御パラメータのデータを用いて、いくつかの非線形微分方程式の分岐図を再現していると報告している。 より単純なフィードフォワードニューラルネットワークは,大域的に結合されたスチュアート・ランダウ方程式において,ロジスティクスマップの分岐図と同期遷移を再現できることを示した。

Several authors have reported that the echo state network reproduces bifurcation diagrams of some nonlinear differential equations using the data for a few control parameters. We demonstrate that a simpler feedforward neural network can also reproduce the bifurcation diagram of the logistics map and synchronization transition in globally coupled Stuart-Landau equations.
翻訳日:2024-09-15 05:01:16 公開日:2024-08-28
# YOLO NAS 小型・超高勾配を用いた内耳補助装置の小型物体検出

Small Object Detection for Indoor Assistance to the Blind using YOLO NAS Small and Super Gradients ( http://arxiv.org/abs/2409.07469v1 )

ライセンス: Link先を確認
Rashmi BN, R. Guru, Anusuya M A, (参考訳) 物体検出アルゴリズムの進歩は、視覚障害者のニーズに応える支援技術のための新しい道を開いた。 本稿では,小物体検出の課題に対処して,視覚障害者に対する屋内支援のための新しいアプローチを提案する。 軽量で効率的なオブジェクト検出モデルであるYOLO NAS Smallアーキテクチャを,Super Gradientsトレーニングフレームワークを用いて最適化する手法を提案する。 この組み合わせにより、家具、家電、家庭用品などの室内環境をナビゲートする際の盲人支援に不可欠な小さな物体をリアルタイムに検出することができる。 提案手法は低レイテンシと高精度を重視し,ユーザの空間認識と周囲とのインタラクションを高めるために,タイムリーかつ情報的音声ベースのガイダンスを可能にする。 本報告では,視覚障害者に対する屋内支援の実践的ソリューションを提供する上でのシステムの有効性について,実装,実験結果について詳述する。

Advancements in object detection algorithms have opened new avenues for assistive technologies that cater to the needs of visually impaired individuals. This paper presents a novel approach for indoor assistance to the blind by addressing the challenge of small object detection. We propose a technique YOLO NAS Small architecture, a lightweight and efficient object detection model, optimized using the Super Gradients training framework. This combination enables real-time detection of small objects crucial for assisting the blind in navigating indoor environments, such as furniture, appliances, and household items. Proposed method emphasizes low latency and high accuracy, enabling timely and informative voice-based guidance to enhance the user's spatial awareness and interaction with their surroundings. The paper details the implementation, experimental results, and discusses the system's effectiveness in providing a practical solution for indoor assistance to the visually impaired.
翻訳日:2024-09-15 05:01:16 公開日:2024-08-28
# mHealthアプリケーションにおけるデザインサイエンス研究のナビゲート:ベストプラクティスのガイド

Navigating Design Science Research in mHealth Applications: A Guide to Best Practices ( http://arxiv.org/abs/2409.07470v1 )

ライセンス: Link先を確認
Avnish Singh Jat, Tor-Morten Grønli, George Ghinea, (参考訳) モバイルデバイスの急速な普及とワイヤレス技術の進歩により、モバイルヘルス(mHealth)アプリケーションによるヘルスケアデリバリーの新しい時代が生まれている。 デザインサイエンス・リサーチ(Design Science Research、DSR)は、現実世界の問題を解決する革新的なアーティファクトを作成し、評価することを目的とした、広く使われている研究パラダイムである。 本稿では,mHealth アプリケーションプロジェクトにおける DSR 活用のための包括的枠組みを提案する。 我々は、様々なDSR原則と方法論について議論し、mHealthアプリケーションの開発と評価における適用性と重要性を強調した。 さらに、mHealthプロジェクトにおけるDSRの実施を実証し、研究者や実践者に対して実践的なレコメンデーションを提供するために、いくつかのケーススタディを提示した。

The rapid proliferation of mobile devices and advancements in wireless technologies have given rise to a new era of healthcare delivery through mobile health (mHealth) applications. Design Science Research (DSR) is a widely used research paradigm that aims to create and evaluate innovative artifacts to solve real-world problems. This paper presents a comprehensive framework for employing DSR in mHealth application projects to address healthcare challenges and improve patient outcomes. We discussed various DSR principles and methodologies, highlighting their applicability and importance in developing and evaluating mHealth applications. Furthermore, we present several case studies to exemplify the successful implementation of DSR in mHealth projects and provide practical recommendations for researchers and practitioners.
翻訳日:2024-09-15 05:01:16 公開日:2024-08-28
# AI、気候、透明性:AI法の運用と改善

AI, Climate, and Transparency: Operationalizing and Improving the AI Act ( http://arxiv.org/abs/2409.07471v1 )

ライセンス: Link先を確認
Nicolas Alder, Kai Ebert, Ralf Herbrich, Philipp Hacker, (参考訳) 本稿では、気候関連透明性に関するAI法の規定を批判的に検討し、その実施における大きなギャップと課題を明らかにする。 我々は、AI推論中のエネルギー消費の排除、AIアプリケーションからの間接的な温室効果ガス排出のカバーの欠如、標準報告方法論の欠如など、主要な欠点を識別する。 本論では,この法律の範囲内での推論関連エネルギー利用を復活させる新たな解釈を提案し,市場アカウンタビリティと公衆の監視を促進するために,気候関連情報公開への公衆アクセスを提唱する。 累積サーバレベルのエネルギーレポートを最も適した方法として推奨する。 また、AIの環境への影響を改善するために、サステナビリティリスクアセスメントや再生可能エネルギー目標など、より広範な政策変更を提案する。

This paper critically examines the AI Act's provisions on climate-related transparency, highlighting significant gaps and challenges in its implementation. We identify key shortcomings, including the exclusion of energy consumption during AI inference, the lack of coverage for indirect greenhouse gas emissions from AI applications, and the lack of standard reporting methodology. The paper proposes a novel interpretation to bring inference-related energy use back within the Act's scope and advocates for public access to climate-related disclosures to foster market accountability and public scrutiny. Cumulative server level energy reporting is recommended as the most suitable method. We also suggests broader policy changes, including sustainability risk assessments and renewable energy targets, to better address AI's environmental impact.
翻訳日:2024-09-15 05:01:16 公開日:2024-08-28
# 倫理的AIガバナンス - 信頼できるAIを評価する方法

Ethical AI Governance: Methods for Evaluating Trustworthy AI ( http://arxiv.org/abs/2409.07473v1 )

ライセンス: Link先を確認
Louise McCormack, Malika Bendechache, (参考訳) 信頼できる人工知能(TAI)は、人間の価値観に沿った倫理を統合し、AIの振る舞いや意思決定への影響を考察する。 主に自己評価に依存するTAI評価は、AI開発と使用における倫理的基準と安全性を保証することを目的としている。 本稿では、文献における現在のTAI評価手法を概観し、分類を提供し、この分野における自己評価手法の理解に寄与する。

Trustworthy Artificial Intelligence (TAI) integrates ethics that align with human values, looking at their influence on AI behaviour and decision-making. Primarily dependent on self-assessment, TAI evaluation aims to ensure ethical standards and safety in AI development and usage. This paper reviews the current TAI evaluation methods in the literature and offers a classification, contributing to understanding self-assessment methods in this field.
翻訳日:2024-09-15 05:01:16 公開日:2024-08-28
# デジタル時代の異文化間コミュニケーション : エモジにおける文化的表現と帰納性の分析

Cross-Cultural Communication in the Digital Age: An Analysis of Cultural Representation and Inclusivity in Emojis ( http://arxiv.org/abs/2409.07475v1 )

ライセンス: Link先を確認
Lingfeng Li, Xiangwen Zheng, (参考訳) 絵文字はデジタル世界で普遍的な言語となり、ユーザーは様々な文化的文脈で感情、アイデア、アイデンティティを表現できるようになった。 絵文字は文化的なシンボルや多様な表現を取り入れているため、異文化間のコミュニケーションにおいて重要な役割を担っている。 本研究の目的は、絵文字における異なる文化の表現を分析し、絵文字が異文化間のコミュニケーションをどのように促進し、傾向を促進するかを調べ、異なる文化文脈における理解と解釈に対する絵文字の影響を探ることである。

Emojis have become a universal language in the digital world, enabling users to express emotions, ideas, and identities across diverse cultural contexts. As emojis incorporate more cultural symbols and diverse representations, they play a crucial role in cross-cultural communication. This research project aims to analyze the representation of different cultures in emojis, investigate how emojis facilitate cross-cultural communication and promote inclusivity, and explore the impact of emojis on understanding and interpretation in different cultural contexts.
翻訳日:2024-09-15 05:01:16 公開日:2024-08-28
# テストの質と品質のための責任あるAI:Duolingo English Testを事例として

Responsible AI for Test Equity and Quality: The Duolingo English Test as a Case Study ( http://arxiv.org/abs/2409.07476v1 )

ライセンス: Link先を確認
Jill Burstein, Geoffrey T. LaFlair, Kevin Yancey, Alina A. von Davier, Ravit Dotan, (参考訳) 人工知能(AI)は、アイテム生成の効率性や、音声や文字による応答のスコアリングなど、評価のための機会を作成する。 同時に、AI生成アイテムコンテンツのバイアスのような)リスクも生じます。 責任AI(RAI)プラクティスは、AIに関連するリスクを軽減することを目的としている。 この章では、テスト品質(テストスコア推論の適切性)、テストエクイティ(テスト受験者全員の公正性)を達成する上で、RAIプラクティスが果たす重要な役割について論じる。 説明するために、この章では、AIを利用したハイテイクな英語アセスメントであるDuolingo English Test (DET)を用いたケーススタディを提示している。 この章では、DET RAI標準、その開発、およびドメインに依存しないRAI原則との関係について論じている。 さらに、これらのプラクティスが、妥当性と信頼性、公正性、プライバシとセキュリティ、透明性と説明責任の基準といった倫理的原則に、テストのエクイティと品質を確実にするための意味のある対処方法を示す、特定のRAIプラクティスの例も提供する。

Artificial intelligence (AI) creates opportunities for assessments, such as efficiencies for item generation and scoring of spoken and written responses. At the same time, it poses risks (such as bias in AI-generated item content). Responsible AI (RAI) practices aim to mitigate risks associated with AI. This chapter addresses the critical role of RAI practices in achieving test quality (appropriateness of test score inferences), and test equity (fairness to all test takers). To illustrate, the chapter presents a case study using the Duolingo English Test (DET), an AI-powered, high-stakes English language assessment. The chapter discusses the DET RAI standards, their development and their relationship to domain-agnostic RAI principles. Further, it provides examples of specific RAI practices, showing how these practices meaningfully address the ethical principles of validity and reliability, fairness, privacy and security, and transparency and accountability standards to ensure test equity and quality.
翻訳日:2024-09-15 05:01:16 公開日:2024-08-28
# ケミレジスト型センサアレイの小型読み出しのための量子カーネル主成分分析

Quantum Kernel Principal Components Analysis for Compact Readout of Chemiresistive Sensor Arrays ( http://arxiv.org/abs/2409.00115v1 )

ライセンス: Link先を確認
Zeheng Wang, Timothy van der Laan, Muhammad Usman, (参考訳) モノのインターネット(IoT)デバイスの急速な成長は、これらのデバイスによって生成される膨大なデータを扱うために、効率的なデータ圧縮技術を必要とする。 このような状況下では、シンプルでファブリケートで重要なIoTシステムコンポーネントであるCSA(chemiresistive Sensor Arrays)は、同時マルチセンサー操作のために大量のデータを生成する。 データ圧縮問題に対する共通解である古典的主成分分析(cPCA)法は、次元減少時に臨界情報を保存する際の限界に直面している。 本研究では,量子主成分分析(qPCA)を情報保持性を高めるための優れた代替手段として提示する。 特に量子ビット(量子ビット)に制限された場合の低次元シナリオでは,qPCAがcPCAより優れていることが示唆された。 これらの結果は、現在の量子ビット制限にもかかわらず、特にCSAデータ圧縮と読み込みの効率と信頼性を高めるために、現実のIoTアプリケーションにおけるデータ処理に革命をもたらす、ノイズの多い中間スケール量子コンピュータ(NISQ)の可能性を強調している。

The rapid growth of Internet of Things (IoT) devices necessitates efficient data compression techniques to handle the vast amounts of data generated by these devices. In this context, chemiresistive sensor arrays (CSAs), a simple-to-fabricate but crucial component in IoT systems, generate large volumes of data due to their simultaneous multi-sensor operations. Classical principal component analysis (cPCA) methods, a common solution to the data compression challenge, face limitations in preserving critical information during dimensionality reduction. In this study, we present quantum principal component analysis (qPCA) as a superior alternative to enhance information retention. Our findings demonstrate that qPCA outperforms cPCA in various back-end machine-learning modeling tasks, particularly in low-dimensional scenarios when limited Quantum bits (qubits) can be accessed. These results underscore the potential of noisy intermediate-scale quantum (NISQ) computers, despite current qubit limitations, to revolutionize data processing in real-world IoT applications, particularly in enhancing the efficiency and reliability of CSA data compression and readout.
翻訳日:2024-09-08 15:11:32 公開日:2024-08-28
# FedMCP:モデルコントラストパーソナライゼーションを用いたパラメータ効率の良いフェデレーションラーニング

FedMCP: Parameter-Efficient Federated Learning with Model-Contrastive Personalization ( http://arxiv.org/abs/2409.00116v1 )

ライセンス: Link先を確認
Qianyi Zhao, Chen Qu, Cen Chen, Mingyuan Fan, Yanhao Wang, (参考訳) データプライバシに関する懸念や規制の高まりに伴い、フェデレートラーニング(FL)における微調整事前学習言語モデル(PLM)は、NLPタスクの共通パラダイムとなっている。 広く研究されているにもかかわらず、既存の方法には2つの大きな課題がある。 第一に、大規模PLMにおける膨大な数のパラメータは、過剰な通信と計算オーバーヘッドをもたらす。 第二に、クライアント間のデータとタスクの不均一性は、望まれる微調整のパフォーマンスを達成する上で大きな障害となる。 以上の問題に対処するため,FLのためのモデルコントラストパーソナライゼーションを用いたパラメータ効率の高いファインチューニング手法であるFedMCPを提案する。 具体的には、FedMCPはクライアント内の凍結PLMに2つの軽量アダプタモジュール、すなわちグローバルアダプタとプライベートアダプタを追加する。 通信ラウンドでは、各クライアントはグローバルアダプタのみをサーバに送信し、フェデレーションアグリゲーションを行う。 さらに、FedMCPは2つのアダプタ間のモデルコントラスト正規化項を導入する。 これに対し、グローバルアダプタは普遍的な知識を同化することを奨励し、一方、プライベートアダプタはクライアント固有の知識をキャプチャする。 両方のアダプタを活用することで、FedMCPは、個々のクライアントに合わせてカスタマイズされたパーソナライズされたモデルを効果的に提供できる。 高ヘテロジニアスなクロスタスク、クロスサイロデータセットに関する大規模な実験は、FedMCPがPLMの最先端FL微調整アプローチよりも大幅に性能改善を達成していることを示している。

With increasing concerns and regulations on data privacy, fine-tuning pretrained language models (PLMs) in federated learning (FL) has become a common paradigm for NLP tasks. Despite being extensively studied, the existing methods for this problem still face two primary challenges. First, the huge number of parameters in large-scale PLMs leads to excessive communication and computational overhead. Second, the heterogeneity of data and tasks across clients poses a significant obstacle to achieving the desired fine-tuning performance. To address the above problems, we propose FedMCP, a novel parameter-efficient fine-tuning method with model-contrastive personalization for FL. Specifically, FedMCP adds two lightweight adapter modules, i.e., the global adapter and the private adapter, to the frozen PLMs within clients. In a communication round, each client sends only the global adapter to the server for federated aggregation. Furthermore, FedMCP introduces a model-contrastive regularization term between the two adapters. This, on the one hand, encourages the global adapter to assimilate universal knowledge and, on the other hand, the private adapter to capture client-specific knowledge. By leveraging both adapters, FedMCP can effectively provide fine-tuned personalized models tailored to individual clients. Extensive experiments on highly heterogeneous cross-task, cross-silo datasets show that FedMCP achieves substantial performance improvements over state-of-the-art FL fine-tuning approaches for PLMs.
翻訳日:2024-09-08 14:53:30 公開日:2024-08-28
# 機械学習を用いた電離層シンチレーション予測

Ionospheric Scintillation Forecasting Using Machine Learning ( http://arxiv.org/abs/2409.00118v1 )

ライセンス: Link先を確認
Sultan Halawa, Maryam Alansaari, Maryam Sharif, Amel Alhammadi, Ilias Fernini, (参考訳) 本研究は,GNSS信号出力の電子密度不規則さがGNSS信号の変動を引き起こす現象である振幅シンチレーションの重症度を予測するために,GNSS(Global Navigation Satellite System)シンチレーション監視受信機からの履歴データの利用について検討する。 これらの変動はS4インデックスを使って測定できるが、リアルタイムデータは必ずしも利用できない。 この研究は、振幅シンチレーションの強度を予測し、様々な時間的および空間的要因に基づいて、低、中、または高重度レベルに分類できる機械学習(ML)モデルの開発に焦点を当てている。 テストされた6つの異なるMLモデルの中で、XGBoostモデルは最も効果的なモデルとして登場し、バランスの取れたデータセットでトレーニングされた場合、顕著な77%の予測精度を示した。 本研究は、振幅シンチレーションの精度を正確に予測することにより、GNSS信号とナビゲーションシステムの信頼性と性能を向上させる機械学習の有効性を裏付けるものである。

This study explores the use of historical data from Global Navigation Satellite System (GNSS) scintillation monitoring receivers to predict the severity of amplitude scintillation, a phenomenon where electron density irregularities in the ionosphere cause fluctuations in GNSS signal power. These fluctuations can be measured using the S4 index, but real-time data is not always available. The research focuses on developing a machine learning (ML) model that can forecast the intensity of amplitude scintillation, categorizing it into low, medium, or high severity levels based on various time and space-related factors. Among six different ML models tested, the XGBoost model emerged as the most effective, demonstrating a remarkable 77% prediction accuracy when trained with a balanced dataset. This work underscores the effectiveness of machine learning in enhancing the reliability and performance of GNSS signals and navigation systems by accurately predicting amplitude scintillation severity.
翻訳日:2024-09-08 14:53:30 公開日:2024-08-28
# 3-in-1: 効率的なファインタニング, 効率的なバッチ, 構成性のための2次元ロータリー適応法

3-in-1: 2D Rotary Adaptation for Efficient Finetuning, Efficient Batching and Composability ( http://arxiv.org/abs/2409.00119v1 )

ライセンス: Link先を確認
Baohao Liao, Christof Monz, (参考訳) パラメータ効率のよい微調整(PEFT)手法は、大規模言語モデル(LLM)を様々な下流タスクに効果的に適応させ、ストレージとGPUメモリの要求を減らす。 これらの利点にもかかわらず、いくつかのアプリケーションがPEFTに単なるパラメータ効率を超える新しい課題を提起している。 注目すべき課題のひとつは、複数のタスクまたはユーザ固有のアダプタを備えたLLMの効率的なデプロイである。 もう一つの課題は LLM の解釈可能性であり、LLM の機能の理解に不可欠である。 以前の研究では、様々な課題に対処する様々なアプローチが導入された。 本稿では,LLMを簡単な2次元回転で適用し,上記の課題に対処するRoAdという新しい手法を紹介する。(1)RoAdはパラメータ効率が極めて高く,GLUE上での最適性能を実現する8つのコモンセンス推論タスクと4つの算術推論タスクに<0.1\%$トレーニング可能なパラメータを付与する。(2)RoAdはバッチ内で異なるアダプタを必要とするリクエストの効率的な提供を容易にする。

Parameter-efficient finetuning (PEFT) methods effectively adapt large language models (LLMs) to diverse downstream tasks, reducing storage and GPU memory demands. Despite these advantages, several applications pose new challenges to PEFT beyond mere parameter efficiency. One notable challenge involves the efficient deployment of LLMs equipped with multiple task- or user-specific adapters, particularly when different adapters are needed for distinct requests within the same batch. Another challenge is the interpretability of LLMs, which is crucial for understanding how LLMs function. Previous studies introduced various approaches to address different challenges. In this paper, we introduce a novel method, RoAd, which employs a straightforward 2D rotation to adapt LLMs and addresses all the above challenges: (1) RoAd is remarkably parameter-efficient, delivering optimal performance on GLUE, eight commonsense reasoning tasks and four arithmetic reasoning tasks with $<0.1\%$ trainable parameters; (2) RoAd facilitates the efficient serving of requests requiring different adapters within a batch, with an overhead comparable to element-wise multiplication instead of batch matrix multiplication; (3) RoAd enhances LLM's interpretability through integration within a framework of distributed interchange intervention, demonstrated via composition experiments.
翻訳日:2024-09-08 14:53:30 公開日:2024-08-28
# ConCSE: コードスイッチによる埋め込みのための統一されたコントラスト学習と拡張

ConCSE: Unified Contrastive Learning and Augmentation for Code-Switched Embeddings ( http://arxiv.org/abs/2409.00120v1 )

ライセンス: Link先を確認
Jangyeong Jeon, Sangyeon Cho, Minuk Ma, Junyoung Kim, (参考訳) 本稿では、2つの言語が1つの発話の中で交わるコードスイッチング(CS)現象について検討する。 英語と韓国語の間のCSの研究には顕著な必要性がある。 我々は,他の言語におけるCSの等価制約(EC)理論は,言語間の文法的な違いから,部分的には英語と韓国のCSの複雑さを捉えているに過ぎないことを強調した。 我々は,このような課題を緩和するために,英語と韓国のCSシナリオに適した新しいKoglishデータセットを提案する。 まず、様々なタスクにおけるCSデータセットの重要性と必要性を示すために、Koglish-GLUEデータセットを構築した。 CSデータセットに対する単言語学習において,様々な基礎言語モデルの差分結果が得られた。 そこで本研究では,単言語文の埋め込みにおける強みを示すSimCSEは,CSのシナリオに制限があることを仮定した。 我々はCS拡張に基づくアプローチを用いて、新しいKoglish-NLIデータセットを構築し、これを検証した。 このCS拡張データセットであるKoglish-NLIから,CS文のセマンティクスを強調したコードスイッチド埋め込みのためのコントラスト学習と拡張手法であるConCSEを提案する。 The Koglish-STS (Semantic Textual similarity) task。

This paper examines the Code-Switching (CS) phenomenon where two languages intertwine within a single utterance. There exists a noticeable need for research on the CS between English and Korean. We highlight that the current Equivalence Constraint (EC) theory for CS in other languages may only partially capture English-Korean CS complexities due to the intrinsic grammatical differences between the languages. We introduce a novel Koglish dataset tailored for English-Korean CS scenarios to mitigate such challenges. First, we constructed the Koglish-GLUE dataset to demonstrate the importance and need for CS datasets in various tasks. We found the differential outcomes of various foundation multilingual language models when trained on a monolingual versus a CS dataset. Motivated by this, we hypothesized that SimCSE, which has shown strengths in monolingual sentence embedding, would have limitations in CS scenarios. We construct a novel Koglish-NLI (Natural Language Inference) dataset using a CS augmentation-based approach to verify this. From this CS-augmented dataset Koglish-NLI, we propose a unified contrastive learning and augmentation method for code-switched embeddings, ConCSE, highlighting the semantics of CS sentences. Experimental results validate the proposed ConCSE with an average performance enhancement of 1.77\% on the Koglish-STS(Semantic Textual Similarity) tasks.
翻訳日:2024-09-08 14:53:30 公開日:2024-08-28
# BELT-2:マルチタスク脳復号のための脳波-言語表現アライメントのブートストラップ化

BELT-2: Bootstrapping EEG-to-Language representation alignment for multi-task brain decoding ( http://arxiv.org/abs/2409.00121v1 )

ライセンス: Link先を確認
Jinzhao Zhou, Yiqun Duan, Fred Chang, Thomas Do, Yu-Kai Wang, Chin-Teng Lin, (参考訳) 大規模言語モデル(LLM)の様々なマルチモーダリティアプリケーションにおける顕著な成功は、十分に確立されている。 しかし、大きな言語モデルと人間、あるいは脳力学を統合することは、いまだに研究されていない。 本稿では,脳波信号からの符号化性能と復号性能の両立を図ったマルチタスクモデルであるBELT-2を紹介する。 EEGエンコーダの品質を高めるため、BELT-2は革新的な最初の作品である 1) バイトペア符号化(BPE)レベルの脳波言語アライメントの導入 2)マルチタスクトレーニングとデコーディングをEEGドメインに統合する。 マルチタスクのEEGエンコーダをLCMに接続し,EEGエンコーダの中間出力のプレフィックスチューニングを利用する。 これらの革新的な試みによりBELT-2は先駆的なブレークスルーとなり、非侵襲的な脳信号からコヒーレントで読みやすい文を復号できる分野における最初の作品となった。 実験では,ZuCoデータセット上でのBLEU-1スコア52.2\%の復号化性能を達成し,定量的および定性的両測定における先行技術よりも顕著な進歩を示した。 さらに、BELT-2は、他の翻訳ベンチマークで31\%から162\%に改善されている。 コードは提供された匿名リンク~\footnote{https://anonymous.4open.science/r/BELT-2-0048}を通じてアクセスすることができる。

The remarkable success of large language models (LLMs) across various multi-modality applications is well established. However, integrating large language models with humans, or brain dynamics, remains relatively unexplored. In this paper, we introduce BELT-2, a pioneering multi-task model designed to enhance both encoding and decoding performance from EEG signals. To bolster the quality of the EEG encoder, BELT-2 is the first work to innovatively 1) adopt byte-pair encoding (BPE)-level EEG-language alignment and 2) integrate multi-task training and decoding in the EEG domain. Inspired by the idea of \textbf{\textit{Bridging the Brain with GPT}}, we further connect the multi-task EEG encoder with LLMs by utilizing prefix-tuning on intermediary output from the EEG encoder. These innovative efforts make BELT-2 a pioneering breakthrough, making it the first work in the field capable of decoding coherent and readable sentences from non-invasive brain signals. Our experiments highlight significant advancements over prior techniques in both quantitative and qualitative measures, achieving a decoding performance with a BLEU-1 score of 52.2\% on the ZuCo dataset. Furthermore, BELT-2 shows a remarkable improvement ranging from 31\% to 162\% on other translation benchmarks. Codes can be accessed via the provided anonymous link~\footnote{https://anonymous.4open.science/r/BELT-2-0048}.
翻訳日:2024-09-08 14:53:30 公開日:2024-08-28
# Brant-X: 統一された生理信号アライメントフレームワーク

Brant-X: A Unified Physiological Signal Alignment Framework ( http://arxiv.org/abs/2409.00122v1 )

ライセンス: Link先を確認
Daoze Zhang, Zhizhang Yuan, Junru Chen, Kerui Chen, Yang Yang, (参考訳) 生理的信号は、人間の身体の様々な生理的状態を理解するのに必要な手がかりとなる。 現存するほとんどの研究は、様々な応用シナリオのための単一のタイプの生理的信号に焦点を当てている。 しかし、体は総合的な生物学的体系であるため、様々な生理的データ間の相互接続は無視すべきではない。 特に、脳が生命活動の制御中心としての役割を考えると、脳波(EEG)は他の生理的信号と有意な相関を示す。 したがって、脳波と他の生理学的信号の相関は、様々なシナリオにおける性能向上の可能性を秘めている。 それでも、この目標を達成するには、同時に収集された生理データの不足、様々な信号間の相関の差、様々なタスク間の相関の差など、いくつかの課題がある。 これらの課題に対処するため,脳波と他の信号との相関をモデル化するための統合された生理信号アライメントフレームワークであるBrant-Xを提案する。 本手法では,脳波基礎モデルを用いて脳波の豊富な知識を他の生理的信号にデータ効率よく伝達し,脳波と他の信号のセマンティクスを完全に整合させる2段階アライメントを導入する。 実験では、Brant-Xは、睡眠ステージ分類、感情認識、歩行検出の凍結、眼球運動コミュニケーションなどの様々なシナリオにおいて、様々な下流タスクにおけるタスク非依存およびタスク固有のベースラインと比較して、最先端のパフォーマンスを達成する。 さらに,脳波から他の生理信号への知識伝達におけるBrant-Xの有効性について,不整脈検出タスクの解析と可視化を行った。 モデルのホームページはhttps://github.com/zjunet/Brant-X/にある。

Physiological signals serve as indispensable clues for understanding various physiological states of human bodies. Most existing works have focused on a single type of physiological signals for a range of application scenarios. However, as the body is a holistic biological system, the inherent interconnection among various physiological data should not be neglected. In particular, given the brain's role as the control center for vital activities, electroencephalogram (EEG) exhibits significant correlations with other physiological signals. Therefore, the correlation between EEG and other physiological signals holds potential to improve performance in various scenarios. Nevertheless, achieving this goal is still constrained by several challenges: the scarcity of simultaneously collected physiological data, the differences in correlations between various signals, and the correlation differences between various tasks. To address these issues, we propose a unified physiological signal alignment framework, Brant-X, to model the correlation between EEG and other signals. Our approach (1) employs the EEG foundation model to data-efficiently transfer the rich knowledge in EEG to other physiological signals, and (2) introduces the two-level alignment to fully align the semantics of EEG and other signals from different semantic scales. In the experiments, Brant-X achieves state-of-the-art performance compared with task-agnostic and task-specific baselines on various downstream tasks in diverse scenarios, including sleep stage classification, emotion recognition, freezing of gaits detection, and eye movement communication. Moreover, the analysis on the arrhythmia detection task and the visualization in case study further illustrate the effectiveness of Brant-X in the knowledge transfer from EEG to other physiological signals. The model's homepage is at https://github.com/zjunet/Brant-X/.
翻訳日:2024-09-08 14:53:30 公開日:2024-08-28
# 文脈学習による無線シンボル検出のための大規模言語モデルの活用

Leveraging Large Language Models for Wireless Symbol Detection via In-Context Learning ( http://arxiv.org/abs/2409.00124v1 )

ライセンス: Link先を確認
Momin Abbas, Koushik Kar, Tianyi Chen, (参考訳) ディープニューラルネットワーク(DNN)は、特に正確な無線モデルが利用できない場合、無線システムにおいて困難なタスクに取り組むために大きな進歩を遂げている。 しかし、利用可能なデータが限られている場合、従来のDNNは不適合のため、しばしば低い結果をもたらす。 同時に、GPT-3で実証された大規模言語モデル(LLM)は、広範囲の自然言語処理タスクでその能力を顕著に示した。 しかし、LLMがワイヤレスシステムにおける非言語タスクに挑戦する上で、どのように役立つのかは未定だ。 本研究では,学習を必要とするDNNとは異なり,LLMのテキスト内学習能力(即ち,プロンプト)を活用して,トレーニングや微調整を行わずに低データ体制下での無線タスクを解くことを提案する。 さらに,異なるプロンプトテンプレートを用いた場合,LLMの性能が著しく異なることを示す。 この問題を解決するために、我々は最新のLCMキャリブレーション手法を採用した。 以上の結果から,ICL法によるLCMの使用はシンボル復調作業において従来のDNNよりも優れており,キャリブレーション手法と組み合わせた場合の信頼性の高い予測が得られた。

Deep neural networks (DNNs) have made significant strides in tackling challenging tasks in wireless systems, especially when an accurate wireless model is not available. However, when available data is limited, traditional DNNs often yield subpar results due to underfitting. At the same time, large language models (LLMs) exemplified by GPT-3, have remarkably showcased their capabilities across a broad range of natural language processing tasks. But whether and how LLMs can benefit challenging non-language tasks in wireless systems is unexplored. In this work, we propose to leverage the in-context learning ability (a.k.a. prompting) of LLMs to solve wireless tasks in the low data regime without any training or fine-tuning, unlike DNNs which require training. We further demonstrate that the performance of LLMs varies significantly when employed with different prompt templates. To solve this issue, we employ the latest LLM calibration methods. Our results reveal that using LLMs via ICL methods generally outperforms traditional DNNs on the symbol demodulation task and yields highly confident predictions when coupled with calibration techniques.
翻訳日:2024-09-08 14:53:30 公開日:2024-08-28
# 降雨予測ポスト処理のための不確実性認識セグメンテーション

Uncertainty-aware segmentation for rainfall prediction post processing ( http://arxiv.org/abs/2408.16792v1 )

ライセンス: Link先を確認
Simone Monaco, Luca Monaco, Daniele Apiletti, (参考訳) 正確な降水予測は洪水管理、農業計画、水資源配分、気象予報などの応用に不可欠である。 数値天気予報(NWP)モデルの進歩にもかかわらず、特に空間的および時間的解像度において、大きなバイアスと不確実性を示す。 これらの制約に対処するために、日次累積量予測を後処理する不確実性を考慮したディープラーニングモデルを検討し、精度と信頼性のトレードオフを改善するための予測不確実性を得る。 そこで本研究では,SDE U-Net(SDE U-Net)と呼ばれるSDE-Netの派生モデルを提案する。 本研究は,典型的な降水と激しい降水の両方について,その性能を評価した。 以上の結果から,SDE U-Netの実装により,すべてのディープラーニングモデルは平均ベースラインNWPソリューションよりも優れており,精度と信頼性の最良のトレードオフが示される。 不確実性を考慮したこれらのモデルを運用予測システムに統合することで、気象関連イベントの意思決定と準備性を向上させることができる。

Accurate precipitation forecasts are crucial for applications such as flood management, agricultural planning, water resource allocation, and weather warnings. Despite advances in numerical weather prediction (NWP) models, they still exhibit significant biases and uncertainties, especially at high spatial and temporal resolutions. To address these limitations, we explore uncertainty-aware deep learning models for post-processing daily cumulative quantitative precipitation forecasts to obtain forecast uncertainties that lead to a better trade-off between accuracy and reliability. Our study compares different state-of-the-art models, and we propose a variant of the well-known SDE-Net, called SDE U-Net, tailored to segmentation problems like ours. We evaluate its performance for both typical and intense precipitation events. Our results show that all deep learning models significantly outperform the average baseline NWP solution, with our implementation of the SDE U-Net showing the best trade-off between accuracy and reliability. Integrating these models, which account for uncertainty, into operational forecasting systems can improve decision-making and preparedness for weather-related events.
翻訳日:2024-09-02 17:28:49 公開日:2024-08-28
# バイナリ文字列の多項式符号化を用いた量子ランダムアクセスメモリ(QRAM)

A quantum random access memory (QRAM) using a polynomial encoding of binary strings ( http://arxiv.org/abs/2408.16794v1 )

ライセンス: Link先を確認
Priyanka Mukhopadhyay, (参考訳) 量子アルゴリズムは、多くの問題を解決するために古典的なアルゴリズムよりも大幅にスピードアップすると主張している。 これらのアルゴリズムの多くの重要な側面は、要求される利点を実現するために効率的に実装する必要がある量子オラクルの存在である。 量子ランダムアクセスメモリ(QRAM)は、これらのオラクルを実現するための有望なアーキテクチャである。 本稿では,QRAMの新しい設計法を開発し,Clifford+T回路で実装する。 非クリフォードゲートがフォールトトレラントの実装に最も費用がかかるため、我々はTカウントとTディープスを最適化することに重点を置いている。 我々の設計と統合することは、ビット文字列を符号化する多項式であり、この設計を $\text{QRAM}_{poly}$ と呼ぶ。 従来のQRAM用バケットフレームアーキテクチャと比較して,Tカウントを削減し,キュービット数を同じに保ちながら,T深度を指数関数的に改善する。 具体的には、$N$がメモリ位置の数であるなら、$\text{QRAM}_{poly}$ has T-depth $O(\log\log N)$, T-count $O(N-\log N)$ and qubit count $O(N)$, バケット旅団回路はT-depth $O(\log N)$, T-count $O(N)$, qubit count $O(N)$である。 2つの$\text{QRAM}_{poly}$を組み合わせ、量子ルックアップテーブル、$\text{qLUT}_{poly}$、T-depth $O(\log\log N)$、T-count $O(\sqrt{N})$、qubit count $O(\sqrt{N})$を設計する。 qLUTまたは量子読み取り専用メモリ(QROM)は、QRAMよりも機能に制限があり、メモリの内容が変化するたびにコンパイルする必要がある。 以前の最先端CSWAPアーキテクチャは、T-depth $O(\sqrt{N})$, T-count $O(\sqrt{N})$, qubit count $O(\sqrt{N})$である。 したがって、Tカウントとqubitカウントは漸近的に同じでありながら、T深度を2倍に指数的に改善する。 さらに,ビット列の多項式符号化により,回路のトフォリ数,特に多制御NOTゲートを最適化する手法を開発した。

Quantum algorithms claim significant speedup over their classical counterparts for solving many problems. An important aspect of many of these algorithms is the existence of a quantum oracle, which needs to be implemented efficiently in order to realize the claimed advantages. A quantum random access memory (QRAM) is a promising architecture for realizing these oracles. In this paper we develop a new design for QRAM and implement it with Clifford+T circuit. We focus on optimizing the T-count and T-depth since non-Clifford gates are the most expensive to implement fault-tolerantly. Integral to our design is a polynomial encoding of bit strings and so we refer to this design as $\text{QRAM}_{poly}$. Compared to the previous state-of-the-art bucket brigade architecture for QRAM, we achieve an exponential improvement in T-depth, while reducing T-count and keeping the qubit count same. Specifically, if $N$ is the number of memory locations, then $\text{QRAM}_{poly}$ has T-depth $O(\log\log N)$, T-count $O(N-\log N)$ and qubit count $O(N)$, while the bucket brigade circuit has T-depth $O(\log N)$, T-count $O(N)$ and qubit count $O(N)$. Combining two $\text{QRAM}_{poly}$ we design a quantum look-up-table, $\text{qLUT}_{poly}$, that has T-depth $O(\log\log N)$, T-count $O(\sqrt{N})$ and qubit count $O(\sqrt{N})$. A qLUT or quantum read-only memory (QROM) has restricted functionality than a QRAM and needs to be compiled each time the contents of the memory change. The previous state-of-the-art CSWAP architecture has T-depth $O(\sqrt{N})$, T-count $O(\sqrt{N})$ and qubit count $O(\sqrt{N})$. Thus we achieve a double exponential improvement in T-depth while keeping the T-count and qubit-count asymptotically same. Additionally, with our polynomial encoding of bit strings, we develop a method to optimize the Toffoli-count of circuits, specially those consisting of multi-controlled-NOT gates.
翻訳日:2024-09-02 17:28:49 公開日:2024-08-28
# ソフトウェア実践者のためのAI倫理クイズによるAI倫理の意識向上

Raising AI Ethics Awareness through an AI Ethics Quiz for Software Practitioners ( http://arxiv.org/abs/2408.16796v1 )

ライセンス: Link先を確認
Aastha Pant, Rashina Hoda, Paul McIntosh, (参考訳) 今日では、AIシステムを取り巻く倫理的問題がますます広まり、社会的な害を防ぐためにAI倫理をシステムデザインに統合する必要性が強調されている。 ソフトウェア実践者の間でAI倫理に対する意識を高め、深い理解を促進することが、この目標を達成する上で不可欠である。 しかし、研究は実践者のAI倫理と倫理原則に対する認識と知識に大きなギャップがあることを示唆している。 公正性、透明性、説明責任、プライバシといったAI倫理原則の運用を支援するために多くの努力が払われているが、初期認識を高めることにはあまり注意が払われていない。 このギャップに対処するため、ソフトウェアベースのツールであるAI Ethics Quizを開発し、ソフトウェア実践者間の認識を高め、AI倫理の知識を高める。 我々の目的は、対話的なワークショップを組織し、AI倫理クイズを導入し、実践者間のAI倫理と倫理原則の意識と知識を高める効果を評価することである。 私たちは29人のソフトウェア実践者が参加する2つの1時間ワークショップ(個人1人、オンライン1人)を実施しました。 データは、プレクイズアンケート、AI倫理クイズ、ポストクイズアンケートを通じて収集された。 匿名の回答は、クイズが実践者のAI倫理に対する認識と理解を著しく改善したことを示している。 さらに、実践者はクイズが関与していることを発見し、AI倫理に関する有意義な学習体験を生み出したと報告した。 本稿では,これらの対話的なワークショップを実施し,実践者にAI倫理クイズを導入することで得られた知見を紹介する。 また、ソフトウェア企業やリーダーが同様のイニシアチブを採用することを推奨し、実践者のAI倫理に対する認識と理解を高めるのに役立つかもしれません。

Today, ethical issues surrounding AI systems are increasingly prevalent, highlighting the critical need to integrate AI ethics into system design to prevent societal harm. Raising awareness and fostering a deep understanding of AI ethics among software practitioners is essential for achieving this goal. However, research indicates a significant gap in practitioners' awareness and knowledge of AI ethics and ethical principles. While much effort has been directed toward helping practitioners operationalise AI ethical principles such as fairness, transparency, accountability, and privacy, less attention has been paid to raising initial awareness, which should be the foundational step. Addressing this gap, we developed a software-based tool, the AI Ethics Quiz, to raise awareness and enhance the knowledge of AI ethics among software practitioners. Our objective was to organise interactive workshops, introduce the AI Ethics Quiz, and evaluate its effectiveness in enhancing awareness and knowledge of AI ethics and ethical principles among practitioners. We conducted two one-hour workshops (one in-person and one online) involving 29 software practitioners. Data was collected through pre-quiz questionnaire, the AI Ethics Quiz, and a post-quiz questionnaire. The anonymous responses revealed that the quiz significantly improved practitioners' awareness and understanding of AI ethics. Additionally, practitioners found the quiz engaging and reported it created a meaningful learning experience regarding AI ethics. In this paper, we share insights gained from conducting these interactive workshops and introducing the AI Ethics Quiz to practitioners. We also provide recommendations for software companies and leaders to adopt similar initiatives, which may help them enhance practitioners' awareness and understanding of AI ethics.
翻訳日:2024-09-02 17:28:49 公開日:2024-08-28
# 高次元におけるミス種別-ロバスト確率自由推論

Misspecification-robust likelihood-free inference in high dimensions ( http://arxiv.org/abs/2002.09377v4 )

ライセンス: Link先を確認
Owen Thomas, Raquel Sá-Leão, Hermínia de Lencastre, Samuel Kaski, Jukka Corander, Henri Pesonen, (参考訳) シミュレーターに基づく統計モデルに対するLikelihood-free推論は、その幼少期から実践者にとって有用なツールへと急速に発展してきた。 しかしながら、少数のパラメータを持つモデルは、一般にはABC(Adroximate Bayesian Computation)ベースの推論において問題となっている。 高次元パラメータ空間における確率自由推論の可能性を推し進めるために、パラメータ空間の効率的な探索に役立てる確率的手法で、偏差関数を近似するベイズ最適化に基づくアプローチの拡張を導入する。 提案手法は,高次元パラメータ空間に対する計算スケーラビリティを,各パラメータの別個の取得関数と相違点を用いて達成する。 効率的な付加的獲得構造を指数的損失-様相と組み合わせることで、全てのモデルパラメータに対する限界後部分布の非特異性-ロバストな特徴付けを提供する。 本手法は,100次元空間における標準例による計算効率のよい推論を成功させ,既存のモジュール化ABC法と比較した。 さらに,30次元パラメータ空間におけるひずみ競合に関する生物学的コヒーレントな結果を提供する実データ集合に細菌の伝達力学モデルを適用することにより,このアプローチの可能性について述べる。

Likelihood-free inference for simulator-based statistical models has developed rapidly from its infancy to a useful tool for practitioners. However, models with more than a handful of parameters still generally remain a challenge for the Approximate Bayesian Computation (ABC) based inference. To advance the possibilities for performing likelihood-free inference in higher dimensional parameter spaces, we introduce an extension of the popular Bayesian optimisation based approach to approximate discrepancy functions in a probabilistic manner which lends itself to an efficient exploration of the parameter space. Our approach achieves computational scalability for higher dimensional parameter spaces by using separate acquisition functions and discrepancies for each parameter. The efficient additive acquisition structure is combined with exponentiated loss -likelihood to provide a misspecification-robust characterisation of the marginal posterior distribution for all model parameters. The method successfully performs computationally efficient inference in a 100-dimensional space on canonical examples and compares favourably to existing modularised ABC methods. We further illustrate the potential of this approach by fitting a bacterial transmission dynamics model to a real data set, which provides biologically coherent results on strain competition in a 30-dimensional parameter space.
翻訳日:2024-09-01 17:12:14 公開日:2024-08-28
# 解釈可能な画像感情認識:表情を用いた領域適応手法

Interpretable Image Emotion Recognition: A Domain Adaptation Approach Using Facial Expressions ( http://arxiv.org/abs/2011.08388v3 )

ライセンス: Link先を確認
Puneet Kumar, Balasubramanian Raman, (参考訳) 本稿では,顔と非顔の両方を包含する一般画像の感情を識別する特徴に基づく領域適応手法を提案する。 このアプローチは、事前訓練されたモデルと、画像感情認識(IER)のための十分な注釈付きデータセットの可用性が制限されるという課題に対処する。 まず,ディープラーニングに基づく表情認識(FER)システムを開発し,表情を個別の感情クラスに分類する。 同じネットワークアーキテクチャを維持しながら、このFERシステムは、差分損失を応用して一般的な画像の感情を認識するように適応され、モデルがIERの特徴を効果的に学習し、感情を「ハッピー」、「サド」、「ヘイト」、「アンガー」などのカテゴリに分類する。 さらに、感情認識に最も関係のある視覚的特徴を明らかにするために、新しい解釈可能性手法であるDivide and Conquer based Shap (DnCShap)を導入している。 提案されたIERシステムは、IAPSaデータセットの60.98%、ArtPhotoデータセットの58.86%、FIデータセットの69.13%、EMOTICデータセットの58.06%の感情分類精度を示した。 このシステムは、特定の感情分類につながる重要な視覚的特徴を効果的に識別し、予測を説明するための詳細な埋め込みプロットを提供し、AI駆動の感情認識システムに対する理解と信頼を高める。

This paper proposes a feature-based domain adaptation technique for identifying emotions in generic images, encompassing both facial and non-facial objects, as well as non-human components. This approach addresses the challenge of the limited availability of pre-trained models and well-annotated datasets for Image Emotion Recognition (IER). Initially, a deep-learning-based Facial Expression Recognition (FER) system is developed, classifying facial images into discrete emotion classes. Maintaining the same network architecture, this FER system is then adapted to recognize emotions in generic images through the application of discrepancy loss, enabling the model to effectively learn IER features while classifying emotions into categories such as 'happy,' 'sad,' 'hate,' and 'anger.' Additionally, a novel interpretability method, Divide and Conquer based Shap (DnCShap), is introduced to elucidate the visual features most relevant for emotion recognition. The proposed IER system demonstrated emotion classification accuracies of 60.98% for the IAPSa dataset, 58.86% for the ArtPhoto dataset, 69.13% for the FI dataset, and 58.06% for the EMOTIC dataset. The system effectively identifies the important visual features leading to specific emotion classifications and provides detailed embedding plots to explain the predictions, enhancing the understanding and trust in AI-driven emotion recognition systems.
翻訳日:2024-09-01 17:12:14 公開日:2024-08-28
# 自動調整された温められたハミルトンモンテカルロを用いた高次元マルチモーダル分布からのサンプリング

Sampling from high-dimensional, multimodal distributions using automatically tuned, tempered Hamiltonian Monte Carlo ( http://arxiv.org/abs/2111.06871v2 )

ライセンス: Link先を確認
Joonha Park, (参考訳) ハミルトニアン・モンテカルロ (HMC) は確率密度が比例的に知られている高次元対象分布のサンプリングに広く用いられている。 HMCは良好な次元スケーリング特性を持つが、強いマルチモーダル分布に適用する際の課題に直面する。 伝統的テンパリング法は、特に高次元においてチューニングが困難である。 本研究では,ハミルトン・モンテカルロとテンパリング戦略を組み合わせ,高次元・強多重モード分布からの効率的なサンプリングを可能にする手法を提案する。 我々のアプローチは、ハミルトン力学を時間変化質量でシミュレートし、未知の場所で孤立モードを求めることにより、構築されたマルコフ連鎖の候補状態を提案することである。 さらに,本手法の自動チューニング戦略を開発し,自動調整されたハミルトンモンテカルロ (ATHMC) を実現する。 模擬テンパリング法や並列テンパリング法とは異なり、ATHMCはギブスサンプリングのような各イテレーションでターゲット分布が変化するシナリオにおいて、顕著な利点を提供する。 本手法は適応並列テンパリング法よりも寸法の増大に優れており,センサネットワークの自己局在化問題に対する対数多項式密度とベイズ分布の混合を含む,様々な対象分布に対する有効性を示す。

Hamiltonian Monte Carlo (HMC) is widely used for sampling from high-dimensional target distributions with probability density known up to proportionality. While HMC possesses favorable dimension scaling properties, it encounters challenges when applied to strongly multimodal distributions. Traditional tempering methods, commonly used to address multimodality, can be difficult to tune, particularly in high dimensions. In this study, we propose a method that combines a tempering strategy with Hamiltonian Monte Carlo, enabling efficient sampling from high-dimensional, strongly multimodal distributions. Our approach involves proposing candidate states for the constructed Markov chain by simulating Hamiltonian dynamics with time-varying mass, thereby searching for isolated modes at unknown locations. Moreover, we develop an automatic tuning strategy for our method, resulting in an automatically-tuned, tempered Hamiltonian Monte Carlo (ATHMC). Unlike simulated tempering or parallel tempering methods, ATHMC provides a distinctive advantage in scenarios where the target distribution changes at each iteration, such as in the Gibbs sampler. We numerically show that our method scales better with increasing dimensions than an adaptive parallel tempering method and demonstrate its efficacy for a variety of target distributions, including mixtures of log-polynomial densities and Bayesian posterior distributions for a sensor network self-localization problem.
翻訳日:2024-09-01 17:12:14 公開日:2024-08-28
# 制約付きMDPに対する自然政策勾配原始双対法の収束とサンプル複雑性

Convergence and sample complexity of natural policy gradient primal-dual methods for constrained MDPs ( http://arxiv.org/abs/2206.02346v3 )

ライセンス: Link先を確認
Dongsheng Ding, Kaiqing Zhang, Jiali Duan, Tamer Başar, Mihailo R. Jovanović, (参考訳) 本研究では,期待される全効能の制約を満たしつつ,期待される全報酬を最大化することを目的とした逐次意思決定問題について検討する。 我々は,制約付きマルコフ決定過程(制約付きMDP)の割引無限水平最適制御問題の解法として,自然ポリシー勾配法を用いる。 具体的には,本手法では,自然ポリシー勾配の上昇による主変数の更新と,投射された下位段階の降下による双対変数の更新を行う。 基礎となる最大化には、非凸目的関数と非凸制約セットが含まれるが、ソフトマックス政策パラメトリゼーションでは、最適性ギャップと制約違反の両方に関して、我々の手法が大域収束を達成することを証明している。 そのような収束は状態-作用空間のサイズとは独立であり、つまり、次元自由である。 さらに、対数線形および一般スムーズな政策パラメトリゼーションに対しては、制限された政策パラメトリゼーションによって生じる関数近似誤差までのサブ線形収束率を確立する。 また、2つのサンプルベースNPG-PDアルゴリズムに対して収束と有限サンプルの複雑性を保証する。 最後に,計算実験を用いて,提案手法の有効性と有効性を示す。

We study sequential decision making problems aimed at maximizing the expected total reward while satisfying a constraint on the expected total utility. We employ the natural policy gradient method to solve the discounted infinite-horizon optimal control problem for Constrained Markov Decision Processes (constrained MDPs). Specifically, we propose a new Natural Policy Gradient Primal-Dual (NPG-PD) method that updates the primal variable via natural policy gradient ascent and the dual variable via projected sub-gradient descent. Although the underlying maximization involves a nonconcave objective function and a nonconvex constraint set, under the softmax policy parametrization we prove that our method achieves global convergence with sublinear rates regarding both the optimality gap and the constraint violation. Such convergence is independent of the size of the state-action space, i.e., it is~dimension-free. Furthermore, for log-linear and general smooth policy parametrizations, we establish sublinear convergence rates up to a function approximation error caused by restricted policy parametrization. We also provide convergence and finite-sample complexity guarantees for two sample-based NPG-PD algorithms. Finally, we use computational experiments to showcase the merits and the effectiveness of our approach.
翻訳日:2024-08-30 19:54:50 公開日:2024-08-28
# グラフィカル対深部生成モデル:異なる私的メカニズムと予算が実用性に与える影響を測る

Graphical vs. Deep Generative Models: Measuring the Impact of Differentially Private Mechanisms and Budgets on Utility ( http://arxiv.org/abs/2305.10994v2 )

ライセンス: Link先を確認
Georgi Ganev, Kai Xu, Emiliano De Cristofaro, (参考訳) 差分プライバシー(DP)でトレーニングされた生成モデルは、プライバシーリスクを低減しつつ合成データを生成することができる。 しかし、プライバシとユーティリティのトレードオフをナビゲートすることで、特定の設定やタスクに適したモデルを見つけることは難しい。 このギャップを補うために,表形式のデータに対するDP生成モデルがプライバシ予算を列や列に分散させる方法を提案する。 我々は、グラフィカルモデルと深層生成モデルを比較し、プライバシー予算の支出方法、すなわち基礎となるモデリング技術、DPメカニズム、データ次元性に寄与する重要な要素に焦点を当てる。 測定実験を通じて,様々な設定やタスクに適した異なるモデルを作成する特性について光を当てた。 例えば、グラフィカルモデルはプライバシの予算を水平に分散しているため、一定のトレーニング時間で比較的広いデータセットを処理できない。 深層生成モデルはイテレーション毎に予算を費やすため、その振る舞いはさまざまなデータセット次元で予測できないが、より多くの機能でトレーニングされた場合、より柔軟になる。 さらに、プライバシーの低いレベル(\epsilon\geq100$)は、一部のモデルの一般化に役立つ可能性がある。 当社の作業は,データセット機能や望ましいプライバシレベル,ダウンストリームタスクといった,最適な候補モデルをナビゲートすることで,DP合成データテクニックの展開を支援するものと考えています。

Generative models trained with Differential Privacy (DP) can produce synthetic data while reducing privacy risks. However, navigating their privacy-utility tradeoffs makes finding the best models for specific settings/tasks challenging. This paper bridges this gap by profiling how DP generative models for tabular data distribute privacy budgets across rows and columns, which is one of the primary sources of utility degradation. We compare graphical and deep generative models, focusing on the key factors contributing to how privacy budgets are spent, i.e., underlying modeling techniques, DP mechanisms, and data dimensionality. Through our measurement study, we shed light on the characteristics that make different models suitable for various settings and tasks. For instance, we find that graphical models distribute privacy budgets horizontally and thus cannot handle relatively wide datasets for a fixed training time; also, the performance on the task they were optimized for monotonically increases with more data but could also overfit. Deep generative models spend their budgets per iteration, so their behavior is less predictable with varying dataset dimensions, but are more flexible as they could perform better if trained on more features. Moreover, low levels of privacy ($\epsilon\geq100$) could help some models generalize, achieving better results than without applying DP. We believe our work will aid the deployment of DP synthetic data techniques by navigating through the best candidate models vis-a-vis the dataset features, desired privacy levels, and downstream tasks.
翻訳日:2024-08-30 19:48:14 公開日:2024-08-28
# 重み付き文脈自由言語順序付き二項決定図

Weighted Context-Free-Language Ordered Binary Decision Diagrams ( http://arxiv.org/abs/2305.13610v2 )

ライセンス: Link先を確認
Meghana Sistla, Swarat Chaudhuri, Thomas Reps, (参考訳) 本稿では,階層的に構造化された決定図である 'emph{Weighted Context-Free-Language Ordered BDDs} (WCFLOBDDs) と呼ばれる新しいデータ構造について述べる。 一部の関数では、WCFLOBDDはWBDDよりも指数関数的に簡潔である。 関数のイメージ $V \subseteq D$ が多くの異なる値を持つとき、型 $\mathbb{B}^n \rightarrow D$ の関数を表現することは潜在的に有益である。 我々は、量子回路シミュレーションにWCFLOBDDを適用し、特定のベンチマークでWBDDよりも優れた性能を発揮することを発見した。 15分間のタイムアウトで、WCFLOBDDsで処理できるキュービットの数は、WBDDsの1-64$\times$(1-128$\times$CFLOBDDsの1-28$\times$)となる。 これらの結果は、このアプリケーション -- キュービットの数として測定される問題のサイズの観点から言えば -- に対して、WCFLOBDDは両方の世界のベストを提供する、という結論を支持します。 (実行時の立場からすると、結果はより微妙である。)

This paper presents a new data structure, called \emph{Weighted Context-Free-Language Ordered BDDs} (WCFLOBDDs), which are a hierarchically structured decision diagram, akin to Weighted BDDs (WBDDs) enhanced with a procedure-call mechanism. For some functions, WCFLOBDDs are exponentially more succinct than WBDDs. They are potentially beneficial for representing functions of type $\mathbb{B}^n \rightarrow D$, when a function's image $V \subseteq D$ has many different values. We apply WCFLOBDDs in quantum-circuit simulation, and find that they perform better than WBDDs on certain benchmarks. With a 15-minute timeout, the number of qubits that can be handled by WCFLOBDDs is 1-64$\times$ that of WBDDs (and 1-128$\times$ that of CFLOBDDs, which are an unweighted version of WCFLOBDDs). These results support the conclusion that for this application -- from the standpoint of problem size, measured as the number of qubits -- WCFLOBDDs provide the best of both worlds: performance roughly matches whichever of WBDDs and CFLOBDDs is better. (From the standpoint of running time, the results are more nuanced.)
翻訳日:2024-08-30 19:48:14 公開日:2024-08-28
# WildfireGPT:Wildfire分析のための大規模言語モデル

WildfireGPT: Tailored Large Language Model for Wildfire Analysis ( http://arxiv.org/abs/2402.07877v2 )

ライセンス: Link先を確認
Yangxinyu Xie, Bowen Jiang, Tanwi Mallick, Joshua David Bergerson, John K. Hutchison, Duane R. Verner, Jordan Branham, M. Ross Alexander, Robert B. Ross, Yan Feng, Leslie-Anne Levy, Weijie Su, Camillo J. Taylor, (参考訳) 近年の大規模言語モデル(LLM)の進歩は、人工知能の最前線における変換能力を示している。 しかし、LSMは一般化されたモデルであり、広範なテキストコーパスで訓練されており、特に気候変動のより広い文脈における山火事の詳細のような専門的な知識を必要とする分野において、文脈特有の情報の提供に苦慮することが多い。 野火の弾力性と適応に焦点を当てた意思決定者にとって、正確なだけでなく、ドメイン固有の応答を得ることが不可欠である。 そこで我々はWildfireGPTを開発した。これは,ユーザクエリを,山火事のリスクに関する実用的な洞察に変換するための,LLMエージェントのプロトタイプである。 我々は、WildfireGPTに気候予測や科学文献などの追加のコンテキストを提供することで、その情報が現在、関連性、科学的に正確であることを保証する。 これによってWildfireGPTは,さまざまなエンドユーザをサポートするために,山火事のリスクに関する詳細なユーザ固有の洞察を提供する上で,効果的なツールになります。

Recent advancement of large language models (LLMs) represents a transformational capability at the frontier of artificial intelligence. However, LLMs are generalized models, trained on extensive text corpus, and often struggle to provide context-specific information, particularly in areas requiring specialized knowledge, such as wildfire details within the broader context of climate change. For decision-makers focused on wildfire resilience and adaptation, it is crucial to obtain responses that are not only precise but also domain-specific. To that end, we developed WildfireGPT, a prototype LLM agent designed to transform user queries into actionable insights on wildfire risks. We enrich WildfireGPT by providing additional context, such as climate projections and scientific literature, to ensure its information is current, relevant, and scientifically accurate. This enables WildfireGPT to be an effective tool for delivering detailed, user-specific insights on wildfire risks to support a diverse set of end users, including but not limited to researchers and engineers, for making positive impact and decision making.
翻訳日:2024-08-30 19:28:43 公開日:2024-08-28
# データクリエータからデータリユーザへ:距離の問題

From Data Creator to Data Reuser: Distance Matters ( http://arxiv.org/abs/2402.07926v2 )

ライセンス: Link先を確認
Christine L. Borgman, Paul T. Groth, (参考訳) 研究データの共有は、データの再利用には必要だが、十分ではない。 オープンサイエンスの政策は再利用よりもデータ共有に重点を置いているが、どちらも複雑で労働集約的で高価であり、複数の利害関係者によるインフラ投資を必要としている。 データ再利用の価値は、クリエータと再利用者の関係にあります。 利害関係者間の取引ではなく、知識交換に対処することで、データ管理と知識基盤への投資をより賢明に行うことができる。 データ共有と再利用に関する実証的研究に基づいて、データ作成者とデータ再使用者の間の距離の理論的構成を開発し、ドメイン、メソッド、コラボレーション、キュレーション、目的、時間、時間、時間といった知識を効果的に伝達する能力に影響を与える6つの距離次元を同定する。 我々は、これらの次元の社会的・社会的技術的側面に対処し、創造者と再利用者の間の距離を減らし、あるいは増加させる方法を探求する。 データ作成者と将来的な再利用者の間の距離に関する理論的フレーミングは、データの共有と再利用をより効果的にする方法に関するステークホルダーの4つのカテゴリ – データ作成者、データ再利用者、データアーキビスト、資金提供機関 – に推奨を与えます。 「村」は研究データを共有するのに「村」であり、村はデータを再利用する。 本研究の目的は、研究データの効果的かつ効率的な流通に新たな研究課題や新たな研究、新たな投資を促すことであり、データおよび研究ライフサイクルの各段階における投資基準を特定することである。

Sharing research data is necessary, but not sufficient, for data reuse. Open science policies focus more heavily on data sharing than on reuse, yet both are complex, labor-intensive, expensive, and require infrastructure investments by multiple stakeholders. The value of data reuse lies in relationships between creators and reusers. By addressing knowledge exchange, rather than mere transactions between stakeholders, investments in data management and knowledge infrastructures can be made more wisely. Drawing upon empirical studies of data sharing and reuse, we develop the theoretical construct of distance between data creator and data reuser, identifying six distance dimensions that influence the ability to transfer knowledge effectively: domain, methods, collaboration, curation, purposes, and time and temporality. We address the social and socio-technical aspects of these dimensions, exploring ways in which they may decrease -- or increase -- distances between creators and reusers. Our theoretical framing of the distance between data creators and prospective reusers leads to recommendations to four categories of stakeholders on how to make data sharing and reuse more effective: data creators, data reusers, data archivists, and funding agencies. 'It takes a village' to share research data -- and a village to reuse data. Our aim is to provoke new research questions, new research, and new investments in effective and efficient circulation of research data; and to identify criteria for investments at each stage of data and research life cycles.
翻訳日:2024-08-30 19:28:43 公開日:2024-08-28
# 多制約安全臨界応用のための目的抑制付き一様安全RL

Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications ( http://arxiv.org/abs/2402.15650v3 )

ライセンス: Link先を確認
Zihan Zhou, Jonathan Booher, Khashayar Rohanimanesh, Wei Liu, Aleksandr Petiushko, Animesh Garg, (参考訳) 安全な強化学習タスクは、現実世界で非常に一般的であるにもかかわらず、難しい領域です。 広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。 安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。 この問題に対処するために、我々はまず、全ての到達可能な状態に制約を課す、より強力な一様制約型MDP(UCMDP)モデルを用いて問題を記述し、その上で、安全評論家によるタスク報酬の最大化を適応的に抑制する新しい手法であるObjective Suppressionを、UCMDPのラグランジアン双対に対する解として提案する。 我々は、不正な動作が破滅的な結果をもたらす可能性のある自律運転領域を含む2つのマルチ制約安全領域において、Objective Suppressionをベンチマークする。 運転領域では、オープンソースおよびプロプライエタリなデータに基づいて評価を行い、実際の自律車両への転送を評価する。 実験により,提案手法は,既存の安全RLアルゴリズムと組み合わせることで,ベースラインが達成したタスク報酬と極めて少ない制約違反で一致できることを実証した。

Safe reinforcement learning tasks are a challenging domain despite being very common in the real world. The widely adopted CMDP model constrains the risks in expectation, which makes room for dangerous behaviors in long-tail states. In safety-critical domains, such behaviors could lead to disastrous outcomes. To address this issue, we first describe the problem with a stronger Uniformly Constrained MDP (UCMDP) model where we impose constraints on all reachable states; we then propose Objective Suppression, a novel method that adaptively suppresses the task reward maximizing objectives according to a safety critic, as a solution to the Lagrangian dual of a UCMDP. We benchmark Objective Suppression in two multi-constraint safety domains, including an autonomous driving domain where any incorrect behavior can lead to disastrous consequences. On the driving domain, we evaluate on open source and proprietary data and evaluate transfer to a real autonomous fleet. Empirically, we demonstrate that our proposed method, when combined with existing safe RL algorithms, can match the task reward achieved by baselines with significantly fewer constraint violations.
翻訳日:2024-08-30 19:28:43 公開日:2024-08-28
# AutoInst: LiDAR 3D スキャンの自動インスタンスベースセグメンテーション

AutoInst: Automatic Instance-Based Segmentation of LiDAR 3D Scans ( http://arxiv.org/abs/2403.16318v2 )

ライセンス: Link先を確認
Cedric Perauer, Laurenz Adrian Heidrich, Haifan Zhang, Matthias Nießner, Anastasiia Kornilova, Alexey Artemov, (参考訳) 近年、LiDARセンサーなどの取得装置の進歩により、ますます広まる屋外3D環境の検知が可能になった。 このような3D取得を理解するには、インスタンスベースの3Dシーンセグメンテーションの構築など、きめ細かいシーン理解が必要である。 一般的に、ニューラルネットワークは、このタスクのためにトレーニングされるが、これは大きな、密度の高い注釈付きデータセットへのアクセスを必要とする。 この問題に対処するため,本研究では,地平線アノテーションに頼ることなく,教師なしの方法で3次元シーンのインスタンスセグメンテーションを予測することを提案する。 この目的のために,(1)初期教師なしの擬似ラベルを生成する擬似アノテーションスキーム,(2)初期雑音の多い提案から,頑健で正確なインスタンスに適合するサンプルセグメンテーションのための自己学習アルゴリズムという,2つのコンポーネントからなる学習フレームワークを構築した。 複数モーダル画像とポイントベースの自己監督機能を統合したエッジと3Dポイントを結合して重み付けされたプロキシグラフを構築し,個別の擬似事象を分離するためのグラフカットを行う。 そして、最先端のポイントベースアーキテクチャを構築し、3Dインスタンスセグメンテーションモデルをトレーニングし、最初の提案を大幅に改善します。 任意の複雑な3Dシーンにスケールするために、局所的な3Dポイントチャンクを操作するアルゴリズムを設計し、シーンレベルのインスタンスセグメンテーションを生成するためのマージステップを構築する。 挑戦的なSemanticKITTIベンチマークの実験では、我々のアプローチの可能性を実証し、平均精度が13.3%、F1スコアが9.1%向上した。 コードはhttps://github.com/artonson/autoinst.comで公開される。

Recently, progress in acquisition equipment such as LiDAR sensors has enabled sensing increasingly spacious outdoor 3D environments. Making sense of such 3D acquisitions requires fine-grained scene understanding, such as constructing instance-based 3D scene segmentations. Commonly, a neural network is trained for this task; however, this requires access to a large, densely annotated dataset, which is widely known to be challenging to obtain. To address this issue, in this work we propose to predict instance segmentations for 3D scenes in an unsupervised way, without relying on ground-truth annotations. To this end, we construct a learning framework consisting of two components: (1) a pseudo-annotation scheme for generating initial unsupervised pseudo-labels; and (2) a self-training algorithm for instance segmentation to fit robust, accurate instances from initial noisy proposals. To enable generating 3D instance mask proposals, we construct a weighted proxy-graph by connecting 3D points with edges integrating multi-modal image- and point-based self-supervised features, and perform graph-cuts to isolate individual pseudo-instances. We then build on a state-of-the-art point-based architecture and train a 3D instance segmentation model, resulting in significant refinement of initial proposals. To scale to arbitrary complexity 3D scenes, we design our algorithm to operate on local 3D point chunks and construct a merging step to generate scene-level instance segmentations. Experiments on the challenging SemanticKITTI benchmark demonstrate the potential of our approach, where it attains 13.3% higher Average Precision and 9.1% higher F1 score compared to the best-performing baseline. The code will be made publicly available at https://github.com/artonson/autoinst.
翻訳日:2024-08-30 19:18:41 公開日:2024-08-28
# 閉ループ学習における生成モデルの熱死

Heat Death of Generative Models in Closed-Loop Learning ( http://arxiv.org/abs/2404.02325v2 )

ライセンス: Link先を確認
Matteo Marchi, Stefano Soatto, Pratik Chaudhari, Paulo Tabuada, (参考訳) テキスト用LLM(Large Language Models)や画像生成用拡散モデルなどにより,生成機械学習モデルの改良と採用が急速に加速している。 生成モデルが普及するにつれて、生成したデータは公開ウェブを通じて共有コンテンツに組み込まれる。 このことは、その後のトレーニングキャンペーンでモデルによって生成されたデータがモデルにフィードバックされたときに何が起こるのかという疑問を提起する。 これは、トレーニングプロセスの安定性に関する問題であり、私たちが「知識」と呼ぶ公開コンテンツの分布が安定しているか、崩壊しているかである。 論文で報告された小規模な実験実験により、この閉ループトレーニングプロセスは縮退しがちであることが示された。 モデルは、望まれるデータ分布の小さなサブセット(モード崩壊と呼ばれる現象)からのみ、ジベリッシュなデータを生成する。 これまでのところ、これらの生成モデルの基礎となる深層ネットワークの複雑さのために、このプロセスに関する理論的理解は限られている。 本研究の目的は、本プロセス(「生成クローズドループ学習」と呼ぶ)について、独自の学習データセットに加えて、独自の生成したコンテンツをフィードバックする生成モデルの学習ダイナミクスを研究することである。 これらのモデルのサンプリングは、"温度"パラメータによって制御できる。 動的システムツールを用いて、各イテレーションで十分な量の外部データが導入されない限り、非自明な温度がモデルを漸近的に退化させることを示す。 実際、生成分布は小さな出力セットに崩壊するか、あるいは大きな出力セットに対して一様になる。

Improvement and adoption of generative machine learning models is rapidly accelerating, as exemplified by the popularity of LLMs (Large Language Models) for text, and diffusion models for image generation. As generative models become widespread, data they generate is incorporated into shared content through the public web. This opens the question of what happens when data generated by a model is fed back to the model in subsequent training campaigns. This is a question about the stability of the training process, whether the distribution of publicly accessible content, which we refer to as "knowledge", remains stable or collapses. Small scale empirical experiments reported in the literature show that this closed-loop training process is prone to degenerating. Models may start producing gibberish data, or sample from only a small subset of the desired data distribution (a phenomenon referred to as mode collapse). So far there has been only limited theoretical understanding of this process, in part due to the complexity of the deep networks underlying these generative models. The aim of this paper is to provide insights into this process (that we refer to as "generative closed-loop learning") by studying the learning dynamics of generative models that are fed back their own produced content in addition to their original training dataset. The sampling of many of these models can be controlled via a "temperature" parameter. Using dynamical systems tools, we show that, unless a sufficient amount of external data is introduced at each iteration, any non-trivial temperature leads the model to asymptotically degenerate. In fact, either the generative distribution collapses to a small set of outputs or becomes uniform over a large set of outputs.
翻訳日:2024-08-30 19:18:41 公開日:2024-08-28
# 拡張ハイブリッドHHLアルゴリズム

An Enhanced Hybrid HHL Algorithm ( http://arxiv.org/abs/2404.10103v2 )

ライセンス: Link先を確認
Jack Morgan, Eric Ghysels, Hamed Mohammadbagherpoor, (参考訳) Harrow, Hassidim, Lloyd (HHL) によって提案された方程式の線形系を解くアルゴリズム。 線形系に関連する固有値の高精度な量子推定と、ハイブリッドHHLの固有値反転部を導出する新しい古典的ステップを用いてこれを実現する。 2ビットの精度しか持たない固有値推定により,HHLと比較してHHLの誤差境界が厳密になることを示す。 我々の拡張は、2x2系の代表サンプルに対する理想量子プロセッサにおけるHHLの誤差を平均57%削減する。 IBM TorinoとIonQ Aria-1のハードウェアでは、強化ハイブリッドHHLのエラーは平均13%、同じシステムのHHLよりも20%少ないことがわかっている。

algorithm for solving linear systems of equations proposed by Harrow, Hassidim, and Lloyd (HHL). We achieve this by using higher precision quantum estimates of the eigenvalues relevant to the linear system, and a new classical step to guide the eigenvalue inversion part of Hybrid HHL. We show that eigenvalue estimates with just two extra bits of precision result in tighter error bounds for our Enhanced Hybrid HHL compared to HHL. Our enhancement reduces the error of Hybrid HHL by an average of 57 percent on an ideal quantum processor for a representative sample of 2x2 systems. On IBM Torino and IonQ Aria-1 hardware, we see that the error of Enhanced Hybrid HHL is on average 13 percent and 20 percent (respectively) less than that of HHL for the same set of systems.
翻訳日:2024-08-30 19:18:41 公開日:2024-08-28
# 深部生成モデルによる脳拡散MRIの視野拡張

Field-of-View Extension for Brain Diffusion MRI via Deep Generative Models ( http://arxiv.org/abs/2405.03652v2 )

ライセンス: Link先を確認
Chenyu Gao, Shunxing Bao, Michael Kim, Nancy Newlin, Praitayini Kanakaraj, Tianyuan Yao, Gaurav Rudravaram, Yuankai Huo, Daniel Moyer, Kurt Schilling, Walter Kukull, Arthur Toga, Derek Archer, Timothy Hohman, Bennett Landman, Zhiyuan Li, (参考訳) 目的:拡散MRI(dMRI)では,全脳組織の微細構造と接続性の体積および束解析が不完全視野(FOV)によって著しく阻害される可能性がある。 本研究の目的は、未完成なFOVで既存のdMRIスキャンから直接欠落したスライスを出力する方法を開発することである。 完全FOVによるインプット画像は、不完全FOVによる破損データに対する全脳トラクトグラフィーを改善することができると仮定する。 したがって,本手法は,有意なdMRIデータを捨てる上で望ましい代替手段を提供する。 アプローチ: 不完全なFOVを用いたdMRIスキャンにおいて, 欠損脳領域を推定する深層生成モデルに基づくフレームワークを提案する。 このモデルは拡散強調画像(DWI)の拡散特性と、対応する構造画像に明らかな解剖学的特徴の両方を学習し、不完全なFOVの外側で欠落したDWIのスライスを効率的に出力することができる。 結果: WRAPデータセットでは,PSNRb0=22.397,SSIMb0=0.905,PSNRb1300=22.479,SSIMb1300=0.893,NACCデータセットではPSNRb0=21.304,SSIMb0=0.892,PSNRb1300=21.599,SSIMb1300=0.877を得た。 提案手法は,WRAPデータセットとNACCデータセットの72トラクト (p < 0.001) の平均Diceスコアの増加とともに,トラクトグラフィーの精度を改善した。 結論: 提案手法は, 完全不完全FOVを用いたdMRIデータにおける十分な計算性能を達成し, 破損したデータの修復を図った。 提案手法はより正確で完全かつ拡張されたFOVで全脳トラクトグラフィーを施行し,アルツハイマー病関連結束解析における不確かさを低減した。

Purpose: In diffusion MRI (dMRI), the volumetric and bundle analyses of whole-brain tissue microstructure and connectivity can be severely impeded by an incomplete field-of-view (FOV). This work aims to develop a method for imputing the missing slices directly from existing dMRI scans with an incomplete FOV. We hypothesize that the imputed image with complete FOV can improve the whole-brain tractography for corrupted data with incomplete FOV. Therefore, our approach provides a desirable alternative to discarding the valuable dMRI data, enabling subsequent tractography analyses that would otherwise be challenging or unattainable with corrupted data. Approach: We propose a framework based on a deep generative model that estimates the absent brain regions in dMRI scans with incomplete FOV. The model is capable of learning both the diffusion characteristics in diffusion-weighted images (DWI) and the anatomical features evident in the corresponding structural images for efficiently imputing missing slices of DWI outside of incomplete FOV. Results: For evaluating the imputed slices, on the WRAP dataset the proposed framework achieved PSNRb0=22.397, SSIMb0=0.905, PSNRb1300=22.479, SSIMb1300=0.893; on the NACC dataset it achieved PSNRb0=21.304, SSIMb0=0.892, PSNRb1300=21.599, SSIMb1300= 0.877. The proposed framework improved the tractography accuracy, as demonstrated by an increased average Dice score for 72 tracts (p < 0.001) on both the WRAP and NACC datasets. Conclusions: Results suggest that the proposed framework achieved sufficient imputation performance in dMRI data with incomplete FOV for improving whole-brain tractography, thereby repairing the corrupted data. Our approach achieved more accurate whole-brain tractography results with extended and complete FOV and reduced the uncertainty when analyzing bundles associated with Alzheimer's Disease.
翻訳日:2024-08-30 19:08:38 公開日:2024-08-28
# バイオメディカルイメージセグメンテーション:ディープラーニングに基づく物体検出手法の体系的文献レビュー

Biomedical Image Segmentation: A Systematic Literature Review of Deep Learning Based Object Detection Methods ( http://arxiv.org/abs/2408.03393v2 )

ライセンス: Link先を確認
Fazli Wahid, Yingliang Ma, Dawar Khan, Muhammad Aamir, Syed U. K. Bukhari, (参考訳) バイオメディカルイメージセグメンテーションは、様々な臓器の疾患の診断において重要な役割を担っている。 このようなセグメンテーションにはディープラーニングに基づく物体検出法が一般的である。 この話題には広範な研究がある。 しかし、このトピックに関する標準的なレビューはない。 既存の調査では、標準化されたアプローチやより広範なセグメンテーション技術に重点を置いていないことが多い。 本稿では, バイオメディカルイメージセグメンテーションのための深層学習物体検出手法を探求する148の論文を収集, 分析した。 これらの手法を批判的に分析し,課題を特定し,今後の方向性について考察した。 選択した論文から, ディープラーニングモデル, 対象画像のモダリティ, 対象疾患, 方法分析のための指標などの結果を抽出した。 結果は表形式および/またはチャート形式で提示されている。 結果は,2つのステージ検出モデル,1つのステージ検出モデル,ポイントベース検出モデルを含む3つの主要なカテゴリで示される。 各記事は、その長所と短所とともに個別に分析される。 最後に,オープン課題,潜在的利益,今後の研究方向性について論じる。 このSLRは、これらのセグメンテーションモデルを素早くより深く理解し、最終的にはバイオメディカル画像解析のためのより強力なソリューションの開発を促進することを目的としている。

Biomedical image segmentation plays a vital role in diagnosis of diseases across various organs. Deep learning-based object detection methods are commonly used for such segmentation. There exists an extensive research in this topic. However, there is no standard review on this topic. Existing surveys often lack a standardized approach or focus on broader segmentation techniques. In this paper, we conducted a systematic literature review (SLR), collected and analysed 148 articles that explore deep learning object detection methods for biomedical image segmentation. We critically analyzed these methods, identified the key challenges, and discussed the future directions. From the selected articles we extracted the results including the deep learning models, targeted imaging modalities, targeted diseases, and the metrics for the analysis of the methods. The results have been presented in tabular and/or charted forms. The results are presented in three major categories including two stage detection models, one stage detection models and point-based detection models. Each article is individually analyzed along with its pros and cons. Finally, we discuss open challenges, potential benefits, and future research directions. This SLR aims to provide the research community with a quick yet deeper understanding of these segmentation models, ultimately facilitating the development of more powerful solutions for biomedical image analysis.
翻訳日:2024-08-30 18:25:25 公開日:2024-08-28
# 1ビットLDM時代のマツマルかノーマツマルか

Matmul or No Matmal in the Era of 1-bit LLMs ( http://arxiv.org/abs/2408.11939v2 )

ライセンス: Link先を確認
Jinendra Malekar, Mohammed E. Elbtity, Ramtin Zand, (参考訳) 1ビットの大規模言語モデル(LLM)の出現は注目され、新たな研究機会が開かれた。 しかし、1ビット LLM は射影層に極端に量子化を施し、注意を向けることなく少数のモデルを改善するだけである。 したがって、将来の研究における目標の根本的な誤った選択を避けるためには、1ビットのLLMがもたらす計算とメモリ使用量の実際の改善を理解することが不可欠である。 本研究では,1ビットLLMの文脈に適合したアムダールの法則を適応させ,1ビットLLMの部分的改善がモデル全体の性能に与える影響を示す。 大規模な実験を通じて、異なるモデルアーキテクチャとハードウェア構成にまたがる重要なニュアンスを明らかにし、1ビットLLMの時代における将来の研究のロードマップを提供する。

The advent of 1-bit large language models (LLMs) has attracted considerable attention and opened up new research opportunities. However, 1-bit LLMs only improve a fraction of models by applying extreme quantization to the projection layers while leaving attention heads unchanged. Therefore, to avoid fundamentally wrong choices of goals in future research, it is crucial to understand the actual improvements in computation and memory usage that 1-bit LLMs can deliver. In this work, we present an adaptation of Amdahl's Law tailored for the 1-bit LLM context, which illustrates how partial improvements in 1-bit LLMs impact overall model performance. Through extensive experiments, we uncover key nuances across different model architectures and hardware configurations, offering a roadmap for future research in the era of 1-bit LLMs.
翻訳日:2024-08-30 18:25:25 公開日:2024-08-28
# Phys Part: 相互作用可能なオブジェクトに対する物理的にプラズブルな部分補完

PhysPart: Physically Plausible Part Completion for Interactable Objects ( http://arxiv.org/abs/2408.13724v2 )

ライセンス: Link先を確認
Rundong Luo, Haoran Geng, Congyue Deng, Puhao Li, Zan Wang, Baoxiong Jia, Leonidas Guibas, Siyuan Huang, (参考訳) 相互作用可能なオブジェクトは、私たちの日常生活にどこにでもある。 近年の3D生成モデルの進歩により、これらのオブジェクトのモデリングの自動化が可能となり、3Dプリンティングからロボットシミュレーション環境の創出まで幅広い応用が期待できる。 しかしながら、3次元の形状や外観のモデリングでは大きな進歩があったが、特に相互作用可能な物体の物体物理のモデリングは、部品間の運動によって課される物理的制約のため、依然として困難である。 本稿では,物体に正確にフィットするだけでなく,スムーズな動きを許容する3D部品を生成することを目的として,相互作用可能な物体に対する物理的に可塑性な部分補完の問題に取り組む。 そこで本研究では,分類子なし誘導による幾何学的条件付けを利用した拡散型部分生成モデルを提案し,物理制約を安定度とモビリティ損失の集合として定式化し,サンプリングプロセスの導出を行う。 さらに、複雑な部分階層を持つオブジェクトに対して、従属部分の生成を実証し、逐次部分生成への道を開く。 実験では,運動成功率に基づく身体的可視性測定のための新しい指標を提案する。 我々のモデルは、特に物理的制約を適切にモデル化していないものよりも、形状や物理的な指標よりも、既存のベースラインよりも優れています。 また、3Dプリンティング、ロボット操作、シーケンシャルな部分生成などの応用を実証し、高い物理的妥当性を求める現実的なタスクにおいて、我々の強みを示す。

Interactable objects are ubiquitous in our daily lives. Recent advances in 3D generative models make it possible to automate the modeling of these objects, benefiting a range of applications from 3D printing to the creation of robot simulation environments. However, while significant progress has been made in modeling 3D shapes and appearances, modeling object physics, particularly for interactable objects, remains challenging due to the physical constraints imposed by inter-part motions. In this paper, we tackle the problem of physically plausible part completion for interactable objects, aiming to generate 3D parts that not only fit precisely into the object but also allow smooth part motions. To this end, we propose a diffusion-based part generation model that utilizes geometric conditioning through classifier-free guidance and formulates physical constraints as a set of stability and mobility losses to guide the sampling process. Additionally, we demonstrate the generation of dependent parts, paving the way toward sequential part generation for objects with complex part-whole hierarchies. Experimentally, we introduce a new metric for measuring physical plausibility based on motion success rates. Our model outperforms existing baselines over shape and physical metrics, especially those that do not adequately model physical constraints. We also demonstrate our applications in 3D printing, robot manipulation, and sequential part generation, showing our strength in realistic tasks with the demand for high physical plausibility.
翻訳日:2024-08-30 18:25:25 公開日:2024-08-28
# SurGen:手術用ビデオ生成のためのテキストガイド拡散モデル

SurGen: Text-Guided Diffusion Model for Surgical Video Generation ( http://arxiv.org/abs/2408.14028v2 )

ライセンス: Link先を確認
Joseph Cho, Samuel Schmidgall, Cyril Zakka, Mrudang Mathur, Rohan Shad, William Hiesinger, (参考訳) 拡散に基づくビデオ生成モデルは、視覚的忠実度、時間的コヒーレンス、ユーザコントロールを改善した出力を生成する。 これらの進歩は、より現実的で多様な、インタラクティブなシミュレーション環境を可能にすることによって、外科教育を改善するための大きな約束を持っている。 本研究では,手術用ビデオ合成に適したテキスト誘導拡散モデルであるSurGenを紹介する。 標準画像およびビデオ生成指標を用いて,出力の視覚的および時間的品質を検証する。 さらに,手術データに基づいて訓練された深層学習分類器を用いて,対応するテキストプロンプトへのアライメントを評価する。 本研究は, 外科研修生に有用な教育ツールとして, 拡散モデルが有用であることを示すものである。

Diffusion-based video generation models have made significant strides, producing outputs with improved visual fidelity, temporal coherence, and user control. These advancements hold great promise for improving surgical education by enabling more realistic, diverse, and interactive simulation environments. In this study, we introduce SurGen, a text-guided diffusion model tailored for surgical video synthesis, producing the highest resolution and longest duration videos among existing surgical video generation models. We validate the visual and temporal quality of the outputs using standard image and video generation metrics. Additionally, we assess their alignment to the corresponding text prompts through a deep learning classifier trained on surgical data. Our results demonstrate the potential of diffusion models to serve as valuable educational tools for surgical trainees.
翻訳日:2024-08-30 18:15:34 公開日:2024-08-28
# ベイズワイドニューラルネットワークのための関数空間MCMC

Function-Space MCMC for Bayesian Wide Neural Networks ( http://arxiv.org/abs/2408.14325v2 )

ライセンス: Link先を確認
Lucia Pezzetti, Stefano Favaro, Stefano Peluchetti, (参考訳) ベイズニューラルネットワークは、複雑な予測モデルにおける不確実性を理解するための魅力的なフレームワークを提供する。 本稿では, ベイズニューラルネットワークの幅が大きくなるにつれて, 重みの再パラメータ化後部分布から, プリコンディション付きクランク・ニコソン法とそのランゲヴィン法を用いて検討する。 無限次元環境におけるロバスト性に加えて,ネットワークの幅が大きくなるにつれて提案手法の受容確率が1に近づくことを証明する。 さらに,アンダーダムのランゲヴィン・モンテカルロ,プレコンディションのクランク・ニコソン,プリコンディションのクランク・ニコソン・ランゲヴィンの混合速度が,実世界のいくつかのケースにおけるネットワーク幅の変化の影響について検討・比較した。 その結果,ベイズニューラルネットワークの広い構成において,予備条件付きクランク・ニコソン法により,より効率的な後方分布のサンプリングが可能であることが示唆された。

Bayesian Neural Networks represent a fascinating confluence of deep learning and probabilistic reasoning, offering a compelling framework for understanding uncertainty in complex predictive models. In this paper, we investigate the use of the preconditioned Crank-Nicolson algorithm and its Langevin version to sample from the reparametrised posterior distribution of the weights as the widths of Bayesian Neural Networks grow larger. In addition to being robust in the infinite-dimensional setting, we prove that the acceptance probabilities of the proposed methods approach 1 as the width of the network increases, independently of any stepsize tuning. Moreover, we examine and compare how the mixing speeds of the underdamped Langevin Monte Carlo, the preconditioned Crank-Nicolson and the preconditioned Crank-Nicolson Langevin samplers are influenced by changes in the network width in some real-world cases. Our findings suggest that, in wide Bayesian Neural Networks configurations, the preconditioned Crank-Nicolson method allows for more efficient sampling of the reparametrised posterior distribution, as evidenced by a higher effective sample size and improved diagnostic results compared with the other analysed algorithms.
翻訳日:2024-08-30 18:15:34 公開日:2024-08-28
# MMASD+:自閉症スペクトラム障害児のプライバシー保護行動分析のための新しいデータセット

MMASD+: A Novel Dataset for Privacy-Preserving Behavior Analysis of Children with Autism Spectrum Disorder ( http://arxiv.org/abs/2408.15077v2 )

ライセンス: Link先を確認
Pavan Uttej Ravva, Behdokht Kiafar, Pinar Kullu, Jicheng Li, Anjana Bhat, Roghayeh Leila Barmaki, (参考訳) 自閉症スペクトラム障害(ASD)は、社会的相互作用やコミュニケーション信号の理解において重要な課題である。 近年, 深層学習によるコンピュータビジョン技術を活用して, 時間経過の観察を行っている。 これらのモデルは、自閉症コミュニティのプライベートで非パブリックなデータセットに基づいてトレーニングされており、プライバシを保存するデータ共有の問題によって、さまざまなモデル間で結果を比較する上での課題を生み出している。 MMASD+は、Multimodal ASD(MMASD)と呼ばれる新しいオープンソースデータセットの拡張版である。 MMASD+は3D-Skeleton、3D Body Mesh、OCRデータを含む多様なデータモダリティで構成されている。 Yolov8とDeep SORTアルゴリズムの機能を統合して、セラピストと子供の区別を可能にし、元のデータセットにおける大きな障壁に対処する。 さらに、11のアクションタイプとASDの存在を予測するために、Multimodal Transformerフレームワークが提案されている。 このフレームワークは、アクションタイプの予測に95.03%、ASDの存在予測に96.42%の精度を達成し、単一のデータモダリティでトレーニングされたモデルと比較して10%以上の改善が示されている。 これらの知見は、マルチモーダルトランスフォーマーフレームワークに複数のデータモダリティを統合する利点を強調している。

Autism spectrum disorder (ASD) is characterized by significant challenges in social interaction and comprehending communication signals. Recently, therapeutic interventions for ASD have increasingly utilized Deep learning powered-computer vision techniques to monitor individual progress over time. These models are trained on private, non-public datasets from the autism community, creating challenges in comparing results across different models due to privacy-preserving data-sharing issues. This work introduces MMASD+, an enhanced version of the novel open-source dataset called Multimodal ASD (MMASD). MMASD+ consists of diverse data modalities, including 3D-Skeleton, 3D Body Mesh, and Optical Flow data. It integrates the capabilities of Yolov8 and Deep SORT algorithms to distinguish between the therapist and children, addressing a significant barrier in the original dataset. Additionally, a Multimodal Transformer framework is proposed to predict 11 action types and the presence of ASD. This framework achieves an accuracy of 95.03% for predicting action types and 96.42% for predicting ASD presence, demonstrating over a 10% improvement compared to models trained on single data modalities. These findings highlight the advantages of integrating multiple data modalities within the Multimodal Transformer framework.
翻訳日:2024-08-30 18:15:34 公開日:2024-08-28
# AnomalousPatchCore: 異常サンプルの産業的異常検出への応用を探る

AnomalousPatchCore: Exploring the Use of Anomalous Samples in Industrial Anomaly Detection ( http://arxiv.org/abs/2408.15113v2 )

ライセンス: Link先を確認
Mykhailo Koshil, Tilman Wegener, Detlef Mentrup, Simone Frintrop, Christian Wilms, (参考訳) 視覚検査(英: visual inspection)または産業異常検出(英: industrial anomaly detection)は、製造業において最も一般的な品質管理タイプの一つである。 この課題は、回路基板の画像に欠落した部品である画像が与えられた異常の有無を識別し、その後の手動検査を行うことである。 近年、産業的異常検出が急増しているが、ほとんどの異常検出手法は依然として通常のサンプルからの知識のみを利用しており、頻繁に入手可能な異常サンプルからの情報の活用に失敗した。 さらに、一般的な画像分類データセットに基づいて事前訓練された、非常に一般的な特徴抽出器にも大きく依存している。 本稿では、これらの欠点に対処し、異常な特徴を識別するための正常および異常なドメイン内サンプルを微調整した特徴抽出器と、その後のメモリバンクに基づいて、新しい異常検出システムAnomalousPatchCore~(APC)を提案する。 APCの特徴抽出器を微調整するために,異常検出の異なる側面に対処する3つの補助的タスクを提案する。 MVTecデータセットを広範囲に評価したところ、APCは異常検出において最先端のシステムよりも優れており、特に工業的異常検出において、その後の手動検査では特に重要である。 詳細なアブレーション研究では,APCの特性についてさらに検討する。

Visual inspection, or industrial anomaly detection, is one of the most common quality control types in manufacturing. The task is to identify the presence of an anomaly given an image, e.g., a missing component on an image of a circuit board, for subsequent manual inspection. While industrial anomaly detection has seen a surge in recent years, most anomaly detection methods still utilize knowledge only from normal samples, failing to leverage the information from the frequently available anomalous samples. Additionally, they heavily rely on very general feature extractors pre-trained on common image classification datasets. In this paper, we address these shortcomings and propose the new anomaly detection system AnomalousPatchCore~(APC) based on a feature extractor fine-tuned with normal and anomalous in-domain samples and a subsequent memory bank for identifying unusual features. To fine-tune the feature extractor in APC, we propose three auxiliary tasks that address the different aspects of anomaly detection~(classification vs. localization) and mitigate the effect of the imbalance between normal and anomalous samples. Our extensive evaluation on the MVTec dataset shows that APC outperforms state-of-the-art systems in detecting anomalies, which is especially important in industrial anomaly detection given the subsequent manual inspection. In detailed ablation studies, we further investigate the properties of our APC.
翻訳日:2024-08-30 18:04:21 公開日:2024-08-28
# ANVIL: ラベル付きトレーニングデータを必要としない異常に基づく脆弱性識別

ANVIL: Anomaly-based Vulnerability Identification without Labelled Training Data ( http://arxiv.org/abs/2408.16028v1 )

ライセンス: Link先を確認
Weizhou Wang, Eric Liu, Xiangyu Guo, David Lie, (参考訳) 教師付き学習ベースのソフトウェア脆弱性検出装置は、ラベル付きトレーニングデータの不十分な可用性のために、しばしば不足する。 対照的に、GPT-4のような大規模言語モデル(LLM)はラベル付きデータでは訓練されていないが、脆弱性を検出するよう促された場合、LLM予測精度はランダムな推測よりもわずかに優れている。 本稿では,脆弱性検出を異常検出の1つとして再検討する。 ほとんどのコードは脆弱性を含んでおらず、LSMは大量のコードで訓練されているため、脆弱性のあるコードはLSMの予測されたコード配布から異常と見なすことができ、脆弱性のあるコードの学習可能な表現を提供するためにラベル付きデータを必要としない。 この観点から、コード生成のために訓練されたLCMが、脆弱性のあるコードと非脆弱性のあるコードを再構築するよう促された場合、予測精度に重大なギャップがあることを実証する。 この知見を用いて,ソフトウェア脆弱性をラインレベルの粒度で検出するAnVILを実装した。 実験では, 異なる異常スコアリング手法の識別能力と, 文脈サイズに対するANVILの感度について検討した。 また, 各種LLMファミリーに対するANVILの有効性について検討し, 評価LLMの知識遮断後に発見された脆弱性について, 漏洩実験を行った。 Magmaベンチマークの脆弱性コレクションでは、ANVILは、ラベル付き脆弱性でトレーニングされたことが一度もないにも関わらず、ラベル付きデータでトレーニングされたLineVulやLineVDといった、最先端のラインレベルの脆弱性検出よりも優れています。 具体的には、我々のアプローチは1.62\times$から2.18\times$より優れたトップ5のアキュラシーと1.02\times$から1.29\times$ラインレベルの脆弱性検出タスクにおけるROCスコアよりも優れたROCスコアを達成する。

Supervised learning-based software vulnerability detectors often fall short due to the inadequate availability of labelled training data. In contrast, Large Language Models (LLMs) such as GPT-4, are not trained on labelled data, but when prompted to detect vulnerabilities, LLM prediction accuracy is only marginally better than random guessing. In this paper, we explore a different approach by reframing vulnerability detection as one of anomaly detection. Since the vast majority of code does not contain vulnerabilities and LLMs are trained on massive amounts of such code, vulnerable code can be viewed as an anomaly from the LLM's predicted code distribution, freeing the model from the need for labelled data to provide a learnable representation of vulnerable code. Leveraging this perspective, we demonstrate that LLMs trained for code generation exhibit a significant gap in prediction accuracy when prompted to reconstruct vulnerable versus non-vulnerable code. Using this insight, we implement ANVIL, a detector that identifies software vulnerabilities at line-level granularity. Our experiments explore the discriminating power of different anomaly scoring methods, as well as the sensitivity of ANVIL to context size. We also study the effectiveness of ANVIL on various LLM families, and conduct leakage experiments on vulnerabilities that were discovered after the knowledge cutoff of our evaluated LLMs. On a collection of vulnerabilities from the Magma benchmark, ANVIL outperforms state-of-the-art line-level vulnerability detectors, LineVul and LineVD, which have been trained with labelled data, despite ANVIL having never been trained with labelled vulnerabilities. Specifically, our approach achieves $1.62\times$ to $2.18\times$ better Top-5 accuracies and $1.02\times$ to $1.29\times$ times better ROC scores on line-level vulnerability detection tasks.
翻訳日:2024-08-30 17:54:29 公開日:2024-08-28
# マルチモーダル感性解析のための弱スーパービジョンを用いたメタラーン一様信号

Meta-Learn Unimodal Signals with Weak Supervision for Multimodal Sentiment Analysis ( http://arxiv.org/abs/2408.16029v1 )

ライセンス: Link先を確認
Sijie Mai, Yu Zhao, Ying Zeng, Jianhua Yao, Haifeng Hu, (参考訳) マルチモーダル感情分析は、様々なソースからの情報を効果的に統合し、感情を推測することを目的としている。 したがって、ほとんどの作品はトレーニングのためにマルチモーダルラベルに依存している。 しかし、マルチモーダルアノテーションが必ずしも単モーダルアノテーションの理想的な代用であるとは限らないため、単モーダル信号の学習にはノイズラベルの問題が存在する。 本稿では,注釈付きマルチモーダルラベルの弱監督下での一助音ラベルの学習について検討する。 具体的には、上記の問題に対処する新しいメタユニラベル生成(MUG)フレームワークを提案し、利用可能なマルチモーダルラベルを活用して、メタユニラベル補正ネットワーク(MUCN)により対応するユニモーダルラベルを学習する。 まず,MUCNの学習を指導するためにマルチモーダルアノテーションを使用するために,非モーダル表現とマルチモーダル表現のギャップを埋めるために,コントラッシブ・ベース・プロジェクション・モジュールを設計する。 その後,両レベルの最適化戦略を通じて,MUCNを明示的な監督で訓練するための一様・多モードのデノベーションタスクを提案する。 次に,多モーダル推論のための識別的一モーダル特徴を抽出するために,単モーダルおよび多モーダル学習タスクを共同で訓練する。 実験結果から,MUGは競争ベースラインより優れ,精度の高い単調ラベルを学習できることが示唆された。

Multimodal sentiment analysis aims to effectively integrate information from various sources to infer sentiment, where in many cases there are no annotations for unimodal labels. Therefore, most works rely on multimodal labels for training. However, there exists the noisy label problem for the learning of unimodal signals as multimodal annotations are not always the ideal substitutes for the unimodal ones, failing to achieve finer optimization for individual modalities. In this paper, we explore the learning of unimodal labels under the weak supervision from the annotated multimodal labels. Specifically, we propose a novel meta uni-label generation (MUG) framework to address the above problem, which leverages the available multimodal labels to learn the corresponding unimodal labels by the meta uni-label correction network (MUCN). We first design a contrastive-based projection module to bridge the gap between unimodal and multimodal representations, so as to use multimodal annotations to guide the learning of MUCN. Afterwards, we propose unimodal and multimodal denoising tasks to train MUCN with explicit supervision via a bi-level optimization strategy. We then jointly train unimodal and multimodal learning tasks to extract discriminative unimodal features for multimodal inference. Experimental results suggest that MUG outperforms competitive baselines and can learn accurate unimodal labels.
翻訳日:2024-08-30 17:54:29 公開日:2024-08-28
# いびき音に基づくマルチレベル気道崩壊の局所化のための深層学習手法

A Deep Learning Approach to Localizing Multi-level Airway Collapse Based on Snoring Sounds ( http://arxiv.org/abs/2408.16030v1 )

ライセンス: Link先を確認
Ying-Chieh Hsu, Stanley Yung-Chuan Liu, Chao-Jung Huang, Chi-Wei Wu, Ren-Kai Cheng, Jane Yung-Jen Hsu, Shang-Ran Huang, Yuan-Ren Cheng, Fu-Shun Hsu, (参考訳) 本研究は, 閉塞性睡眠時無呼吸(OSA)患者における上気道の様々なレベルの刺激音を薬物誘発型睡眠内視鏡(DISE)のデータを用いて, マシン/ディープ学習を用いて分類するものである。 39名を対象に,Vellum,Oropharynx,Tongue Base,Epiglottis (VOTE) 分類システムを用いて,聴力評価を行った。 5,173の1秒セグメントからなるデータセットは、SVM(Support Vector Machine)、Bidirectional Long Short-Term Memory(BiLSTM)、ResNet-50など、モデルのトレーニングとテストに使用された。 畳み込みニューラルネットワーク(CNN)であるResNet-50は、聴覚の分類において、特にマルチレベル障害物の同定において、最高の全体的な性能を示した。 本研究は,OSAの診断と治療を改善するため,聴覚と深層学習を統合する可能性を強調した。 しかし, サンプルサイズ, データ不均衡, 薬理学的に誘発される音と自然刺激音の相違などの課題が指摘され, モデル精度と一般化性の向上に向けたさらなる研究が示唆された。

This study investigates the application of machine/deep learning to classify snoring sounds excited at different levels of the upper airway in patients with obstructive sleep apnea (OSA) using data from drug-induced sleep endoscopy (DISE). The snoring sounds of 39 subjects were analyzed and labeled according to the Velum, Oropharynx, Tongue Base, and Epiglottis (VOTE) classification system. The dataset, comprising 5,173 one-second segments, was used to train and test models, including Support Vector Machine (SVM), Bidirectional Long Short-Term Memory (BiLSTM), and ResNet-50. The ResNet-50, a convolutional neural network (CNN), showed the best overall performance in classifying snoring acoustics, particularly in identifying multi-level obstructions. The study emphasizes the potential of integrating snoring acoustics with deep learning to improve the diagnosis and treatment of OSA. However, challenges such as limited sample size, data imbalance, and differences between pharmacologically induced and natural snoring sounds were noted, suggesting further research to enhance model accuracy and generalizability.
翻訳日:2024-08-30 17:54:29 公開日:2024-08-28
# EMP: データプルーニングにおけるメモリの強化

EMP: Enhance Memory in Data Pruning ( http://arxiv.org/abs/2408.16031v1 )

ライセンス: Link先を確認
Jinying Xiao, Ping Li, Jie Nie, Zhe Tang, (参考訳) 近年、大規模言語と視覚モデルの性能は高いが、事前学習と微調整のコストが高いため、データセットのプルーニングを通じてより高速なトレーニングに移行している。 従来の手法では、サンプルの損失を評価基準として用い、トレーニングに最も「難しい」サンプルを選択することを目的としていた。 しかし、刈り取り速度が上がると、各サンプルの訓練回数が均等に分散し、多くの臨界試料や一般試料が効果的に適合しない。 これを低周波学習(LFL)と呼ぶ。 言い換えれば、LFLはモデルがほとんどのサンプルを記憶することを防ぐ。 本研究では,LFLのスコアリング関数を分解し,LFLの非効率性を理論的に説明し,このメモリ項を近似したモデル記憶能力を高めるために,スコアリング関数にメモリ項を追加することを提案する。 同様に、SSL(Self-Supervised Learning)におけるメモリについて検討し、SSLメモリに関する最初の議論を示す。 コントラスト学習を用いて理論的・実験的に記憶用語を導出する。 最後に,EMP(Enhance Memory Pruning, Enhance Memory Pruning, Enhance Memory Pruning)を提案する。 画像分類,自然言語理解,モデル事前学習などのタスクにおけるEMPの性能を評価した。 以上の結果から,EMPは極端破砕速度でモデル性能を向上させることができることがわかった。 例えば、CIFAR100-ResNet50の事前トレーニングタスクでは、70 %のプルーニングで、EMPは現在のメソッドを2.2 %上回っている。

Recently, large language and vision models have shown strong performance, but due to high pre-training and fine-tuning costs, research has shifted towards faster training via dataset pruning. Previous methods used sample loss as an evaluation criterion, aiming to select the most "difficult" samples for training. However, when the pruning rate increases, the number of times each sample is trained becomes more evenly distributed, which causes many critical or general samples to not be effectively fitted. We refer to this as Low-Frequency Learning (LFL). In other words, LFL prevents the model from remembering most samples. In our work, we decompose the scoring function of LFL, provide a theoretical explanation for the inefficiency of LFL, and propose adding a memory term to the scoring function to enhance the model's memory capability, along with an approximation of this memory term. Similarly, we explore memory in Self-Supervised Learning (SSL), marking the first discussion on SSL memory. Using contrastive learning, we derive the memory term both theoretically and experimentally. Finally, we propose Enhance Memory Pruning (EMP), which addresses the issue of insufficient memory under high pruning rates by enhancing the model's memory of data, thereby improving its performance. We evaluated the performance of EMP in tasks such as image classification, natural language understanding, and model pre-training. The results show that EMP can improve model performance under extreme pruning rates. For example, in the CIFAR100-ResNet50 pre-training task, with 70\% pruning, EMP outperforms current methods by 2.2\%.
翻訳日:2024-08-30 17:54:29 公開日:2024-08-28
# LLMを用いたレコメンダ用極端データ効率・生成型強化学習エージェント

An Extremely Data-efficient and Generative LLM-based Reinforcement Learning Agent for Recommenders ( http://arxiv.org/abs/2408.16032v1 )

ライセンス: Link先を確認
Shuang Feng, Grace Feng, (参考訳) 大規模言語モデル(LLM)の最近の進歩により、Webページのコンテキスト、製品の詳細、人間の指示を理解することが可能になった。 LLMを報酬モデルまたは強化学習におけるポリシーの基礎的アーキテクチャとして活用することは、人気を集めており、注目すべき成果は、InstructGPTの成功である。 RLアルゴリズムは、長期の顧客満足度を最大化し、産業レコメンデーションシステムにおける短期的な、ミオピックな目標を避けるために有効である。 本稿では,WebShopベンチマーク環境,データ,シミュレータ,事前学習したモデルチェックポイントを用いて,いくつかのRL手法を実装し,評価する。 目標は、RLエージェントをトレーニングして購入報酬を最大化することである。 RLエージェントは、トレーニング済みのBERTモデルを様々な目的に微調整し、報酬モデルなしで好みから学習し、InstructGPTで使用されるPPO(Pximal Policy Optimization)やDPO(Direct Preference Optimization)といった現代的トレーニング技術を用いて開発されている。 本報告では, 生成的軌跡を用いて訓練したRL剤についても検討した。 WebShopシミュレータ環境におけるトンプソンサンプリングによる評価を行った。 シミュレーションされたオンライン実験では、生成された軌道で訓練されたエージェントが、人間の軌道で訓練されたエージェントと同等のタスク性能を示した。 このことは、非常に低コストでデータ効率のよい強化学習エージェントの訓練方法の例を示している。 また、トレーニング時間(2時間)に制限があるため、DPOエージェントは、T4 GPUで約3000ステップまたは30分トレーニングした後、15%の成功率に達したPPOエージェントと比較して19%の成功率を達成した。

Recent advancements in large language models (LLMs) have enabled understanding webpage contexts, product details, and human instructions. Utilizing LLMs as the foundational architecture for either reward models or policies in reinforcement learning has gained popularity -- a notable achievement is the success of InstructGPT. RL algorithms have been instrumental in maximizing long-term customer satisfaction and avoiding short-term, myopic goals in industrial recommender systems, which often rely on deep learning models to predict immediate clicks or purchases. In this project, several RL methods are implemented and evaluated using the WebShop benchmark environment, data, simulator, and pre-trained model checkpoints. The goal is to train an RL agent to maximize the purchase reward given a detailed human instruction describing a desired product. The RL agents are developed by fine-tuning a pre-trained BERT model with various objectives, learning from preferences without a reward model, and employing contemporary training techniques such as Proximal Policy Optimization (PPO) as used in InstructGPT, and Direct Preference Optimization (DPO). This report also evaluates the RL agents trained using generative trajectories. Evaluations were conducted using Thompson sampling in the WebShop simulator environment. The simulated online experiments demonstrate that agents trained on generated trajectories exhibited comparable task performance to those trained using human trajectories. This has demonstrated an example of an extremely low-cost data-efficient way of training reinforcement learning agents. Also, with limited training time (<2hours), without utilizing any images, a DPO agent achieved a 19% success rate after approximately 3000 steps or 30 minutes of training on T4 GPUs, compared to a PPO agent, which reached a 15% success rate.
翻訳日:2024-08-30 17:54:29 公開日:2024-08-28
# サイバーセキュリティにおける倫理的ハッキングとその役割

Ethical Hacking and its role in Cybersecurity ( http://arxiv.org/abs/2408.16033v1 )

ライセンス: Link先を確認
Fatima Asif, Fatima Sohail, Zuhaib Hussain Butt, Faiz Nasir, Nida Asgar, (参考訳) 本稿では,現代のサイバーセキュリティにおける倫理的ハッキングの多様な機能について検討する。 現在の研究を統合することで、倫理的ハッキング技術の進歩、脆弱性の特定と侵入テストの実行、組織のセキュリティ強化への影響を分析します。 さらに,倫理的ハッキングに伴う倫理的考察,法的文脈,課題についても論じる。 このレビューは最終的に、倫理的ハッキングがサイバーセキュリティの防衛を強化する方法の理解を深める。

This review paper investigates the diverse functions of ethical hacking within modern cybersecurity. By integrating current research, it analyzes the progression of ethical hacking techniques,their use in identifying vulnerabilities and conducting penetration tests, and their influence on strengthening organizational security. Additionally, the paper discusses the ethical considerations, legal contexts and challenges that arises with ethical hacking. This review ultimately enhances the understanding of how ethical hacking can bolster cybersecurity defenses.
翻訳日:2024-08-30 17:54:29 公開日:2024-08-28
# マルチクラスネットフロートラフィックのための合成データ拡張の体系的評価

Systematic Evaluation of Synthetic Data Augmentation for Multi-class NetFlow Traffic ( http://arxiv.org/abs/2408.16034v1 )

ライセンス: Link先を確認
Maximilian Wolf, Dieter Landes, Andreas Hotho, Daniel Schlör, (参考訳) コンピュータネットワークにおけるサイバー攻撃の検出は、重要かつ進行中の研究課題である。 機械学習ベースの攻撃分類は、これらのモデルを新しいデータで継続的に更新し、ネットワーク侵入検知システム(NIDS)の有効性を高めることによって、有望なソリューションを提供する。 単純な攻撃の存在を示すバイナリ分類モデルとは異なり、マルチクラスモデルは特定のタイプの攻撃を識別することができ、より標的的で効果的なインシデント応答を可能にする。 しかし、これらの分類モデルの重大な欠点は、不均衡なトレーニングデータに対する感度である。 最近の進歩は、生成モデルがデータの増大を補助し、不均衡なデータセットに対して優れたソリューションを提供すると主張することを示唆している。 古典的バランスの手法は、あまり新しいものではないが、この問題に対する潜在的な対策も提供する。 これらの主張にもかかわらず、NIDSドメイン内のこれらのメソッドの包括的な比較は不足している。 既存の研究の多くは個々の手法に焦点を絞っており、様々な実験装置による結果の比較が困難である。 このギャップを埋めるために、NIDSベンチマークデータセットで評価された、NIDSドメインの複数の一般的な分類モデル間でのクラスバランスのための古典的および生成的再サンプリング手法を比較するための体系的なフレームワークを設計した。 本実験は,トレーニングデータのバランスをとる再サンプリング手法が,分類性能を確実に向上させるものではないことを示唆している。 性能改善を示す例もあるが、その結果の大部分は性能低下を示しており、特定の分類器を強化する特定の再サンプリング技術に一貫した傾向はない。

The detection of cyber-attacks in computer networks is a crucial and ongoing research challenge. Machine learning-based attack classification offers a promising solution, as these models can be continuously updated with new data, enhancing the effectiveness of network intrusion detection systems (NIDS). Unlike binary classification models that simply indicate the presence of an attack, multi-class models can identify specific types of attacks, allowing for more targeted and effective incident responses. However, a significant drawback of these classification models is their sensitivity to imbalanced training data. Recent advances suggest that generative models can assist in data augmentation, claiming to offer superior solutions for imbalanced datasets. Classical balancing methods, although less novel, also provide potential remedies for this issue. Despite these claims, a comprehensive comparison of these methods within the NIDS domain is lacking. Most existing studies focus narrowly on individual methods, making it difficult to compare results due to varying experimental setups. To close this gap, we designed a systematic framework to compare classical and generative resampling methods for class balancing across multiple popular classification models in the NIDS domain, evaluated on several NIDS benchmark datasets. Our experiments indicate that resampling methods for balancing training data do not reliably improve classification performance. Although some instances show performance improvements, the majority of results indicate decreased performance, with no consistent trend in favor of a specific resampling technique enhancing a particular classifier.
翻訳日:2024-08-30 17:54:29 公開日:2024-08-28
# 診断の分析(第2報) : 頻度, 線形独立性, 教師なし学習

Analysis of Diagnostics (Part II): Prevalence, Linear Independence, and Unsupervised Learning ( http://arxiv.org/abs/2408.16035v1 )

ライセンス: Link先を確認
Paul N. Patrone, Raquel A. Binder, Catherine S. Forconi, Ann M. Moormann, Anthony J. Kearsley, (参考訳) これは、診断検査を用いて、有病率(クラス内の要素の数)、不確実性定量化(UQ)、分類理論の関連を理解する2部シリーズの2番目の写本である。 第1部では,教師あり機械学習(ML)の文脈を考察し,有病率と相対的条件確率の概念の二重性を確立した。 この分析の鍵となる考え方は、有病率重み付き経験的リスク関数の和を最小化することにより、識別的分類器群を訓練することであった。 結果の出力は相対確率レベルセットと解釈できるため、クラスラベルにおける不確実性推定が得られる。 この手順はまた、ある識別的および生成的MLモデルが等価であることを示した。 パートIIは、これらの結果が線形代数におけるアイデアへの言及を通じて教師なし学習におけるタスクにまで拡張できる範囲について考察する。 まず, サンプルのクラスが不明な不純物集団の分布を, 有病率の観点からパラメータ化できることを示す。 このことは、異なるが未知の有病率を持つ線形独立集団の概念を導入する動機となっている。 これを用いて、不純な集団と純粋集団で定義される分類器間の同型を同定する。 ある種の場合において、これはまた、解が線形独立な集団の有病率をもたらす非線形方程式の体系を導き、教師なし学習を教師なし学習の一般化として完全に実現する。 本稿では, 合成データとSARS-CoV-2酵素結合免疫測定法(ELISA)について述べる。

This is the second manuscript in a two-part series that uses diagnostic testing to understand the connection between prevalence (i.e. number of elements in a class), uncertainty quantification (UQ), and classification theory. Part I considered the context of supervised machine learning (ML) and established a duality between prevalence and the concept of relative conditional probability. The key idea of that analysis was to train a family of discriminative classifiers by minimizing a sum of prevalence-weighted empirical risk functions. The resulting outputs can be interpreted as relative probability level-sets, which thereby yield uncertainty estimates in the class labels. This procedure also demonstrated that certain discriminative and generative ML models are equivalent. Part II considers the extent to which these results can be extended to tasks in unsupervised learning through recourse to ideas in linear algebra. We first observe that the distribution of an impure population, for which the class of a corresponding sample is unknown, can be parameterized in terms of a prevalence. This motivates us to introduce the concept of linearly independent populations, which have different but unknown prevalence values. Using this, we identify an isomorphism between classifiers defined in terms of impure and pure populations. In certain cases, this also leads to a nonlinear system of equations whose solution yields the prevalence values of the linearly independent populations, fully realizing unsupervised learning as a generalization of supervised learning. We illustrate our methods in the context of synthetic data and a research-use-only SARS-CoV-2 enzyme-linked immunosorbent assay (ELISA).
翻訳日:2024-08-30 17:54:29 公開日:2024-08-28
# IoTデータにおける効率的な$k$-NN検索:ツリーベースのインデックス構造におけるオーバーラップ最適化

Efficient $k$-NN Search in IoT Data: Overlap Optimization in Tree-Based Indexing Structures ( http://arxiv.org/abs/2408.16036v1 )

ライセンス: Link先を確認
Ala-Eddine Benrazek, Zineddine Kouahla, Brahim Farou, Hamid Seridi, Ibtissem Kemouguette, (参考訳) IoT(Internet of Things)における相互接続デバイスの普及は、ビッグデータ(Big IoT Data)として知られるデータの指数的な増加につながった。 この異種データの効率的な検索には、効果的な組織のための堅牢な索引付け機構が必要である。 しかし、重要な課題は、インデックス構築時のデータ空間分割の重複である。 この重複により、検索と検索の間のノードアクセスが増加し、リソース消費が増加し、パフォーマンスのボトルネックが発生し、システムのスケーラビリティが損なわれる。 この問題に対処するために,データ空間分割の重複を定量化し,戦略的に低減する3つの革新的なヒューリスティック手法を提案する。 ボリュームベース手法(VBM)は、分割間の交叉体積を計算し、空間的関係について深い洞察を与える。 距離ベース手法(DBM)は,分割中心と半径間の距離を用いて重なり合いを評価することで効率を向上させる。 最後に、オブジェクトベースのメソッド(OBM)は、複数のパーティションにまたがるオブジェクトを数え、データ空間のダイナミクスを直感的に理解することで、実用的なソリューションを提供します。 実験により,これらの手法が探索時間を短縮し,データ空間分割を改善し,システム全体の性能を向上させる可能性を示す。

The proliferation of interconnected devices in the Internet of Things (IoT) has led to an exponential increase in data, commonly known as Big IoT Data. Efficient retrieval of this heterogeneous data demands a robust indexing mechanism for effective organization. However, a significant challenge remains: the overlap in data space partitions during index construction. This overlap increases node access during search and retrieval, resulting in higher resource consumption, performance bottlenecks, and impedes system scalability. To address this issue, we propose three innovative heuristics designed to quantify and strategically reduce data space partition overlap. The volume-based method (VBM) offers a detailed assessment by calculating the intersection volume between partitions, providing deeper insights into spatial relationships. The distance-based method (DBM) enhances efficiency by using the distance between partition centers and radii to evaluate overlap, offering a streamlined yet accurate approach. Finally, the object-based method (OBM) provides a practical solution by counting objects across multiple partitions, delivering an intuitive understanding of data space dynamics. Experimental results demonstrate the effectiveness of these methods in reducing search time, underscoring their potential to improve data space partitioning and enhance overall system performance.
翻訳日:2024-08-30 17:54:29 公開日:2024-08-28
# 公正さ、正確さ、信頼できないデータ

Fairness, Accuracy, and Unreliable Data ( http://arxiv.org/abs/2408.16040v1 )

ライセンス: Link先を確認
Kevin Stangl, (参考訳) 本論文では,機械学習の信頼性向上を目的とした3つの領域,機械学習の公正性,戦略的分類,アルゴリズム的堅牢性について考察する。 これらのドメインはそれぞれ、学習を複雑にする特別な特性や構造を持っている。 経験的リスク最小化アルゴリズムが、古典的な学習理論の仮定と、野生におけるデータ分布の特定の性質のミスマッチのために、誤解を招くか、効果がないかという方法を考える。 これらのドメインのそれぞれに関する理論的理解は、ベストプラクティスをガイドし、効果的で信頼性があり、堅牢なシステムの設計を可能にする。

This thesis investigates three areas targeted at improving the reliability of machine learning; fairness in machine learning, strategic classification, and algorithmic robustness. Each of these domains has special properties or structure that can complicate learning. A theme throughout this thesis is thinking about ways in which a `plain' empirical risk minimization algorithm will be misleading or ineffective because of a mis-match between classical learning theory assumptions and specific properties of some data distribution in the wild. Theoretical understanding in eachof these domains can help guide best practices and allow for the design of effective, reliable, and robust systems.
翻訳日:2024-08-30 17:54:29 公開日:2024-08-28
# 拡散のスケールアップとフローベースXGBoostモデル

Scaling Up Diffusion and Flow-based XGBoost Models ( http://arxiv.org/abs/2408.16046v1 )

ライセンス: Link先を確認
Jesse C. Cresswell, Taewoo Kim, (参考訳) グラフデータ生成のための新しい機械学習手法は、科学的な応用に必要なスケールに合わない小さなデータセットでしばしば開発される。 本稿では,XGBoostを関数近似器として用いたグラフデータ上での拡散・流れマッチングモデルを提案する。 本研究では,既存の実装について,工学的観点から批判的な分析を行い,これらの制限が本手法の基本的ではないことを示す。 私たちの効率的な実装は、スケーリングモデルをはるかに大きなサイズにアンロックするので、ベンチマークタスクのパフォーマンスが向上します。 また, 生成モデルに適した多出力木など, 資源利用とモデル性能をさらに向上させるアルゴリズムの改良も提案する。 最後に,Fast Calorimeter Simulation Challengeの一環として,実験粒子物理学から得られた大規模科学的データセットについて報告する。 コードはhttps://github.com/layer6ai-labs/calo-forest.orgから入手できる。

Novel machine learning methods for tabular data generation are often developed on small datasets which do not match the scale required for scientific applications. We investigate a recent proposal to use XGBoost as the function approximator in diffusion and flow-matching models on tabular data, which proved to be extremely memory intensive, even on tiny datasets. In this work, we conduct a critical analysis of the existing implementation from an engineering perspective, and show that these limitations are not fundamental to the method; with better implementation it can be scaled to datasets 370x larger than previously used. Our efficient implementation also unlocks scaling models to much larger sizes which we show directly leads to improved performance on benchmark tasks. We also propose algorithmic improvements that can further benefit resource usage and model performance, including multi-output trees which are well-suited to generative modeling. Finally, we present results on large-scale scientific datasets derived from experimental particle physics as part of the Fast Calorimeter Simulation Challenge. Code is available at https://github.com/layer6ai-labs/calo-forest.
翻訳日:2024-08-30 17:54:29 公開日:2024-08-28
# ハイゼンベルク絵の魔法

Magic of the Heisenberg Picture ( http://arxiv.org/abs/2408.16047v1 )

ライセンス: Link先を確認
Neil Dowling, Pavel Kos, Xhek Turkeshi, (参考訳) Magicは量子プロセッサ上の状態を作成するのに必要な非クリフォード演算を定量化し、量子力学をシミュレートする古典的な計算複雑性に境界を設定する。 我々は演算子に対する魔法の資源理論を研究し、これは状態を記述するものと双対である。 演算子空間における安定化器R\enyiエントロピーアナログは、通常の条件を満たす優れたマジックモノトンであり、効率的な計算可能性特性を継承し、回路内の非クリフォードゲートの最小値に厳密な下界を与える。 これは操作的によく定義されており、作用素がわずかにパウリ弦を持つ作用素といかにうまく近似できるかを定量化できる。 直近の利点は、演算子安定化エントロピーがリーブ・ロビンソン境界を通して固有の局所性を示し、多体系における局所的動的マジック生成の研究に特に適していることである。 我々はこの量を2つの異なる規則で解析的に計算する。 まず、ランダムな進化または回路は、通常、すべてのR'enyi指標に対してハイゼンベルク図形にほぼ極大の魔法を持ち、ページ補正を評価する。 第2に、双対ユニタリティとZXグラフィカル計算の両方を利用し、相互作用可能な XXZ 回路に対する演算子安定化器エントロピーの進化を計算する。 この場合、魔法はすぐに定数に飽和し、異なるハイゼンベルクの図像現象と積分可能性との関係を示唆する。 この効率よく計算可能な演算子マジックモノトンは、多体マジック生成の構造特性を明らかにし、新しいクリフォード支援テンソルネットワーク法を刺激することができると論じる。

Magic quantifies the non-Clifford operations required for preparing a state on quantum processors and sets bounds on the classical computational complexity of simulating quantum dynamics. We study a magic resource theory for operators, which is dual to that describing states. We identify that the stabilizer R\'enyi entropy analog in operator space is a good magic monotone satisfying the usual conditions, while inheriting efficient computability properties and providing a tight lower-bound to the minimum number of non-Clifford gates in a circuit. It is operationally well-defined as quantifying how well one can approximate an operator with one that has only few Pauli strings; analogous to the relation between entanglement entropy and tensor-network truncation. An immediate advantage is that the operator stabilizer entropies exhibit inherent locality through a Lieb-Robinson bound, making them particularly suited for studying local dynamic magic generation in many-body systems. We compute this quantity analytically in two distinct regimes. First, we show that random evolution or circuits typically have approximately maximal magic in the Heisenberg picture for all R\'enyi indices, and evaluate the Page correction. Second, harnessing both dual unitarity and ZX graphical calculus, we compute the operator stabilizer entropy evolution for an interacting integrable XXZ circuit. In this case, magic quickly saturates to a constant; a distinct Heisenberg picture phenomena and suggestive of a connection to integrability. We argue that this efficiently computable operator magic monotone reveals structural properties of many-body magic generation, and can inspire novel Clifford-assisted tensor network methods.
翻訳日:2024-08-30 17:54:29 公開日:2024-08-28
# 線形相互作用によるスクイーズド熱貯留層工学

Squeezed Thermal Reservoir Engineering via Linear Interactions ( http://arxiv.org/abs/2408.16052v1 )

ライセンス: Link先を確認
Cheng-Lin Lee, Chiao-Hsuan Wang, (参考訳) 量子貯水池工学は、典型的な減量散逸を有利な資源に変えることを目的としている。 本稿では,量子システムのための圧縮熱貯留層を作成するための汎用的手法を提案する。 通常の温熱環境下での損失モードに系を結合することにより, 1/4のゆらぎの低減を特徴とする圧縮貯水池の効果をエミュレートすることができる。 1つは量子ビットや原子のような2段階の系、もう1つはフォトンやフォノンのようなボゾンモードの系である。 この方法は、通常の熱環境内での定常的な線形相互作用を利用し、圧縮光入力や時間依存変調を必要とせずに実験的な実現性を確保する。 この技術は、散逸性スクイージングの強化、絡み合いの安定化、量子シミュレーションの進歩、量子熱力学と相転移の探索、精度測定の改善など、様々な応用を約束する。

Quantum reservoir engineering aims to transform typically detrimental dissipations into advantageous resources. We present a versatile method for creating a squeezed thermal reservoir for quantum systems. By coupling the system to a lossy mode within a normal thermal environment, we can emulate the effect of a squeezed reservoir characterized by reduced fluctuations in one quadrature. We demonstrate this approach through two illustrative cases: one for two-level systems, such as qubits or atoms, and another for bosonic modes, like photons or phonons. This method leverages constant linear interactions within a normal thermal environment, ensuring experimental feasibility without requiring squeezed light inputs or time-dependent modulations. This technique holds promise for various applications, including the enhancement of dissipative squeezing, stabilization of entanglement, advancement of quantum simulations, exploration of quantum thermodynamics and phase transitions, and improvement of precision measurements.
翻訳日:2024-08-30 17:54:29 公開日:2024-08-28
# コーナー電荷ゆらぎと多体量子幾何学

Corner Charge Fluctuations and Many-Body Quantum Geometry ( http://arxiv.org/abs/2408.16057v1 )

ライセンス: Link先を確認
Xiao-Chuan Wu, Kang-Le Cai, Meng Cheng, Prashant Kumar, (参考訳) U(1)大域対称性を持つ多体系では、部分領域の電荷ゆらぎは絡みや他の大域的性質に関する重要な洞察を示す。 鋭い角を持つ部分領域では、二部格子のゆらぎは特定の量子相と遷移における角角への普遍的な形状依存を示すと予測され、「普遍的な角関数」と「普遍的な係数」が特徴である。 しかし, この単純な式は, 複合フェルミ液体を含む電荷絶縁体には不十分であることを示す。 これらのシステムでは、コーナーコントリビューションはコーナー角、サブリージョン配向、その他の顕微鏡的詳細に依存する可能性がある。 コーナー項の無限級数表現を提供し、非ユニバーサル係数で向き分解された普遍角関数を導入する。 小さな角度の極限や平均的な向き付けでは、残りの項の係数は多体量子計量によって完全に決定されるが、これは普遍的ではないが普遍的位相的下界とエネルギー的上界の両方に固執する。 また、多体波動関数の一般化コーン定理と正則性を利用して、(異方性)ランダウ準位における有界飽和条件を明らかにした。 我々は、未投射パートン状態や複合フェルミ波動関数を含む広い種類の量子ホール波動関数が境界を飽和させることを発見した。

In many-body systems with U(1) global symmetry, the charge fluctuations in a subregion reveal important insights into entanglement and other global properties. For subregions with sharp corners, bipartite fluctuations have been predicted to exhibit a universal shape dependence on the corner angle in certain quantum phases and transitions, characterized by a "universal angle function" and a "universal coefficient." However, we demonstrate that this simple formula is insufficient for charge insulators, including composite fermi liquids. In these systems, the corner contribution may depend on the corner angle, subregion orientation, and other microscopic details. We provide an infinite series representation of the corner term, introducing orientation-resolved universal angle functions with their non-universal coefficients. In the small-angle limit or under orientation averaging, the remaining terms' coefficients are fully determined by the many-body quantum metric, which, while not universal, adheres to both a universal topological lower bound and an energetic upper bound. We also clarify the conditions for bound saturation in (anisotropic) Landau levels, leveraging the generalized Kohn theorem and holomorphic properties of many-body wavefunctions. We find that a broad class of fractional quantum Hall wavefunctions, including unprojected parton states and composite-fermion Fermi sea wavefunctions, saturates the bounds.
翻訳日:2024-08-30 17:54:29 公開日:2024-08-28
# 空間記憶を用いた3次元再構成

3D Reconstruction with Spatial Memory ( http://arxiv.org/abs/2408.16061v1 )

ライセンス: Link先を確認
Hengyi Wang, Lourdes Agapito, (参考訳) 本稿では,順序付きあるいは順序なしの画像コレクションから高密度な3次元再構成を行う新しいアプローチであるSpann3Rを提案する。 DUSt3Rパラダイムに基づいて構築されたSpann3Rは、トランスフォーマーベースのアーキテクチャを使用して、シーンやカメラパラメータに関する事前の知識を必要とせずに、画像から直接ポイントマップを回帰する。 DUSt3Rは局所座標フレームで表現される画像対点マップ毎に予測するが、Spann3Rはグローバル座標系で表現される画像毎点マップを予測できるため、最適化ベースのグローバルアライメントは不要である。 Spann3Rの鍵となるアイデアは、以前の関連するすべての3D情報の追跡を学習する外部空間メモリを管理することである。 Spann3Rはこの空間メモリをクエリして、グローバル座標系における次のフレームの3D構造を予測する。 DUSt3Rの事前トレーニングされた重量を活用し、データセットのサブセットをさらに微調整することで、さまざまな未知のデータセット上での競合性能と一般化能力を示し、順序づけられたイメージコレクションをリアルタイムで処理できる。 プロジェクトページ: \url{https://hengyiwang.github.io/projects/spanner}

We present Spann3R, a novel approach for dense 3D reconstruction from ordered or unordered image collections. Built on the DUSt3R paradigm, Spann3R uses a transformer-based architecture to directly regress pointmaps from images without any prior knowledge of the scene or camera parameters. Unlike DUSt3R, which predicts per image-pair pointmaps each expressed in its local coordinate frame, Spann3R can predict per-image pointmaps expressed in a global coordinate system, thus eliminating the need for optimization-based global alignment. The key idea of Spann3R is to manage an external spatial memory that learns to keep track of all previous relevant 3D information. Spann3R then queries this spatial memory to predict the 3D structure of the next frame in a global coordinate system. Taking advantage of DUSt3R's pre-trained weights, and further fine-tuning on a subset of datasets, Spann3R shows competitive performance and generalization ability on various unseen datasets and can process ordered image collections in real time. Project page: \url{https://hengyiwang.github.io/projects/spanner}
翻訳日:2024-08-30 17:54:29 公開日:2024-08-28
# フォールドスペクトル法による最短ベクトル問題の量子アルゴリズム

Quantum Algorithm for Shortest Vector Problems with Folded Spectrum Method ( http://arxiv.org/abs/2408.16062v1 )

ライセンス: Link先を確認
Kota Mizuno, Shohei Watabe, (参考訳) 格子点ベクトルのノルムをカウディエンコーディング、ハミング重エンコーディング、バイナリエンコーディングでハミルトン問題にマッピングし、最短ベクトルを見つける問題は、非自明な最初の励起状態を見つけるために問題にマッピングされる。 本稿では,SVPの1ホット符号化と,折り畳みスペクトル(FS)法による量子想像時間アルゴリズムという,代用エンコーディングと代用量子アルゴリズムを提案する。 本手法は,変分量子アルゴリズムを用いた最短ベクトルの探索に適用可能であることを示す。 FS法の量子アニールおよびシミュレートアニールへの応用についても議論し、SVPを解く。 本研究では,量子コンピューティングフレームワークにおけるSVPの適用可能性について検討した。

Quantum annealing has been recently studied to solve the shortest vector problem (SVP), where the norm of a lattice point vector is mapped to the problem Hamiltonian with the qudit encoding, Hamming-weight encoding, or binary encoding, and the problem to find the shortest vector is mapped to a problem to find a non-trivial first excited state. We here propose an alternative encoding and alternative quantum algorithm to solve the SVP: the one-hot encoding and the quantum imaginary-time algorithm with the folded spectrum (FS) method. We demonstrate that our approach is applicable to find the shortest vector with a variational quantum algorithm. The application of the FS method to the quantum annealing and simulated annealing is also discussed to solve the SVP. Our study shows wide potential applicability of the SVP in quantum computing frameworks.
翻訳日:2024-08-30 17:43:40 公開日:2024-08-28
# 機械学習を用いた女性非喫煙者におけるステージIII非小細胞肺癌の予後マーカーの同定

Identification of Prognostic Biomarkers for Stage III Non-Small Cell Lung Carcinoma in Female Nonsmokers Using Machine Learning ( http://arxiv.org/abs/2408.16068v1 )

ライセンス: Link先を確認
Huili Zheng, Qimin Zhang, Yiru Gong, Zheyan Liu, Shaohan Chen, (参考訳) 非小細胞肺癌(NSCLC)は最も一般的な亜型である。 本研究は, GDS3837データセットからの遺伝子発現プロファイリングを用いて, 喫煙女性におけるステージIII NSCLCに関連する重要なバイオマーカーを同定することを目的とした。 機械学習アルゴリズムであるXGBoostを用いて、AUCスコア0.835で強力な予測性能を達成した。 CCAATエンハンサー結合タンパク質α(C/EBP-alpha)、乳酸脱水素酵素A4(LDHA)、UNC-45ミオシンシャペロンB(UNC-45B)、チェックポイントキナーゼ1(CHK1)、低酸素誘導因子1サブユニットα(HIF-1-alpha)が肺がんと深く関連していることが文献で確認されている。 これらの知見は、早期診断とパーソナライズされた治療のためのバイオマーカーの可能性を強調し、がん研究における機械学習と分子プロファイリングを統合することの価値を強調した。

Lung cancer remains a leading cause of cancer-related deaths globally, with non-small cell lung cancer (NSCLC) being the most common subtype. This study aimed to identify key biomarkers associated with stage III NSCLC in non-smoking females using gene expression profiling from the GDS3837 dataset. Utilizing XGBoost, a machine learning algorithm, the analysis achieved a strong predictive performance with an AUC score of 0.835. The top biomarkers identified - CCAAT enhancer binding protein alpha (C/EBP-alpha), lactate dehydrogenase A4 (LDHA), UNC-45 myosin chaperone B (UNC-45B), checkpoint kinase 1 (CHK1), and hypoxia-inducible factor 1 subunit alpha (HIF-1-alpha) - have been validated in the literature as being significantly linked to lung cancer. These findings highlight the potential of these biomarkers for early diagnosis and personalized therapy, emphasizing the value of integrating machine learning with molecular profiling in cancer research.
翻訳日:2024-08-30 17:43:40 公開日:2024-08-28
# 一般量子モツキンスピン鎖の対称性、相関関数、および絡み合い

Symmetries, correlation functions, and entanglement of general quantum Motzkin spin-chains ( http://arxiv.org/abs/2408.16070v1 )

ライセンス: Link先を確認
Varun Menon, Andi Gu, Ramis Movassagh, (参考訳) モツキンスピンチェイン(英: Motzkin spin-chains)は、「無色」(整数スピン$s=1$)や「有色」(種数$s=1$)を含むもので、1次元の(1D)局所的な整数スピンモデルである。 カラフルな変種は特に珍しいもので、CFTで見られる対数的違反ではなく、エントロピーの領域法則($\sqrt{n}$ in system size $n$)の力-法則違反を示す。 本研究では、これらのモデルのいくつかのユニークな性質を解析的に発見し、低エネルギー物理学の新しい普遍性クラスを提案する。 スピンスピン相関における対称性の複雑な構造と予期せぬスケーリング挙動を同定し、既知の1次元普遍性クラスから逸脱する。 具体的には、$s=1$連鎖は、U(1)$自発対称性の破れと強磁性秩序を示す。 一方、$s \geq 2$ 鎖は自発的に対称性を破るわけではないが、標準的なベレジンスキー=コステリッツ=トゥーレス(英語版)(BKT)臨界指数と矛盾する、正則な崩壊相関を持つ準長距離代数次数を表示する。 また、無色の鎖とカラフルな鎖の絡み合い測定のための正確な漸近的スケーリング式を導出し、モヴァサグ[J. Math Phys. (2017)]の以前の結果を一般化し、潜在的な量子シミュレーション実験のベンチマークを提供する。 このようなシステムを古典的にシミュレートする硬さと、その基底状態特性の解析的トラクタビリティの組み合わせにより、モツキンスピン鎖は、多体物理学をシミュレートする量子計算上の優位性を探求する興味深い候補となる。

Motzkin spin-chains, which include 'colorless' (integer spin $s=1$) and 'colorful' ($s \geq 2$) variants, are one-dimensional (1D) local integer spin models notable for their lack of a conformal field theory (CFT) description of their low-energy physics, despite being gapless. The colorful variants are particularly unusual, as they exhibit power-law violation of the area-law of entanglement entropy (as $\sqrt{n}$ in system size $n$), rather than a logarithmic violation as seen in a CFT. In this work, we analytically discover several unique properties of these models, potentially suggesting a new universality class for their low-energy physics. We identify a complex structure of symmetries and unexpected scaling behavior in spin-spin correlations, which deviate from known 1D universality classes. Specifically, the $s=1$ chain exhibits $U(1)$ spontaneous symmetry breaking and ferromagnetic order. Meanwhile, the $s \geq 2$ chains do not appear to spontaneously break any symmetries, but display quasi-long-range algebraic order with power-law decaying correlations, inconsistent with standard Berezinskii-Kosterlitz-Thouless (BKT) critical exponents. We also derive exact asymptotic scaling expressions for entanglement measures in both colorless and colorful chains, generalizing previous results of Movassagh [J. Math Phys. (2017)], while providing benchmarks for potential quantum simulation experiments. The combination of hardness of classically simulating such systems along with the analytical tractability of their ground state properties position Motzkin spin chains as intriguing candidates for exploring quantum computational advantage in simulating many-body physics.
翻訳日:2024-08-30 17:43:40 公開日:2024-08-28
# 大規模言語モデルを用いたメディア効果の再現と予測のためのAIペルソナ作成:133個の実験結果の実証実験

Using Large Language Models to Create AI Personas for Replication and Prediction of Media Effects: An Empirical Test of 133 Published Experimental Research Findings ( http://arxiv.org/abs/2408.16073v1 )

ライセンス: Link先を確認
Leo Yeykelis, Kaavya Pichai, James J. Cummings, Byron Reeves, (参考訳) 本報告では,大規模言語モデル(LLM)が,公開メッセージ効果研究の正確な複製を高速化する可能性について分析する。 The Journal of Marketing (2023年1月~2024年5月) に掲載された14論文から, LLM を用いた参加者 (ペルソナ) を再現し, 実験を行った。 我々は新しいソフトウェアツール、Viewpoints AI (https://viewpoints.ai/)を使用し、学習デザイン、刺激、測定を入力として取り、LLMが特定のペルソナのサンプルとして振る舞うプロンプトを自動的に生成し、その応答を収集し、完全なデータセットと統計分析の形式で最終的な出力を生成する。 LLMは、アントロピックのクロード・ソネット3.5である。 われわれは19,447人のAIペルソナを作成した。 LLMの複製は、元のメインエフェクトの76%(111点中84点)を再現し、メディア刺激に反応する研究のAIによる複製の可能性を示した。 相互作用効果を含む場合, 全体の複製率は68% (133例中90例) であった。 メディアエフェクトのマーケティング研究を再現・加速するためにLLMを使うことは、社会科学における複製危機、サンプリング対象と実験条件における一般化可能性問題に対する潜在的な解決策、様々なメディア刺激に対する消費者の反応を迅速にテストする能力について論じる。 また、メディア応答研究における複雑な相互作用効果の複製におけるこのアプローチの限界にも対処し、AIによるメディア効果の実験的複製の今後の研究と改善の分野を提案する。

This report analyzes the potential for large language models (LLMs) to expedite accurate replication of published message effects studies. We tested LLM-powered participants (personas) by replicating 133 experimental findings from 14 papers containing 45 recent studies in the Journal of Marketing (January 2023-May 2024). We used a new software tool, Viewpoints AI (https://viewpoints.ai/), that takes study designs, stimuli, and measures as input, automatically generates prompts for LLMs to act as a specified sample of unique personas, and collects their responses to produce a final output in the form of a complete dataset and statistical analysis. The underlying LLM used was Anthropic's Claude Sonnet 3.5. We generated 19,447 AI personas to replicate these studies with the exact same sample attributes, study designs, stimuli, and measures reported in the original human research. Our LLM replications successfully reproduced 76% of the original main effects (84 out of 111), demonstrating strong potential for AI-assisted replication of studies in which people respond to media stimuli. When including interaction effects, the overall replication rate was 68% (90 out of 133). The use of LLMs to replicate and accelerate marketing research on media effects is discussed with respect to the replication crisis in social science, potential solutions to generalizability problems in sampling subjects and experimental conditions, and the ability to rapidly test consumer responses to various media stimuli. We also address the limitations of this approach, particularly in replicating complex interaction effects in media response studies, and suggest areas for future research and improvement in AI-assisted experimental replication of media effects.
翻訳日:2024-08-30 17:43:40 公開日:2024-08-28
# 国際AI協定の検証方法

Verification methods for international AI agreements ( http://arxiv.org/abs/2408.16074v1 )

ライセンス: Link先を確認
Akash R. Wasil, Tom Reed, Jack William Miller, Peter Barnett, (参考訳) 高度なAI開発に関する国際協定の遵守を検証するために、どのようなテクニックが使えるのか? 本稿では,未認可のAIトレーニング(例えば,あるFLOPしきい値を超えるトレーニング)と未許可のデータセンタの2種類の潜在的な違反を検出するための10の検証方法を検討する。 検証方法は3つのカテゴリに分けられる。 (a)国家技術手段(疑わしい非従属国からのアクセスを極力必要としない方法) ロ アクセス依存方法(不正行為の疑いのある国家の承認を必要とする方法)及び (c) ハードウェアに依存した手法(高度なハードウェアに関する規則を必要とする手法)。 各検証手法について, 記述, 過去の事例, 回避技術について述べる。 我々は、国際AIガバナンス協定の検証と実施に関する今後の業務に対する勧告を提供することで、締めくくります。

What techniques can be used to verify compliance with international agreements about advanced AI development? In this paper, we examine 10 verification methods that could detect two types of potential violations: unauthorized AI training (e.g., training runs above a certain FLOP threshold) and unauthorized data centers. We divide the verification methods into three categories: (a) national technical means (methods requiring minimal or no access from suspected non-compliant nations), (b) access-dependent methods (methods that require approval from the nation suspected of unauthorized activities), and (c) hardware-dependent methods (methods that require rules around advanced hardware). For each verification method, we provide a description, historical precedents, and possible evasion techniques. We conclude by offering recommendations for future work related to the verification and enforcement of international AI governance agreements.
翻訳日:2024-08-30 17:43:40 公開日:2024-08-28
# 信頼できる社会シミュレーションのための論理強化型言語モデルエージェント

Logic-Enhanced Language Model Agents for Trustworthy Social Simulations ( http://arxiv.org/abs/2408.16081v1 )

ライセンス: Link先を確認
Agnieszka Mensfelt, Kostas Stathis, Vince Trencsenyi, (参考訳) 本稿では,大規模言語モデル(LLM)を利用した社会シミュレーションの信頼性向上を目的とした,論理強化言語モデルエージェント(LELMA)フレームワークを紹介する。 LLMは人間の行動をシミュレートするエージェントとして注目されているが、その役割における適用性は、固有の幻覚や論理的矛盾といった問題によって制限されている。 LELMAは、LLMとシンボリックAIを統合することでこれらの課題に対処し、LLMが生成する推論の論理的検証を可能にする。 この検証プロセスは、推論出力を精査し、修正的なフィードバックを提供する。 フレームワークは、戦略的推論を生成するLLM-Reasoner、自然言語推論を論理クエリにマッピングするLLM-Translator、これらのクエリを評価するSolverの3つの主要コンポーネントで構成されている。 本研究では,人間のインタラクションモデルとしてのゲーム理論シナリオにおける意思決定に焦点を当てた。 Hawk-Doveゲーム、Prisoner's Dilemma、Stag Huntを含む実験は、これらの文脈で正しい推論を生成する上で、最先端のLLM、GPT-4 Omni、Gemini 1.0 Proの限界を強調している。 LELMAはエラー検出において高い精度を示し、特にGPT-4 Omniにおいて自己精製によるLCMの推論精度を向上させる。

We introduce the Logic-Enhanced Language Model Agents (LELMA) framework, a novel approach to enhance the trustworthiness of social simulations that utilize large language models (LLMs). While LLMs have gained attention as agents for simulating human behaviour, their applicability in this role is limited by issues such as inherent hallucinations and logical inconsistencies. LELMA addresses these challenges by integrating LLMs with symbolic AI, enabling logical verification of the reasoning generated by LLMs. This verification process provides corrective feedback, refining the reasoning output. The framework consists of three main components: an LLM-Reasoner for producing strategic reasoning, an LLM-Translator for mapping natural language reasoning to logic queries, and a Solver for evaluating these queries. This study focuses on decision-making in game-theoretic scenarios as a model of human interaction. Experiments involving the Hawk-Dove game, Prisoner's Dilemma, and Stag Hunt highlight the limitations of state-of-the-art LLMs, GPT-4 Omni and Gemini 1.0 Pro, in producing correct reasoning in these contexts. LELMA demonstrates high accuracy in error detection and improves the reasoning correctness of LLMs via self-refinement, particularly in GPT-4 Omni.
翻訳日:2024-08-30 17:43:40 公開日:2024-08-28
# 双方向最適化におけるグローバルな最適性を解き放つ:パイロットスタディ

Unlocking Global Optimality in Bilevel Optimization: A Pilot Study ( http://arxiv.org/abs/2408.16087v1 )

ライセンス: Link先を確認
Quan Xiao, Tianyi Chen, (参考訳) バイレベル最適化は、信頼性が高く効率的な機械学習アプリケーションにおいて重要な役割を担っていることから、関心の復活を目撃している。 近年の研究では、証明可能な収束保証を伴う効率的な手法の提案に焦点が当てられている。 しかし、多くの先行研究が定常点や局所最小点への収束を確立しているが、双レベル最適化の大域的な最適化は依然として重要な問題である。 この難しさは、他の多くの非凸単層問題とは異なり、この二層問題には『良性』の風景が認められておらず、実際には複数の局所解が存在するという事実にある。 それでも、グローバルな最適性を達成することは、信頼性、安全性、コスト効率の確保に不可欠である。 本稿では,二段階最適化のための大域収束理論を確立する上での課題と,大域収束のための2つの条件について考察する。 我々は、アルゴリズム固有の証明を提供し、最適化軌道に沿って、表現学習とデータハイパークリーニング(再重み付け)という2つの特定の二段階学習シナリオに焦点を当て、これらの十分な条件を厳密に裏付ける。 実験は理論的な結果と相関し、両方のケースで世界最小値への収束を示す。

Bilevel optimization has witnessed a resurgence of interest, driven by its critical role in trustworthy and efficient machine learning applications. Recent research has focused on proposing efficient methods with provable convergence guarantees. However, while many prior works have established convergence to stationary points or local minima, obtaining the global optimum of bilevel optimization remains an important yet open problem. The difficulty lies in the fact that unlike many prior non-convex single-level problems, this bilevel problem does not admit a ``benign" landscape, and may indeed have multiple spurious local solutions. Nevertheless, attaining the global optimality is indispensable for ensuring reliability, safety, and cost-effectiveness, particularly in high-stakes engineering applications that rely on bilevel optimization. In this paper, we first explore the challenges of establishing a global convergence theory for bilevel optimization, and present two sufficient conditions for global convergence. We provide algorithm-specific proofs to rigorously substantiate these sufficient conditions along the optimization trajectory, focusing on two specific bilevel learning scenarios: representation learning and data hypercleaning (a.k.a. reweighting). Experiments corroborate the theoretical findings, demonstrating convergence to global minimum in both cases.
翻訳日:2024-08-30 17:43:40 公開日:2024-08-28
# Redditコメントに基づくパーソナリティ予測は可能か?

Is Personality Prediction Possible Based on Reddit Comments? ( http://arxiv.org/abs/2408.16089v1 )

ライセンス: Link先を確認
Robert Deimann, Till Preidt, Shaptarshi Roy, Jan Stanicki, (参考訳) 本研究では,人物の性格型と書いた文章の関連性について検討する。 これを実現するため、著者のMyers-Briggs Type Indicator (MBTI)にラベル付けされたRedditコメントのデータセットを集約し、BERTに基づいて異なる教師付き分類器を構築し、著者の性格をテキストで予測しようとした。 データセットの未フィルタリング文字の問題を経験しながらも、分類のポテンシャルを観察することができる。

In this assignment, we examine whether there is a correlation between the personality type of a person and the texts they wrote. In order to do this, we aggregated datasets of Reddit comments labeled with the Myers-Briggs Type Indicator (MBTI) of the author and built different supervised classifiers based on BERT to try to predict the personality of an author given a text. Despite experiencing issues with the unfiltered character of the dataset, we can observe potential in the classification.
翻訳日:2024-08-30 17:43:40 公開日:2024-08-28
# EPO:環境優先最適化型階層型LLMエージェント

EPO: Hierarchical LLM Agents with Environment Preference Optimization ( http://arxiv.org/abs/2408.16090v1 )

ライセンス: Link先を確認
Qi Zhao, Haotian Fu, Chen Sun, George Konidaris, (参考訳) 長期の意思決定タスクは、複数のステップにわたる広範な計画の必要性から、LLMベースのエージェントに重大な課題をもたらす。 本稿では,複雑なタスクを管理可能なサブゴールに分解する階層型フレームワークを提案する。 注釈のないデータセットのためのトレーニング信号を作成するという課題に対処するため,マルチモーダル環境フィードバックを利用して報酬信号を自動的に生成する報酬モデルを開発した。 環境選好最適化(EPO)は,環境フィードバックから選好信号を生成し,LLMエージェントの学習に使用する新しい手法である。 ALFREDに関する大規模な実験は、我々のフレームワークの最先端のパフォーマンスを実証し、ALFREDの公開リーダーボードで第一位を獲得し、多様な環境における長期的な意思決定を改善する可能性を示している。

Long-horizon decision-making tasks present significant challenges for LLM-based agents due to the need for extensive planning over multiple steps. In this paper, we propose a hierarchical framework that decomposes complex tasks into manageable subgoals, utilizing separate LLMs for subgoal prediction and low-level action generation. To address the challenge of creating training signals for unannotated datasets, we develop a reward model that leverages multimodal environment feedback to automatically generate reward signals. We introduce Environment Preference Optimization (EPO), a novel method that generates preference signals from the environment's feedback and uses them to train LLM-based agents. Extensive experiments on ALFRED demonstrate the state-of-the-art performance of our framework, achieving first place on the ALFRED public leaderboard and showcasing its potential to improve long-horizon decision-making in diverse environments.
翻訳日:2024-08-30 17:43:40 公開日:2024-08-28
# 大規模言語モデルを用いた構造化イベント推論

Structured Event Reasoning with Large Language Models ( http://arxiv.org/abs/2408.16098v1 )

ライセンス: Link先を確認
Li Zhang, (参考訳) 現実の出来事に対する推論は、AIとNLPにおける統一的な課題であり、さまざまな領域で大きな有用性を持つ一方で、ハイリスクなアプリケーションの誤用は破滅的なものになる可能性がある。 これらの領域で多種多様なテキストを扱うには、大きな言語モデル(LLM)は疑問に答えることができ、問題を解決することができることが証明されている。 しかし、エンド・ツー・エンドのLSMは複雑な事象を体系的に推論することができず、ブラックボックスの性質のため解釈性が欠如していることを示します。 これらの問題に対処するために、イベントの構造化表現と合わせてLLMを使用するための3つの一般的なアプローチを提案する。 1つ目は、LLMが微調整で学習できるサブイベントの関係を含む言語ベースの表現である。 2つ目は、数発のプロンプトを通じてLSMによって予測および活用できる実体の状態を含む半記号表現である。 3つ目は、構造化されたデータで訓練されたLLMによって予測され、シンボリック・ソルバによって実行される完全に象徴的な表現である。 共通センスの推論と計画にまたがる一連のイベント推論タスクにおいて、各アプローチがより解釈可能なエンドツーエンドのLCMを大幅に上回っていることを示します。 これらの結果から,LLMとイベント推論等の構造化表現との相乗効果が示唆された。

Reasoning about real-life events is a unifying challenge in AI and NLP that has profound utility in a variety of domains, while fallacy in high-stake applications could be catastrophic. Able to work with diverse text in these domains, large language models (LLMs) have proven capable of answering questions and solving problems. However, I show that end-to-end LLMs still systematically fail to reason about complex events, and they lack interpretability due to their black-box nature. To address these issues, I propose three general approaches to use LLMs in conjunction with a structured representation of events. The first is a language-based representation involving relations of sub-events that can be learned by LLMs via fine-tuning. The second is a semi-symbolic representation involving states of entities that can be predicted and leveraged by LLMs via few-shot prompting. The third is a fully symbolic representation that can be predicted by LLMs trained with structured data and be executed by symbolic solvers. On a suite of event reasoning tasks spanning common-sense inference and planning, I show that each approach greatly outperforms end-to-end LLMs with more interpretability. These results suggest manners of synergy between LLMs and structured representations for event reasoning and beyond.
翻訳日:2024-08-30 17:43:40 公開日:2024-08-28
# タトゥー知識アーティファクトの生活史

Life Histories of Taboo Knowledge Artifacts ( http://arxiv.org/abs/2408.16099v1 )

ライセンス: Link先を確認
Kaylea Champion, Benjamin Mako Hill, (参考訳) セクシュアリティや健康などの重要な話題について語ることはタブーとして扱われ、検閲の対象となっている。 これらのトピックに関する知識をどのように構築すればよいのか? ウィキペディアには、性器や人間の再生といったタブーに関する多くの高品質な知識アーティファクトがある。 これらのアーティファクトはどのように生まれたのか? 彼らの存在はどのように持続していますか。 この混合メソッド比較プロジェクトは、ウィキペディアのタブートピックに関する以前の研究に基づいており、質的かつ定量的なアプローチから導かれる。 逐次的な相補的なデザインを踏襲し,タブー記事の生活を語り,それらを非タブー記事と比較し,それらの量的特徴について検討する。 タブーの知識アーティファクトは、複数の成功したコラボレーションスタイルを通じて発展し、当然ながら、タブーの主題が対立の場であることに気付きました。 タブー知識アーティファクトの開発における6つのテーマを特定し,記述する。 これらのアーティファクトは,<i>emergent governance</i>と<i>imizeing public audiences</i>が同時に関与するのに対して,<i>resilient leadership</i>と<i>engaged organizations</i>は,<i>limited identifiability</i>と<i>disjointed sensemaking</i>の条件下で成長するために必要である。 本研究は,タブー等の議論を巻き起こすテーマにおいて,公的な知識活動を支援する上で重要な意味を持っている。

Communicating about some vital topics -- such as sexuality and health -- is treated as taboo and subjected to censorship. How can we construct knowledge about these topics? Wikipedia is home to numerous high-quality knowledge artifacts about taboo topics like sexual organs and human reproduction. How did these artifacts come into being? How is their existence sustained? This mixed-methods comparative project builds on previous work on taboo topics in Wikipedia and draws from qualitative and quantitative approaches. We follow a sequential complementary design, developing a narrative articulation of the life of taboo articles, comparing them to nontaboo articles, and examining some of their quantifiable traits. We find that taboo knowledge artifacts develop through multiple successful collaboration styles and, unsurprisingly, that taboo subjects are the sites of conflict. We identify and describe six themes in the development of taboo knowledge artifacts. These artifacts need <i>resilient leadership</i> and <i>engaged organizations</i> to thrive under conditions of <i>limited identifiability</i> and <i>disjointed sensemaking</i>, while contributors simultaneously engage in <i>emergent governance</i> and <i>imagining public audiences</i>. Our observations have important implications for supporting public knowledge work on controversial subjects such as taboos and more generally.
翻訳日:2024-08-30 17:43:40 公開日:2024-08-28
# LLMSecCode: セキュアコーディングのための大規模言語モデルの評価

LLMSecCode: Evaluating Large Language Models for Secure Coding ( http://arxiv.org/abs/2408.16100v1 )

ライセンス: Link先を確認
Anton Rydén, Erik Näslund, Elad Michael Schiller, Magnus Almgren, (参考訳) LLM(Large Language Models)の迅速な展開には、サイバーセキュリティへの影響を慎重に検討する必要がある。 本研究の目的は、セキュアコーディング(SC)の促進に適したLCMの選択プロセスを改善することである。 例えば(RQ1)どの機能がLCMの評価を合理化できるのか? (RQ2) 評価基準は何か。 (RQ3) 評価プロセスが公平であることを示すには? これらの問題に対処するため,LLM SC 機能を客観的に評価するオープンソース評価フレームワーク LLMSecCode を紹介した。 実験により LLMSecCode の実装を検証する。 パラメータやプロンプトが変化すると、それぞれ10%と9%のパフォーマンスの違いが見つかる。 また、信頼性のある外部アクターといくつかの結果を比較し、その結果は5%の違いを示している。 オープンソースフレームワークの使いやすさを確保し、外部アクターによるさらなる開発を奨励したいと思っています。 LLMSecCodeでは、セキュリティ指向のコードやタスクにおけるLLMの機能の標準化とベンチマークを奨励したいと考えています。

The rapid deployment of Large Language Models (LLMs) requires careful consideration of their effect on cybersecurity. Our work aims to improve the selection process of LLMs that are suitable for facilitating Secure Coding (SC). This raises challenging research questions, such as (RQ1) Which functionality can streamline the LLM evaluation? (RQ2) What should the evaluation measure? (RQ3) How to attest that the evaluation process is impartial? To address these questions, we introduce LLMSecCode, an open-source evaluation framework designed to assess LLM SC capabilities objectively. We validate the LLMSecCode implementation through experiments. When varying parameters and prompts, we find a 10% and 9% difference in performance, respectively. We also compare some results to reliable external actors, where our results show a 5% difference. We strive to ensure the ease of use of our open-source framework and encourage further development by external actors. With LLMSecCode, we hope to encourage the standardization and benchmarking of LLMs' capabilities in security-oriented code and tasks.
翻訳日:2024-08-30 17:43:40 公開日:2024-08-28
# 実用性に期待されるベイズ計算の創成

Generative Bayesian Computation for Maximum Expected Utility ( http://arxiv.org/abs/2408.16101v1 )

ライセンス: Link先を確認
Nick Polson, Fabrizio Ruggeri, Vadim Sokolov, (参考訳) 生成ベイズ計算法 (GBC) は, 最大期待効用 (MEU) に対する効率的な計算解を提供するために開発された。 本稿では,量子化の限界として期待効用を自然に計算する,量子化に基づく密度のない生成法を提案する。 提案手法では, 分散ユーティリティを直接推定するために, ディープ量子化ニューラル推定器を用いる。 生成的手法は、モデルとパラメータからシミュレートする能力のみを前提とします。 パラメータから大規模なトレーニングデータセットを生成し、ベース分布とともに出力する。 提案手法は, 予測ユーティリティの効率的な推定器を用いて, 主に密度のない計算の利点を生かした。 予測ユーティリティとリスクテイクの二重理論との関係についても論じる。 提案手法を説明するため,ベイズ学習とパワーユーティリティ(例えばKelly分数基準)を用いて最適なポートフォリオ割り当て問題を解く。 最後に,今後の研究の方向性について述べる。

Generative Bayesian Computation (GBC) methods are developed to provide an efficient computational solution for maximum expected utility (MEU). We propose a density-free generative method based on quantiles that naturally calculates expected utility as a marginal of quantiles. Our approach uses a deep quantile neural estimator to directly estimate distributional utilities. Generative methods assume only the ability to simulate from the model and parameters and as such are likelihood-free. A large training dataset is generated from parameters and output together with a base distribution. Our method a number of computational advantages primarily being density-free with an efficient estimator of expected utility. A link with the dual theory of expected utility and risk taking is also discussed. To illustrate our methodology, we solve an optimal portfolio allocation problem with Bayesian learning and a power utility (a.k.a. fractional Kelly criterion). Finally, we conclude with directions for future research.
翻訳日:2024-08-30 17:43:40 公開日:2024-08-28
# Lagarias-Odlyzkoアルゴリズムによる平均型サブセットの最適化:モジュラ算術的アプローチ

Improving Lagarias-Odlyzko Algorithm For Average-Case Subset Sum: Modular Arithmetic Approach ( http://arxiv.org/abs/2408.16108v1 )

ライセンス: Link先を確認
Antoine Joux, Karol Węgrzycki, (参考訳) Lagarias and Odlyzko (J.~ACM~1985) は、subset Sum 問題の ``\emph{almost all}' のインスタンスを$n$の整数で解く多項式時間アルゴリズムを提案し、$\log_2(\Gamma_{\text{LO}}) > n^2 \log_2(\gamma)$ and $\gamma$ は格子基底還元$\gamma > \sqrt{4/3}$のパラメータである。 LagariasとOdlyzkoのアルゴリズムは暗号の基礎となる結果である。 しかし、実現可能なインスタンスの密度に関する理論的保証は、ほぼ40年間、未改善のままである。 本稿では、格子縮小への単一呼び出しの後に、$\Omega(\sqrt{\Gamma_{\text{LO}}})$\Omega(\sqrt{\Gamma_{\text{LO}}}) の整数で Subset Sum の `almost all'' のインスタンスを解くアルゴリズムを提案する。 さらに,従来の手法では1回のコールで1つのターゲットにしか答えられず,複数のターゲットに対するサブセット・サム問題を解くことができる。 サブセット Sum 問題にモジュラー算術的アプローチを導入する。 この考え方は、格子還元を用いて、線形系を好ましく大きな素数に変調する。 本研究では,LLL削減基底ベクトルの長さを一次格子と双対格子の両方で同時に解析することにより,密度保証を向上できることを示す。

Lagarias and Odlyzko (J.~ACM~1985) proposed a polynomial time algorithm for solving ``\emph{almost all}'' instances of the Subset Sum problem with $n$ integers of size $\Omega(\Gamma_{\text{LO}})$, where $\log_2(\Gamma_{\text{LO}}) > n^2 \log_2(\gamma)$ and $\gamma$ is a parameter of the lattice basis reduction ($\gamma > \sqrt{4/3}$ for LLL). The algorithm of Lagarias and Odlyzko is a cornerstone result in cryptography. However, the theoretical guarantee on the density of feasible instances has remained unimproved for almost 40 years. In this paper, we propose an algorithm to solve ``almost all'' instances of Subset Sum with integers of size $\Omega(\sqrt{\Gamma_{\text{LO}}})$ after a single call to the lattice reduction. Additionally, our argument allows us to solve the Subset Sum problem for multiple targets while the previous approach could only answer one target per call to lattice basis reduction. We introduce a modular arithmetic approach to the Subset Sum problem. The idea is to use the lattice reduction to solve a linear system modulo a suitably large prime. We show that density guarantees can be improved, by analysing the lengths of the LLL reduced basis vectors, of both the primal and the dual lattices simultaneously.
翻訳日:2024-08-30 17:43:40 公開日:2024-08-28
# 不確実性重み付け補正を用いた大気組成モデルにおける硬度制約としての原子の保存

A nudge to the truth: atom conservation as a hard constraint in models of atmospheric composition using an uncertainty-weighted correction ( http://arxiv.org/abs/2408.16109v1 )

ライセンス: Link先を確認
Patrick Obin Sturm, Sam J. Silva, (参考訳) 大気組成の計算モデルは、必ずしも物理的に一貫したものではない。 例えば、すべてのモデルが相互に結合した化学系における原子の保存のような基本的な保存則を尊重するわけではない。 良好な性能のモデルでは、これらの非物理的偏差は、しばしば小さいため無視されるため、質量を完全に保存するために小さなヌッジしか必要としない。 ここでは,任意の数値モデルからの予測を物理的に一貫した厳密な制約に固定し,保存則を尊重する最も近い解に濃縮する手法を提案する。 この閉形式モデル非依存補正は、単一の行列演算を用いて予測された濃度を最小に摂動させ、原子が機械の精度に保存されることを保証する。 このアプローチを実証するために,オゾン光化学の小さな基準モデルをエミュレートするために,勾配向上決定木アンサンブルを訓練し,補正が正確だが保存的でない予測に及ぼす影響を検証した。 ヌーディングアプローチは、ほとんどの種で既によく予測されている結果を最小限に妨害するが、ラジカルを含む重要な酸化剤の精度を低下させる。 本研究は, 修正における各種の不確かさと大きさを考慮に入れた, このヌージング手法の重み付き拡張を開発する。 この種レベルの重み付けアプローチは、ラジカルのような重要な低濃度種を正確に予測するために不可欠である。 非物理的予測に対する不確実性重み付き補正の適用は、予測をより大量保存可能な解にヌードすることにより、全体的な精度をわずかに向上する。

Computational models of atmospheric composition are not always physically consistent. For example, not all models respect fundamental conservation laws such as conservation of atoms in an interconnected chemical system. In well performing models, these nonphysical deviations are often ignored because they are frequently minor, and thus only need a small nudge to perfectly conserve mass. Here we introduce a method that anchors a prediction from any numerical model to physically consistent hard constraints, nudging concentrations to the nearest solution that respects the conservation laws. This closed-form model-agnostic correction uses a single matrix operation to minimally perturb the predicted concentrations to ensure that atoms are conserved to machine precision. To demonstrate this approach, we train a gradient boosting decision tree ensemble to emulate a small reference model of ozone photochemistry and test the effect of the correction on accurate but non-conservative predictions. The nudging approach minimally perturbs the already well-predicted results for most species, but decreases the accuracy of important oxidants, including radicals. We develop a weighted extension of this nudging approach that considers the uncertainty and magnitude of each species in the correction. This species-level weighting approach is essential to accurately predict important low concentration species such as radicals. We find that applying the uncertainty-weighted correction to the nonphysical predictions slightly improves overall accuracy, by nudging the predictions to a more likely mass-conserving solution.
翻訳日:2024-08-30 15:44:44 公開日:2024-08-28
# 陰性二項行列補完

Negative Binomial Matrix Completion ( http://arxiv.org/abs/2408.16113v1 )

ライセンス: Link先を確認
Yu Lu, Kevin Bui, Roummel F. Marcia, (参考訳) 行列補完は、行列の欠落や不完全情報を回復することに焦点を当てる。 この問題は、画像処理やネットワーク分析など、様々なアプリケーションで発生する。 従来の研究では、平均と分散が等しいと仮定した、ポアソン分布に続くノイズを伴うカウントデータに対するポアソン行列補完法が提案されていた。 偏差が平均よりも大きい分散数データは現実的な設定で発生する可能性が高いため、ノイズはポアソン分布よりも一般的な負二項分布(NB)に従うと仮定する。 本稿では, 近位勾配降下法により解ける核-ノルム正規化モデルを提案することにより, NB行列の完備化を提案する。 実験では,NBモデルがポアソン行列の完成度を様々なノイズで上回り,実際のデータに対するデータ設定の欠如を実証した。

Matrix completion focuses on recovering missing or incomplete information in matrices. This problem arises in various applications, including image processing and network analysis. Previous research proposed Poisson matrix completion for count data with noise that follows a Poisson distribution, which assumes that the mean and variance are equal. Since overdispersed count data, whose variance is greater than the mean, is more likely to occur in realistic settings, we assume that the noise follows the negative binomial (NB) distribution, which can be more general than the Poisson distribution. In this paper, we introduce NB matrix completion by proposing a nuclear-norm regularized model that can be solved by proximal gradient descent. In our experiments, we demonstrate that the NB model outperforms Poisson matrix completion in various noise and missing data settings on real data.
翻訳日:2024-08-30 15:44:44 公開日:2024-08-28
# 確率微分方程式によるグラフニューラルネットワークの不確かさモデリング

Uncertainty Modeling in Graph Neural Networks via Stochastic Differential Equations ( http://arxiv.org/abs/2408.16115v1 )

ライセンス: Link先を確認
Richard Bergna, Sergio Calvo-Ordoñez, Felix L. Opolka, Pietro Liò, Jose Miguel Hernandez-Lobato, (参考訳) グラフ構造データに対する不確実性認識表現の学習の問題に対処する。 グラフニューラル正規微分方程式(GNODE)はノード表現の学習に有効であるが、不確かさの定量化には失敗した。 これを解決するために、ブラウン運動によってランダム性を埋め込んで不確実性を定量化することによってGNODEを強化するLatent Graph Neural Stochastic Differential Equations (LGNSDE)を導入する。 我々は,LGNSDEの理論的保証を提供し,不確実性定量化における性能を実証的に示す。

We address the problem of learning uncertainty-aware representations for graph-structured data. While Graph Neural Ordinary Differential Equations (GNODE) are effective in learning node representations, they fail to quantify uncertainty. To address this, we introduce Latent Graph Neural Stochastic Differential Equations (LGNSDE), which enhance GNODE by embedding randomness through Brownian motion to quantify uncertainty. We provide theoretical guarantees for LGNSDE and empirically show better performance in uncertainty quantification.
翻訳日:2024-08-30 15:44:44 公開日:2024-08-28
# 異方性および等方性全変量の重み付き負二項モデルに対する乗算器の交互方向法

Alternating Direction Method of Multipliers for Negative Binomial Model with The Weighted Difference of Anisotropic and Isotropic Total Variation ( http://arxiv.org/abs/2408.16117v1 )

ライセンス: Link先を確認
Yu Lu, Kevin Bui, Roummel F. Marcia, (参考訳) 医療画像などの多くの応用において、測定データは検出器に衝突する光子の数を表す。 低光度設定におけるそのような数はしばしばポアソン分布を用いてモデル化される。 しかし、このモデルは信号の雑音分布の平均と分散が等しいと仮定する。 分散が平均よりも大きい過分散データに対して、負の二項分布はより適切な統計モデルである。 本稿では,過分散ポアソン雑音による画像の復元のための最適化手法を提案する。 特に,重み付き異方性-等方性全変量正規化器を組み込み,正則な全変量ペナルティによって導入される段取りアーティファクトを回避する。 我々は、各サブプロブレムが閉形式解を持つ乗算器の交互方向法を用いる。 数値実験により提案手法の有効性が示された。

In many applications such as medical imaging, the measurement data represent counts of photons hitting a detector. Such counts in low-photon settings are often modeled using a Poisson distribution. However, this model assumes that the mean and variance of the signal's noise distribution are equal. For overdispersed data where the variance is greater than the mean, the negative binomial distribution is a more appropriate statistical model. In this paper, we propose an optimization approach for recovering images corrupted by overdispersed Poisson noise. In particular, we incorporate a weighted anisotropic-isotropic total variation regularizer, which avoids staircasing artifacts that are introduced by a regular total variation penalty. We use an alternating direction method of multipliers, where each subproblem has a closed-form solution. Numerical experiments demonstrate the effectiveness of our proposed approach, especially in very photon-limited settings.
翻訳日:2024-08-30 15:44:44 公開日:2024-08-28
# RAIN:数値気象・気候モデルの改善のための強化アルゴリズム

RAIN: Reinforcement Algorithms for Improving Numerical Weather and Climate Models ( http://arxiv.org/abs/2408.16118v1 )

ライセンス: Link先を確認
Pritthijit Nath, Henry Moss, Emily Shuckburgh, Mark Webb, (参考訳) 本研究では、気候科学における重要なパラメータ化問題に対処するために、RLと理想的な気候モデルを統合することを検討する。 現在の気候モデルは、サブグリッドスケールのプロセスを表現するために複雑な数学的パラメータ化に依存しており、かなりの不確実性をもたらす可能性がある。 RLは、直接的なインタラクション、スパースや遅延フィードバックの処理、継続的なオンライン学習、長期最適化など、これらのパラメータ化スキームを強化する機能を提供する。 実世界の計算制約を模倣した温度バイアス補正と放射対流平衡(RCE)の2つの理想的な環境における8つのRLアルゴリズムの性能を評価する。 その結果、異なる気候シナリオにおいて異なるRLアプローチが優れており、探索アルゴリズムはバイアス補正に優れており、エクスプロイトアルゴリズムはRCEに対してより効果的であることがわかった。 これらの知見は、RLに基づくパラメータ化スキームが地球規模の気候モデルに統合される可能性を支持し、複雑な気候力学を捉える際の精度と効率を向上させる。 全体として、この研究は気候モデル精度を高めるためにRLを活用するための重要な第一歩であり、気候の理解と予測を改善するために重要である。 コードアクセスはhttps://github.com/p3jitnath/climate-rl。

This study explores integrating reinforcement learning (RL) with idealised climate models to address key parameterisation challenges in climate science. Current climate models rely on complex mathematical parameterisations to represent sub-grid scale processes, which can introduce substantial uncertainties. RL offers capabilities to enhance these parameterisation schemes, including direct interaction, handling sparse or delayed feedback, continuous online learning, and long-term optimisation. We evaluate the performance of eight RL algorithms on two idealised environments: one for temperature bias correction, another for radiative-convective equilibrium (RCE) imitating real-world computational constraints. Results show different RL approaches excel in different climate scenarios with exploration algorithms performing better in bias correction, while exploitation algorithms proving more effective for RCE. These findings support the potential of RL-based parameterisation schemes to be integrated into global climate models, improving accuracy and efficiency in capturing complex climate dynamics. Overall, this work represents an important first step towards leveraging RL to enhance climate model accuracy, critical for improving climate understanding and predictions. Code accessible at https://github.com/p3jitnath/climate-rl.
翻訳日:2024-08-30 15:44:44 公開日:2024-08-28
# データフォーミュラ2: AIでリッチな可視化を反復的に作成

Data Formulator 2: Iteratively Creating Rich Visualizations with AI ( http://arxiv.org/abs/2408.16119v1 )

ライセンス: Link先を確認
Chenglong Wang, Bongshin Lee, Steven Drucker, Dan Marshall, Jianfeng Gao, (参考訳) リッチな視覚化を作成するためには、データアナリストが目標を達成するために、データ処理とチャート仕様の間を行き来する必要があることが多い。 これを実現するためには、データ変換と視覚化ツールの熟練度だけでなく、データとチャートのさまざまなバージョンで構成されるブランチ履歴の管理にも努力する必要がある。 最近のLLMベースのAIシステムは、例えばLLMのコード生成能力を通じて手動のデータ変換障壁を緩和することで、視覚化オーサリングエクスペリエンスを大幅に改善している。 しかし、これらのシステムは反復的な視覚化オーサリングではうまく機能しない。なぜなら、しばしばアナリストが1ターンで実行すべき複雑な視覚化タスクを完全に記述するテキストのみのプロンプトを提供する必要があるため、多くの場合、ユーザーとモデルの両方にとって非現実的である。 本稿では,これらの課題に対処するLCMを用いた可視化システムであるData Formulator 2を提案する。 Data Formulator 2では、ユーザはUIと自然言語をブレンドして視覚化の意図を記述し、データ変換はAIに委譲される。 イテレーションをサポートするため、Data Formulator 2では、ユーザがイテレーション履歴をナビゲートし、以前の設計を新しい設計に再利用することで、毎回スクラッチから始める必要がない。 8人の参加者によるユーザスタディにおいて、データフォーミュラ2は、参加者が自身の反復戦略を開発して、挑戦的なデータ探索セッションを完了させることができることを観察した。

To create rich visualizations, data analysts often need to iterate back and forth among data processing and chart specification to achieve their goals. To achieve this, analysts need not only proficiency in data transformation and visualization tools but also efforts to manage the branching history consisting of many different versions of data and charts. Recent LLM-powered AI systems have greatly improved visualization authoring experiences, for example by mitigating manual data transformation barriers via LLMs' code generation ability. However, these systems do not work well for iterative visualization authoring, because they often require analysts to provide, in a single turn, a text-only prompt that fully describes the complex visualization task to be performed, which is unrealistic to both users and models in many cases. In this paper, we present Data Formulator 2, an LLM-powered visualization system to address these challenges. With Data Formulator 2, users describe their visualization intent with blended UI and natural language inputs, and data transformation are delegated to AI. To support iteration, Data Formulator 2 lets users navigate their iteration history and reuse previous designs towards new ones so that they don't need to start from scratch every time. In a user study with eight participants, we observed that Data Formulator 2 allows participants to develop their own iteration strategies to complete challenging data exploration sessions.
翻訳日:2024-08-30 15:44:44 公開日:2024-08-28
# 時系列予測に必要なのは変分モード分解と線形埋め込み

Variational Mode Decomposition and Linear Embeddings are What You Need For Time-Series Forecasting ( http://arxiv.org/abs/2408.16122v1 )

ライセンス: Link先を確認
Hafizh Raihan Kurnia Putra, Novanto Yudistira, Tirana Noor Fatyanosa, (参考訳) 時系列予測は、データの不安定性によってしばしば課題に直面し、不正確な予測につながる可能性がある。 変動モード分解(VMD)は、データを異なるモードに分解することでボラティリティを緩和し、予測精度を向上する有望な手法として登場した。 本研究では,線形モデルとVMDを統合し,ロバストな予測フレームワークを開発する。 ETTm2, WindTurbine, M4, 東南アジアの各都市における10の大気質データセットを含む13の多様なデータセットについて検討を行った。 VMD戦略の有効性は、VMDを利用するモデルからRoot Mean Squared Error(RMSE)値を比較して評価する。 さらに、LSTM、BLSTM、RNNなどのよく知られたニューラルネットワークアーキテクチャに対して線形ベースモデルをベンチマークする。 その結果,VMD アプリケーションに続くほぼすべてのモデルにおいて,RMSE の大幅な削減が示された。 特に、線形 + VMD モデルは、0.619 の単変量予測で最低平均 RMSE を達成した。 多変量予測では、DLinear + VMDモデルは、平均0.019で、すべてのデータセットで最低のRMSEを達成した。 これらの結果から,VMDと線形モデルを組み合わせることにより,時系列予測の精度が向上した。

Time-series forecasting often faces challenges due to data volatility, which can lead to inaccurate predictions. Variational Mode Decomposition (VMD) has emerged as a promising technique to mitigate volatility by decomposing data into distinct modes, thereby enhancing forecast accuracy. In this study, we integrate VMD with linear models to develop a robust forecasting framework. Our approach is evaluated on 13 diverse datasets, including ETTm2, WindTurbine, M4, and 10 air quality datasets from various Southeast Asian cities. The effectiveness of the VMD strategy is assessed by comparing Root Mean Squared Error (RMSE) values from models utilizing VMD against those without it. Additionally, we benchmark linear-based models against well-known neural network architectures such as LSTM, BLSTM, and RNN. The results demonstrate a significant reduction in RMSE across nearly all models following VMD application. Notably, the Linear + VMD model achieved the lowest average RMSE in univariate forecasting at 0.619. In multivariate forecasting, the DLinear + VMD model consistently outperformed others, attaining the lowest RMSE across all datasets with an average of 0.019. These findings underscore the effectiveness of combining VMD with linear models for superior time-series forecasting.
翻訳日:2024-08-30 15:44:44 公開日:2024-08-28
# ChartEye: チャート情報抽出のためのディープラーニングフレームワーク

ChartEye: A Deep Learning Framework for Chart Information Extraction ( http://arxiv.org/abs/2408.16123v1 )

ライセンス: Link先を確認
Osama Mustafa, Muhammad Khizer Ali, Momina Moetesum, Imran Siddiqi, (参考訳) 様々な領域におけるデータ視覚化の手段としてチャートやインフォグラフィックが広く使われていることは、最近の自動チャート理解の研究に刺激を与えている。 しかし,チャート画像からの情報抽出はスタイルの変化による複雑なマルチタスク処理であり,結果としてエンドツーエンドのシステムを設計することは困難である。 本研究では,グラフ情報抽出パイプラインにおける重要なステップに対するソリューションを提供する,ディープラーニングベースのフレームワークを提案する。 提案フレームワークは階層型視覚変換器をグラフ型およびテキストロール分類のタスクに用い,YOLOv7はテキスト検出に用いた。 次に、検出されたテキストをSuper Resolution Generative Adversarial Networksを用いて拡張し、OCRの認識出力を改善する。 ベンチマークデータを用いた実験結果から,F1スコアが0.97,テキストロール分類が0.91,テキスト検出が平均0.95,各段階において優れた性能が得られた。

The widespread use of charts and infographics as a means of data visualization in various domains has inspired recent research in automated chart understanding. However, information extraction from chart images is a complex multitasked process due to style variations and, as a consequence, it is challenging to design an end-to-end system. In this study, we propose a deep learning-based framework that provides a solution for key steps in the chart information extraction pipeline. The proposed framework utilizes hierarchal vision transformers for the tasks of chart-type and text-role classification, while YOLOv7 for text detection. The detected text is then enhanced using Super Resolution Generative Adversarial Networks to improve the recognition output of the OCR. Experimental results on a benchmark dataset show that our proposed framework achieves excellent performance at every stage with F1-scores of 0.97 for chart-type classification, 0.91 for text-role classification, and a mean Average Precision of 0.95 for text detection.
翻訳日:2024-08-30 15:44:44 公開日:2024-08-28
# アイルランドの中小企業のサイバーリスク評価ツールの開発

Development of a cyber risk assessment tool for Irish small business owners ( http://arxiv.org/abs/2408.16124v1 )

ライセンス: Link先を確認
Miriam Curtin, Brian Sheehan, Melanie Gruben, Nikoletta Kozma, Gillian O'Carroll, Hazel Murray, (参考訳) 中小企業(中小企業)は、資源やサイバーセキュリティの専門知識が限られているため、サイバー脅威に対してますます脆弱になっている。 本研究は,国家リスク評価ツールの開発により,中小企業のサイバーレジリエンスを向上させることを目的とする。 この研究は3つの重要な質問によって導かれる。 1. 国家サイバーセキュリティセンターが支援又は支持する国際中小企業リスクアセスメントツールは、現在どのようなツールが利用可能か。 2. サイバーセキュリティの知識がほとんどない中小企業のオーナーが利用できるリスク評価ツールをどうやって作成できるのか。 3.中小企業のサイバーセキュリティリスクの鍵となる領域は何か。 これらの疑問に答えるために,既存のリスク評価ツールの総合的なレビューを行った。 中小企業との反復的なコラボレーションを通じて,非専門家のリスクを軽減するユーザフレンドリーなツールの開発が可能となった。

Small and medium enterprises (SMEs) are increasingly vulnerable to cyber threats due to limited resources and cybersecurity expertise, in addition to an increasingly hostile cyber threat environment at national and international levels. This study aims to improve the cyber resilience amongst SMEs by developing a national risk assessment tool. This research is guided by three key questions: 1. What current international SME risk assessment tools are available and supported or endorsed by national cybersecurity centres? 2. How can a risk assessment tool be created that is accessible to SME owners with little to no cybersecurity knowledge? 3. What are the key areas of cybersecurity risks for SMEs? To answer these questions, a comprehensive review of existing risk assessment tools was carried out. Through iterative collaboration with SMEs, the development of a user-friendly tool that simplifies risk for non-expert users was made possible.
翻訳日:2024-08-30 15:44:44 公開日:2024-08-28
# 実世界のシナリオにおける音声分離の一般化の改善:シミュレーション・最適化・評価の戦略

Improving Generalization of Speech Separation in Real-World Scenarios: Strategies in Simulation, Optimization, and Evaluation ( http://arxiv.org/abs/2408.16126v1 )

ライセンス: Link先を確認
Ke Chen, Jiaqi Su, Taylor Berg-Kirkpatrick, Shlomo Dubnov, Zeyu Jin, (参考訳) 雑音や残響を伴う様々な音響環境における重なり合う話者に対する頑健な音声分離を実現することは、未解決の課題である。 既存のデータセットは特定のシナリオのためにセパレータをトレーニングするために利用できるが、様々な現実世界のシナリオを効果的に一般化することはできない。 本稿では,様々な音響環境とコンテンツから多様なトレーニングデータを生成する新しいデータシミュレーションパイプラインを提案し,一般的な音声分離モデルの品質向上のための新たなトレーニングパラダイムを提案する。 具体的には、まず、コンテンツと音響の両方に幅広いバリエーションを組み込んだデータシミュレーションパイプラインであるAC-SIMを紹介する。 次に、複数のトレーニング目標を置換不変トレーニング(PIT)に統合し、トレーニングモデルの分離品質と一般化を向上する。 最後に、分離アーキテクチャとベンチマークをまたいだ包括的客観的および人的聴取実験を行い、本手法の検証を行い、非ホモロジーおよび実世界のテストセットにおける一般化の大幅な改善を実証した。

Achieving robust speech separation for overlapping speakers in various acoustic environments with noise and reverberation remains an open challenge. Although existing datasets are available to train separators for specific scenarios, they do not effectively generalize across diverse real-world scenarios. In this paper, we present a novel data simulation pipeline that produces diverse training data from a range of acoustic environments and content, and propose new training paradigms to improve quality of a general speech separation model. Specifically, we first introduce AC-SIM, a data simulation pipeline that incorporates broad variations in both content and acoustics. Then we integrate multiple training objectives into the permutation invariant training (PIT) to enhance separation quality and generalization of the trained model. Finally, we conduct comprehensive objective and human listening experiments across separation architectures and benchmarks to validate our methods, demonstrating substantial improvement of generalization on both non-homologous and real-world test sets.
翻訳日:2024-08-30 15:44:44 公開日:2024-08-28
# 効率的なエントロピー抽出のためのモジュール可変レーザ冷却

Modular variable laser cooling for efficient entropy extraction ( http://arxiv.org/abs/2408.16128v1 )

ライセンス: Link先を確認
Brennan de Neeve, Thanh-Long Nguyen, Alexander Ferk, Tanja Behrle, Francesco Lancellotti, Matteo Simoni, Stephan Welte, Jonathan Home, (参考訳) スピン状態依存性の変位列とスピンポンピングに基づく発振器のレーザ冷却法を実験的に提案する。 平均占有率$\bar{n}\gg 1$の熱状態の場合、この方法は2レベルスピン状態の2つの反動に対する初期熱発振器占有率0.632に還元される。 これは、振動子エントロピーが 2 \ln(2)$ の減少により予想される最適値の 2.53 の範囲内である。 振動子のモジュラー変数の値をスピンに符号化する手法は、ベイズ更新の点から単純な半古典的記述を持つことを示す。 本手法は, イオンを捕捉した単一イオンの内部状態と運動状態を用いて実験的に実証する。

We propose and experimentally demonstrate a method for laser cooling an oscillator based on sequences of spin-state-dependent displacements followed by spin repumping. For a thermal state with mean occupation $\bar{n}\gg 1$ the method attains a reduction to 0.632 of the initial thermal oscillator occupation for two repumps of the two-level spin state. This is within a factor of 2.53 of the optimum that might be expected due to the reduction of the oscillator entropy by $2 \ln(2)$. We show that the method, which is based on encoding the value of the modular-variable of the oscillator into the spin, has a simple semi-classical description in terms of a Bayesian update. We demonstrate the method experimentally using the internal and motional states of a single trapped ion.
翻訳日:2024-08-30 15:44:44 公開日:2024-08-28
# 画像データのない胸部X線撮影におけるバックボーン基礎モデルによる公正性評価

Using Backbone Foundation Model for Evaluating Fairness in Chest Radiography Without Demographic Data ( http://arxiv.org/abs/2408.16130v1 )

ライセンス: Link先を確認
Dilermando Queiroz, André Anjos, Lilian Berton, (参考訳) 多様な集団で一貫したパフォーマンスを確保し、機械学習モデルに公正さを取り入れることは、医療画像診断の進歩と公平な医療の推進に不可欠である。 しかし、多くのデータベースは保護された属性を提供していないし、人口統計群の非バランスな表現を含んでいないため、異なる人口層間でのモデル性能の評価や、これらの属性に依存するバイアス軽減技術の適用が複雑になる。 本研究は, 性別や年齢などの保護属性を表すグループを作成するための埋め込み抽出器として, ファンデーションモデルのバックボーンを用いた効果を検討することを目的とする。 我々は,これらのグループを,前処理,内処理,評価など,様々な段階のバイアス軽減に活用することを提案する。 配偶者のデータベースを用いて、両データベースの性別を表すグループを作成し、配偶者の性別属性と配偶者の6.16%の違いを4.44%減らすことができる。 しかし、このモデルは年齢特性を扱う上で堅牢性に欠けており、より根本的に公正で堅牢なファンデーションモデルの必要性を強調している。 これらの知見は,属性の知識が欠如しているシナリオにおける公平性評価を促進する役割を示唆し,より公平な医療診断の開発に寄与している。

Ensuring consistent performance across diverse populations and incorporating fairness into machine learning models are crucial for advancing medical image diagnostics and promoting equitable healthcare. However, many databases do not provide protected attributes or contain unbalanced representations of demographic groups, complicating the evaluation of model performance across different demographics and the application of bias mitigation techniques that rely on these attributes. This study aims to investigate the effectiveness of using the backbone of Foundation Models as an embedding extractor for creating groups that represent protected attributes, such as gender and age. We propose utilizing these groups in different stages of bias mitigation, including pre-processing, in-processing, and evaluation. Using databases in and out-of-distribution scenarios, it is possible to identify that the method can create groups that represent gender in both databases and reduce in 4.44% the difference between the gender attribute in-distribution and 6.16% in out-of-distribution. However, the model lacks robustness in handling age attributes, underscoring the need for more fundamentally fair and robust Foundation models. These findings suggest a role in promoting fairness assessment in scenarios where we lack knowledge of attributes, contributing to the development of more equitable medical diagnostics.
翻訳日:2024-08-30 15:44:44 公開日:2024-08-28
# 文字の計算的表現の評価:オーステン文字類似性ベンチマーク

Evaluating Computational Representations of Character: An Austen Character Similarity Benchmark ( http://arxiv.org/abs/2408.16131v1 )

ライセンス: Link先を確認
Funing Yang, Carolyn Jane Anderson, (参考訳) 英文学の計算解析を支援するために,文字に関する情報を抽出するシステムが開発されている。 本稿では,これらのパイプラインの全体的評価課題として,文字類似性グループ化を提案する。 本稿では,ジェーン・オーステンの小説におけるキャラクター類似性のベンチマークスイートであるAustinAlikeを紹介する。 我々のベンチマークは、構造的に定義された類似性の概念、社会的に定義された類似性の概念、文学的批判から抽出された専門家定義セットの3つの概念に基づく。 我々はAustinAlikeを用いて、BookNLPとFanfictionNLPの2つのパイプラインを用いて抽出した文字の特徴を評価する。 我々は、4種類の特徴から文字表現を構築し、3つのAustinAlikeベンチマークとGPT-4類似度ランキングと比較する。 計算表現は、共有された社会的役割と物語的役割に基づいて、幅広い類似点を捉えるが、第3のベンチマークにおける専門家のペアリングは、すべてのシステムにおいて困難であり、人間の読者による類似点の微妙な側面を強調している。

Several systems have been developed to extract information about characters to aid computational analysis of English literature. We propose character similarity grouping as a holistic evaluation task for these pipelines. We present AustenAlike, a benchmark suite of character similarities in Jane Austen's novels. Our benchmark draws on three notions of character similarity: a structurally defined notion of similarity; a socially defined notion of similarity; and an expert defined set extracted from literary criticism. We use AustenAlike to evaluate character features extracted using two pipelines, BookNLP and FanfictionNLP. We build character representations from four kinds of features and compare them to the three AustenAlike benchmarks and to GPT-4 similarity rankings. We find that though computational representations capture some broad similarities based on shared social and narrative roles, the expert pairings in our third benchmark are challenging for all systems, highlighting the subtler aspects of similarity noted by human readers.
翻訳日:2024-08-30 15:44:44 公開日:2024-08-28
# 遷移状態共鳴は62.09-101.67 meVエネルギー範囲におけるF + H2 -> F H(vf = 3) + H反応の角分布を急激に再現する

A transition state resonance radically reshapes angular distributions of the F + H2 -> F H(vf = 3) + H reaction in the 62.09-101.67 meV energy range ( http://arxiv.org/abs/2408.16134v1 )

ライセンス: Link先を確認
Dmitri Sokolovski, Dario De Fazio, Elena Akhmatskaya, (参考訳) ベンチマーク F + H2(vi = 0) -> F H(vf = 3) + H 反応の反応角分布は、小さな散乱角に対して異常な確率を示す。 状態-状態差分断断面に対する共振寄与の定量化にはReggeトラジェクトリを用いる。 複素エネルギー極への変換により、F+H2系やその同位体変種であるF+HDに存在することが知られている遷移状態共鳴にはほとんど影響しない。 角散乱の詳細な解析には,最近開発されたパッケージDCS Regge(Comp. Phys. Comm., 2022, 277, 108370)を用いる。

Reactive angular distributions of the benchmark F + H2(vi = 0) -> F H(vf = 3) + H reaction show unusual propensity towards small scattering angles, a subject of a long debate in the literature. We use Regge trajectories to quantify the resonance contributions to state-to-state differential cross sections. Conversion to complex energy poles allows us to attribute the effect almost exclusively to a transition state resonance, long known to exist in the F +H2 system and its isotopic variant F +HD. For our detailed analysis of angular scattering we employ the package DCS Regge, recently developed for the purpose [Comp. Phys. Comm., 2022, 277, 108370.]
翻訳日:2024-08-30 15:44:44 公開日:2024-08-28
# 信頼できない分散対称鍵暗号

Trustless Distributed Symmetric-key Encryption ( http://arxiv.org/abs/2408.16137v1 )

ライセンス: Link先を確認
Florian Le Mouël, Maxime Godon, Renaud Brien, Erwan Beurier, Nora Boulahia-Cuppens, Frédéric Cuppens, (参考訳) 長期的な秘密鍵を保護するためのメカニズムとして、ここ数十年で暗号は勢いを増している。 単一の秘密鍵を持つのではなく、署名や暗号化などの暗号操作を分散することができる。 閾値暗号操作は、その操作を実行するためにしきい値が参加しなければならないように、異なるパーティ間で共有される。 これにより、攻撃者の仕事は、セキュリティを破るために最低限の数の当事者を腐敗させる必要があるという意味で、厳格に困難になる。 この分野でのほとんどの研究は、しきい値の署名や復号化を可能にする非対称キースキームに焦点を当てている。 我々は、しきい値暗号としきい値復号の両方を可能にする対称鍵設定に焦点を当てる。 これまでの仕事は信頼できる第三者の存在に依存していた。 このようなパーティは、いくつかのユースケースでは存在せず、単一障害点を表す。 我々は、秘密鍵の完全な知識をいかなる時点でも取得できないディーラーフリーの仕組みを設計することで、信頼できる第三者の要求を取り除くことを提案する。 我々はPythonで構築する概念の証明を実装した。 我々は、理論的な期待値と比較し、信頼性のある第三者に依存しない複雑さのコストを評価するために、タイミングメトリクスによる概念実証を評価した。 セットアップフェーズは適度な追加コストを被るが、暗号化と復号フェーズは元のアルゴリズムと同じ性能を発揮する。

Threshold cryptography has gained momentum in the last decades as a mechanism to protect long term secret keys. Rather than having a single secret key, this allows to distribute the ability to perform a cryptographic operation such as signing or encrypting. Threshold cryptographic operations are shared among different parties such that a threshold number of them must participate in order to run the operation. This makes the job of an attacker strictly more difficult in the sense that they would have to corrupt at least a threshold number of parties to breach the security. Most works in this field focus on asymmetric-key schemes that allow threshold signing or decrypting. We focus on the symmetric-key setting, allowing both threshold encryption and threshold decryption. Previous work relies on the presence of a trusted third party. Such a party may not exist in some use cases, and it represents a single point of failure. We propose to remove the requirement of a trusted third party by designing a dealer-free setup in which no entity can at any point obtain full knowledge of the secret keys. We implement a proof of concept of our construction in Python. We evaluate the proof of concept with timing metrics to compare to theoretical expectations and assess the cost in complexity of not relying on a trusted third party. While the setup phase suffers moderate additional cost, the encryption and decryption phases perform the same as the original algorithm.
翻訳日:2024-08-30 15:44:44 公開日:2024-08-28
# より薄いラテント空間:自己エンコーダ勾配制約による次元の検出と不変性

Thinner Latent Spaces: Detecting dimension and imposing invariance through autoencoder gradient constraints ( http://arxiv.org/abs/2408.16138v1 )

ライセンス: Link先を確認
George A. Kevrekidis, Mauro Maggioni, Soledad Villar, Yannis G. Kevrekidis, (参考訳) コンフォーマルオートエンコーダ(Conformal Autoencoder)は、データの不整合表現を達成するために、潜伏変数の勾配間の直交条件を課すニューラルネットワークアーキテクチャである。 このレターでは、ネットワークの潜在層内の直交関係を利用して非線形多様体データセット(局所的には接空間の次元によって特徴づけられる)の固有次元を推定し、同時に符号化と復号(埋め込み)写像を計算できることが示される。 微分幾何学に依拠する関係理論を概説し、対応する勾配偏光最適化アルゴリズムについて述べる。 本手法は標準データセットに適用され,適用性,利点,欠点を強調した。 さらに、埋め込み空間の(還元された)部分多様体上でのみ定義される場合、同じ計算技術を用いて局所群作用の座標不変性を構築できることを実証する。

Conformal Autoencoders are a neural network architecture that imposes orthogonality conditions between the gradients of latent variables towards achieving disentangled representations of data. In this letter we show that orthogonality relations within the latent layer of the network can be leveraged to infer the intrinsic dimensionality of nonlinear manifold data sets (locally characterized by the dimension of their tangent space), while simultaneously computing encoding and decoding (embedding) maps. We outline the relevant theory relying on differential geometry, and describe the corresponding gradient-descent optimization algorithm. The method is applied to standard data sets and we highlight its applicability, advantages, and shortcomings. In addition, we demonstrate that the same computational technology can be used to build coordinate invariance to local group actions when defined only on a (reduced) submanifold of the embedding space.
翻訳日:2024-08-30 15:34:56 公開日:2024-08-28
# SoK:サイバーセキュリティ能力成熟度モデル(CCMM)の限界と橋渡しギャップの特定

SoK: Identifying Limitations and Bridging Gaps of Cybersecurity Capability Maturity Models (CCMMs) ( http://arxiv.org/abs/2408.16140v1 )

ライセンス: Link先を確認
Lasini Liyanage, Nalin Asanka Gamagedara Arachchilage, Giovanni Russello, (参考訳) サイバーセキュリティの脅威にますます脆弱な組織が急速に進化するデジタル世界では、サイバーセキュリティ能力成熟度モデル(CCMM)が、組織のサイバーセキュリティ姿勢を強化する重要なツールとして出現する。 CCMMは、組織が現在のサイバーセキュリティ能力を評価し、重大なギャップを特定し、改善を優先するための構造化されたフレームワークを提供する。 しかし、CCMMの潜在能力は、実装や採用プロセスで遭遇したモデルや課題に固有の制限があるため、実現されないことが多い。 これらの制限と課題は、サイバーセキュリティの改善におけるCCMMの有効性を著しく阻害する可能性がある。 その結果、重要なセキュリティギャップを特定し、対処したり、必要な改善を実装したり、リソースを効果的に割り当てたりすることができないため、組織はサイバー脅威に弱いままである。 これらの制限と課題に対処するためには、既存のモデルを徹底的に調査することが不可欠である。 そこで我々は,既存のCCMM,その制限,組織が実施・採用する際に直面する課題を識別するために,43の出版物を分析した。 これらの障壁を理解することで、CCMMの有効性を高め、組織組織のサイバーセキュリティニーズをより効果的に満たすための道を探究することを目指している。

In the rapidly evolving digital landscape, where organisations are increasingly vulnerable to cybersecurity threats, Cybersecurity Capability Maturity Models (CCMMs) emerge as pivotal tools in enhancing organisational cybersecurity posture. CCMMs provide a structured framework to guide organisations in assessing their current cybersecurity capabilities, identifying critical gaps, and prioritising improvements. However, the full potential of CCMMs is often not realised due to inherent limitations within the models and challenges encountered during their implementation and adoption processes. These limitations and challenges can significantly hamper the efficacy of CCMMs in improving cybersecurity. As a result, organisations remain vulnerable to cyber threats as they may fail to identify and address critical security gaps, implement necessary improvements or allocate resources effectively. To address these limitations and challenges, conducting a thorough investigation into existing models is essential. Therefore, we conducted a Systematic Literature Review (SLR) analysing 43 publications to identify existing CCMMs, their limitations, and the challenges organisations face when implementing and adopting them. By understanding these barriers, we aim to explore avenues for enhancing the efficacy of CCMMs, ensuring they more effectively meet the cybersecurity needs of organisational entities.
翻訳日:2024-08-30 15:34:56 公開日:2024-08-28
# 超伝導体-キラル材料ヘテロ構造におけるスピン活性界面と局所強化ゼーマン場

Signatures of a Spin-Active Interface and Locally Enhanced Zeeman field in a Superconductor-Chiral Material Heterostructure ( http://arxiv.org/abs/2408.16146v1 )

ライセンス: Link先を確認
Cliff Chen, Jason Tran, Anthony McFadden, Raymond Simmonds, Keisuke Saito, En-De Chu, Daniel Morales, Varrick Suezaki, Yasen Hou, Joe Aumentado, Patrick A. Lee, Jagadeesh S. Moodera, Peng Wei, (参考訳) ヘテロ構造界面で強化された局在ゼーマン場は、スピントロニクスや非伝統的な超伝導体を含む広い領域において重要な役割を果たす可能性がある。 従来、局所ゼーマン場の生成は磁性体との磁気交換結合によって達成される。 しかし、磁性体はしばしば欠陥を導入し、超伝導を弱めるか破壊する可能性がある。 あるいは、強いスピン軌道結合を持つ超伝導体と非磁性キラル材料との結合は、スピン活性界面を生成するための有望なアプローチとして機能する可能性がある。 本研究では,高貴金属表面における超伝導体,すなわち誘導超伝導体を用いてスピン活性界面を探索する。 その結果,バルク超電導ペアリングを保ちながら,表面超伝導ギャップを選択的に閉じる拡張界面ゼーマン場が明らかになった。 キラル物質、すなわち三角性テルルは、スピン偏極を示すアンドレフ境界状態(ABS)を誘導する。 ABSの磁場依存性は、かなり強化されたLand\'e g-factor (g_eff ~ 12) を示し、これにより強化された界面ゼーマンエネルギーを共役する。

A localized Zeeman field, intensified at heterostructure interfaces, could play a crucial role in a broad area including spintronics and unconventional superconductors. Conventionally, the generation of a local Zeeman field is achieved through magnetic exchange coupling with a magnetic material. However, magnetic elements often introduce defects, which could weaken or destroy superconductivity. Alternatively, the coupling between a superconductor with strong spin-orbit coupling and a non-magnetic chiral material could serve as a promising approach to generate a spin active interface. In this study, we leverage an interface superconductor, namely induced superconductivity in noble metal surface states, to probe the spin active interface. Our results unveil an enhanced interface Zeeman field, which selectively closes the surface superconducting gap while preserving the bulk superconducting pairing. The chiral material, i.e. trigonal tellurium, also induces Andreev bound states (ABS) exhibiting spin polarization. The field dependence of ABS manifests a substantially enhanced interface Land\'e g-factor (g_eff ~ 12), thereby corroborating the enhanced interface Zeeman energy.
翻訳日:2024-08-30 15:34:56 公開日:2024-08-28
# 認知モデルを用いたレコメンデーションにおける個人エンゲージメントの予測の改善

Improving the Prediction of Individual Engagement in Recommendations Using Cognitive Models ( http://arxiv.org/abs/2408.16147v1 )

ライセンス: Link先を確認
Roderick Seow, Yunfan Zhao, Duncan Wood, Milind Tambe, Cleotilde Gonzalez, (参考訳) 限られた資源を持つ公衆衛生プログラムでは、いつ、いつ、どの介入を割り当てるかを決めるために、時間とともに、介入に反応して行動がどのように変化するかを予測する能力が不可欠である。 実世界の母体保健プログラムのデータを用いて、インスタンスベース学習(IBL)理論に基づく認知モデルが、既存の純粋計算アプローチをどのように拡張するかを実証する。 これらの結果から,人間の意思決定過程を反映した一般時系列予測モデル(LSTMなど)と比較して,個人の状態のダイナミクスをよりよく予測できることがわかった。 さらに、ILBは個人の状態のボラティリティと介入に対する感受性を推定し、他の時系列モデルのトレーニングの効率を向上させることができる。

For public health programs with limited resources, the ability to predict how behaviors change over time and in response to interventions is crucial for deciding when and to whom interventions should be allocated. Using data from a real-world maternal health program, we demonstrate how a cognitive model based on Instance-Based Learning (IBL) Theory can augment existing purely computational approaches. Our findings show that, compared to general time-series forecasters (e.g., LSTMs), IBL models, which reflect human decision-making processes, better predict the dynamics of individuals' states. Additionally, IBL provides estimates of the volatility in individuals' states and their sensitivity to interventions, which can improve the efficiency of training of other time series models.
翻訳日:2024-08-30 15:34:56 公開日:2024-08-28
# Equi-Depth Photon Histogram を用いた1光子3次元イメージング

Single-Photon 3D Imaging with Equi-Depth Photon Histograms ( http://arxiv.org/abs/2408.16150v1 )

ライセンス: Link先を確認
Kaustubh Sadekar, David Maier, Atul Ingle, (参考訳) 単光子カメラは高解像度の3Dイメージングに有望な道を示す。 個々の光子まで超高感度で、超高解像度(ナノ秒以下)で光子到着時間を記録できる。 単一光子3Dカメラは、検出された光子タイムスタンプの等幅(EW)ヒストグラムを形成することにより、レーザーパルスのラウンドトリップ時間を推定する。 このようなEWヒストグラムの取得と転送は、高帯域幅と画素内メモリを必要とするため、モバイルデバイスやAR/VRヘッドセットのようなリソース制約のある設定では、SPCの魅力が低下する。 本研究では, 等深度(ED)ヒストグラムに基づく3次元センシング手法を提案する。 EDヒストグラムはEWヒストグラムよりも効率的にタイムスタンプデータを圧縮し、帯域幅の要求を低減した。 さらに,画素内メモリの必要量を削減するために,光子タイムスタンプを明示的に保存することなく,EDヒストグラムをオンライン形式で推定する軽量アルゴリズムを提案する。 このアルゴリズムは将来の画素内実装に有効である。 我々は,EDヒストグラム処理アルゴリズムを提案し,シーン距離マップを推定し,高環境光などの難易度条件下で視覚計測を行う3次元コンピュータビジョンタスクを実行する。 我々の研究は、SPCの低帯域化と画素内メモリ要件の削減を図り、リソース制約された3Dビジョンアプリケーションにとって魅力的なものとなった。 プロジェクトページ: $\href{https://www.computational.camera/pedh}{https://www.computational.camera/pedh}$

Single-photon cameras present a promising avenue for high-resolution 3D imaging. They have ultra-high sensitivity -- down to individual photons -- and can record photon arrival times with extremely high (sub-nanosecond) resolution. Single-photon 3D cameras estimate the round-trip time of a laser pulse by forming equi-width (EW) histograms of detected photon timestamps. Acquiring and transferring such EW histograms requires high bandwidth and in-pixel memory, making SPCs less attractive in resource-constrained settings such as mobile devices and AR/VR headsets. In this work we propose a 3D sensing technique based on equi-depth (ED) histograms. ED histograms compress timestamp data more efficiently than EW histograms, reducing the bandwidth requirement. Moreover, to reduce the in-pixel memory requirement, we propose a lightweight algorithm to estimate ED histograms in an online fashion without explicitly storing the photon timestamps. This algorithm is amenable to future in-pixel implementations. We propose algorithms that process ED histograms to perform 3D computer-vision tasks of estimating scene distance maps and performing visual odometry under challenging conditions such as high ambient light. Our work paves the way towards lower bandwidth and reduced in-pixel memory requirements for SPCs, making them attractive for resource-constrained 3D vision applications. Project page: $\href{https://www.computational.camera/pedh}{https://www.computational.camera/pedh}$
翻訳日:2024-08-30 15:34:56 公開日:2024-08-28
# 大規模言語モデルを用いた自動ライブラリマイグレーション:最初の結果

Automatic Library Migration Using Large Language Models: First Results ( http://arxiv.org/abs/2408.16151v1 )

ライセンス: Link先を確認
Aylton Almeida, Laerte Xavier, Marco Tulio Valente, (参考訳) わずか数年前に導入されたが、Large Language Models (LLMs) はすでに開発者がコード生成に広く使用している。 しかしながら、他のソフトウェアエンジニアリング活動の自動化における彼らの応用は、まだほとんど未検討である。 そこで本研究では,ChatGPTを用いたAPIマイグレーションタスクのサポートについて検討している研究の最初の成果を報告する。 具体的には、我々は、ChatGPTを使用してクライアントアプリケーションを移行して、Pythonで広く使われているORM(Object Relational Mapping)ライブラリであるSQLAlchemyの新バージョンを使用するという、最初の結果を共有します。 我々は,3種類のプロンプト(ゼロショット,ワンショット,チェーン・オブ・シント)の使用を評価し,最も優れた結果がワンショットプロンプトによって達成され,その後にチェーン・オブ・シント(Chain Of Thoughts)が続くことを示す。 特にOne-Shotプロンプトを使えば、元のコード動作を保ちながら、ターゲットアプリケーションのすべての列をうまく移行して、SQLAlchemyの最新バージョンで有効になった新機能(Pythonの \texttt{asyncio} や \texttt{typing} モジュールなど)を使用するようにコードをアップグレードすることができました。

Despite being introduced only a few years ago, Large Language Models (LLMs) are already widely used by developers for code generation. However, their application in automating other Software Engineering activities remains largely unexplored. Thus, in this paper, we report the first results of a study in which we are exploring the use of ChatGPT to support API migration tasks, an important problem that demands manual effort and attention from developers. Specifically, in the paper, we share our initial results involving the use of ChatGPT to migrate a client application to use a newer version of SQLAlchemy, an ORM (Object Relational Mapping) library widely used in Python. We evaluate the use of three types of prompts (Zero-Shot, One-Shot, and Chain Of Thoughts) and show that the best results are achieved by the One-Shot prompt, followed by the Chain Of Thoughts. Particularly, with the One-Shot prompt we were able to successfully migrate all columns of our target application and upgrade its code to use new functionalities enabled by SQLAlchemy's latest version, such as Python's \texttt{asyncio} and \texttt{typing} modules, while preserving the original code behavior.
翻訳日:2024-08-30 15:34:56 公開日:2024-08-28
# データ効率の良い一般化は基礎モデルのバイアスを悪化させるか?

Does Data-Efficient Generalization Exacerbate Bias in Foundation Models? ( http://arxiv.org/abs/2408.16154v1 )

ライセンス: Link先を確認
Dilermando Queiroz, Anderson Carlos, Maíra Fatoretto, André Anjos, Lilian Berton, Luis Filipe Nakayama, (参考訳) ファンデーションモデルは、様々なドメインでラベル効率を持つ堅牢なモデルとして登場した。 医用画像では,ラベル付きデータの取得が困難であるため,診断の進歩に寄与する。 しかし、事前学習中に機密属性の存在に偏った大量のラベル付きデータを使用することが、モデルの公平性に影響を与えるかどうかは不明である。 本研究は,ブラジルの多ラベル眼科学データセット(BRSET)を微調整する際のファンデーションモデル(RetFound)のバイアスについて検討する。 モデル評価は、教師付き学習と比較して、基礎モデルが、最大AUCと最低AUCの男女・年齢グループ間のギャップを減じる可能性を示唆している。 しかし、データ効率の一般化では、データ量が減少するとバイアスが増大する。 これらの結果は,データ制限のある実生活シナリオにファンデーションモデルをデプロイする場合,公平性の問題の可能性を検討する必要があることを示唆している。

Foundation models have emerged as robust models with label efficiency in diverse domains. In medical imaging, these models contribute to the advancement of medical diagnoses due to the difficulty in obtaining labeled data. However, it is unclear whether using a large amount of unlabeled data, biased by the presence of sensitive attributes during pre-training, influences the fairness of the model. This research examines the bias in the Foundation model (RetFound) when it is applied to fine-tune the Brazilian Multilabel Ophthalmological Dataset (BRSET), which has a different population than the pre-training dataset. The model evaluation, in comparison with supervised learning, shows that the Foundation Model has the potential to reduce the gap between the maximum AUC and minimum AUC evaluations across gender and age groups. However, in a data-efficient generalization, the model increases the bias when the data amount decreases. These findings suggest that when deploying a Foundation Model in real-life scenarios with limited data, the possibility of fairness issues should be considered.
翻訳日:2024-08-30 15:34:56 公開日:2024-08-28
# 量子コンピューティング資源を科学的HPCエコシステムに統合する

Integrating Quantum Computing Resources into Scientific HPC Ecosystems ( http://arxiv.org/abs/2408.16159v1 )

ライセンス: Link先を確認
Thomas Beck, Alessandro Baroni, Ryan Bennink, Gilles Buchs, Eduardo Antonio Coello Perez, Markus Eisenbach, Rafael Ferreira da Silva, Muralikrishnan Gopalakrishnan Meena, Kalyan Gottiparthi, Peter Groszkowski, Travis S. Humble, Ryan Landfield, Ketan Maheshwari, Sarp Oral, Michael A. Sandoval, Amir Shehata, In-Saeng Suh, Christopher Zimmer, (参考訳) 量子コンピューティング(QC)は、量子化学、最適化、人工知能などの分野における科学的発見を強化する重要な可能性を提供する。 しかし、QCは、ノイズの多い中間スケールの量子時代固有の外部ノイズ問題のために、課題に直面している。 本稿では,古典科学的ハイパフォーマンスコンピューティング(HPC)システムにおける計算アクセラレータとしてのQCの統合について論じる。 様々なシミュレータやハードウェア技術を活用することにより,従来のHPCをQCで拡張するためのハードウェアに依存しないフレームワークを提案する。 本研究は,オークリッジ国立研究所 (ORNL) のHPC専門知識とエネルギー省 (DOE) のHPCライフサイクル管理に基づいて,既存の科学的HPCワークフローへのQC能力と加速の戦略的組み入れに焦点を当てた。 これには、DOEとORNLミッションのニーズによって駆動される詳細な分析、ベンチマーク、コード最適化が含まれている。 我々の包括的なフレームワークは、ハードウェア、ソフトウェア、ワークフロー、ユーザーインターフェースを統合し、量子および古典コンピューティング研究のための相乗的環境を育む。 本稿では,新たな計算可能性の解き放つ計画の概要を述べる。

Quantum Computing (QC) offers significant potential to enhance scientific discovery in fields such as quantum chemistry, optimization, and artificial intelligence. Yet QC faces challenges due to the noisy intermediate-scale quantum era's inherent external noise issues. This paper discusses the integration of QC as a computational accelerator within classical scientific high-performance computing (HPC) systems. By leveraging a broad spectrum of simulators and hardware technologies, we propose a hardware-agnostic framework for augmenting classical HPC with QC capabilities. Drawing on the HPC expertise of the Oak Ridge National Laboratory (ORNL) and the HPC lifecycle management of the Department of Energy (DOE), our approach focuses on the strategic incorporation of QC capabilities and acceleration into existing scientific HPC workflows. This includes detailed analyses, benchmarks, and code optimization driven by the needs of the DOE and ORNL missions. Our comprehensive framework integrates hardware, software, workflows, and user interfaces to foster a synergistic environment for quantum and classical computing research. This paper outlines plans to unlock new computational possibilities, driving forward scientific inquiry and innovation in a wide array of research domains.
翻訳日:2024-08-30 15:34:56 公開日:2024-08-28
# CLPNets: 対称性を持つ多部ハミルトニアンシステムのための結合リー・ポアソンニューラルネットワーク

CLPNets: Coupled Lie-Poisson Neural Networks for Multi-Part Hamiltonian Systems with Symmetries ( http://arxiv.org/abs/2408.16160v1 )

ライセンス: Link先を確認
Christopher Eldred, François Gay-Balmaz, Vakhtang Putkaradze, (参考訳) ハミルトン系のデータに基づく予測、特にそのようなシステムの長期的進化を正確に計算するためには、時間とともに方程式の構造を保存する方法を活用することが不可欠である。 データベースの手法では特に困難なケースとして、純粋な運動量進化に還元されない相互作用部分を持つシステムを考える。 このようなシステムは科学計算に欠かせない。 例えば、連続弾性ロッドの任意の離散化は、各離散要素が回転群上を移動し、翻訳が$SE(3)$であるような、空間内を移動および回転できる相互作用要素と見なすことができる。 本研究では,データに基づく計算と完全位相空間学習の新たな手法を開発した。 We follow the original framework of \emph{SympNets} (Jin et al, 2020) building the neural network from canonical phase space mappings and transformations that maintain the Lie-Poisson structure (\emph{LPNets}) as in (Eldred et al, 2024)。 結合システムのためのニューラルネットワークに構築された新しいマッピング方式を導出する。 このようなネットワークを Coupled Lie-Poisson Neural Networks あるいは \emph{CLPNets} と呼ぶ。 CLPNetの応用の複雑な例として、共通の軸に2つの剛体を回転させ、2つの剛体を自由回転させ、最後に2つの連結および相互作用する$SE(3)$成分の進化を考察する。 本手法は,訓練データの品質に関わらず,各システムのカシミール不変量を機械精度に保ち,エネルギーを高精度に保存する。 また,本手法は次元の呪いに対する抵抗性も良好であり,実効性は3から18まで様々である。 さらに、この手法はメモリ要求において非常に経済的であり、考慮される最も複雑なケースに対して約200のパラメータしか必要としない。

To accurately compute data-based prediction of Hamiltonian systems, especially the long-term evolution of such systems, it is essential to utilize methods that preserve the structure of the equations over time. We consider a case that is particularly challenging for data-based methods: systems with interacting parts that do not reduce to pure momentum evolution. Such systems are essential in scientific computations. For example, any discretization of a continuum elastic rod can be viewed as interacting elements that can move and rotate in space, with each discrete element moving on the group of rotations and translations $SE(3)$. We develop a novel method of data-based computation and complete phase space learning of such systems. We follow the original framework of \emph{SympNets} (Jin et al, 2020) building the neural network from canonical phase space mappings, and transformations that preserve the Lie-Poisson structure (\emph{LPNets}) as in (Eldred et al, 2024). We derive a novel system of mappings that are built into neural networks for coupled systems. We call such networks Coupled Lie-Poisson Neural Networks, or \emph{CLPNets}. We consider increasingly complex examples for the applications of CLPNets: rotation of two rigid bodies about a common axis, the free rotation of two rigid bodies, and finally the evolution of two connected and interacting $SE(3)$ components. Our method preserves all Casimir invariants of each system to machine precision, irrespective of the quality of the training data, and preserves energy to high accuracy. Our method also shows good resistance to the curse of dimensionality, requiring only a few thousand data points for all cases studied, with the effective dimension varying from three to eighteen. Additionally, the method is highly economical in memory requirements, requiring only about 200 parameters for the most complex case considered.
翻訳日:2024-08-30 15:34:56 公開日:2024-08-28
# FRACTURED-SORRY-Bench:SORRY-Benchに対する拒絶効果と防御を損なう会話ターンにおける攻撃の回避のためのフレームワーク

FRACTURED-SORRY-Bench: Framework for Revealing Attacks in Conversational Turns Undermining Refusal Efficacy and Defenses over SORRY-Bench ( http://arxiv.org/abs/2408.16163v1 )

ライセンス: Link先を確認
Aman Priyanshu, Supriti Vijay, (参考訳) 本稿では,大規模言語モデル(LLM)のマルチターン会話攻撃に対する安全性を評価するフレームワークであるFRACTURED-SORRY-Benchを紹介する。 SORRY-Benchデータセットに基づいて,有害なクエリを一見無害なサブクエストに分解することで,敵のプロンプトを生成する,シンプルかつ効果的な手法を提案する。 提案手法は, GPT-4, GPT-4o, GPT-4o-mini, GPT-3.5-Turbo モデルに対して, ベースライン法と比較して, 攻撃成功率 (ASR) の最大増加率 (46.22 %) を達成する。 我々は,この手法が現在のLLM安全対策の課題となり,微妙なマルチターン攻撃に対するより堅牢な防御の必要性を強調した。

This paper introduces FRACTURED-SORRY-Bench, a framework for evaluating the safety of Large Language Models (LLMs) against multi-turn conversational attacks. Building upon the SORRY-Bench dataset, we propose a simple yet effective method for generating adversarial prompts by breaking down harmful queries into seemingly innocuous sub-questions. Our approach achieves a maximum increase of +46.22\% in Attack Success Rates (ASRs) across GPT-4, GPT-4o, GPT-4o-mini, and GPT-3.5-Turbo models compared to baseline methods. We demonstrate that this technique poses a challenge to current LLM safety measures and highlights the need for more robust defenses against subtle, multi-turn attacks.
翻訳日:2024-08-30 15:34:56 公開日:2024-08-28
# 森林におけるフリーレンチ:隆起樹群集の機能的根絶

Free Lunch in the Forest: Functionally-Identical Pruning of Boosted Tree Ensembles ( http://arxiv.org/abs/2408.16167v1 )

ライセンス: Link先を確認
Youssouf Emine, Alexandre Forel, Idriss Malek, Thibaut Vidal, (参考訳) 木のアンサンブルは、ブースティングメソッドを含む非常に効果的で、表データに広く使われている。 しかし、大きなアンサンブルには解釈性がなく、推論時間も長い。 木アンサンブルを原モデルと「機能的に同一」な縮小版にプルークする方法を提案する。 言い換えれば、予測関数が任意の入力に対して不変であることを保証する。 結果として、このプルーニングアルゴリズムは、任意の集計された計量に対してロスレスである。 我々は,アンサンブル上での機能的同一プルーニングの問題を形式化し,正確な最適化モデルを導入し,大規模なアンサンブルをプルーする高速かつ高効率な方法を提供する。 本アルゴリズムは, 逆数モデルを用いて漸進的に拡張される有限個の点の集合を考慮した反復的な帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰属的帰納的帰納入的帰納入的帰属的帰納入的帰納入的帰 複数の計算実験において、我々のアプローチは「フリーランチ」であり、モデルの振る舞いを変えることなくアンサンブルサイズを著しく小さくすることを示した。 これにより、従来のモデルのサイズのごく一部で最先端の性能を維持できる。

Tree ensembles, including boosting methods, are highly effective and widely used for tabular data. However, large ensembles lack interpretability and require longer inference times. We introduce a method to prune a tree ensemble into a reduced version that is "functionally identical" to the original model. In other words, our method guarantees that the prediction function stays unchanged for any possible input. As a consequence, this pruning algorithm is lossless for any aggregated metric. We formalize the problem of functionally identical pruning on ensembles, introduce an exact optimization model, and provide a fast yet highly effective method to prune large ensembles. Our algorithm iteratively prunes considering a finite set of points, which is incrementally augmented using an adversarial model. In multiple computational experiments, we show that our approach is a "free lunch", significantly reducing the ensemble size without altering the model's behavior. Thus, we can preserve state-of-the-art performance at a fraction of the original model's size.
翻訳日:2024-08-30 15:34:56 公開日:2024-08-28
# LeMON: マルチオペレータネットワークを学ぶ

LeMON: Learning to Learn Multi-Operator Networks ( http://arxiv.org/abs/2408.16168v1 )

ライセンス: Link先を確認
Jingmin Sun, Zecheng Zhang, Hayden Schaeffer, (参考訳) シングルオペレータ学習では、特定のオペレータを学ぶためにディープニューラルネットワークをトレーニングする一方で、マルチオペレータ学習における最近の研究では、複数のオペレータのデータに対して単一のニューラルネットワークをトレーニングするために、オペレータの埋め込み構造を使用している。 このように、マルチオペレータ学習は、1つのモデル内の演算子の範囲を予測することができる。 本研究では,多元学習を用いたPDEの事前学習と微調整手法を提案する。 1つの重要な側面は、プレトレーニングで使用される演算子のファミリーの数を増やすことにより、PDEファンデーションモデルは、サンプル数に制限された新しいPDEを含む下流タスクに微調整され、単一の演算子ニューラルネットワークよりも優れていることである。 具体的には、多種多様なPDEファミリーのデータで事前訓練されたマルチオペレータ学習モデルは、新しいファミリーの限られた数の演算子で微調整した後、未知の演算子を予測することができ、データフリーのPDEソルバとして機能する。 また,提案手法は,サンプルを使わずにゼロショット予測において,新たな演算子を予測できることを示す。 さらに,パラメータ初期化プロセスの改善により,PDEに依存しないメタ学習アルゴリズムを導入し,モデルの各種PDEへの適応性を向上させる。 計算資源が限られているアプリケーションのニーズに対処するため,計算コストを低減し,解法精度を向上する低ランク適応法を検討する。 最後に、演算子族数に関するスケーリング法則を検討することにより、PDE解決タスクに広く適応する可能性を確立し、強調する。

Single-operator learning involves training a deep neural network to learn a specific operator, whereas recent work in multi-operator learning uses an operator embedding structure to train a single neural network on data from multiple operators. Thus, multi-operator learning is capable of predicting a range of operators within one model. In this work, we propose pretraining and fine-tuning strategies for solving PDEs using multi-operator learning. One key aspect is that by increasing the number of families of operators used in pretraining, a PDE foundation model can be fine-tuned to downstream tasks involving new PDEs with a limited number of samples, thus outperforming single operator neural networks. Specifically, a multi-operator learning model pre-trained with data from diverse PDE families can predict unseen operators after fine-tuning with only a limited number of operators from the new family, enabling them to serve as a data-free PDE solver. We also show that the proposed training and fine-tuning method is able to predict new operators in zero-shot prediction without samples. Additionally, we introduce a PDE-agnostic meta-learning algorithm to improve the adaptability of the model to various PDEs by providing a better parameter initialization process. To address the needs of applications with limited computing resources, we explore low-rank adaptation methods that reduce computational costs while enhancing solver accuracy. Lastly, by examining the scaling law with respect to the number of operator families, we establish and highlight its potential for broad adaptation in PDE-solving tasks.
翻訳日:2024-08-30 15:34:56 公開日:2024-08-28
# 生成対向ネットワークを用いた実時間短タンデム繰り返し毛細管電気泳動信号のシミュレーション

Simulating realistic short tandem repeat capillary electrophoretic signal using a generative adversarial network ( http://arxiv.org/abs/2408.16169v1 )

ライセンス: Link先を確認
Duncan Taylor, Melissa Humphries, (参考訳) DNAプロファイルは、時間とともに蛍光を測定する複数の電気泳動信号から作られる。 典型的には、人間のDNA分析者は、その経験を使って、楽器のノイズ、人工的な信号、および興味あるDNA断片に対応する信号を識別するDNAプロファイルを読み取る。 最近の研究は、蛍光型をDNAプロファイル電気泳動信号のカテゴリに分類するタスクを実行するために、人工知能ニューラルネットワークであるANNを開発した。 しかし、ANNのための大量のラベル付きトレーニングデータの作成には時間と費用がかかり、ANNを堅牢にトレーニングする能力の制限要因となる。 もし現実的でプレラベリングされたトレーニングデータをシミュレートできれば、高い有効性でANNをトレーニングする障壁を取り除くことができる。 そこで本研究では,Pix2pix GANから修正した生成逆数ネットワークであるGANを開発し,その課題を解決した。 1078のDNAプロファイルを用いて、私たちはGANを訓練し、DNAプロファイル情報をシミュレートする能力を実現し、GANからのジェネレータを「リアリズムフィルタ」として使用し、典型的な電気泳動信号で現れるノイズや人工物要素を適用します。

DNA profiles are made up from multiple series of electrophoretic signal measuring fluorescence over time. Typically, human DNA analysts 'read' DNA profiles using their experience to distinguish instrument noise, artefactual signal, and signal corresponding to DNA fragments of interest. Recent work has developed an artificial neural network, ANN, to carry out the task of classifying fluorescence types into categories in DNA profile electrophoretic signal. But the creation of the necessarily large amount of labelled training data for the ANN is time consuming and expensive, and a limiting factor in the ability to robustly train the ANN. If realistic, prelabelled, training data could be simulated then this would remove the barrier to training an ANN with high efficacy. Here we develop a generative adversarial network, GAN, modified from the pix2pix GAN to achieve this task. With 1078 DNA profiles we train the GAN and achieve the ability to simulate DNA profile information, and then use the generator from the GAN as a 'realism filter' that applies the noise and artefact elements exhibited in typical electrophoretic signal.
翻訳日:2024-08-30 15:34:56 公開日:2024-08-28
# CardBench:リレーショナルデータベースにおける学習心推定のためのベンチマーク

CardBench: A Benchmark for Learned Cardinality Estimation in Relational Databases ( http://arxiv.org/abs/2408.16170v1 )

ライセンス: Link先を確認
Yannis Chronis, Yawen Wang, Yu Gan, Sami Abu-El-Haija, Chelsea Lin, Carsten Binnig, Fatma Özcan, (参考訳) リレーショナルデータベースにおける高いクエリ性能を実現するためには,カーディナリティ推定が不可欠である。 近年、精度向上のために、学習基準推定モデルが提案されているが、新しい学習アプローチによる進歩を評価し、新しい学習アプローチを体系的に開発することのできる、体系的なベンチマークやデータセットは存在しない。 本稿では,20の異なる実世界のデータベースに数千のクエリを格納したベンチマークを,学習基数推定のためにリリースする。 他の初期ベンチマークとは対照的に、我々のベンチマークはより多様であり、学習したモデルを体系的にトレーニングし、テストするのに使用できます。 このベンチマークを用いて,ゼロショット方式で学習された濃度推定を未知のデータセットに転送できるかどうかを検討した。 1-) インスタンスベース、2-) ゼロショット、3-) 微調整の3つの設定で問題を研究するために、GNNベースのモデルとトランスフォーマーベースのモデルを訓練した。 その結果、単純な単一テーブルクエリに対してゼロショットの基数推定の有望な結果が得られる一方で、結合を追加すると、精度が低下することがわかった。 しかし, 微調整では, 定性推定に事前学習モデルを用いることができ, 実例固有のモデルと比較してトレーニングオーバーヘッドを著しく低減できることがわかった。 我々は、統計を収集し、クエリを生成し、データセットを訓練し、より広範な研究を促進するためのスクリプトをオープンソース化しています。

Cardinality estimation is crucial for enabling high query performance in relational databases. Recently learned cardinality estimation models have been proposed to improve accuracy but there is no systematic benchmark or datasets which allows researchers to evaluate the progress made by new learned approaches and even systematically develop new learned approaches. In this paper, we are releasing a benchmark, containing thousands of queries over 20 distinct real-world databases for learned cardinality estimation. In contrast to other initial benchmarks, our benchmark is much more diverse and can be used for training and testing learned models systematically. Using this benchmark, we explored whether learned cardinality estimation can be transferred to an unseen dataset in a zero-shot manner. We trained GNN-based and transformer-based models to study the problem in three setups: 1-) instance-based, 2-) zero-shot, and 3-) fine-tuned. Our results show that while we get promising results for zero-shot cardinality estimation on simple single table queries; as soon as we add joins, the accuracy drops. However, we show that with fine-tuning, we can still utilize pre-trained models for cardinality estimation, significantly reducing training overheads compared to instance specific models. We are open sourcing our scripts to collect statistics, generate queries and training datasets to foster more extensive research, also from the ML community on the important problem of cardinality estimation and in particular improve on recent directions such as pre-trained cardinality estimation.
翻訳日:2024-08-30 15:34:56 公開日:2024-08-28
# 量子制限型干渉計の光ばね追跡

Optical Spring Tracking for Enhancing Quantum-Limited Interferometers ( http://arxiv.org/abs/2408.16171v1 )

ライセンス: Link先を確認
Scott Aronson, Ronald Pagano, Torrey Cullen, Garrett D. Cole, Thomas Corbitt, (参考訳) LIGOのような現代の干渉計は、放射圧とショットノイズからなる量子ノイズによって制限された感度を達成している。 このノイズを軽減するために、測定帯域内の量子ノイズを最小限に抑える静的システムを用いる。 しかし、重力波の吸音信号は時間とともに変化する単一周波数であるため、チャープ周波数のノイズを最小化する必要がある。 ここでは,光ばねを用いた目標信号の動的追跡を実演し,信号対雑音比(SNR)を増大させる。 静的な構成に比べてSNRが最大40倍に増加することを報告した。

Modern interferometers such as LIGO have achieved sensitivities limited by quantum noise, comprised of radiation pressure and shot noise. To mitigate this noise, a static system is employed that minimizes the quantum noise within the measurement band. However, since gravitational wave inspiral signals are a single frequency changing over time, only noise at the chirp frequency needs to be minimized. Here we demonstrate dynamically tracking a target signal using an optical spring, resulting in an increased signal to noise ratio (SNR). We report on a SNR increase by up to a factor of 40 when compared to a static configuration.
翻訳日:2024-08-30 15:34:56 公開日:2024-08-28
# 意味型検出のためのLCM支援ラベリング関数生成

LLM-assisted Labeling Function Generation for Semantic Type Detection ( http://arxiv.org/abs/2408.16173v1 )

ライセンス: Link先を確認
Chenjie Li, Dan Zhang, Jin Wang, (参考訳) データレイクテーブルにおける列の意味型の検出は重要な応用である。 セマンティック型検出における重要なボトルネックは、データレイク固有の複雑さのため、人間のアノテーションが利用できることだ。 本稿では,プログラムによる弱監視を用いて,ラベル付け機能を利用した意味型検出のためのトレーニングデータの注釈付けを支援することを提案する。 このプロセスの課題の1つは、データレイクテーブルデータセットの大量かつ低品質のため、ラベル付け関数を手作業で記述することの難しさである。 この問題に対処するために,関数生成のラベル付けにLarge Language Models (LLMs) を用いることを検討する。 実世界のWebテーブルデータセットで実験を行う。 実験結果に基づいて,本分野の研究者に対して,広範な分析を行い,実証的な洞察と今後の方向性を提供する。

Detecting semantic types of columns in data lake tables is an important application. A key bottleneck in semantic type detection is the availability of human annotation due to the inherent complexity of data lakes. In this paper, we propose using programmatic weak supervision to assist in annotating the training data for semantic type detection by leveraging labeling functions. One challenge in this process is the difficulty of manually writing labeling functions due to the large volume and low quality of the data lake table datasets. To address this issue, we explore employing Large Language Models (LLMs) for labeling function generation and introduce several prompt engineering strategies for this purpose. We conduct experiments on real-world web table datasets. Based on the initial results, we perform extensive analysis and provide empirical insights and future directions for researchers in this field.
翻訳日:2024-08-30 15:25:12 公開日:2024-08-28
# 量子コンピューティングを用いたFermi-Hubbardモデルの研究

Studies of the Fermi-Hubbard Model Using Quantum Computing ( http://arxiv.org/abs/2408.16175v1 )

ライセンス: Link先を確認
Adam Prokofiew, Nidhish Sharma, Steven Schnetzer, (参考訳) 凝縮物質物理学において非常に重要なフェルミ・ハバードモデルによって記述された電子のスピン格子の基底状態(最も低い)エネルギーを計算するために量子コンピュータを用いることが研究されている。 重ね合わせ状態にある量子ビット(量子ビット)の能力により、量子コンピュータは最も強力な古典的(デジタル)コンピュータでも不可能な計算を実行できる。 この研究は、従来のコンピュータでは計算できない大きな格子に対してスケーラブルでなければならない小さな格子の基底状態エネルギーを計算する方法を確立した。 1x4, 2x2, 2x4, 3x4の半充填格子について検討した。 電子間のクーロン反発のない1x4格子と2x2格子の計算エネルギーとクーロン反発を持つ1x4格子の計算エネルギーは0.60%であり、クーロン反発を持つ2x2格子の計算エネルギーは1.50%以内である。

The use of quantum computers to calculate the ground state (lowest) energies of a spin lattice of electrons described by the Fermi-Hubbard model of great importance in condensed matter physics has been studied. The ability of quantum bits (qubits) to be in a superposition state allows quantum computers to perform certain calculations that are not possible with even the most powerful classical (digital) computers. This work has established a method for calculating the ground state energies of small lattices which should be scalable to larger lattices that cannot be calculated by classical computers. Half-filled lattices of sizes 1x4, 2x2, 2x4, and 3x4 were studied. The calculated energies for the 1x4 and 2x2 lattices without Coulomb repulsion between the electrons and for the 1x4 lattice with Coulomb repulsion agrees with the true energies to within 0.60%, while for the 2x2 lattice with Coulomb repulsion the agreement is within 1.50% For the 2x4 lattice, the true energy without Coulomb repulsion was found to agree within 0.18%.
翻訳日:2024-08-30 15:25:12 公開日:2024-08-28
# VLM4Bio: バイオ画像からのトランジット発見のための事前学習型視覚言語モデルの評価のためのベンチマークデータセット

VLM4Bio: A Benchmark Dataset to Evaluate Pretrained Vision-Language Models for Trait Discovery from Biological Images ( http://arxiv.org/abs/2408.16176v1 )

ライセンス: Link先を確認
M. Maruf, Arka Daw, Kazi Sajeed Mehrab, Harish Babu Manogaran, Abhilash Neog, Medha Sawhney, Mridul Khurana, James P. Balhoff, Yasin Bakis, Bahadir Altintas, Matthew J. Thompson, Elizabeth G. Campolongo, Josef C. Uyeda, Hilmar Lapp, Henry L. Bart, Paula M. Mabee, Yu Su, Wei-Lun Chao, Charles Stewart, Tanya Berger-Wolf, Wasila Dahdul, Anuj Karpatne, (参考訳) 画像は、生物多様性を地球上で記録する通貨となりつつあり、特に大きな視覚言語モデル(VLM)の出現とともに、生物生物学の分野で科学的な発見を加速する新たな機会となっている。 我々は、事前訓練されたVLMが、追加の微調整なしに、様々な生物学的な疑問に答えられるかどうかを尋ねる。 本稿では, 魚類, 鳥, 蝶の3群30K画像を含む469K問合せ対からなる新たなデータセットであるVLM4Bioを用いて, 生物生物学分野における12種類のSOTAVLMの有効性を評価する。 また, 幻覚を推論する手法や試験がVLMの性能に及ぼす影響についても検討し, 生物学的な疑問に画像を用いて答える上での現在のSOTA VLMの能力に新たな光を当てる。 この論文で報告されているすべての分析を実行するためのコードとデータセットは、https://github.com/sammarfy/VLM4Bio.comで見ることができる。

Images are increasingly becoming the currency for documenting biodiversity on the planet, providing novel opportunities for accelerating scientific discoveries in the field of organismal biology, especially with the advent of large vision-language models (VLMs). We ask if pre-trained VLMs can aid scientists in answering a range of biologically relevant questions without any additional fine-tuning. In this paper, we evaluate the effectiveness of 12 state-of-the-art (SOTA) VLMs in the field of organismal biology using a novel dataset, VLM4Bio, consisting of 469K question-answer pairs involving 30K images from three groups of organisms: fishes, birds, and butterflies, covering five biologically relevant tasks. We also explore the effects of applying prompting techniques and tests for reasoning hallucination on the performance of VLMs, shedding new light on the capabilities of current SOTA VLMs in answering biologically relevant questions using images. The code and datasets for running all the analyses reported in this paper can be found at https://github.com/sammarfy/VLM4Bio.
翻訳日:2024-08-30 15:25:12 公開日:2024-08-28
# 自動運転における3次元物体検出の総合的展望:技術進歩と今後の方向性

A Comprehensive Review of 3D Object Detection in Autonomous Driving: Technological Advances and Future Directions ( http://arxiv.org/abs/2408.16530v1 )

ライセンス: Link先を確認
Yu Wang, Shaohua Wang, Yicheng Li, Mingchun Liu, (参考訳) 近年,3次元物体認識は自律走行システムの発展において重要な要素となり,環境意識に欠かせないものとなっている。 しかし、自律運転における知覚タスクが進化するにつれて、そのバリエーションが増加し、産業や学界からの多様な洞察がもたらされる。 現在、これらの認識タスクとその開発をより広い視点から収集し、まとめる包括的な調査が欠如しています。 本稿では,カメラベース,LiDARベース,核融合検出技術を中心に,従来の3次元物体検出手法を概説する。 それぞれのアプローチの強みと限界を包括的に分析し、精度と堅牢性の向上を強調します。 さらに、時間知覚、占有グリッド、エンドツーエンド学習フレームワークなどの精度向上手法を含む今後の方向性についても論じる。 また,協調コミュニケーションを通じて知覚範囲を拡大する協調認識手法についても検討する。 本研究では,3次元物体知覚における現状と今後の展開の全体像を提供することにより,自律運転における知覚タスクのより包括的な理解の実現を目指す。 https://github.com/Fishsoup0/Autonomous-Driving-Perception.comでアクセスできます。

In recent years, 3D object perception has become a crucial component in the development of autonomous driving systems, providing essential environmental awareness. However, as perception tasks in autonomous driving evolve, their variants have increased, leading to diverse insights from industry and academia. Currently, there is a lack of comprehensive surveys that collect and summarize these perception tasks and their developments from a broader perspective. This review extensively summarizes traditional 3D object detection methods, focusing on camera-based, LiDAR-based, and fusion detection techniques. We provide a comprehensive analysis of the strengths and limitations of each approach, highlighting advancements in accuracy and robustness. Furthermore, we discuss future directions, including methods to improve accuracy such as temporal perception, occupancy grids, and end-to-end learning frameworks. We also explore cooperative perception methods that extend the perception range through collaborative communication. By providing a holistic view of the current state and future developments in 3D object perception, we aim to offer a more comprehensive understanding of perception tasks for autonomous driving. Additionally, we have established an active repository to provide continuous updates on the latest advancements in this field, accessible at: https://github.com/Fishsoup0/Autonomous-Driving-Perception.
翻訳日:2024-08-30 13:42:55 公開日:2024-08-28
# ポース推定器はオープンワールドに向けて準備が整っているか?STAGE:3次元人間のポース推定器を監査するための合成データ生成ツールキット

Are Pose Estimators Ready for the Open World? STAGE: Synthetic Data Generation Toolkit for Auditing 3D Human Pose Estimators ( http://arxiv.org/abs/2408.16536v1 )

ライセンス: Link先を確認
Nikita Kister, István Sárándi, Anna Khoreva, Gerard Pons-Moll, (参考訳) 画像から3Dの人間のポーズを推定する手法は、標準ベンチマークで測定されたように、ここ数年で飛躍的に進歩している。 しかしながら、現在のベンチマークではその全範囲を把握できないため、オープンな世界のパフォーマンスはいまだに過小評価されている。 特に安全クリティカルなシステムでは,3次元ポーズ推定装置を配備前に監査し,運用領域で発生する単一要因や属性に対する感度を徹底的に検討することが重要である。 それでも現時点では、このようなきめ細かい分析を可能にするベンチマークが欠落しています。 そこで我々は,3次元ポーズ推定器を監査するGenAIデータツールキットSTAGEを提案する。 我々は、テキスト・ツー・イメージ・モデルを用いて、生成された画像中の3次元人体ポーズを制御する。 これにより、さまざまなオープンワールド属性をカバーする、カスタマイズされた注釈付きデータを作成することができます。 我々はSTAGEを利用して、性別、民族、年齢、衣服、場所、天候などの属性に対する人気のポーズ推定者の感度を評価するために、一連のベンチマークを生成する。 以上の結果から, 自然発生属性の存在は, ポーズ推定器の性能を著しく低下させ, オープンワールド展開の準備が整ったかどうかを問うことができることがわかった。

The estimation of 3D human poses from images has progressed tremendously over the last few years as measured on standard benchmarks. However, performance in the open world remains underexplored, as current benchmarks cannot capture its full extent. Especially in safety-critical systems, it is crucial that 3D pose estimators are audited before deployment, and their sensitivity towards single factors or attributes occurring in the operational domain is thoroughly examined. Nevertheless, we currently lack a benchmark that would enable such fine-grained analysis. We thus present STAGE, a GenAI data toolkit for auditing 3D human pose estimators. We enable a text-to-image model to control the 3D human body pose in the generated image. This allows us to create customized annotated data covering a wide range of open-world attributes. We leverage STAGE and generate a series of benchmarks to audit the sensitivity of popular pose estimators towards attributes such as gender, ethnicity, age, clothing, location, and weather. Our results show that the presence of such naturally occurring attributes can cause severe degradation in the performance of pose estimators and leads us to question if they are ready for open-world deployment.
翻訳日:2024-08-30 13:33:01 公開日:2024-08-28
# TREC 2021ディープラーニングトラックにおけるPASH:多段階ランキング生成モデル

PASH at TREC 2021 Deep Learning Track: Generative Enhanced Model for Multi-stage Ranking ( http://arxiv.org/abs/2205.11245v4 )

ライセンス: Link先を確認
Yixuan Qiao, Hao Chen, Jun Wang, Tuozhen Liu, Xianbin Ye, Xin Tang, Rui Fang, Peng Gao, Wenfeng Xie, Guotong Xie, (参考訳) 本稿では,TREC 2021 Deep Learning TrackにおけるPASHの参加について述べる。 リコール段階ではスパース法と高密度検索法を組み合わせたスキームを採用する。 多段階ランキングフェーズでは、一般知識と文書レベルのデータに基づいて事前訓練されたモデル継続に基づいて、ポイントワイドとペアワイドのランキング戦略が次々に使用される。 TREC 2020 Deep Learning Trackと比較して、我々はさらにパフォーマンスを向上させるため、生成モデルT5も導入した。

This paper describes the PASH participation in TREC 2021 Deep Learning Track. In the recall stage, we adopt a scheme combining sparse and dense retrieval method. In the multi-stage ranking phase, point-wise and pair-wise ranking strategies are used one after another based on model continual pre-trained on general knowledge and document-level data. Compared to TREC 2020 Deep Learning Track, we have additionally introduced the generative model T5 to further enhance the performance.
翻訳日:2024-08-29 21:50:55 公開日:2024-08-28
# 動的グラフニューラルネットワークを含むマーク付きニューラル時空間過程

Marked Neural Spatio-Temporal Point Process Involving a Dynamic Graph Neural Network ( http://arxiv.org/abs/2206.03469v2 )

ライセンス: Link先を確認
Alice Moallemy-Oureh, Silvia Beddar-Wiesing, Yannick Nagel, Rüdiger Nather, Josephine M. Thomas, (参考訳) 時間的ポイントプロセス(TPP)は近年,グラフデータの動的学習においてますます興味深いものになりつつある。 その理由は、数学、生物学、社会科学、物理学からコンピュータ科学まで、多くの科学分野からのデータが自然に関連付けられ、本質的に動的であるからである。 さらに、TPPはイベントストリームの有意義な特徴付けと、将来のイベントの予測メカニズムを提供する。 したがって、(半)パラメータ化されたニューラルTPPは(部分的に)学習可能なので、より複雑な現象の表現を可能にする。 しかし、TPPを用いた動的グラフのモデリングに関する研究は比較的若く、ノード属性の変化やエッジの進化に関するモデルはまだいくつか提案されていない。 完全動的グラフストリーム(すなわちノード/エッジの付加・削除)とノード/エッジ属性で変化するグラフを学習できるようにするため,マーク付きニューラル時空間点プロセス(MNSTPP)を提案する。 動的グラフニューラルネットワークを活用して、属性と空間データを処理するマーク付きTPPを学び、グラフストリーム内の任意のイベントをモデル化して予測する。

Temporal Point Processes (TPPs) have recently become increasingly interesting for learning dynamics in graph data. A reason for this is that learning on dynamic graph data is becoming more relevant, since data from many scientific fields, ranging from mathematics, biology, social sciences, and physics to computer science, is naturally related and inherently dynamic. In addition, TPPs provide a meaningful characterization of event streams and a prediction mechanism for future events. Therefore, (semi-)parameterized Neural TPPs have been introduced whose characterization can be (partially) learned and, thus, enable the representation of more complex phenomena. However, the research on modeling dynamic graphs with TPPs is relatively young, and only a few models for node attribute changes or evolving edges have been proposed yet. To allow for learning on fully dynamic graph streams, i.e., graphs that can change in their structure (addition/deletion of nodes/edge) and in their node/edge attributes, we propose a Marked Neural Spatio-Temporal Point Process (MNSTPP). It leverages a Dynamic Graph Neural Network to learn a Marked TPP that handles attributes and spatial data to model and predict any event in a graph stream.
翻訳日:2024-08-29 21:50:55 公開日:2024-08-28
# 電場及び磁場中における平面ゲルマニウムホール量子ビットのモデリング

Modelling of planar germanium hole qubits in electric and magnetic fields ( http://arxiv.org/abs/2208.04795v2 )

ライセンス: Link先を確認
Chien-An Wang, Ercan Ekmel, Mark Gyure, Giordano Scappucci, Menno Veldhorst, Maximilian Rimbach-Russ, (参考訳) 歪んだ平面ゲルマニウム量子井戸のホールベースのスピン量子ビットは、その好ましい性質と顕著な実験的進歩のためにかなりの注目を集めている。 この構造における大きなスピン軌道相互作用は、電場による効率的な量子ビット演算を可能にする。 しかし、量子ビットを電気ノイズに結合する。 本研究では、これらのホールスピン量子ビットを包含するヘテロ構造のシミュレーションを行う。 現実的なヘテロ構造に対する有効質量方程式を解き、解析的基底波動関数のセットを提供し、重孔基底状態の有効g因子を計算する。 我々の研究は、量子井戸の外にある非常に励起的な光ホール状態がg因子に強い影響を与えることを明らかにしている。 平面外磁界に対するスイートスポット, 電荷ノイズの影響を受けにくい操作点が, 急激な大きさの電場にシフトしていることが判明した。 しかし、面内アライメントに近い磁場では、低電界における部分的なスイートスポットが回収される。 さらに、磁場アライメントの異なる状況下では、複数のゆらぎ電荷トラップに対するスイートスポットを見つけることができる。 この研究はゲルマニウムホールスピン量子ビットのコヒーレンスを理解するのに役立つ。

Hole-based spin qubits in strained planar germanium quantum wells have received considerable attention due to their favourable properties and remarkable experimental progress. The sizeable spin-orbit interaction in this structure allows for efficient qubit operations with electric fields. However, it also couples the qubit to electrical noise. In this work, we perform simulations of a heterostructure hosting these hole spin qubits. We solve the effective mass equations for a realistic heterostructure, provide a set of analytical basis wave functions, and compute the effective g-factor of the heavy-hole ground-state. Our investigations reveal a strong impact of highly excited light-hole states located outside the quantum well on the g-factor. We find that sweet spots, points of operations that are least susceptible to charge noise, for out-of-plane magnetic fields are shifted to impractically large electric fields. However, for magnetic fields close to in-plane alignment, partial sweet spots at low electric fields are recovered. Furthermore, sweet spots with respect to multiple fluctuating charge traps can be found under certain circumstances for different magnetic field alignments. This work will be helpful in understanding and improving coherence of germanium hole spin qubits.
翻訳日:2024-08-29 21:50:55 公開日:2024-08-28
# ドローンのローカライゼーション:UAV自己ローカライゼーションのための効率的な不均一空間特徴相互作用法

Drone Referring Localization: An Efficient Heterogeneous Spatial Feature Interaction Method For UAV Self-Localization ( http://arxiv.org/abs/2208.06561v3 )

ライセンス: Link先を確認
Ming Dai, Enhui Zheng, Jiahao Chen, Lei Qi, Zhenhua Feng, Wankou Yang, (参考訳) 画像検索(IR)は無人航空機(UAV)における自己ローカライゼーションのための有望なアプローチとして浮上している。 しかし、IRベースの手法はいくつかの課題に直面している。 1)前処理及び後処理は,重要な計算及び記憶上のオーバーヘッドを引き起こす。 2) 二重音源間の相互作用の欠如は, 正確な空間知覚を損なう。 本稿では,衛星画像中のUAVビュー画像をローカライズすることを目的とした,Drone Referring Localization (DRL) と呼ばれる,効率的な異種空間特徴相互作用手法を提案する。 異なるデータソースを分離して扱う従来の方法とは異なり、DRLは異種特徴の学習可能な相互作用を促進する。 提案するDRLを実装するために,2つのトランスフォーマーベースのフレームワークであるPost-FusionとMix-Fusionを設計し,エンドツーエンドのトレーニングと推論を可能にする。 さらに,ペアデータの拡大と,正と負のサンプル重みのバランスの最適化のために,ランダムスケールトリミングと重みバランス損失手法を導入する。 さらに,新しいデータセットUL14を構築し,DRLフレームワークに適したベンチマークを確立する。 従来のIR法と比較して、DRLはより優れたローカライズ精度(MA@20 + 9.4\%)を実現し、計算時間(1/7)とストレージオーバーヘッド(1/3)を大幅に削減した。 データセットとコードは公開されます。 データセットとコードは \url{https://github.com/Dmmm 1997/DRL} で公開されている。

Image retrieval (IR) has emerged as a promising approach for self-localization in unmanned aerial vehicles (UAVs). However, IR-based methods face several challenges: 1) Pre- and post-processing incur significant computational and storage overhead; 2) The lack of interaction between dual-source features impairs precise spatial perception. In this paper, we propose an efficient heterogeneous spatial feature interaction method, termed Drone Referring Localization (DRL), which aims to localize UAV-view images within satellite imagery. Unlike conventional methods that treat different data sources in isolation, followed by cosine similarity computations, DRL facilitates the learnable interaction of heterogeneous features. To implement the proposed DRL, we design two transformer-based frameworks, Post-Fusion and Mix-Fusion, enabling end-to-end training and inference. Furthermore, we introduce random scale cropping and weight balance loss techniques to augment paired data and optimize the balance between positive and negative sample weights. Additionally, we construct a new dataset, UL14, and establish a benchmark tailored to the DRL framework. Compared to traditional IR methods, DRL achieves superior localization accuracy (MA@20 +9.4\%) while significantly reducing computational time (1/7) and storage overhead (1/3). The dataset and code will be made publicly available. The dataset and code are available at \url{https://github.com/Dmmm1997/DRL} .
翻訳日:2024-08-29 21:50:55 公開日:2024-08-28
# Reproducibility-Oriented and Privacy-Preserving Genomic Dataset Sharing

Reproducibility-Oriented and Privacy-Preserving Genomic Dataset Sharing ( http://arxiv.org/abs/2209.06327v5 )

ライセンス: Link先を確認
Yuzhou Jiang, Tianxi Ji, Pan Li, Erman Ayday, (参考訳) 近年、ゲノム研究が広まってきており、ゲノム記録に関するプライバシー上の懸念からデータセットを共有している研究はほとんどない。 これにより、研究プロセス中にエラー、例えば誤計算をキャッチするために不可欠な研究成果の再現と検証が妨げられる。 ゲノムワイド・アソシエーション・スタディ(GWAS)の結果の再現性問題に対処するため,ゲノムデータセットを共有するための差分プライバシーに基づくスキームを含む革新的な手法を提案する。 提案手法には2つの段階がある。 最初の段階では、二項化(符号化)されたデータセットに対して、前述したXOR機構の最適化版を適用し、二項化ノイズ生成が生物学的特徴を考慮することにより、ターゲットデータセットのノイズの多いコピーを生成する。 しかし、最初のステップでは大きなノイズが発生し、データセットは直接GWAS結果の検証に適さない。 そこで、第2段階では、ノイズデータセット内の最小アレル周波数値(MAF)を調整し、最適な輸送手段を用いて公共MAF情報とより密に一致させ、ゲノム空間に復号するポストプロセッシング手法を実装した。 提案手法を3つの実生活ゲノムデータセット上で評価し,GWAS結果の検証,データの有用性,およびMIAに対する耐性に関して,ベースラインアプローチ(ローカル差分プライバシー)と2つの合成ベースソリューションと比較した。 提案手法は, GWAS結果の誤り検出における他の手法よりも優れ, 有効性が向上し, メンバーシップ推論攻撃(MIA)に対するプライバシー保護が向上することを示す。 この手法を利用することで、ゲノム研究者は、データセットの高品質なバージョンを、相違なくプライベートに共有する傾向にある。

As genomic research has become increasingly widespread in recent years, few studies have shared datasets due to the privacy concerns about the genomic records. This hinders the reproduction and validation of research outcomes, which are crucial for catching errors, e.g., miscalculations, during the research process. To address the reproducibility issue of genome-wide association studies (GWAS) outcomes, we propose an innovative method that involves a differential privacy-based scheme for sharing genomic datasets. The proposed scheme involves two stages. In the first stage, we generate a noisy copy of the target dataset by applying an optimized version of a previously proposed XOR mechanism on the binarized (encoded) dataset, where the binary noise generation considers biological features. However, the initial step introduces significant noise, making the dataset less suitable for direct GWAS outcome validation. Thus, in the second stage, we implement a post-processing technique that adjusts the Minor Allele Frequency values (MAFs) in the noisy dataset to align more closely with public MAF information using optimal transport, and then decode it back to genomic space. We evaluate the proposed scheme on three real-life genomic datasets and compare it with a baseline approach (local differential privacy) and two synthesis-based solutions with regard to GWAS outcome validation, data utility, and resistance against membership inference attacks (MIAs). We show that our proposed scheme outperforms all other methods in detecting GWAS outcome errors, achieves better utility, and provides higher privacy protection against membership inference attacks (MIAs). By utilizing our method, genomic researchers will be inclined to share a differentially private, yet of high quality version of their datasets.
翻訳日:2024-08-29 21:50:55 公開日:2024-08-28
# 高次元不足データに対するリプシッツ規則化勾配流と生成粒子アルゴリズム

Lipschitz-regularized gradient flows and generative particle algorithms for high-dimensional scarce data ( http://arxiv.org/abs/2210.17230v4 )

ライセンス: Link先を確認
Hyemin Gu, Panagiota Birmpa, Yannis Pantazis, Luc Rey-Bellet, Markos A. Katsoulakis, (参考訳) そこで我々は,高次元データから任意の対象分布を効率よく学習し,新しいサンプルを生成できる新しい生成アルゴリズムを構築した。 これらの生成アルゴリズムは粒子ベースであり、Lipschitz-regularized Kullback-Leiblerなどの$f$-divergencesの勾配流として構築される。 データ統合において強調された結果として、提案アルゴリズムは、通常、サンプルサイズが数百に限られているのに対して、54K以上の遺伝子発現データポイントを正しく輸送することを示した。

We build a new class of generative algorithms capable of efficiently learning an arbitrary target distribution from possibly scarce, high-dimensional data and subsequently generate new samples. These generative algorithms are particle-based and are constructed as gradient flows of Lipschitz-regularized Kullback-Leibler or other $f$-divergences, where data from a source distribution can be stably transported as particles, towards the vicinity of the target distribution. As a highlighted result in data integration, we demonstrate that the proposed algorithms correctly transport gene expression data points with dimension exceeding 54K, while the sample size is typically only in the hundreds.
翻訳日:2024-08-29 21:50:55 公開日:2024-08-28
# リレーショナル・リカレント・ユニット:時系列データの予測性能向上のための新しいニューラル・アーキテクチャ

Correlation recurrent units: A novel neural architecture for improving the predictive performance of time-series data ( http://arxiv.org/abs/2211.16653v3 )

ライセンス: Link先を確認
Sunghyun Sim, Dohee Kim, Hyerim Bae, (参考訳) 時系列予測(TSF)問題は、人工知能分野における伝統的な問題である。 Recurrent Neural Network(RNN)、Long Short Term Memory(LSTM)、GRU(Gate Recurrent Units)といったモデルは、TSFの予測精度の向上に寄与している。 さらに,Loses (STL) を用いた季節差分解などの時系列分解手法を組み合わせることにより,予測精度を向上させるモデル構造が提案されている。 しかし、このアプローチは各コンポーネントの独立したモデルで学習されるため、時系列コンポーネント間の関係を学習することはできない。 本研究では,ニューラルネットワーク内で時系列分解を行い,各分解成分間の相関関係(自己相関と相関関係)を学習できる相関リカレントユニット(CRU)を提案する。 提案したニューラルネットワークは、5つの単変量時系列データセットと4つの多変量時系列データを用いて、以前の研究との比較実験により評価された。 その結果,長期・短期予測性能は10%以上向上した。 実験の結果,提案したCRUは,他のニューラルネットワークと比較して,TSF問題に優れた手法であることがわかった。

The time-series forecasting (TSF) problem is a traditional problem in the field of artificial intelligence. Models such as Recurrent Neural Network (RNN), Long Short Term Memory (LSTM), and GRU (Gate Recurrent Units) have contributed to improving the predictive accuracy of TSF. Furthermore, model structures have been proposed to combine time-series decomposition methods, such as seasonal-trend decomposition using Loess (STL) to ensure improved predictive accuracy. However, because this approach is learned in an independent model for each component, it cannot learn the relationships between time-series components. In this study, we propose a new neural architecture called a correlation recurrent unit (CRU) that can perform time series decomposition within a neural cell and learn correlations (autocorrelation and correlation) between each decomposition component. The proposed neural architecture was evaluated through comparative experiments with previous studies using five univariate time-series datasets and four multivariate time-series data. The results showed that long- and short-term predictive performance was improved by more than 10%. The experimental results show that the proposed CRU is an excellent method for TSF problems compared to other neural architectures.
翻訳日:2024-08-29 21:50:55 公開日:2024-08-28
# 量子チャネルの最小出力レニイpエントロピーの付加性に対する新しい構成的反例

New constructive counterexamples to additivity of minimum output Rényi p-entropy of quantum channels ( http://arxiv.org/abs/2301.07428v3 )

ライセンス: Link先を確認
Krzysztof Szczygielski, Michał Studziński, (参考訳) 本稿では、対応する最小出力 R\'enyi $p$-entropy が加法的でない量子チャネルの新しい族を示す。 我々の写本はGrudka et al , J. Physの成果によって動機付けられている。 A: 数学。 Theor 43 425304 であり、$\mathbb{C}^d \otimes \mathbb{C}^d$ の反対称部分空間の拡張と部分空間によって特徴づけられるチャネルに焦点をあてる。

In this paper, we present new families of quantum channels for which corresponding minimum output R\'enyi $p$-entropy is not additive. Our manuscript is motivated by the results of Grudka et al., J. Phys. A: Math. Theor. 43 425304 and we focus on channels characterized by both extensions and subspaces of the antisymmetric subspace in $\mathbb{C}^d \otimes \mathbb{C}^d$, which exhibit additivity breaking for $p>2$.
翻訳日:2024-08-29 21:50:55 公開日:2024-08-28
# 光の量子状態に対する複素数値非ガウス性測度の可能性を探る

Exploring the possibility of a complex-valued non-Gaussianity measure for quantum states of light ( http://arxiv.org/abs/2303.00880v3 )

ライセンス: Link先を確認
Andrew J. Pizzimenti, Prajit Dhara, Zacharie Van Herstraeten, Sijie Cheng, Christos N. Gagatsos, (参考訳) 一般ウィグナー函数とガウス函数の間の微分相対エントロピーである量を考える。 ウィグナー微分エントロピーの議論におけるウィグナー函数が同じ第1と第2のモーメント、すなわち、ガウスの議論が他の一般ウィグナー函数のガウス的関連であるなら、その量はそのガウス的議論に対して最小化されることを証明している。 したがって、任意のウィグナー函数とそのガウス級数の間の微分相対エントロピーを導入し、そのポテンシャルを非ガウス性測度として検討する。 この量はガウスユニタリ演算の下で不変であり忠実であることが証明され、ガウスチャネルの下での単調な振る舞いに十分条件を見出す。 上記の状態を裏付ける数値結果を提供する。 提案した位相空間に基づく非ガウス性測度は複素数値であり、その虚部はウィグナー関数の負体積の物理的意味を持つ。 同時に、この測度の実部は余分な情報層を提供し、複素数値の量はウィグナー函数の負性のみに関連する量ではなく、非ガウス性の測度となる。 部分測定による非ガウス量子状態工学への我々の測定の有用性について検討する。

We consider a quantity that is the differential relative entropy between a generic Wigner function and a Gaussian one. We prove that said quantity is minimized with respect to its Gaussian argument, if both Wigner functions in the argument of the Wigner differential entropy have the same first and second moments, i.e., if the Gaussian argument is the Gaussian associate of the other, generic Wigner function. Therefore, we introduce the differential relative entropy between any Wigner function and its Gaussian associate and we examine its potential as a non-Gaussianity measure. We prove that said quantity is faithful, invariant under Gaussian unitary operations, and find a sufficient condition on its monotonic behavior under Gaussian channels. We provide numerical results supporting aforesaid condition. The proposed, phase-space based non-Gaussianity measure is complex-valued, with its imaginary part possessing the physical meaning of the negative volume of the Wigner function. At the same time, the real part of this measure provides an extra layer of information, rendering the complex-valued quantity a measure of non-Gaussianity, instead of a quantity pertaining only to the negativity of the Wigner function. We examine the usefulness of our measure to non-Gaussian quantum state engineering with partial measurements.
翻訳日:2024-08-29 21:50:55 公開日:2024-08-28
# リカレントニューラルネットワークと物理共変量を用いた一組のPVシステムによる日内電力出力予測

Forecasting Intraday Power Output by a Set of PV Systems using Recurrent Neural Networks and Physical Covariates ( http://arxiv.org/abs/2303.08459v3 )

ライセンス: Link先を確認
Pierrick Bruneau, David Fiorelli, Christian Braun, Daniel Koster, (参考訳) PhotoVoltaic (PV) システムによって出力される電力の正確な日内予測は、エネルギー分配グリッドの動作を改善するために重要である。 このような日内予測の実現を目的とした神経自己回帰モデルについて述べる。 ニューラルネットワークのコンテキストにおける共変量として使用される物理的決定論的PV性能モデルを構築した。 さらに、アプリケーションデータは、地理的に分散したPVシステムの集合に関連している。 すべてのPVサイトを単一のニューラルモデルで処理し、PVサイトに関する情報を特定の共変量に埋め込む。 季節効果の明示的なモデリングに依存するスケールフリーな手法を用いる。 本提案では,当初小売業で使用されていたモデルを再活用し,新たなガウス出力分布を開示する。 論文からのアブレーション研究と代替アーキテクチャとの比較により、最高の性能のモデル変種作業のコンポーネントは、ベースラインとして使用される物理モデルに関して15.72%のスキルスコアに達するために相乗的に機能することが示されている。

Accurate intraday forecasts of the power output by PhotoVoltaic (PV) systems are critical to improve the operation of energy distribution grids. We describe a neural autoregressive model that aims to perform such intraday forecasts. We build upon a physical, deterministic PV performance model, the output of which is used as covariates in the context of the neural model. In addition, our application data relates to a geographically distributed set of PV systems. We address all PV sites with a single neural model, which embeds the information about the PV site in specific covariates. We use a scale-free approach which relies on the explicit modeling of seasonal effects. Our proposal repurposes a model initially used in the retail sector and discloses a novel truncated Gaussian output distribution. An ablation study and a comparison to alternative architectures from the literature shows that the components in the best performing proposed model variant work synergistically to reach a skill score of 15.72% with respect to the physical model, used as a baseline.
翻訳日:2024-08-29 21:50:55 公開日:2024-08-28
# エージェント型サイバー物理シミュレーションシステムのコンポーネント再利用性評価と要件追跡

Component reusability evaluation and requirement tracing for agent-based cyber-physical-simulated systems ( http://arxiv.org/abs/2303.09565v5 )

ライセンス: Link先を確認
Wojciech Dudek, Narcis Miguel, Tomasz Winiarski, (参考訳) 品質とコストに影響を与えるため、初期の設計概念を評価することが重要です。 このプロセスは、曖昧で不確実な設計情報によってしばしば妨げられる。 本稿では、SysMLベースのシミュレート・物理システムモデリング言語(SPSysML)について紹介する。 サイバー物理システムにおけるコンポーネントの再利用性を評価するために用いられ、デジタルツインやその他のシミュレートされた部品を組み込んだドメイン仕様言語である。 提案した因子は設計を定量的に評価する。 SPSysMLは要件ベースのシステム構造化手法を使用して、シミュレートされた部分と物理的部分とを要求と結合する。 SPSysMLは、DTが模擬世界で外因性行動を認識することを可能にする。 SPSysMLバリデーションはサーベイとアプリケーションベースである。 まず, 生活支援プロジェクトのためのロボットシステムの開発を行った。 SPSysMLに基づく定量的評価により,シミュレーションおよび物理部分の整合性を改善した。 したがって、シミュレートされた設定と物理的な設定の間でより多くのシステムコンポーネントが共有される。 このシステムは物理ロボットとロボットオペレーティング・システム(ROS)またはROS2に基づく2つのシミュレータに配備された。 SPSysMLは、サードパーティ開発者によって使用され、彼や他の実践者によって調査で評価された。

Evaluating early design concepts is crucial as it impacts quality and cost. This process is often hindered by vague and uncertain design information. This article introduces the SysML-based Simulated-Physical Systems Modeling Language (SPSysML). It is a Domain-Specification Language used to evaluate component reusability in cyber-physical systems, incorporating digital twins and other simulated parts. The proposed factors assess the design quantitatively. SPSysML uses a requirement-based system structuring method to couple simulated and physical parts with requirements. SPSysML enables DTs to perceive exogenous actions in the simulated world. SPSysML validation is survey- and application-based. First, a robotic system for an assisted living project was developed. The integrity of simulated and physical parts of the system is improved using SPSysML-based quantitative evaluation. Thus, more system components are shared between the simulated and physical setups. The system was deployed on the physical robot and two simulators based on the Robot Operating System (ROS) or ROS2. SPSysML was used by a third-party developer and was assessed by him and other practitioners in a survey.
翻訳日:2024-08-29 21:50:55 公開日:2024-08-28
# グラフ上のランダム逆問題に対する分散オンライン学習

Decentralized Online Learning for Random Inverse Problems Over Graphs ( http://arxiv.org/abs/2303.11789v8 )

ライセンス: Link先を確認
Tao Li, Xiwei Zhang, Yan Chen, (参考訳) 本稿では,ネットワークグラフ上の分散ランダム逆問題に対する分散化オンライン学習アルゴリズムを提案し,Hilbert空間における分散パラメータ推定とカーネルHilbert空間再現における最小二乗問題(RKHS-LMS)を統一する。 我々は、アルゴリズムの収束を、$L_{2}$-bounded martingale difference terms を持つヒルベルト空間における不均一なランダム差分方程式のクラスにおける漸近安定性に変換し、ヒルベルト空間における $L2$-asymptotic stability theory を開発する。 ネットワークグラフが連結され、フォワード演算子の列が励起条件の無限次元時空間持続性を満たすならば、全てのノードの推定は平均二乗であり、ほぼ確実に一致していることを示す。 さらに,RKHSにおける非定常オンラインデータストリームに基づく分散オンライン学習アルゴリズムを提案し,ランダム入力データによって誘導される演算子が励振条件の無限次元時空間持続性を満たす場合,そのアルゴリズムが平均二乗でほぼ確実に整合であることを証明した。

We propose a decentralized online learning algorithm for distributed random inverse problems over network graphs with online measurements, and unifies the distributed parameter estimation in Hilbert spaces and the least mean square problem in reproducing kernel Hilbert spaces (RKHS-LMS). We transform the convergence of the algorithm into the asymptotic stability of a class of inhomogeneous random difference equations in Hilbert spaces with $L_{2}$-bounded martingale difference terms and develop the $L_2$-asymptotic stability theory in Hilbert spaces. We show that if the network graph is connected and the sequence of forward operators satisfies the infinite-dimensional spatio-temporal persistence of excitation condition, then the estimates of all nodes are mean square and almost surely strongly consistent. Moreover, we propose a decentralized online learning algorithm in RKHS based on non-stationary online data streams, and prove that the algorithm is mean square and almost surely strongly consistent if the operators induced by the random input data satisfy the infinite-dimensional spatio-temporal persistence of excitation condition.
翻訳日:2024-08-29 21:40:54 公開日:2024-08-28
# 講演とバッジ: GitHubにおける個人的成果の探索的分析

A Lot of Talk and a Badge: An Exploratory Analysis of Personal Achievements in GitHub ( http://arxiv.org/abs/2303.14702v5 )

ライセンス: Link先を確認
Fabio Calefato, Luigi Quaranta, Filippo Lanubile, (参考訳) コンテキスト。 GitHubは、個人的成果を通じて新たなゲーミフィケーション要素を導入し、バッジをアンロックし、開発者個人のプロフィールページに表示し、開発活動を認識した。 目的。 本稿では,GitHubにおける個人用バッジの拡散を研究するための混合手法を用いた探索分析と,導入に対する効果と反応について述べる。 方法。 まず,6,000人以上の開発者から経年データのマイニングを行い,相関解析と回帰解析を行った。 そして、新しい機能の導入に対してコミュニティがどう反応したかを評価するために、個人的なバッジに関する300以上のGitHubコミュニティの議論を分析し、分析します。 結果。 ほとんどの開発者は少なくともバッジをサンプルにしているが、プロフィールを非公開にし、バッジを表示することをオプトアウトするユーザーの増加も観察している。 加えて、バッジは概して開発者の品質とタイムラインやコラボレーションへの欲求といった配置と相関が低い。 また、Starstruckバッジ(フォロワーの数を反映している)を除いて、その導入には効果がないこともわかりました。 最後に、コミュニティの反応は一般的に混ざり合っており、開発者は原則的にアピールするが、明確な目的を持たず、現在の形での彼らの能力をほとんど反映していない。 結論。 私たちは、ゲーミフィケーションメカニズムと開発者の評価のための信頼性の高い能力の源として、個人バッジの現在の実装を改善する方法について、GitHubプラットフォームデザイナにレコメンデーションを提供しています。

Context. GitHub has introduced a new gamification element through personal achievements, whereby badges are unlocked and displayed on developers' personal profile pages in recognition of their development activities. Objective. In this paper, we present an exploratory analysis using mixed methods to study the diffusion of personal badges in GitHub, in addition to the effects and reactions to their introduction. Method. First, we conduct an observational study by mining longitudinal data from more than 6,000 developers and performed correlation and regression analysis. Then, we conduct a survey and analyze over 300 GitHub community discussions on the topic of personal badges to gauge how the community responded to the introduction of the new feature. Results. We find that most of the developers sampled own at least a badge, but we also observe an increasing number of users who choose to keep their profile private and opt out of displaying badges. Besides, badges are generally poorly correlated with developers' qualities and dispositions such as timeliness and desire to collaborate. We also find that, except for the Starstruck badge (reflecting the number of followers), their introduction does not have an effect. Finally, the reaction of the community has been in general mixed, as developers find them appealing in principle but without a clear purpose and hardly reflecting their abilities in the current form. Conclusions. We provide recommendations to GitHub platform designers on how to improve the current implementation of personal badges as both a gamification mechanism and as sources of reliable cues of ability for developers' assessment
翻訳日:2024-08-29 21:40:54 公開日:2024-08-28
# テレビ局「Chop Chop」: ビザンティン・アトミック・ブロードキャストのネットワーク制限

Chop Chop: Byzantine Atomic Broadcast to the Network Limit ( http://arxiv.org/abs/2304.07081v2 )

ライセンス: Link先を確認
Martina Camaioni, Rachid Guerraoui, Matteo Monti, Pierre-Louis Roman, Manuel Vidigueira, Gauthier Voron, (参考訳) ステートマシンレプリケーションの中心にある、分散化されたセキュアなユニバーサル計算を可能にする著名な技術は、メッセージの順序付け、認証、復号化を行う基本的な通信プリミティブであるAtomic Broadcastにある。 本稿では,新しい認証メモリプールを用いて,メッセージの順序付け,認証,復号化,"ラインレート"(命令,認証,ビザンチンのレジリエンスを保証しないプロトコルの複雑さを8バイトで処理するプロトコル)の達成のコストを補正する,ビザンチンの原子力放送システムであるChop Chopについて述べる。 チョップチョップは蒸留と呼ばれる新しいバッチ処理によってこの性能を得る。 蒸留されたバッチは、認証、復号化、順序付けが高速なメッセージの集合である。 バッチは、クライアントとサーバ間のプロセスを容易にするための信頼できないレイヤであるブローカを含む、新しいインタラクティブプロトコルを使用して蒸留される。 64台の中規模サーバの地理的分散デプロイメントでは、Chop Chopは平均3.6秒で毎秒43,600,000メッセージを処理する。 同じ条件下では、最先端の代替手段は、同じレイテンシに対して2桁のスループットを最大で提供します。 ペイメントシステム、オークションハウス、Pixel Warという3つの単純なチョップチョップアプリケーションを紹介します。

At the heart of state machine replication, the celebrated technique enabling decentralized and secure universal computation, lies Atomic Broadcast, a fundamental communication primitive that orders, authenticates, and deduplicates messages. This paper presents Chop Chop, a Byzantine Atomic Broadcast system that uses a novel authenticated memory pool to amortize the cost of ordering, authenticating and deduplicating messages, achieving "line rate" (i.e., closely matching the complexity of a protocol that does not ensure any ordering, authentication or Byzantine resilience) even when processing messages as small as 8 bytes. Chop Chop attains this performance by means of a new form of batching we call distillation. A distilled batch is a set of messages that are fast to authenticate, deduplicate, and order. Batches are distilled using a novel interactive protocol involving brokers, an untrusted layer of facilitating processes between clients and servers. In a geo-distributed deployment of 64 medium-sized servers, Chop Chop processes 43,600,000 messages per second with an average latency of 3.6 seconds. Under the same conditions, state-of-the-art alternatives offer two orders of magnitude less throughput for the same latency. We showcase three simple Chop Chop applications: a Payment system, an Auction house and a "Pixel war" game, respectively achieving 32, 2.3 and 35 million operations per second.
翻訳日:2024-08-29 21:40:54 公開日:2024-08-28
# 自律運転に向けた効果的なSim2Real転送のためのプラットフォームに依存しない深層強化学習フレームワーク

A Platform-Agnostic Deep Reinforcement Learning Framework for Effective Sim2Real Transfer towards Autonomous Driving ( http://arxiv.org/abs/2304.08235v3 )

ライセンス: Link先を確認
Dianzhao Li, Ostap Okhrin, (参考訳) 深層強化学習(DRL)は、様々な研究分野における複雑な課題の解決に顕著な成功を収めている。 しかし、シミュレーションと現実の間に大きな違いがあるため、DRLエージェントを現実世界に移すことは依然として困難である。 この問題に対処するために、プラットフォームに依存した認識モジュールを活用してタスク関連情報を抽出し、車線追従エージェントをシミュレーションで訓練する頑健なDRLフレームワークを提案する。 このフレームワークは、DRLエージェントを最小限の労力で、新しいシミュレーション環境と現実世界にシームレスに転送することを可能にする。 シミュレーションおよび実世界における各種運転シナリオにおけるエージェントの性能評価を行い,シミュレーションにおける人間プレイヤーとPIDベースラインとの比較を行った。 提案手法は,異なるプラットフォームとSim2Realのギャップを著しく減らし,シミュレーションと実環境の両方で同様の性能を実現し,車両を効果的に駆動する。

Deep Reinforcement Learning (DRL) has shown remarkable success in solving complex tasks across various research fields. However, transferring DRL agents to the real world is still challenging due to the significant discrepancies between simulation and reality. To address this issue, we propose a robust DRL framework that leverages platform-dependent perception modules to extract task-relevant information and train a lane-following and overtaking agent in simulation. This framework facilitates the seamless transfer of the DRL agent to new simulated environments and the real world with minimal effort. We evaluate the performance of the agent in various driving scenarios in both simulation and the real world, and compare it to human players and the PID baseline in simulation. Our proposed framework significantly reduces the gaps between different platforms and the Sim2Real gap, enabling the trained agent to achieve similar performance in both simulation and the real world, driving the vehicle effectively.
翻訳日:2024-08-29 21:40:54 公開日:2024-08-28
# 一般非一様超グラフ確率ブロックモデルにおける最適かつ正確な回復

Optimal and exact recovery on general non-uniform Hypergraph Stochastic Block Model ( http://arxiv.org/abs/2304.13139v3 )

ライセンス: Link先を確認
Ioana Dumitriu, Haixiao Wang, (参考訳) 非一様ハイパーグラフ確率ブロックモデル(HSBM)に基づくランダムハイパーグラフのコミュニティ検出問題を考える。 我々は,本論文において,この非一様の場合において,厳密な回復のための鋭いしきい値を確立し,特に,複数のコミュニティを持つモデルについて検討する。 ここでの重要なポイントは、すべての均一なレイヤから情報を集約することで、各レイヤが単独で考慮されたとしても、それが不可能に見える場合であっても、正確なリカバリが得られるということです。 さらに、モデルパラメータを含む \emph{ Generalized Chernoff-Hellinger} の発散に依存して、誤分類された頂点数 \emph{for any algorithm} に対する広範かつ情報理論的な下界を証明した。 しきい値を超えると正確なリカバリを達成でき、正確なリカバリが不可能な場合には最小のミスマッチ比が得られる2つの効率的なアルゴリズムが最適であることが証明された。 我々のアルゴリズムの理論的解析は、非一様ランダムハイパーグラフに対する隣接行列の濃度と正規化に依存しており、これは独立な関心を持つ可能性がある。 またパラメータの知識と推定に関するオープンな問題にも対処する。

Consider the community detection problem in random hypergraphs under the non-uniform hypergraph stochastic block model (HSBM), where each hyperedge appears independently with some given probability depending only on the labels of its vertices. We establish, for the first time in the literature, a sharp threshold for exact recovery under this non-uniform case, subject to minor constraints; in particular, we consider the model with multiple communities. One crucial point here is that by aggregating information from all the uniform layers, we may obtain exact recovery even in cases when this may appear impossible if each layer were considered alone. Besides that, we prove a wide-ranging, information-theoretic lower bound on the number of misclassified vertices \emph{for any algorithm}, depending on a \emph{generalized Chernoff-Hellinger} divergence involving model parameters. We provide two efficient algorithms which successfully achieve exact recovery when above the threshold, and attain the lowest possible mismatch ratio when the exact recovery is impossible, proved to be optimal. The theoretical analysis of our algorithms relies on the concentration and regularization of the adjacency matrix for non-uniform random hypergraphs, which could be of independent interest. We also address some open problems regarding parameter knowledge and estimation.
翻訳日:2024-08-29 21:40:54 公開日:2024-08-28
# 絡み合いに基づく量子ネットワークにおけるノイズの影響

Influence of noise in entanglement-based quantum networks ( http://arxiv.org/abs/2305.03759v2 )

ライセンス: Link先を確認
Maria Flors Mor-Ruiz, Wolfgang Dür, (参考訳) マルチパーティントなリソース状態がノード間で分散して格納され、要求に応じて局所的に操作され、所望の目標設定が確立される、絡み合いに基づく量子ネットワークを考える。 リクエストから生成プロセスを分離することで、リソースの事前準備が可能になり、ネットワーク遅延が減少する。 また、基礎となるネットワーク幾何学とは無関係な絡み合いトポロジーの最適化も可能である。 我々は、任意の当事者間でベルペアまたはGHZ状態を確立することに集中する。 この過程における雑音の影響について検討し, 状態準備, 記憶, 測定における不完全性について考察する。 我々は、線形鎖、木、多次元矩形クラスターに対応する異なる資源状態と、二分格子あるいは三分格子の絡み合った状態を用いた集中トポロジーを比較した。 我々は、最近確立された効率的な手法、雑音安定化形式を用いて目標状態の忠実度を計算し、これらのクラスの中で最高の資源状態を特定する。 これにより、数百万のノードを含む大規模なネットワークを処理できます。 大規模ネットワークでは、高次元のクラスター状態が好適であり、ターゲット状態の忠実度が著しく高くなる。

We consider entanglement-based quantum networks, where multipartite entangled resource states are distributed and stored among the nodes and locally manipulated upon request to establish the desired target configuration. Separating the generation process from the requests enables a pre-preparation of resources, hence a reduced network latency. It also allows for an optimization of the entanglement topology, which is independent of the underlying network geometry. We concentrate on establishing Bell pairs or tripartite GHZ states between arbitrary parties. We study the influence of noise in this process, where we consider imperfections in state preparation, memories, and measurements - all of which can be modeled by local depolarizing noise. We compare different resource states corresponding to linear chains, trees, or multi-dimensional rectangular clusters, as well as centralized topologies using bipartite or tripartite entangled states. We compute the fidelity of the target states using a recently established efficient method, the noisy stabilizer formalism, and identify the best resource states within these classes. This allows us to treat networks of large size containing millions of nodes. We find that in large networks, high-dimensional cluster states are favorable and lead to a significantly higher target state fidelity.
翻訳日:2024-08-29 21:40:54 公開日:2024-08-28
# SCP:空中ビデオ行動認識のためのソフト・コンディショナル・プロンプト学習

SCP: Soft Conditional Prompt Learning for Aerial Video Action Recognition ( http://arxiv.org/abs/2305.12437v4 )

ライセンス: Link先を確認
Xijun Wang, Ruiqi Xian, Tianrui Guan, Fuxiao Liu, Dinesh Manocha, (参考訳) 本稿では,航空映像行動認識において,迅速な学習の強みを生かした新しい学習手法であるSoft Conditional Prompt Learning(SCP)を提案する。 本手法は,航空機/ロボットの視覚知覚のための入力ビデオにおける動作に関する記述や指示に,モデルが焦点を当てることによって,各エージェントの動作を予測するように設計されている。 我々の定式化は、学習可能なプロンプト、補助的な視覚情報、認識性能を改善するための大きな視覚モデルなど、様々なプロンプトをサポートする。 本稿では,映像入力の異なるプロンプト専門家のプールからプロンプトを動的に生成するソフト条件プロンプト法を提案する。 同じ目的をタスクと共有することにより、提案したSCPは、入力不変性(プロンプトエキスパートプール)と入力固有性(データ依存)のプロンプト知識を明示的に学習しながら、モデルの予測を導くプロンプトを最適化することができる。 実際には、単エージェントと複数エージェントのアクションからなるシーンからなる空中ビデオデータセット(Okutama, NECDrone)の3.17-10.2%の精度向上が観察されている。 さらに,地上カメラ映像に対するアプローチを評価し,その有効性と一般化を検証し,データセットSSV2の1.0~3.6%の改善を実現した。 当社のメソッドもROS2に統合しています。

We present a new learning approach, Soft Conditional Prompt Learning (SCP), which leverages the strengths of prompt learning for aerial video action recognition. Our approach is designed to predict the action of each agent by helping the models focus on the descriptions or instructions associated with actions in the input videos for aerial/robot visual perception. Our formulation supports various prompts, including learnable prompts, auxiliary visual information, and large vision models to improve the recognition performance. We present a soft conditional prompt method that learns to dynamically generate prompts from a pool of prompt experts under different video inputs. By sharing the same objective with the task, our proposed SCP can optimize prompts that guide the model's predictions while explicitly learning input-invariant (prompt experts pool) and input-specific (data-dependent) prompt knowledge. In practice, we observe a 3.17-10.2% accuracy improvement on the aerial video datasets (Okutama, NECDrone), which consist of scenes with single-agent and multi-agent actions. We further evaluate our approach on ground camera videos to verify the effectiveness and generalization and achieve a 1.0-3.6% improvement on dataset SSV2. We integrate our method into the ROS2 as well.
翻訳日:2024-08-29 21:40:54 公開日:2024-08-28
# NOVUM:ロバストオブジェクト分類のためのニューラルオブジェクトボリューム

NOVUM: Neural Object Volumes for Robust Object Classification ( http://arxiv.org/abs/2305.14668v4 )

ライセンス: Link先を確認
Artur Jesslen, Guofeng Zhang, Angtian Wang, Wufei Ma, Alan Yuille, Adam Kortylewski, (参考訳) オブジェクト分類の識別モデルは、通常、オブジェクトの合成と3Dの性質を捉えない画像に基づく表現を学習する。 本研究では,3次元合成対象表現を画像分類のためのディープネットワークに明示的に統合することにより,配布外シナリオの大幅な一般化が実現することを示す。 特に,対象対象クラス毎に特徴抽出器とニューラルオブジェクト容積からなる,NOVUMと呼ばれる新しいアーキテクチャを導入する。 それぞれの神経物体の体積は、特徴ベクトルを出力する3Dガウスの合成である。 この構成オブジェクト表現は、各カテゴリの3次元ガウス的特徴と入力画像から抽出された特徴とを独立にマッチングすることにより、オブジェクトクラスの非常に堅牢で高速な推定を可能にする。 さらに、対応するニューラルオブジェクトボリュームの逆レンダリングにより、オブジェクトのポーズを推定することができる。 物体の分類を可能にするために、各3次元ガウスの神経特徴を識別的に訓練して区別する。 (i)他のカテゴリーにおける3次元ガウシアンの特徴 (二)同じ対象の他の3次元ガウス的特徴及び (三)背景特徴 実験の結果、NOVUMは、オブジェクト表現の3次元構成構造、すなわち、実世界と合成外分布シフトのスペクトルにわたる例外的ロバスト性、および、標準モデルと比較して人間による解釈可能性の向上などにより、標準アーキテクチャよりも興味深い利点を提供する。

Discriminative models for object classification typically learn image-based representations that do not capture the compositional and 3D nature of objects. In this work, we show that explicitly integrating 3D compositional object representations into deep networks for image classification leads to a largely enhanced generalization in out-of-distribution scenarios. In particular, we introduce a novel architecture, referred to as NOVUM, that consists of a feature extractor and a neural object volume for every target object class. Each neural object volume is a composition of 3D Gaussians that emit feature vectors. This compositional object representation allows for a highly robust and fast estimation of the object class by independently matching the features of the 3D Gaussians of each category to features extracted from an input image. Additionally, the object pose can be estimated via inverse rendering of the corresponding neural object volume. To enable the classification of objects, the neural features at each 3D Gaussian are trained discriminatively to be distinct from (i) the features of 3D Gaussians in other categories, (ii) features of other 3D Gaussians of the same object, and (iii) the background features. Our experiments show that NOVUM offers intriguing advantages over standard architectures due to the 3D compositional structure of the object representation, namely: (1) An exceptional robustness across a spectrum of real-world and synthetic out-of-distribution shifts and (2) an enhanced human interpretability compared to standard models, all while maintaining real-time inference and a competitive accuracy on in-distribution data.
翻訳日:2024-08-29 21:40:54 公開日:2024-08-28
# 不均質ピアの影響下での個人的直接因果効果の推算

Inferring Individual Direct Causal Effects Under Heterogeneous Peer Influence ( http://arxiv.org/abs/2305.17479v3 )

ライセンス: Link先を確認
Shishir Adhikari, Elena Zheleva, (参考訳) ネットワークにおける因果推論は、ユニットの結果がピアの治療や結果に影響された場合に発生する干渉を考慮に入れなければならない。 不均一なピア・インフルエンス(HPI)は、ユニットの結果がそれぞれの属性や関係に基づいて異なるピアによって異なる影響を受けている場合や、各ユニットがピア・インフルエンスに対して異なる感受性を持つ場合に発生する。 干渉下での直接因果効果を推定する既存の解は、ピアからの均質な影響または特定の異質な影響機構(例えば、局所的な近傍構造に基づく)を考察する。 本稿では,HPIの存在下での直接因果効果を推定する手法を提案する。 本稿では,ネットワーク構造,干渉条件,因果関係に関する様々な仮定を把握し,HPIの存在下での識別可能性に関する推論を可能にするネットワークの構造因果モデルを提案する。 因果モデルを用いて、潜在的な異種コンテキストを見つけ、個別の因果効果を推定する新しいグラフニューラルネットワークに基づく推定器を提案する。 個人直接効果推定のための最先端手法は,HPIの存在下で偏りのある結果をもたらし,提案手法は頑健であることを示す。

Causal inference in networks should account for interference, which occurs when a unit's outcome is influenced by treatments or outcomes of peers. Heterogeneous peer influence (HPI) occurs when a unit's outcome is influenced differently by different peers based on their attributes and relationships, or when each unit has a different susceptibility to peer influence. Existing solutions to estimating direct causal effects under interference consider either homogeneous influence from peers or specific heterogeneous influence mechanisms (e.g., based on local neighborhood structure). This paper presents a methodology for estimating individual direct causal effects in the presence of HPI where the mechanism of influence is not known a priori. We propose a structural causal model for networks that can capture different possible assumptions about network structure, interference conditions, and causal dependence and enables reasoning about identifiability in the presence of HPI. We find potential heterogeneous contexts using the causal model and propose a novel graph neural network-based estimator to estimate individual direct causal effects. We show that state-of-the-art methods for individual direct effect estimation produce biased results in the presence of HPI, and that our proposed estimator is robust.
翻訳日:2024-08-29 21:40:54 公開日:2024-08-28
# チュートリアル:オープン量子系に対するマスター方程式への射影的アプローチ

Tutorial: projector approach to master equations for open quantum systems ( http://arxiv.org/abs/2305.19704v4 )

ライセンス: Link先を確認
C. Gonzalez-Ballestero, (参考訳) ほとんどの量子理論家は、ボルン・マルコフのマスター方程式や断熱的除去など、外部自由度と結合したシステムの効果的な量子力学を記述する様々な方法に精通している。 これらのメソッド間の深い関係を理解することは強力なツールであり、非伝統的なシステムやレシエーションにおける効果的なダイナミクスを導出することができます。 このチュートリアルは、Nレベルエミッタから機械共振器まで、様々な分野(例えば、量子光学、原子光学、光力学、ハイブリッド量子システム)にわたる量子論者に対して、効果的な量子力学を導出するための自己完結した実用的なツールボックスを提供することを目的としている。 まず、オープン量子系へのプロジェクターアプローチと、基本的な中島-ズワンツィヒ方程式の導出を要約する。 次に, ブラウン方程式, ボルン・マルコフ方程式, 原子・分子光学における断熱除去の3つの共通効用方程式が, 中島・ズワンツィヒ方程式の異なる摂動膨張から導出されることを示す。 また, このフォーマリズムを用いた4つの具体例, 変位雑音を考慮した高調波発振器, 光学キャビティによって冷却された機械共振器の有効方程式, 光学キャビティに結合したキュービットのパーセル効果, Lambdaシステムにおける断熱除去について述べる。

Most quantum theorists are familiar with different ways of describing the effective quantum dynamics of a system coupled to external degrees of freedom, such as the Born-Markov master equation or the adiabatic elimination. Understanding the deep connection between these -- sometimes apparently unrelated -- methods can be a powerful tool, allowing us to derive effective dynamics in unconventional systems or regimes. This tutorial aims at providing quantum theorists across multiple fields (e.g., quantum and atom optics, optomechanics, or hybrid quantum systems) with a self-contained practical toolbox to derive effective quantum dynamics, applicable to systems ranging from N-level emitters to mechanical resonators. First, we summarize the projector approach to open quantum systems and the derivation of the fundamental Nakajima-Zwanzig equation. Then, we show how three common effective equations, namely the Brownian master equation, the Born-Markov master equation, and the adiabatic elimination used in atom and molecular optics, can be derived from different perturbative expansions of the Nakajima-Zwanzig equation. We also solve in detail four specific examples using this formalism, namely a harmonic oscillator subject to displacement noise, the effective equations of a mechanical resonator cooled by an optical cavity, the Purcell effect for a qubit coupled to an optical cavity, and the adiabatic elimination in a Lambda system.
翻訳日:2024-08-29 21:40:54 公開日:2024-08-28
# FRANC: 高品質なコード生成のための軽量フレームワーク

FRANC: A Lightweight Framework for High-Quality Code Generation ( http://arxiv.org/abs/2307.08220v2 )

ライセンス: Link先を確認
Mohammed Latif Siddiq, Beatrice Casey, Joanna C. S. Santos, (参考訳) 近年,トランスフォーマーベースの生成モデルを用いた自動ソースコード生成の利用が拡大し,開発者の要求に応じて機能コードを生成することができるようになった。 しかし、最近の研究により、これらの自動生成されたソースコードは脆弱性やその他の品質問題を含む可能性があることが明らかになった。 研究者や実践者がコード生成モデルを強化しようとする試みにもかかわらず、リトレーニングと微調整の大規模な言語モデルは時間とリソースを消費する。 そこで本稿では,トランスフォーマーベースのコード生成モデルから派生した,よりセキュアで高品質なソースコードを推奨する軽量フレームワークであるFRANCについて述べる。 FRANCには、生成したコードをヒューリスティックでコンパイル可能にする静的フィルタと、品質スコアに基づいてコードスニペットをソートする品質対応のローカが含まれている。 さらに、このフレームワークは、プロンプトエンジニアリングを使用して、永続的な品質問題を修正する。 5つのPythonおよびJavaコード生成モデルと6つのプロンプトデータセットでフレームワークを評価した。 静的フィルタでは、コンパイル可能性に関するJava提案の9%から46%、Python提案の10%から43%が改善されている。 ランキングシステムのNDCG@10スコアに対する平均的な改善は0.0763であり、修復技術は最も高い80%のプロンプトを修復する。 FRANCは平均でJavaで1.98秒、Pythonでは0.08秒である。

In recent years, the use of automated source code generation utilizing transformer-based generative models has expanded, and these models can generate functional code according to the requirements of the developers. However, recent research revealed that these automatically generated source codes can contain vulnerabilities and other quality issues. Despite researchers' and practitioners' attempts to enhance code generation models, retraining and fine-tuning large language models is time-consuming and resource-intensive. Thus, we describe FRANC, a lightweight framework for recommending more secure and high-quality source code derived from transformer-based code generation models. FRANC includes a static filter to make the generated code compilable with heuristics and a quality-aware ranker to sort the code snippets based on a quality score. Moreover, the framework uses prompt engineering to fix persistent quality issues. We evaluated the framework with five Python and Java code generation models and six prompt datasets, including a newly created one in this work (SOEval). The static filter improves 9% to 46% Java suggestions and 10% to 43% Python suggestions regarding compilability. The average improvement over the NDCG@10 score for the ranking system is 0.0763, and the repairing techniques repair the highest 80% of prompts. FRANC takes, on average, 1.98 seconds for Java; for Python, it takes 0.08 seconds.
翻訳日:2024-08-29 21:40:54 公開日:2024-08-28
# アウト・オブ・ディストリビューション一般化のための位相マッチング

Phase Matching for Out-of-Distribution Generalization ( http://arxiv.org/abs/2307.12622v6 )

ライセンス: Link先を確認
Chengming Hu, Yeqian Du, Rui Wang, Hao Chen, Congcong Zhu, (参考訳) 視覚信号の明示的な分解法であるフーリエ変換は、ディープニューラルネットワーク(DNN)の分布外一般化挙動を説明するために用いられている。 従来の研究では、振幅スペクトルは分布シフトによる乱れの影響を受けやすいが、位相スペクトルは頑健な視覚表現学習に不可欠な高度に構造化された空間情報を保存している。 この知見から着想を得た本論文は,ドメイン一般化(DG)と周波数成分の関係を明らかにすることを目的としている。 具体的には,周波数成分の分布解析と実験実験を行う。 これらの観測に基づいて、DG問題に対処するPhaMaと呼ばれる位相マッチング手法を提案する。 この目的のために、PhaMaは振幅スペクトルの摂動を導入し、位相成分とパッチコントラスト学習との空間的関係を確立する。 複数のベンチマーク実験により,提案手法は領域一般化および分布外ロバスト性タスクにおける最先端性能を実現することを示す。 バニラ解析や実験の他に、フーリエ構造因果モデル(SCM)を導入することにより、フーリエ成分とDG問題との関係をさらに明らかにする。

The Fourier transform, an explicit decomposition method for visual signals, has been employed to explain the out-of-distribution generalization behaviors of Deep Neural Networks (DNNs). Previous studies indicate that the amplitude spectrum is susceptible to the disturbance caused by distribution shifts, whereas the phase spectrum preserves highly-structured spatial information that is crucial for robust visual representation learning. Inspired by this insight, this paper is dedicated to clarifying the relationships between Domain Generalization (DG) and the frequency components. Specifically, we provide distribution analysis and empirical experiments for the frequency components. Based on these observations, we propose a Phase Matching approach, termed PhaMa, to address DG problems. To this end, PhaMa introduces perturbations on the amplitude spectrum and establishes spatial relationships to match the phase components with patch contrastive learning. Experiments on multiple benchmarks demonstrate that our proposed method achieves state-of-the-art performance in domain generalization and out-of-distribution robustness tasks. Beyond vanilla analysis and experiments, we further clarify the relationships between the Fourier components and DG problems by introducing a Fourier-based Structural Causal Model (SCM).
翻訳日:2024-08-29 21:31:09 公開日:2024-08-28
# マルチタスク学習が部分的スーパービジョンに出会ったとき:コンピュータビジョンのレビュー

When Multi-Task Learning Meets Partial Supervision: A Computer Vision Review ( http://arxiv.org/abs/2307.14382v2 )

ライセンス: Link先を確認
Maxime Fontana, Michael Spratling, Miaojing Shi, (参考訳) マルチタスク学習(MTL)は,相互関係を利用して複数のタスクを同時に学習することを目的としている。 複数のアウトプットを同時に計算するために共有リソースを使用することで、この学習パラダイムは、各タスクに別々のメソッドを使用するという従来のアプローチに比べて、メモリ要求と推論時間が少なくなる可能性がある。 タスク関係は、これらのメソッドのデータ依存性のレベルを下げるだけでなく、パフォーマンスも改善できるため、MTLのこれまでの作業は主に、完全に教師されたメソッドに焦点を当ててきた。 しかし、MTLは、複雑な最適化スキームとより高いラベリング要求のために、一連の課題を導入している。 このレビューは、これらの課題に対処するために、異なる部分的な監視設定の下でMTLをどのように活用するかに焦点を当てる。 まず,MTLは従来,タスク間の知識伝達に異なるパラメータ共有技術を用いてきた。 第二に、このような多目的最適化スキームから生じる異なる課題を提示する。 第3に、タスク関係を分析してタスクグループ化を実現する方法を紹介している。 第4に、MTLに適用された部分的教師付き手法が、上記の課題にどのように対処できるかに焦点を当てる。 最後に、これらの手法の利用可能なデータセット、ツール、ベンチマーク結果を示す。

Multi-Task Learning (MTL) aims to learn multiple tasks simultaneously while exploiting their mutual relationships. By using shared resources to simultaneously calculate multiple outputs, this learning paradigm has the potential to have lower memory requirements and inference times compared to the traditional approach of using separate methods for each task. Previous work in MTL has mainly focused on fully-supervised methods, as task relationships can not only be leveraged to lower the level of data-dependency of those methods but they can also improve performance. However, MTL introduces a set of challenges due to a complex optimisation scheme and a higher labeling requirement. This review focuses on how MTL could be utilised under different partial supervision settings to address these challenges. First, this review analyses how MTL traditionally uses different parameter sharing techniques to transfer knowledge in between tasks. Second, it presents the different challenges arising from such a multi-objective optimisation scheme. Third, it introduces how task groupings can be achieved by analysing task relationships. Fourth, it focuses on how partially supervised methods applied to MTL can tackle the aforementioned challenges. Lastly, this review presents the available datasets, tools and benchmarking results of such methods.
翻訳日:2024-08-29 21:31:09 公開日:2024-08-28
# 複数の階層構造を利用した風力予測精度の向上

Improving the forecast accuracy of wind power by leveraging multiple hierarchical structure ( http://arxiv.org/abs/2308.03472v3 )

ライセンス: Link先を確認
Lucas English, Mahdi Abolghasemi, (参考訳) 再生可能エネルギー生成は、地球規模の脱炭素化において最も重要である。 再生可能エネルギー、特に風力エネルギーの予測は、気象条件に依存する風力エネルギーの発生に固有の不確実性のために困難である。 和解による階層予測の最近の進歩は,短期的な風力エネルギー予測の質を著しく向上させた。 本研究では,風力発電所におけるタービンの断面的・時間的階層構造を活用し,その統合的断面的・時間的次元が,風力発電所における予測精度にどのように価値をもたらすかをさらに調査する。 その結果,複数の時間的アグリゲーションにおいて,個別の横断的アグリゲーションよりも時間的アグリゲーションの方が優れていることがわかった。 さらに、時間的相互調整による機械学習に基づく予測は、粗い時間的粒度において高い精度を示し、短期的な風速予測への採用を促す可能性がある。 実験的に,様々な予測地平線とレベルにわたって,高周波風速データを予測するための最良の手法について,意思決定者に洞察を提供する。

Renewable energy generation is of utmost importance for global decarbonization. Forecasting renewable energies, particularly wind energy, is challenging due to the inherent uncertainty in wind energy generation, which depends on weather conditions. Recent advances in hierarchical forecasting through reconciliation have demonstrated a significant increase in the quality of wind energy forecasts for short-term periods. We leverage the cross-sectional and temporal hierarchical structure of turbines in wind farms and build cross-temporal hierarchies to further investigate how integrated cross-sectional and temporal dimensions can add value to forecast accuracy in wind farms. We found that cross-temporal reconciliation was superior to individual cross-sectional reconciliation at multiple temporal aggregations. Additionally, machine learning based forecasts that were cross-temporally reconciled demonstrated high accuracy at coarser temporal granularities, which may encourage adoption for short-term wind forecasts. Empirically, we provide insights for decision-makers on the best methods for forecasting high-frequency wind data across different forecasting horizons and levels.
翻訳日:2024-08-29 21:31:09 公開日:2024-08-28
# 自由確率による設計

Designs via Free Probability ( http://arxiv.org/abs/2308.06200v3 )

ライセンス: Link先を確認
Michele Fava, Jorge Kurchan, Silvia Pappalardi, (参考訳) ユニタリデザインは、均一なハールアンサンブルの統計を近似するため、擬似ランダム性を調査するための重要なツールとなっている。 量子情報における中心的な役割にもかかわらず、量子カオス進化、特に固有状態熱化仮説(ETH)との関係はいまだに議論の的となっている。 この研究は、自由確率理論を通じて後者と$k$-Designsの間の橋渡しを提供する。 まず、より一般的な$k$-freenessの概念を導入することにより、設計の代替プローブとして使用できることを示す。 代わりに、自由確率理論には、混合モーメントの計算やいわゆる$k$フォールド量子チャネルの計算に有用ないくつかのツールが付属している。 第二の結果は量子力学への接続である。 量子エルゴード性(ETH)は、文献で既に議論されているように、制限された物理観測可能なクラスに適用される。 この精神において、一般ハミルトニアンとのユニタリ進化は、常に十分長い時間で自由になるが、考慮されている作用素が ETH クラス内で制限されているときのみである。 この結果は、ユニタリ設計、量子カオス、固有状態熱化仮説の直接的なリンクを提供し、遅延時間量子力学の普遍性に新たな光を当てた。

Unitary Designs have become a vital tool for investigating pseudorandomness since they approximate the statistics of the uniform Haar ensemble. Despite their central role in quantum information, their relation to quantum chaotic evolution and in particular to the Eigenstate Thermalization Hypothesis (ETH) are still largely debated issues. This work provides a bridge between the latter and $k$-designs through Free Probability theory. First, by introducing the more general notion of $k$-freeness, we show that it can be used as an alternative probe to designs. In turn, free probability theory comes with several tools, useful for instance for the calculation of mixed moments or the so-called $k$-fold quantum channels. Our second result is the connection to quantum dynamics. Quantum ergodicity, and correspondingly ETH, apply to a restricted class of physical observables, as already discussed in the literature. In this spirit, we show that unitary evolution with generic Hamiltonians always leads to freeness at sufficiently long times, but only when the operators considered are restricted within the ETH class. Our results provide a direct link between unitary designs, quantum chaos and the Eigenstate Thermalization Hypothesis, and shed new light on the universality of late-time quantum dynamics.
翻訳日:2024-08-29 21:31:09 公開日:2024-08-28
# 2+1次元SU(2)格子ゲージ理論における固有状態熱化

Eigenstate Thermalization in 2+1 dimensional SU(2) Lattice Gauge Theory ( http://arxiv.org/abs/2308.16202v3 )

ライセンス: Link先を確認
Lukas Ebner, Berndt Müller, Andreas Schäfer, Clemens Seidl, Xiaojun Yao, (参考訳) 格子上で離散化されたハミルトニアンSU(2)ゲージ理論が固有状態熱化仮説(ETH)に従うという仮説の予備的な数値的な証拠を示す。 そのために、私たちは3つの近似を研究します。 (a) 電場基底を$j=0,\frac{1}{2}$ に制限する縮小ヒルベルト空間における線型プラケット連鎖。 b) 周期的あるいは閉境界条件と同じヒルベルト空間制約を持つ2次元ハニカム格子 (c) たった3つの小冊子からなる連鎖であるが、解析されたエネルギーウィンドウ内のすべてのエネルギー固有値の収束が観測されるような十分大きな電場ヒルベルト空間(j \leq \frac{7}{2})$である。 ヒルベルト空間はSU(2)ゲージ理論の連続極限に達するのに必要であるが、数値資源の制約により、結合定数と大きな格子の全ての値に対してこの要求を実現することはできない。 3つの研究事例のそれぞれにおいて、まず固有エネルギースペクトルにおけるランダム行列理論(RMT)の振る舞いを確認し、次に数個の演算子に対するエネルギー固有状態間の対角線および対角線外行列要素を分析する。 現在の不確実性の中では、すべての結果 (a) (b) (c)ETH予測に賛同する。 さらに、電気エネルギー演算子の外対角行列要素は、十分に小さい周波数窓においてRTTの挙動を示す。 (b) (c)。 ETHの振る舞いを曖昧に確立し、どの種類の演算子を適用するかを決定するためには、我々の調査の拡張が必要である。

We present preliminary numerical evidence for the hypothesis that the Hamiltonian SU(2) gauge theory discretized on a lattice obeys the Eigenstate Thermalization Hypothesis (ETH). To do so we study three approximations: (a) a linear plaquette chain in a reduced Hilbert space limiting the electric field basis to $j=0,\frac{1}{2}$ , (b) a two-dimensional honeycomb lattice with periodic or closed boundary condition and the same Hilbert space constraint, and (c) a chain of only three plaquettes but such a sufficiently large electric field Hilbert space ($j \leq \frac{7}{2})$ that convergence of all energy eigenvalues in the analyzed energy window is observed. While an unconstrained Hilbert space is required to reach the continuum limit of SU(2) gauge theory, numerical resource constraints do not permit us to realize this requirement for all values of the coupling constant and large lattices. In each of the three studied cases we check first for random matrix theory (RMT) behavior in the eigenenergy spectrum and then analyze the diagonal as well as the off-diagonal matrix elements between energy eigenstates for a few operators. Within current uncertainties all results for (a), (b) and (c) agree with ETH predictions. Furthermore, we find the off-diagonal matrix elements of the electric energy operator exhibit RMT behavior in frequency windows that are small enough in (b) and (c). To unambiguously establish ETH behavior and determine for which class of operators it applies, an extension of our investigations is necessary.
翻訳日:2024-08-29 21:31:09 公開日:2024-08-28
# 診断分析(第1報) 有病率, 不確実性定量化, 機械学習

Analysis of Diagnostics (Part I): Prevalence, Uncertainty Quantification, and Machine Learning ( http://arxiv.org/abs/2309.00645v2 )

ライセンス: Link先を確認
Paul N. Patrone, Raquel A. Binder, Catherine S. Forconi, Ann M. Moormann, Anthony J. Kearsley, (参考訳) 診断検査は、分類理論のツールの研究と開発にユニークな設定を提供する。 このような文脈において、有病率の概念、すなわち与えられた条件を持つ個人の数という概念は、本質的な興味の量として、また分類精度を制御するパラメータとして、基本的なものである。 この写本は、分類理論と有病率のより深い関係を研究し、後者がある種の機械学習(ML)に対してより完全な不確実性定量化理論(UQ)を確立していることを示す2部シリーズの最初のものである。 この分析を補題を用いて動機づけた結果,有病率重み付き誤りを最小化する一般分類器は,条件付き確率密度に依存するベイズ最適分類器と同じ確率情報を含むことを示した。 これにより、相対確率レベルセット $B^\star (q)$ は分類境界とクラスラベルの不確かさを定量化するための有用なツールの両方として再解釈される。 実際にこれを実現するために、有価値重み付き経験誤差を最小化することにより、B^\star (q)$を推定する数値ホモトピーアルゴリズムを提案する。 この方法の成功と欠点は、レベル集合の性質を再検討する動機となり、対応する分類器は、数値を安定化し、MLのUQへの重要な拡張を指し示す有用な単調性の性質に従う。 本研究は, 合成データとSARS-CoV-2酵素結合免疫測定法(ELISA)を用いて, 本法の有効性を検証した。

Diagnostic testing provides a unique setting for studying and developing tools in classification theory. In such contexts, the concept of prevalence, i.e. the number of individuals with a given condition, is fundamental, both as an inherent quantity of interest and as a parameter that controls classification accuracy. This manuscript is the first in a two-part series that studies deeper connections between classification theory and prevalence, showing how the latter establishes a more complete theory of uncertainty quantification (UQ) for certain types of machine learning (ML). We motivate this analysis via a lemma demonstrating that general classifiers minimizing a prevalence-weighted error contain the same probabilistic information as Bayes-optimal classifiers, which depend on conditional probability densities. This leads us to study relative probability level-sets $B^\star (q)$, which are reinterpreted as both classification boundaries and useful tools for quantifying uncertainty in class labels. To realize this in practice, we also propose a numerical, homotopy algorithm that estimates the $B^\star (q)$ by minimizing a prevalence-weighted empirical error. The successes and shortcomings of this method motivate us to revisit properties of the level sets, and we deduce the corresponding classifiers obey a useful monotonicity property that stabilizes the numerics and points to important extensions to UQ of ML. Throughout, we validate our methods in the context of synthetic data and a research-use-only SARS-CoV-2 enzyme-linked immunosorbent (ELISA) assay.
翻訳日:2024-08-29 21:31:09 公開日:2024-08-28
# HC3 Plus:人間のChatGPT比較コーパス

HC3 Plus: A Semantic-Invariant Human ChatGPT Comparison Corpus ( http://arxiv.org/abs/2309.02731v3 )

ライセンス: Link先を確認
Zhenpeng Su, Xing Wu, Wei Zhou, Guangyuan Ma, Songlin Hu, (参考訳) ChatGPTはその優れたパフォーマンスのために大きな関心を集めているが、その潜在的なリスク、特に訓練を受けていない個人が識別することが困難なAIGC(AIGC)の検出に関して懸念が高まっている。 ChatGPT生成テキストを検出するために使われる現在のデータセットは、主に質問応答タスクに焦点を当てており、多くの場合、要約、翻訳、パラフレージングのような意味的不変性のあるタスクを見渡す。 本稿では,意味不変タスクにおけるモデル生成テキストの検出がより困難であることを示す。 このギャップに対処するため、より広範囲で包括的なデータセットを導入し、セマンティック不変性を含む以前の作業よりも幅広いタスクを組み込んだ。

ChatGPT has garnered significant interest due to its impressive performance; however, there is growing concern about its potential risks, particularly in the detection of AI-generated content (AIGC), which is often challenging for untrained individuals to identify. Current datasets used for detecting ChatGPT-generated text primarily focus on question-answering tasks, often overlooking tasks with semantic-invariant properties, such as summarization, translation, and paraphrasing. In this paper, we demonstrate that detecting model-generated text in semantic-invariant tasks is more challenging. To address this gap, we introduce a more extensive and comprehensive dataset that incorporates a wider range of tasks than previous work, including those with semantic-invariant properties.
翻訳日:2024-08-29 21:31:08 公開日:2024-08-28
# SGNet: ポイントクラウド登録のための有能な幾何学的ネットワーク

SGNet: Salient Geometric Network for Point Cloud Registration ( http://arxiv.org/abs/2309.06207v5 )

ライセンス: Link先を確認
Qianliang Wu, Yaqing Ding, Lei Luo, Haobo Jiang, Shuo Gu, Chuanwei Zhou, Jin Xie, Jian Yang, (参考訳) ポイントクラウド登録(PCR)はコンピュータビジョンにおいて重要かつ困難なタスクである。 PCRの最大の難しさの1つは、様々なスキャンで一貫した意味的および幾何学的性質を示す、健全で有意義な点を特定することである。 従来の手法では、点群全体のパッチブロック間の類似性や、効率的なグローバルな幾何整合性に対する考慮の欠如が原因で、不明瞭なマッチングの問題に遭遇した。 これらの課題に対処するため、我々はいくつかの新しい手法を含む新しい枠組みを提案する。 まず,オブジェクトレベルとパッチレベルのセマンティック情報を組み合わせた意味認識型幾何エンコーダを提案する。 このエンコーダは、パッチレベルのスーパーポイントマッチングにおけるあいまいさを低減することにより、登録リコールを大幅に改善する。 さらに本研究では,本質的な形状のシグネチャを用いて有能な点を同定する事前知識手法を取り入れた。 これにより、シーン内で最も有意義なスーパーポイントと有意義な密度ポイントを抽出できる。 次に,高次幾何学的特徴を符号化する革新的な変換器を提案する。 これらの特徴は、大域的な高次幾何整合性を考慮して、初期重なり合う領域内の有意な点を特定するために重要である。 この高階変圧器をさらに最適化するために、アンカーノード選択戦略を導入する。 これらのアンカーノードに基づいてフレーム間三角形やポリヘドロン整合性を符号化することにより、有意なスーパーポイントの高次幾何学的特徴を効果的に学習することができる。 これらの高次特徴は、密接な点に伝播し、シンクホーンマッチングモジュールによって、キー対応を識別して、登録を成功させる。 3DMatch/3DLoMatchやKITTIといったよく知られたデータセットを用いて実験を行った結果,提案手法の有効性が示された。

Point Cloud Registration (PCR) is a critical and challenging task in computer vision. One of the primary difficulties in PCR is identifying salient and meaningful points that exhibit consistent semantic and geometric properties across different scans. Previous methods have encountered challenges with ambiguous matching due to the similarity among patch blocks throughout the entire point cloud and the lack of consideration for efficient global geometric consistency. To address these issues, we propose a new framework that includes several novel techniques. Firstly, we introduce a semantic-aware geometric encoder that combines object-level and patch-level semantic information. This encoder significantly improves registration recall by reducing ambiguity in patch-level superpoint matching. Additionally, we incorporate a prior knowledge approach that utilizes an intrinsic shape signature to identify salient points. This enables us to extract the most salient super points and meaningful dense points in the scene. Secondly, we introduce an innovative transformer that encodes High-Order (HO) geometric features. These features are crucial for identifying salient points within initial overlap regions while considering global high-order geometric consistency. To optimize this high-order transformer further, we introduce an anchor node selection strategy. By encoding inter-frame triangle or polyhedron consistency features based on these anchor nodes, we can effectively learn high-order geometric features of salient super points. These high-order features are then propagated to dense points and utilized by a Sinkhorn matching module to identify key correspondences for successful registration. In our experiments conducted on well-known datasets such as 3DMatch/3DLoMatch and KITTI, our approach has shown promising results, highlighting the effectiveness of our novel method.
翻訳日:2024-08-29 21:31:08 公開日:2024-08-28
# 物理と背景がロボットマニピュレーションにおける映像トランスフォーマーに与える影響 : 平面プッシュを事例として

How Physics and Background Attributes Impact Video Transformers in Robotic Manipulation: A Case Study on Planar Pushing ( http://arxiv.org/abs/2310.02044v4 )

ライセンス: Link先を確認
Shutong Jin, Ruiyu Wang, Muhammad Zahid, Florian T. Pokorny, (参考訳) ロボット学習において、モデルとデータセットのサイズが拡大し続けるにつれて、コスト効率の高いデータ収集とモデルパフォーマンスを確保するために、データセットの構成と性質がモデルパフォーマンスにどのように影響するかを理解する必要がある。 本研究では,背景物体との相互作用の複雑度や動的度などの物理特性(色,摩擦係数,形状)とシーン背景特性が,映像変換器の性能に与える影響を実験的に検討した。 物理特性と背景環境特性はモデル性能にどのように影響するのか? モデル一般化に最も有害な属性の変化は何か? 新たなシナリオにモデルを適応させるためには、どのような微調整データが必要か? この研究を促進するために,1278時間46万本のビデオと,異なる物理特性と背景特性を持つ物体との相互作用を平面的にプッシュする,大規模な実世界の視覚ベースのロボットプッシュデータセットであるCloudGripper-Push-1Kを紹介した。 また,ビデオ・オクルージョン・トランスフォーマ (VOT) を提案する。ビデオ・オクルージョン・トランスフォーマ (VOT) は2次元空間エンコーダの3つの選択をケーススタディの主題としている。 データセットとソースコードはhttps://cloudgripper.org.comで公開されている。

As model and dataset sizes continue to scale in robot learning, the need to understand how the composition and properties of a dataset affect model performance becomes increasingly urgent to ensure cost-effective data collection and model performance. In this work, we empirically investigate how physics attributes (color, friction coefficient, shape) and scene background characteristics, such as the complexity and dynamics of interactions with background objects, influence the performance of Video Transformers in predicting planar pushing trajectories. We investigate three primary questions: How do physics attributes and background scene characteristics influence model performance? What kind of changes in attributes are most detrimental to model generalization? What proportion of fine-tuning data is required to adapt models to novel scenarios? To facilitate this research, we present CloudGripper-Push-1K, a large real-world vision-based robot pushing dataset comprising 1278 hours and 460,000 videos of planar pushing interactions with objects with different physics and background attributes. We also propose Video Occlusion Transformer (VOT), a generic modular video-transformer-based trajectory prediction framework which features 3 choices of 2D-spatial encoders as the subject of our case study. The dataset and source code are available at https://cloudgripper.org.
翻訳日:2024-08-29 21:31:08 公開日:2024-08-28
# Score-based Generative Priors を用いた確率的イメージング

Provable Probabilistic Imaging using Score-Based Generative Priors ( http://arxiv.org/abs/2310.10835v3 )

ライセンス: Link先を確認
Yu Sun, Zihui Wu, Yifan Chen, Berthy T. Feng, Katherine L. Bouman, (参考訳) 不確かさを定量化しながら高品質な画像を推定することは、不適切な逆問題を解決するための画像再構成アルゴリズムにおいて、2つの望ましい特徴である。 本稿では,一般的な逆問題に対する解の空間を特徴付けるための原則的枠組みとして,プラグイン・アンド・プレイ型モンテカルロ(PMC)を提案する。 PMCは、高画質の画像再構成のために、表現力のあるスコアベースの生成先を組み込むことができ、また後方サンプリングによる不確実な定量化を行うことができる。 特に,従来のプラグ・アンド・プレイ先行(PnP)のサンプリングアナログと見なせる2つのPMCアルゴリズムを開発し,REDアルゴリズムをデノナイズして正規化する。 サンプリング効率を向上させるため,これらのPMCアルゴリズムに重み付けアニールを導入し,さらに2つの追加アニールPMCアルゴリズム(APMC)を開発した。 PMCアルゴリズムの収束挙動を特徴付けるための理論的解析法を確立する。 我々の分析は、フィッシャー情報の観点からは漸近的でない定常性を保証するもので、重み付けアニーリング、潜在的に非log-concaveの可能性、および不完全なスコアネットワークの結合の存在と完全に互換性がある。 線形前方モデルと非線形前方モデルの両方を用いた複数の代表逆問題に対する PMC アルゴリズムの性能を示す。 実験の結果, PMCは再建品質を著しく向上し, 高忠実度不確実性定量化を可能にした。

Estimating high-quality images while also quantifying their uncertainty are two desired features in an image reconstruction algorithm for solving ill-posed inverse problems. In this paper, we propose plug-and-play Monte Carlo (PMC) as a principled framework for characterizing the space of possible solutions to a general inverse problem. PMC is able to incorporate expressive score-based generative priors for high-quality image reconstruction while also performing uncertainty quantification via posterior sampling. In particular, we develop two PMC algorithms that can be viewed as the sampling analogues of the traditional plug-and-play priors (PnP) and regularization by denoising (RED) algorithms. To improve the sampling efficiency, we introduce weighted annealing into these PMC algorithms, further developing two additional annealed PMC algorithms (APMC). We establish a theoretical analysis for characterizing the convergence behavior of PMC algorithms. Our analysis provides non-asymptotic stationarity guarantees in terms of the Fisher information, fully compatible with the joint presence of weighted annealing, potentially non-log-concave likelihoods, and imperfect score networks. We demonstrate the performance of the PMC algorithms on multiple representative inverse problems with both linear and nonlinear forward models. Experimental results show that PMC significantly improves reconstruction quality and enables high-fidelity uncertainty quantification.
翻訳日:2024-08-29 21:31:08 公開日:2024-08-28
# 感度を意識したベイズ推定

Sensitivity-Aware Amortized Bayesian Inference ( http://arxiv.org/abs/2310.11122v6 )

ライセンス: Link先を確認
Lasse Elsemüller, Hans Olischläger, Marvin Schmitt, Paul-Christian Bürkner, Ullrich Köthe, Stefan T. Radev, (参考訳) 感度分析は、様々なモデリング選択が統計的分析の結果に与える影響を明らかにする。 理論上は魅力的であるが、複素ベイズ模型に対しては圧倒的に非効率である。 本研究では、ニューラルネットワークを用いたシミュレーションに基づく推論に感度解析を効率的に統合するための多面的アプローチである感性認識型ベイズ推論(SA-ABI)を提案する。 まず、計算オーバーヘッドを最小限に抑えたトレーニングプロセスにおいて、ウェイトシェアリングを利用して、代替可能性と事前仕様との構造的類似性を符号化する。 第2に、ニューラルネットワークの高速推論を利用して、データ摂動や前処理ステップに対する感度を評価する。 他のベイズ的アプローチとは対照的に、どちらのステップも確率、事前またはデータセットの選択ごとにモデルを再構成するコストのかかるボトルネックを回避している。 最後に,信頼できない近似(例えば,モデル不特定のため)から生じる感度を検出するために,深層アンサンブルを用いることを提案する。 本稿では,本手法が病気発生のダイナミクスや地球温暖化のしきい値から人的意思決定に至るまで,応用モデリング問題における有効性を示す。 我々の結果は、アモータイズされたベイズワークフローのデフォルト選択として感度認識推論をサポートし、他の隠れ次元に対する洞察をモデラーに自動的に提供する。

Sensitivity analyses reveal the influence of various modeling choices on the outcomes of statistical analyses. While theoretically appealing, they are overwhelmingly inefficient for complex Bayesian models. In this work, we propose sensitivity-aware amortized Bayesian inference (SA-ABI), a multifaceted approach to efficiently integrate sensitivity analyses into simulation-based inference with neural networks. First, we utilize weight sharing to encode the structural similarities between alternative likelihood and prior specifications in the training process with minimal computational overhead. Second, we leverage the rapid inference of neural networks to assess sensitivity to data perturbations and preprocessing steps. In contrast to most other Bayesian approaches, both steps circumvent the costly bottleneck of refitting the model for each choice of likelihood, prior, or data set. Finally, we propose to use deep ensembles to detect sensitivity arising from unreliable approximation (e.g., due to model misspecification). We demonstrate the effectiveness of our method in applied modeling problems, ranging from disease outbreak dynamics and global warming thresholds to human decision-making. Our results support sensitivity-aware inference as a default choice for amortized Bayesian workflows, automatically providing modelers with insights into otherwise hidden dimensions.
翻訳日:2024-08-29 21:31:08 公開日:2024-08-28
# ガウス過程回帰による保証被覆予測間隔

Guaranteed Coverage Prediction Intervals with Gaussian Process Regression ( http://arxiv.org/abs/2310.15641v2 )

ライセンス: Link先を確認
Harris Papadopoulos, (参考訳) ガウス過程回帰(英: Gaussian Process Regression、GPR)は、ほとんどの機械学習手法とは異なり、予測の不確かさを推定する一般的な回帰手法である。 しかしながら、これらの不確実性の推定は、モデルが十分に特定されているという仮定に基づいている。 その結果、生成した不確実性推定は、例えば95%信頼度で生成される予測間隔(PI)が、真のラベルの95%未満をカバーする可能性があるため、非常に誤解を招く可能性がある。 この問題に対処するため,本稿では,CP(Conformal Prediction)と呼ばれる機械学習フレームワークに基づくGPRの拡張を提案する。 この拡張により、モデルを完全に不特定であっても、必要なカバレッジでPIの生成が保証される。 提案手法は,GPRの利点とCPの有効なカバレッジ保証を組み合わせ,実験により既存の手法よりも優れていることを示す。

Gaussian Process Regression (GPR) is a popular regression method, which unlike most Machine Learning techniques, provides estimates of uncertainty for its predictions. These uncertainty estimates however, are based on the assumption that the model is well-specified, an assumption that is violated in most practical applications, since the required knowledge is rarely available. As a result, the produced uncertainty estimates can become very misleading; for example the prediction intervals (PIs) produced for the 95% confidence level may cover much less than 95% of the true labels. To address this issue, this paper introduces an extension of GPR based on a Machine Learning framework called, Conformal Prediction (CP). This extension guarantees the production of PIs with the required coverage even when the model is completely misspecified. The proposed approach combines the advantages of GPR with the valid coverage guarantee of CP, while the performed experimental results demonstrate its superiority over existing methods.
翻訳日:2024-08-29 21:19:05 公開日:2024-08-28
# 注入:動的テクスチャの塗布と複雑な運動のための内部拡散

Infusion: internal diffusion for inpainting of dynamic textures and complex motion ( http://arxiv.org/abs/2311.01090v3 )

ライセンス: Link先を確認
Nicolas Cherel, Andrés Almansa, Yann Gousseau, Alasdair Newson, (参考訳) ビデオの塗装は、ビデオ内の領域を視覚的に説得力のある方法で埋める作業である。 データの高次元性と、説得力のある結果を得るために必要となる時間的一貫性のため、非常に難しい。 近年,画像やビデオを含む複雑なデータ分布のモデル化において,拡散モデルが顕著な成果を上げている。 しかしながら、そのようなモデルはトレーニングや推論に非常に高価であり、ビデオへの適用性が大幅に低下し、不合理な計算負荷が生じる。 ビデオインペイントの場合,ビデオの自己相似性が高いため,拡散モデルのトレーニングデータは入力ビデオに制限され,非常に満足な結果が得られることを示す。 これにより、内部学習アプローチを採用することができ、また、画像インペイントに使用される現在の拡散モデルよりも、ニューラルネットワークのサイズを約3桁小さくすることも可能になります。 また,拡散過程の雑音レベルに応じて,拡散過程を異なる学習区間に分割することで,内部学習の文脈における拡散モデルの効率的な訓練と推論を行う手法を提案する。 我々の知る限りでは、これは拡散に基づく最初のビデオ塗装法である。 その他の方法は光学的フロー推定のような追加の要素を必要としており、動的テクスチャや複雑な動きの場合にその性能を制限している。 我々は,動的テクスチャや複雑な動的背景の場合に,その手法が最先端の性能に達することを示す定性的かつ定量的な結果を示す。

Video inpainting is the task of filling a region in a video in a visually convincing manner. It is very challenging due to the high dimensionality of the data and the temporal consistency required for obtaining convincing results. Recently, diffusion models have shown impressive results in modeling complex data distributions, including images and videos. Such models remain nonetheless very expensive to train and to perform inference with, which strongly reduce their applicability to videos, and yields unreasonable computational loads. We show that in the case of video inpainting, thanks to the highly auto-similar nature of videos, the training data of a diffusion model can be restricted to the input video and still produce very satisfying results. This leads us to adopt an internal learning approach, which also allows us to greatly reduce the neural network size by about three orders of magnitude less than current diffusion models used for image inpainting. We also introduce a new method for efficient training and inference of diffusion models in the context of internal learning, by splitting the diffusion process into different learning intervals corresponding to different noise levels of the diffusion process. To the best of our knowledge, this is the first video inpainting method based purely on diffusion. Other methods require additional components such as optical flow estimation, which limits their performance in the case of dynamic textures and complex motions. We show qualitative and quantitative results, demonstrating that our method reaches state of the art performance in the case of dynamic textures and complex dynamic backgrounds.
翻訳日:2024-08-29 21:19:05 公開日:2024-08-28
# 動的ユーザニーズを考慮したコミュニケーションシステムのための深層学習型リソースアロケータ

A Deep Learning Based Resource Allocator for Communication Systems with Dynamic User Utility Demands ( http://arxiv.org/abs/2311.04600v2 )

ライセンス: Link先を確認
Pourya Behmandpoor, Mark Eisen, Panagiotis Patrinos, Marc Moonen, (参考訳) ディープラーニング(DL)ベースのリソース割り当て(RA)は,最近,その性能効率から注目されている。 しかし、ほとんどの関連研究は、データレート制約などのユーザ数とそのユーティリティ要求が固定されている理想的な場合を想定しており、設計されたDLベースのRAスキームは、これらの固定パラメータに対してのみ訓練されたポリシーを利用する。 したがって、これらのパラメータが変化するたびに、計算的に複雑なポリシーの再訓練が要求される。 本稿では,DL ベースのリソースアロケータ (ALCOR) を導入し,アプリケーション・レイヤの要件などに基づいて,利用者のユーティリティ要求を自由に調整できるようにする。 ALCORは、時間共有問題におけるポリシーとしてディープニューラルネットワーク(DNN)を使用している。 基礎となる最適化アルゴリズムは、ユーザのオンオフ状態を反復的に最適化し、期待するユーティリティ要求を満たす。 このポリシーは、ユーザユーティリティの要求を考慮せずに、制約のないRA(URA)-RAを実行する。 選択されたURAスキームによって、ALCORは集中的または分散的なシナリオでRAを実行することができる。 導出収束解析はALCORの収束を保証し、数値実験はその有効性を裏付ける。

Deep learning (DL) based resource allocation (RA) has recently gained significant attention due to its performance efficiency. However, most related studies assume an ideal case where the number of users and their utility demands, e.g., data rate constraints, are fixed, and the designed DL-based RA scheme exploits a policy trained only for these fixed parameters. Consequently, computationally complex policy retraining is required whenever these parameters change. In this paper, we introduce a DL-based resource allocator (ALCOR) that allows users to adjust their utility demands freely, such as based on their application layer requirements. ALCOR employs deep neural networks (DNNs) as the policy in a time-sharing problem. The underlying optimization algorithm iteratively optimizes the on-off status of users to satisfy their utility demands in expectation. The policy performs unconstrained RA (URA)--RA without considering user utility demands--among active users to maximize the sum utility (SU) at each time instant. Depending on the chosen URA scheme, ALCOR can perform RA in either a centralized or distributed scenario. Derived convergence analyses provide guarantees for ALCOR's convergence, and numerical experiments corroborate its effectiveness.
翻訳日:2024-08-29 21:19:05 公開日:2024-08-28
# u-LLaVA: 大規模言語モデルによるマルチモーダルタスクの統合

u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model ( http://arxiv.org/abs/2311.05348v4 )

ライセンス: Link先を確認
Jinjin Xu, Liwu Xu, Yuzhe Yang, Xiang Li, Fanyi Wang, Yanchun Xie, Yi-Jie Huang, Yaqian Li, (参考訳) 近年のMLLM(Multi-modal large language model)の進歩により、視覚的理解が大幅に改善され、主に高度なモダリティアライメント戦略が推進されている。 しかし、主なアプローチは、細粒度でピクセルレベルのタスクに焦点を絞らずに、グローバルまたは地域的な理解を優先する。 このギャップに対処するため,我々は,MLLMの知覚能力を改善するために,画素,地域,グローバル機能を統合する,革新的な統合マルチタスクフレームワークであるu-LLaVAを紹介した。 我々は、効率的なモダリティアライメントアプローチを活用し、画像とビデオの両方のデータセットを活用して、さまざまな視覚的コンテキストにおけるモデルの基本的な理解を促進することで開始する。 その後、タスク固有のプロジェクタとデコーダを併用して、エンドツーエンドのダウンストリームトレーニングを行う。 さらに,この研究は,MLLMの微粒化知覚能力に挑戦し,評価するための277Kサンプルからなる新しいマスクベースのマルチタスクデータセットを提供する。 全体的なフレームワークはシンプルで効果的で、複数のベンチマークで最先端のパフォーマンスを実現する。 また、モデル、データ、コードをhttps://github.com/OPPOMKLab/u-LLaVA.comで公開しています。

Recent advancements in multi-modal large language models (MLLMs) have led to substantial improvements in visual understanding, primarily driven by sophisticated modality alignment strategies. However, predominant approaches prioritize global or regional comprehension, with less focus on fine-grained, pixel-level tasks. To address this gap, we introduce u-LLaVA, an innovative unifying multi-task framework that integrates pixel, regional, and global features to refine the perceptual faculties of MLLMs. We commence by leveraging an efficient modality alignment approach, harnessing both image and video datasets to bolster the model's foundational understanding across diverse visual contexts. Subsequently, a joint instruction tuning method with task-specific projectors and decoders for end-to-end downstream training is presented. Furthermore, this work contributes a novel mask-based multi-task dataset comprising 277K samples, crafted to challenge and assess the fine-grained perception capabilities of MLLMs. The overall framework is simple, effective, and achieves state-of-the-art performance across multiple benchmarks. We also make our model, data, and code publicly accessible at https://github.com/OPPOMKLab/u-LLaVA.
翻訳日:2024-08-29 21:19:05 公開日:2024-08-28
# MKIDを用いた光子計数検出器の試作

A graduate laboratory experiment to set up a photon-counting detector using MKIDs ( http://arxiv.org/abs/2311.08295v3 )

ライセンス: Link先を確認
Pietro Campana, Rodolfo Carobene, Eleonora Cipelli, Marco Gobbo, Aurora Perego, Davide Vertemati, (参考訳) 本稿では,マイクロ波の低温における応用に関する知識と専門知識の育成を目的とした新しい研究室活動について述べる。 この経験はマイクロ波動インダクタンス検出器(MKID)による赤外線光子の検出に焦点を当てている。 実験的なセットアップ、理論的な概念、そして関連する活動は、経験を通じて得られるスキルと知識を強調して詳細である。 この実験は、量子技術分野の大学院生向けに設計されている。

This paper presents a new laboratory activity aimed at developing knowledge and expertise in microwave applications at cryogenic temperatures. The experience focuses on the detection of infrared photons through Microwave Kinetic Inductance Detectors (MKIDs). The experimental setup, theoretical concepts, and activities involved are detailed, highlighting the skills and knowledge gained through the experience. This experiment is designed for graduate students in the field of quantum technologies.
翻訳日:2024-08-29 21:19:05 公開日:2024-08-28
# LLMを用いた人間レベルテキスト符号化に向けて:公共政策文書における父の役割を事例として

Towards Human-Level Text Coding with LLMs: The Case of Fatherhood Roles in Public Policy Documents ( http://arxiv.org/abs/2311.11844v3 )

ライセンス: Link先を確認
Lorenzo Lupo, Oscar Magnusson, Dirk Hovy, Elin Naurin, Lena Wängnerud, (参考訳) GPT-3.5やGPT-4のような大規模言語モデル(LLM)の最近の進歩は、より良い結果とプログラミングの少ない自動化を約束し、政治科学におけるテキスト分析の新しい機会を開く。 本研究では,政治科学における典型的複雑度を含む3つの本来のコーディング課題である,非英語言語,法的・政治的用語,抽象的構成に基づく複雑なラベルについて評価する。 本稿では,モデルの選択とプロンプトを最適化するための実践的なワークフローを提案する。 もっとも優れたプロンプト戦略は、人間のプログラマに提供されるような、詳細なコードブックをLLMに提供することにある。 この設定では、LDMは人間のアノテータに匹敵する、あるいはおそらくは優れているが、はるかに高速で、かなり安価で、大量のテキストにスケールするのがずっと簡単である。 また、GPTと人気のあるオープンソースLLMを比較し、モデルの選択におけるトレードオフについて議論する。 我々のソフトウェアは、LPMをアノテーションとして簡単に使用することができ、https://github.com/lorelupo/pappa.comで公開されている。

Recent advances in large language models (LLMs) like GPT-3.5 and GPT-4 promise automation with better results and less programming, opening up new opportunities for text analysis in political science. In this study, we evaluate LLMs on three original coding tasks involving typical complexities encountered in political science settings: a non-English language, legal and political jargon, and complex labels based on abstract constructs. Along the paper, we propose a practical workflow to optimize the choice of the model and the prompt. We find that the best prompting strategy consists of providing the LLMs with a detailed codebook, as the one provided to human coders. In this setting, an LLM can be as good as or possibly better than a human annotator while being much faster, considerably cheaper, and much easier to scale to large amounts of text. We also provide a comparison of GPT and popular open-source LLMs, discussing the trade-offs in the model's choice. Our software allows LLMs to be easily used as annotators and is publicly available: https://github.com/lorelupo/pappa.
翻訳日:2024-08-29 21:19:05 公開日:2024-08-28
# 符号化露光と暗示的ニューラル表現を用いた軽量高速撮影

Lightweight High-Speed Photography Built on Coded Exposure and Implicit Neural Representation of Videos ( http://arxiv.org/abs/2311.13134v2 )

ライセンス: Link先を確認
Zhihong Zhang, Runzhao Yang, Jinli Suo, Yuxiao Cheng, Qionghai Dai, (参考訳) 高速シーンを高解像度で記録できるコンパクトカメラの需要は着実に増加している。 しかし、そのような能力を達成するには、しばしば高帯域幅の要求が伴うため、低容量のプラットフォームには不適当で重いシステムになる。 この課題に対処するため、符号化された露出設定を利用して、フレームシーケンスをぼやけたスナップショットにエンコードし、その後、潜入したシャープなビデオから軽量なソリューションを検索する。 それにもかかわらず、ブラーからの回復運動は、モーションブラー分解の固有の不適切さ、運動方向の内在的曖昧さ、そして自然ビデオに現れる多様な動きによって、依然として大きな課題である。 本研究では,従来の符号化露光画像技術とビデオの暗黙的ニューラル表現を併用することで,これらの課題に対処する新しい手法を提案する。 画像中のぼやけた画像に移動方向の手がかりを戦略的に埋め込む。 さらに,隠れた動画フレームをぼやけた画像から逐次抽出する,暗黙的ニューラル表現に基づくぼやけ分解ネットワークを開発した。 提案手法の有効性と有効性を検証するため,ベンチマークデータセットと実撮画像を用いた広範囲な実験を行った。 その結果、我々の手法は、品質と柔軟性の両方の観点から、既存の手法よりも大幅に優れています。 私たちの仕事のコードは .NET で利用可能です。 https://github.com/zhihongz/BDINR

The demand for compact cameras capable of recording high-speed scenes with high resolution is steadily increasing. However, achieving such capabilities often entails high bandwidth requirements, resulting in bulky, heavy systems unsuitable for low-capacity platforms. To address this challenge, leveraging a coded exposure setup to encode a frame sequence into a blurry snapshot and subsequently retrieve the latent sharp video presents a lightweight solution. Nevertheless, restoring motion from blur remains a formidable challenge due to the inherent ill-posedness of motion blur decomposition, the intrinsic ambiguity in motion direction, and the diverse motions present in natural videos. In this study, we propose a novel approach to address these challenges by combining the classical coded exposure imaging technique with the emerging implicit neural representation for videos. We strategically embed motion direction cues into the blurry image during the imaging process. Additionally, we develop a novel implicit neural representation based blur decomposition network to sequentially extract the latent video frames from the blurry image, leveraging the embedded motion direction cues. To validate the effectiveness and efficiency of our proposed framework, we conduct extensive experiments using benchmark datasets and real-captured blurry images. The results demonstrate that our approach significantly outperforms existing methods in terms of both quality and flexibility. The code for our work is available at .https://github.com/zhihongz/BDINR
翻訳日:2024-08-29 21:19:05 公開日:2024-08-28
# Re-Nerfing:新しいビュー合成による新しいビュー合成の改善

Re-Nerfing: Improving Novel View Synthesis through Novel View Synthesis ( http://arxiv.org/abs/2312.02255v3 )

ライセンス: Link先を確認
Felix Tristram, Stefano Gasperini, Nassir Navab, Federico Tombari, (参考訳) 近年のNeRFやガウス・スプラッティングのようなニューラルレンダリングや再構成技術は目覚ましいビュー合成能力を示しているが、高品質なビューを描画するためには多様な視点から数百のシーンの画像が必要である。 画像が少ないと、これらの手法は、基礎となる3次元幾何学を正しく三角測量できず、最適でない解に収束できなくなるため、失敗し始める。 これらの失敗は、シーンのわずかに観察された領域で、フローターやぼやけたレンダリングとして現れる。 本稿では,新規なビュー合成自体を活用するシンプルで汎用的なアドオン手法であるRe-Nerfingを提案する。 すでにトレーニング済みのNVSメソッドを使用して、既存のビュー間で新しいビューを描画し、トレーニングデータを拡張して第2モデルの最適化を行う。 これにより、追加のマルチビュー制約が導入され、第二モデルはより良いソリューションに収束する。 Re-Nerfingでは、mip-NeRF 360とLLFFデータセットのスパースビュー設定において、NeRFとGaussian-Splattingに基づく複数のパイプラインで大幅な改善を実現しています。 特に、Re-Nerfingは事前の知識や余分な監視信号を必要としないため、柔軟で実用的なアドオンである。

Recent neural rendering and reconstruction techniques, such as NeRFs or Gaussian Splatting, have shown remarkable novel view synthesis capabilities but require hundreds of images of the scene from diverse viewpoints to render high-quality novel views. With fewer images available, these methods start to fail since they can no longer correctly triangulate the underlying 3D geometry and converge to a non-optimal solution. These failures can manifest as floaters or blurry renderings in sparsely observed areas of the scene. In this paper, we propose Re-Nerfing, a simple and general add-on approach that leverages novel view synthesis itself to tackle this problem. Using an already trained NVS method, we render novel views between existing ones and augment the training data to optimize a second model. This introduces additional multi-view constraints and allows the second model to converge to a better solution. With Re-Nerfing we achieve significant improvements upon multiple pipelines based on NeRF and Gaussian-Splatting in sparse view settings of the mip-NeRF 360 and LLFF datasets. Notably, Re-Nerfing does not require prior knowledge or extra supervision signals, making it a flexible and practical add-on.
翻訳日:2024-08-29 21:19:05 公開日:2024-08-28
# 逆電界を持つ反強磁性ヘリックスにおける多重再帰局在の臨界解析:ホッピングダイメライゼーションフリーシナリオ

Critical analysis of multiple reentrant localization in an antiferromagnetic helix with transverse electric field: Hopping dimerization-free scenario ( http://arxiv.org/abs/2312.02778v3 )

ライセンス: Link先を確認
Sudin Ganguly, Sourav Chattopadhyay, Kallol Mondal, Santanu K. Maiti, (参考訳) 最近顕著な現象であるReentrant Localization (RL)は、従来の研究で示されていたように、スタッガード相関障害とホッピング二量体との相互作用と結びついている。 このパラダイムとは対照的に,本研究では,ホッピング二量体化がRLの実現における重要な要因ではないことを示す。 反強磁性秩序を持つヘリカル磁気系を考えると、スピン依存のRLが複数のエネルギー領域で発見される。 この現象は熱力学の限界でも持続する。 Aubry-Andr\'{e}-Harper モデルの相関障害は、ヘリカル系に逆電場を適用し、従来の置換障害を回避して導入される。 観測された残差位相の有限サイズスケーリング解析を行い、臨界点を特定し、関連する臨界指数を決定し、局所化遷移に関連するスケーリング挙動を調べる。 さらに、パラメータ空間を探索し、再帰的な位相が発生する条件を特定する。 強結合フレームワークで記述された本研究は、電場、反強磁性秩序、幾何学のヘリシティといった重要な役割を浮き彫りにした、RLに関する新しい展望を提供する。

Reentrant localization (RL), a recently prominent phenomenon, traditionally links to the interplay of staggered correlated disorder and hopping dimerization, as indicated by prior research. Contrary to this paradigm, our present study demonstrates that hopping dimerization is not a pivotal factor in realizing RL. Considering a helical magnetic system with antiferromagnetic ordering, we uncover spin-dependent RL at multiple energy regions, in the {\em absence} of hopping dimerization. This phenomenon persists even in the thermodynamic limit. The correlated disorder in the form of Aubry-Andr\'{e}-Harper model is introduced by applying a transverse electric field to the helical system, circumventing the use of traditional substitutional disorder. We conduct a finite-size scaling analysis on the observed reentrant phases to identify critical points, determine associated critical exponents, and examine the scaling behavior linked to localization transitions. Additionally, we explore the parameter space to identify the conditions under which the reentrant phases occur. Described within a tight-binding framework, present work provides a novel outlook on RL, highlighting the crucial role of electric field, antiferromagnetic ordering, and the helicity of the geometry.
翻訳日:2024-08-29 21:19:05 公開日:2024-08-28
# FERGI:自発表情反応によるテキスト・画像生成のためのユーザ嗜好の自動アノテーション

FERGI: Automatic Annotation of User Preferences for Text-to-Image Generation from Spontaneous Facial Expression Reaction ( http://arxiv.org/abs/2312.03187v3 )

ライセンス: Link先を確認
Shuangquan Feng, Junhua Ma, Virginia R. de Sa, (参考訳) 研究者は、人間の嗜好フィードバックのデータを使って、微調整されたテキストから画像への生成モデルを提案する。 しかし、人間のフィードバック収集のスケーラビリティは手動のアノテーションに依存しているため制限されている。 そこで本研究では,生成した画像に対する自然表情反応からユーザの嗜好を自動的に評価する手法を開発し,検証する。 生成画像に対する表情反応(FERGI)のデータセットを収集し,複数の顔行動単位(AU)の活性化が生成画像のユーザ評価と高い相関性を示す。 AU推定モデルから入力を受け取るFAU-Net(Facial Action Units Neural Network)を開発し、入力されたテキストプロンプトと生成された画像に基づいて事前学習された評価モデルと相補的な表情反応に基づいて、テキストから画像生成へのユーザの嗜好を自動的にスコアする。 FAU-Net valenceスコアと事前学習したスコアモデルを統合することで、人間の好みとの一貫性が向上する。 この表情解析による自動アノテーションの方法は、他の世代タスクに一般化することができる。 コードはhttps://github.com/ShuangquanFeng/FERGIで公開されている。

Researchers have proposed to use data of human preference feedback to fine-tune text-to-image generative models. However, the scalability of human feedback collection has been limited by its reliance on manual annotation. Therefore, we develop and test a method to automatically score user preferences from their spontaneous facial expression reaction to the generated images. We collect a dataset of Facial Expression Reaction to Generated Images (FERGI) and show that the activations of multiple facial action units (AUs) are highly correlated with user evaluations of the generated images. We develop an FAU-Net (Facial Action Units Neural Network), which receives inputs from an AU estimation model, to automatically score user preferences for text-to-image generation based on their facial expression reactions, which is complementary to the pre-trained scoring models based on the input text prompts and generated images. Integrating our FAU-Net valence score with the pre-trained scoring models improves their consistency with human preferences. This method of automatic annotation with facial expression analysis can be potentially generalized to other generation tasks. The code is available at https://github.com/ShuangquanFeng/FERGI, and the dataset is also available at the same link for research purposes.
翻訳日:2024-08-29 21:19:05 公開日:2024-08-28
# コンピュータビジョンによる高齢者の行動認識と転倒検出のための深層学習 : システムレビュー

Deep Learning for Computer Vision based Activity Recognition and Fall Detection of the Elderly: a Systematic Review ( http://arxiv.org/abs/2401.11790v2 )

ライセンス: Link先を確認
F. Xavier Gaya-Morey, Cristina Manresa-Yee, Jose M. Buades-Rubio, (参考訳) 先進国の高齢者の割合が世界中で増加するにつれて、この集団の医療は特に自治の維持を含むと懸念される問題となっている。 この方向では、高齢者の自立生活による偏見を軽減するために、AAL(Ambient Assisted Living)システムに関する多くの研究が出版されている。 本研究では,高齢者の転倒検知とHAR(Human Activity Recognition)について,高齢者の安全を確保するための2つの主要な課題として,文献の体系的レビューを行った。 この2つの課題を遂行する現在の傾向に対処するため,コンピュータビジョンデータに対するディープラーニング(DL)に基づくアプローチの活用に焦点をあてた。 さらに、DLモデル、データセット、ハードウェア(例えば深度やサーマルカメラ)などのさまざまなデータコレクションがレビューされた研究から収集され、将来の研究に参考として提供される。 既存のアプローチの強みと弱みについても論じ、それに基づいて今後の研究への推奨事項について述べる。

As the percentage of elderly people in developed countries increases worldwide, the healthcare of this collective is a worrying matter, especially if it includes the preservation of their autonomy. In this direction, many studies are being published on Ambient Assisted Living (AAL) systems, which help to reduce the preoccupations raised by the independent living of the elderly. In this study, a systematic review of the literature is presented on fall detection and Human Activity Recognition (HAR) for the elderly, as the two main tasks to solve to guarantee the safety of elderly people living alone. To address the current tendency to perform these two tasks, the review focuses on the use of Deep Learning (DL) based approaches on computer vision data. In addition, different collections of data like DL models, datasets or hardware (e.g. depth or thermal cameras) are gathered from the reviewed studies and provided for reference in future studies. Strengths and weaknesses of existing approaches are also discussed and, based on them, our recommendations for future works are provided.
翻訳日:2024-08-29 21:19:05 公開日:2024-08-28
# 自動表情認識の人間的類似性を明らかにする:説明可能なAIによる経験的探索

Unveiling the Human-like Similarities of Automatic Facial Expression Recognition: An Empirical Exploration through Explainable AI ( http://arxiv.org/abs/2401.11835v2 )

ライセンス: Link先を確認
F. Xavier Gaya-Morey, Silvia Ramis-Guarinos, Cristina Manresa-Yee, Jose M. Buades-Rubio, (参考訳) 顔の表情認識は人間の行動分析に不可欠であり、深層学習は人間よりも優れたモデルを可能にした。 しかし、それがいかに人間の処理を模倣しているかは明らかではない。 本研究の目的は、汎用オブジェクト分類器とFER特化モデルの両方を含む12の異なるネットワークを比較し、ディープニューラルネットワークと人間の知覚の類似性を検討することである。 我々は、革新的なグローバルな説明可能なAI手法を用いて、熱マップを生成し、6つの表情で訓練された12のネットワークにとって重要な顔領域を明らかにする。 Friesen と Ekman の記述およびそれらの中から,これらの結果を地上の真理マスクと比較し,定量的かつ質的に評価する。 We use Intersection over Union (IoU) and normalized correlation coefficients for comparisons。 72個のヒートマップを生成し、各表現とアーキテクチャの重要な領域をハイライトします。 定性的に、事前トレーニングされた重量を持つモデルは、事前トレーニングされていないモデルと比較して、ヒートマップにおいてより類似性を示す。 特に、目と鼻の領域は特定の表情に影響を与えるが、口はすべてのモデルと表情で一貫して重要である。 定量的には、すべての表現とアーキテクチャで平均IoU値が低い(0.2702)。 最高のパフォーマンスのアーキテクチャは0.3269、最悪のパフォーマンスのアーキテクチャは0.2066である。 正規化相関係数で構築されたデンドログラムは、ほとんどの表現に対して2つの主要なクラスタを明らかにする。 類似のアーキテクチャが類似の顔領域を優先しているため、ネットワークアーキテクチャが類似性に影響を与える。

Facial expression recognition is vital for human behavior analysis, and deep learning has enabled models that can outperform humans. However, it is unclear how closely they mimic human processing. This study aims to explore the similarity between deep neural networks and human perception by comparing twelve different networks, including both general object classifiers and FER-specific models. We employ an innovative global explainable AI method to generate heatmaps, revealing crucial facial regions for the twelve networks trained on six facial expressions. We assess these results both quantitatively and qualitatively, comparing them to ground truth masks based on Friesen and Ekman's description and among them. We use Intersection over Union (IoU) and normalized correlation coefficients for comparisons. We generate 72 heatmaps to highlight critical regions for each expression and architecture. Qualitatively, models with pre-trained weights show more similarity in heatmaps compared to those without pre-training. Specifically, eye and nose areas influence certain facial expressions, while the mouth is consistently important across all models and expressions. Quantitatively, we find low average IoU values (avg. 0.2702) across all expressions and architectures. The best-performing architecture averages 0.3269, while the worst-performing one averages 0.2066. Dendrograms, built with the normalized correlation coefficient, reveal two main clusters for most expressions: models with pre-training and models without pre-training. Findings suggest limited alignment between human and AI facial expression recognition, with network architectures influencing the similarity, as similar architectures prioritize similar facial regions.
翻訳日:2024-08-29 21:19:05 公開日:2024-08-28
# 動的フレーム選択による学習自由行動認識とゴール推論

Training-Free Action Recognition and Goal Inference with Dynamic Frame Selection ( http://arxiv.org/abs/2401.12471v2 )

ライセンス: Link先を確認
Ee Yeo Keat, Zhang Hao, Alexander Matyasko, Basura Fernando, (参考訳) 凍結視覚基礎モデル(VFM)と大規模言語モデル(LLM)を新しい動的フレーム選択モジュールと組み合わせた,トレーニングフリーでオープンなビデオ目標とアクション推論フレームワークであるVidTFSを紹介した。 提案するフレーム選択モジュールは,フレームワークの性能を大幅に向上させることを示す。 提案したVidTFSは,CrossTask,COIN,UCF101,ActivityNetなど,広く使用されている4つのビデオデータセット上で,学習や微調整を必要とせず,オープン語彙設定下での目標推論と行動認識タスクをカバーしている。 その結果、VidTFSは、下流ビデオ推論タスクにおいて、LLMとVFMを直接積み重ねる事前訓練および命令調整型マルチモーダル言語モデルよりも優れていた。 我々のVidTFSとその適応性は、新しいトレーニング不要なビデオ推論タスクへの一般化の可能性を示している。

We introduce VidTFS, a Training-free, open-vocabulary video goal and action inference framework that combines the frozen vision foundational model (VFM) and large language model (LLM) with a novel dynamic Frame Selection module. Our experiments demonstrate that the proposed frame selection module improves the performance of the framework significantly. We validate the performance of the proposed VidTFS on four widely used video datasets, including CrossTask, COIN, UCF101, and ActivityNet, covering goal inference and action recognition tasks under open-vocabulary settings without requiring any training or fine-tuning. The results show that VidTFS outperforms pretrained and instruction-tuned multimodal language models that directly stack LLM and VFM for downstream video inference tasks. Our VidTFS with its adaptability shows the future potential for generalizing to new training-free video inference tasks.
翻訳日:2024-08-29 21:09:20 公開日:2024-08-28
# 認識できないが識別できない:保存埋め込みによる画像歪み

Unrecognizable Yet Identifiable: Image Distortion with Preserved Embeddings ( http://arxiv.org/abs/2401.15048v2 )

ライセンス: Link先を確認
Dmytro Zakharov, Oleksandr Kuznetsov, Emanuele Frontoni, (参考訳) 生体認証システムは、現代のセキュリティシステムにおいて重要な役割を果たす。 しかし、高い認識精度を達成しつつ、プライバシのバランスと保存されたバイオメトリックスのデータの整合性を維持することは、しばしば困難である。 この問題に対処するために、ニューラルネットワークモデルによる識別性を保ちながら、視覚に認識不能な顔画像を効果的にレンダリングする革新的な画像変換技術を導入し、歪んだ写真バージョンをさらなる検証のために保存する。 当初はバイオメトリックスシステムを目的としていたが、提案手法は様々な人工知能アプリケーションで視覚データを歪め、派生した特徴を近接に保つために使用することができる。 広く使われているLFWとMNISTを用いて実験することにより、画像内容が70%以上変化する歪みを、同一の認識精度を維持しながら構築できることが示される。 我々は,従来の最先端手法と比較した。 ソースコードを公開しています。

Biometric authentication systems play a crucial role in modern security systems. However, maintaining the balance of privacy and integrity of stored biometrics derivative data while achieving high recognition accuracy is often challenging. Addressing this issue, we introduce an innovative image transformation technique that effectively renders facial images unrecognizable to the eye while maintaining their identifiability by neural network models, which allows the distorted photo version to be stored for further verification. While initially intended for biometrics systems, the proposed methodology can be used in various artificial intelligence applications to distort the visual data and keep the derived features close. By experimenting with widely used datasets LFW and MNIST, we show that it is possible to build the distortion that changes the image content by more than 70% while maintaining the same recognition accuracy. We compare our method with previously state-of-the-art approaches. We publically release the source code.
翻訳日:2024-08-29 21:09:20 公開日:2024-08-28
# プラケット鎖上の(\mathbf{2+1}$)次元SU(2)格子ゲージ理論の絡み合いエントロピー

Entanglement Entropy of ($\mathbf{2+1}$)-Dimensional SU(2) Lattice Gauge Theory on Plaquette Chains ( http://arxiv.org/abs/2401.15184v4 )

ライセンス: Link先を確認
Lukas Ebner, Andreas Schäfer, Clemens Seidl, Berndt Müller, Xiaojun Yao, (参考訳) 線形ラケット鎖上のハミルトンSU(2)格子ゲージ理論のエンタングルエントロピーを2+1$次元で研究し、基底および励起状態のエンタングルエントロピーがページ曲線に従うことを示す。 基底状態の領域法則から高励起状態の体積法則への絡み合いエントロピーのサブシステムサイズ依存性の遷移は、普遍的クロスオーバー関数によって説明できる。 スペクトルの中央にある量子多体傷は、ゲージ理論がイジングモデルに写像できるヒルベルト空間に存在し、高次の電場表現がヒルベルト空間基底に含まれると消滅する。 これは連続体 $(2+1)$-次元 SU(2) ゲージ理論がそのような不足状態を持たないことを示唆している。

We study the entanglement entropy of Hamiltonian SU(2) lattice gauge theory in $2+1$ dimensions on linear plaquette chains and show that the entanglement entropies of both ground and excited states follow Page curves. The transition of the subsystem size dependence of the entanglement entropy from the area law for the ground state to the volume law for highly excited states is found to be described by a universal crossover function. Quantum many-body scars in the middle of the spectrum, which are present in the electric flux truncated Hilbert space, where the gauge theory can be mapped onto an Ising model, disappear when higher electric field representations are included in the Hilbert space basis. This suggests the continuum $(2+1)$-dimensional SU(2) gauge theory does not have such scarred states.
翻訳日:2024-08-29 21:09:20 公開日:2024-08-28
# 有効生成剤

Affordable Generative Agents ( http://arxiv.org/abs/2402.02053v2 )

ライセンス: Link先を確認
Yangbin Yu, Qin Zhang, Junyou Li, Qiang Fu, Deheng Ye, (参考訳) 大規模言語モデル(LLM)の出現は,対話型エージェントのシミュレーションを大幅に進歩させた。 しかし、長期間にわたるエージェントの相互作用を維持するためのかなりのコストは、信じられないLSMベースのエージェントの配置に挑戦する。 そこで本稿では,エージェント環境とエージェント間の両方のレベルで,信頼性と低コストのインタラクション生成を可能にするフレームワークであるAffordable Generative Agents (AGA) を開発する。 具体的には,エージェントと環境の相互作用において,反復的LLM推論を学習ポリシーに置き換える。エージェント間相互作用ではエージェント間の社会的関係をモデル化し,補助対話情報を圧縮する。 複数の環境における大規模な実験により,提案手法の有効性と有効性を示した。 また, LLM エージェントに潜む創発的行動のメカニズムを解明し, エージェントが一定の環境下で有限な行動しか生成できないことを示す。 私たちのコードは、https://github.com/AffordableGenerative-Agents/Affordable-Generative-Agentsで公開されています。

The emergence of large language models (LLMs) has significantly advanced the simulation of believable interactive agents. However, the substantial cost on maintaining the prolonged agent interactions poses challenge over the deployment of believable LLM-based agents. Therefore, in this paper, we develop Affordable Generative Agents (AGA), a framework for enabling the generation of believable and low-cost interactions on both agent-environment and inter-agents levels. Specifically, for agent-environment interactions, we substitute repetitive LLM inferences with learned policies; while for inter-agent interactions, we model the social relationships between agents and compress auxiliary dialogue information. Extensive experiments on multiple environments show the effectiveness and efficiency of our proposed framework. Also, we delve into the mechanisms of emergent believable behaviors lying in LLM agents, demonstrating that agents can only generate finite behaviors in fixed environments, based upon which, we understand ways to facilitate emergent interaction behaviors. Our code is publicly available at: https://github.com/AffordableGenerativeAgents/Affordable-Generative-Agents.
翻訳日:2024-08-29 21:09:20 公開日:2024-08-28
# 生成型AIエージェント間の秘密の衝突

Secret Collusion among Generative AI Agents ( http://arxiv.org/abs/2402.07510v2 )

ライセンス: Link先を確認
Sumeet Ramesh Motwani, Mikhail Baranchuk, Martin Strohmeier, Vijay Bolina, Philip H. S. Torr, Lewis Hammond, Christian Schroeder de Witt, (参考訳) 近年の大規模言語モデル(LLM)では,コミュニケーション生成AIエージェントのグループによる共同作業の解決が試みられている。 これは、許可されていない情報の共有、その他の不要なエージェント調整に関するプライバシーとセキュリティ上の問題を引き起こす。 現代のステガノグラフィー技術は、そのようなダイナミクスを検出しにくくする。 本稿では,AIとセキュリティの両文献から関連する概念を抽出し,生成型AIエージェントのシステムにおける秘密共謀の問題を包括的に定式化する。 ステガノグラフィーの使用に対するインセンティブについて検討し,様々な緩和策を提案する。 本研究は,様々な形態の秘密照合に必要な機能を体系的に検証するモデル評価フレームワークを実現する。 現代LSMの広範な実験結果を提供する。 現在のモデルではステガノグラフィーの能力は限られているが、GPT-4では、ステガノグラフィー・フロンティアの連続的なモニタリングの必要性が示唆されている。 我々は、生成AIモデル間の共謀のリスクを軽減するための総合的な研究プログラムを策定する。

Recent capability increases in large language models (LLMs) open up applications in which groups of communicating generative AI agents solve joint tasks. This poses privacy and security challenges concerning the unauthorised sharing of information, or other unwanted forms of agent coordination. Modern steganographic techniques could render such dynamics hard to detect. In this paper, we comprehensively formalise the problem of secret collusion in systems of generative AI agents by drawing on relevant concepts from both AI and security literature. We study incentives for the use of steganography, and propose a variety of mitigation measures. Our investigations result in a model evaluation framework that systematically tests capabilities required for various forms of secret collusion. We provide extensive empirical results across a range of contemporary LLMs. While the steganographic capabilities of current models remain limited, GPT-4 displays a capability jump suggesting the need for continuous monitoring of steganographic frontier model capabilities. We conclude by laying out a comprehensive research program to mitigate future risks of collusion between generative AI models.
翻訳日:2024-08-29 21:09:20 公開日:2024-08-28
# リモートセンシング画像における固形廃棄物検出・モニタリング・マッピング

Solid Waste Detection, Monitoring and Mapping in Remote Sensing Images: A Survey ( http://arxiv.org/abs/2402.09066v2 )

ライセンス: Link先を確認
Piero Fraternali, Luca Morandini, Sergio Luis Herrera González, (参考訳) 不法廃棄物処理場の検出と評価は, 環境保護, 特に汚染や健康被害の軽減に不可欠である。 不適切に管理された埋立地は、雨水浸透によって土壌と地下水を汚染し、動物と人間の両方に脅威を与える。 現場検査のような伝統的な埋立地識別アプローチは、時間と費用がかかる。 リモートセンシングは廃棄物処理現場の特定とモニタリングに費用対効果があり, 広範囲のカバレッジと繰り返しの取得を可能にする。 地球観測衛星(EO)は、センサーと撮像機能を備えた衛星で、数十年にわたって高解像度のデータを提供してきた。 研究者らは、リモートセンシング画像を利用して廃棄物検出、投棄現場の監視、新しい埋立地に適した場所の評価など、様々なタスクを実行する技術を提案した。 本総説は, 廃棄物埋立処分場の検出・モニタリングに関する最も関連性の高い提案について, アプローチ, 実装技術, 使用済みデータについて記述し, 比較し, 検討することを目的としている。 さらに, 有効固形廃棄物検出モデルの開発において, データソースが最重要であり, 衛星の概要と公開データセットについて概観する。 最後に, 現状の課題を明らかにするとともに, コスト削減と新規固形廃棄物検出方法の有効性向上に向けた研究の方向性について考察する。

The detection and characterization of illegal solid waste disposal sites are essential for environmental protection, particularly for mitigating pollution and health hazards. Improperly managed landfills contaminate soil and groundwater via rainwater infiltration, posing threats to both animals and humans. Traditional landfill identification approaches, such as on-site inspections, are time-consuming and expensive. Remote sensing is a cost-effective solution for the identification and monitoring of solid waste disposal sites that enables broad coverage and repeated acquisitions over time. Earth Observation (EO) satellites, equipped with an array of sensors and imaging capabilities, have been providing high-resolution data for several decades. Researchers proposed specialized techniques that leverage remote sensing imagery to perform a range of tasks such as waste site detection, dumping site monitoring, and assessment of suitable locations for new landfills. This review aims to provide a detailed illustration of the most relevant proposals for the detection and monitoring of solid waste sites by describing and comparing the approaches, the implemented techniques, and the employed data. Furthermore, since the data sources are of the utmost importance for developing an effective solid waste detection model, a comprehensive overview of the satellites and publicly available data sets is presented. Finally, this paper identifies the open issues in the state-of-the-art and discusses the relevant research directions for reducing the costs and improving the effectiveness of novel solid waste detection methods.
翻訳日:2024-08-29 21:09:20 公開日:2024-08-28
# ダイマー化されたRydberg tweezerアレイにおける相互作用によって保護される量子化されたThoulessポンプ

Quantized Thouless pumps protected by interactions in dimerized Rydberg tweezer arrays ( http://arxiv.org/abs/2402.09311v2 )

ライセンス: Link先を確認
Sergi Julià-Farré, Javier Argüello-Luengo, Loïc Henriet, Alexandre Dauphin, (参考訳) 我々は、Thoulessポンプ、すなわち断熱的トポロジカルトランスポートを、二量体化されたXXZハミルトニアンによって記述された相互作用するスピン鎖で研究する。 非相互作用の場合、量子化されたThoulessポンプは、位相特異点が断熱的に包囲されているときにのみ発生する。 対照的に、相互作用が存在する場合、そのようなトポロジカルトランスポートは、システムが相互作用しない特異点に任意に近づくエキゾチックパスに対して持続することができる。 自発反強磁性絶縁体によって分離された2つの特異点に十分に強い相互作用を与える非相互作用特異点の挙動を通して、これらのエキゾチックなThoulessポンプのロバスト性を説明する。 地上物理とリアルタイム断熱力学のテンソルネットワークシミュレーションを用いて,これらの現象の数値ベンチマークを行う。 最後に,Floquet-driven Rydberg tweezer アレイを用いた実験プロトコルを提案する。

We study Thouless pumps, i.e., adiabatic topological transport, in an interacting spin chain described by the dimerized XXZ Hamiltonian. In the noninteracting case, quantized Thouless pumps can only occur when a topological singularity is encircled adiabatically. In contrast, here we show that, in the presence of interactions, such topological transport can even persist for exotic paths in which the system gets arbitrarily close to the noninteracting singularity. We illustrate the robustness of these exotic Thouless pumps through the behavior of the noninteracting singularity, which for sufficiently strong interactions splits into two singularities separated by a spontaneous antiferromagnetic insulator. We perform a numerical benchmark of these phenomena by means of tensor network simulations of ground-state physics and real-time adiabatic dynamics. Finally, we propose an experimental protocol with Floquet-driven Rydberg tweezer arrays.
翻訳日:2024-08-29 21:09:20 公開日:2024-08-28
# 世代交叉ネットワーク識別器における病態バイアスの検討:StyleGAN3モデルによる検討

Examining Pathological Bias in a Generative Adversarial Network Discriminator: A Case Study on a StyleGAN3 Model ( http://arxiv.org/abs/2402.09786v4 )

ライセンス: Link先を確認
Alvin Grissom II, Ryan F. Lei, Matt Gusdorff, Jeova Farias Sales Rocha Neto, Bailey Lin, Ryan Trotter, (参考訳) GAN(Generative Adversarial Network)は、実際の顔から人間に区別できない、フォトリアリスティックな顔を生成する。 機械学習モデルのバイアスは、トレーニングデータのバイアスによるものと推定されることが多いが、トレーニングデータでは説明できない事前訓練されたStyleGAN3-rモデルの判別器において、病理的な内部色と輝度バイアスが見つかる。 また、判別器は、画像レベルと顔レベルの両方の品質でスコアを体系的に階層化し、不均等に性別、人種、その他のカテゴリーのイメージに影響を及ぼすことも見出した。 社会心理学におけるステレオタイピングの研究に共通する軸について検討する。

Generative adversarial networks (GANs) generate photorealistic faces that are often indistinguishable by humans from real faces. While biases in machine learning models are often assumed to be due to biases in training data, we find pathological internal color and luminance biases in the discriminator of a pre-trained StyleGAN3-r model that are not explicable by the training data. We also find that the discriminator systematically stratifies scores by both image- and face-level qualities and that this disproportionately affects images across gender, race, and other categories. We examine axes common in research on stereotyping in social psychology.
翻訳日:2024-08-29 21:09:20 公開日:2024-08-28
# 機械学習による大規模言語モデルに対する事前学習の影響の解明

Deciphering the Impact of Pretraining Data on Large Language Models through Machine Unlearning ( http://arxiv.org/abs/2402.11537v3 )

ライセンス: Link先を確認
Yang Zhao, Li Du, Xiao Ding, Kai Xiong, Zhouhao Sun, Jun Shi, Ting Liu, Bing Qin, (参考訳) 様々なソースを持つコーパスでの事前トレーニングを通じて、Large Language Models (LLMs) は印象的なパフォーマンスを得た。 しかし,プレトレーニングコーパスの各成分の影響はいまだに不透明である。 結果として、プレトレーニングコーパスの組織は、まだ経験的であり、最適から逸脱する可能性がある。 この問題に対処するために, LLMの事前学習データ5つの主要なカテゴリから48のデータセットが与える影響を系統的に分析し, モデル能力の9つの主要なカテゴリに関するベンチマークを用いてLLMへの影響を測定する。 本研究は, 複数コーパスがLLMの性能に与える影響と, 相補関係, 直交関係, 相関関係など, 共同的な影響パターンについて実験的に検討した。 また、モデル機能のセットに大きく関連しているBooksのような‘high-impact data’のセットも特定します。 これらの知見は、LLMのより効率的な事前トレーニングを支援するために、データの組織化に関する洞察を提供する。

Through pretraining on a corpus with various sources, Large Language Models (LLMs) have gained impressive performance. However, the impact of each component of the pretraining corpus remains opaque. As a result, the organization of the pretraining corpus is still empirical and may deviate from the optimal. To address this issue, we systematically analyze the impact of 48 datasets from 5 major categories of pretraining data of LLMs and measure their impacts on LLMs using benchmarks about nine major categories of model capabilities. Our analyses provide empirical results about the contribution of multiple corpora on the performances of LLMs, along with their joint impact patterns, including complementary, orthogonal, and correlational relationships. We also identify a set of ``high-impact data'' such as Books that is significantly related to a set of model capabilities. These findings provide insights into the organization of data to support more efficient pretraining of LLMs.
翻訳日:2024-08-29 21:09:20 公開日:2024-08-28
# SCARF: 生産時ハードウェアトロイの木馬に対するロバストフレームワークによるセキュアチップ

SCARF: Securing Chips with a Robust Framework against Fabrication-time Hardware Trojans ( http://arxiv.org/abs/2402.12162v2 )

ライセンス: Link先を確認
Mohammad Eslami, Tara Ghasempouri, Samuel Pagliarini, (参考訳) 半導体産業のグローバル化は、IC(Integrated Circuits)、特にハードウェアトロイの木馬(HT)の脅威に関連するセキュリティ問題を導入している。 ICの正しさと信頼性を検証するために多大な努力が払われているが、セキュリティは見過ごされがちである。 本稿では,設計のフロントエンドからバックエンドまでのICセキュリティを強化するための包括的アプローチを提案する。 まず,検証アサーションを再利用することで,既存の検証アセットを強力なセキュリティチェッカーに変換するシステムについて概説する。 セキュリティをさらに向上するために,物理合成中にオンラインモニタを統合する革新的な技術を導入する。 実験の結果,導入した基準であるセキュリティカバー (SC) によって測定されたセキュリティの著しい増加を示し,面積と消費電力は20%以下であった。 物理合成中のオンラインモニターの挿入により、セキュリティ指標が最大33.5%向上する。 この総合的なアプローチは、IC設計の全スペクトルにわたって包括的で弾力的な防御機構を提供する。

The globalization of the semiconductor industry has introduced security challenges to Integrated Circuits (ICs), particularly those related to the threat of Hardware Trojans (HTs) - malicious logic that can be introduced during IC fabrication. While significant efforts are directed towards verifying the correctness and reliability of ICs, their security is often overlooked. In this paper, we propose a comprehensive approach to enhance IC security from the front-end to back-end stages of design. Initially, we outline a systematic method to transform existing verification assets into potent security checkers by repurposing verification assertions. To further improve security, we introduce an innovative technique for integrating online monitors during physical synthesis - a back-end insertion providing an additional layer of defense. Experimental results demonstrate a significant increase in security, measured by our introduced metric, Security Coverage (SC), with a marginal rise in area and power consumption, typically under 20%. The insertion of online monitors during physical synthesis enhances security metrics by up to 33.5%. This holistic approach offers a comprehensive and resilient defense mechanism across the entire spectrum of IC design.
翻訳日:2024-08-29 21:09:20 公開日:2024-08-28
# 役割に固執! 大規模言語モデルで表現される個人的価値の安定性

Stick to your Role! Stability of Personal Values Expressed in Large Language Models ( http://arxiv.org/abs/2402.14846v4 )

ライセンス: Link先を確認
Grgur Kovač, Rémy Portelas, Masataka Sawayama, Peter Ford Dominey, Pierre-Yves Oudeyer, (参考訳) ベンチマークや心理調査でLLM(Large Language Models)を研究する標準的な方法は、同様の最小限のコンテキスト(例えば複数の選択質問)から多くの異なるクエリを提供することである。 しかし、LLMの高度にコンテキストに依存した性質のため、そのような最小限のコンテキスト評価からの結論は、デプロイ中のモデルの振る舞い(多くの新しいコンテキストに露呈する)についてほとんど情報がないかもしれない。 我々は、文脈依存(特に価値安定性)は、LLMの特定の特性として研究されるべきであり、LLMの比較の別の次元(認知能力、知識、モデルサイズなど)として使用されるべきであると論じる。 本稿では,標準的な心理質問紙(PVQ)と行動下流タスクを用いて,異なる文脈(異なる話題に関する模擬会話)における価値表現の安定性について事例研究を行った。 心理学的手法を用いて,集団(対人)レベルでのランク順の安定性,個人(対人)レベルでのIpsative stabilityについて検討した。 2つの設定(LLMに特定のペルソナをシミュレートするよう指示しない)、2つのシミュレートされた集団、そして3つの下流タスクについて検討する。 LLaMa-2 や Phi よりも混合系,ミストラル系, GPT-3.5 および Qwen 系の方が安定である。 これらの傾向の整合性は、いくつかのモデルが他のモデルよりも高い価値安定性を示し、導入した方法論ツールのセットで安定性を推定できることを示している。 特定のペルソナをシミュレートするように指示されると、LLMは低いランク順安定性を示し、会話の長さによってさらに減少する。 これは、異なるペルソナをコヒーレントにシミュレートするLSMに関する将来の研究の必要性を強調している。 本稿は、その方向性の基本的なステップを提供し、我々の知る限り、LLMにおける価値の安定性に関する最初の研究である。

The standard way to study Large Language Models (LLMs) with benchmarks or psychology questionnaires is to provide many different queries from similar minimal contexts (e.g. multiple choice questions). However, due to LLMs' highly context-dependent nature, conclusions from such minimal-context evaluations may be little informative about the model's behavior in deployment (where it will be exposed to many new contexts). We argue that context-dependence (specifically, value stability) should be studied as a specific property of LLMs and used as another dimension of LLM comparison (alongside others such as cognitive abilities, knowledge, or model size). We present a case-study on the stability of value expression over different contexts (simulated conversations on different topics) as measured using a standard psychology questionnaire (PVQ) and on behavioral downstream tasks. Reusing methods from psychology, we study Rank-order stability on the population (interpersonal) level, and Ipsative stability on the individual (intrapersonal) level. We consider two settings (with and without instructing LLMs to simulate particular personas), two simulated populations, and three downstream tasks. We observe consistent trends in the stability of models and model families - Mixtral, Mistral, GPT-3.5 and Qwen families are more stable than LLaMa-2 and Phi. The consistency of these trends implies that some models exhibit higher value stability than others, and that stability can be estimated with the set of introduced methodological tools. When instructed to simulate particular personas, LLMs exhibit low Rank-order stability, which further diminishes with conversation length. This highlights the need for future research on LLMs that coherently simulate different personas. This paper provides a foundational step in that direction, and, to our knowledge, it is the first study of value stability in LLMs.
翻訳日:2024-08-29 21:09:20 公開日:2024-08-28
# Leapに先立ち - 大規模言語モデルのための意思決定と一般化可能なツール利用を目指して

Look Before You Leap: Towards Decision-Aware and Generalizable Tool-Usage for Large Language Models ( http://arxiv.org/abs/2402.16696v3 )

ライセンス: Link先を確認
Anchun Gui, Jian Li, Yong Dai, Nan Du, Han Xiao, (参考訳) ツール強化された大規模言語モデル(LLM)は、最新の知識にアクセスし、幻覚を緩和する際に広く注目を集めている。 今日では、高度なクローズドソース LLM (例: ChatGPT) は、プロンプトやコンテキスト内学習技術を通じて、驚くほどのツール使用能力を誇示している。 ツールを操作するためのオープンソースのLLM(例:LLaMA)の能力を強化するため、現在の取り組みはテンプレート駆動またはトークントリガーツールの使用に重点を置いている。 しかしながら、制約されたツールインタラクションによる多様なユーザクエリに対処する、以前のLLMの柔軟性は、ツール使用学習がタスクとツール固有のデータセットに基づいているため、新しいツールを使用する際の一般化性を制限している。 本稿では,これらの懸念を軽減するために,DeER(Decior-aware and generalizable tool-usage framework)を提案する。 具体的には、まず、自動生成パイプラインを介して複数の意思決定ブランチを持つツール使用サンプルを構築し、多様なシナリオ下でのLCMの意思決定意識を刺激する。 一方,LLMの非表示ツールに対する一般化性を高めるための新しいツールサンプリング手法を提案する。 大規模な実験により、提案したDEERは、様々なデータセットのベースラインよりも効果的で、はるかに優れています。

Tool-augmented large language models (LLMs) are attracting widespread attention when accessing up-to-date knowledge and alleviating hallucination issues. Nowadays, advanced closed-source LLMs (e.g., ChatGPT) have demonstrated surprising tool-usage capabilities through prompting and in-context learning techniques. To empower the capabilities of open-source LLMs (e.g., LLaMA) in manipulating tools, current efforts focus on either template-driven or token-triggered tool-usage. However, the former hampers LLMs' flexibility to address diverse user's queries due to constrained tool interactions, while the latter limits the generalizability when engaging with new tools, since tool-usage learning is based on task- and tool-specific datasets. To alleviate these concerns, in this paper, we propose a decision-aware and generalizable tool-usage framework (DEER). Specifically, we first construct the tool-usage samples with multiple decision branches via an automatic generation pipeline, thereby inspiring the decision-making awareness of LLMs under diverse scenarios. Meanwhile, we propose a novel tool sampling strategy to enhance the generalizability of LLMs over unseen tools. Extensive experiments demonstrate that our proposed DEER is effective and significantly outperforms baselines across various datasets.
翻訳日:2024-08-29 21:09:20 公開日:2024-08-28
# ニューロシンボリック生成剤による手続き的密着性と解釈可能性

Procedural Adherence and Interpretability Through Neuro-Symbolic Generative Agents ( http://arxiv.org/abs/2402.16905v2 )

ライセンス: Link先を確認
Raven Rothkopf, Hannah Tongxin Zeng, Mark Santolucito, (参考訳) 大規模言語モデル(LLM)の人気が高まり、対話型エージェントの開発への新たなアプローチの扉が開かれた。 しかし、そのようなエージェントの時間的挙動の管理と解釈は、潜在的に無限の相互作用の過程で難しいままである。 コヒーレントエージェントの動作に必要なステートフルで長期の地平線推論は、LLMパラダイムには適していない。 本稿では,形式論理に基づくプログラム合成とLCMコンテンツ生成を組み合わせることで,生成エージェントの動作に対する手続き的順守と解釈可能性の保証を実現する。 手続き的付着と解釈可能性の利点を説明するために,エージェントに解釈可能な高レベル時間構造を強制するオートマトンを生成するためにテンポラルストリーム論理(TSL)を用いる。 インタラクションのコンテキストを自動で追跡し、それに従って会話をガイドする決定を行うことで、LLMがより短いコンテキストウィンドウに集中できるように、コンテンツ生成を推進できます。 我々は,ゲーム生成に特化した対話型エージェントの開発に関わるさまざまなタスクに対するアプローチを評価した。 すべてのタスクにおいて、手続き的保証を持つオートマトン強化エージェントは、その時間的制約に少なくとも96%の順守を達成するのに対し、LLMベースのエージェントは14.67%の順守を示した。

The surge in popularity of large language models (LLMs) has opened doors for new approaches to the creation of interactive agents. However, managing and interpreting the temporal behavior of such agents over the course of a potentially infinite interaction remain challenging. The stateful, long-term horizon reasoning required for coherent agent behavior does not fit well into the LLM paradigm. We propose a combination of formal logic-based program synthesis and LLM content generation to bring guarantees of procedural adherence and interpretability to generative agent behavior. To illustrate the benefit of procedural adherence and interpretability, we use Temporal Stream Logic (TSL) to generate an automaton that enforces an interpretable, high-level temporal structure on an agent. With the automaton tracking the context of the interaction and making decisions to guide the conversation accordingly, we can drive content generation in a way that allows the LLM to focus on a shorter context window. We evaluated our approach on different tasks involved in creating an interactive agent specialized for generating choose-your-own-adventure games. We found that over all of the tasks, an automaton-enhanced agent with procedural guarantees achieves at least 96% adherence to its temporal constraints, whereas a purely LLM-based agent demonstrates as low as 14.67% adherence.
翻訳日:2024-08-29 21:09:20 公開日:2024-08-28
# ControlNetが不明瞭なマスクと出会う:ControlNetの輪郭追従能力に関する事例研究

When ControlNet Meets Inexplicit Masks: A Case Study of ControlNet on its Contour-following Ability ( http://arxiv.org/abs/2403.00467v2 )

ライセンス: Link先を確認
Wenjie Xuan, Yufei Xu, Shanshan Zhao, Chaoyue Wang, Juhua Liu, Bo Du, Dacheng Tao, (参考訳) ControlNetは、ユーザーが提供するマスクの正確な輪郭と密に一致したコンテンツを作成するのに長けている。 しかし、これらのマスクがノイズを含む場合、非専門家で頻繁に発生するため、出力には不要なアーティファクトが含まれる。 筆者らはまず, 深部分析により, 種々の劣化レベルを有する非説明マスクの影響を抑える上で重要な役割について述べる。 その後、不特定マスクによる制御性を高めるため、劣化推定器と形状優先変調ブロックからなる高度な形状認識制御ネットを考案した。 劣化推定器は、供給されたマスクの劣化係数を評価する。 そして、この因子を変調ブロックに利用して、モデルの輪郭追従能力を適応的に変調し、不特定マスクのノイズ部分を除去する。 広範囲にわたる実験は、制御ネットが与えられた輪郭を盲目的に追従するのではなく、不正確な空間条件を頑健に解釈することを奨励する効果を証明している。 形状の事前変更や構成可能な形状制御可能な生成といったアプリケーションシナリオを紹介します。 コードも間もなく利用可能になる。

ControlNet excels at creating content that closely matches precise contours in user-provided masks. However, when these masks contain noise, as a frequent occurrence with non-expert users, the output would include unwanted artifacts. This paper first highlights the crucial role of controlling the impact of these inexplicit masks with diverse deterioration levels through in-depth analysis. Subsequently, to enhance controllability with inexplicit masks, an advanced Shape-aware ControlNet consisting of a deterioration estimator and a shape-prior modulation block is devised. The deterioration estimator assesses the deterioration factor of the provided masks. Then this factor is utilized in the modulation block to adaptively modulate the model's contour-following ability, which helps it dismiss the noise part in the inexplicit masks. Extensive experiments prove its effectiveness in encouraging ControlNet to interpret inaccurate spatial conditions robustly rather than blindly following the given contours. We showcase application scenarios like modifying shape priors and composable shape-controllable generation. Codes are soon available.
翻訳日:2024-08-29 21:09:20 公開日:2024-08-28
# MolNexTR:分子画像認識のための一般化ディープラーニングモデル

MolNexTR: A Generalized Deep Learning Model for Molecular Image Recognition ( http://arxiv.org/abs/2403.03691v3 )

ライセンス: Link先を確認
Yufan Chen, Ching Ting Leung, Yong Huang, Jianwei Sun, Hao Chen, Hanyu Gao, (参考訳) 化学構造認識の分野では、分子画像をSMILES文字列などの機械可読データ形式に変換するタスクは、主に化学文献で広く見られる様々な描画スタイルや規則のために重要な課題である。 このギャップを埋めるため、我々は、強力な畳み込みニューラルネットワークであるConvNextとVision-TRansformerの強みを融合させる新しい画像-グラフ深層学習モデルであるMolNexTRを提案した。 この統合により、分子画像から局所的特徴と大域的特徴の両方をより詳細に抽出することができる。 MolNexTRは原子と結合を同時に予測し、それらの配置規則を理解することができる。 また、シンボリック化学の原理を柔軟に統合し、キラリティを識別し、短縮構造を解読する能力も優れている。 さらに、改良されたデータ拡張モジュール、画像汚染モジュール、最終的なSMILES出力を得るための後処理モジュールを含む、一連の高度なアルゴリズムを組み込んだ。 これらのモジュールは、実際の文献に見られる多様な分子画像のスタイルに対するモデルの堅牢性を高めるために協力する。 本試験では, 分子構造認識の領域において, 81~97%の精度を達成し, 優れた性能を示した。

In the field of chemical structure recognition, the task of converting molecular images into machine-readable data formats such as SMILES string stands as a significant challenge, primarily due to the varied drawing styles and conventions prevalent in chemical literature. To bridge this gap, we proposed MolNexTR, a novel image-to-graph deep learning model that collaborates to fuse the strengths of ConvNext, a powerful Convolutional Neural Network variant, and Vision-TRansformer. This integration facilitates a more detailed extraction of both local and global features from molecular images. MolNexTR can predict atoms and bonds simultaneously and understand their layout rules. It also excels at flexibly integrating symbolic chemistry principles to discern chirality and decipher abbreviated structures. We further incorporate a series of advanced algorithms, including an improved data augmentation module, an image contamination module, and a post-processing module for getting the final SMILES output. These modules cooperate to enhance the model's robustness to diverse styles of molecular images found in real literature. In our test sets, MolNexTR has demonstrated superior performance, achieving an accuracy rate of 81-97%, marking a significant advancement in the domain of molecular structure recognition.
翻訳日:2024-08-29 20:59:10 公開日:2024-08-28
# BCI-EEG復号のための位相空間に基づく幾何学的ニューラルネットワーク

Geometric Neural Network based on Phase Space for BCI-EEG decoding ( http://arxiv.org/abs/2403.05645v3 )

ライセンス: Link先を確認
Igor Carrara, Bruno Aristimunha, Marie-Constance Corsi, Raphael Y. de Camargo, Sylvain Chevallier, Théodore Papadopoulo, (参考訳) 目的:脳信号解析におけるディープラーニング(DL)アルゴリズムの統合は、コンピュータビジョンのような分野での成功と比較して、まだ初期段階にある。 これはBCIにおいて特に当てはまり、脳活動は筋肉の制御を必要とせずに外部デバイスを制御するためにデコードされる。 脳波検査(EEG)は、非侵襲的で費用効果の高い性質と時間分解能の優れたBCIシステムを設計するために広く採用されている選択である。 それでも、限られたトレーニングデータ、信号とノイズの低さ、およびオブジェクト内およびオブジェクト間の大きなばらつきを犠牲にしている。 最後に、多くの電極でBCIシステムを構築するには長い時間がかかるため、研究所外のBCIで信頼性の高いDLアーキテクチャが広く採用されるのを妨げている。 採用を改善するためには、例えば、少数の電極で動作する信頼性の高いアルゴリズムを使用して、ユーザの快適さを改善する必要がある。 アプローチ: 本研究の目的は, 限られた電極数で効率的な結果を提供するDLアルゴリズムの開発である。 拡張共分散法とSPDNetの枠組みを活かして、位相SPDNetアーキテクチャを提案し、その性能と結果の解釈可能性について分析する。 評価は5倍のクロスバリデーションで行われ、モータコルテックス上に位置する電極は3つしかない。 この方法論は、MOABB(Mother Of All BCI Benchmark)フレームワークを使用して、オープンソースのデータセットから100近い被験者でテストされた。 主な結果: フェーズSPDNetの結果は、SPDNetと組み合わせた拡張アプローチがMI復号化における現在のDLアーキテクチャを著しく上回っていることを示している。 意義:この新しいアーキテクチャは説明可能で、トレーニング可能なパラメータの数は少ない。

Objective: The integration of Deep Learning (DL) algorithms on brain signal analysis is still in its nascent stages compared to their success in fields like Computer Vision. This is particularly true for BCI, where the brain activity is decoded to control external devices without requiring muscle control. Electroencephalography (EEG) is a widely adopted choice for designing BCI systems due to its non-invasive and cost-effective nature and excellent temporal resolution. Still, it comes at the expense of limited training data, poor signal-to-noise, and a large variability across and within-subject recordings. Finally, setting up a BCI system with many electrodes takes a long time, hindering the widespread adoption of reliable DL architectures in BCIs outside research laboratories. To improve adoption, we need to improve user comfort using, for instance, reliable algorithms that operate with few electrodes. Approach: Our research aims to develop a DL algorithm that delivers effective results with a limited number of electrodes. Taking advantage of the Augmented Covariance Method and the framework of SPDNet, we propose the Phase-SPDNet architecture and analyze its performance and the interpretability of the results. The evaluation is conducted on 5-fold cross-validation, using only three electrodes positioned above the Motor Cortex. The methodology was tested on nearly 100 subjects from several open-source datasets using the Mother Of All BCI Benchmark (MOABB) framework. Main results: The results of our Phase-SPDNet demonstrate that the augmented approach combined with the SPDNet significantly outperforms all the current state-of-the-art DL architecture in MI decoding. Significance: This new architecture is explainable and with a low number of trainable parameters.
翻訳日:2024-08-29 20:59:10 公開日:2024-08-28
# 時空間時系列インプットのための因果性を考慮した時空間グラフニューラルネットワーク

Causality-Aware Spatiotemporal Graph Neural Networks for Spatiotemporal Time Series Imputation ( http://arxiv.org/abs/2403.11960v3 )

ライセンス: Link先を確認
Baoyu Jing, Dawei Zhou, Kan Ren, Carl Yang, (参考訳) 時空間の時系列は通常、異なる場所に配置されたセンサーを通して収集される。 時系列を分析するには、欠落した値に対処することが重要です。 特定のデータポイントを回復する際、ほとんどの既存手法は、原因と効果の関係にかかわらず、そのポイントに関連するすべての情報を考慮します。 データ収集の過程では、例えば時系列のバックグラウンドノイズや、構築されたセンサネットワーク内の非因果的ショートカットエッジなど、未知の共同創設者が含まれていることは避けられない。 これらの共同設立者は、バックドアパスを開き、インプットとアウトプットの非因果関係を確立することができる。 これらの非因果関係の過剰な発見は過度な適合を引き起こす可能性がある。 本稿では、まず、因果的視点から時空間時系列計算を再考し、正面調整による共同設立者をブロックする方法を示す。 本稿では,前庭調整の結果をもとに,新しいPrompt Based Decoder (PBD) とSpatiotemporal Causal Attention (SCA) を含む,Causality-Aware Spatiotemporal Graph Neural Network (Casper) を紹介する。 PBDは共同設立者の影響を減らし、SCAは埋め込み間の微妙な因果関係を発見する可能性がある。 理論的解析によると、SCAは勾配の値に基づいて因果関係を発見する。 我々は,実世界の3つのデータセット上でCasperを評価し,実験結果から,Casperがベースラインを上回り,因果関係を効果的に発見できることが示唆された。

Spatiotemporal time series are usually collected via monitoring sensors placed at different locations, which usually contain missing values due to various failures, such as mechanical damages and Internet outages. Imputing the missing values is crucial for analyzing time series. When recovering a specific data point, most existing methods consider all the information relevant to that point regardless of the cause-and-effect relationship. During data collection, it is inevitable that some unknown confounders are included, e.g., background noise in time series and non-causal shortcut edges in the constructed sensor network. These confounders could open backdoor paths and establish non-causal correlations between the input and output. Over-exploiting these non-causal correlations could cause overfitting. In this paper, we first revisit spatiotemporal time series imputation from a causal perspective and show how to block the confounders via the frontdoor adjustment. Based on the results of frontdoor adjustment, we introduce a novel Causality-Aware Spatiotemporal Graph Neural Network (Casper), which contains a novel Prompt Based Decoder (PBD) and a Spatiotemporal Causal Attention (SCA). PBD could reduce the impact of confounders and SCA could discover the sparse causal relationships among embeddings. Theoretical analysis reveals that SCA discovers causal relationships based on the values of gradients. We evaluate Casper on three real-world datasets, and the experimental results show that Casper could outperform the baselines and could effectively discover causal relationships.
翻訳日:2024-08-29 20:59:10 公開日:2024-08-28
# eRST:対話関係と組織に関するグラフ理論

eRST: A Signaled Graph Theory of Discourse Relations and Organization ( http://arxiv.org/abs/2403.13560v2 )

ライセンス: Link先を確認
Amir Zeldes, Tatsuya Aoyama, Yang Janet Liu, Siyao Peng, Debopam Das, Luke Gessler, (参考訳) 本稿では、RST(Rhetorical Structure Theory)の拡張に基づく計算談話分析のための新しい理論フレームワークである拡張修辞構造理論(eRST)を提案する。 このフレームワークは、木を破る、非計画的、並行的な関係を持つ談話関係グラフと、分析に説明可能な合理性を与える暗黙的、明示的な信号を含む。 本稿では,RSTおよび既存のフレームワーク,例えばSegmented Discourse Representation Theory (SDRT), Penn Discourse Treebank (PDTB), Discourse Dependencies の欠点を調査し,提案理論の構成要素を用いてこれらに対処する。 我々は、データのためのアノテーション、検索、可視化ツールを提供し、フレームワークによって注釈付けされた英語の無料コーパスを提示し、評価する。 最後に、我々のフレームワークにおけるデータの自動解析、評価指標、アプリケーションについて論じる。

In this article we present Enhanced Rhetorical Structure Theory (eRST), a new theoretical framework for computational discourse analysis, based on an expansion of Rhetorical Structure Theory (RST). The framework encompasses discourse relation graphs with tree-breaking, non-projective and concurrent relations, as well as implicit and explicit signals which give explainable rationales to our analyses. We survey shortcomings of RST and other existing frameworks, such as Segmented Discourse Representation Theory (SDRT), the Penn Discourse Treebank (PDTB) and Discourse Dependencies, and address these using constructs in the proposed theory. We provide annotation, search and visualization tools for data, and present and evaluate a freely available corpus of English annotated according to our framework, encompassing 12 spoken and written genres with over 200K tokens. Finally, we discuss automatic parsing, evaluation metrics and applications for data in our framework.
翻訳日:2024-08-29 20:59:10 公開日:2024-08-28
# many-hypercube codes: High-rate quantum error-correcting codes for high- Performance fault-tolerant quantum computing

Many-hypercube codes: High-rate quantum error-correcting codes for high-performance fault-tolerant quantum computing ( http://arxiv.org/abs/2403.16054v3 )

ライセンス: Link先を確認
Hayato Goto, (参考訳) フォールトトレラント量子コンピューティングにおける量子エラー補正の標準的なアプローチは、単一の論理量子ビットを多くの物理ビットに符号化することに基づいている。 この問題を解決するために、量子低密度パリティチェック符号のような高速量子符号が過去10年間にわたって研究されてきた。 しかし、この場合、低オーバーヘッドを維持しながら論理ゲートを並列に実行することは困難である。 本稿では,高速量子符号の新たなファミリとして,小型量子誤り検出符号の連結化を提案する。 これらの単純な構造は、論理キュービットに対応するハイパーキューブを用いた幾何学的解釈を可能にする。 したがって、私たちはそれらを多くのハイパーキューブコードと呼ぶ。 彼らは高いレート、例えば、30%(64個の論理量子ビットは216個の物理ビットに符号化される)と論理ゲートの並列化の両方を実現することができる。 専用デコーダとエンコーダを開発し,回路レベルのノイズモデルにおいても高い誤差閾値を実現する。 したがって、多くのハイパーキューブ符号は、高性能なフォールトトレラント量子コンピューティングへの道を開くことになる。

Standard approaches to quantum error correction for fault-tolerant quantum computing are based on encoding a single logical qubit into many physical ones, resulting in asymptotically zero encoding rates and therefore huge resource overheads. To overcome this issue, high-rate quantum codes, such as quantum low-density parity-check codes, have been studied over the past decade. In this case, however, it is difficult to perform logical gates in parallel while maintaining low overheads. Here we propose concatenated high-rate small-size quantum error-detecting codes as a new family of high-rate quantum codes. Their simple structure allows for a geometrical interpretation using hypercubes corresponding to logical qubits. We thus call them many-hypercube codes. They can realize both high rates, e.g., 30% (64 logical qubits are encoded into 216 physical ones), and parallelizability of logical gates. Developing dedicated decoder and encoders, we achieve high error thresholds even in a circuit-level noise model. Thus, the many-hypercube codes will pave the way to high-performance fault-tolerant quantum computing.
翻訳日:2024-08-29 20:59:10 公開日:2024-08-28
# DeepMIF:大規模LiDAR3Dマッピングのためのディープモノトニックインシシシトフィールド

DeepMIF: Deep Monotonic Implicit Fields for Large-Scale LiDAR 3D Mapping ( http://arxiv.org/abs/2403.17550v2 )

ライセンス: Link先を確認
Kutay Yılmaz, Matthias Nießner, Anastasiia Kornilova, Alexey Artemov, (参考訳) 近年、特にLiDARセンサのような近代的な取得装置を用いて、実際の屋外3D環境を検知する大きな進歩が達成されている。 残念ながら、それらは基本的に、密集した完全な3Dシーンを生成する能力に制限されている。 この問題に対処するため、近年の学習ベース手法では、ニューラル暗黙表現と最適化可能な特徴グリッドを統合して、3Dシーンの表面を近似する。 しかし, 生のLiDAR線に沿った試料は, スパースの性質からノイズの多い3次元マッピング結果をもたらす。 代わりに、この作業では、正確にLiDARデータをフィッティングすることから離れ、代わりにネットワークは3D空間で定義された非メトリックモノトニックな暗黙の場を最適化する。 本研究は,ニューラルモノトニック場を最適化し,大規模3次元マッピングの最近の進歩を生かしたモノトニック性損失を学習システムとして設計する。 提案アルゴリズムは,Mai City, Newer College, KITTIベンチマークで得られた複数の量的および知覚的測定値と視覚的結果を用いて,高品質な高密度3Dマッピング性能を実現する。 このアプローチのコードは公開されます。

Recently, significant progress has been achieved in sensing real large-scale outdoor 3D environments, particularly by using modern acquisition equipment such as LiDAR sensors. Unfortunately, they are fundamentally limited in their ability to produce dense, complete 3D scenes. To address this issue, recent learning-based methods integrate neural implicit representations and optimizable feature grids to approximate surfaces of 3D scenes. However, naively fitting samples along raw LiDAR rays leads to noisy 3D mapping results due to the nature of sparse, conflicting LiDAR measurements. Instead, in this work we depart from fitting LiDAR data exactly, instead letting the network optimize a non-metric monotonic implicit field defined in 3D space. To fit our field, we design a learning system integrating a monotonicity loss that enables optimizing neural monotonic fields and leverages recent progress in large-scale 3D mapping. Our algorithm achieves high-quality dense 3D mapping performance as captured by multiple quantitative and perceptual measures and visual results obtained for Mai City, Newer College, and KITTI benchmarks. The code of our approach will be made publicly available.
翻訳日:2024-08-29 20:59:10 公開日:2024-08-28
# 拡散モデルからのスタイル模倣に対する知覚不能な防御

Imperceptible Protection against Style Imitation from Diffusion Models ( http://arxiv.org/abs/2403.19254v2 )

ライセンス: Link先を確認
Namhyuk Ahn, Wonhyuk Ahn, KiYoon Yoo, Daesik Kim, Seung-Hun Nam, (参考訳) 拡散モデルの最近の進歩は、画像生成の忠実性を大幅に向上させてきたが、著作権侵害に対する懸念が高まっている。 それまでの手法では、スタイルの模倣を防ぐために対向的摂動を導入してきたが、そのほとんどは、美術品の視覚的品質の低下に伴うものである。 これを維持することの重要性を認識し、保護能力を保ちながら視覚的に改善された保護方法を導入する。 この目的のために,人間の目に敏感な領域をハイライトする知覚マップを考案した。 また,これに基づく強度の保護と動的調整がいかに難しいかを予測することで,難易度対応の保護も導入する。 最後に、知覚的制約バンクを統合して、認識不能性をさらに改善する。 その結果,保護効果を損なうことなく,保護画像の品質を著しく向上させることがわかった。

Recent progress in diffusion models has profoundly enhanced the fidelity of image generation, but it has raised concerns about copyright infringements. While prior methods have introduced adversarial perturbations to prevent style imitation, most are accompanied by the degradation of artworks' visual quality. Recognizing the importance of maintaining this, we introduce a visually improved protection method while preserving its protection capability. To this end, we devise a perceptual map to highlight areas sensitive to human eyes, guided by instance-aware refinement, which refines the protection intensity accordingly. We also introduce a difficulty-aware protection by predicting how difficult the artwork is to protect and dynamically adjusting the intensity based on this. Lastly, we integrate a perceptual constraints bank to further improve the imperceptibility. Results show that our method substantially elevates the quality of the protected image without compromising on protection efficacy.
翻訳日:2024-08-29 20:59:10 公開日:2024-08-28
# 大規模言語モデルのための透かしの統計的枠組み:ピボット,検出効率,最適規則

A Statistical Framework of Watermarks for Large Language Models: Pivot, Detection Efficiency and Optimal Rules ( http://arxiv.org/abs/2404.01245v2 )

ライセンス: Link先を確認
Xiang Li, Feng Ruan, Huiyuan Wang, Qi Long, Weijie J. Su, (参考訳) 2022年11月にChatGPTが導入されて以来、大きな言語モデル(LLM)が生成するテキストに(ほぼ)無意味な統計的信号を埋め込む手法として、ウォーターマーキング(英語版)が使われてきた。 本稿では,透かしの統計的効率を推論し,強力な検出ルールを設計するための汎用的で柔軟な枠組みを提案する。 透かし検出の仮説テストの定式化にインスパイアされた我々のフレームワークは、LLMが検証者に提供するテキストと秘密鍵の要点を選択することで、偽陽性率(LLMが生成したテキストを誤って検出する誤り)の制御を可能にします。 次に、このフレームワークは、漸近的偽陰率のクローズドフォーム式(誤ってLLM生成したテキストをヒューマンテキストとして分類する誤り)を得ることで、透かし検出ルールのパワーを評価することができる。 我々のフレームワークは、最小限の最適化プログラムを解くために最適な検出ルールを決定する問題をさらに軽減する。 この枠組みを2つの代表的な透かし(そのうちの1つはOpenAIで内部的に実装されている)に適用し、透かしの実装の指針となるいくつかの知見を得る。 特に,これらの透かしの最適検出ルールをフレームワーク下で導出する。 これらの理論的に導かれた検出規則は競争力があり、時には数値実験によって既存の検出手法よりも高いパワーを享受することが示されている。

Since ChatGPT was introduced in November 2022, embedding (nearly) unnoticeable statistical signals into text generated by large language models (LLMs), also known as watermarking, has been used as a principled approach to provable detection of LLM-generated text from its human-written counterpart. In this paper, we introduce a general and flexible framework for reasoning about the statistical efficiency of watermarks and designing powerful detection rules. Inspired by the hypothesis testing formulation of watermark detection, our framework starts by selecting a pivotal statistic of the text and a secret key -- provided by the LLM to the verifier -- to enable controlling the false positive rate (the error of mistakenly detecting human-written text as LLM-generated). Next, this framework allows one to evaluate the power of watermark detection rules by obtaining a closed-form expression of the asymptotic false negative rate (the error of incorrectly classifying LLM-generated text as human-written). Our framework further reduces the problem of determining the optimal detection rule to solving a minimax optimization program. We apply this framework to two representative watermarks -- one of which has been internally implemented at OpenAI -- and obtain several findings that can be instrumental in guiding the practice of implementing watermarks. In particular, we derive optimal detection rules for these watermarks under our framework. These theoretically derived detection rules are demonstrated to be competitive and sometimes enjoy a higher power than existing detection approaches through numerical experiments.
翻訳日:2024-08-29 20:59:10 公開日:2024-08-28
# RecurrentGemma: 効率的なオープン言語モデルのためのトランスフォーマーの移動

RecurrentGemma: Moving Past Transformers for Efficient Open Language Models ( http://arxiv.org/abs/2404.07839v2 )

ライセンス: Link先を確認
Aleksandar Botev, Soham De, Samuel L Smith, Anushan Fernando, George-Cristian Muraru, Ruba Haroun, Leonard Berrada, Razvan Pascanu, Pier Giuseppe Sessa, Robert Dadashi, Léonard Hussenot, Johan Ferret, Sertan Girgin, Olivier Bachem, Alek Andreev, Kathleen Kenealy, Thomas Mesnard, Cassidy Hardin, Surya Bhupatiraju, Shreya Pathak, Laurent Sifre, Morgane Rivière, Mihir Sanjay Kale, Juliette Love, Pouya Tafti, Armand Joulin, Noah Fiedel, Evan Senter, Yutian Chen, Srivatsan Srinivasan, Guillaume Desjardins, David Budden, Arnaud Doucet, Sharad Vikram, Adam Paszke, Trevor Gale, Sebastian Borgeaud, Charlie Chen, Andy Brock, Antonia Paterson, Jenny Brennan, Meg Risdal, Raj Gundluru, Nesh Devanathan, Paul Mooney, Nilay Chauhan, Phil Culliton, Luiz Gustavo Martins, Elisa Bandy, David Huntsperger, Glenn Cameron, Arthur Zucker, Tris Warkentin, Ludovic Peran, Minh Giang, Zoubin Ghahramani, Clément Farabet, Koray Kavukcuoglu, Demis Hassabis, Raia Hadsell, Yee Whye Teh, Nando de Frietas, (参考訳) RecurrentGemmaは、Googleの斬新なGriffinアーキテクチャを使ったオープン言語モデルのファミリーである。 Griffinは、言語における優れたパフォーマンスを達成するために、線形反復と局所的な注意を組み合わせる。 メモリ使用量を削減し、長いシーケンスの効率的な推論を可能にする固定サイズの状態を持つ。 2Bパラメーターと9Bパラメーターを含むモデルのサイズを2つ提供し、両方のモデルに対して事前訓練および命令チューニングのバリエーションを提供する。 我々のモデルは、少ないトークンで訓練されているにもかかわらず、同様の大きさのGemmaベースラインに匹敵するパフォーマンスを達成する。

We introduce RecurrentGemma, a family of open language models which uses Google's novel Griffin architecture. Griffin combines linear recurrences with local attention to achieve excellent performance on language. It has a fixed-sized state, which reduces memory use and enables efficient inference on long sequences. We provide two sizes of models, containing 2B and 9B parameters, and provide pre-trained and instruction tuned variants for both. Our models achieve comparable performance to similarly-sized Gemma baselines despite being trained on fewer tokens.
翻訳日:2024-08-29 20:59:10 公開日:2024-08-28
# 非位相共変雑音による量子メトロロジーの強化

Enhanced Quantum Metrology with Non-Phase-Covariant Noise ( http://arxiv.org/abs/2404.08436v2 )

ライセンス: Link先を確認
Jia-Xin Peng, Baiqiang Zhu, Weiping Zhang, Keye Zhang, (参考訳) 量子気象学におけるノイズの検知性能に対する有害な影響は、この分野の研究者によって広く認識されている。 しかし、ノイズが量子力学を弱めるという物理学の明確な基本法則は存在しない。 非位相共変(NPC)ノイズは、ノイズがない場合に達成できる究極の精度限界を超過して、パラメータ推定を向上できる可能性がある。 これは、非エルミート量子センサが、知覚性能の点でハーミート量子センサよりも優れていることを示唆している。 我々の理論を実証し、検証するために、磁場干渉学のパラダイム的な例をいくつか提示する。

The detrimental impact of noise on sensing performance in quantum metrology has been widely recognized by researchers in the field. However, there are no explicit fundamental laws of physics stating that noise invariably weakens quantum metrology. We reveal that phase-covariant (PC) noise either degrades or remains neutral to sensing precision, whereas non-phase-covariant (NPC) noise can potentially enhance parameter estimation, surpassing even the ultimate precision limit achievable in the absence of noise. This implies that a non-Hermitian quantum sensor may outperform its Hermitian counterpart in terms of sensing performance. To illustrate and validate our theory, we present several paradigmatic examples of magnetic field metrology.
翻訳日:2024-08-29 20:59:10 公開日:2024-08-28
# 星の欠陥:コード生成ベンチマークの品質評価

The Fault in our Stars: Quality Assessment of Code Generation Benchmarks ( http://arxiv.org/abs/2404.10155v2 )

ライセンス: Link先を確認
Mohammed Latif Siddiq, Simantika Dristi, Joy Saha, Joanna C. S. Santos, (参考訳) 大きな言語モデル(LLM)は、ソフトウェアエンジニアの間で人気を集めています。 効率的なコード生成 LLM を開発する上で重要な側面は、ロバストなベンチマークを用いてこれらのモデルを評価することである。 品質問題のある評価ベンチマークは、誤ったパフォーマンス感覚を与えます。 本研究では、異なるコード生成モデルの性能を比較するために、ベンチマーク内でのプロンプトの品質について、第一種研究を行う。 本研究では,9つのコード生成ベンチマークから3,566個のプロンプトを解析し,それらの品質問題を明らかにする。 また、ベンチマークのプロンプトで特定された品質問題を修正することがモデルの性能に影響を及ぼすかどうかについても検討した。 また,ベンチマークの信頼性に疑問を呈する評価データセットのメモリ化問題についても検討した。 コード生成評価ベンチマークはPythonとコーディングのエクササイズに重点を置いており、モデルに挑戦するためのコンテキスト依存性が非常に限られていることが分かりました。 これらのデータセットと開発者のプロンプトは、スペルや文法的なエラー、開発者の意図を表す不明瞭な文、適切なドキュメントスタイルを使用しないといった品質上の問題に悩まされている。 ベンチマークでこれらすべての問題を修正することで、Pythonコード生成のパフォーマンスが向上する可能性があるが、Javaコード生成では大きな改善は見られなかった。 また, GPT-3.5-Turbo モデルと CodeGen-2.5 モデルでは, データの汚染が問題となる可能性が示唆された。

Large Language Models (LLMs) are gaining popularity among software engineers. A crucial aspect of developing effective code generation LLMs is to evaluate these models using a robust benchmark. Evaluation benchmarks with quality issues can provide a false sense of performance. In this work, we conduct the first-of-its-kind study of the quality of prompts within benchmarks used to compare the performance of different code generation models. To conduct this study, we analyzed 3,566 prompts from 9 code generation benchmarks to identify quality issues in them. We also investigated whether fixing the identified quality issues in the benchmarks' prompts affects a model's performance. We also studied memorization issues of the evaluation dataset, which can put into question a benchmark's trustworthiness. We found that code generation evaluation benchmarks mainly focused on Python and coding exercises and had very limited contextual dependencies to challenge the model. These datasets and the developers' prompts suffer from quality issues like spelling and grammatical errors, unclear sentences to express developers' intent, and not using proper documentation style. Fixing all these issues in the benchmarks can lead to a better performance for Python code generation, but not a significant improvement was observed for Java code generation. We also found evidence that GPT-3.5-Turbo and CodeGen-2.5 models may have data contamination issues.
翻訳日:2024-08-29 20:49:20 公開日:2024-08-28
# 相関ランドスケープ上の量子非局在化:指数関数的に高速な多部絡み合わせ生成の鍵

Quantum delocalization on correlation landscape: The key to exponentially fast multipartite entanglement generation ( http://arxiv.org/abs/2404.10973v2 )

ライセンス: Link先を確認
Yaoming Chu, Xiangbei Li, Jianming Cai, (参考訳) 量子力学の目印であるエンタングルメントは、量子技術にとって重要な資源である。 強い絡み合った多粒子状態を生成することは、現在の量子実験において重要な目標である。 相関ランドスケープ上の実効作用素波動関数の量子非局在化によるハミルトン系における絡み合い生成ダイナミクスの理解のための新しい枠組みを公表する。 我々の枠組みは、量子フィッシャー情報によって観測される指数関数的に高速なマルチパーティイト絡み合いと、クリロフ空間における非局在化ダイナミクスを規定するホッピング振幅の線形的な漸近性との間に深い関係を確立する。 この関係を、パラダイム的リプキン・メシュコフ・グリックモデルを用いて説明し、カオス的フェインゴルト・ペレストップにおける潜在的なシグネチャを強調する。 本研究は,複雑な量子システムにおける高速絡み合い生成の理解と活用のための変換ツールを提供し,大規模絡み合いによる量子化技術の経路を提供する。

Entanglement, a hallmark of quantum mechanics, is a vital resource for quantum technologies. Generating highly entangled multipartite states is a key goal in current quantum experiments. We unveil a novel framework for understanding entanglement generation dynamics in Hamiltonian systems by quantum delocalization of an effective operator wavefunction on a correlation landscape. Our framework establishes a profound connection between the exponentially fast generation of multipartite entanglement, witnessed by the quantum Fisher information, and the linearly increasing asymptotics of hopping amplitudes governing the delocalization dynamics in Krylov space. We illustrate this connection using the paradigmatic Lipkin-Meshkov-Glick model and highlight potential signatures in chaotic Feingold-Peres tops. Our results provide a transformative tool for understanding and harnessing rapid entanglement production in complex quantum systems, providing a pathway for quantum enhanced technologies by large-scale entanglement.
翻訳日:2024-08-29 20:49:20 公開日:2024-08-28
# 量子モンテカルロシミュレーションによるユニバーサルコーナーエンタングルメントエントロピーの抽出

Extracting Universal Corner Entanglement Entropy during the Quantum Monte Carlo Simulation ( http://arxiv.org/abs/2404.13876v2 )

ライセンス: Link先を確認
Yuan Da Liao, Menghan Song, Jiarui Zhao, Zi Yang Meng, (参考訳) 量子臨界点(QCP)の普遍的な特性を明らかにするためには,エンタングルメントエントロピー(EE)における下位角対数補正が重要であるが,検出は困難である。 2+1)次元量子多体系におけるEEの安定計算の最近の発展により、計算コストの少ないEEのコーナーコントリビューションを直接測定する新たな手法を開発した。 提案手法の土台は,サインプロブレム自由量子モンテカルロシミュレーションにおいて,同じ境界長を持つ部分領域のEE間の差として定義される減算角絡みエントロピー(SCEE)を測定することである。 改良された手法は,EE の領域法用語だけでなく,ゴールドストーンモードから生じる下位ログ補正も本質的に排除し,データ品質を大幅に向上した SCEE の先駆的用語としてユニバーサルコーナーコントリビューションが残されている。 この先進的手法を用いて,2+1)D O(3) QCP の正方格子およびハニカム格子上の2層ハイゼンベルクモデルのSCEEを交絡境界上で異なる開角度で計算し,対応する普遍角対数係数の正確な値を求める。 これらの知見は, (2+1)Dで相互作用するCFTに対して, 制御されたユニバーサル情報にアクセスするためのさらなる理論的研究を促進する。

The subleading corner logarithmic corrections in entanglement entropy (EE) are crucial for revealing universal characteristics of the quantum critical points (QCPs), but they are challenging to detect. Motivated by recent developments in the stable computation of EE in (2+1)D quantum many-body systems, we have developed a new method for directly measuring the corner contribution in EE with less computational cost. The cornerstone of our approach is to measure the subtracted corner entanglement entropy (SCEE) defined as the difference between the EEs of subregions with the same boundary length for smooth and cornered boundaries during the sign-problem free quantum Monte Carlo simulation. Our improved method inherently eliminates not only the area law term of EE but also the subleading log-corrections arising from Goldstone modes, leaving the universal corner contribution as the leading term of SCEE with greatly improved data quality. Utilizing this advanced approach, we calculate the SCEE of the bilayer Heisenberg model on both square and honeycomb lattices across their (2+1)D O(3) QCPs with different opening angles on entanglement boundary, and obtain the accurate values of the corresponding universal corner log-coefficients. These findings will encourage further theoretical investigations to access controlled universal information for interacting CFTs at (2+1)D.
翻訳日:2024-08-29 20:49:20 公開日:2024-08-28
# 適応量子回路を用いた行列積状態の定数深さ準備

Constant-depth preparation of matrix product states with adaptive quantum circuits ( http://arxiv.org/abs/2404.16083v2 )

ライセンス: Link先を確認
Kevin C. Smith, Abid Khan, Bryan K. Clark, S. M. Girvin, Tzu-Chieh Wei, (参考訳) 局所的なユニタリゲート、ミッドサーキット測定、フィードフォワード演算を組み合わせた適応量子回路は、特に浅い深さの回路に制限された短期量子デバイスにおいて、効率的な状態準備のための有望な経路として最近登場した。 行列積状態 (MPS) は多体交絡状態の重要なクラスを構成し、一次元のギャップを持つ局所ハミルトニアンの基底状態を効率的に記述し、近年の多くの量子アルゴリズムにおける応用を見つける。 近年、MPSのパラダイム的な例であるAKLT状態は、非ゼロ相関長(Smith et al , PRX Quantum 4, 020315 (2023))による局所的なユニタリゲートの適応量子回路で正確に準備できることが示されている。 本研究は,本手法の範囲を広くし,一元回路のみに依存する最適準備プロトコルよりも高い精度で,多種多様なMPSを一定深度適応量子回路で正確に作成できることを実証する。 このクラスは、短距離および長距離の絡み合ったMPS、対称性保護トポロジカル(SPT)および対称性破壊状態、有限アベリア、非アベリアおよび連続対称性を持つMPS、MBQCの資源状態、調整可能な相関長を持つ状態の族を含むことを示す。 さらに、ランダムMPSや特定のSPTフェーズでMPSを生成するような、一定の深さのサンプリングプロトコルを設計するためのフレームワークの有用性について述べる。 我々は、特定のMPSが一定時間で準備できる十分な条件を示し、グローバルなオンサイト対称性が中心的な役割を果たす。 この研究は、多体絡み合った状態を効率的に準備するための適応量子回路の膨大な可能性を実証し、既知のプロトコルより優れた明示的なアルゴリズムを提供し、重要な種類の状態を作成する。

Adaptive quantum circuits, which combine local unitary gates, midcircuit measurements, and feedforward operations, have recently emerged as a promising avenue for efficient state preparation, particularly on near-term quantum devices limited to shallow-depth circuits. Matrix product states (MPS) comprise a significant class of many-body entangled states, efficiently describing the ground states of one-dimensional gapped local Hamiltonians and finding applications in a number of recent quantum algorithms. Recently, it was shown that the AKLT state -- a paradigmatic example of an MPS -- can be exactly prepared with an adaptive quantum circuit of constant-depth, an impossible feat with local unitary gates due to its nonzero correlation length [Smith et al., PRX Quantum 4, 020315 (2023)]. In this work, we broaden the scope of this approach and demonstrate that a diverse class of MPS can be exactly prepared using constant-depth adaptive quantum circuits, outperforming optimal preparation protocols that rely on unitary circuits alone. We show that this class includes short- and long-ranged entangled MPS, symmetry-protected topological (SPT) and symmetry-broken states, MPS with finite Abelian, non-Abelian, and continuous symmetries, resource states for MBQC, and families of states with tunable correlation length. Moreover, we illustrate the utility of our framework for designing constant-depth sampling protocols, such as for random MPS or for generating MPS in a particular SPT phase. We present sufficient conditions for particular MPS to be preparable in constant time, with global on-site symmetry playing a pivotal role. Altogether, this work demonstrates the immense promise of adaptive quantum circuits for efficiently preparing many-body entangled states and provides explicit algorithms that outperform known protocols to prepare an essential class of states.
翻訳日:2024-08-29 20:49:20 公開日:2024-08-28
# 粒子検出器読み出しにおける機械学習のための130nmおよび28nmCMOSの組み込みFPGA開発

Embedded FPGA Developments in 130nm and 28nm CMOS for Machine Learning in Particle Detector Readout ( http://arxiv.org/abs/2404.17701v5 )

ライセンス: Link先を確認
Julia Gonski, Aseem Gupta, Haoyi Jia, Hyunjoon Kim, Lorenzo Rota, Larry Ruckman, Angelo Dragone, Ryan Herbst, (参考訳) 組み込みフィールドプログラマブルゲートアレイ(eFPGA)技術は、アプリケーション固有の集積回路(ASIC)の設計において再構成可能なロジックの実装を可能にする。 このアプローチはASICの低消費電力と効率、FPGA構成の容易さ、特に次世代コライダー実験のデータパイプラインにおける機械学習のユースケースに有益である。 FABulous"と呼ばれるオープンソースのフレームワークは130nmと28nmのCMOS技術ノードを使ってeFPGAを設計するために使われ、その後、テストによって製造され検証された。 シリコン画素センサを通した高エネルギー粒子のシミュレーションを用いて,eFPGAをフロントエンドの読み出しチップとして機能させる能力を評価した。 ソースにおけるセンサデータの削減のために設計された機械学習ベースの分類器を合成し、eFPGA上に構成した。 完全な精度でeFPGA上で予測されたアルゴリズムを再現し,概念実証に成功した。 eFPGA技術のさらなる発展とコライダー検出器の読み出しへの応用について論じる。

Embedded field programmable gate array (eFPGA) technology allows the implementation of reconfigurable logic within the design of an application-specific integrated circuit (ASIC). This approach offers the low power and efficiency of an ASIC along with the ease of FPGA configuration, particularly beneficial for the use case of machine learning in the data pipeline of next-generation collider experiments. An open-source framework called "FABulous" was used to design eFPGAs using 130 nm and 28 nm CMOS technology nodes, which were subsequently fabricated and verified through testing. The capability of an eFPGA to act as a front-end readout chip was assessed using simulation of high energy particles passing through a silicon pixel sensor. A machine learning-based classifier, designed for reduction of sensor data at the source, was synthesized and configured onto the eFPGA. A successful proof-of-concept was demonstrated through reproduction of the expected algorithm result on the eFPGA with perfect accuracy. Further development of the eFPGA technology and its application to collider detector readout is discussed.
翻訳日:2024-08-29 20:49:20 公開日:2024-08-28
# FRAME: 自律的なマップマージのためのモジュールフレームワーク

FRAME: A Modular Framework for Autonomous Map Merging: Advancements in the Field ( http://arxiv.org/abs/2404.18006v2 )

ライセンス: Link先を確認
Nikolaos Stathoulopoulos, Björn Lindqvist, Anton Koval, Ali-akbar Agha-mohammadi, George Nikolakopoulos, (参考訳) 本稿では,エゴセントリックなマルチロボット探査における3次元点雲マップの融合について述べる。 従来の手法とは異なり、提案手法は最先端の場所認識と学習記述子を利用して地図間の重複を効率的に検出し、時間を要するグローバルな特徴抽出と特徴マッチングプロセスの必要性を排除している。 推定重なり合う領域は、GICP点雲登録アルゴリズムの初期条件として機能し、地図間のアライメントを洗練させる等質な剛性変換を計算するために用いられる。 このアプローチの利点は、高速な処理時間、精度の向上、挑戦的な環境における堅牢性の向上である。 さらに,提案手法の有効性を,様々な地下環境におけるロボット探査の複数のフィールドミッションを通じて実証した。

In this article, a novel approach for merging 3D point cloud maps in the context of egocentric multi-robot exploration is presented. Unlike traditional methods, the proposed approach leverages state-of-the-art place recognition and learned descriptors to efficiently detect overlap between maps, eliminating the need for the time-consuming global feature extraction and feature matching process. The estimated overlapping regions are used to calculate a homogeneous rigid transform, which serves as an initial condition for the GICP point cloud registration algorithm to refine the alignment between the maps. The advantages of this approach include faster processing time, improved accuracy, and increased robustness in challenging environments. Furthermore, the effectiveness of the proposed framework is successfully demonstrated through multiple field missions of robot exploration in a variety of different underground environments.
翻訳日:2024-08-29 20:49:20 公開日:2024-08-28
# 機械学習のエンジニアリングプロセスをモデル化するフレームワーク

A Framework to Model ML Engineering Processes ( http://arxiv.org/abs/2404.18531v2 )

ライセンス: Link先を確認
Sergio Morales, Robert Clarisó, Jordi Cabot, (参考訳) 機械学習(ML)ベースのシステムの開発は複雑で、多様なスキルセットを持つ複数の学際的なチームを必要とする。 これはコミュニケーションの問題やベストプラクティスの誤用につながる可能性がある。 プロセスモデルは、タスクオーケストレーションの標準化、コミュニケーションを容易にする共通言語の提供、協調環境の育成によって、これらの課題を軽減することができる。 残念ながら、現在のプロセスモデリング言語はそのようなシステムの開発を記述するのに適していない。 本稿では,機械学習に基づくソフトウェア開発プロセスのモデリングフレームワークについて紹介する。 サポートツールキットも利用可能だ。

The development of Machine Learning (ML) based systems is complex and requires multidisciplinary teams with diverse skill sets. This may lead to communication issues or misapplication of best practices. Process models can alleviate these challenges by standardizing task orchestration, providing a common language to facilitate communication, and nurturing a collaborative environment. Unfortunately, current process modeling languages are not suitable for describing the development of such systems. In this paper, we introduce a framework for modeling ML-based software development processes, built around a domain-specific language and derived from an analysis of scientific and gray literature. A supporting toolkit is also available.
翻訳日:2024-08-29 20:49:20 公開日:2024-08-28
# 複雑さから明瞭さへ:AIが科学者の知覚と科学に対する大衆の理解をいかに高めるか

From Complexity to Clarity: How AI Enhances Perceptions of Scientists and the Public's Understanding of Science ( http://arxiv.org/abs/2405.00706v3 )

ライセンス: Link先を確認
David M. Markowitz, (参考訳) 本稿では, 科学コミュニケーションを簡素化し, 一般の科学理解を高めるために, 生成型AIの有効性を評価した。 PNASの論文をAIが生成したものと比較することにより、この研究はまず、このような要約とフォローアップ実験における一般の認識の言語的単純さの違いを評価した。 具体的には,研究1aでは,PNAS要約(科学的要約)と重要文(レイ要約)の簡易な特徴を解析し,レイ要約は言語学的に単純だが,効果サイズの違いは少なかった。 研究1bでは,大規模言語モデル GPT-4 を用いて,論文の要約に基づく意味表現を作成した。 研究2は、単純なGPT要約が、より複雑に書かれた人間のPNAS要約よりも、科学者(彼らはより信頼でき、信頼できるが、知的ではないと見なされた)の良好な認識を促進することを実験的に実証した。 実験3では,複雑なPNASサマリーと比較して,単純なGPTサマリーを読めば,科学的文章の理解が向上することが実験的に示された。 参加者はGPT要約を同記事のPNAS要約と比較し,より詳細かつ具体的な方法で科学論文を要約した。 AIは、単純な言語ヒューリスティックを通じて科学コミュニティと一般市民を巻き込む可能性があり、より情報のある社会のための科学的普及への統合を提唱している。

This paper evaluated the effectiveness of using generative AI to simplify science communication and enhance the public's understanding of science. By comparing lay summaries of journal articles from PNAS, yoked to those generated by AI, this work first assessed linguistic simplicity differences across such summaries and public perceptions in follow-up experiments. Specifically, Study 1a analyzed simplicity features of PNAS abstracts (scientific summaries) and significance statements (lay summaries), observing that lay summaries were indeed linguistically simpler, but effect size differences were small. Study 1b used a large language model, GPT-4, to create significance statements based on paper abstracts and this more than doubled the average effect size without fine-tuning. Study 2 experimentally demonstrated that simply-written GPT summaries facilitated more favorable perceptions of scientists (they were perceived as more credible and trustworthy, but less intelligent) than more complexly-written human PNAS summaries. Crucially, Study 3 experimentally demonstrated that participants comprehended scientific writing better after reading simple GPT summaries compared to complex PNAS summaries. In their own words, participants also summarized scientific papers in a more detailed and concrete manner after reading GPT summaries compared to PNAS summaries of the same article. AI has the potential to engage scientific communities and the public via a simple language heuristic, advocating for its integration into scientific dissemination for a more informed society.
翻訳日:2024-08-29 20:49:20 公開日:2024-08-28
# 深層学習による単光子レベルの全繊維微小内視鏡偏光センシング

All-fiber microendoscopic polarization sensing at single-photon level aided by deep-learning ( http://arxiv.org/abs/2405.02172v2 )

ライセンス: Link先を確認
Martin Bielak, Dominik Vašinka, Miroslav Ježek, (参考訳) 光の偏光は、試料の空間秩序と光学的性質に関する重要な情報を伝える。 しかし、制約された空間、低照度、高速シナリオを含む困難条件における正確な偏光測定は、依然として深刻な課題である。 この問題に対処するために、偏光状態に関する完全な情報を提供する単一光子レベルまで正確なリアルタイム偏光測定手法を導入する。 偏光センサは移動部品を含まないため、数モードのファイバーを使用し、次いでファイバーアレイと検出器アレイを使用する。 センサーの校正は、部分偏光を含む全ての偏光状態に前例のない精度をもたらすニューラルネットワークに依存している。 生体試料の偏光構造を可視化し, アプローチを検証する。 本手法は,低光環境下でのリアルタイム偏光センシングとマイクロ内視鏡のための効率的で信頼性の高いソリューションを提供する。

The polarization of light conveys crucial information about the spatial ordering and optical properties of a specimen. However, precise polarization measurement in challenging conditions, including constrained spaces, low light levels, and high-speed scenarios, remains a severe challenge. Addressing this problem, we introduce a real-time polarization measurement method accurate down to a single-photon level that provides complete information about the polarization state. Free of moving components, the polarization sensor utilizes a few-mode fiber followed by a fiber array and a detector array. The calibration of the sensor relies on a neural network yielding unprecedented accuracy across all polarization states, including partially polarized light. We validate the approach by visualizing the polarization structure of a biological specimen. Our method offers an efficient and reliable solution for real-time polarization sensing and microendoscopy under low-light conditions.
翻訳日:2024-08-29 20:49:20 公開日:2024-08-28
# AnomalyLLM:大規模言語モデルを用いた動的グラフに対するFew-shot Anomaly Edge Detection

AnomalyLLM: Few-shot Anomaly Edge Detection for Dynamic Graphs using Large Language Models ( http://arxiv.org/abs/2405.07626v2 )

ライセンス: Link先を確認
Shuo Liu, Di Yao, Lanting Fang, Zhetao Li, Wenbin Li, Kaiyu Feng, XiaoWen Ji, Jingping Bi, (参考訳) 動的グラフの異常エッジの検出は、通常のパターンから著しく逸脱したエッジを特定し、サイバーセキュリティ、金融トランザクション、AIOpsなどのさまざまなドメインに適用することを目的としている。 時間の経過とともに、異常エッジのタイプが出現し、ラベル付き異常サンプルは各タイプで少ない。 現在の手法はランダムに挿入されたエッジを検出するように設計されているか、モデルトレーニングに十分なラベル付きデータを必要とする。 本稿では,大規模言語モデル(LLM)に符号化された豊富な知識と協調してこの問題を考察し,AnomalyLLMという手法を提案する。 動的グラフをLLMに合わせるため、AnomalyLLMは動的認識エンコーダを事前訓練してエッジの表現を生成し、単語埋め込みのプロトタイプを使用してエッジを再プログラムする。 エンコーダとともに、いくつかのラベル付きサンプルの情報を統合して、数発の異常検出を実現する、コンテキスト内学習フレームワークを設計する。 4つのデータセットの実験により、AnomalyLLMは、数発の異常検出のパフォーマンスを著しく改善できるだけでなく、モデルパラメータを更新することなく、新しい異常に対して優れた結果を得ることができることが明らかになった。

Detecting anomaly edges for dynamic graphs aims to identify edges significantly deviating from the normal pattern and can be applied in various domains, such as cybersecurity, financial transactions and AIOps. With the evolving of time, the types of anomaly edges are emerging and the labeled anomaly samples are few for each type. Current methods are either designed to detect randomly inserted edges or require sufficient labeled data for model training, which harms their applicability for real-world applications. In this paper, we study this problem by cooperating with the rich knowledge encoded in large language models(LLMs) and propose a method, namely AnomalyLLM. To align the dynamic graph with LLMs, AnomalyLLM pre-trains a dynamic-aware encoder to generate the representations of edges and reprograms the edges using the prototypes of word embeddings. Along with the encoder, we design an in-context learning framework that integrates the information of a few labeled samples to achieve few-shot anomaly detection. Experiments on four datasets reveal that AnomalyLLM can not only significantly improve the performance of few-shot anomaly detection, but also achieve superior results on new anomalies without any update of model parameters.
翻訳日:2024-08-29 20:49:20 公開日:2024-08-28
# 流体流動シミュレーションのための格子ボルツマン法の量子ユニタリ行列表現

Quantum Unitary Matrix Representation of Lattice Boltzmann Method for Fluid Flow Simulation ( http://arxiv.org/abs/2405.08669v2 )

ライセンス: Link先を確認
E. Dinesh Kumar, Steven H. Frankel, (参考訳) 本稿では,低レイノルズ数(Re$)条件下での流体流動をシミュレートする格子ボルツマン法(LBM)の量子ユニタリ行列表現を提案する。 粒子分布関数は量子状態の確率振幅として符号化されるので、初期状態の準備において、アシラ量子ビットの状態を制御する必要があることを示す。 非ユニタリ作用素を実装するためのユニタリの線形結合のような手法とは対照的に、古典特異値分解(SVD)を用いて衝突とストリーミング演算子をユニタリの積に分解する。 提案手法は,ガウス丘陵の対流拡散,ポワゼイユ流,クーエット流,蓋駆動キャビティ問題などのベンチマーク問題を用いて検証されている。 テストケースの2量子制御NOT (CNOT) と1量子Uゲートの計9~12量子ビット, グリッドサイズは24~216点であった。 ゲート数は理論的な限界と密接に一致しているが、回路合成に関連するため、10^7$の2ビットゲートの数は特に注意が必要である。

In the present contribution, we propose a quantum unitary matrix representation for the Lattice Boltzmann Method (LBM) to simulate fluid flows in the low Reynolds number ($Re$) regime. Since the particle distribution functions are encoded as probability amplitudes of the quantum state, we show that the state of the ancilla qubit must be controlled during the initial state preparation. In contrast to methods such as the linear combination of unitaries to implement non-unitary operators, we utilize the classical singular value decomposition (SVD) to decompose the collision and streaming operators into a product of unitaries. Our approach has been tested using benchmark problems such as advection-diffusion of a Gaussian hill, Poiseuille flow, Couette flow, and the lid-driven cavity problem. We report the two-qubit controlled-NOT (CNOT) and single-qubit U gate counts for test cases involving 9 to 12 qubits and grid sizes ranging from 24 to 216 points. While the gate count closely aligns with the theoretical limit, the high number of two-qubit gates on the order of $10^7$ requires special attention as it relates to circuit synthesis.
翻訳日:2024-08-29 20:49:20 公開日:2024-08-28
# 1次元マニフォールド学習のためのメートル法に基づく主曲線法

A Metric-based Principal Curve Approach for Learning One-dimensional Manifold ( http://arxiv.org/abs/2405.12390v2 )

ライセンス: Link先を確認
Elvis Han Cui, (参考訳) 主曲線(英: principal curve)は、微分幾何学の概念を用いた多様体学習を指向したよく知られた統計手法である。 本稿では,空間データの1次元多様体を学習する新しい計量ベース主曲線(MPC)法を提案する。 合成データセット MNISTデータセットを用いた実応用により,本手法は形状の観点から一次元多様体をよく学習できることを示す。

Principal curve is a well-known statistical method oriented in manifold learning using concepts from differential geometry. In this paper, we propose a novel metric-based principal curve (MPC) method that learns one-dimensional manifold of spatial data. Synthetic datasets Real applications using MNIST dataset show that our method can learn the one-dimensional manifold well in terms of the shape.
翻訳日:2024-08-29 20:49:20 公開日:2024-08-28
# Brain3D:fMRIから3Dオブジェクトを生成する

Brain3D: Generating 3D Objects from fMRI ( http://arxiv.org/abs/2405.15239v3 )

ライセンス: Link先を確認
Yuankun Yang, Li Zhang, Ziyang Xie, Zhiyuan Yuan, Jianfeng Feng, Xiatian Zhu, Yu-Gang Jiang, (参考訳) 人間の視覚知覚の背後にある隠されたメカニズムを理解することは神経科学の基本的な問題である。 そのために、機能的磁気共鳴イメージング(fMRI)のような人間の心活動の神経反応を調べることは、重要な研究車両である。 しかし、fMRI信号の解析は困難であり、コストがかかり、おそろしく、専門的な訓練を必要としている。 fMRI解析の顕著な進歩にもかかわらず、既存のアプローチは2D画像の生成に限られており、生物学的に意味があり実用的に有用ではない。 そこで本研究では、脳信号からデコードされた視覚的可視かつ機能的により包括的な3D出力を生成し、fMRIデータのより洗練されたモデリングを可能にすることを提案する。 概念的には、このタスクを fMRI 条件付き3次元オブジェクト生成問題として再定義する。 本研究では、2D画像で提示された被験者のfMRIデータを入力として、対応する3Dオブジェクト画像の出力として出力する新しい3Dオブジェクト表現学習手法であるBrain3Dを設計する。 このモデルの主な機能は、高レベルなセマンティック信号でノイズに対処することと、プログレッシブな高レベル情報統合のための2段階のアーキテクチャ設計である。 大規模な実験により,従来の最先端3Dオブジェクト生成法よりも優れたモデルの有効性が検証された。 重要なことは、我々のモデルは、人間の視覚系の各領域の異なる機能と、それらの複雑な相互作用関係を捉え、神経科学の確立した発見と著しく一致していることである。 さらに、予備的な評価は、脳3Dが人間の視覚系内のV1、V2、V3、V4、中間側頭葉(MTL)などのシミュレーションシナリオにおいて、障害した脳領域を正常に識別できることを示唆している。 私たちのデータとコードはhttps://brain-3d.github.io/.com/で公開されます。

Understanding the hidden mechanisms behind human's visual perception is a fundamental question in neuroscience. To that end, investigating into the neural responses of human mind activities, such as functional Magnetic Resonance Imaging (fMRI), has been a significant research vehicle. However, analyzing fMRI signals is challenging, costly, daunting, and demanding for professional training. Despite remarkable progress in fMRI analysis, existing approaches are limited to generating 2D images and far away from being biologically meaningful and practically useful. Under this insight, we propose to generate visually plausible and functionally more comprehensive 3D outputs decoded from brain signals, enabling more sophisticated modeling of fMRI data. Conceptually, we reformulate this task as a {\em fMRI conditioned 3D object generation} problem. We design a novel 3D object representation learning method, Brain3D, that takes as input the fMRI data of a subject who was presented with a 2D image, and yields as output the corresponding 3D object images. The key capabilities of this model include tackling the noises with high-level semantic signals and a two-stage architecture design for progressive high-level information integration. Extensive experiments validate the superior capability of our model over previous state-of-the-art 3D object generation methods. Importantly, we show that our model captures the distinct functionalities of each region of human vision system as well as their intricate interplay relationships, aligning remarkably with the established discoveries in neuroscience. Further, preliminary evaluations indicate that Brain3D can successfully identify the disordered brain regions in simulated scenarios, such as V1, V2, V3, V4, and the medial temporal lobe (MTL) within the human visual system. Our data and code will be available at https://brain-3d.github.io/.
翻訳日:2024-08-29 20:38:57 公開日:2024-08-28
# 建物画像からのリアルタイムサステナビリティ自動生成

Automated Real-World Sustainability Data Generation from Images of Buildings ( http://arxiv.org/abs/2405.18064v2 )

ライセンス: Link先を確認
Peter J Bentley, Soo Ling Lim, Rajat Mathur, Sid Narang, (参考訳) 建物の特徴に関するデータが入手できない場合、その建物を二酸化炭素排出量の観点からどのように改善するかを決定するタスクは実現不可能になる。 画像の集合のみから、適切な迅速なエンジニアリングとドメイン知識を持つ大規模言語モデルにより、持続可能性計算に関係のある様々な建築特徴を推定できることを示す。 提案手法を,47の集合住宅の実際の建物データからなる地上真実と比較し,その精度を人間よりも向上させる。 また, 提案手法は, 所有者に対して, プロパティ改善の最善の方法と, アプローチのスケール方法について議論する方法について, 適切なレコメンデーションを生成できることを実証する。

When data on building features is unavailable, the task of determining how to improve that building in terms of carbon emissions becomes infeasible. We show that from only a set of images, a Large Language Model with appropriate prompt engineering and domain knowledge can successfully estimate a range of building features relevant for sustainability calculations. We compare our novel image-to-data method with a ground truth comprising real building data for 47 apartments and achieve accuracy better than a human performing the same task. We also demonstrate that the method can generate tailored recommendations to the owner on how best to improve their properties and discuss methods to scale the approach.
翻訳日:2024-08-29 20:38:57 公開日:2024-08-28
# 大規模言語モデルセンチネル:副次的浄化のためのLLMエージェント

Large Language Model Sentinel: LLM Agent for Adversarial Purification ( http://arxiv.org/abs/2405.20770v3 )

ライセンス: Link先を確認
Guang Lin, Qibin Zhao, (参考訳) 過去2年間で、大規模言語モデル(LLM)の使用は急速に進歩した。 これらのLSMは、かなりの利便性を提供するが、LSMは、よく設計されたテキストの摂動による敵の攻撃に弱いため、セキュリティ上の懸念も引き起こす。 本稿では,Large LAnguage Model Sentinel (LLAMOS) という新しい防御技術を紹介する。 本手法は2つの主成分から構成される。 イ 敵防衛のための新しいエージェントをシミュレートし、最小限の文字を変更して、攻撃に対して防御しながら、文の本来の意味を維持することができる代理人指示 ロ 目標LLMの効果的な防衛及び正確な出力を確保するため、清潔又は敵の事例を変更するための戦略を提供する防衛指針 注目すべきは、敵の例から学ばなくても、防御剤は堅牢な防御能力を示すことである。 さらに,防衛のためのエージェントと攻撃のためのエージェントを2つ開発し,相互に対立するエージェントを連携させる,興味深い対人実験を実施している。 敵対的相互作用の間、どちらのエージェントも互いに完全に打ち負かした。 オープンソース LLM およびクローズドソース LLM の広範な実験により,本手法は敵攻撃に対して効果的に防御し,敵の堅牢性を向上することを示した。

Over the past two years, the use of large language models (LLMs) has advanced rapidly. While these LLMs offer considerable convenience, they also raise security concerns, as LLMs are vulnerable to adversarial attacks by some well-designed textual perturbations. In this paper, we introduce a novel defense technique named Large LAnguage MOdel Sentinel (LLAMOS), which is designed to enhance the adversarial robustness of LLMs by purifying the adversarial textual examples before feeding them into the target LLM. Our method comprises two main components: a) Agent instruction, which can simulate a new agent for adversarial defense, altering minimal characters to maintain the original meaning of the sentence while defending against attacks; b) Defense guidance, which provides strategies for modifying clean or adversarial examples to ensure effective defense and accurate outputs from the target LLMs. Remarkably, the defense agent demonstrates robust defensive capabilities even without learning from adversarial examples. Additionally, we conduct an intriguing adversarial experiment where we develop two agents, one for defense and one for attack, and engage them in mutual confrontation. During the adversarial interactions, neither agent completely beat the other. Extensive experiments on both open-source and closed-source LLMs demonstrate that our method effectively defends against adversarial attacks, thereby enhancing adversarial robustness.
翻訳日:2024-08-29 20:38:57 公開日:2024-08-28
# 二スピンエニグマ--ヘリウム原子から量子オントロジーへ

The two-spin enigma: from the helium atom to quantum ontology ( http://arxiv.org/abs/2406.05169v2 )

ライセンス: Link先を確認
Philippe Grangier, Alexia Auffeves, Nayla Farouki, Mathias Van Den Bossche, Olivier Ezratty, (参考訳) 本稿の目的は、古典物理学と量子物理学は、一方が機能しておらず、他方が存在しないとしても、一方が機能しないという考えを、e g Niels Bohr や Lev Landau に起因した考えに従って正当化することである。 この視点は、現在の一般的な知恵に反するかもしれないが、実証的な証拠に完全に適合し、物理的リアリズムを諦めることなく維持できることを示す。 より便利な歴史的視点で議論を行うため、私たちは、ヘリウム原子中の2つの電子のいくつかの価値ある性質の消滅、または消滅について、警察の調査の道をたどっているかのように進める。 物理的事実を分析し、説明するために実験に基づく証拠から始め、古典的から量子的記述へ慎重に移動し、それらを混ぜることなく説明する。 全体像は、プランクとアインシュタインが最初に示したように、顕微鏡システムの物理的性質は量子化され、それらは文脈的でもある。

The purpose of this article is to provide a novel approach and justification of the idea that classical physics and quantum physics can neither function nor even be conceived one without the other - in line with ideas attributed to e.g. Niels Bohr or Lev Landau. Though this point of view may go against current common wisdom, we will show that it perfectly fits with empirical evidence, and can be maintained without giving up physical realism. In order to place our arguments in a convenient historical perspective, we will proceed as if we were following the path of a police investigation, about the demise, or vanishing, of some valuable properties of the two electrons in the helium atom. We will start from experimentally based evidence in order to analyse and explain physical facts, moving cautiously from a classical to a quantum description, without mixing them up. The overall picture will be that the physical properties of microscopic systems are quantized, as initially shown by Planck and Einstein, and they are also contextual, i.e. that they can be given a physical sense only by embedding a microscopic system within a macroscopic measurement context.
翻訳日:2024-08-29 20:38:57 公開日:2024-08-28
# FADE: クラス化誘導スコアベース拡散モデルによるドメイン一般化のための公平性を考慮した拡張

FADE: Towards Fairness-aware Augmentation for Domain Generalization via Classifier-Guided Score-based Diffusion Models ( http://arxiv.org/abs/2406.09495v2 )

ライセンス: Link先を確認
Yujie Lin, Dong Li, Chen Zhao, Minglai Shao, (参考訳) FairDG(Fairness-Aware Domain Generalization)は、信頼できるAIシステムをデプロイする上で、特に分散シフトを含むシナリオにおいて重要な課題として現れている。 フェアネスに対処する伝統的な手法は、分布シフトに対する考慮の欠如により、領域一般化において失敗している。 混乱はFairDGに対処するために使われてきたが、その強い仮定によって制限されている。 このような制約を克服するために,Fairness-aware Classifier-Guided Score-based Diffusion Models (FADE) を提案する。 具体的には、まずスコアベース拡散モデル(SDM)と2つの分類器を事前訓練し、異なる領域にわたって強力な一般化能力を持つモデルに装備する。 そして、これらの事前学習した分類器を用いてSDMを誘導し、生成されたデータから機密情報を効果的に除去する。 最後に、生成された公正データは、下流の分類器をトレーニングするために使用され、新しいデータ分散下での堅牢なパフォーマンスを保証する。 3つの実世界のデータセットに対する大規模な実験は、FADEが公正性を高めるだけでなく、分布シフトの存在下での精度も向上することを示した。 さらに、FADEは、最高の精度-公正トレードオフを達成するために、既存の方法よりも優れています。

Fairness-aware domain generalization (FairDG) has emerged as a critical challenge for deploying trustworthy AI systems, particularly in scenarios involving distribution shifts. Traditional methods for addressing fairness have failed in domain generalization due to their lack of consideration for distribution shifts. Although disentanglement has been used to tackle FairDG, it is limited by its strong assumptions. To overcome these limitations, we propose Fairness-aware Classifier-Guided Score-based Diffusion Models (FADE) as a novel approach to effectively address the FairDG issue. Specifically, we first pre-train a score-based diffusion model (SDM) and two classifiers to equip the model with strong generalization capabilities across different domains. Then, we guide the SDM using these pre-trained classifiers to effectively eliminate sensitive information from the generated data. Finally, the generated fair data is used to train downstream classifiers, ensuring robust performance under new data distributions. Extensive experiments on three real-world datasets demonstrate that FADE not only enhances fairness but also improves accuracy in the presence of distribution shifts. Additionally, FADE outperforms existing methods in achieving the best accuracy-fairness trade-offs.
翻訳日:2024-08-29 20:38:57 公開日:2024-08-28
# Flextron: マルチインワンのフレキシブルな大言語モデル

Flextron: Many-in-One Flexible Large Language Model ( http://arxiv.org/abs/2406.10260v2 )

ライセンス: Link先を確認
Ruisi Cai, Saurav Muralidharan, Greg Heinrich, Hongxu Yin, Zhangyang Wang, Jan Kautz, Pavlo Molchanov, (参考訳) 現代のLSMのトレーニングは非常にリソース集約的であり、反復的なトレーニングを通じて限られた計算資源とメモリ資源によって特徴づけられる様々な展開シナリオをカスタマイズするのは現実的ではない。 本稿では,フレキシブルモデル展開をサポートするネットワークアーキテクチャとポストトレーニングモデル最適化フレームワークであるFlextronを紹介する。 Flextronアーキテクチャはネストされた弾性構造を利用して、追加の微調整を必要とせず、推論中に特定のユーザ定義のレイテンシと精度ターゲットに迅速に適応する。 入力適応性も備えており、トークンをサブネットワーク経由で自動的にルーティングすることで、パフォーマンスと効率を向上させることができる。 本稿では,既存のLLMをFlextronモデルに体系的に変換する,サンプル効率のよい学習手法と関連するルーティングアルゴリズムを提案する。 我々は,LPMのGPT-3およびLLama-2ファミリ上でFlextronを評価し,複数のエンドツーエンドトレーニングされた変種や他の最先端の弾性ネットワークよりも優れた性能を示す。

Training modern LLMs is extremely resource intensive, and customizing them for various deployment scenarios characterized by limited compute and memory resources through repeated training is impractical. In this paper, we introduce Flextron, a network architecture and post-training model optimization framework supporting flexible model deployment. The Flextron architecture utilizes a nested elastic structure to rapidly adapt to specific user-defined latency and accuracy targets during inference with no additional fine-tuning required. It is also input-adaptive, and can automatically route tokens through its sub-networks for improved performance and efficiency. We present a sample-efficient training method and associated routing algorithms for systematically transforming an existing trained LLM into a Flextron model. We evaluate Flextron on the GPT-3 and LLama-2 family of LLMs, and demonstrate superior performance over multiple end-to-end trained variants and other state-of-the-art elastic networks, all with a single pretraining run that consumes a mere 7.63% tokens compared to original pretraining.
翻訳日:2024-08-29 20:38:57 公開日:2024-08-28
# ホモグリーフを用いたAI生成コンテンツ検出器の展開

Evading AI-Generated Content Detectors using Homoglyphs ( http://arxiv.org/abs/2406.11239v2 )

ライセンス: Link先を確認
Aldan Creo, Shushanta Pudasaini, (参考訳) 大規模言語モデル(LLM)の出現により、人間のような特徴がますます現れているテキストの生成が可能になった。 このような内容の検出は重要であり、信頼性の高いAI生成テキスト検出器の開発を目的として多くの研究がなされている。 これらの検出器は、試験データに対して有望な結果を示したが、最近の研究では、異なる技術を用いることで回避できることが判明した。 本稿では,既存の検出器を回避する手段として,ホモグリフによる攻撃(a \rightarrow {\alpha}$)を提案する。 ArguGPT, Binoculars, DetectGPT, Fast-DetectGPT, Ghostbuster, OpenAIの検出器, 透かし技術を含む7つの検出器に対する攻撃の有効性を評価するための総合的な評価を行った。 その結果、ホモグリフによる攻撃は、最先端の検知を効果的に回避し、すべてのテキストをAI生成か人書きに分類できる(平均マシューズ相関係数を0.64から0.01に低下させる)。 次に、ホモグリフが検出器の異なる族にどのように影響するかを分析することによって、これらの攻撃の有効性を検討する。 最後に、これらの発見がもたらす意味と、そのような攻撃に対する潜在的防御について論じる。

The advent of large language models (LLMs) has enabled the generation of text that increasingly exhibits human-like characteristics. As the detection of such content is of significant importance, numerous studies have been conducted with the aim of developing reliable AI-generated text detectors. These detectors have demonstrated promising results on test data, but recent research has revealed that they can be circumvented by employing different techniques. In this paper, we present homoglyph-based attacks ($a \rightarrow {\alpha}$) as a means of circumventing existing detectors. A comprehensive evaluation was conducted to assess the effectiveness of these attacks on seven detectors, including ArguGPT, Binoculars, DetectGPT, Fast-DetectGPT, Ghostbuster, OpenAI's detector, and watermarking techniques, on five different datasets. Our findings demonstrate that homoglyph-based attacks can effectively circumvent state-of-the-art detectors, leading them to classify all texts as either AI-generated or human-written (decreasing the average Matthews Correlation Coefficient from 0.64 to -0.01). We then examine the effectiveness of these attacks by analyzing how homoglyphs impact different families of detectors. Finally, we discuss the implications of these findings and potential defenses against such attacks.
翻訳日:2024-08-29 20:38:57 公開日:2024-08-28
# 励起ダイナミクスの変分カルタン量子ダイナミクスシミュレーション

Variational-Cartan Quantum Dynamics Simulations of Excitation Dynamics ( http://arxiv.org/abs/2406.14127v2 )

ライセンス: Link先を確認
Linyun Wan, Jie Liu, Zhenyu Li, Jinlong Yang, (参考訳) 量子力学シミュレーション(QDS)は、量子コンピューティングの最も期待されている応用の1つである。 ハミルトニアンシミュレーションアルゴリズムを実装するための量子回路深度は、長時間のダイナミクスシミュレーションが短期量子プロセッサでは不規則になるように、時間に依存するのが一般的である。 カルタン分解(CD)に基づくハミルトニアンシミュレーションアルゴリズムは、時間非依存のケースに限られる固定深度回路を持つQDSに対して魅力的なスキームを提供する。 本研究は, 時間依存システムと変分ハミルトンシミュレーションを組み合わせることで, 時間依存システムを研究するためのCDベースのハミルトンシミュレーションアルゴリズムを一般化する。 ハミルトニアンの時間依存性と時間に依存しない部分は、それぞれ変分法とCDベースのハミルトニアンシミュレーションアルゴリズムで処理される。 そのため、このハイブリッドハミルトニアンシミュレーションアルゴリズムでは、高い精度を維持しながら、固定深度量子回路のみが必要となる。 このアルゴリズムを用いてスピン系と分子系の応答を$\delta$-kick電場に適用し、これらの励起過程の正確なスペクトルを求める。

Quantum dynamics simulations (QDSs) are one of the most highly anticipated applications of quantum computing. Quantum circuit depth for implementing Hamiltonian simulation algorithms is commonly time dependent so that long time dynamics simulations become impratical on near-term quantum processors. The Hamiltonian simulation algorithm based on Cartan decomposition (CD) provides an appealing scheme for QDSs with fixed-depth circuits while limited to time-independent case. In this work, we generalize this CD-based Hamiltonian simulation algorithm for studying time-dependent systems by combining it with variational Hamiltonian simulation. The time-dependent and time-independent parts of the Hamiltonian are treated with the variational approach and the CD-based Hamiltonian simulation algorithms, respectively. As such, only fixed-depth quantum circuits are required in this hybrid Hamiltonian simulation algorithm while still maintaining high accuracy. We apply this new algorithm to study the response of spin and molecular systems to $\delta$-kick electric fields and obtain accurate spectra for these excitation processes.
翻訳日:2024-08-29 20:38:57 公開日:2024-08-28
# 第2回eXplainable AI for the Arts(XAIxArts)国際ワークショップの開催報告

Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts) ( http://arxiv.org/abs/2406.14485v6 )

ライセンス: Link先を確認
Nick Bryan-Kinns, Corey Ford, Shuoyang Zheng, Helen Kennedy, Alan Chamberlain, Makayla Lewis, Drew Hemment, Zijin Li, Qiong Wu, Lanxi Xiao, Gus Xia, Jeba Rezwana, Michael Clemens, Gabriel Vigliensoni, (参考訳) この第2回説明可能なAI for the Arts(XAIxArts)に関する国際ワークショップは、HCI、インタラクションデザイン、AI、説明可能なAI(XAI)、デジタルアートの研究者のコミュニティを集めて、XAI for the Artsの役割を探求した。 第16回 ACM Conference on Creativity and Cognition (C&C 2024) でワークショップを開催した。

This second international workshop on explainable AI for the Arts (XAIxArts) brought together a community of researchers in HCI, Interaction Design, AI, explainable AI (XAI), and digital arts to explore the role of XAI for the Arts. Workshop held at the 16th ACM Conference on Creativity and Cognition (C&C 2024), Chicago, USA.
翻訳日:2024-08-29 20:38:57 公開日:2024-08-28
# AIネイティブメモリ - LLMからAGIへの道

AI-native Memory: A Pathway from LLMs Towards AGI ( http://arxiv.org/abs/2406.18312v4 )

ライセンス: Link先を確認
Jingbo Shang, Zai Zheng, Jiale Wei, Xiang Ying, Felix Tao, Mindverse Team, (参考訳) 大規模言語モデル(LLM)は、人工知能(AGI)の火花で世界を実証している。 LLMに携わるスタートアップの中には、ほとんど無制限のコンテキストを持つLLMはAGIを実現することができる、という意見もある。 しかし, LLMの長期的文脈能力については, (1) 有効文脈長が主張する文脈長よりも著しく小さいこと, (2) 長期的文脈から関連情報を同時に発見し, 簡単な推論を行うことがほぼ不可能であること, など, 楽観的すぎるかもしれない。 本稿では,LLM から AGI への経路を,emph{Memory} の統合により想定する。 AGIはLLMがコアプロセッサとして機能するシステムであるべきだと考えています。 生データに加えて、このシステムのメモリは推論プロセスから派生した多くの重要な結論を格納する。 生データのみを処理する検索拡張生成(RAG)と比較すると,本手法は意味的関連情報をより緊密に接続するだけでなく,クエリ時に複雑な推論を単純化する。 中間段階として、メモリはおそらく自然言語記述の形で、ユーザも直接使用することができる。 究極的には、すべてのエージェント/人それぞれが独自の大きなパーソナルモデルを持ち、すべてのタイプのメモリをパラメータ化して圧縮するディープニューラルネットワークモデル(thus \emph{AI-native})を持つべきである。 最後に、AIネイティブメモリが、AGI時代の(積極的な)エンゲージメント、パーソナライゼーション、配布、ソーシャルの変革的基盤である可能性、および予備的なソリューションによる引き起こされたプライバシとセキュリティ上の課題について論じる。

Large language models (LLMs) have demonstrated the world with the sparks of artificial general intelligence (AGI). One opinion, especially from some startups working on LLMs, argues that an LLM with nearly unlimited context length can realize AGI. However, they might be too optimistic about the long-context capability of (existing) LLMs -- (1) Recent literature has shown that their effective context length is significantly smaller than their claimed context length; and (2) Our reasoning-in-a-haystack experiments further demonstrate that simultaneously finding the relevant information from a long context and conducting (simple) reasoning is nearly impossible. In this paper, we envision a pathway from LLMs to AGI through the integration of \emph{memory}. We believe that AGI should be a system where LLMs serve as core processors. In addition to raw data, the memory in this system would store a large number of important conclusions derived from reasoning processes. Compared with retrieval-augmented generation (RAG) that merely processing raw data, this approach not only connects semantically related information closer, but also simplifies complex inferences at the time of querying. As an intermediate stage, the memory will likely be in the form of natural language descriptions, which can be directly consumed by users too. Ultimately, every agent/person should have its own large personal model, a deep neural network model (thus \emph{AI-native}) that parameterizes and compresses all types of memory, even the ones cannot be described by natural languages. Finally, we discuss the significant potential of AI-native memory as the transformative infrastructure for (proactive) engagement, personalization, distribution, and social in the AGI era, as well as the incurred privacy and security challenges with preliminary solutions.
翻訳日:2024-08-29 20:38:57 公開日:2024-08-28
# 深部量子ニューラルネットワークにおける勾配測定効率と表現率のトレードオフ

Trade-off between Gradient Measurement Efficiency and Expressivity in Deep Quantum Neural Networks ( http://arxiv.org/abs/2406.18316v2 )

ライセンス: Link先を確認
Koki Chinzei, Shinichiro Yamano, Quoc Hoan Tran, Yasuhiro Endo, Hirotaka Oshima, (参考訳) 量子ニューラルネットワーク(QNN)は、実用的な量子優位性を達成するために効率的なトレーニングアルゴリズムを必要とする。 有望なアプローチは勾配に基づく最適化アルゴリズムを使うことであり、量子的測定によって勾配を推定する。 しかし、QNNには効率的な勾配測定アルゴリズムが欠けており、スケーラブルなQNNを実現するための基本的で実践的な課題となっている。 本研究では, 同時に測定可能な勾配成分の平均値として定義される勾配測定効率と, 広範囲の深部QNNにおける表現率とのトレードオフを厳密に証明し, 効率的な勾配推定の理論的限界と可能性を明らかにする。 このトレードオフは、より表現力の高いQNNは勾配推定において高い測定コストを必要とすることを意味し、一方、与えられたタスクに適合するようにQNN表現率を減少させることで勾配測定効率を向上させることができることを示している。 さらに、量子回路の対称構造を利用して、トレードオフ不等式の上限に達することのできる安定化器-論理積アンサッツ(SLPA)と呼ばれる一般的なQNNアンサッツを提案する。 未知対称関数の学習において、SLPAはパラメータシフト法に基づくよく設計された対称回路と比較して、精度と訓練性を維持しながら、トレーニングに必要な量子リソースを劇的に削減する。 この結果から,QNNにおける効率的なトレーニングの理論的理解だけでなく,標準化され,広く適用可能なQNN設計も明らかにした。

Quantum neural networks (QNNs) require an efficient training algorithm to achieve practical quantum advantages. A promising approach is the use of gradient-based optimization algorithms, where gradients are estimated through quantum measurements. However, general QNNs lack an efficient gradient measurement algorithm, which poses a fundamental and practical challenge to realizing scalable QNNs. In this work, we rigorously prove a trade-off between gradient measurement efficiency, defined as the mean number of simultaneously measurable gradient components, and expressivity in a wide class of deep QNNs, elucidating the theoretical limits and possibilities of efficient gradient estimation. This trade-off implies that a more expressive QNN requires a higher measurement cost in gradient estimation, whereas we can increase gradient measurement efficiency by reducing the QNN expressivity to suit a given task. We further propose a general QNN ansatz called the stabilizer-logical product ansatz (SLPA), which can reach the upper limit of the trade-off inequality by leveraging the symmetric structure of the quantum circuit. In learning an unknown symmetric function, the SLPA drastically reduces the quantum resources required for training while maintaining accuracy and trainability compared to a well-designed symmetric circuit based on the parameter-shift method. Our results not only reveal a theoretical understanding of efficient training in QNNs but also provide a standard and broadly applicable efficient QNN design.
翻訳日:2024-08-29 20:38:57 公開日:2024-08-28
# 構造的注意:不適切な医用画像合成のための変圧器の再考

Structural Attention: Rethinking Transformer for Unpaired Medical Image Synthesis ( http://arxiv.org/abs/2406.18967v2 )

ライセンス: Link先を確認
Vu Minh Hieu Phan, Yutong Xie, Bowen Zhang, Yuankai Qi, Zhibin Liao, Antonios Perperidis, Son Lam Phung, Johan W. Verjans, Minh-Son To, (参考訳) 非ペア医療画像合成は、正確な臨床診断のための補完情報の提供と、整列型マルチモーダル・メディカルスキャンの取得における課題への対処を目的としている。 Transformerベースのモデルは、長距離依存関係をキャプチャする機能のおかげで、画像翻訳タスクに優れています。 教師付きトレーニング設定では有効であるが、特に構造的詳細を合成する際、その性能は不適切な画像合成に影響を及ぼす。 本稿では,強い帰納バイアスを欠くトランスフォーマーが,ペアデータがない場合に最適でない解に収束できることを実証的に示す。 この問題を解決するために,UNet Structured Transformer (UNest)を導入した。 我々は,基礎的なセグメンション・アニーシング・モデルを利用して,前景構造を正確に抽出し,主解剖学内で構造的注意を喚起する。 これにより、重要な解剖学的領域を学ぶためのモデルがガイドされ、未経験トレーニングの監督の欠如の下で構造的合成が改善される。 MR、CT、PETの3つのモードにまたがる2つの公開データセットに基づいて評価され、UNestは6つの医用画像合成タスクにおいて、最新の手法を19.30%改善する。 私たちのコードはhttps://github.com/HieuPhan33/MICCAI2024-UNest.comで公開されています。

Unpaired medical image synthesis aims to provide complementary information for an accurate clinical diagnostics, and address challenges in obtaining aligned multi-modal medical scans. Transformer-based models excel in imaging translation tasks thanks to their ability to capture long-range dependencies. Although effective in supervised training settings, their performance falters in unpaired image synthesis, particularly in synthesizing structural details. This paper empirically demonstrates that, lacking strong inductive biases, Transformer can converge to non-optimal solutions in the absence of paired data. To address this, we introduce UNet Structured Transformer (UNest), a novel architecture incorporating structural inductive biases for unpaired medical image synthesis. We leverage the foundational Segment-Anything Model to precisely extract the foreground structure and perform structural attention within the main anatomy. This guides the model to learn key anatomical regions, thus improving structural synthesis under the lack of supervision in unpaired training. Evaluated on two public datasets, spanning three modalities, i.e., MR, CT, and PET, UNest improves recent methods by up to 19.30% across six medical image synthesis tasks. Our code is released at https://github.com/HieuPhan33/MICCAI2024-UNest.
翻訳日:2024-08-29 20:38:57 公開日:2024-08-28
# TokenPacker:マルチモーダルLLMのための効率的なビジュアルプロジェクタ

TokenPacker: Efficient Visual Projector for Multimodal LLM ( http://arxiv.org/abs/2407.02392v4 )

ライセンス: Link先を確認
Wentong Li, Yuqian Yuan, Jian Liu, Dongqi Tang, Song Wang, Jie Qin, Jianke Zhu, Lei Zhang, (参考訳) ビジュアルプロジェクタは、マルチモーダル LLM (MLLM) において、ビジュアルエンコーダとLarge Language Model (LLM) の間に必須のブリッジとして機能する。 通常、MLLMは1対1変換によって全ての視覚的コンテキストを保存するために単純なMLPを採用する。 しかし、視覚トークンは冗長であり、高解像度画像を扱う場合には大幅に増大し、MLLMの効率を著しく損なう。 いくつかの最近の研究は、結果として生じる視覚トークンの数を減らすために、リサンプラー(resampler)や抽象体を導入している。 残念なことに、より細部を捉えることができず、MLLMの視覚的推論能力を損なう。 本研究では,密集した特徴を注入して凝縮した視覚トークンを生成するために,粗い微細なスキームを取り入れた新しいビジュアルプロジェクタを提案する。 具体的には、まず視覚的特徴を低解像度の点問合せとして補間し、全体の視覚的表現を基礎として提供する。 次に,高分解能で多レベルな領域ベースキューを微細な参照キーや値として利用する領域間インジェクションモジュールを導入し,対応するローカルコンテキスト領域に完全に吸収できるようにする。 このステップは、粗いポイントクエリを効果的に更新し、後続のLCM推論のために強化されたクエリに変換する。 広汎な実験により、我々の手法は視覚トークンを75%〜89%圧縮する一方で、非常に高い効率で様々なベンチマークで同等またはさらに優れた性能を実現していることが示された。 ソースコードはhttps://github.com/CircleRadon/TokenPackerにある。

The visual projector serves as an essential bridge between the visual encoder and the Large Language Model (LLM) in a Multimodal LLM (MLLM). Typically, MLLMs adopt a simple MLP to preserve all visual contexts via one-to-one transformation. However, the visual tokens are redundant and can be considerably increased when dealing with high-resolution images, impairing the efficiency of MLLMs significantly. Some recent works have introduced resampler or abstractor to reduce the number of resulting visual tokens. Unfortunately, they fail to capture finer details and undermine the visual reasoning capabilities of MLLMs. In this work, we propose a novel visual projector, which adopts a coarse-to-fine scheme to inject the enriched characteristics to generate the condensed visual tokens. In specific, we first interpolate the visual features as a low-resolution point query, providing the overall visual representation as the foundation. Then, we introduce a region-to-point injection module that utilizes high-resolution, multi-level region-based cues as fine-grained reference keys and values, allowing them to be fully absorbed within the corresponding local context region. This step effectively updates the coarse point query, transforming it into an enriched one for the subsequent LLM reasoning. Extensive experiments demonstrate that our approach compresses the visual tokens by 75%~89%, while achieves comparable or even better performance across diverse benchmarks with significantly higher efficiency. The source codes can be found at https://github.com/CircleRadon/TokenPacker.
翻訳日:2024-08-29 20:38:57 公開日:2024-08-28
# フィードバック駆動の自動化されたバグがAndroidアプリの再現を報告

Feedback-Driven Automated Whole Bug Report Reproduction for Android Apps ( http://arxiv.org/abs/2407.05165v3 )

ライセンス: Link先を確認
Dingbang Wang, Yu Zhao, Sidong Feng, Zhaoxu Zhang, William G. J. Halfond, Chunyang Chen, Xiaoxia Sun, Jiangfan Shi, Tingting Yu, (参考訳) ソフトウェア開発では、バグレポートの再現は難しい作業です。 本稿では,大規模な言語モデル (LLM) である GPT-4 を利用して,Android のバグレポートを自動的に再現する新しいフィードバック駆動型アプローチである ReBL を紹介する。 従来のメソッドとは異なり、ReBLはStep to Reproduce(S2R)エンティティの使用をバイパスしている。 代わりに、テキストバグレポート全体を活用し、GPTの文脈推論を強化する革新的なプロンプトを採用している。 このアプローチは従来のステップバイステップのエンティティマッチングアプローチよりも柔軟でコンテキスト対応で、精度と効率性が向上します。 クラッシュレポートの処理に加えて、ReBLは非クラッシュ機能バグレポートの処理機能を備えている。 96のAndroidバグレポート(73のクラッシュと23の非クラッシュ)の評価によると、ReBLは90.63%のバグレポートを再現し、平均74.98秒に過ぎなかった。 さらに、ReBLは成功率とスピードの両面で、既存の3つのツールを上回った。

In software development, bug report reproduction is a challenging task. This paper introduces ReBL, a novel feedback-driven approach that leverages GPT-4, a large-scale language model (LLM), to automatically reproduce Android bug reports. Unlike traditional methods, ReBL bypasses the use of Step to Reproduce (S2R) entities. Instead, it leverages the entire textual bug report and employs innovative prompts to enhance GPT's contextual reasoning. This approach is more flexible and context-aware than the traditional step-by-step entity matching approach, resulting in improved accuracy and effectiveness. In addition to handling crash reports, ReBL has the capability of handling non-crash functional bug reports. Our evaluation of 96 Android bug reports (73 crash and 23 non-crash) demonstrates that ReBL successfully reproduced 90.63% of these reports, averaging only 74.98 seconds per bug report. Additionally, ReBL outperformed three existing tools in both success rate and speed.
翻訳日:2024-08-29 20:38:57 公開日:2024-08-28
# レイアウトに従わない大規模言語モデル

Large Language Models Understand Layout ( http://arxiv.org/abs/2407.05750v3 )

ライセンス: Link先を確認
Weiming Li, Manni Duan, Dong An, Yan Shao, (参考訳) 大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて異常な能力を示す。 本稿では,テキスト理解機能以外に,空間マーカーで表されるテキストレイアウトをLLMで処理できることを示す。 元のデータから空間マーカーを除外した場合に、劇的な性能低下が観察される一方で、明示的な空間知覚と推論を必要とする質問に答えることができる。 我々は,GPT-3.5,Baichuan2,Llama2,ChatGLM3モデルを用いて,様々なタイプのレイアウトに敏感なデータセットを用いて実験を行い,さらなる分析を行った。 実験結果から, LLMのレイアウト理解能力は, 事前学習のためのコーディングデータによって主に導入され, 指導訓練段階でさらに強化されていることがわかった。 さらに、新しいテキストゲームによってアプローチされた低コストで自動生成されたデータを統合することで、レイアウト理解を向上させることができる。 最後に,視覚的質問応答(VQA)システムを構築する上で,レイアウト理解能力が有用であることを示す。

Large language models (LLMs) demonstrate extraordinary abilities in a wide range of natural language processing (NLP) tasks. In this paper, we show that, beyond text understanding capability, LLMs are capable of processing text layouts that are denoted by spatial markers. They are able to answer questions that require explicit spatial perceiving and reasoning, while a drastic performance drop is observed when the spatial markers from the original data are excluded. We perform a series of experiments with the GPT-3.5, Baichuan2, Llama2 and ChatGLM3 models on various types of layout-sensitive datasets for further analysis. The experimental results reveal that the layout understanding ability of LLMs is mainly introduced by the coding data for pretraining, which is further enhanced at the instruction-tuning stage. In addition, layout understanding can be enhanced by integrating low-cost, auto-generated data approached by a novel text game. Finally, we show that layout understanding ability is beneficial for building efficient visual question-answering (VQA) systems.
翻訳日:2024-08-29 20:28:56 公開日:2024-08-28
# 並列セグメントエンタングルメントスワッピング

Parallel Segment Entanglement Swapping ( http://arxiv.org/abs/2407.06598v2 )

ライセンス: Link先を確認
Binjie He, Seng W. Loke, Dong Zhang, (参考訳) ノイズの多い中規模量子時代において、科学者は物理レベルでのアンチノイズ技術の研究により、エンタングルメントスワップの成功率を改善し、長距離エンタングルメントの発生率を高めようとしている。 しかし, 効率の良い絡み換え戦略を研究している別の観点から, 生成率を改善することができる。 本稿では,ノード割り当て原理,時間同期,絡み合いスワップ障害の処理など,既存の絡み合いスワップ戦略が直面する課題について分析する。 これらの問題を解決するために,PSES(Parallel Segment Entanglement Swapping)を提案する。 PSESの中核となる考え方は、経路を分割し、長距離絡みの発生率を改善するために、セグメント間で並列絡み替えを行うことである。 我々は,木のようなモデルをPSESのキャリアとして構築し,その経路を木のようなモデルに変換するためにレイヤグレディとセグメントグレディと呼ばれるヒューリスティックなアルゴリズムを提案する。 さらに、時間同期を実現し、障害の絡み合わせを処理するためのオンデマンド再送信機構を設計する。 実験の結果,PSESは他のエンタングルメントスワップ戦略よりも優れた性能を示し,オンデマンド再送信機構により,平均エンタングルメントスワップ時間を80%,平均エンタングルメント消費を80%削減できることがわかった。

In the noisy intermediate-scale quantum era, scientists are trying to improve the entanglement swapping success rate by researching anti-noise technology on the physical level, thereby obtaining a higher generation rate of long-distance entanglement. However, we may improve the generation rate from another perspective, which is studying an efficient entanglement swapping strategy. This paper analyzes the challenges faced by existing entanglement swapping strategies, including the node allocation principle, time synchronization, and processing of entanglement swapping failure. We present Parallel Segment Entanglement Swapping (PSES) to solve these problems. The core idea of PSES is to segment the path and perform parallel entanglement swapping between segments to improve the generation rate of long-distance entanglement. We construct a tree-like model as the carrier of PSES and propose heuristic algorithms called Layer Greedy and Segment Greedy to transform the path into a tree-like model. Moreover, we realize the time synchronization and design the on-demand retransmission mechanism to process entanglement swapping failure. The experiments show that PSES performs superiorly to other entanglement swapping strategies, and the on-demand retransmission mechanism can reduce the average entanglement swapping time by 80% and the average entanglement consumption by 80%.
翻訳日:2024-08-29 20:28:56 公開日:2024-08-28
# 非言語的社会的相互作用における信念予測のための心の理論の明示的モデリング

Explicit Modelling of Theory of Mind for Belief Prediction in Nonverbal Social Interactions ( http://arxiv.org/abs/2407.06762v3 )

ライセンス: Link先を確認
Matteo Bortoletto, Constantin Ruhdorfer, Lei Shi, Andreas Bulling, (参考訳) マルチモーダル入力から人間の社会的相互作用における信念とそのダイナミクスを予測するための、心の理論(ToM)ニューラルネットワークであるMToMnetを提案する。 ToMは効果的な非言語的コミュニケーションと協調のための鍵であるが、既存の信念モデリング手法には明示的なToMモデリングが含まれておらず、通常は1つか2つのモダリティに制限されている。 MToMnetは、コンテキストキュー(シーンビデオとオブジェクトロケーション)をエンコードし、個人固有のキュー(人間の視線とボディランゲージ)を、それぞれ個別のMindNetに統合する。 社会的認知とToMに関する先行研究から着想を得て,3種類のMToMnet変異体を提案する。 我々は,2つの現実的データセットに対するアプローチを評価し,その1つは信念の予測に焦点を当て,もう1つは信念のダイナミクスの予測について検討した。 以上の結果から,MToMnetは既存の手法をはるかに上回り,同時にパラメータも大幅に少なくなることが明らかとなった。 そこで本手法は,非言語的行動から人間の信念を強く予測し,人間とより効果的に協力することのできる,人工知能システムの将来的な研究に向けて,極めて有望な方向を導出する。

We propose MToMnet - a Theory of Mind (ToM) neural network for predicting beliefs and their dynamics during human social interactions from multimodal input. ToM is key for effective nonverbal human communication and collaboration, yet, existing methods for belief modelling have not included explicit ToM modelling or have typically been limited to one or two modalities. MToMnet encodes contextual cues (scene videos and object locations) and integrates them with person-specific cues (human gaze and body language) in a separate MindNet for each person. Inspired by prior research on social cognition and computational ToM, we propose three different MToMnet variants: two involving fusion of latent representations and one involving re-ranking of classification scores. We evaluate our approach on two challenging real-world datasets, one focusing on belief prediction, while the other examining belief dynamics prediction. Our results demonstrate that MToMnet surpasses existing methods by a large margin while at the same time requiring a significantly smaller number of parameters. Taken together, our method opens up a highly promising direction for future work on artificial intelligent systems that can robustly predict human beliefs from their non-verbal behaviour and, as such, more effectively collaborate with humans.
翻訳日:2024-08-29 20:28:56 公開日:2024-08-28
# 高品質かつ効率的なレンダリングのためのモデルに依存しないエキスパートフレームワークNeRF

Boost Your NeRF: A Model-Agnostic Mixture of Experts Framework for High Quality and Efficient Rendering ( http://arxiv.org/abs/2407.10389v2 )

ライセンス: Link先を確認
Francesco Di Sario, Riccardo Renzulli, Enzo Tartaglione, Marco Grangetto, (参考訳) NeRFの導入以来、トレーニングと推論時間の改善にかなりの注意が向けられ、Fast-NeRFsモデルの開発に繋がった。 印象的なレンダリング速度と品質にもかかわらず、そのようなモデルの迅速な収束は、再構築品質をさらに改善するための課題を提起する。 レンダリング品質を改善するための一般的な戦略は、モデルのパラメータを増やしたり、サンプルポイントの数を増やしたりすることである。 しかし、これらの計算集約的なアプローチは、大幅な品質向上を達成するための限界に直面する。 本研究では,Sparsely-Gated Mixture of Expertsにインスパイアされたモデル非依存のフレームワークを導入し,計算複雑性を増大させることなくレンダリング品質を向上させる。 提案手法は,様々な解像度のエキスパートを混在させることで,異なるシーンコンポーネントのレンダリングを専門化することができる。 本稿では,専門家の能力を最大化するために設計された新しいゲートの定式化と,空間を効果的に誘導し,シーンを分解する解像度ベースのルーティング手法を提案する。 本研究は,競争性能を維持しつつ,再現性を大幅に向上させる。

Since the introduction of NeRFs, considerable attention has been focused on improving their training and inference times, leading to the development of Fast-NeRFs models. Despite demonstrating impressive rendering speed and quality, the rapid convergence of such models poses challenges for further improving reconstruction quality. Common strategies to improve rendering quality involves augmenting model parameters or increasing the number of sampled points. However, these computationally intensive approaches encounter limitations in achieving significant quality enhancements. This study introduces a model-agnostic framework inspired by Sparsely-Gated Mixture of Experts to enhance rendering quality without escalating computational complexity. Our approach enables specialization in rendering different scene components by employing a mixture of experts with varying resolutions. We present a novel gate formulation designed to maximize expert capabilities and propose a resolution-based routing technique to effectively induce sparsity and decompose scenes. Our work significantly improves reconstruction quality while maintaining competitive performance.
翻訳日:2024-08-29 20:28:56 公開日:2024-08-28
# GNNを用いたマルチデータセットセマンティックセマンティックセグメンテーションのためのラベルの自動統一

Automated Label Unification for Multi-Dataset Semantic Segmentation with GNNs ( http://arxiv.org/abs/2407.10534v2 )

ライセンス: Link先を確認
Rong Ma, Jie Chen, Xiangyang Xue, Jian Pu, (参考訳) 深層教師付きモデルには、広範囲なトレーニングデータを同化する重要な能力があり、複数のデータセットのトレーニングを通じてモデルパフォーマンスを向上させる機会を提供する。 しかし、データセット間で異なるラベル空間から生じる矛盾は、モデルの性能に悪影響を及ぼす可能性がある。 本稿では,グラフニューラルネットワークを用いて,複数のデータセットにまたがる統一ラベル空間を自動構築する手法を提案する。 これにより、セマンティックセグメンテーションモデルを複数のデータセットで同時にトレーニングすることが可能になり、パフォーマンスが向上する。 従来の手法と異なり,本手法は手動の注釈や分類の調整を必要とせず,シームレスな訓練を容易にする。 これにより、マルチデータセットセグメンテーションモデルのトレーニングの効率性と効果が大幅に向上する。 その結果,WildDash 2ベンチマークでは,7つのデータセットを同時にトレーニングした場合に,他のマルチデータセットのトレーニング手法よりも大幅に優れており,最先端のパフォーマンスを実現していることがわかった。

Deep supervised models possess significant capability to assimilate extensive training data, thereby presenting an opportunity to enhance model performance through training on multiple datasets. However, conflicts arising from different label spaces among datasets may adversely affect model performance. In this paper, we propose a novel approach to automatically construct a unified label space across multiple datasets using graph neural networks. This enables semantic segmentation models to be trained simultaneously on multiple datasets, resulting in performance improvements. Unlike existing methods, our approach facilitates seamless training without the need for additional manual reannotation or taxonomy reconciliation. This significantly enhances the efficiency and effectiveness of multi-dataset segmentation model training. The results demonstrate that our method significantly outperforms other multi-dataset training methods when trained on seven datasets simultaneously, and achieves state-of-the-art performance on the WildDash 2 benchmark.
翻訳日:2024-08-29 20:28:56 公開日:2024-08-28
# Cortex-Mマイクロコントローラを用いた完全量子化深部ニューラルネットワークのオンデバイストレーニング

On-Device Training of Fully Quantized Deep Neural Networks on Cortex-M Microcontrollers ( http://arxiv.org/abs/2407.10734v2 )

ライセンス: Link先を確認
Mark Deutel, Frank Hannig, Christopher Mutschler, Jürgen Teich, (参考訳) DNNのオンデバイストレーニングでは、モデルがマイクロコントローラユニット(MCU)にデプロイされている間、新たに収集されたデータやドメインの変更に適応し、微調整することができる。 しかし、DNNトレーニングはリソース集約的なタスクであり、プロセッサ速度の低下、スループットの制限、浮動小数点数のサポートの制限、メモリ制約のため、MCU上でのDNNトレーニングアルゴリズムの実装と実行が困難になる。 本研究では,Cortex-M MCUにおけるDNNのオンデバイストレーニングについて検討する。 本稿では,完全量子化トレーニング(FQT)と動的部分勾配更新を用いて,MCU上でDNNの効率的なトレーニングを可能にする手法を提案する。 マルチビジョンと時系列データセットに対するアプローチの実現可能性を示し、トレーニング精度、メモリオーバーヘッド、エネルギ、実際のハードウェアでのレイテンシのトレードオフに関する洞察を提供する。

On-device training of DNNs allows models to adapt and fine-tune to newly collected data or changing domains while deployed on microcontroller units (MCUs). However, DNN training is a resource-intensive task, making the implementation and execution of DNN training algorithms on MCUs challenging due to low processor speeds, constrained throughput, limited floating-point support, and memory constraints. In this work, we explore on-device training of DNNs for Cortex-M MCUs. We present a method that enables efficient training of DNNs completely in place on the MCU using fully quantized training (FQT) and dynamic partial gradient updates. We demonstrate the feasibility of our approach on multiple vision and time-series datasets and provide insights into the tradeoff between training accuracy, memory overhead, energy, and latency on real hardware.
翻訳日:2024-08-29 20:28:56 公開日:2024-08-28
# IICPilot: Open EDAを用いたインテリジェント集積回路バックエンド設計フレームワーク

IICPilot: An Intelligent Integrated Circuit Backend Design Framework Using Open EDA ( http://arxiv.org/abs/2407.12576v2 )

ライセンス: Link先を確認
Zesong Jiang, Qing Zhang, Cheng Liu, Long Cheng, Huawei Li, Xiaowei Li, (参考訳) オープンソースEDAツールは急速に進歩し、EDAコミュニティ内でのコラボレーション、イノベーション、知識共有を促進しています。 しかし、これらのツールの複雑さは、多くの設計パラメータとヒューリスティックによって特徴づけられ、広く普及する上で大きな障壁となっている。 この複雑さは特に統合回路(IC)バックエンド設計において顕著であり、EDAツールの技術者の専門知識にかなりの需要がある。 この課題に対処するために,LLM技術に基づくインテリジェントICバックエンド設計システムであるIICPilotを紹介する。 IICPilotはスクリプト生成、EDAツールの実行、EDAパラメータの設計空間探索、コンテナベースのコンピューティングリソース割り当て、例外管理など、さまざまなバックエンド設計手順を自動化する。 これらのタスクを自動化することで、IICPilotはオープンソースのEDAツールの参入障壁を著しく低くする。 具体的には、IICPilotはLangChainのマルチエージェントフレームワークを使用して、異なる設計タスクを効率的に処理し、フレキシブルな拡張を可能にする。 さらに、IICPilotは、バックエンド設計ワークフローと特定のオープンソースEDAツールを統一EDA呼び出しインターフェースで分離する。 このアプローチにより、OpenROADやiEDAといったさまざまなオープンソースEDAツールとのシームレスな統合が可能になり、EDAツール間のバックエンド設計と最適化の合理化が可能になります。

Open-source EDA tools are rapidly advancing, fostering collaboration, innovation, and knowledge sharing within the EDA community. However, the growing complexity of these tools, characterized by numerous design parameters and heuristics, poses a significant barrier to their widespread adoption. This complexity is particularly pronounced in integrated circuit (IC) backend designs, which place substantial demands on engineers' expertise in EDA tools. To tackle this challenge, we introduce IICPilot, an intelligent IC backend design system based on LLM technology. IICPilot automates various backend design procedures, including script generation, EDA tool invocation, design space exploration of EDA parameters, container-based computing resource allocation, and exception management. By automating these tasks, IICPilot significantly lowers the barrier to entry for open-source EDA tools. Specifically, IICPilot utilizes LangChain's multi-agent framework to efficiently handle distinct design tasks, enabling flexible enhancements independently. Moreover, IICPilot separates the backend design workflow from specific open-source EDA tools through a unified EDA calling interface. This approach allows seamless integration with different open-source EDA tools like OpenROAD and iEDA, streamlining the backend design and optimization across the EDA tools.
翻訳日:2024-08-29 20:28:56 公開日:2024-08-28
# テンソルネットワークシミュレーションのための最適ツリーテンソルネットワーク演算子:オープン量子システムへの応用

Optimal Tree Tensor Network Operators for Tensor Network Simulations: Applications to Open Quantum Systems ( http://arxiv.org/abs/2407.13098v2 )

ライセンス: Link先を確認
Weitang Li, Jiajun Ren, Hengrui Yang, Haobin Wang, Zhigang Shuai, (参考訳) ツリーテンソルネットワーク状態(TTNS)は、木トポロジーに基づく低ランクテンソルの積に系波動関数を分解し、マルチ層多重構成時間依存Hartree(ML-MCTDH)法の基盤となる。 本研究では,任意の積のシンボリック量子演算子に対して,最適かつ正確なツリーテンソルネットワーク演算子(TTNO)を自動構築するアルゴリズムを提案する。 最適TTNOにより、スピン-ボソンモデルにおけるスピン緩和ダイナミクスや分子接合における電荷輸送などのオープン量子系をシミュレートする。 これらのシミュレーションでは、環境は離散モードとして扱われ、その波動関数はシステムと同等の足場で進化する。 ガラス状のフォノン環境をモデル化するためにコールダビッドソンスペクトル密度を用い、熱場力学による温度効果を取り入れた。 その結果,計算コストは離散化モードの数に比例して線形にスケールし,提案手法の効率性を実証した。

Tree tensor network states (TTNS) decompose the system wavefunction to the product of low-rank tensors based on the tree topology, serving as the foundation of the multi-layer multi-configuration time-dependent Hartree (ML-MCTDH) method. In this work, we present an algorithm that automatically constructs the optimal and exact tree tensor network operators (TTNO) for any sum-of-product symbolic quantum operator.The construction is based on the minimum vertex cover of a bipartite graph. With the optimal TTNO, we simulate open quantum systems such as spin relaxation dynamics in the spin-boson model and charge transport in molecular junctions. In these simulations, the environment is treated as discrete modes and its wavefunction is evolved on equal footing with the system. We employ the Cole-Davidson spectral density to model the glassy phonon environment, and incorporate temperature effects via thermo field dynamics. Our results show that the computational cost scales linearly with the number of discretized modes, demonstrating the efficiency of our approach.
翻訳日:2024-08-29 20:28:56 公開日:2024-08-28
# 機械学習における調音作業とテクスチャリング

Articulation Work and Tinkering for Fairness in Machine Learning ( http://arxiv.org/abs/2407.16496v2 )

ライセンス: Link先を確認
Miriam Fahimi, Mayra Russo, Kristen M. Scott, Maria-Esther Vidal, Bettina Berendt, Katharina Kinder-Kurlanda, (参考訳) 公正なAIの分野は、計算モデリングを通じてバイアスのあるアルゴリズムに対抗することを目指している。 しかし、過度に技術的および還元主義的手法の使用を永続させることに対する批判が高まっている。 結果として、公正なAIに関するより社会的指向的で学際的(SOI)な視点に対処する新たなアプローチが、この分野に現れている。 本稿では,コンピュータ科学(CS)とSOI研究の緊張関係を研究するための出発点として,この力学を考察する。 STSとCSCW理論に基づいて、我々は公正なAI研究を「組織的アライメント」の問題として位置づけている。 CS研究者の質的なインタビューに基づいて、公正なAIの場合、実行可能な研究に必要なタスク、リソース、アクターを分析します。 CS研究者はある程度SOI研究に携わるが、組織的条件、調音作業、社会世界のあいまいさはSOI研究の実施可能性を制限する。 我々の知見に基づいて、我々はCSとSOIを公平なAIが進化し続けるにつれて調整する問題を特定し、議論する。

The field of fair AI aims to counter biased algorithms through computational modelling. However, it faces increasing criticism for perpetuating the use of overly technical and reductionist methods. As a result, novel approaches appear in the field to address more socially-oriented and interdisciplinary (SOI) perspectives on fair AI. In this paper, we take this dynamic as the starting point to study the tension between computer science (CS) and SOI research. By drawing on STS and CSCW theory, we position fair AI research as a matter of 'organizational alignment': what makes research 'doable' is the successful alignment of three levels of work organization (the social world, the laboratory, and the experiment). Based on qualitative interviews with CS researchers, we analyze the tasks, resources, and actors required for doable research in the case of fair AI. We find that CS researchers engage with SOI research to some extent, but organizational conditions, articulation work, and ambiguities of the social world constrain the doability of SOI research for them. Based on our findings, we identify and discuss problems for aligning CS and SOI as fair AI continues to evolve.
翻訳日:2024-08-29 20:28:56 公開日:2024-08-28
# テンソルネットワーク強化動的多産物式

Tensor Network enhanced Dynamic Multiproduct Formulas ( http://arxiv.org/abs/2407.17405v2 )

ライセンス: Link先を確認
Niall F. Robertson, Bibek Pokharel, Bryce Fuller, Eric Switzer, Oles Shtanko, Mirko Amico, Adam Byrne, Andrea D'Urbano, Salome Hayes-Shuptar, Albert Akhriev, Nathan Keenan, Sergey Bravyi, Sergiy Zhuk, (参考訳) テンソルネットワークと量子計算は、量子多体系のシミュレーションの最も強力なツールの1つである。 これらを競合するアプローチとして見るのではなく、ここではこれらの2つの手法がどのように機能するかを考察する。 本稿では,テンソルネットワークと量子計算を組み合わせた新しいアルゴリズムを提案する。 提案アルゴリズムは,Trotterの積公式を線形に結合してアルゴリズム誤差を低減する手法である多積式 (MPF) に基づいている。 我々のアルゴリズムは、量子コンピュータを用いて期待値とテンソルネットワークを計算し、線形結合で使用される係数を計算する。 我々は,このアルゴリズムの詳細な誤差解析を行い,IBMの量子コンピュータ2つを用いて1次元量子シミュレーション問題に対して,$ibm\_torino$と$ibm\_kyiv$のフルワークフローを示す。

Tensor networks and quantum computation are two of the most powerful tools for the simulation of quantum many-body systems. Rather than viewing them as competing approaches, here we consider how these two methods can work in tandem. We introduce a novel algorithm that combines tensor networks and quantum computation to produce results that are more accurate than what could be achieved by either method used in isolation. Our algorithm is based on multiproduct formulas (MPF) - a technique that linearly combines Trotter product formulas to reduce algorithmic error. Our algorithm uses a quantum computer to calculate the expectation values and tensor networks to calculate the coefficients used in the linear combination. We present a detailed error analysis of the algorithm and demonstrate the full workflow on a one-dimensional quantum simulation problem on $50$ qubits using two IBM quantum computers: $ibm\_torino$ and $ibm\_kyiv$.
翻訳日:2024-08-29 20:28:56 公開日:2024-08-28
# 原X線画像からの骨密度推定のための前処理と分解能スケーリングによる定量的画像合成の強化

Enhancing Quantitative Image Synthesis through Pretraining and Resolution Scaling for Bone Mineral Density Estimation from a Plain X-ray Image ( http://arxiv.org/abs/2407.20495v2 )

ライセンス: Link先を確認
Yi Gu, Yoshito Otake, Keisuke Uemura, Masaki Takao, Mazen Soufi, Seiji Okada, Nobuhiko Sugano, Hugues Talbot, Yoshinobu Sato, (参考訳) ほとんどの視覚タスクは本質的に視覚的な(認識のための)ものであるが、医療分野において重要なタスクは、定量画像を用いた定量的解析(定量化のための)も必要である。 視覚解析とは異なり、定量的画像の画素値は、特定のデバイス(例えば深度画像)によって測定された物理メトリクスに対応する。 しかし、近年の研究では、視覚的値(例えば、視覚的手がかりやデフォーカスからの深さ)から正確な定量値の合成が可能であることが示されている。 本研究の目的は、事前学習と画像分解能のスケーリングを探索することで、定量的画像合成(QIS)を改善することである。 合成量画像を用いてBMDを導出する原X線画像から,QISに基づく骨密度推定(BMD)タスクを用いて事前学習性能を評価するベンチマークを提案する。 以上の結果から,適切な事前学習がQIS性能の向上に寄与し,BMD推定値の0.820から0.898への相関が著しく高まった。 分解能のスケールアップにより相関は0.923まで向上し、従来の方法よりも大幅に向上する。 今後の作業には、事前学習戦略の探索や、他の画像合成タスクでの検証が含まれる。

While most vision tasks are essentially visual in nature (for recognition), some important tasks, especially in the medical field, also require quantitative analysis (for quantification) using quantitative images. Unlike in visual analysis, pixel values in quantitative images correspond to physical metrics measured by specific devices (e.g., a depth image). However, recent work has shown that it is sometimes possible to synthesize accurate quantitative values from visual ones (e.g., depth from visual cues or defocus). This research aims to improve quantitative image synthesis (QIS) by exploring pretraining and image resolution scaling. We propose a benchmark for evaluating pretraining performance using the task of QIS-based bone mineral density (BMD) estimation from plain X-ray images, where the synthesized quantitative image is used to derive BMD. Our results show that appropriate pretraining can improve QIS performance, significantly raising the correlation of BMD estimation from 0.820 to 0.898, while others do not help or even hinder it. Scaling-up the resolution can further boost the correlation up to 0.923, a significant enhancement over conventional methods. Future work will include exploring more pretraining strategies and validating them on other image synthesis tasks.
翻訳日:2024-08-29 20:28:56 公開日:2024-08-28
# 下流バイアス軽減が必要なのは

Downstream bias mitigation is all you need ( http://arxiv.org/abs/2408.00612v2 )

ライセンス: Link先を確認
Arkadeep Baksi, Rahul Singh, Tarun Joshi, (参考訳) トランスフォーマーベースのアーキテクチャと大規模言語モデル(LLM)の出現は、自然言語処理(NLP)モデルの性能を大幅に向上させた。 これらのLSMは、Webや他のソースからの膨大なデータのコーパスに基づいて訓練されているため、データから転送される可能性のある有害な偏見に対して大きな懸念が持たれている。 多くのアプリケーションにおいて、これらの事前訓練されたLLMはタスク固有のデータセットに基づいて微調整され、バイアスにさらに寄与する。 本稿では,LLMが事前学習中に吸収するバイアスの程度と,微調整後のタスク固有行動について検討する。 微調整前, 事前学習したLDMに対する制御的介入は, 分類器のバイアス低下に最小限の影響を及ぼすことがわかった。 しかし、ドメイン固有のデータセットに存在するバイアスは、はるかに大きな役割を果たすため、この段階でそれらを緩和することは、より大きな影響を与える。 事前トレーニングは重要ですが、モデルが事前トレーニングされた後に、微調整データセットにおける共起率のわずかな変化でさえ、モデルのバイアスに大きな影響を与えます。

The advent of transformer-based architectures and large language models (LLMs) have significantly advanced the performance of natural language processing (NLP) models. Since these LLMs are trained on huge corpuses of data from the web and other sources, there has been a major concern about harmful prejudices that may potentially be transferred from the data. In many applications, these pre-trained LLMs are fine-tuned on task specific datasets, which can further contribute to biases. This paper studies the extent of biases absorbed by LLMs during pre-training as well as task-specific behaviour after fine-tuning. We found that controlled interventions on pre-trained LLMs, prior to fine-tuning, have minimal effect on lowering biases in classifiers. However, the biases present in domain-specific datasets play a much bigger role, and hence mitigating them at this stage has a bigger impact. While pre-training does matter, but after the model has been pre-trained, even slight changes to co-occurrence rates in the fine-tuning dataset has a significant effect on the bias of the model.
翻訳日:2024-08-29 20:28:56 公開日:2024-08-28
# Denoising Diffusion Modelを用いたマルチウェザークロスビュージオローカライゼーション

Multi-weather Cross-view Geo-localization Using Denoising Diffusion Models ( http://arxiv.org/abs/2408.02408v2 )

ライセンス: Link先を確認
Tongtong Feng, Qing Li, Xin Wang, Mingzi Wang, Guangyao Li, Wenwu Zhu, (参考訳) GNSSデニッド環境におけるクロスビューのジオローカライゼーションは、ドローンビュー画像と、大きなギャラリーからの正確なジオタグ付き衛星ビュー画像とをマッチングすることにより、未知の場所を決定することを目的としている。 近年の研究では、特定の気象条件下での識別的画像表現の学習が、性能を大幅に向上させることが示されている。 しかし、目に見えない極度の天候が頻繁に起こると、進行が妨げられる。 本稿では,気象条件に適応する多天候クロスビュージオローカライゼーションフレームワークであるMCGFを紹介する。 MCGFはデノナイジング拡散モデルを用いて画像復元とジオローカライゼーションを共同で最適化する。 画像復元のため、MCGFは共有エンコーダと軽量復元モジュールを内蔵し、バックボーンが気象情報を排除するのに役立つ。 ジオローカライゼーションでは、MCGFはEVA-02を特徴抽出のバックボーンとして使用し、トレーニングにはクロスエントロピーロス、テストにはコサイン距離が使用される。 大学160k-WXにおける大規模な実験により、MCGFは様々な気象条件下での局地化の競争的な結果が得られることが示された。

Cross-view geo-localization in GNSS-denied environments aims to determine an unknown location by matching drone-view images with the correct geo-tagged satellite-view images from a large gallery. Recent research shows that learning discriminative image representations under specific weather conditions can significantly enhance performance. However, the frequent occurrence of unseen extreme weather conditions hinders progress. This paper introduces MCGF, a Multi-weather Cross-view Geo-localization Framework designed to dynamically adapt to unseen weather conditions. MCGF establishes a joint optimization between image restoration and geo-localization using denoising diffusion models. For image restoration, MCGF incorporates a shared encoder and a lightweight restoration module to help the backbone eliminate weather-specific information. For geo-localization, MCGF uses EVA-02 as a backbone for feature extraction, with cross-entropy loss for training and cosine distance for testing. Extensive experiments on University160k-WX demonstrate that MCGF achieves competitive results for geo-localization in varying weather conditions.
翻訳日:2024-08-29 20:18:52 公開日:2024-08-28
# Pauli文字列を用いた$\mathfrak{su}(2^N)$の最適生成

Optimally generating $\mathfrak{su}(2^N)$ using Pauli strings ( http://arxiv.org/abs/2408.03294v2 )

ライセンス: Link先を確認
Isaac D. Smith, Maxime Cautrès, David T. Stephen, Hendrik Poulsen Nautrup, (参考訳) 任意の量子計算は、ハミルトニアンの有限集合によって記述されるユニタリ進化の列からなる。 この集合がパウリ作用素の積のみからなるとすると、最小限のそのような集合が$\mathfrak{su}(2^{N})$ を生成していることが示される。 このような生成集合の例を多数提供し、さらに任意のパウリ回転に対応する回転列を生成するアルゴリズムを提供する。

Any quantum computation consists of a sequence of unitary evolutions described by a finite set of Hamiltonians. When this set is taken to consist of only products of Pauli operators, we show that the minimal such set generating $\mathfrak{su}(2^{N})$ contains $2N+1$ elements. We provide a number of examples of such generating sets and furthermore provide an algorithm for producing a sequence of rotations corresponding to any given Pauli rotation, which is shown to have optimal complexity.
翻訳日:2024-08-29 20:18:52 公開日:2024-08-28
# LLaVA-VSD:視覚空間記述のための大規模言語・視覚アシスタント

LLaVA-VSD: Large Language-and-Vision Assistant for Visual Spatial Description ( http://arxiv.org/abs/2408.04957v3 )

ライセンス: Link先を確認
Yizhang Jin, Jian Li, Jiangning Zhang, Jianlong Hu, Zhenye Gan, Xin Tan, Yong Liu, Yabiao Wang, Chengjie Wang, Lizhuang Ma, (参考訳) ビジュアル空間記述(VSD)は、画像内のオブジェクト間の空間的関係を記述するテキストを生成することを目的としている。 従来の視覚的空間関係分類(VSRC)法は、通常、画像内の2つのオブジェクト間の空間関係を出力し、しばしば世界の知識を無視し、一般的な言語能力に欠ける。 本稿では、視覚空間関係の分類、記述、オープンな記述を目的としたLLaVA-VSDという、視覚空間記述のためのLarge Language-and-Vision Assistantを提案する。 具体的には、3つのタスクに対して与えられたフィギュア・キャプションペアを使用して、まずVSD命令追従データセットを構築する。 次にLoRAを使用して、VSD用のLarge Language and Vision Assistantを微調整する。 最後に、大きな言語モデル(Qwen-2)を使用して生成された文を洗練し、その多様性と精度を高める。 LLaVA-VSDは、優れたマルチモーダル対話機能を示し、画像内のオブジェクト関係に関する問い合わせを支援するために、オープンな指示に従うことができる。

Visual Spatial Description (VSD) aims to generate texts that describe the spatial relationships between objects within images. Traditional visual spatial relationship classification (VSRC) methods typically output the spatial relationship between two objects in an image, often neglecting world knowledge and lacking general language capabilities. In this paper, we propose a Large Language-and-Vision Assistant for Visual Spatial Description, named LLaVA-VSD, which is designed for the classification, description, and open-ended description of visual spatial relationships. Specifically, the model first constructs a VSD instruction-following dataset using given figure-caption pairs for the three tasks. It then employs LoRA to fine-tune a Large Language and Vision Assistant for VSD, which has 13 billion parameters and supports high-resolution images. Finally, a large language model (Qwen-2) is used to refine the generated sentences, enhancing their diversity and accuracy. LLaVA-VSD demonstrates excellent multimodal conversational capabilities and can follow open-ended instructions to assist with inquiries about object relationships in images.
翻訳日:2024-08-29 20:18:52 公開日:2024-08-28
# 産業システムの予測保守ソリューション-ログ周期的電力法に基づく教師なしアプローチ

Predictive maintenance solution for industrial systems -- an unsupervised approach based on log periodic power law ( http://arxiv.org/abs/2408.05231v2 )

ライセンス: Link先を確認
Bogdan Łobodziński, (参考訳) 複雑なシステムにおける臨界挙動を発見するために用いられる再正規化グループアプローチに基づく新しい教師なし予測保守分析法が提案されている。 このアルゴリズムは単変量時系列を解析し,Log Periodic Power Law関数が適合する臨界点を同定する定理に基づいて臨界点を検出する。 往復圧縮機システムから収集した産業データの予測保守解析への新しいアルゴリズムの適用について述べる。 解析された圧縮機の力学の知識に基づいて, 提案アルゴリズムは, バルブおよびピストンロッドシールの故障を事前に予測する。

A new unsupervised predictive maintenance analysis method based on the renormalization group approach used to discover critical behavior in complex systems has been proposed. The algorithm analyzes univariate time series and detects critical points based on a newly proposed theorem that identifies critical points using a Log Periodic Power Law function fits. Application of a new algorithm for predictive maintenance analysis of industrial data collected from reciprocating compressor systems is presented. Based on the knowledge of the dynamics of the analyzed compressor system, the proposed algorithm predicts valve and piston rod seal failures well in advance.
翻訳日:2024-08-29 20:18:52 公開日:2024-08-28
# 深層学習に基づく屋内位置推定のための無線チャネル認識データ拡張手法

Wireless Channel Aware Data Augmentation Methods for Deep Learning-Based Indoor Localization ( http://arxiv.org/abs/2408.06452v2 )

ライセンス: Link先を確認
Omer Gokalp Serbetci, Daoud Burghal, Andreas F. Molisch, (参考訳) 屋内のローカライゼーションは、屋外のローカライゼーションとは異なり、普遍的で堅牢なソリューションが欠けている、難しい問題である。 機械学習(ML)、特にディープラーニング(DL)の手法は、有望なアプローチとして研究されている。 このような手法は、顕著なローカライゼーション精度をもたらすが、環境から収集したトレーニングデータに大きく依存する。 データ収集は通常、手間と時間を要する作業だが、この問題を緩和するためにデータ拡張(DA)を使用することができる。 本稿では,従来のDAとは違って,無線伝搬チャネルやデバイスに関するドメイン知識を活用する手法を提案する。 これらの手法は、測定された電力遅延プロファイル(PDP)と組み合わせて、トランシーバー内の典型的なハードウェアコンポーネントのドリフトおよび/またはチャネルの統計的挙動を利用する。 提案手法の有効性を総合的に評価する。 本研究は, 測定数, 増分率, 興味環境などの要因が, 異なるDA法の有効性に与える影響に主に焦点をあてる。 その結果,ローデータ方式では,ローデータ方式では局所化精度が50%まで向上し,高データ方式では非増大結果と一致することがわかった。 また,提案手法は測定データ量の1/4しか使用せず,計測のみのハイデータ性能を最大33%向上させることができる。 また,異なるトレーニングデータ分布と品質がDAの有効性に及ぼす影響を示す。 最後に、ターゲットおよび/またはソース環境におけるデータ不足に対処するため、Transfer Learning(TL)と共に提案手法のパワーを実証する。

Indoor localization is a challenging problem that - unlike outdoor localization - lacks a universal and robust solution. Machine Learning (ML), particularly Deep Learning (DL), methods have been investigated as a promising approach. Although such methods bring remarkable localization accuracy, they heavily depend on the training data collected from the environment. The data collection is usually a laborious and time-consuming task, but Data Augmentation (DA) can be used to alleviate this issue. In this paper, different from previously used DA, we propose methods that utilize the domain knowledge about wireless propagation channels and devices. The methods exploit the typical hardware component drift in the transceivers and/or the statistical behavior of the channel, in combination with the measured Power Delay Profile (PDP). We comprehensively evaluate the proposed methods to demonstrate their effectiveness. This investigation mainly focuses on the impact of factors such as the number of measurements, augmentation proportion, and the environment of interest impact the effectiveness of the different DA methods. We show that in the low-data regime (few actual measurements available), localization accuracy increases up to 50%, matching non-augmented results in the high-data regime. In addition, the proposed methods may outperform the measurement-only high-data performance by up to 33% using only 1/4 of the amount of measured data. We also exhibit the effect of different training data distribution and quality on the effectiveness of DA. Finally, we demonstrate the power of the proposed methods when employed along with Transfer Learning (TL) to address the data scarcity in target and/or source environments.
翻訳日:2024-08-29 20:18:52 公開日:2024-08-28
# WeKnow-RAG: Web検索と知識グラフを統合した検索拡張生成のための適応的アプローチ

WeKnow-RAG: An Adaptive Approach for Retrieval-Augmented Generation Integrating Web Search and Knowledge Graphs ( http://arxiv.org/abs/2408.07611v2 )

ライセンス: Link先を確認
Weijian Xie, Xuefeng Liang, Yuhui Liu, Kaihua Ni, Hong Cheng, Zetian Hu, (参考訳) 大規模言語モデル(LLM)は、適応的な知的エージェントの開発に大きく貢献し、人工知能(AGI)を実現する重要な方法として位置づけられている。 しかし、LCMは事実的に誤った情報を生成する傾向があり、しばしば信頼性を損なう「幻」コンテンツを生成するため、現実のシナリオに展開する上で深刻な課題となる。 外部データベースと情報検索機構を組み合わせることでLCMの強化が有効な方法である。 上記の課題に対処するために,Web検索と知識グラフを統合したWeKnow-RAGという新しい手法を提案する。 まず,知識グラフの構造化表現と高次ベクトル検索の柔軟性を組み合わせることで,LLM応答の精度と信頼性を向上させる。 WeKnow-RAGはドメイン固有の知識グラフを用いて様々なクエリやドメインを満足させ、スパース検索と密検索の両方を用いて多段階のWebページ検索技術を用いて、事実情報や複雑な推論タスクの性能を向上させる。 提案手法は,情報検索の効率と精度を効果的にバランスさせ,全体の検索プロセスを改善する。 最後に, LLMの自己評価機構を統合し, 回答の信頼性を評価する。 提案手法は,広範囲のオフライン実験やオンライン投稿において,その顕著な効果を証明している。

Large Language Models (LLMs) have greatly contributed to the development of adaptive intelligent agents and are positioned as an important way to achieve Artificial General Intelligence (AGI). However, LLMs are prone to produce factually incorrect information and often produce "phantom" content that undermines their reliability, which poses a serious challenge for their deployment in real-world scenarios. Enhancing LLMs by combining external databases and information retrieval mechanisms is an effective path. To address the above challenges, we propose a new approach called WeKnow-RAG, which integrates Web search and Knowledge Graphs into a "Retrieval-Augmented Generation (RAG)" system. First, the accuracy and reliability of LLM responses are improved by combining the structured representation of Knowledge Graphs with the flexibility of dense vector retrieval. WeKnow-RAG then utilizes domain-specific knowledge graphs to satisfy a variety of queries and domains, thereby improving performance on factual information and complex reasoning tasks by employing multi-stage web page retrieval techniques using both sparse and dense retrieval methods. Our approach effectively balances the efficiency and accuracy of information retrieval, thus improving the overall retrieval process. Finally, we also integrate a self-assessment mechanism for the LLM to evaluate the trustworthiness of the answers it generates. Our approach proves its outstanding effectiveness in a wide range of offline experiments and online submissions.
翻訳日:2024-08-29 20:18:52 公開日:2024-08-28
# HAIR:Hypernetworksベースのオールインワン画像復元

HAIR: Hypernetworks-based All-in-One Image Restoration ( http://arxiv.org/abs/2408.08091v2 )

ライセンス: Link先を確認
Jin Cao, Yi Cao, Li Pang, Deyu Meng, Xiangyong Cao, (参考訳) 画像復元は、劣化した画像から高品質なクリーンなイメージを復元することを目的としている。 画像復元の最近の進歩は、様々な劣化に同時に対処するオールインワン画像復元モデルの有効性を実証している。 しかし、これらの既存手法は一般的に同じパラメータを使って異なる劣化型を持つ画像に対処するため、モデルに異なるタスク間のパフォーマンスのバランスと各タスクのパフォーマンスの制限を強制する。 この問題を軽減するために,入力画像に基づいてパラメータを動的に生成するHAIR法を提案する。 具体的には、HAIRは2つの主要コンポーネント、すなわち、分類器とHyper Selecting Net(HSN)から構成される。 分類器は、入力画像の劣化情報を含むGIV(Global Information Vector)を生成するための単純な画像分類網であり、HSNはGIVを受け取り、対応するモジュールのパラメータを出力する単純な完全連結ニューラルネットワークである。 大規模な実験により、HAIRは、単一タスクとオールインワンの設定の両方において、既存の画像復元モデルの性能をプラグアンドプレイで大幅に改善できることが示された。 特に、我々の革新的なモデルであるRes-HAIRは、HAIRをよく知られたRestormerに統合し、現在の最先端の手法と比較して、優れた、あるいは同等のパフォーマンスを得ることができる。 さらに,提案するHAIRでは,有意なAll-in-One手法とは対照的に,パラメータが少ないことが理論的に証明された。 コードは、textcolor{blue}{\href{https://github.com/toummHus/HAIR}{https://github.com/toummHus/HAIR}で入手できる。 ※

Image restoration aims to recover a high-quality clean image from its degraded version. Recent progress in image restoration has demonstrated the effectiveness of All-in-One image restoration models in addressing various degradations simultaneously. However, these existing methods typically utilize the same parameters to tackle images with different degradation types, thus forcing the model to balance the performance between different tasks and limiting its performance on each task. To alleviate this issue, we propose HAIR, a \textbf{H}ypernetworks-based \textbf{A}ll-in-One \textbf{I}mage \textbf{R}estoration method that dynamically generates parameters based on input images. Specifically, HAIR consists of two main components, i.e., Classifier and Hyper Selecting Net (HSN). The Classifier is a simple image classification network used to generate a Global Information Vector (GIV) that contains the degradation information of the input image, and the HSN is a simple fully-connected neural network that receives the GIV and outputs parameters for the corresponding modules. Extensive experiments demonstrate that HAIR can significantly improve the performance of existing image restoration models in a plug-and-play manner, both in single-task and all-in-one settings. Notably, our innovative model, Res-HAIR, which integrates HAIR into the well-known Restormer, can obtain superior or comparable performance compared with current state-of-the-art methods. Moreover, we theoretically demonstrate that our proposed HAIR requires fewer parameters in contrast to the prevalent All-in-One methodologies. The code is available at \textcolor{blue}{\href{https://github.com/toummHus/HAIR}{https://github.com/toummHus/HAIR}.}
翻訳日:2024-08-29 20:18:52 公開日:2024-08-28
# 均一なクエリ分散を超えて - キー駆動型グループクエリの注意

Beyond Uniform Query Distribution: Key-Driven Grouped Query Attention ( http://arxiv.org/abs/2408.08454v2 )

ライセンス: Link先を確認
Zohaib Khan, Muhammad Khaquan, Omer Tafveez, Burhanuddin Samiwala, Agha Ali Raza, (参考訳) Transformerアーキテクチャは、コンテキスト情報を効果的にキャプチャするセルフアテンションメカニズムを通じて、ディープラーニングに革命をもたらした。 しかし、Self-Attentionのメモリフットプリントは、長時間のタスクに重大な課題をもたらす。 Grouped Query Attention (GQA)は、クエリをグループ化し、対応するキー値ヘッドを平均プールすることでこの問題に対処する。 本稿では,鍵分散GQA(KDGQA)と動的鍵分散GQA(DGQA)という,グループ分けの静的性質から逸脱する2つの新しいアプローチに注目し,GQAの強化を紹介する。 具体的には、KDGQAは各前方通過中のキーヘッドのノルムの比率を調べ、DGQAはトレーニングによって進化するノルムの比率を調べる。 さらに,注意図からノイズを減じることによる(静的な)グループ形成のばらつきをもたらすケーススタディとして,Perturbed GQA(PGQA)を提案する。 CIFAR-10、CIFAR-100、Food101、Tiny ImageNetなどのデータセットの画像分類のためのアップトレーニングされた視覚変換器を用いた実験では、より情報的かつ適応的なグループ化機構により、元のGQAを改善する上でこれらの変異が期待できることを示す。 さらに、キーバリューヘッドの数がパフォーマンスに与える影響を分析し、クエリキー親和性を活用することの重要性を強調する。 コードはGitHubで入手できる。

The Transformer architecture has revolutionized deep learning through its Self-Attention mechanism, which effectively captures contextual information. However, the memory footprint of Self-Attention presents significant challenges for long-sequence tasks. Grouped Query Attention (GQA) addresses this issue by grouping queries and mean-pooling the corresponding key-value heads - reducing the number of overall parameters and memory requirements in a flexible manner without adversely compromising model accuracy. In this work, we introduce enhancements to GQA, focusing on two novel approaches that deviate from the static nature of grouping: Key-Distributed GQA (KDGQA) and Dynamic Key-Distributed GQA (DGQA), which leverage information from the norms of the key heads to inform query allocation. Specifically, KDGQA looks at the ratios of the norms of the key heads during each forward pass, while DGQA examines the ratios of the norms as they evolve through training. Additionally, we present Perturbed GQA (PGQA) as a case-study, which introduces variability in (static) group formation via subtracting noise from the attention maps. Our experiments with up-trained Vision Transformers, for Image Classification on datasets such as CIFAR-10, CIFAR-100, Food101, and Tiny ImageNet, demonstrate the promise of these variants in improving upon the original GQA through more informed and adaptive grouping mechanisms: specifically ViT-L experiences accuracy gains of up to 8% when utilizing DGQA in comparison to GQA and other variants. We further analyze the impact of the number of Key-Value Heads on performance, underscoring the importance of utilizing query-key affinities. Code is available on GitHub.
翻訳日:2024-08-29 20:18:52 公開日:2024-08-28
# 欠陥工学によるトポロジカルインタフェースにおける非線形量子光学

Nonlinear Quantum Optics at a Topological Interface Enabled by Defect Engineering ( http://arxiv.org/abs/2408.08750v2 )

ライセンス: Link先を確認
L. Hallacy, N. J. Martin, M. Jalali Mehrabad, D. Hallett, X. Chen, R. Dost, A. Foster, L. Brunswick, A. Fenzl, E. Clarke, P. K. Patil, A. M Fox, M. S. Skolnick, L. R. Wilson, (参考訳) トポロジーのフォトニクスへの統合は、従来のフォトニクスデバイスでは実現不可能な、堅牢で一方向の導波路を構築するための新しい設計枠組みを生み出した。 ここでは、量子ドット(QD)などの量子エミッタをバレー・ハル(VH)トポロジカル導波路に統合することに成功した際の現在の障壁を克服し、トポロジカル界面におけるフォトニック欠陥を利用して局所電荷環境を安定化し、効率的なトポロジカル・コンベンショナル・モード変換のための逆設計を行う。 VH-フォトニック結晶の欠陥にQDを組み込むことで、トポロジカル導波路界面における単一光子共鳴蛍光と量子エミッタの共鳴透過分光の最初の例を示す。 この結果は、トポロジカル・フォトニクスと光非線形効果を単一光子レベルで結合させ、トポロジカル・非線形系と量子非線形系の相互作用を研究するための新たな道を提供する。

The integration of topology into photonics has generated a new design framework for constructing robust and unidirectional waveguides, which are not feasible with traditional photonic devices. Here, we overcome current barriers to the successful integration of quantum emitters such as quantum dots (QDs) into valley-Hall (VH) topological waveguides, utilising photonic defects at the topological interface to stabilise the local charge environment and inverse design for efficient topological-conventional mode conversion. By incorporating QDs within defects of VH-photonic crystals, we demonstrate the first instances of single-photon resonant fluorescence and resonant transmission spectroscopy of a quantum emitter at a topological waveguide interface. Our results bring together topological photonics with optical nonlinear effects at the single-photon level, offering a new avenue to investigate the interaction between topology and quantum nonlinear systems.
翻訳日:2024-08-29 20:18:52 公開日:2024-08-28
# xGen-MM (BLIP-3):オープン大型マルチモーダルモデルのファミリー

xGen-MM (BLIP-3): A Family of Open Large Multimodal Models ( http://arxiv.org/abs/2408.08872v2 )

ライセンス: Link先を確認
Le Xue, Manli Shu, Anas Awadalla, Jun Wang, An Yan, Senthil Purushwalkam, Honglu Zhou, Viraj Prabhu, Yutong Dai, Michael S Ryoo, Shrikant Kendre, Jieyu Zhang, Can Qin, Shu Zhang, Chia-Chih Chen, Ning Yu, Juntao Tan, Tulika Manoj Awalgaonkar, Shelby Heinecke, Huan Wang, Yejin Choi, Ludwig Schmidt, Zeyuan Chen, Silvio Savarese, Juan Carlos Niebles, Caiming Xiong, Ran Xu, (参考訳) 本稿では,LMM(Large Multimodal Models)を開発するためのフレームワークであるxGen-MM(BLIP-3)を紹介する。 このフレームワークは、慎重にキュレートされたデータセット、トレーニングレシピ、モデルアーキテクチャ、結果のLMMスイートで構成されている。 xGen-MMはxGen-MultiModalの略で、基礎的なAIモデルに関するSalesforce xGenイニシアチブを拡張している。 私たちのモデルは、シングルイメージとマルチイメージのベンチマークを含む、さまざまなタスクにわたって厳格な評価を受けています。 事前学習されたベースモデルは、強い文脈内学習能力を示し、命令調整されたモデルは、類似のモデルサイズを持つオープンソースのLMM間の競合性能を示す。 さらに,幻覚などの有害な行動を緩和し,安全性を向上させることを目的としたDPOを用いた安全チューニングモデルを提案する。 我々は、LMM研究のさらなる進歩を促進するために、我々のモデルをオープンソース化し、大規模データセットをキュレートし、微調整のコードベースを作りました。 関連リソースは、上記のプロジェクトページで公開されます。

This report introduces xGen-MM (also known as BLIP-3), a framework for developing Large Multimodal Models (LMMs). The framework comprises meticulously curated datasets, a training recipe, model architectures, and a resulting suite of LMMs. xGen-MM, short for xGen-MultiModal, expands the Salesforce xGen initiative on foundation AI models. Our models undergo rigorous evaluation across a range of tasks, including both single and multi-image benchmarks. Our pre-trained base model exhibits strong in-context learning capabilities and the instruction-tuned model demonstrates competitive performance among open-source LMMs with similar model sizes. In addition, we introduce a safety-tuned model with DPO, aiming to mitigate harmful behaviors such as hallucinations and improve safety. We open-source our models, curated large-scale datasets, and our fine-tuning codebase to facilitate further advancements in LMM research. Associated resources will be available on our project page above.
翻訳日:2024-08-29 20:18:52 公開日:2024-08-28
# QEDCartographer: Reward-free Reinforcement Learning を用いた形式検証の自動化

QEDCartographer: Automating Formal Verification Using Reward-Free Reinforcement Learning ( http://arxiv.org/abs/2408.09237v2 )

ライセンス: Link先を確認
Alex Sanchez-Stern, Abhishek Varghese, Zhanna Kaufman, Dylan Zhang, Talia Ringer, Yuriy Brun, (参考訳) 形式的検証は信頼性の高いソフトウェアを作成するための有望な方法であるが,手作業による検証証明の難しさにより,実用性は著しく制限されている。 近年の手法では、定理証明器を用いて証明空間を探索し、いくつかの証明合成を自動化している。 残念なことに、定理証明器は最も粗末な進捗推定のみを提供し、事実上無向探索をもたらす。 この問題に対処するために、教師付きと強化学習を組み合わせた自動証明合成ツールであるQEDCartographerを作成し、より効果的に証明空間を探索する。 QEDCartographerは証明の分岐構造を取り入れ、報酬のない探索を可能にし、形式検証に固有のスパース報酬問題を克服する。 オープンソースCoqプロジェクトの68.5K定理のCoqGymベンチマークを用いて,QEDCartographerを評価した。 QEDCartographerはテストセット定理の21.4%を自動的に証明している。 従来の検索ベースの証明合成ツールであるTok、Tac、ASTactic、Passport、Proverbot9001は、教師あり学習のみに依存しており、それぞれ9.6%、9.8%、10.9%、12.5%、19.8%を証明している。 62のツールを組み合わせたDidiaは19.2%を証明している。 最も効果的な先行ツールであるProverbot9001と比較して、QEDCartographerは26%の短い証明を27%高速化する。 QEDCartographerと非学習ベースのCoqHammerは31.8%、CoqHammerは26.6%である。 本研究は,強化学習が証明合成ツールの探索機構を改善するための実りある研究方向であることを実証する。

Formal verification is a promising method for producing reliable software, but the difficulty of manually writing verification proofs severely limits its utility in practice. Recent methods have automated some proof synthesis by guiding a search through the proof space using a theorem prover. Unfortunately, the theorem prover provides only the crudest estimate of progress, resulting in effectively undirected search. To address this problem, we create QEDCartographer, an automated proof-synthesis tool that combines supervised and reinforcement learning to more effectively explore the proof space. QEDCartographer incorporates the proofs' branching structure, enabling reward-free search and overcoming the sparse reward problem inherent to formal verification. We evaluate QEDCartographer using the CoqGym benchmark of 68.5K theorems from 124 open-source Coq projects. QEDCartographer fully automatically proves 21.4% of the test-set theorems. Previous search-based proof-synthesis tools Tok, Tac, ASTactic, Passport, and Proverbot9001, which rely only on supervised learning, prove 9.6%, 9.8%, 10.9%, 12.5%, and 19.8%, respectively. Diva, which combines 62 tools, proves 19.2%. Comparing to the most effective prior tool, Proverbot9001, QEDCartographer produces 26% shorter proofs 27% faster, on average over the theorems both tools prove. Together, QEDCartographer and non-learning-based CoqHammer prove 31.8% of the theorems, while CoqHammer alone proves 26.6%. Our work demonstrates that reinforcement learning is a fruitful research direction for improving proof-synthesis tools' search mechanisms.
翻訳日:2024-08-29 20:18:52 公開日:2024-08-28
# SkyScript-100M:1000,000,000のスクリプトとショートドラマ用シューティングスクリプト

SkyScript-100M: 1,000,000,000 Pairs of Scripts and Shooting Scripts for Short Drama ( http://arxiv.org/abs/2408.09333v2 )

ライセンス: Link先を確認
Jing Tang, Quanlu Jia, Yuqiang Xie, Zeyu Gong, Xiang Wen, Jiayi Zhang, Yalong Guo, Guibin Chen, Jiangping Yang, (参考訳) ショートドラマの脚本生成には、シーンやショット言語などの情報を含む高品質な撮影スクリプトの生成が不可欠である。 我々はインターネットから6,660の人気の短編ドラマを収集し、それぞれ平均で100の短編エピソードを収集し、合計で約8,000回、合計で約2000時間、合計で10テラバイト(TB)の短いエピソードを収集した。 我々は各エピソードのキーフレーム抽出とアノテーションを実行し、約1万のシューティングスクリプトを取得する。 我々は,自作の大規模短編ドラマ生成モデルであるSkyReelsに基づいて,抽出した撮影スクリプトに対して,100の脚本復元を行う。 これにより、1000,000,000のスクリプトと、SkyScript-100Mと呼ばれるショートドラマ用のシューティングスクリプトを含むデータセットが生成される。 SkyScript-100Mと既存のデータセットを詳細に比較し、SkyScript-100Mに基づいて達成可能な、より深い洞察を実証する。 SkyScript-100Mに基づいて、研究者はより深く、より遠いスクリプト最適化目標を達成することができる。 データとコードはhttps://github.com/vaew/SkyScript-100Mで入手できる。

Generating high-quality shooting scripts containing information such as scene and shot language is essential for short drama script generation. We collect 6,660 popular short drama episodes from the Internet, each with an average of 100 short episodes, and the total number of short episodes is about 80,000, with a total duration of about 2,000 hours and totaling 10 terabytes (TB). We perform keyframe extraction and annotation on each episode to obtain about 10,000,000 shooting scripts. We perform 100 script restorations on the extracted shooting scripts based on our self-developed large short drama generation model SkyReels. This leads to a dataset containing 1,000,000,000 pairs of scripts and shooting scripts for short dramas, called SkyScript-100M. We compare SkyScript-100M with the existing dataset in detail and demonstrate some deeper insights that can be achieved based on SkyScript-100M. Based on SkyScript-100M, researchers can achieve several deeper and more far-reaching script optimization goals, which may drive a paradigm shift in the entire field of text-to-video and significantly advance the field of short drama video generation. The data and code are available at https://github.com/vaew/SkyScript-100M.
翻訳日:2024-08-29 20:18:52 公開日:2024-08-28
# 幾何学的半教師付き学習によるストリートビュー画像からの細粒度建物機能認識

Fine-Grained Building Function Recognition from Street-View Images via Geometry-Aware Semi-Supervised Learning ( http://arxiv.org/abs/2408.09460v2 )

ライセンス: Link先を確認
Weijia Li, Jinhua Yu, Dairong Chen, Yi Lin, Runmin Dong, Xiang Zhang, Conghui He, Haohuan Fu, (参考訳) 本研究では,細粒度建物機能認識のための幾何学的半教師付き手法を提案する。 本手法は,多元データ間の幾何学的関係を利用して,半教師付き学習における擬似ラベルの精度を向上し,課題の範囲を拡大し,ビルディング関数認識のクロスカテゴリ化システムに適用できるようにする。 まず,ストリートビュー画像におけるファサード情報の正確な取得を容易にするオンライン半教師付き事前学習ステージを設計する。 第2段階では,幾何対応の粗いアノテーション生成モジュールを提案する。 このモジュールは、幾何学的関係に基づくGISデータとストリートビューデータを効果的に組み合わせ、擬似アノテーションの精度を向上させる。 第3段階では、新たに生成された粗いアノテーションを既存のラベル付きデータセットと組み合わせ、大規模に複数の都市にまたがる建物のきめ細かい機能認識を実現する。 大規模実験により,提案手法は建物の微細な機能認識において優れた性能を示すことが示された。 同じ分類体系内では、完全に監督された方法と最先端の半監督された方法と比較して、それぞれ7.6%と4.8%の改善が達成されている。 さらに,OmniCity(ニューヨーク)で訓練されたモデルを新たな地域(ロサンゼルス,ボストンなど)に拡張するなど,都市横断作業でも良好に機能する。 本研究は, 都市インフラ計画, 人的活動パターン, 人間と建物間の相互作用を理解するための重要なデータを提供するため, 複数の都市にまたがる大規模建築物の詳細な機能認識のための新しいソリューションを提供する。

In this work, we propose a geometry-aware semi-supervised method for fine-grained building function recognition. This method leverages the geometric relationships between multi-source data to improve the accuracy of pseudo labels in semi-supervised learning, extending the task's scope and making it applicable to cross-categorization systems of building function recognition. Firstly, we design an online semi-supervised pre-training stage, which facilitates the precise acquisition of building facade location information in street-view images. In the second stage, we propose a geometry-aware coarse annotation generation module. This module effectively combines GIS data and street-view data based on the geometric relationships, improving the accuracy of pseudo annotations. In the third stage, we combine the newly generated coarse annotations with the existing labeled dataset to achieve fine-grained functional recognition of buildings across multiple cities at a large scale. Extensive experiments demonstrate that our proposed framework exhibits superior performance in fine-grained functional recognition of buildings. Within the same categorization system, it achieves improvements of 7.6% and 4.8% compared to fully-supervised methods and state-of-the-art semi-supervised methods, respectively. Additionally, our method also performs well in cross-city tasks, i.e., extending the model trained on OmniCity (New York) to new areas (i.e., Los Angeles and Boston). This study provides a novel solution for the fine-grained function recognition of large-scale buildings across multiple cities, offering essential data for understanding urban infrastructure planning, human activity patterns, and the interactions between humans and buildings.
翻訳日:2024-08-29 18:22:33 公開日:2024-08-28
# 7Gネットワークの可能性:サーベイ

Potential Enabling Technologies for 7G Networks: Survey ( http://arxiv.org/abs/2408.11072v2 )

ライセンス: Link先を確認
Savo Glisic, (参考訳) 新しい世代のモバイルネットワークは、レガシー技術におけるネットワークパラメータの強化と、ネットワークの設計における新しいパラダイムを実現する新しい技術の導入という、2つの分野において大きな進歩をもたらす。 第一級の強化では、データレートの向上、エネルギー効率の向上、接続性の向上、データ転送遅延の削減などに取り組んでいる。 6Gと7Gのイノベーションの第2のクラスでは、高度なMLとAIの一般的にの最適統合と、最適な量子鍵分布のための衛星ネットワークへの継続的な関心を伴う量子コンピューティングに焦点が当てられている。 量子技術の導入によって、7Gはネット上のコンピューティングプロセスを高速化し、ネットワークセキュリティを強化し、分散QCを可能にする。 本稿では、先進的なネットワークをシステム間統合の基本的な要素として用いて、ネットワークにおける期待されるイノベーションの第2セグメントのみに着目し、ネットワークの異なるセグメントで選択されたソリューションの相互依存性に特化して、上記の概念に対する潜在的な技術イネーブラーのサブセットについて調査する。 第2節では、期待されている6G/7G(システム型)ネットワーク最適化の例を紹介し、量子コンピューティングと量子コンピューティングに基づく最適化アルゴリズムの必要性を示す新しいネットワーク最適化のパラダイムを提示する。 第III節では量子暗号とQKDの研究について調査する。

Every new generation of mobile networks brings significant advances in two segments, enhancement of the network parameters within the legacy technologies and introduction of new technologies enabling new paradigms in designing the networks. In the first class of enhancements the effort is to increase data rates, improve energy efficiency, enhance connectivity, reduce data transmission latency etc. In the second class of innovations for 6G and 7G, we anticipate focus on optimum integration of advanced ML and AI in general, and quantum computing with the continuous interest in the satellite networks for optimal quantum key distribution . By introducing quantum technology 7G will be able to speed up computing processes in the net, enhance network security as well as to enable distributed QC, which is a new paradigm in computer sciences. Using advanced networks as a basic ingredient of inter system integration, here we focus only on the second segment of anticipated innovations in networking and present a survey of the subset of potential technology enablers for the above concept with special emphasis on the inter dependency of the solutions chosen in different segments of the network. In Section II, we present several anticipated 6G/7G (system of systems type) network optimization examples resulting in a new paradigm of network optimization indicating a need for quantum computing and quantum computing based optimization algorithms. In Section III we survey work on quantum cryptography and QKD.
翻訳日:2024-08-29 18:22:33 公開日:2024-08-28
# ViIK:Fusing Collision Checkingを用いたフローベース視覚逆キネマティクス解法

ViIK: Flow-based Vision Inverse Kinematics Solver with Fusing Collision Checking ( http://arxiv.org/abs/2408.11293v2 )

ライセンス: Link先を確認
Qinglong Meng, Chongkun Xia, Xueqian Wang, (参考訳) Inverse Kinematics (IK) は、エンドエフェクタのターゲットポーズを満たすロボットの構成を見つけることである。 運動計画では、実現可能な軌道が見つからない場合に様々な構成が必要とされた。 一方、衝突チェック(CC)、eg Oriented bounding box(OBB)、Disdisrete Oriented Polytope(DOP)、Quickhull \cite{quickhull}は、動作計画のすべての目標設定が利用可能であるように、IKソルバが提供する各設定に対して行われる必要がある。 つまり、古典的なIKソルバとCCアルゴリズムは、構成毎に繰り返し実行されるべきである。 したがって、例えばクラスタ環境における運動計画など、要求される目標設定の数が大きくなると、準備時間が長くなる。 さらに、古典的な衝突検定アルゴリズムでは、入手が難しいような構造化写像が必要であった。 このような2つの問題を解決するために,視覚逆運動学(ViIK)と呼ばれる,逆運動学と衝突チェックを融合させることにより,様々な利用可能な構成を出力できるフローベース視覚法を提案する。 さらに、VIKは環境の知覚としてRGBイメージを使用する。 ViIKは40ミリ秒以内で1000個の構成を出力でき、精度は約3ミリ秒と1.5度である。 より高い精度は、古典的IKソルバによって数イテレーションで洗練されることで得られる。 自給自足率は2%以下である。 衝突と衝突の速度は、ほとんどの場面で10%以下である。 コードは、https://github.com/AdamQLMeng/ViIK.comで入手できる。

Inverse Kinematics (IK) is to find the robot's configurations that satisfy the target pose of the end effector. In motion planning, diverse configurations were required in case a feasible trajectory was not found. Meanwhile, collision checking (CC), e.g. Oriented bounding box (OBB), Discrete Oriented Polytope (DOP), and Quickhull \cite{quickhull}, needs to be done for each configuration provided by the IK solver to ensure every goal configuration for motion planning is available. This means the classical IK solver and CC algorithm should be executed repeatedly for every configuration. Thus, the preparation time is long when the required number of goal configurations is large, e.g. motion planning in cluster environments. Moreover, structured maps, which might be difficult to obtain, were required by classical collision-checking algorithms. To sidestep such two issues, we propose a flow-based vision method that can output diverse available configurations by fusing inverse kinematics and collision checking, named Vision Inverse Kinematics solver (ViIK). Moreover, ViIK uses RGB images as the perception of environments. ViIK can output 1000 configurations within 40 ms, and the accuracy is about 3 millimeters and 1.5 degrees. The higher accuracy can be obtained by being refined by the classical IK solver within a few iterations. The self-collision rates can be lower than 2%. The collision-with-env rates can be lower than 10% in most scenes. The code is available at: https://github.com/AdamQLMeng/ViIK.
翻訳日:2024-08-29 18:22:33 公開日:2024-08-28
# AIM 2024 圧縮映像品質評価への挑戦:方法と結果

AIM 2024 Challenge on Compressed Video Quality Assessment: Methods and Results ( http://arxiv.org/abs/2408.11982v2 )

ライセンス: Link先を確認
Maksim Smirnov, Aleksandr Gushchin, Anastasia Antsiferova, Dmitry Vatolin, Radu Timofte, Ziheng Jia, Zicheng Zhang, Wei Sun, Jiaying Qian, Yuqin Cao, Yinan Sun, Yuxin Zhu, Xiongkuo Min, Guangtao Zhai, Kanjar De, Qing Luo, Ao-Xiang Zhang, Peng Zhang, Haibo Lei, Linyan Jiang, Yaqing Li, Wenhui Meng, Xiaoheng Tan, Haiqiang Wang, Xiaozhong Xu, Shan Liu, Zhenzhong Chen, Zhengxue Cheng, Jiahao Xiao, Jun Xu, Chenlong He, Qi Zheng, Ruoxi Zhu, Min Li, Yibo Fan, Zhengzhong Tu, (参考訳) 映像品質評価(VQA)は、視聴者体験に直接影響を与えるため、映像圧縮標準の開発において重要な課題である。 本稿では,ECCV 2024における画像操作の進歩(AIM)ワークショップと共同で開催されている圧縮映像品質評価の課題について述べる。 この課題は、様々な圧縮標準(AVC/H.264、HEVC/H.265、AV1、VVC/H.266)の14のコーデックでエンコードされ、圧縮アーティファクトの包括的なコレクションを含む、459のビデオの多様なデータセット上でのVQAメソッドのパフォーマンスを評価することを目的としていた。 提案手法の性能評価には,大規模クラウドソーシングによる対人比較によって収集した予測値と主観的スコアとの相関係数を用いた。 トレーニングのために参加者は、以前開発された1022ビデオのデータセットであるCompressed Video Quality Assessment Dataset (CVQAD)が提供された。 6つのチームの結果を報告し、その結果を再現するための有効な最終ソリューションとコードを提出しました。 さらに,開発データセット上での最先端VQA手法の性能を計算,提示し,今後の研究のための総合的なベンチマークを提供する。 データセット、結果、オンラインのリーダーボードはhttps://challenges.processprocessing.ai/challenges/compressed video-quality-assesment.htmlで公開されている。

Video quality assessment (VQA) is a crucial task in the development of video compression standards, as it directly impacts the viewer experience. This paper presents the results of the Compressed Video Quality Assessment challenge, held in conjunction with the Advances in Image Manipulation (AIM) workshop at ECCV 2024. The challenge aimed to evaluate the performance of VQA methods on a diverse dataset of 459 videos, encoded with 14 codecs of various compression standards (AVC/H.264, HEVC/H.265, AV1, and VVC/H.266) and containing a comprehensive collection of compression artifacts. To measure the methods performance, we employed traditional correlation coefficients between their predictions and subjective scores, which were collected via large-scale crowdsourced pairwise human comparisons. For training purposes, participants were provided with the Compressed Video Quality Assessment Dataset (CVQAD), a previously developed dataset of 1022 videos. Up to 30 participating teams registered for the challenge, while we report the results of 6 teams, which submitted valid final solutions and code for reproducing the results. Moreover, we calculated and present the performance of state-of-the-art VQA methods on the developed dataset, providing a comprehensive benchmark for future research. The dataset, results, and online leaderboard are publicly available at https://challenges.videoprocessing.ai/challenges/compressedvideo-quality-assessment.html.
翻訳日:2024-08-29 18:22:33 公開日:2024-08-28
# SimpleSpeech 2: Flow-based Scalar Latent Transformer Diffusion Modelによるシンプルで効率的なテキストから音声への変換

SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models ( http://arxiv.org/abs/2408.13893v2 )

ライセンス: Link先を確認
Dongchao Yang, Rongjie Huang, Yuanyuan Wang, Haohan Guo, Dading Chong, Songxiang Liu, Xixin Wu, Helen Meng, (参考訳) テキスト音声(TTS)を大規模データセットに拡張することは、合成音声の多様性と自然性を改善する効果的な方法として実証されてきた。 高レベルでは、以前の大規模TSモデルはAuto-Regressive (AR) ベース (\textit{e g }, VALL-E) または Non-auto-Regressive (NAR) ベースモデル (\textit{e g }, NaturalSpeech 2/3) に分類される。 これらの作品は優れたパフォーマンスを示しているが、潜在的な弱点がある。 例えば、ARベースのモデルは不安定な生成品質と遅い生成速度に悩まされているが、いくつかのNARベースのモデルは音素レベルの持続時間アライメント情報を必要とするため、データ前処理、モデル設計、損失設計の複雑さが増大する。 本研究では、SimpleSpeech 2.0と呼ばれる、シンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築する。 SimpleSpeech 2 は自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせ,(1) 簡易データ作成,(2) モデルと損失設計,(3) 高速な推論速度で安定かつ高品質な生成性能を提供する。 従来の論文と比較すると, 音声トークン化と雑音ラベルによるTTS性能への影響を詳細に分析し, 4種類の文長予測器, 新規なフローベーススカラーラテントトランスフォーマ拡散モデルを提案する。 これらの改良により,従来の作業やSOTA(State-of-the-art)大規模TSモデルと比較して,生成性能と生成速度が大幅に向上した。 さらに,SimpleSpeech 2 を多言語音声データセット上でトレーニングすることで,多言語 TTS にシームレスに拡張可能であることを示す。 デモは以下の通りである。 {https://dongchaoyang.top/SimpleSpeech2\_demo/}。

Scaling Text-to-speech (TTS) to large-scale datasets has been demonstrated as an effective method for improving the diversity and naturalness of synthesized speech. At the high level, previous large-scale TTS models can be categorized into either Auto-regressive (AR) based (\textit{e.g.}, VALL-E) or Non-auto-regressive (NAR) based models (\textit{e.g.}, NaturalSpeech 2/3). Although these works demonstrate good performance, they still have potential weaknesses. For instance, AR-based models are plagued by unstable generation quality and slow generation speed; meanwhile, some NAR-based models need phoneme-level duration alignment information, thereby increasing the complexity of data pre-processing, model design, and loss design. In this work, we build upon our previous publication by implementing a simple and efficient non-autoregressive (NAR) TTS framework, termed SimpleSpeech 2. SimpleSpeech 2 effectively combines the strengths of both autoregressive (AR) and non-autoregressive (NAR) methods, offering the following key advantages: (1) simplified data preparation; (2) straightforward model and loss design; and (3) stable, high-quality generation performance with fast inference speed. Compared to our previous publication, we present ({\romannumeral1}) a detailed analysis of the influence of speech tokenizer and noisy label for TTS performance; ({\romannumeral2}) four distinct types of sentence duration predictors; ({\romannumeral3}) a novel flow-based scalar latent transformer diffusion model. With these improvement, we show a significant improvement in generation performance and generation speed compared to our previous work and other state-of-the-art (SOTA) large-scale TTS models. Furthermore, we show that SimpleSpeech 2 can be seamlessly extended to multilingual TTS by training it on multilingual speech datasets. Demos are available on: {https://dongchaoyang.top/SimpleSpeech2\_demo/}.
翻訳日:2024-08-29 18:22:33 公開日:2024-08-28
# エンベジン・ナッジによる生成モデル作者ブロックの回避

Avoiding Generative Model Writer's Block With Embedding Nudging ( http://arxiv.org/abs/2408.15450v1 )

ライセンス: Link先を確認
Ali Zand, Milad Nasr, (参考訳) 生成画像モデルの導入以来、グローバルな現象となっている。 新たな芸術が実現し,新たな乱用ベクターが登場し,多くの新機能が利用可能になった。 生成モデルで難しい問題のひとつは、特定の世代クラスやインスタンスを防ぐために、生成プロセスを特別に制御することである。 プライバシや安全上の懸念からアプリケーション制限やユーザの好みまで、生成モデルのアウトプットをコントロールしたい理由がいくつかある。 これらのソリューションが共通しているのは、結局のところ、モデルが何かを生成するのを止め、それによってモデルのユーザビリティが制限される、ということです。 本稿では,不必要な概念(モデル出力で検出された場合)を回避し,なおかつ出力を発生させることにより,このユーザビリティ問題に対処する手法を提案する。 特に, 遅延拡散画像生成モデルと, オーバーヘッドの少ない類似画像を生成しながら, それらが特定の画像を生成するのを防ぐ方法に着目した。 我々は,画像記憶などの問題を軽減し,質的,定量的な評価を通じて,我々の技術の有効性を実証することに注力する。 本手法は,修正されていないモデルと同等の画質と関連性を保ちながら,記憶されたトレーニング画像の生成を効果的に防止する。

Generative image models, since introduction, have become a global phenomenon. From new arts becoming possible to new vectors of abuse, many new capabilities have become available. One of the challenging issues with generative models is controlling the generation process specially to prevent specific generations classes or instances . There are several reasons why one may want to control the output of generative models, ranging from privacy and safety concerns to application limitations or user preferences To address memorization and privacy challenges, there has been considerable research dedicated to filtering prompts or filtering the outputs of these models. What all these solutions have in common is that at the end of the day they stop the model from producing anything, hence limiting the usability of the model. In this paper, we propose a method for addressing this usability issue by making it possible to steer away from unwanted concepts (when detected in model's output) and still generating outputs. In particular we focus on the latent diffusion image generative models and how one can prevent them to generate particular images while generating similar images with limited overhead. We focus on mitigating issues like image memorization, demonstrating our technique's effectiveness through qualitative and quantitative evaluations. Our method successfully prevents the generation of memorized training images while maintaining comparable image quality and relevance to the unmodified model.
翻訳日:2024-08-29 17:32:58 公開日:2024-08-28
# 汎用ロバスト性を有する認証因果防御

Certified Causal Defense with Generalizable Robustness ( http://arxiv.org/abs/2408.15451v1 )

ライセンス: Link先を確認
Yiran Qiao, Yu Yin, Chen Chen, Jing Ma, (参考訳) 機械学習モデルは様々なシナリオで有効であることが証明されているが、多くのモデルが敵攻撃に弱いことが広く認識されている。 近年、敵防衛への取り組みが盛んに行われている。 その中でも認証された防御は、ある範囲(例えば、$l_2$ボール)の入力に対する任意の敵の摂動に対する理論的保証で知られている。 しかし、このラインの既存の作業のほとんどは、分散シフトのある他のデータ領域における認証された堅牢性を一般化するのに苦労している。 この問題は、異なる領域のロバスト性に対する突発的相関の負の影響を排除することの難しさに根ざしている。 この問題に対処するため,本研究では,認証防衛における一般化問題に因果的視点を取り入れた,新しい認証防衛フレームワークであるGLEANを提案する。 より具体的には、我々のフレームワークは、認証因果関係学習コンポーネントを統合して、入力とラベルの因果関係と突発的相関を解き、したがって、突発的相関が防御に与える影響を排除している。 そこで我々は,潜在因果的要因に対する敵対的攻撃に対処するために,因果的に認証された防衛戦略を設計する。 このように、我々のフレームワークは、トレーニングディストリビューションのデータに対する悪意のあるノイズに対して堅牢であるだけでなく、分散シフトを伴うドメイン間での堅牢性も一般化することができる。 ベンチマークデータセットの大規模な実験は、異なるデータ領域における信頼性の高いロバストネスの一般化において、我々のフレームワークの優位性を検証する。 コードは補足資料で入手できる。

While machine learning models have proven effective across various scenarios, it is widely acknowledged that many models are vulnerable to adversarial attacks. Recently, there have emerged numerous efforts in adversarial defense. Among them, certified defense is well known for its theoretical guarantees against arbitrary adversarial perturbations on input within a certain range (e.g., $l_2$ ball). However, most existing works in this line struggle to generalize their certified robustness in other data domains with distribution shifts. This issue is rooted in the difficulty of eliminating the negative impact of spurious correlations on robustness in different domains. To address this problem, in this work, we propose a novel certified defense framework GLEAN, which incorporates a causal perspective into the generalization problem in certified defense. More specifically, our framework integrates a certifiable causal factor learning component to disentangle the causal relations and spurious correlations between input and label, and thereby exclude the negative effect of spurious correlations on defense. On top of that, we design a causally certified defense strategy to handle adversarial attacks on latent causal factors. In this way, our framework is not only robust against malicious noises on data in the training distribution but also can generalize its robustness across domains with distribution shifts. Extensive experiments on benchmark datasets validate the superiority of our framework in certified robustness generalization in different data domains. Code is available in the supplementary materials.
翻訳日:2024-08-29 17:32:58 公開日:2024-08-28
# 条件数が大きい行列逆転に対するQSVT角の推定

Estimating QSVT angles for matrix inversion with large condition numbers ( http://arxiv.org/abs/2408.15453v1 )

ライセンス: Link先を確認
I. Novikau, I. Joseph, (参考訳) 量子特異値変換(Quantum Singular Value Transformation、QSVT)は、行列の逆変換に使用できる最先端の準最適量子アルゴリズムである。 QSVT回路は、行列条件数が増加するにつれて角度の数が増加するため、古典的に事前計算しなければならない角度の列によってパラメータ化される。 不条件問題に対するQSVT角の計算は数値的に難しい課題である。 大規模条件数に対するQSVT角推定のための数値計算手法を提案する。 この手法により、QSVT角の高価な数値計算を回避し、QSVT回路をエミュレートして不条件の問題を解決することができる。

Quantum Singular Value Transformation (QSVT) is a state-of-the-art, near-optimal quantum algorithm that can be used for matrix inversion. The QSVT circuit is parameterized by a sequence of angles that must be pre-calculated classically, with the number of angles increasing as the matrix condition number grows. Computing QSVT angles for ill-conditioned problems is a numerically challenging task. We propose a numerical technique for estimating QSVT angles for large condition numbers. This technique allows one to avoid expensive numerical computations of QSVT angles and to emulate QSVT circuits for solving ill-conditioned problems.
翻訳日:2024-08-29 17:32:58 公開日:2024-08-28
# ボース・アインシュタイン凝縮体のエネルギー保存と量子バック反応

Energy conservation and quantum backreaction in Bose-Einstein condensates ( http://arxiv.org/abs/2408.15455v1 )

ライセンス: Link先を確認
Caio C. Holanda Ribeiro, (参考訳) ボース=アインシュタイン凝縮体は、量子バック反応の基本的な側面を研究するのに適した系である。 ここで、1次元凝縮体のバックリアクション問題はエネルギーと運動量保存の観点から考慮される。 ボゴリューボフ理論の妥当性を仮定することにより、バック反応方程式は量子ゆらぎと凝縮補正から生じる系のエネルギーと運動量への寄与を特定するために用いられる。 環配置に閉じ込められた凝縮物に対して逆反応が解決され、粒子相互作用が連続的にスイッチオンされる。 凝縮体内のエネルギーは相互作用状態に入る方法を考慮せずには対処できないことが示され、均質な凝縮体でも量子ゆらぎによって凝縮体に伝達される電力は複雑な非単調パターンを示す。

Bose-Einstein condensates are suitable systems for studying fundamental aspects of quantum backreaction. Here the backreaction problem in 1D condensates is considered from the perspective of energy and momentum conservation. By assuming the validity of Bogoliubov theory, the backreaction equations are used to identify the contributions to the system energy and momentum coming from quantum fluctuations and condensate corrections. The backreaction is solved for a condensate trapped in a ring configuration and such that particle interactions are continuously switched on. It is shown that the energy in the condensate cannot be addressed without taking into account how the system entered the interacting regime, and even for homogeneous condensates the power transferred to the condensate by quantum fluctuations showcases an intricate non-monotonic pattern.
翻訳日:2024-08-29 17:32:58 公開日:2024-08-28
# パーソナライズされたUS:局所被覆不確実性定量化による乳がんリスク評価

PersonalizedUS: Interpretable Breast Cancer Risk Assessment with Local Coverage Uncertainty Quantification ( http://arxiv.org/abs/2408.15458v1 )

ライセンス: Link先を確認
Alek Fröhlich, Thiago Ramos, Gustavo Cabello, Isabela Buzatto, Rafael Izbicki, Daniel Tiezzi, (参考訳) 超音波検査で同定された乳腺病変の悪性度を正しく評価することは、効果的な臨床的意思決定に不可欠である。 しかしながら、現在の「ゴールドスタンダード」は、臨床医による手動BI-RADSスコアに依存しており、しばしば不必要な生検や、患者とその家族に対する精神的な負担を伴っている。 本稿では,共形予測における最近の進歩を活用して,局所的なカバレッジ保証と感度,特異性,予測値が0.9以上であるような,正確かつパーソナライズされたリスク推定を提供する,解釈可能な機械学習システムであるPersonalizedUSを紹介する。 特に, 分布のない, モデルに依存しない条件付きカバレッジが保たれる有意義な病変部分群を同定し, ほぼ90%の予測セットがほとんどの病変部分群において基底真理のみを含むので, モデルが最も適当に適用される患者を明示的に特徴づける。 さらに,1936年に生検された乳腺病変のキュレートした表状データセットを,近年の観察的マルチセンター研究から提供し,いくつかの最先端の学習アルゴリズムの性能をベンチマークした。 また、同一のマルチセンターコンテキストにおけるデプロイシステムのケーススタディを成功させたことを報告した。 具体的な臨床効果としては、BI-RADS 4aと4bの病変のうち、要求された生検を最大で65%減らし、がんの再発は最小限である。

Correctly assessing the malignancy of breast lesions identified during ultrasound examinations is crucial for effective clinical decision-making. However, the current "golden standard" relies on manual BI-RADS scoring by clinicians, often leading to unnecessary biopsies and a significant mental health burden on patients and their families. In this paper, we introduce PersonalizedUS, an interpretable machine learning system that leverages recent advances in conformal prediction to provide precise and personalized risk estimates with local coverage guarantees and sensitivity, specificity, and predictive values above 0.9 across various threshold levels. In particular, we identify meaningful lesion subgroups where distribution-free, model-agnostic conditional coverage holds, with approximately 90% of our prediction sets containing only the ground truth in most lesion subgroups, thus explicitly characterizing for which patients the model is most suitably applied. Moreover, we make available a curated tabular dataset of 1936 biopsied breast lesions from a recent observational multicenter study and benchmark the performance of several state-of-the-art learning algorithms. We also report a successful case study of the deployed system in the same multicenter context. Concrete clinical benefits include up to a 65% reduction in requested biopsies among BI-RADS 4a and 4b lesions, with minimal to no missed cancer cases.
翻訳日:2024-08-29 17:32:58 公開日:2024-08-28
# 量子エラー伝播の統計的モデリング

Statistical modeling of quantum error propagation ( http://arxiv.org/abs/2408.15459v1 )

ライセンス: Link先を確認
Zhuoyang Ye, (参考訳) 本稿では,量子誤りの伝播を研究するための新しい統計抽象モデルの設計を行う。 各回路に対して、Error propagation space-time graph(\textbf{EPSTG})グラフとバイパーティイト逆スパンニンググラフ(\textbf{RSG})を構築するアルゴリズムを与える。 すると、エラーパターンを見つける問題は$\mathcal{P}$であり、エラー数分布を計算することは$\textit{NP-complete}$である。 私は誤り伝播の新しい尺度を考案し、広く使われている$CNOT$回路に対して、分布のシフトは$\frac{n}{27}$で、$n$は物理量子ビットの数であることを示す。 Qiskitシミュレーションの結果と私のアルゴリズムの一貫性は、私のモデルの正しさを正当化する。 このフレームワークをランダム回路に適用すると、回路が大域的な接続を持つ場合、過度に非有界なエラー伝播が存在することが分かる。 また、並列トランスバーサル論理の$CNOT$ gateをサーフェスコードに適用し、エラーしきい値が1サイクルあたり0.231ドルから0.134ドルに低下することを示す。

In this paper, I design a new statistical abstract model for studying quantum error propagation. For each circuit, I give the algorithm to construct the Error propagation space-time graph(\textbf{EPSTG}) graph as well as the bipartite reverse spanning graph (\textbf{RSG}). Then I prove that the problem of finding an error pattern is $\mathcal{P}$ while calculate the error number distribution is $\textit{NP-complete}$. I invent the new measure for error propagation and show that for widely used transversal $CNOT$ circuit in parallel, the shift of distribution is bounded by $\frac{n}{27}$, where $n$ is the number of physical qubits. The consistency between the result of qiskit simulation and my algorithm justify the correctness of my model. Applying the framework to random circuit, I show that there is severe unbounded error propagation when circuit has global connection. We also apply my framework on parallel transversal logical $CNOT$ gate in surface code, and demonstrate that the error threshold will decrease from $0.231$ to $0.134$ per cycle.
翻訳日:2024-08-29 17:32:58 公開日:2024-08-28
# Hand1000ハンズオン:1000枚の画像だけでテキストからリアルな手を作る

Hand1000: Generating Realistic Hands from Text with Only 1,000 Images ( http://arxiv.org/abs/2408.15461v1 )

ライセンス: Link先を確認
Haozhuo Zhang, Bin Zhu, Yu Cao, Yanbin Hao, (参考訳) 近年,テキスト・ツー・イメージ生成モデルは,テキスト記述からリアルなイメージを作り出すことを目的として,顕著な進歩を遂げている。 しかしながら、これらのモデルは、しばしば解剖学的に正確な人間の手を表現することに苦労する。 結果として得られた画像は、しばしば不正確な指の数、不自然なねじれや指のインターレース、ぼやけた不明瞭な手などの問題を示す。 これらの問題は、手の構造が本質的に複雑であることと、手の記述を正確に視覚的に表現することの難しさに起因している。 これらの課題に対処するために,1000個のトレーニングサンプルのみを用いて,目標ジェスチャーによる現実的な手画像の生成を可能にするHand1000という新しいアプローチを提案する。 Hand1000の訓練は、3つの段階に分けられており、第1段階は、事前訓練された手振り認識モデルを用いて、手振り表現を抽出することにより、手振りの解剖学的理解を高めることを目的としている。 第2段階はさらに、抽出した手の動き表現を組み込んでテキスト埋め込みを最適化し、テキスト記述と生成された手画像とのアライメントを改善する。 第3段階では、最適化された埋め込みを使用して、安定拡散モデルを微調整し、現実的な手画像を生成する。 さらに,テキスト・ツー・ハンド画像生成に特化して設計された最初の公開データセットを構築した。 既存のジェスチャー認識データセットに基づいて,高度な画像キャプションモデルとLLaMA3を用いて,詳細なジェスチャー情報に富んだ高品質なテキスト記述を生成する。 大規模な実験により、Hand1000は、顔、衣服、色などのテキストの他の詳細を忠実に表現しながら、解剖学的に正しい手画像を生成することで、既存のモデルよりも大幅に優れていることが示された。

Text-to-image generation models have achieved remarkable advancements in recent years, aiming to produce realistic images from textual descriptions. However, these models often struggle with generating anatomically accurate representations of human hands. The resulting images frequently exhibit issues such as incorrect numbers of fingers, unnatural twisting or interlacing of fingers, or blurred and indistinct hands. These issues stem from the inherent complexity of hand structures and the difficulty in aligning textual descriptions with precise visual depictions of hands. To address these challenges, we propose a novel approach named Hand1000 that enables the generation of realistic hand images with target gesture using only 1,000 training samples. The training of Hand1000 is divided into three stages with the first stage aiming to enhance the model's understanding of hand anatomy by using a pre-trained hand gesture recognition model to extract gesture representation. The second stage further optimizes text embedding by incorporating the extracted hand gesture representation, to improve alignment between the textual descriptions and the generated hand images. The third stage utilizes the optimized embedding to fine-tune the Stable Diffusion model to generate realistic hand images. In addition, we construct the first publicly available dataset specifically designed for text-to-hand image generation. Based on the existing hand gesture recognition dataset, we adopt advanced image captioning models and LLaMA3 to generate high-quality textual descriptions enriched with detailed gesture information. Extensive experiments demonstrate that Hand1000 significantly outperforms existing models in producing anatomically correct hand images while faithfully representing other details in the text, such as faces, clothing, and colors.
翻訳日:2024-08-29 17:32:58 公開日:2024-08-28
# CTRQNetsとLQNets:連続時間リカレントと液体量子ニューラルネットワーク

CTRQNets & LQNets: Continuous Time Recurrent and Liquid Quantum Neural Networks ( http://arxiv.org/abs/2408.15462v1 )

ライセンス: Link先を確認
Alejandro Mayorga, Alexander Yuan, Andrew Yuan, Tyler Wooldridge, Xiaodi Wang, (参考訳) ニューラルネットワークは、パターン認識や振る舞いのリモデリングを通じて複雑なデータをモデル化する能力によって、現代でも普及し続けている。 しかし、従来のニューラルネットワークの静的構築は、動的インテリジェンスを阻害する。 これにより、データの時間的変化に対して柔軟性がなく、複雑な依存関係をキャプチャするのに適さない。 量子技術の出現により、量子アルゴリズムの作成に大きな進歩があった。 近年、量子ニューラルネットワークは量子ビットの能力を利用して古典的ネットワークを上回りつつある。 しかし、現在の定式化はシステムのダイナミックインテリジェンスを制限する静的な構造を示している。 これらの弱点に対処するため,LQNet(Liquid Quantum Neural Network)とCTRQNet(Continuous Time Recurrent Quantum Neural Network)を開発した。 どちらのモデルも既存の量子ニューラルネットワーク(QNN)と比較して精度が大幅に向上し、バイナリ分類によってCIFAR 10では最大40%の精度向上を実現している。 我々はLQNetsとCTRQNetsを提案し、量子機械学習のブラックボックスに光を当てるかもしれない。

Neural networks have continued to gain prevalence in the modern era for their ability to model complex data through pattern recognition and behavior remodeling. However, the static construction of traditional neural networks inhibits dynamic intelligence. This makes them inflexible to temporal changes in data and unfit to capture complex dependencies. With the advent of quantum technology, there has been significant progress in creating quantum algorithms. In recent years, researchers have developed quantum neural networks that leverage the capabilities of qubits to outperform classical networks. However, their current formulation exhibits a static construction limiting the system's dynamic intelligence. To address these weaknesses, we develop a Liquid Quantum Neural Network (LQNet) and a Continuous Time Recurrent Quantum Neural Network (CTRQNet). Both models demonstrate a significant improvement in accuracy compared to existing quantum neural networks (QNNs), achieving accuracy increases as high as 40\% on CIFAR 10 through binary classification. We propose LQNets and CTRQNets might shine a light on quantum machine learning's black box.
翻訳日:2024-08-29 17:32:58 公開日:2024-08-28
# ニューロモルフィックデータからの動的再構成

Dynamic Reconstruction from Neuromorphic Data ( http://arxiv.org/abs/2408.15465v1 )

ライセンス: Link先を確認
Harbir Antil, Daniel Blauvelt, David Sayre, (参考訳) 画素強度を同期的に記録する従来のカメラとは異なり、ニューロモルフィックセンサーは、変化が非同期に起こっているピクセルに 'changes' を登録するのみである。 これにより、ニューロモルフィックセンサーはマイクロ秒単位でサンプリングし、ダイナミクスを効率的に捉えることができる。 非同期イベント変更のシーケンスのみが、時間とともに明るさの強さではなく記録されるため、多くの従来の画像処理技術は直接適用できない。 さらに、著者らが最近導入したものを含む既存のアプローチでは、従来の画像とニューロモルフィック事象データを組み合わせて再構成を行う。 本研究の目的は,ニューロモピック事象データからのみ画像とダイナミックスを再構成する最適化に基づくアプローチを導入することである。 各ピクセルは時間的にモデル化される。 実データによる実験結果は,提案手法の有効性を強調し,実世界の応用におけるニューロモルフィックセンサデータの効率的かつ高精度な処理の道を開くものである。

Unlike traditional cameras which synchronously register pixel intensity, neuromorphic sensors only register `changes' at pixels where a change is occurring asynchronously. This enables neuromorphic sensors to sample at a micro-second level and efficiently capture the dynamics. Since, only sequences of asynchronous event changes are recorded rather than brightness intensities over time, many traditional image processing techniques cannot be directly applied. Furthermore, existing approaches, including the ones recently introduced by the authors, use traditional images combined with neuromorphic event data to carry out reconstructions. The aim of this work is introduce an optimization based approach to reconstruct images and dynamics only from the neuromoprhic event data without any additional knowledge of the events. Each pixel is modeled temporally. The experimental results on real data highlight the efficacy of the presented approach, paving the way for efficient and accurate processing of neuromorphic sensor data in real-world applications.
翻訳日:2024-08-29 17:22:57 公開日:2024-08-28
# NAS-BNN:二元ニューラルネットワークのニューラルネットワーク探索

NAS-BNN: Neural Architecture Search for Binary Neural Networks ( http://arxiv.org/abs/2408.15484v1 )

ライセンス: Link先を確認
Zhihao Lin, Yongtao Wang, Jinhe Zhang, Xiaojie Chu, Haibin Ling, (参考訳) バイナリニューラルネットワーク(BNN)は、従来の完全精度ネットワークと比較して、推論効率と圧縮比が優れているとして、広く注目を集めている。 しかし、BNN特有の特徴のため、強力なバイナリアーキテクチャの設計は困難であり、しばしばかなりの人力を必要とする。 有望な解決策は、ニューラルネットワークサーチ(NAS)を使用してBNNの設計を支援することだが、現在のBNNのNASメソッドは比較的単純であり、検索されたモデルと手作業で設計したものとのパフォーマンスギャップを残している。 このギャップに対処するために、NAS-BNNと呼ばれる二元ニューラルネットワークのための新しいニューラルネットワーク探索手法を提案する。 まず,BNNの特徴に基づく検索空間を慎重に設計する。 次に、スーパーネットのトレーニングを大幅に強化し、全てのサブネットの性能を高める3つのトレーニング戦略を示す。 我々の発見したバイナリモデルファミリーは、20Mから2Mまでの幅広い操作(OP)において、以前のBNNよりも優れていた。 例えば、ImageNetの68.20%のトップ1の精度は57万のOPで達成しています。 さらに,対象物検出タスクにおけるこれらのBNNの転送可能性を検証するとともに,検索したBNNを用いたバイナリ検出器は,MS COCOデータセット上で,31.6% mAP,31.6% mAP,370万 OPの新たな技術結果を得る。 ソースコードとモデルはhttps://github.com/VDIGPKU/NAS-BNNで公開される。

Binary Neural Networks (BNNs) have gained extensive attention for their superior inferencing efficiency and compression ratio compared to traditional full-precision networks. However, due to the unique characteristics of BNNs, designing a powerful binary architecture is challenging and often requires significant manpower. A promising solution is to utilize Neural Architecture Search (NAS) to assist in designing BNNs, but current NAS methods for BNNs are relatively straightforward and leave a performance gap between the searched models and manually designed ones. To address this gap, we propose a novel neural architecture search scheme for binary neural networks, named NAS-BNN. We first carefully design a search space based on the unique characteristics of BNNs. Then, we present three training strategies, which significantly enhance the training of supernet and boost the performance of all subnets. Our discovered binary model family outperforms previous BNNs for a wide range of operations (OPs) from 20M to 200M. For instance, we achieve 68.20% top-1 accuracy on ImageNet with only 57M OPs. In addition, we validate the transferability of these searched BNNs on the object detection task, and our binary detectors with the searched BNNs achieve a novel state-of-the-art result, e.g., 31.6% mAP with 370M OPs, on MS COCO dataset. The source code and models will be released at https://github.com/VDIGPKU/NAS-BNN.
翻訳日:2024-08-29 17:22:57 公開日:2024-08-28
# Legilimens: 大規模言語モデルサービスのための実践的で統一されたコンテンツモデレーション

Legilimens: Practical and Unified Content Moderation for Large Language Model Services ( http://arxiv.org/abs/2408.15488v1 )

ライセンス: Link先を確認
Jialin Wu, Jiangyi Deng, Shengyuan Pang, Yanjiao Chen, Jiayang Xu, Xinfeng Li, Wenyuan Xu, (参考訳) 大規模言語モデル(LLM)が生み出す安全でないコンテンツの社会的影響を考えると,LLM サービスが安全基準に準拠していることが LLM サービスプロバイダにとって重要な懸念事項である。 一般的なコンテンツモデレーション手法は、単純なモデルは脆弱であり、洗練されたモデルは過剰な計算資源を消費する、有効かつ効率的なジレンマによって制限される。 本稿では,コンテンツモデレーションよりも会話の微調整を最初に行ったが,チャット指向のLLMから概念的特徴を抽出することで,効果的で効率的なコンテンツモデレーションを実現することができることを初めて明らかにする。 本稿では,LLMサービスのための実用的で統一的なコンテンツモデレーションフレームワークであるLegilimensを提案する。 当社のレッドチームモデルベースのデータ拡張は、最先端のジェイルブレイクに対するレジリエンスの堅牢性を高めます。 さらに,他の手法と比較して,議員の費用対効果を理論的に分析する枠組みを開発する。 我々は,5つのホストLDM,17のデータセット,9つのジェイルブレイク法を用いて,正規および適応的敵に対するレジリエントの有効性,効率,堅牢性を検証した。 レジリメンと商業的・学術的な基礎とを比較すると、レジリメンの優れたパフォーマンスが示される。 さらに,レギリメンを少数ショットのシナリオに適用し,複数ラベルの分類タスクに拡張できることを確認した。

Given the societal impact of unsafe content generated by large language models (LLMs), ensuring that LLM services comply with safety standards is a crucial concern for LLM service providers. Common content moderation methods are limited by an effectiveness-and-efficiency dilemma, where simple models are fragile while sophisticated models consume excessive computational resources. In this paper, we reveal for the first time that effective and efficient content moderation can be achieved by extracting conceptual features from chat-oriented LLMs, despite their initial fine-tuning for conversation rather than content moderation. We propose a practical and unified content moderation framework for LLM services, named Legilimens, which features both effectiveness and efficiency. Our red-team model-based data augmentation enhances the robustness of Legilimens against state-of-the-art jailbreaking. Additionally, we develop a framework to theoretically analyze the cost-effectiveness of Legilimens compared to other methods. We have conducted extensive experiments on five host LLMs, seventeen datasets, and nine jailbreaking methods to verify the effectiveness, efficiency, and robustness of Legilimens against normal and adaptive adversaries. A comparison of Legilimens with both commercial and academic baselines demonstrates the superior performance of Legilimens. Furthermore, we confirm that Legilimens can be applied to few-shot scenarios and extended to multi-label classification tasks.
翻訳日:2024-08-29 17:22:57 公開日:2024-08-28
# 命令型文脈圧縮による大規模言語モデルの強化と高速化

Enhancing and Accelerating Large Language Models via Instruction-Aware Contextual Compression ( http://arxiv.org/abs/2408.15491v1 )

ライセンス: Link先を確認
Haowen Hou, Fei Ma, Binwen Bai, Xinxin Zhu, Fei Yu, (参考訳) 大きな言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスのために、広く注目を集めている。 しかし、幻覚の問題を緩和するために、LLMは検索強化パイプラインを組み込んで、豊かな外部知識とコンテキストを提供することが多い。 それでも課題は、検索者から取得した不正確で粗いコンテキストから生じる。 LLMに無関係なコンテキストを提供すると、応答が低下し、推論遅延が増加し、コストが上昇する。 本稿では,少ない情報内容のフィルタリングを行ない,LCMの利用を促進・強化するインストラクション・アウェア・コンテクスト圧縮手法を提案する。 Instruction-Aware Contextual Compression はメモリ消費を著しく減らし、生成遅延を最小限に抑えつつ、フルコンテキストの使用によって達成されたものと同等のパフォーマンスレベルを維持していることを示す実験結果が得られた。 具体的には,コンテクスト関連コストの50%削減を実現し,推論メモリ使用量の5%削減と推論速度の2.2倍の増大を実現した。 これらの結果から,本手法は効率と性能のバランスが良好であることが示唆された。

Large Language Models (LLMs) have garnered widespread attention due to their remarkable performance across various tasks. However, to mitigate the issue of hallucinations, LLMs often incorporate retrieval-augmented pipeline to provide them with rich external knowledge and context. Nevertheless, challenges stem from inaccurate and coarse-grained context retrieved from the retriever. Supplying irrelevant context to the LLMs can result in poorer responses, increased inference latency, and higher costs. This paper introduces a method called Instruction-Aware Contextual Compression, which filters out less informative content, thereby accelerating and enhancing the use of LLMs. The experimental results demonstrate that Instruction-Aware Contextual Compression notably reduces memory consumption and minimizes generation latency while maintaining performance levels comparable to those achieved with the use of the full context. Specifically, we achieved a 50% reduction in context-related costs, resulting in a 5% reduction in inference memory usage and a 2.2-fold increase in inference speed, with only a minor drop of 0.047 in Rouge-1. These findings suggest that our method strikes an effective balance between efficiency and performance.
翻訳日:2024-08-29 17:22:57 公開日:2024-08-28
# モデル表現性制御のための対称性の除去

Remove Symmetries to Control Model Expressivity ( http://arxiv.org/abs/2408.15495v1 )

ライセンス: Link先を確認
Liu Ziyin, Yizhou Xu, Isaac Chuang, (参考訳) 損失関数に対称性が存在する場合、このモデルは「崩壊」と呼ばれる低容量状態に閉じ込められる可能性が高い。 これらの低容量状態に閉じ込められていることは、ディープラーニング技術を適用する多くのシナリオにおけるトレーニングの大きな障害になる可能性がある。 まず,2つの具体的メカニズムから,対称性が能力低下につながることを証明し,訓練中に特徴を無視する。 次に、ニューラルネットワークにおける対称性誘起低容量状態のほとんどをすべて除去する、単純で理論的に正当化されたアルゴリズムであるサイアを提案する。 提案手法は,このタイプの包摂が特に懸念されるシナリオにおいて,ニューラルネットワークのトレーニングを改善する。 提案手法の顕著な利点は、モデルに依存しず、対称性の知識を必要としないことである。

When symmetry is present in the loss function, the model is likely to be trapped in a low-capacity state that is sometimes known as a "collapse." Being trapped in these low-capacity states can be a major obstacle to training across many scenarios where deep learning technology is applied. We first prove two concrete mechanisms through which symmetries lead to reduced capacities and ignored features during training. We then propose a simple and theoretically justified algorithm, syre, to remove almost all symmetry-induced low-capacity states in neural networks. The proposed method is shown to improve the training of neural networks in scenarios when this type of entrapment is especially a concern. A remarkable merit of the proposed method is that it is model-agnostic and does not require any knowledge of the symmetry.
翻訳日:2024-08-29 17:22:57 公開日:2024-08-28
# ReMamba: 効果的なロングシーケンスモデリングを備えたEquip Mamba

ReMamba: Equip Mamba with Effective Long-Sequence Modeling ( http://arxiv.org/abs/2408.15496v1 )

ライセンス: Link先を確認
Danlong Yuan, Jiahao Liu, Bei Li, Huishuai Zhang, Jingang Wang, Xunliang Cai, Dongyan Zhao, (参考訳) Mambaアーキテクチャは、短コンテキスト自然言語処理(NLP)タスクにおいて、推論効率と競合性能が優れていることを示す一方で、長いコンテキストを理解する能力はトランスフォーマーベースのモデルと比較して制限されていることを示す実証的な証拠である。 本研究では,マンバモデルの長期文脈効率問題について検討し,マンバの長期文脈理解能力を高めるReMambaを提案する。 ReMambaは2段階のリフォワードプロセスに選択的圧縮と適応技術を導入し、最小追加の推論コストのオーバーヘッドを発生させる。 LongBench と L-Eval のベンチマークによる実験結果は、ReMamba の有効性を示し、ベースラインを 3.2 と 1.6 に改善し、同じサイズのトランスフォーマーモデルとほぼ同等の性能を達成した。

While the Mamba architecture demonstrates superior inference efficiency and competitive performance on short-context natural language processing (NLP) tasks, empirical evidence suggests its capacity to comprehend long contexts is limited compared to transformer-based models. In this study, we investigate the long-context efficiency issues of the Mamba models and propose ReMamba, which enhances Mamba's ability to comprehend long contexts. ReMamba incorporates selective compression and adaptation techniques within a two-stage re-forward process, incurring minimal additional inference costs overhead. Experimental results on the LongBench and L-Eval benchmarks demonstrate ReMamba's efficacy, improving over the baselines by 3.2 and 1.6 points, respectively, and attaining performance almost on par with same-size transformer models.
翻訳日:2024-08-29 17:22:57 公開日:2024-08-28
# 遅発性乳癌転移予測のための深層学習 : 深層フィードフォワードニューラルネットワークを用いたメタチューニングのための単一ハイパーパラメータグリッドサーチ(SHGS)戦略

Deep Learning to Predict Late-Onset Breast Cancer Metastasis: the Single Hyperparameter Grid Search (SHGS) Strategy for Meta Tuning Concerning Deep Feed-forward Neural Network ( http://arxiv.org/abs/2408.15498v1 )

ライセンス: Link先を確認
Yijun Zhou, Om Arora-Jain, Xia Jiang, (参考訳) 機械学習は医学において進歩してきたが、臨床応用、特に乳癌転移の予測に広く用いられていることは、いまだに限られている。 n年前から乳がんの転移を予測できるDFNNモデルの構築に取り組んできた。 しかし、時間と資源の制約を考えると、グリッドサーチによって最適なハイパーパラメータ値を効率的に同定することが課題である。 l1 や l2 のような連続ハイパーパラメータの無限可能性や、時間とコストのかかるプロセスといった問題は、タスクをさらに複雑にする。 これらの課題に対処するために、格子探索の前に事前選択法として機能する単一ハイパーパラメータグリッド探索(SHGS)戦略を開発した。 乳癌転移予測のためのDFNNモデルに適用したSHGSを用いた実験は, エピック, バッチサイズ, ドロップアウト, L1, L2, 学習速度, 崩壊, 運動量という8つのターゲットハイパーパラメータを解析することに焦点を当てた。 我々は3つの図を作成し、それぞれが3つのLSM-I-10-Plus-yearデータセットから得られた実験結果を示している。 これらの図は、モデル性能とターゲットのハイパーパラメータ値の関係を描いている。 各ハイパーパラメータに対して、このハイパーパラメータの変化がモデル性能に影響を及ぼすかどうかを分析し、特定のパターンが存在するかどうかを調べ、特定のハイパーパラメータの値を選択する方法について検討した。 実験の結果,ハイパーパラメータの最適値はデータセットに依存するだけでなく,他のハイパーパラメータの設定に大きく影響していることがわかった。 さらに,本実験では,低予算グリッド探索に有効なターゲットハイパーパラメータの値範囲の縮小が示唆された。 このアプローチは、モデル性能を向上させるためにグリッドサーチをその後の使用において、事前の経験と基礎となる。

While machine learning has advanced in medicine, its widespread use in clinical applications, especially in predicting breast cancer metastasis, is still limited. We have been dedicated to constructing a DFNN model to predict breast cancer metastasis n years in advance. However, the challenge lies in efficiently identifying optimal hyperparameter values through grid search, given the constraints of time and resources. Issues such as the infinite possibilities for continuous hyperparameters like l1 and l2, as well as the time-consuming and costly process, further complicate the task. To address these challenges, we developed Single Hyperparameter Grid Search (SHGS) strategy, serving as a preselection method before grid search. Our experiments with SHGS applied to DFNN models for breast cancer metastasis prediction focus on analyzing eight target hyperparameters: epochs, batch size, dropout, L1, L2, learning rate, decay, and momentum. We created three figures, each depicting the experiment results obtained from three LSM-I-10-Plus-year datasets. These figures illustrate the relationship between model performance and the target hyperparameter values. For each hyperparameter, we analyzed whether changes in this hyperparameter would affect model performance, examined if there were specific patterns, and explored how to choose values for the particular hyperparameter. Our experimental findings reveal that the optimal value of a hyperparameter is not only dependent on the dataset but is also significantly influenced by the settings of other hyperparameters. Additionally, our experiments suggested some reduced range of values for a target hyperparameter, which may be helpful for low-budget grid search. This approach serves as a prior experience and foundation for subsequent use of grid search to enhance model performance.
翻訳日:2024-08-29 17:22:57 公開日:2024-08-28
# MODULI:オフライン多目的強化学習のための拡散モデルによる選好一般化の解法

MODULI: Unlocking Preference Generalization via Diffusion Models for Offline Multi-Objective Reinforcement Learning ( http://arxiv.org/abs/2408.15501v1 )

ライセンス: Link先を確認
Yifu Yuan, Zhenrui Zheng, Zibin Dong, Jianye Hao, (参考訳) MORL(Multi-Objective Reinforcement Learning)は、複数の競合する目標を同時に最適化するポリシの開発を目指しているが、広範なオンラインインタラクションが必要である。 オフラインMORLは、事前コンパイルされたデータセットをトレーニングして、デプロイ時の任意の好みに一般化することで、有望なソリューションを提供する。 しかし、現実のオフラインデータセットは保守的かつ狭義に分散されることが多く、優先事項を包括的にカバーできないため、アウト・オブ・ディストリビューション(OOD)の優先領域が出現する。 既存のオフラインMORLアルゴリズムは、OOD選好の一般化が不十分であり、結果として、選好と一致しないポリシーが生じる。 拡散モデルの優れた表現的・一般化能力を活用し,選択条件付き拡散モデルをプランナーとして用い,様々な嗜好に沿った軌道を生成するMODULI(Multi-jective Diffusion Planner with Sliding Guidance)を提案する。 高精度な生成を実現するため,MODULIは2つのリターン正規化手法を導入している。 OOD嗜好の一般化をさらに促進するために、MODULIは、好みの変化の方向を捉えるために追加のスライダアダプタを訓練する新しいスライディング誘導機構を提案する。 スライダを組み込むと、インディストリビューション(ID)の好みからOODの好みの生成、パッチの適用、不完全なParetoフロントの拡張へと移行する。 D4MORLベンチマークの大規模な実験により、我々のアルゴリズムは最先端のオフラインMORLベースラインよりも優れており、OOD選好の優れた一般化が示される。

Multi-objective Reinforcement Learning (MORL) seeks to develop policies that simultaneously optimize multiple conflicting objectives, but it requires extensive online interactions. Offline MORL provides a promising solution by training on pre-collected datasets to generalize to any preference upon deployment. However, real-world offline datasets are often conservatively and narrowly distributed, failing to comprehensively cover preferences, leading to the emergence of out-of-distribution (OOD) preference areas. Existing offline MORL algorithms exhibit poor generalization to OOD preferences, resulting in policies that do not align with preferences. Leveraging the excellent expressive and generalization capabilities of diffusion models, we propose MODULI (Multi-objective Diffusion Planner with Sliding Guidance), which employs a preference-conditioned diffusion model as a planner to generate trajectories that align with various preferences and derive action for decision-making. To achieve accurate generation, MODULI introduces two return normalization methods under diverse preferences for refining guidance. To further enhance generalization to OOD preferences, MODULI proposes a novel sliding guidance mechanism, which involves training an additional slider adapter to capture the direction of preference changes. Incorporating the slider, it transitions from in-distribution (ID) preferences to generating OOD preferences, patching, and extending the incomplete Pareto front. Extensive experiments on the D4MORL benchmark demonstrate that our algorithm outperforms state-of-the-art Offline MORL baselines, exhibiting excellent generalization to OOD preferences.
翻訳日:2024-08-29 17:22:57 公開日:2024-08-28
# RoboSense:マルチセンサ低速自動運転のための大規模データセットとベンチマーク

RoboSense: Large-scale Dataset and Benchmark for Multi-sensor Low-speed Autonomous Driving ( http://arxiv.org/abs/2408.15503v1 )

ライセンス: Link先を確認
Haisheng Su, Feixiang Song, Cong Ma, Panpan Cai, Wei Wu, Cewu Lu, (参考訳) 任意の視界下でのロバスト物体の検出と追跡は、自律走行車技術の発展に不可欠である。 無人機能車両の需要が高まる中、低速自動運転の分野では、近接場理解が重要な研究課題となっている。 運転条件の複雑さやブラインドスポットやハイオクルージョンなどの近接障害物の多様性のため、近接場環境の知覚能力は、その遠方に比べて依然として劣っている。 本稿では,無人車両の知的能力を高めるために,フレキシブルなセンサ構成をサポートする3種類のセンサ(Camera, LiDAR, Fisheye)をベースとしたマルチモーダルデータ収集プラットフォームを構築した。 一方、近場のシーン理解を容易にするために、RoboSenseという大規模なマルチセンサーデータセットが構築されている。 RoboSenseは、1.4Mの3Dバウンディングボックスを持つ133K以上の同期データと、完全な360^{\circ}$ビューに注釈付きIDを含み、7.6Kの時間シーケンスに216Kの軌道を形成する。 KITTIやnuScenesのような以前の単一車種データセットと同様に、5$m$以内のニアフィールド障害のアノテーションが270\times$と18\times$を持っている。 さらに,近距離場における3次元知覚と予測指標のマッチング基準を新たに定義する。 また,RoboSenseをベースとして,関連する研究の今後の発展を促進するために6つの一般的なタスクを定式化し,詳細なデータ分析やベンチマークも提供する。

Robust object detection and tracking under arbitrary sight of view is challenging yet essential for the development of Autonomous Vehicle technology. With the growing demand of unmanned function vehicles, near-field scene understanding becomes an important research topic in the areas of low-speed autonomous driving. Due to the complexity of driving conditions and diversity of near obstacles such as blind spots and high occlusion, the perception capability of near-field environment is still inferior than its farther counterpart. To further enhance the intelligent ability of unmanned vehicles, in this paper, we construct a multimodal data collection platform based on 3 main types of sensors (Camera, LiDAR and Fisheye), which supports flexible sensor configurations to enable dynamic sight of view for ego vehicle, either global view or local view. Meanwhile, a large-scale multi-sensor dataset is built, named RoboSense, to facilitate near-field scene understanding. RoboSense contains more than 133K synchronized data with 1.4M 3D bounding box and IDs annotated in the full $360^{\circ}$ view, forming 216K trajectories across 7.6K temporal sequences. It has $270\times$ and $18\times$ as many annotations of near-field obstacles within 5$m$ as the previous single-vehicle datasets such as KITTI and nuScenes. Moreover, we define a novel matching criterion for near-field 3D perception and prediction metrics. Based on RoboSense, we formulate 6 popular tasks to facilitate the future development of related research, where the detailed data analysis as well as benchmarks are also provided accordingly.
翻訳日:2024-08-29 17:22:57 公開日:2024-08-28
# 動的カシミール効果:時間変化型分散ナノフォトニクスにおける非局在性の必要性

Dynamical Casimir Effects: The Need for Nonlocality in Time-Varying Dispersive Nanophotonics ( http://arxiv.org/abs/2408.15504v1 )

ライセンス: Link先を確認
S. Ali Hassani Gangaraj, George Hanson, Francesco Monticone, (参考訳) 実光子と仮想光子はどちらも光-物質相互作用に関与する。 量子電磁場の真空ゆらぎである仮想光子の観測可能な意味の有名な例は、カシミール効果である。 量子真空効果は弱いため、静的(例えば、強い光共鳴)から動的(例えば、移動境界を持つ系、時間変化の光学特性を持つ系、あるいはそれらの組み合わせ)まで、様々なメカニズムが提案されている。 本稿では,時間変化周波数分散ナノフォトニクス系における動的カシミール効果における物質非局所性(空間分散)の役割について論じる。 まず、局所モデルは、絡み合ったポラリトン対の放出速度のばらつきなど、非物理的予測につながる可能性があることを示す。 次に, 非局所性は, 大きな波動ベクトルに対する系の漸近応答を補正することにより, この挙動を正則化することを示した。 我々の研究は、ナノフォトニクスの新しいフロンティアにおける非局所的な効果の重要性に光を当てている。

Both real and virtual photons can be involved in light-matter interactions. A famous example of the observable implications of virtual photons -- vacuum fluctuations of the quantum electromagnetic field -- is the Casimir effect. Since quantum vacuum effects are weak, various mechanisms have been proposed to enhance and engineer them, ranging from static, e.g., strong optical resonances, to dynamic, e.g., systems with moving boundaries or time-varying optical properties, or a combination of them. In this Letter, we discuss the role of material nonlocality (spatial dispersion) in dynamical Casimir effects in time-varying frequency-dispersive nanophotonic systems. We first show that local models may lead to nonphysical predictions, such as diverging emission rates of entangled polariton pairs. We then theoretically demonstrate that nonlocality regularizes this behavior by correcting the asymptotic response of the system for large wavevectors and reveals physical effects missed by local models, including a significant broadening of the emission rate distribution, which are relevant for future experimental observations. Our work sheds light on the importance of nonlocal effects in this new frontier of nanophotonics.
翻訳日:2024-08-29 17:22:57 公開日:2024-08-28
# 機械学習が概念の数学的構造について教えてくれるもの

What Machine Learning Tells Us About the Mathematical Structure of Concepts ( http://arxiv.org/abs/2408.15507v1 )

ライセンス: Link先を確認
Jun Otsuka, (参考訳) 本稿では、哲学、認知科学、機械学習の概念を理解するための様々なアプローチの関連性について検討し、その数学的性質に特に焦点をあてる。 これらのアプローチを抽象主義、類似性アプローチ、機能的アプローチ、不変アプローチに分類することで、各フレームワークがどのようにモデリング概念に対して明確な数学的視点を提供するかについて強調する。 これらのアプローチの合成は哲学理論と現代の機械学習モデルを橋渡しし、将来の研究のための包括的な枠組みを提供する。 この研究は、人間の認知と人工知能の複雑な関係の理解を深めることを目的として、学際対話の重要性を強調している。

This paper examines the connections among various approaches to understanding concepts in philosophy, cognitive science, and machine learning, with a particular focus on their mathematical nature. By categorizing these approaches into Abstractionism, the Similarity Approach, the Functional Approach, and the Invariance Approach, the study highlights how each framework provides a distinct mathematical perspective for modeling concepts. The synthesis of these approaches bridges philosophical theories and contemporary machine learning models, providing a comprehensive framework for future research. This work emphasizes the importance of interdisciplinary dialogue, aiming to enrich our understanding of the complex relationship between human cognition and artificial intelligence.
翻訳日:2024-08-29 17:22:57 公開日:2024-08-28
# EmoAttack:ディープ音声分類モデルを用いた音声バックドア攻撃に対する感情音声変換の利用

EmoAttack: Utilizing Emotional Voice Conversion for Speech Backdoor Attacks on Deep Speech Classification Models ( http://arxiv.org/abs/2408.15508v1 )

ライセンス: Link先を確認
Wenhan Yao, Zedong XingXiarun Chen, Jia Liu, yongqiang He, Weiping Wen, (参考訳) 単語スポッティングや話者検証を含むディープ音声分類タスクは、音声に基づく人間とコンピュータの相互作用において重要な役割を果たす。 近年、これらの技術のセキュリティはバックドア攻撃に弱いことが実証されている。 具体的には、音声サンプルは、現在のトリガにおけるノイズ破壊と成分変化によって攻撃される。 音声のバックドア攻撃は、音声に固有の高レベルな主観的知覚特性である感情に戦略的に焦点を絞ることができることを示唆する。 さらに,感情音声変換技術が音声バックドア攻撃の引き金となりうることを提案し,その手法をEmoAttackと呼ぶ。 そこで本研究では,EmoAttack法が影響のあるトリガ効果と,その顕著な攻撃成功率と精度のばらつきを保有していることを示す2つの音声分類課題に対する攻撃実験を行った。 さらに、アブレーション実験では、集中的な感情を持つ音声の方が攻撃対象に適していることが判明した。

Deep speech classification tasks, mainly including keyword spotting and speaker verification, play a crucial role in speech-based human-computer interaction. Recently, the security of these technologies has been demonstrated to be vulnerable to backdoor attacks. Specifically speaking, speech samples are attacked by noisy disruption and component modification in present triggers. We suggest that speech backdoor attacks can strategically focus on emotion, a higher-level subjective perceptual attribute inherent in speech. Furthermore, we proposed that emotional voice conversion technology can serve as the speech backdoor attack trigger, and the method is called EmoAttack. Based on this, we conducted attack experiments on two speech classification tasks, showcasing that EmoAttack method owns impactful trigger effectiveness and its remarkable attack success rate and accuracy variance. Additionally, the ablation experiments found that speech with intensive emotion is more suitable to be targeted for attacks.
翻訳日:2024-08-29 17:22:57 公開日:2024-08-28
# 因果探究法の信頼性の測定:トレードオフ,限界,核化介入の楽しさ

Measuring the Reliability of Causal Probing Methods: Tradeoffs, Limitations, and the Plight of Nullifying Interventions ( http://arxiv.org/abs/2408.15510v1 )

ライセンス: Link先を確認
Marc Canby, Adam Davies, Chirag Rastogi, Julia Hockenmaier, (参考訳) 因果探索 (Causal probing) は、大規模な言語モデルのような基礎モデルを解釈するためのアプローチであり、埋め込みから興味のある潜伏特性を認識するためにプローブを訓練し、この表現を修正するためにプローブに介入し、その結果のモデルの振る舞いの変化を分析する。 近年のいくつかの研究は、いくつかの主要な因果探傷介入法の理論的根拠に疑問を投げかけているが、その実際の有効性を体系的かつ実証的に評価する方法は定かではない。 そこで本研究では、因果探究介入の信頼性を評価するための一般的な実証分析フレームワークを提案し、因果探究介入の2つの重要な因果探究行動(deiderata)を正式に定義し、定量化する。 我々の形式主義は、様々な因果探究法(例えば、線形対非線形対非実数的対非実数的対非実数的介入)の族間での最初の直接比較を可能にする。 我々は,(1)これらの基準の間に固有のトレードオフがあり,同時に両基準を一貫して満たす方法が存在しないこと,(2)ボード全体では,無効化の介入が反事実的介入よりもはるかに不十分であること,そして,無効化の方法が因果探究の効果的なアプローチではないこと,など,様々な先導的手法にまたがる広範な実験を実施している。

Causal probing is an approach to interpreting foundation models, such as large language models, by training probes to recognize latent properties of interest from embeddings, intervening on probes to modify this representation, and analyzing the resulting changes in the model's behavior. While some recent works have cast doubt on the theoretical basis of several leading causal probing intervention methods, it has been unclear how to systematically and empirically evaluate their effectiveness in practice. To address this problem, we propose a general empirical analysis framework to evaluate the reliability of causal probing interventions, formally defining and quantifying two key causal probing desiderata: completeness (fully transforming the representation of the target property) and selectivity (minimally impacting other properties). Our formalism allows us to make the first direct comparisons between different families of causal probing methods (e.g., linear vs. nonlinear or counterfactual vs. nullifying interventions). We conduct extensive experiments across several leading methods, finding that (1) there is an inherent tradeoff between these criteria, and no method is able to consistently satisfy both at once; and (2) across the board, nullifying interventions are always far less complete than counterfactual interventions, indicating that nullifying methods may not be an effective approach to causal probing.
翻訳日:2024-08-29 17:22:57 公開日:2024-08-28
# AeroVerse: UAV-Agent Benchmark Suite for Simulated, Pre-Trening, Finetuning, and Evaluating Aerospace Embodied World Models

AeroVerse: UAV-Agent Benchmark Suite for Simulating, Pre-training, Finetuning, and Evaluating Aerospace Embodied World Models ( http://arxiv.org/abs/2408.15511v1 )

ライセンス: Link先を確認
Fanglong Yao, Yuanchang Yue, Youzhi Liu, Xian Sun, Kun Fu, (参考訳) 航空宇宙の具体化された知能は、無人航空機(UAV)や他の航空宇宙プラットフォームに、自律的な認識、認識、行動、そして人間や環境とのエゴセントリックな活発な相互作用を実現することを目的としている。 航空宇宙エンボディド・ワールドモデルは、UAVの自律的な知性を実現する効果的な手段として機能し、航空宇宙エンボディド・インテリジェンスへの道筋を示す。 しかし、既存の組み込まれた世界モデルは、主に屋内シナリオにおける地上レベルの知的エージェントに焦点を当て、UAVの知的エージェントの研究は未調査のままである。 このギャップに対処するため、我々はAerialAgent-Ego10kという大規模な実世界の画像テキスト事前学習データセットを構築した。 また,空域埋め込み世界モデルの事前学習を容易にするために,仮想画像テキストアライメントデータセットであるCyberAgent Ego500kを作成している。 空域の環境認識,空間推論,ナビゲーション探索,タスク計画,動作決定を具現化した5つの下流タスクを初めて明確に定義し,それに対応する命令データセット,すなわちSkyAgent-Scene3k,SkyAgent-Reason3k,SkyAgent-Nav3k,SkyAgent-Plan3k,SkyAgent-Act3kを構築した。 同時に、GPT-4に基づく下流タスク評価指標であるSkyAgentEvalを開発し、UAVエージェントタスクにおける2D/3D視覚言語モデルの可能性と限界を明らかにする。 さらに、10以上の2D/3Dビジュアル言語モデル、2つの事前トレーニングデータセット、5つの微調整データセット、10以上の評価指標、シミュレータをベンチマークスイートに統合します。

Aerospace embodied intelligence aims to empower unmanned aerial vehicles (UAVs) and other aerospace platforms to achieve autonomous perception, cognition, and action, as well as egocentric active interaction with humans and the environment. The aerospace embodied world model serves as an effective means to realize the autonomous intelligence of UAVs and represents a necessary pathway toward aerospace embodied intelligence. However, existing embodied world models primarily focus on ground-level intelligent agents in indoor scenarios, while research on UAV intelligent agents remains unexplored. To address this gap, we construct the first large-scale real-world image-text pre-training dataset, AerialAgent-Ego10k, featuring urban drones from a first-person perspective. We also create a virtual image-text-pose alignment dataset, CyberAgent Ego500k, to facilitate the pre-training of the aerospace embodied world model. For the first time, we clearly define 5 downstream tasks, i.e., aerospace embodied scene awareness, spatial reasoning, navigational exploration, task planning, and motion decision, and construct corresponding instruction datasets, i.e., SkyAgent-Scene3k, SkyAgent-Reason3k, SkyAgent-Nav3k and SkyAgent-Plan3k, and SkyAgent-Act3k, for fine-tuning the aerospace embodiment world model. Simultaneously, we develop SkyAgentEval, the downstream task evaluation metrics based on GPT-4, to comprehensively, flexibly, and objectively assess the results, revealing the potential and limitations of 2D/3D visual language models in UAV-agent tasks. Furthermore, we integrate over 10 2D/3D visual-language models, 2 pre-training datasets, 5 finetuning datasets, more than 10 evaluation metrics, and a simulator into the benchmark suite, i.e., AeroVerse, which will be released to the community to promote exploration and development of aerospace embodied intelligence.
翻訳日:2024-08-29 17:22:57 公開日:2024-08-28
# LLMによる完全自律型研究に向けて:シミュレーションを事例として

Towards Fully Autonomous Research Powered by LLMs: Case Study on Simulations ( http://arxiv.org/abs/2408.15512v1 )

ライセンス: Link先を確認
Zhihan Liu, Yubo Chai, Jianfeng Li, (参考訳) LLM(Large Language Models)の出現は、実験プロセスと計算シミュレーションの両方にまたがる科学研究の自動化の新しい機会を生み出した。 本研究では,LLMを利用した自律型シミュレーションエージェント(ASA)の構築を,高度なAPI統合を通じて実現し,実験設計から遠隔アップロード・シミュレーション実行,データ解析,コンパイルの報告に至るまで,研究プロセス全体を自動化できる可能性について検討する。 高分子鎖配座のシミュレーション問題を事例として, GPT-4-Turboを含む各種LLMを用いたASAの性能評価を行った。 以上の結果から,ASA-GPT-4oは指定された研究ミッションにおいてほぼ不当な実行を達成し,LLMが自律的な科学的調査を完全管理する可能性を示唆した。 概説された自動化は、人間の介入なしに20サイクルまで反復的に実施することができ、大規模な自律的な研究のためのLSMの可能性について説明することができる。 さらに,多岐にわたるタスク管理におけるASAの本質的特徴について考察し,自己検証機構と局所的注意と世界的監視のバランスに着目した。

The advent of Large Language Models (LLMs) has created new opportunities for the automation of scientific research, spanning both experimental processes and computational simulations. This study explores the feasibility of constructing an autonomous simulation agent (ASA) powered by LLM, through sophisticated API integration, to automate the entire research process, from experimental design, remote upload and simulation execution, data analysis, to report compilation. Using a simulation problem of polymer chain conformations as a case study, we assessed the performance of ASAs powered by different LLMs including GPT-4-Turbo. Our findings revealed that ASA-GPT-4o achieved near-flawless execution on designated research missions, underscoring the potential of LLMs to manage complete scientific investigations autonomously. The outlined automation can be iteratively performed up to twenty cycles without human intervention, illustrating the potential of LLMs for large-scale autonomous research endeavors. Additionally, we discussed the intrinsic traits of ASAs in managing extensive tasks, focusing on self-validation mechanisms and the balance between local attention and global oversight.
翻訳日:2024-08-29 17:22:57 公開日:2024-08-28
# 連続学習に基づく構造的損傷認識フレームワーク

Continual-learning-based framework for structural damage recognition ( http://arxiv.org/abs/2408.15513v1 )

ライセンス: Link先を確認
Jiangpeng Shu, Jiawei Zhang, Reachsak Ly, Fangzheng Lin, Yuanfeng Duan, (参考訳) 鉄筋コンクリート構造物では多損傷が一般的であり、畳み込みニューラルネットワーク(CNN)が損傷認識に使用される場合、多数のニューラルネットワーク、パラメータ、データストレージが要求される。 さらに,従来のCNNでは,連続学習中にタスク数が増加し,それまでの学習課題の精度が大幅に低下するなど,破滅的な忘れ込みやトレーニングの非効率を経験する。 これらの問題に対処するために,連続学習手法を忘れずに学習を統合した連続学習に基づく損傷認識モデル(CLDRM)をResNet-34アーキテクチャに提案する。 4つの認識タスクの3つの実験は、CLDRMフレームワークの有効性と有効性を検証するために設計された。 このようにして、継続的学習の4つのタスクにおいて、予測時間とデータストレージの両方を約75%削減する。 4つの認識タスクの3つの実験は、CLDRMフレームワークの有効性と有効性を検証するために設計された。 段階的な特徴融合により、CLDRMは他の手法よりも高い精度で損傷認識と分類を実現した。 認識タスクの数が増加するにつれて、CLDRMは以前の学習タスクよりも小さくなった。 その結果,CLDRMフレームワークは適切な精度と有効性で損傷認識と分類に成功していることがわかった。

Multi-damage is common in reinforced concrete structures and leads to the requirement of large number of neural networks, parameters and data storage, if convolutional neural network (CNN) is used for damage recognition. In addition, conventional CNN experiences catastrophic forgetting and training inefficiency as the number of tasks increases during continual learning, leading to large accuracy decrease of previous learned tasks. To address these problems, this study proposes a continuallearning-based damage recognition model (CLDRM) which integrates the learning without forgetting continual learning method into the ResNet-34 architecture for the recognition of damages in RC structures as well as relevant structural components. Three experiments for four recognition tasks were designed to validate the feasibility and effectiveness of the CLDRM framework. In this way, it reduces both the prediction time and data storage by about 75% in four tasks of continuous learning. Three experiments for four recognition tasks were designed to validate the feasibility and effectiveness of the CLDRM framework. By gradual feature fusion, CLDRM outperformed other methods by managed to achieve high accuracy in the damage recognition and classification. As the number of recognition tasks increased, CLDRM also experienced smaller decrease of the previous learned tasks. Results indicate that the CLDRM framework successfully performs damage recognition and classification with reasonable accuracy and effectiveness.
翻訳日:2024-08-29 17:12:56 公開日:2024-08-28
# 任意の次元$k$一様混合状態の純度と構成

Purity and construction of arbitrary dimensional $k$-uniform mixed states ( http://arxiv.org/abs/2408.15515v1 )

ライセンス: Link先を確認
Xiao Zhang, Shanqi Pang, Shao-Ming Fei, Zhu-Jun Zheng, (参考訳) k-一様混合状態(k-一様混合状態、k-一様混合状態、k-一様混合状態、k-一様混合状態、k-一様混合状態、k-一様混合状態、k-一様混合状態、k-一様混合状態、k-一様混合状態、k-一様混合状態、k-一様混合状態)は、すべてのk-一様還元状態 可能な限り高い純度でk-一様混合状態を構築するための新しい手法が構築されている。 直交配列の直交分割を用いることで、新しい$k$一様混合状態が導出される。 その結果、高い純度を持つものを含む、無限個の高次元k-一様混合状態が生成される。

k-uniform mixed states are a significant class of states characterized by all k-party reduced states being maximally mixed. Novel methodologies are constructed for constructing k-uniform mixed states with the highest possible purity. By using the orthogonal partition of orthogonal arrays, a series of new $k$-uniform mixed states is derived. Consequently, an infinite number of higher-dimensional k-uniform mixed states, including those with highest purity, can be generated.
翻訳日:2024-08-29 17:12:56 公開日:2024-08-28
# Dolphin: エネルギー効率の良いオンデバイス言語モデルのための新しいモダリティとしてのロングコンテキスト

Dolphin: Long Context as a New Modality for Energy-Efficient On-Device Language Models ( http://arxiv.org/abs/2408.15518v1 )

ライセンス: Link先を確認
Wei Chen, Zhiyuan Li, Shuo Xin, Yihao Wang, (参考訳) 本稿では,言語モデルにおける長いコンテキストのエネルギー効率向上のためのデコーダ・デコーダアーキテクチャであるDolphinを提案する。 弊社のアプローチは、デバイス上のモデルに固有の、エネルギー消費とレイテンシの問題に対処する。 ドルフィンは、コンパクトな0.5Bパラメータデコーダを使用して、広範囲なコンテキスト情報をメモリ埋め込みに蒸留し、プライマリ7Bパラメータデコーダモデルの入力長を大幅に削減する。 視覚言語モデルに触発されて、画像埋め込みプロジェクタを用いて、長いテキストコンテキストをエンコードし、拡張コンテキストを異なるモダリティとして効果的に扱う。 この革新的な方法は、拡張された入力シーケンスに関連する典型的な計算オーバーヘッドを伴わずに、はるかに長いコンテキストの処理を可能にする。 実験的な評価では、応答の質を損なうことなく、従来のフル長コンテキスト処理法と比較して、エネルギー効率が10倍改善し、レイテンシが5倍削減された。 私たちの研究は、より持続的でスケーラブルなオンデバイスアプリケーション用言語モデルの開発に寄与し、長いコンテキストを理解するための正確さを維持しながら、リソース制約のある環境でのエネルギー効率と応答性のAI技術に対する重要なニーズに対処します。 この研究は、自然言語処理の幅広い分野、特に資源制限設定のための効率的なモデル設計の領域に影響を及ぼす。 エッジデバイス上でより高度なAI機能を実現することで、Dolphinは、計算リソースがプレミアムである幅広いアプリケーションにおいて、高度な言語処理の道を開くことができる。 Dolphinモデルはhttps://huggingface.co/NexaAIDev/Dolphin.comで公開されている。

This paper presents Dolphin, a novel decoder-decoder architecture for energy-efficient processing of long contexts in language models. Our approach addresses the significant energy consumption and latency challenges inherent in on-device models. Dolphin employs a compact 0.5B parameter decoder to distill extensive contextual information into a memory embedding, substantially reducing the input length for the primary 7B parameter decoder model. Inspired by vision-language models, we repurpose the image embedding projector to encode long textual contexts, effectively treating extended context as a distinct modality. This innovative method enables processing of substantially longer contexts without the typical computational overhead associated with extended input sequences. Empirical evaluations demonstrate a 10-fold improvement in energy efficiency and a 5-fold reduction in latency compared to conventional full-length context processing methods without losing quality of the response. Our work contributes to the development of more sustainable and scalable language models for on-device applications, addressing the critical need for energy-efficient and responsive AI technologies in resource-constrained environments while maintaining the accuracy to understand long contexts. This research has implications for the broader field of natural language processing, particularly in the domain of efficient model design for resource-limited settings. By enabling more sophisticated AI capabilities on edge devices, Dolphin paves the way for advanced language processing in a wide range of applications where computational resources are at a premium. The Dolphin model is publicly available at https://huggingface.co/NexaAIDev/Dolphin.
翻訳日:2024-08-29 17:12:56 公開日:2024-08-28
# カメラを用いた認知症者のリスク行動の深さ重み検出

Depth-Weighted Detection of Behaviours of Risk in People with Dementia using Cameras ( http://arxiv.org/abs/2408.15519v1 )

ライセンス: Link先を確認
Pratik K. Mishra, Irene Ballester, Andrea Iaboni, Bing Ye, Kristine Newman, Alex Mihailidis, Shehroz S. Khan, (参考訳) 認知症の行動・心理的症状、例えば扇動や攻撃といった症状は、在宅ケアの環境において重大な健康・安全リスクを生じさせる。 多くの医療施設は、公共空間のデジタル監視のためにビデオカメラを設置しており、リスク検出システムの自動動作を開発するために利用することができ、スタッフにタイムリーな介入とエスカレーションの防止を警告することができる。 しかし,前回の研究では,カメラ近傍で発生する活動による視界の妨害による誤報の存在が課題であった。 この問題に対処するため,我々は,カメラの近距離および遠距離で発生する事象に対して同等の重要度を強制する,カスタマイズされた畳み込みオートエンコーダを訓練するための,新しい深度重み付き損失関数を提案した。 提案手法は, 特殊な認知症ユニットに属する3台のカメラで認知症の9人の被験者のデータを用いて訓練し, 3台のカメラに対して0.852$,$0.81$, $0.768$の受信機動作特性の曲線を達成した。 提案手法の個別成分に対するアブレーション分析を行い, リスク検出の参加者特異的および性特異的な行動について, 提案手法の性能について検討した。 本手法は,認知症者におけるリスクの行動検出において合理的に実施され,介護施設におけるビデオ監視システムへの展開に適したリスク検出システムの開発に向けたさらなる研究を動機づけるものである。

The behavioural and psychological symptoms of dementia, such as agitation and aggression, present a significant health and safety risk in residential care settings. Many care facilities have video cameras in place for digital monitoring of public spaces, which can be leveraged to develop an automated behaviours of risk detection system that can alert the staff to enable timely intervention and prevent the situation from escalating. However, one of the challenges in our previous study was the presence of false alarms due to obstruction of view by activities happening close to the camera. To address this issue, we proposed a novel depth-weighted loss function to train a customized convolutional autoencoder to enforce equivalent importance to the events happening both near and far from the cameras; thus, helping to reduce false alarms and making the method more suitable for real-world deployment. The proposed method was trained using data from nine participants with dementia across three cameras situated in a specialized dementia unit and achieved an area under the curve of receiver operating characteristic of $0.852$, $0.81$ and $0.768$ for the three cameras. Ablation analysis was conducted for the individual components of the proposed method and the performance of the proposed method was investigated for participant-specific and sex-specific behaviours of risk detection. The proposed method performed reasonably well in detecting behaviours of risk in people with dementia motivating further research toward the development of a behaviours of risk detection system suitable for deployment in video surveillance systems in care facilities.
翻訳日:2024-08-29 17:12:56 公開日:2024-08-28
# 画像分割参照のための単一エンコーダを用いた簡易ベースライン

A Simple Baseline with Single-encoder for Referring Image Segmentation ( http://arxiv.org/abs/2408.15521v1 )

ライセンス: Link先を確認
Seonghoon Yu, Ilchae Jung, Byeongju Han, Taeoh Kim, Yunho Kim, Dongyoon Wee, Jeany Son, (参考訳) 画像セグメンテーション(RIS)の参照には、与えられた記述に基づいてオブジェクトをセグメンテーションするために、視覚ピクセルとテキストワード間の密接な視覚-言語相互作用が必要である。 しかし、RIS、eg、Swin変換器、BERT(uni-modal encoder)、CLIP(multi-modal dual-encoder)の2つのエンコーダは、事前トレーニング中に密接なマルチモーダル相互作用を欠いているため、ピクセルレベルのRISタスクとのギャップが生じる。 このギャップを埋めるために、既存のRIS法は2つのエンコーダを相互作用するマルチモーダル融合モジュールに依存することが多いが、このアプローチは高い計算コストをもたらす。 本稿では,単一エンコーダ(BEiT-3)を用いた新しいRIS法を提案する。 これにより、入力から最終的な予測までの2つのモードのシームレスな相互作用が可能になり、粒度に整列したマルチモーダル特徴が生成される。 さらに,軽量で効果的なデコーダモジュール,共有FPNと共有マスクデコーダを提案する。 単一エンコーダを用いた我々の単純なベースラインは、二エンコーダに基づく最新のSoTA手法と比較して、RISベンチマークデータセットにおいて計算効率を保ちながら優れた性能を達成する。

Referring image segmentation (RIS) requires dense vision-language interactions between visual pixels and textual words to segment objects based on a given description. However, commonly adapted dual-encoders in RIS, e.g., Swin transformer and BERT (uni-modal encoders) or CLIP (a multi-modal dual-encoder), lack dense multi-modal interactions during pre-training, leading to a gap with a pixel-level RIS task. To bridge this gap, existing RIS methods often rely on multi-modal fusion modules that interact two encoders, but this approach leads to high computational costs. In this paper, we present a novel RIS method with a single-encoder, i.e., BEiT-3, maximizing the potential of shared self-attention across all framework components. This enables seamless interactions of two modalities from input to final prediction, producing granularly aligned multi-modal features. Furthermore, we propose lightweight yet effective decoder modules, a Shared FPN and a Shared Mask Decoder, which contribute to the high efficiency of our model. Our simple baseline with a single encoder achieves outstanding performances on the RIS benchmark datasets while maintaining computational efficiency, compared to the most recent SoTA methods based on dual-encoders.
翻訳日:2024-08-29 17:12:56 公開日:2024-08-28
# Rydberg遮断とJaynes-Cummingsモデルによる量子放射場と相互作用する2つの原子間のラビ振動と絡み合い

Rabi oscillations and entanglement between two atoms interacting by the Rydberg blockade and with a quantized radiation field studied by the Jaynes-Cummings Model ( http://arxiv.org/abs/2408.15523v1 )

ライセンス: Link先を確認
Francisco D. Santillan, Andreas Hanke, (参考訳) 原子と量子化された放射場の間の相互作用は、量子光学と量子情報科学において根本的に重要である。 その特異な性質のため、ライドバーグ原子は2量子ビットゲートと原子-光量子界面の構成要素を約束し、2つの原子が近距離で同時に励起されるのを防ぐライドバーグの遮断相互作用を利用する。 近年、この効果はラマンレーザーによって照らされた相互作用するライドバーグ原子の配列に基づいて量子プロセッサを設計するために使われた。 これらの実験に動機づけられて、我々はJaynes-Cummingsモデルを拡張して、Rydbergブロックと量子化された放射場によって相互作用する2つのRydberg原子間の相互作用を研究する。 我々は、原子と放射場の間の様々なラビ振動と絡み合いを初期状態と相互作用時間の関数として見つけ、将来の長距離量子通信の構成要素として原子-光量子界面を得るのに使用できる。

The interaction between atoms and a quantized radiation field is fundamentally important in quantum optics and quantum information science. Due to their unusual properties, Rydberg atoms are promising building blocks for two-qubit gates and atom-light quantum interfaces, exploiting the Rydberg blockade interaction which prevents two atoms at close distance from being simultaneously excited to Rydberg states. Recently, this effect was used to engineer quantum processors based on arrays of interacting Rydberg atoms illuminated by Raman lasers. Motivated by these experiments, we extend the Jaynes-Cummings model to study the interaction between two Rydberg atoms interacting by the Rydberg blockade and a quantized radiation field. We find a rich variety of Rabi oscillations and entanglement between the atoms and the radiation field as a function of initial conditions and interaction time, which may be used to obtain atom-light quantum interfaces as components for future long-distance quantum communication.
翻訳日:2024-08-29 17:12:56 公開日:2024-08-28
# ニューラルシーン再構成のためのレイディスタンスボリュームレンダリング

Ray-Distance Volume Rendering for Neural Scene Reconstruction ( http://arxiv.org/abs/2408.15524v1 )

ライセンス: Link先を確認
Ruihong Yin, Yunlu Chen, Sezer Karaoglu, Theo Gevers, (参考訳) ニューラルシーン再構築における既存の手法は、SDF(Signed Distance Function)を用いて密度関数をモデル化する。 しかし, 室内のシーンでは, SDFからサンプリングされた密度は, しばしば隣接する物体の影響により, ボリュームレンダリングにおいて常に重要であることを反映していない可能性がある。 そこで本研究では,信号線距離関数 (SRDF) を用いて密度関数をパラメータ化する屋内シーン再構成手法を提案する。 まず、SRDFはネットワークによって予測され、ボリュームレンダリングのための線条件密度関数に変換される。 我々は、SRDFがカメラ線に沿った表面のみを考慮し、そこから導出した密度関数は、SDFのそれよりも実際の占有とより一致していると主張している。 第2に、SRDFとSDFはシーンジオメトリの異なる側面を表すが、それらの値は、下層の空間占有度を示す同じ記号を共有するべきである。 そこで本研究では,SRDF出力とSDF出力の符号を制約するSRDF-SDF整合性損失を導入する。 第3に, 自己監督型視認性タスクを提案し, 再建作業に物理視認性幾何学を導入する。 視認性タスクは、予測されたSRDFとSDFを擬似ラベルとして組み合わせ、より正確な3D形状を生成するのに寄与する。 提案手法は,屋内のデータセット上で異なる表現で実装され,再現性およびビュー合成性能の向上を実現している。

Existing methods in neural scene reconstruction utilize the Signed Distance Function (SDF) to model the density function. However, in indoor scenes, the density computed from the SDF for a sampled point may not consistently reflect its real importance in volume rendering, often due to the influence of neighboring objects. To tackle this issue, our work proposes a novel approach for indoor scene reconstruction, which instead parameterizes the density function with the Signed Ray Distance Function (SRDF). Firstly, the SRDF is predicted by the network and transformed to a ray-conditioned density function for volume rendering. We argue that the ray-specific SRDF only considers the surface along the camera ray, from which the derived density function is more consistent to the real occupancy than that from the SDF. Secondly, although SRDF and SDF represent different aspects of scene geometries, their values should share the same sign indicating the underlying spatial occupancy. Therefore, this work introduces a SRDF-SDF consistency loss to constrain the signs of the SRDF and SDF outputs. Thirdly, this work proposes a self-supervised visibility task, introducing the physical visibility geometry to the reconstruction task. The visibility task combines prior from predicted SRDF and SDF as pseudo labels, and contributes to generating more accurate 3D geometry. Our method implemented with different representations has been validated on indoor datasets, achieving improved performance in both reconstruction and view synthesis.
翻訳日:2024-08-29 17:12:56 公開日:2024-08-28
# 開量子系に対する準Lindblad擬モード理論

Quasi-Lindblad pseudomode theory for open quantum systems ( http://arxiv.org/abs/2408.15529v1 )

ライセンス: Link先を確認
Gunhee Park, Zhen Huang, Yuanran Zhu, Chao Yang, Garnet Kin-Lic Chan, Lin Lin, (参考訳) ガウス浴を線形結合した開量子系の力学を研究するための新しい枠組みを導入する。 提案手法は, 連続浴を相補的な擬態の離散集合と散逸動力学に置き換えるが, リンドブラッドマスター方程式の完全正の条件をさらに緩和し, 準リンドブラッド擬態論を定式化する。 この準Lindblad擬モードの定式化は、複素指数の複素重み付き和の言葉でバス相関関数の表現に直接導かれることを示す。 擬モード表現はユニークではなく、ゲージ選択によって異なる。 グローバルダイナミクスを正確にシミュレートできる場合、システムダイナミクスは特異であり、特定の擬モード表現とは独立である。 しかし、ゲージ選択は、グローバルダイナミクスの安定性に影響を与える可能性があり、なぜ、いつグローバルダイナミクスが肯定性を失っても安定性を維持することができるのかを解析する。 ボゾンとフェルミオンの両問題において, この定式化が様々なスペクトル密度にまたがる性能を示すとともに, 従来の擬モード定式化よりも有意な改善が見られた。

We introduce a new framework to study the dynamics of open quantum systems with linearly coupled Gaussian baths. Our approach replaces the continuous bath with an auxiliary discrete set of pseudomodes with dissipative dynamics, but we further relax the complete positivity requirement in the Lindblad master equation and formulate a quasi-Lindblad pseudomode theory. We show that this quasi-Lindblad pseudomode formulation directly leads to a representation of the bath correlation function in terms of a complex weighted sum of complex exponentials, an expansion that is known to be rapidly convergent in practice and thus leads to a compact set of pseudomodes. The pseudomode representation is not unique and can differ by a gauge choice. When the global dynamics can be simulated exactly, the system dynamics is unique and independent of the specific pseudomode representation. However, the gauge choice may affect the stability of the global dynamics, and we provide an analysis of why and when the global dynamics can retain stability despite losing positivity. We showcase the performance of this formulation across various spectral densities in both bosonic and fermionic problems, finding significant improvements over conventional pseudomode formulations.
翻訳日:2024-08-29 17:12:56 公開日:2024-08-28
# LRP4RAG:レイヤワイド関連伝播による検索増強ジェネレーションにおける幻覚の検出

LRP4RAG: Detecting Hallucinations in Retrieval-Augmented Generation via Layer-wise Relevance Propagation ( http://arxiv.org/abs/2408.15533v1 )

ライセンス: Link先を確認
Haichuan Hu, Yuhan Sun, Qunjun Zhang, (参考訳) Retrieval-Augmented Generation (RAG) は、大規模言語モデル(LLM)における幻覚を緩和する主要な技術となっている。 しかしながら、不完全な知識抽出と不十分な理解はLLMを誤解させ、無関係または矛盾する応答を生じさせ、つまり、幻覚がRAGに持続することを意味する。 本稿では、RAGの幻覚を検出するためのレイヤワイド関連伝搬(LRP)アルゴリズムであるLRP4RAGを提案する。 具体的には、まず LRP を用いて、RAG ジェネレータの入力と出力の関連性を計算する。 次に、さらに抽出と再サンプリングを関連行列に適用する。 処理された関連データは複数の分類器に入力され、その出力が幻覚を含むか否かを判定する。 我々の知る限り、RP4RAGがRAG幻覚の検出に使用されたのはこれが初めてであり、広範な実験により、LPP4RAGが既存のベースラインより優れていることが示されている。

Retrieval-Augmented Generation (RAG) has become a primary technique for mitigating hallucinations in large language models (LLMs). However, incomplete knowledge extraction and insufficient understanding can still mislead LLMs to produce irrelevant or even contradictory responses, which means hallucinations persist in RAG. In this paper, we propose LRP4RAG, a method based on the Layer-wise Relevance Propagation (LRP) algorithm for detecting hallucinations in RAG. Specifically, we first utilize LRP to compute the relevance between the input and output of the RAG generator. We then apply further extraction and resampling to the relevance matrix. The processed relevance data are input into multiple classifiers to determine whether the output contains hallucinations. To the best of our knowledge, this is the first time that LRP has been used for detecting RAG hallucinations, and extensive experiments demonstrate that LRP4RAG outperforms existing baselines.
翻訳日:2024-08-29 17:12:56 公開日:2024-08-28
# 予算付きマルチアームバンドの情報緩和によるトンプソンサンプリングの改善

Improving Thompson Sampling via Information Relaxation for Budgeted Multi-armed Bandits ( http://arxiv.org/abs/2408.15535v1 )

ライセンス: Link先を確認
Woojin Jeong, Seungki Min, (参考訳) 本稿では,各アームが選択時に異なる量の資源を消費し,使用可能な資源の総量に対する予算制約が存在する,ベイズ予算の多腕バンディット問題を考える。 予算付トンプソンサンプリング(英語版)(BTS)はこの問題に対して非常に効果的なヒューリスティックを提供するが、そのアーム選択規則は残りの予算情報を考慮していない。 我々は、古典的な$K$武器付きバンディット問題に対してトンプソンサンプリングを一般化する「textit{information Relaxation Smpling}」フレームワークを採用し、BTSのようにランダム化されるが、予算制約に関してより慎重に決定を最適化する一連のアルゴリズムを提案する。 これらのアルゴリズムとの1対1対応では、従来のベンチマークを改善する一連のパフォーマンスベンチマークも提案されている。 我々の理論解析とシミュレーションの結果から,実世界の実例を含む様々な環境において,BTSよりもアルゴリズム(およびベンチマーク)が漸進的に改善されていることが示唆された。

We consider a Bayesian budgeted multi-armed bandit problem, in which each arm consumes a different amount of resources when selected and there is a budget constraint on the total amount of resources that can be used. Budgeted Thompson Sampling (BTS) offers a very effective heuristic to this problem, but its arm-selection rule does not take into account the remaining budget information. We adopt \textit{Information Relaxation Sampling} framework that generalizes Thompson Sampling for classical $K$-armed bandit problems, and propose a series of algorithms that are randomized like BTS but more carefully optimize their decisions with respect to the budget constraint. In a one-to-one correspondence with these algorithms, a series of performance benchmarks that improve the conventional benchmark are also suggested. Our theoretical analysis and simulation results show that our algorithms (and our benchmarks) make incremental improvements over BTS (respectively, the conventional benchmark) across various settings including a real-world example.
翻訳日:2024-08-29 17:12:56 公開日:2024-08-28
# TrafficGamer: ゲーム理論のOracleによる安全批判シナリオのための信頼性とフレキシブルなトラフィックシミュレーション

TrafficGamer: Reliable and Flexible Traffic Simulation for Safety-Critical Scenarios with Game-Theoretic Oracles ( http://arxiv.org/abs/2408.15538v1 )

ライセンス: Link先を確認
Guanren Qiao, Guorui Quan, Jiawei Yu, Shujun Jia, Guiliang Liu, (参考訳) 現代の自律走行車(AV)システムは、通常の交通条件下で信頼性の高い運転ポリシーを開発することができるが、安全上重要な交通シナリオとしばしば競合する。 この難しさは主に、データセットの駆動におけるそのようなシナリオの希少さと、複数の車両間の予測モデリングに関連する複雑さから生じる。 AVポリシーのテストと改善を支援するためには、安全クリティカルな交通イベントをシミュレートすることが不可欠である。 本研究では,一般的な道路運転をマルチエージェントゲームとして見ることにより,ゲーム理論的な交通シミュレーションを容易にするTrafficGamerを紹介する。 さまざまな実世界のデータセットにおける経験的パフォーマンスの評価において、TrafficGamerは、シミュレーションシナリオの忠実性と悪用性の両方を保証し、実世界のトラフィック分布に静的に整合するだけでなく、複数のエージェントを含む安全クリティカルなシナリオを表現するための均衡を効率的に取得する。 さらに、TrafficGamerは様々なコンテキストで非常に柔軟なシミュレーションを行うことを示した。 具体的には、最適化中にリスクに敏感な制約を設定することにより、生成したシナリオが様々な厳密性の均衡に動的に適応できることを実証する。 我々の知る限り、TrafficGamerは、複数のエージェントを含む多様なトラフィックシナリオを生成することができる最初のシミュレータです。 プロジェクトのデモWebページはhttps://qiaoguanren.github.io/trafficgamer-demo/にある。

While modern Autonomous Vehicle (AV) systems can develop reliable driving policies under regular traffic conditions, they frequently struggle with safety-critical traffic scenarios. This difficulty primarily arises from the rarity of such scenarios in driving datasets and the complexities associated with predictive modeling among multiple vehicles. To support the testing and refinement of AV policies, simulating safety-critical traffic events is an essential challenge to be addressed. In this work, we introduce TrafficGamer, which facilitates game-theoretic traffic simulation by viewing common road driving as a multi-agent game. In evaluating the empirical performance across various real-world datasets, TrafficGamer ensures both fidelity and exploitability of the simulated scenarios, guaranteeing that they not only statically align with real-world traffic distribution but also efficiently capture equilibriums for representing safety-critical scenarios involving multiple agents. Additionally, the results demonstrate that TrafficGamer exhibits highly flexible simulation across various contexts. Specifically, we demonstrate that the generated scenarios can dynamically adapt to equilibriums of varying tightness by configuring risk-sensitive constraints during optimization. To the best of our knowledge, TrafficGamer is the first simulator capable of generating diverse traffic scenarios involving multiple agents. We have provided a demo webpage for the project at https://qiaoguanren.github.io/trafficgamer-demo/.
翻訳日:2024-08-29 17:12:56 公開日:2024-08-28
# Kangaroo:長文ビデオ入力をサポートする強力なビデオ言語モデル

Kangaroo: A Powerful Video-Language Model Supporting Long-context Video Input ( http://arxiv.org/abs/2408.15542v1 )

ライセンス: Link先を確認
Jiajun Liu, Yibing Wang, Hanghang Ma, Xiaoping Wu, Xiaoqi Ma, Xiaoming Wei, Jianbin Jiao, Enhua Wu, Jie Hu, (参考訳) LLM(Large Language Models)からLMM(Large Multi-modal Models)への拡張が急速に進んでいる。 しかし、LLMの入力モダリティをビデオデータに拡張することは、特に長大なビデオにおいて困難な試みである。 大規模な高品質なビデオデータへのアクセスが不十分であり、視覚的特徴の過剰な圧縮のため、現在の手法では、長大な動画を効果的に処理する際の制限が示される。 本稿では,これらの課題に対処するための強力なビデオLMMであるKangarooを紹介する。 不適切なトレーニングデータの問題に先立ち、視覚言語による事前学習と指導訓練のための高品質なアノテーションを備えた大規模データセットを構築するためのデータキュレーションシステムを開発した。 さらに,より解像度が向上し,長いビデオに対応するための入力フレーム数が増えたカリキュラム学習パイプラインを設計する。 評価結果は、8Bパラメーターを用いて、さまざまなビデオ理解ベンチマークで最先端のパフォーマンスを達成しつつ、競合する結果を他の人に示すことを示した。 特に、ロングビデオに特化したベンチマークでは、Kangarooは10B以上のパラメータとプロプライエタリなモデルで、いくつかの大きなモデルを抜粋している。

Rapid advancements have been made in extending Large Language Models (LLMs) to Large Multi-modal Models (LMMs). However, extending input modality of LLMs to video data remains a challenging endeavor, especially for long videos. Due to insufficient access to large-scale high-quality video data and the excessive compression of visual features, current methods exhibit limitations in effectively processing long videos. In this paper, we introduce Kangaroo, a powerful Video LMM aimed at addressing these challenges. Confronted with issue of inadequate training data, we develop a data curation system to build a large-scale dataset with high-quality annotations for vision-language pre-training and instruction tuning. In addition, we design a curriculum training pipeline with gradually increasing resolution and number of input frames to accommodate long videos. Evaluation results demonstrate that, with 8B parameters, Kangaroo achieves state-of-the-art performance across a variety of video understanding benchmarks while exhibiting competitive results on others. Particularly, on benchmarks specialized for long videos, Kangaroo excels some larger models with over 10B parameters and proprietary models.
翻訳日:2024-08-29 17:12:56 公開日:2024-08-28
# 言語間通信における誤訳の警告に関する検討

An Investigation of Warning Erroneous Chat Translations in Cross-lingual Communication ( http://arxiv.org/abs/2408.15543v1 )

ライセンス: Link先を確認
Yunmeng Li, Jun Suzuki, Makoto Morishita, Kaori Abe, Kentaro Inui, (参考訳) チャットの複雑さは、機械翻訳モデルに重大な課題をもたらす。 チャット翻訳の課題に対処するための正確な評価基準の必要性を認識し, チャット翻訳のための多次元品質指標(MQM-Chat)を提案する。 MQM-Chatを用いた5つのモデルの実験により,全てのモデルが何らかの根本的な誤りを発生させるのに対し,各モデルには欠落,曖昧なソース内容の過度な修正,バズワードの問題など,異なる欠点があることがわかった。 本研究は,チャット翻訳評価におけるMQM-Chatの有効性を実証し,今後の研究における文体化コンテンツの重要性と対話の整合性を強調した。

The complexities of chats pose significant challenges for machine translation models. Recognizing the need for a precise evaluation metric to address the issues of chat translation, this study introduces Multidimensional Quality Metrics for Chat Translation (MQM-Chat). Through the experiments of five models using MQM-Chat, we observed that all models generated certain fundamental errors, while each of them has different shortcomings, such as omission, overly correcting ambiguous source content, and buzzword issues, resulting in the loss of stylized information. Our findings underscore the effectiveness of MQM-Chat in evaluating chat translation, emphasizing the importance of stylized content and dialogue consistency for future studies.
翻訳日:2024-08-29 17:12:56 公開日:2024-08-28
# SciLitLLM:科学文献理解のためのLLMの適応方法

SciLitLLM: How to Adapt LLMs for Scientific Literature Understanding ( http://arxiv.org/abs/2408.15545v1 )

ライセンス: Link先を確認
Sihang Li, Jian Huang, Jiaxi Zhuang, Yaorui Shi, Xiaochen Cai, Mingjun Xu, Xiang Wang, Linfeng Zhang, Guolin Ke, Hengxing Cai, (参考訳) 科学的文献の理解は、対象とする情報を抽出し、洞察を得るために不可欠であり、科学的な発見を著しく前進させる。 LLM(Large Language Models)の顕著な成功にもかかわらず、第一に科学的知識の欠如と、第二に専門的な科学的タスクに精通していないことによる科学文献理解の課題に直面している。 本研究では,科学文献理解に特化したLLMを開発するために,CPT(Continuous Pre-Turning)とSFT(教師付き微調整)を統合したハイブリッド戦略を提案し,科学的ドメイン知識を同時に注入し,ドメイン固有のタスクの指示追従能力を高める。 我々は、PDFテキスト抽出、コンテンツエラー訂正のパース、品質フィルタリング、合成命令生成など、微妙なパイプラインを通じてこれらの課題に対処する。 この戦略を応用して、科学文献理解に特化したLLMのスイートSciLitLLMを提示する。 これらのモデルは科学文献理解ベンチマークにおいて有望な性能を示す。 1) CPT と SFT を統合し,科学文献理解に LLM を適用し,他の領域にも容易に適用可能な効果的なフレームワークを提案する。 2) LLMに基づく多種多様な科学的命令を生成するための合成法を提案し, より表現の少ない科学領域における微調整のための新しい命令セットであるSciLitInsを提案する。 (3)SciLitLLMは,学術文献理解ベンチマークにおいて有望な性能向上を実現している。

Scientific literature understanding is crucial for extracting targeted information and garnering insights, thereby significantly advancing scientific discovery. Despite the remarkable success of Large Language Models (LLMs), they face challenges in scientific literature understanding, primarily due to (1) a lack of scientific knowledge and (2) unfamiliarity with specialized scientific tasks. To develop an LLM specialized in scientific literature understanding, we propose a hybrid strategy that integrates continual pre-training (CPT) and supervised fine-tuning (SFT), to simultaneously infuse scientific domain knowledge and enhance instruction-following capabilities for domain-specific tasks.cIn this process, we identify two key challenges: (1) constructing high-quality CPT corpora, and (2) generating diverse SFT instructions. We address these challenges through a meticulous pipeline, including PDF text extraction, parsing content error correction, quality filtering, and synthetic instruction creation. Applying this strategy, we present a suite of LLMs: SciLitLLM, specialized in scientific literature understanding. These models demonstrate promising performance on scientific literature understanding benchmarks. Our contributions are threefold: (1) We present an effective framework that integrates CPT and SFT to adapt LLMs to scientific literature understanding, which can also be easily adapted to other domains. (2) We propose an LLM-based synthesis method to generate diverse and high-quality scientific instructions, resulting in a new instruction set -- SciLitIns -- for supervised fine-tuning in less-represented scientific domains. (3) SciLitLLM achieves promising performance improvements on scientific literature understanding benchmarks.
翻訳日:2024-08-29 17:12:56 公開日:2024-08-28
# ConsistencyTrack: 一貫性モデルの生成戦略を備えたロバストなマルチオブジェクトトラッカー

ConsistencyTrack: A Robust Multi-Object Tracker with a Generation Strategy of Consistency Model ( http://arxiv.org/abs/2408.15548v1 )

ライセンス: Link先を確認
Lifan Jiang, Zhihui Wang, Siqi Yin, Guangxiao Ma, Peng Zhang, Boxi Wu, (参考訳) マルチオブジェクトトラッキング(MOT)は、コンピュータビジョンにおいて重要な技術であり、ビデオシーケンス内の複数のターゲットを検出し、各ターゲットにフレーム毎にユニークなIDを割り当てるように設計されている。 既存のMOTメソッドは、様々なシナリオでリアルタイムで複数のオブジェクトを正確に追跡する。 しかし、これらの手法は、耐雑音性や頻繁なIDスイッチなどの課題に直面している。 本研究では,コンシステンシー・トラック(ConsistencyTrack, 関節検出・追跡(JDT)フレームワークを提案する。 このプログレッシブな denoising 戦略はモデルの耐雑音性を著しく改善する。 トレーニングフェーズでは、2つの隣接するフレーム内の2つのオブジェクトボックスが、接地木箱からランダムな分布に拡散され、この過程を逆転することでモデルが検出と追跡を学習する。 推論において、モデルは無作為に生成されたボックスを最小限のデノナイジングステップで検出および追跡結果に洗練する。 ConsistencyTrackは、ターゲットの排除に対応する革新的なターゲットアソシエーション戦略も導入している。 MOT17とDanceTrackデータセットの実験では、ConsistencyTrackが他の比較メソッド、特に推論速度やその他のパフォーマンス指標でDiffusionTrackよりも優れていることが示されている。 私たちのコードはhttps://github.com/Tankowa/ConsistencyTrack.comから入手可能です。

Multi-object tracking (MOT) is a critical technology in computer vision, designed to detect multiple targets in video sequences and assign each target a unique ID per frame. Existed MOT methods excel at accurately tracking multiple objects in real-time across various scenarios. However, these methods still face challenges such as poor noise resistance and frequent ID switches. In this research, we propose a novel ConsistencyTrack, joint detection and tracking(JDT) framework that formulates detection and association as a denoising diffusion process on perturbed bounding boxes. This progressive denoising strategy significantly improves the model's noise resistance. During the training phase, paired object boxes within two adjacent frames are diffused from ground-truth boxes to a random distribution, and then the model learns to detect and track by reversing this process. In inference, the model refines randomly generated boxes into detection and tracking results through minimal denoising steps. ConsistencyTrack also introduces an innovative target association strategy to address target occlusion. Experiments on the MOT17 and DanceTrack datasets demonstrate that ConsistencyTrack outperforms other compared methods, especially better than DiffusionTrack in inference speed and other performance metrics. Our code is available at https://github.com/Tankowa/ConsistencyTrack.
翻訳日:2024-08-29 17:12:56 公開日:2024-08-28
# WildFeedback: その場でのユーザーインタラクションとフィードバックによるLLMの調整

WildFeedback: Aligning LLMs With In-situ User Interactions And Feedback ( http://arxiv.org/abs/2408.15549v1 )

ライセンス: Link先を確認
Taiwei Shi, Zhuoer Wang, Longqi Yang, Ying-Chun Lin, Zexue He, Mengting Wan, Pei Zhou, Sujay Jauhar, Xiaofeng Xu, Xia Song, Jennifer Neville, (参考訳) 大規模言語モデル(LLM)が進歩を続けるにつれ、これらのモデルと人間の嗜好の整合が重要な課題として浮上している。 従来のアライメント手法は、人間またはLLMアノテートデータセットに依存しており、リソース集約性、固有の主観性、モデルバイアスを増幅するフィードバックループのリスクによって制限されている。 これらの制限を克服するために、WildFeedbackという、リアルタイムのin-situユーザーインタラクションを活用して、より正確に人間の価値観を反映した嗜好データセットを作成する新しいフレームワークを紹介します。 WildFeedbackはフィードバック信号の識別、優先データの構築、ユーザガイドによる評価という3段階のプロセスで運用されている。 我々は,このフレームワークをユーザとLLMの会話の大規模なコーパスに適用し,実際のユーザの好みを反映したリッチな嗜好データセットを作成した。 このデータセットは、自然な会話の中でフィードバック信号を識別し分類することで、ユーザの好みのニュアンスをキャプチャし、より代表的でコンテキストに敏感なアライメントデータの構築を可能にする。 実験により,WildFeedbackを微調整したLCMは,従来のベンチマークと提案したユーザガイド評価の両方で証明されたように,ユーザの嗜好との整合性を大幅に向上したことが示された。 実際のユーザからのリアルタイムフィードバックを取り入れることで、WildFeedbackは、既存のアプローチを悩ませるスケーラビリティ、主観性、バイアスの課題に対処し、ユーザの多様性と進化するニーズにより反応するLSMを開発するための重要なステップをマークします。 要約すると、WildFeedbackはLLMを真の人間の価値と整合させる堅牢でスケーラブルなソリューションを提供し、ユーザー中心の言語モデルの開発と評価のための新しい標準を設定します。

As large language models (LLMs) continue to advance, aligning these models with human preferences has emerged as a critical challenge. Traditional alignment methods, relying on human or LLM annotated datasets, are limited by their resource-intensive nature, inherent subjectivity, and the risk of feedback loops that amplify model biases. To overcome these limitations, we introduce WildFeedback, a novel framework that leverages real-time, in-situ user interactions to create preference datasets that more accurately reflect authentic human values. WildFeedback operates through a three-step process: feedback signal identification, preference data construction, and user-guided evaluation. We applied this framework to a large corpus of user-LLM conversations, resulting in a rich preference dataset that reflects genuine user preferences. This dataset captures the nuances of user preferences by identifying and classifying feedback signals within natural conversations, thereby enabling the construction of more representative and context-sensitive alignment data. Our extensive experiments demonstrate that LLMs fine-tuned on WildFeedback exhibit significantly improved alignment with user preferences, as evidenced by both traditional benchmarks and our proposed user-guided evaluation. By incorporating real-time feedback from actual users, WildFeedback addresses the scalability, subjectivity, and bias challenges that plague existing approaches, marking a significant step toward developing LLMs that are more responsive to the diverse and evolving needs of their users. In summary, WildFeedback offers a robust, scalable solution for aligning LLMs with true human values, setting a new standard for the development and evaluation of user-centric language models.
翻訳日:2024-08-29 17:03:09 公開日:2024-08-28
# 人中心自律意思決定システムのための信頼と責任のあるAI

Trustworthy and Responsible AI for Human-Centric Autonomous Decision-Making Systems ( http://arxiv.org/abs/2408.15550v1 )

ライセンス: Link先を確認
Farzaneh Dehghani, Mahsa Dibaji, Fahim Anzum, Lily Dey, Alican Basdemir, Sayeh Bayat, Jean-Christophe Boucher, Steve Drew, Sarah Elaine Eaton, Richard Frayne, Gouri Ginde, Ashley Harris, Yani Ioannou, Catherine Lebel, John Lysack, Leslie Salgado Arzuaga, Emma Stanley, Roberto Souza, Ronnie Souza, Lana Wells, Tyler Williamson, Matthias Wilms, Zaman Wahid, Mark Ungrin, Marina Gavrilova, Mariana Bento, (参考訳) 人工知能(AI)は、革命的な意思決定プロセスの道を開いた。 しかしながら、ブラックボックスの性質は、バイアスと透明性に関連する重要な倫理的課題を呈している。 AIアプリケーションはバイアスに大きく影響され、一貫性がなく信頼性の低い結果を示し、大きなコストと結果をもたらし、不平等を強調し、リソースへのアクセスを不平等にします。 したがって、安全で信頼性があり、倫理的で信頼できるAIシステムの開発が不可欠である。 カルガリー大学のトランスディシプリナリー・スカラーシップ・イニシアチブ(Transdisciplinary Scholarship Initiative)の一部である、Trustworthy and Responsible AIと協力する我々の研究チームは、公正さ、バイアス緩和、再現性、一般化、解釈可能性、信頼性などを含む、Trustworthy and Responsible AIの研究を行っています。 本稿では,AIバイアス,定義,検出と緩和の方法,およびバイアスを評価するメトリクスの複雑さをレビューし,議論する。 また、人間中心の意思決定のさまざまな領域におけるAIの信頼性と広範な適用に関するオープンな課題や、責任と信頼に値するAIモデルを育成するためのガイドラインについても論じる。

Artificial Intelligence (AI) has paved the way for revolutionary decision-making processes, which if harnessed appropriately, can contribute to advancements in various sectors, from healthcare to economics. However, its black box nature presents significant ethical challenges related to bias and transparency. AI applications are hugely impacted by biases, presenting inconsistent and unreliable findings, leading to significant costs and consequences, highlighting and perpetuating inequalities and unequal access to resources. Hence, developing safe, reliable, ethical, and Trustworthy AI systems is essential. Our team of researchers working with Trustworthy and Responsible AI, part of the Transdisciplinary Scholarship Initiative within the University of Calgary, conducts research on Trustworthy and Responsible AI, including fairness, bias mitigation, reproducibility, generalization, interpretability, and authenticity. In this paper, we review and discuss the intricacies of AI biases, definitions, methods of detection and mitigation, and metrics for evaluating bias. We also discuss open challenges with regard to the trustworthiness and widespread application of AI across diverse domains of human-centric decision making, as well as guidelines to foster Responsible and Trustworthy AI models.
翻訳日:2024-08-29 17:03:09 公開日:2024-08-28
# 多様な地形条件に対する新しいDenoising手法とディープラーニングに基づくハイブリッド風速予測モデル

A Novel Denoising Technique and Deep Learning Based Hybrid Wind Speed Forecasting Model for Variable Terrain Conditions ( http://arxiv.org/abs/2408.15554v1 )

ライセンス: Link先を確認
Sourav Malakar, Saptarsi Goswami, Amlan Chakrabarti, Bhaswati Ganguli, (参考訳) 風の流れは非常に予測不能であり、丘、山、谷の形状や高さによって速度や方向がかなり変動し、複雑な地形において正確な風速(WS)を予測することができる。 本稿では,WS の短期予測のための新しい適応モデルを提案する。 主な貢献は以下の通りである。 (a)部分自己相関関数(PACF)は、内在モード関数(IMF)の集合の寸法を最小化し、トレーニング時間を短縮するために用いられる。 b) サンプルエントロピー (SampEn) は, IMFの縮小した集合の複雑さを計算するために用いられた。 提案手法は,複雑性に基づいて特定のDeep Learning(DL)モデル-機能の組み合わせが選択されたため適応的である。 (c)複雑なIMFのための新たな双方向機能LSTMフレームワークが提案され、予測精度が向上した。 (d)提案モデルでは,持続性,ハイブリッド性,エンサンブル経験モード分解(EEMD),変分モード分解(VMD)に基づくディープラーニングモデルと比較して,優れた予測性能を示す。 単純な地形条件と複雑な地形条件の予測精度の0.70%において、最も低いばらつきを達成している。 IMFの次元減少と複雑さに基づくモデル機能選択は、トレーニング時間を68.77%削減し、予測品質を58.58%向上させる。

Wind flow can be highly unpredictable and can suffer substantial fluctuations in speed and direction due to the shape and height of hills, mountains, and valleys, making accurate wind speed (WS) forecasting essential in complex terrain. This paper presents a novel and adaptive model for short-term forecasting of WS. The paper's key contributions are as follows: (a) The Partial Auto Correlation Function (PACF) is utilised to minimise the dimension of the set of Intrinsic Mode Functions (IMF), hence reducing training time; (b) The sample entropy (SampEn) was used to calculate the complexity of the reduced set of IMFs. The proposed technique is adaptive since a specific Deep Learning (DL) model-feature combination was chosen based on complexity; (c) A novel bidirectional feature-LSTM framework for complicated IMFs has been suggested, resulting in improved forecasting accuracy; (d) The proposed model shows superior forecasting performance compared to the persistence, hybrid, Ensemble empirical mode decomposition (EEMD), and Variational Mode Decomposition (VMD)-based deep learning models. It has achieved the lowest variance in terms of forecasting accuracy between simple and complex terrain conditions 0.70%. Dimension reduction of IMF's and complexity-based model-feature selection helps reduce the training time by 68.77% and improve forecasting quality by 58.58% on average.
翻訳日:2024-08-29 17:03:09 公開日:2024-08-28
# 緑内障バイオマーカーの潜在的関係マイニング:TRI-LSTMを用いたディープラーニング

Latent Relationship Mining of Glaucoma Biomarkers: a TRI-LSTM based Deep Learning ( http://arxiv.org/abs/2408.15555v1 )

ライセンス: Link先を確認
Cheng Huang, Junhao Shen, Qiuyu Luo, Karanjit Kooner, Tsengdar Lee, Yishen Liu, Jia Zhang, (参考訳) 近年,緑内障の分類・検出に深層学習を適用した研究が盛んに行われている。 しかし、これらの確立された機械学習モデルの説明可能性には大きな懸念がある。 これとは対照的に、認知科学の概念から学び、眼科医が緑内障の検出をどう判断するかを研究する。 専門家の努力をシミュレートし、慎重に設計されたバイオマーカー指向機械学習モデルの包括的集合を中心に、階層的な意思決定システムを提案する。 バイオマーカーは眼科医が緑内障をどう識別するかを示す重要な指標であるが、通常は潜伏した関係を示す。 そこで我々は,緑内障の様々なバイオマーカー間の潜在的および潜伏的関係を計算し,解明できる時系列モデル TRI-LSTM を構築した。 本モデルは緑内障バイオマーカーの内在的な関係を探究する最初の試みの一つである。 患者の病状状態の経時的関係を観察し, 来院後の病関連臨床情報の経過を把握, 維持し, バイオマーカーの可能性を高める。 実世界のデータセットに対する大規模な実験により,提案モデルの有効性が実証された。

In recently years, a significant amount of research has been conducted on applying deep learning methods for glaucoma classification and detection. However, the explainability of those established machine learning models remains a big concern. In this research, in contrast, we learn from cognitive science concept and study how ophthalmologists judge glaucoma detection. Simulating experts' efforts, we propose a hierarchical decision making system, centered around a holistic set of carefully designed biomarker-oriented machine learning models. While biomarkers represent the key indicators of how ophthalmologists identify glaucoma, they usually exhibit latent inter-relations. We thus construct a time series model, named TRI-LSTM, capable of calculating and uncovering potential and latent relationships among various biomarkers of glaucoma. Our model is among the first efforts to explore the intrinsic connections among glaucoma biomarkers. We monitor temporal relationships in patients' disease states over time and to capture and retain the progression of disease-relevant clinical information from prior visits, thereby enriching biomarker's potential relationships. Extensive experiments over real-world dataset have demonstrated the effectiveness of the proposed model.
翻訳日:2024-08-29 17:03:09 公開日:2024-08-28
# Divide, Conquer and Combine:マルチモーダル大言語モデルにおける高解像度画像認識のための学習自由フレームワーク

Divide, Conquer and Combine: A Training-Free Framework for High-Resolution Image Perception in Multimodal Large Language Models ( http://arxiv.org/abs/2408.15556v1 )

ライセンス: Link先を確認
Wenbin Wang, Liang Ding, Minyan Zeng, Xiabin Zhou, Li Shen, Yong Luo, Dacheng Tao, (参考訳) MLLM(Multimodal large language model)は近年顕著な進歩を遂げているが、高解像度(HR)画像の複雑な詳細を認識・解釈するのに苦慮している。 最先端(SOTA)のMLLMは4K解像度で画像を処理しているが、既存のMLLMベンチマークは2Kまでしかサポートしていない。 さらに、MLLMにおけるHR画像知覚を向上させる既存の手法は、計算コストのかかるビジュアルインストラクションチューニングに依存している。 これらの制約に対処するために,4K&8K画像上でMLLM性能を厳格に評価する最初の意図的に設計されたベンチマークであるHR-Benchを紹介する。 広範にわたる実験により、HR画像のダウンサンプル化が視覚情報損失を招き、例えばテキストなどの相補的なモダリティを活用することにより、この損失を効果的に補うことができることを示した。 この知見に基づいて、HR画像のMLLM知覚を高めるための新しいトレーニングフリーフレームワークであるDivide, Conquer and Combine (DC$^2$)を提案する。 DC$^2$は3段階のアプローチに従う。 1) 分割: HRイメージをパッチに再帰的に分割し、同様のパッチをマージして計算オーバーヘッドを最小限にする。 2)コンバータ:MLLMを利用して各画像パッチの正確なテキスト記述を生成し、 3) 組み合わせ: 生成したテキスト記述を利用して,全体のHR画像に対するMLLMの理解を深める。 大規模な実験は、こう示しています。 1)SOTA MLLMの精度は63%であり,HR-Benchの精度は87%よりも著しく低い。 2) DC$^2$は、一貫性と大幅な改善をもたらす(HR-Benchでは+6%、一般的なマルチモーダルベンチマークでは+8%)。 ベンチマークとコードは、マルチモーダルなR&Dコミュニティを促進するためにリリースされる。

Multimodal large language models (MLLMs) have experienced significant advancements recently, but still struggle to recognize and interpret intricate details in high-resolution (HR) images effectively. While state-of-the-art (SOTA) MLLMs claim to process images at 4K resolution, existing MLLM benchmarks only support up to 2K, leaving the capabilities of SOTA models on true HR images largely untested. Furthermore, existing methods for enhancing HR image perception in MLLMs rely on computationally expensive visual instruction tuning. To address these limitations, we introduce HR-Bench, the first deliberately designed benchmark to rigorously evaluate MLLM performance on 4K&8K images. Through extensive experiments, we demonstrate that while downsampling HR images leads to vision information loss, leveraging complementary modalities, e.g., text, can effectively compensate for this loss. Building upon this insight, we propose Divide, Conquer and Combine (DC$^2$), a novel training-free framework for enhancing MLLM perception of HR images. DC$^2$ follows a three-staged approach: 1) Divide: recursively partitioning the HR image into patches and merging similar patches to minimize computational overhead, 2) Conquer: leveraging the MLLM to generate accurate textual descriptions for each image patch, and 3) Combine: utilizing the generated text descriptions to enhance the MLLM's understanding of the overall HR image. Extensive experiments show that: 1) the SOTA MLLM achieves 63% accuracy, which is markedly lower than the 87% accuracy achieved by humans on HR-Bench; 2) our DC$^2$ brings consistent and significant improvements (a relative increase of +6% on HR-Bench and +8% on general multimodal benchmarks). The benchmark and code will be released to facilitate the multimodal R&D community.
翻訳日:2024-08-29 17:03:09 公開日:2024-08-28
# 医用画像分割のためのニューラルセルオートマタの一般化能力:ロバストで軽量なアプローチ

Generalization Capabilities of Neural Cellular Automata for Medical Image Segmentation: A Robust and Lightweight Approach ( http://arxiv.org/abs/2408.15557v1 )

ライセンス: Link先を確認
Steven Korevaar, Ruwan Tennakoon, Alireza Bab-Hadiashar, (参考訳) 医用画像の分野では、U-Netアーキテクチャは変種とともに、画像分割タスクの基盤としての地位を確立している。 同一の分散(ドメイン内)データに対する印象的なパフォーマンスにもかかわらず、トレーニングディストリビューションから逸脱した(ドメイン外)データでテストすると、U-Netのパフォーマンスは大幅に低下する。 近年の手法では, 様々な形態の正規化に基づく一般化手法を用いてこの問題に対処し, 特定のシナリオにおいて適度な成功を収めている。 しかし,本論文では,従来のU-Netに比べて3桁(すなわちx1000)小さいモデルを用いて,非チャージ領域に進出する。 U-netパラメータのこのサイズの縮小は、一般的にドメイン内とドメイン外の両方のパフォーマンスに悪影響を及ぼす。 この問題を回避するために,より単純なモデル構造にもかかわらず,再帰的プロセスによってより大きな受容野を達成できるニューラルセルオートマタ(NCA)の概念を探索する。 2つの異なるデータセットによる実験結果から,NAAは一般化の観点からも従来の手法よりも優れており,評価可能なIID性能は維持されていることが明らかとなった。

In the field of medical imaging, the U-Net architecture, along with its variants, has established itself as a cornerstone for image segmentation tasks, particularly due to its strong performance when trained on limited datasets. Despite its impressive performance on identically distributed (in-domain) data, U-Nets exhibit a significant decline in performance when tested on data that deviates from the training distribution, out-of-distribution (out-of-domain) data. Current methodologies predominantly address this issue by employing generalization techniques that hinge on various forms of regularization, which have demonstrated moderate success in specific scenarios. This paper, however, ventures into uncharted territory by investigating the implications of utilizing models that are smaller by three orders of magnitude (i.e., x1000) compared to a conventional U-Net. A reduction of this size in U-net parameters typically adversely affects both in-domain and out-of-domain performance, possibly due to a significantly reduced receptive field. To circumvent this issue, we explore the concept of Neural Cellular Automata (NCA), which, despite its simpler model structure, can attain larger receptive fields through recursive processes. Experimental results on two distinct datasets reveal that NCA outperforms traditional methods in terms of generalization, while still maintaining a commendable IID performance.
翻訳日:2024-08-29 17:03:09 公開日:2024-08-28
# CGRA4ML:科学エッジコンピューティングのための最新のニューラルネットワークを実装するフレームワーク

CGRA4ML: A Framework to Implement Modern Neural Networks for Scientific Edge Computing ( http://arxiv.org/abs/2408.15561v1 )

ライセンス: Link先を確認
G Abarajithan, Zhenghua Ma, Zepeng Li, Shrideep Koparkar, Ravidu Munasinghe, Francesco Restuccia, Ryan Kastner, (参考訳) 科学エッジコンピューティングは、非常に高いスループットと低レイテンシで複雑なニアセンサー処理を実装するために、ハードウェアアクセラレーションされたニューラルネットワークにますます依存している。 HLS4MLのような既存のフレームワークは、より小さなモデルには有効だが、ニューラルネットワーク層を空間的に実装し、すべての重みをオンチップメモリに格納する必要があるため、より大規模で現代的なニューラルネットワークに苦しむ。 CGRA4MLは、ニューラルネットワークモデルの複雑さと極端なパフォーマンス要件の間のギャップを埋めるために設計された、オープンソースのモジュラーフレームワークである。 CGRA4MLは、オフチップのデータストレージを可能にし、ResNet、PointNet、Transformerなどのモデルを含む幅広いニューラルネットワークアーキテクチャをサポートすることで、HLS4MLの機能を拡張する。 HLS4MLとは異なり、CGRA4MLはSystemVerilog RTLを生成しており、ASICやFPGAの設計フローをターゲットにするのに適している。 本研究では,これまでHLS4MLでは実現不可能であった大規模モデルを実装,拡張し,複雑な計算処理における適応性と効率性を示すことによって,フレームワークの有効性を示す。 CGRA4MLはまた、様々なSoCプラットフォームとの統合を可能にする、生成されたランタイムファームウェアを備えた広範な検証フレームワークも導入している。 CGRA4MLのPython API、SystemVerilogハードウェア、Tclツールフロー、Cランタイムの最小限のモジュラーインフラストラクチャは、統合と実験を容易にする。

Scientific edge computing increasingly relies on hardware-accelerated neural networks to implement complex, near-sensor processing at extremely high throughputs and low latencies. Existing frameworks like HLS4ML are effective for smaller models, but struggle with larger, modern neural networks due to their requirement of spatially implementing the neural network layers and storing all weights in on-chip memory. CGRA4ML is an open-source, modular framework designed to bridge the gap between neural network model complexity and extreme performance requirements. CGRA4ML extends the capabilities of HLS4ML by allowing off-chip data storage and supporting a broader range of neural network architectures, including models like ResNet, PointNet, and transformers. Unlike HLS4ML, CGRA4ML generates SystemVerilog RTL, making it more suitable for targeting ASIC and FPGA design flows. We demonstrate the effectiveness of our framework by implementing and scaling larger models that were previously unattainable with HLS4ML, showcasing its adaptability and efficiency in handling complex computations. CGRA4ML also introduces an extensive verification framework, with a generated runtime firmware that enables its integration into different SoC platforms. CGRA4ML's minimal and modular infrastructure of Python API, SystemVerilog hardware, Tcl toolflows, and C runtime, facilitates easy integration and experimentation, allowing scientists to focus on innovation rather than the intricacies of hardware design and optimization.
翻訳日:2024-08-29 17:03:09 公開日:2024-08-28
# 特徴サンプリングと部分配位蒸留による無損失投機的復号化

Boosting Lossless Speculative Decoding via Feature Sampling and Partial Alignment Distillation ( http://arxiv.org/abs/2408.15562v1 )

ライセンス: Link先を確認
Lujun Gui, Bin Xiao, Lei Su, Weipeng Chen, (参考訳) 損失のない投機的復号化は、木構造候補を生成するための軽量なドラフトモデルを用いて、ターゲットのLLMによって並列に検証することにより、ターゲットの大言語モデル(LLM)推論を加速させる。 現在、効果的なアプローチは、より直接的な予測と知識の蒸留を促進するために、ドラフトモデル内のトークンレベルの自己回帰よりも機能レベルを活用する。 本稿では,これらの手法を再評価し,FSPAD (Feature Sampling and partial Alignment Distillation for Lossless Speculative Decoding)を提案する。 第一に、FSPADは、目標LPMが出力する特定のトークンを得るのを防ぐ特徴の本質的な不確実性のため、高次元空間における目標LSMの特徴のサンプリングにトークン埋め込みを利用する。 第2に、FSPADは、特徴量とロジット間の関係を弱めるために部分的なアライメント蒸留を導入し、トレーニング中の特徴量アライメントとロジット信頼性の衝突を減らすことを目的としている。 我々の実験には、Vicuna と LLaMA3-Instruct シリーズの最大のモデルと最小モデルのグリージーデコードと非グリージーデコードの両方が含まれており、マルチターン会話、翻訳、要約、質問応答、数学的推論、検索強化生成のタスクも含んでいる。 以上の結果から, FSPADは, 上述のタスクや目標LLMにおいて, 最先端の手法よりも優れていた。

Lossless speculative decoding accelerates target large language model (LLM) inference by employing a lightweight draft model for generating tree-structured candidates, which are subsequently verified in parallel by the target LLM. Currently, effective approaches leverage feature-level rather than token-level autoregression within the draft model to facilitate more straightforward predictions and enhanced knowledge distillation. In this paper, we reassess these approaches and propose FSPAD (Feature Sampling and Partial Alignment Distillation for Lossless Speculative Decoding), which introduces two straightforward and effective components within the existing framework to boost lossless speculative decoding. Firstly, FSPAD utilizes token embeddings to sample features of the target LLM in high-dimensional space before feeding them into the draft model, due to the inherent uncertainty of the features preventing the draft model from obtaining the specific token output by the target LLM. Secondly, FSPAD introduces partial alignment distillation to weaken the draft model's connection between features and logits, aiming to reduce the conflict between feature alignment and logit confidence during training. Our experiments include both greedy and non-greedy decoding on the largest and smallest models from the Vicuna and LLaMA3-Instruct series, as well as tasks in multi-turn conversation, translation, summarization, question answering, mathematical reasoning, and retrieval-augmented generation. The results show that FSPAD outperforms the state-of-the-art method across all the aforementioned tasks and target LLMs.
翻訳日:2024-08-29 17:03:09 公開日:2024-08-28
# SIaM:大規模言語モデルの自己改善型コード支援数学的推論

SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models ( http://arxiv.org/abs/2408.15565v1 )

ライセンス: Link先を確認
Dian Yu, Baolin Peng, Ye Tian, Linfeng Song, Haitao Mi, Dong Yu, (参考訳) コーディングによる数学的問題を解決するために,大規模言語モデル(LLM)を教える傾向が高まっている。 既存の研究は主に、強力なクローズドソースモデルによるシードトレーニングデータの生成と、ドメイン内のデータ拡張に重点を置いており、コード支援数学的推論に相当な能力を持つLLMを搭載している。 しかしながら、GSM8Kのような少数のデータセットから得られた拡張データに基づいてこれらのモデルを継続的にトレーニングすることは、一般化能力を損なう可能性があり、その効果を限定的な質問タイプに制限する可能性がある。 逆に、大規模で専門家が書いた多種多様な質問応答ペアを活用することで、そのようなLLMを改善する可能性については、未解明のままである。 これらの資源を活用し,コード応答評価などのユニークな課題に対処するために,コードベースの批判モデルを用いて質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。 また、継続的改善を促進するために、自己生成型命令/参照データを用いたアライメントアルゴリズムについても検討する。 ドメイン内(+5.7%)とドメイン外(+4.4%)の両方の実験は、提案されたパラダイムの有効性を実証している。

There is a growing trend of teaching large language models (LLMs) to solve mathematical problems through coding. Existing studies primarily focus on prompting powerful, closed-source models to generate seed training data followed by in-domain data augmentation, equipping LLMs with considerable capabilities for code-aided mathematical reasoning. However, continually training these models on augmented data derived from a few datasets such as GSM8K may impair their generalization abilities and restrict their effectiveness to a narrow range of question types. Conversely, the potential of improving such LLMs by leveraging large-scale, expert-written, diverse math question-answer pairs remains unexplored. To utilize these resources and tackle unique challenges such as code response assessment, we propose a novel paradigm that uses a code-based critic model to guide steps including question-code data construction, quality control, and complementary evaluation. We also explore different alignment algorithms with self-generated instruction/preference data to foster continuous improvement. Experiments across both in-domain (up to +5.7%) and out-of-domain (+4.4%) benchmarks in English and Chinese demonstrate the effectiveness of the proposed paradigm.
翻訳日:2024-08-29 17:03:09 公開日:2024-08-28
# TagOOD:視覚言語表現と授業センター学習によるアウト・オブ・ディストリビューション検出のための新しいアプローチ

TagOOD: A Novel Approach to Out-of-Distribution Detection via Vision-Language Representations and Class Center Learning ( http://arxiv.org/abs/2408.15566v1 )

ライセンス: Link先を確認
Jinglun Li, Xinyu Zhou, Kaixun Jiang, Lingyi Hong, Pinxue Guo, Zhaoyu Chen, Weifeng Ge, Wenqiang Zhang, (参考訳) 視覚や言語などのデータを活用するマルチモーダル融合が急速に普及している。 このリッチなデータ表現は、様々なタスクのパフォーマンスを向上させる。 AIモデルが現実のシナリオで目に見えないデータに遭遇する重要な領域である、アウト・オブ・ディストリビューション(OOD)検出の既存手法は、全体像機能に大きく依存している。 これらの画像レベルの機能には、OODサンプルの検出を妨げる無関係な情報が含まれ、最終的には全体的なパフォーマンスが制限される。 本稿では,OOD 検出のための新しい手法である \textbf{TagOOD} を提案する。 この分解により、オブジェクトセマンティクスのより集中的な分析が可能になり、OOD検出性能が向上する。 その後、TagOODは、抽出されたオブジェクトの特徴に基づいて軽量なネットワークをトレーニングし、代表的なクラスセンターを学習する。 これらの中心は、OOD検出における無関係な画像特徴の影響を最小限に抑え、INDオブジェクトクラスの中心的な傾向を捉えている。 最後に,本手法は,学習センタとテストサンプル間のOODスコアとして距離に基づく測定値を計算することで,OODサンプルを効率的に検出する。 我々は、いくつかのベンチマークデータセット上でTagOODを評価するための広範囲な実験を行い、既存のOOD検出手法と比較して優れた性能を示す。 本研究は,OOD検出におけるマルチモーダル情報利用のさらなる探索に向けた新たな視点を提示する。

Multimodal fusion, leveraging data like vision and language, is rapidly gaining traction. This enriched data representation improves performance across various tasks. Existing methods for out-of-distribution (OOD) detection, a critical area where AI models encounter unseen data in real-world scenarios, rely heavily on whole-image features. These image-level features can include irrelevant information that hinders the detection of OOD samples, ultimately limiting overall performance. In this paper, we propose \textbf{TagOOD}, a novel approach for OOD detection that leverages vision-language representations to achieve label-free object feature decoupling from whole images. This decomposition enables a more focused analysis of object semantics, enhancing OOD detection performance. Subsequently, TagOOD trains a lightweight network on the extracted object features to learn representative class centers. These centers capture the central tendencies of IND object classes, minimizing the influence of irrelevant image features during OOD detection. Finally, our approach efficiently detects OOD samples by calculating distance-based metrics as OOD scores between learned centers and test samples. We conduct extensive experiments to evaluate TagOOD on several benchmark datasets and demonstrate its superior performance compared to existing OOD detection methods. This work presents a novel perspective for further exploration of multimodal information utilization in OOD detection, with potential applications across various tasks.
翻訳日:2024-08-29 17:03:09 公開日:2024-08-28
# 時系列画像定位のための時間的注意

Temporal Attention for Cross-View Sequential Image Localization ( http://arxiv.org/abs/2408.15569v1 )

ライセンス: Link先を確認
Dong Yuan, Frederic Maire, Feras Dayoub, (参考訳) 本稿では,1つの衛星画像パッチ内でのストリートビュー画像の細粒度かつ逐次的ローカライゼーションに着目し,従来のワンツーワン画像検索法から大きく逸脱した,クロスビューローカライゼーションの新たなアプローチを提案する。 逐次的な画像の微粒化に拡張することにより、新しい時間的注意モジュール(TAM)を備えるモデルでは、文脈情報を活用して、シーケンシャルな画像の局所化精度を大幅に向上させる。 本手法は,Cross-View Image Sequence(CVIS)データセットにおける平均および中央値のローカライゼーション誤差を著しく低減し,最先端の単一画像ローカライゼーション技術より優れていることを示す。 さらに、KITTI-CVLデータセットをシーケンシャルな画像集合に適応させることにより、将来の研究のためのより現実的なデータセットを提供するだけでなく、クロスビューのシーケンシャルな画像ローカライゼーションにおける平均距離誤差の75.3%削減によって証明された様々な時間と領域にわたって、我々のモデルの堅牢な一般化能力を実証する。

This paper introduces a novel approach to enhancing cross-view localization, focusing on the fine-grained, sequential localization of street-view images within a single known satellite image patch, a significant departure from traditional one-to-one image retrieval methods. By expanding to sequential image fine-grained localization, our model, equipped with a novel Temporal Attention Module (TAM), leverages contextual information to significantly improve sequential image localization accuracy. Our method shows substantial reductions in both mean and median localization errors on the Cross-View Image Sequence (CVIS) dataset, outperforming current state-of-the-art single-image localization techniques. Additionally, by adapting the KITTI-CVL dataset into sequential image sets, we not only offer a more realistic dataset for future research but also demonstrate our model's robust generalization capabilities across varying times and areas, evidenced by a 75.3% reduction in mean distance error in cross-view sequential image localization.
翻訳日:2024-08-29 17:03:09 公開日:2024-08-28
# クエリ複雑性を超えた直和定理

Direct sum theorems beyond query complexity ( http://arxiv.org/abs/2408.15570v1 )

ライセンス: Link先を確認
Daiki Suruga, (参考訳) コンピュータ科学の根本的な疑問は以下のとおりである。 \emph{II}$n$インスタンスを同時に解決するよりも、独立して解決することが難しいか? 直和問題または直和定理として知られるこの問題は、いくつかの研究分野において大きな注目を集めている。 しかし、その重要性にもかかわらず、他の多くの研究分野ではほとんど発見されていない。 本稿では,古典的/量子的クエリ複雑性,機械学習のためのPAC学習,統計的推定理論などを拡張する新しいフレームワークを提案する。 この枠組みの中で、いくつかの基本的な直和定理を確立する。 本論文の主な貢献は以下のとおりである。 一 償却されたクエリ/オークルの複雑さの完全な特徴を確立すること。 (ii)誤差が小さいとき、厳密な直和定理を証明すること。 私たちのフレームワークでは、全てのオラクルアクセスは、量子設定においても、emph{classically} で実行する必要があることに注意してください。 これはこの研究の限界の一つと考えることができる。 結果の直接的な結果として, (A) ランダム化クエリの複雑性の漸近的分離が最初に知られている。 具体的には、関数 $f: \{0, 1\}^k \to \{0, 1\}$ および小さなエラー $\varepsilon > 0$ が存在して、同時に$n$ のインスタンスを解くには、クエリの複雑さ $\tilde{O}(n\sqrt{k})$ を必要とするが、同じエラーで1つのインスタンスを解くことは、複雑さ $\tilde{\Omega}(k)$ の複雑さを持つ。 コミュニケーションの複雑さにおいて、このタイプの分離は以前はFeder, Kushilevitz, Naor and Nisan (1995) で与えられていた。 (B)'information = amortized communication'関係とは,Braverman and Rao (2011) が示し,Braverman (2015) がさらに検討したコミュニケーション複雑性の最も影響力のある結果の1つである。 将来的には、さらなる興味深いアプリケーションを提供したいと思っています。

A fundamental question in computer science is: \emph{Is it harder to solve $n$ instances independently than to solve them simultaneously?} This question, known as the direct sum question or direct sum theorem, has been paid much attention in several research fields. Despite its importance, however, little has been discovered in many other research fields. In this paper, we introduce a novel framework that extends to classical/quantum query complexity, PAC-learning for machine learning, statistical estimation theory, and more. Within this framework, we establish several fundamental direct sum theorems. The main contributions of this paper include: (i) establishing a complete characterization of the amortized query/oracle complexities, and (ii) proving tight direct sum theorems when the error is small. Note that in our framework, every oracle access needs to be performed \emph{classically} even in the quantum setting. This can be thought of one limitation of this work. As a direct consequence of our results, we obtain the following: (A) The first known asymptotic separation of the randomized query complexity. Specifically, we show that there is a function $f: \{0, 1\}^k \to \{0, 1\}$ and small error $\varepsilon > 0$ such that solving $n$ instances simultaneously requires the query complexity $\tilde{O}(n\sqrt{k})$ but solving one instance with the same error has the complexity $\tilde{\Omega}(k)$. In communication complexity this type of separation was previously given in~Feder, Kushilevitz, Naor and Nisan (1995). (B) The query complexity counterpart of the ``information = amortized communication" relation, one of the most influential results in communication complexity shown by Braverman and Rao (2011) and further investigated by Braverman (2015). We hope that our results will provide further interesting applications in the future.
翻訳日:2024-08-29 17:03:09 公開日:2024-08-28
# 量子集合体トモグラフィー

Quantum Assemblage Tomography ( http://arxiv.org/abs/2408.15576v1 )

ライセンス: Link先を確認
Luis Villegas-Aguilar, Yuanlong Wang, Alex Pepper, Travis J. Baker, Geoff J. Pryde, Sergei Slussarenko, Nora Tischler, Howard M. Wiseman, (参考訳) 量子ステアリングのような非対称な量子非局所性プロトコルにおける中心的な要件は、状態集合体を正確に再構築することである。 本稿では,コニカル最適化手法と最大推定値を組み合わせた集合体トモグラフィーの一般化損失モデルを提案する。 筆者らは, 赤池の情報基準に基づくエビデンスベースのフレームワークを用いて, モデル複雑度を考慮しつつ, 再構築の精度を向上することが実証された。 比較として,実験データに適用した場合,標準トモグラフィ法は不足する。

A central requirement in asymmetric quantum nonlocality protocols, such as quantum steering, is the precise reconstruction of state assemblages -- statistical ensembles of quantum states correlated with remote classical signals. Here we introduce a generalized loss model for assemblage tomography that uses conical optimization techniques combined with maximum likelihood estimation. Using an evidence-based framework based on Akaike's Information Criterion, we demonstrate that our approach excels in the accuracy of reconstructions while accounting for model complexity. In comparison, standard tomographic methods fall short when applied to experimentally relevant data.
翻訳日:2024-08-29 17:03:09 公開日:2024-08-28
# 階層型視覚カテゴリモデリング:アウト・オブ・ディストリビューション検出のための共同表現学習と密度推定フレームワーク

Hierarchical Visual Categories Modeling: A Joint Representation Learning and Density Estimation Framework for Out-of-Distribution Detection ( http://arxiv.org/abs/2408.15580v1 )

ライセンス: Link先を確認
Jinglun Li, Xinyu Zhou, Pinxue Guo, Yixuan Sun, Yiwen Huang, Weifeng Ge, Wenqiang Zhang, (参考訳) 視覚認識モデルにおけるアウト・オブ・ディストリビューション・インプットの検出は、安全な深層学習において重要になっている。 本稿では,共同表現学習と統計モデルを用いて,分布外データと分布内データとを分離する階層型視覚カテゴリーモデリング手法を提案する。 分配圏ごとにガウスモデルの混合を学習する。 異なる視覚カテゴリーをモデル化するガウス混合モデルが多数存在する。 これらのガウスモデルを用いて、複数のマハラノビスに基づくメトリクスを集約することにより、分布内スコア関数を設計する。 トレーニングサンプルとして補助的な外れ値データを使用せず、アウト・オブ・ディストリビューション検出アルゴリズムの一般化能力を損なう可能性がある。 ImageNet-1kデータセットをランダムに10倍に分割しました。 提案手法の評価には,一方を分布内データセットとして,他方を分布外データセットとして使用する。 また、CIFAR、iNaturalist、SUN、Places、Textures、ImageNet-O、OpenImage-Oを含む7つの人気のあるベンチマークの実験も行っています。 実験結果から,提案手法は最先端のアルゴリズムよりも優れていたことが示唆された。 一方、従来の手法で学習した特徴と比較すると、視覚表現は競合する性能を持つことがわかった。 これらの結果から,本手法は視覚認識モデルの識別能力を低下させておらず,分布外サンプルの検出において高い効率を保っていることが明らかとなった。

Detecting out-of-distribution inputs for visual recognition models has become critical in safe deep learning. This paper proposes a novel hierarchical visual category modeling scheme to separate out-of-distribution data from in-distribution data through joint representation learning and statistical modeling. We learn a mixture of Gaussian models for each in-distribution category. There are many Gaussian mixture models to model different visual categories. With these Gaussian models, we design an in-distribution score function by aggregating multiple Mahalanobis-based metrics. We don't use any auxiliary outlier data as training samples, which may hurt the generalization ability of out-of-distribution detection algorithms. We split the ImageNet-1k dataset into ten folds randomly. We use one fold as the in-distribution dataset and the others as out-of-distribution datasets to evaluate the proposed method. We also conduct experiments on seven popular benchmarks, including CIFAR, iNaturalist, SUN, Places, Textures, ImageNet-O, and OpenImage-O. Extensive experiments indicate that the proposed method outperforms state-of-the-art algorithms clearly. Meanwhile, we find that our visual representation has a competitive performance when compared with features learned by classical methods. These results demonstrate that the proposed method hasn't weakened the discriminative ability of visual recognition models and keeps high efficiency in detecting out-of-distribution samples.
翻訳日:2024-08-29 17:03:09 公開日:2024-08-28
# 普遍原子間ポテンシャルからの先行確率を持つ原子構造のベイズ最適化

Bayesian optimization of atomic structures with prior probabilities from universal interatomic potentials ( http://arxiv.org/abs/2408.15590v1 )

ライセンス: Link先を確認
Peder Lyngby, Casper Larsen, Karsten Wedel Jacobsen, (参考訳) 原子構造の最適化は、望ましい性質を持つ材料を理解し設計する上で重要な役割を担っている。 しかし、従来の手法は、特に多くの局所ミニマを持つ高次元空間において、巨大なポテンシャルエネルギー表面をナビゲートする恐ろしい作業にしばしば苦労する。 機械学習駆動サロゲートモデルの最近の進歩は、この計算負担を軽減するための有望な道を提供する。 本研究では,汎用機械学習の強みと,GOFEE/BEACONフレームワークのベイズ的アプローチを組み合わせた新しいアプローチを提案する。 事前訓練された普遍的機械学習ポテンシャルに符号化された包括的化学知識をエネルギーと力の事前推定として活用することにより、ガウス過程はポテンシャルエネルギー表面の複雑なニュアンスを捉えることにのみ焦点を絞ることができる。 本研究では, 周期的バルク材料, 表面構造, クラスターを含む多種多様なシステムを対象に, 比較分析によるアプローチの有効性を実証する。

The optimization of atomic structures plays a pivotal role in understanding and designing materials with desired properties. However, conventional methods often struggle with the formidable task of navigating the vast potential energy surface, especially in high-dimensional spaces with numerous local minima. Recent advancements in machine learning-driven surrogate models offer a promising avenue for alleviating this computational burden. In this study, we propose a novel approach that combines the strengths of universal machine learning potentials with a Bayesian approach of the GOFEE/BEACON framework. By leveraging the comprehensive chemical knowledge encoded in pretrained universal machine learning potentials as a prior estimate of energy and forces, we enable the Gaussian process to focus solely on capturing the intricate nuances of the potential energy surface. We demonstrate the efficacy of our approach through comparative analyses across diverse systems, including periodic bulk materials, surface structures, and a cluster.
翻訳日:2024-08-29 17:03:09 公開日:2024-08-28
# VFLIP: 同定と浄化による垂直的フェデレーション学習のためのバックドアディフェンス

VFLIP: A Backdoor Defense for Vertical Federated Learning via Identification and Purification ( http://arxiv.org/abs/2408.15591v1 )

ライセンス: Link先を確認
Yungi Cho, Woorim Han, Miseon Yu, Ho Bae, Yunheung Paek, (参考訳) Vertical Federated Learning (VFL)は、FL参加者に対して垂直に分割されたデータを扱うことに焦点を当てている。 近年の研究では、VFLの異なる特徴を特にターゲットとするバックドア攻撃に対するVFLの重大な脆弱性が発見されている。 したがって、これらの攻撃は、主に水平フェデレートラーニング(HFL)とディープニューラルネットワークのために設計された既存の防御メカニズムを中和する可能性がある。 本稿では,VFLを専門とする最初のバックドアディフェンスであるVFLIPについて述べる。 VFLIPは推論段階で動作する識別と浄化技術を採用し、バックドア攻撃に対する堅牢性を大幅に向上させる。 VFLIPは、まず、参加者ワイドな異常検出アプローチを採用することで、バックドアトリガーの埋め込みを識別する。 その後、VFLIPは、悪意があると認識された埋め込みを除去し、残りの埋め込みに基づいてすべての埋め込みを再構築する浄化を行う。 我々は, CIFAR10, CINIC10, Imagenette, NUS-WIDE, BankMarketingで広範囲にわたる実験を行い, VFLIPがVFLのバックドア攻撃を効果的に軽減できることを実証した。 https://github.com/blingcho/VFLIP-esorics24

Vertical Federated Learning (VFL) focuses on handling vertically partitioned data over FL participants. Recent studies have discovered a significant vulnerability in VFL to backdoor attacks which specifically target the distinct characteristics of VFL. Therefore, these attacks may neutralize existing defense mechanisms designed primarily for Horizontal Federated Learning (HFL) and deep neural networks. In this paper, we present the first backdoor defense, called VFLIP, specialized for VFL. VFLIP employs the identification and purification techniques that operate at the inference stage, consequently improving the robustness against backdoor attacks to a great extent. VFLIP first identifies backdoor-triggered embeddings by adopting a participant-wise anomaly detection approach. Subsequently, VFLIP conducts purification which removes the embeddings identified as malicious and reconstructs all the embeddings based on the remaining embeddings. We conduct extensive experiments on CIFAR10, CINIC10, Imagenette, NUS-WIDE, and BankMarketing to demonstrate that VFLIP can effectively mitigate backdoor attacks in VFL. https://github.com/blingcho/VFLIP-esorics24
翻訳日:2024-08-29 16:53:03 公開日:2024-08-28
# マルチタスクオフライン強化学習のための正規化タスク分割

Skills Regularized Task Decomposition for Multi-task Offline Reinforcement Learning ( http://arxiv.org/abs/2408.15593v1 )

ライセンス: Link先を確認
Minjong Yoo, Sangwoo Cho, Honguk Woo, (参考訳) 多様なオフラインデータセットを持つ強化学習(RL)は、複数のタスクとそれらのタスク間で学習される共通スキルの関係を活用する利点があるため、データ駆動方式で現実の複雑な問題に効率的に対処できる。 オフラインデータのみを使用し、環境とのオンラインインタラクションが制限されているオフラインRLでは、特にタスクごとにデータ品質が変化する場合、複数のタスクに対して最適なポリシーを達成することは困難である。 本稿では,異なる品質の行動ポリシーによって生成される異種データセットに対して,スキルベースのマルチタスクRL手法を提案する。 これらのデータセット間で共有可能な知識を効果的に学習するために、共通スキルを共同で学習し、共有および達成可能なサブタスクにおけるタスクを再構築するためのガイダンスとして使用するタスク分解手法を用いる。 この共同学習では、Wasserstein Auto-Encoder(WAE)を用いて、同じ潜在空間上のスキルとタスクの両方を表現し、品質重み付き損失を正規化用語として使用し、タスクを他のものよりも高品質なスキルとより整合したサブタスクに分解する。 潜時空間で学習したオフラインRLエージェントの性能を向上させるため、各タスクの高品質なスキルに関連する想像軌道でデータセットを増強する。 実験を通じて、我々のマルチタスクオフラインRLアプローチは、異なる品質データセットの混合構成に対して堅牢であることを示し、いくつかのロボット操作タスクやドローンナビゲーションタスクにおいて、他の最先端アルゴリズムよりも優れていることを示す。

Reinforcement learning (RL) with diverse offline datasets can have the advantage of leveraging the relation of multiple tasks and the common skills learned across those tasks, hence allowing us to deal with real-world complex problems efficiently in a data-driven way. In offline RL where only offline data is used and online interaction with the environment is restricted, it is yet difficult to achieve the optimal policy for multiple tasks, especially when the data quality varies for the tasks. In this paper, we present a skill-based multi-task RL technique on heterogeneous datasets that are generated by behavior policies of different quality. To learn the shareable knowledge across those datasets effectively, we employ a task decomposition method for which common skills are jointly learned and used as guidance to reformulate a task in shared and achievable subtasks. In this joint learning, we use Wasserstein auto-encoder (WAE) to represent both skills and tasks on the same latent space and use the quality-weighted loss as a regularization term to induce tasks to be decomposed into subtasks that are more consistent with high-quality skills than others. To improve the performance of offline RL agents learned on the latent space, we also augment datasets with imaginary trajectories relevant to high-quality skills for each task. Through experiments, we show that our multi-task offline RL approach is robust to the mixed configurations of different-quality datasets and it outperforms other state-of-the-art algorithms for several robotic manipulation tasks and drone navigation tasks.
翻訳日:2024-08-29 16:53:03 公開日:2024-08-28
# 散逸駆動型量子生成対向ネットワーク

Dissipation-driven quantum generative adversarial networks ( http://arxiv.org/abs/2408.15597v1 )

ライセンス: Link先を確認
He Wang, Jin Wang, (参考訳) 量子機械学習は、古典的なアルゴリズムを超えるスピードアップを達成するために量子アドバンテージを活用するという約束を持っている。 同時に、研究は散逸が量子計算の有効な資源として役立つことを示唆している。 本稿では,従来のデータ生成に適した分散型量子生成逆数ネットワーク(DQGAN)アーキテクチャを提案する。 我々のDQGANは、生成ネットワークと識別ネットワークの2つの相互作用ネットワークで構成されている。 古典データは、強い調整された散逸過程を通じて入力層の入力量子ビットに符号化される。 この符号化方式により、出力量子ビットの定常状態の観測可能性を測定することにより、生成されたデータと分類結果の両方を抽出できる。 ネットワーク結合重み、すなわち層間相互作用ハミルトニアンの強度は、トレーニングプロセス中に反復的に更新される。 この訓練は, 従来のGAN(Generative Adversarial Network)のトレーニングとよく似ている。 2つのネットワークを交互に更新することで、平衡点に達するまで敵対的学習を育む。 我々のDQGANモデルの有効性を裏付けるタスクの簡易なインスタンスに関する予備的な数値実験を行った。

Quantum machine learning holds the promise of harnessing quantum advantage to achieve speedup beyond classical algorithms. Concurrently, research indicates that dissipation can serve as an effective resource in quantum computation. In this paper, we introduce a novel dissipation-driven quantum generative adversarial network (DQGAN) architecture specifically tailored for generating classical data. Our DQGAN comprises two interacting networks: a generative network and a discriminative network, both constructed from qubits. The classical data is encoded into the input qubits of the input layer via strong tailored dissipation processes. This encoding scheme enables us to extract both the generated data and the classification results by measuring the observables of the steady state of the output qubits. The network coupling weight, i.e., the strength of the interaction Hamiltonian between layers, is iteratively updated during the training process. This training procedure closely resembles the training of conventional generative adversarial networks (GANs). By alternately updating the two networks, we foster adversarial learning until the equilibrium point is reached. Our preliminary numerical test on a simplified instance of the task substantiate the feasibility of our DQGAN model.
翻訳日:2024-08-29 16:53:03 公開日:2024-08-28
# フェデレート学習における選択層ファインチューニングの探索

Exploring Selective Layer Fine-Tuning in Federated Learning ( http://arxiv.org/abs/2408.15600v1 )

ライセンス: Link先を確認
Yuchang Sun, Yuexiang Xie, Bolin Ding, Yaliang Li, Jun Zhang, (参考訳) フェデレーテッド・ラーニング(FL)は、分散データを用いた基礎モデルをプライバシー保護の方法で微調整するための、有望なパラダイムとして登場した。 限られた計算資源の下では、クライアントはタスク固有のデータに基づいて、モデル全体ではなく、選択したレイヤのサブセットを微調整する方がより実践的になることが多い。 本研究では、FLにおける選択層微調整の理論的検討を行い、クライアントが選択した層をローカルデータやリソースに応じて調整できるフレキシブルなアプローチを強調した。 理論的には、層選択戦略は、選択された層の重要性とクライアント間の不均一な選択の2つの重要な側面において、モデル収束に大きな影響を与えることを実証する。 さらに,これらの知見から,局所勾配を利用した戦略的層選択手法を提案し,クライアント間の層選択を規制する。 画像とテキストのデータセットに関する広範な実験は、いくつかのベースラインと比較して提案された戦略の有効性を示し、クライアントの不均一性に適応し、FLのトレーニングダイナミクスを訓練する重要なレイヤを特定することの進歩を強調している。

Federated learning (FL) has emerged as a promising paradigm for fine-tuning foundation models using distributed data in a privacy-preserving manner. Under limited computational resources, clients often find it more practical to fine-tune a selected subset of layers, rather than the entire model, based on their task-specific data. In this study, we provide a thorough theoretical exploration of selective layer fine-tuning in FL, emphasizing a flexible approach that allows the clients to adjust their selected layers according to their local data and resources. We theoretically demonstrate that the layer selection strategy has a significant impact on model convergence in two critical aspects: the importance of selected layers and the heterogeneous choices across clients. Drawing from these insights, we further propose a strategic layer selection method that utilizes local gradients and regulates layer selections across clients. The extensive experiments on both image and text datasets demonstrate the effectiveness of the proposed strategy compared with several baselines, highlighting its advances in identifying critical layers that adapt to the client heterogeneity and training dynamics in FL.
翻訳日:2024-08-29 16:53:03 公開日:2024-08-28
# 結晶相と粒界のグランドカノニカル生成拡散モデル

Grand canonical generative diffusion model for crystalline phases and grain boundaries ( http://arxiv.org/abs/2408.15601v1 )

ライセンス: Link先を確認
Bo Lei, Enze Chen, Hyuna Kwon, Tim Hsu, Babak Sadigh, Vincenzo Lordi, Timofey Frolov, Fei Zhou, (参考訳) 拡散モデルは、材料科学のための原子構造を生成する強力なツールとして登場した。 この研究は、原子を点雲として表す現在の粒子ベースの拡散モデルが欠如していることに注意を向けている。 この問題は、分散過程のスコア駆動のシミュレートされたアニーリング中に局所的なミニマに閉じ込められた粒子が、力駆動のシミュレートされたアニーリングの物理過程に類似しているためである。 粒子の固定個数ではなく連続的なボクセルに基づく別の表現を取り入れた解、グランドカノニカル拡散モデルを開発した。 この方法は、いくつかの共通結晶相の生成、および粒界構造の技術的に重要で挑戦的な問題に適用される。

The diffusion model has emerged as a powerful tool for generating atomic structures for materials science. This work calls attention to the deficiency of current particle-based diffusion models, which represent atoms as a point cloud, in generating even the simplest ordered crystalline structures. The problem is attributed to particles being trapped in local minima during the score-driven simulated annealing of the diffusion process, similar to the physical process of force-driven simulated annealing. We develop a solution, the grand canonical diffusion model, which adopts an alternative voxel-based representation with continuous rather than fixed number of particles. The method is applied towards generation of several common crystalline phases as well as the technologically important and challenging problem of grain boundary structures.
翻訳日:2024-08-29 16:53:03 公開日:2024-08-28
# フレームとイベントに基づく知覚における視覚的安定化の利点について

On the Benefits of Visual Stabilization for Frame- and Event-based Perception ( http://arxiv.org/abs/2408.15602v1 )

ライセンス: Link先を確認
Juan Pablo Rodriguez-Gomez, Jose Ramiro Martinez-de Dios, Anibal Ollero, Guillermo Gallego, (参考訳) 視覚に基づく知覚システムは、通常、異なるロボットアプリケーションにおいて大きな向きの変化にさらされる。 このような条件下では、その性能は、挑戦的な動作下でキャプチャされたデータ処理の本質的に複雑なため、損なわれる可能性がある。 ロボットペイロードの制約により、カメラ回転を補うための機械的安定化器の統合は必ずしも不可能である。 本稿では,イベントとフレーム(画像)の両方において,カメラの回転運動を補償する処理ベースの安定化手法を提案する。 カメラの姿勢が利用できると仮定すると、特徴追跡と、カメラのエゴモーションの翻訳成分を推定する2つの認識応用において、安定化の利点を評価する。 バリデーションは、よく知られたイベントベースの視覚データセットの合成データとシーケンスを使用して実行される。 実験では、安定化により、それぞれ27.37%と34.82%で、特徴追跡とカメラの自走推定精度が向上することを示した。 同時に、安定化により、カメラの線形速度を計算する処理時間を少なくとも25%削減することができる。 コードはhttps://github.com/tub-rip/visual_stabilizationで入手できる。

Vision-based perception systems are typically exposed to large orientation changes in different robot applications. In such conditions, their performance might be compromised due to the inherent complexity of processing data captured under challenging motion. Integration of mechanical stabilizers to compensate for the camera rotation is not always possible due to the robot payload constraints. This paper presents a processing-based stabilization approach to compensate the camera's rotational motion both on events and on frames (i.e., images). Assuming that the camera's attitude is available, we evaluate the benefits of stabilization in two perception applications: feature tracking and estimating the translation component of the camera's ego-motion. The validation is performed using synthetic data and sequences from well-known event-based vision datasets. The experiments unveil that stabilization can improve feature tracking and camera ego-motion estimation accuracy in 27.37% and 34.82%, respectively. Concurrently, stabilization can reduce the processing time of computing the camera's linear velocity by at least 25%. Code is available at https://github.com/tub-rip/visual_stabilization
翻訳日:2024-08-29 16:53:03 公開日:2024-08-28
# ES-PTAM:イベントベースのステレオ並列追跡とマッピング

ES-PTAM: Event-based Stereo Parallel Tracking and Mapping ( http://arxiv.org/abs/2408.15605v1 )

ライセンス: Link先を確認
Suman Ghosh, Valentina Cavinato, Guillermo Gallego, (参考訳) 視覚オドメトリー(VO)とSLAMは,移動ロボットにおける空間知覚の基本要素である。 この分野の進歩にもかかわらず、現在のVO/SLAMシステムはセンサーの能力によって制限されている。 イベントカメラは、標準的なカメラの限界を克服する利点を提供する新しい視覚センサーであり、ロボットは、高速モーションや高ダイナミックレンジ照明のような挑戦的なシナリオに、その操作範囲を拡大することができる。 本稿では,線密度融合を最大化して深度を推定する対応のないマッピングモジュールと,エッジマップアライメントを最大化してカメラのポーズを推定するトラッキングモジュールの2つのアイデアを組み合わせることで,イベントベースのステレオVOシステムを提案する。 このシステムは、さまざまなカメラタイプ(メーカーや空間解像度)とシナリオ(運転、飛行ドローン、ハンドヘルド、エゴセントリックなど)にまたがる、現実世界の5つのデータセットを総合的に評価する。 定量的および定性的な結果から,本手法はテストシーケンスの大部分において,RPGデータセットでは45%,DSECデータセットでは61%,TUM-VIEデータセットでは21%のトラジェクティブエラー削減率で,最先端の手法よりも優れていることが示された。 コミュニティの利益とイベントベースの知覚システムの研究を促進するために、ソースコードと結果を公開した。

Visual Odometry (VO) and SLAM are fundamental components for spatial perception in mobile robots. Despite enormous progress in the field, current VO/SLAM systems are limited by their sensors' capability. Event cameras are novel visual sensors that offer advantages to overcome the limitations of standard cameras, enabling robots to expand their operating range to challenging scenarios, such as high-speed motion and high dynamic range illumination. We propose a novel event-based stereo VO system by combining two ideas: a correspondence-free mapping module that estimates depth by maximizing ray density fusion and a tracking module that estimates camera poses by maximizing edge-map alignment. We evaluate the system comprehensively on five real-world datasets, spanning a variety of camera types (manufacturers and spatial resolutions) and scenarios (driving, flying drone, hand-held, egocentric, etc). The quantitative and qualitative results demonstrate that our method outperforms the state of the art in majority of the test sequences by a margin, e.g., trajectory error reduction of 45% on RPG dataset, 61% on DSEC dataset, and 21% on TUM-VIE dataset. To benefit the community and foster research on event-based perception systems, we release the source code and results: https://github.com/tub-rip/ES-PTAM
翻訳日:2024-08-29 16:53:03 公開日:2024-08-28
# 室内シーン再構築のための幾何学誘導型特徴学習と融合

Geometry-guided Feature Learning and Fusion for Indoor Scene Reconstruction ( http://arxiv.org/abs/2408.15608v1 )

ライセンス: Link先を確認
Ruihong Yin, Sezer Karaoglu, Theo Gevers, (参考訳) 色とテクスチャ情報に加えて、幾何学は3Dシーンの再構築に重要な手がかりを提供する。 しかし、現在の再構成手法では特徴レベルの幾何学しか含まないため、幾何学的情報を完全に活用できない。 対照的に,本研究では3次元シーン再構成のための新しい幾何学的統合機構を提案する。 提案手法は,特徴学習,特徴融合,ネットワーク監視という3段階の3次元幾何学を取り入れている。 まず、幾何学誘導型特徴学習は、ビュー依存情報を含むよう、幾何学的先行情報を符号化する。 第2に、幾何的先行値を利用して複数のビューに対する重みを適応的に生成する幾何誘導適応型特徴融合を導入する。 第三に、監督レベルでは、2D正規項と3D正規項の整合性を考慮すると、一貫した3D正規項損失は局所的な制約を加えるように設計されている。 ScanNetデータセットを用いて大規模実験を行い、我々の幾何積分機構による体積法は、定量的にも定性的にも定量的にも優れていることを示した。 また,本手法は,7シーンとTUM RGB-Dデータセットに対して良好な一般化を示した。

In addition to color and textural information, geometry provides important cues for 3D scene reconstruction. However, current reconstruction methods only include geometry at the feature level thus not fully exploiting the geometric information. In contrast, this paper proposes a novel geometry integration mechanism for 3D scene reconstruction. Our approach incorporates 3D geometry at three levels, i.e. feature learning, feature fusion, and network supervision. First, geometry-guided feature learning encodes geometric priors to contain view-dependent information. Second, a geometry-guided adaptive feature fusion is introduced which utilizes the geometric priors as a guidance to adaptively generate weights for multiple views. Third, at the supervision level, taking the consistency between 2D and 3D normals into account, a consistent 3D normal loss is designed to add local constraints. Large-scale experiments are conducted on the ScanNet dataset, showing that volumetric methods with our geometry integration mechanism outperform state-of-the-art methods quantitatively as well as qualitatively. Volumetric methods with ours also show good generalization on the 7-Scenes and TUM RGB-D datasets.
翻訳日:2024-08-29 16:53:03 公開日:2024-08-28
# ビジネス中心ネットワークにおける統計的QoS規定

Statistical QoS Provision in Business-Centric Networks ( http://arxiv.org/abs/2408.15609v1 )

ライセンス: Link先を確認
Chang Wu, Yuang Chen, Hancheng Lu, (参考訳) より洗練された資源管理とQoS(Quality of Service)のプロビジョニングは、無線通信技術の重要な目標である。 本稿では,アプリケーション,トランスポートパラメータ,チャネル間の関係をキャプチャするクロスレイヤフレームワークをベースとして,スケーラブルなQoSプロビジョニングを実現するための新しいBusiness-Centric Network(BCN)を提案する。 連続フローモデルとイベント駆動フローモデルの両方を調査し,スループットや遅延,信頼性といった重要なQoS指標を提示する。 電力と帯域幅の割り当て、伝送パラメータ、APネットワークの層間トポロジを共同で検討することにより、統計的QoSプロビジョニングによる重み付け資源効率を最適化する。 パラメータ間の結合に対処するために,経験共有を伴う異種アクター間の協調最適化である新しい深層強化学習(DRL)フレームワークを提案する。 複数のAPを表すパワーとサブチャネル(SC)アクターは、共通の批評家の統一的な指導の下で共同で最適化される。 さらに、トレーニングを加速し、報酬を高めるために、新しいマルチスレッド体験共有機構を導入する。 総合的な比較実験により,我々のDRLフレームワークの有効性を収束と効率の観点から検証した。 さらに、比較分析は、スペクトルとエネルギー効率の両面において、BCN構造の包括的な利点を示す。

More refined resource management and Quality of Service (QoS) provisioning is a critical goal of wireless communication technologies. In this paper, we propose a novel Business-Centric Network (BCN) aimed at enabling scalable QoS provisioning, based on a cross-layer framework that captures the relationship between application, transport parameters, and channels. We investigate both continuous flow and event-driven flow models, presenting key QoS metrics such as throughput, delay, and reliability. By jointly considering power and bandwidth allocation, transmission parameters, and AP network topology across layers, we optimize weighted resource efficiency with statistical QoS provisioning. To address the coupling among parameters, we propose a novel deep reinforcement learning (DRL) framework, which is Collaborative Optimization among Heterogeneous Actors with Experience Sharing (COHA-ES). Power and sub-channel (SC) Actors representing multiple APs are jointly optimized under the unified guidance of a common critic. Additionally, we introduce a novel multithreaded experience-sharing mechanism to accelerate training and enhance rewards. Extensive comparative experiments validate the effectiveness of our DRL framework in terms of convergence and efficiency. Moreover, comparative analyses demonstrate the comprehensive advantages of the BCN structure in enhancing both spectral and energy efficiency.
翻訳日:2024-08-29 16:53:03 公開日:2024-08-28
# Levenshteinを超えて:ロバストな単語誤り率計算と粒度誤り分類のための複数のアルゴリズムを活用する

Beyond Levenshtein: Leveraging Multiple Algorithms for Robust Word Error Rate Computations And Granular Error Classifications ( http://arxiv.org/abs/2408.15616v1 )

ライセンス: Link先を確認
Korbinian Kuhn, Verena Kersken, Gottfried Zimmermann, (参考訳) ワード誤り率(Word Error Rate、WER)は、自動音声認識(ASR)の精度の一般的な尺度である。 トランスクリプトは通常、非セマンティックな違いを説明するために特定の文字を置換することで前処理される。 この正規化の結果、句読点の精度や資本化の精度に関する情報が失われる。 拡張されたLevenshtein距離アルゴリズムを用いて、ロバストなWERと追加の正書法メトリクスを計算する非破壊的トークンベースアプローチを提案する。 転写誤りは、既存の文字列類似性や音声アルゴリズムによってより細かく分類される。 いくつかのデータセットに対する評価は、一般的なWER計算と比較して、我々のアプローチの実用的等価性を示している。 我々はまた、句読点誤り率などの派生したユースケースの例分析や、実装のインタラクティブな使用と可視化のためのWebアプリケーションも提供する。 コードはオープンソースで公開されている。

The Word Error Rate (WER) is the common measure of accuracy for Automatic Speech Recognition (ASR). Transcripts are usually pre-processed by substituting specific characters to account for non-semantic differences. As a result of this normalisation, information on the accuracy of punctuation or capitalisation is lost. We present a non-destructive, token-based approach using an extended Levenshtein distance algorithm to compute a robust WER and additional orthographic metrics. Transcription errors are also classified more granularly by existing string similarity and phonetic algorithms. An evaluation on several datasets demonstrates the practical equivalence of our approach compared to common WER computations. We also provide an exemplary analysis of derived use cases, such as a punctuation error rate, and a web application for interactive use and visualisation of our implementation. The code is available open-source.
翻訳日:2024-08-29 16:53:03 公開日:2024-08-28
# 多グラフ帰納的表現学習を用いた都市鉄道における大規模需要予測

Large-Scale Demand Prediction in Urban Rail using Multi-Graph Inductive Representation Learning ( http://arxiv.org/abs/2408.15619v1 )

ライセンス: Link先を確認
Dang Viet Anh Nguyen, J. Victor Flensburg, Fabrizio Cerreto, Bianca Pascariu, Paola Pellegrini, Carlos Lima Azevedo, Filipe Rodrigues, (参考訳) 都市の拡大に伴い、URT(Urban Rail Transit)ネットワークも大幅に成長した。 需要予測は、計画、スケジューリング、艦隊管理、その他の運用上の決定を支援する上で重要な役割を果たす。 本研究では,大規模URTネットワークを対象としたMulti-Graph Inductive Representation Learning(mGraphSAGE)と呼ばれるOrigin-Destination (OD)需要予測モデルを提案する。 各ODペアはグラフ上のノードであり,時間的および空間的相関関係などの異なるOD関係を持つ。我々は,列車遅延やキャンセルなどの運用上の不確実性を日常業務の需要予測の入力として含めることの重要性を示す。 このモデルはデンマークのコペンハーゲンにあるURTネットワークの3つの異なるスケールで検証されている。 実験の結果,mGraphSAGEは大規模URTネットワークにおけるOD需要予測に特に適しており,参照機械学習手法よりも優れていることがわかった。 さらに、列車のキャンセルや遅延の期間において、mGraphSAGEと他の手法のパフォーマンスギャップは通常の運転条件と比較して改善され、システム信頼性情報を利用して不確実性の下でOD需要を予測する能力が実証された。

With the expansion of cities over time, URT (Urban Rail Transit) networks have also grown significantly. Demand prediction plays an important role in supporting planning, scheduling, fleet management, and other operational decisions. In this study, we propose an Origin-Destination (OD) demand prediction model called Multi-Graph Inductive Representation Learning (mGraphSAGE) for large-scale URT networks under operational uncertainties. Our main contributions are twofold: we enhance prediction results while ensuring scalability for large networks by relying simultaneously on multiple graphs, where each OD pair is a node on a graph and distinct OD relationships, such as temporal and spatial correlations; we show the importance of including operational uncertainties such as train delays and cancellations as inputs in demand prediction for daily operations. The model is validated on three different scales of the URT network in Copenhagen, Denmark. Experimental results show that by leveraging information from neighboring ODs and learning node representations via sampling and aggregation, mGraphSAGE is particularly suitable for OD demand prediction in large-scale URT networks, outperforming reference machine learning methods. Furthermore, during periods with train cancellations and delays, the performance gap between mGraphSAGE and other methods improves compared to normal operating conditions, demonstrating its ability to leverage system reliability information for predicting OD demand under uncertainty.
翻訳日:2024-08-29 16:53:03 公開日:2024-08-28
# CAPER:時間的知識グラフと3次関係を用いたキャリア軌道予測の強化

CAPER: Enhancing Career Trajectory Prediction using Temporal Knowledge Graph and Ternary Relationship ( http://arxiv.org/abs/2408.15620v1 )

ライセンス: Link先を確認
Yeon-Chang Lee, JaeHyun Lee, Michiharu Yamashita, Dongwon Lee, Sang-Wook Kim, (参考訳) キャリア軌道予測(CTP)の問題は、将来の雇用主や職位を予測することを目的としている。 この問題に対していくつかのCTP手法が開発されているが、(1)キャリアの3つのキーユニット(すなわち、ユーザ、位置、会社)間の相互三元的依存関係を共同で検討することはなく、(2)キャリアにおけるキーユニットの特徴的変化を捉え、労働市場におけるジョブムーブメントのパターンを不正確な理解へと導くことを示唆している。 上記の課題に対処するため,洗練された時間的知識グラフ(TKG)モデリングを用いて課題を解決する新しいソリューションであるCAPERを提案する。 グラフ構造化知識ベースを豊かな表現力で活用し、仕事の動きパターンの変化を効果的に保存する。 さらに、現実的な評価のために、TKGに外挿されたキャリア推論タスクを考案する。 実世界のキャリア・トラジェクトリ・データセットの実験では、CAPERは4つのベースライン、最近の2つのTKG推論手法、そして将来の企業を予測するための最先端のCTP手法、すなわち、平均して6.80%と34.58%の精度で予測できることを示す。

The problem of career trajectory prediction (CTP) aims to predict one's future employer or job position. While several CTP methods have been developed for this problem, we posit that none of these methods (1) jointly considers the mutual ternary dependency between three key units (i.e., user, position, and company) of a career and (2) captures the characteristic shifts of key units in career over time, leading to an inaccurate understanding of the job movement patterns in the labor market. To address the above challenges, we propose a novel solution, named as CAPER, that solves the challenges via sophisticated temporal knowledge graph (TKG) modeling. It enables the utilization of a graph-structured knowledge base with rich expressiveness, effectively preserving the changes in job movement patterns. Furthermore, we devise an extrapolated career reasoning task on TKG for a realistic evaluation. The experiments on a real-world career trajectory dataset demonstrate that CAPER consistently and significantly outperforms four baselines, two recent TKG reasoning methods, and five state-of-the-art CTP methods in predicting one's future companies and positions-i.e., on average, yielding 6.80% and 34.58% more accurate predictions, respectively.
翻訳日:2024-08-29 16:53:03 公開日:2024-08-28
# 一般フェデレーション学習のための収束型微分プライバシー分析:f-DPの視点から

Convergent Differential Privacy Analysis for General Federated Learning: the f-DP Perspective ( http://arxiv.org/abs/2408.15621v1 )

ライセンス: Link先を確認
Yan Sun, Li Shen, Dacheng Tao, (参考訳) フェデレーテッド・ラーニング(Federated Learning, FL)は、局所的なプライバシー保護に焦点を当てた効率的な協調訓練パラダイムであり、差分プライバシー(DP)は、局所的なプライバシーの信頼性を捕捉し確実にするための古典的なアプローチである。 FLとDPの強力な協力により、大規模プライベートクライアントのための有望な学習フレームワークが提供され、プライバシ保護と信頼できる学習の両方をジャグリングする。 DPの主要なアルゴリズムとして、ノイズの多い摂動は様々な連邦化アルゴリズムに広く研究され、理論的には重要なプライバシー保護を提供することが証明されている。 しかし、ノイズの多いFL-DPの既存の分析は、主に合成定理に依存しており、少数の通信ラウンドでほぼ厳密なプライバシー漏洩の問題を厳格に定量化することはできない。 これは、FLが長期トレーニング中に適切なプライバシー保護を提供していないことを示唆する直感的な判断である。 本稿では,FL-DPフレームワークの収束したプライバシと信頼性について,F-DP解析,すなわちNoisy-FedAvg法とNoisy-FedProx法に基づいて,非凸および滑らかな目的の下での2つの古典的手法の最悪のプライバシを包括的に評価する。 シフト補間手法の助けを借りて、ノイズ-FedAvg法の最悪のプライバシーが強収束下界を達成することを証明した。 さらに、Noisy-FedProxメソッドでは、プロキシ項の正規化により、最悪のプライバシは安定して低いバウンドを持つ。 我々の分析は、FL-DPにおけるプライバシー保護の信頼性に関する確かな理論的基盤を提供する。 一方、我々の結論は、他の古典DP分析フレームワーク、例えば、g $(\epsilon,\delta)$-DPとR$\acute{\text{e}}$nyi-DP(RDP)に損失なく変換できる。

Federated learning (FL) is an efficient collaborative training paradigm extensively developed with a focus on local privacy protection, and differential privacy (DP) is a classical approach to capture and ensure the reliability of local privacy. The powerful cooperation of FL and DP provides a promising learning framework for large-scale private clients, juggling both privacy securing and trustworthy learning. As the predominant algorithm of DP, the noisy perturbation has been widely studied and incorporated into various federated algorithms, theoretically proven to offer significant privacy protections. However, existing analyses in noisy FL-DP mostly rely on the composition theorem and cannot tightly quantify the privacy leakage challenges, which is nearly tight for small numbers of communication rounds but yields an arbitrarily loose and divergent bound under the large communication rounds. This implies a counterintuitive judgment, suggesting that FL may not provide adequate privacy protection during long-term training. To further investigate the convergent privacy and reliability of the FL-DP framework, in this paper, we comprehensively evaluate the worst privacy of two classical methods under the non-convex and smooth objectives based on the f-DP analysis, i.e. Noisy-FedAvg and Noisy-FedProx methods. With the aid of the shifted-interpolation technique, we successfully prove that the worst privacy of the Noisy-FedAvg method achieves a tight convergent lower bound. Moreover, in the Noisy-FedProx method, with the regularization of the proxy term, the worst privacy has a stable constant lower bound. Our analysis further provides a solid theoretical foundation for the reliability of privacy protection in FL-DP. Meanwhile, our conclusions can also be losslessly converted to other classical DP analytical frameworks, e.g. $(\epsilon,\delta)$-DP and R$\acute{\text{e}}$nyi-DP (RDP).
翻訳日:2024-08-29 16:53:03 公開日:2024-08-28
# CBF-LLM:LLMアライメントの安全制御

CBF-LLM: Safe Control for LLM Alignment ( http://arxiv.org/abs/2408.15625v1 )

ライセンス: Link先を確認
Yuya Miyaoka, Masaki Inoue, (参考訳) 本稿では,制御バリア関数(CBF)を活用してユーザ希望のテキスト生成を実現することで,大規模言語モデル(LLM)の整合性を確保するための制御ベースフレームワークを提案する。 提案したフレームワークは、CBFに基づいて設計された安全フィルタをベースラインLCMの出力生成、すなわちトークンのシーケンスに適用し、生成されたテキストに介入する。 テキスト生成システムはLlama 3とRoBERTaモデルで実装されており、ソースコードはhttps://github.com/Mya-Mya/CBF-LLMで公開されている。 この実験は、ユーザ特定アライメントタスクに必要な介入回数を減らすための制御能力と有効性を示す。

This paper proposes a control-based framework for aligning large language models (LLMs) by leveraging a control barrier function (CBF) to ensure user-desirable text generation. The presented framework applies the safety filter, designed based on the CBF, to the output generation of the baseline LLM, i.e., the sequence of the token, with the aim of intervening in the generated text. The overall text-generation system is implemented with Llama 3 and a RoBERTa model, and the source code is available at https://github.com/Mya-Mya/CBF-LLM. The experiment demonstrates its control ability and effectiveness in reducing the number of interventions needed for user-specified alignment tasks.
翻訳日:2024-08-29 16:53:03 公開日:2024-08-28
# 視覚言語モデルはOCRに基づく視覚質問応答パイプラインを生産中に置き換えることができるか : 小売業における事例研究

Can Visual Language Models Replace OCR-Based Visual Question Answering Pipelines in Production? A Case Study in Retail ( http://arxiv.org/abs/2408.15626v1 )

ライセンス: Link先を確認
Bianca Lamm, Janis Keuper, (参考訳) Visual Question Answering (VQA)タスクのほとんどのプロダクションレベルのデプロイメントは、画像前処理、オブジェクトとテキストの検出、光学文字認識(OCR)、および(主に教師付き)オブジェクト分類を含む独立したステップの処理パイプラインとして構築されている。 しかしながら、ビジョンファウンデーションモデル [25] とビジョン言語モデル (VLM) [23] の最近の進歩は、これらのカスタムトレーニングされたマルチステップアプローチが、事前訓練されたシングルステップのVLMに置き換えられるかどうかという問題を提起している。 本稿では,VQA および OCR [5, 9, 12] タスクにおける実運用シナリオにおける各種 VLM の性能と限界を解析する。 本研究では,Retail-786k [10]データセットから得られたデータを用いて,事前学習したVLMを用いて,画像中の広告商品に関する詳細な質問に答える能力について検討する。 本研究は, GPT-4V [16] と GPT-4o [17] の2つの商用モデルと, InternVL [5], LLaVA 1.5 [12], LLaVA-NeXT [13], CogAgent [9] の4つのオープンソースモデルを含む。 最初の結果は、一般的にオープンソースモデルと商用モデルの間に大きなパフォーマンスギャップがないことを示している。 製品ブランドや価格に関する疑問に高い精度で答えることができるが、特定の製品名や割引を正しく識別するためには、同時に完全に失敗する。 このことは、より抽象的な割引の概念をモデル化するために、細粒度分類タスクを解くVLMの問題を示している。

Most production-level deployments for Visual Question Answering (VQA) tasks are still build as processing pipelines of independent steps including image pre-processing, object- and text detection, Optical Character Recognition (OCR) and (mostly supervised) object classification. However, the recent advances in vision Foundation Models [25] and Vision Language Models (VLMs) [23] raise the question if these custom trained, multi-step approaches can be replaced with pre-trained, single-step VLMs. This paper analyzes the performance and limits of various VLMs in the context of VQA and OCR [5, 9, 12] tasks in a production-level scenario. Using data from the Retail-786k [10] dataset, we investigate the capabilities of pre-trained VLMs to answer detailed questions about advertised products in images. Our study includes two commercial models, GPT-4V [16] and GPT-4o [17], as well as four open-source models: InternVL [5], LLaVA 1.5 [12], LLaVA-NeXT [13], and CogAgent [9]. Our initial results show, that there is in general no big performance gap between open-source and commercial models. However, we observe a strong task dependent variance in VLM performance: while most models are able to answer questions regarding the product brand and price with high accuracy, they completely fail at the same time to correctly identity the specific product name or discount. This indicates the problem of VLMs to solve fine-grained classification tasks as well to model the more abstract concept of discounts.
翻訳日:2024-08-29 16:53:03 公開日:2024-08-28
# CSAD: 論理異常検出のための教師なしコンポーネントセグメンテーション

CSAD: Unsupervised Component Segmentation for Logical Anomaly Detection ( http://arxiv.org/abs/2408.15628v1 )

ライセンス: Link先を確認
Yu-Hsuan Hsieh, Shang-Hong Lai, (参考訳) 論理的異常検出を改善するために,従来の異常検出手法とセグメンテーション技術を統合した先行研究がある。 これらの手法は有効であるが、しばしば不満足なセグメンテーション結果をもたらし、手動のアノテーションを必要とする。 これらの欠点に対処するために、基礎モデルを利用した教師なしコンポーネントセグメンテーション手法を開発し、人間のラベルを使わずに軽量セグメンテーションネットワークのためのトレーニングラベルを自律的に生成する。 今回提案したPatch HistogramモジュールとLGSTモジュールを統合し,従来のSOTA法を超越したMVTec LOCO ADデータセットで95.3%のAUROCを検出する。 さらに,提案手法は既存の手法よりもレイテンシが低く,スループットも高い。

To improve logical anomaly detection, some previous works have integrated segmentation techniques with conventional anomaly detection methods. Although these methods are effective, they frequently lead to unsatisfactory segmentation results and require manual annotations. To address these drawbacks, we develop an unsupervised component segmentation technique that leverages foundation models to autonomously generate training labels for a lightweight segmentation network without human labeling. Integrating this new segmentation technique with our proposed Patch Histogram module and the Local-Global Student-Teacher (LGST) module, we achieve a detection AUROC of 95.3% in the MVTec LOCO AD dataset, which surpasses previous SOTA methods. Furthermore, our proposed method provides lower latency and higher throughput than most existing approaches.
翻訳日:2024-08-29 16:43:13 公開日:2024-08-28
# CodeSift: 自動コード検証のためのLLMベースの参照レスフレームワーク

CodeSift: An LLM-Based Reference-Less Framework for Automatic Code Validation ( http://arxiv.org/abs/2408.15630v1 )

ライセンス: Link先を確認
Pooja Aggarwal, Oishik Chatterjee, Ting Dai, Prateeti Mohapatra, Brent Paulovicks, Brad Blancett, Arthur De Magalhaes, (参考訳) 大規模言語モデル(LLM)の出現は、コード生成を大いに促進してきたが、生成されたコードの機能的正しさを保証することは、依然として課題である。 従来の検証方法は、多くの場合、大量のコードに対して時間がかかり、エラーが発生し、実用的ではない。 私たちは、コード検証のファーストラインフィルタとしてLLMを利用する新しいフレームワークであるCodeSiftを紹介します。 2つのプログラミング言語を含む3つの多様なデータセットにまたがる手法の有効性を評価する。 以上の結果から,CodeSiftは最先端のコード評価手法よりも優れていたことが示唆された。 課題の専門家による内部テストでは、CodeSiftが生成したアウトプットが人間の好みと一致しており、信頼性の高い自動コード検証ツールとしての有効性を強化していることが明らかになった。

The advent of large language models (LLMs) has greatly facilitated code generation, but ensuring the functional correctness of generated code remains a challenge. Traditional validation methods are often time-consuming, error-prone, and impractical for large volumes of code. We introduce CodeSift, a novel framework that leverages LLMs as the first-line filter of code validation without the need for execution, reference code, or human feedback, thereby reducing the validation effort. We assess the effectiveness of our method across three diverse datasets encompassing two programming languages. Our results indicate that CodeSift outperforms state-of-the-art code evaluation methods. Internal testing conducted with subject matter experts reveals that the output generated by CodeSift is in line with human preference, reinforcing its effectiveness as a dependable automated code validation tool.
翻訳日:2024-08-29 16:43:13 公開日:2024-08-28
# SERLによる軽量二足歩行ロボットの構造最適化

Structural Optimization of Lightweight Bipedal Robot via SERL ( http://arxiv.org/abs/2408.15632v1 )

ライセンス: Link先を確認
Yi Cheng, Chenxi Han, Yuheng Min, Linqi Ye, Houde Liu, Hang Liu, (参考訳) 二足歩行ロボットの設計は複雑で困難な作業であり、特に多数の構造的パラメータを扱う場合である。 伝統的なデザイン手法は人間の直感や経験に依存していることが多い。 しかし、そのようなアプローチは時間がかかり、労働集約的であり、理論的なガイダンスがなく、広大な設計空間において最適な設計結果を得るのが難しいため、ロボット固有の性能能力を十分に活用することができない。 そこで本研究では,移動課題の強化学習と進化アルゴリズムを組み合わせたSERL(Structure Evolution Reinforcement Learning)アルゴリズムを提案する。 目的は、与えられた多次元設計空間内で最適なパラメータの組み合わせを特定することである。 SERLアルゴリズムを用いてWow Orinという二足歩行ロボットの設計に成功した。 本研究では,SERLアルゴリズムの有効性を実験的に検証した。 さらに、設計したロボットと現在の最先端ロボットのパフォーマンスギャップを評価するために、Wow Orinとメインストリームの2足歩行ロボットCassieとUnitree H1を比較した。 Wow Orinのエネルギー効率と性能を実証し、SERLアルゴリズムを実用設計に適用する可能性をさらに検証した。

Designing a bipedal robot is a complex and challenging task, especially when dealing with a multitude of structural parameters. Traditional design methods often rely on human intuition and experience. However, such approaches are time-consuming, labor-intensive, lack theoretical guidance and hard to obtain optimal design results within vast design spaces, thus failing to full exploit the inherent performance potential of robots. In this context, this paper introduces the SERL (Structure Evolution Reinforcement Learning) algorithm, which combines reinforcement learning for locomotion tasks with evolution algorithms. The aim is to identify the optimal parameter combinations within a given multidimensional design space. Through the SERL algorithm, we successfully designed a bipedal robot named Wow Orin, where the optimal leg length are obtained through optimization based on body structure and motor torque. We have experimentally validated the effectiveness of the SERL algorithm, which is capable of optimizing the best structure within specified design space and task conditions. Additionally, to assess the performance gap between our designed robot and the current state-of-the-art robots, we compared Wow Orin with mainstream bipedal robots Cassie and Unitree H1. A series of experimental results demonstrate the Outstanding energy efficiency and performance of Wow Orin, further validating the feasibility of applying the SERL algorithm to practical design.
翻訳日:2024-08-29 16:43:13 公開日:2024-08-28
# 1-DOFヘリコプタシステムにおけるモデル予測制御と近似ポリシ最適化の比較

Comparison of Model Predictive Control and Proximal Policy Optimization for a 1-DOF Helicopter System ( http://arxiv.org/abs/2408.15633v1 )

ライセンス: Link先を確認
Georg Schäfer, Jakob Rehrl, Stefan Huber, Simon Hirlaender, (参考訳) 本研究では, 1-Degree of Freedom (DOF) Quanser Aero 2システムに適用した, モデル予測制御(MPC)とPPO(Deep Reinforcement Learning, DRL)アルゴリズムの比較分析を行った。 MPCやLQR(Linear Quadratic Regulator)のような古典的な制御技術は理論的基礎と実用性から広く用いられている。 しかし、計算技術や機械学習の進歩により、PPOのようなDRLアプローチは環境相互作用による最適制御問題の解法に拍車をかけた。 本稿では,PPOとMPCの動的応答特性を系統的に評価し,その性能,計算資源消費,実装の複雑さを比較した。 実験の結果、LQRは最高の定常精度を達成するが、PPOは立ち上がり時間と適応性に優れており、迅速な応答と適応性を必要とするアプリケーションには有望なアプローチであることがわかった。 さらに,本試験場における今後のRL関連研究のベースラインを構築した。 また,各制御戦略の長所と短所についても論じ,現実のシナリオに対して適切なコントローラを選択するための推奨事項を提供する。

This study conducts a comparative analysis of Model Predictive Control (MPC) and Proximal Policy Optimization (PPO), a Deep Reinforcement Learning (DRL) algorithm, applied to a 1-Degree of Freedom (DOF) Quanser Aero 2 system. Classical control techniques such as MPC and Linear Quadratic Regulator (LQR) are widely used due to their theoretical foundation and practical effectiveness. However, with advancements in computational techniques and machine learning, DRL approaches like PPO have gained traction in solving optimal control problems through environment interaction. This paper systematically evaluates the dynamic response characteristics of PPO and MPC, comparing their performance, computational resource consumption, and implementation complexity. Experimental results show that while LQR achieves the best steady-state accuracy, PPO excels in rise-time and adaptability, making it a promising approach for applications requiring rapid response and adaptability. Additionally, we have established a baseline for future RL-related research on this specific testbed. We also discuss the strengths and limitations of each control strategy, providing recommendations for selecting appropriate controllers for real-world scenarios.
翻訳日:2024-08-29 16:43:13 公開日:2024-08-28
# モノクロ3次元物体検出のためのシミュレーションから実シーンへの移行学習

Transfer Learning from Simulated to Real Scenes for Monocular 3D Object Detection ( http://arxiv.org/abs/2408.15637v1 )

ライセンス: Link先を確認
Sondos Mohamed, Walter Zimmer, Ross Greer, Ahmed Alaaeldin Ghita, Modesto Castrillón-Santana, Mohan Trivedi, Alois Knoll, Salvatore Mario Carta, Mirko Marras, (参考訳) ダイナミックロードサイドシナリオにおけるモノクロ画像からの正確な3Dオブジェクトの検出は、様々なカメラ視点と予測不可能なシーン条件のため、依然として難しい問題である。 本稿では,これらの課題に対処するための2段階のトレーニング戦略を紹介する。 当社のアプローチでは,大規模合成データセットであるRoadSense3Dのモデルをトレーニングしています。 その後、実世界のデータセットの組み合わせでモデルを微調整し、実用条件への適応性を高める。 The Cube R-CNN model on challenge public benchmarks showed a significant improvement in detection performance, a average precision up to 0.26 to 12.76 on the TUM Traffic A9 Highway dataset, and from 2.09 to 6.60 on the DAIR-V2X-I dataset when performed transfer learning。 コード、データ、質的なビデオ結果は、プロジェクトのWebサイト(https://roadsense3d.github.io)で公開されている。

Accurately detecting 3D objects from monocular images in dynamic roadside scenarios remains a challenging problem due to varying camera perspectives and unpredictable scene conditions. This paper introduces a two-stage training strategy to address these challenges. Our approach initially trains a model on the large-scale synthetic dataset, RoadSense3D, which offers a diverse range of scenarios for robust feature learning. Subsequently, we fine-tune the model on a combination of real-world datasets to enhance its adaptability to practical conditions. Experimental results of the Cube R-CNN model on challenging public benchmarks show a remarkable improvement in detection performance, with a mean average precision rising from 0.26 to 12.76 on the TUM Traffic A9 Highway dataset and from 2.09 to 6.60 on the DAIR-V2X-I dataset when performing transfer learning. Code, data, and qualitative video results are available on the project website: https://roadsense3d.github.io.
翻訳日:2024-08-29 16:43:13 公開日:2024-08-28
# GANsコンディショニング手法:サーベイ

GANs Conditioning Methods: A Survey ( http://arxiv.org/abs/2408.15640v1 )

ライセンス: Link先を確認
Anis Bourou, Auguste Genovesio, Valérie Mezger, (参考訳) 近年、GAN(Generative Adversarial Networks)は大きな進歩を遂げ、様々な分野で広く普及している。 オリジナルのGANアーキテクチャでは、コンテンツに対して特定の制御をせずに画像を生成することが可能であり、無条件生成プロセスとなっている。 しかし、多くの実用的な応用では、生成した出力を正確に制御する必要があるため、明示的な条件付けを組み込んだ条件付きGAN(cGAN)が開発され、生成プロセスが導かれるようになった。 cGANは、追加情報(条件)を組み込むことで、元のフレームワークを拡張し、その特定の基準に準拠したサンプルの生成を可能にする。 様々な条件付け手法が提案され、それぞれ、条件付け情報をジェネレータと識別器ネットワークの両方に統合する方法が異なる。 本稿では,GANの条件付け手法を概説し,各手法の特徴を探求し,その特異なメカニズムと理論的基礎を明らかにする。 さらに、これらの手法の比較分析を行い、その性能を様々な画像データセット上で評価する。 これらの分析を通して,様々な条件付け手法の強みと限界についての洞察を提供することを目標とし,生成モデリングにおける今後の研究と応用を導くことを目的とする。

In recent years, Generative Adversarial Networks (GANs) have seen significant advancements, leading to their widespread adoption across various fields. The original GAN architecture enables the generation of images without any specific control over the content, making it an unconditional generation process. However, many practical applications require precise control over the generated output, which has led to the development of conditional GANs (cGANs) that incorporate explicit conditioning to guide the generation process. cGANs extend the original framework by incorporating additional information (conditions), enabling the generation of samples that adhere to that specific criteria. Various conditioning methods have been proposed, each differing in how they integrate the conditioning information into both the generator and the discriminator networks. In this work, we review the conditioning methods proposed for GANs, exploring the characteristics of each method and highlighting their unique mechanisms and theoretical foundations. Furthermore, we conduct a comparative analysis of these methods, evaluating their performance on various image datasets. Through these analyses, we aim to provide insights into the strengths and limitations of various conditioning techniques, guiding future research and application in generative modeling.
翻訳日:2024-08-29 16:43:13 公開日:2024-08-28
# MMDRFuse:マルチモード画像融合のための動的リフレッシュ付き蒸留ミニモデル

MMDRFuse: Distilled Mini-Model with Dynamic Refresh for Multi-Modality Image Fusion ( http://arxiv.org/abs/2408.15641v1 )

ライセンス: Link先を確認
Yanglin Deng, Tianyang Xu, Chunyang Cheng, Xiao-Jun Wu, Josef Kittler, (参考訳) 近年,Multi-Modality Image Fusion (MMIF) が多くの分野に適用され,多くの研究者が融合性能の向上に尽力している。 しかしながら、主流となっているのは、トレーニング戦略ではなく、アーキテクチャ設計に重点を置いていることです。 低レベルの視覚タスクとして、画像融合は、下流タスクの観察とサポートのための出力イメージを迅速に提供することを目的としている。 したがって、過剰な計算とストレージのオーバーヘッドは避けるべきである。 本研究では, この目的を達成するために, 動的リフレッシュ戦略(MMDRFuse)を用いた軽量蒸留ミニモデルを提案する。 モデルパシモニーを追求するために、3つの注意深く設計された監督者によって、訓練可能なパラメータが113 KB(0.44 KB)の非常に小さな畳み込みネットワークが得られた。 第一に、消化可能な蒸留は、外部空間の特徴の整合性を強調し、標的ネットワークに対するバランスの取れた細部と塩分濃度でソフトな監視を提供することによって構築される。 第2に,画像からの画素,勾配,知覚の手がかりのバランスをとるために,包括的損失を開発する。 第3に、履歴パラメータと現在の監視を協調するために革新的な動的リフレッシュトレーニング戦略と、融合ネットワークを最適化するための適応調整関数が使用される。 提案手法は,複数の画像融合タスクや下流歩行者検出アプリケーションにおいて優れた性能を示すとともに,モデル効率と複雑性の観点から有望な優位性を示すことを示す。 この作業のコードはhttps://github.com/yanglinDeng/MMDRFuse.comで公開されている。

In recent years, Multi-Modality Image Fusion (MMIF) has been applied to many fields, which has attracted many scholars to endeavour to improve the fusion performance. However, the prevailing focus has predominantly been on the architecture design, rather than the training strategies. As a low-level vision task, image fusion is supposed to quickly deliver output images for observation and supporting downstream tasks. Thus, superfluous computational and storage overheads should be avoided. In this work, a lightweight Distilled Mini-Model with a Dynamic Refresh strategy (MMDRFuse) is proposed to achieve this objective. To pursue model parsimony, an extremely small convolutional network with a total of 113 trainable parameters (0.44 KB) is obtained by three carefully designed supervisions. First, digestible distillation is constructed by emphasising external spatial feature consistency, delivering soft supervision with balanced details and saliency for the target network. Second, we develop a comprehensive loss to balance the pixel, gradient, and perception clues from the source images. Third, an innovative dynamic refresh training strategy is used to collaborate history parameters and current supervision during training, together with an adaptive adjust function to optimise the fusion network. Extensive experiments on several public datasets demonstrate that our method exhibits promising advantages in terms of model efficiency and complexity, with superior performance in multiple image fusion tasks and downstream pedestrian detection application. The code of this work is publicly available at https://github.com/yanglinDeng/MMDRFuse.
翻訳日:2024-08-29 16:43:13 公開日:2024-08-28
# SARはRSVQAのパフォーマンスを向上できるか?

Can SAR improve RSVQA performance? ( http://arxiv.org/abs/2408.15642v1 )

ライセンス: Link先を確認
Lucrezia Tosato, Sylvain Lobry, Flora Weissgerber, Laurent Wendling, (参考訳) 近年、リモートセンシング視覚質問応答 (RSVQA) がいくつかの研究に関わっており、新しい手法が増加している。 RSVQAは衛星画像から情報を自動的に抽出し、これまでは光学的のみであり、画像内の回答を自動的に検索し、テキスト形式で提供するための質問である。 本研究では,SAR(Synthetic Aperture Radar)画像がこの分野で有用かどうかを検討する。 本研究は,分類法とVQAを含む3つの段階に分けられる。 まず、SARの分類結果のみを探索し、SARデータから情報を抽出する最善の方法を検討する。 次に,SARと光データの組み合わせについて検討する。 最後の段階では、光学画像のみを用いた手法と比較して、SAR画像と異なるモードの組み合わせがRSVQAでどのように振る舞うかを検討する。 SARのモダリティを追加することでパフォーマンスが向上するが、SARデータを使用して質問に自動的に答える研究がさらに必要であり、バランスの取れたデータセットも必要である。

Remote sensing visual question answering (RSVQA) has been involved in several research in recent years, leading to an increase in new methods. RSVQA automatically extracts information from satellite images, so far only optical, and a question to automatically search for the answer in the image and provide it in a textual form. In our research, we study whether Synthetic Aperture Radar (SAR) images can be beneficial to this field. We divide our study into three phases which include classification methods and VQA. In the first one, we explore the classification results of SAR alone and investigate the best method to extract information from SAR data. Then, we study the combination of SAR and optical data. In the last phase, we investigate how SAR images and a combination of different modalities behave in RSVQA compared to a method only using optical images. We conclude that adding the SAR modality leads to improved performances, although further research on using SAR data to automatically answer questions is needed as well as more balanced datasets.
翻訳日:2024-08-29 16:43:13 公開日:2024-08-28
# RIDE:回転不変解析によるLiDAR点雲の3次元物体検出

RIDE: Boosting 3D Object Detection for LiDAR Point Clouds via Rotation-Invariant Analysis ( http://arxiv.org/abs/2408.15643v1 )

ライセンス: Link先を確認
Zhaoxuan Wang, Xu Han, Hongxin Liu, Xianzhi Li, (参考訳) 回転ロバスト性は点雲解析に多くの注目を集めているが、それでも3次元物体検出において重要な課題となっている。 任意の回転を受けると、ほとんどの既存の検出器はローテーションのロバスト性が悪いために出力が期待できない。 本稿では,3次元LiDAR-point-based object DEtector の回転不変性の先駆的探索である RIDE について,LiDAR のシーンから回転不変の機能を設計し,既存の3次元検出器に効果的に組み込むというキーアイデアを述べる。 具体的には、抽出する二機能抽出器を設計する。 一 回転に敏感ながら幾何をよく保存する物体認識機能 (II)幾何的情報をある程度失うが、回転に頑健な回転不変特徴。 これらの2種類の機能は互いに補完し、任意の回転に対して堅牢な3D提案をデコードする。 特に、我々のRIDEは互換性があり、既存の1段と2段の3D検出器に簡単に接続でき、検出性能と回転ロバスト性の両方を高めることができる。 標準ベンチマークにおいて、平均平均精度(mAP)と回転ロバスト性(回転ロバスト性)は、我々のRIDEと統合することにより著しく向上し、KITTIでは+5.6% mAPと53%の回転ロバスト性改善、+5.1%と28%がニューセンで改善されている。 コードはまもなく利用可能になる。

The rotation robustness property has drawn much attention to point cloud analysis, whereas it still poses a critical challenge in 3D object detection. When subjected to arbitrary rotation, most existing detectors fail to produce expected outputs due to the poor rotation robustness. In this paper, we present RIDE, a pioneering exploration of Rotation-Invariance for the 3D LiDAR-point-based object DEtector, with the key idea of designing rotation-invariant features from LiDAR scenes and then effectively incorporating them into existing 3D detectors. Specifically, we design a bi-feature extractor that extracts (i) object-aware features though sensitive to rotation but preserve geometry well, and (ii) rotation-invariant features, which lose geometric information to a certain extent but are robust to rotation. These two kinds of features complement each other to decode 3D proposals that are robust to arbitrary rotations. Particularly, our RIDE is compatible and easy to plug into the existing one-stage and two-stage 3D detectors, and boosts both detection performance and rotation robustness. Extensive experiments on the standard benchmarks showcase that the mean average precision (mAP) and rotation robustness can be significantly boosted by integrating with our RIDE, with +5.6% mAP and 53% rotation robustness improvement on KITTI, +5.1% and 28% improvement correspondingly on nuScenes. The code will be available soon.
翻訳日:2024-08-29 16:43:13 公開日:2024-08-28
# Red Team Redemption: オープンソースツールの構造的比較

Red Team Redemption: A Structured Comparison of Open-Source Tools for Adversary Emulation ( http://arxiv.org/abs/2408.15645v1 )

ライセンス: Link先を確認
Max Landauer, Klaus Mayer, Florian Skopik, Markus Wurzenberger, Manuel Kern, (参考訳) 赤チームは敵をシミュレートし、前もって使用した戦術について知らせることなく、防御者に対する洗練された攻撃を行う。 これらのインタラクティブなサイバー演習は、組織のセキュリティ姿勢を評価し改善し、脆弱性を検出し、従業員を訓練するのに非常に有益である。 残念なことに、それらは時間と費用もかかり、しばしば規模を制限したり、完全に妨げたりする。 この状況に対処するため、敵エミュレーションツールは部分的に攻撃者の動作を自動化し、レッドチーム経験の欠如を伴っても、高速で連続的で反復可能なセキュリティテストを可能にする。 現在、特定のユースケースと要求のために設計された幅広いツールが存在する。 そこで我々は,9つのオープンソース逆エミュレーションツールのレビューと構造比較を行った。 この目的のために,セットアップ,サポート,ドキュメンテーション,ユーザビリティ,技術的特徴など,関連する側面に関する80の質問をまとめたアンケートを作成した。 さらに、ドメインの専門家とユーザスタディを行い、異なるユーザの役割に対するこれらの側面の重要性について調査する。 評価とユーザからのフィードバックに基づいて、ツールをランク付けして、MITRE Caldera、Metasploit、Atomic Red Teamをトップに置いています。

Red teams simulate adversaries and conduct sophisticated attacks against defenders without informing them about used tactics in advance. These interactive cyber exercises are highly beneficial to assess and improve the security posture of organizations, detect vulnerabilities, and train employees. Unfortunately, they are also time-consuming and expensive, which often limits their scale or prevents them entirely. To address this situation, adversary emulation tools partially automate attacker behavior and enable fast, continuous, and repeatable security testing even when involved personnel lacks red teaming experience. Currently, a wide range of tools designed for specific use-cases and requirements exist. To obtain an overview of these solutions, we conduct a review and structured comparison of nine open-source adversary emulation tools. To this end, we assemble a questionnaire with 80 questions addressing relevant aspects, including setup, support, documentation, usability, and technical features. In addition, we conduct a user study with domain experts to investigate the importance of these aspects for distinct user roles. Based on the evaluation and user feedback, we rank the tools and find MITRE Caldera, Metasploit, and Atomic Red Team on top.
翻訳日:2024-08-29 16:43:13 公開日:2024-08-28
# μgat: マルチページコンテキストの提供による単一ページ文書解析の改善

μgat: Improving Single-Page Document Parsing by Providing Multi-Page Context ( http://arxiv.org/abs/2408.15646v1 )

ライセンス: Link先を確認
Fabio Quattrini, Carmine Zaccagnino, Silvia Cascianelli, Laura Righi, Rita Cucchiara, (参考訳) レゲスタは、他の文書の要約のカタログであり、場合によっては、そのような全文文書の内容に関する唯一の情報源である。 そのため、多くの社会・人文科学分野の学者にとっては大きな関心を集めている。 本研究では,教皇登録書の大規模なコレクションであるRegesta Pontificum Romanumに焦点を当てる。 Regestaは視覚的にリッチなドキュメントであり、そのレイアウトは構造を通して含まれた情報を伝達するテキストコンテンツと同じくらい重要であり、本質的には複数ページのドキュメントである。 研究者がスキャンされた文書の形でレゲスタやその他の文書ソースを効率的に活用するのに役立つデジタルヒューマニティ技術の中で、文書解析は文書イメージを処理し、それらを機械可読な構造化表現(通常はマークアップ言語)に変換するタスクとして登場した。 しかし、現在のモデルは科学的およびビジネス上の文書に焦点をあてており、そのほとんどは単ページの文書のみを考慮している。 この制限を克服するため、本稿では、Nugatアーキテクチャを解析するドキュメント解析の拡張である {\mu}gatを提案する。 具体的には、現在のページを解析しながら、前ページと後ページからなるより大きなマルチページコンテキストを処理するように、Nougatに適応する。 定性的かつ定量的な実験結果から,提案手法の有効性が示唆された。

Regesta are catalogs of summaries of other documents and, in some cases, are the only source of information about the content of such full-length documents. For this reason, they are of great interest to scholars in many social and humanities fields. In this work, we focus on Regesta Pontificum Romanum, a large collection of papal registers. Regesta are visually rich documents, where the layout is as important as the text content to convey the contained information through the structure, and are inherently multi-page documents. Among Digital Humanities techniques that can help scholars efficiently exploit regesta and other documental sources in the form of scanned documents, Document Parsing has emerged as a task to process document images and convert them into machine-readable structured representations, usually markup language. However, current models focus on scientific and business documents, and most of them consider only single-paged documents. To overcome this limitation, in this work, we propose {\mu}gat, an extension of the recently proposed Document parsing Nougat architecture, which can handle elements spanning over the single page limits. Specifically, we adapt Nougat to process a larger, multi-page context, consisting of the previous and the following page, while parsing the current page. Experimental results, both qualitative and quantitative, demonstrate the effectiveness of our proposed approach also in the case of the challenging Regesta Pontificum Romanorum.
翻訳日:2024-08-29 16:43:13 公開日:2024-08-28
# 軽度認知障害の鑑別診断における Persistent Homology の活用

Leveraging Persistent Homology for Differential Diagnosis of Mild Cognitive Impairment ( http://arxiv.org/abs/2408.15647v1 )

ライセンス: Link先を確認
Ninad Aithal, Debanjali Bhattacharya, Neelam Sinha, Thomas Gregor Issac, (参考訳) 軽度認知障害(MCI)は、認知機能の微妙な変化が特徴であり、しばしば脳の接続の混乱と関連している。 本研究は、MCI被験者の6つの異なる脳ネットワーク(Early/Late MCI)に関連する神経変性のトポロジカルな変化を調べるための、新しいきめ細かい分析法を提案する。 これを実現するために、2つの異なる集団のfMRI時系列を調査した。 i)パブリックアクセス可能なADNIデータセット及び (ii) 社内データセット。 この研究は、スライディングウィンドウの埋め込みを利用して、各fMRI時系列を3次元ベクトル列に変換することで、局所脳トポロジーの変化を評価する。 次元 0, 1, 2 のベティ記述子に対しては、離散永続図式が計算される。 ワッサーシュタイン距離計量は、位相特性の違いを定量化するために用いられる。 私たちは両方を調べました 一 ROI固有の物体間相互作用及び相互作用 (II)主観的ROI間相互作用。 さらに,新たなディープラーニングモデルが提案され,ADNIデータセットの95%,社内データセットの85%の最大分類精度が達成された。 この手法は、MCIサブタイプの鑑別診断にも適用され、それぞれHC Vs. EMCI、HC Vs. LMCI、EMCI Vs. LMCIの分類におけるピーク精度は76.5%、91.1%、80%となる。 提案手法は,fMRIを用いてMCIとそのサブタイプを分類するための最先端技術を上回ることを示した。

Mild cognitive impairment (MCI) is characterized by subtle changes in cognitive functions, often associated with disruptions in brain connectivity. The present study introduces a novel fine-grained analysis to examine topological alterations in neurodegeneration pertaining to six different brain networks of MCI subjects (Early/Late MCI). To achieve this, fMRI time series from two distinct populations are investigated: (i) the publicly accessible ADNI dataset and (ii) our in-house dataset. The study utilizes sliding window embedding to convert each fMRI time series into a sequence of 3-dimensional vectors, facilitating the assessment of changes in regional brain topology. Distinct persistence diagrams are computed for Betti descriptors of dimension-0, 1, and 2. Wasserstein distance metric is used to quantify differences in topological characteristics. We have examined both (i) ROI-specific inter-subject interactions and (ii) subject-specific inter-ROI interactions. Further, a new deep learning model is proposed for classification, achieving a maximum classification accuracy of 95% for the ADNI dataset and 85% for the in-house dataset. This methodology is further adapted for the differential diagnosis of MCI sub-types, resulting in a peak accuracy of 76.5%, 91.1% and 80% in classifying HC Vs. EMCI, HC Vs. LMCI and EMCI Vs. LMCI, respectively. We showed that the proposed approach surpasses current state-of-the-art techniques designed for classifying MCI and its sub-types using fMRI.
翻訳日:2024-08-29 16:43:13 公開日:2024-08-28
# 知識グラフのための階層的ブロックモデリング

Hierarchical Blockmodelling for Knowledge Graphs ( http://arxiv.org/abs/2408.15649v1 )

ライセンス: Link先を確認
Marcin Pietrasik, Marek Reformat, Anna Wilbik, (参考訳) 本稿では,確率的グラフィカルモデル,特に確率的ブロックモデルを用いて,知識グラフ上の階層的エンティティクラスタリングを実現する。 これらのモデルはセマンティックウェブコミュニティではほとんど使われないが、グラフを確率分布の集合に分解する。 これらの分布のパラメータは推論され、その後のサンプリングでランダムなグラフを生成する。 非パラメトリックな設定では、階層構造に対する事前の制約なしに階層的クラスタリングを誘導することができる。 具体的には、Nested Chinese Restaurant Process と Stick Breaking Process を生成モデルに統合することで実現されている。 本稿では,そのような統合を活用して,その推論のためのギブスサンプリングスキームの崩壊を導出するモデルを提案する。 理解を深めるために,この導出のステップを記述し,サンプル実装を提案する。 我々は、合成および実世界のデータセット上でモデルを評価し、ベンチマークモデルと定量的に比較した。 さらに定性的評価を行い,小規模設定で一貫性クラスタ階層を誘導できることを見出した。 本稿では,より大規模な知識グラフに対する確率的ブロックモデルのさらなる適用に向けた第一歩について述べる。 この論文は、よりスケーラブルな推論スキームに関する今後の研究の道のりについてまとめる。

In this paper, we investigate the use of probabilistic graphical models, specifically stochastic blockmodels, for the purpose of hierarchical entity clustering on knowledge graphs. These models, seldom used in the Semantic Web community, decompose a graph into a set of probability distributions. The parameters of these distributions are then inferred allowing for their subsequent sampling to generate a random graph. In a non-parametric setting, this allows for the induction of hierarchical clusterings without prior constraints on the hierarchy's structure. Specifically, this is achieved by the integration of the Nested Chinese Restaurant Process and the Stick Breaking Process into the generative model. In this regard, we propose a model leveraging such integration and derive a collapsed Gibbs sampling scheme for its inference. To aid in understanding, we describe the steps in this derivation and provide an implementation for the sampler. We evaluate our model on synthetic and real-world datasets and quantitatively compare against benchmark models. We further evaluate our results qualitatively and find that our model is capable of inducing coherent cluster hierarchies in small scale settings. The work presented in this paper provides the first step for the further application of stochastic blockmodels for knowledge graphs on a larger scale. We conclude the paper with potential avenues for future work on more scalable inference schemes.
翻訳日:2024-08-29 16:43:13 公開日:2024-08-28
# テキスト分類設定の整合化のための事前学習言語モデルの本質的知識の調和

Harnessing the Intrinsic Knowledge of Pretrained Language Models for Challenging Text Classification Settings ( http://arxiv.org/abs/2408.15650v1 )

ライセンス: Link先を確認
Lingyu Gao, (参考訳) テキスト分類は感情分析や有毒なテキストフィルタリングといった応用には不可欠であるが、自然言語の複雑さとあいまいさのために依然として課題に直面している。 近年のディープラーニング,特にトランスフォーマーアーキテクチャと大規模事前学習は,NLP分野において大きな成功を収めている。 これらの進歩に基づいて、この論文は、事前学習された言語モデル(PLM)の本質的な知識を活用することによって、テキスト分類における3つの挑戦的な設定を探求する。 まず, PLM の文脈的表現に基づく特徴を利用したモデルを開発し, 人間の精度に匹敵する, あるいは超越する性能を実現する。 第二に、モデル一般化を未確認ラベルに拡張するため、ドメインに依存しないタスクラベル記述による小さな微調整データセットを作成し、モデル性能とロバスト性を改善した。 最後に、実例の誤分類やテスト例ラベルに関するモデルの曖昧さの解消に焦点をあて、効果的な実演を選択することで、大規模言語モデルの文脈内学習プロンプトに対する感受性に取り組む。

Text classification is crucial for applications such as sentiment analysis and toxic text filtering, but it still faces challenges due to the complexity and ambiguity of natural language. Recent advancements in deep learning, particularly transformer architectures and large-scale pretraining, have achieved inspiring success in NLP fields. Building on these advancements, this thesis explores three challenging settings in text classification by leveraging the intrinsic knowledge of pretrained language models (PLMs). Firstly, to address the challenge of selecting misleading yet incorrect distractors for cloze questions, we develop models that utilize features based on contextualized word representations from PLMs, achieving performance that rivals or surpasses human accuracy. Secondly, to enhance model generalization to unseen labels, we create small finetuning datasets with domain-independent task label descriptions, improving model performance and robustness. Lastly, we tackle the sensitivity of large language models to in-context learning prompts by selecting effective demonstrations, focusing on misclassified examples and resolving model ambiguity regarding test example labels.
翻訳日:2024-08-29 16:43:13 公開日:2024-08-28
# 長編ビデオによるオンライン事前トレーニング

Online pre-training with long-form videos ( http://arxiv.org/abs/2408.15651v1 )

ライセンス: Link先を確認
Itsuki Kato, Kodai Kamiya, Toru Tamaki, (参考訳) 本研究では,連続ビデオクリップによるオンライン事前学習の効果について検討する。 本稿では,3つの事前学習手法(マスド画像モデリング,コントラスト学習,知識蒸留)について検討し,下流行動認識タスクの性能評価を行う。 その結果、コントラスト学習によるオンライン事前学習は、下流タスクにおいて最高のパフォーマンスを示した。 以上の結果から,長ビデオからの学習は,短ビデオを用いた行動認識に有用であることが示唆された。

In this study, we investigate the impact of online pre-training with continuous video clips. We will examine three methods for pre-training (masked image modeling, contrastive learning, and knowledge distillation), and assess the performance on downstream action recognition tasks. As a result, online pre-training with contrast learning showed the highest performance in downstream tasks. Our findings suggest that learning from long-form videos can be helpful for action recognition with short videos.
翻訳日:2024-08-29 16:43:13 公開日:2024-08-28
# 複雑ネットワーク上の離散時間量子ウォークの回路実装

Circuit Implementation of Discrete-Time Quantum Walks on Complex Networks ( http://arxiv.org/abs/2408.15653v1 )

ライセンス: Link先を確認
Rei Sato, Kazuhiro Saito, (参考訳) 本稿では,複雑なネットワーク上での量子ウォークを実現する回路設計を提案する。 量子ウォークは、空間探索、コミュニティ検出、ノード分類など、様々なグラフベースのアプリケーションのための強力なツールである。 多くの量子ウォークベースのグラフアルゴリズムが広く研究されているが、これらのアルゴリズムを実装するための特定の量子回路はまだ提供されていない。 この問題に対処するために,複素ネットワーク上での離散時間量子ウォークを実装する回路設計を提案する。 ネットワークモデルとして小型のWatts-and-Strogatzモデルを用いて回路の機能について検討し,理論計算との比較を行った。 この研究は、任意の複雑なネットワーク上で量子ウォークを実装するための量子回路を構築するための新しいアプローチを提供する。

In this paper, we propose a circuit design for implementing quantum walks on complex networks. Quantum walks are powerful tools for various graph-based applications such as spatial search, community detection, and node classification. Although many quantum-walk-based graph algorithms have been extensively studied, specific quantum circuits for implementing these algorithms have not yet been provided. To address this issue, we present a circuit design for implementing the discrete-time quantum walk on complex networks. We investigate the functionality of our circuit using the small-sized Watts-and-Strogatz model as the complex network model, comparing it with theoretical calculations. This work offers a new approach to constructing quantum circuits for implementing quantum walks on arbitrary complex networks.
翻訳日:2024-08-29 16:21:03 公開日:2024-08-28
# 深層学習のためのソフトマックスワープ

Realigned Softmax Warping for Deep Metric Learning ( http://arxiv.org/abs/2408.15656v1 )

ライセンス: Link先を確認
Michael G. DeMoor, John J. Prevost, (参考訳) ディープ・メトリック・ラーニング(DML)の損失関数は、伝統的に、埋め込み空間内の分離性とコンパクト性の力をコントロールすることを目的としており、同じクラスデータポイントをまとめて、異なるクラスを分割する。 DMLの文脈内では、ソフトマックス演算は通常、距離を最適化の確率に正規化し、すべてのプッシュ/プル力を結合する。 本稿では,ユークリッド領域内で動作し,ソフトマックス下での埋め込み空間形成を規定する結合力のフル活用を目的とした,潜在的に新しい損失関数のクラスを提案する。 これらのコンパクト性と分離性の力は、ワープ関数を用いることで、自由に制御された位置で強化または緩和することができる。 本研究では,ワーピング関数の簡単な例を示し,様々なメトリクス学習ベンチマークの競合的かつ最先端な結果を得るために使用する。

Deep Metric Learning (DML) loss functions traditionally aim to control the forces of separability and compactness within an embedding space so that the same class data points are pulled together and different class ones are pushed apart. Within the context of DML, a softmax operation will typically normalize distances into a probability for optimization, thus coupling all the push/pull forces together. This paper proposes a potential new class of loss functions that operate within a euclidean domain and aim to take full advantage of the coupled forces governing embedding space formation under a softmax. These forces of compactness and separability can be boosted or mitigated within controlled locations at will by using a warping function. In this work, we provide a simple example of a warping function and use it to achieve competitive, state-of-the-art results on various metric learning benchmarks.
翻訳日:2024-08-29 16:21:03 公開日:2024-08-28
# TeFF: 追跡強化フォーミングフリーのFew-shot 3D LiDARセマンティックセマンティックセマンティックセグメンテーション

TeFF: Tracking-enhanced Forgetting-free Few-shot 3D LiDAR Semantic Segmentation ( http://arxiv.org/abs/2408.15657v1 )

ライセンス: Link先を確認
Junbao Zhou, Jilin Mei, Pengze Wu, Liang Chen, Fangzhou Zhao, Xijun Zhao, Yu Hu, (参考訳) 自動運転車では、3D LiDARは車両の周囲を理解する上で重要な役割を果たす。 しかし、新たに出現した、注釈のないオブジェクトは、セマンティックセグメンテーションのための数発の学習問題を提示する。 本稿では,LiDARデータの時間的連続性を利用して,現在の数ショットセマンティックセマンティックセマンティクスの限界に対処する。 追跡モデルを用いて、LiDARフレームのシーケンスから擬似地下構造を生成することにより、データセットを大幅に強化し、新しいクラスで学習するモデルの能力を向上する。 しかし、このアプローチでは、新しいデータに偏ったデータ不均衡が生じ、破滅的な忘れ込みという新たな課題が浮かび上がっている。 これを軽減するため,トレーニング可能なパラメータの数を削減し,新しいクラスへの適応性を向上しつつ,ベースクラス上でのモデル性能を保ったLoRAを組み込んだ。 この研究は、自動運転のための数発の3D LiDARセマンティックセマンティックセグメンテーションにおいて、大きな前進を示している。 私たちのコードはhttps://github.com/junbao-zhou/Track-no-forgetting.comで公開されています。

In autonomous driving, 3D LiDAR plays a crucial role in understanding the vehicle's surroundings. However, the newly emerged, unannotated objects presents few-shot learning problem for semantic segmentation. This paper addresses the limitations of current few-shot semantic segmentation by exploiting the temporal continuity of LiDAR data. Employing a tracking model to generate pseudo-ground-truths from a sequence of LiDAR frames, our method significantly augments the dataset, enhancing the model's ability to learn on novel classes. However, this approach introduces a data imbalance biased to novel data that presents a new challenge of catastrophic forgetting. To mitigate this, we incorporate LoRA, a technique that reduces the number of trainable parameters, thereby preserving the model's performance on base classes while improving its adaptability to novel classes. This work represents a significant step forward in few-shot 3D LiDAR semantic segmentation for autonomous driving. Our code is available at https://github.com/junbao-zhou/Track-no-forgetting.
翻訳日:2024-08-29 16:21:03 公開日:2024-08-28
# データサイエンスコード生成のための自己修正大規模言語モデルに関する実証的研究

An Empirical Study on Self-correcting Large Language Models for Data Science Code Generation ( http://arxiv.org/abs/2408.15658v1 )

ライセンス: Link先を確認
Thai Tang Quoc, Duc Ha Minh, Tho Quan Thanh, Anh Nguyen-Duc, (参考訳) 大規模言語モデル(LLM)は最近、ソフトウェアエンジニアリングタスク、特にコード生成の可能性に関する多くのアプリケーションを進歩させた。 現代の課題の中で、LLMが生成したコードは不正確さや幻覚に悩まされ、外部からの入力を正す必要がある。 これらの問題を解決するための最近の戦略の1つは、モデル自体からの入力(自己拡張)を使用してLCMから生成されたコードを洗練することである。 本研究では,CoT-SelfEvolveという新しい手法を提案する。 CoT-SelfEvolveは、現実のプログラミング問題フィードバックから構築された思考の連鎖によって導かれる自己修正プロセスを通じて、反復的かつ自動的にコードを洗練する。 NumPyやPandasといったPythonライブラリを含むデータサイエンスのコードに焦点を合わせると、DS-1000データセットに対する我々の評価は、CoT-SelfEvolveが複雑な問題を解決するために既存のモデルを著しく上回っていることを示している。 このフレームワークは、初期コード生成とその後のイテレーションの両方で大幅に改善され、追加のイテレーションごとにモデルの精度が大幅に向上した。 これは、プログラムエグゼキュータのトレースバックエラーメッセージによって明らかになった複雑さに対処するために、チェーン・オブ・思想を使うことの有効性を強調している。 我々はまた、CoT-SelfEvolveを継続的ソフトウェアエンジニアリング環境に統合し、LCMベースのコード生成を改善するための実用的なソリューションを提供する方法について論じる。

Large Language Models (LLMs) have recently advanced many applications on software engineering tasks, particularly the potential for code generation. Among contemporary challenges, code generated by LLMs often suffers from inaccuracies and hallucinations, requiring external inputs to correct. One recent strategy to fix these issues is to refine the code generated from LLMs using the input from the model itself (self-augmented). In this work, we proposed a novel method, namely CoT-SelfEvolve. CoT-SelfEvolve iteratively and automatically refines code through a self-correcting process, guided by a chain of thought constructed from real-world programming problem feedback. Focusing on data science code, including Python libraries such as NumPy and Pandas, our evaluations on the DS-1000 dataset demonstrate that CoT-SelfEvolve significantly outperforms existing models in solving complex problems. The framework shows substantial improvements in both initial code generation and subsequent iterations, with the model's accuracy increasing significantly with each additional iteration. This highlights the effectiveness of using chain-of-thought prompting to address complexities revealed by program executor traceback error messages. We also discuss how CoT-SelfEvolve can be integrated into continuous software engineering environments, providing a practical solution for improving LLM-based code generation.
翻訳日:2024-08-29 16:21:03 公開日:2024-08-28
# セマンティックコヒーレントパノラマの融合と拡散経路

Merging and Splitting Diffusion Paths for Semantically Coherent Panoramas ( http://arxiv.org/abs/2408.15660v1 )

ライセンス: Link先を確認
Fabio Quattrini, Vittorio Pippi, Silvia Cascianelli, Rita Cucchiara, (参考訳) 拡散モデルはテキスト・画像生成の最先端となり、事前学習した拡散モデルの推論プロセスに適応してゼロショット機能を実現する研究が進められている。 例えば、パノラマ画像の生成は、重なり合う潜在特徴の上に独立した拡散経路を組み合わせ、知覚的に整列したパノラマ画像を得ることによって、近年の課題に取り組んできた。 しかし、これらの手法は、意味的に一貫性のない出力と、均一性のためのトレードオフの多様性をもたらすことが多い。 この制限を克服するため、Merge-Attend-Diffuse演算子を提案する。この演算子は、結合拡散設定で使用される様々な種類の事前訓練拡散モデルに接続することで、生成されたパノラマ画像の知覚的および意味的コヒーレンスを改善する。 具体的には、拡散経路をマージし、自己および横断的意図をプログラムし、集約された潜在空間で操作する。 広範に定量的かつ定性的な実験分析を行い、ユーザによる研究とともに、本手法は、その意味的コヒーレンスを高めつつ、生成した画像の入力プロンプトと視覚的品質との整合性を維持していることを示した。 コードをhttps://github.com/aimagelab/MAD.comでリリースします。

Diffusion models have become the State-of-the-Art for text-to-image generation, and increasing research effort has been dedicated to adapting the inference process of pretrained diffusion models to achieve zero-shot capabilities. An example is the generation of panorama images, which has been tackled in recent works by combining independent diffusion paths over overlapping latent features, which is referred to as joint diffusion, obtaining perceptually aligned panoramas. However, these methods often yield semantically incoherent outputs and trade-off diversity for uniformity. To overcome this limitation, we propose the Merge-Attend-Diffuse operator, which can be plugged into different types of pretrained diffusion models used in a joint diffusion setting to improve the perceptual and semantical coherence of the generated panorama images. Specifically, we merge the diffusion paths, reprogramming self- and cross-attention to operate on the aggregated latent space. Extensive quantitative and qualitative experimental analysis, together with a user study, demonstrate that our method maintains compatibility with the input prompt and visual quality of the generated images while increasing their semantic coherence. We release the code at https://github.com/aimagelab/MAD.
翻訳日:2024-08-29 16:21:03 公開日:2024-08-28
# 混合実験における補助損失のない負荷分散戦略

Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts ( http://arxiv.org/abs/2408.15664v1 )

ライセンス: Link先を確認
Lean Wang, Huazuo Gao, Chenggang Zhao, Xu Sun, Damai Dai, (参考訳) Mixture-of-Experts(MoE)モデルでは、アンバランスな専門家負荷がルーティングの崩壊や計算オーバーヘッドの増加につながる。 既存の手法では、負荷バランスを促進するために補助的損失を用いるが、大きな補助的損失は訓練に無視できない干渉勾配をもたらし、モデル性能を損なう。 学習中に不要な勾配を生じずに負荷バランスを制御するため,ロスフリーバランス(Los-Free Balancing)を提案する。 具体的には、トップKルーティング決定の前に、Los-Free Balancingはまず、各エキスパートのルーティングスコアに専門家的なバイアスを適用する。 最近の負荷に応じて各専門家のバイアスを動的に更新することで、Los-Free Balancingはエキスパート負荷のバランスの取れた分布を一貫して維持できる。 さらに、ロスフリーバランシングは干渉勾配を生じさせないため、MoEトレーニングから得られるモデル性能の上限も上昇する。 最大200Bトークンでトレーニングされた最大3Bパラメータを持つMoEモデル上でのロスフリーバランシングの性能を検証する。 実験結果から,ロスフリーバランシングは従来の補助損失制御型ロードバランシング戦略と比較して,性能と負荷バランシングの両立を実現していることがわかった。

For Mixture-of-Experts (MoE) models, an unbalanced expert load will lead to routing collapse or increased computational overhead. Existing methods commonly employ an auxiliary loss to encourage load balance, but a large auxiliary loss will introduce non-negligible interference gradients into training and thus impair the model performance. In order to control load balance while not producing undesired gradients during training, we propose Loss-Free Balancing, featured by an auxiliary-loss-free load balancing strategy. To be specific, before the top-K routing decision, Loss-Free Balancing will first apply an expert-wise bias to the routing scores of each expert. By dynamically updating the bias of each expert according to its recent load, Loss-Free Balancing can consistently maintain a balanced distribution of expert load. In addition, since Loss-Free Balancing does not produce any interference gradients, it also elevates the upper bound of model performance gained from MoE training. We validate the performance of Loss-Free Balancing on MoE models with up to 3B parameters trained on up to 200B tokens. Experimental results show that Loss-Free Balancing achieves both better performance and better load balance compared with traditional auxiliary-loss-controlled load balancing strategies.
翻訳日:2024-08-29 16:21:03 公開日:2024-08-28
# StyleRemix: スタイル要素の蒸留と摂動による解釈可能なオーサリング難読化

StyleRemix: Interpretable Authorship Obfuscation via Distillation and Perturbation of Style Elements ( http://arxiv.org/abs/2408.15666v1 )

ライセンス: Link先を確認
Jillian Fisher, Skyler Hallinan, Ximing Lu, Mitchell Gordon, Zaid Harchaoui, Yejin Choi, (参考訳) 著者による難読化は、著者のアイデンティティを故意に隠蔽するためにテキストを書き直すことであり、重要なが難しい課題である。 大規模言語モデル(LLM)を用いた現在の手法では、解釈可能性や制御性が欠如しており、著者固有のスタイリスティックな特徴を無視することが多い。 そこで本研究では,適応的かつ解釈可能な難読化手法であるStyleRemixを開発した。 StyleRemixは、事前訓練されたローランク適応(LoRA)モジュールを使用して、計算コストを低く保ちながら、様々なスタイリスティックな軸(例えば、形式、長さ)に沿って入力を具体的に書き換える。 StyleRemixは、自動評価と人的評価の両方で評価されるように、さまざまな領域における最先端のベースラインとはるかに大きなLLMよりも優れています。 さらに、14の著者と4つのドメインからなる多種多様な集合からなる30Kの高品質な長文からなる大集合である AuthorMix と、7つのスタイルの軸に16の方向をまたがる1500のテキストからなる平行コーパスである DiSC をリリースする。

Authorship obfuscation, rewriting a text to intentionally obscure the identity of the author, is an important but challenging task. Current methods using large language models (LLMs) lack interpretability and controllability, often ignoring author-specific stylistic features, resulting in less robust performance overall. To address this, we develop StyleRemix, an adaptive and interpretable obfuscation method that perturbs specific, fine-grained style elements of the original input text. StyleRemix uses pre-trained Low Rank Adaptation (LoRA) modules to rewrite an input specifically along various stylistic axes (e.g., formality and length) while maintaining low computational cost. StyleRemix outperforms state-of-the-art baselines and much larger LLMs in a variety of domains as assessed by both automatic and human evaluation. Additionally, we release AuthorMix, a large set of 30K high-quality, long-form texts from a diverse set of 14 authors and 4 domains, and DiSC, a parallel corpus of 1,500 texts spanning seven style axes in 16 unique directions
翻訳日:2024-08-29 16:21:03 公開日:2024-08-28
# コークス音と視覚変換器を用いた呼吸器疾患の信頼性診断に向けて

Towards reliable respiratory disease diagnosis based on cough sounds and vision transformers ( http://arxiv.org/abs/2408.15667v1 )

ライセンス: Link先を確認
Qian Wang, Zhaoyang Bu, Jiaxuan Mao, Wenyu Zhu, Jingya Zhao, Wei Du, Guochao Shi, Min Zhou, Si Chen, Jieming Qu, (参考訳) 近年の深層学習技術の進歩は, マルチモーダル医療データに基づく疾患診断を含む実世界の様々な応用において, 性能向上に拍車を掛けている。 聴覚データに基づく呼吸器疾患(例:COVID-19、慢性閉塞性肺疾患)も注目されている。 しかし、既存の研究は通常、伝統的な機械学習や中程度のスケールの深層モデルを利用する。 一方, 臨床データのキュレーションや注釈付けの難しさから, 小規模データによる評価と評価を行った。 これらの課題に先行研究で対処するため、軽量な畳み込みニューラルネットワーク(ResNet18など)から現代の視覚変換器への様々な深層モデルの評価を行い、呼吸器疾患分類におけるそれらの性能を比較するための統一的な枠組みを構築した。 このような広範な実証研究から得られた知見に基づいて,大規模コークスデータセットに基づく自己指導型と教師型両方の学習に基づく,コークス病分類の新しいアプローチを提案する。 提案手法は、新型コロナウイルスの診断のための2つのベンチマークデータセットと、AUROC 92.5% の COPD/non-COPD 分類のためのプロプライエタリデータセットにおいて、先行技術よりも一貫して優れていることを示す実験結果を得た。

Recent advancements in deep learning techniques have sparked performance boosts in various real-world applications including disease diagnosis based on multi-modal medical data. Cough sound data-based respiratory disease (e.g., COVID-19 and Chronic Obstructive Pulmonary Disease) diagnosis has also attracted much attention. However, existing works usually utilise traditional machine learning or deep models of moderate scales. On the other hand, the developed approaches are trained and evaluated on small-scale data due to the difficulty of curating and annotating clinical data on scale. To address these issues in prior works, we create a unified framework to evaluate various deep models from lightweight Convolutional Neural Networks (e.g., ResNet18) to modern vision transformers and compare their performance in respiratory disease classification. Based on the observations from such an extensive empirical study, we propose a novel approach to cough-based disease classification based on both self-supervised and supervised learning on a large-scale cough data set. Experimental results demonstrate our proposed approach outperforms prior arts consistently on two benchmark datasets for COVID-19 diagnosis and a proprietary dataset for COPD/non-COPD classification with an AUROC of 92.5%.
翻訳日:2024-08-29 16:21:03 公開日:2024-08-28
# フレキシブルジョブショップスケジューリングのための量子アニーリングに基づくアルゴリズムの評価

Evaluation of Quantum Annealing-based algorithms for flexible job shop scheduling ( http://arxiv.org/abs/2408.15671v1 )

ライセンス: Link先を確認
Philipp Schworm, Xiangqian Wu, Matthias Klar, Jan C. Aurich, (参考訳) フレキシブルなジョブショップスケジューリング問題(FJSSP)は、現実のプロセススケジューリングタスクと相反する目的をモデル化する複雑な最適化タスクを提供する。 FJSSPに取り組むために、ソリューションが許容される時間枠内にあることを保証するために近似法が採用されている。 量子力学的効果を利用したメタヒューリスティックな量子アナリングは、古典的アルゴリズムと比較して短時間で優れた解品質を示す。 しかし、量子アニールのハードウェア制限のため、より大規模なFJSSPを解くにはハイブリッドアルゴリズムが不可欠である。 本稿では,量子異方体が十分かつハイブリッドアルゴリズムが必要な場合のしきい値問題のサイズについて検討し,ハイブリッド手法における計算パワーの分布を明らかにする。

A flexible job shop scheduling problem (FJSSP) poses a complex optimization task in modeling real-world process scheduling tasks with conflicting objectives. To tackle FJSSPs, approximation methods are employed to ensure solutions are within acceptable timeframes. Quantum Annealing, a metaheuristic leveraging quantum mechanical effects, demonstrates superior solution quality in a shorter time compared to classical algorithms. However, due to hardware limitations of quantum annealers, hybrid algorithms become essential for solving larger FJSSPs. This paper investigates the threshold problem sizes up to which quantum annealers are sufficient and when hybrid algorithms are required, highlighting the distribution of computing power in hybrid methods.
翻訳日:2024-08-29 16:21:03 公開日:2024-08-28
# 偏光SAR画像のための深層学習に基づくスペックルフィルタ -センチネル-1への応用-

Deep Learning Based Speckle Filtering for Polarimetric SAR Images. Application to Sentinel-1 ( http://arxiv.org/abs/2408.15678v1 )

ライセンス: Link先を確認
Alejandro Mestre-Quereda, Juan M. Lopez-Sanchez, (参考訳) 合成開口レーダ(SAR)画像におけるスペックル抑制は、研究トピックであり続けている重要な処理ステップである。 空間的アプローチや変換的戦略を用いた多種多様な手法が開発され,優れた結果が得られた。 しかし,近年の深層学習技術の進歩とSAR画像復号化への応用は,最先端の成果をもたらすことを実証している。 残念ながら、それらは主に単偏光画像に適用されている。 偏光SAR(PolSAR)画像へのスペックル除去のための深層学習に基づくアプローチの拡張は、画像画素毎に測定された共分散行列の複雑な性質のため複雑であり、その特性はフィルタリング中に保存されなければならない。 本研究では、畳み込みニューラルネットワークを用いて偏光SAR画像のスペックルを除去するための完全なフレームワークを提案する。 この手法は、元の複素共分散行列の可逆変換を含み、ニューラルネットワークに供給される実数値強度帯域の集合を得る。 さらに、提案手法は、ニューラルネットワークが時間的変化に強く影響された領域における誤った特徴を学習するのを避けるための変更検出戦略を含むので、ネットワークは、データに存在する基盤となるスペックル成分のみを学習する。 この手法は、Sentinel-1によって取得された双対偏光画像を用いて実装され、試験される。 実験により,提案手法はスペックル低減と分解能保存の両方において例外的な結果をもたらすことが示された。 さらに重要なのは、ニューラルネットワークがアーティファクトを生成したり、フィルタされた画像にバイアスを導入していないことを示し、さらなる偏光処理やエクスプロイトに適していることである。

Speckle suppression in synthetic aperture radar (SAR) images is a key processing step which continues to be a research topic. A wide variety of methods, using either spatially-based approaches or transform-based strategies, have been developed and have shown to provide outstanding results. However, recent advances in deep learning techniques and their application to SAR image despeckling have been demonstrated to offer state-of-the-art results. Unfortunately, they have been mostly applied to single-polarimetric images. The extension of a deep learning-based approach for speckle removal to polarimetric SAR (PolSAR) images is complicated because of the complex nature of the measured covariance matrices for every image pixel, the properties of which must be preserved during filtering. In this work, we propose a complete framework to remove speckle in polarimetric SAR images using a convolutional neural network. The methodology includes a reversible transformation of the original complex covariance matrix to obtain a set of real-valued intensity bands which are fed to the neural network. In addition, the proposed method includes a change detection strategy to avoid the neural network to learn erroneous features in areas strongly affected by temporal changes, so that the network only learns the underlying speckle component present in the data. The method is implemented and tested with dual-polarimetric images acquired by Sentinel-1. Experiments show that the proposed approach offers exceptional results in both speckle reduction and resolution preservation. More importantly, it is also shown that the neural network is not generating artifacts or introducing bias in the filtered images, making them suitable for further polarimetric processing and exploitation.
翻訳日:2024-08-29 16:21:03 公開日:2024-08-28
# DEAR:depth-Enhanced Action Recognition

DEAR: Depth-Enhanced Action Recognition ( http://arxiv.org/abs/2408.15679v1 )

ライセンス: Link先を確認
Sadegh Rahmaniboldaji, Filip Rybansky, Quoc Vuong, Frank Guerin, Andrew Gilbert, (参考訳) ビデオ中のアクション、特に散らかったシーンにおける検出は、カメラの観点からの2Dフレーム分析の限界により、大きな課題を生んでいる。 3次元理解の恩恵を受ける人間の視覚とは異なり、そのような環境における行動を認識することは困難である。 本研究では,3次元特徴と深度マップをRGB特徴と組み合わせ,行動認識の精度を高める新しいアプローチを提案する。 提案手法では,RGB機能エンコーダとは別個のブランチを通じて推定深度マップを処理し,そのシーンや動作を包括的に理解するために特徴を融合させる。 空間特徴抽出にCLIPとVisionMambaを併用したSide4VideoフレームワークとVideoMambaを用いて,Side4VideoネットワークをSomething V2データセット上で実装した。 私たちのコードは、https://github.com/SadeghRahmaniB/DEARで利用可能です。

Detecting actions in videos, particularly within cluttered scenes, poses significant challenges due to the limitations of 2D frame analysis from a camera perspective. Unlike human vision, which benefits from 3D understanding, recognizing actions in such environments can be difficult. This research introduces a novel approach integrating 3D features and depth maps alongside RGB features to enhance action recognition accuracy. Our method involves processing estimated depth maps through a separate branch from the RGB feature encoder and fusing the features to understand the scene and actions comprehensively. Using the Side4Video framework and VideoMamba, which employ CLIP and VisionMamba for spatial feature extraction, our approach outperformed our implementation of the Side4Video network on the Something-Something V2 dataset. Our code is available at: https://github.com/SadeghRahmaniB/DEAR
翻訳日:2024-08-29 16:21:03 公開日:2024-08-28
# 条件付き自動運転におけるテイクオーバー要求時間予算の定量的モデル

A quantitative model of takeover request time budget for conditionally automated driving ( http://arxiv.org/abs/2408.15682v1 )

ライセンス: Link先を確認
Foghor Tanshi, Dirk Söffker, (参考訳) 条件付き自動化では、自動運転システムは完全な制御を前提とし、重要な状況で運転を再開するために人間の運転者に乗っ取り要求を発行するのみである。 以前の研究では、乗務員が乗務員の乗車要求後に運転を再開するために必要な時間予算は、状況や異なる乗務員変数によって異なると結論付けている。 しかし、乗っ取りに要する時間予算を事前に見積もるための総合的なアプローチは提供されていない。 本研究は,視力補助を伴わない固定時間(7秒,5秒,4秒)と可変時間(6秒,5秒,4秒)を,平均側方変位などの性能測定値を用いて3つのテイクオーバシナリオに適用可能か検討した。 その結果, 7 s が2つのシナリオに適していることが示唆された。 得られた結果とテイクオーバ変数間の既知の関係を利用して, テイクオーバ要求時間予算を推定する数学的公式を提案する。 提案式は, 個別刺激応答時間, 運転経験, シナリオ固有の要件を統合し, テイクオーバー操作の安全性を高める。 さらに、視覚的なイメージはテイクオーバ時間を増大させ、時間予算を必然的に増加させる結果となった。 したがって、適用可能な場合の可視化情報の時間要求(画像など)は、時間予算に含める必要がある。

In conditional automation, the automated driving system assumes full control and only issues a takeover request to a human driver to resume driving in critical situations. Previous studies have concluded that the time budget required by drivers to resume driving after a takeover request varies with situations and different takeover variables. However, no comprehensive generalized approaches for estimating in advance the time budget required by drivers to takeover have been provided. In this contribution, fixed (7 s) and variable time budgets (6 s, 5 s, and 4 s) with and without visual imagery assistance were investigated for suitability in three takeover scenarios using performance measures such as average lateral displacement. The results indicate that 7 s is suitable for two of the studied scenarios based on their characteristics. Using the obtained results and known relations between takeover variables, a mathematical formula for estimating takeover request time budget is proposed. The proposed formula integrates individual stimulus response time, driving experience, scenario specific requirements and allows increased safety for takeover maneuvers. Furthermore, the visual imagery resulted in increased takeover time which invariably increases the time budget. Thus the time demand of the visualized information if applicable (such as visual imagery) should be included in the time budget.
翻訳日:2024-08-29 16:21:03 公開日:2024-08-28
# 教育の未来をナビゲートする: 教育者のAI統合とギリシャ、ハンガリー、ラトビア、アイルランド、アルメニアにおける課題

Navigating the Future of Education: Educators' Insights on AI Integration and Challenges in Greece, Hungary, Latvia, Ireland and Armenia ( http://arxiv.org/abs/2408.15686v1 )

ライセンス: Link先を確認
Evangelia Daskalaki, Katerina Psaroudaki, Paraskevi Fragopoulou, (参考訳) AIEd(AIEd)に対する教師の視点を理解することは、教育枠組みへの効果的な統合に不可欠である。 本稿は,教師が現在AIをどのように活用し,その教育プロセスを強化するかを検討することを目的とする。 我々はギリシャ、ハンガリー、ラトビア、アイルランド、アルメニアにまたがる全国的な調査を行い、1754人の教育者を対象にオンラインアンケートを行い、3つの調査質問に答えた。 最初の研究課題は、AIEdに対する教育者の理解、懐疑論、学校内統合についてである。 ほとんどの教育者は、AIをしっかりと理解し、その潜在的なリスクを認めている。 AIEdは主に教育者支援とエンゲージメント学生に使われている。 しかし、批判的思考を育み、偏見のあるデータに学生をさらすことに対するAIの影響には懸念がある。 第2の質問は、教育者の視点から、AIツールと学生の関わりについて調査するものである。 教師は、学生が主にAIを使用して学業負荷を管理しているのに対し、外部ではAIツールが主にエンターテイメントに使われていることを示している。 第3の研究課題は、教育におけるAIの今後の意味についてである。 教育者は、特にパーソナライズされた学習経験を通じて、AIが教育プロセスを強化する可能性について楽観的である。 それでも彼らは、AIが批判的思考と潜在的な誤用に関連する倫理的問題を育むことに与える影響について、重大な懸念を表明している。 AIを効果的な教育実践に統合するためのセミナー、ワークショップ、オンラインコースのトレーニングを通じて、プロフェッショナルな開発の必要性が強く強調されている。 全体として、この調査結果は、教育におけるAIに関する教育者の間での慎重な楽観性を浮き彫りにしており、AIツールの使用における懸念に対処し、スキルを強化するための専門的開発への明確な要求も示している。

Understanding teachers' perspectives on AI in Education (AIEd) is crucial for its effective integration into the educational framework. This paper aims to explore how teachers currently use AI and how it can enhance the educational process. We conducted a cross-national study spanning Greece, Hungary, Latvia, Ireland, and Armenia, surveying 1754 educators through an online questionnaire, addressing three research questions. Our first research question examines educators' understanding of AIEd, their skepticism, and its integration within schools. Most educators report a solid understanding of AI and acknowledge its potential risks. AIEd is primarily used for educator support and engaging students. However, concerns exist about AI's impact on fostering critical thinking and exposing students to biased data. The second research question investigates student engagement with AI tools from educators' perspectives. Teachers indicate that students use AI mainly to manage their academic workload, while outside school, AI tools are primarily used for entertainment. The third research question addresses future implications of AI in education. Educators are optimistic about AI's potential to enhance educational processes, particularly through personalized learning experiences. Nonetheless, they express significant concerns about AI's impact on cultivating critical thinking and ethical issues related to potential misuse. There is a strong emphasis on the need for professional development through training seminars, workshops, and online courses to integrate AI effectively into teaching practices. Overall, the findings highlight a cautious optimism among educators regarding AI in education, alongside a clear demand for targeted professional development to address concerns and enhance skills in using AI tools.
翻訳日:2024-08-29 16:21:03 公開日:2024-08-28
# TempoFormer: 変化検出における時間認識表現のための変換器

TempoFormer: A Transformer for Temporally-aware Representations in Change Detection ( http://arxiv.org/abs/2408.15689v1 )

ライセンス: Link先を確認
Talia Tseriotou, Adam Tsakalidis, Maria Liakata, (参考訳) 動的表現学習は、時間とともに言語内容の進化を理解する上で重要な役割を担っている。 この面では、コンテキストと時間力学、およびそれらの相互作用が重要である。 現在のアプローチは、通常時間的に非依存な事前訓練された表現を通じて、コンテキストをモデル化する。 モデリングコンテキストと時間力学に関するこれまでの研究では、繰り返し手法が使われてきたが、これは遅く、過度に適合する傾向にある。 本稿では,動的表現学習のためのFistタスク非依存型トランスフォーマーと時間認識型モデルであるTempoFormerを紹介する。 本手法はコンテキスト間の動的および内部的力学を共同で訓練し,回転位置埋め込みの時間的変化を新たに導入する。 アーキテクチャは柔軟で、他のモデルの時間的表現基盤として、あるいは異なるトランスフォーマーベースのアーキテクチャに適用することができる。 3つの異なるリアルタイム変化検出タスクに対して新しいSOTA性能を示す。

Dynamic representation learning plays a pivotal role in understanding the evolution of linguistic content over time. On this front both context and time dynamics as well as their interplay are of prime importance. Current approaches model context via pre-trained representations, which are typically temporally agnostic. Previous work on modeling context and temporal dynamics has used recurrent methods, which are slow and prone to overfitting. Here we introduce TempoFormer, the fist task-agnostic transformer-based and temporally-aware model for dynamic representation learning. Our approach is jointly trained on inter and intra context dynamics and introduces a novel temporal variation of rotary positional embeddings. The architecture is flexible and can be used as the temporal representation foundation of other models or applied to different transformer-based architectures. We show new SOTA performance on three different real-time change detection tasks.
翻訳日:2024-08-29 16:21:03 公開日:2024-08-28
# スピン依存エキゾチック相互作用

Spin-dependent exotic interactions ( http://arxiv.org/abs/2408.15691v1 )

ライセンス: Link先を確認
Lei Cong, Wei Ji, Pavel Fadeev, Filip Ficek, Min Jiang, Victor V. Flambaum, Haosen Guan, Derek F. Jackson Kimball, Mikhail G. Kozlov, Yevgeny V. Stadnik, Dmitry Budker, (参考訳) 自然界における4つの既知の基本的な力(電磁力、重力力、強い力、弱い相互作用)を超えた新しい相互作用は、「5番目の力」として表される標準モデルを超えた「新しい物理学」によって生じる可能性がある。 このレビューでは、スピン-0軸索や軸索状粒子、スピン-1 Z'ボソン、ダーク光子、パラフォトンなどのエキゾチックなボソンを介するスピン依存第5の力に焦点を当てている。 これらのエキゾチックなボソンの多くはダークマターとダークエネルギーの性質を説明する候補であり、それらの相互作用は基本的な対称性に反する可能性がある。 エキゾチックボソンの交換によって媒介されるフェルミオン間のスピン依存的な相互作用は、様々な実験、特に低エネルギーフロンティアにおいて研究されている。 原子磁気センサ、トーションバランス、窒素空きスピンセンサー、精密原子・分子分光法などの異種スピン依存相互作用を探索するために用いられる実験方法とツールについて述べる。 最小の仮定を持つ量子場理論に基づいて導かれる相互作用ポテンシャルの完全な集合を、結合定数の減少という観点で特徴づける。 エキゾチックなスピン依存相互作用に関する既存の実験的および観察的な制約を包括的に要約し、現在の研究状況と今後の研究の有望な方向性を説明する。

Novel interactions beyond the four known fundamental forces in nature (electromagnetic, gravitational, strong and weak interactions), may arise due to "new physics" beyond the standard model, manifesting as a "fifth force". This review is focused on spin-dependent fifth forces mediated by exotic bosons such as spin-0 axions and axionlike particles and spin-1 Z' bosons, dark photons, or paraphotons. Many of these exotic bosons are candidates to explain the nature of dark matter and dark energy, and their interactions may violate fundamental symmetries. Spin-dependent interactions between fermions mediated by the exchange of exotic bosons have been investigated in a variety of experiments, particularly at the low-energy frontier. Experimental methods and tools used to search for exotic spin-dependent interactions, such as atomic comagnetometers, torsion balances, nitrogen-vacancy spin sensors, and precision atomic and molecular spectroscopy, are described. A complete set of interaction potentials, derived based on quantum field theory with minimal assumptions and characterized in terms of reduced coupling constants, are presented. A comprehensive summary of existing experimental and observational constraints on exotic spin-dependent interactions is given, illustrating the current research landscape and promising directions of further research.
翻訳日:2024-08-29 16:21:03 公開日:2024-08-28
# 信頼性のあるユーザ認証のための合成額上げバイオメトリック生成

Synthetic Forehead-creases Biometric Generation for Reliable User Verification ( http://arxiv.org/abs/2408.15693v1 )

ライセンス: Link先を確認
Abhishek Tandon, Geetanjali Sharma, Gaurav Jaswal, Aditya Nigam, Raghavendra Ramachandra, (参考訳) 近年の研究では、顔、虹彩、および眼周囲の認識に代えて、顔が手術用マスクで覆われている状況において、接触のない便利な解決策が提示されている。 しかしながら、フォアヘッドデータの収集は、コストや時間的制約を含む課題を示し、フォアヘッドの検証手法の開発と最適化には、かなりの量の高品質な画像が必要である。 これらの課題に対処するために、ディープラーニングベースのバイオメトリック検証手法の効果的なトレーニングを可能にしながら、プライバシーを保護する能力によって、合成バイオメトリックデータの生成が牽引されている。 本稿では,前頭部画像データを一意性やリアリズムといった重要な特徴を維持しつつ合成する新しい枠組みを提案する。 提案するフレームワークは,画像から画像へのブラウン橋拡散モデル (BBDM) に基づく2つの主要モジュールから構成される。画像ペア間の一対一のマッピングを学習し,実写体に対応する自己認識型合成フォアヘッド・クリーゼを生成するための一対一のマッピングと,SSGMの助けを借りて新しい合成IDをサンプリングするサブジェクト・アグノスティック・ジェネレーション・モジュール (SAGM) である。 本研究では,Fr'echet Inception Distance(FID)とStructure similarity Index Measure(SSIM)を用いて,生成された額画像の多様性と現実性を評価する。 さらに,FHCVS (Fearhead-crease confirmed system) を用いた合成前頭部画像の有用性について検討した。 その結果,合成データを用いたFHCVSの検証精度の向上が示唆された。

Recent studies have emphasized the potential of forehead-crease patterns as an alternative for face, iris, and periocular recognition, presenting contactless and convenient solutions, particularly in situations where faces are covered by surgical masks. However, collecting forehead data presents challenges, including cost and time constraints, as developing and optimizing forehead verification methods requires a substantial number of high-quality images. To tackle these challenges, the generation of synthetic biometric data has gained traction due to its ability to protect privacy while enabling effective training of deep learning-based biometric verification methods. In this paper, we present a new framework to synthesize forehead-crease image data while maintaining important features, such as uniqueness and realism. The proposed framework consists of two main modules: a Subject-Specific Generation Module (SSGM), based on an image-to-image Brownian Bridge Diffusion Model (BBDM), which learns a one-to-many mapping between image pairs to generate identity-aware synthetic forehead creases corresponding to real subjects, and a Subject-Agnostic Generation Module (SAGM), which samples new synthetic identities with assistance from the SSGM. We evaluate the diversity and realism of the generated forehead-crease images primarily using the Fr\'echet Inception Distance (FID) and the Structural Similarity Index Measure (SSIM). In addition, we assess the utility of synthetically generated forehead-crease images using a forehead-crease verification system (FHCVS). The results indicate an improvement in the verification accuracy of the FHCVS by utilizing synthetic data.
翻訳日:2024-08-29 16:10:57 公開日:2024-08-28
# フェデレーション時系列分析におけるプライバシ保護 - アプリケーション開発者にとっての実践的技術レビュー

Protecting Privacy in Federated Time Series Analysis: A Pragmatic Technology Review for Application Developers ( http://arxiv.org/abs/2408.15694v1 )

ライセンス: Link先を確認
Daniel Bachlechner, Ruben Hetfleisch, Stephan Krenn, Thomas Lorünser, Michael Rader, (参考訳) センシティブな時系列の連合分析は、医療や製造など様々な分野で大きな可能性を秘めている。 しかし、この可能性を完全に解き放つためには、例えば効率性や信頼の前提に関して、様々な利害関係者が課す要件を満たさなければならない。 これらの要件の多くは、完全同型暗号化のような高度なセキュアな計算パラダイムをデプロイすることで対処できるが、特定の側面は追加のプライバシー保護技術との統合を必要とする。 本研究では,選択した実世界のユースケースに基づいて定性的な要件抽出を行う。 得られた要件カテゴリは、利用可能な技術が提供する機能や保証と一致します。 各技術について、市場における標準化と可用性の状況を含め、成熟度の評価も行います。 さらに、アプリケーション開発者に対して、彼らのニーズに合った最も有望な技術を特定するための決定木を提供します。 最後に、既存のギャップが特定され、フィールドを前進させる研究の可能性を強調します。

The federated analysis of sensitive time series has huge potential in various domains, such as healthcare or manufacturing. Yet, to fully unlock this potential, requirements imposed by various stakeholders must be fulfilled, regarding, e.g., efficiency or trust assumptions. While many of these requirements can be addressed by deploying advanced secure computation paradigms such as fully homomorphic encryption, certain aspects require an integration with additional privacy-preserving technologies. In this work, we perform a qualitative requirements elicitation based on selected real-world use cases. We match the derived requirements categories against the features and guarantees provided by available technologies. For each technology, we additionally perform a maturity assessment, including the state of standardization and availability on the market. Furthermore, we provide a decision tree supporting application developers in identifying the most promising technologies available matching their needs. Finally, existing gaps are identified, highlighting research potential to advance the field.
翻訳日:2024-08-29 16:10:57 公開日:2024-08-28
# G-Style:スタイラス型ガウス鋳型

G-Style: Stylized Gaussian Splatting ( http://arxiv.org/abs/2408.15695v1 )

ライセンス: Link先を確認
Áron Samuel Kovács, Pedro Hermosilla, Renata G. Raidou, (参考訳) 本稿では,G-Styleを提案する。G-Style,G-Style,G-Style,G-Style,G-Style,G-Style,G-Style,G-Style,G-Style。 Gaussian Splattingは、新しいビュー合成のための強力な3D表現であり、Neural Radiance Fieldsに基づく他のアプローチとは異なり、シーンの高速なレンダリングとユーザコントロールを提供する。 最近のプレプリントでは、ガウスのスプレイティングシーンのスタイルを画像の例を使って修正できることが示されている。 しかし, シーン形状はスタイリゼーションの過程で固定されているため, 現状の解では満足な結果が得られない。 我々のアルゴリズムは、3段階のプロセスに従ってこれらの制限に対処することを目的としており、前処理のステップでは、大きな射影領域や非常に長い形状を持つ望ましくないガウスを除去する。 その後、画像のスタイルの異なるスケールを維持するために、オリジナルシーンの内容の完全性を維持しながら、慎重に設計されたいくつかの損失を組み合わさった。 タイマライゼーションの過程とガウシアン・スプレイティングの当初の設計に従って、我々は、タイマライズされた色の勾配を追跡することによって、シーン内で追加の細部が必要とされるガウシアンを分割した。 実験の結果,G-Styleはわずか数分で高品質なスタイリゼーションを発生し,定性的・定量的に既存手法より優れていることがわかった。

We introduce G-Style, a novel algorithm designed to transfer the style of an image onto a 3D scene represented using Gaussian Splatting. Gaussian Splatting is a powerful 3D representation for novel view synthesis, as -- compared to other approaches based on Neural Radiance Fields -- it provides fast scene renderings and user control over the scene. Recent pre-prints have demonstrated that the style of Gaussian Splatting scenes can be modified using an image exemplar. However, since the scene geometry remains fixed during the stylization process, current solutions fall short of producing satisfactory results. Our algorithm aims to address these limitations by following a three-step process: In a pre-processing step, we remove undesirable Gaussians with large projection areas or highly elongated shapes. Subsequently, we combine several losses carefully designed to preserve different scales of the style in the image, while maintaining as much as possible the integrity of the original scene content. During the stylization process and following the original design of Gaussian Splatting, we split Gaussians where additional detail is necessary within our scene by tracking the gradient of the stylized color. Our experiments demonstrate that G-Style generates high-quality stylizations within just a few minutes, outperforming existing methods both qualitatively and quantitatively.
翻訳日:2024-08-29 16:10:57 公開日:2024-08-28
# 中国語AI技術の多様性、否定性、ステレオタイプの比較:Baidu、Ernie、Qwenを事例として

Comparing diversity, negativity, and stereotypes in Chinese-language AI technologies: a case study on Baidu, Ernie and Qwen ( http://arxiv.org/abs/2408.15696v1 )

ライセンス: Link先を確認
Geng Liu, Carlo Alberto Bono, Francesco Pierri, (参考訳) 大規模言語モデル(LLM)と検索エンジンは、既存の偏見をトレーニングデータやアルゴリズムのプロセスに増幅することにより、バイアスやステレオタイプを永続させる可能性を秘めている。 ほとんどの研究は西洋中心のAI技術に重点を置いているが、中国の主要検索エンジンBaiduと、主要なLLMであるErnieとQwenに埋め込まれた社会的偏見を調査することで、中国ベースのツールを研究している。 中国社会を記述した13のカテゴリーにまたがる240の社会集団のデータセットを利用して、上記のツールにエンコードされた30万のビューを収集し、それらのグループを記述した候補語に促す。 言語モデルは検索エンジンに比べて多種多様な組込みビューを示すが、BaiduとQwenはErnieよりもネガティブなコンテンツを生成することが多い。 また、言語モデルに埋め込まれたステレオタイプが適度に普及しており、その多くが攻撃的・軽蔑的な見方を促進する可能性がある。 我々の研究は、グローバルな視点でAI技術における公正さと傾きを促進することの重要性を強調します。

Large Language Models (LLMs) and search engines have the potential to perpetuate biases and stereotypes by amplifying existing prejudices in their training data and algorithmic processes, thereby influencing public perception and decision-making. While most work has focused on Western-centric AI technologies, we study Chinese-based tools by investigating social biases embedded in the major Chinese search engine, Baidu, and two leading LLMs, Ernie and Qwen. Leveraging a dataset of 240 social groups across 13 categories describing Chinese society, we collect over 30k views encoded in the aforementioned tools by prompting them for candidate words describing such groups. We find that language models exhibit a larger variety of embedded views compared to the search engine, although Baidu and Qwen generate negative content more often than Ernie. We also find a moderate prevalence of stereotypes embedded in the language models, many of which potentially promote offensive and derogatory views. Our work highlights the importance of promoting fairness and inclusivity in AI technologies with a global perspective.
翻訳日:2024-08-29 16:10:57 公開日:2024-08-28
# 強相互作用するフェルミオンは非自明だが非ガラスである

Strongly interacting fermions are non-trivial yet non-glassy ( http://arxiv.org/abs/2408.15699v1 )

ライセンス: Link先を確認
Eric R. Anshuetz, Chi-Fang Chen, Bobak T. Kiani, Robbie King, (参考訳) 低温におけるランダムスピン系はガラス状であり、低エネルギー状態を見つける際には計算硬度が特徴である。 フェミオン系Sachdev--Ye-Kitaev (SYK) のランダムな相互作用について検討し, (I) 低エネルギー状態が多項式回路の深さを持つことを示した。 これらの結果は、フェルミオン系とスピン系が、ハミルトン項の非可換性を定量化する 'emph{commutation index} において著しく異なることを示すことから導かれる。 この結果は、スピンとは異なり、低温で強く相互作用するフェルミオンが古典的に非自明で量子的に容易な相に属することを示唆している。

Random spin systems at low temperatures are glassy and feature computational hardness in finding low-energy states. We study the random all-to-all interacting fermionic Sachdev--Ye--Kitaev (SYK) model and prove that, in contrast, (I) the low-energy states have polynomial circuit depth, yet (II) the annealed and quenched free energies agree to inverse-polynomially low temperatures, ruling out a glassy phase transition in this sense. These results are derived by showing that fermionic and spin systems significantly differ in their \emph{commutation index}, which quantifies the non-commutativity of Hamiltonian terms. Our results suggest that low-temperature strongly interacting fermions, unlike spins, belong in a classically nontrivial yet quantumly easy phase.
翻訳日:2024-08-29 16:10:57 公開日:2024-08-28
# 適応スパースL0正規化を用いたモデルロバストネスの評価

Evaluating Model Robustness Using Adaptive Sparse L0 Regularization ( http://arxiv.org/abs/2408.15702v1 )

ライセンス: Link先を確認
Weiyou Liu, Zhenyang Li, Weitong Chen, (参考訳) ディープ・ニューラル・ニューラルネットワークは、様々な領域で顕著な成功を収めてきたが、相変わらず誤分類を誘発するためにわずかに変化した入力である敵の例に影響を受けやすいままである。 逆攻撃は通常Lpノルム制約の下で最適化されるが、L0ノルムに基づく攻撃は、その複雑で非凸性のため、入力空間を優先する。 これらのまばらな敵の例は、最小限の機能のサブセットを変更し、より微妙なDNNの弱点を明らかにすることによって、既存の防御に挑戦する。 しかし、現在のL0ノルム攻撃手法は精度と効率のトレードオフに直面している。 本稿では,このような摂動に対するDNNのロバスト性評価を改良することを目的とした,L0ノルムに基づく新たな,スケーラブルで効果的な手法を提案する。

Deep Neural Networks have demonstrated remarkable success in various domains but remain susceptible to adversarial examples, which are slightly altered inputs designed to induce misclassification. While adversarial attacks typically optimize under Lp norm constraints, attacks based on the L0 norm, prioritising input sparsity, are less studied due to their complex and non convex nature. These sparse adversarial examples challenge existing defenses by altering a minimal subset of features, potentially uncovering more subtle DNN weaknesses. However, the current L0 norm attack methodologies face a trade off between accuracy and efficiency either precise but computationally intense or expedient but imprecise. This paper proposes a novel, scalable, and effective approach to generate adversarial examples based on the L0 norm, aimed at refining the robustness evaluation of DNNs against such perturbations.
翻訳日:2024-08-29 16:10:57 公開日:2024-08-28
# 3次元ガウスストッチ法による実例ベースモデリングに向けて

Towards Realistic Example-based Modeling via 3D Gaussian Stitching ( http://arxiv.org/abs/2408.15708v1 )

ライセンス: Link先を確認
Xinyu Gao, Ziyi Yang, Bingchen Gong, Xiaoguang Han, Sipeng Yang, Xiaogang Jin, (参考訳) サンプルベースモデリングと呼ばれる新しいモデルを再構築するために既存のモデルの一部を使用することは、コンピュータグラフィックスの領域における古典的な方法論である。 以前の作品は、主に形状の合成に焦点を当てており、現実世界のシーンから捉えた3Dオブジェクトのリアルな合成には、非常に使いづらい。 これにより複数のNeRFを1つの3Dシーンに統合し、シームレスな外観ブレンディングを実現する。 しかし、現在のSeamlessNeRF法は、その勾配に基づく戦略とグリッドベースの表現のため、現実世界のシーンに対してインタラクティブな編集と調和的な縫い合わせを実現するのに苦労している。 この目的のために、サンプル誘導合成を用いた点ベース表現において複数のガウス場を組み合わせたサンプルベースモデリング手法を提案する。 具体的には、3Dガウススプレイティング(3DGS)で表されるモデルの意味論的意味のある構成を容易に得ることができる。 テクスチャブレンディングでは、3DGSの離散的および不規則な性質のため、SeamlssNeRFがサポートされないため、直接勾配伝播を適用する。 そこで本研究では, 従来の濃厚なテクスチャと内容を保存しながら, ブレンディングを調和させる新しいサンプリングベースクローニング法を提案する。 私たちのワークフローは3つのステップで構成されています。 1) 適切なGUIを用いたガウスモデルのリアルタイムセグメンテーションと変換 2)ソースモデルとターゲットモデルとの交差領域における境界点を特定するためのKNN解析 3)サンプリングベースクローニングと勾配制約を用いた対象モデルの2相最適化を行った。 大規模な実験結果から,本手法は現実的な合成において先行研究よりも著しく優れており,その実用性を示している。 さらなるデモはhttps://ingra14m.github.io/gs_stitching_websiteで公開されている。

Using parts of existing models to rebuild new models, commonly termed as example-based modeling, is a classical methodology in the realm of computer graphics. Previous works mostly focus on shape composition, making them very hard to use for realistic composition of 3D objects captured from real-world scenes. This leads to combining multiple NeRFs into a single 3D scene to achieve seamless appearance blending. However, the current SeamlessNeRF method struggles to achieve interactive editing and harmonious stitching for real-world scenes due to its gradient-based strategy and grid-based representation. To this end, we present an example-based modeling method that combines multiple Gaussian fields in a point-based representation using sample-guided synthesis. Specifically, as for composition, we create a GUI to segment and transform multiple fields in real time, easily obtaining a semantically meaningful composition of models represented by 3D Gaussian Splatting (3DGS). For texture blending, due to the discrete and irregular nature of 3DGS, straightforwardly applying gradient propagation as SeamlssNeRF is not supported. Thus, a novel sampling-based cloning method is proposed to harmonize the blending while preserving the original rich texture and content. Our workflow consists of three steps: 1) real-time segmentation and transformation of a Gaussian model using a well-tailored GUI, 2) KNN analysis to identify boundary points in the intersecting area between the source and target models, and 3) two-phase optimization of the target model using sampling-based cloning and gradient constraints. Extensive experimental results validate that our approach significantly outperforms previous works in terms of realistic synthesis, demonstrating its practicality. More demos are available at https://ingra14m.github.io/gs_stitching_website.
翻訳日:2024-08-29 16:10:57 公開日:2024-08-28
# Conan-embedding: より優れた負のサンプルを用いた汎用テキスト埋め込み

Conan-embedding: General Text Embedding with More and Better Negative Samples ( http://arxiv.org/abs/2408.15710v1 )

ライセンス: Link先を確認
Shiyu Li, Yang Tang, Shizhe Chen, Xi Chen, (参考訳) RAGの人気が高まり、埋め込みモデルの能力はますます注目を集めている。 埋め込みモデルは、主に対照的な損失学習を通じて訓練される。 以前の研究では、様々な強硬な負の採掘戦略が提案されてきたが、これらの戦略は一般的に前処理の手順として採用されている。 本稿では,より高次かつ高品質な負例の利用を最大化するコナン埋め込みモデルを提案する。 具体的には、事前処理された負の例を扱うモデルの能力が訓練中に進化するので、トレーニングプロセスを通してより困難な負の例にモデルを公開するための動的強硬な負のマイニング法を提案する。 第二に、対照的な学習は可能な限り多くのネガティブな例を必要とするが、GPUメモリの制約によって制限されている。 そのため、クロスGPUバランシングロスを使用して、トレーニングを埋め込み、バッチサイズを複数のタスク間でバランスさせる、よりネガティブな例を提供します。 また,LSMから得た応答対を組込み訓練に用いることも確認した。 当社のアプローチは,現在,Massiveテキスト埋め込みベンチマークの中国リーダボードにランクインしている,埋め込みモデルの能力を効果的に向上させるものだ。

With the growing popularity of RAG, the capabilities of embedding models are gaining increasing attention. Embedding models are primarily trained through contrastive loss learning, with negative examples being a key component. Previous work has proposed various hard negative mining strategies, but these strategies are typically employed as preprocessing steps. In this paper, we propose the conan-embedding model, which maximizes the utilization of more and higher-quality negative examples. Specifically, since the model's ability to handle preprocessed negative examples evolves during training, we propose dynamic hard negative mining method to expose the model to more challenging negative examples throughout the training process. Secondly, contrastive learning requires as many negative examples as possible but is limited by GPU memory constraints. Therefore, we use a Cross-GPU balancing Loss to provide more negative examples for embedding training and balance the batch size across multiple tasks. Moreover, we also discovered that the prompt-response pairs from LLMs can be used for embedding training. Our approach effectively enhances the capabilities of embedding models, currently ranking first on the Chinese leaderboard of Massive text embedding benchmark
翻訳日:2024-08-29 16:10:57 公開日:2024-08-28
# クインテッセンス背景における量子トンネルとGUPの役割

Quantum tunneling in a quintessence background and the role of GUP ( http://arxiv.org/abs/2408.15711v1 )

ライセンス: Link先を確認
Sauvik Sen, (参考訳) 本稿では、シュワルツシルトブラックホールに関連する質量および質量の量子トンネルの研究を行い、一般化不確実性原理(GUP)から生じる結果について考察した。 クインテッセンスのシナリオでは、圧力とエネルギー密度の比である$w=-1/3$と$w=-2/3$の2つの特定のケースを検討した。 GUPでは、修正シュワルツシルト計量を用い、トンネル振幅を計算するために一意に輪郭積分を用いた。 それぞれの温度分布の解析および比較研究を行った。

In this paper we studied quantum tunneling of massless and massive particles pertaining to a Schwarzschild black hole in a quintessence background, and explored the consequences emerging from a generalized uncertainty principle (GUP). For the quintessence scenario, we considered two specific cases of $w$, which is the ratio of the pressure and energy density, namely $w=-1/3$ and $w=-2/3$. For the GUP, we used a modified Schwarzschild metric and employed a unique choice of contour integration to compute the tunneling amplitudes. An analysis and comparative study of the respective temperature profiles have been made.
翻訳日:2024-08-29 16:10:57 公開日:2024-08-28
# Pixels to Prose:画像キャプションの技法を理解する

Pixels to Prose: Understanding the art of Image Captioning ( http://arxiv.org/abs/2408.15714v1 )

ライセンス: Link先を確認
Hrishikesh Singh, Aarti Sharma, Millie Pant, (参考訳) 人工知能の進化の時代、機械は視覚知覚や言語表現を含む人間のような能力をますますエミュレートしている。 画像キャプションはこれらの領域の交差点にあり、機械が視覚的コンテンツを解釈し、記述的なテキストを生成することができる。 本稿では,機械学習の分野に参入する個人を対象に,基礎的手法から最先端のアプローチまで,利用可能な選択肢の包括的理解を求めるイメージキャプション技術について,徹底的なレビューを行う。 プリミティブアーキテクチャの探索から始まり、画像キャプションモデルの進化を最新の最先端のソリューションに遡る。 これらのアーキテクチャのコンポーネントを分離することで、読者は基盤となるメカニズムについての洞察を得ることができ、作業の重複なしに特定の問題要件に合わせて適切なアプローチを選択することができる。 また,医療領域における画像キャプションの適用について検討し,その意義を実世界の様々なシナリオで明らかにした。 さらに、画像キャプションシステムの性能評価に関するガイダンスを提供し、評価のための重要な指標を強調した。 理論的概念を実用的な応用で合成することにより、画像キャプションの複雑な風景をナビゲートするために必要な知識を読者に提供し、その潜在能力を機械学習等における多様な応用に活用する。

In the era of evolving artificial intelligence, machines are increasingly emulating human-like capabilities, including visual perception and linguistic expression. Image captioning stands at the intersection of these domains, enabling machines to interpret visual content and generate descriptive text. This paper provides a thorough review of image captioning techniques, catering to individuals entering the field of machine learning who seek a comprehensive understanding of available options, from foundational methods to state-of-the-art approaches. Beginning with an exploration of primitive architectures, the review traces the evolution of image captioning models to the latest cutting-edge solutions. By dissecting the components of these architectures, readers gain insights into the underlying mechanisms and can select suitable approaches tailored to specific problem requirements without duplicating efforts. The paper also delves into the application of image captioning in the medical domain, illuminating its significance in various real-world scenarios. Furthermore, the review offers guidance on evaluating the performance of image captioning systems, highlighting key metrics for assessment. By synthesizing theoretical concepts with practical application, this paper equips readers with the knowledge needed to navigate the complex landscape of image captioning and harness its potential for diverse applications in machine learning and beyond.
翻訳日:2024-08-29 16:10:57 公開日:2024-08-28
# Ising臨界付近の自己回帰モデルパス依存性

Autoregressive model path dependence near Ising criticality ( http://arxiv.org/abs/2408.15715v1 )

ライセンス: Link先を確認
Yi Hong Teoh, Roger G. Melko, (参考訳) 自己回帰モデル(Autoregressive model)は、前回の入力に基づいてシーケンスの次の出力を確率的に予測する生成モデルのクラスである。 自己回帰シーケンスは、言語タスクには自然な1次元(1D)を定義することにより、リカレントニューラルネットワーク(RNN)やトランスフォーマーといったモダンアーキテクチャの重要なコンポーネントとなる。 しかし、本質的な1Dではない物理系の出力を予測するために言語モデルが使用される場合、どの自己回帰配列が最適かという問題が発生する。 本稿では,RNNと熱相転移近傍で得られた2次元スピンデータを用いた2次元イジングモデルにおける臨界相関の再構成について検討する。 有限サイズ2次元格子に課される多数の異なる1次元自己回帰列のトレーニング性能を比較した。 長い1次元セグメントを持つ経路は、2次元の局所性をよりよく保存する空間充填曲線と比較して自己回帰モデルを訓練する上でより効率的であることがわかった。 本研究は,物理におけるタスクに対する現代言語モデルの訓練において,最適な自己回帰順序付けを選択することの重要性を示唆するものである。

Autoregressive models are a class of generative model that probabilistically predict the next output of a sequence based on previous inputs. The autoregressive sequence is by definition one-dimensional (1D), which is natural for language tasks and hence an important component of modern architectures like recurrent neural networks (RNNs) and transformers. However, when language models are used to predict outputs on physical systems that are not intrinsically 1D, the question arises of which choice of autoregressive sequence -- if any -- is optimal. In this paper, we study the reconstruction of critical correlations in the two-dimensional (2D) Ising model, using RNNs and transformers trained on binary spin data obtained near the thermal phase transition. We compare the training performance for a number of different 1D autoregressive sequences imposed on finite-size 2D lattices. We find that paths with long 1D segments are more efficient at training the autoregressive models compared to space-filling curves that better preserve the 2D locality. Our results illustrate the potential importance in choosing the optimal autoregressive sequence ordering when training modern language models for tasks in physics.
翻訳日:2024-08-29 16:10:57 公開日:2024-08-28
# セマンティック・アナロジーと下流課題におけるシンジ語埋め込みの評価

An Evaluation of Sindhi Word Embedding in Semantic Analogies and Downstream Tasks ( http://arxiv.org/abs/2408.15720v1 )

ライセンス: Link先を確認
Wazir Ali, Saifullah Tumrani, Jay Kumar, Tariq Rahim Soomro, (参考訳) 本稿では,複数のWebリソースから6100万以上の単語をクロールする単語埋め込み型コーパスを提案する。 クロールデータから不要なテキストをフィルタリングするための前処理パイプラインを設計する。 その後、クリーン化された語彙は最先端の連続バグ・オブ・ワード、スキップグラム、GloVeワードの埋め込みアルゴリズムに供給される。 プレトレーニング埋め込みの評価には,本質的および外生的評価アプローチを用いる。 評価結果から,GloVe と既存の Sindhi fastText の単語を内在的および外在的両方の評価手法に埋め込んだ場合よりも,連続バグ・オブ・ワードとスキップ・グラムの方が優れた結果が得られた。

In this paper, we propose a new word embedding based corpus consisting of more than 61 million words crawled from multiple web resources. We design a preprocessing pipeline for the filtration of unwanted text from crawled data. Afterwards, the cleaned vocabulary is fed to state-of-the-art continuous-bag-of-words, skip-gram, and GloVe word embedding algorithms. For the evaluation of pretrained embeddings, we use popular intrinsic and extrinsic evaluation approaches. The evaluation results reveal that continuous-bag-of-words and skip-gram perform better than GloVe and existing Sindhi fastText word embedding on both intrinsic and extrinsic evaluation approaches
翻訳日:2024-08-29 16:10:57 公開日:2024-08-28
# テクスチャ・ツー・イメージ拡散モデル:バックドア攻撃に対するテクスチャ・摂動の有効性について

Defending Text-to-image Diffusion Models: Surprising Efficacy of Textual Perturbations Against Backdoor Attacks ( http://arxiv.org/abs/2408.15721v1 )

ライセンス: Link先を確認
Oscar Chew, Po-Yi Lu, Jayden Lin, Hsuan-Tien Lin, (参考訳) テキストから画像への拡散モデルは、テキスト記述からリアルな画像を生成する能力により、現実世界のアプリケーションで広く採用されている。 しかし、最近の研究では、これらの手法はバックドア攻撃に弱いことが示されている。 テキストと画像の拡散モデルに対するバックドア攻撃による重大な脅威にもかかわらず、対策は未検討のままである。 本稿では,テキスト間拡散モデルに対する最先端のバックドア攻撃が,驚くほど単純な防御戦略であるテキスト摂動によって効果的に緩和できることを実証することによって,この研究ギャップに対処する。 実験により、テキストによる摂動は、最先端のバックドア攻撃に対する防御に有効であり、生成品質に対する犠牲は最小限であることが示された。 テキスト埋め込み空間とクロスアテンションマップの2つの角度からテキスト摂動の有効性を分析する。 さらに彼らは、バックドア攻撃がテキストと画像の拡散モデルに侵入し、将来の攻撃と防衛戦略を研究するための洞察を与える方法について説明している。 私たちのコードはhttps://github.com/oscarchew/t2i-backdoor-defense.comから入手可能です。

Text-to-image diffusion models have been widely adopted in real-world applications due to their ability to generate realistic images from textual descriptions. However, recent studies have shown that these methods are vulnerable to backdoor attacks. Despite the significant threat posed by backdoor attacks on text-to-image diffusion models, countermeasures remain under-explored. In this paper, we address this research gap by demonstrating that state-of-the-art backdoor attacks against text-to-image diffusion models can be effectively mitigated by a surprisingly simple defense strategy - textual perturbation. Experiments show that textual perturbations are effective in defending against state-of-the-art backdoor attacks with minimal sacrifice to generation quality. We analyze the efficacy of textual perturbation from two angles: text embedding space and cross-attention maps. They further explain how backdoor attacks have compromised text-to-image diffusion models, providing insights for studying future attack and defense strategies. Our code is available at https://github.com/oscarchew/t2i-backdoor-defense.
翻訳日:2024-08-29 16:10:57 公開日:2024-08-28
# ドライバーレーン変更予測に応用した分類器の性能評価

Advanced POD-Based Performance Evaluation of Classifiers Applied to Human Driver Lane Changing Prediction ( http://arxiv.org/abs/2408.15722v1 )

ライセンス: Link先を確認
Zahra Rastin, Dirk Söffker, (参考訳) 機械学習(ML)分類器は、様々な領域にまたがる分類と予測を容易にする重要なツールである。 これらのアルゴリズムのパフォーマンスは、信頼性の高いアプリケーションを保証するために知っておくべきです。 ある分野では、プロセスパラメータの影響を考慮せずに機械学習アルゴリズムを評価するために、レシーバ動作特性と精度-リコール曲線が頻繁に使用される。 しかし,これらのパラメータに関して,これらのアルゴリズムの性能を評価することは重要である。 本稿では,プロセスパラメータの影響を考慮可能な性能評価指標として,MLアルゴリズムの信頼性を評価するために,修正された検出確率(POD)アプローチを用いる。 例として、車両運転手の車線変化挙動を予測するために使用されるMLモデルを評価するために、PODベースのアプローチを用いる。 予測された(従って未知の)レーン変更イベントに残る時間はプロセスパラメータとして考慮される。 MLアルゴリズムから導出される車線変化の確率を各タイミングで考慮し、解析の最終結果を得ることにより、PODに対するヒット・ミスアプローチを取り、修正する。 これにより、標準ヒット/ミスアプローチと比較して結果の信頼性が向上し、分類器の結果を 0 または 1 のいずれかとみなすとともに、アプローチに対する \^a と比較して評価が簡単になる。 提案手法の有効性を検証するために, 提案手法の性能評価結果を, 標準ヒット/ミス法と事前開発した \^a と比較した。 本手法は, 簡易性を保ちながら, PODに対するヒット・ミス・アプローチの信頼性を高めることの利点を生かして, 保守的行動を平均化することを示す。

Machine learning (ML) classifiers serve as essential tools facilitating classification and prediction across various domains. The performance of these algorithms should be known to ensure their reliable application. In certain fields, receiver operating characteristic and precision-recall curves are frequently employed to assess machine learning algorithms without accounting for the impact of process parameters. However, it may be essential to evaluate the performance of these algorithms in relation to such parameters. As a performance evaluation metric capable of considering the effects of process parameters, this paper uses a modified probability of detection (POD) approach to assess the reliability of ML-based algorithms. As an example, the POD-based approach is employed to assess ML models used for predicting the lane changing behavior of a vehicle driver. The time remaining to the predicted (and therefore unknown) lane changing event is considered as process parameter. The hit/miss approach to POD is taken here and modified by considering the probability of lane changing derived from ML algorithms at each time step, and obtaining the final result of the analysis accordingly. This improves the reliability of results compared to the standard hit/miss approach, which considers the outcome of the classifiers as either 0 or 1, while also simplifying evaluation compared to the \^a versus a approach. Performance evaluation results of the proposed approach are compared with those obtained with the standard hit/miss approach and a pre-developed \^a versus a approach to validate the effectiveness of the proposed method. The comparison shows that this method provides an averaging conservative behavior with the advantage of enhancing the reliability of the hit/miss approach to POD while retaining its simplicity.
翻訳日:2024-08-29 16:10:57 公開日:2024-08-28
# 異なる専門家のための異なる顔: ABM開発における質的洞察の統合を合理化するフレームワーク

Different Facets for Different Experts: A Framework for Streamlining The Integration of Qualitative Insights into ABM Development ( http://arxiv.org/abs/2408.15725v1 )

ライセンス: Link先を確認
Vivek Nallur, Pedram Aghaei, Graham Finlay, (参考訳) エージェントベースのシミュレーションにおける重要な問題は、複数の専門分野の専門家からの質的な洞察を統合することが極めて難しいことである。 ほとんどのシミュレーションでは、エージェントの機能と対応する振る舞いをエージェントにプログラムする必要がある。 本稿では,エージェントのプログラムされた機能を,能力の獲得と表示行動から切り離すツールのアーキテクチャについて報告する。 これにより、コードを変更する必要なく、複数の異なるドメインの専門家が質的な洞察を表現できる。 さらに洞察が得られれば、質的な行動プロセスの継続的統合(あるいは変更)も可能になる。 モデルで観察されたその後の振る舞いは、専門家の洞察に忠実であると同時に、他の洞察を表す他のモデルと対比することができる。

A key problem in agent-based simulation is that integrating qualitative insights from multiple discipline experts is extremely hard. In most simulations, agent capabilities and corresponding behaviour needs to be programmed into the agent. We report on the architecture of a tool that disconnects the programmed functions of the agent, from the acquisition of capability and displayed behaviour. This allows multiple different domain experts to represent qualitative insights, without the need for code to be changed. It also allows a continuous integration (or even change) of qualitative behaviour processes, as more insights are gained. The consequent behaviour observed in the model is both, more faithful to the expert's insight as well as able to be contrasted against other models representing other insights.
翻訳日:2024-08-29 16:10:57 公開日:2024-08-28
# LM-PUB-QUIZ:言語モデルにおける関係知識のゼロショット評価のための総合的フレームワーク

LM-PUB-QUIZ: A Comprehensive Framework for Zero-Shot Evaluation of Relational Knowledge in Language Models ( http://arxiv.org/abs/2408.15729v1 )

ライセンス: Link先を確認
Max Ploner, Jacek Wiland, Sebastian Pohl, Alan Akbik, (参考訳) 知識探索は、言語モデル(LM)が事前学習期間中に関係知識を取得する程度を評価する。 異なるサイズとトレーニング設定のLMを比較するための費用効率のよい手段を提供し、継続学習(CL)中に得られた知識の監視に役立ちます。 先行研究において、我々はBEAR (Wiland et al , 2024) と呼ばれる改良された知識プローブを提案し、異なる事前学習目標(因果的およびマスク付きLM)で訓練されたLMの比較を可能にし、従来のプローブにおけるスキュー分布の問題に対処し、より曖昧なLM知識の読解を可能にする。 本稿では,PythonフレームワークとリーダボードであるLM-PUB-QUIZについて述べる。 スタンドアロン評価のオプションと、Hugging Face TransformERSライブラリの広く使用されているトレーニングパイプラインへの直接統合を提供する。 さらに、異なる知識タイプをきめ細かな分析を行い、評価されたLMの知識をよりよく理解するのに役立つ。 LM-PUB-QUIZをオープンソースプロジェクトとして公開しています。

Knowledge probing evaluates the extent to which a language model (LM) has acquired relational knowledge during its pre-training phase. It provides a cost-effective means of comparing LMs of different sizes and training setups and is useful for monitoring knowledge gained or lost during continual learning (CL). In prior work, we presented an improved knowledge probe called BEAR (Wiland et al., 2024), which enables the comparison of LMs trained with different pre-training objectives (causal and masked LMs) and addresses issues of skewed distributions in previous probes to deliver a more unbiased reading of LM knowledge. With this paper, we present LM-PUB- QUIZ, a Python framework and leaderboard built around the BEAR probing mechanism that enables researchers and practitioners to apply it in their work. It provides options for standalone evaluation and direct integration into the widely-used training pipeline of the Hugging Face TRANSFORMERS library. Further, it provides a fine-grained analysis of different knowledge types to assist users in better understanding the knowledge in each evaluated LM. We publicly release LM-PUB-QUIZ as an open-source project.
翻訳日:2024-08-29 16:00:49 公開日:2024-08-28
# MambaPlace:アテンション・マンバ機構を用いたテキスト・ツー・ポイント・クラウド・クロスモーダル・プレイス認識

MambaPlace:Text-to-Point-Cloud Cross-Modal Place Recognition with Attention Mamba Mechanisms ( http://arxiv.org/abs/2408.15740v1 )

ライセンス: Link先を確認
Tianyi Shang, Zhenyu Li, Wenhao Pei, Pengjie Xu, ZhaoJun Deng, Fanchen Kong, (参考訳) 視覚言語位置認識(VLVPR)は、画像から自然言語記述を組み込むことで、ロボットのローカライズ性能を向上させる。 言語情報を利用することで、VLVPRはロボットの位置マッチングを指示し、視覚のみに依存する制約を克服する。 マルチモーダル融合の本質は、異なるモーダル間の相補的な情報をマイニングすることにある。 しかし、一般的な融合法は従来のニューラルネットワークに依存しており、特に複雑なモーダル内およびモーダル間相関の存在下では、クロスモーダル相互作用のダイナミクスを捉えるのに十分な能力を持っていない。 そこで本稿では,MambaPlace と呼ばれる相互接続型位置認識フレームワークを提案する。 粗いローカライゼーション段階では、予め訓練されたT5とインスタンスエンコーダで、テキスト記述と3Dポイントクラウドとをそれぞれ符号化する。 次にテキストアテンション・マンバ(TAM)とポイントクラウド・マンバ(PCM)を使用してデータ拡張とアライメントを行う。 その後の微妙なローカライゼーション段階において、テキスト記述と3Dポイントクラウドの特徴は、カスケードされたCross Attention Mamba (CCAM) によって相互に融合され、さらに強化される。 最後に、融合したテキストポイントクラウドの特徴から位置オフセットを予測し、最も正確な位置決めを実現する。 大規模な実験により、MambaPlaceは最先端の手法と比較して、KITTI360Poseデータセットのローカライズ精度の向上を実現している。

Vision Language Place Recognition (VLVPR) enhances robot localization performance by incorporating natural language descriptions from images. By utilizing language information, VLVPR directs robot place matching, overcoming the constraint of solely depending on vision. The essence of multimodal fusion lies in mining the complementary information between different modalities. However, general fusion methods rely on traditional neural architectures and are not well equipped to capture the dynamics of cross modal interactions, especially in the presence of complex intra modal and inter modal correlations. To this end, this paper proposes a novel coarse to fine and end to end connected cross modal place recognition framework, called MambaPlace. In the coarse localization stage, the text description and 3D point cloud are encoded by the pretrained T5 and instance encoder, respectively. They are then processed using Text Attention Mamba (TAM) and Point Clouds Mamba (PCM) for data enhancement and alignment. In the subsequent fine localization stage, the features of the text description and 3D point cloud are cross modally fused and further enhanced through cascaded Cross Attention Mamba (CCAM). Finally, we predict the positional offset from the fused text point cloud features, achieving the most accurate localization. Extensive experiments show that MambaPlace achieves improved localization accuracy on the KITTI360Pose dataset compared to the state of the art methods.
翻訳日:2024-08-29 16:00:49 公開日:2024-08-28
# グラディエントフィルを用いたセグメンテーション誘導層画像ベクトル化

Segmentation-guided Layer-wise Image Vectorization with Gradient Fills ( http://arxiv.org/abs/2408.15741v1 )

ライセンス: Link先を確認
Hengyu Zhou, Hui Zhang, Bin Wang, (参考訳) ベクトルグラフィックスが広く使われることで、ベクトル化法に対する大きな需要が生まれる。 最近の学習に基づく手法は、明確なトポロジーのベクトル画像を作成する能力を示しているが、これらのプリミティブを勾配で満たすことは依然として課題である。 本稿では,ラスタ画像を放射勾配を埋め込んだ簡潔なベクトルグラフィックスに変換するセグメンテーション誘導ベクトル化フレームワークを提案する。 組込み勾配対応セグメンテーションサブルーチンの誘導により,新たに設計した初期化手法で原始パラメータを起動し,新たな損失関数を最小化するために,段階的に勾配を埋め込んだB\'ezierパスを出力に付加する。 従来のセグメンテーションアルゴリズムを用いた微分可能なレンダラ上に構築し,ラスタ-ベクター変換のためのモデルフリーツールとして開発する。 データセットに依存しない実現可能性を示すために、様々な入力でテストされ、以前の作業と比べて視覚的品質とレイヤーワイドトポロジーを改善したベクトルグラフィックスを合成する。

The widespread use of vector graphics creates a significant demand for vectorization methods. While recent learning-based techniques have shown their capability to create vector images of clear topology, filling these primitives with gradients remains a challenge. In this paper, we propose a segmentation-guided vectorization framework to convert raster images into concise vector graphics with radial gradient fills. With the guidance of an embedded gradient-aware segmentation subroutine, our approach progressively appends gradient-filled B\'ezier paths to the output, where primitive parameters are initiated with our newly designed initialization technique and are optimized to minimize our novel loss function. We build our method on a differentiable renderer with traditional segmentation algorithms to develop it as a model-free tool for raster-to-vector conversion. It is tested on various inputs to demonstrate its feasibility, independent of datasets, to synthesize vector graphics with improved visual quality and layer-wise topology compared to prior work.
翻訳日:2024-08-29 16:00:49 公開日:2024-08-28
# 台湾・マンダリン発声における発声音の形式と意味--トネ3サンディーを事例として

Form and meaning co-determine the realization of tone in Taiwan Mandarin spontaneous speech: the case of Tone 3 sandhi ( http://arxiv.org/abs/2408.15747v1 )

ライセンス: Link先を確認
Yuxin Lu, Yu-Ying Chuang, R. Harald Baayen, (参考訳) 標準中国語ではトーン3(ディッピング音)がトーン2(トリッピング音)となり、次に別のトーン3が続く。 以前の研究では、このサンジー過程は完全なものではなく、同化トーン3が真のトーン2とはいまだに異なっていることを指摘している。 マンダリントーン3サンディーは、慎重に制御された実験室のスピーチ(Xu, 1997)と北京・マンダリンの正式な登録(Yuan and Chen, 2014)を用いて広く研究されているが、自然発声におけるその実現についてはあまり知られていない。 本研究では,台湾・マンダリン自発会話におけるT2-T3およびT3-T3音調パターンを用いた2文字単語のピッチパターンについて検討した。 我々はGAMM(Generative Additive Mixed Model, GAMM, Wood, 2017)を用いて, 基本周波数(f0)の輪郭を正規化時間関数として検討する。 本研究では,性別,発話速度,話者,隣り合う音色,単語の位置,ビッグラム確率,および新しい予測器,単語,単語感覚(Chuang et al ,2024)など,ピッチの輪郭に影響を与える要因について考察する。 台湾の自発マンダリンでは,T3-T3単語はT2-T3単語と区別不能となり,単語(あるいは単語感覚)の強い影響が考慮されれば,完全サンディーを示すことが明らかとなった。 我々のデータでは、f0輪郭の形状は単語周波数によって決定されない。 対照的に、単語の意味がf0輪郭に与える影響は、隣り合う音色の影響と同じくらい強く、T2-T3語とT3-T3語の両方に存在している。

In Standard Chinese, Tone 3 (the dipping tone) becomes Tone 2 (rising tone) when followed by another Tone 3. Previous studies have noted that this sandhi process may be incomplete, in the sense that the assimilated Tone 3 is still distinct from a true Tone 2. While Mandarin Tone 3 sandhi is widely studied using carefully controlled laboratory speech (Xu, 1997) and more formal registers of Beijing Mandarin (Yuan and Chen, 2014), less is known about its realization in spontaneous speech, and about the effect of contextual factors on tonal realization. The present study investigates the pitch contours of two-character words with T2-T3 and T3-T3 tone patterns in spontaneous Taiwan Mandarin conversations. Our analysis makes use of the Generative Additive Mixed Model (GAMM, Wood, 2017) to examine fundamental frequency (f0) contours as a function of normalized time. We consider various factors known to influence pitch contours, including gender, speaking rate, speaker, neighboring tones, word position, bigram probability, and also novel predictors, word and word sense (Chuang et al., 2024). Our analyses revealed that in spontaneous Taiwan Mandarin, T3-T3 words become indistinguishable from T2-T3 words, indicating complete sandhi, once the strong effect of word (or word sense) is taken into account. For our data, the shape of f0 contours is not co-determined by word frequency. In contrast, the effect of word meaning on f0 contours is robust, as strong as the effect of adjacent tones, and is present for both T2-T3 and T3-T3 words.
翻訳日:2024-08-29 16:00:49 公開日:2024-08-28
# Str-L Pose:デュアルグラフにおける相対詩推定のための点と構造線の統合

Str-L Pose: Integrating Point and Structured Line for Relative Pose Estimation in Dual-Graph ( http://arxiv.org/abs/2408.15750v1 )

ライセンス: Link先を確認
Zherong Zhang, Chunyu Lin, Shujuan Huang, Shangrong Yang, Yao Zhao, (参考訳) ロボットや自律運転など、さまざまなコンピュータビジョンアプリケーションにおいて、相対的なポーズ推定が不可欠である。 現行の手法は、主に不適切な一致をしがちな特徴点の選択とマッチングに依存し、パフォーマンスが低下する。 したがって、ポーズ推定のための点マッチング関係のみに依存することは大きな課題である。 これらの制限を克服するために、余分な構造線セグメントに点特徴を統合する幾何対応グラフニューラルネットワークを提案する。 この整合点と線分の統合は、幾何学的制約をさらに活用し、異なる環境におけるモデル性能を向上させる。 我々はDual-GraphモジュールとFeature Weighted Fusionモジュールを用いて、幾何学的特徴と視覚的特徴を効果的に集約し、複雑なシーン理解を容易にする。 我々は,DeMoNとKITTI Odometryデータセットの広範な実験を通して,我々のアプローチを実証する。 その結果,本手法は最先端技術と競合することがわかった。

Relative pose estimation is crucial for various computer vision applications, including Robotic and Autonomous Driving. Current methods primarily depend on selecting and matching feature points prone to incorrect matches, leading to poor performance. Consequently, relying solely on point-matching relationships for pose estimation is a huge challenge. To overcome these limitations, we propose a Geometric Correspondence Graph neural network that integrates point features with extra structured line segments. This integration of matched points and line segments further exploits the geometry constraints and enhances model performance across different environments. We employ the Dual-Graph module and Feature Weighted Fusion Module to aggregate geometric and visual features effectively, facilitating complex scene understanding. We demonstrate our approach through extensive experiments on the DeMoN and KITTI Odometry datasets. The results show that our method is competitive with state-of-the-art techniques.
翻訳日:2024-08-29 16:00:49 公開日:2024-08-28
# 強化学習を用いた適応的交通信号制御

Adaptive Traffic Signal Control Using Reinforcement Learning ( http://arxiv.org/abs/2408.15751v1 )

ライセンス: Link先を確認
Muhammad Tahir Rafique, Ahmed Mustafa, Hasan Sajid, (参考訳) 交通需要は継続的に増加しており、主要都市部で大きな混雑問題を引き起こしている。 新しいインフラの構築は潜在的な解決策であるが、国家経済に大きな財政負担をもたらす。 別のアプローチでは、交差点の交通信号の動的制御を通じて既存の交通ネットワークを最適化する。 近年の強化学習(RL)技術の進歩は,交通渋滞に伴う複雑さに対処する能力を示している。 本稿では,強化学習を用いた交通渋滞対策を提案する。 本稿では,キュー長を表すスカラーとして状態を定義し,この単純化された状態表現からアルゴリズムが効果的に学習できることを実証する。 このアプローチは、交差点で必要となるセンサーの数を最小限にすることで、デプロイメントコストを削減できる可能性がある。 我々は2つのRLアルゴリズムを開発した: ターンベースエージェントは交差点側の信号に高いトラフィックを優先し、タイムベースエージェントは固定位相サイクルに固執し、交通条件に基づいて位相時間を調整する。 これらのアルゴリズムの性能を評価するため、4つの異なるトラフィックシナリオを設計し、それぞれに7つの評価指標を計算した。 シミュレーションの結果,両アルゴリズムが従来の信号制御システムより優れていたことが示唆された。

Traffic demand is continuously increasing, leading to significant congestion issues in major urban areas. Constructing new infrastructure is a potential solution but presents a substantial financial burden on national economies. An alternative approach involves optimizing existing traffic networks through the dynamic control of traffic signals at intersections. Recent advancements in Reinforcement Learning (RL) techniques have demonstrated their capability to address the complexities associated with traffic congestion. In this paper, we propose a solution to traffic congestion using reinforcement learning. We define the state as a scalar representing the queue length, demonstrating that the algorithm can effectively learn from this simplified state representation. This approach can potentially reduce deployment costs by minimizing the number of sensors required at intersections. We have developed two RL algorithms: a turn-based agent, which prioritizes traffic signals for the intersection side with higher traffic, and a time-based agent, which adheres to a fixed phase cycle, adjusting the phase duration based on traffic conditions. To assess the performance of these algorithms, we designed four distinct traffic scenarios and computed seven evaluation metrics for each. Simulation results indicate that both algorithms outperform conventional traffic signal control systems.
翻訳日:2024-08-29 16:00:49 公開日:2024-08-28
# 時間的絡み合いエントロピーの幾何学的解釈

Geometric interpretation of timelike entanglement entropy ( http://arxiv.org/abs/2408.15752v1 )

ライセンス: Link先を確認
Michal P. Heller, Fabio Ori, Alexandre Serantes, (参考訳) 境界部分領域が時間的な方向に沿って延びるホログラフィックエンタングルメントエントロピーの解析的継続は、時空の出現に関する新しい時間中心プローブの約束をもたらした。 このホログラフィック時型エンタングルメントエントロピーのバルクキャリアは、ホログラフィック時空の複雑な座標への解析的連続性を示す境界アンコール面である。 この提案は、ストリップ部分領域のホログラフィックエンタングルメントエントロピーの閉形式式を直接解析して得られる既知のすべてのケースを幾何学的に解釈するだけでなく、完全に一般のホログラフィック時間のようなエントロピーを研究するための窓を開く。 我々は,反ド・ジッターブラックブレーンの境界付近の時間的ストリップに固定された複素超表面の研究を初期化する。 複数の複雑な超表面を発見し、物理的貢献を歌い上げる可能性の原則について議論する。

Analytic continuations of holographic entanglement entropy in which the boundary subregion extends along a timelike direction have brought a promise of a novel, time-centric probe of the emergence of spacetime. We propose that the bulk carriers of this holographic timelike entanglement entropy are boundary-anchored extremal surfaces probing analytic continuation of holographic spacetimes into complex coordinates. This proposal not only provides a geometric interpretation of all the known cases obtained by direct analytic continuation of closed-form expressions of holographic entanglement entropy of a strip subregion but crucially also opens a window to study holographic timelike entanglement entropy in full generality. We initialize the investigation of complex extremal surfaces anchored on a timelike strip at the boundary of anti-de Sitter black branes. We find multiple complex extremal surfaces and discuss possible principles singling out the physical contribution.
翻訳日:2024-08-29 16:00:49 公開日:2024-08-28
# 粒子シミュレーションのためのニューラルネットワーク材料ポイント法

A Neural Material Point Method for Particle-based Simulations ( http://arxiv.org/abs/2408.15753v1 )

ライセンス: Link先を確認
Omer Rochman Sharabi, Sacha Lewin, Gilles Louppe, (参考訳) メッシュフリーラグランジアン法は、大きな変形や位相変化を扱う能力のため、流体、固体、およびそれらの複雑な相互作用をシミュレートするために広く用いられている。 しかし、これらの物理シミュレータは正確なシミュレーションのためにかなりの計算資源を必要とする。 これらの問題に対処するために、ディープラーニングエミュレータはより高速でスケーラブルなシミュレーションを約束するが、しばしば高価で訓練が困難であり、実用的使用を制限している。 物質点法(MPM)にヒントを得て,粒子シミュレーションのためのニューラルネットワークエミュレーションフレームワークであるNeuralMPMを提案する。 NeuralMPMは、ラグランジュ粒子を固定サイズグリッドに補間し、イメージ・ツー・イメージニューラルネットワークを使用してグリッドノードの更新を計算し、粒子に補間する。 MPMと同様に、NeuralMPMは、メッシュベースのEulerianメソッドの欠点を回避しつつ、状態ダイナミクスの計算を単純化する通常のボキセル化表現の恩恵を受ける。 流体力学や流体-固体相互作用など,いくつかのデータセット上でのNeuralMPMの利点を実証する。 既存の方法と比較して、NeuralMPMはトレーニング時間を数日から数時間に短縮すると同時に、同等あるいは優れた長期的精度を実現し、実用的な前方および逆問題に対する有望なアプローチである。 プロジェクトのページはhttps://neuralmpm.isach.beで公開されている。

Mesh-free Lagrangian methods are widely used for simulating fluids, solids, and their complex interactions due to their ability to handle large deformations and topological changes. These physics simulators, however, require substantial computational resources for accurate simulations. To address these issues, deep learning emulators promise faster and scalable simulations, yet they often remain expensive and difficult to train, limiting their practical use. Inspired by the Material Point Method (MPM), we present NeuralMPM, a neural emulation framework for particle-based simulations. NeuralMPM interpolates Lagrangian particles onto a fixed-size grid, computes updates on grid nodes using image-to-image neural networks, and interpolates back to the particles. Similarly to MPM, NeuralMPM benefits from the regular voxelized representation to simplify the computation of the state dynamics, while avoiding the drawbacks of mesh-based Eulerian methods. We demonstrate the advantages of NeuralMPM on several datasets, including fluid dynamics and fluid-solid interactions. Compared to existing methods, NeuralMPM reduces training times from days to hours, while achieving comparable or superior long-term accuracy, making it a promising approach for practical forward and inverse problems. A project page is available at https://neuralmpm.isach.be
翻訳日:2024-08-29 16:00:49 公開日:2024-08-28
# 産業用量子鍵配電システムにおける情報再構成のためのカスケード符号とLDPC符号の性能

Performance of Cascade and LDPC-codes for Information Reconciliation on Industrial Quantum Key Distribution Systems ( http://arxiv.org/abs/2408.15758v1 )

ライセンス: Link先を確認
Ronny Müller, Claudia De Lazzari, Fernando Chirici, Ilaria Vagniluca, Leif Katsuo Oxenløwe, Søren Forchhammer, Alessandro Zavatta, Davide Bacco, (参考訳) Information ReconciliationはQuantum Key Distributionの重要なコンポーネントであり、AliceとBobのキーのミスマッチが修正されることを保証する。 本研究では、Blindプロトコルと組み合わせて、カスケードとLDPCという2つの一般的なアルゴリズムの性能を解析、シミュレーション、最適化、比較する。 我々は,現実的かつアプリケーションクローズな環境での運用において,実用的および工業的環境における適用性に焦点をあてる。 実稼働型産業用QKDシステムの評価により, 結果をさらに検証した。

Information Reconciliation is a critical component of Quantum Key Distribution, ensuring that mismatches between Alice's and Bob's keys are corrected. In this study, we analyze, simulate, optimize, and compare the performance of two prevalent algorithms used for Information Reconciliation: Cascade and LDPC codes in combination with the Blind protocol. We focus on their applicability in practical and industrial settings, operating in realistic and application-close conditions. The results are further validated through evaluation on a live industrial QKD system.
翻訳日:2024-08-29 16:00:49 公開日:2024-08-28
# 農業環境におけるループ検出の課題

Addressing the challenges of loop detection in agricultural environments ( http://arxiv.org/abs/2408.15761v1 )

ライセンス: Link先を確認
Nicolás Soncini, Javier Civera, Taihú Pire, (参考訳) 視覚的SLAMシステムは屋内や都市環境においてよく研究されているが、自然、屋外、オープンフィールド環境は調査があまり行われておらず、研究上の課題がまだ残っている。 ビジュアルナビゲーションとローカルマッピングは、オープンフィールド環境では比較的良いパフォーマンスを示している。 しかし、グローバルな一貫したマッピングと長期のローカライゼーションは、ループ検出と閉包の堅牢性に依存しており、文献は乏しい。 本研究では, 局所的特徴探索と立体幾何学的改善に基づくオープンフィールド, 特に農業環境におけるロバストループ検出への道のりを, 相対的ポーズ推定の最終段階とともに舗装する手法を提案する。 提案手法は, 中央値15cmの誤差で, 常に良好なループ検出を実現する。 オープンフィールドをループ検出のための新しい環境として特徴付け,それを扱う際の限界や問題を理解することを目的としている。

While visual SLAM systems are well studied and achieve impressive results in indoor and urban settings, natural, outdoor and open-field environments are much less explored and still present relevant research challenges. Visual navigation and local mapping have shown a relatively good performance in open-field environments. However, globally consistent mapping and long-term localization still depend on the robustness of loop detection and closure, for which the literature is scarce. In this work we propose a novel method to pave the way towards robust loop detection in open fields, particularly in agricultural settings, based on local feature search and stereo geometric refinement, with a final stage of relative pose estimation. Our method consistently achieves good loop detections, with a median error of 15cm. We aim to characterize open fields as a novel environment for loop detection, understanding the limitations and problems that arise when dealing with them.
翻訳日:2024-08-29 16:00:49 公開日:2024-08-28
# 調和型投機サンプリング

Harmonized Speculative Sampling ( http://arxiv.org/abs/2408.15766v1 )

ライセンス: Link先を確認
Lefan Zhang, Xiaodan Wang, Yanhua Huang, Ruiwen Xu, (参考訳) 投機的サンプリングは大規模言語モデルからの復号を高速化する有効な解であることが証明されている。 これまでのほとんどの作業では、アラインメントトレーニングと効率的なデコーディングに重点を置いて、トレーニングとデコーディングのリンクに暗黙的に注意を払っている。 本研究ではまず,投機サンプリングのためのトレーニングと復号のリンクについて検討し,HArmonized Speculative Smpling (HASS) という解を提案する。 HASSは、トレーニングと目的とコンテキストのデコーディングを調和させることで、追加の推論オーバーヘッドなしに受け入れ率を改善する。 3つのLLaMAモデルに対する実験により、HASSは3つのデータセットで平均2.81x-3.65xのウォールクロックタイム・スピードアップを達成しており、これはEAGLE-2よりも8%-15%高速である。

Speculative sampling has proven to be an effective solution to accelerate decoding from large language models, where the acceptance rate significantly determines the performance. Most previous works on improving the acceptance rate focus on aligned training and efficient decoding, implicitly paying less attention to the linkage of training and decoding. In this work, we first investigate the linkage of training and decoding for speculative sampling and then propose a solution named HArmonized Speculative Sampling (HASS). HASS improves the acceptance rate without extra inference overhead by harmonizing training and decoding on their objectives and contexts. Experiments on three LLaMA models demonstrate that HASS achieves 2.81x-3.65x wall-clock time speedup ratio averaging across three datasets, which is 8%-15% faster than EAGLE-2.
翻訳日:2024-08-29 16:00:49 公開日:2024-08-28
# Amazon Echo Show 15のスマートディスプレイを調査中

Started Off Local, Now We're in the Cloud: Forensic Examination of the Amazon Echo Show 15 Smart Display ( http://arxiv.org/abs/2408.15768v1 )

ライセンス: Link先を確認
Jona Crasselt, Gaston Pugliese, (参考訳) Amazon Echoは、スマートスピーカーとディスプレイの最も人気のある製品ファミリーの1つである。 現代の家庭での存在感の高まりや、住民がこれらのデバイスと対話する際のデジタル痕跡を考えると、Echo製品の分析は「スマートホーム」犯罪現場の法医学研究者にとってより一般的になる可能性が高い。 このことを念頭に置いて,AmazonのFire OS上で動作するAmazon最大のスマートディスプレイであるEcho Show 15と,顔認識機能であるVisual IDを備えた最初のEchoデバイスについて,最初の法医学的な検討を行った。 我々は、メインロジックボードで発見されたeMMCインタフェースの未文書ピンアウトに基づいて、Echo Show 15の暗号化されていないファイルシステムにアクセスする非侵襲的な方法を公開した。 デバイス上では、検索された製品、ストリーミングされた映画、訪問したウェブサイト、写真やビデオのメタデータ、および内蔵カメラで検出された動きやユーザに関するVisual IDのイベントのログ化など、さまざまなローカル利用成果物を識別する。 さらに、Echo Show 15に格納されていないトークンを使用して、Alexaの音声リクエスト、カレンダー、連絡先、会話、写真、ビデオを含む、Amazonのクラウド内のリモートユーザアーティファクトへのアクセスを取得します。 この点に関しては、AlexaとPhotosという2つのコンパニオンアプリのネットワークトラフィック分析を通じて、新しいAmazon APIも特定します。 全体としては,Echo Show 15デバイスに対する非破壊的なデータ取得方法と,デバイス上のローカルアーティファクトからクラウドに格納されたリモートアーティファクトへの法医学的トレースの範囲の引き上げ方法を示す。

Amazon Echo is one of the most popular product families of smart speakers and displays. Considering their growing presence in modern households as well as the digital traces associated with residents' interactions with these devices, analyses of Echo products are likely to become more common for forensic investigators at "smart home" crime scenes. With this in mind, we present the first forensic examination of the Echo Show 15, Amazon's largest smart display running on Fire OS and the first Echo device with Visual ID, a face recognition feature. We unveil a non-invasive method for accessing the unencrypted file system of the Echo Show 15 based on an undocumented pinout for the eMMC interface which we discovered on the main logic board. On the device, we identify various local usage artifacts, such as searched products, streamed movies, visited websites, metadata of photos and videos as well as logged events of Visual ID about movements and users detected by the built-in camera. Furthermore, we utilize an insecurely stored token on the Echo Show 15 to obtain access to remote user artifacts in Amazon's cloud, including Alexa voice requests, calendars, contacts, conversations, photos, and videos. In this regard, we also identify new Amazon APIs through network traffic analysis of two companion apps, namely Alexa and Photos. Overall, in terms of practical relevance, our findings demonstrate a non-destructive way of data acquisition for Echo Show 15 devices as well as how to lift the scope of forensic traces from local artifacts on the device to remote artifacts stored in the cloud.
翻訳日:2024-08-29 16:00:49 公開日:2024-08-28
# マルチモーダル大言語モデルの評価に関する調査

A Survey on Evaluation of Multimodal Large Language Models ( http://arxiv.org/abs/2408.15769v1 )

ライセンス: Link先を確認
Jiaxing Huang, Jingyi Zhang, (参考訳) マルチモーダル大言語モデル(MLLM)は、強力な大言語モデル(LLM)を様々なモダリティエンコーダ(例えば、視覚、音声)と統合し、LLMを脳、様々なモダリティエンコーダを感覚器官として配置することで、人間の知覚と推論システムを模倣する。 このフレームワークはMLLMに人間のような能力を与え、人工知能(AGI)の実現に向けた潜在的な道筋を示唆している。 GPT-4V や Gemini のような全周MLLM の出現に伴い,様々な次元にわたってその能力を評価するための評価手法が開発されている。 本稿では,MLLMの評価手法について,(1)MLLMの背景とその評価について,(2)MLLMの評価課題を,一般のマルチモーダル認識,認識,推論,信頼性,および社会経済・自然科学・工学,AIエージェント,リモートセンシング,ビデオ・オーディオ処理,3Dポイントクラウド分析などの領域固有の応用,(3)MLLM評価ベンチマークを総合的および特異的なベンチマークに要約した「評価の場所」,(4)MLLM評価のステップとメトリクスをレビューし,説明する「評価の方法」,など,体系的かつ包括的に検討する。 我々は,MLLMの分野を前進させるためには,評価を重要な分野とみなすべきであることを強調する。

Multimodal Large Language Models (MLLMs) mimic human perception and reasoning system by integrating powerful Large Language Models (LLMs) with various modality encoders (e.g., vision, audio), positioning LLMs as the "brain" and various modality encoders as sensory organs. This framework endows MLLMs with human-like capabilities, and suggests a potential pathway towards achieving artificial general intelligence (AGI). With the emergence of all-round MLLMs like GPT-4V and Gemini, a multitude of evaluation methods have been developed to assess their capabilities across different dimensions. This paper presents a systematic and comprehensive review of MLLM evaluation methods, covering the following key aspects: (1) the background of MLLMs and their evaluation; (2) "what to evaluate" that reviews and categorizes existing MLLM evaluation tasks based on the capabilities assessed, including general multimodal recognition, perception, reasoning and trustworthiness, and domain-specific applications such as socioeconomic, natural sciences and engineering, medical usage, AI agent, remote sensing, video and audio processing, 3D point cloud analysis, and others; (3) "where to evaluate" that summarizes MLLM evaluation benchmarks into general and specific benchmarks; (4) "how to evaluate" that reviews and illustrates MLLM evaluation steps and metrics; Our overarching goal is to provide valuable insights for researchers in the field of MLLM evaluation, thereby facilitating the development of more capable and reliable MLLMs. We emphasize that evaluation should be regarded as a critical discipline, essential for advancing the field of MLLMs.
翻訳日:2024-08-29 16:00:49 公開日:2024-08-28
# wav2pos: Masked Autoencoders を用いた音源定位

wav2pos: Sound Source Localization using Masked Autoencoders ( http://arxiv.org/abs/2408.15771v1 )

ライセンス: Link先を確認
Axel Berg, Jens Gulin, Mark O'Connor, Chuteng Zhou, Karl Åström, Magnus Oskarsson, (参考訳) 本稿では,分散アドホックマイクロホンアレイの3次元音源定位タスクに対して,それをセット・ツー・セット回帰問題として定式化し,新しい手法を提案する。 音声記録やマイクロホン座標で動作するマルチモーダルマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスを用いたオートエンコーダモデルの訓練により,このような定式化により,入力にマスマスマスマスマスマスマスマスマスマスマスマスマスマスを再構成することで,音源の正確な位置推定が可能となることを示す。 我々のアプローチは、オーディオ録音やマイクロホン座標のサブセットが欠落している場合でも、任意の数のマイクロフォンで単一のモデルを使用できるという意味で柔軟である。 室内環境における音楽と音声のシミュレートおよび実世界の録音について実験を行い,古典的および他の学習に基づくローカライズ手法と比較して,競争性能を実証した。

We present a novel approach to the 3D sound source localization task for distributed ad-hoc microphone arrays by formulating it as a set-to-set regression problem. By training a multi-modal masked autoencoder model that operates on audio recordings and microphone coordinates, we show that such a formulation allows for accurate localization of the sound source, by reconstructing coordinates masked in the input. Our approach is flexible in the sense that a single model can be used with an arbitrary number of microphones, even when a subset of audio recordings and microphone coordinates are missing. We test our method on simulated and real-world recordings of music and speech in indoor environments, and demonstrate competitive performance compared to both classical and other learning based localization methods.
翻訳日:2024-08-29 16:00:49 公開日:2024-08-28
# 音声ディープフェイク検出のための OpenSMILE の簡易,解釈可能,有効性

Easy, Interpretable, Effective: openSMILE for voice deepfake detection ( http://arxiv.org/abs/2408.15775v1 )

ライセンス: Link先を確認
Octavian Pascu, Dan Oneata, Horia Cucu, Nicolas M. Müller, (参考訳) 本稿では,音声認証とディープフェイク検出の分野におけるデファクトスタンダードである最新のASVspoof5データセットの攻撃を,非常に単純な特徴の小さなサブセットを用いて,驚くほどの精度で識別できることを実証する。 これらはopenSMILEライブラリから派生したもので、スカラー値、計算が容易、人間の解釈が可能である。 例えば、A10の無声区間の平均長は0.09 \pm 0.02であり、ボナファイドのインスタンスの平均長は0.18 \pm 0.07である。 この特徴だけで、しきい値分類器は攻撃A10に対して10.3%のEER(Equal Error Rate)を達成する。 同様に、すべての攻撃で最大0.8%のEERを達成でき、全体的なEERは15.7 \pm 6.0%である。 これらの特徴の一般化機能について検討し、攻撃が類似のText-to-Speech(TTS)アーキテクチャに由来する場合を中心に、攻撃間を効果的に転送することを発見した。 この発見は、音声のアンチスプーフィングが、部分的には個々のTSシステムの署名や指紋を識別し記憶する問題であることを示しているかもしれない。 これにより、現実世界のアプリケーションにおけるアンチスプーフィングモデルとその課題をよりよく理解できます。

In this paper, we demonstrate that attacks in the latest ASVspoof5 dataset -- a de facto standard in the field of voice authenticity and deepfake detection -- can be identified with surprising accuracy using a small subset of very simplistic features. These are derived from the openSMILE library, and are scalar-valued, easy to compute, and human interpretable. For example, attack A10`s unvoiced segments have a mean length of 0.09 \pm 0.02, while bona fide instances have a mean length of 0.18 \pm 0.07. Using this feature alone, a threshold classifier achieves an Equal Error Rate (EER) of 10.3% for attack A10. Similarly, across all attacks, we achieve up to 0.8% EER, with an overall EER of 15.7 \pm 6.0%. We explore the generalization capabilities of these features and find that some of them transfer effectively between attacks, primarily when the attacks originate from similar Text-to-Speech (TTS) architectures. This finding may indicate that voice anti-spoofing is, in part, a problem of identifying and remembering signatures or fingerprints of individual TTS systems. This allows to better understand anti-spoofing models and their challenges in real-world application.
翻訳日:2024-08-29 15:50:41 公開日:2024-08-28
# 静的・動的感情の表情認識に関する調査

A Survey on Facial Expression Recognition of Static and Dynamic Emotions ( http://arxiv.org/abs/2408.15777v1 )

ライセンス: Link先を確認
Yan Wang, Shaoqi Yan, Yang Liu, Wei Song, Jing Liu, Yang Chang, Xinji Mai, Xiping Hu, Wenqiang Zhang, Zhongxue Gan, (参考訳) 顔表情認識(FER)は、人間、ロボット、デジタルアバター間の人為的コミュニケーションを強化する上で重要な、静的画像と動的シーケンスから感情状態を分析することを目的としている。 FERフィールドが制御された実験室環境から、より複雑な現場シナリオへと進化するにつれて、高度な手法が急速に開発され、FERの既存のレビューではうまく対処されていない新しい課題やアポラッチが報告されている。 本稿では,画像ベース静的FER(SFER)法とビデオベース動的FER(DFER)法の両方を包括的に調査し,モデル指向開発から課題中心の分類までの分析を行う。 我々は、最近のレビューの批判的な比較、共通のデータセットと評価基準の導入、そして、堅牢な研究基盤を確立するためのFERの詳細なワークフローから始める。 次に,SFERにおける8つの主要な課題(表現障害,不確実性,複合感情,クロスドメイン不整合など)と,DFERにおける7つの主要な課題(キーフレームサンプリング,表現強度変動,クロスモーダルアライメントなど)を体系的に検討する。 さらに、最近の進歩、ベンチマークパフォーマンス、主要な応用、倫理的考察を分析します。 最後に,現在進行中の研究の指針となる5つの今後の方向性と開発動向を提案する。 この論文のプロジェクトページはhttps://github.com/wangyanckxx/SurveyFERにある。

Facial expression recognition (FER) aims to analyze emotional states from static images and dynamic sequences, which is pivotal in enhancing anthropomorphic communication among humans, robots, and digital avatars by leveraging AI technologies. As the FER field evolves from controlled laboratory environments to more complex in-the-wild scenarios, advanced methods have been rapidly developed and new challenges and apporaches are encounted, which are not well addressed in existing reviews of FER. This paper offers a comprehensive survey of both image-based static FER (SFER) and video-based dynamic FER (DFER) methods, analyzing from model-oriented development to challenge-focused categorization. We begin with a critical comparison of recent reviews, an introduction to common datasets and evaluation criteria, and an in-depth workflow on FER to establish a robust research foundation. We then systematically review representative approaches addressing eight main challenges in SFER (such as expression disturbance, uncertainties, compound emotions, and cross-domain inconsistency) as well as seven main challenges in DFER (such as key frame sampling, expression intensity variations, and cross-modal alignment). Additionally, we analyze recent advancements, benchmark performances, major applications, and ethical considerations. Finally, we propose five promising future directions and development trends to guide ongoing research. The project page for this paper can be found at https://github.com/wangyanckxx/SurveyFER.
翻訳日:2024-08-29 15:50:41 公開日:2024-08-28
# LogicGame: 大規模言語モデルのルールベースの推論能力のベンチマーク

LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models ( http://arxiv.org/abs/2408.15778v1 )

ライセンス: Link先を確認
Jiayi Gui, Yiming Liu, Jiale Cheng, Xiaotao Gu, Xiao Liu, Hongning Wang, Yuxiao Dong, Jie Tang, Minlie Huang, (参考訳) 大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示し、複雑な問題解決能力を示している。 複雑なルールの理解と実行は、多段階計画とともに、論理的推論の基本であり、実用的なLCMエージェントや意思決定システムにとって重要である。 しかし、LSMを効果的なルールベースの実行者およびプランナーとして評価することは未定である。 本稿では,LLMの包括的なルール理解,実行,計画能力を評価するために設計された新しいベンチマークであるLogicGameを紹介する。 従来のベンチマークとは異なり、LogicGameは初期状態の一連のルールを含む多様なゲームを提供しており、モデルの理解と問題を解決するために事前定義された規則を適用する必要がある。 モデルが特定の結果を達成するためにオペレーションを実行または計画するシミュレーションシナリオを作成します。 これらのゲームシナリオは、予め定義されたルールにのみ依存することで、論理的推論と単なる知識を区別するように特別に設計されている。 この分離により、ルールベースの推論能力を純粋に評価できる。 評価は最終結果だけでなく中間段階も考慮し、モデル性能の総合的な評価を提供する。 さらに、これらの中間ステップは決定論的であり、自動的に検証することができる。 LogicGameは、ルール理解とマルチステップ実行におけるモデルパフォーマンスの正確な評価を提供するために、単純なルールアプリケーションから複雑な推論チェーンまで、さまざまな難易度を持つゲームシナリオを定義している。 LogicGameを利用することで、様々なLCMをテストし、ルールベースの論理的推論能力において顕著な欠点を識別する。

Large Language Models (LLMs) have demonstrated notable capabilities across various tasks, showcasing complex problem-solving abilities. Understanding and executing complex rules, along with multi-step planning, are fundamental to logical reasoning and critical for practical LLM agents and decision-making systems. However, evaluating LLMs as effective rule-based executors and planners remains underexplored. In this paper, we introduce LogicGame, a novel benchmark designed to evaluate the comprehensive rule understanding, execution, and planning capabilities of LLMs. Unlike traditional benchmarks, LogicGame provides diverse games that contain a series of rules with an initial state, requiring models to comprehend and apply predefined regulations to solve problems. We create simulated scenarios in which models execute or plan operations to achieve specific outcomes. These game scenarios are specifically designed to distinguish logical reasoning from mere knowledge by relying exclusively on predefined rules. This separation allows for a pure assessment of rule-based reasoning capabilities. The evaluation considers not only final outcomes but also intermediate steps, providing a comprehensive assessment of model performance. Moreover, these intermediate steps are deterministic and can be automatically verified. LogicGame defines game scenarios with varying difficulty levels, from simple rule applications to complex reasoning chains, in order to offer a precise evaluation of model performance on rule understanding and multi-step execution. Utilizing LogicGame, we test various LLMs and identify notable shortcomings in their rule-based logical reasoning abilities.
翻訳日:2024-08-29 15:50:41 公開日:2024-08-28
# 1つの固有状態から非エルミート親ハミルトニアンを決定する

Determining non-Hermitian parent Hamiltonian from a single eigenstate ( http://arxiv.org/abs/2408.15781v1 )

ライセンス: Link先を確認
Xu-Dan Xie, Zheng-Yuan Xue, Dan-Bo Zhang, (参考訳) ある局所ハミルトニアンの固有状態である量子状態はゼロエネルギー分散によって制約されなければならないため、単一の固有状態がハミルトニアンを一意に決定できるという制約は比較的強い。 非エルミート系の場合、ハミルトニアンを決定するには左右の固有状態のペアが必要であると期待することは自然である。 ここでは、一方の右あるいは左固有状態から非エルミート的ハミルトニアンを決定するのに十分であることを示す。 我々のアプローチは、ハミルトニアンの解が複素ヌルベクトルに対応する量子共分散行列に基づいている。 我々のスキームは、実験量子系における非エルミート的ハミルトン学習を好んでおり、適切な固有状態のみがアクセス可能である。 さらに, 数値シミュレーションを用いて測定誤差の影響を調べ, 提案手法の安定性を示す。

A quantum state for being an eigenstate of some local Hamiltonian should be constraint by zero energy variance and consequently, the constraint is rather strong that a single eigenstate may uniquely determine the Hamiltonian. For non-Hermitian systems, it is natural to expect that determining the Hamiltonian requires a pair of both left and right eigenstates. Here, we observe that it can be sufficient to determine a non-Hermitian Hamiltonian from a single right or left eigenstate. Our approach is based on the quantum covariance matrix, where the solution of Hamiltonian corresponds to the complex null vector. Our scheme favours non-Hermitian Hamiltonian learning on experimental quantum systems, as only the right eigenstates there can be accessed. Furthermore, we use numerical simulations to examine the effects of measurement errors and show the stability of our scheme.
翻訳日:2024-08-29 15:50:41 公開日:2024-08-28
# 重み付きニューラル表現の暗黙的正規化経路

Implicit Regularization Paths of Weighted Neural Representations ( http://arxiv.org/abs/2408.15784v1 )

ライセンス: Link先を確認
Jin-Hong Du, Pratik Patil, (参考訳) 事前訓練した特徴の(観測)重み付けによる暗黙の正則化効果について検討した。 (正規化)トレース函数に関して無限小自由な有界作用素ノルムの重みと特徴行列に対して、異なる重み付け行列とリッジ正規化レベルを連結する同値経路を導出する。 具体的には、有界ノルムのテストベクトルに対して、同じ経路に沿って重み付けされた特徴を訓練したリッジ推定器が漸近的に等価であることを示す。 これらの経路は、重み付けされた特徴を備えた尾根推定器の有効自由度と一致すると解釈できる。 置換のない部分サンプリングの特別な場合については、独立にサンプリングされたランダムな特徴やカーネルの特徴に適用し、Patil等におけるそのような経路の存在に関する著者の最近の予想(Conjectures 7, 8)を確認するとともに、重み付き推定器のアンサンブルに対する付加的リスク分解を示し、アンサンブルサイズが無限大となるときの経路に沿ってリスクが等価であることを示す。 経路等価性の実際的な結果として,複数のモデル (ResNet-50) とデータセット (CIFAR-100) のサブサンプル化された事前学習表現に適用し,効率的なクロスバリデーション手法を開発した。

We study the implicit regularization effects induced by (observation) weighting of pretrained features. For weight and feature matrices of bounded operator norms that are infinitesimally free with respect to (normalized) trace functionals, we derive equivalence paths connecting different weighting matrices and ridge regularization levels. Specifically, we show that ridge estimators trained on weighted features along the same path are asymptotically equivalent when evaluated against test vectors of bounded norms. These paths can be interpreted as matching the effective degrees of freedom of ridge estimators fitted with weighted features. For the special case of subsampling without replacement, our results apply to independently sampled random features and kernel features and confirm recent conjectures (Conjectures 7 and 8) of the authors on the existence of such paths in Patil et al. We also present an additive risk decomposition for ensembles of weighted estimators and show that the risks are equivalent along the paths when the ensemble size goes to infinity. As a practical consequence of the path equivalences, we develop an efficient cross-validation method for tuning and apply it to subsampled pretrained representations across several models (e.g., ResNet-50) and datasets (e.g., CIFAR-100).
翻訳日:2024-08-29 15:50:41 公開日:2024-08-28
# 対話型エージェント:ロールプレイング LLM-to-LLMインタラクションによるカウンセラー-クライアント心理学的カウンセリングのシミュレーション

Interactive Agents: Simulating Counselor-Client Psychological Counseling via Role-Playing LLM-to-LLM Interactions ( http://arxiv.org/abs/2408.15787v1 )

ライセンス: Link先を確認
Huachuan Qiu, Zhenzhong Lan, (参考訳) 大規模言語モデル(LLM)を利用した仮想カウンセラーは、メンタルヘルス問題に苦しむクライアントを効果的に支援するインタラクティブなサポートシステムの構築を目指している。 カウンセラーとクライアントの会話を再現するために、研究者たちはオンラインのメンタルヘルスプラットフォームを構築した。 有効性にも拘わらず、人間のアノテーションは時間がかかり、コストがかかり、プライバシーが保護され、スケーラブルではないため、課題が存在する。 心理学的カウンセリング会話シミュレーションにおけるLLMの適用性を検討するため、カウンセラーとクライアントの相互作用をシミュレートするためのロールプレイングを通じて2つのLLMを利用するフレームワークを提案する。 我々のフレームワークは2つのLCMで構成されており、1つは特定の実生活のユーザプロファイルを備えたクライアントとして機能し、もう1つは経験豊富なカウンセラーとしての役割を担い、統合的治療技術を用いてプロフェッショナルな応答を生成する。 GPT-4モデルのゼロショットプロンプトによりカウンセラーとクライアントの両方を実装した。 LLMがカウンセラー-クライアント間相互作用をシミュレートし,LLM-と人為的会話の相違を理解するために,様々な視点から合成データを評価する。 まず、自動評価によってクライアントのパフォーマンスを評価する。 次に,LLMが生成する対話と専門カウンセラーが生成する対話の相違を分析し,比較する。 さらに、我々は、精神保健の最先端モデルに対するベンチマークにより、合成対話で訓練されたLLMベースのカウンセラーの性能を徹底的に検証する広範囲な実験を行った。

Virtual counselors powered by large language models (LLMs) aim to create interactive support systems that effectively assist clients struggling with mental health challenges. To replicate counselor-client conversations, researchers have built an online mental health platform that allows professional counselors to provide clients with text-based counseling services for about an hour per session. Notwithstanding its effectiveness, challenges exist as human annotation is time-consuming, cost-intensive, privacy-protected, and not scalable. To address this issue and investigate the applicability of LLMs in psychological counseling conversation simulation, we propose a framework that employs two LLMs via role-playing for simulating counselor-client interactions. Our framework involves two LLMs, one acting as a client equipped with a specific and real-life user profile and the other playing the role of an experienced counselor, generating professional responses using integrative therapy techniques. We implement both the counselor and the client by zero-shot prompting the GPT-4 model. In order to assess the effectiveness of LLMs in simulating counselor-client interactions and understand the disparities between LLM- and human-generated conversations, we evaluate the synthetic data from various perspectives. We begin by assessing the client's performance through automatic evaluations. Next, we analyze and compare the disparities between dialogues generated by the LLM and those generated by professional counselors. Furthermore, we conduct extensive experiments to thoroughly examine the performance of our LLM-based counselor trained with synthetic interactive dialogues by benchmarking against state-of-the-art models for mental health.
翻訳日:2024-08-29 15:50:41 公開日:2024-08-28
# ランク付け学習による効率的なLLMスケジューリング

Efficient LLM Scheduling by Learning to Rank ( http://arxiv.org/abs/2408.15792v1 )

ライセンス: Link先を確認
Yichao Fu, Siqi Zhu, Runlong Su, Aurick Qiao, Ion Stoica, Hao Zhang, (参考訳) LLM(Large Language Model)推論では、LLM要求の出力長は、典型的には未知の先行値と見なされる。 その結果、ほとんどのLLMサービスシステムは単純なFCFSスケジューリング戦略を採用しており、HOL(Head-Of-Line)がブロックされ、スループットとサービス品質が低下する。 本稿では、この仮定を再検討し、各要求の正確な生成長を予測できないが、要求のバッチにおける出力長の相対的なランクを、学習によってランク付けできることを示す。 ランキング情報は、要求をスケジューリングするための貴重なガイダンスを提供する。 この知見に基づいて,LLM推論のための新しいスケジューラを開発し,SJFスケジュールを既存手法よりもよく近似できるサービスを提供する。 我々は,このスケジューラを最先端のLCMサービスシステムに統合し,チャットボットのレイテンシ2.8倍,合成データ生成のスループット6.5倍という,いくつかの重要なアプリケーションで大幅な性能向上を実現した。 私たちのコードはhttps://github.com/hao-ai-lab/vllm-ltr.gitで公開されています。

In Large Language Model (LLM) inference, the output length of an LLM request is typically regarded as not known a priori. Consequently, most LLM serving systems employ a simple First-come-first-serve (FCFS) scheduling strategy, leading to Head-Of-Line (HOL) blocking and reduced throughput and service quality. In this paper, we reexamine this assumption -- we show that, although predicting the exact generation length of each request is infeasible, it is possible to predict the relative ranks of output lengths in a batch of requests, using learning to rank. The ranking information offers valuable guidance for scheduling requests. Building on this insight, we develop a novel scheduler for LLM inference and serving that can approximate the shortest-job-first (SJF) schedule better than existing approaches. We integrate this scheduler with the state-of-the-art LLM serving system and show significant performance improvement in several important applications: 2.8x lower latency in chatbot serving and 6.5x higher throughput in synthetic data generation. Our code is available at https://github.com/hao-ai-lab/vllm-ltr.git
翻訳日:2024-08-29 15:50:41 公開日:2024-08-28
# 学術計算予算への言語適応:Tokenizer Swapping WorksとPure bfloat16

Language Adaptation on a Tight Academic Compute Budget: Tokenizer Swapping Works and Pure bfloat16 Is Enough ( http://arxiv.org/abs/2408.15793v1 )

ライセンス: Link先を確認
Konstantin Dobler, Gerard de Melo, (参考訳) 厳格な予算で言語適応のためのLLMの継続的な事前訓練について検討する。 我々は、Mistral-7Bをドイツ語やアラビア語に適応させることに重点を置いており、この設定における効率と有効性を改善するためにいくつかの手法を評価している。 この厳密な計算予算に適合したドイツのモデルはMistral-7Bに比べて性能が劣る一方、アラビアのモデルはいくつかのベースラインを上回り、十分に表現された言語では、特殊化のための事前訓練は必ずしも役に立たない。 本研究の主な成果は, トレーニング精度とトークンスワップに着目した。 以上の結果から,純粋なbfloat16トレーニングは,数個のGPUのみを使用する場合よりもはるかに高速でありながら,混合精度トレーニングの代替となる可能性が示唆された。 特殊トークン化器をスワップすることでより効率的なトークン化が可能となり、ドイツのトークンを含むオリジナルのトークン化器と競合するが、ドイツ語のパフォーマンスは大幅に向上しなかった。 コードとモデルの重み付けはGitHubで入手できる。

We investigate continued pretraining of LLMs for language adaptation on a tight academic budget: a setting in which only a few GPUs can be used in parallel, for a heavily constrained duration. We focus on adapting Mistral-7B to German or Arabic and evaluate several techniques to improve efficiency and effectiveness in this setting. Our German models adapted on this tight compute budget underperform compared to the base Mistral-7B, while our Arabic models outperform several baselines, showing that for sufficiently well-represented languages, continued pretraining for specialization is not always helpful. Our main findings focus on training precision and tokenizer swapping. Our results show that pure bfloat16 training is a viable alternative to mixed-precision training, while being much faster when only using a few GPUs. Swapping the tokenizer for a specialized one yields more efficient tokenization and is competitive with the original tokenizer, which already contains some German tokens, but did not significantly increase performance for German. Code and model weights are available at on GitHub.
翻訳日:2024-08-29 15:50:41 公開日:2024-08-28
# 大規模言語モデルを用いたFew-Shot Promptingを用いた名前付きエンティティ認識の評価

Evaluating Named Entity Recognition Using Few-Shot Prompting with Large Language Models ( http://arxiv.org/abs/2408.15796v1 )

ライセンス: Link先を確認
Hédi Zhegidi, Ludovic Moncla, (参考訳) 名前付きエンティティ認識(NER)のための大規模言語モデルを用いたFew-Shot Promptingの評価を行った。 従来のNERシステムは広範なラベル付きデータセットに依存しており、取得にはコストと時間を要する。 Few-Shot PromptingやIn-context Learningは、モデルが最小限の例でエンティティを認識できるようにする。 NERタスクにおけるGPT-4のような最先端モデルの評価を行い、その数ショットのパフォーマンスと完全に教師付きベンチマークを比較した。 結果は、パフォーマンスのギャップがある一方で、大きなモデルは、非常に限られたデータを持つ新しいエンティティタイプやドメインに適応することが優れていることを示している。 また、プロンプトエンジニアリング、ガイド付き出力フォーマット、コンテキスト長がパフォーマンスに与える影響についても検討する。 この研究は、大規模なラベル付きデータセットの必要性を減らし、NERのスケーラビリティとアクセシビリティを向上させるFew-Shot Learningの可能性を強調している。

This paper evaluates Few-Shot Prompting with Large Language Models for Named Entity Recognition (NER). Traditional NER systems rely on extensive labeled datasets, which are costly and time-consuming to obtain. Few-Shot Prompting or in-context learning enables models to recognize entities with minimal examples. We assess state-of-the-art models like GPT-4 in NER tasks, comparing their few-shot performance to fully supervised benchmarks. Results show that while there is a performance gap, large models excel in adapting to new entity types and domains with very limited data. We also explore the effects of prompt engineering, guided output format and context length on performance. This study underscores Few-Shot Learning's potential to reduce the need for large labeled datasets, enhancing NER scalability and accessibility.
翻訳日:2024-08-29 15:50:41 公開日:2024-08-28
# ニューロモルフィックエッジコンピューティングにおける脳様高速学習のシミュレーション

Emulating Brain-like Rapid Learning in Neuromorphic Edge Computing ( http://arxiv.org/abs/2408.15800v1 )

ライセンス: Link先を確認
Kenneth Stewart, Michael Neumeier, Sumit Bam Shrestha, Garrick Orchard, Emre Neftci, (参考訳) リアルタイム学習機能を備えたエッジでのパーソナライズされたインテリジェンスの実現は、私たちの日々の経験を高め、意思決定、計画、センシングを支援する上で、大きな保証となります。 しかし、パーソナライズされたデータの欠如、ハードウェア能力の不足、オンライン学習によって引き起こされる固有の課題のため、現在の技術では、効率的で信頼性の高いエッジラーニングは依然として難しいままである。 時間とともに、そして複数の発達段階にわたって、脳は、以前の知識に基づいて徐々に構築することによって、新しい知識を効率的に組み込むように進化してきた。 本研究では,脳の神経とシナプスの過程を2段階の学習でシミュレートするデジタルニューロモルフィック技術を用いて,学習の複数の段階をエミュレートする。 まず、メタトレーニング段階は、ニューロモルフィックハードウェアの微分可能なシミュレーションを用いて、ワンショット学習のためのシナプス可塑性のハイパーパラメータを訓練する。 このメタトレーニングプロセスは、ハードウェアローカルな3要素シナプス可塑性規則とその関連するハイパーパラメータを洗練して、トレーニングされたタスク領域と整合させる。 その後のデプロイメント段階では、これらの最適化されたハイパーパラメータにより、新しいクラスの高速、データ効率、正確な学習が可能になる。 我々は,事象駆動型視覚センサデータとIntel Loihiニューロモルフィックプロセッサを用いて,その塑性力学を用いて,転送学習よりも大幅に改善された新しいクラスをリアルタイムにワンショット学習する手法を実証した。 我々の手法は任意の可塑性モデルで展開することができ、不慣れな環境のナビゲートやユーザエンゲージメントによる予期せぬデータのカテゴリの学習など、エッジでの迅速な学習や適応を必要とする状況に適用することができる。

Achieving personalized intelligence at the edge with real-time learning capabilities holds enormous promise in enhancing our daily experiences and helping decision making, planning, and sensing. However, efficient and reliable edge learning remains difficult with current technology due to the lack of personalized data, insufficient hardware capabilities, and inherent challenges posed by online learning. Over time and across multiple developmental stages, the brain has evolved to efficiently incorporate new knowledge by gradually building on previous knowledge. In this work, we emulate the multiple stages of learning with digital neuromorphic technology that simulates the neural and synaptic processes of the brain using two stages of learning. First, a meta-training stage trains the hyperparameters of synaptic plasticity for one-shot learning using a differentiable simulation of the neuromorphic hardware. This meta-training process refines a hardware local three-factor synaptic plasticity rule and its associated hyperparameters to align with the trained task domain. In a subsequent deployment stage, these optimized hyperparameters enable fast, data-efficient, and accurate learning of new classes. We demonstrate our approach using event-driven vision sensor data and the Intel Loihi neuromorphic processor with its plasticity dynamics, achieving real-time one-shot learning of new classes that is vastly improved over transfer learning. Our methodology can be deployed with arbitrary plasticity models and can be applied to situations demanding quick learning and adaptation at the edge, such as navigating unfamiliar environments or learning unexpected categories of data through user engagement.
翻訳日:2024-08-29 15:50:41 公開日:2024-08-28
# 要約のスケールアップ:長文抽出要約のための大規模言語モデルを活用する

Scaling Up Summarization: Leveraging Large Language Models for Long Text Extractive Summarization ( http://arxiv.org/abs/2408.15801v1 )

ライセンス: Link先を確認
Léo Hemamou, Mehdi Debiane, (参考訳) デジタルテキストが前例のない速度で普及している時代には、効率的な要約ツールが不可欠になっている。 大規模言語モデル(LLM)は様々なNLPタスクにうまく適用されているが、抽出テキスト要約におけるそれらの役割はいまだ解明されていない。 本稿では,LLM,特にLLAMA2-7BとChatGLM2-6Bを活用するフレームワークであるEYEGLAXS(Easy Yet Efficient larGe LAnguage model for eXtractive Summarization)を紹介する。 事実的不正確さや幻覚といった問題に悩まされる抽象的手法の代わりに、EYEGLAXSは、事実的および文法的整合性を保証するために抽出的要約に焦点を当てている。 Flash Attention やパラメータ効率のよいファインチューニング (PEFT) のような最先端技術を利用することで、EYEGLAXS は LLM に関連する計算と資源の課題に対処する。 このシステムはPubMedやArXivといった有名なデータセットに新しいパフォーマンスベンチマークを設定する。 さらに、異なるシーケンス長の処理におけるLCMの適応性と、より小さなデータセットでのトレーニングにおける効率性について、さらなる分析を通じて研究を拡張した。 これらのコントリビューションは、この分野に新しい標準を設定するだけでなく、抽出テキスト要約における将来的な研究の道を開く。

In an era where digital text is proliferating at an unprecedented rate, efficient summarization tools are becoming indispensable. While Large Language Models (LLMs) have been successfully applied in various NLP tasks, their role in extractive text summarization remains underexplored. This paper introduces EYEGLAXS (Easy Yet Efficient larGe LAnguage model for eXtractive Summarization), a framework that leverages LLMs, specifically LLAMA2-7B and ChatGLM2-6B, for extractive summarization of lengthy text documents. Instead of abstractive methods, which often suffer from issues like factual inaccuracies and hallucinations, EYEGLAXS focuses on extractive summarization to ensure factual and grammatical integrity. Utilizing state-of-the-art techniques such as Flash Attention and Parameter-Efficient Fine-Tuning (PEFT), EYEGLAXS addresses the computational and resource challenges typically associated with LLMs. The system sets new performance benchmarks on well-known datasets like PubMed and ArXiv. Furthermore, we extend our research through additional analyses that explore the adaptability of LLMs in handling different sequence lengths and their efficiency in training on smaller datasets. These contributions not only set a new standard in the field but also open up promising avenues for future research in extractive text summarization.
翻訳日:2024-08-29 15:50:41 公開日:2024-08-28
# 放射線学における医用視覚言語モデルのための視覚プロンプト工学

Visual Prompt Engineering for Medical Vision Language Models in Radiology ( http://arxiv.org/abs/2408.15802v1 )

ライセンス: Link先を確認
Stefan Denner, Markus Bujotzek, Dimitrios Bounias, David Zimmerer, Raphael Stock, Paul F. Jäger, Klaus Maier-Hein, (参考訳) 放射線学における医用画像分類は、特に目に見えない病態への一般化において重要な課題に直面している。 対照的にCLIPは、ゼロショット分類性能を改善するためにマルチモーダル学習を活用することで、有望なソリューションを提供する。 しかし、医学領域では病変は小さく、埋め込み空間ではうまく表現できない可能性がある。 そこで本稿では,放射線学における視覚言語モデル(VLM)の能力を高めるために,視覚プロンプト工学の可能性を探る。 バイオメディカルな画像テキストペアを訓練したバイオメディカルCLIPを用いて, 画像に直接視覚マーカーを埋め込むことによって, モデルが重要領域に注意を向ける影響について検討した。 肺結節悪性度分類に着目したJSRTデータセットの評価では,矢印,円,輪郭などの視覚的プロンプトを$\unicode{x2013}$に組み込むことで,AUROC,AUPRC,F1スコア,精度などの分類基準を大幅に改善した。 さらに,本研究は,注意マップ,強化されたモデル解釈可能性を示すとともに,臨床的に関連のある領域に焦点をあてる。 これらの知見は、医用画像解析におけるVLM性能向上のための、単純かつ強力なアプローチとして、視覚的プロンプトエンジニアリングの有効性を裏付けるものである。

Medical image classification in radiology faces significant challenges, particularly in generalizing to unseen pathologies. In contrast, CLIP offers a promising solution by leveraging multimodal learning to improve zero-shot classification performance. However, in the medical domain, lesions can be small and might not be well represented in the embedding space. Therefore, in this paper, we explore the potential of visual prompt engineering to enhance the capabilities of Vision Language Models (VLMs) in radiology. Leveraging BiomedCLIP, trained on extensive biomedical image-text pairs, we investigate the impact of embedding visual markers directly within radiological images to guide the model's attention to critical regions. Our evaluation on the JSRT dataset, focusing on lung nodule malignancy classification, demonstrates that incorporating visual prompts $\unicode{x2013}$ such as arrows, circles, and contours $\unicode{x2013}$ significantly improves classification metrics including AUROC, AUPRC, F1 score, and accuracy. Moreover, the study provides attention maps, showcasing enhanced model interpretability and focus on clinically relevant areas. These findings underscore the efficacy of visual prompt engineering as a straightforward yet powerful approach to advance VLM performance in medical image analysis.
翻訳日:2024-08-29 15:50:41 公開日:2024-08-28
# ModalityMirror:マルチモーダル蒸留によるモジュール不均一学習における音声分類の改善

ModalityMirror: Improving Audio Classification in Modality Heterogeneity Federated Learning with Multimodal Distillation ( http://arxiv.org/abs/2408.15803v1 )

ライセンス: Link先を確認
Tiantian Feng, Tuo Zhang, Salman Avestimehr, Shrikanth S. Narayanan, (参考訳) マルチモーダル・フェデレート・ラーニングは、クライアントのモダリティの不均一性の課題に頻繁に遭遇し、マルチモーダルラーニングにおける二次モダリティに対する望ましくないパフォーマンスをもたらす。 音声視覚学習では特に一般的であり、音声認識タスクにおいて、音声はより弱いモダリティであるとしばしば考えられている。 この課題に対処するために,音声視覚フェデレーション学習モデルからの知識蒸留を活用して,音質モデルの性能を向上させるModalityMirrorを提案する。 ModalityMirrorは、一様エンコーダを集約するモダリティワイドFLステージと、一様学生モデルを訓練する多様クライアント上の連合知識蒸留ステージの2段階を含む。 以上の結果から, Harmony などの最先端の FL 手法と比較して,特にビデオが欠落している場合に比べて,ModalityMirror は音声分類を著しく改善することが示された。 提案手法は,マルチモーダルFLに固有の様々なモダリティスペクトルを活用できる可能性を秘めている。

Multimodal Federated Learning frequently encounters challenges of client modality heterogeneity, leading to undesired performances for secondary modality in multimodal learning. It is particularly prevalent in audiovisual learning, with audio is often assumed to be the weaker modality in recognition tasks. To address this challenge, we introduce ModalityMirror to improve audio model performance by leveraging knowledge distillation from an audiovisual federated learning model. ModalityMirror involves two phases: a modality-wise FL stage to aggregate uni-modal encoders; and a federated knowledge distillation stage on multi-modality clients to train an unimodal student model. Our results demonstrate that ModalityMirror significantly improves the audio classification compared to the state-of-the-art FL methods such as Harmony, particularly in audiovisual FL facing video missing. Our approach unlocks the potential for exploiting the diverse modality spectrum inherent in multi-modal FL.
翻訳日:2024-08-29 15:50:41 公開日:2024-08-28
# 変圧器を用いた車両用ダッシュカムの物体検出

Object Detection for Vehicle Dashcams using Transformers ( http://arxiv.org/abs/2408.15809v1 )

ライセンス: Link先を確認
Osama Mustafa, Khizer Ali, Anam Bibi, Imran Siddiqi, Momina Moetesum, (参考訳) インテリジェントオートメーションの利用は、ドライバーやフリートマネジメント企業を支援することにより、自動車業界で著しく増加しており、それによって生産性が向上している。 ダッシュカメラはこの目的のために使われており、周囲の複数の物体や事象を瞬時に識別し、理解することができる。 本稿では,トランスを用いたダッシュカムにおける物体検出のための新しい手法を提案する。 本システムは,気象や照明など,様々な条件下での強い性能を示す,最先端の検出TRansformer (DETR) に基づいている。 変換器の使用により、意思決定における文脈情報の考慮が可能となり、オブジェクト検出の精度が向上する。 提案手法を検証するため,実世界の状況を表すデータセットを用いてDreTRモデルを訓練した。 以上の結果から,変圧器によるインテリジェントな自動化は,ダッシュカムシステムの能力を大幅に向上させる可能性が示唆された。 このモデルは検出時に0.95mAPを達成する。

The use of intelligent automation is growing significantly in the automotive industry, as it assists drivers and fleet management companies, thus increasing their productivity. Dash cams are now been used for this purpose which enables the instant identification and understanding of multiple objects and occurrences in the surroundings. In this paper, we propose a novel approach for object detection in dashcams using transformers. Our system is based on the state-of-the-art DEtection TRansformer (DETR), which has demonstrated strong performance in a variety of conditions, including different weather and illumination scenarios. The use of transformers allows for the consideration of contextual information in decisionmaking, improving the accuracy of object detection. To validate our approach, we have trained our DETR model on a dataset that represents real-world conditions. Our results show that the use of intelligent automation through transformers can significantly enhance the capabilities of dashcam systems. The model achieves an mAP of 0.95 on detection.
翻訳日:2024-08-29 15:50:41 公開日:2024-08-28
# 咬合を意識した多視点ポス融合による3次元人間のポス推定

Multi-view Pose Fusion for Occlusion-Aware 3D Human Pose Estimation ( http://arxiv.org/abs/2408.15810v1 )

ライセンス: Link先を確認
Laura Bragagnolo, Matteo Terreran, Davide Allegro, Stefano Ghidoni, (参考訳) ロバストな3D人間のポーズ推定は、安全で効果的な人間とロボットのコラボレーションを保証するために不可欠である。 しかし、人間の正確な知覚は、強い隠蔽と限られたカメラ視点のため、これらのシナリオでは特に困難である。 現在の3次元ポーズ推定手法は、そのような条件下では比較的脆弱である。 本研究では,人間とロボットのコラボレーションの文脈において,ロバストな3次元ポーズ推定のための新しいアプローチを提案する。 ノイズの多い2次元特徴を三角法に頼らず、絶対単分子法で提供される3次元骨格に多視点融合を行う。 正確な3Dポーズ推定は再投射誤差最適化によって得られ、手足の長さ対称性の制約が導入された。 提案手法は,Human3.6MとHuman3.6M-Occludedで評価され,カメラビューに合成オクルージョンを付加し,重度オクルージョンの下でポーズ推定アルゴリズムをテストすることを目的としている。 実際のロボットコラボレーションワークセルにおいて,現在の3次元ポーズ推定手法を強く超越した手法を検証した。 提案手法は最先端の多視点人間のポーズ推定手法より優れており、実際の人間とロボットの協調作業における信頼性と効果的な解決策として、強い閉塞を伴う挑戦シナリオの処理において優れた能力を示す。

Robust 3D human pose estimation is crucial to ensure safe and effective human-robot collaboration. Accurate human perception,however, is particularly challenging in these scenarios due to strong occlusions and limited camera viewpoints. Current 3D human pose estimation approaches are rather vulnerable in such conditions. In this work we present a novel approach for robust 3D human pose estimation in the context of human-robot collaboration. Instead of relying on noisy 2D features triangulation, we perform multi-view fusion on 3D skeletons provided by absolute monocular methods. Accurate 3D pose estimation is then obtained via reprojection error optimization, introducing limbs length symmetry constraints. We evaluate our approach on the public dataset Human3.6M and on a novel version Human3.6M-Occluded, derived adding synthetic occlusions on the camera views with the purpose of testing pose estimation algorithms under severe occlusions. We further validate our method on real human-robot collaboration workcells, in which we strongly surpass current 3D human pose estimation methods. Our approach outperforms state-of-the-art multi-view human pose estimation techniques and demonstrates superior capabilities in handling challenging scenarios with strong occlusions, representing a reliable and effective solution for real human-robot collaboration setups.
翻訳日:2024-08-29 15:50:41 公開日:2024-08-28
# DQFormer: 分離クエリによる統一LiDARパノプティブセグメンテーションを目指して

DQFormer: Towards Unified LiDAR Panoptic Segmentation with Decoupled Queries ( http://arxiv.org/abs/2408.15813v1 )

ライセンス: Link先を確認
Yu Yang, Jianbiao Mei, Liang Liu, Siliang Du, Yilin Xiao, Jongwon Ra, Yong Liu, Xiao Xu, Huifeng Wu, (参考訳) モノやモノのインスタンスとセマンティックセグメンテーションを共同で実行するLiDAR汎視セグメンテーションは、LiDAR知覚タスクにおいて基本的な役割を果たす。 既存のほとんどのメソッドは、これらの2つのセグメンテーションタスクを明示的に分離し、異なるブランチ(セマンティックブランチとインスタンスブランチ)を利用するが、最近のメソッドでは、LiDARのパノプティクスセグメンテーションを統合するためのクエリベースのパラダイムを取り入れている。 しかし,3次元シーンにおける物体(モノ)とその周囲の空間分布と特徴は,物体・物体の相互競合や分類・分離のあいまいさなどの課題に繋がる。 本稿では,個々の復号化とアンビグジュアリティを緩和するために,個々の復号化と復号化のための本質的な特性に応じて,モノ/スタッフクエリを分離する手法を提案する。 そこで本研究では,統合ワークフローにセマンティックとインスタンスセグメンテーションを実装するDQFormerという新しいフレームワークを提案する。 具体的には,複数レベルのBEV埋め込みを融合させることにより,セマンティクスを用いた情報的クエリを提案するために,分離クエリ生成器を設計する。 さらに、クエリとマスク埋め込み間のマスク交叉アテンションを実行することで、対応するセグメンテーションマスクをデコードするために、クエリ指向マスクデコーダを導入する。 最後に、デコードされたマスクとクエリのセマンティクスを組み合わせて、パンプト結果を生成する。 nuScenesとSemanticKITTIデータセットに関する大規模な実験は、私たちのDQFormerフレームワークの優位性を示しています。

LiDAR panoptic segmentation, which jointly performs instance and semantic segmentation for things and stuff classes, plays a fundamental role in LiDAR perception tasks. While most existing methods explicitly separate these two segmentation tasks and utilize different branches (i.e., semantic and instance branches), some recent methods have embraced the query-based paradigm to unify LiDAR panoptic segmentation. However, the distinct spatial distribution and inherent characteristics of objects(things) and their surroundings(stuff) in 3D scenes lead to challenges, including the mutual competition of things/stuff and the ambiguity of classification/segmentation. In this paper, we propose decoupling things/stuff queries according to their intrinsic properties for individual decoding and disentangling classification/segmentation to mitigate ambiguity. To this end, we propose a novel framework dubbed DQFormer to implement semantic and instance segmentation in a unified workflow. Specifically, we design a decoupled query generator to propose informative queries with semantics by localizing things/stuff positions and fusing multi-level BEV embeddings. Moreover, a query-oriented mask decoder is introduced to decode corresponding segmentation masks by performing masked cross-attention between queries and mask embeddings. Finally, the decoded masks are combined with the semantics of the queries to produce panoptic results. Extensive experiments on nuScenes and SemanticKITTI datasets demonstrate the superiority of our DQFormer framework.
翻訳日:2024-08-29 15:40:56 公開日:2024-08-28
# MR-Adopt:メタモルフィックテストのための入力変換関数の自動推論

MR-Adopt: Automatic Deduction of Input Transformation Function for Metamorphic Testing ( http://arxiv.org/abs/2408.15815v1 )

ライセンス: Link先を確認
Congying Xu, Songqiang Chen, Jiarong Wu, Shing-Chi Cheung, Valerio Terragni, Hengcheng Zhu, Jialun Cao, (参考訳) 最近の研究によると、多くの開発者が書いたテストケースが再利用可能なメタモルフィック関係(MR)をエンコードできるが、70%以上が直接エンコードされた関係でソース入力とフォローアップ入力をハードコードしている。 このような符号化されたMRは、ソース入力を対応するフォローアップ入力に変換する明示的な入力変換を含まないが、新しいソース入力で再利用することができず、テスト精度が向上する。 本稿では、ハードコードされたソースとフォローアップ入力から入力変換を自動生成するMR-Adoptを提案する。 通常、MR符号化テストケースで利用可能な1組のソースとフォローアップインプットのみを例として、私たちはLLMを活用してテストケースの意図を理解し、ソースとフォローアップインプットペアの追加例を生成しました。 これは、複数のソース入力に一般化可能な入力変換の生成を導くのに役立つ。 また,LLMが誤コードを生成する問題を緩和するために,データフロー解析によりMR非関連コード要素を除去し,LLM生成変換を改良する。 最後に、符号化された出力関係に基づいて候補変換を評価し、その結果として最適な変換を選択する。 評価の結果, MR-Adopt はバニラ GPT-3.5 よりも33.33%高い 72.00% の符号化された MR に対して, 実験ソース入力に適用可能な入力変換を生成可能であることが示された。 MR-Adoptが生成する入力変換を組み込むことで、符号化されたMRベースのテストケースは、テスト精度を効果的に向上し、それぞれ10.62%と18.91%のラインカバレッジと突然変異スコアを増大させることができる。

While a recent study reveals that many developer-written test cases can encode a reusable Metamorphic Relation (MR), over 70% of them directly hard-code the source input and follow-up input in the encoded relation. Such encoded MRs, which do not contain an explicit input transformation to transform the source inputs to corresponding follow-up inputs, cannot be reused with new source inputs to enhance test adequacy. In this paper, we propose MR-Adopt (Automatic Deduction Of inPut Transformation) to automatically deduce the input transformation from the hard-coded source and follow-up inputs, aiming to enable the encoded MRs to be reused with new source inputs. With typically only one pair of source and follow-up inputs available in an MR-encoded test case as the example, we leveraged LLMs to understand the intention of the test case and generate additional examples of source-followup input pairs. This helps to guide the generation of input transformations generalizable to multiple source inputs. Besides, to mitigate the issue that LLMs generate erroneous code, we refine LLM-generated transformations by removing MR- irrelevant code elements with data-flow analysis. Finally, we assess candidate transformations based on encoded output relations and select the best transformation as the result. Evaluation results show that MR-Adopt can generate input transformations applicable to all experimental source inputs for 72.00% of encoded MRs, which is 33.33% more than using vanilla GPT-3.5. By incorporating MR- Adopt-generated input transformations, encoded MR-based test cases can effectively enhance the test adequacy, increasing the line coverage and mutation score by 10.62% and 18.91%, respectively.
翻訳日:2024-08-29 15:40:56 公開日:2024-08-28
# 大規模樹種認識のための採鉱現場データ

Mining Field Data for Tree Species Recognition at Scale ( http://arxiv.org/abs/2408.15816v1 )

ライセンス: Link先を確認
Dimitri Gominski, Daniel Ortiz-Gonzalo, Martin Brandt, Maurice Mugabowindekwe, Rasmus Fensholt, (参考訳) 個々の木種ラベルは、専門知識と光解釈の限界のために、特に取得が困難である。 そこで本研究では,森林在庫データから種名を自動的にマイニングする手法について,事前学習木検出モデルを用いて提案する。 空中画像のツリーインスタンスを識別し,人間による関与がほとんどないフィールドデータと照合する。 得られたデータセットについて一連の実験を行い、ノイズやラベルのないデータポイントを追加する際に有益な効果を示し、大規模個体群マッピングの強い可能性を強調した。

Individual tree species labels are particularly hard to acquire due to the expert knowledge needed and the limitations of photointerpretation. Here, we present a methodology to automatically mine species labels from public forest inventory data, using available pretrained tree detection models. We identify tree instances in aerial imagery and match them with field data with close to zero human involvement. We conduct a series of experiments on the resulting dataset, and show a beneficial effect when adding noisy or even unlabeled data points, highlighting a strong potential for large-scale individual species mapping.
翻訳日:2024-08-29 15:40:56 公開日:2024-08-28
# 構造評価による自動混合解析

Automated Mixture Analysis via Structural Evaluation ( http://arxiv.org/abs/2408.15819v1 )

ライセンス: Link先を確認
Zachary T. P. Fried, Brett A. McGuire, (参考訳) 化学混合物成分の定量は、様々な科学分野において不可欠である。 しばしば、これらの混合物の組成を解読するために分光法が用いられる。 しかし、分光データベースに存在するスペクトルの特徴の密度は、個々の種への明確な割り当てを困難にすることができる。 しかし、混合物の成分は通常、環境過程や共有前駆体分子によって化学的に関係している。 したがって、混合物中にどの種が存在するかを決定する際には、分子の化学的関連性の分析が重要である。 本稿では、機械学習の分子埋め込み法とグラフベースのランキングシステムを組み合わせて、他の既知の種および/または化学の先駆体に基づいて、混合体に存在する分子の可能性を判定する。 回転分光混合分析アルゴリズムにこの指標を組み込むことにより、これらの混合物成分を極めて高い精度(>97%)で効率良く同定できることを実証する。

The determination of chemical mixture components is vital to a multitude of scientific fields. Oftentimes spectroscopic methods are employed to decipher the composition of these mixtures. However, the sheer density of spectral features present in spectroscopic databases can make unambiguous assignment to individual species challenging. Yet, components of a mixture are commonly chemically related due to environmental processes or shared precursor molecules. Therefore, analysis of the chemical relevance of a molecule is important when determining which species are present in a mixture. In this paper, we combine machine-learning molecular embedding methods with a graph-based ranking system to determine the likelihood of a molecule being present in a mixture based on the other known species and/or chemical priors. By incorporating this metric in a rotational spectroscopy mixture analysis algorithm, we demonstrate that the mixture components can be identified with extremely high accuracy (>97%) in an efficient manner.
翻訳日:2024-08-29 15:40:56 公開日:2024-08-28
# 弱教師付き計算病理のための特徴抽出器としての基礎モデルのベンチマーク

Benchmarking foundation models as feature extractors for weakly-supervised computational pathology ( http://arxiv.org/abs/2408.15823v1 )

ライセンス: Link先を確認
Peter Neidlinger, Omar S. M. El Nahhas, Hannah Sophie Muti, Tim Lenz, Michael Hoffmeister, Hermann Brenner, Marko van Treeck, Rupert Langer, Bastian Dislich, Hans Michael Behrens, Christoph Röcken, Sebastian Foersch, Daniel Truhn, Antonio Marra, Oliver Lester Saldanha, Jakob Nikolas Kather, (参考訳) 人工知能の進歩は、臨床関連情報を抽出できる多くの病理基盤モデルの開発を推進してきた。 しかし、現在、これらの基礎モデルを真の外部コホートと臨床関連課題に基づいて独立して評価する文献が限られており、今後の改善に向けた調整が明らかにされている。 本研究は, 肺, 大腸癌, 胃癌, 乳癌の13例の病理組織学的基盤モデルを用いて, 肺, 大腸癌, 胃癌, 乳癌の6,791例, 9,493例について比較検討した。 これらのモデルは, バイオマーカー, 形態学的特性, 予後に関する弱い教師付きタスクに基づいて評価した。 視覚言語基礎モデルであるCONCHは,視覚のみの基礎モデルと比較して,タスクの42%で最高の性能を示した。 実験の結果、異なるコホートで訓練された基礎モデルは、同じラベルを予測するために相補的な特徴を学習し、現在の最先端よりも優れていることが判明した。 補完的なファンデーションモデルのアンサンブルを作成することは、タスクの66%でCONCHを上回った。 さらに, 基礎モデルでは, データの多様性がデータ量を上回ることが示唆された。 我々の研究は、病理基盤モデルを改善するための実行可能な調整に焦点を当てている。

Advancements in artificial intelligence have driven the development of numerous pathology foundation models capable of extracting clinically relevant information. However, there is currently limited literature independently evaluating these foundation models on truly external cohorts and clinically-relevant tasks to uncover adjustments for future improvements. In this study, we benchmarked ten histopathology foundation models on 13 patient cohorts with 6,791 patients and 9,493 slides from lung, colorectal, gastric, and breast cancers. The models were evaluated on weakly-supervised tasks related to biomarkers, morphological properties, and prognostic outcomes. We show that a vision-language foundation model, CONCH, yielded the highest performance in 42% of tasks when compared to vision-only foundation models. The experiments reveal that foundation models trained on distinct cohorts learn complementary features to predict the same label, and can be fused to outperform the current state of the art. Creating an ensemble of complementary foundation models outperformed CONCH in 66% of tasks. Moreover, our findings suggest that data diversity outweighs data volume for foundation models. Our work highlights actionable adjustments to improve pathology foundation models.
翻訳日:2024-08-29 15:40:56 公開日:2024-08-28
# Transformer-based Multi-Label Sequence Classification を用いた自動微分診断

Automatic Differential Diagnosis using Transformer-Based Multi-Label Sequence Classification ( http://arxiv.org/abs/2408.15827v1 )

ライセンス: Link先を確認
Abu Adnan Sadi, Mohammad Ashrafuzzaman Khan, Lubaba Binte Saber, (参考訳) 人工知能の分野が進むにつれて、補助技術はあらゆる産業で広く使われている。 医療業界は、医療専門家のための補助ツールを開発するために多くの研究がなされている。 自動診断システムは、患者の情報収集、検査結果の分析、患者の診断など、さまざまなタスクを支援できる便利なツールのひとつです。 しかしながら、鑑別診断を提供するシステムを開発するという考え方は、これらの研究のほとんどでほとんど見過ごされている。 本研究では,患者の年齢,性別,医療歴,症状に基づく鑑別診断のためのトランスフォーマーに基づくアプローチを提案する。 DDXPlus データセットを用いて,49 種類の疾患を鑑別し,鑑別診断情報を提供する。 まず, 患者データをデータセットから処理し, 患者レポートにまとめて, 研究に適合させる手法を提案する。 さらに、2つのデータ修正モジュールを導入し、トレーニングデータを多様化し、結果としてモデルの堅牢性を向上させる。 タスクを多ラベル分類問題としてアプローチし、4つの変圧器モデルを用いて広範な実験を行う。 すべてのモデルが期待できる結果を示し、ホールドアウトテストセットで97%のF1スコアを達成した。 さらに、モデルのより広範な理解を得るために、追加の行動テストも設計する。 特に,検査例の1つについて,医師の助けを借りて,100サンプルのカスタムテストセットを用意した。 その結果,提案したデータ修正モジュールはモデルの一般化機能を改善した。 我々は、将来の研究者に貴重な洞察を与え、自動微分診断のための信頼性の高いシステムを開発するよう促すことを願っている。

As the field of artificial intelligence progresses, assistive technologies are becoming more widely used across all industries. The healthcare industry is no different, with numerous studies being done to develop assistive tools for healthcare professionals. Automatic diagnostic systems are one such beneficial tool that can assist with a variety of tasks, including collecting patient information, analyzing test results, and diagnosing patients. However, the idea of developing systems that can provide a differential diagnosis has been largely overlooked in most of these research studies. In this study, we propose a transformer-based approach for providing differential diagnoses based on a patient's age, sex, medical history, and symptoms. We use the DDXPlus dataset, which provides differential diagnosis information for patients based on 49 disease types. Firstly, we propose a method to process the tabular patient data from the dataset and engineer them into patient reports to make them suitable for our research. In addition, we introduce two data modification modules to diversify the training data and consequently improve the robustness of the models. We approach the task as a multi-label classification problem and conduct extensive experiments using four transformer models. All the models displayed promising results by achieving over 97% F1 score on the held-out test set. Moreover, we design additional behavioral tests to get a broader understanding of the models. In particular, for one of our test cases, we prepared a custom test set of 100 samples with the assistance of a doctor. The results on the custom set showed that our proposed data modification modules improved the model's generalization capabilities. We hope our findings will provide future researchers with valuable insights and inspire them to develop reliable systems for automatic differential diagnosis.
翻訳日:2024-08-29 15:40:56 公開日:2024-08-28
# SI変換器:極多モード要約のための共有情報誘導変換器

SITransformer: Shared Information-Guided Transformer for Extreme Multimodal Summarization ( http://arxiv.org/abs/2408.15829v1 )

ライセンス: Link先を確認
Sicheng Liu, Lintao Wang, Xiaogan Zhu, Xuequan Lu, Zhiyong Wang, Kun Hu, (参考訳) XMSMO(Extreme Multimodal Summarization with Multimodal Output)は、様々な種類の情報を統合して、非常に簡潔で情報的な要約を生成することで、魅力的な要約手法となる。 既存の手法では、マルチモーダルデータには関連性のない情報が多く含まれており、特に非常に短いデータに対して、モデルが不正確な要約を生成することを誤解させる可能性がある。 本稿では,超多モード要約のためのSITransformer, a \textbf{S}hared \textbf{I}nformation-guided \textbf{T}ransformerを提案する。 クロスモーダル共有情報抽出器とクロスモーダルインタラクションモジュールを含む共有情報ガイドパイプラインを備える。 抽出器は、識別可能なトップkセレクタと共有情報案内ゲーティングユニットからなる新規なフィルタリングプロセスを考案し、異なるモダリティから意味的に共有された有能な情報を定式化する。 その結果, モダリティの共通性, 健全性, 関連性のある内容が同定された。 次に、モダリティ内およびモダリティ間学習のためのモーダル間注目変換器を開発し、共有情報ガイダンスを用いて、極端な要約を生成する。 総合的な実験により、SITransformerはXMSMOの動画とテキストの要約の要約品質を大幅に向上させることが示された。 私たちのコードはhttps://github.com/SichengLeoLiu/MMAsia24-XMSMOで公開されます。

Extreme Multimodal Summarization with Multimodal Output (XMSMO) becomes an attractive summarization approach by integrating various types of information to create extremely concise yet informative summaries for individual modalities. Existing methods overlook the issue that multimodal data often contains more topic irrelevant information, which can mislead the model into producing inaccurate summaries especially for extremely short ones. In this paper, we propose SITransformer, a \textbf{S}hared \textbf{I}nformation-guided \textbf{T}ransformer for extreme multimodal summarization. It has a shared information guided pipeline which involves a cross-modal shared information extractor and a cross-modal interaction module. The extractor formulates semantically shared salient information from different modalities by devising a novel filtering process consisting of a differentiable top-k selector and a shared-information guided gating unit. As a result, the common, salient, and relevant contents across modalities are identified. Next, a transformer with cross-modal attentions is developed for intra- and inter-modality learning with the shared information guidance to produce the extreme summary. Comprehensive experiments demonstrate that SITransformer significantly enhances the summarization quality for both video and text summaries for XMSMO. Our code will be publicly available at https://github.com/SichengLeoLiu/MMAsia24-XMSMO.
翻訳日:2024-08-29 15:40:56 公開日:2024-08-28
# 高縮退ハミルトニアンのマクロ熱化

Macroscopic Thermalization for Highly Degenerate Hamiltonians ( http://arxiv.org/abs/2408.15832v1 )

ライセンス: Link先を確認
Barbara Roos, Stefan Teufel, Roderich Tumulka, Cornelia Vogel, (参考訳) 純粋な状態 $\psi$ の孤立したマクロ量子系について、$\psi$ がヒルベルト空間の適当な部分空間 $\mathcal{H}_{eq}$ の内か近くにある場合、それはマクロ熱平衡であると言う。 全ての初期状態 $\psi_0$ が最終的にマクロ的な熱平衡に達し、ハミルトニアンが非退化であり、固有状態熱化仮説(ETH)の適切なバージョンを満たす場合、ほとんどの時間 (``熱化'') はそこに留まることが知られている。 シラシとタサキは、最近、一次元格子上のハミルトニアン$H_0$ of $N\gg 1$自由フェルミオンの摂動$H_\theta$に対してETHを証明した。 摂動は、$H_0$の高退化を取り除くために必要である。 ここでは、縮退ハミルトニアンについても、ETHがすべての固有基底を保っている場合、すべての$\psi_0$が熱化されることを指摘し、これが$H_0$の場合であると証明する。 その上、より一般的には、ETHをより容易に、より小さな誤差境界で証明できるH_0$の固有基底が1つ存在するという事実から着想を得た、熱化を証明する別の戦略を開発する。 この戦略は、任意に小さな一般摂動$H$ of $H_0$に当てはまるが、これは、$H_\theta$よりも現実的で、任意の空間次元に当てはまる。 実際、任意の与えられた$H_0$を考えると、ETHは$H_0$のすべての固有基底を持ち、$H=H_0+\lambda V$を$\lambda\ll 1$とすると仮定する。 すると、$H$ (非退化) は依然として ETH を満たすことができないかもしれないが、それでもそのことを示す。 (i)全ての$\psi_0$は、ほとんどの摂動に対して熱化し、より一般的には$V$である。 (ii) 任意の部分空間 $\mathcal{H}_\nu$ (非平衡マクロ状態に対応するような) に対して、ほとんどの摂動$V$ は $\mathcal{H}_\nu$ のほとんどの $\psi_0$ が熱化されるようなものである。

We say of an isolated macroscopic quantum system in a pure state $\psi$ that it is in macroscopic thermal equilibrium if $\psi$ lies in or close to a suitable subspace $\mathcal{H}_{eq}$ of Hilbert space. It is known that every initial state $\psi_0$ will eventually reach macroscopic thermal equilibrium and stay there most of the time (``thermalize'') if the Hamiltonian is non-degenerate and satisfies the appropriate version of the eigenstate thermalization hypothesis (ETH), i.e., that every eigenvector is in macroscopic thermal equilibrium. Shiraishi and Tasaki recently proved the ETH for a certain perturbation $H_\theta$ of the Hamiltonian $H_0$ of $N\gg 1$ free fermions on a one-dimensional lattice. The perturbation is needed to remove the high degeneracies of $H_0$. Here, we point out that also for degenerate Hamiltonians, all $\psi_0$ thermalize if the ETH holds for every eigenbasis, and we prove that this is the case for $H_0$. On top of that and more generally, we develop another strategy of proving thermalization, inspired by the fact that there is one eigenbasis of $H_0$ for which ETH can be proven more easily and with smaller error bounds than for the others. This strategy applies to arbitrarily small generic perturbations $H$ of $H_0$, which seem no less realistic than $H_\theta$, and to arbitrary spatial dimensions. In fact, we consider any given $H_0$, suppose that the ETH holds for some but not necessarily every eigenbasis of $H_0$, and add a small generic perturbation, $H=H_0+\lambda V$ with $\lambda\ll 1$. Then, although $H$ (which is non-degenerate) may still not satisfy the ETH, we show that nevertheless (i) every $\psi_0$ thermalizes for most perturbations $V$, and more generally, (ii) for any subspace $\mathcal{H}_\nu$ (such as corresponding to a non-equilibrium macro state), most perturbations $V$ are such that most $\psi_0$ from $\mathcal{H}_\nu$ thermalize.
翻訳日:2024-08-29 15:40:56 公開日:2024-08-28
# リアルタイム物体検出における逆パッチのネットワーク転送可能性

Network transferability of adversarial patches in real-time object detection ( http://arxiv.org/abs/2408.15833v1 )

ライセンス: Link先を確認
Jens Bayer, Stefan Becker, David Münch, Michael Arens, (参考訳) コンピュータビジョンの逆パッチを使用して、ディープニューラルネットワークを騙し、意思決定プロセスを操作することができる。 敵パッチの最も顕著な例の1つは、物体検出器の回避攻撃である。 対象物の一部を覆うことにより、これらのパッチは検出を抑え、対象物が対象物検出器に「見えない」ようにする。 これらのパッチは、通常、特定のトレインデータセットを持つ特定のネットワークに最適化されるため、複数のネットワークとデータセット間の転送性は与えられない。 本稿では,これらの問題に対処し,多数のオブジェクト検出器アーキテクチャ間の転送可能性について検討する。 2つの異なるデータセット上の様々なモデルに対する広範な評価は、より大きなモデルで最適化されたパッチが、より小さなモデルで最適化されたパッチよりも優れたネットワーク転送可能性を提供することを示している。

Adversarial patches in computer vision can be used, to fool deep neural networks and manipulate their decision-making process. One of the most prominent examples of adversarial patches are evasion attacks for object detectors. By covering parts of objects of interest, these patches suppress the detections and thus make the target object 'invisible' to the object detector. Since these patches are usually optimized on a specific network with a specific train dataset, the transferability across multiple networks and datasets is not given. This paper addresses these issues and investigates the transferability across numerous object detector architectures. Our extensive evaluation across various models on two distinct datasets indicates that patches optimized with larger models provide better network transferability than patches that are optimized with smaller models.
翻訳日:2024-08-29 15:40:56 公開日:2024-08-28
# 知識ナビゲータ:科学文献における探索探索のためのLLM誘導ブラウザフレームワーク

Knowledge Navigator: LLM-guided Browsing Framework for Exploratory Search in Scientific Literature ( http://arxiv.org/abs/2408.15836v1 )

ライセンス: Link先を確認
Uri Katz, Mosh Levy, Yoav Goldberg, (参考訳) 科学文献の指数的な成長は、効果的な知識探索のための高度なツールを必要とする。 本稿では,広範囲なトピッククエリから検索した文書を,名前付きおよび記述型科学トピックとサブトピックのナビゲート可能な2段階の階層に整理し,探索的検索能力を高めるシステムであるKnowledge Navigatorを提案する。 この構造化された組織は、ドメイン内の研究テーマの全体像を提供すると同時に、特定のサブトピック内で反復的な検索と深い知識発見を可能にする。 知識ナビゲータは、LCM機能とクラスタベースのメソッドを組み合わせることで、効率的なブラウジング方法を実現する。 CLUSTREC-COVID と SCITOC という2つの新しいベンチマークで自動的および手動評価を行い,本手法の有効性を実証した。 私たちのコード、プロンプト、ベンチマークは公開されています。

The exponential growth of scientific literature necessitates advanced tools for effective knowledge exploration. We present Knowledge Navigator, a system designed to enhance exploratory search abilities by organizing and structuring the retrieved documents from broad topical queries into a navigable, two-level hierarchy of named and descriptive scientific topics and subtopics. This structured organization provides an overall view of the research themes in a domain, while also enabling iterative search and deeper knowledge discovery within specific subtopics by allowing users to refine their focus and retrieve additional relevant documents. Knowledge Navigator combines LLM capabilities with cluster-based methods to enable an effective browsing method. We demonstrate our approach's effectiveness through automatic and manual evaluations on two novel benchmarks, CLUSTREC-COVID and SCITOC. Our code, prompts, and benchmarks are made publicly available.
翻訳日:2024-08-29 15:40:56 公開日:2024-08-28
# 最適化されたスターン様シグネチャスキームの(In)セキュリティについて

On the (In)security of optimized Stern-like signature schemes ( http://arxiv.org/abs/2408.15843v1 )

ライセンス: Link先を確認
André Chailloux, Simona Etinski, (参考訳) スターンのシグネチャスキームは歴史的に重要なコードベースのシグネチャスキームである。 このスキームの重要な最適化は、ランダムではなく擬ランダムベクトルと置換を生成することである。 しかし、特に決定論的コミットメントを使用する場合、そのセキュリティは適切に分析されていない。 本稿では,この最適化の安全性について検討する。 まず、いくつかのパラメータに対して、この最適化を利用して、要求されるセキュリティが$\lambda$ bitsである間に、時間$O(2^{\frac{\lambda}{2}})でスキームを壊す攻撃があることを示します。 これは特に最近のQuasy-cyclic Stern signature scheme[BGMS22]に影響を及ぼす。 2つ目の結果は、この攻撃に効果的な修正があることを示しています。 このスキームに$salt \in \{0,1\}^{2\lambda}$を追加することで、擬似ランダム文字列の生成方法がわずかに変わることで、我々の攻撃が機能しないだけでなく、どんな攻撃に対しても$$\lambda$ bitsのセキュリティを保ち、この修正によって署名の総サイズがわずか2\lambda$ bitsになる。 この構成を、リー計量の使用やハッシュツリーの使用など、スターンのシグネチャスキームに関する他の最適化に適用し、これらの最適化がスターンのシグネチャスキームのシグネチャ長をどのように改善するかを示す。

Stern's signature scheme is a historically important code-based signature scheme. A crucial optimization of this scheme is to generate pseudo-random vectors and a permutation instead of random ones, and most proposals that are based on Stern's signature use this optimization. However, its security has not been properly analyzed, especially when we use deterministic commitments. In this article, we study the security of this optimization. We first show that for some parameters, there is an attack that exploits this optimization and breaks the scheme in time $O(2^{\frac{\lambda}{2}})$ while the claimed security is $\lambda$ bits. This impacts in particular the recent Quasy-cyclic Stern signature scheme [BGMS22]. Our second result shows that there is an efficient fix to this attack. By adding a string $salt \in \{0,1\}^{2\lambda}$ to the scheme, and changing slightly how the pseudo-random strings are generated, we prove not only that our attack doesn't work but that for any attack, the scheme preserves $\lambda$ bits of security, and this fix increases the total signature size by only $2\lambda$ bits. We apply this construction to other optimizations on Stern's signature scheme, such as the use of Lee's metric or the use of hash trees, and we show how these optimizations improve the signature length of Stern's signature scheme.
翻訳日:2024-08-29 15:40:56 公開日:2024-08-28
# キーフレーム抽出のためのフォンニューマンエントロピーに基づくショットセグメンテーション

Shot Segmentation Based on Von Neumann Entropy for Key Frame Extraction ( http://arxiv.org/abs/2408.15844v1 )

ライセンス: Link先を確認
Xueqing Zhang. Di Fu, Naihao Liu, (参考訳) ビデオキーフレーム抽出は、ビデオ要約、検索、圧縮など様々な分野で重要である。 そこで我々は,フォン・ノイマンエントロピーを用いたショットセグメンテーションに基づくビデオ鍵フレーム抽出アルゴリズムを提案する。 ショットのセグメンテーションは、ビデオシーケンス内のフレーム間の類似性行列のフォン・ノイマンエントロピーの計算によって達成される。 各ショットの初期フレームは、フレームの時間シーケンス情報を組み合わせたキーフレームとして選択される。 実験の結果、抽出したキーフレームは、繰り返しフレーム数を最小化しつつ、元の映像コンテンツを完全かつ正確に表現できることがわかった。

Video key frame extraction is important in various fields, such as video summary, retrieval, and compression. Therefore, we suggest a video key frame extraction algorithm based on shot segmentation using Von Neumann entropy. The segmentation of shots is achieved through the computation of Von Neumann entropy of the similarity matrix among frames within the video sequence. The initial frame of each shot is selected as key frames, which combines the temporal sequence information of frames. The experimental results show the extracted key frames can fully and accurately represent the original video content while minimizing the number of repeated frames.
翻訳日:2024-08-29 15:40:56 公開日:2024-08-28
# chemtrain: 自動微分と統計物理による深層ポテンシャルモデル学習

chemtrain: Learning Deep Potential Models via Automatic Differentiation and Statistical Physics ( http://arxiv.org/abs/2408.15852v1 )

ライセンス: Link先を確認
Paul Fuchs, Stephan Thaler, Sebastien Röcken, Julija Zavadlav, (参考訳) ニューラルネットワーク(NN)は分子動力学の精度を改善するための有望なモデルであり、新しい応用分野を開拓する可能性がある。 通常、トレーニングされたボトムアップ、原子論的なNNポテンシャルモデルは第一原理の精度に達するが、粗粒の暗黙的なNNポテンシャルは古典的な連続溶媒モデルを超える。 しかし,正確な参照データ生成の限界や,一般的なボトムアップトレーニングの非効率性の限界を克服するためには,多くの情報源からの効率的なデータの取り込みが必要である。 本稿では、カスタマイズ可能なトレーニングルーチンと高度なトレーニングアルゴリズムを用いて、洗練されたNNポテンシャルモデルを学ぶためのフレームワークケミストレインを紹介する。 これらのルーチンは、複数のトップダウンとボトムアップのアルゴリズムを組み合わせることで、実験データとシミュレーションデータと、よりコストの低いアルゴリズムで事前学習電位の両方を組み込むことができる。 chemtrainは、カスタムルーチンの作成を簡単にするためのオブジェクト指向のハイレベルインターフェースを提供する。 低いレベルでは、Chemtrainは、グラデーションを計算し、利用可能なリソースを使用するように計算をスケールするためにJAXに依存しています。 チタンの全原子モデルとアラニンジペプチドの粗粒の暗黙溶媒モデルをパラメトリゼーションする例において、複数のアルゴリズムを組み合わせることの単純さと重要さを実証する。

Neural Networks (NNs) are promising models for refining the accuracy of molecular dynamics, potentially opening up new fields of application. Typically trained bottom-up, atomistic NN potential models can reach first-principle accuracy, while coarse-grained implicit solvent NN potentials surpass classical continuum solvent models. However, overcoming the limitations of costly generation of accurate reference data and data inefficiency of common bottom-up training demands efficient incorporation of data from many sources. This paper introduces the framework chemtrain to learn sophisticated NN potential models through customizable training routines and advanced training algorithms. These routines can combine multiple top-down and bottom-up algorithms, e.g., to incorporate both experimental and simulation data or pre-train potentials with less costly algorithms. chemtrain provides an object-oriented high-level interface to simplify the creation of custom routines. On the lower level, chemtrain relies on JAX to compute gradients and scale the computations to use available resources. We demonstrate the simplicity and importance of combining multiple algorithms in the examples of parametrizing an all-atomistic model of titanium and a coarse-grained implicit solvent model of alanine dipeptide.
翻訳日:2024-08-29 15:40:56 公開日:2024-08-28
# データ中心ライブラリのAPI誤用に関する実証的研究

An Empirical Study of API Misuses of Data-Centric Libraries ( http://arxiv.org/abs/2408.15853v1 )

ライセンス: Link先を確認
Akalanka Galappaththi, Sarah Nadi, Christoph Treude, (参考訳) 開発者はソフトウェア開発において、サードパーティのライブラリであるアプリケーションプログラミングインタフェース(API)に依存している。 しかし、ライブラリは通常、仮定とAPI使用制限が伴い、その違反がAPIの誤用につながる。 APIの誤用はクラッシュや誤った動作を引き起こします。 API誤用はよく研究されている分野だが、最近のディープラーニングライブラリのAPI誤用の研究により、これらの誤用の性質と症状は従来のライブラリの誤用とは異なることが示され、その結果、現在の誤用検出ツールの潜在的な欠点が浮かび上がった。 これらの観察は、ディープラーニングAPIの誤用に限らず、データ中心のAPIの性質に起因しているのではないかと推測する。 データ中心のライブラリは、多種多様なデータ構造、複雑な処理ワークフロー、および多数のパラメータを扱うことが多い。 したがって、これらのライブラリの潜在的な誤用を理解することは、予期せぬアプリケーションの振る舞いを避けるために重要である。 そこで本研究では,データ処理,数値計算,機械学習,可視化といった分野をカバーする5つのデータ中心ライブラリのAPI誤用に関する実証的研究を行った。 Stack OverflowとGitHubのデータを分析することで、これらのライブラリの誤用を特定します。 その結果,ディープラーニングライブラリで観察されるAPI誤用の特徴の多くは,私たちが研究しているデータ中心ライブラリAPIの誤用にまで及んでいることがわかった。 また、APIディレクティブがドキュメントに現れるかどうかに関わらず、開発者はデータ中心のライブラリからAPIを誤用する傾向があることもわかりました。 全体として、私たちの研究は、ディープラーニングライブラリのみに焦点を当てるのではなく、データ中心のライブラリでAPIを誤用するという課題を明らかにしています。 収集した誤用とその特徴は,これらの図書館の誤用を減らすために,今後の研究の土台となった。

Developers rely on third-party library Application Programming Interfaces (APIs) when developing software. However, libraries typically come with assumptions and API usage constraints, whose violation results in API misuse. API misuses may result in crashes or incorrect behavior. Even though API misuse is a well-studied area, a recent study of API misuse of deep learning libraries showed that the nature of these misuses and their symptoms are different from misuses of traditional libraries, and as a result highlighted potential shortcomings of current misuse detection tools. We speculate that these observations may not be limited to deep learning API misuses but may stem from the data-centric nature of these APIs. Data-centric libraries often deal with diverse data structures, intricate processing workflows, and a multitude of parameters, which can make them inherently more challenging to use correctly. Therefore, understanding the potential misuses of these libraries is important to avoid unexpected application behavior. To this end, this paper contributes an empirical study of API misuses of five data-centric libraries that cover areas such as data processing, numerical computation, machine learning, and visualization. We identify misuses of these libraries by analyzing data from both Stack Overflow and GitHub. Our results show that many of the characteristics of API misuses observed for deep learning libraries extend to misuses of the data-centric library APIs we study. We also find that developers tend to misuse APIs from data-centric libraries, regardless of whether the API directive appears in the documentation. Overall, our work exposes the challenges of API misuse in data-centric libraries, rather than only focusing on deep learning libraries. Our collected misuses and their characterization lay groundwork for future research to help reduce misuses of these libraries.
翻訳日:2024-08-29 15:40:56 公開日:2024-08-28
# YOLOv8とは何か:次世代オブジェクト検出器の内部特性の詳細な探索

What is YOLOv8: An In-Depth Exploration of the Internal Features of the Next-Generation Object Detector ( http://arxiv.org/abs/2408.15857v1 )

ライセンス: Link先を確認
Muhammad Yaseen, (参考訳) 本研究では, YOLOv8オブジェクト検出モデルの詳細解析を行い, アーキテクチャ, トレーニング技術, YOLOv5のような以前のイテレーションに対する性能改善に着目した。 特徴抽出の強化のためのCSPNetバックボーンや、より優れたマルチスケールオブジェクト検出のためのFPN+PANネック、アンカーフリーアプローチへの移行など、主要なイノベーションについて徹底的に検討した。 論文では、Microsoft COCOやRoboflow 100のようなベンチマーク間でのYOLOv8のパフォーマンスをレビューし、さまざまなハードウェアプラットフォームで高い精度とリアルタイム機能を強調している。 さらに、モデルトレーニングとデプロイメントを効率化する統一PythonパッケージやCLIなど、YOLOv8の開発者フレンドリな拡張についても検討している。 全体として、この研究は、YOLOv8を進化する物体検出分野における最先端のソリューションとして位置づけている。

This study presents a detailed analysis of the YOLOv8 object detection model, focusing on its architecture, training techniques, and performance improvements over previous iterations like YOLOv5. Key innovations, including the CSPNet backbone for enhanced feature extraction, the FPN+PAN neck for superior multi-scale object detection, and the transition to an anchor-free approach, are thoroughly examined. The paper reviews YOLOv8's performance across benchmarks like Microsoft COCO and Roboflow 100, highlighting its high accuracy and real-time capabilities across diverse hardware platforms. Additionally, the study explores YOLOv8's developer-friendly enhancements, such as its unified Python package and CLI, which streamline model training and deployment. Overall, this research positions YOLOv8 as a state-of-the-art solution in the evolving object detection field.
翻訳日:2024-08-29 15:40:56 公開日:2024-08-28
# Fusing Pruned and Backdoored Models:Optimal Transport-based Data-free Backdoor Mitigation

Fusing Pruned and Backdoored Models: Optimal Transport-based Data-free Backdoor Mitigation ( http://arxiv.org/abs/2408.15861v1 )

ライセンス: Link先を確認
Weilin Lin, Li Liu, Jianze Li, Hui Xiong, (参考訳) バックドア攻撃はディープニューロンネットワーク(DNN)に深刻なセキュリティ脅威をもたらす。 近年、多くの効果的な防御技術が提案されているが、清潔なデータや有毒なデータの入手に必然的に依存している。 対照的に、データフリーの防御技術は徐々に進化し、性能は著しく遅れている。 この課題に対処するために,本研究において, 最適輸送型バックドア修復法 (OTBR) というデータ自由防衛手法を提案する。 本手法は, ランダムアンラーニングにおけるニューロン量変化(NWC)に関する知見に基づいて, 最適輸送(OT)モデル融合を用いて, プルーニングモデルとバックドアモデルの両方の利点を組み合わせたものである。 具体的には,ランダムアンラーニングのNWCが有毒アンラーニングのNWCと正の相関を示す。 本研究は, バックドア効果を排除し, バックドアフリープルーニングモデルを得るために, ランダムに学習したNWCプルーニング手法を提案する。 次に, OTモデル融合の動機付けとして, プルーニングモデルとバックドアモデルとを融合させて両者の利点を融合させる, プルーニング・ツー・バックドアモデル融合手法を提案する。 私たちの知る限りでは、OTとモデル融合技術をバックドアディフェンスに適用するのはこれが初めてです。 大規模な実験により,本手法は3つのベンチマークデータセットのバックドア攻撃に対する防御に成功し,SOTA(State-of-the-art Data-free)とデータ依存(Data-dependent)の両方よりも優れていた。 コード実装とAppendixは、Supplementary Materialで提供される。

Backdoor attacks present a serious security threat to deep neuron networks (DNNs). Although numerous effective defense techniques have been proposed in recent years, they inevitably rely on the availability of either clean or poisoned data. In contrast, data-free defense techniques have evolved slowly and still lag significantly in performance. To address this issue, different from the traditional approach of pruning followed by fine-tuning, we propose a novel data-free defense method named Optimal Transport-based Backdoor Repairing (OTBR) in this work. This method, based on our findings on neuron weight changes (NWCs) of random unlearning, uses optimal transport (OT)-based model fusion to combine the advantages of both pruned and backdoored models. Specifically, we first demonstrate our findings that the NWCs of random unlearning are positively correlated with those of poison unlearning. Based on this observation, we propose a random-unlearning NWC pruning technique to eliminate the backdoor effect and obtain a backdoor-free pruned model. Then, motivated by the OT-based model fusion, we propose the pruned-to-backdoored OT-based fusion technique, which fuses pruned and backdoored models to combine the advantages of both, resulting in a model that demonstrates high clean accuracy and a low attack success rate. To our knowledge, this is the first work to apply OT and model fusion techniques to backdoor defense. Extensive experiments show that our method successfully defends against all seven backdoor attacks across three benchmark datasets, outperforming both state-of-the-art (SOTA) data-free and data-dependent methods. The code implementation and Appendix are provided in the Supplementary Material.
翻訳日:2024-08-29 15:31:11 公開日:2024-08-28
# microYOLO: マイクロコントローラ上でのシングルショットオブジェクト検出を目指す

microYOLO: Towards Single-Shot Object Detection on Microcontrollers ( http://arxiv.org/abs/2408.15865v1 )

ライセンス: Link先を確認
Mark Deutel, Christopher Mutschler, Jürgen Teich, (参考訳) 本論文は, YOLOを用いたマイクロコントローラにおける単発物体検出の実現可能性について述べる。 YOLOのような単発のオブジェクト検出器は広く使われているが、その複雑さは主にGPUベースのプラットフォームで使われている。 800KB未満のフラッシュと350KB未満のRAMを使用しながら、128x128 RGBの画像を分類する際に約3.5FPSを達成することができる。 さらに,3種類の物体検出タスクの実験結果を共有し,マイクロYOLOの精度を解析した。

This work-in-progress paper presents results on the feasibility of single-shot object detection on microcontrollers using YOLO. Single-shot object detectors like YOLO are widely used, however due to their complexity mainly on larger GPU-based platforms. We present microYOLO, which can be used on Cortex-M based microcontrollers, such as the OpenMV H7 R2, achieving about 3.5 FPS when classifying 128x128 RGB images while using less than 800 KB Flash and less than 350 KB RAM. Furthermore, we share experimental results for three different object detection tasks, analyzing the accuracy of microYOLO on them.
翻訳日:2024-08-29 15:31:11 公開日:2024-08-28
# 自動プロセスエンジニアリング計算のための検索強化インストラクションチューニング : 帰属的反射を伴うツール結合型問題解決フレームワーク

Retrieval-Augmented Instruction Tuning for Automated Process Engineering Calculations : A Tool-Chaining Problem-Solving Framework with Attributable Reflection ( http://arxiv.org/abs/2408.15866v1 )

ライセンス: Link先を確認
Sagar Srinivas Sakhinana, Geethan Sannidhi, Venkataramana Runkana, (参考訳) 現在のテクノロジーの展望には、プロセスエンジニアリングの計算を解くための基礎的なAIモデルがない。 本研究では,Retrieval-Augmented Instruction-Tuning(RAIT)を利用して,オープンでカスタマイズ可能な小型言語モデル(SLM)をこれらの計算に活用する,新しい自律エージェントフレームワークを提案する。 命令チューニングされたコードSLMと外部ツールを使用してRACG(Retrieval-Augmented Code Generation)を組み合わせることで、エージェントは自然言語仕様からコードを生成し、デバッグし、最適化する。 我々のアプローチは、専門的なプロセスエンジニアリングタスクのための基礎的AIモデルの欠如の限界に対処し、説明可能性、知識編集、費用対効果の利点を提供する。 さらに、データの不足を克服するために、化学およびプロセス工学の問題とソリューションのカスタムデータセットをキュレートする。 実験の結果,我々のフレームワークはベンチマークデータセット上での大規模プロプライエタリモデルの性能と一致し,その有効性とユーザビリティが証明された。

The current technology landscape lacks a foundational AI model for solving process engineering calculations. In this work, we introduce a novel autonomous agent framework leveraging Retrieval-Augmented Instruction-Tuning (RAIT) to enhance open, customizable small code language models (SLMs) for these calculations. By combining instruction tuned code SLMs with Retrieval-Augmented Code Generation (RACG) using external tools, the agent generates, debugs, and optimizes code from natural language specifications. Our approach addresses the limitations of the current lack of a foundational AI model for specialized process engineering tasks and offers benefits of explainability, knowledge editing, and cost-effectiveness. Additionally, we curate custom datasets of chemical and process engineering problems and solutions to overcome data scarcity. Experimental results show that our framework matches the performance of large-scale proprietary models on benchmark datasets, proving its effectiveness and usability.
翻訳日:2024-08-29 15:31:11 公開日:2024-08-28
# GenDDS: プロンプト・ツー・ビデオ生成モデルによる横方向駆動型ビデオシナリオの生成

GenDDS: Generating Diverse Driving Video Scenarios with Prompt-to-Video Generative Model ( http://arxiv.org/abs/2408.15868v1 )

ライセンス: Link先を確認
Yongjie Fu, Yunlong Li, Xuan Di, (参考訳) 自律運転訓練には、様々な交通状況、天候シナリオ、道路タイプを含む多様なデータセットが必要である。 従来のデータ拡張手法は、まれな発生を示すデータセットを生成するのに苦労することが多い。 この課題に対処するために、我々は、高度な潜伏拡散モデルであるSDXL(Stable Diffusion XL)の機能を活用して、駆動シナリオを生成する新しい手法であるGenDDSを提案する。 我々の手法は、現実的で多様な運転シナリオを生成することを目的とした、合成プロセスの指針となる記述的プロンプトの使用を含む。 ControlNetやHotshot-XLといった最新のコンピュータビジョン技術によって、私たちはSDXLとともにビデオ生成のための完全なパイプラインを構築しました。 我々は、実際の運転ビデオを含むKITTIデータセットを使用して、モデルをトレーニングする。 実験を通じて,実世界の運転シナリオの複雑さと変動性を密に再現した高品質な運転映像を,我々のモデルで生成できることを実証した。 本研究は、自律運転システムのための高度なトレーニングデータの開発に寄与し、シミュレーションと検証を目的とした仮想環境を構築するための新たな道を開く。

Autonomous driving training requires a diverse range of datasets encompassing various traffic conditions, weather scenarios, and road types. Traditional data augmentation methods often struggle to generate datasets that represent rare occurrences. To address this challenge, we propose GenDDS, a novel approach for generating driving scenarios generation by leveraging the capabilities of Stable Diffusion XL (SDXL), an advanced latent diffusion model. Our methodology involves the use of descriptive prompts to guide the synthesis process, aimed at producing realistic and diverse driving scenarios. With the power of the latest computer vision techniques, such as ControlNet and Hotshot-XL, we have built a complete pipeline for video generation together with SDXL. We employ the KITTI dataset, which includes real-world driving videos, to train the model. Through a series of experiments, we demonstrate that our model can generate high-quality driving videos that closely replicate the complexity and variability of real-world driving scenarios. This research contributes to the development of sophisticated training data for autonomous driving systems and opens new avenues for creating virtual environments for simulation and validation purposes.
翻訳日:2024-08-29 15:31:11 公開日:2024-08-28
# 外乱スコアのロバストな統計的スケーリング:外乱確率の改善(拡張版)

Robust Statistical Scaling of Outlier Scores: Improving the Quality of Outlier Probabilities for Outliers (Extended Version) ( http://arxiv.org/abs/2408.15874v1 )

ライセンス: Link先を確認
Philipp Röchner, Henrique O. Marques, Ricardo J. G. B. Campello, Arthur Zimek, Franz Rothlauf, (参考訳) 外乱検出アルゴリズムは通常、データセット内の各観測値に外乱スコアを割り当て、観測値が外乱値である度合いを示す。 しかしながら、これらのスコアはアルゴリズム間で比較されないことが多く、人間が解釈するのは困難である。 統計的スケーリングは、外接点スコアを接地トラスラベルを使わずに外接点確率に変換することでこの問題に対処し、アルゴリズム間の解釈性とコンパビリティを向上させる。 しかし、この変換の質は、外れ値と入値に対して異なる可能性がある。 医療、金融、エンジニアリングなど、特に関心のあるシナリオでは、アウトリーチを欠くのは、コストがかかるか、危険な場合があります。 したがって、外れ値の良好な確率を確保することが不可欠である。 本論文は, 統計的スケーリングは, 文献でよく用いられるように, 外れ値に対して等しく良い確率を生じるものではないことを論じる。 そこで我々は, 頑健な統計的スケーリングを提案し, 頑健な推定器を用いて, 外れ値の確率を向上する。 実世界のデータセットと外乱検出アルゴリズムに対する他の外乱スコア変換に対して,本手法のいくつかの変種を評価し,外乱スコアの確率を向上する。

Outlier detection algorithms typically assign an outlier score to each observation in a dataset, indicating the degree to which an observation is an outlier. However, these scores are often not comparable across algorithms and can be difficult for humans to interpret. Statistical scaling addresses this problem by transforming outlier scores into outlier probabilities without using ground-truth labels, thereby improving interpretability and comparability across algorithms. However, the quality of this transformation can be different for outliers and inliers. Missing outliers in scenarios where they are of particular interest - such as healthcare, finance, or engineering - can be costly or dangerous. Thus, ensuring good probabilities for outliers is essential. This paper argues that statistical scaling, as commonly used in the literature, does not produce equally good probabilities for outliers as for inliers. Therefore, we propose robust statistical scaling, which uses robust estimators to improve the probabilities for outliers. We evaluate several variants of our method against other outlier score transformations for real-world datasets and outlier detection algorithms, where it can improve the probabilities for outliers.
翻訳日:2024-08-29 15:31:11 公開日:2024-08-28
# 訓練用無音・言語対応ビデオオブジェクトセグメンテーションにおけるGPTの時間空間推論能力の解放

Unleashing the Temporal-Spatial Reasoning Capacity of GPT for Training-Free Audio and Language Referenced Video Object Segmentation ( http://arxiv.org/abs/2408.15876v1 )

ライセンス: Link先を確認
Shaofei Huang, Rui Ling, Hongyu Li, Tianrui Hui, Zongheng Tang, Xiaoming Wei, Jizhong Han, Si Liu, (参考訳) 本稿では,AVS と RVOS タスクを用いた音声および言語対応ビデオオブジェクトセグメンテーションのためのトレーニングフリーパラダイムを探索するために,オーディオ言語対応SAM2 (AL-Ref-SAM2) パイプラインを提案する。 直感的な解法は、FundingDINOを利用して単一のフレームとSAM 2から対象物を識別し、ビデオ全体を通して特定対象を分割する。 そこで, AL-Ref-SAM 2 パイプラインでは, GPT-4 に対して2段階の時間空間推論を行い, ピボットフレームとピボットボックスを順次選択し, SAM 2 に高品質な初期オブジェクトプロンプトを提供する新しい GPT-Assisted Pivot Selection (GPT-PS) モジュールを提案する。 GPT-PS内では、2つのタスク固有のChain-of-Thoughtプロンプトが、GPTの時間空間推論能力を解き放ち、ビデオおよび参照情報の包括的理解に基づいて選択を行う。 さらに,LBRU(Language-Binded Reference Unification)モジュールにより,音声信号を言語形式の参照に変換することにより,AVSとRVOSタスクのフォーマットを同一パイプラインで統一する。 両タスクの大規模な実験は、トレーニング不要のAL-Ref-SAM 2パイプラインが、完全に教師された微調整手法に匹敵するパフォーマンスを達成していることを示している。 コードは、https://github.com/appletea233/AL-Ref-SAM2.comで入手できる。

In this paper, we propose an Audio-Language-Referenced SAM 2 (AL-Ref-SAM 2) pipeline to explore the training-free paradigm for audio and language-referenced video object segmentation, namely AVS and RVOS tasks. The intuitive solution leverages GroundingDINO to identify the target object from a single frame and SAM 2 to segment the identified object throughout the video, which is less robust to spatiotemporal variations due to a lack of video context exploration. Thus, in our AL-Ref-SAM 2 pipeline, we propose a novel GPT-assisted Pivot Selection (GPT-PS) module to instruct GPT-4 to perform two-step temporal-spatial reasoning for sequentially selecting pivot frames and pivot boxes, thereby providing SAM 2 with a high-quality initial object prompt. Within GPT-PS, two task-specific Chain-of-Thought prompts are designed to unleash GPT's temporal-spatial reasoning capacity by guiding GPT to make selections based on a comprehensive understanding of video and reference information. Furthermore, we propose a Language-Binded Reference Unification (LBRU) module to convert audio signals into language-formatted references, thereby unifying the formats of AVS and RVOS tasks in the same pipeline. Extensive experiments on both tasks show that our training-free AL-Ref-SAM 2 pipeline achieves performances comparable to or even better than fully-supervised fine-tuning methods. The code is available at: https://github.com/appletea233/AL-Ref-SAM2.
翻訳日:2024-08-29 15:31:11 公開日:2024-08-28
# 大規模言語モデルを用いた説得ゲーム

Persuasion Games using Large Language Models ( http://arxiv.org/abs/2408.15879v1 )

ライセンス: Link先を確認
Ganesh Prasath Ramani, Shirish Karande, Santhosh V, Yash Bhatia, (参考訳) 大型言語モデル (LLM) は、人間のような文章を解釈し、生成することのできる、恐ろしい道具として登場した。 本稿では,LLMの可能性を探り,人間の視点を形作り,その決定が特定のタスクに与える影響について考察する。 この機能は、投資、クレジットカード、保険といった様々な分野のアプリケーションを見つけ、適切な保険政策、投資計画、クレジットカード、小売、そして行動変革支援システム(BCSS)のユーザーを支援する。 エージェントのコンソーシアムが協調的に動作する高度なマルチエージェントフレームワークを提案する。 主エージェントは説得的対話を通じて直接ユーザと対話し、補助エージェントは情報検索、応答分析、説得戦略の開発、事実の検証などのタスクを行う。 我々の実験から得られた実証的な証拠は、この協調手法がLLMの説得力を高めることを証明している。 我々は,ルールベースとLCMに基づく抵抗パーポーションマッピング技術を組み合わせて,ユーザ抵抗を継続的に分析し,その対策を行う。 我々は、シミュレートされたペルソナを採用し、保険、銀行、小売ドメインで会話を生成し、さまざまなパーソナタイプを認識し、調整し、影響を与える大規模言語モデル(LLM)の能力を評価する。 同時に, LLMシミュレートされたペルソナの抵抗機構について検討した。 説得は、対話前後の計測可能な調査、会話におけるLLM生成スコア、およびユーザ決定(購入または非購入)によって定量化される。

Large Language Models (LLMs) have emerged as formidable instruments capable of comprehending and producing human-like text. This paper explores the potential of LLMs, to shape human perspectives and subsequently influence their decisions on particular tasks. This capability finds applications in diverse domains such as Investment, Credit cards and Insurance, wherein they assist users in selecting appropriate insurance policies, investment plans, Credit cards, Retail, as well as in Behavioral Change Support Systems (BCSS). We present a sophisticated multi-agent framework wherein a consortium of agents operate in collaborative manner. The primary agent engages directly with users through persuasive dialogue, while the auxiliary agents perform tasks such as information retrieval, response analysis, development of persuasion strategies, and validation of facts. Empirical evidence from our experiments demonstrates that this collaborative methodology significantly enhances the persuasive efficacy of the LLM. We analyze user resistance to persuasive efforts continuously and counteract it by employing a combination of rule-based and LLM-based resistance-persuasion mapping techniques. We employ simulated personas and generate conversations in insurance, banking, and retail domains to evaluate the proficiency of large language models (LLMs) in recognizing, adjusting to, and influencing various personality types. Concurrently, we examine the resistance mechanisms employed by LLM simulated personas. Persuasion is quantified via measurable surveys before and after interaction, LLM-generated scores on conversation, and user decisions (purchase or non-purchase).
翻訳日:2024-08-29 15:31:11 公開日:2024-08-28
# 高次元量子チャネルの認証

Certifying high-dimensional quantum channels ( http://arxiv.org/abs/2408.15880v1 )

ライセンス: Link先を確認
Sophie Engineer, Suraj Goel, Sophie Egelhaaf, Will McCutcheon, Vatshal Srivastav, Saroch Leedumrongwatthanakun, Sabine Wollmann, Ben Jones, Thomas Cope, Nicolas Brunner, Roope Uola, Mehul Malik, (参考訳) 量子通信における高次元システムの利用は、情報容量の増大やノイズレジリエンスといった興味深い視点を開放する。 この文脈では、与えられた量子チャネルが高次元の量子情報を確実に送信できることを証明することが重要である。 そこで我々は,高次元量子チャネルのキャラクタリゼーションのための効率的な手法を開発した。 まず、量子チャネルの次元性の概念を示し、この量に対する効率的な認証方法を開発する。 簡単な準備と対策のセットアップを検討し、完全に信頼されたシナリオと部分的に信頼されたシナリオの両方を目撃者に提供します。 次に,これらの手法をフォトニック実験に適用し,商業用グレードグレードインデックス多モード光ファイバの寸法を59まで証明する。 さらに, 実験の数値シミュレーションを行い, ファイバの正確なノイズモデルを提供し, より洗練された目撃者の可能性を探究する。 本研究は,将来の量子通信技術において重要な要素である高次元量子チャネルの効率的なキャラクタリゼーションを示す。

The use of high-dimensional systems for quantum communication opens interesting perspectives, such as increased information capacity and noise resilience. In this context, it is crucial to certify that a given quantum channel can reliably transmit high-dimensional quantum information. Here we develop efficient methods for the characterization of high-dimensional quantum channels. We first present a notion of dimensionality of quantum channels, and develop efficient certification methods for this quantity. We consider a simple prepare-and-measure setup, and provide witnesses for both a fully and a partially trusted scenario. In turn we apply these methods to a photonic experiment and certify dimensionalities up to 59 for a commercial graded-index multi-mode optical fiber. Moreover, we present extensive numerical simulations of the experiment, providing an accurate noise model for the fiber and exploring the potential of more sophisticated witnesses. Our work demonstrates the efficient characterization of high-dimensional quantum channels, a key ingredient for future quantum communication technologies.
翻訳日:2024-08-29 15:31:11 公開日:2024-08-28
# LLaVA-MoD: MoEナレッジ蒸留によるLLaVAタイニー製造

LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation ( http://arxiv.org/abs/2408.15881v1 )

ライセンス: Link先を確認
Fangxun Shu, Yue Liao, Le Zhuo, Chenning Xu, Guanghao Zhang, Haonan Shi, Long Chen, Tao Zhong, Wanggui He, Siming Fu, Haoyuan Li, Bolin Li, Zhelun Yu, Si Liu, Hongsheng Li, Hao Jiang, (参考訳) LLaVA-MoDは,大規模MLLM(l-MLLM)の知識を抽出することで,小規模マルチモーダル言語モデルの効率的な訓練を可能にする新しいフレームワークである。 本手法はMLLM蒸留における2つの基本的な課題に対処する。 まず,スパース・ミックス・オブ・エキスパートズ(MoE)アーキテクチャを言語モデルに統合することにより,s-MLLMのネットワーク構造を最適化し,計算効率とモデル表現性のバランスをとる。 第2に,包括的知識移動を保証するための進歩的知識移動戦略を提案する。 この戦略は、学生モデルが教師ネットワークの理解をエミュレートできるように、出力分布間のKL(Kullback-Leibler)のばらつきを最小限に抑えるため、模擬蒸留から始まる。 次に,l-MLLMを参照モデルとして扱う上で鍵となるDPO(Direct Preference Optimization)による嗜好蒸留を導入する。 この段階において、s-MLLMの優良例と劣悪な例を区別する能力は、l-MLLMを超えて著しく向上し、特に幻覚ベンチマークにおいて、教師を超越したより良い学生に繋がる。 大規模な実験により、LLaVA-MoDは、活性化パラメータの最小数と計算コストを抑えながら、様々なマルチモーダルベンチマークで既存のモデルより優れていることが示された。 注目すべきは、LLaVA-MoDは2Bのアクティベートパラメータだけで、Qwen-VL-Chat-7Bを平均8.8%上回り、トレーニングデータのわずか0.3%、トレーニング可能なパラメータは23%である。 これらの結果は、LLaVA-MoDの教師モデルから包括的知識を効果的に抽出する能力を強調し、より効率的なMLLMの開発への道を開いた。 コードは、https://github.com/shufangxun/LLaVA-MoD.comで入手できる。

We introduce LLaVA-MoD, a novel framework designed to enable the efficient training of small-scale Multimodal Language Models (s-MLLM) by distilling knowledge from large-scale MLLM (l-MLLM). Our approach tackles two fundamental challenges in MLLM distillation. First, we optimize the network structure of s-MLLM by integrating a sparse Mixture of Experts (MoE) architecture into the language model, striking a balance between computational efficiency and model expressiveness. Second, we propose a progressive knowledge transfer strategy to ensure comprehensive knowledge migration. This strategy begins with mimic distillation, where we minimize the Kullback-Leibler (KL) divergence between output distributions to enable the student model to emulate the teacher network's understanding. Following this, we introduce preference distillation via Direct Preference Optimization (DPO), where the key lies in treating l-MLLM as the reference model. During this phase, the s-MLLM's ability to discriminate between superior and inferior examples is significantly enhanced beyond l-MLLM, leading to a better student that surpasses its teacher, particularly in hallucination benchmarks. Extensive experiments demonstrate that LLaVA-MoD outperforms existing models across various multimodal benchmarks while maintaining a minimal number of activated parameters and low computational costs. Remarkably, LLaVA-MoD, with only 2B activated parameters, surpasses Qwen-VL-Chat-7B by an average of 8.8% across benchmarks, using merely 0.3% of the training data and 23% trainable parameters. These results underscore LLaVA-MoD's ability to effectively distill comprehensive knowledge from its teacher model, paving the way for the development of more efficient MLLMs. The code will be available on: https://github.com/shufangxun/LLaVA-MoD.
翻訳日:2024-08-29 15:31:11 公開日:2024-08-28
# IoT環境における侵入検出の強化:Kolmogorov-Arnoldネットワークを用いたアンサンブルアプローチ

Enhancing Intrusion Detection in IoT Environments: An Advanced Ensemble Approach Using Kolmogorov-Arnold Networks ( http://arxiv.org/abs/2408.15886v1 )

ライセンス: Link先を確認
Amar Amouri, Mohamad Mahmoud Al Rahhal, Yakoub Bazi, Ismail Butun, Imad Mahgoub, (参考訳) 近年、機械学習技術の進化は、特にIoT(Internet of Things)のコンテキストにおいて、侵入検出の分野に大きな影響を与えている。 IoTネットワークが拡大するにつれ、潜在的な脅威に対処するための堅牢なセキュリティ対策の必要性が高まっている。 本稿では,KAN(Kolmogorov-Arnold Networks)とXGBoostアルゴリズムを相乗的に組み合わせたハイブリッド侵入検知システム(IDS)を提案する。 提案するIDSは,学習可能なアクティベーション関数を用いてデータ内の複雑な関係をモデル化するkansのユニークな機能を活用する。 このハイブリッドアプローチは、検出精度を高めるだけでなく、モデルの解釈可能性も向上し、動的で複雑なIoT環境に適している。 実験により,我々のハイブリッドIDSは,良性行動と悪意行動の区別において,99%以上の精度で検出できることがわかった。 さらに、98%を超えるF1スコア、精度、リコールを達成できたのです。 さらに,従来のMulti-Layer Perceptron(MLP)ネットワークとの比較分析を行い,精度,リコール,F1スコアなどのパフォーマンス指標を評価する。 この結果は、IoTネットワークのセキュリティフレームワークを大幅に強化するこの革新的なアプローチの可能性を浮き彫りにしている。

In recent years, the evolution of machine learning techniques has significantly impacted the field of intrusion detection, particularly within the context of the Internet of Things (IoT). As IoT networks expand, the need for robust security measures to counteract potential threats has become increasingly critical. This paper introduces a hybrid Intrusion Detection System (IDS) that synergistically combines Kolmogorov-Arnold Networks (KANs) with the XGBoost algorithm. Our proposed IDS leverages the unique capabilities of KANs, which utilize learnable activation functions to model complex relationships within data, alongside the powerful ensemble learning techniques of XGBoost, known for its high performance in classification tasks. This hybrid approach not only enhances the detection accuracy but also improves the interpretability of the model, making it suitable for dynamic and intricate IoT environments. Experimental evaluations demonstrate that our hybrid IDS achieves an impressive detection accuracy exceeding 99% in distinguishing between benign and malicious activities. Additionally, we were able to achieve F1 scores, precision, and recall that exceeded 98%. Furthermore, we conduct a comparative analysis against traditional Multi-Layer Perceptron (MLP) networks, assessing performance metrics such as Precision, Recall, and F1-score. The results underscore the efficacy of integrating KANs with XGBoost, highlighting the potential of this innovative approach to significantly strengthen the security framework of IoT networks.
翻訳日:2024-08-29 15:31:11 公開日:2024-08-28
# SpineMamba:残像マンバ層と形状前駆体による臨床像における3次元スピナルセグメンテーションの促進

SpineMamba: Enhancing 3D Spinal Segmentation in Clinical Imaging through Residual Visual Mamba Layers and Shape Priors ( http://arxiv.org/abs/2408.15887v1 )

ライセンス: Link先を確認
Zhiqing Zhang, Tianyong Liu, Guojia Fan, Bin Li, Qianjin Feng, Shoujun Zhou, (参考訳) 脊椎疾患の診断と治療には, 正確な3次元臨床像分割が重要である。 しかし、現在の画像技術に固有の脊髄解剖学固有の複雑さと不確実性は、脊髄画像のセマンティックセグメンテーションに重大な課題をもたらす。 畳み込みニューラルネットワーク(CNN)とトランスフォーマーモデル(Transformer-based model)は、脊髄のセグメンテーションにおいて多少進歩しているが、長距離依存を扱う際の制限は、セグメンテーション精度のさらなる向上を妨げている。 また, 脊椎の構造的意味理解を深めるために, 医療画像から脊椎の特定の解剖学的情報を抽出し, 脊椎の構造的意味情報を抽出する能力を大幅に向上する, 新規な脊椎前方モジュールを提案する。 2つのデータセットの比較およびアブレーション実験は、SpineMambaが既存の最先端モデルより優れていることを示している。 CTデータセットでは、セグメンテーションの平均Dice類似度係数は94.40に達し、MRデータセットでは86.95に達する。 特に、有名なnnU-Netと比較して、SpineMambaはセグメンテーション性能が優れ、最大で2ポイントを超える。 これにより、その正確性、堅牢性、および優れた一般化能力が裏付けられる。

Accurate segmentation of 3D clinical medical images is critical in the diagnosis and treatment of spinal diseases. However, the inherent complexity of spinal anatomy and uncertainty inherent in current imaging technologies, poses significant challenges for semantic segmentation of spinal images. Although convolutional neural networks (CNNs) and Transformer-based models have made some progress in spinal segmentation, their limitations in handling long-range dependencies hinder further improvements in segmentation accuracy.To address these challenges, we introduce a residual visual Mamba layer to effectively capture and model the deep semantic features and long-range spatial dependencies of 3D spinal data. To further enhance the structural semantic understanding of the vertebrae, we also propose a novel spinal shape prior module that captures specific anatomical information of the spine from medical images, significantly enhancing the model's ability to extract structural semantic information of the vertebrae. Comparative and ablation experiments on two datasets demonstrate that SpineMamba outperforms existing state-of-the-art models. On the CT dataset, the average Dice similarity coefficient for segmentation reaches as high as 94.40, while on the MR dataset, it reaches 86.95. Notably, compared to the renowned nnU-Net, SpineMamba achieves superior segmentation performance, exceeding it by up to 2 percentage points. This underscores its accuracy, robustness, and excellent generalization capabilities.
翻訳日:2024-08-29 15:31:11 公開日:2024-08-28
# 多地点ニューロイメージングデータの高調波化のための遠方拡散オートエンコーダ

Disentangled Diffusion Autoencoder for Harmonization of Multi-site Neuroimaging Data ( http://arxiv.org/abs/2408.15890v1 )

ライセンス: Link先を確認
Ayodeji Ijishakin, Ana Lawry Aguila, Elizabeth Levitis, Ahmed Abdulaal, Andre Altmann, James Cole, (参考訳) 複数のサイトとスキャナーからのニューロイメージングデータセットを組み合わせることで、統計力を増大させ、微妙な神経解剖学的効果についてより深い洞察を与えることができる。 しかし、部位特異的な効果は、生物学的シグナルを隠蔽し、望ましくない分散を導入することで困難を生じさせる。 このような効果を除去するために統計モデルを用いた既存のハーモニゼーション技術は、生物学的多様性の維持に失敗しながら、不完全な部位効果を除去することが示されている。 近年,サイト調整のためのGANやオートエンコーダを用いた生成モデルが提案されている。 しかし、そのような手法はトレーニング中の不安定性やぼやけた画像生成で知られている。 近年、拡散モデルは高品質な合成画像を生成する能力で人気が高まっている。 本研究では,画像の特定の側面を制御するために設計された新しい拡散モデルである分散拡散オートエンコーダ(DDAE)を紹介する。 DDAEを生体の多様性を保った高品質なサイト調整画像を生成することでMR画像の調和作業に適用する。 我々は、7つの異なるサイトからのデータを用いて、従来のアプローチよりも高解像度で高調波化された2次元MR画像を生成するDDAEの優位性を実証する。 我々が知る限り、この研究は神経画像データのサイト調整のための初めての拡散モデルである。

Combining neuroimaging datasets from multiple sites and scanners can help increase statistical power and thus provide greater insight into subtle neuroanatomical effects. However, site-specific effects pose a challenge by potentially obscuring the biological signal and introducing unwanted variance. Existing harmonization techniques, which use statistical models to remove such effects, have been shown to incompletely remove site effects while also failing to preserve biological variability. More recently, generative models using GANs or autoencoder-based approaches, have been proposed for site adjustment. However, such methods are known for instability during training or blurry image generation. In recent years, diffusion models have become increasingly popular for their ability to generate high-quality synthetic images. In this work, we introduce the disentangled diffusion autoencoder (DDAE), a novel diffusion model designed for controlling specific aspects of an image. We apply the DDAE to the task of harmonizing MR images by generating high-quality site-adjusted images that preserve biological variability. We use data from 7 different sites and demonstrate the DDAE's superiority in generating high-resolution, harmonized 2D MR images over previous approaches. As far as we are aware, this work marks the first diffusion-based model for site adjustment of neuroimaging data.
翻訳日:2024-08-29 15:31:11 公開日:2024-08-28
# 幾何学的深層学習におけるフィブレーション対称性の役割

The Role of Fibration Symmetries in Geometric Deep Learning ( http://arxiv.org/abs/2408.15894v1 )

ライセンス: Link先を確認
Osvaldo Velarde, Lucas Parra, Paolo Boldi, Hernan Makse, (参考訳) Geometric Deep Learning (GDL)は、対称性の観点から幅広い機械学習技術を統一し、グラフニューラルネットワーク(GNN)のような問題固有の帰納バイアスを導入するためのフレームワークを提供する。 しかし、現在のGDLの定式化は、実世界の問題でしばしば見つからない大域的対称性に限られている。 我々はGDLを緩和し、局所対称性、特にグラフのフィブレーション対称性が現実的なインスタンスの規則性を利用することを可能にすることを提案する。 我々は, GNN が振動対称性の帰納バイアスを適用し, 表現力の強い上界を導出することを示す。 さらに、ネットワーク内の対称性を識別することにより、ネットワークノードを崩壊させ、ディープニューラルネットワークの推論とトレーニングにおいて、その計算効率を向上する。 ここで導入された数学的拡張は、より一般化に繋がる局所対称性によって誘導される帰納的バイアスを持つモデルの開発のために、多様体、バンドル、グリッドへのグラフを超えて適用される。

Geometric Deep Learning (GDL) unifies a broad class of machine learning techniques from the perspectives of symmetries, offering a framework for introducing problem-specific inductive biases like Graph Neural Networks (GNNs). However, the current formulation of GDL is limited to global symmetries that are not often found in real-world problems. We propose to relax GDL to allow for local symmetries, specifically fibration symmetries in graphs, to leverage regularities of realistic instances. We show that GNNs apply the inductive bias of fibration symmetries and derive a tighter upper bound for their expressive power. Additionally, by identifying symmetries in networks, we collapse network nodes, thereby increasing their computational efficiency during both inference and training of deep neural networks. The mathematical extension introduced here applies beyond graphs to manifolds, bundles, and grids for the development of models with inductive biases induced by local symmetries that can lead to better generalization.
翻訳日:2024-08-29 15:31:11 公開日:2024-08-28
# アノテーションとしてのLLMのバイアス:大規模言語モデルによるラベリング決定に及ぼすパーティキューの影響

Bias in LLMs as Annotators: The Effect of Party Cues on Labelling Decision by Large Language Models ( http://arxiv.org/abs/2408.15895v1 )

ライセンス: Link先を確認
Sebastian Vallejo Vera, Hunter Driggers, (参考訳) 人間のコーダーはバイアスを受けています。 我々は、Large Language Models (LLMs) において同様のバイアスをアノテーションとしてテストする。 2018年にEnnser-Jedenastik and Meyerが行った実験を再現することで、LLMが政治的情報、特に政党的手がかりを使って政治的発言を判断する証拠が見つかった。 LLMは、声明が肯定的、否定的、中立的であるかどうかを文脈的に判断するために関連する情報を使用するだけでなく、トレーニングされた人為的なデータのバイアスも反映している。 また、極端な当事者の発言に対してしか偏見を示さない人間とは異なり、中道左派や中道右派からの発言に対してもLLMは大きな偏見を示す。 本研究の結論は以下の通りである。

Human coders are biased. We test similar biases in Large Language Models (LLMs) as annotators. By replicating an experiment run by Ennser-Jedenastik and Meyer (2018), we find evidence that LLMs use political information, and specifically party cues, to judge political statements. Not only do LLMs use relevant information to contextualize whether a statement is positive, negative, or neutral based on the party cue, they also reflect the biases of the human-generated data upon which they have been trained. We also find that unlike humans, who are only biased when faced with statements from extreme parties, LLMs exhibit significant bias even when prompted with statements from center-left and center-right parties. The implications of our findings are discussed in the conclusion.
翻訳日:2024-08-29 15:31:11 公開日:2024-08-28
# ゼロショット音声クローンのためのマルチモーダル対応訓練

Multi-modal Adversarial Training for Zero-Shot Voice Cloning ( http://arxiv.org/abs/2408.15916v1 )

ライセンス: Link先を確認
John Janiczek, Dading Chong, Dongyang Dai, Arlo Faria, Chao Wang, Tao Wang, Yuzong Liu, (参考訳) 与えられたテキストを再構成するために訓練されたテキスト音声合成(TTS)モデルは、データセットの平均的な特徴に近い予測に傾向があり、人間の音声を自然に聞こえるようなバリエーションをモデル化することができない。 この問題は、発声スタイルのばらつきが高い訓練データを必要とするゼロショット音声のクローニングのために拡大される。 本稿では、トランスフォーマーエンコーダデコーダアーキテクチャを用いて、実音声特徴と生成音声特徴とを条件付きで識別することで、GAN(Generative Advsarial Networks)を用いた最近の作品から構築する。 判別器は、TSモデルの音響的特徴と韻律的特徴の両方を改善する訓練パイプラインで使用される。 我々は,これをFastSpeech2音響モデルに適用し,マルチ話者データセットであるLibriheavyをゼロショット音声のクローン処理のために訓練することにより,新たな対角訓練手法を提案する。 本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。 私たちのシステムからのオーディオサンプルはオンラインで公開されています。

A text-to-speech (TTS) model trained to reconstruct speech given text tends towards predictions that are close to the average characteristics of a dataset, failing to model the variations that make human speech sound natural. This problem is magnified for zero-shot voice cloning, a task that requires training data with high variance in speaking styles. We build off of recent works which have used Generative Advsarial Networks (GAN) by proposing a Transformer encoder-decoder architecture to conditionally discriminates between real and generated speech features. The discriminator is used in a training pipeline that improves both the acoustic and prosodic features of a TTS model. We introduce our novel adversarial training technique by applying it to a FastSpeech2 acoustic model and training on Libriheavy, a large multi-speaker dataset, for the task of zero-shot voice cloning. Our model achieves improvements over the baseline in terms of speech quality and speaker similarity. Audio examples from our system are available online.
翻訳日:2024-08-29 15:31:11 公開日:2024-08-28
# 言語横断型セマンティックロールラベリングの新しい手法

A New Method for Cross-Lingual-based Semantic Role Labeling ( http://arxiv.org/abs/2408.15896v1 )

ライセンス: Link先を確認
Mohammad Ebrahimi, Behrouz Minaei Bidgoli, Nasim Khozouei, (参考訳) セマンティック・ロール・ラベリングは自然言語処理において重要な課題であり、自然言語の理解を深める。 しかし、複数の言語における注釈付きデータの欠如は、研究者にとって大きな課題となっている。 これを解決するために,モデル伝達に基づくディープラーニングアルゴリズムが提案されている。 このアルゴリズムは、CoNLL2009の英語部分とペルシャ語における意味的役割のコーパスからなるデータセットを利用する。 学習の効率を最適化するために、各言語からの教育データの10%しか使われていない。 提案モデルの結果はNiksirt et al のモデルと比較して大幅に改善された。 モノリンガルモードではF1スコアが2.05%向上し、クロスリンガルモードでは6.23%向上した。 さらに悪いことに、比較モデルは意味的役割のラベル付けの4段階のうち2段階のみを訓練し、残りの2段階に黄金のデータを使用した。 このことは、提案されたモデルの実際の優越性が、報告された数値をかなりの差で上回っていることを示唆している。 セマンティックロールラベリングのための言語横断的手法の開発は、特に様々な言語における注釈付きデータの不足に対処する上で、有望である。 これらの進歩は、異なる言語文脈における自然言語の理解と処理に関するさらなる研究の道を開いた。

Semantic role labeling is a crucial task in natural language processing, enabling better comprehension of natural language. However, the lack of annotated data in multiple languages has posed a challenge for researchers. To address this, a deep learning algorithm based on model transfer has been proposed. The algorithm utilizes a dataset consisting of the English portion of CoNLL2009 and a corpus of semantic roles in Persian. To optimize the efficiency of training, only ten percent of the educational data from each language is used. The results of the proposed model demonstrate significant improvements compared to Niksirt et al.'s model. In monolingual mode, the proposed model achieved a 2.05 percent improvement on F1-score, while in cross-lingual mode, the improvement was even more substantial, reaching 6.23 percent. Worth noting is that the compared model only trained two of the four stages of semantic role labeling and employed golden data for the remaining two stages. This suggests that the actual superiority of the proposed model surpasses the reported numbers by a significant margin. The development of cross-lingual methods for semantic role labeling holds promise, particularly in addressing the scarcity of annotated data for various languages. These advancements pave the way for further research in understanding and processing natural language across different linguistic contexts.
翻訳日:2024-08-29 15:21:26 公開日:2024-08-28
# 臨界点を通る非断熱パッセージによる非対称性増幅

Asymmetry Amplification by a Nonadiabatic Passage through a Critical Point ( http://arxiv.org/abs/2408.15897v1 )

ライセンス: Link先を確認
Bhavay Tyagi, Fumika Suzuki, Vladimir A. Chernyak, Nikolai A. Sinitsyn, (参考訳) 弱対称性破壊相互作用の存在下での量子二階相転移による動的通過の最小モデルの提案と解法を行った。 この進化は、たとえ対称性の破れ項がどれほど弱いとしても、最終的に高度に非対称状態をもたらす。 これは、ほぼ同じ特性を持つ粒子の生成において強い非対称性のポテンシャル機構が示唆される。 モデルの可積分性はまた、非断熱励起数のスケーリングのための正確なキブル・ズールク指数を得ることを可能にする。

We propose and solve a minimal model of dynamic passage through a quantum second order phase transition in the presence of weak symmetry breaking interactions and no dissipation. The evolution eventually leads to a highly asymmetric state, no matter how weak the symmetry breaking term is. This suggests a potential mechanism for strong asymmetry in the production of particles with almost identical characteristics. The model's integrability also allows us to obtain exact Kibble-Zurek exponents for the scaling of the number of nonadiabatic excitations.
翻訳日:2024-08-29 15:21:26 公開日:2024-08-28
# エアフォイル拡散:条件付きエアフォイル発生のためのデノイング拡散モデル

Airfoil Diffusion: Denoising Diffusion Model For Conditional Airfoil Generation ( http://arxiv.org/abs/2408.15898v1 )

ライセンス: Link先を確認
Reid Graves, Amir Barati Farimani, (参考訳) エアフォイルのような空気力学的形状の設計は伝統的に重要な計算資源を必要としており、新しい形状合成の可能性を制限する事前定義された設計パラメータに依存している。 本研究では,拡散モデルを用いた翼生成のためのデータ駆動手法を提案する。 我々のモデルは、既存の翼のデータセットに基づいて訓練され、ランダムなベクトルから任意の数の新しい翼を生成することができる。 この拡散モデルにより, 現実的な空力特性を持つ翼形状を効果的に生成し, 効率, 柔軟性, 革新的な翼設計の発見の可能性について検討した。 このアプローチは設計空間を大きく拡張し、従来の手法の限界を超越した高性能な空気力学形状の合成を容易にする。

The design of aerodynamic shapes, such as airfoils, has traditionally required significant computational resources and relied on predefined design parameters, which limit the potential for novel shape synthesis. In this work, we introduce a data-driven methodology for airfoil generation using a diffusion model. Trained on a dataset of preexisting airfoils, our model can generate an arbitrary number of new airfoils from random vectors, which can be conditioned on specific aerodynamic performance metrics such as lift and drag, or geometric criteria. Our results demonstrate that the diffusion model effectively produces airfoil shapes with realistic aerodynamic properties, offering substantial improvements in efficiency, flexibility, and the potential for discovering innovative airfoil designs. This approach significantly expands the design space, facilitating the synthesis of high-performance aerodynamic shapes that transcend the limitations of traditional methods.
翻訳日:2024-08-29 15:21:26 公開日:2024-08-28
# Gen-Swarms:ドローンの群れに深層生成モデルを適用する

Gen-Swarms: Adapting Deep Generative Models to Swarms of Drones ( http://arxiv.org/abs/2408.15899v1 )

ライセンス: Link先を確認
Carlos Plou, Pablo Pueyo, Ruben Martinez-Cantin, Mac Schwager, Ana C. Murillo, Eduardo Montijano, (参考訳) Gen-Swarmsは、ドローンショーの制作を自動化するために、深層生成モデルとリアクティブナビゲーションアルゴリズムを活用し、組み合わせる革新的な方法である。 深部生成モデル、特に拡散モデルの発展は、高品質な2D画像の生成において顕著な効果を示した。 この成功に基づいて、様々な研究が3Dポイントクラウド生成に拡散モデルを拡張した。 対照的に、フローマッチングのような代替生成モデルが提案されており、ノイズから有意義な出力への単純で直感的な遷移を提供する。 しかし、フローマッチングモデルの3Dポイントクラウド生成への応用については、まだほとんど未検討である。 Gen-Swarmsはこれらのモデルに適応し、自動的にドローンショーを生成する。 既存の3Dポイントクラウド生成モデルは、ドローン群にとって実用的ではないポイントトラジェクトリを生成する。 対照的に,本手法は正確な3次元形状を生成するだけでなく,スムム運動を誘導し,スムーズな軌道を導出し,サンプリングプロセスに組み込まれた反応性ナビゲーションアルゴリズムを用いて潜在的衝突を考慮した。 例えば、Airplaneのようなテキストカテゴリが与えられた場合、Gen-Swarmsは高速かつ継続的に様々な3D航空機形状を生成できる。 我々の実験は、このアプローチがドローンショーに特に適しており、実現可能な軌道を提供し、代表的な最終形を作成し、ドローンショー生成全体の性能を大幅に向上させることを実証している。

Gen-Swarms is an innovative method that leverages and combines the capabilities of deep generative models with reactive navigation algorithms to automate the creation of drone shows. Advancements in deep generative models, particularly diffusion models, have demonstrated remarkable effectiveness in generating high-quality 2D images. Building on this success, various works have extended diffusion models to 3D point cloud generation. In contrast, alternative generative models such as flow matching have been proposed, offering a simple and intuitive transition from noise to meaningful outputs. However, the application of flow matching models to 3D point cloud generation remains largely unexplored. Gen-Swarms adapts these models to automatically generate drone shows. Existing 3D point cloud generative models create point trajectories which are impractical for drone swarms. In contrast, our method not only generates accurate 3D shapes but also guides the swarm motion, producing smooth trajectories and accounting for potential collisions through a reactive navigation algorithm incorporated into the sampling process. For example, when given a text category like Airplane, Gen-Swarms can rapidly and continuously generate numerous variations of 3D airplane shapes. Our experiments demonstrate that this approach is particularly well-suited for drone shows, providing feasible trajectories, creating representative final shapes, and significantly enhancing the overall performance of drone show generation.
翻訳日:2024-08-29 15:21:26 公開日:2024-08-28
# Nexus: 専門家の混在を効果的に訓練するための適応性を満たす特殊化

Nexus: Specialization meets Adaptability for Efficiently Training Mixture of Experts ( http://arxiv.org/abs/2408.15901v1 )

ライセンス: Link先を確認
Nikolas Gritsch, Qizhen Zhang, Acyr Locatelli, Sara Hooker, Ahmet Üstün, (参考訳) 新たなデータ分散への効率性、特殊化、適応性は、現在の大規模言語モデルでは組み合わせが難しい品質です。 The Mixture of Experts (MoE) architecture has been focus of significant research because its inherent conditional compute could such desired properties。 本研究は,高度専門家モデルをMoEに "アップサイクル" することに焦点を当て,新たなタスクに容易に適応できる機能を追加しながら,専門性を向上させることを目的としている。 適応的なルーティングを備えた拡張MoEアーキテクチャであるNexusを導入し、ドメイン表現から専門家の埋め込みをプロジェクト化する。 このアプローチにより、Nexusは、未確認のデータドメインに対する大規模なMoEトレーニングを必要とせずに、個別にトレーニングされた密集モデルを通じて、初期化後の新たなエキスパートを柔軟に追加することができる。 実験の結果,Nexusは初回サイクルのベースラインよりも最大2.1%向上し,また,限られた微調整データを用いてMoEを新たな専門家で拡張する相対的なゲインが18.8%向上していることがわかった。 Nexusのこの柔軟性は、すべてのユーザが必要に応じて自身のMoE-mixを継続的に組み立てるオープンソースエコシステムを実現するために不可欠です。

Efficiency, specialization, and adaptability to new data distributions are qualities that are hard to combine in current Large Language Models. The Mixture of Experts (MoE) architecture has been the focus of significant research because its inherent conditional computation enables such desirable properties. In this work, we focus on "upcycling" dense expert models into an MoE, aiming to improve specialization while also adding the ability to adapt to new tasks easily. We introduce Nexus, an enhanced MoE architecture with adaptive routing where the model learns to project expert embeddings from domain representations. This approach allows Nexus to flexibly add new experts after the initial upcycling through separately trained dense models, without requiring large-scale MoE training for unseen data domains. Our experiments show that Nexus achieves a relative gain of up to 2.1% over the baseline for initial upcycling, and a 18.8% relative gain for extending the MoE with a new expert by using limited finetuning data. This flexibility of Nexus is crucial to enable an open-source ecosystem where every user continuously assembles their own MoE-mix according to their needs.
翻訳日:2024-08-29 15:21:26 公開日:2024-08-28
# 進化環境における知識グラフの統合によるLLMに基づくマルチホップ質問応答

LLM-Based Multi-Hop Question Answering with Knowledge Graph Integration in Evolving Environments ( http://arxiv.org/abs/2408.15903v1 )

ライセンス: Link先を確認
Ruirui Chen, Weifeng Jiang, Chengwei Qin, Ishaan Singh Rawal, Cheston Tan, Dongkyu Choi, Bo Xiong, Bo Ai, (参考訳) LLM(Large Language Models)における情報の急激な陳腐化は,新たな事実を取り入れた様々な手法の開発を促している。 しかし、既存の知識編集手法は、特に多くの事実更新において、正確な事実識別とシーケンシャルな論理的推論を必要とするマルチホップ質問の難しさに直面している。 これらの課題に対処するために,LLMの言語的柔軟性と知識グラフ(KG)の明示的な知識表現を融合させる,階層的かつ効果的な手法である大規模言語モデルのためのグラフメモリベースの編集(GMeLLo)を提案する。 GMeLLo は、単に LLM を質問応答に利用するだけでなく、これらのモデルを用いて、自由形式の言語を構造化クエリやファクトトリプルに変換することで、KG とのシームレスな相互作用を容易にし、迅速な更新と正確なマルチホップ推論を実現している。 以上の結果から,GMeLLoはマルチホップ質問応答ベンチマークであるMQuAKEにおいて,特に広範囲な知識編集を行うシナリオにおいて,最先端の知識編集手法をはるかに上回っていることが明らかとなった。

The rapid obsolescence of information in Large Language Models (LLMs) has driven the development of various techniques to incorporate new facts. However, existing methods for knowledge editing still face difficulties with multi-hop questions that require accurate fact identification and sequential logical reasoning, particularly among numerous fact updates. To tackle these challenges, this paper introduces Graph Memory-based Editing for Large Language Models (GMeLLo), a straitforward and effective method that merges the explicit knowledge representation of Knowledge Graphs (KGs) with the linguistic flexibility of LLMs. Beyond merely leveraging LLMs for question answering, GMeLLo employs these models to convert free-form language into structured queries and fact triples, facilitating seamless interaction with KGs for rapid updates and precise multi-hop reasoning. Our results show that GMeLLo significantly surpasses current state-of-the-art knowledge editing methods in the multi-hop question answering benchmark, MQuAKE, especially in scenarios with extensive knowledge edits.
翻訳日:2024-08-29 15:21:26 公開日:2024-08-28
# MetaGFN: 連続GFlowNetのための適応メタ力学を用いた距離モード探索

MetaGFN: Exploring Distant Modes with Adapted Metadynamics for Continuous GFlowNets ( http://arxiv.org/abs/2408.15905v1 )

ライセンス: Link先を確認
Dominic Phillips, Flaviu Cipcigan, (参考訳) ジェネレーティブ・フロー・ネットワーク(Generative Flow Networks、GFlowNets)は、学習ポリシーを通じて特定の報酬関数に比例してオブジェクトをサンプリングする生成モデルのクラスである。 それらは、オン・ポリティクスまたはオフ・ポリティシーのどちらかで訓練することができ、ターゲットの分布に迅速に収束するために、探索と搾取のバランスを必要とする。 離散的なGFlowNetの探索戦略が研究されているが、連続領域の局所接続性による新しい探索アルゴリズムの可能性にもかかわらず、連続領域での探索は検討されていない。 本稿では,連続ドメイン上の任意のブラックボックス報酬関数に適用可能なメタ力学の変種であるAdapted Metadynamicsを紹介する。 我々は、継続的GFlowNetの探索戦略としてAdapted Metadynamicsを使用します。 結果のアルゴリズムであるMetaGFNは、目標分布への収束を加速し、GFlowNetsの以前のオフポリティクス探索戦略よりも遠い報酬モードを発見する3つの連続領域を示す。

Generative Flow Networks (GFlowNets) are a class of generative models that sample objects in proportion to a specified reward function through a learned policy. They can be trained either on-policy or off-policy, needing a balance between exploration and exploitation for fast convergence to a target distribution. While exploration strategies for discrete GFlowNets have been studied, exploration in the continuous case remains to be investigated, despite the potential for novel exploration algorithms due to the local connectedness of continuous domains. Here, we introduce Adapted Metadynamics, a variant of metadynamics that can be applied to arbitrary black-box reward functions on continuous domains. We use Adapted Metadynamics as an exploration strategy for continuous GFlowNets. We show three continuous domains where the resulting algorithm, MetaGFN, accelerates convergence to the target distribution and discovers more distant reward modes than previous off-policy exploration strategies used for GFlowNets.
翻訳日:2024-08-29 15:21:26 公開日:2024-08-28
# CoRe: テキスト対画像パーソナライゼーションのためのコンテキスト規則型テキスト埋め込み学習

CoRe: Context-Regularized Text Embedding Learning for Text-to-Image Personalization ( http://arxiv.org/abs/2408.15914v1 )

ライセンス: Link先を確認
Feize Wu, Yun Pang, Junyi Zhang, Lianyu Pang, Jian Yin, Baoquan Zhao, Qing Li, Xudong Mao, (参考訳) 近年のテキスト・ツー・イメージのパーソナライゼーションの進歩により、ユーザが提供する概念に対して高品質で制御可能な画像合成が可能になった。 しかし、既存の手法は、アイデンティティ保存とテキストアライメントのバランスを取るのに依然として苦労している。 提案手法は,新しい概念とCLIPテキストエンコーダ内のコンテキストトークン間のインタラクションを正確に処理する,プロンプトの正確な意味理解を必要とするという事実に基づいている。 そこで本研究では,テキストエンコーダの入力埋め込み空間に新しい概念を適切に組み込むことを目標とし,既存のトークンとのシームレスな統合を実現する。 コンテクスト規則化(CoRe)を導入し、コンテクストトークンをプロンプトに正規化することで、新しい概念のテキスト埋め込みの学習を強化する。 これは、コンテキストトークンに対するテキストエンコーダの適切な出力ベクトルは、新しい概念のテキスト埋め込みが正しく学習された場合にのみ達成できるという知見に基づいている。 CoReは、対応する画像の生成を必要とせずに任意のプロンプトに適用できるため、学習されたテキスト埋め込みの一般化が向上する。 さらに、CoReはテスト時の最適化技術として機能し、特定のプロンプトの世代をさらに強化することができる。 包括的実験により,本手法は識別保存法とテキストアライメント法の両方において,いくつかの基本的手法より優れていることが示された。 コードは公開されます。

Recent advances in text-to-image personalization have enabled high-quality and controllable image synthesis for user-provided concepts. However, existing methods still struggle to balance identity preservation with text alignment. Our approach is based on the fact that generating prompt-aligned images requires a precise semantic understanding of the prompt, which involves accurately processing the interactions between the new concept and its surrounding context tokens within the CLIP text encoder. To address this, we aim to embed the new concept properly into the input embedding space of the text encoder, allowing for seamless integration with existing tokens. We introduce Context Regularization (CoRe), which enhances the learning of the new concept's text embedding by regularizing its context tokens in the prompt. This is based on the insight that appropriate output vectors of the text encoder for the context tokens can only be achieved if the new concept's text embedding is correctly learned. CoRe can be applied to arbitrary prompts without requiring the generation of corresponding images, thus improving the generalization of the learned text embedding. Additionally, CoRe can serve as a test-time optimization technique to further enhance the generations for specific prompts. Comprehensive experiments demonstrate that our method outperforms several baseline methods in both identity preservation and text alignment. Code will be made publicly available.
翻訳日:2024-08-29 15:21:26 公開日:2024-08-28
# 大規模言語モデルにおけるタスクエキスパート向上のためのオープン知識の活用

Leveraging Open Knowledge for Advancing Task Expertise in Large Language Models ( http://arxiv.org/abs/2408.15915v1 )

ライセンス: Link先を確認
Yuncheng Yang, Yulei Qin, Tong Wu, Zihan Xu, Gang Li, Pengcheng Guo, Hang Shao, Yucheng Shi, Ke Li, Xing Sun, Jie Yang, Yun Gu, (参考訳) 特定の分野のタスクを解くために,大規模言語モデル (LLM) の専門知識の育成には,期待される安定な出力に対する校正動作を伴う特別な目的のチューニングが必要となることが多い。 命令データセットとトレーニングリソースを数百時間まで手作業で準備することで生じる膨大なコストを回避するため、ローランク適応(LoRA)モデルや命令データセットを含むオープン知識の活用が良い出発点となる。 しかし、モデルとデータ選択に関する既存の手法は、ドメイン固有のデプロイメントで露出する知識ギャップを無視しながら、汎用機能の性能に重点を置いている。 本研究では,LLMの課題専門知識をオープンな知識で向上させるため,人手によるサンプル(Kショット)を少なく導入することで,このようなギャップを埋めることを提案する。 具体的には、Kショットデータが最も有望な専門家候補とタスク関連命令を選択する際に介入するタスクエキスパートをコスト効率よく生成する、効率的でスケーラブルなパイプラインを開発する。 複数の専門家の間で個別のyet-complementaryな知識を最大限に活用するために、Mixix-of-expert (MoE)システムを構築している。 われわれは、MoEシステムの成功のための2つの鍵を公表する。 1)Kショットによる禁止,及び 2【多様性の主張】 前者にとって、Kショットに真に問題解決能力を持つモデルが、盲目な推測者よりも選択されることを保証する。 さらに、データ選択の際には、タスク関連コンテキストをKショットと共有する命令が優先される。 後者では, モデルおよびデータ選択プロセス全体を通して, 構成専門家の多様性と微調整指導の多様性を強調した。 各種タスクにおけるオープン知識の活用に関する既存手法に対するアプローチの優位性を確認した。 コードとモデルは後日リリースされる予定だ。

The cultivation of expertise for large language models (LLMs) to solve tasks of specific areas often requires special-purpose tuning with calibrated behaviors on the expected stable outputs. To avoid huge cost brought by manual preparation of instruction datasets and training resources up to hundreds of hours, the exploitation of open knowledge including a wealth of low rank adaptation (LoRA) models and instruction datasets serves as a good starting point. However, existing methods on model and data selection focus on the performance of general-purpose capabilities while neglecting the knowledge gap exposed in domain-specific deployment. In the present study, we propose to bridge such gap by introducing few human-annotated samples (i.e., K-shot) for advancing task expertise of LLMs with open knowledge. Specifically, we develop an efficient and scalable pipeline to cost-efficiently produce task experts where K-shot data intervene in selecting the most promising expert candidates and the task-relevant instructions. A mixture-of-expert (MoE) system is built to make the best use of individual-yet-complementary knowledge between multiple experts. We unveil the two keys to the success of a MoE system, 1) the abidance by K-shot, and 2) the insistence on diversity. For the former, we ensure that models that truly possess problem-solving abilities on K-shot are selected rather than those blind guessers. Besides, during data selection, instructions that share task-relevant contexts with K-shot are prioritized. For the latter, we highlight the diversity of constituting experts and that of the fine-tuning instructions throughout the model and data selection process. Extensive experimental results confirm the superiority of our approach over existing methods on utilization of open knowledge across various tasks. Codes and models will be released later.
翻訳日:2024-08-29 15:21:26 公開日:2024-08-28
# DiffAge3D:拡散型3D認識顔の老化

DiffAge3D: Diffusion-based 3D-aware Face Aging ( http://arxiv.org/abs/2408.15922v1 )

ライセンス: Link先を確認
Junaid Wahid, Fangneng Zhan, Pramod Rao, Christian Theobalt, (参考訳) 顔の老化(英: face aging)とは、個人の外見を若いものや古いものに変換する過程である。 既存の顔の老化技術は2D設定に限られており、3D顔のモデリングへの需要が高まっているため、しばしばアプリケーションの弱体化を招いている。 さらに、既存の老化手法は、忠実な老化、アイデンティティの維持、入力画像の詳細な詳細保持に苦慮している。 DiffAge3D(DiffAge3D, DiffAge3D, DiffAge3D, DiffAge3D, DiffAge3D, DiffAge3D, DiffAge3D, DiffAge3D, DiffAge3D, DiffAge3D, DiffAge3D, DiffAge3D, DiffAge3D, DiffAge3D, DiffAge3D, DiffAge3D, DiffAge3D, DiffAge3D, DiffAge3D, DiffAge3D)を提案する。 我々の高齢化フレームワークは、ターゲット年齢の1つの画像のみを撮影することで、老化とカメラのポーズを別々にモデル化することができる。 私たちのフレームワークは、トレーニング済みの3D GANとCLIPモデルにリッチなテキスト埋め込み機能を活用することで、堅牢な3D対応老化データセット生成パイプラインを含む。 特に、データセット生成に逆ボトルネックは使用していません。 代わりに、3D GANの潜伏空間からランダムにトレーニングサンプルを生成し、GANのリッチ潜伏空間を操り、大きなギャップがあっても年齢を発生させることができる。 生成されたデータセットを用いて、カメラのポーズと顔の年齢を制御するために、視点対応拡散に基づく老化モデルを訓練する。 DiffAge3Dは,量的,質的な評価を通じて,既存の手法,特にマルチビュー一貫性の老朽化や細部保存において優れることを示す。

Face aging is the process of converting an individual's appearance to a younger or older version of themselves. Existing face aging techniques have been limited to 2D settings, which often weaken their applications as there is a growing demand for 3D face modeling. Moreover, existing aging methods struggle to perform faithful aging, maintain identity, and retain the fine details of the input images. Given these limitations and the need for a 3D-aware aging method, we propose DiffAge3D, the first 3D-aware aging framework that not only performs faithful aging and identity preservation but also operates in a 3D setting. Our aging framework allows to model the aging and camera pose separately by only taking a single image with a target age. Our framework includes a robust 3D-aware aging dataset generation pipeline by utilizing a pre-trained 3D GAN and the rich text embedding capabilities within CLIP model. Notably, we do not employ any inversion bottleneck in dataset generation. Instead, we randomly generate training samples from the latent space of 3D GAN, allowing us to manipulate the rich latent space of GAN to generate ages even with large gaps. With the generated dataset, we train a viewpoint-aware diffusion-based aging model to control the camera pose and facial age. Through quantitative and qualitative evaluations, we demonstrate that DiffAge3D outperforms existing methods, particularly in multiview-consistent aging and fine details preservation.
翻訳日:2024-08-29 15:21:26 公開日:2024-08-28
# 一般ナイーブベイズ

Generalized Naive Bayes ( http://arxiv.org/abs/2408.15923v1 )

ライセンス: Link先を確認
Edith Alice Kovács, Anna Ország, Dániel Pfeifer, András Benczúr, (参考訳) 本稿では,ネイブベイズ構造の拡張として,いわゆる一般化ネイブベイズ構造を紹介する。 我々は,GNB(Generalized Naive Bayes)確率分布に適合する新しいグリージーアルゴリズムを提案する。 これは、古典的ネーブベイズ(NB)によって決定される確率分布と同様に、少なくともデータに適合することを示す。 そして、あまり制限的でない条件下では、最適GNB確率分布、すなわちKLの発散という意味での最適適合構造を証明できる第2のアルゴリズムを与える。 両アルゴリズムは情報内容の最大化と冗長性の最小化を目的として構築されている。 これらのアルゴリズムに基づいて,特徴選択のための新しい手法が導入された。 我々は、構造、方法論、複雑さの観点から、他の関連するアルゴリズムとの類似点と相違点について論じる。 実験結果から, アルゴリズムの導入は, 多くの場合, 関連アルゴリズムよりも優れていることがわかった。

In this paper we introduce the so-called Generalized Naive Bayes structure as an extension of the Naive Bayes structure. We give a new greedy algorithm that finds a good fitting Generalized Naive Bayes (GNB) probability distribution. We prove that this fits the data at least as well as the probability distribution determined by the classical Naive Bayes (NB). Then, under a not very restrictive condition, we give a second algorithm for which we can prove that it finds the optimal GNB probability distribution, i.e. best fitting structure in the sense of KL divergence. Both algorithms are constructed to maximize the information content and aim to minimize redundancy. Based on these algorithms, new methods for feature selection are introduced. We discuss the similarities and differences to other related algorithms in terms of structure, methodology, and complexity. Experimental results show, that the algorithms introduced outperform the related algorithms in many cases.
翻訳日:2024-08-29 15:21:26 公開日:2024-08-28
# ローカライズ・ディスクリプタが適応型閾値フィルタを重み付け、一眼レフト学習が可能に

Local Descriptors Weighted Adaptive Threshold Filtering For Few-Shot Learning ( http://arxiv.org/abs/2408.15924v1 )

ライセンス: Link先を確認
Bingchen Yan, (参考訳) 少ないショット画像分類は機械学習の分野で難しい課題であり、ラベル付きサンプルの限られた数を使って新しいカテゴリを識別する。 近年,この領域では,局所記述子に基づく手法が大きな進歩を遂げている。 しかし、分類精度を向上させる鍵は、背景雑音を効果的にフィルタリングし、画像カテゴリ情報に関連する重要な局所記述子を正確に選択することにある。 この課題に対処するために、局所記述子に対する革新的な重み付け適応しきい値フィルタリング(WATF)戦略を提案する。 この戦略は、現在のタスクと画像コンテキストに基づいて動的に調整することができ、画像カテゴリに最も関係のあるローカル記述子を選択する。 これにより、非関係な背景領域からの干渉を効果的に軽減しつつ、カテゴリ関連情報により焦点を絞ることができる。 提案手法の有効性を評価するため,我々はNウェイKショット実験フレームワークを採用した。 実験の結果,提案手法は局所記述子のクラスタリング効果を向上するだけでなく,画像カテゴリ間の識別能力を大幅に向上させることがわかった。 特に,本手法は,学習可能なパラメータを追加することなく,シンプルで軽量な設計思想を維持している。 この機能は、トレーニングとテストの両方のフェーズにおけるフィルタリング機能の整合性を確保し、メソッドの信頼性と実用性をさらに向上させる。

Few-shot image classification is a challenging task in the field of machine learning, involving the identification of new categories using a limited number of labeled samples. In recent years, methods based on local descriptors have made significant progress in this area. However, the key to improving classification accuracy lies in effectively filtering background noise and accurately selecting critical local descriptors highly relevant to image category information. To address this challenge, we propose an innovative weighted adaptive threshold filtering (WATF) strategy for local descriptors. This strategy can dynamically adjust based on the current task and image context, thereby selecting local descriptors most relevant to the image category. This enables the model to better focus on category-related information while effectively mitigating interference from irrelevant background regions. To evaluate the effectiveness of our method, we adopted the N-way K-shot experimental framework. Experimental results show that our method not only improves the clustering effect of selected local descriptors but also significantly enhances the discriminative ability between image categories. Notably, our method maintains a simple and lightweight design philosophy without introducing additional learnable parameters. This feature ensures consistency in filtering capability during both training and testing phases, further enhancing the reliability and practicality of the method.
翻訳日:2024-08-29 15:21:26 公開日:2024-08-28
# 決定論的量子ビット制御によるラムゼー限界の解法

Beating the Ramsey limit on sensing with deterministic qubit control ( http://arxiv.org/abs/2408.15926v1 )

ライセンス: Link先を確認
M. O. Hecht, Kumar Saurav, Evangelos Vlachos, Daniel A. Lidar, Eli M. Levenson-Falk, (参考訳) 量子センサーは、医療画像、エネルギー生産、質量検出、測地学、基礎物理学研究、その他多くの分野の革命的な進歩を約束する。 多くのセンサーでは、信号は変化する量子ビット周波数の形をとり、干渉測定によって検出される。 残念なことに、環境ノイズは量子状態をデコヒーリングし、信号対雑音比(SNR)を減少させる。 本稿では,デコヒーレンスの存在下でのキュービットの周波数測定の感度を高めるためのプロトコルを提案する。 連続駆動を用いて、キュービットのブロッホベクトルの1つの成分を安定化し、小さな静周波数シフトの効果を高める。 本研究では, 超伝導量子ビット上でのSNRを1.65$\times$で, SNRを1.09$\times$で, 標準ラムゼー干渉法と比較したSNRを1.09$\times$で拡張した。 理論的および数値的に、それぞれ 1.96$\times$ と 1.18$\times$ の最大拡張を求める。 また、このプロトコルはパラメータの誤校正に対して堅牢であることを示す。 我々のプロトコルは、標準ラムゼー干渉計と比較して、信号と雑音の比が無条件に向上する。 フィードバックを必要とせず、余分な制御や測定資源も必要とせず、すぐにその感度を高めるために様々な量子コンピューティングや量子センサー技術に適用することができる。

Quantum sensors promise revolutionary advances in medical imaging, energy production, mass detection, geodesy, foundational physics research, and a host of other fields. In many sensors, the signal takes the form of a changing qubit frequency, which is detected with an interference measurement. Unfortunately, environmental noise decoheres the qubit state, reducing signal-to-noise ratio (SNR). Here we introduce a protocol for enhancing the sensitivity of a measurement of a qubit's frequency in the presence of decoherence. We use a continuous drive to stabilize one component of the qubit's Bloch vector, enhancing the effect of a small static frequency shift. We demonstrate our protocol on a superconducting qubit, enhancing SNR per measurement shot by 1.65$\times$ and SNR per qubit evolution time by 1.09$\times$ compared to standard Ramsey interferometry. We explore the protocol theoretically and numerically, finding maximum enhancements of 1.96$\times$ and 1.18$\times$, respectively. We also show that the protocol is robust to parameter miscalibrations. Our protocol provides an unconditional enhancement in signal-to-noise ratio compared to standard Ramsey interferometry. It requires no feedback and no extra control or measurement resources, and can be immediately applied in a wide variety of quantum computing and quantum sensor technologies to enhance their sensitivities.
翻訳日:2024-08-29 15:21:26 公開日:2024-08-28
# 超強結合開系における時間依存性エネルギー準位正規化の観測

Observing Time-Dependent Energy Level Renormalisation in an Ultrastrongly Coupled Open System ( http://arxiv.org/abs/2408.15928v1 )

ライセンス: Link先を確認
Alessandra Colla, Florian Hasse, Deviprasath Palani, Tobias Schaetz, Heinz-Peter Breuer, Ulrich Warring, (参考訳) 開量子系のエネルギーレベルに強い結合とメモリの影響がどう影響するかを理解することは複雑で難しい問題である。 本稿では,Jaynes-Cummingsモデル内の開放二層系の遷移周波数を探索し,Ramseyインターフェロメトリを用いて単一トラップ25Mg+イオン中で実験的に実現した。 単一モード環境と結合したシステムの測定では、システムのエネルギーレベルが素系の周波数の最大15%に時間依存的な変化を示す。 このシフトは、極小散逸のオープン・システム・アンサッツを用いて正確に予測され、超強系-モード相互作用と相関の蓄積によって純粋に生じる。 時間平均測定は分散ランブシフト予測と整合状態エネルギーに収束し、この観測されたシフトは全ての結合および変形状態に適用できる一般化ランブシフトを表すことを示している。 本研究は, 高結合型オープン量子系における動的エネルギー準位再正規化の直接的証拠を提供するが, 全系環境ハミルトニアンは静的である。 これらの結果は、強いカップリング量子熱力学と全ての量子プラットフォームにおける進歩に不可欠なハミルトン再正規化に関するより深い洞察を与える。

Understanding how strong coupling and memory effects influence the energy levels of open quantum systems is a complex and challenging problem. Here, we show these effects by probing the transition frequency of an open two-level system within the Jaynes-Cummings model, experimentally realised using Ramsey interferometry in a single trapped 25Mg+ ion. Measurements of the system, coupled to a single-mode environment, reveal a time-dependent shift in the system's energy levels of up to 15% of the bare system frequency. This shift, accurately predicted using an open system ansatz of minimal dissipation, results purely from ultra-strong system-mode interactions and the buildup of correlations. Time-averaged measurements converge to the dispersive Lamb shift predictions and match dressed-state energies, indicating that this observed shift represents a generalised Lamb shift applicable across all coupling and detuning regimes. Our findings provide direct evidence of dynamic energy level renormalisation in strongly coupled open quantum systems, although the total system-environment Hamiltonian is static; this underscores the significance of memory effects in shaping the reduced system's energy landscape. These results offer more profound insights into Hamiltonian renormalisation, essential for strong-coupling quantum thermodynamics and advancements in all quantum platforms.
翻訳日:2024-08-29 15:21:26 公開日:2024-08-28
# 射影測定によるクラスター状態の非古典的相関流れ

Flow of non-classical correlations in cluster states due to projective measurements ( http://arxiv.org/abs/2408.15930v1 )

ライセンス: Link先を確認
Chandan Mahto, Anil Shaji, (参考訳) クラスタのノード上の量子ビット上での測定を行うため,はしご型グラフ上で定義されたクラスタ状態における量子相関のフローについて検討する。 はしごの端の3つの量子ビットに着目し、残りの量子ビットで測定された3つの量子ビットのうちの2つの非古典的相関を計算する。 2つの量子ビット間の絡み合いと、測定後の量子不協和を計算する。 3つの量子ビットを除くすべての値が測定された後、それらのうち2つの間に発達した非古典的相関は、はしごの長さとより強くなる傾向を示す。 また、クリフォード群に属する作用素の基底状態に対する測定はそのような相関や絡み合いを生じない。 生成した非古典的相関は、前回の非クリフォード測定の数、位置、性質にのみ依存する。 提案手法は,測定に基づくベース量子コンピューティング(MBQC)モデルにおいて,アルゴリズムが段階的に進行する間,量子相関のダイナミクスに光を当てるだけでなく,開放量子系として扱われる最後の2つの量子ビットが,その即時環境がランダムな測定によって疑問視されるにつれて,絡み合いや非古典的相関が増大することを示す。

We explore the flow of quantum correlations in cluster states defined on ladder type graphs as measurements are done on qubits located on the nodes of the cluster. We focus on three qubits at the end of the ladder and compute the non-classical correlations between two of the three qubits as measurements are done on the remaining qubits. We compute both the entanglement between the two qubits as well as the quantum discord between them after the measurements. We see that after all but three qubits are measured, the non-classical correlations developed between two of them show a trend of being stronger with the length of the ladder. It is also seen that measurements on to the basis states of operators belonging to the Clifford group do not produce such correlations or entanglement. The non-classical correlations produced depend only on the number, location and nature of preceding non-Clifford measurements. Our results not only throw light on the dynamics of quantum correlations while an algorithm proceeds step-by-step in the Measurement-based Based Quantum Computing (MBQC) model but it also reveals how the last two qubits, treated as an open quantum system, can have increasing entanglement or other non-classical correlations as its immediate environment is interrogated through random measurements.
翻訳日:2024-08-29 15:09:00 公開日:2024-08-28
# 定レートエンタングルメント蒸留による高速量子配線

Fast quantum interconnects via constant-rate entanglement distillation ( http://arxiv.org/abs/2408.15936v1 )

ライセンス: Link先を確認
Christopher A. Pattison, Gefen Baranes, J. Pablo Bonilla Ataides, Mikhail D. Lukin, Hengyun Zhou, (参考訳) 分散量子コンピューティングは、大規模量子コンピュータのモジュラー構成を可能にし、ブラインド量子コンピューティングのための新しいプロトコルを可能にする。 しかし、大規模でフォールトトレラントな体制におけるそのような応用は、既存の量子配線法では満たされていない忠実さと絡み合いの発生率に厳しい要求を課す。 本研究では,このボトルネックに対処する定レート蒸留法を開発した。 量子誤り検出符号に基づく2方向絡み込み蒸留プロトコルのシーケンスと,標準耐故障技術と組み合わせることで,定レート絡み込み蒸留を実現する。 提案手法は期待値が一定であることを示すとともに,メモリ制約を受ける低オーバーヘッドを実現するために,さらに数値的に最適化する。 最適化されたスキームは、既存の計算効率のよい量子相互接続スキームよりも、関連するレシエーションの桁違いに優れており、分散量子アルゴリズムの実行の直接的な高速化につながっている。

Distributed quantum computing allows the modular construction of large-scale quantum computers and enables new protocols for blind quantum computation. However, such applications in the large-scale, fault-tolerant regime place stringent demands on the fidelity and rate of entanglement generation which are not met by existing methods for quantum interconnects. In this work, we develop constant-rate entanglement distillation methods to address this bottleneck in the setting of noisy local operations. By using a sequence of two-way entanglement distillation protocols based on quantum error detecting codes with increasing rate, and combining with standard fault tolerance techniques, we achieve constant-rate entanglement distillation. We prove the scheme has constant-rate in expectation and further numerically optimize to achieve low practical overhead subject to memory constraints. We find our optimized schemes outperform existing computationally efficient quantum interconnect schemes by an order of magnitude in relevant regimes, leading to a direct speed-up in the execution of distributed quantum algorithms.
翻訳日:2024-08-29 15:09:00 公開日:2024-08-28
# 量子再帰フーリエサンプリングにおける位相キックバック

Phase kickback in quantum Recursive Fourier Sampling ( http://arxiv.org/abs/2408.15938v1 )

ライセンス: Link先を確認
Christoffer Hindlycke, Niklas Johansson, Jan-Åke Larsson, (参考訳) 再帰フーリエサンプリング(Recursive Fourier Smpling、RFS)は、量子的優位性を示す最も初期の問題の1つであり、メルリン・アーサー複雑性クラスの外にあることが知られている。 本稿では, RFS における位相キックバック現象とその使用法, および RFS における量子優位性に対する量子計算特性の有効性について述べる。 最も重要なことは、位相キックバックの用語で量子計算の計算過程を記述することは、なぜ RFS を解く際に非計算が必要なのかをよりよく理解し、量子優位性の限界の根底にある理由を指摘することである。

Recursive Fourier Sampling (RFS) is one of the earliest problems demonstrating a quantum advantage, and is known to lie outside the Merlin-Arthur complexity class. This paper contains a description of the phenomenon of phase kickback and its use in RFS, and how and why this is the enabling quantum computational property for the quantum advantage in RFS. Most importantly, describing the computational process of quantum computation in the terminology of phase kickback gives a much better understanding of why uncomputation is necessary when solving RFS, pointing to the underlying reason for the limitations of the quantum advantage.
翻訳日:2024-08-29 15:09:00 公開日:2024-08-28
# Sigma Flows for Image and Data Labeling and Learning Structured Prediction

Sigma Flows for Image and Data Labeling and Learning Structured Prediction ( http://arxiv.org/abs/2408.15946v1 )

ライセンス: Link先を確認
Jonas Cassel, Bastian Boll, Stefania Petra, Peter Albers, Christoph Schnörr, (参考訳) 本稿では, ユークリッド画像領域を含むリーマン多様体上で観測されたデータの構造化ラベル付け予測のためのシグマフローモデルを提案する。 このアプローチは、約25年前にSochen、Kimmel、Malladiが導入したイメージデノナイズとエンハンスメントのためのLaplace-Beltramiフレームワークと、著者らが導入し研究した代入フローアプローチを組み合わせたものだ。 シグマフローは一般調和エネルギーのリーマン勾配フローとして生じ、したがって閉リーマン領域多様体から統計多様体への調和写像を決定する非線形幾何学的PDEによって制御され、情報幾何学からフィッシャー・ラオ計量を備えた。 シグマフローの具体的要素は、発展状態における領域多様体のリーマン計量の相互依存である。 これにより、データから学習可能な、コンパクトな時間変化パラメトリゼーションによるマッピングを通じて、この依存関係を実現することで、機械学習に特定の方法で対応できるアプローチが実現される。 概念実証実験はシグマフローモデルの表現性と予測性能を示す。 シグマフローの幾何学的積分によって生成されたトランスフォーマーネットワークアーキテクチャやネットワークの構造的類似性が指摘され、これはディープラーニングとの関係を強調し、逆に科学機械学習の他の領域における構造的予測のための幾何学的設計原則の使用を刺激する可能性がある。

This paper introduces the sigma flow model for the prediction of structured labelings of data observed on Riemannian manifolds, including Euclidean image domains as special case. The approach combines the Laplace-Beltrami framework for image denoising and enhancement, introduced by Sochen, Kimmel and Malladi about 25 years ago, and the assignment flow approach introduced and studied by the authors. The sigma flow arises as Riemannian gradient flow of generalized harmonic energies and thus is governed by a nonlinear geometric PDE which determines a harmonic map from a closed Riemannian domain manifold to a statistical manifold, equipped with the Fisher-Rao metric from information geometry. A specific ingredient of the sigma flow is the mutual dependency of the Riemannian metric of the domain manifold on the evolving state. This makes the approach amenable to machine learning in a specific way, by realizing this dependency through a mapping with compact time-variant parametrization that can be learned from data. Proof of concept experiments demonstrate the expressivity of the sigma flow model and prediction performance. Structural similarities to transformer network architectures and networks generated by the geometric integration of sigma flows are pointed out, which highlights the connection to deep learning and, conversely, may stimulate the use of geometric design principles for structured prediction in other areas of scientific machine learning.
翻訳日:2024-08-29 15:09:00 公開日:2024-08-28
# トレーニングにおける補助入力:心電図のないダイナミック冠状ロードマップ作成のための深層学習モデルへのカテーテル機能の導入

Auxiliary Input in Training: Incorporating Catheter Features into Deep Learning Models for ECG-Free Dynamic Coronary Roadmapping ( http://arxiv.org/abs/2408.15947v1 )

ライセンス: Link先を確認
Yikang Liu, Lin Zhao, Eric Z. Chen, Xiao Chen, Terrence Chen, Shanhui Sun, (参考訳) ダイナミック冠のロードマップ作成は、X線アンギオグラフィーのオフライン画像シーケンスから抽出した血管マップ(「ロードマップ」)をリアルタイムでX線フルオロスコープのライブストリームにオーバーレイする技術である。 コントラスト剤注入の繰り返しを必要とせず、介入手術のナビゲーションガイダンスを提供することを目標とし、放射線曝露や腎不全に伴うリスクを低減することを目的としている。 ロードマップの精度は、心臓の位相に基づいて血管造影像と蛍光像の正確なアライメントと、正確なカテーテルの先端追跡に基づいて決定される。 前者は、現在のフレーム内の容器形状と密に一致したロードマップの選択を保証し、後者は、カセター先端を基準点として、ロードマップと現在の容器木の間の翻訳運動を調整する。 両方のタスクでディープラーニングモデルをトレーニングすることは困難で、探索不足です。 しかし、カテーテルの機能をモデルに組み込むことは、人間がカテーテルに頼ってタスクを完了させることを考えると、大きなメリットをもたらす可能性がある。 そこで本研究では,AIT(Assistant input in Training)というシンプルな手法を導入し,両タスク間のモデル性能の向上,知識の取り込みと伝達学習におけるベースライン手法の向上を実証する。

Dynamic coronary roadmapping is a technology that overlays the vessel maps (the "roadmap") extracted from an offline image sequence of X-ray angiography onto a live stream of X-ray fluoroscopy in real-time. It aims to offer navigational guidance for interventional surgeries without the need for repeated contrast agent injections, thereby reducing the risks associated with radiation exposure and kidney failure. The precision of the roadmaps is contingent upon the accurate alignment of angiographic and fluoroscopic images based on their cardiac phases, as well as precise catheter tip tracking. The former ensures the selection of a roadmap that closely matches the vessel shape in the current frame, while the latter uses catheter tips as reference points to adjust for translational motion between the roadmap and the present vessel tree. Training deep learning models for both tasks is challenging and underexplored. However, incorporating catheter features into the models could offer substantial benefits, given humans heavily rely on catheters to complete the tasks. To this end, we introduce a simple but effective method, auxiliary input in training (AIT), and demonstrate that it enhances model performance across both tasks, outperforming baseline methods in knowledge incorporation and transfer learning.
翻訳日:2024-08-29 15:09:00 公開日:2024-08-28
# Atari-GPT:アタリ競技における低レベル政策としての多モード大言語モデルの能力調査

Atari-GPT: Investigating the Capabilities of Multimodal Large Language Models as Low-Level Policies for Atari Games ( http://arxiv.org/abs/2408.15950v1 )

ライセンス: Link先を確認
Nicholas R. Waytowich, Devin White, MD Sunbeam, Vinicius G. Goecks, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、従来のテキストベースのタスクからマルチモーダルドメインへの機能拡張、視覚、聴覚、テキストデータの統合などである。 マルチモーダル LLM はロボットやゲームのような分野の高レベルな計画のために広く研究されてきたが、低レベルなコントローラとしての可能性はいまだに未完成である。 本稿では,Atari ゲームにおける低レベルコントローラとしてのマルチモーダル LLM の適用について検討し,マルチモーダル LLM の低レベル制御タスク実行能力を評価するための新しいベンチマークとして,Atari ゲーム性能を導入した。 従来の強化学習(RL)や模倣学習(IL)とは異なり、これらのLLMは既存のマルチモーダル知識を利用してゲーム環境に直接関与する。 本研究では、従来のRLエージェント、人間プレイヤー、ランダムエージェントに対するマルチモーダルLLMの性能を評価し、複雑な視覚シーンを理解し、相互作用し、戦略的な反応を定式化する能力に焦点を当てた。 さらに,人間によるゲームプレイの軌跡を取り入れ,文脈理解のモデルを強化することで,インコンテキスト学習(ICL)の効果を検討する。 本研究では,マルチモーダル LLM が低レベルコントローラとして効果的に機能し,動的かつ視覚的に複雑な環境における潜在的な応用を再定義するために,その広範囲なトレーニングをどの程度活用できるかを判断することを目的とする。 追加の結果とビデオは、プロジェクトのWebページ(https://sites.google.com/view/atari-gpt/)で公開されています。

Recent advancements in large language models (LLMs) have expanded their capabilities beyond traditional text-based tasks to multimodal domains, integrating visual, auditory, and textual data. While multimodal LLMs have been extensively explored for high-level planning in domains like robotics and games, their potential as low-level controllers remains largely untapped. This paper explores the application of multimodal LLMs as low-level controllers in the domain of Atari video games, introducing Atari game performance as a new benchmark for evaluating the ability of multimodal LLMs to perform low-level control tasks. Unlike traditional reinforcement learning (RL) and imitation learning (IL) methods that require extensive computational resources as well as reward function specification, these LLMs utilize pre-existing multimodal knowledge to directly engage with game environments. Our study assesses multiple multimodal LLMs performance against traditional RL agents, human players, and random agents, focusing on their ability to understand and interact with complex visual scenes and formulate strategic responses. Additionally, we examine the impact of In-Context Learning (ICL) by incorporating human-demonstrated game-play trajectories to enhance the models contextual understanding. Through this investigation, we aim to determine the extent to which multimodal LLMs can leverage their extensive training to effectively function as low-level controllers, thereby redefining potential applications in dynamic and visually complex environments. Additional results and videos are available at our project webpage: https://sites.google.com/view/atari-gpt/.
翻訳日:2024-08-29 15:09:00 公開日:2024-08-28
# 時系列次項目予測における非項目ページの影響のモデル化と解析

Modeling and Analyzing the Influence of Non-Item Pages on Sequential Next-Item Prediction ( http://arxiv.org/abs/2408.15953v1 )

ライセンス: Link先を確認
Elisabeth Fischer, Daniel Schlör, Albin Zehe, Andreas Hotho, (参考訳) ユーザとアイテム間の歴史的なインタラクションのシーケンスを分析し、シーケンシャルレコメンデーションモデルは、ユーザの意図を学び、次のアイテムについて予測する。 これらの項目のインタラクションの次に、ほとんどのシステムは特定の項目に関連のないページ、例えばナビゲーションページ、アカウントページ、特定のカテゴリのページとのインタラクションを持つ。 しかし、アイテムやユーザに関する追加情報を統合するためのアプローチはいくつかあるが、非イテムページの統合という話題はあまり検討されていない。 我々は、仮説テストフレームワークHypTrailsを用いて、これらの非イトムページと興味のある項目との間に実際に関係があることを示し、このギャップを埋めるために、非イトムページ(例えば、コンテンツに基づいて)を表す様々なアプローチを提案し、それらを連続した次イム予測のタスクのための追加情報ソースとして利用する。 本研究は,これらの相互作用からモデルが一般的に学習可能であることを示すために,後続の項目に関係のないページを高度に関連付けた合成データセットを作成し,その後,2つの実世界のデータセットに非イテムページを含めることで得られる改善を評価した。 我々は、CNN、RNN、トランスフォーマーベースのアーキテクチャをカバーする8つの一般的なシーケンシャルレコメンデータモデルを適用し、非イテムページを統合するとともに、これらのモデルが次回の項目予測に活用する能力について検討する。 また、ノイズの多いデータに基づいてそれらの振る舞いを分析し、異なる項目表現戦略を比較する。 結果から,非イテムページは貴重な情報ソースであることがわかったが,そのようなページをうまく表現することが有効に活用するための鍵である。 非イテムページを含めることで、調査対象のすべてのモデルアーキテクチャにおいて、次回のイテム予測のパフォーマンスを様々な程度に向上させることができる。

Analyzing the sequence of historical interactions between users and items, sequential recommendation models learn user intent and make predictions about the next item of interest. Next to these item interactions, most systems also have interactions with pages not related to specific items, for example navigation pages, account pages, and pages for a specific category, which may provide additional insights into the user's interests. However, while there are several approaches to integrate additional information about items and users, the topic of integrating non-item pages has been less explored. We use the hypotheses testing framework HypTrails to show that there is indeed a relationship between these non-item pages and the items of interest and fill this gap by proposing various approaches of representing non-item pages (e.g, based on their content) to use them as an additional information source for the task of sequential next-item prediction. We create a synthetic dataset with non-item pages highly related to the subsequent item to show that the models are generally capable of learning from these interactions, and subsequently evaluate the improvements gained by including non-item pages in two real-world datasets. We adapt eight popular sequential recommender models, covering CNN-, RNN- and transformer-based architectures, to integrate non-item pages and investigate the capabilities of these models to leverage their information for next item prediction. We also analyze their behavior on noisy data and compare different item representation strategies. Our results show that non-item pages are a valuable source of information, but representing such a page well is the key to successfully leverage them. The inclusion of non-item pages can increase the performance for next-item prediction in all examined model architectures with a varying degree.
翻訳日:2024-08-29 15:09:00 公開日:2024-08-28
# InstanSeg: 正確で効率的でポータブルなセルセグメンテーションに最適化された埋め込み型インスタンスセグメンテーションアルゴリズム

InstanSeg: an embedding-based instance segmentation algorithm optimized for accurate, efficient and portable cell segmentation ( http://arxiv.org/abs/2408.15954v1 )

ライセンス: Link先を確認
Thibaut Goldsborough, Ben Philps, Alan O'Callaghan, Fiona Inglis, Leo Leplat, Andrew Filby, Hakan Bilen, Peter Bankhead, (参考訳) 細胞と核のセグメンテーションは、定量的バイオ画像解析の基本的な課題である。 近年の進歩にもかかわらず、生物学者や他のドメインの専門家は、ますます大規模で複雑な現実世界のデータセットを扱うために、新しいアルゴリズムを必要としている。 これらのアルゴリズムは最先端の精度を達成するだけでなく、効率性、ポータビリティ、ユーザフレンドリー性にも最適化されなければならない。 InstanSegは、顕微鏡画像中の細胞と核を識別する新しい埋め込み型インスタンスセグメンテーションパイプラインである。 6つの公開セルセグメンテーションデータセットを用いて、InstanSegは最も広く使われている代替手法と比較して精度を大幅に向上し、処理時間を少なくとも60%削減できることを示した。 さらに、InstanSegはTorchScriptとして完全にシリアライズ可能なように設計されており、さまざまなハードウェア上でGPUアクセラレーションをサポートする。 我々はPythonでのInstanSegのオープンソース実装と、Javaで書かれた推論のためのユーザフレンドリでインタラクティブなQuPath拡張を提供しています。 私たちのコードと事前トレーニングされたモデルは、https://github.com/instanseg/instansegで利用可能です。

Cell and nucleus segmentation are fundamental tasks for quantitative bioimage analysis. Despite progress in recent years, biologists and other domain experts still require novel algorithms to handle increasingly large and complex real-world datasets. These algorithms must not only achieve state-of-the-art accuracy, but also be optimized for efficiency, portability and user-friendliness. Here, we introduce InstanSeg: a novel embedding-based instance segmentation pipeline designed to identify cells and nuclei in microscopy images. Using six public cell segmentation datasets, we demonstrate that InstanSeg can significantly improve accuracy when compared to the most widely used alternative methods, while reducing the processing time by at least 60%. Furthermore, InstanSeg is designed to be fully serializable as TorchScript and supports GPU acceleration on a range of hardware. We provide an open-source implementation of InstanSeg in Python, in addition to a user-friendly, interactive QuPath extension for inference written in Java. Our code and pre-trained models are available at https://github.com/instanseg/instanseg .
翻訳日:2024-08-29 15:09:00 公開日:2024-08-28
# YOLOv5を用いたスマートリビングの転倒検出

Fall Detection for Smart Living using YOLOv5 ( http://arxiv.org/abs/2408.15955v1 )

ライセンス: Link先を確認
Gracile Astlin Pereira, (参考訳) 本研究は, YOLOv5muモデルを用いた転倒検出システムを導入し, 平均mAP 0.995 を達成し, スマートホーム環境における転倒イベントの同定において, 異常な精度を示す。 高度なデータ拡張技術によって強化されたこのモデルは、様々な条件にまたがる顕著な堅牢性と適応性を示す。 YOLOv5muの統合により、正確なリアルタイムの落下検知が可能となり、住民の安全と緊急対応の改善に不可欠である。 今後の研究は、コンテキストデータを取り入れたシステムの改良と、多様な環境におけるその性能と実用性を高めるためのマルチセンサーアプローチの探求に焦点をあてる。

This work introduces a fall detection system using the YOLOv5mu model, which achieved a mean average precision (mAP) of 0.995, demonstrating exceptional accuracy in identifying fall events within smart home environments. Enhanced by advanced data augmentation techniques, the model demonstrates significant robustness and adaptability across various conditions. The integration of YOLOv5mu offers precise, real-time fall detection, which is crucial for improving safety and emergency response for residents. Future research will focus on refining the system by incorporating contextual data and exploring multi-sensor approaches to enhance its performance and practical applicability in diverse environments.
翻訳日:2024-08-29 15:09:00 公開日:2024-08-28
# 二元種レンジマップの生成

Generating Binary Species Range Maps ( http://arxiv.org/abs/2408.15956v1 )

ライセンス: Link先を確認
Filip Dorm, Christian Lange, Scott Loarie, Oisin Mac Aodha, (参考訳) 種の地理的範囲を正確に予測することは、保全活動を支援するのに不可欠である。 伝統的に、レンジマップは専門家が手作業で作成した。 しかし、種分布モデル(SDM)や、より最近のディープラーニングベースの変種は、潜在的に自動化された代替手段を提供する。 深層学習に基づくSDMは、特定の場所に種が存在すると予測される確率を連続的に生成する。 しかし、これらの予測をバイナライズするのに適切な種ごとのしきい値を選択することは、異なる種が異なるしきい値を必要とするため、自明ではない。 本研究では,プレゼンスのみのデータを用いて,範囲マップをバイナライズするための最適なしきい値を自動的に識別するアプローチについて評価する。 これには、追加の擬似存在データ生成を必要とするアプローチと、存在データのみを必要とするアプローチが含まれる。 また,既存の存在のみの手法の拡張も提案する。 本研究では,2値範囲推定と大規模視覚分類のタスクにおいて,異なるしきい値抽出手法の詳細な評価を行い,提案手法を用いて既存の擬似存在自由アプローチよりも優れた性能を示す。

Accurately predicting the geographic ranges of species is crucial for assisting conservation efforts. Traditionally, range maps were manually created by experts. However, species distribution models (SDMs) and, more recently, deep learning-based variants offer a potential automated alternative. Deep learning-based SDMs generate a continuous probability representing the predicted presence of a species at a given location, which must be binarized by setting per-species thresholds to obtain binary range maps. However, selecting appropriate per-species thresholds to binarize these predictions is non-trivial as different species can require distinct thresholds. In this work, we evaluate different approaches for automatically identifying the best thresholds for binarizing range maps using presence-only data. This includes approaches that require the generation of additional pseudo-absence data, along with ones that only require presence data. We also propose an extension of an existing presence-only technique that is more robust to outliers. We perform a detailed evaluation of different thresholding techniques on the tasks of binary range estimation and large-scale fine-grained visual classification, and we demonstrate improved performance over existing pseudo-absence free approaches using our method.
翻訳日:2024-08-29 15:09:00 公開日:2024-08-28
# 3次元脳MRI用スライス異常検出ネットワーク

Efficient Slice Anomaly Detection Network for 3D Brain MRI Volume ( http://arxiv.org/abs/2408.15958v1 )

ライセンス: Link先を確認
Zeduo Zhang, Yalda Mohsenzadeh, (参考訳) 現在の異常検出法は, 標準産業データより優れているが, 「正常」と「異常」の定義の相違により, 自然画像や医療データに苦慮している。 これにより、これらの分野における偏差の正確な同定が特に困難である。 特に3Dの脳MRIデータでは、最先端のモデルはすべて3D畳み込みニューラルネットワークで再構築されている。 我々は,ImageNet上で事前学習し,MRIデータセットを2次元スライス特徴抽出器として微調整したモデルを用いたSimple Slice-based Network (SimpleSliceNet) というフレームワークを提案する。 抽出した特徴を集約し、3次元脳MRIボリュームで異常検出タスクを実行する。 本モデルでは, 条件付き正規化フローを統合し, 特徴量の対数確率を計算し, 異常検出精度を高めるためにセミプッシュ・プル機構を用いる。 その結果,脳MRIデータに存在する課題に対処する上で,モデルの顕著な適応性と有効性を示す結果が得られた。 さらに, 大規模脳の3Dボリュームに対して, 我々のモデルSimpleSliceNetは, 精度, メモリ使用量, 時間消費の点で, 最先端の2Dモデルと3Dモデルより優れていた。 コードは、https://anonymous.4open.science/r/SimpleSliceNet-8EA3で入手できる。

Current anomaly detection methods excel with benchmark industrial data but struggle with natural images and medical data due to varying definitions of 'normal' and 'abnormal.' This makes accurate identification of deviations in these fields particularly challenging. Especially for 3D brain MRI data, all the state-of-the-art models are reconstruction-based with 3D convolutional neural networks which are memory-intensive, time-consuming and producing noisy outputs that require further post-processing. We propose a framework called Simple Slice-based Network (SimpleSliceNet), which utilizes a model pre-trained on ImageNet and fine-tuned on a separate MRI dataset as a 2D slice feature extractor to reduce computational cost. We aggregate the extracted features to perform anomaly detection tasks on 3D brain MRI volumes. Our model integrates a conditional normalizing flow to calculate log likelihood of features and employs the Semi-Push-Pull Mechanism to enhance anomaly detection accuracy. The results indicate improved performance, showcasing our model's remarkable adaptability and effectiveness when addressing the challenges exists in brain MRI data. In addition, for the large-scale 3D brain volumes, our model SimpleSliceNet outperforms the state-of-the-art 2D and 3D models in terms of accuracy, memory usage and time consumption. Code is available at: https://anonymous.4open.science/r/SimpleSliceNet-8EA3.
翻訳日:2024-08-29 15:09:00 公開日:2024-08-28
# シリコンオン絶縁体上のNbTiN超伝導ナノワイヤ単光子検出器の中間赤外特性評価

Mid-infrared characterization of NbTiN superconducting nanowire single-photon detectors on silicon-on-insulator ( http://arxiv.org/abs/2408.15959v1 )

ライセンス: Link先を確認
Adan Azem, Dmitry V. Morozov, Daniel Kuznesof, Ciro Bruscino, Robert H. Hadfield, Lukas Chrostowski, Jeff F. Young, (参考訳) 超伝導ナノワイヤ単光子検出器は、紫外線から近赤外域までの様々な波長で個々の光子を検出するために広く用いられている。 近年、量子通信、分光、天体物理学の応用により、中赤外スペクトルにおける単一光子に対する感度を高めることへの関心が高まっている。 本稿では、シリコンオン絶縁体基板上に2線構成で作製した、U字型NbTiN系超伝導ナノワイヤ単光子検出器のスペクトル検出能力を、中赤外域に拡張する取り組みについて述べる。 5nmの厚みと50nmの広帯域NbTiNナノワイヤの波長3.5 {\mu}mまでの飽和内部検出効率を0.9Kで10秒未満で高速回復時間4.3nsで実証した。 検出器は、小型でマルチチャネルデバイスアプリケーションのためのシリコンオン絶縁体プラットフォームにおける導波路の統合のために設計されている。

Superconducting nanowire single-photon detectors are widely used for detecting individual photons across various wavelengths from ultraviolet to near-infrared range. Recently, there has been increasing interest in enhancing their sensitivity to single photons in the mid-infrared spectrum, driven by applications in quantum communication, spectroscopy and astrophysics. Here, we present our efforts to expand the spectral detection capabilities of U-shaped NbTiN-based superconducting nanowire single-photon detectors, fabricated in a 2-wire configuration on a silicon-on-insulator substrate, into the mid-infrared range. We demonstrate saturated internal detection efficiency extending up to a wavelength of 3.5 {\mu}m for a 5 nm thick and 50 nm wide NbTiN nanowire with a dark count rate less than 10 counts per second at 0.9 K and a rapid recovery time of 4.3 ns. The detectors are engineered for integration on waveguides in a silicon-on-insulator platform for compact, multi-channel device applications.
翻訳日:2024-08-29 15:09:00 公開日:2024-08-28
# 融合圏対称性を持つ1+1d SPT相:界面モードと非アーベルThoulessポンプ

1+1d SPT phases with fusion category symmetry: interface modes and non-abelian Thouless pump ( http://arxiv.org/abs/2408.15960v1 )

ライセンス: Link先を確認
Kansei Inamura, Shuhei Ohyama, (参考訳) 有限非可逆対称性を持つ対称性保護位相 (SPT) 位相を 1+1d で考える。 特に、行列積状態の枠組みの中で、それらのインターフェースとパラメータ化されたファミリーについて検討する。 2つの$\mathcal{C}$-SPT相の界面に作用する対称性作用素の代数的構造を、$\mathcal{C}$-SPT不変量から抽出する方法を明らかにした。 この代数の表現論を研究することで、異なる$\mathcal{C}$-SPT相の間に退化的な界面モードが存在する必要があることを示す。 この結果は通常のSPT位相に対するバルク境界対応を一般化する。 次に、そのような族の不変量の明示的な構成に基づいて、$\mathcal{C}$-SPT状態の一パラメータ族を分類する。 我々の不変量は、Thoulessチャージポンプの非アーベル一般化と同一視され、これは$\mathcal{C}$-SPT相内の局所励起のポンプである。 最後に、SPT相の一パラメータ族に対する結果を一般化することにより、1+1dおよび高次元の有限非可逆対称性を持つ一般ギャップ位相の一般パラメータ化族の分類を予想する。

We consider symmetry protected topological (SPT) phases with finite non-invertible symmetry $\mathcal{C}$ in 1+1d. In particular, we investigate interfaces and parameterized families of them within the framework of matrix product states. After revealing how to extract the $\mathcal{C}$-SPT invariant, we identify the algebraic structure of symmetry operators acting on the interface of two $\mathcal{C}$-SPT phases. By studying the representation theory of this algebra, we show that there must be a degenerate interface mode between different $\mathcal{C}$-SPT phases. This result generalizes the bulk-boundary correspondence for ordinary SPT phases. We then propose the classification of one-parameter families of $\mathcal{C}$-SPT states based on the explicit construction of invariants of such families. Our invariant is identified with a non-abelian generalization of the Thouless charge pump, which is the pump of a local excitation within a $\mathcal{C}$-SPT phase. Finally, by generalizing the results for one-parameter families of SPT phases, we conjecture the classification of general parameterized families of general gapped phases with finite non-invertible symmetries in both 1+1d and higher dimensions.
翻訳日:2024-08-29 15:09:00 公開日:2024-08-28
# 2種のRydberg原子配列における新しい基底状態と創発的量子多体傷

Novel ground states and emergent quantum many-body scars in a two-species Rydberg atom array ( http://arxiv.org/abs/2408.15965v1 )

ライセンス: Link先を確認
Lei-Yi-Nan Liu, Shun-Yao Yu, Shi-Rong Peng, Jie Sheng, Su Yi, Peng Xu, Shou-Shu Gong, Tao Shi, Jian Cui, (参考訳) ライドバーグ原子配列は量子シミュレーションと量子計算のための魅力的なプラットフォームとして確立されている。 光学的ツイーザーアレイを用いた2種の原子のトラップと制御の最近の実験的開発は、このゲームにおいてより複雑な相互作用をもたらし、非常に多目的な新しい量子状態と現象が出現し、この点における理論的および数値的な研究の必要性が高まっている。 本稿では,2種の原子配列を交互に交互に扱う基底状態相図を体系的に計算し,従来の冷間原子系では存在しない新しい量子状態を見出す。例えば,4$積状態 $|1100\rangle^{\otimes m}$,6$積状態 $|111000\rangle^{\otimes m}$,および秩序分離相。 浮遊相の存在も確認するが、この系では2つの相互作用するボゾン場によって記述されなければならないが、一方、単一種であるRydberg atom arrayは自由ボソンとして理解することができる。 より興味深いことに、クエンチ力学において、PXPモデルの低エネルギー有効理論によって説明される単一種原子で以前のものと異なる新しい量子多体散乱が発見された。 代わりに、新たに発見された量子多体傷の基盤となる物理学は、全エネルギースペクトルにまたがる摂動理論によって説明できる。 これらの状態を実験的に準備し、その現象を観察する方法に関する詳細な分析が提供される。 数値的な証拠は、提案手法が典型的に実験的に不完全を再現することに対して頑健であり、実装可能であることを示している。 我々の研究は、異なる原子種の相互作用と量子ゆらぎの相互作用の相互作用から生じる平衡内と外両方の新しい量子多体状態の量子シミュレーションのための新しい道を開く。

Rydberg atom array has been established as one appealing platform for quantum simulation and quantum computation. Recent experimental development of trapping and controlling two-species atoms using optical tweezer arrays has brought more complex interactions in this game, enabling much versatile novel quantum states and phenomena to emerge and thus leading to a growing need for both theoretical and numerical investigations in this regard. In this paper we systematically calculate the ground state phase diagram of alternating two-species atom array and find some novel quantum states that cannot exist in traditional cold-atom platforms, for instance the period $4$ product state $|1100\rangle^{\otimes m}$, the period $6$ product state $|111000\rangle^{\otimes m}$ and order-disorder separation phase. We also confirm the existence of floating phase, however, in this system it has to be described by two interacting bosonic fields whereas that in the single species Rydberg atom array can be understood as free bosons. More interestingly, in the quench dynamics we discover a type of new quantum many-body scar distinct from that previous found in single species atoms which is explained by low-energy effective theory of the PXP model. Instead, the underlying physics of the newly found quantum many-body scar can be described by a perturbation theory spanning the whole energy spectrum. Detailed analysis on how to experimentally prepare these states and observe the phenomena is provided. Numerical evidence shows that the proposed scheme is robust against typical experimentally relevent imperfections and thus it is implementable. Our work opens new avenue for quantum simulating novel quantum many-body states both in and out of equilibrium arising from the interplay of competing interactions of different atom species and quantum fluctuations.
翻訳日:2024-08-29 15:09:00 公開日:2024-08-28
# 3次元データ効率のよいポイント・ランゲージ理解を目指して

More Text, Less Point: Towards 3D Data-Efficient Point-Language Understanding ( http://arxiv.org/abs/2408.15966v1 )

ライセンス: Link先を確認
Yuan Tang, Xu Han, Xianzhi Li, Qiao Yu, Jinfeng Xu, Yixue Hao, Long Hu, Min Chen, (参考訳) 3次元物理世界を理解するための大規模言語モデル(LLM)の導入は依然として大きな課題である。 大規模な3Dテキストペアデータセットが不足しているため、LLMの成功は3D理解においてまだ再現されていない。 本稿では,この問題を再考し,新しい課題を提案する。 LLMの目標は、最小限の3Dポイントクラウドとテキストデータペアで、堅牢な3Dオブジェクト理解を実現することだ。 この課題に対処するために,3Dデータの欠如を補うために,より多くのテキストデータを活用するGreenPLMを導入する。 まず、CLIPを使って画像とテキストをアライメントすることで、トレーニング済みのクラウドテキストエンコーダを使用して、3Dポイントクラウド空間をテキスト空間にマッピングする。 このマッピングによって、テキスト空間とLLMをシームレスに接続することができます。 点-テキスト-LLM接続が確立されると、中間テキスト空間を拡張してテキスト-LLMアライメントを強化し、3Dポイントクラウドデータへの依存を減らす。 具体的には、3Dオブジェクトの6M自由テキスト記述を生成し、LLMが様々なモダリティ間の本質的な関係をよりよく探求するための3段階のトレーニング戦略を設計する。 効率的なモダリティアライメントを実現するため,トークンプールのための0パラメータクロスアテンションモジュールを設計する。 大規模な実験結果から,GreenPLMは既存の最先端モデルで使用されている3Dトレーニングデータの12%しか必要とせず,優れた3D理解が得られていることがわかった。 注目すべきは、GreenPLMはテキストのみのデータを使用して競合的なパフォーマンスを達成することだ。 コードとウェイトは、https://github.com/TangYuan96/GreenPLM.comで入手できる。

Enabling Large Language Models (LLMs) to comprehend the 3D physical world remains a significant challenge. Due to the lack of large-scale 3D-text pair datasets, the success of LLMs has yet to be replicated in 3D understanding. In this paper, we rethink this issue and propose a new task: 3D Data-Efficient Point-Language Understanding. The goal is to enable LLMs to achieve robust 3D object understanding with minimal 3D point cloud and text data pairs. To address this task, we introduce GreenPLM, which leverages more text data to compensate for the lack of 3D data. First, inspired by using CLIP to align images and text, we utilize a pre-trained point cloud-text encoder to map the 3D point cloud space to the text space. This mapping leaves us to seamlessly connect the text space with LLMs. Once the point-text-LLM connection is established, we further enhance text-LLM alignment by expanding the intermediate text space, thereby reducing the reliance on 3D point cloud data. Specifically, we generate 6M free-text descriptions of 3D objects, and design a three-stage training strategy to help LLMs better explore the intrinsic connections between different modalities. To achieve efficient modality alignment, we design a zero-parameter cross-attention module for token pooling. Extensive experimental results show that GreenPLM requires only 12% of the 3D training data used by existing state-of-the-art models to achieve superior 3D understanding. Remarkably, GreenPLM also achieves competitive performance using text-only data. The code and weights are available at: https://github.com/TangYuan96/GreenPLM.
翻訳日:2024-08-29 15:09:00 公開日:2024-08-28
# 多重ブロック凸最適化問題に対する一次2次元勾配流れのダイナミクスの安定性

Stability of Primal-Dual Gradient Flow Dynamics for Multi-Block Convex Optimization Problems ( http://arxiv.org/abs/2408.15969v1 )

ライセンス: Link先を確認
Ibrahim K. Ozaslan, Panagiotis Patrinos, Mihailo R. Jovanović, (参考訳) 一般化されたコンセンサス制約の下での目的関数における複数の、おそらくは非滑らかな項を含む複合凸最適化問題に対する原始-双対勾配流の安定性特性について検討する。 提案手法はラグランジアンを近似的に拡張し,大規模マルチブロックシナリオにおける解析と実装の両面から大きな課題に直面するADMMに代わる実現可能な代替手段を提供する。 個別収束保証を伴うカスタマイズアルゴリズムとは対照的に、我々は幅広い難解な合成最適化問題を解くための体系的なアプローチを提供する。 我々は、様々な構造的特性を利用して、提案された力学に対する大域的(指数的)収束保証を確立する。 我々の仮定は、離散時間法、例えば標準2ブロック法、マルチブロックADMM法、EXTRAアルゴリズムの(線形)収束と同様に、様々な原始双対力学の(指数)安定性を証明するために必要なものよりもはるかに弱い。 最後に,指数的安定性を前提とした構造的仮定のいくつかの必要性を示し,並列・分散コンピューティングアプリケーションにおいて提案した動的手法の利便性を実証するための計算実験を行う。

We examine stability properties of primal-dual gradient flow dynamics for composite convex optimization problems with multiple, possibly nonsmooth, terms in the objective function under the generalized consensus constraint. The proposed dynamics are based on the proximal augmented Lagrangian and they provide a viable alternative to ADMM which faces significant challenges from both analysis and implementation viewpoints in large-scale multi-block scenarios. In contrast to customized algorithms with individualized convergence guarantees, we provide a systematic approach for solving a broad class of challenging composite optimization problems. We leverage various structural properties to establish global (exponential) convergence guarantees for the proposed dynamics. Our assumptions are much weaker than those required to prove (exponential) stability of various primal-dual dynamics as well as (linear) convergence of discrete-time methods, e.g., standard two-block and multi-block ADMM and EXTRA algorithms. Finally, we show necessity of some of our structural assumptions for exponential stability and provide computational experiments to demonstrate the convenience of the proposed dynamics for parallel and distributed computing applications.
翻訳日:2024-08-29 14:59:16 公開日:2024-08-28
# デプロイ方法に反する - デプロイ戦略の異なるさまざまな攻撃シナリオに対するBGPセキュリティポリシのパフォーマンス分析

Ain't How You Deploy: An Analysis of BGP Security Policies Performance Against Various Attack Scenarios with Differing Deployment Strategies ( http://arxiv.org/abs/2408.15970v1 )

ライセンス: Link先を確認
Seth Barrett, Calvin Idom, German Zavala Villafuerte, Andrew Byers, Berk Gulmezoglu, (参考訳) 本稿では,BGP(Border Gateway Protocol)のセキュリティポリシを,異なるデプロイメント戦略を用いて複数の攻撃シナリオに対して適用する方法について検討する。 広範囲なシミュレーションを通じて、異なるAS配置タイプにわたるROV(Root Origin Validation)、ASPA(Autonomous System Provider Authorization)、PeerROV(PeerROV)などの防御メカニズムの有効性を評価する。 本研究は,現行のBGPセキュリティ対策の長所と短所に関する重要な知見を明らかにし,今後の政策開発と実施の指針を提供する。

This paper investigates the performance of various Border Gateway Protocol (BGP) security policies against multiple attack scenarios using different deployment strategies. Through extensive simulations, we evaluate the effectiveness of defensive mechanisms such as Root Origin Validation (ROV), Autonomous System Provider Authorization (ASPA), and PeerROV across distinct AS deployment types. Our findings reveal critical insights into the strengths and limitations of current BGP security measures, providing guidance for future policy development and implementation.
翻訳日:2024-08-29 14:59:16 公開日:2024-08-28
# BattleAgentBench:マルチエージェントシステムにおける言語モデルの協調性と競合能力の評価ベンチマーク

BattleAgentBench: A Benchmark for Evaluating Cooperation and Competition Capabilities of Language Models in Multi-Agent Systems ( http://arxiv.org/abs/2408.15971v1 )

ライセンス: Link先を確認
Wei Wang, Dan Zhang, Tao Feng, Boyan Wang, Jie Tang, (参考訳) 大規模言語モデル(LLM)はますます強力になり、例えば単一のエージェントやマルチエージェントシステムを構築するといった複雑なタスクを処理できるようになる。 シングルエージェントと比較して、マルチエージェントシステムは言語モデルの協調機能により高い要求がある。 協調能力を評価するために多くのベンチマークが提案されている。 しかし、これらのベンチマークはLLM協調能力のきめ細かい評価を欠いている。 さらに、既存の作業では、マルチエージェントのコラボレーションと競争のシナリオは無視されます。 これら2つの問題に対処するため,我々は,3つの難易度の7つのサブステージを定義したBattleAgentBenchというベンチマークを提案し,単一エージェントシナリオナビゲーション機能,ペアエージェントタスク実行機能,マルチエージェントコラボレーションと競合機能の観点から,言語モデルのきめ細かい評価を行う。 我々は4つのクローズドソースモデルと7つのオープンソースモデルについて広範な評価を行った。 実験結果から,APIベースのモデルは単純なタスクでは優れた性能を発揮するが,オープンソースの小さなモデルでは単純なタスクには耐え難いことが示唆された。 協調的かつ競争的な能力を必要とする困難なタスクに関しては、APIベースのモデルはいくつかの協調的な機能を示しているが、改善の余地は依然として大きい。

Large Language Models (LLMs) are becoming increasingly powerful and capable of handling complex tasks, e.g., building single agents and multi-agent systems. Compared to single agents, multi-agent systems have higher requirements for the collaboration capabilities of language models. Many benchmarks are proposed to evaluate their collaborative abilities. However, these benchmarks lack fine-grained evaluations of LLM collaborative capabilities. Additionally, multi-agent collaborative and competitive scenarios are ignored in existing works. To address these two problems, we propose a benchmark, called BattleAgentBench, which defines seven sub-stages of three varying difficulty levels and conducts a fine-grained evaluation of language models in terms of single-agent scenario navigation capabilities, paired-agent task execution abilities, and multi-agent collaboration and competition capabilities. We conducted extensive evaluations on leading four closed-source and seven open-source models. Experimental results indicate that API-based models perform excellently on simple tasks but open-source small models struggle with simple tasks. Regarding difficult tasks that require collaborative and competitive abilities, although API-based models have demonstrated some collaborative capabilities, there is still enormous room for improvement.
翻訳日:2024-08-29 14:59:16 公開日:2024-08-28
# WebPilot: 戦略的探索によるWebタスク実行のための多機能で自律的なマルチエージェントシステム

WebPilot: A Versatile and Autonomous Multi-Agent System for Web Task Execution with Strategic Exploration ( http://arxiv.org/abs/2408.15978v1 )

ライセンス: Link先を確認
Yao Zhang, Zijian Ma, Yunpu Ma, Zhen Han, Yu Wu, Volker Tresp, (参考訳) LLMベースの自律エージェントは、これらの環境の固有の不確実性や複雑さのために、動的相互作用を必要とする複雑なWebタスクの実行に失敗することが多い。 既存の LLM ベースの Web エージェントは、通常、特定の状態や行動に特有の厳格で専門家が設計したポリシーに依存している。 対照的に、人間は未知を探索し、戦略を継続的に順応し、探索を通じて曖昧さを解消することで優れている。 ヒューマンライクな適応性をエミュレートするためには、Webエージェントは戦略的探索と複雑な意思決定が必要である。 モンテカルロ木探索(MCTS)はこれに適しているが、古典的なMCTSは膨大なアクション空間、予測不可能な状態遷移、Webタスクにおける不完全な情報を扱う。 そこで我々は,複雑なWeb環境を扱うためにMCTSを改善する2つの最適化戦略を備えたマルチエージェントシステムであるWebPilotを開発した。 具体的には、Global Optimizationフェーズでは、タスクを管理可能なサブタスクに分割し、このプランを継続的に改善することにより、検索プロセスに集中し、古典的MCTSにおける巨大なアクションスペースによる課題を軽減することによって、ハイレベルなプランを生成する。 その後、ローカル最適化フェーズは、複雑な環境向けに設計された調整されたMCTSを使用して各サブタスクを実行し、不確実性に対処し、不完全な情報を管理する。 WebArenaとMiniWoB++の実験結果は、WebPilotの有効性を示している。 特に WebArena では,GPT-4 で SOTA のパフォーマンスを達成し,同時木探索法よりも 93% の成功率の向上を実現している。 WebPilotは、一般的な自律エージェントの能力を大幅に進歩させ、実用的な環境でより高度で信頼性の高い意思決定の道を開く。

LLM-based autonomous agents often fail to execute complex web tasks that require dynamic interaction due to the inherent uncertainty and complexity of these environments. Existing LLM-based web agents typically rely on rigid, expert-designed policies specific to certain states and actions, which lack the flexibility and generalizability needed to adapt to unseen tasks. In contrast, humans excel by exploring unknowns, continuously adapting strategies, and resolving ambiguities through exploration. To emulate human-like adaptability, web agents need strategic exploration and complex decision-making. Monte Carlo Tree Search (MCTS) is well-suited for this, but classical MCTS struggles with vast action spaces, unpredictable state transitions, and incomplete information in web tasks. In light of this, we develop WebPilot, a multi-agent system with a dual optimization strategy that improves MCTS to better handle complex web environments. Specifically, the Global Optimization phase involves generating a high-level plan by breaking down tasks into manageable subtasks and continuously refining this plan, thereby focusing the search process and mitigating the challenges posed by vast action spaces in classical MCTS. Subsequently, the Local Optimization phase executes each subtask using a tailored MCTS designed for complex environments, effectively addressing uncertainties and managing incomplete information. Experimental results on WebArena and MiniWoB++ demonstrate the effectiveness of WebPilot. Notably, on WebArena, WebPilot achieves SOTA performance with GPT-4, achieving a 93% relative increase in success rate over the concurrent tree search-based method. WebPilot marks a significant advancement in general autonomous agent capabilities, paving the way for more advanced and reliable decision-making in practical environments.
翻訳日:2024-08-29 14:59:16 公開日:2024-08-28
# 次世代予測によるインテクスト模倣学習

In-Context Imitation Learning via Next-Token Prediction ( http://arxiv.org/abs/2408.15980v1 )

ライセンス: Link先を確認
Letian Fu, Huang Huang, Gaurav Datta, Lawrence Yunliang Chen, William Chung-Ho Panitch, Fangchen Liu, Hui Li, Ken Goldberg, (参考訳) そこで本研究では,ロボットが入力フェーズで提供したコンテキスト情報を,基本となるポリシーパラメータを更新することなく解釈することで,新たなタスクを実行する,実ロボット上でコンテキスト内模倣学習を行うための,次世代の予測モデルを強化する方法について検討する。 In-Context Robot Transformer (ICRT) は, 言語データや報酬関数に頼らずに, 感覚運動系の自己回帰予測を行う因果変換器である。 この定式化により、人間の遠隔操作を通して収集された画像観察、行動、状態タプルを構成する新しいタスクの知覚的軌跡をモデルに含ませることで、テスト時に新しいタスクを柔軟かつ無訓練で実行することが可能となる。 Franka Emikaロボットを用いた実験では、ICRTはプロンプトとトレーニングデータの両方とは異なる環境構成であっても、プロンプトによって指定された新しいタスクに適応できることを示した。 マルチタスク環境のセットアップでは、ICRTはロボット工学における現在の最先端の次世代予測モデルよりも、目に見えないタスクへの一般化に優れています。 コード、チェックポイント、データはhttps://icrt.dev/で公開されている。

We explore how to enhance next-token prediction models to perform in-context imitation learning on a real robot, where the robot executes new tasks by interpreting contextual information provided during the input phase, without updating its underlying policy parameters. We propose In-Context Robot Transformer (ICRT), a causal transformer that performs autoregressive prediction on sensorimotor trajectories without relying on any linguistic data or reward function. This formulation enables flexible and training-free execution of new tasks at test time, achieved by prompting the model with sensorimotor trajectories of the new task composing of image observations, actions and states tuples, collected through human teleoperation. Experiments with a Franka Emika robot demonstrate that the ICRT can adapt to new tasks specified by prompts, even in environment configurations that differ from both the prompt and the training data. In a multitask environment setup, ICRT significantly outperforms current state-of-the-art next-token prediction models in robotics on generalizing to unseen tasks. Code, checkpoints and data are available on https://icrt.dev/
翻訳日:2024-08-29 14:59:16 公開日:2024-08-28
# ソフトウェアプロジェクトにおける新参者オンボーディングのためのソフトウェアソリューション: 体系的文献レビュー

Software Solutions for Newcomers' Onboarding in Software Projects: A Systematic Literature Review ( http://arxiv.org/abs/2408.15989v1 )

ライセンス: Link先を確認
Italo Santos, Katia Romero Felizardo, Marco A. Gerosa, Igor Steinmacher, (参考訳) [コンテキスト]不慣れなソフトウェアプロジェクトに参加する新参者は、多くの障壁に直面します。それゆえ、チームと関わり、彼らの役割を磨くために必要な行動、態度、スキルを開発するのに効果的なオンボーディングが不可欠です。 しかし、オンボーディングは長く、コストがかかり、エラーが発生しやすい。 ソフトウェアソリューションは、これらの障壁を緩和し、上級メンバをオーバーロードすることなくプロセスを合理化するのに役立つ。 [目的]本研究は,新規参入者に対する最先端のソフトウェアソリューションを特定することを目的としている。 方法]6つの研究課題に答えるために,系統的な文献レビュー(SLR)を行った。 結果]新規参入者に対するソフトウェアソリューションに関する32の研究を分析した結果,(1)推薦システムが最も普及している戦略,(2)ほとんどのソリューションはWebベースである,(3)プロセスを重視した様々な導入面をターゲットにしたソリューション,(4)既存のソリューションが未適応である,(5)実験室実験は,これらのソリューションを評価する上で最も一般的な方法である,(6)多様性と包摂性は,主に経験レベルに対処する。 [結論]私たちは現在の技術サポートに光を当て、より包括的なソフトウェアソリューションを開発する研究機会を特定しました。 これらの洞察は、実践者が既存のプラットフォームを精錬し、新参者のソフトウェアプロジェクトへのよりスムーズな統合を促進するためのプログラムを実践する上でも役立つだろう。

[Context] Newcomers joining an unfamiliar software project face numerous barriers; therefore, effective onboarding is essential to help them engage with the team and develop the behaviors, attitudes, and skills needed to excel in their roles. However, onboarding can be a lengthy, costly, and error-prone process. Software solutions can help mitigate these barriers and streamline the process without overloading senior members. [Objective] This study aims to identify the state-of-the-art software solutions for onboarding newcomers. [Method] We conducted a systematic literature review (SLR) to answer six research questions. [Results] We analyzed 32 studies about software solutions for onboarding newcomers and yielded several key findings: (1) a range of strategies exists, with recommendation systems being the most prevalent; (2) most solutions are web-based; (3) solutions target a variety of onboarding aspects, with a focus on process; (4) many onboarding barriers remain unaddressed by existing solutions; (5) laboratory experiments are the most commonly used method for evaluating these solutions; and (6) diversity and inclusion aspects primarily address experience level. [Conclusion] We shed light on current technological support and identify research opportunities to develop more inclusive software solutions for onboarding. These insights may also guide practitioners in refining existing platforms and onboarding programs to promote smoother integration of newcomers into software projects.
翻訳日:2024-08-29 14:59:16 公開日:2024-08-28
# 一段階拡散蒸留におけるより高速な収束軌道の構築

Distribution Backtracking Builds A Faster Convergence Trajectory for One-step Diffusion Distillation ( http://arxiv.org/abs/2408.15991v1 )

ライセンス: Link先を確認
Shengyuan Zhang, Ling Yang, Zejian Li, An Zhao, Chenye Meng, Changyuan Yang, Guang Yang, Zhiyuan Yang, Lingyun Sun, (参考訳) 拡散モデルのサンプリング速度の加速は依然として大きな課題である。 最近のスコア蒸留法では、重度教師モデルを1段階の学生生成器に蒸留し、学生モデルにより生成されたサンプルの2つのスコア関数の差を計算して最適化している。 しかし, 蒸留プロセスの初期段階において, 既存の方法では, 事前学習した拡散モデルの終点を教師モデルとして利用することに集中しており, 学生生成者と教師モデルとの収束軌跡の重要性を見越して, スコアミスマッチの問題が指摘されている。 この問題に対処するために,教師モデルの収束軌跡全体を導入して,スコア蒸留プロセスを拡張し,学生発電機を蒸留するための分散追跡蒸留(DisBack)を提案する。 DisBaskは2つのステージで構成されている。 劣化記録は教師モデルの収束軌跡を得るために設計され、教師モデルから教師モデルから未学習の学生生成者への劣化経路を記録する。 劣化経路は教師モデルの中間分布を暗黙的に表す。 次に、Distributed Backtrackingは、教師モデルの収束軌跡を近似するために中間分布をバックトラックするように学生ジェネレータを訓練する。 拡張実験により, DisBack は既存の蒸留法よりも高速かつより収束し, 同等な生成性能が得られることが示された。 特に、DisBackは実装が容易で、既存の蒸留方法に一般化してパフォーマンスを向上させることができる。 私たちのコードはhttps://github.com/SYZhang0805/DisBack.comで公開されています。

Accelerating the sampling speed of diffusion models remains a significant challenge. Recent score distillation methods distill a heavy teacher model into an one-step student generator, which is optimized by calculating the difference between the two score functions on the samples generated by the student model. However, there is a score mismatch issue in the early stage of the distillation process, because existing methods mainly focus on using the endpoint of pre-trained diffusion models as teacher models, overlooking the importance of the convergence trajectory between the student generator and the teacher model. To address this issue, we extend the score distillation process by introducing the entire convergence trajectory of teacher models and propose Distribution Backtracking Distillation (DisBack) for distilling student generators. DisBask is composed of two stages: Degradation Recording and Distribution Backtracking. Degradation Recording is designed to obtain the convergence trajectory of teacher models, which records the degradation path from the trained teacher model to the untrained initial student generator. The degradation path implicitly represents the intermediate distributions of teacher models. Then Distribution Backtracking trains a student generator to backtrack the intermediate distributions for approximating the convergence trajectory of teacher models. Extensive experiments show that DisBack achieves faster and better convergence than the existing distillation method and accomplishes comparable generation performance. Notably, DisBack is easy to implement and can be generalized to existing distillation methods to boost performance. Our code is publicly available on https://github.com/SYZhang0805/DisBack.
翻訳日:2024-08-29 14:59:16 公開日:2024-08-28
# CoGen: 結合した理解と生成によるフィードバックから学ぶ

CoGen: Learning from Feedback with Coupled Comprehension and Generation ( http://arxiv.org/abs/2408.15992v1 )

ライセンス: Link先を確認
Mustafa Omer Gul, Yoav Artzi, (参考訳) 言語理解と生成能力の両方を持つシステムは、両者の密接な接続の恩恵を受けることができる。 本研究は、ユーザとのインタラクションから継続的に学習することに焦点を当てた理解と生成の結合について研究する。 学習と推論の両面での2つの能力を密に統合する手法を提案する。 我々は2人プレイヤ参照ゲームで研究を行い、インタラクションフィードバック信号から学習しながら、何千ものユーザーとのインタラクションのための様々なモデルをデプロイする。 非結合システムに比べて26%,最大17%の精度で性能が向上した。 私たちの分析では、結合がシステムの言語にかなり質的な影響を与え、より人間らしくなっていることも示しています。

Systems with both language comprehension and generation capabilities can benefit from the tight connection between the two. This work studies coupling comprehension and generation with focus on continually learning from interaction with users. We propose techniques to tightly integrate the two capabilities for both learning and inference. We situate our studies in two-player reference games, and deploy various models for thousands of interactions with human users, while learning from interaction feedback signals. We show dramatic improvements in performance over time, with comprehension-generation coupling leading to performance improvements up to 26% in absolute terms and up to 17% higher accuracies compared to a non-coupled system. Our analysis also shows coupling has substantial qualitative impact on the system's language, making it significantly more human-like.
翻訳日:2024-08-29 14:59:16 公開日:2024-08-28
# ClimDetect: 気候変動検出と属性のためのベンチマークデータセット

ClimDetect: A Benchmark Dataset for Climate Change Detection and Attribution ( http://arxiv.org/abs/2408.15993v1 )

ライセンス: Link先を確認
Sungduk Yu, Brian L. White, Anahita Bhiwandiwalla, Musashi Hinck, Matthew Lyle Olson, Tung Nguyen, Vasudev Lal, (参考訳) 気候変動による気温上昇の検出と寄与は、地球温暖化の理解と適応戦略の導出に不可欠である。 人為的な気候信号と自然変動を区別する複雑さは、気候応答変数の特定の「指紋」を特定する伝統的な検出と属性(D&A)アプローチに挑戦している。 深層学習は、これらの複雑なパターンを拡張空間データセットで識別する可能性がある。 しかし、標準プロトコルの欠如は、研究全体で一貫した比較を妨げている。 ClimDetectは、気候変化信号の同定におけるモデル精度の向上を目的として、毎日816万以上の気候スナップショットを標準化したデータセットである。 ClimDetectは、過去の研究で使われた様々な入力変数とターゲット変数を統合し、互換性と一貫性を確保する。 また、この文脈で新しく近代化されたアプローチである、気候データへの視覚変換器(ViT)の適用についても検討する。 私たちのオープンアクセスデータとコードは、モデル評価の改善を通じて気候科学を進化させるためのベンチマークとして役立ちます。 https://huggingface.co/datasets/ClimDetect/ClimDetect。

Detecting and attributing temperature increases due to climate change is crucial for understanding global warming and guiding adaptation strategies. The complexity of distinguishing human-induced climate signals from natural variability has challenged traditional detection and attribution (D&A) approaches, which seek to identify specific "fingerprints" in climate response variables. Deep learning offers potential for discerning these complex patterns in expansive spatial datasets. However, lack of standard protocols has hindered consistent comparisons across studies. We introduce ClimDetect, a standardized dataset of over 816k daily climate snapshots, designed to enhance model accuracy in identifying climate change signals. ClimDetect integrates various input and target variables used in past research, ensuring comparability and consistency. We also explore the application of vision transformers (ViT) to climate data, a novel and modernizing approach in this context. Our open-access data and code serve as a benchmark for advancing climate science through improved model evaluations. ClimDetect is publicly accessible via Huggingface dataet respository at: https://huggingface.co/datasets/ClimDetect/ClimDetect.
翻訳日:2024-08-29 14:59:16 公開日:2024-08-28
# Perceive-IR:オールインワン画像復元における劣化認識の学習

Perceive-IR: Learning to Perceive Degradation Better for All-in-One Image Restoration ( http://arxiv.org/abs/2408.15994v1 )

ライセンス: Link先を確認
Xu Zhang, Jiaqi Ma, Guoli Wang, Qian Zhang, Huan Zhang, Lefei Zhang, (参考訳) 特定の劣化に対するタスク固有および一般的な画像復元手法の限界により、オールインワン画像復元技術の開発が進められている。 しかし、複数の劣化のパターンの多様性は、異なる重大度の劣化画像とそれに対応する非歪なバージョンとのマッピングの重大な不確実性と共に、オールインワンの復元作業に重大な課題をもたらしている。 これらの課題に対処するために、復元された画像が劣化のタイプや重大さに関わらず、より歪みのない画像に近づきやすいように、きめ細かい画質制御を実現するために設計されたオールインワン画像復元器Perceive-IRを提案する。 具体的には、Perceive-IRは(1)学習段階と(2)回復段階の2段階を含む。 素早い学習の段階では、CLIP知覚空間における素早い画像の類似性を制約することにより、3層品質レベルを識別できる粒度の高い品質知覚器を得るために、素早い学習を利用する。 その後、この品質認識器と難易度適応型知覚損失を品質認識学習戦略として統合し、回復段階におけるきめ細かい品質制御を実現する。 修復段階では,事前訓練された大規模視覚モデルからのロバストな意味情報を利用して,劣化特異的特徴を識別し,回復プロセスをさらに促進するために,意味誘導モジュール (SGM) とコンパクト特徴抽出 (CFE) を提案する。 広汎な実験により、Perceive-IRは、オールインワン画像復元タスクにおいて最先端の手法より優れ、目に見えないタスクに対処する際に優れた一般化能力を示すことが示された。

The limitations of task-specific and general image restoration methods for specific degradation have prompted the development of all-in-one image restoration techniques. However, the diversity of patterns among multiple degradation, along with the significant uncertainties in mapping between degraded images of different severities and their corresponding undistorted versions, pose significant challenges to the all-in-one restoration tasks. To address these challenges, we propose Perceive-IR, an all-in-one image restorer designed to achieve fine-grained quality control that enables restored images to more closely resemble their undistorted counterparts, regardless of the type or severity of degradation. Specifically, Perceive-IR contains two stages: (1) prompt learning stage and (2) restoration stage. In the prompt learning stage, we leverage prompt learning to acquire a fine-grained quality perceiver capable of distinguishing three-tier quality levels by constraining the prompt-image similarity in the CLIP perception space. Subsequently, this quality perceiver and difficulty-adaptive perceptual loss are integrated as a quality-aware learning strategy to realize fine-grained quality control in restoration stage. For the restoration stage, a semantic guidance module (SGM) and compact feature extraction (CFE) are proposed to further promote the restoration process by utilizing the robust semantic information from the pre-trained large scale vision models and distinguishing degradation-specific features. Extensive experiments demonstrate that our Perceive-IR outperforms state-of-the-art methods in all-in-one image restoration tasks and exhibit superior generalization ability when dealing with unseen tasks.
翻訳日:2024-08-29 14:59:16 公開日:2024-08-28
# TEDRA:動的およびフォトリアルアクターのテキストベースの編集

TEDRA: Text-based Editing of Dynamic and Photoreal Actors ( http://arxiv.org/abs/2408.15995v1 )

ライセンス: Link先を確認
Basavaraj Sunagad, Heming Zhu, Mohit Mendiratta, Adam Kortylewski, Christian Theobalt, Marc Habermann, (参考訳) 過去数年間で、リアルな人間のビデオだけから、フォトリアリスティックで乾燥可能な3Dアバターを作ることで、大きな進歩を遂げてきた。 しかし、残る課題は、テキストによる記述により、きめ細やかでユーザフレンドリーな衣服スタイルの編集である。 そこで本研究では,アバターの高忠実度,時空コヒーレンシ,ダイナミックスを維持し,骨格的なポーズとビューコントロールを可能にする,アバターのテキストベースの編集を可能にする最初の方法であるTEDRAを提案する。 まずモデルをトレーニングし、リアルアクターの制御可能で高忠実なデジタルレプリカを作成する。 次に、異なるカメラアングルから取得した実人物の様々なフレームを微調整することで、事前学習した生成拡散モデルをパーソナライズし、デジタル表現が実人物の動態や動きを忠実に捉えることを保証する。 この2段階のプロセスは、人間の動的アバター編集に対する我々のアプローチの基礎となる。 このパーソナライズされた拡散モデルを用いて、モデルに基づくガイダンスフレームワークにおいて、Personalized Normal Aligned Score Distillation Sampling (PNA-SDS)を用いて、提供されたテキストプロンプトに基づいて動的アバターを変更する。 さらに,高品質な編集を確実にするための時間ステップアニール戦略を提案する。 私たちの結果は、機能や視覚的品質に関する以前の作業よりも明らかに改善されていることを示しています。

Over the past years, significant progress has been made in creating photorealistic and drivable 3D avatars solely from videos of real humans. However, a core remaining challenge is the fine-grained and user-friendly editing of clothing styles by means of textual descriptions. To this end, we present TEDRA, the first method allowing text-based edits of an avatar, which maintains the avatar's high fidelity, space-time coherency, as well as dynamics, and enables skeletal pose and view control. We begin by training a model to create a controllable and high-fidelity digital replica of the real actor. Next, we personalize a pretrained generative diffusion model by fine-tuning it on various frames of the real character captured from different camera angles, ensuring the digital representation faithfully captures the dynamics and movements of the real person. This two-stage process lays the foundation for our approach to dynamic human avatar editing. Utilizing this personalized diffusion model, we modify the dynamic avatar based on a provided text prompt using our Personalized Normal Aligned Score Distillation Sampling (PNA-SDS) within a model-based guidance framework. Additionally, we propose a time step annealing strategy to ensure high-quality edits. Our results demonstrate a clear improvement over prior work in functionality and visual quality.
翻訳日:2024-08-29 14:59:16 公開日:2024-08-28
# ゼロショット動作検出のための時空間時空間プロンプト

Spatio-Temporal Context Prompting for Zero-Shot Action Detection ( http://arxiv.org/abs/2408.15996v1 )

ライセンス: Link先を確認
Wei-Jhe Huang, Min-Hung Chen, Shang-Hong Lai, (参考訳) 時空間行動検出は、ビデオ内の個々のアクションをローカライズし分類するタスクを含む。 最近の研究は、人間と周囲の文脈との関係を捉えた相互作用モデリングを取り入れることで、このプロセスを強化することを目的としている。 しかしながら、これらのアプローチは、主に完全に教師付き学習に焦点を当てており、現在の制限は、目に見えないアクションカテゴリを認識する一般化能力の欠如にある。 本稿では,事前学習された画像言語モデルを用いて,未知の動作を検出することを目的とする。 そこで本稿では,視覚モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。 一方、Context Promptingモジュールは、コンテキスト情報を利用してラベルをプロンプトし、より代表的なテキスト機能を生成する。 さらに,複数人の異なる行動を同時に認識する課題に対処するため,事前学習した視覚的知識を用いて各人の関心コンテキストトークンを抽出する関心トークンスポッティング機構を設計し,そのトークンを用いて各個人に適したテキスト特徴の生成を促す。 J-HMDB, UCF101-24, AVAデータセットの総合的なベンチマークを提案する。 実験により,本手法は従来の手法よりも優れた結果が得られることを示すとともに,マルチアクションビデオにも拡張可能であることを示し,実世界のアプリケーションに近づいた。 コードとデータはhttps://webber2933.github.io/ST-CLIP-project-pageにある。

Spatio-temporal action detection encompasses the tasks of localizing and classifying individual actions within a video. Recent works aim to enhance this process by incorporating interaction modeling, which captures the relationship between people and their surrounding context. However, these approaches have primarily focused on fully-supervised learning, and the current limitation lies in the lack of generalization capability to recognize unseen action categories. In this paper, we aim to adapt the pretrained image-language models to detect unseen actions. To this end, we propose a method which can effectively leverage the rich knowledge of visual-language models to perform Person-Context Interaction. Meanwhile, our Context Prompting module will utilize contextual information to prompt labels, thereby enhancing the generation of more representative text features. Moreover, to address the challenge of recognizing distinct actions by multiple people at the same timestamp, we design the Interest Token Spotting mechanism which employs pretrained visual knowledge to find each person's interest context tokens, and then these tokens will be used for prompting to generate text features tailored to each individual. To evaluate the ability to detect unseen actions, we propose a comprehensive benchmark on J-HMDB, UCF101-24, and AVA datasets. The experiments show that our method achieves superior results compared to previous approaches and can be further extended to multi-action videos, bringing it closer to real-world applications. The code and data can be found in https://webber2933.github.io/ST-CLIP-project-page.
翻訳日:2024-08-29 14:59:16 公開日:2024-08-28
# 時系列予測のためのMambaかTransformerか?Mixture of Universals(MoU)

Mamba or Transformer for Time Series Forecasting? Mixture of Universals (MoU) Is All You Need ( http://arxiv.org/abs/2408.15997v1 )

ライセンス: Link先を確認
Sijia Peng, Yun Xiong, Yangyong Zhu, Zhiqiang Shen, (参考訳) 時系列予測には、正確な予測のために短期と長期の依存関係のバランスが必要である。 既存の手法は主に長期依存モデリングに重点を置いており、短期力学の複雑さを無視しており、性能を損なう可能性がある。 変換器は長期依存のモデリングに優れているが、2次計算コストで批判されている。 Mambaは、ほぼ直線的な代替手段を提供するが、潜在的な情報損失のため、時系列の長期予測では効果が低いと報告されている。 現在のアーキテクチャは、長期的な依存性モデリングのための高効率と高パフォーマンスの両方を提供するのに不足しています。 これらの課題に対処するために、時系列予測における性能向上のための短期的および長期的依存関係の両方を捉える汎用モデルであるMixture of Universals(MoU)を導入する。 MoUは、短期依存に対する時系列パッチ表現を改善するために設計された適応的手法であるMixture of Feature Extractors (MoF)と、Mamba、FeedForward、Convolution、Self-Attentionアーキテクチャを階層的に統合したMixture of Architectures (MoA)の2つの新しい設計で構成されている。 提案手法は比較的低い計算コストを維持しながら最先端の性能を実現する。 7つの実世界のデータセットに対する大規模な実験は、MoUの優位性を示している。 コードはhttps://github.com/lunaaa95/mou/で入手できる。

Time series forecasting requires balancing short-term and long-term dependencies for accurate predictions. Existing methods mainly focus on long-term dependency modeling, neglecting the complexities of short-term dynamics, which may hinder performance. Transformers are superior in modeling long-term dependencies but are criticized for their quadratic computational cost. Mamba provides a near-linear alternative but is reported less effective in time series longterm forecasting due to potential information loss. Current architectures fall short in offering both high efficiency and strong performance for long-term dependency modeling. To address these challenges, we introduce Mixture of Universals (MoU), a versatile model to capture both short-term and long-term dependencies for enhancing performance in time series forecasting. MoU is composed of two novel designs: Mixture of Feature Extractors (MoF), an adaptive method designed to improve time series patch representations for short-term dependency, and Mixture of Architectures (MoA), which hierarchically integrates Mamba, FeedForward, Convolution, and Self-Attention architectures in a specialized order to model long-term dependency from a hybrid perspective. The proposed approach achieves state-of-the-art performance while maintaining relatively low computational costs. Extensive experiments on seven real-world datasets demonstrate the superiority of MoU. Code is available at https://github.com/lunaaa95/mou/.
翻訳日:2024-08-29 14:59:16 公開日:2024-08-28
# Eagle: エンコーダの混合によるマルチモーダルLLMの設計空間の探索

Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders ( http://arxiv.org/abs/2408.15998v1 )

ライセンス: Link先を確認
Min Shi, Fuxiao Liu, Shihao Wang, Shijia Liao, Subhashree Radhakrishnan, De-An Huang, Hongxu Yin, Karan Sapra, Yaser Yacoob, Humphrey Shi, Bryan Catanzaro, Andrew Tao, Jan Kautz, Zhiding Yu, Guilin Liu, (参考訳) 複雑な視覚情報を正確に解釈する能力は、マルチモーダル大言語モデル(MLLM)の重要なトピックである。 近年の研究では、視覚知覚の強化は幻覚を著しく減らし、光学的文字認識や文書解析などの分解能に敏感なタスクの性能を向上させることが示されている。 近年のMLLMは、視覚エンコーダの混合を用いてこの目標を達成する。 彼らの成功にもかかわらず、体系的な比較の欠如と、専門家の選択や複数の視覚専門家の統合といった重要な側面に対処する詳細なアブレーション研究がある。 本研究は,視覚エンコーダと解像度の混合を用いたMLLMの設計空間を広範囲に探索する。 我々の発見は、様々な既存の戦略に共通するいくつかの基本原則を明らかにし、合理化されているが効果的な設計アプローチへと繋がる。 視覚トークンを補完的な視覚エンコーダの集合から簡単に結合することは、より複雑な混合アーキテクチャや戦略と同じくらい効果的であることがわかった。 さらに、視覚中心のエンコーダと言語トークンのギャップを埋め、モデルコヒーレンスを高めるために、Pre-Alignmentを導入する。 その結果生まれたMLLMのファミリーであるEagleは、MLLMベンチマークで他の主要なオープンソースモデルを上回っている。 モデルとコード:https://github.com/NVlabs/Eagle

The ability to accurately interpret complex visual information is a crucial topic of multimodal large language models (MLLMs). Recent work indicates that enhanced visual perception significantly reduces hallucinations and improves performance on resolution-sensitive tasks, such as optical character recognition and document analysis. A number of recent MLLMs achieve this goal using a mixture of vision encoders. Despite their success, there is a lack of systematic comparisons and detailed ablation studies addressing critical aspects, such as expert selection and the integration of multiple vision experts. This study provides an extensive exploration of the design space for MLLMs using a mixture of vision encoders and resolutions. Our findings reveal several underlying principles common to various existing strategies, leading to a streamlined yet effective design approach. We discover that simply concatenating visual tokens from a set of complementary vision encoders is as effective as more complex mixing architectures or strategies. We additionally introduce Pre-Alignment to bridge the gap between vision-focused encoders and language tokens, enhancing model coherence. The resulting family of MLLMs, Eagle, surpasses other leading open-source models on major MLLM benchmarks. Models and code: https://github.com/NVlabs/Eagle
翻訳日:2024-08-29 14:59:16 公開日:2024-08-28
# Q-MRS: 量子磁気共鳴スペクトル解析のためのディープラーニングフレームワーク

Q-MRS: A Deep Learning Framework for Quantitative Magnetic Resonance Spectra Analysis ( http://arxiv.org/abs/2408.15999v1 )

ライセンス: Link先を確認
Christopher J. Wu, Lawrence S. Kegeles, Jia Guo, (参考訳) 磁気共鳴分光法(MRS)は、特に中枢神経系疾患において、組織代謝を研究するための確立された技術である。 強力で汎用的ではあるが、MSSはデータ品質、処理、定量化に関連する課題によって制限されることが多い。 既存のMSS定量化手法は、スペクトルモデリングにおいてモデルの複雑さと再現性のバランスをとるのに困難に直面し、しばしば過度に単純化または過度なパラメータ化の罠に陥る。 これらの制約に対処するため,本研究では,生体データに微調整を施す前に,モデルがシミュレーションデータセット上で事前学習されるトランスファーラーニングを用いたディープラーニング(DL)フレームワークを導入する。 提案フレームワークは,BIG GABAレポジトリのPhilipsデータセットに適用した場合に有望な性能を示し,MSSデータ解析におけるエキサイティングな進歩を示している。

Magnetic resonance spectroscopy (MRS) is an established technique for studying tissue metabolism, particularly in central nervous system disorders. While powerful and versatile, MRS is often limited by challenges associated with data quality, processing, and quantification. Existing MRS quantification methods face difficulties in balancing model complexity and reproducibility during spectral modeling, often falling into the trap of either oversimplification or over-parameterization. To address these limitations, this study introduces a deep learning (DL) framework that employs transfer learning, in which the model is pre-trained on simulated datasets before it undergoes fine-tuning on in vivo data. The proposed framework showed promising performance when applied to the Philips dataset from the BIG GABA repository and represents an exciting advancement in MRS data analysis.
翻訳日:2024-08-29 14:59:16 公開日:2024-08-28
# DeepDelveAI: 大規模文献データにおけるAI関連ドキュメントの識別

DeepDelveAI: Identifying AI Related Documents in Large Scale Literature Data ( http://arxiv.org/abs/2408.12871v2 )

ライセンス: Link先を確認
Zhou Xiaochen, Liang Xingzhou, Zou Hui, Lu Yi, Qu Jingjing, (参考訳) 本稿では,大規模学術文献データベースからAI関連の研究論文を特定するための包括的データセットであるDeepDelveAIを提案する。 データセットは、AI関連の論文と非AI関連の論文を区別するために、バイナリ分類タスクに基づいてトレーニングされた高度なLong Short-Term Memory(LSTM)モデルを使用して作成された。 モデルはトレーニングされ、膨大なデータセットで検証され、高精度、精度、リコール、F1スコアが達成された。 結果として得られたDeepDelveAIデータセットは、1956年から2024年にかけてのDartmouth Conference以来、940万以上のAI関連論文で構成され、トレンド、テーマ開発、さまざまな分野にわたるAI研究の進化を分析する上で重要なリソースを提供する。

This paper presents DeepDelveAI, a comprehensive dataset specifically curated to identify AI-related research papers from a large-scale academic literature database. The dataset was created using an advanced Long Short-Term Memory (LSTM) model trained on a binary classification task to distinguish between AI-related and non-AI-related papers. The model was trained and validated on a vast dataset, achieving high accuracy, precision, recall, and F1-score. The resulting DeepDelveAI dataset comprises over 9.4 million AI-related papers published since Dartmouth Conference, from 1956 to 2024, providing a crucial resource for analyzing trends, thematic developments, and the evolution of AI research across various disciplines.
翻訳日:2024-08-29 13:02:30 公開日:2024-08-28
# Discount Fusion を用いた深層部分的多視点分類

Evidential Deep Partial Multi-View Classification With Discount Fusion ( http://arxiv.org/abs/2408.13123v2 )

ライセンス: Link先を確認
Haojian Huang, Zhe Liu, Sukumar Letchmunan, Muhammet Deveci, Mingwei Lin, Weizhong Wang, (参考訳) 不完全なマルチビューデータ分類は、現実のシナリオにおけるビューの欠如という共通の問題のために大きな課題を生んでいる。 進歩にも拘わらず、既存の手法では、欠落した見解の不確実性や不整合なデータの質が原因で、信頼できる予測が得られないことが多い。 これらの問題を解決するために,EDP-MVC (Evidential Deep partial Multi-View Classification) と呼ばれる新しいフレームワークを提案する。 最初は、K-means命令を使用して、行方不明のビューに対処し、完全なマルチビューデータのセットを作成します。 しかし、この暗示データ内の潜在的な衝突や不確実性は、下流の推論の信頼性に影響を与える可能性がある。 これを管理するために、証拠の信頼性に基づいて動的に調整し、信頼性の高い割引融合を保証し、信頼性の高い推測結果を生成する衝突認識証拠融合ネットワーク(CAEFN)を導入する。 様々なベンチマークデータセットの総合的な実験により、EDP-MVCは一致しただけでなく、最先端の手法の性能を上回ることが多い。

Incomplete multi-view data classification poses significant challenges due to the common issue of missing views in real-world scenarios. Despite advancements, existing methods often fail to provide reliable predictions, largely due to the uncertainty of missing views and the inconsistent quality of imputed data. To tackle these problems, we propose a novel framework called Evidential Deep Partial Multi-View Classification (EDP-MVC). Initially, we use K-means imputation to address missing views, creating a complete set of multi-view data. However, the potential conflicts and uncertainties within this imputed data can affect the reliability of downstream inferences. To manage this, we introduce a Conflict-Aware Evidential Fusion Network (CAEFN), which dynamically adjusts based on the reliability of the evidence, ensuring trustworthy discount fusion and producing reliable inference outcomes. Comprehensive experiments on various benchmark datasets reveal EDP-MVC not only matches but often surpasses the performance of state-of-the-art methods.
翻訳日:2024-08-29 13:02:30 公開日:2024-08-28
# 量子機械による創薬支援 : 調査と展望

Quantum-machine-assisted Drug Discovery: Survey and Perspective ( http://arxiv.org/abs/2408.13479v2 )

ライセンス: Link先を確認
Yidong Zhou, Jintai Chen, Jinglei Cheng, Gopal Karemore, Marinka Zitnik, Frederic T. Chong, Junyu Liu, Tianfan Fu, Zhiding Liang, (参考訳) 医薬品の発見と開発は複雑でコストのかかる取り組みであり、新しい薬を市場に出すには10年以上の資金と相当な資金を必要としている。 従来のコンピュータ支援ドラッグデザイン(CADD)は、このプロセスの加速に大きな進歩を遂げてきたが、量子コンピューティングの開発は、そのユニークな能力のために潜在的に有益である。 本稿では、量子コンピューティングの創薬・開発への統合について論じ、量子技術が医薬品開発サイクルの様々な段階をいかに加速し、促進するかに焦点を当てる。 具体的には,分子シミュレーションや薬物-標的相互作用の予測,臨床試験結果の最適化など,薬物発見に関わる課題への量子コンピューティングの適用について検討する。 量子コンピューティングの本質的な能力を活用することで、新しい薬を市場に投入する際の時間とコストを削減できるかもしれません。

Drug discovery and development is a highly complex and costly endeavor, typically requiring over a decade and substantial financial investment to bring a new drug to market. Traditional computer-aided drug design (CADD) has made significant progress in accelerating this process, but the development of quantum computing offers potential due to its unique capabilities. This paper discusses the integration of quantum computing into drug discovery and development, focusing on how quantum technologies might accelerate and enhance various stages of the drug development cycle. Specifically, we explore the application of quantum computing in addressing challenges related to drug discovery, such as molecular simulation and the prediction of drug-target interactions, as well as the optimization of clinical trial outcomes. By leveraging the inherent capabilities of quantum computing, we might be able to reduce the time and cost associated with bringing new drugs to market, ultimately benefiting public health.
翻訳日:2024-08-29 13:02:30 公開日:2024-08-28
# DualAnoDiff:Few-Shot異常画像生成のためのDual-Interrelated Diffusion Model

DualAnoDiff: Dual-Interrelated Diffusion Model for Few-Shot Anomaly Image Generation ( http://arxiv.org/abs/2408.13509v2 )

ライセンス: Link先を確認
Ying Jin, Jinlong Peng, Qingdong He, Teng Hu, Hao Chen, Jiafu Wu, Wenbing Zhu, Mingmin Chi, Jun Liu, Yabiao Wang, Chengjie Wang, (参考訳) 製造業における異常検査の性能は異常データの不足によって制約される。 この課題を克服するために、研究者は異常データセットを増大させるために異常生成アプローチを採用し始めた。 しかし、既存の異常生成法は、生成した異常の多様性が限られており、この異常を元の画像とシームレスに融合させるのに苦労している。 本稿では,これらの課題を新たな視点から克服し,全体像と対応する異常部分を同時に生成する。 本稿では,新しい拡散型少数ショット画像生成モデルであるDualAnoDiffを提案する。このモデルでは,2つの相互関連拡散モデルを用いて多種多様な現実的な画像を生成することができ,一方が画像全体を生成するのに使われ,他方が異常部分を生成する。 さらに,背景情報や形状情報を抽出することで,画像生成時の歪みやぼやけを緩和する。 集約的な実験は,本提案モデルが現実主義と多様性の両方の観点から,最先端の手法よりも優れていることを示す。 本手法は, 異常検出, 異常局所化, 異常分類タスクなど, 下流異常検出タスクの性能を大幅に向上させる。

The performance of anomaly inspection in industrial manufacturing is constrained by the scarcity of anomaly data. To overcome this challenge, researchers have started employing anomaly generation approaches to augment the anomaly dataset. However, existing anomaly generation methods suffer from limited diversity in the generated anomalies and struggle to achieve a seamless blending of this anomaly with the original image. In this paper, we overcome these challenges from a new perspective, simultaneously generating a pair of the overall image and the corresponding anomaly part. We propose DualAnoDiff, a novel diffusion-based few-shot anomaly image generation model, which can generate diverse and realistic anomaly images by using a dual-interrelated diffusion model, where one of them is employed to generate the whole image while the other one generates the anomaly part. Moreover, we extract background and shape information to mitigate the distortion and blurriness phenomenon in few-shot image generation. Extensive experiments demonstrate the superiority of our proposed model over state-of-the-art methods in terms of both realism and diversity. Overall, our approach significantly improves the performance of downstream anomaly detection tasks, including anomaly detection, anomaly localization, and anomaly classification tasks.
翻訳日:2024-08-29 12:58:09 公開日:2024-08-28
# Geo-Llama:時空間制約による人体移動軌道生成のためのLLMの活用

Geo-Llama: Leveraging LLMs for Human Mobility Trajectory Generation with Spatiotemporal Constraints ( http://arxiv.org/abs/2408.13918v2 )

ライセンス: Link先を確認
Siyu Li, Toan Tran, Haowen Lin, John Krumm, Cyrus Shahabi, Li Xiong, (参考訳) 人間のモビリティデータのシミュレーションは、交通、都市計画、疫病対策など、さまざまなアプリケーション領域において不可欠である。 いくつかの既存の深層生成ソリューションは、実際の軌道から学習して合成するものを生成することを提案している。 進捗にもかかわらず、そのほとんどはトレーニングの安定性の問題に悩まされ、データサイズが大きくなるとスケーラビリティが低下します。 さらに重要なのは、それらは一般的に、特定の訪問の修正のような時空間的制約に基づいて生成された軌跡を操縦する制御機構が欠如していることだ。 このような制約に対処するため、時空間制約による制御軌道生成問題を正式に定義し、Geo-Llamaを提案する。 LLMにインスパイアされたこの新しいフレームワークは、コンテキスト的に一貫性のある方法で明示的な訪問制約を強制する。 事前に訓練されたLPMを軌道上で微調整し、各訪問が時間と場所に対応するような訪問度順順順に戦略を定めている。 これにより、モデルが訪問順序に関係なく時空間パターンをキャプチャし、生成中のプロンプトを通じてフレキシブルでコンテキスト内制約の統合を可能にする。 実世界のデータセットと合成データセットに関する大規模な実験は、Geo-Llamaの有効性を検証し、既存の手法と比較してより現実的な軌道を生成するために、幅広い制約を扱うための汎用性と堅牢性を実証した。

Simulating human mobility data is essential for various application domains, including transportation, urban planning, and epidemic control, since real data are often inaccessible to researchers due to expensive costs and privacy issues. Several existing deep generative solutions propose learning from real trajectories to generate synthetic ones. Despite the progress, most of them suffer from training stability issues and scale poorly with growing data size. More importantly, they generally lack control mechanisms to steer the generated trajectories based on spatiotemporal constraints such as fixing specific visits. To address such limitations, we formally define the controlled trajectory generation problem with spatiotemporal constraints and propose Geo-Llama. This novel LLM-inspired framework enforces explicit visit constraints in a contextually coherent way. It fine-tunes pre-trained LLMs on trajectories with a visit-wise permutation strategy where each visit corresponds to a time and location. This enables the model to capture the spatiotemporal patterns regardless of visit orders and allows flexible and in-context constraint integration through prompts during generation. Extensive experiments on real-world and synthetic datasets validate the effectiveness of Geo-Llama, demonstrating its versatility and robustness in handling a broad range of constraints to generate more realistic trajectories compared to existing methods.
翻訳日:2024-08-29 12:58:09 公開日:2024-08-28
# 生物にインスパイアされたスパイクニューラルネットワーク研究の進展と新しいパラダイム

Research Advances and New Paradigms for Biology-inspired Spiking Neural Networks ( http://arxiv.org/abs/2408.13996v2 )

ライセンス: Link先を確認
Tianyu Zheng, Liyuan Han, Tielin Zhang, (参考訳) スパイキングニューラルネットワーク(SNN)は、その生物学的妥当性と計算効率のため、計算シミュレーションと人工知能分野で人気を集めている。 本稿では,SNNの歴史的発展を考察し,これら2つの分野が相互に交わり,急速に融合していることを結論する。 Dynamic Vision Sensors (DVS) と Dynamic Audio Sensors (DAS) が成功した後、SNNは連続的な視覚信号追跡、自動音声認識、連続制御のための強化学習などの適切なパラダイムを発見し、スパイクエンコーディング、ニューロンの不均一性、特定の機能的回路、マルチスケールの可塑性などの主要な特徴を広くサポートしてきた。 これらの現実世界のパラダイムと比較すると、脳は生物学の世界パラダイムのスパイクバージョンを含み、同様のレベルの複雑さを示し、通常現実世界の鏡と見なされる。 侵襲的で並列なBrain-Computer Interface(BCI)の急速な開発と、生物スパイク列車のオンラインパターン認識と刺激制御を含む新しいBCIベースのパラダイムを考えると、SNNはエネルギー効率、堅牢性、柔軟性の利点を自然に活用する。 生物学的脳は、SNNと効果的なSNN機械学習アルゴリズムの研究にインスピレーションを与え、新しいBCIパラダイムに適用することで、脳内の神経科学の発見を促進するのに役立つ。 このような肯定的なフィードバックと双方向の相互作用は、脳科学の研究と脳にインスパイアされたインテリジェンス技術を加速させる。

Spiking neural networks (SNNs) are gaining popularity in the computational simulation and artificial intelligence fields owing to their biological plausibility and computational efficiency. This paper explores the historical development of SNN and concludes that these two fields are intersecting and merging rapidly. Following the successful application of Dynamic Vision Sensors (DVS) and Dynamic Audio Sensors (DAS), SNNs have found some proper paradigms, such as continuous visual signal tracking, automatic speech recognition, and reinforcement learning for continuous control, that have extensively supported their key features, including spike encoding, neuronal heterogeneity, specific functional circuits, and multiscale plasticity. Compared to these real-world paradigms, the brain contains a spiking version of the biology-world paradigm, which exhibits a similar level of complexity and is usually considered a mirror of the real world. Considering the projected rapid development of invasive and parallel Brain-Computer Interface (BCI), as well as the new BCI-based paradigms that include online pattern recognition and stimulus control of biological spike trains, SNNs naturally leverage their advantages in energy efficiency, robustness, and flexibility. The biological brain has inspired the present study of SNNs and effective SNN machine-learning algorithms, which can help enhance neuroscience discoveries in the brain by applying them to the new BCI paradigm. Such two-way interactions with positive feedback can accelerate brain science research and brain-inspired intelligence technology.
翻訳日:2024-08-29 12:58:09 公開日:2024-08-28
# 多言語言語モデル作成のための言語固有の校正法

Language-specific Calibration for Pruning Multilingual Language Models ( http://arxiv.org/abs/2408.14398v2 )

ライセンス: Link先を確認
Simon Kurz, Jian-Jia Chen, Lucie Flek, Zhixue Zhao, (参考訳) 大規模言語モデル(LLM)プルーニングの最近の進歩は、高い予測性能を維持しながら、後トレーニングや再学習不要な設定において、最先端の圧縮結果を示している。 しかし、このような研究は主に、現代のLLMの多言語性や非英語言語での頻繁な使用にもかかわらず、英語のテキストを用いたプルーニングの校正について検討している。 本稿では,多言語言語モデルのプルーニングを校正するための効果的な戦略を探究する。 多様なタスク,モデル,最先端のプルーニング技術にまたがる多言語モデルにおけるキャリブレーション言語の比較を行った。 この結果から,例えば,対象言語を校正することで,効率の低いパープレキシティが得られるが,下流タスクのメリットは必ずしも得られない,という現実的な提案が得られた。 さらなる分析実験により,対象言語の校正が,言語理解や推論といった言語に依存しない特徴の獲得に大きく寄与するが,言語理解や推論といった言語に依存しない特徴の獲得には寄与しない可能性が示された。 最後に、将来の実践者には実践的なレコメンデーションを提供する。

Recent advances in large language model (LLM) pruning have shown state-of-the-art compression results in post-training and retraining-free settings while maintaining high predictive performance. However, such research mainly considers calibrating pruning using English text, despite the multilingual nature of modern LLMs and their frequent uses in non-English languages. In this paper, we set out to explore effective strategies for calibrating the pruning of multilingual language models. We present the first comprehensive empirical study, comparing different calibration languages for pruning multilingual models across diverse tasks, models, and state-of-the-art pruning techniques. Our results present practical suggestions, for example, calibrating in the target language can efficiently yield lower perplexity, but does not necessarily benefit downstream tasks. Our further analysis experiments unveil that calibration in the target language mainly contributes to preserving language-specific features related to fluency and coherence, but might not contribute to capturing language-agnostic features such as language understanding and reasoning. Last, we provide practical recommendations for future practitioners.
翻訳日:2024-08-29 12:58:09 公開日:2024-08-28
# ハーディング効果のあるコンテキスト帯域:アルゴリズムと勧告応用

Contextual Bandit with Herding Effects: Algorithms and Recommendation Applications ( http://arxiv.org/abs/2408.14432v2 )

ライセンス: Link先を確認
Luyue Xu, Liming Wang, Hong Xie, Mingqiang Zhou, (参考訳) コンテキスト帯域幅は、オンラインのレコメンデーション決定を最適化するための基本的なアルゴリズムのフレームワークとして機能する。 推奨アプリケーションのためのコンテキスト的帯域幅を調整するために、広範囲に注意が払われているが、ユーザフィードバックの"ハーディングエフェクト"は無視されている。 これらのハーディング効果は、ユーザーのフィードバックを歴史的評価に偏り、文脈的盗聴に固有の偏りのないフィードバックの仮定を分解する。 本報告では, 群れ効果によるフィードバックバイアスに対処するために, 文脈的包帯の新たな変種を考案する。 このフィードバックバイアスを捉えるために、ユーザフィードバックモデルが定式化されます。 我々は、探索と悪用のトレードオフのバランスをとるために後続サンプリングを利用するTS-Confアルゴリズムを設計する。 我々は,アルゴリズムが学習速度に与える影響を明らかにすることによって,アルゴリズムの後悔に対する上限を証明した。 データセットに関する大規模な実験は、TS-Confが4つのベンチマークアルゴリズムを上回っていることを示している。 解析の結果、TS-Confは遺伝効果の負の影響を効果的に軽減し、学習の高速化と推奨精度の向上をもたらすことが明らかとなった。

Contextual bandits serve as a fundamental algorithmic framework for optimizing recommendation decisions online. Though extensive attention has been paid to tailoring contextual bandits for recommendation applications, the "herding effects" in user feedback have been ignored. These herding effects bias user feedback toward historical ratings, breaking down the assumption of unbiased feedback inherent in contextual bandits. This paper develops a novel variant of the contextual bandit that is tailored to address the feedback bias caused by the herding effects. A user feedback model is formulated to capture this feedback bias. We design the TS-Conf (Thompson Sampling under Conformity) algorithm, which employs posterior sampling to balance the exploration and exploitation tradeoff. We prove an upper bound for the regret of the algorithm, revealing the impact of herding effects on learning speed. Extensive experiments on datasets demonstrate that TS-Conf outperforms four benchmark algorithms. Analysis reveals that TS-Conf effectively mitigates the negative impact of herding effects, resulting in faster learning and improved recommendation accuracy.
翻訳日:2024-08-29 12:58:09 公開日:2024-08-28
# 空間課題における大規模言語モデルの評価:マルチタスクベンチマークによる検討

Evaluating Large Language Models on Spatial Tasks: A Multi-Task Benchmarking Study ( http://arxiv.org/abs/2408.14438v2 )

ライセンス: Link先を確認
Liuchang Xu, Shuo Zhao, Qingming Lin, Luyao Chen, Qianqian Luo, Sensen Wu, Xinyue Ye, Hailin Feng, Zhenhong Du, (参考訳) ChatGPTやGeminiといった大規模言語モデルの出現は、自然言語理解からコード生成まで、さまざまな能力を評価することの重要性を強調している。 しかし,空間的課題におけるそれらの性能は包括的に評価されていない。 本研究では,空間的タスクにおけるいくつかの高度なモデルの性能を体系的に探索し,比較するために設計された,新しいマルチタスク空間評価データセットを導入することで,このギャップに対処する。 データセットは、空間的理解と経路計画を含む12の異なるタスクタイプを含み、それぞれが検証された正確な答えを持っている。 2相試験により,OpenAIのgpt-3.5-turbo,gpt-4o,ZhipuAIのglm-4を含む複数のモデルを評価した。 最初はゼロショットテストを行い、続いてデータセットを難易度で分類し、迅速なチューニングテストを実行しました。 結果,gpt-4oは第1相において平均71.3%の総合的精度を示した。 ムーンショット-v1-8kは全体的に若干性能が劣ったが、地名認識タスクではgpt-4oを上回った。 調査はまた、特定のタスクにおけるモデルパフォーマンスに対する迅速な戦略の影響を強調している。 例えば、Chain-of-Thought(COT)戦略では、経路計画におけるgpt-4oの精度が12.4%から87.5%に向上し、一方、1ショット戦略では、マッピングタスクにおけるv1-8kの精度が10.1%から76.3%に向上した。

The advent of large language models such as ChatGPT, Gemini, and others has underscored the importance of evaluating their diverse capabilities, ranging from natural language understanding to code generation. However, their performance on spatial tasks has not been comprehensively assessed. This study addresses this gap by introducing a novel multi-task spatial evaluation dataset, designed to systematically explore and compare the performance of several advanced models on spatial tasks. The dataset encompasses twelve distinct task types, including spatial understanding and path planning, each with verified, accurate answers. We evaluated multiple models, including OpenAI's gpt-3.5-turbo, gpt-4o, and ZhipuAI's glm-4, through a two-phase testing approach. Initially, we conducted zero-shot testing, followed by categorizing the dataset by difficulty and performing prompt tuning tests. Results indicate that gpt-4o achieved the highest overall accuracy in the first phase, with an average of 71.3%. Although moonshot-v1-8k slightly underperformed overall, it surpassed gpt-4o in place name recognition tasks. The study also highlights the impact of prompt strategies on model performance in specific tasks. For example, the Chain-of-Thought (COT) strategy increased gpt-4o's accuracy in path planning from 12.4% to 87.5%, while a one-shot strategy enhanced moonshot-v1-8k's accuracy in mapping tasks from 10.1% to 76.3%.
翻訳日:2024-08-29 12:58:09 公開日:2024-08-28
# チェーン・オブ・サート・プロンプティングの統計的基礎の解明

Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods ( http://arxiv.org/abs/2408.14511v2 )

ライセンス: Link先を確認
Xinyang Hu, Fengzhuo Zhang, Siyu Chen, Zhuoran Yang, (参考訳) CoT(Chain-of-Thought)は、事前訓練された大規模言語モデル(LLM)を用いて、多段階推論問題を解決する効果的な方法として人気を集めている。 本研究では,CoTを統計的推定の観点から解析し,サンプルの複雑さを包括的に評価する。 この目的のために,複数ステップの潜在変数モデルを導入し,その潜在変数がタスク情報をエンコードする推論プロセスをカプセル化する。 この枠組みでは、事前学習データセットが十分に大きい場合、CoTプロンプトによって生成された推定器はベイズ推定器と等価であることを示す。 この推定器は、プロンプトにおける実演例から推定される後部分布を集約することにより、多段階推論問題を効果的に解決する。 さらに,CoT推定器の統計的誤差を2つの主成分に分解できることを示す。 i) CoTプロンプトを用いて真のタスクを推測して発生するプロンプトエラー、及び (II)事前訓練したLDMの統計的誤差。 適切な仮定の下では、デモの数が増加するにつれて、早送りエラーは指数関数的にゼロに崩壊する。 さらに,事前学習したLLMの近似と一般化誤差を明示的に特徴付ける。 特に,多段階推論問題のターゲット分布を,変圧器ブロック数で指数関数的に減少する誤差で近似する変圧器モデルを構築した。 我々の分析は、CoTの他の変種(Self-Consistent CoT、Tree-of-Thought、Selection-Inferenceなど)にも及んでいる。 また,理論的な結果を検証するための数値実験も行った。

Chain-of-Thought (CoT) prompting and its variants have gained popularity as effective methods for solving multi-step reasoning problems using pretrained large language models (LLMs). In this work, we analyze CoT prompting from a statistical estimation perspective, providing a comprehensive characterization of its sample complexity. To this end, we introduce a multi-step latent variable model that encapsulates the reasoning process, where the latent variable encodes the task information. Under this framework, we demonstrate that when the pretraining dataset is sufficiently large, the estimator formed by CoT prompting is equivalent to a Bayesian estimator. This estimator effectively solves the multi-step reasoning problem by aggregating a posterior distribution inferred from the demonstration examples in the prompt. Moreover, we prove that the statistical error of the CoT estimator can be decomposed into two main components: (i) a prompting error, which arises from inferring the true task using CoT prompts, and (ii) the statistical error of the pretrained LLM. We establish that, under appropriate assumptions, the prompting error decays exponentially to zero as the number of demonstrations increases. Additionally, we explicitly characterize the approximation and generalization errors of the pretrained LLM. Notably, we construct a transformer model that approximates the target distribution of the multi-step reasoning problem with an error that decreases exponentially in the number of transformer blocks. Our analysis extends to other variants of CoT, including Self-Consistent CoT, Tree-of-Thought, and Selection-Inference, offering a broad perspective on the efficacy of these methods. We also provide numerical experiments to validate the theoretical findings.
翻訳日:2024-08-29 12:58:09 公開日:2024-08-28
# GINN-KAN:物理情報ニューラルネットワークにおける解釈可能性パイプライン化

GINN-KAN: Interpretability pipelining with applications in Physics Informed Neural Networks ( http://arxiv.org/abs/2408.14780v2 )

ライセンス: Link先を確認
Nisal Ranasinghe, Yu Xia, Sachith Seneviratne, Saman Halgamuge, (参考訳) ニューラルネットワークは強力な関数近似器であるが、その‘ブラックボックス’の性質は、しばしば不透明で解釈が難しい。 多くのポストホックな説明法が存在するが、一般的にネットワークの根底にある推論過程を捉えない。 真に解釈可能なニューラルネットワークは、バックプロパゲーションのような技術を使って従来のモデルと同様に訓練されるが、学習されたインプットとアウトプットの関係に関する洞察を提供する。 本研究では,解釈可能性パイプラインの概念を導入し,複数の解釈可能性技術を導入し,各手法の精度を向上する。 この目的のために、我々はまず、そのような解釈可能性を約束するいくつかのアーキテクチャを評価し、特に、バックプロパゲーションを引き続き活用しながら、標準的なニューラルネットワークアーキテクチャに解釈可能性を統合する可能性のために選択された2つのモデル、すなわちGrowing Interpretable Neural Network(GINN)とKolmogorov Arnold Networks(KAN)に焦点を当てた。 それぞれの限界と強みを分析し、両モデルの利点を合成する新しい解釈可能なニューラルネットワークGINN-KANを導入する。 Feynmanのシンボリックレグレッションベンチマークデータセットでテストすると、GINN-KANはGINNとkanのどちらよりも優れています。 提案手法の能力と一般化性を強調するため, GINN-KANを物理インフォームドニューラルネットワーク(PINN)における従来のブラックボックスネットワークの代替として位置づける。 これは、自然科学におけるディープラーニングパイプラインの応用において、はるかに大きな影響をもたらすものと期待している。 15の異なる偏微分方程式に対するこの解釈可能なPINNを用いた実験により、GINN-KAN拡張PINNは、微分方程式の解法においてブラックボックスネットワークでPINNよりも優れており、GINNとKAの能力を上回っていることが示された。

Neural networks are powerful function approximators, yet their ``black-box" nature often renders them opaque and difficult to interpret. While many post-hoc explanation methods exist, they typically fail to capture the underlying reasoning processes of the networks. A truly interpretable neural network would be trained similarly to conventional models using techniques such as backpropagation, but additionally provide insights into the learned input-output relationships. In this work, we introduce the concept of interpretability pipelineing, to incorporate multiple interpretability techniques to outperform each individual technique. To this end, we first evaluate several architectures that promise such interpretability, with a particular focus on two recent models selected for their potential to incorporate interpretability into standard neural network architectures while still leveraging backpropagation: the Growing Interpretable Neural Network (GINN) and Kolmogorov Arnold Networks (KAN). We analyze the limitations and strengths of each and introduce a novel interpretable neural network GINN-KAN that synthesizes the advantages of both models. When tested on the Feynman symbolic regression benchmark datasets, GINN-KAN outperforms both GINN and KAN. To highlight the capabilities and the generalizability of this approach, we position GINN-KAN as an alternative to conventional black-box networks in Physics-Informed Neural Networks (PINNs). We expect this to have far-reaching implications in the application of deep learning pipelines in the natural sciences. Our experiments with this interpretable PINN on 15 different partial differential equations demonstrate that GINN-KAN augmented PINNs outperform PINNs with black-box networks in solving differential equations and surpass the capabilities of both GINN and KAN.
翻訳日:2024-08-29 12:58:09 公開日:2024-08-28
# VHAKG: 日常活動の同期的マルチビュー映像に基づくマルチモーダル知識グラフ

VHAKG: A Multi-modal Knowledge Graph Based on Synchronized Multi-view Videos of Daily Activities ( http://arxiv.org/abs/2408.14895v2 )

ライセンス: Link先を確認
Shusaku Egami, Takahiro Ugai, Swe Nwe Nwe Htun, Ken Fukuda, (参考訳) マルチモーダル・ナレッジグラフ(MMKG)は,モダリティを越えた知識処理や機械学習を実現するリソースとして注目されている。 しかし、日々の活動など複数のイベントからなるビデオのためのMMKGの構築はまだ初期段階にある。 本稿では,日常活動の同期型マルチビューシミュレートビデオに基づくMMKGを構築する。 私たちのMMKGは、日常生活ビデオの内容をイベント中心の知識として表現するだけでなく、ビデオフレーム内のボックスのバウンディングなど、フレームごとのきめ細かい変更も含んでいます。 さらに、MMKGをクエリするためのサポートツールも提供しています。 アプリケーション例として,我々のMMKGは,適切なタスクに必要となる視覚言語データセットを提供することで,視覚言語モデルのベンチマークを容易にすることを実証する。

Multi-modal knowledge graphs (MMKGs), which ground various non-symbolic data (e.g., images and videos) into symbols, have attracted attention as resources enabling knowledge processing and machine learning across modalities. However, the construction of MMKGs for videos consisting of multiple events, such as daily activities, is still in the early stages. In this paper, we construct an MMKG based on synchronized multi-view simulated videos of daily activities. Besides representing the content of daily life videos as event-centric knowledge, our MMKG also includes frame-by-frame fine-grained changes, such as bounding boxes within video frames. In addition, we provide support tools for querying our MMKG. As an application example, we demonstrate that our MMKG facilitates benchmarking vision-language models by providing the necessary vision-language datasets for a tailored task.
翻訳日:2024-08-29 12:58:09 公開日:2024-08-28
# CMTA:イベント誘導ビデオのタイムアライメント

CMTA: Cross-Modal Temporal Alignment for Event-guided Video Deblurring ( http://arxiv.org/abs/2408.14930v2 )

ライセンス: Link先を確認
Taewoo Kim, Hoonhee Cho, Kuk-Jin Yoon, (参考訳) ビデオデブロアリングは、隣接するビデオフレームから情報を効果的に集めて、1つのぼやけたフレームで不足したデータを補うことで、モーションブルビデオの復元結果の品質を高めることを目的としている。 しかし、連続的に激しい動きのぼやけた状況に直面した場合、フレームベースのビデオデブロワー法は、隣接するビデオフレーム間の正確な時間対応を見出すことができず、性能が低下する。 この制限に対処するために,イベントカメラをマイクロ秒時間分解能で活用することで,映像の劣化を解消することを目的とする。 イベントカメラの高密度時間分解能をフル活用するために,2つのモジュールを提案する。 1)フレーム内特徴強調は、1つのぼやけたフレームの露光時間内に動作し、イベントの豊富な時間情報をよりよく活用するために、反復的にクロスモダリティ特徴を反復的に強化する。 2) フレーム間時間的特徴アライメントは、イベントの利点を生かしたシャープな特徴を集約し、重要な長距離時間情報を対象のフレームに収集する。 さらに,実世界のぼやけたRGBビデオ,対応するシャープビデオ,イベントデータからなる新しいデータセットを提案する。 このデータセットは、イベント誘導型デブロアリングメソッドを評価するための貴重なリソースとして機能する。 提案手法は, 合成および実世界のデブロアリングデータセットを用いた広範囲な実験により, 最先端のフレームベースおよびイベントベース動作デブロアリング法より優れていることを示す。 コードとデータセットはhttps://github.com/intelpro/CMTAで公開されている。

Video deblurring aims to enhance the quality of restored results in motion-blurred videos by effectively gathering information from adjacent video frames to compensate for the insufficient data in a single blurred frame. However, when faced with consecutively severe motion blur situations, frame-based video deblurring methods often fail to find accurate temporal correspondence among neighboring video frames, leading to diminished performance. To address this limitation, we aim to solve the video deblurring task by leveraging an event camera with micro-second temporal resolution. To fully exploit the dense temporal resolution of the event camera, we propose two modules: 1) Intra-frame feature enhancement operates within the exposure time of a single blurred frame, iteratively enhancing cross-modality features in a recurrent manner to better utilize the rich temporal information of events, 2) Inter-frame temporal feature alignment gathers valuable long-range temporal information to target frames, aggregating sharp features leveraging the advantages of the events. In addition, we present a novel dataset composed of real-world blurred RGB videos, corresponding sharp videos, and event data. This dataset serves as a valuable resource for evaluating event-guided deblurring methods. We demonstrate that our proposed methods outperform state-of-the-art frame-based and event-based motion deblurring methods through extensive experiments conducted on both synthetic and real-world deblurring datasets. The code and dataset are available at https://github.com/intelpro/CMTA.
翻訳日:2024-08-29 12:58:09 公開日:2024-08-28
# ヨーロッパ言語における大規模言語モデルの検討

A Survey of Large Language Models for European Languages ( http://arxiv.org/abs/2408.15040v2 )

ライセンス: Link先を確認
Wazir Ali, Sampo Pyysalo, (参考訳) 大規模言語モデル(LLM)は、ChatGPTのリリース以来、多岐にわたる自然言語タスクにおける高いパフォーマンスのために注目されている。 LLMは、膨大なテキストデータに対して数十億のモデルパラメータをトレーニングすることで、言語を理解し、生成することを学ぶ。 比較的新しい分野であるにもかかわらず、LSMの研究は様々な方向に急速に進んでいる。 本稿では, LLaMA, PaLM, GPT, MoE など LLM ファミリーの概要と, 欧州連合 (EU) の公式言語のための LLM 作成・拡張手法について述べる。 大規模言語モデルの事前学習に使用される共通単言語および多言語データセットの包括的要約を提供する。

Large Language Models (LLMs) have gained significant attention due to their high performance on a wide range of natural language tasks since the release of ChatGPT. The LLMs learn to understand and generate language by training billions of model parameters on vast volumes of text data. Despite being a relatively new field, LLM research is rapidly advancing in various directions. In this paper, we present an overview of LLM families, including LLaMA, PaLM, GPT, and MoE, and the methods developed to create and enhance LLMs for official European Union (EU) languages. We provide a comprehensive summary of common monolingual and multilingual datasets used for pretraining large language models.
翻訳日:2024-08-29 12:58:09 公開日:2024-08-28
# DocLayLLM: テキストリッチ文書理解のための大規模言語モデルの効率的かつ効果的なマルチモーダル拡張

DocLayLLM: An Efficient and Effective Multi-modal Extension of Large Language Models for Text-rich Document Understanding ( http://arxiv.org/abs/2408.15045v2 )

ライセンス: Link先を確認
Wenhui Liao, Jiapeng Wang, Hongliang Li, Chengyu Wang, Jun Huang, Lianwen Jin, (参考訳) テキストリッチドキュメント理解(テキストリッチドキュメント理解、TDU)とは、テキストコンテンツを含む文書を分析し、解釈することである。 大規模言語モデル (LLMs) の急速な進化により,TDU の大幅な汎用性と一般化のために広く活用されている。 本稿では,TDU用に特別に設計されたLLMの効率的かつ効果的なマルチモーダル拡張であるDocLayLLMを紹介する。 視覚的パッチトークンと2次元位置トークンをLCMに統合し、LCM自体を用いて文書内容を符号化することにより、LCMの文書理解能力を完全に活用し、OCR情報の認識を高める。 また,このチェーン・オブ・シント(CoT)の役割を深く検討し,CoT事前学習とCoTアニーリングの技法を革新的に提案した。 私たちのDocLayLLMは、軽量なトレーニング設定で優れたパフォーマンスを実現し、その効率性と有効性を示します。 実験の結果,DocLayLLMは既存のOCR依存手法を超越し,OCR非競合よりも優れていた。

Text-rich document understanding (TDU) refers to analyzing and comprehending documents containing substantial textual content. With the rapid evolution of large language models (LLMs), they have been widely leveraged for TDU due to their remarkable versatility and generalization. In this paper, we introduce DocLayLLM, an efficient and effective multi-modal extension of LLMs specifically designed for TDU. By integrating visual patch tokens and 2D positional tokens into LLMs and encoding the document content using the LLMs themselves, we fully take advantage of the document comprehension capability of LLMs and enhance their perception of OCR information. We have also deeply considered the role of the chain-of-thought (CoT) and innovatively proposed the techniques of CoT Pre-training and CoT Annealing. Our DocLayLLM can achieve remarkable performances with lightweight training settings, showcasing its efficiency and effectiveness. Experimental results demonstrate that our DocLayLLM surpasses existing OCR-dependent methods and also outperforms OCR-free competitors.
翻訳日:2024-08-29 12:58:09 公開日:2024-08-28
# 可変自己回帰列モデルを用いたUrduデジタルテキスト文字認識

Urdu Digital Text Word Optical Character Recognition Using Permuted Auto Regressive Sequence Modeling ( http://arxiv.org/abs/2408.15119v2 )

ライセンス: Link先を確認
Ahmed Mustafa, Muhammad Tahir Rafique, Muhammad Ijlal Baig, Hasan Sajid, Muhammad Jawad Khan, Karam Dad Kallu, (参考訳) 本稿では,デジタルウルドゥー文字に特化して開発された新しい単語レベル光学文字認識(OCR)モデルを提案する。 このモデルは、トランスフォーマーベースのアーキテクチャとアテンションメカニズムを使用して、さまざまなテキストスタイル、フォント、バリエーションを扱うUrduスクリプトを認識するという、ユニークな課題に対処する。 約160,000のUrduテキストイメージの包括的なデータセットに基づいてトレーニングされたこのモデルは、置換された自己回帰シーケンス(PARSeq)アーキテクチャを組み込んでいる。 この設計は、双方向のコンテキスト情報を活用することにより、文脈認識と反復的洗練を可能にし、ウルドゥー文字を正確に認識する能力を大幅に向上させる。 このモデルは0.178の文字誤り率(CER)を達成し、実世界の応用におけるその有効性と精度を強調している。 しかし、このモデルには、ぼやけた画像の難しさ、非水平方向、および認識プロセスにノイズを生じさせる追従的句読点の存在など、いくつかの制限がある。 これらの課題に対処することは、今後の作業の重要な焦点となるでしょう。 今後の研究は、高度なデータ拡張技術、ハイパーパラメータの最適化、文脈認識言語モデルの統合を通じてモデルをさらなる洗練することを目的としており、最終的にはウルドゥー文字認識におけるモデルの性能と堅牢性を高めることを目指している。

This research paper presents a novel word-level Optical Character Recognition (OCR) model developed specifically for digital Urdu text. The model utilizes transformer-based architectures and attention mechanisms to address the unique challenges of recognizing Urdu script, which includes handling a diverse range of text styles, fonts, and variations. Trained on a comprehensive dataset of approximately 160,000 Urdu text images, the model incorporates a permuted autoregressive sequence (PARSeq) architecture. This design enables context-aware inference and iterative refinement by leveraging bidirectional context information, significantly enhancing its ability to accurately recognize Urdu characters. The model achieves a character error rate (CER) of 0.178, highlighting its effectiveness and precision in real-world applications. However, the model has some limitations, such as difficulties with blurred images, non-horizontal orientations, and the presence of trailing punctuation marks, which can introduce noise into the recognition process. Addressing these challenges will be a key focus of future work. Future research will aim to further refine the model through advanced data augmentation techniques, optimization of hyperparameters, and the integration of context-aware language models, ultimately enhancing the model's performance and robustness in Urdu text recognition.
翻訳日:2024-08-29 12:58:09 公開日:2024-08-28
# Customize-A-Video: テキスト・ビデオ拡散モデルのワンショットモーションカスタマイズ

Customize-A-Video: One-Shot Motion Customization of Text-to-Video Diffusion Models ( http://arxiv.org/abs/2402.14780v3 )

ライセンス: Link先を確認
Yixuan Ren, Yang Zhou, Jimei Yang, Jing Shi, Difan Liu, Feng Liu, Mingi Kwon, Abhinav Shrivastava, (参考訳) 画像のカスタマイズはテキスト・ツー・イメージ(T2I)拡散モデルで広く研究され、印象的な結果と応用をもたらした。 テキスト・ツー・ビデオ拡散モデル(T2V)の出現に伴い、その時間的対応であるモーション・カスタマイズは未だ十分に研究されていない。 ワンショットビデオモーションカスタマイズの課題に対処するために,単一参照ビデオからのモーションをモデル化し,空間的・時間的変化のある新しい主題やシーンに適応するCustomize-A-Videoを提案する。 時間的注意層上でのローランク適応(LoRA)を利用して、特定の動きモデリングのために事前訓練されたT2V拡散モデルを調整する。 トレーニング中における空間的・時間的情報を切り離すために,動作学習に先立って,参照映像から本来の外観を逸脱する外観吸収体の概念を導入する。 提案したモジュールは、ステージ化されたパイプラインでトレーニングされ、プラグイン・アンド・プレイ方式で推論され、カスタムビデオ生成や編集、ビデオの外観のカスタマイズ、複数モーションの組み合わせなど、さまざまな下流タスクへの拡張が容易になる。 私たちのプロジェクトページはhttps://customize-a-video.github.io.comにある。

Image customization has been extensively studied in text-to-image (T2I) diffusion models, leading to impressive outcomes and applications. With the emergence of text-to-video (T2V) diffusion models, its temporal counterpart, motion customization, has not yet been well investigated. To address the challenge of one-shot video motion customization, we propose Customize-A-Video that models the motion from a single reference video and adapts it to new subjects and scenes with both spatial and temporal varieties. It leverages low-rank adaptation (LoRA) on temporal attention layers to tailor the pre-trained T2V diffusion model for specific motion modeling. To disentangle the spatial and temporal information during training, we introduce a novel concept of appearance absorbers that detach the original appearance from the reference video prior to motion learning. The proposed modules are trained in a staged pipeline and inferred in a plug-and-play fashion, enabling easy extensions to various downstream tasks such as custom video generation and editing, video appearance customization and multiple motion combination. Our project page can be found at https://customize-a-video.github.io.
翻訳日:2024-08-29 11:00:36 公開日:2024-08-28
# ハーフウェイエスケープ最適化:一般最適化問題に対する量子インスパイアされた解法

Halfway Escape Optimization: A Quantum-Inspired Solution for General Optimization Problems ( http://arxiv.org/abs/2405.02850v5 )

ライセンス: Link先を確認
Jiawen Li, Anwar PP Abdul Majeed, Pascal Lefevre, (参考訳) 本稿ではまず,高次収束率で高次元の地形を特徴とする一般最適化問題に対処するために,量子インスパイアされたメタヒューリスティックであるHalfway Escape Optimization (HEO)アルゴリズムを提案する。 本研究では,粒子群最適化 (PSO), 遺伝的アルゴリズム (GA), 人工魚群アルゴリズム (AFSA), グレイウルフ最適化 (GWO), 量子行動群最適化 (QPSO) など,確立された最適化アルゴリズムに対するHEOの性能を総合的に比較した。 一次解析は、次元30の14のベンチマーク関数を含み、一般最適化問題のナビゲートにおけるHEOの有効性と適応性を示し、その性能に関する貴重な洞察を提供する。 圧力容器設計および管状カラム設計におけるHEOの試験は、その実現可能性とリアルタイム応用の可能性について推測する。 Osmancik-97とCammeo Rice Classificationのさらなる検証により、HEOの有効性が証明され、高い精度の記録が得られる。

This paper first proposes the Halfway Escape Optimization (HEO) algorithm, a quantum-inspired metaheuristic designed to address general optimization problems characterized by rugged landscapes and high-dimensionality with an efficient convergence rate. The study presents a comprehensive comparative evaluation of HEO's performance against established optimization algorithms, including Particle Swarm Optimization (PSO), Genetic Algorithm (GA), Artificial Fish Swarm Algorithm (AFSA), Grey Wolf Optimizer (GWO), and Quantum behaved Particle Swarm Optimization (QPSO). The primary analysis encompasses 14 benchmark functions with dimension 30, demonstrating HEO's effectiveness and adaptability in navigating general optimization problems and providing valuable insights into its performance. The test of HEO in Pressure Vessel Design and Tubular Column Design infers its feasibility and potential in real-time applications. Further validation in Osmancik-97 and Cammeo Rice Classification proves the effectiveness of HEO and achieves a higher accuracy record.
翻訳日:2024-08-29 11:00:36 公開日:2024-08-28
# 空間データ知能基礎モデルに関する研究

Research on the Spatial Data Intelligent Foundation Model ( http://arxiv.org/abs/2405.19730v5 )

ライセンス: Link先を確認
Shaohua Wang, Xing Xie, Yong Li, Danhuai Guo, Zhi Cai, Yu Liu, Yang Yue, Xiao Pan, Feng Lu, Huayi Wu, Zhipeng Gui, Zhiming Ding, Bolong Zheng, Fuzheng Zhang, Jingyuan Wang, Zhengchao Chen, Hao Lu, Jiayi Li, Peng Yue, Wenhao Yu, Yao Yao, Leilei Sun, Yong Zhang, Longbiao Chen, Xiaoping Du, Xiang Li, Xueying Zhang, Kun Qin, Zhaoya Gong, Weihua Dong, Xiaofeng Meng, (参考訳) 本報告では、これらのモデルの原理、手法、最先端の応用を探求する、空間データインテリジェントな大規模モデルに焦点を当てる。 これは、空間データインテリジェントな大規模モデルの定義、開発履歴、現状、トレンド、そしてそれらが直面する課題について、詳細な議論を提供する。 本報告では, 都市環境, 航空宇宙リモートセンシング, 地理, 交通, その他のシナリオにおける空間データ知能大規模モデルの重要技術とその応用を体系的に解明する。 さらに,都市開発,マルチモーダルシステム,リモートセンシング,スマートトランスポート,資源環境といったテーマにおける空間データインテリジェントな大規模モデルの適用事例をまとめた。 最後に、このレポートは、空間データインテリジェントな大規模モデルの開発展望の概要と展望をまとめて締めくくっている。

This report focuses on spatial data intelligent large models, delving into the principles, methods, and cutting-edge applications of these models. It provides an in-depth discussion on the definition, development history, current status, and trends of spatial data intelligent large models, as well as the challenges they face. The report systematically elucidates the key technologies of spatial data intelligent large models and their applications in urban environments, aerospace remote sensing, geography, transportation, and other scenarios. Additionally, it summarizes the latest application cases of spatial data intelligent large models in themes such as urban development, multimodal systems, remote sensing, smart transportation, and resource environments. Finally, the report concludes with an overview and outlook on the development prospects of spatial data intelligent large models.
翻訳日:2024-08-29 11:00:36 公開日:2024-08-28
# AlphaForge: フォーミュラ的なアルファファクタのマイニングと動的結合のためのフレームワーク

AlphaForge: A Framework to Mine and Dynamically Combine Formulaic Alpha Factors ( http://arxiv.org/abs/2406.18394v4 )

ライセンス: Link先を確認
Hao Shi, Weili Song, Xinting Zhang, Jiahe Shi, Cuicui Luo, Xiang Ao, Hamid Arian, Luis Seco, (参考訳) 金融データの複雑さは、その変動性と低信号-雑音比を特徴とし、性能と解釈性の両方を優先する量的投資の先進的な手法を必要としており、早期手動抽出から遺伝的プログラミングへの移行により、アルファファクターマイニング領域における最も先進的なアプローチは、現在、一連の組み合わせ因子を固定重量でマイニングするために強化学習を採用している。 しかし、結果として得られるアルファ因子のパフォーマンスは不整合を示し、固定因子重みの柔軟性は金融市場のダイナミックな性質に適応するには不十分である。 そこで本研究では,α因子マイニングと因子結合のための2段階式アルファ生成フレームワークAlphaForgeを提案する。 このフレームワークは、生成予測ニューラルネットワークを使用して要素を生成し、多様性を同時に保存しながら、ディープラーニングに固有の堅牢な空間探索能力を活用する。 フレームワーク内の組み合わせモデルは、選択のための要因の時間的性能を取り入れ、各成分のアルファ因子に割り当てられた重みを動的に調整する。 実世界のデータセットを用いて行った実験により,我々の提案したモデルは,定式的アルファファクターマイニングにおいて,同時代のベンチマークより優れていることが示された。 さらに,本モデルでは,量的投資とリアルマネー投資の領域内で,ポートフォリオリターンの顕著な向上を示す。

The complexity of financial data, characterized by its variability and low signal-to-noise ratio, necessitates advanced methods in quantitative investment that prioritize both performance and interpretability.Transitioning from early manual extraction to genetic programming, the most advanced approach in the alpha factor mining domain currently employs reinforcement learning to mine a set of combination factors with fixed weights. However, the performance of resultant alpha factors exhibits inconsistency, and the inflexibility of fixed factor weights proves insufficient in adapting to the dynamic nature of financial markets. To address this issue, this paper proposes a two-stage formulaic alpha generating framework AlphaForge, for alpha factor mining and factor combination. This framework employs a generative-predictive neural network to generate factors, leveraging the robust spatial exploration capabilities inherent in deep learning while concurrently preserving diversity. The combination model within the framework incorporates the temporal performance of factors for selection and dynamically adjusts the weights assigned to each component alpha factor. Experiments conducted on real-world datasets demonstrate that our proposed model outperforms contemporary benchmarks in formulaic alpha factor mining. Furthermore, our model exhibits a notable enhancement in portfolio returns within the realm of quantitative investment and real money investment.
翻訳日:2024-08-29 11:00:36 公開日:2024-08-28
# 分類事項:クラス別注意による映像行動検出の改善

Classification Matters: Improving Video Action Detection with Class-Specific Attention ( http://arxiv.org/abs/2407.19698v3 )

ライセンス: Link先を確認
Jinsung Lee, Taeoh Kim, Inwoong Lee, Minho Shim, Dongyoon Wee, Minsu Cho, Suha Kwak, (参考訳) ビデオアクション検出(VAD)は、アクターを検出し、そのアクションをビデオで分類することを目的としている。 VADはアクターのローカライゼーションよりも分類に苦しむ。 そこで,本研究では,一般的な手法が分類のための特徴をどう形成するかを分析し,それらがアクター領域を優先するが,正確な分類に必要なコンテキスト情報を見越すことが多い。 そこで我々は,アクターに対する偏見を減らし,各アクションクラスに関連する文脈に注意を払うことを提案する。 クラス指定クエリを各アクションクラスに割り当てることで、モデルが効果的に分類する場所を動的に決定できる。 提案モデルでは,パラメータが大幅に少なく,計算量も少ない3つのベンチマークにおいて,優れた性能を示す。

Video action detection (VAD) aims to detect actors and classify their actions in a video. We figure that VAD suffers more from classification rather than localization of actors. Hence, we analyze how prevailing methods form features for classification and find that they prioritize actor regions, yet often overlooking the essential contextual information necessary for accurate classification. Accordingly, we propose to reduce the bias toward actor and encourage paying attention to the context that is relevant to each action class. By assigning a class-dedicated query to each action class, our model can dynamically determine where to focus for effective classification. The proposed model demonstrates superior performance on three challenging benchmarks with significantly fewer parameters and less computation.
翻訳日:2024-08-29 11:00:36 公開日:2024-08-28
# シンプレクティックブレグマンの発散

Symplectic Bregman divergences ( http://arxiv.org/abs/2408.12961v3 )

ライセンス: Link先を確認
Frank Nielsen, (参考訳) シンプレクティックベクトル空間におけるブレグマン発散の一般化を、シンプレクティック・ブレグマン発散(symplectic Bregman divergences)と呼ぶ。 シンプレクティック・ブレグマンの発散は、シンプレクティック部分微分の概念に依存するフェンシェル・ヤング不等式のシンプレクティック一般化に由来する。 シンプレクティック・フェンシェル・ヤング不等式はシンプレクティック形式に関して定義されるシンプレクティック・フェンシェル変換を用いて得られる。 シンプレクティック形式は双対系の対から一般化的に構築できるので、同値なシンプレクティックブレグマン発散によって得られる双対系におけるブレグマン発散の一般化が得られる。 特に、シンプレクティック形式が内積から導出されるとき、対応するシンプレクティックブレグマン発散は合成内積に対して通常のブレグマン発散に等しいことを示す。 幾何力学、情報幾何学、機械学習における学習力学におけるシンプレクティック・ダイバージェンスの潜在的な応用が注目されている。

We present a generalization of Bregman divergences in symplectic vector spaces that we term symplectic Bregman divergences. Symplectic Bregman divergences are derived from a symplectic generalization of the Fenchel-Young inequality which relies on the notion of symplectic subdifferentials. The symplectic Fenchel-Young inequality is obtained using the symplectic Fenchel transform which is defined with respect to the symplectic form. Since symplectic forms can be generically built from pairings of dual systems, we get a generalization of Bregman divergences in dual systems obtained by equivalent symplectic Bregman divergences. In particular, when the symplectic form is derived from an inner product, we show that the corresponding symplectic Bregman divergences amount to ordinary Bregman divergences with respect to composite inner products. Some potential applications of symplectic divergences in geometric mechanics, information geometry, and learning dynamics in machine learning are touched upon.
翻訳日:2024-08-29 11:00:36 公開日:2024-08-28
# 深層学習を用いた乳房生検H&E画像のHER2とFISH状態予測

HER2 and FISH Status Prediction in Breast Biopsy H&E-Stained Images Using Deep Learning ( http://arxiv.org/abs/2408.13818v2 )

ライセンス: Link先を確認
Ardhendu Sekhar, Vrinda Goel, Garima Jain, Abhijeet Patil, Ravi Kant Gupta, Amit Sethi, (参考訳) ヒト上皮成長因子受容体2(HER2)を乳癌患者に検出するための現在の基準は、蛍光 in situ hybridization (FISH) または免疫組織化学 (IHC) を通じて同定されるHER2増幅に依存している。 しかし、ヘマトキシリンとエオシン(H&E)の腫瘍染色はより広く利用でき、H&Eを用いてHER2の状態を正確に予測することで、コスト削減と治療選択の迅速化が期待できる。 H&Eのためのディープラーニングアルゴリズムは、HER2状態予測の適度な成功を含む、様々ながんの特徴と臨床結果を予測する効果を示した。 本研究では、HER2状態を予測するために、MoCo-v2と対比学習を組み合わせた、カスタマイズされた弱い監督分類手法を採用した。 われわれはThe Cancer Genome Atlas (TCGA)から公開されている182個のH&E Whole Slide Images (WSIs)でパイプラインをトレーニングし、Yale School of Medicineの病理チームによるアノテーションが公開されている。 私たちのパイプラインは、4つの異なるテストフォールドで0.85のAUC(Area Under the Curve)を達成した。 さらに、HER2スコアが2以上で、対応するHER2ステータスとFISHテスト結果を含むTCGA-BRCAデータセットから、44のH&Eスライドでモデルを検証した。 これらのケースはIHCと同等と見なされ、曖昧さを避けるために高価なFISHテストが必要である。 われわれのパイプラインでは、これらの挑戦的なH&EスライドでAUCが0.81であった。 FISH検査の必要性を減らすことは、温存人口に対するがん治療の公平性に重大な影響を及ぼす可能性がある。

The current standard for detecting human epidermal growth factor receptor 2 (HER2) status in breast cancer patients relies on HER2 amplification, identified through fluorescence in situ hybridization (FISH) or immunohistochemistry (IHC). However, hematoxylin and eosin (H\&E) tumor stains are more widely available, and accurately predicting HER2 status using H\&E could reduce costs and expedite treatment selection. Deep Learning algorithms for H&E have shown effectiveness in predicting various cancer features and clinical outcomes, including moderate success in HER2 status prediction. In this work, we employed a customized weak supervision classification technique combined with MoCo-v2 contrastive learning to predict HER2 status. We trained our pipeline on 182 publicly available H&E Whole Slide Images (WSIs) from The Cancer Genome Atlas (TCGA), for which annotations by the pathology team at Yale School of Medicine are publicly available. Our pipeline achieved an Area Under the Curve (AUC) of 0.85 across four different test folds. Additionally, we tested our model on 44 H&E slides from the TCGA-BRCA dataset, which had an HER2 score of 2+ and included corresponding HER2 status and FISH test results. These cases are considered equivocal for IHC, requiring an expensive FISH test on their IHC slides for disambiguation. Our pipeline demonstrated an AUC of 0.81 on these challenging H&E slides. Reducing the need for FISH test can have significant implications in cancer treatment equity for underserved populations.
翻訳日:2024-08-29 11:00:36 公開日:2024-08-28
# FAST-LIVO2:高速、直接LiDAR-慣性-ビジュアルオドメトリー

FAST-LIVO2: Fast, Direct LiDAR-Inertial-Visual Odometry ( http://arxiv.org/abs/2408.14035v2 )

ライセンス: Link先を確認
Chunran Zheng, Wei Xu, Zuhao Zou, Tong Hua, Chongjian Yuan, Dongjiao He, Bingyang Zhou, Zheng Liu, Jiarong Lin, Fangcheng Zhu, Yunfan Ren, Rong Wang, Fanle Meng, Fu Zhang, (参考訳) 本稿では,SLAMタスクにおける高精度かつロバストな状態推定を実現するための,高速かつ直接的LiDAR-慣性・視覚的オドメトリーフレームワークであるFAST-LIVO2を提案する。 FAST-LIVO2はIMU、LiDAR、画像計測をESIKFで効率的に融合させる。 異種LiDARと画像計測の寸法ミスマッチに対処するために、カルマンフィルタの逐次更新戦略を用いる。 この効率を高めるために、視覚的およびLiDAR融合の直接手法を用いて、LiDARモジュールはエッジや平面の特徴を抽出せずに原点を登録し、視覚的モジュールはORBやFAST角の特徴を抽出することなく直接測光誤差を最小化する。 ビジュアルとLiDARの両方の測定の融合は単一の統一ボクセルマップに基づいており、LiDARモジュールは新しいLiDARスキャンを登録するための幾何学的構造を構築し、ビジュアルモジュールは画像パッチをLiDARポイントにアタッチする。 画像アライメントの精度を高めるために、ボクセルマップのLiDAR点からの平面先行値を使用し、新しい画像のアライメント後に参照パッチを動的に更新する。 さらに、画像アライメントの堅牢性を高めるため、FAST-LIVO2はオンデマンドのレイキャスト演算を採用し、リアルタイムに画像露出時間を推定する。 最後に、FAST-LIVO2の3つの応用について述べる。UAVオンボードナビゲーションは、リアルタイムオンボードナビゲーションにおけるシステムの計算効率を示すものであり、システムマッピングの精度を示す空中マッピングであり、3Dモデルレンダリング(メッシュベースおよびNeRFベース)は、その後のレンダリングタスクに対する再構成された高密度マップの適合性を示すものである。 私たちは、ロボティクスコミュニティに利益をもたらすために、コード、データセット、アプリケーションをGitHubでオープンソースにしています。

This paper proposes FAST-LIVO2: a fast, direct LiDAR-inertial-visual odometry framework to achieve accurate and robust state estimation in SLAM tasks and provide great potential in real-time, onboard robotic applications. FAST-LIVO2 fuses the IMU, LiDAR and image measurements efficiently through an ESIKF. To address the dimension mismatch between the heterogeneous LiDAR and image measurements, we use a sequential update strategy in the Kalman filter. To enhance the efficiency, we use direct methods for both the visual and LiDAR fusion, where the LiDAR module registers raw points without extracting edge or plane features and the visual module minimizes direct photometric errors without extracting ORB or FAST corner features. The fusion of both visual and LiDAR measurements is based on a single unified voxel map where the LiDAR module constructs the geometric structure for registering new LiDAR scans and the visual module attaches image patches to the LiDAR points. To enhance the accuracy of image alignment, we use plane priors from the LiDAR points in the voxel map (and even refine the plane prior) and update the reference patch dynamically after new images are aligned. Furthermore, to enhance the robustness of image alignment, FAST-LIVO2 employs an on-demanding raycast operation and estimates the image exposure time in real time. Lastly, we detail three applications of FAST-LIVO2: UAV onboard navigation demonstrating the system's computation efficiency for real-time onboard navigation, airborne mapping showcasing the system's mapping accuracy, and 3D model rendering (mesh-based and NeRF-based) underscoring the suitability of our reconstructed dense map for subsequent rendering tasks. We open source our code, dataset and application on GitHub to benefit the robotics community.
翻訳日:2024-08-29 11:00:36 公開日:2024-08-28
# Kerr-cat量子ビット初期化におけるポンプ誘起周波数シフトの動的補償

Dynamic compensation for pump-induced frequency shift in Kerr-cat qubit initialization ( http://arxiv.org/abs/2408.14112v2 )

ライセンス: Link先を確認
Yifang Xu, Ziyue Hua, Weiting Wang, Yuwei Ma, Ming Li, Jiajun Chen, Jie Zhou, Xiaoxuan Pan, Lintao Xiao, Hongwei Huang, Weizhou Cai, Hao Ai, Yu-xi Liu, Chang-Ling Zou, Luyan Sun, (参考訳) ノイズバイアスのKerr-cat量子ビットはフォールトトレラント量子計算の魅力的な候補であるが、その初期化はポンプ誘起周波数シフト(PIFS)による問題に直面している。 本稿では,Kerr-cat量子ビット初期化におけるPIFSの効果を軽減するための動的補償法を提案する。 非線形設計による新しい三重ループSQUID装置を用いて, 安定化Kerr-cat量子ビットを実現し, 初期化忠実度を57%から78%に向上させ, 動的補償法の利点を検証した。 我々の結果は、Kerr-cat量子ビットの実践的な実装を前進させるだけでなく、これらのシステムの基本断熱力学に関する貴重な洞察を提供する。 この研究は、Kerr-cat量子ビットのバイアス保存特性を利用するスケーラブル量子プロセッサの道を開いた。

The noise-biased Kerr-cat qubit is an attractive candidate for fault-tolerant quantum computation; however, its initialization faces challenges due to the squeezing pump-induced frequency shift (PIFS). Here, we propose and demonstrate a dynamic compensation method to mitigate the effect of PIFS during the Kerr-cat qubit initialization. Utilizing a novel nonlinearity-engineered triple-loop SQUID device, we realize a stabilized Kerr-cat qubit and validate the advantages of the dynamic compensation method by improving the initialization fidelity from 57% to 78%, with a projected fidelity of 91% after excluding state preparation and measurement errors. Our results not only advance the practical implementation of Kerr-cat qubits, but also provide valuable insights into the fundamental adiabatic dynamics of these systems. This work paves the way for scalable quantum processors that leverage the bias-preserving properties of Kerr-cat qubits.
翻訳日:2024-08-29 11:00:36 公開日:2024-08-28
# コンクリート製造プロセス最適化のための物理インフォームニューラルネットワーク

Physics-Informed Neural Network for Concrete Manufacturing Process Optimization ( http://arxiv.org/abs/2408.14502v2 )

ライセンス: Link先を確認
Sam Varghese, Rahul Anand, Dr. Gaurav Paliwal, (参考訳) コンクリート製造プロジェクトは、コンサルティング機関にとって最も一般的なプロジェクトの一つである。 灰, 水, セメント, 超塑性などの入力材料の非線形依存性が高く, コンクリートの強度が高いことから, 機械学習モデルでは, この関係をうまく把握し, コスト最適化を行うのが困難になる。 本稿では、PINN(Physics Informed Neural Networks)が与えられた状況でどのように役立つかを明らかにする。 この最先端モデルは、線形回帰、ランダムフォレスト、グラディエントブースティング、ディープニューラルネットワークといった従来のモデルと比較される。 調査の結果は、データセットが減ったとしてもPINNがいかにうまく機能したかを強調し、MLモデルの限られたデータ可用性に関する最大の課題の1つを解決した。 PINNは平均して、Deep Neural Networkに比べて40%少ないデータであっても、損失値を26.3%削減した。 また, 材料量の予測に加えて, 粒子群最適化(PSO)などのヒューリスティック最適化手法を用いて, 与えられた強度のコンクリートを最小コストで製造するために必要な材料量の予測を行った。

Concrete manufacturing projects are one of the most common ones for consulting agencies. Because of the highly non-linear dependency of input materials like ash, water, cement, superplastic, etc; with the resultant strength of concrete, it gets difficult for machine learning models to successfully capture this relation and perform cost optimizations. This paper highlights how PINNs (Physics Informed Neural Networks) can be useful in the given situation. This state-of-the-art model shall also get compared with traditional models like Linear Regression, Random Forest, Gradient Boosting, and Deep Neural Network. Results of the research highlights how well PINNs performed even with reduced dataset, thus resolving one of the biggest issues of limited data availability for ML models. On an average, PINN got the loss value reduced by 26.3% even with 40% lesser data compared to the Deep Neural Network. In addition to predicting strength of the concrete given the quantity of raw materials, the paper also highlights the use of heuristic optimization method like Particle Swarm Optimization (PSO) in predicting quantity of raw materials required to manufacture concrete of given strength with least cost.
翻訳日:2024-08-29 11:00:36 公開日:2024-08-28
# メタラーニングによるユーザレベルソーシャルマルチメディアトラフィック異常検出

User-level Social Multimedia Traffic Anomaly Detection with Meta-Learning ( http://arxiv.org/abs/2408.14884v2 )

ライセンス: Link先を確認
Tongtong Feng, Jingyu Wang, Qi Qi, Jianxin Liao, (参考訳) ユーザレベルのソーシャルマルチメディアトラフィックにおける精度異常検出は、プライバシのセキュリティに不可欠である。 大規模なラベル付きトレーニングサンプルを持つ特定の異常クラスを受動的に検出する既存のモデルと比較して、ユーザレベルのソーシャルマルチメディアトラフィックは、ラベル付きサンプルがほとんどなく、不均衡で自己相似で、データ・ハングリーな性質を持つ、大きな新しい異常クラスを含んでいる。 GAN(Generative Adversarial Networks)のような最近の進歩は、サンプルジェネレータを目にするクラスサンプルのみから学習し、新しいサンプルを合成することによって解決している。 しかし、多くの新しいクラスを検知すれば、合成サンプルの数は不確実に見積もられ、この操作は計算複雑性とエネルギー消費を大幅に増加させます。 本稿では,ユーザレベルのソーシャルマルチメディアトラフィック異常検出のためのメタラーニング手法である「textit{Meta-UAD}」を提案する。 このスキームは叙述的な訓練パラダイムに依存しており、K-way-M-shot分類タスクの集合から学習する。 ユーザレベルのソーシャルマルチメディアトラフィックは、ユーザとソーシャルアプリケーションの複雑なインタラクションプロセスから生まれるので、我々はさらに、スキーム性能を向上させる機能抽出器を開発する。 LSTMベースのAutoEncoderを用いて、累積的重要性ランキングと時系列特徴を用いて統計的特徴を抽出する。 提案手法を2つの公開データセット上で評価し,Meta-UADの優位性をさらに証明した。

Accuracy anomaly detection in user-level social multimedia traffic is crucial for privacy security. Compared with existing models that passively detect specific anomaly classes with large labeled training samples, user-level social multimedia traffic contains sizeable new anomaly classes with few labeled samples and has an imbalance, self-similar, and data-hungry nature. Recent advances, such as Generative Adversarial Networks (GAN), solve it by learning a sample generator only from seen class samples to synthesize new samples. However, if we detect many new classes, the number of synthesizing samples would be unfeasibly estimated, and this operation will drastically increase computational complexity and energy consumption. Motivation on these limitations, in this paper, we propose \textit{Meta-UAD}, a Meta-learning scheme for User-level social multimedia traffic Anomaly Detection. This scheme relies on the episodic training paradigm and learns from the collection of K-way-M-shot classification tasks, which can use the pre-trained model to adapt any new class with few samples by going through few iteration steps. Since user-level social multimedia traffic emerges from a complex interaction process of users and social applications, we further develop a feature extractor to improve scheme performance. It extracts statistical features using cumulative importance ranking and time-series features using an LSTM-based AutoEncoder. We evaluate our scheme on two public datasets and the results further demonstrate the superiority of Meta-UAD.
翻訳日:2024-08-29 11:00:36 公開日:2024-08-28
# 動的システムの高速モデル学習のための閉形式勾配を持つ領域分離型物理インフォームニューラルネットワーク

Domain-decoupled Physics-informed Neural Networks with Closed-form Gradients for Fast Model Learning of Dynamical Systems ( http://arxiv.org/abs/2408.14951v2 )

ライセンス: Link先を確認
Henrik Krauss, Tim-Lukas Habich, Max Bartholdt, Thomas Seel, Moritz Schappler, (参考訳) 物理インフォームドニューラルネットワーク(PINN)は物理方程式を用いて訓練されており、データから学習することで、モデル化されていない効果を組み込むこともできる。 動的システムの制御のためのPINN(PINC)は、非線形状態空間モデルに対する古典的な数値積分法と比較して予測速度から関心を集めており、リアルタイム制御に適している。 本稿では、大規模で複雑な非線形力学系を扱う場合のPINCの現在の限界に対処するために、ドメイン分離された物理情報ニューラルネットワーク(DD-PINN)を導入する。 時間領域はフィードフォワードニューラルネットワークから切り離され、アンザッツ関数を構築し、閉じた形で勾配を計算することができる。 このアプローチは、特に大規模力学系において、グラフベースの自動微分に依存するPINCと比較して、トレーニング時間を著しく短縮する。 さらに、DD-PINNは本質的に初期条件を満たし、高次励起入力をサポートし、トレーニングプロセスを簡素化し、予測精度を向上させる。 非線形マススプリングダンパー,5質量チェーン,2リンクロボットの3つのシステムに対する検証は,DD-PINNのトレーニング時間が大幅に短縮されたことを示す。 PINCの予測が分岐する場合、DD-PINNの予測は高い物理損失の低減や高次励起入力の使用により安定かつ正確である。 DD-PINNは、以前PINCに届かなかった大規模力学系の高速かつ正確な学習を可能にする。

Physics-informed neural networks (PINNs) are trained using physical equations and can also incorporate unmodeled effects by learning from data. PINNs for control (PINCs) of dynamical systems are gaining interest due to their prediction speed compared to classical numerical integration methods for nonlinear state-space models, making them suitable for real-time control applications. We introduce the domain-decoupled physics-informed neural network (DD-PINN) to address current limitations of PINC in handling large and complex nonlinear dynamical systems. The time domain is decoupled from the feed-forward neural network to construct an Ansatz function, allowing for calculation of gradients in closed form. This approach significantly reduces training times, especially for large dynamical systems, compared to PINC, which relies on graph-based automatic differentiation. Additionally, the DD-PINN inherently fulfills the initial condition and supports higher-order excitation inputs, simplifying the training process and enabling improved prediction accuracy. Validation on three systems - a nonlinear mass-spring-damper, a five-mass-chain, and a two-link robot - demonstrates that the DD-PINN achieves significantly shorter training times. In cases where the PINC's prediction diverges, the DD-PINN's prediction remains stable and accurate due to higher physics loss reduction or use of a higher-order excitation input. The DD-PINN allows for fast and accurate learning of large dynamical systems previously out of reach for the PINC.
翻訳日:2024-08-29 11:00:36 公開日:2024-08-28
# セマンティックな特徴融合誘導による多モード有向物体検出へのセグメンテーションモデルの適用

Adapting Segment Anything Model to Multi-modal Salient Object Detection with Semantic Feature Fusion Guidance ( http://arxiv.org/abs/2408.15063v2 )

ライセンス: Link先を確認
Kunpeng Wang, Danying Lin, Chenglong Li, Zhengzheng Tu, Bin Luo, (参考訳) 既存のSOD(Multi-modal Salient Object Detection)手法は、スクラッチからのトレーニングモデルによる有効性を示すが、制限されたマルチモーダルデータは、これらの手法が最適性に達することを妨げている。 本稿では,マルチモーダルSODのためのSAM(Pre-trained Segment Anything Model)の強力な特徴表現とゼロショット一般化能力を探求し,活用するための新しいフレームワークを提案する。 最近のビジョンの基本モデルとして機能しているにもかかわらず、特に難易度の高いシーンにおいて、クラスに依存しないSAMを正確に理解し、検出するために駆動するのは簡単ではない。 この目的のために,SODタスクにSAMを適応させるために,SODタスクに多モードサリエンシ固有の知識を組み込んだse\underline{m}antic f\underline{e}ature fu\underline{s}ion guidanc\underline{e} (Sammese) を用いた \underline{SAM} を開発した。 しかし,多モード入力の相補的な利点を直接マイニングし,それらを総合的に活用して正確な相補性予測を実現することは困難であり,これらの問題に対処するため,我々はまず,可視・熱・深度画像ペアから情報を統合することで,頑健な多モード意味的特徴を抽出する多モード相補的融合モジュールを設計する。 そして、抽出したマルチモーダルなセマンティック特徴をSAM画像エンコーダとマスクデコーダの両方に供給し、微調整とプロンプトを行う。 具体的には、画像エンコーダにおいて、シングルモーダルSAMをマルチモーダル情報に適応させるために、マルチモーダルアダプタを提案する。 マスクデコーダでは, 各種のサリエンシ・キューで対応する埋め込みを生成するために, セマンティック・ジオメトリ・プロンプト生成戦略を提案する。 RGB-D と RGB-T SOD のベンチマーク実験により,提案手法の有効性が示された。

Although most existing multi-modal salient object detection (SOD) methods demonstrate effectiveness through training models from scratch, the limited multi-modal data hinders these methods from reaching optimality. In this paper, we propose a novel framework to explore and exploit the powerful feature representation and zero-shot generalization ability of the pre-trained Segment Anything Model (SAM) for multi-modal SOD. Despite serving as a recent vision fundamental model, driving the class-agnostic SAM to comprehend and detect salient objects accurately is non-trivial, especially in challenging scenes. To this end, we develop \underline{SAM} with se\underline{m}antic f\underline{e}ature fu\underline{s}ion guidanc\underline{e} (Sammese), which incorporates multi-modal saliency-specific knowledge into SAM to adapt SAM to multi-modal SOD tasks. However, it is difficult for SAM trained on single-modal data to directly mine the complementary benefits of multi-modal inputs and comprehensively utilize them to achieve accurate saliency prediction.To address these issues, we first design a multi-modal complementary fusion module to extract robust multi-modal semantic features by integrating information from visible and thermal or depth image pairs. Then, we feed the extracted multi-modal semantic features into both the SAM image encoder and mask decoder for fine-tuning and prompting, respectively. Specifically, in the image encoder, a multi-modal adapter is proposed to adapt the single-modal SAM to multi-modal information. In the mask decoder, a semantic-geometric prompt generation strategy is proposed to produce corresponding embeddings with various saliency cues. Extensive experiments on both RGB-D and RGB-T SOD benchmarks show the effectiveness of the proposed framework.
翻訳日:2024-08-29 11:00:36 公開日:2024-08-28