このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231124となっている論文です。

PDF登録状況(公開日: 20231124)

TitleAuthorsAbstract論文公表日・翻訳日
# リアルタイムの定時待ち時間: エンドツーエンドで検証されたWeb向けゼロオーバーヘッドの定時プログラミング

Constant-Time Wasmtime, for Real This Time: End-to-End Verified Zero-Overhead Constant-Time Programming for the Web and Beyond ( http://arxiv.org/abs/2311.14246v1 )

ライセンス: Link先を確認
Garrett Gu, Hovav Shacham, (参考訳) コンパイラの最適化が一定時間を経過しても、一定の操作がハードウェア上で一定時間実行されないという仮定に依存しているため、定数時間コードの生成と検証のための既存の技術やツールが不完全である、と我々は主張する。 ARM PSTATE.DIT機能によって提供される,ハイレベル言語からマイクロアーキテクチャ保証まで,各ステップにおける定時セマンティクスを保存する最初のエンドツーエンドの定数時間対応コンパイルプロセスを提案する。 まず、JITスタイルのランタイムをベースとした新しいコンパイラ検証スイートであるWasmtimeを、WebAssemblyの型セーフな定数時間拡張であるct-wasmを、すべての最適化パスを通じて定数プロパティを維持しながらARMマシンコードにコンパイルするように修正した。 結果のマシンコードは、人間の介入を必要としない自動検証器に入力され、Ghidraの静的データフロー分析を使用して出力の一定時間をチェックする。 本検証では,音質と適用性の両方を保ちながら検証を高速化するために,ct-wasm生成符号に特有の特性を利用する。 また、Spectreのような投機的タイミングリークに対するコンパイルと検証の抵抗についても検討する。 最後に、ct-Wasmtimeを高いレベルで公開するために、既存の定時対応DSLである FaCT を ct-wasm に移植する。

We claim that existing techniques and tools for generating and verifying constant-time code are incomplete, since they rely on assumptions that compiler optimization passes do not break constant-timeness or that certain operations execute in constant time on the hardware. We present the first end-to-end constant-time-aware compilation process that preserves constant-time semantics at every step from a high-level language down to microarchitectural guarantees, provided by the forthcoming ARM PSTATE.DIT feature. First, we present a new compiler-verifier suite based on the JIT-style runtime Wasmtime, modified to compile ct-wasm, a preexisting type-safe constant-time extension of WebAssembly, into ARM machine code while maintaining the constant-time property throughout all optimization passes. The resulting machine code is then fed into an automated verifier that requires no human intervention and uses static dataflow analysis in Ghidra to check the constant-timeness of the output. Our verifier leverages characteristics unique to ct-wasm-generated code in order to speed up verification while preserving both soundness and wide applicability. We also consider the resistance of our compilation and verification against speculative timing leakages such as Spectre. Finally, in order to expose ct-Wasmtime at a high level, we present a port of FaCT, a preexisting constant-time-aware DSL, to target ct-wasm.
翻訳日:2024-03-25 13:16:38 公開日:2023-11-24
# 衛星マイストコンピューティングにおけるエネルギー効率のための距離限定タスクオーケストレーションアルゴリズム

Distance-Only Task Orchestration Algorithm for Energy Efficiency in Satellite-Based Mist Computing ( http://arxiv.org/abs/2311.14308v1 )

ライセンス: Link先を確認
Messaoud Babaghayou, Noureddine Chaib, Leandros Maglaras, Yagmur Yigit, Mohamed Amine Ferrag, (参考訳) 本稿では、地上のモバイルデバイスから衛星ベースのミストコンピューティング環境へ、重機のタスクを効率的にオフロードするという課題に対処する。 地上のエッジとクラウドサーバはアクセスできないことが多いため、衛星ミストコンピューティングの活用は不可欠である。 既存のオフロードアルゴリズムは、重コンピューティングタスクのユニークな特徴に適応する際の制限を示している。 そこで本稿では,衛星接近を優先する重計算タスクオフロードアルゴリズムを提案する。 このアプローチは、通信中のエネルギー消費を減らすだけでなく、通常非時間クリティカルな特定のタイミング制約の中でタスクが実行されることを保証する。 提案アルゴリズムは、衛星エネルギー消費、平均的なエンドツーエンド遅延、タスク成功率の観点から、他のオフロード方式よりも優れている。 平均的なVMCPU使用率を示すが、この増加は重大な問題にはならない。 この距離ベースのアプローチは、衛星ベースのミストコンピューティングにおけるエネルギー効率を高めるための有望なソリューションを提供する。

This paper addresses the challenge of efficiently offloading heavy computing tasks from ground mobile devices to the satellite-based mist computing environment. With ground-based edge and cloud servers often being inaccessible, the exploitation of satellite mist computing becomes imperative. Existing offloading algorithms have shown limitations in adapting to the unique characteristics of heavy computing tasks. Thus, we propose a heavy computing task offloading algorithm that prioritizes satellite proximity. This approach not only reduces energy consumption during telecommunications but also ensures tasks are executed within the specified timing constraints, which are typically non-time-critical. Our proposed algorithm outperforms other offloading schemes in terms of satellites energy consumption, average end-to-end delay, and tasks success rates. Although it exhibits a higher average VM CPU usage, this increase does not pose critical challenges. This distance-based approach offers a promising solution to enhance energy efficiency in satellite-based mist computing, making it well-suited for heavy computing tasks demands.
翻訳日:2024-03-25 13:16:38 公開日:2023-11-24
# クラウドにおけるアウトソーシングデータベースのための効率的なデータ統合検証による改良RSA技術」へのコメント

Comment on "Improved RSA Technique with Efficient Data Integrity Verification for Outsourcing Database in Cloud" ( http://arxiv.org/abs/2311.14499v1 )

ライセンス: Link先を確認
Chebrolu Deepak Kumar, Lilly Kumari Biswas, Srijanee Mookherji, Gowri Raghavendra Narayan Kurmala, Vanga Odelu, (参考訳) 2022年、NeelaとKavithaはクラウド環境のための改良されたRSA暗号化アルゴリズム(IREA)を提案した。 本稿では,IREA手法の正しさについてレビューし,コメントする。 提案したIREAにおける秘密鍵生成は数学的に誤りであることを示す。 つまり、公開鍵によって生成された暗号の復号化は秘密鍵では不可能である。 さらに,IREAにおける修正の可能性についても論じる。

In 2022, Neela and Kavitha proposed an improved RSA encryption algorithm (IREA) for cloud environment. In this paper, we review and comment on the correctness of the IREA technique. We prove that the private key generation in the proposed IREA is mathematical incorrect. That is, decryption of the cipher generated by the public key is not possible with the private key. Further, we discuss the possible modifications in IREA to make it correct decryption.
翻訳日:2024-03-25 13:06:53 公開日:2023-11-24
# AI技術によるマルウェア解析

Malware Analysis on AI Technique ( http://arxiv.org/abs/2311.14501v1 )

ライセンス: Link先を確認
Amjani Gupta, Dr. Karan Singh, (参考訳) 今日の世界では、インターネット、すなわちオンライン支払い、データ転送などを通じて1日あたり最大作業を行っています。 何千人ものユーザーが接続している。 ですから,ユーザへのセキュリティの提供は不可欠です。 悪意のあるオブジェクトが永続化され、組織内で破壊されるのを検知し、防止する必要がある。 したがって、システムを確保するためには、マルウェア分析が必要である。 これにより、OSマルウェアの検出に効率的かつ効率的なアプローチが必要とされる。 技術コストの安いため、人工知能はマルウェアを解析するプロジェクトでの実装も困難になってきている。 本稿では,各種AI分析技術を用いたOS上のマルウェアの分類と解析について詳述する。

In today's world, we are performing our maximum work through the Internet, i.e., online payment, data transfer, etc., per day. More than thousands of users are connecting. So, it's essential to provide security to the user. It is necessary to detect and prevent malicious object from gaining persistence and causing destruction within the organization. Therefore, Malware analysis is needed in order to secure the system. This necessitates the use of effective and efficient approaches for detecting OS malware. Due to the cheap cost of technology, artificial intelligence has also become less difficult to implement in projects to analyse malware. The categorization and analysis of malware on OS using various AI-based analysis techniques are covered in detail in this paper.
翻訳日:2024-03-25 13:06:53 公開日:2023-11-24
# MABFuzz: ファジィプロセッサのためのマルチArmed Banditアルゴリズム

MABFuzz: Multi-Armed Bandit Algorithms for Fuzzing Processors ( http://arxiv.org/abs/2311.14594v1 )

ライセンス: Link先を確認
Vasudev Gohil, Rahul Kande, Chen Chen, Ahmad-Reza Sadeghi, Jeyavijayan Rajendran, (参考訳) プロセッサの複雑さが増大するにつれて、その完全性とセキュリティを効果的に検証するタスクは、ますます恐ろしいものになっています。 命令の複雑なウェブ、マイクロアーキテクチャの特徴、そして現代的なプロセッサに織り込まれた相互依存は、最も厳格な検証とセキュリティエンジニアでさえも、非常に困難な課題である。 この懸念に対処するため、近年、研究者らはハードウェアプロセッサ用に明確に調整されたファジィ技術を開発した。 しかし、これらのハードウェアファジィザの大きな問題は、アルゴリズムで決定を下すための静的戦略に大きく依存していることだ。 この問題に対処するため,我々は,マルチアームバンディット(MAB)アルゴリズムをファズプロセッサに適用した,動的かつ適応的な意思決定フレームワークMABFuzzを開発した。 MABFuzzは既存のハードウェアファズーに非依存であり、従って既存のハードウェアファズーに適用できる。 MABFuzzの設計過程において,MABアルゴリズムのファジィとの互換性とファジィ化の有効性の最大化に関する課題に遭遇する。 我々は、ハードウェアファジィングの特別な要件を満たすためにファジィングプロセスを変更し、MABアルゴリズムを調整することで、これらの課題を克服する。 3つのMABアルゴリズムを最先端のハードウェアファザに統合し,RISC-Vベースのプロセッサ上で評価する。 実験により、MABFuzzはプロセッサの複雑な景観の範囲を広くカバーし、顕著な効率でそれを行うことができることを示した。 特に、MABFuzzは脆弱性の検出において最大308倍のスピードアップを達成し、最先端技術と比較してカバー範囲を最大5倍のスピードアップを達成する。

As the complexities of processors keep increasing, the task of effectively verifying their integrity and security becomes ever more daunting. The intricate web of instructions, microarchitectural features, and interdependencies woven into modern processors pose a formidable challenge for even the most diligent verification and security engineers. To tackle this growing concern, recently, researchers have developed fuzzing techniques explicitly tailored for hardware processors. However, a prevailing issue with these hardware fuzzers is their heavy reliance on static strategies to make decisions in their algorithms. To address this problem, we develop a novel dynamic and adaptive decision-making framework, MABFuzz, that uses multi-armed bandit (MAB) algorithms to fuzz processors. MABFuzz is agnostic to, and hence, applicable to, any existing hardware fuzzer. In the process of designing MABFuzz, we encounter challenges related to the compatibility of MAB algorithms with fuzzers and maximizing their efficacy for fuzzing. We overcome these challenges by modifying the fuzzing process and tailoring MAB algorithms to accommodate special requirements for hardware fuzzing. We integrate three widely used MAB algorithms in a state-of-the-art hardware fuzzer and evaluate them on three popular RISC-V-based processors. Experimental results demonstrate the ability of MABFuzz to cover a broader spectrum of processors' intricate landscapes and doing so with remarkable efficiency. In particular, MABFuzz achieves up to 308x speedup in detecting vulnerabilities and up to 5x speedup in achieving coverage compared to a state-of-the-art technique.
翻訳日:2024-03-25 13:06:53 公開日:2023-11-24
# CryptoRAN: 暗号通貨のハッキングとランサムウェア攻撃に関するレビュー - 銀行業界 -- 脅威、課題、問題

cryptoRAN: A review on cryptojacking and ransomware attacks w.r.t. banking industry -- threats, challenges, & problems ( http://arxiv.org/abs/2311.14783v1 )

ライセンス: Link先を確認
Naresh Kshetri, Mir Mehedi Rahman, Sayed Abu Sayeed, Irin Sultana, (参考訳) 銀行業界では、ランサムウェアはよく知られた脅威だが、2022年の初めに暗号通貨のハッキングが始まって以来、銀行業界にとって深刻な脅威となっている。 ランサムウェアには変種があり、攻撃者はこれらの変種の性質を変え続けている。 本稿では、これら2つの脅威の複雑な背景を考察し、銀行業界と金融機関が直面する課題と課題について精査する。 これらの脅威は本質的には異なるが、財政的動機や洗練された技術といった共通点を共有している。 我々はランサムウェアの出現した変種を調べることに集中し、暗号ジャッキングとその性質に関する包括的アイデアを提供する。 本稿では,暗号鍵やランサムウェアによって引き起こされる特定の脅威を詳細に概説する。 それは、サイバー犯罪者が使用するテクニック、彼らが求めている多様性、そして金融機関とその顧客にとっての潜在的影響を探求する。 また、サイバー犯罪者がセキュリティのアップグレード後にどのように技術を変えるのか、また、銀行などの金融機関がサイバー脅威に対して積極的に対応する必要があるのかについても調べる。 さらに,本稿では,既存の論文の背景研究をレビューし,解決すべき研究のギャップを見いだし,結論や今後の議論の範囲について提案する。 最後に,銀行業界における暗号解読とランサムウェア攻撃の最小化を目的とした,最新のサイバー脅威追跡プロセスに対するDigital Forensics and Incident Response(DFIR)アプローチを紹介する。

In the banking industry, ransomware is a well-known threat, but since the beginning of 2022, cryptojacking, an emerging threat is posing a considerable challenge to the banking industry. Ransomware has variants, and the attackers keep changing the nature of these variants. This review paper studies the complex background of these two threats and scrutinizes the actual challenges, and problems that the banking industry and financial institutions face. These threats, though distinct in nature, share commonalities, such as financial motivations and sophisticated techniques. We focus on examining the newly emerged variants of ransomware while we provide a comprehensive idea of cryptojacking and its nature. This paper involves a detailed breakdown of the specific threats posed by cryptojacking and ransomware. It explores the techniques cybercriminals use, the variabilities they look for, and the potential consequences for financial institutions and their customers. This paper also finds out how cybercriminals change their techniques following the security upgrades, and why financial firms including banks need to be proactive about cyber threats. Additionally, this paper reviews the background study of some existing papers, finds the research gaps that need to be addressed, and provides suggestions including a conclusion and future scope on those disputes. Lastly, we introduce a Digital Forensics and Incident Response (DFIR) approach for up-to-date cyber threat hunting processes for minimizing both cryptojacking and ransomware attacks in the banking industry.
翻訳日:2024-03-25 13:06:53 公開日:2023-11-24
# タンパーエビデントペアリング

Tamper-Evident Pairing ( http://arxiv.org/abs/2311.14790v1 )

ライセンス: Link先を確認
Aleksandar Manev, (参考訳) ワイヤレスデバイス間のセキュアな接続を確立することは、市場に出るWi-Fi製品の数が増えるにつれ、非常に重要になっている。 容易でセキュアなペアリング標準を提供するため、Wi-Fi AllianceはWi-Fi Protected Setupを設計した。 Push-Button Configuration (PBC)はこの標準の一部であり、特に物理的制限のあるデバイスをペアリングするのに有用である。 しかし、PBCはMITM(man-in-the-middle)攻撃に弱いことが証明されている。 Tamper-Evident Pairing (TEP)はPBC標準の改良であり、PBCの有用性を損なうことなく、MITM脆弱性を修正することを目的としている。 Tamper-Evident Announcement (TEA) は、相手が検出されずに送信されたメッセージを改ざんしたり、メッセージが送信された事実を隠蔽したりすることを保証している。 TEPのセキュリティ特性は、著者によって手作業で証明され、UppaalとSpinモデルチェッカーでテストされた。 Uppaalモデルチェックの間、脆弱性は見つからなかった。 しかし、スピンモデルは、TEPのセキュリティが保証されていないケースを明らかにした。 本稿ではまず,TEPプロトコルの概要を概観し,その動作を理解するために必要なすべての情報について述べる。 さらに、その上で行われたセキュリティチェックを要約し、MITM攻撃に抵抗しない状況を与え、最初のモデルでそれらが明らかにできない理由を説明する。 それでも、将来的な作業は、業界に導入する前に、TEPのセキュリティの完全な確実性を得るために必要である。

Establishing a secure connection between wireless devices has become significantly important with the increasing number of Wi-Fi products coming to the market. In order to provide an easy and secure pairing standard, the Wi-Fi Alliance has designed the Wi-Fi Protected Setup. Push-Button Configuration (PBC) is part of this standard and is especially useful for pairing devices with physical limitations. However, PBC is proven to be vulnerable to man-in-the-middle (MITM) attacks. Tamper-Evident Pairing (TEP) is an improvement of the PBC standard, which aims to fix the MITM vulnerability without interfering the useful properties of PBC. It relies on the Tamper-Evident Announcement (TEA), which guarantees that an adversary can neither tamper a transmitted message without being detected, nor hide the fact that the message has been sent. The security properties of TEP were proven manually by its authors and tested with the Uppaal and Spin model checkers. During the Uppaal model checking, no vulnerabilities were found. However, the Spin model revealed a case, in which the TEP's security is not guaranteed. In this paper, we first provide a comprehensive overview of the TEP protocol, including all information needed to understand how it works. Furthermore, we summarize the security checks performed on it, give the circumstances, under which it is no longer resistant to MITM attacks and explain the reasons why they could not be revealed with the first model. Nevertheless, future work is required to gain full certainty of the TEP's security before applying it in the industry.
翻訳日:2024-03-25 13:06:53 公開日:2023-11-24
# 最適レート線形同型秘密共有スキームのキャラクタリゼーションとその応用

A Characterization of Optimal-Rate Linear Homomorphic Secret Sharing Schemes, and Applications ( http://arxiv.org/abs/2311.14842v1 )

ライセンス: Link先を確認
Keller Blackwell, Mary Wootters, (参考訳) HSS(Hymomorphic Secret Sharing)スキームは、秘密共有スキームで、$s$サーバ間で秘密の$x$を共有し、出力クライアントが各サーバでローカルに計算できる情報を使用して、ある関数$f(x)$を再構築することを可能にする。 HSSスキームにおける重要なパラメータはダウンロード率であり、各サーバから出力クライアントがダウンロードする必要がある情報の量を測定する。 最近の研究 (Fosli, Ishai, Kolobov, Wootters, ITCS 2022) は、低次多項式を計算するための線形 HSS スキームのダウンロード率に関する基本的な制限を確立し、この制限を満たす HSS スキームの例を示した。 本稿では,多項式に対する最適レート線形 HSS スキームについて検討する。 我々の主な成果は、最適ラベル重み付き符号を導入した符号化理論の概念の観点から、そのようなスキームの完全な特徴付けである。 最適なダウンロード率を実現するHSSスキームで要求される償却に関するオープンな疑問に答えるために,この特徴を用いる。 より詳しくは、Fosli et al の構成は、問題の$\ell$インスタンスに対する償却を必要とし、$\ell$の特定の値に対してのみ機能する。 おそらく驚くべきことに、その建設作業がほぼ最適である$\ell$のセットが、おそらく1つの追加の$\ell$だけを残していることを示している。 符号化理論を用いて、最適レート線形 HSS スキームを許容する$\ell$ の条件を証明する。 次に、最適レート線形 HSS スキームをわずかに改善し、許容可能な$\ell$'s の集合がさらにパラメータ設定で最適となるようにします。 さらに、MDS予想の関連性に基づき、我々の構成は全てのパラメーターレジームに対して最適であると予想する。

A Homomorphic Secret Sharing (HSS) scheme is a secret-sharing scheme that shares a secret $x$ among $s$ servers, and additionally allows an output client to reconstruct some function $f(x)$, using information that can be locally computed by each server. A key parameter in HSS schemes is download rate, which quantifies how much information the output client needs to download from each server. Recent work (Fosli, Ishai, Kolobov, and Wootters, ITCS 2022) established a fundamental limitation on the download rate of linear HSS schemes for computing low-degree polynomials, and gave an example of HSS schemes that meet this limit. In this paper, we further explore optimal-rate linear HSS schemes for polynomials. Our main result is a complete characterization of such schemes, in terms of a coding-theoretic notion that we introduce, termed optimal labelweight codes. We use this characterization to answer open questions about the amortization required by HSS schemes that achieve optimal download rate. In more detail, the construction of Fosli et al. required amortization over $\ell$ instances of the problem, and only worked for particular values of $\ell$. We show that -- perhaps surprisingly -- the set of $\ell$'s for which their construction works is in fact nearly optimal, possibly leaving out only one additional value of $\ell$. We show this by using our coding-theoretic characterization to prove a necessary condition on the $\ell$'s admitting optimal-rate linear HSS schemes. We then provide a slightly improved construction of optimal-rate linear HSS schemes, where the set of allowable $\ell$'s is optimal in even more parameter settings. Moreover, based on a connection to the MDS conjecture, we conjecture that our construction is optimal for all parameter regimes.
翻訳日:2024-03-25 13:06:53 公開日:2023-11-24
# ポスト量子コンピューティング時代の軽量公開鍵暗号

Lightweight Public Key Encryption in Post-Quantum Computing Era ( http://arxiv.org/abs/2311.14845v1 )

ライセンス: Link先を確認
Peter Hillmann, (参考訳) デジタル世界での信頼度は、暗号アルゴリズムのセキュリティに基づいています。 これらは通常、バックグラウンドで透過的に実行され、人々はしばしばそれ以上の知識を使わずにそれらを頼りにします。 量子コンピュータの技術進歩の過程で、共通暗号化アルゴリズムの保護機能が脅かされている。 これは離散対数と素因数分解に基づくRSAやDHのような公開鍵法に特に影響を及ぼす。 我々の概念は、古典的非対称暗号法の現代複雑性クラスへの変換を記述している。 これにより、クレイマー・シャップのアプローチは楕円曲線の新しい基礎の上に置かれる。 このシステムは暗号的に強力であり、特に適応的な選択暗号攻撃に対して強力である。 さらに,新しい手法ではキー長が小さく,インターネット・オブ・Thingsに適している。 これは等質楕円曲線に基づく暗号スキームへの中間段階を表す。 このアプローチは、ポスト量子コンピューティング時代のセキュアな暗号化スキームへの道を示す。

Confidentiality in our digital world is based on the security of cryptographic algorithms. These are usually executed transparently in the background, with people often relying on them without further knowledge. In the course of technological progress with quantum computers, the protective function of common encryption algorithms is threatened. This particularly affects public-key methods such as RSA and DH based on discrete logarithms and prime factorization. Our concept describes the transformation of a classical asymmetric encryption method to a modern complexity class. Thereby the approach of Cramer-Shoup is put on the new basis of elliptic curves. The system is provable cryptographically strong, especially against adaptive chosen-ciphertext attacks. In addition, the new method features small key lengths, making it suitable for Internet-of-Things. It represents an intermediate step towards an encryption scheme based on isogeny elliptic curves. This approach shows a way to a secure encryption scheme for the post-quantum computing era.
翻訳日:2024-03-25 13:06:53 公開日:2023-11-24
# 認知技術と説得原理による大規模言語モデル(LLM)の爆発

Exploiting Large Language Models (LLMs) through Deception Techniques and Persuasion Principles ( http://arxiv.org/abs/2311.14876v1 )

ライセンス: Link先を確認
Sonali Singh, Faranak Abri, Akbar Siami Namin, (参考訳) OpenAIのChatGPT、GoogleのBARD、MetaのLlama2、Arthropic AIのClaudeといった最近のLarge Language Models(LLMs)が登場し、広く利用されている。 これらの言語モデルの普及は、この魅力的な技術の信頼性と適切な利用に大きく依存している。 これらのモデルを徹底的にテストすることは、その品質を保証するだけでなく、ハッキングなどの違法な行為に対する潜在的な敵による、そのようなモデルの誤用も可能とする上で重要である。 本稿では,このような大規模言語モデルによる知覚的相互作用に対する活用に焦点を当てた新しい研究を提案する。 より具体的には、この論文は広く活用され、騙し理論のよく知られたテクニックを借りて、これらのモデルが騙し行為に感受性があるかどうかを調査する。 本研究の目的は、これらのリスクを強調するだけでなく、高度な社会工学的戦術に直面した言語モデルのセキュリティと整合性を高める堅牢な対策の道を開くことである。 系統的な実験と分析を通じて、これらの重要なセキュリティ領域におけるそれらの性能を評価する。 以上の結果から,これらの大規模言語モデルが詐欺や社会工学的攻撃の影響を受けやすいことが示唆された。

With the recent advent of Large Language Models (LLMs), such as ChatGPT from OpenAI, BARD from Google, Llama2 from Meta, and Claude from Anthropic AI, gain widespread use, ensuring their security and robustness is critical. The widespread use of these language models heavily relies on their reliability and proper usage of this fascinating technology. It is crucial to thoroughly test these models to not only ensure its quality but also possible misuses of such models by potential adversaries for illegal activities such as hacking. This paper presents a novel study focusing on exploitation of such large language models against deceptive interactions. More specifically, the paper leverages widespread and borrows well-known techniques in deception theory to investigate whether these models are susceptible to deceitful interactions. This research aims not only to highlight these risks but also to pave the way for robust countermeasures that enhance the security and integrity of language models in the face of sophisticated social engineering tactics. Through systematic experiments and analysis, we assess their performance in these critical security domains. Our results demonstrate a significant finding in that these large language models are susceptible to deception and social engineering attacks.
翻訳日:2024-03-25 13:06:53 公開日:2023-11-24
# IOTAタングルを利用した新しいDID手法とそのOpenSSLへの統合

A Novel DID Method Leveraging the IOTA Tangle and its Integration into OpenSSL ( http://arxiv.org/abs/2310.01087v2 )

ライセンス: Link先を確認
Alessio Claudio, Andrea Vesco, (参考訳) 本稿では,Over-The-Tangle(Over-The-Tangle)と呼ばれる新しい分散識別器(DID)手法を初めて提示し,IOTAトライアングルを識別データのルート・オブ・トラストとして活用する設計と動作原理について考察する。 実世界の環境での長期間の実験的なテストキャンペーンの結果は、効率的なDID制御のためにメインネット上のIOTA Tangleと同期したプライベートゲートウェイノードの採用が示唆されている。 さらに,プロバイダの利用を通じて,DID技術のOpenSSLへの統合を促進する。 新しいDIDオペレーションとプロバイダは、OpenSSLでDIDメソッドのアジリティを構築するソリューションとして提示される。

This paper presents, for the first time, a novel Decentralized IDentifier (DID) Method called Over-The-Tangle and discusses its design and working principles that leverage the IOTA Tangle as the Root-of-Trust for identity data. The results of a long lasting experimental test campaign in real-world settings suggests the adoption of a private gateway node synchronised with the IOTA Tangle on the mainnet for efficient DID control. Moreover, the paper promotes the integration of the DID technology into OpenSSL through the use of Providers. A novel DID Operation and Provider is presented as a solution for building DID Method agility in OpenSSL.
翻訳日:2024-03-19 03:31:41 公開日:2023-11-24
# 非コントラストctによる小型腎癌の自動検出

Automated Small Kidney Cancer Detection in Non-Contrast Computed Tomography ( http://arxiv.org/abs/2312.05258v1 )

ライセンス: Link先を確認
William McGough, Thomas Buddenkotte, Stephan Ursprung, Zeyu Gao, Grant Stewart, Mireia Crispin-Ortuzar(参考訳) 本研究は,非コントラストct(non-contrast ct,ncct)における腎癌自動検出パイプラインを提案する。 パイプラインの開発において, 形状モデル, 2次元モデル, 3次元軸-試料モデルという3つの検出モデルをテストした。 オープンソース(KiTS23, Abdomen1k, CT-ORG)とケンブリッジ大学病院(CUH)から, トレーニング (n=1348), テスト (n=64) データを収集した。 クロスバリデーションと試験の結果,2次元軸方向の試料モデルが最も小さい(直径40mm)rc検出面積が0.804。 我々のパイプラインは、未確認試験データに基づいて、小腎癌の感度61.9\%、特異92.7\%を達成する。 この結果はNCCTで腎小癌を自動的に検出する以前の試みよりもはるかに正確で、RC検診のモダリティが最も高い可能性が高い。 このパイプラインは、腎臓がんのスクリーニングを可能にする有望な進歩を提供する。

This study introduces an automated pipeline for renal cancer (RC) detection in non-contrast computed tomography (NCCT). In the development of our pipeline, we test three detections models: a shape model, a 2D-, and a 3D axial-sample model. Training (n=1348) and testing (n=64) data were gathered from open sources (KiTS23, Abdomen1k, CT-ORG) and Cambridge University Hospital (CUH). Results from cross-validation and testing revealed that the 2D axial sample model had the highest small ($\leq$40mm diameter) RC detection area under the curve (AUC) of 0.804. Our pipeline achieves 61.9\% sensitivity and 92.7\% specificity for small kidney cancers on unseen test data. Our results are much more accurate than previous attempts to automatically detect small renal cancers in NCCT, the most likely imaging modality for RC screening. This pipeline offers a promising advance that may enable screening for kidney cancers.
翻訳日:2024-01-15 15:00:46 公開日:2023-11-24
# 深層学習型水泳モニタリングと術後回復バイオセンシングシステム

Deep Learning-Enabled Swallowing Monitoring and Postoperative Recovery Biosensing System ( http://arxiv.org/abs/2312.09429v1 )

ライセンス: Link先を確認
Chih-Ning Tsai, Pei-Wen Yang, Tzu-Yen Huang, Jung-Chih Chen, Hsin-Yi Tseng, Che-Wei Wu, Amrit Sarmah and Tzu-En Lin(参考訳) 本研究は, バイオセンシング用3dプリントドライ電極の術後回復シナリオについて紹介する。 液滴コーティング工程を経て作製された電極は、新規な2d材料を組み込む。

This study introduces an innovative 3D printed dry electrode tailored for biosensing in postoperative recovery scenarios. Fabricated through a drop coating process, the electrode incorporates a novel 2D material.
翻訳日:2024-01-15 14:24:45 公開日:2023-11-24
# 初期種子ベクトルへの合成シフトは潜在拡散モデルの脆性特性を表わす

Synthetic Shifts to Initial Seed Vector Exposes the Brittle Nature of Latent-Based Diffusion Models ( http://arxiv.org/abs/2312.11473v1 )

ライセンス: Link先を確認
Mao Po-Yuan, Shashank Kotyan, Tham Yik Foong, Danilo Vasconcellos Vargas(参考訳) 条件拡散モデルの最近の進歩は、様々な領域でかなりの能力をもたらしている。 しかし、初期種ベクトルにおける変異の影響を理解することは、まだ未解明領域である。 特に、潜伏ベースの拡散モデルは、準最適初期シードベクトルで初期化した場合の標準条件下での画像生成の不整合を示す。 初期シードベクトルが生成サンプルに与える影響を理解するために,初期シードベクトルが様々な合成シフトを受ける際に生成した拡散モデルのサンプルを評価する信頼性評価フレームワークを提案する。 以上の結果から,安定拡散状態(rombach et al., 2022)の初期シードベクトルに対するわずかな操作は,生成試料の大幅な乱れを生じさせ,コンディショニング変数の影響を伴わない画像生成につながることが示唆された。 対照的に、GLIDE(Nichol et al., 2022)は、初期シードベクターが変換された場合でも、信頼性の高いサンプルの生成において際立っている。 そこで本研究では,潜伏型拡散モデルにおける初期種子ベクトルの選択と影響の重要性について考察した。

Recent advances in Conditional Diffusion Models have led to substantial capabilities in various domains. However, understanding the impact of variations in the initial seed vector remains an underexplored area of concern. Particularly, latent-based diffusion models display inconsistencies in image generation under standard conditions when initialized with suboptimal initial seed vectors. To understand the impact of the initial seed vector on generated samples, we propose a reliability evaluation framework that evaluates the generated samples of a diffusion model when the initial seed vector is subjected to various synthetic shifts. Our results indicate that slight manipulations to the initial seed vector of the state-of-the-art Stable Diffusion (Rombach et al., 2022) can lead to significant disturbances in the generated samples, consequently creating images without the effect of conditioning variables. In contrast, GLIDE (Nichol et al., 2022) stands out in generating reliable samples even when the initial seed vector is transformed. Thus, our study sheds light on the importance of the selection and the impact of the initial seed vector in the latent-based diffusion model.
翻訳日:2024-01-15 13:36:29 公開日:2023-11-24
# aiのリーダーは誰か? 産業AI研究の分析

Who is leading in AI? An analysis of industry AI research ( http://arxiv.org/abs/2312.00043v1 )

ライセンス: Link先を確認
Ben Cottier, Tamay Besiroglu, David Owen(参考訳) AI研究はますます業界主導になり、この分野への企業の貢献を理解することが重要である。 私たちは、研究出版物、引用、トレーニング実行のサイズ、アルゴリズムイノベーションへの貢献によって、主要なAI企業を比較します。 私たちの分析では、Google、OpenAI、Metaが果たす重要な役割を明らかにしています。 これら3つの企業が,最大のトレーニング実行の責任を負い,大規模な言語モデルを支えるアルゴリズム上のイノベーションの大部分が開発され,さまざまな引用の影響指標が導かれていることが分かりました。 これとは対照的に、TencentやBaiduといった中国の大手企業は、米国の指標に比べて、これらの指標の多くに低い影響を与えている。 多くの業界研究所が大規模なトレーニングを実施しており、OpenAIやAnthhropicといった比較的新しい企業からのトレーニングが、Googleのような長年の既存企業と一致したり、超えたりしています。 このデータは、aiの進歩を管理する企業の多様なエコシステムを明らかにするものだが、google、openai、meta leadなどの米国研究所は重要なメトリクスを横断している。

AI research is increasingly industry-driven, making it crucial to understand company contributions to this field. We compare leading AI companies by research publications, citations, size of training runs, and contributions to algorithmic innovations. Our analysis reveals the substantial role played by Google, OpenAI and Meta. We find that these three companies have been responsible for some of the largest training runs, developed a large fraction of the algorithmic innovations that underpin large language models, and led in various metrics of citation impact. In contrast, leading Chinese companies such as Tencent and Baidu had a lower impact on many of these metrics compared to US counterparts. We observe many industry labs are pursuing large training runs, and that training runs from relative newcomers -- such as OpenAI and Anthropic -- have matched or surpassed those of long-standing incumbents such as Google. The data reveals a diverse ecosystem of companies steering AI progress, though US labs such as Google, OpenAI and Meta lead across critical metrics.
翻訳日:2023-12-11 03:59:12 公開日:2023-11-24
# DeepTreeGANv2: ポイントクラウドの反復プール

DeepTreeGANv2: Iterative Pooling of Point Clouds ( http://arxiv.org/abs/2312.00042v1 )

ライセンス: Link先を確認
Moritz Alfons Wilhelm Scham and Dirk Kr\"ucker and Kerstin Borras(参考訳) 高エネルギー物理学では、詳細かつ時間のかかるシミュレーションが検出器との粒子相互作用に使用される。 これらのシミュレーションを生成モデルで回避するには、粒子間の複雑な依存関係を正しくモデル化する必要があるが、短時間で大きな点雲を生成する必要がある。 粒子シャワーは本質的に木に基づくプロセスであり、各粒子は前世代の粒子の崩壊または検出器相互作用によって生成される。 本稿では,これらの点群を木ベースで反復的に集約することが可能な,批評家を特徴とするdeeptreeganの拡張について述べる。 本稿では,このモデルが複雑な分布を再現できることを示し,JetNet 150データセットの性能評価を行った。

In High Energy Physics, detailed and time-consuming simulations are used for particle interactions with detectors. To bypass these simulations with a generative model, the generation of large point clouds in a short time is required, while the complex dependencies between the particles must be correctly modelled. Particle showers are inherently tree-based processes, as each particle is produced by the decay or detector interaction of a particle of the previous generation. In this work, we present a significant extension to DeepTreeGAN, featuring a critic, that is able to aggregate such point clouds iteratively in a tree-based manner. We show that this model can reproduce complex distributions, and we evaluate its performance on the public JetNet 150 dataset.
翻訳日:2023-12-11 03:58:52 公開日:2023-11-24
# 大規模言語モデルを用いたオンラインテキストからの問題解決信号の自動検出

Automatic detection of problem-gambling signs from online texts using large language models ( http://arxiv.org/abs/2312.00804v1 )

ライセンス: Link先を確認
Elke Smith, Nils Reiter, Jan Peters(参考訳) 問題ギャンブルは公衆衛生の重要な関心事であり、深刻な心理的苦痛や経済問題と関連している。 インターネット上には、ゲーム、ギャンブル戦術、およびギャンブル関連の問題に関する情報を交換する多くのギャンブルコミュニティがある。 より高いレベルの問題ギャンブルを示す個人は、そのようなコミュニティにより関与する。 オンラインギャンブルコミュニティは、問題解決行動に関する洞察を提供するかもしれない。 ドイツの大手ギャンブル掲示板から収集したデータを用いて,大規模な言語モデル,特にトランスフォーマー(bert)モデルからの双方向エンコーダ表現を微調整し,フォーラム投稿から問題ギャンブルの兆候を予測する。 トレーニングデータは手動のアノテーションによって生成され,診断基準とギャンブル関連認知歪みを考慮した。 k-foldクロスバリデーションを用いて精度0.95とF1スコア0.71を達成し、診断基準に基づく手作業による高品質なトレーニング材料の生成により、良好な分類性能が得られることを示した。 本研究は,BERTベースのモデルを小データセットで確実に利用し,オンライン通信データにおける問題ギャンブルのシグネチャを検出することを確認する。 このような計算手法は、オンライン利用者の問題解決率の変化を検出する可能性がある。

Problem gambling is a major public health concern and is associated with profound psychological distress and economic problems. There are numerous gambling communities on the internet where users exchange information about games, gambling tactics, as well as gambling-related problems. Individuals exhibiting higher levels of problem gambling engage more in such communities. Online gambling communities may provide insights into problem-gambling behaviour. Using data scraped from a major German gambling discussion board, we fine-tuned a large language model, specifically a Bidirectional Encoder Representations from Transformers (BERT) model, to predict signs of problem-gambling from forum posts. Training data were generated by manual annotation and by taking into account diagnostic criteria and gambling-related cognitive distortions. Using k-fold cross-validation, our models achieved a precision of 0.95 and F1 score of 0.71, demonstrating that satisfactory classification performance can be achieved by generating high-quality training material through manual annotation based on diagnostic criteria. The current study confirms that a BERT-based model can be reliably used on small data sets and to detect signatures of problem gambling in online communication data. Such computational approaches may have potential for the detection of changes in problem-gambling prevalence among online users.
翻訳日:2023-12-11 03:46:48 公開日:2023-11-24
# インセプションCaps:データ・スカース環境のための高性能緑内障分類モデル

InceptionCaps: A Performant Glaucoma Classification Model for Data-scarce Environment ( http://arxiv.org/abs/2312.00803v1 )

ライセンス: Link先を確認
Gyanendar Manohar, Ruairi O'Reilly(参考訳) 緑内障は不可逆眼疾患であり、世界第2位の視覚障害の原因である。 視力の低下と無症候性疾患の診断は困難である。 早期発見は不可逆的な盲目を防ぐのに不可欠である。 眼科医は主に非侵襲的スクリーニング法として網膜基底像を使用する。 畳み込みニューラルネットワーク(CNN)は医療画像の分類において高い精度を示している。 しかし、CNNの翻訳不変性とオブジェクト間の部分的関係を扱えないことは、学習に多数のラベル付き画像を必要とするため、その直接的な適用に適さない。 本研究は,インセプションv3を畳み込みベースとする新しいカプセルネットワーク(capsnet)ベースの深層学習モデルであるinceptioncapsを自動緑内障分類のために提案する。 InceptionCapsは0.956、特異性0.96、AUC0.9556を達成し、RIM-ONE v2データセット上での最先端のディープラーニングモデルのパフォーマンスを上回った。 その結果,提案する深層学習モデルのロバスト性が示された。

Glaucoma is an irreversible ocular disease and is the second leading cause of visual disability worldwide. Slow vision loss and the asymptomatic nature of the disease make its diagnosis challenging. Early detection is crucial for preventing irreversible blindness. Ophthalmologists primarily use retinal fundus images as a non-invasive screening method. Convolutional neural networks (CNN) have demonstrated high accuracy in the classification of medical images. Nevertheless, CNN's translation-invariant nature and inability to handle the part-whole relationship between objects make its direct application unsuitable for glaucomatous fundus image classification, as it requires a large number of labelled images for training. This work reviews existing state of the art models and proposes InceptionCaps, a novel capsule network (CapsNet) based deep learning model having pre-trained InceptionV3 as its convolution base, for automatic glaucoma classification. InceptionCaps achieved an accuracy of 0.956, specificity of 0.96, and AUC of 0.9556, which surpasses several state-of-the-art deep learning model performances on the RIM-ONE v2 dataset. The obtained result demonstrates the robustness of the proposed deep learning model.
翻訳日:2023-12-11 03:46:27 公開日:2023-11-24
# MIMOビーム管理のための階層型MLコードブックの設計

Hierarchical ML Codebook Design for Extreme MIMO Beam Management ( http://arxiv.org/abs/2312.02178v1 )

ライセンス: Link先を確認
Ryan M. Dreifuerst and Robert W. Heath Jr(参考訳) ビーム管理は、ビームフォーミングとチャネル状態情報(CSI)を5Gで大きなアンテナアレイで取得する戦略である。 コードブックは、ビームフォーミング参照信号、CSIレポート、アナログビームトレーニングなど、ビーム管理に多用されている。 本稿では,大規模マルチインプットマルチアウトプット(X-MIMO)システムを対象とした,機械学習によるコードブック設計プロセスの提案と評価を行う。 本稿では,ビーム空間表現からエンドツーエンド学習を用いた初期アクセスおよび改良コードブックを設計するために,ニューラルネットワークとビーム選択戦略を提案する。 Extreme-Beam Management (X-BM)と呼ばれるこのアルゴリズムは、6G用に想定される非常に大きなアレイの性能を大幅に向上させ、リアルなワイヤレスおよび物理層を捉える。 その結果,従来のコードブック法と比較して,初期アクセスの8dB改善と総合的なスペクトル効率の改善が見られた。

Beam management is a strategy to unify beamforming and channel state information (CSI) acquisition with large antenna arrays in 5G. Codebooks serve multiple uses in beam management including beamforming reference signals, CSI reporting, and analog beam training. In this paper, we propose and evaluate a machine learning-refined codebook design process for extremely large multiple-input multiple-output (X-MIMO) systems. We propose a neural network and beam selection strategy to design the initial access and refinement codebooks using end-to-end learning from beamspace representations. The algorithm, called Extreme-Beam Management (X-BM), can significantly improve the performance of extremely large arrays as envisioned for 6G and capture realistic wireless and physical layer aspects. Our results show an 8dB improvement in initial access and overall effective spectral efficiency improvements compared to traditional codebook methods.
翻訳日:2023-12-11 03:33:45 公開日:2023-11-24
# 性別推定:チャットGPTは一般的な商用ツールより優れているか?

Gender inference: can chatGPT outperform common commercial tools? ( http://arxiv.org/abs/2312.00805v1 )

ライセンス: Link先を確認
Michelle Alexopoulos, Kelly Lyons, Kaushar Mahetaji, Marcus Emmanuel Barnes, Rogan Gutwillinger(参考訳) 多くの研究がジェンダー情報を用いて、性バイアス、アクセスと参加の不平等、コビッドのパンデミック反応の影響などの現象を解明している。 残念ながら、ほとんどのデータセットには、自己報告された性別情報が含まれておらず、研究者が名前や名前、国情報など他の情報から性別を推測する必要がある。 これらのツールの重要な制限は、ジェンダーが非バイナリスケールに存在するという事実を適切に把握できないことであるが、これらのツールが様々な文脈でどのように機能するかを評価し比較することが重要である。 本稿では,生成型人工知能(AI)ツールChatGPTと市販の3つのリストベースおよび機械学習ベースの性別推定ツール(Namsor, Gender-API, genderize.io)を,ユニークなデータセットで比較する。 具体的には、大規模なオリンピック選手データセットを使用して、入力の変動(例えば、ファーストネームとファーストネームとラストネーム)が、その予測の正確さにどのように影響するかを報告します。 我々は、メダル対非メディカルの勝者、最大の英語圏の選手、東アジアの選手など、全セット、およびサブセットの成績を報告する。 これらのセットでは、namsorが最高の商用ツールであることが分かっています。 しかし、chatgptは少なくともnamsorと同等の性能を持ち、特にカントリーやラストネームの情報がある場合に女性のサンプルよりも優れています。 すべてのツールは、メダリストと非メディカリスト、および英語圏の国の名前に対してパフォーマンスが良い。 この目的のために設計されていないが、ChatGPTは性別予測のためのコスト効率の良いツールである。 将来的には、chatgptや他の大規模言語モデルが、バイナリスケールで性別を報告するのではなく、自己報告された性別を識別できるようになるかもしれない。

An increasing number of studies use gender information to understand phenomena such as gender bias, inequity in access and participation, or the impact of the Covid pandemic response. Unfortunately, most datasets do not include self-reported gender information, making it necessary for researchers to infer gender from other information, such as names or names and country information. An important limitation of these tools is that they fail to appropriately capture the fact that gender exists on a non-binary scale, however, it remains important to evaluate and compare how well these tools perform in a variety of contexts. In this paper, we compare the performance of a generative Artificial Intelligence (AI) tool ChatGPT with three commercially available list-based and machine learning-based gender inference tools (Namsor, Gender-API, and genderize.io) on a unique dataset. Specifically, we use a large Olympic athlete dataset and report how variations in the input (e.g., first name and first and last name, with and without country information) impact the accuracy of their predictions. We report results for the full set, as well as for the subsets: medal versus non-medal winners, athletes from the largest English-speaking countries, and athletes from East Asia. On these sets, we find that Namsor is the best traditional commercially available tool. However, ChatGPT performs at least as well as Namsor and often outperforms it, especially for the female sample when country and/or last name information is available. All tools perform better on medalists versus non-medalists and on names from English-speaking countries. Although not designed for this purpose, ChatGPT may be a cost-effective tool for gender prediction. In the future, it might even be possible for ChatGPT or other large scale language models to better identify self-reported gender rather than report gender on a binary scale.
翻訳日:2023-12-11 03:30:43 公開日:2023-11-24
# 共役伝熱サロゲートモデリングのための深層畳み込みエンコーダ・デコーダ階層型ニューラルネットワーク

Deep convolutional encoder-decoder hierarchical neural networks for conjugate heat transfer surrogate modeling ( http://arxiv.org/abs/2311.17068v1 )

ライセンス: Link先を確認
Takiah Ebbs-Picken, David A. Romero, Carlos M. Da Silva, Cristina H. Amon(参考訳) 共役熱伝達(CHT)モデルは、多くの工学系の設計に不可欠である。 しかし、高忠実性CHTモデルは計算集約的であり、数百から数千のモデル評価を必要とする設計最適化のようなアプリケーションでの使用を制限する。 本研究では,計算集約型chtモデルのための新しい深層学習型サロゲートモデリング手法である,モジュール型深層畳み込みエンコーダ・デコーダ階層型ニューラルネットワーク(deepedh)を開発した。 対流温度依存性を利用して,速度モデルと温度モデルを組み合わせた2段階の温度予測アーキテクチャを提案する。 提案手法は, 液体冷却冷板型電池熱管理システムの圧力, 速度, 温度場を可変チャネル形状でモデル化することによって実証する。 有限要素法(fem)を用いてコールドプレートの計算モデルを開発し,1,500シミュレーションのデータセットを生成する。 femの結果は、非構造化から構造化されたイメージライクなメッシュに変換され、トレーニングとテストデータセットを生成する。 deepedh方法論のパフォーマンスは、データスケーリング、データセットのサイズのトレーニング、ネットワーク深さに関連して検討される。 性能分析では、新しいアーキテクチャの影響、フィールドモデルの分離、出力幾何マスク、多段温度モデル、ハイパーパラメータとアーキテクチャの最適化について述べる。 さらに,熱流束の高い温度モデル性能の向上を強調して,cht温度境界条件がサロゲートモデル性能に及ぼす影響を定量化した。 u-net や denseed といった他のディープラーニングニューラルネットワークサロゲートモデルと比較すると,提案する cht モデルの deepedh 手法は決定係数 (r^{2}$) を最大 65% 向上させる。

Conjugate heat transfer (CHT) models are vital for the design of many engineering systems. However, high-fidelity CHT models are computationally intensive, which limits their use in applications such as design optimization, where hundreds to thousands of model evaluations are required. In this work, we develop a modular deep convolutional encoder-decoder hierarchical (DeepEDH) neural network, a novel deep-learning-based surrogate modeling methodology for computationally intensive CHT models. Leveraging convective temperature dependencies, we propose a two-stage temperature prediction architecture that couples velocity and temperature models. The proposed DeepEDH methodology is demonstrated by modeling the pressure, velocity, and temperature fields for a liquid-cooled cold-plate-based battery thermal management system with variable channel geometry. A computational model of the cold plate is developed and solved using the finite element method (FEM), generating a dataset of 1,500 simulations. The FEM results are transformed and scaled from unstructured to structured, image-like meshes to create training and test datasets. The DeepEDH methodology's performance is examined in relation to data scaling, training dataset size, and network depth. Our performance analysis covers the impact of the novel architecture, separate field models, output geometry masks, multi-stage temperature models, and optimizations of the hyperparameters and architecture. Furthermore, we quantify the influence of the CHT thermal boundary condition on surrogate model performance, highlighting improved temperature model performance with higher heat fluxes. Compared to other deep learning neural network surrogate models, such as U-Net and DenseED, the proposed DeepEDH methodology for CHT models exhibits up to a 65% enhancement in the coefficient of determination ($R^{2}$).
翻訳日:2023-12-03 13:09:04 公開日:2023-11-24
# 重層分布に対する最適$\delta$-Correct Best-Arm選択

Optimal $\delta$-Correct Best-Arm Selection for Heavy-Tailed Distributions ( http://arxiv.org/abs/1908.09094v3 )

ライセンス: Link先を確認
Shubhada Agrawal, Sandeep Juneja and Peter Glynn(参考訳) 標本化できる未知の分布やアームの有限集合が与えられると、最小のサンプル複雑性を持つ特定の$\delta$にエラーの確率を制限する適応的逐次アルゴリズムである$\delta$-correctアルゴリズムを用いて、最大平均を持つものを特定する問題を考える。 $\delta$-correctアルゴリズムの下限はよく知られている。 $\delta$-correctアルゴリズムは下限に漸近的に$\delta$reducesから 0 に一致するが、以前はarm分布が単一のパラメータ指数関数族に制限されたときに開発された。 本稿では,いくつかの制約が必須であるという負の結果を最初に観察する。そうでなければ$\delta$-correctアルゴリズムでは,非有界なサポートを持つ分布は期待値の無限個のサンプルを必要とする。 次に、下限値の$\delta$に一致する$\delta$-correctアルゴリズムを提案する。$\epsilon > 0$ に対して、基礎となる確率変数の$(1+\epsilon)^{th}$ momentの期待値に既知のバウンドが存在するという穏やかな制約の下で、0に還元する。 また,提案アルゴリズムの高速化のために,バッチ処理を提案し,最適に近いバッチサイズを同定する。 ベストアーム問題には、レコメンデーションシステムや製品選択など、多くの学習アプリケーションがある。 また、シミュレーションコミュニティでよく研究されている古典的な問題でもある。

Given a finite set of unknown distributions or arms that can be sampled, we consider the problem of identifying the one with the maximum mean using a $\delta$-correct algorithm (an adaptive, sequential algorithm that restricts the probability of error to a specified $\delta$) that has minimum sample complexity. Lower bounds for $\delta$-correct algorithms are well known. $\delta$-correct algorithms that match the lower bound asymptotically as $\delta$ reduces to zero have been previously developed when arm distributions are restricted to a single parameter exponential family. In this paper, we first observe a negative result that some restrictions are essential, as otherwise, under a $\delta$-correct algorithm, distributions with unbounded support would require an infinite number of samples in expectation. We then propose a $\delta$-correct algorithm that matches the lower bound as $\delta$ reduces to zero under the mild restriction that a known bound on the expectation of $(1+\epsilon)^{th}$ moment of the underlying random variables exists, for $\epsilon > 0$. We also propose batch processing and identify near-optimal batch sizes to speed up the proposed algorithm substantially. The best-arm problem has many learning applications, including recommendation systems and product selection. It is also a well-studied classic problem in the simulation community.
翻訳日:2023-11-30 18:21:59 公開日:2023-11-24
# 注意:$l_1$-apgd イメージ分類器に対するスパースな敵の攻撃

Mind the box: $l_1$-APGD for sparse adversarial attacks on image classifiers ( http://arxiv.org/abs/2103.01208v3 )

ライセンス: Link先を確認
Francesco Croce, Matthias Hein(参考訳) また、画像領域の$[0,1]^d$も考慮すると、$[0,1]^d$と$[0,1]^d$の交差を有効脅威モデルとみなさないため、確立された$l_1$-投射勾配降下(PGD)攻撃は最適以下であることを示す。 この効果的な脅威モデルにおける最急降下ステップの空間性について検討し、この集合への正確な投影が計算可能であり、より良い性能が得られることを示す。 さらに,小予算の反復であっても高い有効性を有する適応型PGDを提案する。 結果の$l_1$-APGDは強いホワイトボックス攻撃であり、以前の作業が $l_1$-robustness を過大評価していることを示している。 敵の訓練に$l_1$-APGDを使用すると、SOTA $l_1$-robustnessで堅牢な分類器が得られる。 最後に、$l_1$-apgd と square attack を$l_1$ から $l_1$-autoattack に適応させることで、$[0,1]^d$ と交差する $l_1$-ball の脅威モデルの敵対的ロバスト性を確実に評価する。

We show that when taking into account also the image domain $[0,1]^d$, established $l_1$-projected gradient descent (PGD) attacks are suboptimal as they do not consider that the effective threat model is the intersection of the $l_1$-ball and $[0,1]^d$. We study the expected sparsity of the steepest descent step for this effective threat model and show that the exact projection onto this set is computationally feasible and yields better performance. Moreover, we propose an adaptive form of PGD which is highly effective even with a small budget of iterations. Our resulting $l_1$-APGD is a strong white-box attack showing that prior works overestimated their $l_1$-robustness. Using $l_1$-APGD for adversarial training we get a robust classifier with SOTA $l_1$-robustness. Finally, we combine $l_1$-APGD and an adaptation of the Square Attack to $l_1$ into $l_1$-AutoAttack, an ensemble of attacks which reliably assesses adversarial robustness for the threat model of $l_1$-ball intersected with $[0,1]^d$.
翻訳日:2023-11-30 18:14:50 公開日:2023-11-24
# クロスモーダルトランスを用いた解釈型睡眠ステージ分類に向けて

Towards Interpretable Sleep Stage Classification Using Cross-Modal Transformers ( http://arxiv.org/abs/2208.06991v3 )

ライセンス: Link先を確認
Jathurshan Pradeepkumar, Mithunjha Anandakumar, Vinith Kugathasan, Dhinesh Suntharalingham, Simon L. Kappel, Anjula C. De Silva and Chamira U. S. Edussooriya(参考訳) 正確な睡眠ステージ分類は睡眠健康評価に重要である。 近年、機械学習に基づく睡眠ステージリングアルゴリズムが開発され、特にディープラーニングベースのアルゴリズムは人間のアノテーションと同等のパフォーマンスを達成している。 パフォーマンスの改善にもかかわらず、ディープラーニングベースのアルゴリズムの制限はブラックボックスの振る舞いであり、臨床環境での使用を制限する。 本稿では,睡眠ステージ分類のためのトランスベース手法であるクロスモーダルトランスを提案する。 提案するクロスモーダルトランスは,新しいクロスモーダルトランスエンコーダアーキテクチャと,自動表現学習のためのマルチスケール1次元畳み込みニューラルネットワークから構成される。 本手法は最先端手法よりも優れており,アテンションモジュールの解釈可能性を利用したディープラーニングモデルのブラックボックス挙動を解消する。 さらに,本手法は,最先端手法と比較してパラメータ数とトレーニング時間を大幅に短縮する。 私たちのコードはhttps://github.com/Jathurshan0330/Cross-Modal-Transformerで利用可能です。 私たちの作業のデモは https://bit.ly/Cross_modal_transformer_demo で確認できます。

Accurate sleep stage classification is significant for sleep health assessment. In recent years, several machine-learning based sleep staging algorithms have been developed , and in particular, deep-learning based algorithms have achieved performance on par with human annotation. Despite improved performance, a limitation of most deep-learning based algorithms is their black-box behavior, which have limited their use in clinical settings. Here, we propose a cross-modal transformer, which is a transformer-based method for sleep stage classification. The proposed cross-modal transformer consists of a novel cross-modal transformer encoder architecture along with a multi-scale one-dimensional convolutional neural network for automatic representation learning. Our method outperforms the state-of-the-art methods and eliminates the black-box behavior of deep-learning models by utilizing the interpretability aspect of the attention modules. Furthermore, our method provides considerable reductions in the number of parameters and training time compared to the state-of-the-art methods. Our code is available at https://github.com/Jathurshan0330/Cross-Modal-Transformer. A demo of our work can be found at https://bit.ly/Cross_modal_transformer_demo.
翻訳日:2023-11-30 17:43:38 公開日:2023-11-24
# フェルミオン量子シミュレーションのためのマッチゲートシャドウ

Matchgate Shadows for Fermionic Quantum Simulation ( http://arxiv.org/abs/2207.13723v4 )

ライセンス: Link先を確認
Kianna Wan, William J. Huggins, Joonho Lee, Ryan Babbush(参考訳) 古典的影」は未知の量子状態の推定子であり、その状態のコピー(nature physics 16 1050-1057)上で適切に分布したランダムな測定から構築される。 本稿では,フェルミオンガウスユニタリに対応するランダムマッチゲート回路を用いて得られた古典影の解析を行う。 我々は、マッチゲート回路の連続群上のハール分布の最初の3つのモーメントが、同様にクリフォードユニタリであるマッチゲート回路のみ上の離散均一分布のモーメントと等しいことを証明し、後者は「マッチゲート3設計」を形成する。 これは、2つのアンサンブルから生じる古典的な影が機能的に等価であることを意味する。 これらの整合影を用いて任意の量子状態とフェルミオンガウス状態の間の内部積を効率的に推定し、局所フェルミオン作用素や他の様々な量の期待値を計算し、事前の作業能力を上回ることを示す。 具体的な応用として,量子古典的補助場量子モンテカルロアルゴリズム(QC-AFQMC) [Nature 603, 416-420] におけるフェルミオン符号問題を制御する波動関数制約を適用することができる。

"Classical shadows" are estimators of an unknown quantum state, constructed from suitably distributed random measurements on copies of that state [Nature Physics 16, 1050-1057]. Here, we analyze classical shadows obtained using random matchgate circuits, which correspond to fermionic Gaussian unitaries. We prove that the first three moments of the Haar distribution over the continuous group of matchgate circuits are equal to those of the discrete uniform distribution over only the matchgate circuits that are also Clifford unitaries; thus, the latter forms a "matchgate 3-design." This implies that the classical shadows resulting from the two ensembles are functionally equivalent. We show how one can use these matchgate shadows to efficiently estimate inner products between an arbitrary quantum state and fermionic Gaussian states, as well as the expectation values of local fermionic operators and various other quantities, thus surpassing the capabilities of prior work. As a concrete application, this enables us to apply wavefunction constraints that control the fermion sign problem in the quantum-classical auxiliary-field quantum Monte Carlo algorithm (QC-AFQMC) [Nature 603, 416-420], without the exponential post-processing cost incurred by the original approach.
翻訳日:2023-11-30 17:42:31 公開日:2023-11-24
# リモートセンシングと機械学習によるバークビートル攻撃の早期検出

Early Detection of Bark Beetle Attack Using Remote Sensing and Machine Learning: A Review ( http://arxiv.org/abs/2210.03829v3 )

ライセンス: Link先を確認
Seyed Mojtaba Marvasti-Zadeh, Devin Goodsman, Nilanjan Ray, Nadir Erbilgin(参考訳) 本報告では,本研究の過去および現在の動向を概観し,本研究の3つの主要な視点からブナ害虫による樹木死の早期発見について概観する。 これまでの取り組みとは対照的に、このレビューは全てのRSシステムを網羅し、その強みや弱点を調査するためのML/DL手法を強調している。 我々は,マルチ・ハイパー・スペクトル分析に基づいて既存の文献を解析し,その知識を抽出した。 攻撃の初期段階,ホストツリー,研究領域,rsプラットフォームとセンサ,スペクトル/空間/時間分解能,スペクトルシグネチャ,スペクトル植生指数(svis),mlアプローチ,学習スキーム,タスクカテゴリ,アルゴリズム,クラス/クラスタ,特徴,dlネットワークとアーキテクチャに重点を置く。 DLベースの手法とランダムフォレスト(RF)アルゴリズムは有望な結果を示し、可視、熱、短波赤外(SWIR)スペクトル領域にわたる微妙な変化を検出する可能性を強調したが、その効果は限定的であり、高い不確実性を持っている。 これらの欠点に対する新しい解決策を刺激するために、さまざまな視点から主要な課題と機会を掘り下げ、研究の現状をより深く理解し、今後の研究方向性を導く。

This paper provides a comprehensive review of past and current advances in the early detection of bark beetle-induced tree mortality from three primary perspectives: bark beetle & host interactions, RS, and ML/DL. In contrast to prior efforts, this review encompasses all RS systems and emphasizes ML/DL methods to investigate their strengths and weaknesses. We parse existing literature based on multi- or hyper-spectral analyses and distill their knowledge based on: bark beetle species & attack phases with a primary emphasis on early stages of attacks, host trees, study regions, RS platforms & sensors, spectral/spatial/temporal resolutions, spectral signatures, spectral vegetation indices (SVIs), ML approaches, learning schemes, task categories, models, algorithms, classes/clusters, features, and DL networks & architectures. Although DL-based methods and the random forest (RF) algorithm showed promising results, highlighting their potential to detect subtle changes across visible, thermal, and short-wave infrared (SWIR) spectral regions, they still have limited effectiveness and high uncertainties. To inspire novel solutions to these shortcomings, we delve into the principal challenges & opportunities from different perspectives, enabling a deeper understanding of the current state of research and guiding future research directions.
翻訳日:2023-11-30 17:30:04 公開日:2023-11-24
# 高次元多項テストとテキスト解析への応用

Testing High-dimensional Multinomials with Applications to Text Analysis ( http://arxiv.org/abs/2301.01381v2 )

ライセンス: Link先を確認
T. Tony Cai, Zheng Tracy Ke, Paxton Turner(参考訳) テキストマイニングと離散分布推定の応用に動機づけられ,高次元多項分布の $k$ 群の確率質量関数の等式について検討した。 ヌルの下での漸近標準正規分布を持つことを示すテスト統計法を提案する。 最適検出境界が確立され、提案試験により、興味のあるパラメータ空間全体にわたってこの最適検出境界が達成されることを示す。 提案手法はシミュレーション研究で実証され,実世界の2つのデータセットを解析し,amazon movieの消費者レビューと統計紙要約の多様性について検討した。

Motivated by applications in text mining and discrete distribution inference, we investigate the testing for equality of probability mass functions of $K$ groups of high-dimensional multinomial distributions. A test statistic, which is shown to have an asymptotic standard normal distribution under the null, is proposed. The optimal detection boundary is established, and the proposed test is shown to achieve this optimal detection boundary across the entire parameter space of interest. The proposed method is demonstrated in simulation studies and applied to analyze two real-world datasets to examine variation among consumer reviews of Amazon movies and diversity of statistical paper abstracts.
翻訳日:2023-11-30 17:04:11 公開日:2023-11-24
# スタイル幻覚付きデュアル一貫性学習:ビジュアルドメイン一般化のための統一フレームワーク

Style-Hallucinated Dual Consistency Learning: A Unified Framework for Visual Domain Generalization ( http://arxiv.org/abs/2212.09068v2 )

ライセンス: Link先を確認
Yuyang Zhao, Zhun Zhong, Na Zhao, Nicu Sebe, Gim Hee Lee(参考訳) ドメインシフトは視覚的に広く存在するが、現代のディープニューラルネットワークは、現実の応用を制限する一般化能力の貧弱さにより、ドメインシフトの下で深刻なパフォーマンス劣化に悩まされることが多い。 ドメインシフトは主に、限られたソース環境の変化と、ソースと見えないターゲットデータの間の大きな分散ギャップにある。 そこで本研究では,様々な視覚的タスクにおいて,このようなドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning(SHADE)を提案する。 具体的には、SHADEはStyle Consistency(SC)とRetrospection Consistency(RC)という2つの一貫性の制約に基づいて構築される。 SCはソースの状況を強化し、スタイルの異なるサンプル間で一貫性のある表現を学ぶようモデルに促す。 rcは一般的な視覚的知識を活用して、モデルがソースデータに過度に適合することを防止するため、ソースモデルと一般的なビジュアルモデル間の表現の一貫性を保ちます。 さらに,一貫した学習に欠かせないスタイル多様性サンプルを生成する新しいスタイル幻覚モジュール(SHM)を提案する。 SHMはソース分布からベーススタイルを選択し、トレーニング中に多様なリアルなサンプルを動的に生成できる。 広範な実験により,画像分類や意味セグメンテーション,オブジェクト検出など,様々な視覚認識タスクの一般化が,コンベネットやトランスフォーマといった異なるモデルにより著しく向上することが示された。

Domain shift widely exists in the visual world, while modern deep neural networks commonly suffer from severe performance degradation under domain shift due to the poor generalization ability, which limits the real-world applications. The domain shift mainly lies in the limited source environmental variations and the large distribution gap between source and unseen target data. To this end, we propose a unified framework, Style-HAllucinated Dual consistEncy learning (SHADE), to handle such domain shift in various visual tasks. Specifically, SHADE is constructed based on two consistency constraints, Style Consistency (SC) and Retrospection Consistency (RC). SC enriches the source situations and encourages the model to learn consistent representation across style-diversified samples. RC leverages general visual knowledge to prevent the model from overfitting to source data and thus largely keeps the representation consistent between the source and general visual models. Furthermore, we present a novel style hallucination module (SHM) to generate style-diversified samples that are essential to consistency learning. SHM selects basis styles from the source distribution, enabling the model to dynamically generate diverse and realistic samples during training. Extensive experiments demonstrate that our versatile SHADE can significantly enhance the generalization in various visual recognition tasks, including image classification, semantic segmentation and object detection, with different models, i.e., ConvNets and Transformer.
翻訳日:2023-11-30 17:02:40 公開日:2023-11-24
# いつクリティカルになるの? ニューラルイジング剤の各種系における性能と進化性

When to be critical? Performance and evolvability in different regimes of neural Ising agents ( http://arxiv.org/abs/2303.16195v4 )

ライセンス: Link先を確認
Sina Khajehabdollahi, Jan Prosi, Emmanouil Giannakakis, Georg Martius, Anna Levina(参考訳) 臨界状態に近い状態での運用は、自然、人工、進化システムにとって有益である、という仮説が長い間立てられてきた。 我々はこの仮説を、進化を通してエージェントの動的状態に適応できるニューラルネットワークによって制御される進化的捕食エージェントのシステムでテストする。 驚くべきことに、ソリューションを発見するすべての人口は、亜臨界状態へと進化する。 レジリエンス分析により、重要な体制で進化を始める利点がまだ残っていることが分かる。 すなわち、初期の臨界剤は環境の変化(例えば寿命)下での適合度を維持し、ゲノムが乱れたときに優雅に分解する。 同時に、初期の亜臨界物質は、同じ適合性へと進化しても、しばしば寿命の変化に耐えられず、遺伝的摂動によって破滅的に劣化する。 さらに、臨界度に対する最適距離は、タスクの複雑さに依存する。 ハードタスクの場合、エージェントは臨界に近い方向に進化しますが、単純なタスクにはもっとサブクリティカルなソリューションが見られます。 その結果, 遺伝的アルゴリズムと進化戦略の2つのアプローチを用いて, 選択した進化機構から独立していることを確認した。 結論として,単純なタスクにおける最適動作はサブクリティカルな方法では得られるが,未知の複雑性を持つ新しいタスクの最適解を見つける上では,臨界に近い初期化が効率的であることが示唆された。

It has long been hypothesized that operating close to the critical state is beneficial for natural, artificial and their evolutionary systems. We put this hypothesis to test in a system of evolving foraging agents controlled by neural networks that can adapt agents' dynamical regime throughout evolution. Surprisingly, we find that all populations that discover solutions, evolve to be subcritical. By a resilience analysis, we find that there are still benefits of starting the evolution in the critical regime. Namely, initially critical agents maintain their fitness level under environmental changes (for example, in the lifespan) and degrade gracefully when their genome is perturbed. At the same time, initially subcritical agents, even when evolved to the same fitness, are often inadequate to withstand the changes in the lifespan and degrade catastrophically with genetic perturbations. Furthermore, we find the optimal distance to criticality depends on the task complexity. To test it we introduce a hard and simple task: for the hard task, agents evolve closer to criticality whereas more subcritical solutions are found for the simple task. We verify that our results are independent of the selected evolutionary mechanisms by testing them on two principally different approaches: a genetic algorithm and an evolutionary strategy. In summary, our study suggests that although optimal behaviour in the simple task is obtained in a subcritical regime, initializing near criticality is important to be efficient at finding optimal solutions for new tasks of unknown complexity.
翻訳日:2023-11-30 16:44:14 公開日:2023-11-24
# diffusionad: 異常検出のためのノルム誘導型一段階発声拡散

DiffusionAD: Norm-guided One-step Denoising Diffusion for Anomaly Detection ( http://arxiv.org/abs/2303.08730v3 )

ライセンス: Link先を確認
Hui Zhang, Zheng Wang, Zuxuan Wu, Yu-Gang Jiang(参考訳) 異常検出は、その顕著な有効性と効率性のために、実工業生産における広範囲な応用を生んでいる。 しかし, 従来の生成モデルでは, 再現性に限界があり, 全体の性能が損なわれている。 ノイズ・ノーム・パラダイムへの拡散モデルによる再構成プロセスの再構築には,根本的な改善が伴う。 ここでは、異常領域はガウスノイズに悩まされ、通常として再構成され、異常のない復元を容易にすることで、以前のモデルの限界を克服する。 さらに, 拡散モデルにおける従来の反復的デノイジングよりも大幅に高速で高速な一段階デノイジングパラダイムを提案する。 さらに,ノルム誘導パラダイムの導入により,再建の精度と忠実度が向上する。 セグメンテーションサブネットワークは、入力画像とその異常のない復元を用いて画素レベルの異常スコアを予測する。 4つの標準および挑戦的なベンチマークの総合的な評価により、d diffusionadは現在の最先端のアプローチよりも優れており、提案パイプラインの有効性と幅広い適用性を示している。

Anomaly detection has garnered extensive applications in real industrial manufacturing due to its remarkable effectiveness and efficiency. However, previous generative-based models have been limited by suboptimal reconstruction quality, hampering their overall performance. A fundamental enhancement lies in our reformulation of the reconstruction process using a diffusion model into a noise-to-norm paradigm. Here, anomalous regions are perturbed with Gaussian noise and reconstructed as normal, overcoming the limitations of previous models by facilitating anomaly-free restoration. Additionally, we propose a rapid one-step denoising paradigm, significantly faster than the traditional iterative denoising in diffusion models. Furthermore, the introduction of the norm-guided paradigm elevates the accuracy and fidelity of reconstructions. The segmentation sub-network predicts pixel-level anomaly scores using the input image and its anomaly-free restoration. Comprehensive evaluations on four standard and challenging benchmarks reveal that DiffusionAD outperforms current state-of-the-art approaches, demonstrating the effectiveness and broad applicability of the proposed pipeline.
翻訳日:2023-11-30 16:39:45 公開日:2023-11-24
# 逆選好学習:逆関数を持たない選好ベースRL

Inverse Preference Learning: Preference-based RL without a Reward Function ( http://arxiv.org/abs/2305.15363v2 )

ライセンス: Link先を確認
Joey Hejna, Dorsa Sadigh(参考訳) リワード関数は設計が難しく、しばしば人間の意図と整合するのは難しい。 優先度に基づく強化学習(RL)アルゴリズムは、人間のフィードバックから報酬関数を学習することでこれらの問題に対処する。 しかし、好みに基づくRL手法の大多数は、教師付き報酬モデルとオフザシェルフRLアルゴリズムを効果的に組み合わせている。 現代のアプローチでは、トランスフォーマーのようなより大きく複雑な報酬アーキテクチャを使うことで、パフォーマンスとクエリの複雑さを改善しようとしている。 高度に複雑なアーキテクチャを使う代わりに、オフラインの選好データから学習するために特別に設計された新しいパラメータ効率の高いアルゴリズムである逆選好学習(ipl)を開発した。 当社の重要な洞察は、固定ポリシーの場合、$q$-functionが報酬関数に関するすべての情報をエンコードし、効果的に交換可能にすることです。 この知見を用いて、学習した報酬関数の必要性を完全に排除する。 得られたアルゴリズムはよりシンプルでパラメータ効率が良い。 連続的な制御とロボットのベンチマークのスイート全体で、IPLはトランスフォーマーベースの報酬関数と非マルコフの報酬関数を活用するより複雑なアプローチと比較して、アルゴリズムのハイパーパラメータを少なくし、ネットワークパラメータを学習する。 私たちのコードは公開されています。

Reward functions are difficult to design and often hard to align with human intent. Preference-based Reinforcement Learning (RL) algorithms address these problems by learning reward functions from human feedback. However, the majority of preference-based RL methods na\"ively combine supervised reward models with off-the-shelf RL algorithms. Contemporary approaches have sought to improve performance and query complexity by using larger and more complex reward architectures such as transformers. Instead of using highly complex architectures, we develop a new and parameter-efficient algorithm, Inverse Preference Learning (IPL), specifically designed for learning from offline preference data. Our key insight is that for a fixed policy, the $Q$-function encodes all information about the reward function, effectively making them interchangeable. Using this insight, we completely eliminate the need for a learned reward function. Our resulting algorithm is simpler and more parameter-efficient. Across a suite of continuous control and robotics benchmarks, IPL attains competitive performance compared to more complex approaches that leverage transformer-based and non-Markovian reward functions while having fewer algorithmic hyperparameters and learned network parameters. Our code is publicly released.
翻訳日:2023-11-30 16:09:21 公開日:2023-11-24
# diva:変分オートエンコーダを用いたインクリメンタル深層クラスタリングアルゴリズムに基づくディリクレプロセス混合

DIVA: A Dirichlet Process Mixtures Based Incremental Deep Clustering Algorithm via Variational Auto-Encoder ( http://arxiv.org/abs/2305.14067v3 )

ライセンス: Link先を確認
Zhenshan Bing, Yuan Meng, Yuqi Yun, Hang Su, Xiaojie Su, Kai Huang, Alois Knoll(参考訳) 生成モデルベースのディープクラスタリングフレームワークは、複雑なデータの分類に優れているが、クラスタ数の事前知識を必要とするため、動的で複雑な機能を扱うには制限がある。 本稿では,ガウスの無限混合を先行として利用する非パラメトリックディープクラスタリングフレームワークを提案する。 我々のフレームワークは,クラスタの「生成」と「マージ」を可能とし,特徴量の事前知識を必要とせず,動的適応的な方法でデータをクラスタ化することができる,メモ化されたオンライン変分推論手法を使用している。 このフレームワークをDirichlet ProcessベースのインクリメンタルディープクラスタリングフレームワークであるDIVAと名付けます。 我々のフレームワークは、最先端のベースラインよりも優れており、特にインクリメンタル機能の場合、動的に変化する特徴を持つ複雑なデータの分類において優れた性能を示す。 ソースコードの実装は、https://github.com/Ghiara/divaでリリースしました。

Generative model-based deep clustering frameworks excel in classifying complex data, but are limited in handling dynamic and complex features because they require prior knowledge of the number of clusters. In this paper, we propose a nonparametric deep clustering framework that employs an infinite mixture of Gaussians as a prior. Our framework utilizes a memoized online variational inference method that enables the "birth" and "merge" moves of clusters, allowing our framework to cluster data in a "dynamic-adaptive" manner, without requiring prior knowledge of the number of features. We name the framework as DIVA, a Dirichlet Process-based Incremental deep clustering framework via Variational Auto-Encoder. Our framework, which outperforms state-of-the-art baselines, exhibits superior performance in classifying complex data with dynamically changing features, particularly in the case of incremental features. We released our source code implementation at: https://github.com/Ghiara/diva
翻訳日:2023-11-30 16:07:18 公開日:2023-11-24
# RLU to the Rescue: ポジティブなアドバンテージでオンデマンドアクター批判を改善する

ReLU to the Rescue: Improve Your On-Policy Actor-Critic with Positive Advantages ( http://arxiv.org/abs/2306.01460v3 )

ライセンス: Link先を確認
Andrew Jesson and Chris Lu and Gunshi Gupta and Angelos Filos and Jakob Nicolaus Foerster and Yarin Gal(参考訳) 本稿では, アクター批判的深層強化学習におけるベイズ近似への効果的かつ実践的なステップを紹介する。 このステップは,(1)推定値にReLU関数を適用すること,(2)アクター-クリティック重みのスペクトル正規化,(3)ベイズ近似としてドロップアウトを取り入れること,の3つの単純な修正として現れる。 我々は、政策更新を肯定的な利点に限定する標準的な仮定の下で、価値関数と付加項の上限を最大化することで価値を最適化する。 我々は、加法項が値関数のリプシッツ定数に比例して有界であることを示し、批判重みのスペクトル正規化の理論的根拠を提供する。 最後に、ドロップアウトの応用は、アクターパラメータと批評家パラメータの両方に対する近似ベイズ推論に対応し、トンプソンサンプリングによるアクターのモード周辺の慎重な状態認識探索を可能にする。 様々なベンチマークにおける広範な経験的評価は、既存のオン・オフ・ポリシー・アルゴリズムと比較して、我々のアプローチの優れた性能を示している。 mujoco連続制御ベンチマークにおいて,ppo,sac,td3に対する中央値および四分位平均指標の大幅な改善を示す。 さらに、ProcGenの一般化ベンチマークでは、PPOよりも改善されている。

This paper introduces an effective and practical step toward approximate Bayesian inference in on-policy actor-critic deep reinforcement learning. This step manifests as three simple modifications to the Asynchronous Advantage Actor-Critic (A3C) algorithm: (1) applying a ReLU function to advantage estimates, (2) spectral normalization of actor-critic weights, and (3) incorporating dropout as a Bayesian approximation. We prove under standard assumptions that restricting policy updates to positive advantages optimizes for value by maximizing a lower bound on the value function plus an additive term. We show that the additive term is bounded proportional to the Lipschitz constant of the value function, which offers theoretical grounding for spectral normalization of critic weights. Finally, our application of dropout corresponds to approximate Bayesian inference over both the actor and critic parameters, which enables prudent state-aware exploration around the modes of the actor via Thompson sampling. Extensive empirical evaluations on diverse benchmarks reveal the superior performance of our approach compared to existing on- and off-policy algorithms. We demonstrate significant improvements for median and interquartile mean metrics over PPO, SAC, and TD3 on the MuJoCo continuous control benchmark. Moreover, we see improvement over PPO in the challenging ProcGen generalization benchmark.
翻訳日:2023-11-30 15:43:15 公開日:2023-11-24
# 量子相転移の微視的スケール:ドープ半導体からスピン鎖、コールドガス、moir\'e超格子へ

Microscopic scale of quantum phase transitions: from doped semiconductors to spin chains, cold gases and moir\'e superlattices ( http://arxiv.org/abs/2309.00749v2 )

ライセンス: Link先を確認
Andrey Rogachev(参考訳) 連続量子相転移(qpts)の近傍では、量子系はスケール不変となり、臨界指数の集合によって特徴づけられる普遍性クラスに分類できる。 実験データには, スケール不変性や普遍性にもかかわらず, 微視的プロセスやQPTを管理するスケールに関する情報が含まれていることがわかった。 我々はQPTの近傍では,局所化のスケーリング理論によって予測される指数依存に様々な物理量が従うことを予想し,この依存は再正規化群の顕微鏡的シードスケールである$L_0$を含む。 また、相互作用系の場合、温度はプランク時間によって設定されたライフタイム($\tau_P$=$\hbar/k_BT$)でシステム固有の初等励起によって移動される長さの正規化群フローを減少させる。 いくつかのシステムでこの手法をQPTに適用し、実験から抽出した$L_0$は物理的に予測された最小長スケールに匹敵することを示した。 (i)ドープ半導体における金属絶縁体転移の平均自由経路 (ii)ハイゼンベルクのスピンとイジング鎖の間の距離。 (iii)コールドアトムボゾンガス用光学格子の期間、及び (iv)ジカルコゲナイド二層におけるモットqptのmoir\'e超格子の周期 第1報では、超伝導膜やナノワイヤ、および高温超伝導体la$_{1.92}$sr$_{0.08}$cuo$_4$,$l_0$が超伝導コヒーレンス長に匹敵することを示した。 第2の共著では、量子ホール系では、$l_0$が磁気長に匹敵することを示した。 実験データの大規模集合を定量的に説明し、統一し、他の複雑な系に拡張できる理論的アプローチ

In the vicinity of continuous quantum phase transitions (QPTs), quantum systems become scale-invariant and can be grouped into universality classes characterized by sets of critical exponents. We have found that despite scale-invariance and universality, the experimental data still contain information related to the microscopic processes and scales governing QPTs. We conjecture that near QPTs, various physical quantities follow the generic exponential dependence predicted by the scaling theory of localization; this dependence includes as a parameter a microscopic seeding scale of the renormalization group, $L_0$. We also conjecture that for interacting systems, the temperature cuts the renormalization group flow at the length travelled by a system-specific elementary excitation over the life-time set by the Planckian time, $\tau_P$=$\hbar/k_BT$. We have adapted this approach for QPTs in several systems and showed that $L_0$ extracted from experiment is comparable to physically-expected minimal length scales, namely (i) the mean free path for metal-insulator transition in doped semiconductors, (ii) the distance between spins in Heisenberg and Ising chains, (iii) the period of an optical lattice for cold atom boson gases, and (iv) the period of a moir\'e superlattice for the Mott QPT in dichalcogenide bilayers. In the first companion paper, we show that in superconducting films and nanowires, as well as in the high temperature superconductor La$_{1.92}$Sr$_{0.08}$CuO$_4$, $L_0$ is comparable to superconducting coherence length. In the second companion paper, we show that in quantum Hall systems, $L_0$ is comparable to the magnetic length. The developed theoretical approach quantitatively explains and unifies a large body of experimental data and can be expanded to other complex systems
翻訳日:2023-11-30 15:01:16 公開日:2023-11-24
# ニューラルネットワークの潜在表現におけるadversarial machine learning

Adversarial Machine Learning in Latent Representations of Neural Networks ( http://arxiv.org/abs/2309.17401v2 )

ライセンス: Link先を確認
Milin Zhang, Mohammad Abdi and Francesco Restuccia(参考訳) 分散ディープニューラルネットワーク(DNN)は、モバイルデバイスの計算負担を低減し、エッジコンピューティングシナリオにおけるエンドツーエンドの推論レイテンシを低減することが示されている。 分散DNNは研究されているが、我々の知る限り、分散DNNの敵行動に対するレジリエンスは依然として未解決の問題である。 本稿では,分散DNNの対戦行動に対する堅牢性を厳密に分析することにより,既存の研究ギャップを埋める。 情報理論の文脈でこの問題を提起し、歪みと頑健性に関する2つの新しい測定基準を導入する。 理論的には (i)同じレベルの情報歪みを仮定すると、潜時特徴は入力表現よりも常に堅牢である。 (II) DNNの特徴次元と一般化能力により, 対向ロバスト性は共同で決定される。 理論的知見を検証するために,6つの異なるDNNアーキテクチャ,分散DNNに対する6つの異なるアプローチ,ImageNet-1Kデータセットに対する10の異なる敵攻撃について検討した。 実験の結果, 圧縮潜在表現は, 入力空間に対する攻撃と比較して, 最大88%, 平均57%, 敵攻撃の成功率を低下させることを示した。

Distributed deep neural networks (DNNs) have been shown to reduce the computational burden of mobile devices and decrease the end-to-end inference latency in edge computing scenarios. While distributed DNNs have been studied, to the best of our knowledge the resilience of distributed DNNs to adversarial action still remains an open problem. In this paper, we fill the existing research gap by rigorously analyzing the robustness of distributed DNNs against adversarial action. We cast this problem in the context of information theory and introduce two new measurements for distortion and robustness. Our theoretical findings indicate that (i) assuming the same level of information distortion, latent features are always more robust than input representations; (ii) the adversarial robustness is jointly determined by the feature dimension and the generalization capability of the DNN. To test our theoretical findings, we perform extensive experimental analysis by considering 6 different DNN architectures, 6 different approaches for distributed DNN and 10 different adversarial attacks to the ImageNet-1K dataset. Our experimental results support our theoretical findings by showing that the compressed latent representations can reduce the success rate of adversarial attacks by 88% in the best case and by 57% on the average compared to attacks to the input space.
翻訳日:2023-11-30 14:24:21 公開日:2023-11-24
# 映像理解課題における視覚言語モデルのゼロショット能力の分析

Analyzing Zero-Shot Abilities of Vision-Language Models on Video Understanding Tasks ( http://arxiv.org/abs/2310.04914v2 )

ライセンス: Link先を確認
Avinash Madasu, Anahita Bhiwandiwalla, Vasudev Lal(参考訳) 大規模画像テキストペアやビデオテキストペアで事前訓練された基礎的マルチモーダルモデルは、下流タスクにおいて強力な一般化能力を示している。 しかし、画像テキストモデルとは異なり、大規模なクリーンかつアライメントなデータの収集が困難であり、事前学習フェーズに関わる指数計算コストがかかるため、ビデオテキストモデルの事前学習は不可能である。 ビデオのタスクに画像テキストモデルを適用することは可能か、ビデオ上で直接トレーニングするよりも、これらのモデルを使用することにメリットがあるのか? 本研究では,ゼロショット環境での映像理解タスクの評価において,画像テキストモデルの一般化能力に関する詳細な研究を行うことにより,この問題に焦点をあてる。 ビデオアクション認識(ビデオar)、ビデオ検索(ビデオrt)、ビデオ質問応答(ビデオqa)、ビデオ多重選択(ビデオmc)、ビデオキャプション(ビデオcp)など、さまざまなビデオタスクの9つの基礎的な画像テキストモデルを調査した。 実験の結果,映像テキストモデルでは,映像AR,ビデオRT,ビデオMCに優れた性能を示した。 さらに、ビデオキャプションでは適度に、ビデオQAでは劣る。 これらの結果は、コストのかかる事前学習のステップを回避しつつ、基礎的な画像テキストモデルを一連のビデオタスクに適応する利点を浮き彫りにした。

Foundational multimodal models pre-trained on large scale image-text pairs or video-text pairs or both have shown strong generalization abilities on downstream tasks. However unlike image-text models, pretraining video-text models is always not feasible due to the difficulty in collecting large-scale clean and aligned data, and exponential computational costs involved in the pretraining phase. Therefore, the pertinent question to ask is: Can image-text models be adapted to video tasks and is there any benefit to using these models over pretraining directly on videos? In this work, we focus on this question by proposing a detailed study on the generalization abilities of image-text models when evaluated on video understanding tasks in a zero-shot setting. We investigate 9 foundational image-text models on a diverse set of video tasks that include video action recognition (video AR), video retrieval (video RT), video question answering (video QA), video multiple choice (video MC) and video captioning (video CP). Our experiments show that image-text models exhibit impressive performance on video AR, video RT and video MC. Furthermore, they perform moderately on video captioning and poorly on video QA. These findings shed a light on the benefits of adapting foundational image-text models to an array of video tasks while avoiding the costly pretraining step.
翻訳日:2023-11-30 14:14:05 公開日:2023-11-24
# ロバスト閉ループ制御のための低域とスパースリカレント接続性の改善

Leveraging Low-Rank and Sparse Recurrent Connectivity for Robust Closed-Loop Control ( http://arxiv.org/abs/2310.03915v2 )

ライセンス: Link先を確認
Neehal Tumma, Mathias Lechner, Noel Loo, Ramin Hasani, Daniela Rus(参考訳) 変化する環境と対話できる自律エージェントの開発は、機械学習におけるオープンな課題である。 エージェントは、しばしば専門家のデモンストレーションにオフラインで適合するが、環境内のクローズドフィードバックループに一般化しなくてはならないオンラインにデプロイされるため、これらの設定では特に重要である。 本研究では,この性質のタスクに対する再帰ニューラルネットワークの応用について検討し,その再帰接続のパラメータ化がクローズドループ設定におけるロバスト性にどのように影響するかを理解する。 具体的には、リカレント接続をランクとスパーシティの関数として表現し、これらの2変数の変調がネットワーク力学に望ましい影響があることを理論的および経験的に示す。 提案されている低ランクなスパース接続は、ネットワークに先立って解釈可能であり、クローズドフォーム連続時間ニューラルネットワーク(cfcs)として知られるモデル群にとって最も快適であることが証明される。 パラメータが少ないCfCは、分散シフトのオンライン設定において、フルランクで完全に接続されたCfCよりも優れていることが分かりました。 これにより、メモリ効率とロバストなエージェントが生まれ、接続を通じてネットワークのダイナミクスを制御できる新しい視点が開かれる。

Developing autonomous agents that can interact with changing environments is an open challenge in machine learning. Robustness is particularly important in these settings as agents are often fit offline on expert demonstrations but deployed online where they must generalize to the closed feedback loop within the environment. In this work, we explore the application of recurrent neural networks to tasks of this nature and understand how a parameterization of their recurrent connectivity influences robustness in closed-loop settings. Specifically, we represent the recurrent connectivity as a function of rank and sparsity and show both theoretically and empirically that modulating these two variables has desirable effects on network dynamics. The proposed low-rank, sparse connectivity induces an interpretable prior on the network that proves to be most amenable for a class of models known as closed-form continuous-time neural networks (CfCs). We find that CfCs with fewer parameters can outperform their full-rank, fully-connected counterparts in the online setting under distribution shift. This yields memory-efficient and robust agents while opening a new perspective on how we can modulate network dynamics through connectivity.
翻訳日:2023-11-30 14:12:43 公開日:2023-11-24
# 事前学習されたトランスフォーマーは、勾配降下によってコンテキスト内学習を実際に行うのか?

Do pretrained Transformers Really Learn In-context by Gradient Descent? ( http://arxiv.org/abs/2310.08540v2 )

ライセンス: Link先を確認
Lingfeng Shen, Aayush Mishra, Daniel Khashabi(参考訳) In-Context Learning (ICL) はグラディエント・Descent (GD) と暗黙的に等価か? 最近のいくつかの著作は、大きな言語モデルにおけるgdのダイナミクスと icl の創発的挙動の類似性を示している。 しかし、これらの作品は、言語モデルを訓練する現実的な自然言語設定から遠く離れている。 したがって、理論と実践の相違は、それらの適用性を検証するためにさらなる調査が必要である。 まず、勾配降下をシミュレートするTransformer重みを構成する事前の作業における仮定を強調します。 icl目的のトレーニングトランスフォーマ実験、iclとgdの順序感度の不一致、構築された重みのスパース性、パラメータ変化に対する感度など、現実世界の設定とミスマッチの例である。 さらに、自然条件下でICL対GD仮説を探索し、比較する。 本研究では,自然データ(LLaMa-7B)に基づく言語モデルに関する包括的実験分析を行った。 各種パフォーマンス指標の比較では,データセットやモデル,実演数など,さまざまな要因の関数として,ICLとGDの不整合挙動に着目した。 ICLとGDは言語モデルの出力分布を異なる方法で変更する。 これらの結果は、ICLとGDの等価性はオープン仮説であり、微妙な考察を必要とし、さらなる研究を求めることを示唆している。

Is In-Context Learning (ICL) implicitly equivalent to Gradient Descent (GD)? Several recent works draw analogies between the dynamics of GD and the emergent behavior of ICL in large language models. However, these works make assumptions far from the realistic natural language setting in which language models are trained. Therefore, such discrepancies between theory and practice necessitate further investigation to validate their applicability. We start by highlighting the assumptions in prior works that construct Transformer weights to simulate gradient descent. Their experiments with training Transformers on ICL objective, inconsistencies in the order sensitivity of ICL and GD, sparsity of the constructed weights, and sensitivity to parameter changes are some examples of mismatch from the real-world setting. Furthermore, we probe and compare the ICL vs. GD hypothesis in a natural setting. We conduct comprehensive empirical analyses on language models pretrained on natural data (LLaMa-7B). Our comparisons on various performance metrics highlight the inconsistent behavior of ICL and GD as a function of various factors such as datasets, models, and the number of demonstrations. We observe that ICL and GD modify the output distribution of language models differently. These results indicate that the equivalence between ICL and GD is an open hypothesis, requires nuanced considerations, and calls for further studies.
翻訳日:2023-11-30 14:03:43 公開日:2023-11-24
# 汎用・個人化フェデレーション学習におけるプロンプトチューニングの可能性

Unlocking the Potential of Prompt-Tuning in Bridging Generalized and Personalized Federated Learning ( http://arxiv.org/abs/2310.18285v2 )

ライセンス: Link先を確認
Wenlong Deng, Christos Thrampoulidis, Xiaoxiao Li(参考訳) Vision Transformer (ViT) と Visual Prompt Tuning (VPT) は、様々なコンピュータビジョンタスクの効率を改善して最先端のパフォーマンスを実現する。 これは、事前訓練されたvitモデルを連合学習(fl)設定に適応する、有望なパラダイムシフトを示唆する。 しかし、FLクライアント間のデータ不均一性の課題は、ViTモデルを効果的にデプロイする上で大きなハードルとなる。 既存の一般化fl(gfl)とパーソナライズfl(pfl)メソッドは、グローバルとローカルの両方のデータ分散のパフォーマンスのバランスに制限がある。 本稿では,共有プロンプトとグループ固有のプロンプトを一意に組み合わせることで,GFLとPFLのアプローチを統合する新しいアルゴリズムであるSGPTを提案する。 この設計により、SGPTは共通の特徴とグループ固有の特徴の両方をキャプチャできる。 SGPTの重要な特徴は、ローカルな微調整を必要とせずに、様々なローカルなクライアントデータ分布に自動的に適応できる単一のグローバルモデルのトレーニングを容易にするプロンプトセレクションモジュールである。 提案手法を効果的に訓練するために,ブロック座標降下(BCD)を用い,共通特徴情報(共有プロンプト)から学習し,さらに専門知識(グループプロンプト)を反復的に学習する。 理論的には、提案するプロンプトを学習することで、グローバルパフォーマンスとローカルパフォーマンスのギャップを低減できる。 実験では,sgptの優れた性能を実証するために,最先端のベースラインと比較し,ラベルと特徴の異質性について実験を行った。

Vision Transformers (ViT) and Visual Prompt Tuning (VPT) achieve state-of-the-art performance with improved efficiency in various computer vision tasks. This suggests a promising paradigm shift of adapting pre-trained ViT models to Federated Learning (FL) settings. However, the challenge of data heterogeneity among FL clients presents a significant hurdle in effectively deploying ViT models. Existing Generalized FL (GFL) and Personalized FL (PFL) methods have limitations in balancing performance across both global and local data distributions. In this paper, we present a novel algorithm, SGPT, that integrates GFL and PFL approaches by employing a unique combination of both shared and group-specific prompts. This design enables SGPT to capture both common and group-specific features. A key feature of SGPT is its prompt selection module, which facilitates the training of a single global model capable of automatically adapting to diverse local client data distributions without the need for local fine-tuning. To effectively train the prompts, we utilize block coordinate descent (BCD), learning from common feature information (shared prompts), and then more specialized knowledge (group prompts) iteratively. Theoretically, we justify that learning the proposed prompts can reduce the gap between global and local performance. Empirically, we conduct experiments on both label and feature heterogeneity settings in comparison with state-of-the-art baselines, along with extensive ablation studies, to substantiate the superior performance of SGPT.
翻訳日:2023-11-30 13:25:38 公開日:2023-11-24
# インテリジェントソフトウェアシステムの感情的・文化的知性を保証する

Assuring the emotional and cultural intelligence of intelligent software systems ( http://arxiv.org/abs/2311.08431v2 )

ライセンス: Link先を確認
Alvine B. Belle(参考訳) 知的ソフトウェアシステム(会話エージェント、プロファイリングシステム、採用システム)は、しばしば反黒人人種差別やその他の社会文化的差別の形式を永続させる方法で設計される。 これは、そのようなシステムによってなされる可能性があり、信用スコア、保険給付、健康評価に悪影響を及ぼす可能性のある一連の不公平な判断の自動化をサポートすることによって、社会的不平等を強化する可能性がある。 私のライトニングトークは、差別を意識したインテリジェントなソフトウェアシステムを開発することを目的とした、ECI(感情的および文化的知性)要求と呼ばれる新しいタイプの非機能要件を提案する必要性を強調します。 このようなシステムは、マイノリティ化されたグループを含む全員に対して共感的に振る舞うことができ、公平に扱われることを確実にする。 講演では、これらのECI要件がインテリジェントなソフトウェアシステムによって十分にサポートされていることを保証するために、新しいシステム保証ソリューションを開発する必要性を強調します。

Intelligent software systems (e.g., conversational agents, profiling systems, recruitment systems) are often designed in a manner which may perpetuates anti-Black racism and other forms of socio-cultural discrimination. This may reinforce social inequities by supporting the automation of consequential and sometimes unfair decisions that may be made by such systems and which may have an adverse impact on credit scores, insurance payouts, and even health evaluations, just to name a few. My lightning talk will therefore emphasize the need to propose a new type of non-functional requirements called ECI (emotional and cultural intelligence) requirements that will aim at developing discrimination-aware intelligent software systems. Such systems will notably be able to behave empathetically toward everyone, including minoritized groups and will ensure they are treated fairly. My talk will also emphasize the need to develop novel system assurance solutions to assure these ECI requirements are sufficiently supported by intelligent software systems.
翻訳日:2023-11-30 12:55:22 公開日:2023-11-24
# バングラデシュにおける高等教育変革のためのビッグデータ分析の可能性 : ニーズ, 展望, 課題

Unveiling the Potential of Big Data Analytics for Transforming Higher Education in Bangladesh; Needs, Prospects, and Challenges ( http://arxiv.org/abs/2311.10727v2 )

ライセンス: Link先を確認
Sabbir Ahmed Chowdhury (1), Md Aminul Islam (2), Mostafa Azad Kamal (3), ((1) School of Education and Social Sciences, University of the West of Scotland, IER, University of Dhaka (2) School of Engineering, Computing and Mathematics, Oxford Brookes University, School of Computing and Technologies, University of Gloucestershire, UK (3) School of Business, Bangladesh Open University, Gazipur)(参考訳) Big Data Analyticsは、世界中の多くのセクターで大きな勢いを増している。 ビッグデータは学習分析の分野で大きな影響を与えており、学術機関は学習者のニーズをよりよく理解し、積極的に対処することができる。 したがって、ビッグデータとそのアプリケーションを理解することが不可欠である。 ビッグデータが科学的意思決定プロセスの幅広い理解を得る能力によって、ビッグデータ分析(BDA)はバングラデシュの高等教育(BHE)の目的を達成するための答えのひとつとなり得る。 本稿は、BDAの能力についてレビューし、BHEの応用の可能性を検討し、教育機関が生み出したデータから教育の質の向上や付加価値を明らかにする方法についての洞察を与え、最後に、BHE分野におけるBDAへの影響を予測するためのニーズ、困難、機会、およびいくつかの枠組みを明らかにする。 キーワード:ビッグデータ分析、学習分析、教育の質、挑戦、高等教育、バングラデシュ

Big Data Analytics has gained tremendous momentum in many sectors worldwide. Big Data has substantial influence in the field of Learning Analytics that may allow academic institutions to better understand the learners needs and proactively address them. Hence, it is essential to understand Big Data and its application. With the capability of Big Data to find a broad understanding of the scientific decision making process, Big Data Analytics (BDA) can be a piece of the answer to accomplishing Bangladesh Higher Education (BHE) objectives. This paper reviews the capacity of BDA, considers possible applications in BHE, gives an insight into how to improve the quality of education or uncover additional values from the data generated by educational institutions, and lastly, identifies needs and difficulties, opportunities, and some frameworks to probable implications about the BDA in BHE sector. Keywords; Big Data Analytics, Learning Analytics, Quality of Education, Challenges, Higher Education, Bangladesh
翻訳日:2023-11-30 12:44:18 公開日:2023-11-24
# 機械学習による脳腫瘍切除のための定量的ハイパースペクトル画像指導

Towards Machine Learning-based Quantitative Hyperspectral Image Guidance for Brain Tumor Resection ( http://arxiv.org/abs/2311.10321v2 )

ライセンス: Link先を確認
David Black, Declan Byrne, Anna Walke, Sidong Liu, Antonio Di leva, Sadahiro Kaneko, Walter Stummer, Septimiu Salcudean, Eric Suero Molina(参考訳) 悪性グリオーマの完全切除は浸潤領域における腫瘍細胞の鑑別が困難である。 5-ALAによる蛍光誘導がこの目標を達成する。 ハイパースペクトルイメージングを用いて、以前の研究ではヒト脳腫瘍の5つのフルオロフォアの放射スペクトルを特徴付ける。 本研究は,低位(n=30),高次グリオーマ(n=115),非グリア性一次脳腫瘍(n=19),放射線壊死(n=2),無菌(n=10),転移(n=8)を有する184例の腫瘍および組織分類タスクにおいて,これらの5つのスペクトルの有効性を検討した。 4つの機械学習モデルを用いて腫瘍タイプ, グレード, グリオーママージン, idh変異を分類した。 ランダム森林と多層受容器を用いて, 平均試験精度は84-87%, 96%, 86%, 93%であった。 5つのフルオロフォアの存在度は腫瘍マージン型と腫瘍グレード (p < 0.01) で異なっていた。 組織型では,5種のフルオロフォア中の少なくとも4種は,全クラス間で有意差(p<0.01)が認められた。 以上の結果から, 異なる組織群において, フルオロフォアが多量に存在すること, 光バイオマーカーとしての5種類のフルオロフォアの価値が示され, 蛍光ガイド下神経外科手術における術中分類システムに新たな機会が開けた。

Complete resection of malignant gliomas is hampered by the difficulty in distinguishing tumor cells at the infiltration zone. Fluorescence guidance with 5-ALA assists in reaching this goal. Using hyperspectral imaging, previous work characterized five fluorophores' emission spectra in most human brain tumors. In this paper, the effectiveness of these five spectra was explored for different tumor and tissue classification tasks in 184 patients (891 hyperspectral measurements) harboring low- (n=30) and high-grade gliomas (n=115), non-glial primary brain tumors (n=19), radiation necrosis (n=2), miscellaneous (n=10) and metastases (n=8). Four machine learning models were trained to classify tumor type, grade, glioma margins and IDH mutation. Using random forests and multi-layer perceptrons, the classifiers achieved average test accuracies of 84-87%, 96%, 86%, and 93% respectively. All five fluorophore abundances varied between tumor margin types and tumor grades (p < 0.01). For tissue type, at least four of the five fluorophore abundances were found to be significantly different (p < 0.01) between all classes. These results demonstrate the fluorophores' differing abundances in different tissue classes, as well as the value of the five fluorophores as potential optical biomarkers, opening new opportunities for intraoperative classification systems in fluorescence-guided neurosurgery.
翻訳日:2023-11-30 12:42:46 公開日:2023-11-24
# k平均損失を用いた属性付きネットワークのための教師なしグラフアテンションオートエンコーダ

Unsupervised Graph Attention Autoencoder for Attributed Networks using K-means Loss ( http://arxiv.org/abs/2311.12986v2 )

ライセンス: Link先を確認
Abdelfateh Bekkaira, Slimane Bellaouar and Slimane Oulad-Naoui(参考訳) いくつかの自然現象や複雑なシステムはしばしばネットワークとして表現される。 コミュニティ構造を明らかにすることは、これらのネットワークを理解するための基本的な課題である。 本稿では, 属性付きネットワーク(GAECO)におけるコミュニティ検出のための, 教師なしの textbf{G}raph Attention \textbf{A}uto\textbf{E}ncoder に基づく, 単純で効率的かつクラスタリング指向のモデルを提案する。 提案モデルでは,ネットワークのトポロジーと属性情報の両方から表現を学習し,復元とコミュニティ発見という2つの目的を同時に解決する。 クラスタリングエラーを小さくすることで、コンパクトなコミュニティの発見に特に重点を置いている。 このモデルはk-meansを目的関数として使用し、マルチヘッドグラフアテンションオートエンコーダを用いて表現をデコードする。 属性ネットワークの3つのデータセットを用いて実験を行った結果,NMIとARIの3点において,提案手法が最先端のアルゴリズムを上回ることがわかった。 さらに,本手法はネットワーク規模に合わせて効果的にスケールし,大規模アプリケーションに適している。 本研究の意義は,基礎的コミュニティ構造に関する知識が不可欠である生物学的ネットワーク解釈と社会ネットワーク分析に留まらない。

Several natural phenomena and complex systems are often represented as networks. Discovering their community structure is a fundamental task for understanding these networks. Many algorithms have been proposed, but recently, Graph Neural Networks (GNN) have emerged as a compelling approach for enhancing this task.In this paper, we introduce a simple, efficient, and clustering-oriented model based on unsupervised \textbf{G}raph Attention \textbf{A}uto\textbf{E}ncoder for community detection in attributed networks (GAECO). The proposed model adeptly learns representations from both the network's topology and attribute information, simultaneously addressing dual objectives: reconstruction and community discovery. It places a particular emphasis on discovering compact communities by robustly minimizing clustering errors. The model employs k-means as an objective function and utilizes a multi-head Graph Attention Auto-Encoder for decoding the representations. Experiments conducted on three datasets of attributed networks show that our method surpasses state-of-the-art algorithms in terms of NMI and ARI. Additionally, our approach scales effectively with the size of the network, making it suitable for large-scale applications. The implications of our findings extend beyond biological network interpretation and social network analysis, where knowledge of the fundamental community structure is essential.
翻訳日:2023-11-30 09:58:38 公開日:2023-11-24
# 逐次的レビューを用いた著者の正直な情報抽出

Eliciting Honest Information From Authors Using Sequential Review ( http://arxiv.org/abs/2311.14619v1 )

ライセンス: Link先を確認
Yichi Zhang, Grant Schoenebeck, Weijie Su(参考訳) 会議ピアレビューの設定では、質の高い論文を受け入れ、ノイズの多いレビュースコアに基づいて低品質の論文を拒絶することを目的としている。 最近の研究は、論文の質のランク付けを複数の提出者から引き出すことで、会議の意思決定を改善するためのイソトニックメカニズムを提案する。 しかしながら、等張的メカニズムは、査読スコアに関して著者の効用が増加および凸関数であるという仮定に依存しているが、これはピアレビュー設定でしばしば違反される(例えば、著者が受理された論文の数を最大化しようとする場合)。 本稿では,本論文の真の品質に関してエージェントの有用性が向上していると仮定しながら,著者のランキング情報を真に導出できる逐次的レビュー機構を提案する。 鍵となる考え方は、提供されたランキングに基づいて著者の論文をシーケンスでレビューし、前の論文のレビュースコアについて次の論文のレビューを条件付けることである。 シーケンシャルレビューメカニズムの利点には 1) 先行業務よりも現実的な設定で真面目なランキング情報を引き出すこと。 2)受理された論文の品質の向上,審査作業の削減,審査対象論文の平均品質の向上。 3) 著者に質の高い論文を少なく書くようインセンティブを与える。

In the setting of conference peer review, the conference aims to accept high-quality papers and reject low-quality papers based on noisy review scores. A recent work proposes the isotonic mechanism, which can elicit the ranking of paper qualities from an author with multiple submissions to help improve the conference's decisions. However, the isotonic mechanism relies on the assumption that the author's utility is both an increasing and a convex function with respect to the review score, which is often violated in peer review settings (e.g.~when authors aim to maximize the number of accepted papers). In this paper, we propose a sequential review mechanism that can truthfully elicit the ranking information from authors while only assuming the agent's utility is increasing with respect to the true quality of her accepted papers. The key idea is to review the papers of an author in a sequence based on the provided ranking and conditioning the review of the next paper on the review scores of the previous papers. Advantages of the sequential review mechanism include 1) eliciting truthful ranking information in a more realistic setting than prior work; 2) improving the quality of accepted papers, reducing the reviewing workload and increasing the average quality of papers being reviewed; 3) incentivizing authors to write fewer papers of higher quality.
翻訳日:2023-11-30 09:47:40 公開日:2023-11-24
# フラストレーションウィグナー結晶のコメンシュレート-非コンメンシュレート転移

Commensurate-incommensurate transition in frustrated Wigner crystals ( http://arxiv.org/abs/2311.14396v1 )

ライセンス: Link先を確認
Rapha\"el Menu, Jorge Yago Malo, Vladan Vuleti\'c, Maria Luisa Chiofalo, Giovanna Morigi(参考訳) 長距離相互作用を持つ系における幾何学的フラストレーションは、ほとんど未開拓の現象である。 この研究は、周期ポテンシャルとウィグナー結晶の1次元における競合から生じる基底状態を分析し、同じ電荷を持つ自己組織化された粒子鎖からなる。 このシステムは、クーロン相互作用を持つフレンケル・コントロワモデルのパラダイム的実現である。 連続極限におけるクーロンソリトンの作用を導出し、長距離相互作用を持つ大規模(1+1)チリングモデルへの写像を示す。 ここで、ソリトンは効果的なディラック海上のフェルミイオン励起を帯電する。 電位と鎖の周期性のミスマッチはフラストレーションを引き起こし、クーロン自己エネルギーによって振幅が決定される化学的ポテンシャルである。 平均磁場限界は、均一な磁場を持つ長距離反強磁性スピン鎖であり、電荷密度の関数として周期構造が完全な悪魔の階段を形成することを予測している。 階段の各ステップは安定な構成相の安定性の間隔に対応し、料金のN$を1/\ln N$としてスケールする。 これは、熱力学的極限にコンペンサート・インコンメンサート相転移が存在しないことを意味する。 しかし、有限系では基底状態はフラクタル構造を持ち、トラップ内のレーザー冷却イオンの実験で測定することができる。

Geometric frustration in systems with long-range interactions is a largely unexplored phenomenon. In this work we analyse the ground state emerging from the competition between a periodic potential and a Wigner crystal in one dimension, consisting of a selforganized chain of particles with the same charge. This system is a paradigmatic realization of the Frenkel-Kontorova model with Coulomb interactions. We derive the action of a Coulomb soliton in the continuum limit and demonstrate the mapping to a massive (1+1) Thirring model with long-range interactions. Here, the solitons are charged fermionic excitations over an effective Dirac sea. The mismatch between the periodicities of potential and chain, giving rise to frustration, is a chemical potential whose amplitude is majorly determined by the Coulomb self-energy. The mean-field limit is a long-range antiferromagnetic spin chain with uniform magnetic field and predicts that the commensurate, periodic structures form a complete devil's staircase as a function of the charge density. Each step of the staircase correspond to the interval of stability of a stable commensurate phase and scales with the number $N$ of charges as $1/\ln N$. This implies that there is no commensurate-incommensurate phase transition in the thermodynamic limit. For finite systems, however, the ground state has a fractal structure that could be measured in experiments with laser-cooled ions in traps.
翻訳日:2023-11-30 09:46:27 公開日:2023-11-24
# READS-V:Skeleton-based Spatiotemporal ViGによる監視映像からのてんかん性精液の自動検出

READS-V: Real-time Automated Detection of Epileptic Seizures from Surveillance Videos via Skeleton-based Spatiotemporal ViG ( http://arxiv.org/abs/2311.14775v1 )

ライセンス: Link先を確認
Yankun Xu, Jie Yang, Wenjie Ming, Shuang Wang, Mohamad Sawan(参考訳) 正確で効率的なてんかん発作検出システムは、患者に有益である。 従来の診断法は、主に脳波(EEG)に依存しており、しばしば困難で移植不可能な解決策をもたらす。 ビデオベースの発作検出システムは、頭皮や移植された脳波デバイスの制約から患者を解放し、住宅環境におけるリモートモニタリングを可能にすることが期待されている。 従来のビデオベースの手法では、リソース不足や非効率な患者行動認識技術により、全日監視や検出遅延の短縮が不可能であった。 さらに、骨格に基づく行動認識アプローチは、微妙な発作に関連する行動を特定するのに限界がある。 これらの課題に対処するために,監視ビデオ(reads-v)からのてんかん発作の効率的,正確,リアルタイム自動検出のためのスケルトンベース時空間視覚グラフニューラルネットワーク(stvig)を提案する。 以上の結果から,stvigは,より高精度(5.9%誤差)かつ低フロップ(0.4g)の映像データに対して,従来の最先端動作認識モデルよりも優れていた。 さらに、出力確率と累積関数を組み合わせた意思決定ルールを統合することで、READS-Vシステムは5.1秒のEEGオンセット検出遅延、13.1秒の臨床的オンセット検出、ゼロの偽検出率を達成する。

An accurate and efficient epileptic seizure onset detection system can significantly benefit patients. Traditional diagnostic methods, primarily relying on electroencephalograms (EEGs), often result in cumbersome and non-portable solutions, making continuous patient monitoring challenging. The video-based seizure detection system is expected to free patients from the constraints of scalp or implanted EEG devices and enable remote monitoring in residential settings. Previous video-based methods neither enable all-day monitoring nor provide short detection latency due to insufficient resources and ineffective patient action recognition techniques. Additionally, skeleton-based action recognition approaches remain limitations in identifying subtle seizure-related actions. To address these challenges, we propose a novel skeleton-based spatiotemporal vision graph neural network (STViG) for efficient, accurate, and timely REal-time Automated Detection of epileptic Seizures from surveillance Videos (READS-V). Our experimental results indicate STViG outperforms previous state-of-the-art action recognition models on our collected patients' video data with higher accuracy (5.9% error) and lower FLOPs (0.4G). Furthermore, by integrating a decision-making rule that combines output probabilities and an accumulative function, our READS-V system achieves a 5.1 s EEG onset detection latency, a 13.1 s advance in clinical onset detection, and zero false detection rate.
翻訳日:2023-11-30 09:40:20 公開日:2023-11-24
# 異常検出のための設定特徴

Set Features for Anomaly Detection ( http://arxiv.org/abs/2311.14773v1 )

ライセンス: Link先を確認
Niv Cohen, Issar Tzachor, Yedid Hoshen(参考訳) 本稿では,通常成分の異常な組み合わせからなる試料中の異常を検出するためのセット特徴を提案する。 多くの先導的手法がサンプルの異常な部分を検出して異常を発見する。 例えば、最先端のセグメンテーションベースのアプローチでは、まずサンプルの各要素(例えばイメージパッチ)を正常または異常に分類し、その後、異常要素を含む場合、サンプル全体を異常に分類する。 しかし、そのようなアプローチは、異常が通常の要素の異常な組み合わせによって表現されるシナリオにうまく及ばない。 本稿では,各サンプルをその要素の分布でモデル化する集合的特徴を提案することで,この制限を克服する。 固定特徴量を用いた簡易密度推定法を用いて各試料の異常スコアを算出する。 このアプローチは,画像レベルの論理異常検出とシーケンスレベルの時系列異常検出において,これまでの最先端を上回っている。

This paper proposes set features for detecting anomalies in samples that consist of unusual combinations of normal elements. Many leading methods discover anomalies by detecting an unusual part of a sample. For example, state-of-the-art segmentation-based approaches, first classify each element of the sample (e.g., image patch) as normal or anomalous and then classify the entire sample as anomalous if it contains anomalous elements. However, such approaches do not extend well to scenarios where the anomalies are expressed by an unusual combination of normal elements. In this paper, we overcome this limitation by proposing set features that model each sample by the distribution of its elements. We compute the anomaly score of each sample using a simple density estimation method, using fixed features. Our approach outperforms the previous state-of-the-art in image-level logical anomaly detection and sequence-level time series anomaly detection.
翻訳日:2023-11-30 09:39:54 公開日:2023-11-24
# trainwreck: 画像分類器に対する敵対的な攻撃

Trainwreck: A damaging adversarial attack on image classifiers ( http://arxiv.org/abs/2311.14772v1 )

ライセンス: Link先を確認
Jan Zah\'alka(参考訳) 敵攻撃はコンピュータビジョン(CV)にとって重要なセキュリティ上の問題であり、悪意のある攻撃者が確実にCVモデルを操作できるようにする。 既存の攻撃は、攻撃者が望む出力を引き出すことを目的としているが、モデルを完全にクリーンなデータに保持する。 CVモデルは応用実践においてますます価値ある資産となりつつあり、新たな攻撃ベクトルが出現しつつある。 本稿は,対象モデルにダメージを与え,被害による総コストを最大化しようとする攻撃的攻撃(daas)の探索について述べる。 本稿では, DAAの先駆者として, 画像分類器の訓練データに悪影響を及ぼし, 性能を低下させるTrawreckを提案する。 Trainwreckは、Spirthy(\epsilon \leq 8/255$)クラスペアの普遍摂動を用いて、同様のクラスのデータを膨らませる。 Trainwreckはブラックボックスで転送可能な攻撃で、ターゲットモデルのアーキテクチャに関する知識を必要とせず、単一の有毒データセットがトレーニングされたモデルのパフォーマンスを劣化させる。 CIFAR-10とCIFAR-100の実験的な評価により、TrawreckはEfficientNetV2、ResNeXt-101、微調整されたViT-L-16など、様々なモデルアーキテクチャにおける効果的な攻撃であることが示された。 攻撃の強さは、毒率パラメータによってカスタマイズできる。 最後に、ファイルハッシュおよび/または画素差を伴うデータ冗長性を、Trawreckや他のDAAに対する信頼性の高い防御技術として同定する。 コードはhttps://github.com/janzahalka/trainwreckで入手できる。

Adversarial attacks are an important security concern for computer vision (CV), as they enable malicious attackers to reliably manipulate CV models. Existing attacks aim to elicit an output desired by the attacker, but keep the model fully intact on clean data. With CV models becoming increasingly valuable assets in applied practice, a new attack vector is emerging: disrupting the models as a form of economic sabotage. This paper opens up the exploration of damaging adversarial attacks (DAAs) that seek to damage the target model and maximize the total cost incurred by the damage. As a pioneer DAA, this paper proposes Trainwreck, a train-time attack that poisons the training data of image classifiers to degrade their performance. Trainwreck conflates the data of similar classes using stealthy ($\epsilon \leq 8/255$) class-pair universal perturbations computed using a surrogate model. Trainwreck is a black-box, transferable attack: it requires no knowledge of the target model's architecture, and a single poisoned dataset degrades the performance of any model trained on it. The experimental evaluation on CIFAR-10 and CIFAR-100 demonstrates that Trainwreck is indeed an effective attack across various model architectures including EfficientNetV2, ResNeXt-101, and a finetuned ViT-L-16. The strength of the attack can be customized by the poison rate parameter. Finally, data redundancy with file hashing and/or pixel difference are identified as a reliable defense technique against Trainwreck or similar DAAs. The code is available at https://github.com/JanZahalka/trainwreck.
翻訳日:2023-11-30 09:39:38 公開日:2023-11-24
# 不完全なチャネルの協調とコミュニケーションを学ぶ

Learning to Cooperate and Communicate Over Imperfect Channels ( http://arxiv.org/abs/2311.14770v1 )

ライセンス: Link先を確認
Jannis Weil, Gizem Ekinci, Heinz Koeppl, Tobias Meuser(参考訳) マルチエージェントシステムにおける情報交換は、エージェント間の協調性、特に部分的に観測可能な設定を改善する。 現実世界では、しばしば不完全なチャンネル上でコミュニケーションが行われる。 これは、潜在的な情報損失による不確実性に対処するエージェントを必要とする。 本稿では,エージェントが限定的かつ信頼性の低いチャネルを用いて分散的に情報交換を行う協調型マルチエージェントシステムについて検討する。 このようなチャネル制約に対処するため,独立したQ-ラーニングに基づく新しいコミュニケーション手法を提案する。 本手法により,エージェントは,局所的な観測やチャネルの特性に応じて,異なるサイズのメッセージを送信することで,共有する情報量に動的に適応できる。 このメッセージサイズの選択に加えて、エージェントはメッセージのエンコードとデコードを学び、共同でトレーニングされたポリシーを改善する。 提案手法は,新しい協調予測環境において適応能力のないアプローチよりも優れており,その限界を交通ジャンクション環境において議論している。

Information exchange in multi-agent systems improves the cooperation among agents, especially in partially observable settings. In the real world, communication is often carried out over imperfect channels. This requires agents to handle uncertainty due to potential information loss. In this paper, we consider a cooperative multi-agent system where the agents act and exchange information in a decentralized manner using a limited and unreliable channel. To cope with such channel constraints, we propose a novel communication approach based on independent Q-learning. Our method allows agents to dynamically adapt how much information to share by sending messages of different sizes, depending on their local observations and the channel's properties. In addition to this message size selection, agents learn to encode and decode messages to improve their jointly trained policies. We show that our approach outperforms approaches without adaptive capabilities in a novel cooperative digit-prediction environment and discuss its limitations in the traffic junction environment.
翻訳日:2023-11-30 09:39:08 公開日:2023-11-24
# adadiff:高速拡散のための適応ステップ選択

AdaDiff: Adaptive Step Selection for Fast Diffusion ( http://arxiv.org/abs/2311.14768v1 )

ライセンス: Link先を確認
Hui Zhang and Zuxuan Wu and Zhen Xing and Jie Shao and Yu-Gang Jiang(参考訳) 拡散モデル(Diffusion model)は、生成モデルの一種であり、テキスト条件で条件付けされた画像やビデオを生成するという印象的な結果を得た。 しかしながら、拡散モデルの生成プロセスは、計算コストが高いフォトリアリスティックな画像/ビデオを生成するための数十のステップをデノベーションすることを含む。 スピードアップのために ``one-size-fits-all'' アプローチを設計する従来の方法とは異なり、デノナイズステップは入力テキストのリッチ性に基づいてサンプル固有条件で設計されるべきである。 この目的のために,インスタンス固有のステップ利用ポリシーを学習するために設計された軽量フレームワークであるAdaDiffを紹介した。 AdaDiffはポリシー勾配法を用いて最適化され、注意深く設計された報酬関数を最大化し、推論時間と生成品質のバランスをとる。 我々は3つの画像生成と2つのビデオ生成のベンチマーク実験を行い、提案手法がベースラインと比較して視覚的品質の点で類似した結果が得られることを実証した。 さらに,本手法は,より情報的なテキスト条件により多くのステップを割り当て,より単純なテキスト条件に少ないステップを割り当てることを示す。

Diffusion models, as a type of generative models, have achieved impressive results in generating images and videos conditioned on textual conditions. However, the generation process of diffusion models involves denoising for dozens of steps to produce photorealistic images/videos, which is computationally expensive. Unlike previous methods that design ``one-size-fits-all'' approaches for speed up, we argue denoising steps should be sample-specific conditioned on the richness of input texts. To this end, we introduce AdaDiff, a lightweight framework designed to learn instance-specific step usage policies, which are then used by the diffusion model for generation. AdaDiff is optimized using a policy gradient method to maximize a carefully designed reward function, balancing inference time and generation quality. We conduct experiments on three image generation and two video generation benchmarks and demonstrate that our approach achieves similar results in terms of visual quality compared to the baseline using a fixed 50 denoising steps while reducing inference time by at least 33%, going as high as 40%. Furthermore, our qualitative analysis shows that our method allocates more steps to more informative text conditions and fewer steps to simpler text conditions.
翻訳日:2023-11-30 09:38:49 公開日:2023-11-24
# コロンビアのエネルギー部門におけるArduinoとZigbee技術による低コストHEM

Low-Cost HEM with Arduino and Zigbee Technologies in the Energy Sector in Colombia ( http://arxiv.org/abs/2311.14767v1 )

ライセンス: Link先を確認
Zurisaddai de la Cruz Severiche Maury and Ana Fernandez Vilas and Rebeca Diaz Redondo(参考訳) コロンビアでは住宅レベルでの電力消費を減らすためのソリューションが提案されていないため、低コストホームエネルギー管理システム(HEMS)の簡易プロトタイプの設計と実装について述べる。 本研究の目的は、一般的な家庭用機器のエネルギー消費を監視し、各機器のエネルギー消費を個別に利用し、家庭内でのエネルギー消費を減らすための戦略を確立することである。 本システムの有効性を示すため, インライン型およびオフライン型HEMSを用いた週次エネルギー消費測定を, 典型的な家庭用機器を用いたテストベンチを用いて行った。 評価の結果,このHEMSの導入により,消費は27%減少した。 これは、低コストシステムで良好な削減率を達成可能であることを示している。

Since no solutions have been proposed in Colombia that seek to reduce the consumption of electricity at the residential level, this paper describes the design and implementation of a simple prototype of a low-cost home energy management system (HEMS). The objective of this plat-form is to monitor the energy consumption of typical household devices so that users can access the consumption of each device separately and then establish the strategy that allows them to reduce energy consumption at home. In order to demonstrate that our system is viable, the system has been evaluated by measuring weekly energy consumption with the on-line and off-line HEMS using a test bench with typical household devices in a Sincelejo typical household. The evaluation has shown that with the installation of this HEMS, consumption is reduced by 27%. This shows that it is possible to achieve a good reduction percentage with a low-cost system.
翻訳日:2023-11-30 09:38:11 公開日:2023-11-24
# 統計的フィードバックによる強化学習: abテストからantテストへの旅

Reinforcement Learning from Statistical Feedback: the Journey from AB Testing to ANT Testing ( http://arxiv.org/abs/2311.14766v1 )

ライセンス: Link先を確認
Feiyang Han and Yimin Wei and Zhaofeng Liu and Yanxing Qi(参考訳) RLHF(Reinforcement Learning from Human Feedback)は、ChatGPTのような大型モデルの成功に重要な役割を果たしている。 RLHFは、人間のフィードバックを組み合わせて学習効率と性能を改善する強化学習フレームワークである。 しかし、手動で好みのフィードバックを得ることは、商用アプリケーションでは極めて高価である。 いくつかの統計的な商業指標は、通常より価値が高く、RLHFでは無視される。 商業目標とモデルトレーニングの間にはギャップがある。 本研究は, 統計的手法であるABテストを用いて, このギャップを人間のフィードバックではなく統計的ビジネスフィードバックで埋める試みである。 ABテストに基づく統計的フィードバック(RLSF)からの強化学習を提案する。 統計的推論手法を用いて報酬ネットワークを訓練し、強化学習フレームワークにおいて事前学習されたモデルを微調整し、より大きなビジネス価値を達成する。 さらに、1つの時刻で2つの選択でABテストを拡張し、異なるフィードバック時間で複数の選択でANTテストに拡張する。 さらに,アルゴリズムフレームワークの有効性を検証するために数値経験を設計する。

Reinforcement Learning from Human Feedback (RLHF) has played a crucial role in the success of large models such as ChatGPT. RLHF is a reinforcement learning framework which combines human feedback to improve learning effectiveness and performance. However, obtaining preferences feedback manually is quite expensive in commercial applications. Some statistical commercial indicators are usually more valuable and always ignored in RLHF. There exists a gap between commercial target and model training. In our research, we will attempt to fill this gap with statistical business feedback instead of human feedback, using AB testing which is a well-established statistical method. Reinforcement Learning from Statistical Feedback (RLSF) based on AB testing is proposed. Statistical inference methods are used to obtain preferences for training the reward network, which fine-tunes the pre-trained model in reinforcement learning framework, achieving greater business value. Furthermore, we extend AB testing with double selections at a single time-point to ANT testing with multiple selections at different feedback time points. Moreover, we design numerical experiences to validate the effectiveness of our algorithm framework.
翻訳日:2023-11-30 09:37:45 公開日:2023-11-24
# SafeSea: 逆・低確率海洋条件のための合成データ生成

SafeSea: Synthetic Data Generation for Adverse & Low Probability Maritime Conditions ( http://arxiv.org/abs/2311.14764v1 )

ライセンス: Link先を確認
Martin Tran, Jordan Shipard, Hermawan Mulyono, Arnold Wiliem, Clinton Fookes(参考訳) オブジェクト検出モデルの堅牢性を高めるためには,高品質なトレーニングデータが不可欠である。 海事領域内では、特に嵐の状況において海事物体の存在下で海事画像の撮影が困難であることから、多様な実画像データセットの取得が特に困難である。 これらの課題は、海洋物体の予測不能な外観に加えて、資源の制限によって生じる。 それでも、嵐の状況からデータを取得することは、特に現実世界の状況が予測不可能な捜索・救助のための効果的な海洋検出モデルの訓練に不可欠である。 本研究では,海洋の物体を保持しながら,海面背景の異なる海面画像を変換するためのステップストーンであるSafeSeaを紹介する。 安定拡散インパインティング~\cite{stablediffusion}のような既存の生成方法と比較して、このアプローチは、海洋物体検出モデルのトレーニングのための合成データセットを作成するのに必要な時間と労力を削減します。 提案手法は2つの自動フィルタを用いて生成した画像のみを通過させる。 特に、これらのフィルタは、まず海の状態に応じて海況を分類し、入力画像からのオブジェクトがまだ保存されているかどうかをチェックする。 この方法はSafeSeaデータセットの作成を可能にし、海洋モデルのトレーニングを補完するさまざまな気象条件の背景を提供する。 最後に, 海洋物体検出モデルは, 気象条件が検出精度に及ぼす影響を強調して, 嵐海背景の物体検出における課題に直面した。 コードとデータセットはhttps://github.com/martin-3240/safeseaで入手できる。

High-quality training data is essential for enhancing the robustness of object detection models. Within the maritime domain, obtaining a diverse real image dataset is particularly challenging due to the difficulty of capturing sea images with the presence of maritime objects , especially in stormy conditions. These challenges arise due to resource limitations, in addition to the unpredictable appearance of maritime objects. Nevertheless, acquiring data from stormy conditions is essential for training effective maritime detection models, particularly for search and rescue, where real-world conditions can be unpredictable. In this work, we introduce SafeSea, which is a stepping stone towards transforming actual sea images with various Sea State backgrounds while retaining maritime objects. Compared to existing generative methods such as Stable Diffusion Inpainting~\cite{stableDiffusion}, this approach reduces the time and effort required to create synthetic datasets for training maritime object detection models. The proposed method uses two automated filters to only pass generated images that meet the criteria. In particular, these filters will first classify the sea condition according to its Sea State level and then it will check whether the objects from the input image are still preserved. This method enabled the creation of the SafeSea dataset, offering diverse weather condition backgrounds to supplement the training of maritime models. Lastly, we observed that a maritime object detection model faced challenges in detecting objects in stormy sea backgrounds, emphasizing the impact of weather conditions on detection accuracy. The code, and dataset are available at https://github.com/martin-3240/SafeSea.
翻訳日:2023-11-30 09:36:58 公開日:2023-11-24
# アナログ量子シミュレーションにおける確率的誤差キャンセル

Stochastic error cancellation in analog quantum simulation ( http://arxiv.org/abs/2311.14818v1 )

ライセンス: Link先を確認
Yiyi Cai, Yu Tong, John Preskill(参考訳) アナログ量子シミュレーションは、短期量子デバイス上の多体物理学における古典的に難解な問題を解決するための有望な経路である。 しかし、ノイズの存在はシステムのサイズとシミュレートできる時間の長さを制限している。 我々の研究では、シミュレータの実際のハミルトニアンが、ランダムで偏りのないと仮定される小さな局所摂動でシミュレートしたいターゲットハミルトニアンと異なる誤差モデルを考える。 本研究では,可観測領域に蓄積された誤差を分析し,確率的誤差キャンセリングにより,線形ではなく量子ビット数の平方根として誤差がスケールすることを示す。 この誤差の集中現象と熱力学的極限における局所観測性への影響について検討する。

Analog quantum simulation is a promising path towards solving classically intractable problems in many-body physics on near-term quantum devices. However, the presence of noise limits the size of the system and the length of time that can be simulated. In our work, we consider an error model in which the actual Hamiltonian of the simulator differs from the target Hamiltonian we want to simulate by small local perturbations, which are assumed to be random and unbiased. We analyze the error accumulated in observables in this setting and show that, due to stochastic error cancellation, with high probability the error scales as the square root of the number of qubits instead of linearly. We explore the concentration phenomenon of this error as well as its implications for local observables in the thermodynamic limit.
翻訳日:2023-11-30 09:30:18 公開日:2023-11-24
# 初期のフォールトトレラント量子コンピューティング

Early Fault-Tolerant Quantum Computing ( http://arxiv.org/abs/2311.14814v1 )

ライセンス: Link先を確認
Amara Katabarwa, Katerina Gratsea, Athena Caesura, Peter D. Johnson(参考訳) 過去10年間で、量子コンピューティングの研究は、短期中間スケール量子(NISQ)とフォールトトレラント量子コンピューティング(FTQC)の2つのキャンプの1つに該当する傾向にある。 しかし、ますます多くの研究が、この2つの時代間の遷移において量子コンピュータをどのように使うかを調査している。 これは、数万から数百万の物理キュービットで動作し、フォールトトレラントなプロトコルをサポートすることを想定している。 この2つの課題は、継続的に改善されているデバイスのパフォーマンスをモデル化する方法と、これらのデバイスを最大限活用するためのアルゴリズムの設計方法だ。 本研究では,早期フォールトトレラント量子コンピューティング(EFTQC)アーキテクチャの性能評価モデルを開発し,このモデルを用いて,そのようなアーキテクチャに適合するアルゴリズムが有利である条件を解明する。 As a concrete example, we show that, for the canonical task of phase estimation, in a regime of moderate scalability and using just over one million physical qubits, the ``reach'' of the quantum computer can be extended (compared to the standard approach) from 90-qubit instances to over 130-qubit instances using a simple early fault-tolerant quantum algorithm, which reduces the number of operations per circuit by a factor of 100 and increases the number of circuit repetitions by a factor of 10,000. このことは、そのようなアルゴリズムがリミテッドスケーラブル量子コンピューティングの時代に果たす役割を明らかにしている。

Over the past decade, research in quantum computing has tended to fall into one of two camps: near-term intermediate scale quantum (NISQ) and fault-tolerant quantum computing (FTQC). Yet, a growing body of work has been investigating how to use quantum computers in transition between these two eras. This envisions operating with tens of thousands to millions of physical qubits, able to support fault-tolerant protocols, though operating close to the fault-tolerant threshold. Two challenges emerge from this picture: how to model the performance of devices that are continually improving and how to design algorithms to make the most use of these devices? In this work we develop a model for the performance of early fault-tolerant quantum computing (EFTQC) architectures and use this model to elucidate the regimes in which algorithms suited to such architectures are advantageous. As a concrete example, we show that, for the canonical task of phase estimation, in a regime of moderate scalability and using just over one million physical qubits, the ``reach'' of the quantum computer can be extended (compared to the standard approach) from 90-qubit instances to over 130-qubit instances using a simple early fault-tolerant quantum algorithm, which reduces the number of operations per circuit by a factor of 100 and increases the number of circuit repetitions by a factor of 10,000. This clarifies the role that such algorithms might play in the era of limited-scalability quantum computing.
翻訳日:2023-11-30 09:30:01 公開日:2023-11-24
# データからテキストへのバイリンガル生成

Data-to-Text Bilingual Generation ( http://arxiv.org/abs/2311.14808v1 )

ライセンス: Link先を確認
Guy Lapalme(参考訳) この文書は、単一のデータソースから2つの平行テキスト(英語とフランス語)を生成するためのpyrealbの使用を説明している。 データ選択とテキスト組織プロセスは2つの言語間で共有される。 言語依存の言葉と 言い換えの選択だけが 異なるプロセスです 実現されたテキストは、翻訳で失われることなく、両方の言語で同じ情報を伝達する。 これは厳格かつ同時的なバイリンガル主義を必要とする場合に特に重要である。 まず,このアプローチを対象とするアプリケーションの種類と,pyrealb english と french realizer を用いて,この目標を自然な方法で達成する方法を提案する。 両言語で便利な実現を実現するために,オブジェクト指向の組織について述べる。 プロセスを説明するために、異なるタイプのアプリケーションがソースコードへのリンクで簡単にスケッチされる。 テキスト生成の簡単な比較は、GPTのインスタンスの出力と与えられる。

This document illustrates the use of pyrealb for generating two parallel texts (English and French) from a single source of data. The data selection and text organisation processes are shared between the two languages. only language dependent word and phrasing choices are distinct processes. The realized texts thus convey identical information in both languages without the risk of being lost in translation. This is especially important in cases where strict and simultaneous bilingualism is required. We first present the types of applications targeted by this approach and how the pyrealb English and French realizer can be used for achieving this goal in a natural way. We describe an object-oriented organization to ensure a convenient realization in both languages. To illustrate the process, different types of applications are then briefly sketched with links to the source code. A brief comparison of the text generation is given with the output of an instance of a GPT.
翻訳日:2023-11-30 09:29:36 公開日:2023-11-24
# ジェンダーとラシアルステレオタイプによる大規模言語モデルの評価

Evaluating Large Language Models through Gender and Racial Stereotypes ( http://arxiv.org/abs/2311.14788v1 )

ライセンス: Link先を確認
Ananya Malik(参考訳) 言語モデル(Language Models)は、NLPコミュニティと一般市民の間で、AIの新しい時代を後押ししてきた。 センシティブな意思決定シナリオにおいて予測、世代、その応用を行うAIの能力は、これらのモデルが存在し、誇張される可能性のあるバイアスについて研究することがさらに重要である。 本研究では,2種類の偏見(性別と人種)を前提として,品質比較研究を行い,言語モデルを評価する枠組みを確立する。 新しいモデルでは、古いモデルに比べて性バイアスが大幅に減少しているが、人種バイアスは依然として存在する。

Language Models have ushered a new age of AI gaining traction within the NLP community as well as amongst the general population. AI's ability to make predictions, generations and its applications in sensitive decision-making scenarios, makes it even more important to study these models for possible biases that may exist and that can be exaggerated. We conduct a quality comparative study and establish a framework to evaluate language models under the premise of two kinds of biases: gender and race, in a professional setting. We find out that while gender bias has reduced immensely in newer models, as compared to older ones, racial bias still exists.
翻訳日:2023-11-30 09:29:24 公開日:2023-11-24
# GPT-4V:歩行者行動予測のための約束と課題の評価

GPT-4V Takes the Wheel: Evaluating Promise and Challenges for Pedestrian Behavior Prediction ( http://arxiv.org/abs/2311.14786v1 )

ライセンス: Link先を確認
Jia Huang, Peng Jiang, Alvika Gautam, and Srikanth Saripalli(参考訳) 既存の歩行者行動予測手法は、主にビデオフレームシーケンスから抽出された特徴を利用するディープニューラルネットワークに依存している。 これらの視覚ベースのモデルは有望な結果を示しているが、ターゲット歩行者とその周辺交通要素間の動的時空間的相互作用を効果的に捉え、活用するための制限に直面している。 さらに、これらのモデルのトレーニングには、コストが高く、時間がかかり、新しい環境やシナリオへの一般化が難しいプロセスである、ドメイン固有のデータセットを手動でアノテートする必要がある。 近年のLMM(Large Multimodal Models)の出現は、視覚的理解と因果推論能力が優れているため、これらの制限に対する潜在的な解決策を提供する。 GPT-4V(ision)は最先端のLarge-Language Model GPTの最新版である。 本報告は、JAAD、PIE、WiDEVIEWといった公開データセットを用いて、自動運転における歩行者行動予測におけるGPT-4Vの可能性を総合的に評価する。 GPT-4V(ision)によるゼロショット歩行者行動予測と自律走行におけるシーン理解能力の検証を行った。 しかし、依然として最先端のドメイン固有モデルには及ばない。 課題は、小さな歩行者や車両を動かせることの難しさである。 これらの制限は、この地域のさらなる研究と開発の必要性を強調している。

Existing pedestrian behavior prediction methods rely primarily on deep neural networks that utilize features extracted from video frame sequences. Although these vision-based models have shown promising results, they face limitations in effectively capturing and utilizing the dynamic spatio-temporal interactions between the target pedestrian and its surrounding traffic elements, crucial for accurate reasoning. Additionally, training these models requires manually annotating domain-specific datasets, a process that is expensive, time-consuming, and difficult to generalize to new environments and scenarios. The recent emergence of Large Multimodal Models (LMMs) offers potential solutions to these limitations due to their superior visual understanding and causal reasoning capabilities, which can be harnessed through semi-supervised training. GPT-4V(ision), the latest iteration of the state-of-the-art Large-Language Model GPTs, now incorporates vision input capabilities. This report provides a comprehensive evaluation of the potential of GPT-4V for pedestrian behavior prediction in autonomous driving using publicly available datasets: JAAD, PIE, and WiDEVIEW. Quantitative and qualitative evaluations demonstrate GPT-4V(ision)'s promise in zero-shot pedestrian behavior prediction and driving scene understanding ability for autonomous driving. However, it still falls short of the state-of-the-art traditional domain-specific models. Challenges include difficulties in handling small pedestrians and vehicles in motion. These limitations highlight the need for further research and development in this area.
翻訳日:2023-11-30 09:29:11 公開日:2023-11-24
# 一つ:事前学習型LMと特殊設計型アダプタによる時系列解析

One Fits All: Universal Time Series Analysis by Pretrained LM and Specially Designed Adaptors ( http://arxiv.org/abs/2311.14782v1 )

ライセンス: Link先を確認
Tian Zhou, Peisong Niu, Xue Wang, Liang Sun, Rong Jin(参考訳) 自然言語処理(nlp)とコンピュータビジョン(cv)の分野における事前学習モデルの素晴らしい成果にもかかわらず、時系列分析の分野における進歩は限られている。 単一のモデルで様々なタスクを処理できるNLPやCVとは対照的に、時系列解析は依然として分類、異常検出、予測、少数ショット学習などのタスク固有の手法に大きく依存している。 時系列解析のための事前学習モデルを開発する上での大きな障害は、十分なトレーニングデータの不足である。 本研究では,何十億ものデータポイントを学習した言語やCVから事前学習したモデルを時系列解析に適用することにより,この障害を克服する。 事前学習した変圧器モデルの有効性を2つの方法で評価する。 まず,事前学習言語や画像モデルの残留ブロックにおける自己注意層とフィードフォワード層の原構造を,入力および出力に投影行列を追加することで時系列解析にFrozen Pre-trained Transformer (FPT) を用いて維持する。 さらに,予測や異常検出を含む事前学習モデルに基づく下流タスクに特化して設計された4つのユニークなアダプタを導入する。 これらのアダプタは、効率的なパラメータチューニングによりさらに強化され、すべての最先端手法と比較して性能が向上する。 (a)単純なFPTは、様々な時系列分析タスクにおいてトップレベルのパフォーマンスを達成する。 b) カスタム設計のアダプタでFPTを微調整することで、その性能をさらに高め、特殊なタスク固有モデルより優れている。

Despite the impressive achievements of pre-trained models in the fields of natural language processing (NLP) and computer vision (CV), progress in the domain of time series analysis has been limited. In contrast to NLP and CV, where a single model can handle various tasks, time series analysis still relies heavily on task-specific methods for activities such as classification, anomaly detection, forecasting, and few-shot learning. The primary obstacle to developing a pre-trained model for time series analysis is the scarcity of sufficient training data. In our research, we overcome this obstacle by utilizing pre-trained models from language or CV, which have been trained on billions of data points, and apply them to time series analysis. We assess the effectiveness of the pre-trained transformer model in two ways. Initially, we maintain the original structure of the self-attention and feedforward layers in the residual blocks of the pre-trained language or image model, using the Frozen Pre-trained Transformer (FPT) for time series analysis with the addition of projection matrices for input and output. Additionally, we introduce four unique adapters, designed specifically for downstream tasks based on the pre-trained model, including forecasting and anomaly detection. These adapters are further enhanced with efficient parameter tuning, resulting in superior performance compared to all state-of-the-art methods.Our comprehensive experimental studies reveal that (a) the simple FPT achieves top-tier performance across various time series analysis tasks; and (b) fine-tuning the FPT with the custom-designed adapters can further elevate its performance, outshining specialized task-specific models.
翻訳日:2023-11-30 09:28:47 公開日:2023-11-24
# テキストから画像へ:gpt-4visionの先端x線分析における可能性を探る

From Text to Image: Exploring GPT-4Vision's Potential in Advanced Radiological Analysis across Subspecialties ( http://arxiv.org/abs/2311.14777v1 )

ライセンス: Link先を確認
Felix Busch, Tianyu Han, Marcus Makowski, Daniel Truhn, Keno Bressem, Lisa Adams(参考訳) 本研究は,GPT-4とGPT-4Visionを画像から放射線学的特徴を認識し,テキストによる記述よりも診断可能性を高めることを示唆する。

The study evaluates and compares GPT-4 and GPT-4Vision for radiological tasks, suggesting GPT-4Vision may recognize radiological features from images, thereby enhancing its diagnostic potential over text-based descriptions.
翻訳日:2023-11-30 09:28:19 公開日:2023-11-24
# trojanedcm: ソースコードの有毒ニューラルモデルのためのリポジトリ

TrojanedCM: A Repository for Poisoned Neural Models of Source Code ( http://arxiv.org/abs/2311.14850v1 )

ライセンス: Link先を確認
Aftab Hussain, Md Rafiqul Islam Rabin, Mohammad Amin Alipour(参考訳) ソースコードの深層神経モデルのトロイの木馬研究の急速な成長に伴い、様々なトロイの木馬検出とアンラーニング技術をテストするためのベンチマークトロイの木馬モデルの開発が必要であることが観察された。 本研究では,このような手法を実験可能なトロイの木馬型コードモデルの多種多様なプールを科学コミュニティに提供することを目的とする。 ソースコードのクリーンで有毒なモデルの公開リポジトリである \textsc{trojanedcm} を提案する。 2つのコード分類タスク(欠陥検出とクローン検出)とコード生成タスク(テキストからコード生成)に対して有毒なモデルを提供する。 上記のタスクのベンチマークデータセット(Devign、BigCloneBench、ConCODE)から生成された有毒なデータセットに対して、CodeBERT、PLBART、CodeT5、CodeT5+といった、トレーニング済みの一般的なコードモデルを微調整しました。 リポジトリはまた、モデルのアーキテクチャと重みへの完全なアクセスを提供し、実践者は異なるホワイトボックス分析技術を調べることができる。 有毒モデルに加えて,ソースコードのさまざまなタスクやモデルに対して,実践者が様々な有毒化戦略を展開可能な,有毒化フレームワークも提供する。 すべての資料はこのリンクを通じてアクセス可能である。

With the rapid growth of research in trojaning deep neural models of source code, we observe that there is a need of developing a benchmark trojaned models for testing various trojan detection and unlearning techniques. In this work, we aim to provide the scientific community with a diverse pool of trojaned code models using which they can experiment with such techniques. We present \textsc{TrojanedCM}, a publicly available repository of clean and poisoned models of source code. We provide poisoned models for two code classification tasks (defect detection and clone detection) and a code generation task (text-to-code generation). We finetuned popular pretrained code models such as CodeBERT, PLBART, CodeT5, CodeT5+, on poisoned datasets that we generated from benchmark datasets (Devign, BigCloneBench, CONCODE) for the above mentioned tasks. The repository also provides full access to the architecture and weights of the models, allowing practitioners to investigate different white-box analysis techniques. In addition to the poisoned models, we also provide a poisoning framework using which practitioners can deploy various poisoning strategies for the different tasks and models of source code. All the material are accessible via this link: https://github.com/UH-SERG/TrojanedCM.
翻訳日:2023-11-29 23:24:37 公開日:2023-11-24
# OpusCleanerとOpusTrainer - 機械翻訳と大規模言語モデルのトレーニング用オープンソースツールキット

OpusCleaner and OpusTrainer, open source toolkits for training Machine Translation and Large language models ( http://arxiv.org/abs/2311.14838v1 )

ライセンス: Link先を確認
Nikolay Bogoychev, Jelmer van der Linde, Graeme Nail, Barry Haddow, Jaume Zaragoza-Bernabeu, Gema Ram\'irez-S\'anchez, Lukas Weymann, Tudor Nicolae Mateiu, Jind\v{r}ich Helcl, Mikko Aulamo(参考訳) 高品質な機械翻訳システムの開発は、新参者にとって、労働集約的で困難で混乱したプロセスである。 OpusCleaner と OpusTrainer は,プロセスを簡素化し,作業量を削減し,新規参入者の参入障壁を低くするツールである。 OpusCleanerはデータダウンロード、クリーニング、プロ処理ツールキットである。 研究者が複数の異なるソースから得られたバイリンガル(あるいはモノリンガル)データを素早くダウンロード、可視化、事前処理できるように設計されており、それぞれに品質、問題、ユニークなフィルタリング/前処理要件がある。 OpusTrainerは、大規模で堅牢な機械翻訳システムと大規模言語モデルの構築を目的とした、データスケジューリングとデータ拡張ツールである。 多くの異なるソースからの決定論的データ混合、オンザフライデータ拡張などを備えている。 これらのツールを用いて、ノイズの多いユーザ入力に頑健な高品質機械翻訳モデル、多言語モデル、用語認識モデルを作成する方法を紹介する。

Developing high quality machine translation systems is a labour intensive, challenging and confusing process for newcomers to the field. We present a pair of tools OpusCleaner and OpusTrainer that aim to simplify the process, reduce the amount of work and lower the entry barrier for newcomers. OpusCleaner is a data downloading, cleaning, and proprocessing toolkit. It is designed to allow researchers to quickly download, visualise and preprocess bilingual (or monolingual) data that comes from many different sources, each of them with different quality, issues, and unique filtering/preprocessing requirements. OpusTrainer is a data scheduling and data augmenting tool aimed at building large scale, robust machine translation systems and large language models. It features deterministic data mixing from many different sources, on-the-fly data augmentation and more. Using these tools, we showcase how we can use it to create high quality machine translation model robust to noisy user input; multilingual models and terminology aware models.
翻訳日:2023-11-29 23:24:10 公開日:2023-11-24
# テキスト画像合成検索のベンチマークロバスト性

Benchmarking Robustness of Text-Image Composed Retrieval ( http://arxiv.org/abs/2311.14837v1 )

ライセンス: Link先を確認
Shitong Sun, Jindong Gu, Shaogang Gong(参考訳) テキスト画像合成検索は、入力画像に所望の変更を記述したテキストに加えて、画像の形式で指定されたクエリを通じて対象画像を検索することを目的としている。 近年,対象画像の要求を正確に表現するために,情報豊富な画像と簡潔な言語の両方を活用する能力に注目が集まっている。 しかし、現実世界の腐敗やさらなるテキスト理解に対するこれらのアプローチの堅牢性は研究されていない。 本稿では,第1次ロバストネス研究を行い,視覚とテキストの両方における自然腐敗に対する検索の体系的解析のための3つの新しい多角化ベンチマークを確立し,さらにテクスチャ理解について検討する。 自然汚染分析には,オープンドメインとファッションドメインでそれぞれテストするためのCIRR-CとFashionIQ-Cという,2つの大規模ベンチマークデータセットを導入する。 テキスト理解分析には,テキストの数値的変化,属性の変動,オブジェクトの削除,背景の変動,微妙な評価などを含むテキスト理解機能を改善するために,修正テキストを含む生データを合成データで拡張することにより,新たな診断データセットCIRR-Dを導入する。 コードとベンチマークデータセットはhttps://github.com/suntongtong/benchmark-robustness-text-image-compose-retrievalで入手できる。

Text-image composed retrieval aims to retrieve the target image through the composed query, which is specified in the form of an image plus some text that describes desired modifications to the input image. It has recently attracted attention due to its ability to leverage both information-rich images and concise language to precisely express the requirements for target images. However, the robustness of these approaches against real-world corruptions or further text understanding has never been studied. In this paper, we perform the first robustness study and establish three new diversified benchmarks for systematic analysis of text-image composed retrieval against natural corruptions in both vision and text and further probe textural understanding. For natural corruption analysis, we introduce two new large-scale benchmark datasets, CIRR-C and FashionIQ-C for testing in open domain and fashion domain respectively, both of which apply 15 visual corruptions and 7 textural corruptions. For textural understanding analysis, we introduce a new diagnostic dataset CIRR-D by expanding the original raw data with synthetic data, which contains modified text to better probe textual understanding ability including numerical variation, attribute variation, object removal, background variation, and fine-grained evaluation. The code and benchmark datasets are available at https://github.com/SunTongtongtong/Benchmark-Robustness-Text-Image-Compose-Retrieval.
翻訳日:2023-11-29 23:23:44 公開日:2023-11-24
# Barkと検索音声変換を用いた低リソースASRのためのカスタムデータ拡張

Custom Data Augmentation for low resource ASR using Bark and Retrieval-Based Voice Conversion ( http://arxiv.org/abs/2311.14836v1 )

ライセンス: Link先を確認
Anand Kamble, Aniket Tathe, Suyash Kumbharkar, Atharva Bhandare, Anirban C. Mitra(参考訳) 本稿では,Hindiのような低リソース言語向けにカスタマイズされた共通音声データセットを構築するための2つの革新的な手法を提案する。 最初の方法論は、Sunoが開発したトランスフォーマーベースのテキストオーディオモデルであるBarkを活用し、Metaの enCodecと事前トレーニングされたHuBertモデルを組み込んで、Barkのパフォーマンスを向上させる。 第2の方法論は、検索型音声変換(RVC)を採用し、データ準備にOzenツールキットを使用している。 どちらの手法もasr技術の進歩に貢献し、非ソース言語用にカスタマイズされた共通音声データセットを構築するという課題に対する貴重な洞察を提供する。 さらに、様々なアプリケーションに対して高品質でパーソナライズされた音声生成を実現するための経路を提供する。

This paper proposes two innovative methodologies to construct customized Common Voice datasets for low-resource languages like Hindi. The first methodology leverages Bark, a transformer-based text-to-audio model developed by Suno, and incorporates Meta's enCodec and a pre-trained HuBert model to enhance Bark's performance. The second methodology employs Retrieval-Based Voice Conversion (RVC) and uses the Ozen toolkit for data preparation. Both methodologies contribute to the advancement of ASR technology and offer valuable insights into addressing the challenges of constructing customized Common Voice datasets for under-resourced languages. Furthermore, they provide a pathway to achieving high-quality, personalized voice generation for a range of applications.
翻訳日:2023-11-29 23:23:19 公開日:2023-11-24
# ハイブリッドモデルからの弱アライメントスーパービジョンによるエンドツーエンドASRの改善

Weak Alignment Supervision from Hybrid Model Improves End-to-end ASR ( http://arxiv.org/abs/2311.14835v1 )

ライセンス: Link先を確認
Jintao Jiang, Yingbo Gao, Zoltan Tuske(参考訳) 本稿では,エンド・ツー・エンド・モデリングを支援するために,アライメントの弱さを目標とする。 この目的に向けて、既存のハイブリッドasrシステムを用いて、トレーニングオーディオの三声アライメントを生成する。 次に、導出したアライメントを用いてエンコーダの特定の層にクロスエントロピー損失を生成する。 一般的な1ホットクロスエントロピー損失とは対照的に,ラベル平滑化パラメータを用いたクロスエントロピー損失を用いて監督を規則化する。 比較として,1つのホットクロスエントロピー損失とctc損失の損失重み付け実験を行った。 その結果、第3エンコーダ層に0.5のラベル平滑化パラメータと弱いアライメントを配置することは、他の2つのアプローチよりも優れており、TED-Lium 2データセットの約5%の相対的なWER削減につながることがわかった。 Tagalog のエンドツーエンド ASR システムにメソッドをアウト・オブ・ザ・ボックスで適用する場合には,同様の改善が期待できる。

In this paper, we aim to create weak alignment supervision to aid the end-to-end modeling. Towards this end, we use the existing hybrid ASR system to produce triphone alignments of the training audios. We then create a cross-entropy loss at a certain layer of the encoder using the derived alignments. In contrast to the general one-hot cross-entropy losses with or without loss weighting, here we use a cross-entropy loss with a label smoothing parameter to regularize the supervision. As a comparison, we also conduct the experiments with one-hot cross-entropy losses and CTC losses with loss weighting. The results show that placing the weak alignment supervision with the label smoothing parameter of 0.5 at the third encoder layer outperforms the other two approaches and leads to about 5% relative WER reduction on the TED-LIUM 2 dataset over the baseline. We see similar improvements when applying the method out-of-the-box on a Tagalog end-to-end ASR system.
翻訳日:2023-11-29 23:23:04 公開日:2023-11-24
# 磁気誘電体体のカシミール-金属相互作用の表面散乱膨張:絶縁体、導体、半導体の収束特性

Surface Scattering Expansion of the Casimir-Polder Interaction for Magneto-dielectric Bodies: Convergence Properties for Insulators, Conductors and Semiconductors ( http://arxiv.org/abs/2311.14833v1 )

ライセンス: Link先を確認
G. Bimonte, T. Emig(参考訳) ゆらぎ誘導力は、ゆらぎと幾何学の相互作用の指標である。 最近我々は、任意の形状と材料組成の物体間のカシミールとカシミール-ポルダー相互作用の正確な表現の多パラメータ族の存在を証明し、多散乱展開(MSE)を体間および体内多重散乱の列として認める(G. Bimonte, T. Emig, Phys. A 108, 052807 (2023)]。 このアプローチでは、体の散乱振幅(T-行列)の知識は必要ない。 本研究では,偏光粒子と巨視体とのカシミール-ポルダー相互作用に対するmseの収束特性について検討する。 絶縁体,導体,半導体などの異なるクラスの代表材料について考察する。 球面とシリンダーをベンチマークとして、滑らかな表面を持つ物体に対するカシミール・ポルダー相互作用を効率よく正確に計算できることを示した。

Fluctuation induced forces are a hallmark of the interplay of fluctuations and geometry. We recently proved the existence of a multi-parametric family of exact representations of Casimir and Casimir-Polder interactions between bodies of arbitrary shape and material composition, admitting a multiple scattering expansion (MSE) as a sequence of inter- and intra-body multiple wave scatterings [G. Bimonte, T. Emig, Phys. Rev. A 108, 052807 (2023)]. The approach requires no knowledge of the scattering amplitude (T-matrix) of the bodies. Here we investigate the convergence properties of the MSE for the Casimir-Polder interaction of a polarizable particle with a macroscopic body. We consider representative materials from different classes, such as insulators, conductors and semiconductors. Using a sphere and a cylinder as benchmarks, we demonstrate that the MSE can be used to efficiently and accurately compute the Casimir-Polder interaction for bodies with smooth surfaces.
翻訳日:2023-11-29 23:22:44 公開日:2023-11-24
# 深層力モデル:ベイズ深層学習のためのODEに基づくプロセス畳み込み

Deep Latent Force Models: ODE-based Process Convolutions for Bayesian Deep Learning ( http://arxiv.org/abs/2311.14828v1 )

ライセンス: Link先を確認
Thomas Baldwin-McDonald, Mauricio A. \'Alvarez(参考訳) 非常に非線形な力学系に存在する現象を効果的にモデル化する一方で、不確実性を正確に定量化することは困難であり、しばしば問題固有の技術を必要とする。 プロセス畳み込みの枠組みを用いて各層におけるカーネルを通常の微分方程式から導出する深いガウス的プロセスアーキテクチャからなる、この問題に対処するためのドメインに依存しないアプローチであるDLFMについて概説する。 dlfmの2つの異なる定式化は、重み空間と変分誘導点に基づくガウス過程近似を利用しており、どちらも二重確率的変分推論に適している。 本モデルが実世界の多変量時系列データにおいて高度に非線形な挙動を捉えることができることを示す。 さらに,本手法は,ベンチマーク回帰タスクにおいて,他の多くの確率モデルに匹敵する性能を実現する。 また, LFMモデルにおけるインジェクションポイントフレームワークが外挿能力に与える影響を実験的に評価した。

Effectively modeling phenomena present in highly nonlinear dynamical systems whilst also accurately quantifying uncertainty is a challenging task, which often requires problem-specific techniques. We outline the deep latent force model (DLFM), a domain-agnostic approach to tackling this problem, which consists of a deep Gaussian process architecture where the kernel at each layer is derived from an ordinary differential equation using the framework of process convolutions. Two distinct formulations of the DLFM are presented which utilise weight-space and variational inducing points-based Gaussian process approximations, both of which are amenable to doubly stochastic variational inference. We provide evidence that our model is capable of capturing highly nonlinear behaviour in real-world multivariate time series data. In addition, we find that our approach achieves comparable performance to a number of other probabilistic models on benchmark regression tasks. We also empirically assess the negative impact of the inducing points framework on the extrapolation capabilities of LFM-based models.
翻訳日:2023-11-29 23:22:07 公開日:2023-11-24
# 障壁のない量子トンネル

Quantum tunnelling without a barrier ( http://arxiv.org/abs/2311.14826v1 )

ライセンス: Link先を確認
Anne Weber, Margarita Khokhlova, and Emilio Pisanty(参考訳) トンネルは現代物理学で有名な概念であり、非古典力学の特異性を強調している。 普遍的な疑問が残る。 我々は、アト秒パルスの生成に不可欠な原子ターゲットを照らす強いレーザー場によって形成された障壁をトンネル化することに集中する。 ここでは、瞬時電界がゼロでバリアが存在しない時に予期せず発生する光トンネル現象を示す。 この強電界イオン化現象は、2つの振幅が等しいときにゼロ電界トンネルが現れる2つ目の高調波$-$でレーザー磁場の段階的な置換を導入することによって発見される。 この事象は位相的に安定な特徴であり、全てのケルディシュパラメータに現れる。 障壁のないトンネルは、準静的障壁の画像上に構築された標準的な直観と、その過程の非断熱的な性質との断絶を強調している。 本研究は高調波発生やレーザー誘起電子回折などの強磁場過程を理解する上で重要な要素となる。

Tunnelling is a renowned concept in modern physics that highlights the peculiarity of non-classical dynamics. Despite its ubiquity questions remain. We focus on tunnelling through the barrier created by a strong laser field that illuminates an atomic target, which is essential to the creation of attosecond pulses and ultimately all attosecond processes. Here, we present an optical tunnelling event that, unexpectedly, happens at a time when the instantaneous electric field is zero and there is no barrier. We discover this strong-field ionisation event by introducing the colour-switchover technique $-$ the gradual replacement of a laser field with its second harmonic $-$ within which the zero-field tunnelling appears when the two amplitudes are equal. This event is a topologically stable feature and it appears at all Keldysh parameters. The tunnelling without a barrier highlights the disconnect between the standard intuition built on the picture of a quasi-static barrier, and the nonadiabatic nature of the process. Our findings provide a key ingredient to the understanding of strong-field processes, such as high-harmonic generation and laser-induced electron diffraction, driven by the increasingly accessible class of strongly polychromatic light fields.
翻訳日:2023-11-29 23:21:49 公開日:2023-11-24
# 化学ポテンシャルの存在下での3フレーバーシュウィンガー模型の位相図の計測とゲート型量子計算による研究

Studying the phase diagram of the three-flavor Schwinger model in the presence of a chemical potential with measurement- and gate-based quantum computing ( http://arxiv.org/abs/2311.14825v1 )

ライセンス: Link先を確認
Stephan Schuster, Stefan K\"uhn, Lena Funcke, Tobias Hartung, Marc-Oliver Pleinert, Joachim von Zanthier, Karl Jansen(参考訳) 本稿では,多変量量子固有解器(VQE)のアンザッツ量子回路を提案し,化学ポテンシャルの存在下での多色シュウィンガーモデルの位相構造を探索する。 我々のansatzはパラメータの制約によって関連するモデル対称性を組み込むことができ、回路ベースや測定ベースの量子デバイスにも実装できる。 VQEの古典的シミュレーションを通して、我々のアンサッツはモデルの位相構造を捉えることができ、基底状態を高い精度で近似することができることを示す。 さらに,超伝導ゲート型量子ハードウェア上で原理実証シミュレーションを行う。 以上の結果から,本手法は現在のゲート型量子デバイスに適しており,一度使用可能な測定ベースの量子デバイスに容易に実装可能であることが示された。

We propose an ansatz quantum circuit for the variational quantum eigensolver (VQE), suitable for exploring the phase structure of the multi-flavor Schwinger model in the presence of a chemical potential. Our ansatz is capable of incorporating relevant model symmetries via constrains on the parameters, and can be implemented on circuit-based as well as measurement-based quantum devices. We show via classical simulation of the VQE that our ansatz is able to capture the phase structure of the model, and can approximate the ground state to a high level of accuracy. Moreover, we perform proof-of-principle simulations on superconducting, gate-based quantum hardware. Our results show that our approach is suitable for current gate-based quantum devices, and can be readily implemented on measurement-based quantum devices once available.
翻訳日:2023-11-29 23:21:30 公開日:2023-11-24
# 組立CNNを用いた鉄道用AI対応欠陥検出システム

A Reusable AI-Enabled Defect Detection System for Railway Using Ensembled CNN ( http://arxiv.org/abs/2311.14824v1 )

ライセンス: Link先を確認
Rahatara Ferdousi, Fedwa Laamarti, Chunsheng Yang, Abdulmotaleb El Saddik(参考訳) 正確な欠陥検出は、インテリジェント鉄道システムの信頼性を確保するために不可欠である。 現在のアプローチは、基盤となるパターンをキャプチャするために大量のデータを使用するCNNのような、単一のディープラーニングモデルに依存している。 限られたサンプルで新しい欠陥分類器を訓練すると、しばしば見当たらない画像に過度に適合し、性能が低下する。 これに対処するため、研究者は転送学習と事前学習モデルの微調整を提唱している。 しかし、転送学習に単一のバックボーンネットワークを使用すると、特定の問題領域に適さない場合、ボトルネック問題や一貫性のないパフォーマンスを引き起こす可能性がある。 これらの課題を克服するために、再利用可能なAI対応欠陥検出手法を提案する。 アンサンブル学習と移動学習モデル(VGG-19, MobileNetV3, ResNet-50)を組み合わせることにより, 分類精度を改善し, 一定の学習段階における一貫した性能を実現した。 私たちの経験的分析は、他の最先端のアプローチと比較して、より良い、より一貫性のあるパフォーマンスを示します。 この一貫性は、新しく発達した欠陥レール部品の欠陥検出システムの再利用性を示す。 そこで我々は,これらの知見が,鉄道システムのための再利用可能なAI対応ソリューションのさらなる研究と開発に役立つことを期待する。

Accurate Defect detection is crucial for ensuring the trustworthiness of intelligent railway systems. Current approaches rely on single deep-learning models, like CNNs, which employ a large amount of data to capture underlying patterns. Training a new defect classifier with limited samples often leads to overfitting and poor performance on unseen images. To address this, researchers have advocated transfer learning and fine-tuning the pre-trained models. However, using a single backbone network in transfer learning still may cause bottleneck issues and inconsistent performance if it is not suitable for a specific problem domain. To overcome these challenges, we propose a reusable AI-enabled defect detection approach. By combining ensemble learning with transfer learning models (VGG-19, MobileNetV3, and ResNet-50), we improved the classification accuracy and achieved consistent performance at a certain phase of training. Our empirical analysis demonstrates better and more consistent performance compared to other state-of-the-art approaches. The consistency substantiates the reusability of the defect detection system for newly evolved defected rail parts. Therefore we anticipate these findings to benefit further research and development of reusable AI-enabled solutions for railway systems.
翻訳日:2023-11-29 23:21:15 公開日:2023-11-24
# 線形回帰のための量子アルゴリズムの再検討:データ依存パラメータのない二次高速化

Revisiting Quantum Algorithms for Linear Regressions: Quadratic Speedups without Data-Dependent Parameters ( http://arxiv.org/abs/2311.14823v1 )

ライセンス: Link先を確認
Zhao Song, Junze Yin, Ruizhe Zhang(参考訳) 線形回帰は最も基本的な線形代数問題の1つである。 密度行列 $a \in \mathbb{r}^{n \times d}$ とベクトル $b$ が与えられると、目標は$| ax' - b \|_2^2 \leq (1+\epsilon) \min_{x} \| ax - b \|_2^2 $ となるような $x'$ を見つけることである。 最高の古典的アルゴリズムは、$O(nd) + \mathrm{poly}(d/\epsilon)$ time [Clarkson and Woodruff STOC 2013, Nelson and Nguyen FOCS 2013] を取る。 一方、量子線形回帰アルゴリズムは[wang phys]に示すように指数関数的な量子スピードアップを実現することができる。 A 96, 012335, Kerenidis and Prakash ITCS 2017, Chakraborty, Gily{\'e}n, Jeffery ICALP 2019] しかし、これらのアルゴリズムの実行時間は、例えば$\kappa(A)$、条件番号$A$など、いくつかの量子線型代数関連パラメータに依存する。 本研究では、$\widetilde{O}(\epsilon^{-1}\sqrt{n}d^{1.5}) + \mathrm{poly}(d/\epsilon)$ timeで実行される量子アルゴリズムを開発する。 データ依存パラメータに依存せずに古典的下界上の2次量子スピードアップを$n$で提供する。 さらに,本研究の結果を多重回帰とリッジ線形回帰に一般化できることを示した。

Linear regression is one of the most fundamental linear algebra problems. Given a dense matrix $A \in \mathbb{R}^{n \times d}$ and a vector $b$, the goal is to find $x'$ such that $ \| Ax' - b \|_2^2 \leq (1+\epsilon) \min_{x} \| A x - b \|_2^2 $. The best classical algorithm takes $O(nd) + \mathrm{poly}(d/\epsilon)$ time [Clarkson and Woodruff STOC 2013, Nelson and Nguyen FOCS 2013]. On the other hand, quantum linear regression algorithms can achieve exponential quantum speedups, as shown in [Wang Phys. Rev. A 96, 012335, Kerenidis and Prakash ITCS 2017, Chakraborty, Gily{\'e}n and Jeffery ICALP 2019]. However, the running times of these algorithms depend on some quantum linear algebra-related parameters, such as $\kappa(A)$, the condition number of $A$. In this work, we develop a quantum algorithm that runs in $\widetilde{O}(\epsilon^{-1}\sqrt{n}d^{1.5}) + \mathrm{poly}(d/\epsilon)$ time. It provides a quadratic quantum speedup in $n$ over the classical lower bound without any dependence on data-dependent parameters. In addition, we also show our result can be generalized to multiple regression and ridge linear regression.
翻訳日:2023-11-29 23:20:55 公開日:2023-11-24
# あいまいなopen vocabularyインスタンスセグメンテーションのためのテキストおよびクリック入力

Text and Click inputs for unambiguous open vocabulary instance segmentation ( http://arxiv.org/abs/2311.14822v1 )

ライセンス: Link先を確認
Nikolai Warner, Meera Hahn, Jonathan Huang, Irfan Essa, Vighnesh Birodkar(参考訳) セグメンテーションは画像内のオブジェクトをピクセル単位のきめ細かいスケールでローカライズする。 人間のループによるセグメント化の利点は、前景と背景のクリックの組み合わせを使ってセグメントへのオブジェクトの追加入力を提供する。 タスクにはフォトエディタや新しいデータセットアノテーションが含まれており、人間のアノテーションはピクセルレベルのアノテーションではなく、既存のセグメンテーションモデルを活用する。 そこで我々は,画像入力としてモデルを取り込むテキスト+クリックセグメンテーション,セグメンテーションにクラスを記述するテキストフレーズ,セグメンテーションにインスタンスを指定する前景クリックという新しいセグメンテーションプロセスを提案する。 従来のアプローチと比較して,オープンボキャブラリな画像テキストモデルを活用して,幅広いテキストプロンプトをサポートする。 テキストプロンプトの条件付けセグメンテーションは、新規クラスや未公開クラスのセグメンテーションの精度を向上させる。 ユーザが指定した1つのフォアグラウンドクリックとテキストプロンプトを組み合わせることで、モデルが"tie"や"suit"、"person"といった、重複や共起のセマンティックカテゴリをより曖昧にすることができることを示す。 これらの結果は、refCOCO、COCO、VOC、OpenImagesなどの一般的なセグメンテーションデータセットにまたがって研究される。 ソースコードはこちら。

Segmentation localizes objects in an image on a fine-grained per-pixel scale. Segmentation benefits by humans-in-the-loop to provide additional input of objects to segment using a combination of foreground or background clicks. Tasks include photoediting or novel dataset annotation, where human annotators leverage an existing segmentation model instead of drawing raw pixel level annotations. We propose a new segmentation process, Text + Click segmentation, where a model takes as input an image, a text phrase describing a class to segment, and a single foreground click specifying the instance to segment. Compared to previous approaches, we leverage open-vocabulary image-text models to support a wide-range of text prompts. Conditioning segmentations on text prompts improves the accuracy of segmentations on novel or unseen classes. We demonstrate that the combination of a single user-specified foreground click and a text prompt allows a model to better disambiguate overlapping or co-occurring semantic categories, such as "tie", "suit", and "person". We study these results across common segmentation datasets such as refCOCO, COCO, VOC, and OpenImages. Source code available here.
翻訳日:2023-11-29 23:20:16 公開日:2023-11-24
# ニューラル量子状態の忠実度とオーバーラップ:モンテカルロ推定器上の誤差境界

Fidelity and Overlap of Neural Quantum States: Error Bounds on the Monte Carlo Estimator ( http://arxiv.org/abs/2311.14820v1 )

ライセンス: Link先を確認
Tomasz Szo{\l}dra(参考訳) 2つの神経量子状態間の重なりをモンテカルロサンプリングにより計算し、基底構成のサブセット上の非正規化確率振幅を評価する。 推定器における確率振幅比の存在は、おそらく非有界であるので、この量の収束はすぐには明らかではない。 我々の研究は、モンテカルロ計算における重なり合いに関する解析的誤差境界の導出を、その忠実度とサンプル数の関数として提供する。 正規化自己回帰型神経量子状態の特別な場合を別々に解析する。

Overlap between two neural quantum states can be computed through Monte Carlo sampling by evaluating the unnormalized probability amplitudes on a subset of basis configurations. Due to the presence of probability amplitude ratios in the estimator, which are possibly unbounded, convergence of this quantity is not immediately obvious. Our work provides a derivation of analytical error bounds on the overlap in the Monte Carlo calculations as a function of their fidelity and the number of samples. Special case of normalized autoregressive neural quantum states is analyzed separately.
翻訳日:2023-11-29 23:19:51 公開日:2023-11-24
# 流体型熱管理システム設計の進展:グラフ回帰と効率的な列挙削減のためにグラフニューラルネットワークを活用する

Advancing Fluid-Based Thermal Management Systems Design: Leveraging Graph Neural Networks for Graph Regression and Efficient Enumeration Reduction ( http://arxiv.org/abs/2311.14874v1 )

ライセンス: Link先を確認
Saeid Bayat, Nastaran Shahmansouri, Satya RT Peddada, Alex Tessier, Adrian Butscher, James T Allison(参考訳) 本研究では,最適設計候補を迅速かつ効率的に同定することを目的として,最適熱管理システム設計の様々な側面を表現するグラフベースフレームワークを開発した。 当初は、グラフベースのフレームワークを使用して、多様な熱管理システムアーキテクチャを生成する。 これらのシステムアーキテクチャのダイナミクスは様々な負荷条件でモデル化され、各システムの最適性能を決定するためにオープンループ最適制御器が使用される。 これらのモデル化されたケースはデータセットを構成し、対応する最適なパフォーマンス値はデータのラベルとして機能する。 その後のステップでは、ラベル付きデータの30%でグラフニューラルネットワーク(GNN)モデルをトレーニングし、システムのパフォーマンスを予測し、回帰問題に効果的に対処する。 このトレーニングモデルを利用して、テストセットとして機能する残りの70%のデータのパフォーマンス値を推定する。 第3のステップでは、予測したパフォーマンス値を使用してテストデータのランク付けを行い、設計シナリオの優先順位付けが容易になる。 具体的には、推定ランクが最も高いテストデータの小さなサブセットは、オープンループ最適制御ソルバによる評価を行う。 このターゲットとなるアプローチは、GNNが特定した高階デザインの評価に集中し、すべての設計事例の徹底的な検索(列挙に基づく)を置き換える。 その結果、最適設計シナリオを特定するために必要なシステムの動的モデリングと最適制御解析の数が92%以上減少した。

In this research, we developed a graph-based framework to represent various aspects of optimal thermal management system design, with the aim of rapidly and efficiently identifying optimal design candidates. Initially, the graph-based framework is utilized to generate diverse thermal management system architectures. The dynamics of these system architectures are modeled under various loading conditions, and an open-loop optimal controller is employed to determine each system's optimal performance. These modeled cases constitute the dataset, with the corresponding optimal performance values serving as the labels for the data. In the subsequent step, a Graph Neural Network (GNN) model is trained on 30% of the labeled data to predict the systems' performance, effectively addressing a regression problem. Utilizing this trained model, we estimate the performance values for the remaining 70% of the data, which serves as the test set. In the third step, the predicted performance values are employed to rank the test data, facilitating prioritized evaluation of the design scenarios. Specifically, a small subset of the test data with the highest estimated ranks undergoes evaluation via the open-loop optimal control solver. This targeted approach concentrates on evaluating higher-ranked designs identified by the GNN, replacing the exhaustive search (enumeration-based) of all design cases. The results demonstrate a significant average reduction of over 92% in the number of system dynamic modeling and optimal control analyses required to identify optimal design scenarios.
翻訳日:2023-11-29 23:09:58 公開日:2023-11-24
# 大規模影響の追跡:パブリックコメントと規制当局の反応をリンクするコントラスト学習アプローチ

Tracing Influence at Scale: A Contrastive Learning Approach to Linking Public Comments and Regulator Responses ( http://arxiv.org/abs/2311.14871v1 )

ライセンス: Link先を確認
Linzi Xing, Brad Hackinen, Giuseppe Carenini(参考訳) 米国の連邦規制当局は毎年、企業、利害団体、および一般市民から100万通以上のコメントレターを受け取り、いずれも提案された規則の変更を提唱している。 これらのコメントは公共政策に幅広い影響を与えていると考えられている。 しかし、特定のコメントの影響を測定することは、規制当局がコメントに対応する必要があるが、対処しているコメントを指定する必要はないため、難しい。 本稿では,公開コメントから回答へのテキストマッチングを目的としたニューラルネットワークモデルを反復的コントラスト法を用いて学習することにより,この問題に対する単純かつ効果的な解法を提案する。 提案手法は,人間がアノテーションしたテストセット上で選択したテキストマッチングベースラインを実質的に上回っていることを示す。 さらに、最も先進的な巨大言語モデル(GPT-4)に匹敵するパフォーマンスを提供し、より大規模なコメント処理やレギュレータ応答のマッチングにおいてコスト効率が高い。

U.S. Federal Regulators receive over one million comment letters each year from businesses, interest groups, and members of the public, all advocating for changes to proposed regulations. These comments are believed to have wide-ranging impacts on public policy. However, measuring the impact of specific comments is challenging because regulators are required to respond to comments but they do not have to specify which comments they are addressing. In this paper, we propose a simple yet effective solution to this problem by using an iterative contrastive method to train a neural model aiming for matching text from public comments to responses written by regulators. We demonstrate that our proposal substantially outperforms a set of selected text-matching baselines on a human-annotated test set. Furthermore, it delivers performance comparable to the most advanced gigantic language model (i.e., GPT-4), and is more cost-effective when handling comments and regulator responses matching in larger scale.
翻訳日:2023-11-29 23:09:37 公開日:2023-11-24
# 感情知識を用いたクロスドメインヘイトスピーチの一般化

Improving Cross-Domain Hate Speech Generalizability with Emotion Knowledge ( http://arxiv.org/abs/2311.14865v1 )

ライセンス: Link先を確認
Shi Yin Hong and Susan Gauch(参考訳) 信頼度の高い自動ヘイトスピーチ(HS)検出システムは、ヘイトスピーチを抑えるために、多様な新しいデータの流入に適応する必要がある。 しかし、ヘイトスピーチ検出システムは一般的に、トレーニングで使用されるデータと異なるヘイトスピーチを特定するための汎用性を欠いている。 本研究では,マルチタスクアーキテクチャにおける感情知識を活用し,クロスドメイン環境でのヘイトスピーチ検出の一般化性を向上させる,ヘイトスピーチ一般化フレームワークを提案する。 感情のカテゴリー範囲が異なる感情コーパスを調査し,感情知識の提供のための最善のコーパススコープを決定し,一般的なヘイトスピーチ検出を促進する。 さらに,ヘイトスピーチに適応した事前学習型トランスフォーマーモデルと,その感情に富んだヘイトスピーチ一般化モデルへの影響について検討した。 我々は、異なるオンラインドメインから得られる6つの公開データセットについて広範な実験を行い、我々の感情に富んだHS検出一般化手法が、クロスドメイン評価における一貫した一般化改善を示し、一般化性能を18.1%、平均クロスドメイン性能を8.5%向上させることを示した。

Reliable automatic hate speech (HS) detection systems must adapt to the in-flow of diverse new data to curtail hate speech. However, hate speech detection systems commonly lack generalizability in identifying hate speech dissimilar to data used in training, impeding their robustness in real-world deployments. In this work, we propose a hate speech generalization framework that leverages emotion knowledge in a multitask architecture to improve the generalizability of hate speech detection in a cross-domain setting. We investigate emotion corpora with varying emotion categorical scopes to determine the best corpus scope for supplying emotion knowledge to foster generalized hate speech detection. We further assess the relationship between using pretrained Transformers models adapted for hate speech and its effect on our emotion-enriched hate speech generalization model. We perform extensive experiments on six publicly available datasets sourced from different online domains and show that our emotion-enriched HS detection generalization method demonstrates consistent generalization improvement in cross-domain evaluation, increasing generalization performance up to 18.1% and average cross-domain performance up to 8.5%, according to the F1 measure.
翻訳日:2023-11-29 23:09:20 公開日:2023-11-24
# 局所曲率プロファイルによる効率的な構造符号化

Effective Structural Encodings via Local Curvature Profiles ( http://arxiv.org/abs/2311.14864v1 )

ライセンス: Link先を確認
Lukas Fesser, Melanie Weber(参考訳) 構造的および位置的エンコーディングは、下流タスクにおけるグラフニューラルネットワークの性能を著しく向上させることができる。 最近の文献では、これらのアプローチがエンコードする構造的性質の違いや、それらの間のパフォーマンス上のトレードオフを体系的に研究し始めた。 しかし、どの構造的性質が最も効果的なエンコーディングをもたらすかという問題は未解決のままである。 本稿では,この質問を幾何学的観点から検討する。 本稿では,離散的リッチ曲率(局所曲率プロファイル,短いlcp)に基づく新しい構造的符号化法を提案する。 さらに,LCPなどの局所的構造符号化とグローバルな位置符号化を組み合わせることで,下流の性能が向上することを示す。 最後に、異なるエンコーディングタイプと(曲線ベース)リワイリングテクニックを比較した。 rewiringは最近、オーバースムーシング効果とオーバースワッシング効果を緩和することで、グラフニューラルネットワークのパフォーマンスを向上させる能力によって、注目を集めている。 以上の結果から,構造エンコーディングにおける曲率情報の利用により,再生よりも大幅に性能が向上することが示唆された。

Structural and Positional Encodings can significantly improve the performance of Graph Neural Networks in downstream tasks. Recent literature has begun to systematically investigate differences in the structural properties that these approaches encode, as well as performance trade-offs between them. However, the question of which structural properties yield the most effective encoding remains open. In this paper, we investigate this question from a geometric perspective. We propose a novel structural encoding based on discrete Ricci curvature (Local Curvature Profiles, short LCP) and show that it significantly outperforms existing encoding approaches. We further show that combining local structural encodings, such as LCP, with global positional encodings improves downstream performance, suggesting that they capture complementary geometric information. Finally, we compare different encoding types with (curvature-based) rewiring techniques. Rewiring has recently received a surge of interest due to its ability to improve the performance of Graph Neural Networks by mitigating over-smoothing and over-squashing effects. Our results suggest that utilizing curvature information for structural encodings delivers significantly larger performance increases than rewiring.
翻訳日:2023-11-29 23:08:57 公開日:2023-11-24
# 信頼できる機械学習のためのベンチマークモデル多重性に関する実証的研究:画像分類を事例として

An Empirical Investigation into Benchmarking Model Multiplicity for Trustworthy Machine Learning: A Case Study on Image Classification ( http://arxiv.org/abs/2311.14859v1 )

ライセンス: Link先を確認
Prakhar Ganesh(参考訳) ディープラーニングモデルは、非常に成功したことが証明されている。 しかし、その過度パラメータ化はモデル多重性を生じさせ、複数のモデルが同様の性能を達成するが、異なる基礎となる振る舞いを示す現象である。 この多重性は重大な課題をもたらし、デプロイ中に予期せぬ障害を防止するためにモデル選択に追加の仕様が必要となる。 先行研究はこれらの懸念を調査してきたが、個別のメトリクスを分離することに重点を置いており、信頼できる機械学習の多重性に関する包括的な見解を得ることは困難である。 私たちの研究は、モデル設計のさまざまな次元にわたる多重性のワンストップ実証ベンチマークと、その多様な信頼に値するメトリクスセットに対する影響を提供することで際立っている。 本研究では,複数の信頼に値する指標を適切な介入の下で精度に翻訳することで,モデル乗法を研究するための一貫した言語を確立する。 また,マルチプライシティシート(multiplicity sheets)と呼ばれるフレームワークを開発し,様々なシナリオでマルチプライシティをベンチマークする。 画像分類のケーススタディを通じて、セットアップの利点を実証し、モデル多重性に対する異なるハイパーパラメータの影響とトレンドに関する実用的な洞察を提供する。 最後に、モデル選択中に追加仕様を強制した後も、ディープラーニングモデルでは多重性が持続し、過剰パラメータ化の深刻さが強調されることを示した。 我々は、信頼に値する機械学習における多重性に関するより包括的な議論を促進することを目指している。

Deep learning models have proven to be highly successful. Yet, their over-parameterization gives rise to model multiplicity, a phenomenon in which multiple models achieve similar performance but exhibit distinct underlying behaviours. This multiplicity presents a significant challenge and necessitates additional specifications in model selection to prevent unexpected failures during deployment. While prior studies have examined these concerns, they focus on individual metrics in isolation, making it difficult to obtain a comprehensive view of multiplicity in trustworthy machine learning. Our work stands out by offering a one-stop empirical benchmark of multiplicity across various dimensions of model design and its impact on a diverse set of trustworthy metrics. In this work, we establish a consistent language for studying model multiplicity by translating several trustworthy metrics into accuracy under appropriate interventions. We also develop a framework, which we call multiplicity sheets, to benchmark multiplicity in various scenarios. We demonstrate the advantages of our setup through a case study in image classification and provide actionable insights into the impact and trends of different hyperparameters on model multiplicity. Finally, we show that multiplicity persists in deep learning models even after enforcing additional specifications during model selection, highlighting the severity of over-parameterization. The concerns of under-specification thus remain, and we seek to promote a more comprehensive discussion of multiplicity in trustworthy machine learning.
翻訳日:2023-11-29 23:08:40 公開日:2023-11-24
# 特徴抽出とロジスティック回帰による核融合装置の破壊予測

Disruption Prediction in Fusion Devices through Feature Extraction and Logistic Regression ( http://arxiv.org/abs/2311.14856v1 )

ライセンス: Link先を確認
Diogo R. Ferreira(参考訳) この文書は2023年9月から11月にかけてオンラインプラットフォームであるZindi上で開催されたデータサイエンスコンペであるITUによるMulti-Machine Disruption Prediction Challenge for Fusion Energyで使用されたアプローチを記述している。 コンペティションでは、C-Mod、HL-2A、J-TEXTの3つのフュージョンデバイスからのデータと、最後の2つのトレーニングデータ、最初の1つのテストデータが含まれていた。 それぞれのデバイスには複数の診断と信号があり、この競争における重要な問題は、どの信号、特にそれらの信号のどの特徴が正確な予測に最も関係があるかを特定することだった。 ここで説明するアプローチは、信号から特徴を抽出することに基づいており、それらの特徴の上にロジスティック回帰を適用する。 各信号は独立した予測器として扱われ、最終的にそのような予測器の組み合わせがリーダーボードで1位に達した。

This document describes an approach used in the Multi-Machine Disruption Prediction Challenge for Fusion Energy by ITU, a data science competition which ran from September to November 2023, on the online platform Zindi. The competition involved data from three fusion devices - C-Mod, HL-2A, and J-TEXT - with most of the training data coming from the last two, and the test data coming from the first one. Each device has multiple diagnostics and signals, and it turns out that a critical issue in this competition was to identify which signals, and especially which features from those signals, were most relevant to achieve accurate predictions. The approach described here is based on extracting features from signals, and then applying logistic regression on top of those features. Each signal is treated as a separate predictor and, in the end, a combination of such predictors achieved the first place on the leaderboard.
翻訳日:2023-11-29 23:08:17 公開日:2023-11-24
# 言語誘導コモンセマンティック空間における統一医用画像事前訓練

Unified Medical Image Pre-training in Language-Guided Common Semantic Space ( http://arxiv.org/abs/2311.14851v1 )

ライセンス: Link先を確認
Xiaoxuan He, Yifan Yang, Xinyang Jiang, Xufang Luo, Haoji Hu, Siyun Zhao, Dongsheng Li, Yuqing Yang, Lili Qiu(参考訳) 視覚言語前訓練(vlp)は、医療画像とそれに対応するレポート間の意味的一致を利用して、医療画像の分析の利点を示している。 視覚表現を効率的に学習し、複雑な画像データの分析と解釈を容易にする。 しかしながら、そのような観察は、主に単一のモダリティデータ(主にX線のような2次元画像)で正当化されており、実際のシナリオにおける医用画像の統一表現の学習にVLPを適用することは、未解決の課題である。 これは医学画像から生じるもので、しばしば様々なモダリティ、特に様々な次元を持つモダリティ(例えばComputed Tomographyのような3D画像)を含んでいる。 上記の課題を克服するために、診断報告を共通意味空間として活用し、医用画像(特に2Dおよび3D画像)の多様なモダリティの統一表現を作成する統一医用画像事前訓練フレームワークUniMedIを提案する。 テキストの指導の下,視覚モダリティ情報を効果的に解明し,病変を含む2次元x線およびスライスの患部を高度3次元ctスキャンで同定し,最終的には様々な医用画像モード間の一貫性を高める。 UniMedIの有効性と汎用性を実証するため,10種類のデータセットにまたがる2次元画像と3次元画像の性能を評価し,分類,セグメンテーション,検索などの幅広い医療画像タスクを網羅した。 UniMedIは、ダウンストリームタスクにおいて優れたパフォーマンスを示し、普遍的な医用視覚表現を確立する効果を示している。

Vision-Language Pre-training (VLP) has shown the merits of analysing medical images, by leveraging the semantic congruence between medical images and their corresponding reports. It efficiently learns visual representations, which in turn facilitates enhanced analysis and interpretation of intricate imaging data. However, such observation is predominantly justified on single-modality data (mostly 2D images like X-rays), adapting VLP to learning unified representations for medical images in real scenario remains an open challenge. This arises from medical images often encompass a variety of modalities, especially modalities with different various number of dimensions (e.g., 3D images like Computed Tomography). To overcome the aforementioned challenges, we propose an Unified Medical Image Pre-training framework, namely UniMedI, which utilizes diagnostic reports as common semantic space to create unified representations for diverse modalities of medical images (especially for 2D and 3D images). Under the text's guidance, we effectively uncover visual modality information, identifying the affected areas in 2D X-rays and slices containing lesion in sophisticated 3D CT scans, ultimately enhancing the consistency across various medical imaging modalities. To demonstrate the effectiveness and versatility of UniMedI, we evaluate its performance on both 2D and 3D images across 10 different datasets, covering a wide range of medical image tasks such as classification, segmentation, and retrieval. UniMedI has demonstrated superior performance in downstream tasks, showcasing its effectiveness in establishing a universal medical visual representation.
翻訳日:2023-11-29 23:07:59 公開日:2023-11-24
# 次世代交通監視:ai支援移動交通違反検知システム

Next-gen traffic surveillance: AI-assisted mobile traffic violation detection system ( http://arxiv.org/abs/2311.16179v1 )

ライセンス: Link先を確認
Dila Dede, Mehmet Ali Sars{\i}l, Ata Shaker, Olgu Alt{\i}nta\c{s}, Onur Ergen(参考訳) 交通事故は世界的な公衆衛生上の重大な懸念をもたらし、負傷、死亡、車両の損傷に繋がる。 交通事故で毎日1300万人が命を落としている[世界保健機関、2022年]。 この問題に対処するためには、正確な交通法違反検知システムが必要である。 機械学習とコンピュータビジョンを活用した人工知能アルゴリズムの統合により、正確な交通規制の実施が促進された。 本稿では,コンピュータビジョンと機械学習によって,さまざまなトラヒック違反を検出するロバストなアルゴリズムの作成を実現する方法について述べる。 我々のモデルは、一般的な6つの交通違反を識別し、赤信号違反、脱線レーンの違法使用、車間距離の違反、横断歩道法違反、違法駐車、および横断歩道の駐車を検出する。 オンライントラヒック映像と自己マウントオンダッシュカメラを用いて,車,歩行者,交通標識などのトラヒックエージェントを識別するためのyolov5アルゴリズムの検出モジュールと,フレーム間連続追跡のためのstrongsortアルゴリズムを適用した。 6つの離散アルゴリズムがエージェントの行動と軌道を分析し、違反を検出する。 その後、識別モジュールは、ライセンスプレートなどの車両ID情報を抽出して、関連する当局に送られた違反通知を生成する。

Road traffic accidents pose a significant global public health concern, leading to injuries, fatalities, and vehicle damage. Approximately 1,3 million people lose their lives daily due to traffic accidents [World Health Organization, 2022]. Addressing this issue requires accurate traffic law violation detection systems to ensure adherence to regulations. The integration of Artificial Intelligence algorithms, leveraging machine learning and computer vision, has facilitated the development of precise traffic rule enforcement. This paper illustrates how computer vision and machine learning enable the creation of robust algorithms for detecting various traffic violations. Our model, capable of identifying six common traffic infractions, detects red light violations, illegal use of breakdown lanes, violations of vehicle following distance, breaches of marked crosswalk laws, illegal parking, and parking on marked crosswalks. Utilizing online traffic footage and a self-mounted on-dash camera, we apply the YOLOv5 algorithm's detection module to identify traffic agents such as cars, pedestrians, and traffic signs, and the strongSORT algorithm for continuous interframe tracking. Six discrete algorithms analyze agents' behavior and trajectory to detect violations. Subsequently, an Identification Module extracts vehicle ID information, such as the license plate, to generate violation notices sent to relevant authorities.
翻訳日:2023-11-29 21:40:37 公開日:2023-11-24
# UniHPE:コントラスト学習による統一された人文推定を目指して

UniHPE: Towards Unified Human Pose Estimation via Contrastive Learning ( http://arxiv.org/abs/2311.16477v1 )

ライセンス: Link先を確認
Zhongyu Jiang, Wenhao Chai, Lei Li, Zhuoran Zhou, Cheng-Yen Yang, Jenq-Neng Hwang(参考訳) 近年,複数のモダリティからの情報を組み合わせる効果的な知覚技術開発への関心が高まっている。 これには、さまざまなソースから得られた特徴を調整して、より大きなデータセットと制約によるより効率的なトレーニングを可能にし、各モダリティに含まれる豊富な情報を活用することが含まれる。 2d と 3d human pose estimation (hpe) はコンピュータビジョンにおける2つの重要な知覚課題であり、アクション認識、人間とコンピュータのインタラクション、オブジェクトの追跡など多くの下流アプリケーションがある。 しかし、画像と2D/3D人間のポーズの相関が対照的なパラダイムを用いて明らかに研究されているケースは限られている。 本論文では,これら3つの特徴,すなわち2次元のポーズ推定,リフトベース,画像ベースの3次元ポーズ推定を同一のパイプラインで整列する,統一的なポーズ推定パイプラインであるunihpeを提案する。 2つのモダリティを同時に整合させるため,異なるモダリティの整合性が向上し,性能がさらに向上する,新しい特異値に基づくコントラスト学習損失を提案する。 我々の評価では、MPJPEはHuman3.6Mデータセットで50.5$mm、PAMPJPEは3DPWデータセットで51.6$mmである。 提案手法はコンピュータビジョンの分野を前進させ,様々な応用に寄与する大きな可能性を秘めている。

In recent times, there has been a growing interest in developing effective perception techniques for combining information from multiple modalities. This involves aligning features obtained from diverse sources to enable more efficient training with larger datasets and constraints, as well as leveraging the wealth of information contained in each modality. 2D and 3D Human Pose Estimation (HPE) are two critical perceptual tasks in computer vision, which have numerous downstream applications, such as Action Recognition, Human-Computer Interaction, Object tracking, etc. Yet, there are limited instances where the correlation between Image and 2D/3D human pose has been clearly researched using a contrastive paradigm. In this paper, we propose UniHPE, a unified Human Pose Estimation pipeline, which aligns features from all three modalities, i.e., 2D human pose estimation, lifting-based and image-based 3D human pose estimation, in the same pipeline. To align more than two modalities at the same time, we propose a novel singular value based contrastive learning loss, which better aligns different modalities and further boosts the performance. In our evaluation, UniHPE achieves remarkable performance metrics: MPJPE $50.5$mm on the Human3.6M dataset and PAMPJPE $51.6$mm on the 3DPW dataset. Our proposed method holds immense potential to advance the field of computer vision and contribute to various applications.
翻訳日:2023-11-29 20:28:34 公開日:2023-11-24
# デモフュージョン:高解像度画像生成を$$$なしで民主化

DemoFusion: Democratising High-Resolution Image Generation With No $$$ ( http://arxiv.org/abs/2311.16973v1 )

ライセンス: Link先を確認
Ruoyi Du, Dongliang Chang, Timothy Hospedales, Yi-Zhe Song, Zhanyu Ma(参考訳) 生成人工知能(GenAI)による高解像度画像生成は、大きな可能性を持っているが、トレーニングに必要な巨額の資本投資のため、少数の大企業に集中化され、ペイウォールの後ろに隠れている。 本稿では,ハイレゾ世代のフロンティアを広範に確保しつつ,高レゾリューションなGenAIを民主化することを目的とする。 既存の潜在拡散モデル (LDM) は高解像度画像生成のための未解決ポテンシャルを有することを示す。 新しいdemofusionフレームワークはオープンソースのgenaiモデルをシームレスに拡張し,プログレッシブアップスケーリング,スキップ残差,拡張サンプリング機構を用いて高分解能画像生成を実現する。 DemoFusionのプログレッシブな性質はより多くのパスを必要とするが、中間結果は"プレビュー"として機能し、迅速な反復を容易にする。

High-resolution image generation with Generative Artificial Intelligence (GenAI) has immense potential but, due to the enormous capital investment required for training, it is increasingly centralised to a few large corporations, and hidden behind paywalls. This paper aims to democratise high-resolution GenAI by advancing the frontier of high-resolution generation while remaining accessible to a broad audience. We demonstrate that existing Latent Diffusion Models (LDMs) possess untapped potential for higher-resolution image generation. Our novel DemoFusion framework seamlessly extends open-source GenAI models, employing Progressive Upscaling, Skip Residual, and Dilated Sampling mechanisms to achieve higher-resolution image generation. The progressive nature of DemoFusion requires more passes, but the intermediate results can serve as "previews", facilitating rapid prompt iteration.
翻訳日:2023-11-29 17:42:45 公開日:2023-11-24
# geochat: リモートセンシングのための大視野言語モデル

GeoChat: Grounded Large Vision-Language Model for Remote Sensing ( http://arxiv.org/abs/2311.15826v1 )

ライセンス: Link先を確認
Kartik Kuckreja, Muhammad Sohail Danish, Muzammal Naseer, Abhijit Das, Salman Khan, Fahad Shahbaz Khan(参考訳) 大規模視覚言語モデル(vlms)の最近の進歩は、自然画像領域において大きな期待を示しており、ユーザーは所定の視覚コンテンツについて対話することができる。 しかし、そのような汎用ドメインVLMはリモートセンシング(RS)のシナリオでは不十分であり、RSドメイン固有のクエリを提示すると不正確な情報や偽情報が発生する。 このような行動は、RS画像によってもたらされるユニークな課題によって現れる。 例えば、カテゴリや多数の小さなオブジェクトにわたる多様なスケール変化を伴う高解像度RS画像を扱うためには、全体論的シーン解釈とともに、地域レベルの推論が必要である。 さらに、データに続くドメイン固有のマルチモーダル命令の欠如とrsの強力なバックボーンモデルにより、モデルがユーザのクエリと協調することを困難にしている。 これらの制約に対処するため、我々はGeoChatを提案する。GeoChatは、マルチタスク対話機能と高解像度RS画像を提供する初の汎用リモートセンシングVLMである。 特にgeochatは、画像レベルの問い合わせに答えるだけでなく、地域固有の対話を保持するために地域入力を受け付けることができる。 さらに,空間座標を参照することにより,物体の応答を視覚的にグラウンドすることができる。 ドメイン固有のデータセットの欠如に対処するため、既存の多様なRSデータセットから画像テキストペアを拡張することで、新しいRSマルチモーダル命令フォローデータセットを生成する。 rsマルチタスク会話の総合ベンチマークを作成し,いくつかのベースライン手法との比較を行った。 geochatは、画像や領域のキャプション、視覚的な質問応答、シーン分類、視覚的な接地された会話、参照検出など、さまざまなrsタスクで堅牢なゼロショットパフォーマンスを示す。 私たちのコードはhttps://github.com/mbzuai-oryx/geochatで利用可能です。

Recent advancements in Large Vision-Language Models (VLMs) have shown great promise in natural image domains, allowing users to hold a dialogue about given visual content. However, such general-domain VLMs perform poorly for Remote Sensing (RS) scenarios, leading to inaccurate or fabricated information when presented with RS domain-specific queries. Such a behavior emerges due to the unique challenges introduced by RS imagery. For example, to handle high-resolution RS imagery with diverse scale changes across categories and many small objects, region-level reasoning is necessary alongside holistic scene interpretation. Furthermore, the lack of domain-specific multimodal instruction following data as well as strong backbone models for RS make it hard for the models to align their behavior with user queries. To address these limitations, we propose GeoChat - the first versatile remote sensing VLM that offers multitask conversational capabilities with high-resolution RS images. Specifically, GeoChat can not only answer image-level queries but also accepts region inputs to hold region-specific dialogue. Furthermore, it can visually ground objects in its responses by referring to their spatial coordinates. To address the lack of domain-specific datasets, we generate a novel RS multimodal instruction-following dataset by extending image-text pairs from existing diverse RS datasets. We establish a comprehensive benchmark for RS multitask conversations and compare with a number of baseline methods. GeoChat demonstrates robust zero-shot performance on various RS tasks, e.g., image and region captioning, visual question answering, scene classification, visually grounded conversations and referring detection. Our code is available at https://github.com/mbzuai-oryx/geochat.
翻訳日:2023-11-28 15:04:52 公開日:2023-11-24
# cmx:トランスフォーマーを用いたrgb-x意味セグメンテーションのためのクロスモーダル融合

CMX: Cross-Modal Fusion for RGB-X Semantic Segmentation with Transformers ( http://arxiv.org/abs/2203.04838v5 )

ライセンス: Link先を確認
Jiaming Zhang, Huayao Liu, Kailun Yang, Xinxin Hu, Ruiping Liu, Rainer Stiefelhagen(参考訳) 画像分割に基づくシーン理解は自動運転車の重要な構成要素である。 補足的モダリティ(X-モダリティ)から補足的特徴を活用することにより,RGB画像の画素ワイズセマンティックセマンティックセマンティックセマンティクスを向上することができる。 しかし、多種多様なセンサをモダリティに依存しないモデルでカバーすることは、異なるモダリティ間のセンサ特性の変化により未解決の問題のままである。 本稿では,従来のモダリティ固有手法とは異なり,RGB-Xセマンティックセマンティックセグメンテーションのための統合融合フレームワークCMXを提案する。 しばしばサプリメントや不確実性を含む様々なモダリティをうまく一般化するためには、モダリティ融合には統合されたクロスモーダル相互作用が不可欠である。 具体的には、1つのモードから特徴を活用して2つのモード特徴を校正し、他のモードの特徴を正すクロスモーダル特徴整形モジュール(CM-FRM)を設計する。 修正された特徴ペアを用いて、混合前に長距離コンテキストの十分な交換を行うためにFeature Fusion Module (FFM)をデプロイする。 CMXを初めて検証するために、RGB、すなわち深さ、熱、偏光、事象、LiDARに相補する5つのモードを統一する。 5つのRGB-Depthベンチマーク、RGB-Thermal、RGB-Polarization、RGB-LiDARデータセットで最先端のパフォーマンスを達成するため、CMXは多様なマルチモーダル融合によく対応している。 さらに,データ融合の汎用性を検討するために,イベントスケープデータセットに基づくrgbイベントセマンティクスセグメンテーションベンチマークを構築し,cmxが新たな最先端を設定する。 CMXのソースコードはhttps://github.com/huaaaliu/RGBX_Semantic_Segmentationで公開されている。

Scene understanding based on image segmentation is a crucial component of autonomous vehicles. Pixel-wise semantic segmentation of RGB images can be advanced by exploiting complementary features from the supplementary modality (X-modality). However, covering a wide variety of sensors with a modality-agnostic model remains an unresolved problem due to variations in sensor characteristics among different modalities. Unlike previous modality-specific methods, in this work, we propose a unified fusion framework, CMX, for RGB-X semantic segmentation. To generalize well across different modalities, that often include supplements as well as uncertainties, a unified cross-modal interaction is crucial for modality fusion. Specifically, we design a Cross-Modal Feature Rectification Module (CM-FRM) to calibrate bi-modal features by leveraging the features from one modality to rectify the features of the other modality. With rectified feature pairs, we deploy a Feature Fusion Module (FFM) to perform sufficient exchange of long-range contexts before mixing. To verify CMX, for the first time, we unify five modalities complementary to RGB, i.e., depth, thermal, polarization, event, and LiDAR. Extensive experiments show that CMX generalizes well to diverse multi-modal fusion, achieving state-of-the-art performances on five RGB-Depth benchmarks, as well as RGB-Thermal, RGB-Polarization, and RGB-LiDAR datasets. Besides, to investigate the generalizability to dense-sparse data fusion, we establish an RGB-Event semantic segmentation benchmark based on the EventScape dataset, on which CMX sets the new state-of-the-art. The source code of CMX is publicly available at https://github.com/huaaaliu/RGBX_Semantic_Segmentation.
翻訳日:2023-11-28 05:20:54 公開日:2023-11-24
# XAutoML - 自動機械学習を理解し検証するためのビジュアル分析ツール

XAutoML: A Visual Analytics Tool for Understanding and Validating Automated Machine Learning ( http://arxiv.org/abs/2202.11954v3 )

ライセンス: Link先を確認
Marc-Andr\'e Z\"oller, Waldemar Titov, Thomas Schlegel, Marco F. Huber(参考訳) 過去10年間で、ヒューマンインタラクションを最小限に抑えたエンドツーエンド機械学習(ML)パイプラインを構築するために、さまざまな自動機械学習(AutoM)システムが提案されている。 このような自動合成MLパイプラインは、競争力のあるパフォーマンスを達成することができるが、最近の研究では、AutoMLシステムの透明性の欠如と、構築されたMLパイプラインの説明の欠如により、AutoMLで構築されたモデルを信頼していないことが示されている。 MLの専門知識が異なる専門職の36のドメインエキスパート、データサイエンティスト、AutoML研究者による要件分析調査で、AutoMLの詳細な情報ニーズを収集した。 我々は、任意のAutoML最適化手順とAutoMLで構築されたMLパイプラインを説明するインタラクティブなビジュアル分析ツールであるXAutoMLを提案する。 XAutoMLは、インタラクティブな視覚化と、説明可能な人工知能(XAI)の確立したテクニックを組み合わせて、完全なAutoML手順を透過的で説明可能なものにする。 XAutoMLとJupyterLabを統合することで、経験豊富なユーザは、XAutoMLから抽出した情報に基づいて、アドホックな視覚化による視覚分析を拡張することができる。 要件分析から,同じ多様なユーザグループを用いたユーザスタディにおけるアプローチを検証する。 すべての参加者がXAutoMLから有用な情報を抽出することができ、AutoMLとAutoML最適化自体によって生成されたMLパイプラインの理解が大幅に向上した。

In the last ten years, various automated machine learning (AutoM ) systems have been proposed to build end-to-end machine learning (ML) pipelines with minimal human interaction. Even though such automatically synthesized ML pipelines are able to achieve a competitive performance, recent studies have shown that users do not trust models constructed by AutoML due to missing transparency of AutoML systems and missing explanations for the constructed ML pipelines. In a requirements analysis study with 36 domain experts, data scientists, and AutoML researchers from different professions with vastly different expertise in ML, we collect detailed informational needs for AutoML. We propose XAutoML, an interactive visual analytics tool for explaining arbitrary AutoML optimization procedures and ML pipelines constructed by AutoML. XAutoML combines interactive visualizations with established techniques from explainable artificial intelligence (XAI) to make the complete AutoML procedure transparent and explainable. By integrating XAutoML with JupyterLab, experienced users can extend the visual analytics with ad-hoc visualizations based on information extracted from XAutoML. We validate our approach in a user study with the same diverse user group from the requirements analysis. All participants were able to extract useful information from XAutoML, leading to a significantly increased understanding of ML pipelines produced by AutoML and the AutoML optimization itself.
翻訳日:2023-11-28 05:20:04 公開日:2023-11-24
# パレートフロンティアにおける機械学習のための公正なデータ表現

Fair Data Representation for Machine Learning at the Pareto Frontier ( http://arxiv.org/abs/2201.00292v4 )

ライセンス: Link先を確認
Shizhou Xu, Thomas Strohmer(参考訳) 機械学習による意思決定が日々の生活においてますます重要になるにつれて、基盤となるデータ処理の公平性のために努力することが不可欠である。 本稿では,予測誤差と統計的不一致のパレートフロンティアを教師あり学習により推定する,公平なデータ表現のための前処理アルゴリズムを提案する。 特に,本研究は,処理後のwasserstein-2のバリセンターへのアプローチに最適なアフィントランスポートを適用し,事前処理データ変形による最適fair $l^2$-objective教師付き学習のキャラクタリゼーションを行う。 さらに,学習結果の条件付分布(センシティブ情報上)からのwasserstein-2測地線は,学習結果のセンシティブグループ間のparetofrontier between $l^2$-loss and the average pairwise wasserstein-2 distanceを特徴付ける。 数値シミュレーションでは,(1)事前処理ステップは任意の条件予測推定学習手法と未知のデータとを併用し,(2)公正表現は,その機密データに対する残余データの推論能力を制限することによりセンシティブ情報を保護し,(3)高次元データにおいても最適アフィンマップは計算的に効率的である。

As machine learning powered decision-making becomes increasingly important in our daily lives, it is imperative to strive for fairness in the underlying data processing. We propose a pre-processing algorithm for fair data representation via which supervised learning results in estimations of the Pareto frontier between prediction error and statistical disparity. Particularly, the present work applies the optimal affine transport to approach the post-processing Wasserstein-2 barycenter characterization of the optimal fair $L^2$-objective supervised learning via a pre-processing data deformation. Furthermore, we show that the Wasserstein-2 geodesics from the conditional (on sensitive information) distributions of the learning outcome to their barycenter characterizes the Pareto frontier between $L^2$-loss and the average pairwise Wasserstein-2 distance among sensitive groups on the learning outcome. Numerical simulations underscore the advantages: (1) the pre-processing step is compositive with arbitrary conditional expectation estimation supervised learning methods and unseen data; (2) the fair representation protects the sensitive information by limiting the inference capability of the remaining data with respect to the sensitive data; (3) the optimal affine maps are computationally efficient even for high-dimensional data.
翻訳日:2023-11-28 05:19:41 公開日:2023-11-24
# サブクアドラティック時間における多層オーバーパラメータニューラルネットワークの訓練

Training Multi-Layer Over-Parametrized Neural Network in Subquadratic Time ( http://arxiv.org/abs/2112.07628v2 )

ライセンス: Link先を確認
Zhao Song, Lichen Zhang, Ruizhe Zhang(参考訳) 本稿では,多層超パラメータニューラルネットワークを訓練し,損失関数による経験的リスクを最小限に抑える問題を考える。 オーバーパラメータ化の典型的な設定では、ネットワーク幅 $m$ はデータ次元 $d$ よりも大きく、トレーニングサンプルの数は $n$ (m=\mathrm{poly}(n,d)$) である。 つまり、重み行列を読み、前方計算と後方計算の両方でニューラルネットワークの機能を評価するのに、o(m^2)$を払わなければならない。 本研究では,1イテレーションあたりのトレーニングコストの削減方法を示す。 具体的には、初期化フェーズでのみ$m^2$コストを使用し、$m$、すなわち、$m^{2-\Omega(1)} の観点で \emph{a really subquadratic cost per iteration} を達成するフレームワークを提案する。 この結果は,大規模言語モデル(LLM)をデプロイする中核的な手順である微調整プロセスをさらに高速化するために,事前学習された大規模モデルの上に効率的なデータ構造を設計すると考えることができる。

We consider the problem of training a multi-layer over-parametrized neural network to minimize the empirical risk induced by a loss function. In the typical setting of over-parametrization, the network width $m$ is much larger than the data dimension $d$ and the number of training samples $n$ ($m=\mathrm{poly}(n,d)$), which induces a prohibitive large weight matrix $W\in \mathbb{R}^{m\times m}$ per layer. Naively, one has to pay $O(m^2)$ time to read the weight matrix and evaluate the neural network function in both forward and backward computation. In this work, we show how to reduce the training cost per iteration. Specifically, we propose a framework that uses $m^2$ cost only in the initialization phase and achieves \emph{a truly subquadratic cost per iteration} in terms of $m$, i.e., $m^{2-\Omega(1)}$ per iteration. Our result has implications beyond standard over-parametrization theory, as it can be viewed as designing an efficient data structure on top of a pre-trained large model to further speed up the fine-tuning process, a core procedure to deploy large language models (LLM).
翻訳日:2023-11-28 05:19:18 公開日:2023-11-24
# Proactive DP:DP-SGDのための多目的最適化フレームワーク

Proactive DP: A Multple Target Optimization Framework for DP-SGD ( http://arxiv.org/abs/2102.09030v9 )

ライセンス: Link先を確認
Marten van Dijk, Nhuong V. Nguyen, Toan N. Nguyen, Lam M. Nguyen and Phuong Ha Nguyen(参考訳) 本稿では,プロアクティブDPと呼ばれるDP-SGDの多目的最適化フレームワークを提案する。 プライバシー予算の支出を追跡するのに使用される従来のDP会計士とは対照的に、DP-SGDのパラメータを固定されたプライバシー予算($\epsilon$と$\delta$)に基づいて選択することで、期待されるユーティリティ(テスト精度)を最大限に最適化することができる。 この目的を達成するために、まず、DP-SGDセットアップの全てのパラメータを接続するクローズドフォーム$(\epsilon,\delta)$-DP保証を提示するモーメントアカウント手法の大幅な改善を提案する。 一般的に、dp-sgd は $(\epsilon\leq 1/2,\delta=1/n)$-dp if $\sigma=\sqrt{2(\epsilon +\ln(1/\delta))/\epsilon}$ であり、$t$ は少なくとも $\approx 2k^2/\epsilon$ と $(2/e)^2k^2-1/2\geq \ln(n)$ である。 私たちは、もし$t$が下限の$\approx 2k^2/\epsilon$よりも約4$小さい定数因子であるなら、$(\epsilon,\delta)$-dp保証が破られるという、我々の式が厳密なものであることを証明します。 拡張DP理論により、ユーティリティグラフとDP電卓を作成することができる。 これらのツールは、プライバシとユーティリティの目的をリンクし、最適な実験環境を探し出し、正確性とプライバシの両方の目標と実装の目標を効率的に考慮します。 我々はプロアクティブdpの包括的な実装フローを提供し,概念実証を示すための厳密な実験を行った。

We introduce a multiple target optimization framework for DP-SGD referred to as pro-active DP. In contrast to traditional DP accountants, which are used to track the expenditure of privacy budgets, the pro-active DP scheme allows one to {\it a-priori} select parameters of DP-SGD based on a fixed privacy budget (in terms of $\epsilon$ and $\delta$) in such a way to optimize the anticipated utility (test accuracy) the most. To achieve this objective, we first propose significant improvements to the moment account method, presenting a closed-form $(\epsilon,\delta)$-DP guarantee that connects all parameters in the DP-SGD setup. Generally, DP-SGD is $(\epsilon\leq 1/2,\delta=1/N)$-DP if $\sigma=\sqrt{2(\epsilon +\ln(1/\delta))/\epsilon}$ with $T$ at least $\approx 2k^2/\epsilon$ and $(2/e)^2k^2-1/2\geq \ln(N)$, where $T$ is the total number of rounds, and $K=kN$ is the total number of gradient computations where $k$ measures $K$ in number of epochs of size $N$ of the local data set. We prove that our expression is close to tight in that if $T$ is more than a constant factor $\approx 4$ smaller than the lower bound $\approx 2k^2/\epsilon$, then the $(\epsilon,\delta)$-DP guarantee is violated. Our enhanced DP theory allows us to create a utility graph and DP calculator. These tools link privacy and utility objectives and search for optimal experiment setups, efficiently taking into account both accuracy and privacy objectives, as well as implementation goals. We furnish a comprehensive implementation flow of our proactive DP, with rigorous experiments to showcase the proof-of-concept.
翻訳日:2023-11-28 05:17:28 公開日:2023-11-24
# ウィービングアーキテクチャの設計と特徴に基づく最適化のための物理制約ニューラルネットワーク

Physics-Constrained Neural Network for Design and Feature-Based Optimization of Weave Architectures ( http://arxiv.org/abs/2209.09154v2 )

ライセンス: Link先を確認
Haotian Feng, Sabarinathan P Subramaniyan, Hridyesh Tewani, Pavana Prabhakar(参考訳) 織布は、衣服やスポーツウェア、水ろ過、壁の保持といった日常的な織物や、航空宇宙、スポーツ、自動車、海洋産業などの軽量な構造のための硬い複合材料に不可欠な役割を担っている。 織り構造を構成する織りパターンと材料選択のいくつかの組み合わせは、織物や強化構造物の物理的・機械的特性にどのように影響を与えるかという課題を提起する。 本稿では, 物理制約型ニューラルネットワーク(PCNN)を用いて, 織物建築の弾性率などの力学特性と, 設計・ターゲットの弾性率値に対するパターン/材料シーケンスの逆問題を予測する。 逆問題は通常、従来の最適化アプローチを使って適切なアーキテクチャを見つけるために多くのイテレーションを必要とするため、特に難しい。 提案したPCNNは,提案した基準モデルよりも高い精度で,所望の弾性率の織り込みを効果的に予測できることを示す。 本稿では,Grey Level Co-occurrence Matrix (GLCM) における特徴量を用いた予測の最適化手法を提案する。 我々はPCNNとこの特徴に基づく最適化を組み合わせることで、ウィーブアーキテクチャの初期設計を容易にするために、ほぼ最適なウィーブアーキテクチャを発見する。 提案するフレームワークは、主に織物の複合解析と最適化プロセスを可能とし、複雑な構造解析に知識誘導ニューラルネットワークを導入する出発点となる。

Woven fabrics play an essential role in everyday textiles for clothing/sportswear, water filtration, and retaining walls, to reinforcements in stiff composites for lightweight structures like aerospace, sporting, automotive, and marine industries. Several possible combinations of weave patterns and material choices, which comprise weave architecture, present a challenging question about how they could influence the physical and mechanical properties of woven fabrics and reinforced structures. In this paper, we present a novel Physics-Constrained Neural Network (PCNN) to predict the mechanical properties like the modulus of weave architectures and the inverse problem of predicting pattern/material sequence for a design/target modulus value. The inverse problem is particularly challenging as it usually requires many iterations to find the appropriate architecture using traditional optimization approaches. We show that the proposed PCNN can effectively predict weave architecture for the desired modulus with higher accuracy than several baseline models considered. We present a feature-based optimization strategy to improve the predictions using features in the Grey Level Co-occurrence Matrix (GLCM) space. We combine PCNN with this feature-based optimization to discover near-optimal weave architectures to facilitate the initial design of weave architecture. The proposed frameworks will primarily enable the woven composite analysis and optimization process, and be a starting point to introduce Knowledge-guided Neural Networks into the complex structural analysis.
翻訳日:2023-11-28 05:09:49 公開日:2023-11-24
# CRAC 2022における \'UFAL CorPipe: 干渉分解のための多言語モデルの効果

\'UFAL CorPipe at CRAC 2022: Effectivity of Multilingual Models for Coreference Resolution ( http://arxiv.org/abs/2209.07278v2 )

ライセンス: Link先を確認
Milan Straka and Jana Strakov\'a(参考訳) CRAC 2022 における多言語照合解決のための共有タスクの受賞申請について述べる。 提案システムは,まず参照検出を解き,抽出したスパンのコア参照リンクを先行最大化手法で解き,両タスクは共有トランスフォーマー重みとともに微調整される。 各種事前学習モデルの微調整結果について報告する。 この貢献の中心は細調整された多言語モデルである。 その結果,全データセットの性能向上に十分なエンコーダを持つ大規模多言語モデルが得られたが,その利点は表現不足の言語や類型的関連言語群に限るに留まらなかった。 ソースコードはhttps://github.com/ufal/crac2022-corpipeで入手できる。

We describe the winning submission to the CRAC 2022 Shared Task on Multilingual Coreference Resolution. Our system first solves mention detection and then coreference linking on the retrieved spans with an antecedent-maximization approach, and both tasks are fine-tuned jointly with shared Transformer weights. We report results of fine-tuning a wide range of pretrained models. The center of this contribution are fine-tuned multilingual models. We found one large multilingual model with sufficiently large encoder to increase performance on all datasets across the board, with the benefit not limited only to the underrepresented languages or groups of typologically relative languages. The source code is available at https://github.com/ufal/crac2022-corpipe.
翻訳日:2023-11-28 05:09:25 公開日:2023-11-24
# マルチモーダル変分オートエンコーダのベンチマーク: CdSprites+データセットとツールキット

Benchmarking Multimodal Variational Autoencoders: CdSprites+ Dataset and Toolkit ( http://arxiv.org/abs/2209.03048v2 )

ライセンス: Link先を確認
Gabriela Sejnova, Michal Vavrecka, Karla Stepanova(参考訳) マルチモーダル変分オートエンコーダ(VAE)は、複数のモーダルを結合表現に統合し、データ分類と生成の両方のための有望なツールとして機能できるため、過去数年間で激しい研究の対象となっている。 マルチモーダルVAE学習へのいくつかのアプローチが提案されているが、その比較と評価は相容れない。 1つの理由は、モデルが実装レベルで異なるため、もう1つの問題は、これらのケースで一般的に使用されるデータセットが、当初マルチモーダル生成モデルを評価するために設計されていなかったことである。 本論文は、どちらの問題にも対処する。 まず,系統的マルチモーダルVAEトレーニングと比較のためのツールキットを提案する。 このツールキットは現在、4つの既存のマルチモーダルvaesと6つのベンチマークデータセットと、新しいモデルやデータセットを簡単に追加する方法の指示が含まれている。 第2に,複数の難易度をまたいだ共同生成とクロスジェネレーション能力の包括的評価を目的とした,アンタングル型バイモーダルデータセットを提案する。 実装した最先端モデルを比較することで,データセットの有用性を実証する。

Multimodal Variational Autoencoders (VAEs) have been the subject of intense research in the past years as they can integrate multiple modalities into a joint representation and can thus serve as a promising tool for both data classification and generation. Several approaches toward multimodal VAE learning have been proposed so far, their comparison and evaluation have however been rather inconsistent. One reason is that the models differ at the implementation level, another problem is that the datasets commonly used in these cases were not initially designed to evaluate multimodal generative models. This paper addresses both mentioned issues. First, we propose a toolkit for systematic multimodal VAE training and comparison. The toolkit currently comprises 4 existing multimodal VAEs and 6 commonly used benchmark datasets along with instructions on how to easily add a new model or a dataset. Second, we present a disentangled bimodal dataset designed to comprehensively evaluate the joint generation and cross-generation capabilities across multiple difficulty levels. We demonstrate the utility of our dataset by comparing the implemented state-of-the-art models.
翻訳日:2023-11-28 05:08:43 公開日:2023-11-24
# 非エルミート的ハミルトニアンとリンドブラッド的進化の間の連続的変換

A continuous transformation between non-Hermitian Hamiltonian and Lindbladian evolution ( http://arxiv.org/abs/2208.03310v2 )

ライセンス: Link先を確認
Daniel Finkelstein-Shapiro(参考訳) 非エルミート・ハミルトニアンとリンドブラッド作用素は、異なる種類の環境と相互作用する量子系を記述する上で最も重要な力学生成器である。 第一のタイプは粒子の崩壊を引き起こす反エルミート項による保守的進化と異なり、第二のタイプはバスとのエネルギー交換を可能にするリンドブラッド形式の散逸作用素によって異なる。 しかし、いくつかの条件下では、同じ可観測性を記述するために2種類の写像を使うことができるが、それらは解集合を形成する。 本研究では,l_\text{mixed}(z,\rho_s) = -i[h,\rho_s] + \sum_i \left(\frac{\gamma_{c,i}}{z+\gamma_{c,i}}f_i\rho_s f_i^{\dagger} -\frac{1}{2} \{f_i^{\dagger} f_i,\rho_s \}_+\right)$ を一般化し,一般エネルギー $z$ に依存し,粒子密度の程度を決定する可変パラメータ $\gamma_c$ を持つ。 制限は非エルミート(\gamma_c \to 0$)とリンドブラド力学(\gamma_c \to \infty$)である。 中間状態は、$0 \leq \text{Tr} (\rho_S) \leq 1$のような密度行列を進化させる。 粒子密度のシンクとして作用する連続体多様体の助けを借りて, 生成器を導出する。 進化は、粒子密度とエネルギーの両方を環境と交換できるシステムを記述する。 その特徴として,コヒーレント人口トラップポイントを備えた2レベルシステムと5M$レベルのシステムについて述べる。

Non-Hermitian Hamiltonians and Lindblad operators are some of the most important generators of dynamics for describing quantum systems interacting with different kinds of environments. The first type differs from conservative evolution by an anti-Hermitian term that causes particle decay, while the second type differs by a dissipation operator in Lindblad form that allows energy exchange with a bath. However, although under some conditions the two types of maps can be used to describe the same observable, they form a disjoint set. In this work, we propose a generalized generator of dynamics of the form $L_\text{mixed}(z,\rho_S) = -i[H,\rho_S] + \sum_i \left(\frac{\Gamma_{c,i}}{z+\Gamma_{c,i}}F_i\rho_S F_i^{\dagger} -\frac{1}{2} \{F_i^{\dagger} F_i,\rho_S \}_+\right)$ that depends on a general energy $z$, and has a tunable parameter $\Gamma_c$ that determines the degree of particle density lost. It has as its limits non-Hermitian ($\Gamma_c \to 0$) and Lindbladian dynamics ($\Gamma_c \to \infty$). The intermediate regime evolves density matrices such that $0 \leq \text{Tr} (\rho_S) \leq 1$. We derive our generator with the help of an ancillary continuum manifold acting as a sink for particle density. The evolution describes a system that can exchange both particle density and energy with its environment. We illustrate its features for a two level system and a five $M$ level system with a coherent population trapping point.
翻訳日:2023-11-28 05:08:08 公開日:2023-11-24
# Few-Shot Skin Disease 分類のための動的サブクラスタ・アウェアネットワーク

Dynamic Sub-Cluster-Aware Network for Few-Shot Skin Disease Classification ( http://arxiv.org/abs/2207.01072v2 )

ライセンス: Link先を確認
Shuhan LI, Xiaomeng Li, Xiaowei Xu, Kwang-Ting Cheng(参考訳) 本稿では, まれな皮膚疾患の診断精度を高めるサブクラスター・アウェア・ネットワーク(scan)と呼ばれる新しいアプローチを導入することで, 皮膚疾患分類の問題点を解決する。 SCANの設計を動機づける重要な洞察は、クラス内の皮膚疾患の画像が、外観の異なる特徴を特徴とする複数のサブクラスタをしばしば示すという観察である。 本研究は,各疾患クラスにおける特徴的サブクラスタ化表現をキャプチャし,特徴分布のキャラクタリゼーションを向上する,高品質な特徴エンコーダの学習に焦点を当てた。 特に、SCANはデュアルブランチフレームワークに従っており、第1のブランチは、異なる皮膚疾患を識別するためのクラスワイズ機能を学び、第2のブランチは、各クラスを複数のグループに効果的に分割して、各クラス内のサブクラスタ構造を保存する機能を学ぶことを目的としている。 第2のブランチの目的を達成するために,教師なしクラスタリングによる画像類似性を学習するために,クラスタロスを提案する。 各サブクラスタ内のサンプルが同一クラスであることを保証するため、さらに純度損失を設計し、教師なしクラスタリング結果を洗練する。 数発の皮膚疾患分類のための2つのパブリックデータセットに対する提案手法の評価を行った。 実験の結果,sd-198およびderm7ptデータセットの感度,特異性,正確性,f1-scoreの点で,最先端手法を約2%~5%上回った。

This paper addresses the problem of few-shot skin disease classification by introducing a novel approach called the Sub-Cluster-Aware Network (SCAN) that enhances accuracy in diagnosing rare skin diseases. The key insight motivating the design of SCAN is the observation that skin disease images within a class often exhibit multiple sub-clusters, characterized by distinct variations in appearance. To improve the performance of few-shot learning, we focus on learning a high-quality feature encoder that captures the unique sub-clustered representations within each disease class, enabling better characterization of feature distributions. Specifically, SCAN follows a dual-branch framework, where the first branch learns class-wise features to distinguish different skin diseases, and the second branch aims to learn features which can effectively partition each class into several groups so as to preserve the sub-clustered structure within each class. To achieve the objective of the second branch, we present a cluster loss to learn image similarities via unsupervised clustering. To ensure that the samples in each sub-cluster are from the same class, we further design a purity loss to refine the unsupervised clustering results. We evaluate the proposed approach on two public datasets for few-shot skin disease classification. The experimental results validate that our framework outperforms the state-of-the-art methods by around 2% to 5% in terms of sensitivity, specificity, accuracy, and F1-score on the SD-198 and Derm7pt datasets.
翻訳日:2023-11-28 05:07:00 公開日:2023-11-24
# 欠落値を用いた予測のためのパターンサブモデル共有

Sharing pattern submodels for prediction with missing values ( http://arxiv.org/abs/2206.11161v3 )

ライセンス: Link先を確認
Lena Stempfle, Ashkan Panahi, Fredrik D. Johansson(参考訳) 機械学習の多くのアプリケーションでは欠落値は避けられず、トレーニング中もテスト時にも課題が提示される。 繰り返しパターンに変数が欠けている場合、別のパターンサブモデルがソリューションとして提案されている。 しかし、フィッティングモデルが独立して利用できるデータをすべて効率的に利用するわけではない。 逆に、単一の共有モデルを全データセットに適合させるには、欠如が観測できない要因に依存する場合、しばしば偏りのある結果につながるインプテーションに依存する。 我々は、共有パターンサブモデルと呼ばれる別のアプローチを提案する。 一 テスト時に欠落した値に対して堅牢な予測を行うこと。 二 パターンサブモデルの予測力を維持又は改善すること。 三 説明が短く、解釈性が向上すること。 パラメータ共有はスパーシリティ誘導正規化によって実施され、一貫した推定が導かれる。 最後に、共有モデルが最適である場合、欠如と目標結果の両方が観測されていない変数に依存する場合も条件を与える。 合成および実世界のデータセットの分類と回帰実験により、我々のモデルはパターンの特殊化と情報共有の良好なトレードオフを達成することを示した。

Missing values are unavoidable in many applications of machine learning and present challenges both during training and at test time. When variables are missing in recurring patterns, fitting separate pattern submodels have been proposed as a solution. However, fitting models independently does not make efficient use of all available data. Conversely, fitting a single shared model to the full data set relies on imputation which often leads to biased results when missingness depends on unobserved factors. We propose an alternative approach, called sharing pattern submodels, which i) makes predictions that are robust to missing values at test time, ii) maintains or improves the predictive power of pattern submodels, and iii) has a short description, enabling improved interpretability. Parameter sharing is enforced through sparsity-inducing regularization which we prove leads to consistent estimation. Finally, we give conditions for when a sharing model is optimal, even when both missingness and the target outcome depend on unobserved variables. Classification and regression experiments on synthetic and real-world data sets demonstrate that our models achieve a favorable tradeoff between pattern specialization and information sharing.
翻訳日:2023-11-28 05:06:33 公開日:2023-11-24
# 非定常変圧器:時系列予測における定常性探索

Non-stationary Transformers: Exploring the Stationarity in Time Series Forecasting ( http://arxiv.org/abs/2205.14415v4 )

ライセンス: Link先を確認
Yong Liu, Haixu Wu, Jianmin Wang, Mingsheng Long(参考訳) トランスフォーマーは、そのグローバルレンジモデリング能力により、時系列予測において大きな力を発揮している。 しかし、それらの性能は、時間とともにジョイント分布が変化する非定常実世界データ上で著しく低下する可能性がある。 以前の研究は主に、予測可能性を改善するために元の系列の非定常性を弱めるために定常化を採用する。 しかし、本質的な非定常性を欠いた固定化されたシリーズは、現実世界のバーストイベントの予測には役に立たない。 過定常化と呼ばれるこの問題により、トランスフォーマーは、異なる系列に対して識別不能な時間的注意を発生させ、深層モデルの予測能力を妨げる。 直列予測可能性とモデル能力のジレンマに対処するために,直列固定化と非定常注意という2つの相互依存モジュールを持つ汎用フレームワークとして非定常トランスフォーマーを提案する。 具体的には、直列定常化は各入力の統計を統一し、より良い予測可能性のために復元された統計で出力を変換する。 過定常化問題に対処するため,生系列から学習した顕著な注意を近似することにより,本質的な非定常情報を時間依存に復元する。 我々の非定常トランスフォーマーフレームワークは、メインストリームトランスフォーマーを大きなマージンで継続的に強化し、トランスフォーマーで49.43%、インフォーマーで47.34%、リフォーマーで46.89%減らし、時系列予測における最先端となる。 コードは、このリポジトリで入手できる。

Transformers have shown great power in time series forecasting due to their global-range modeling ability. However, their performance can degenerate terribly on non-stationary real-world data in which the joint distribution changes over time. Previous studies primarily adopt stationarization to attenuate the non-stationarity of original series for better predictability. But the stationarized series deprived of inherent non-stationarity can be less instructive for real-world bursty events forecasting. This problem, termed over-stationarization in this paper, leads Transformers to generate indistinguishable temporal attentions for different series and impedes the predictive capability of deep models. To tackle the dilemma between series predictability and model capability, we propose Non-stationary Transformers as a generic framework with two interdependent modules: Series Stationarization and De-stationary Attention. Concretely, Series Stationarization unifies the statistics of each input and converts the output with restored statistics for better predictability. To address the over-stationarization problem, De-stationary Attention is devised to recover the intrinsic non-stationary information into temporal dependencies by approximating distinguishable attentions learned from raw series. Our Non-stationary Transformers framework consistently boosts mainstream Transformers by a large margin, which reduces MSE by 49.43% on Transformer, 47.34% on Informer, and 46.89% on Reformer, making them the state-of-the-art in time series forecasting. Code is available at this repository: https://github.com/thuml/Nonstationary_Transformers.
翻訳日:2023-11-28 05:06:17 公開日:2023-11-24
# 量子コンピュータ上の高スピン系の平均値と相関の探索

Probing mean values and correlations of high-spin systems on a quantum computer ( http://arxiv.org/abs/2205.10800v2 )

ライセンス: Link先を確認
A. R. Kuzmak, V. M. Tkachuk(参考訳) 量子コンピュータ上での高スピンのシミュレーションについて考察する。 スピンの平均値とスピン間の相関を測定するためのプロトコルを提案する。 その結果,ibmq-santiago量子コンピュータで作製した磁場中におけるスピン-1の平均値の時間依存性が決定される。 さらに、ibmq-lima量子コンピュータ上の2つの相互作用スピンの進化を研究する。 スピン1の平均値の時間依存性とこれらのスピン間の相関を検出する。 最後に、任意の値のスピンに対してこれらのプロトコルを一般化する。

We consider simulation of the high spins on a quantum computer. The protocols which allow one to measure the mean value of spin and correlations between spins are proposed. As a result, we determine the time dependence of the mean values of spin-1 in the magnetic field prepared on the ibmq-santiago quantum computer. In addition, we study the evolution of two interacting spins on the ibmq-lima quantum computer. The time-dependencies of the mean value of spin-1 and correlations between these spins are detected. Finally, we generalize these protocols for the spins of arbitrary values.
翻訳日:2023-11-28 05:05:25 公開日:2023-11-24
# MAUD: 合併合意理解のための専門家アノテーション付き法定NLPデータセット

MAUD: An Expert-Annotated Legal NLP Dataset for Merger Agreement Understanding ( http://arxiv.org/abs/2301.00876v3 )

ライセンス: Link先を確認
Steven H. Wang, Antoine Scardigli, Leonard Tang, Wei Chen, Dimitry Levkin, Anya Chen, Spencer Ball, Thomas Woodside, Oliver Zhang, Dan Hendrycks(参考訳) 法的文の理解は、法的条項の長さと複雑さ、専門家による注釈付きデータセットの不足などにより、特に困難な課題である。 この課題に対処するために,米国バー協会の2021年公開目標決定点研究に基づく専門家による注釈付き読解データセットであるMerger Agreement Understanding Dataset (MAUD)を導入し,39,000件以上のサンプルと47,000件以上の総アノテーションについて述べる。 微調整されたトランスフォーマーのベースラインは有望な結果を示し、ほとんどの質問でモデルはランダムに動作します。 しかし、多くの質問に対して、大きな改善の余地はまだあります。 唯一の専門家による合併合意データセットとして、MAUDは法律専門家とNLPコミュニティのベンチマークとして有用である。

Reading comprehension of legal text can be a particularly challenging task due to the length and complexity of legal clauses and a shortage of expert-annotated datasets. To address this challenge, we introduce the Merger Agreement Understanding Dataset (MAUD), an expert-annotated reading comprehension dataset based on the American Bar Association's 2021 Public Target Deal Points Study, with over 39,000 examples and over 47,000 total annotations. Our fine-tuned Transformer baselines show promising results, with models performing well above random on most questions. However, on a large subset of questions, there is still room for significant improvement. As the only expert-annotated merger agreement dataset, MAUD is valuable as a benchmark for both the legal profession and the NLP community.
翻訳日:2023-11-28 04:57:44 公開日:2023-11-24
# OVO:オンライン蒸留によるワンショットビジョントランスフォーマー検索

OVO: One-shot Vision Transformer Search with Online distillation ( http://arxiv.org/abs/2212.13766v2 )

ライセンス: Link先を確認
Zimian Wei, Hengyue Pan, Xin Niu, Dongsheng Li(参考訳) 最近、純粋なトランスフォーマーはビジョンタスクに大きな可能性を示しています。 しかし、中小のデータセットでの精度は十分ではない。 既存の方法では, 蒸留による指導過程を指導する教師としてcnnを導入する方法もあるが, 教師と生徒のネットワーク間のギャップは, 準最適性能に繋がる。 本研究では,オンライン蒸留を用いたワンショットビジョントランスフォーマー検索フレームワーク,すなわちOVOを提案する。 OVOは、蒸留結果を改善するために教師ネットワークと学生ネットワークの両方のサブネットをサンプリングする。 オンライン蒸留により、スーパーネットの何千ものサブネットは、余分な微調整や再訓練なしに十分に訓練されている。 実験では、OVO-TiはImageNetで73.32%、CIFAR-100で75.2%の精度を達成した。

Pure transformers have shown great potential for vision tasks recently. However, their accuracy in small or medium datasets is not satisfactory. Although some existing methods introduce a CNN as a teacher to guide the training process by distillation, the gap between teacher and student networks would lead to sub-optimal performance. In this work, we propose a new One-shot Vision transformer search framework with Online distillation, namely OVO. OVO samples sub-nets for both teacher and student networks for better distillation results. Benefiting from the online distillation, thousands of subnets in the supernet are well-trained without extra finetuning or retraining. In experiments, OVO-Ti achieves 73.32% top-1 accuracy on ImageNet and 75.2% on CIFAR-100, respectively.
翻訳日:2023-11-28 04:57:31 公開日:2023-11-24
# テンソルのサブランクの隙間

A Gap in the Subrank of Tensors ( http://arxiv.org/abs/2212.01668v2 )

ライセンス: Link先を確認
Matthias Christandl and Fulvio Gesmundo and Jeroen Zuiddam(参考訳) テンソルのサブランク(英: subrank of tensor)とは、テンソルがどれだけ「対角化」できるかの尺度である。 このパラメータは、代数的複雑性理論における高速行列乗法アルゴリズムの研究のためにストラッセンによって導入され、多くの中央テンソルパラメータ(スライスランク、パーティションランク、分析ランク、幾何ランク、G安定ランクなど)と、組合せ論、計算機科学、量子情報理論の問題に密接に関係している。 strassen (j. reine angew. math., 1988) は、テンソル積の下で大きなパワーを取るとき、サブランクにギャップがあることを証明した。 本稿では、任意の順序のテンソルに対するこの定数を正確に決定する。 さらに、次数 3 のテンソルに対して、成長の可能な速度に第二のギャップがあることを証明できる。 我々の結果はコスタとダライの最近の業績(J. Comb. Theory, Ser. A, 2021)を強化し、スライス階の類似のギャップを証明した。 この部分ランク上の定理は、スライスランクだけでなく任意の ``normalized monotone''' に対してもそのようなギャップを暗示することでより広い応用が可能となる。 主な結果を証明するために、テンソルが軌道閉包に非常に構造化されたテンソル(wテンソル)を持つときに特徴付ける。 我々の方法には、独立した関心を持つかもしれない草虫類の退化が含まれる。

The subrank of tensors is a measure of how much a tensor can be ''diagonalized''. This parameter was introduced by Strassen to study fast matrix multiplication algorithms in algebraic complexity theory and is closely related to many central tensor parameters (e.g. slice rank, partition rank, analytic rank, geometric rank, G-stable rank) and problems in combinatorics, computer science and quantum information theory. Strassen (J. Reine Angew. Math., 1988) proved that there is a gap in the subrank when taking large powers under the tensor product: either the subrank of all powers is at most one, or it grows as a power of a constant strictly larger than one. In this paper, we precisely determine this constant for tensors of any order. Additionally, for tensors of order three, we prove that there is a second gap in the possible rates of growth. Our results strengthen the recent work of Costa and Dalai (J. Comb. Theory, Ser. A, 2021), who proved a similar gap for the slice rank. Our theorem on the subrank has wider applications by implying such gaps not only for the slice rank, but for any ``normalized monotone''. In order to prove the main result, we characterize when a tensor has a very structured tensor (the W-tensor) in its orbit closure. Our methods include degenerations in Grassmanians, which may be of independent interest.
翻訳日:2023-11-28 04:55:36 公開日:2023-11-24
# CultureBERT: トランスフォーマーベースの言語モデルによる企業文化の測定

CultureBERT: Measuring Corporate Culture With Transformer-Based Language Models ( http://arxiv.org/abs/2212.00509v3 )

ライセンス: Link先を確認
Sebastian Koch and Stefan Pasch(参考訳) 本稿では,テキスト文書から企業文化を計測する文献に教師付き機械学習を導入する。 我々は、企業の企業文化に関するレビューが示す情報に関して、人的評価者によってラベル付けされた従業員レビューのユニークなデータセットをコンパイルします。 このデータセットを用いて、最先端のトランスフォーマーベースの言語モデルを微調整し、同じ分類タスクを実行する。 サンプル外予測では、我々の言語モデルは、従来のテキスト分類のアプローチよりも、人間の評価者に沿った16~28パーセントの従業員レビューを分類します。 モデルを公開しています。

This paper introduces supervised machine learning to the literature measuring corporate culture from text documents. We compile a unique data set of employee reviews that were labeled by human evaluators with respect to the information the reviews reveal about the firms' corporate culture. Using this data set, we fine-tune state-of-the-art transformer-based language models to perform the same classification task. In out-of-sample predictions, our language models classify 16 to 28 percent points more of employee reviews in line with human evaluators than traditional approaches of text classification. We make our models publicly available.
翻訳日:2023-11-28 04:55:07 公開日:2023-11-24
# visual dexterity: 新規および複雑な物体形状のインハンドリオリエンテーション

Visual Dexterity: In-Hand Reorientation of Novel and Complex Object Shapes ( http://arxiv.org/abs/2211.11744v3 )

ライセンス: Link先を確認
Tao Chen, Megha Tippur, Siyang Wu, Vikash Kumar, Edward Adelson, Pulkit Agrawal(参考訳) 道具の使用など、現在のロボットの到達範囲を超えているあまり構造化されていない環境において、多くの巧妙な操作を行うためには、手動で物体の向きを変える必要がある。 従来の作業では、単純な形状で特定のオブジェクトのみを並べ替えること、遅いまたは準静的な操作の制限、シミュレーションのみの結果、特殊でコストのかかるセンサースイートの必要性、その他の制約により、実際の配置ではシステムが利用できないと仮定していた。 このような仮定を行わない汎用オブジェクトリオリエンテーションコントローラを提案する。 単一の商品の奥行きカメラからの読み出しを使って、動的にリオリエントされたコンプレックスと新しい物体の形をリアルタイムに回転させ、中央のリオリエンテーション時間は7秒近くになる。 このコントローラーは、シミュレーションで強化学習を用いて訓練され、訓練に使われていない新しい物体の形状について現実世界で評価される。 私たちのハードウェアプラットフォームは、500ドル未満のオープンソースコンポーネントのみを使用します。 事前の作業で仮定を克服する能力を示すが、絶対的なパフォーマンスを改善するための十分なスコープがある。 例えば、トレーニングに使用されない挑戦的なダック型の物体は、試験の56%で取り下げられた。 落下しなかった場合、制御器は0.4ラジアン(23度)の時間で75%の範囲で物体を方向転換しました。 ビデオは、https://taochenshh.github.io/projects/visual-dexterity.comで公開されている。

In-hand object reorientation is necessary for performing many dexterous manipulation tasks, such as tool use in less structured environments that remain beyond the reach of current robots. Prior works built reorientation systems assuming one or many of the following: reorienting only specific objects with simple shapes, limited range of reorientation, slow or quasistatic manipulation, simulation-only results, the need for specialized and costly sensor suites, and other constraints which make the system infeasible for real-world deployment. We present a general object reorientation controller that does not make these assumptions. It uses readings from a single commodity depth camera to dynamically reorient complex and new object shapes by any rotation in real-time, with the median reorientation time being close to seven seconds. The controller is trained using reinforcement learning in simulation and evaluated in the real world on new object shapes not used for training, including the most challenging scenario of reorienting objects held in the air by a downward-facing hand that must counteract gravity during reorientation. Our hardware platform only uses open-source components that cost less than five thousand dollars. Although we demonstrate the ability to overcome assumptions in prior work, there is ample scope for improving absolute performance. For instance, the challenging duck-shaped object not used for training was dropped in 56 percent of the trials. When it was not dropped, our controller reoriented the object within 0.4 radians (23 degrees) 75 percent of the time. Videos are available at: https://taochenshh.github.io/projects/visual-dexterity.
翻訳日:2023-11-28 04:54:11 公開日:2023-11-24
# 反事実分析に基づく教師付き特徴圧縮

Supervised Feature Compression based on Counterfactual Analysis ( http://arxiv.org/abs/2211.09894v4 )

ライセンス: Link先を確認
Veronica Piccialli, Dolores Romero Morales, Cecilia Salvatore(参考訳) 反事実的説明は、ポストホックな解釈可能な機械学習のデファクトスタンダードになりつつある。 与えられた分類器と、望ましくないクラスに分類されるインスタンスについて、その反実的な説明は、分類結果を変更することができるそのインスタンスの小さな摂動に対応する。 本研究は,事前学習したブラックボックスモデルの重要な決定境界を検出するために,非現実的説明を活用することを目的とする。 この情報は、調整可能な粒度でデータセットの機能の教師付き離散化を構築するために使用される。 離散化されたデータセットを使用すると、ブラックボックスモデルに似た最適な決定木を訓練できるが、解釈可能でコンパクトである。 実世界のデータセットの数値的な結果は、精度と空間性の観点からアプローチの有効性を示している。

Counterfactual Explanations are becoming a de-facto standard in post-hoc interpretable machine learning. For a given classifier and an instance classified in an undesired class, its counterfactual explanation corresponds to small perturbations of that instance that allows changing the classification outcome. This work aims to leverage Counterfactual Explanations to detect the important decision boundaries of a pre-trained black-box model. This information is used to build a supervised discretization of the features in the dataset with a tunable granularity. Using the discretized dataset, an optimal Decision Tree can be trained that resembles the black-box model, but that is interpretable and compact. Numerical results on real-world datasets show the effectiveness of the approach in terms of accuracy and sparsity.
翻訳日:2023-11-28 04:53:44 公開日:2023-11-24
# DeepDC:画像品質評価装置としての深部距離相関

DeepDC: Deep Distance Correlation as a Perceptual Image Quality Evaluator ( http://arxiv.org/abs/2211.04927v2 )

ライセンス: Link先を確認
Hanwei Zhu, Baoliang Chen, Lingyu Zhu, Shiqi Wang, and Weisi Lin(参考訳) ImageNet Pre-trained Deep Neural Network (DNN)は、効果的な画像品質評価(IQA)モデルを構築するための顕著な転送性を示す。 このような顕著な副産物は、しばしば以前の研究において創発的性質として認識されている。 本研究では,テクスチャ特徴を用いた画像の分類を行う本質的なテクスチャ感特性を特徴とする。 この特徴をフル活用して、事前学習したDNN機能のみに基づく新しいフル参照IQA(FR-IQA)モデルを開発する。 具体的には, 深部特徴領域における参照画像と歪画像間の距離相関を, 比較的有望な統計量として計算する。 さらに、距離相関は線形特徴関係と非線形特徴関係の両方を定量化し、これは特徴空間で広く使われる一階および二階統計をはるかに超える。 5つの標準IQAデータセット,1つの知覚的類似性データセット,2つのテクスチャ類似性データセット,および1つの幾何学的変換データセットにおいて,提案した品質モデルの優位性を示す包括的な実験を行った。 さらに,ニューラル・スタイル・トランスファー(nst)のスタイル損失関数として扱うことにより,提案モデルを最適化し,テクスチャ・パターンのスペクトルを広範に生成する。 大規模な実験により, 提案したテクスチャ合成法とNST法が, 最良の定量および定性的結果をもたらすことが示された。 コードをhttps://github.com/h4nwei/DeepDCでリリースしています。

ImageNet pre-trained deep neural networks (DNNs) show notable transferability for building effective image quality assessment (IQA) models. Such a remarkable byproduct has often been identified as an emergent property in previous studies. In this work, we attribute such capability to the intrinsic texture-sensitive characteristic that classifies images using texture features. We fully exploit this characteristic to develop a novel full-reference IQA (FR-IQA) model based exclusively on pre-trained DNN features. Specifically, we compute the distance correlation, a highly promising yet relatively under-investigated statistic, between reference and distorted images in the deep feature domain. In addition, the distance correlation quantifies both linear and nonlinear feature relationships, which is far beyond the widely used first-order and second-order statistics in the feature space. We conduct comprehensive experiments to demonstrate the superiority of the proposed quality model on five standard IQA datasets, one perceptual similarity dataset, two texture similarity datasets, and one geometric transformation dataset. Moreover, we optimize the proposed model to generate a broad spectrum of texture patterns, by treating the model as the style loss function for neural style transfer (NST). Extensive experiments demonstrate that the proposed texture synthesis and NST methods achieve the best quantitative and qualitative results. We release our code at https://github.com/h4nwei/DeepDC.
翻訳日:2023-11-28 04:53:33 公開日:2023-11-24
# 高レベル人工知能の差別化リスクと制御の課題

Examining the Differential Risk from High-level Artificial Intelligence and the Question of Control ( http://arxiv.org/abs/2211.03157v4 )

ライセンス: Link先を確認
Kyle A. Kilian, Christopher J. Ventura, and Mark M. Bailey(参考訳) 人工知能(AI)は21世紀で最も革新的な技術の一つである。 将来のAI能力の範囲と範囲は依然として重要な不確実性であり、タイムラインと潜在的な影響について広く意見が分かれている。 国家やテクノロジー企業はAIシステムの複雑さと自律性に向かって競争しているため、不透明なAI決定プロセスの統合と監視の程度に懸念がある。 これは特に機械学習(ml)のサブ分野において当てはまり、システムは人間の助けなしに目的を最適化することを学ぶ。 オブジェクトは不完全な指定や、予期しないあるいは潜在的に有害な方法で実行される。 システムがパワーと自律性が増すにつれて、突然の能力の上昇が予期せぬパワーダイナミクスの変化や壊滅的な失敗を引き起こす可能性がある。 本研究では,aiリスクをモデル化する階層的複雑システムフレームワークと,代替先物分析のためのテンプレートを提案する。 調査データは、AIの影響と可能性の分類のために、パブリックおよびプライベートセクターのドメインエキスパートから収集された。 その結果、強力なaiエージェントシナリオに対する不確実性が高まり、マルチエージェント環境への信頼が高まり、aiアライメントの失敗や影響調査行動に対する懸念が高まった。

Artificial Intelligence (AI) is one of the most transformative technologies of the 21st century. The extent and scope of future AI capabilities remain a key uncertainty, with widespread disagreement on timelines and potential impacts. As nations and technology companies race toward greater complexity and autonomy in AI systems, there are concerns over the extent of integration and oversight of opaque AI decision processes. This is especially true in the subfield of machine learning (ML), where systems learn to optimize objectives without human assistance. Objectives can be imperfectly specified or executed in an unexpected or potentially harmful way. This becomes more concerning as systems increase in power and autonomy, where an abrupt capability jump could result in unexpected shifts in power dynamics or even catastrophic failures. This study presents a hierarchical complex systems framework to model AI risk and provide a template for alternative futures analysis. Survey data were collected from domain experts in the public and private sectors to classify AI impact and likelihood. The results show increased uncertainty over the powerful AI agent scenario, confidence in multiagent environments, and increased concern over AI alignment failures and influence-seeking behavior.
翻訳日:2023-11-28 04:53:07 公開日:2023-11-24
# Dungeons and Data: 大規模NetHackデータセット

Dungeons and Data: A Large-Scale NetHack Dataset ( http://arxiv.org/abs/2211.00539v3 )

ライセンス: Link先を確認
Eric Hambro, Roberta Raileanu, Danielle Rothermel, Vegard Mella, Tim Rockt\"aschel, Heinrich K\"uttler, Naila Murray(参考訳) Go、StarCraft、DOTAといったシーケンシャルな意思決定問題を解決するエージェントの開発における最近のブレークスルーは、シミュレーション環境と大規模データセットの両方に依存している。 しかし、この研究の進展は、オープンソースデータセットの不足と、それらを扱うための計算コストによって妨げられている。 本稿では,NetHack Learning Dataset(NLD)について紹介する。NetHackの人気のゲームから,大規模かつ高度にスケール可能なトラジェクトリデータセットであるNetHack Learning Dataset(NLD)について述べる。 NLDは3つの部分から構成される: 2009年から2020年にかけてNAOのパブリックNetHackサーバで収集された150万件の人間の軌道からの100億件の状態遷移、NetHack Challenge 2021の象徴的なボット勝者から収集された10万件の軌道からの30億件の国家行動スコアの遷移、そして、ユーザがその軌道のコレクションを高度に圧縮された形式で記録、読み込み、ストリームするためのコード。 我々は,オンラインおよびオフラインのrlを含む既存のアルゴリズムを評価し,実演から学ぶとともに,大規模データセットを十分に活用してシーケンシャルな意思決定タスクに挑戦するためには,重要な研究成果が必要であることを示した。

Recent breakthroughs in the development of agents to solve challenging sequential decision making problems such as Go, StarCraft, or DOTA, have relied on both simulated environments and large-scale datasets. However, progress on this research has been hindered by the scarcity of open-sourced datasets and the prohibitive computational cost to work with them. Here we present the NetHack Learning Dataset (NLD), a large and highly-scalable dataset of trajectories from the popular game of NetHack, which is both extremely challenging for current methods and very fast to run. NLD consists of three parts: 10 billion state transitions from 1.5 million human trajectories collected on the NAO public NetHack server from 2009 to 2020; 3 billion state-action-score transitions from 100,000 trajectories collected from the symbolic bot winner of the NetHack Challenge 2021; and, accompanying code for users to record, load and stream any collection of such trajectories in a highly compressed form. We evaluate a wide range of existing algorithms including online and offline RL, as well as learning from demonstrations, showing that significant research advances are needed to fully leverage large-scale datasets for challenging sequential decision making tasks.
翻訳日:2023-11-28 04:52:47 公開日:2023-11-24
# エネルギー測定は弱いカップリングを超えて熱的に最適である

Energy measurements remain thermometrically optimal beyond weak coupling ( http://arxiv.org/abs/2302.03061v4 )

ライセンス: Link先を確認
Jonas Glatthard, Karen V. Hovhannisyan, Mart\'i Perarnau-Llobet, Luis A. Correa, Harry J. D. Miller(参考訳) プローブ-サンプル相互作用において、有限結合量子温度測定の一般摂動理論を2階まで発展させる。 仮定により、プローブとサンプルは熱平衡状態にあるので、プローブは平均力ギブス状態によって記述される。 極端熱測定精度は、プローブ上の局所的なエネルギー測定によってのみ、カップリングにおける第2次から第2次まで達成できることを示す。 したがって、コヒーレンスから温度情報を抽出したり、適応スキームを考案しようとすると、この制度の実際的な利点を損なうことはない。 さらに、温度変化に対するプローブの感度を捉える量子フィッシャー情報に対して、クローズドフォーム表現を提供する。 最後に,2つの簡単な例を使って,式の使用の容易さをベンチマークし,説明します。 我々の形式主義は、動的時間スケールの分離やプローブまたはサンプルの性質について仮定しない。 したがって、熱感度と最適測定の両方について分析的洞察を提供することで、有限結合効果を無視できない系における量子温度測定への道を開くことができる。

We develop a general perturbative theory of finite-coupling quantum thermometry up to second order in probe-sample interaction. By assumption, the probe and sample are in thermal equilibrium, so the probe is described by the mean-force Gibbs state. We prove that the ultimate thermometric precision can be achieved - to second order in the coupling - solely by means of local energy measurements on the probe. Hence, seeking to extract temperature information from coherences or devising adaptive schemes confers no practical advantage in this regime. Additionally, we provide a closed-form expression for the quantum Fisher information, which captures the probe's sensitivity to temperature variations. Finally, we benchmark and illustrate the ease of use of our formulas with two simple examples. Our formalism makes no assumptions about separation of dynamical timescales or the nature of either the probe or the sample. Therefore, by providing analytical insight into both the thermal sensitivity and the optimal measurement for achieving it, our results pave the way for quantum thermometry in setups where finite-coupling effects cannot be ignored.
翻訳日:2023-11-28 04:42:41 公開日:2023-11-24
# 支援による輸送:データ-導電性拡散橋

Transport with Support: Data-Conditional Diffusion Bridges ( http://arxiv.org/abs/2301.13636v2 )

ライセンス: Link先を確認
Ella Tamir, Martin Trapp, Arno Solin(参考訳) 動的シュリンガーブリッジ問題は、最適な輸送問題として表される制約付き時系列データ生成タスクを解決するための魅力的な設定を提供する。 効率的な反復解法を用いて非線形拡散過程を学習する。 最近の研究は、最先端の結果(例えば、単細胞胚RNA配列のモデル化や複雑な後部からのサンプリング)を実証しているが、初期および終末の制約しか持たない学習ブリッジに限られている。 我々の研究はこのパラダイムを拡張し、反復スムージングブリッジ(isb)を提案している。 ベイズフィルタと最適制御を拡散過程の学習に統合し、中間段階におけるスパース観測と終端制約による制約付き確率過程の生成を可能にする。 我々は,本手法が合成および実世界のデータ生成タスクに与える影響を評価し,ISBが高次元データによく一般化し,計算効率が高く,中間時間と終時間における限界値の正確な推定値を提供することを示す。

The dynamic Schr\"odinger bridge problem provides an appealing setting for solving constrained time-series data generation tasks posed as optimal transport problems. It consists of learning non-linear diffusion processes using efficient iterative solvers. Recent works have demonstrated state-of-the-art results (eg. in modelling single-cell embryo RNA sequences or sampling from complex posteriors) but are limited to learning bridges with only initial and terminal constraints. Our work extends this paradigm by proposing the Iterative Smoothing Bridge (ISB). We integrate Bayesian filtering and optimal control into learning the diffusion process, enabling the generation of constrained stochastic processes governed by sparse observations at intermediate stages and terminal constraints. We assess the effectiveness of our method on synthetic and real-world data generation tasks and we show that the ISB generalises well to high-dimensional data, is computationally efficient, and provides accurate estimates of the marginals at intermediate and terminal times.
翻訳日:2023-11-28 04:42:24 公開日:2023-11-24
# 量子ビット系における熱電流

Heat currents in qubit systems ( http://arxiv.org/abs/2301.13544v3 )

ライセンス: Link先を確認
Hans C. Fogedby(参考訳) 現在、オープン量子系の文脈における量子熱力学への関心がある。 重要な問題は、量子熱力学の一貫性、特に熱力学の第二法則、すなわち温水貯水池から冷水貯水池への熱の流れである。 近年、複合系、特に局所あるいは大域的なマスター方程式の適用に関する問題に注目が集まっている。 この議論に寄与するために, 一つの量子ビットの例と, 異なる温度で2つの熱貯留層によって駆動される2つの結合量子ビットの単純な合成系について述べる。 大域的リンドブラッドマスター方程式アプローチの適用により、熱力学の第2法則に従って熱流の明示的な表現を提示する。 解析はボルン・マルコフ近似によって行われる。 また、定常状態におけるコヒーレンスの存在の可能性についても論じる。

There is a current interest in quantum thermodynamics in the context of open quantum systems. An important issue is the consistency of quantum thermodynamics, in particular the second law of thermodynamics, i.e., the flow of heat from a hot reservoir to a cold reservoir. Here recent emphasis has been on composite system and in particular the issue regarding the application of local or global master equations. In order to contribute to this discussion we discuss two cases, namely as an example a single qubit and as a simple composite system two coupled qubits driven by two heat reservoirs at different temperatures, respectively. Applying a global Lindblad master equation approach we present explicit expressions for the heat currents in agreement with the second law of thermodynamics. The analysis is carried out in the Born-Markov approximation. We also discuss issues regarding the possible presence of coherences in the steady state.
翻訳日:2023-11-28 04:42:08 公開日:2023-11-24
# 曲線時空におけるディラック方程式:局所フェルミ速度の役割

Dirac equation in curved spacetime: the role of local Fermi velocity ( http://arxiv.org/abs/2301.12952v3 )

ライセンス: Link先を確認
B. Bagchi, A. Gallerati, R. Ghosh(参考訳) 我々は、局所フェルミ速度の存在下で、曲線状ディラック材料中の荷電担体の運動を研究する。 ナノスクロール円筒形状に対する後者の出現量の明示的なパラメータ化と、関連する物理的効果と観測可能な性質の議論も提供する。

We study the motion of charge carriers in curved Dirac materials, in the presence of a local Fermi velocity. An explicit parameterization of the latter emerging quantity for a nanoscroll cylindrical geometry is also provided, together with a discussion of related physical effects and observable properties.
翻訳日:2023-11-28 04:41:54 公開日:2023-11-24
# 入力不確実性下におけるリスク対策の多目的ベイズ最適化

Bounding Box-based Multi-objective Bayesian Optimization of Risk Measures under Input Uncertainty ( http://arxiv.org/abs/2301.11588v3 )

ライセンス: Link先を確認
Yu Inatsu, Shion Takeno, Hiroyuki Hanada, Kazuki Iwata, Ichiro Takeuchi(参考訳) 本研究では,入力不確実性(IU)の存在下でのブラックボックス関数のリスク測定によって定義されるパレートフロント(PF)を効率的に同定する,新しい多目的ベイズ最適化手法を提案する。 IUの存在下でのパレート最適化のための既存のBO法はリスク固有あるいは理論的保証がないが、提案手法は一般的なリスク対策に対処し、理論的保証を有する。 提案手法の基本的な考え方は,ブラックボックス関数に対するガウス過程(GP)モデルを仮定し,GPモデルを用いたリスク対策のための高確率バウンディングボックスを構築することである。 さらに,非支配的境界ボックスの不確実性を低減するため,有界ボックスに基づく準距離の最大値で定義される最大距離を用いて次の評価点を選択する手法を提案する。 理論的解析として,ベイズリスク,最悪のケースリスク,リスク価値といった様々なリスク対策において,アルゴリズムは有限個の反復で任意の精度の解を高い確率で返すことができることを証明した。 また, PF の有限近似やサンプリングに基づく有界箱の近似など, 無視できない近似誤差が存在するため, 近似誤差を考慮に入れた理論的解析を行う。 提案手法は,IUの設定だけでなく,数値実験による通常のMOBOの設定においても,既存の手法よりも優れていることを確認した。

In this study, we propose a novel multi-objective Bayesian optimization (MOBO) method to efficiently identify the Pareto front (PF) defined by risk measures for black-box functions under the presence of input uncertainty (IU). Existing BO methods for Pareto optimization in the presence of IU are risk-specific or without theoretical guarantees, whereas our proposed method addresses general risk measures and has theoretical guarantees. The basic idea of the proposed method is to assume a Gaussian process (GP) model for the black-box function and to construct high-probability bounding boxes for the risk measures using the GP model. Furthermore, in order to reduce the uncertainty of non-dominated bounding boxes, we propose a method of selecting the next evaluation point using a maximin distance defined by the maximum value of a quasi distance based on bounding boxes. As theoretical analysis, we prove that the algorithm can return an arbitrary-accurate solution in a finite number of iterations with high probability, for various risk measures such as Bayes risk, worst-case risk, and value-at-risk. We also give a theoretical analysis that takes into account approximation errors because there exist non-negligible approximation errors (e.g., finite approximation of PFs and sampling-based approximation of bounding boxes) in practice. We confirm that the proposed method outperforms compared with existing methods not only in the setting with IU but also in the setting of ordinary MOBO through numerical experiments.
翻訳日:2023-11-28 04:41:32 公開日:2023-11-24
# 共振器品質係数測定のための円フィット最適化:最大精度のための点再分配

Circle fit optimization for resonator quality factor measurements: point redistribution for maximal accuracy ( http://arxiv.org/abs/2301.06364v2 )

ライセンス: Link先を確認
Paul G. Baity, Connor Maclean, Valentino Seferai, Joe Bronstein, Yi Shu, Tania Hemakumara, and Martin Weides(参考訳) 材料損失機構の制御は超伝導量子デバイスのコヒーレンス時間を改善するためにますます重要な役割を担っている。 このような材料損失は、共鳴の質係数$Q_l$による損失を反映する平面超伝導共振器の測定によって特徴づけられる。 共振品質係数は、内部(材料)の損失と、共振光子が測定回路に逃避したときのカップリング損失の両方からなる。 複合損失は、$Q_l^{-1} = \mathrm{Re}\{Q_c^{-1}\} + Q_i^{-1}$と記述され、$Q_c$と$Q_i$はそれぞれ共振器の結合係数と内部品質を反映する。 Q_i$ と $Q_c$ の相対寄与を$Q_l$ に分けるために、直径補正円は複素平面上の共鳴信号に代数的または幾何学的手段を用いる。 しかし、このような円は様々な結果が得られるため、この問題に対処するためにシミュレーションと実験を組み合わせることで、Q_i\ll Q_c$からQ_c\ll Q_i$までの幅広い品質係数値の適合アルゴリズムの信頼性を判定する。 さらに,$\gtrsim 2$の要因により適合誤差を低減できるだけでなく,測定背景が適合結果に与える影響を緩和できる新しい測定プロトコルを開発した。 この手法は超伝導共振器以外の共鳴系に対して一般化することができる。

The control of material loss mechanisms is playing an increasingly important role for improving coherence times of superconducting quantum devices. Such material losses can be characterized through the measurement of planar superconducting resonators, which reflect losses through the resonance's quality factor $Q_l$. The resonance quality factor consists of both internal (material) losses as well as coupling losses when resonance photons escape back into the measurement circuit. The combined losses are then described as $Q_l^{-1} = \mathrm{Re}\{Q_c^{-1}\} + Q_i^{-1}$, where $Q_c$ and $Q_i$ reflect the coupling and internal quality factors of the resonator, respectively. To separate the relative contributions of $Q_i$ and $Q_c$ to $Q_l$, diameter-correcting circle fits use algebraic or geometric means to fit the resonance signal on the complex plane. However, such circle fits can produce varied results, so to address this issue, we use a combination of simulation and experiment to determine the reliability of a fitting algorithm across a wide range of quality factor values from $Q_i\ll Q_c$ to $Q_c\ll Q_i$. In addition, we develop a novel measurement protocol that can not only reduce fitting errors by factors $\gtrsim 2$ but also mitigates the influence of the measurement background on the fit results. This technique can be generalized for other resonance systems beyond superconducting resonators.
翻訳日:2023-11-28 04:40:59 公開日:2023-11-24
# tieval: 時間情報抽出システムのための評価フレームワーク

tieval: An Evaluation Framework for Temporal Information Extraction Systems ( http://arxiv.org/abs/2301.04643v3 )

ライセンス: Link先を確認
Hugo Sousa, Al\'ipio Jorge, Ricardo Campos(参考訳) 時間的情報抽出(tie)は過去20年間で大きな関心を集め、膨大な数のデータセットの開発につながった。 その利点にもかかわらず、大量のコーパスにアクセスすることは、TIEシステムのベンチマークに関して難しい。 一方、異なるデータセットは異なるアノテーションスキームを持つため、異なるコーパス間の競合の比較が妨げられる。 一方、各コーパスが一般的に異なるフォーマットで散布されているという事実は、研究者や専門家がすべてのパーサーを開発するのにかなりのエンジニアリング努力を必要とする。 この制約により、研究者は限られた量のデータセットを選択してシステムを評価することを余儀なくされ、結果としてシステムの互換性が制限される。 しかし、TIEシステムの互換性を妨げるもう1つの障害は、採用される評価基準である。 多くの研究は、精度、リコール、および$f_1$のような伝統的な指標を採用するが、他のいくつかの研究は、時間的認識(temporal awareness)を好んでいる。 ほとんどのシステムの評価において時間的認識が欠如している理由は明らかではないが、この決定に確実に重きを置く要因の1つは、時間的認識を計算するために時間的閉包アルゴリズムを実装する必要があることである。 全体として、これらの問題はアプローチ間の公正な比較を制限しており、その結果、時間的抽出システムの開発に繋がる。 これらの問題を緩和するために,異なるコーパスをインポートするための簡潔なインターフェースを提供し,システム評価を容易にするpythonライブラリであるtievalを開発した。 本稿では,tievalの最初の公開リリースを行い,その最も関連する機能を強調する。

Temporal information extraction (TIE) has attracted a great deal of interest over the last two decades, leading to the development of a significant number of datasets. Despite its benefits, having access to a large volume of corpora makes it difficult when it comes to benchmark TIE systems. On the one hand, different datasets have different annotation schemes, thus hindering the comparison between competitors across different corpora. On the other hand, the fact that each corpus is commonly disseminated in a different format requires a considerable engineering effort for a researcher/practitioner to develop parsers for all of them. This constraint forces researchers to select a limited amount of datasets to evaluate their systems which consequently limits the comparability of the systems. Yet another obstacle that hinders the comparability of the TIE systems is the evaluation metric employed. While most research works adopt traditional metrics such as precision, recall, and $F_1$, a few others prefer temporal awareness -- a metric tailored to be more comprehensive on the evaluation of temporal systems. Although the reason for the absence of temporal awareness in the evaluation of most systems is not clear, one of the factors that certainly weights this decision is the necessity to implement the temporal closure algorithm in order to compute temporal awareness, which is not straightforward to implement neither is currently easily available. All in all, these problems have limited the fair comparison between approaches and consequently, the development of temporal extraction systems. To mitigate these problems, we have developed tieval, a Python library that provides a concise interface for importing different corpora and facilitates system evaluation. In this paper, we present the first public release of tieval and highlight its most relevant features.
翻訳日:2023-11-28 04:40:32 公開日:2023-11-24
# 群場理論における絡み合い構造からの創発重力

Emergent Gravity from the Entanglement Structure in Group Field Theory ( http://arxiv.org/abs/2304.10865v2 )

ライセンス: Link先を確認
Jinglong Liu, Stephon Alexander, Antonino Marciano and Roman Pasechnik(参考訳) 多様体サイトと群場理論(GFT)の間の絡み合いを符号化するスカラー場を結合する。 スカラー場は、gft作用からシステムのハミルトニアンの導出を可能にする関係時計を提供する。 このハミルトニアンを検査すると、創発重力の理論が生まれ、この理論は一般相対性理論のアシュテカール変数の定式化と等価であることを示す。 GFTにおける系の進化は、単純化されたリッチフローに対応する再正規化群(RG)フローであり、その生成元はハミルトニアンであり、対応するフロー方程式はShroedinger方程式によって制御される。 量子化手順の結果、ハミルトニアンは非エルミート的となり、系の初期条件と関連する将来の進化が作用の虚部によって決定される複素作用形式論と関連付けられる。

We couple a scalar field encoding the entanglement between manifold sites to group field theory (GFT). The scalar field provides a relational clock that enables the derivation of the Hamiltonian of the system from the GFT action. Inspecting this Hamiltonian, we show that a theory of emergent gravity arises, and that the theory is equivalent to the Ashtekar variables' formulation of general relativity. The evolution of the system in GFT is a renormalization group (RG) flow, which corresponds to a simplified Ricci flow, the generator of which is the Hamiltonian, and the corresponding flow equation is regulated by the Shroedinger equation. As a consequence of the quantization procedure, the Hamiltonian is recovered to be non-Hermitian, and can be related to the complex action formalism, in which the initial conditions and the related future evolution of the systems are dictated by the imaginary part of the action.
翻訳日:2023-11-28 04:33:20 公開日:2023-11-24
# das-n2n: クリーンデータなしの機械学習分散音響センシング(das)信号

DAS-N2N: Machine learning Distributed Acoustic Sensing (DAS) signal denoising without clean data ( http://arxiv.org/abs/2304.08120v2 )

ライセンス: Link先を確認
Sacha Lapins, Antony Butcher, J.-Michael Kendall, Thomas S. Hudson, Anna L. Stork, Maximilian J. Werner, Jemma Gunning and Alex M. Brisbourne(参考訳) 本稿では,分散音響センシング(das)記録における強いランダムノイズを抑制するため,das-n2nと呼ばれる弱教師付き機械学習手法を提案する。 das-n2nはトレーニングのために手動で生成したラベル(すなわち、クリーンなイベント信号やノイズのセクションの予め決定された例)を必要とせず、ランダムなノイズ処理を分布平均、中央値、モードといった選択された要約統計にマッピングすることを目的としている。 これは、単一の光ケーブル内にホストされる2つのファイバーをスプライシング(結合)し、ランダムな観測ノイズの異なる独立な実現によって破損した同じ信号の2つのノイズのコピーを記録することで達成される。 深層学習モデルは、この2つのノイズの多いデータのみを使用してトレーニングされ、ほぼ完全に復号化されたコピーを生成する。 モデルがトレーニングされると、単一のファイバーからのノイズデータのみが必要になる。 南極のラトフォード氷流表面に配置されたDASアレイのデータセットを用いて,DAS-N2Nが不整合性ノイズを著しく抑制し,自然微小地震の信号-雑音比(SNR)を高めることを示した。 さらに、本手法は、従来の停止/通過帯域やホワイトノイズ(例えば、Wiener)フィルタリングルーチンよりも本質的に効率的かつ効果的であり、個別のDASチャネルをマスキングする自己教師あり学習法であることを示す。 このタスクの好ましいモデルは軽量で、985チャンネル(約1kmのファイバ)で1000Hzのサンプリング周波数で記録された30秒分のデータを$<$1 sで処理する。 das記録のノイズレベルが高いため、das-n2nのような効率的なデータ駆動デノージング手法は、特にマイクロサイスミックモニタリングにおいて、時間クリティカルなdas地震検出に必須である。

This article presents a weakly supervised machine learning method, which we call DAS-N2N, for suppressing strong random noise in distributed acoustic sensing (DAS) recordings. DAS-N2N requires no manually produced labels (i.e., pre-determined examples of clean event signals or sections of noise) for training and aims to map random noise processes to a chosen summary statistic, such as the distribution mean, median or mode, whilst retaining the true underlying signal. This is achieved by splicing (joining together) two fibres hosted within a single optical cable, recording two noisy copies of the same underlying signal corrupted by different independent realizations of random observational noise. A deep learning model can then be trained using only these two noisy copies of the data to produce a near fully-denoised copy. Once the model is trained, only noisy data from a single fibre is required. Using a dataset from a DAS array deployed on the surface of the Rutford Ice Stream in Antarctica, we demonstrate that DAS-N2N greatly suppresses incoherent noise and enhances the signal-to-noise ratios (SNR) of natural microseismic icequake events. We further show that this approach is inherently more efficient and effective than standard stop/pass band and white noise (e.g., Wiener) filtering routines, as well as a comparable self-supervised learning method based on masking individual DAS channels. Our preferred model for this task is lightweight, processing 30 seconds of data recorded at a sampling frequency of 1000 Hz over 985 channels (approx. 1 km of fiber) in $<$1 s. Due to the high noise levels in DAS recordings, efficient data-driven denoising methods, such as DAS-N2N, will prove essential to time-critical DAS earthquake detection, particularly in the case of microseismic monitoring.
翻訳日:2023-11-28 04:32:33 公開日:2023-11-24
# 連続学習表現における知識蓄積と特徴提示の課題

Knowledge Accumulation in Continually Learned Representations and the Issue of Feature Forgetting ( http://arxiv.org/abs/2304.00933v2 )

ライセンス: Link先を確認
Timm Hess, Eli Verwimp, Gido M. van de Ven, Tinne Tuytelaars(参考訳) ニューラルネットワークは‘アウトプットレベル’を破滅的に忘れることに苦しむことが確立されているが、これは表現のレベルでも同様であるかどうかについては議論がある。 一部の研究は、表現が最小限にしか忘れておらず、批判的な情報がないという、あるレベルの自然的堅牢性を記述している。 この議論を解決するために、我々はまず、この明らかな相違が、継続的に学習される表現の質に影響を与える2つの現象、すなわち知識蓄積と特徴忘れの共存にどのように影響するかを議論する。 そして, 絶対的な用語では, 特徴の忘れ方が小さいことは事実であるが, 新たな学習情報は, 出力レベルでの表現のレベルにおいて, 破滅的に忘れていなければならないことを示す。 次に、知識の蓄積を大幅に遅らせるため、この機能を忘れることは問題であることを示す。 さらに,教師付き学習と自己指導型学習の両方を通じて継続的に学習される表現が,機能的忘れに悩まされていることを示す。 最後に,機能忘れと知識蓄積が,継続学習法の種類によってどのように影響を受けるかを検討する。

While it is established that neural networks suffer from catastrophic forgetting ``at the output level'', it is debated whether this is also the case at the level of representations. Some studies ascribe a certain level of innate robustness to representations, that they only forget minimally and no critical information, while others claim that representations are also severely affected by forgetting. To settle this debate, we first discuss how this apparent disagreement might stem from the coexistence of two phenomena that affect the quality of continually learned representations: knowledge accumulation and feature forgetting. We then show that, even though it is true that feature forgetting can be small in absolute terms, newly learned information is forgotten just as catastrophically at the level of representations as it is at the output level. Next we show that this feature forgetting is problematic as it substantially slows down knowledge accumulation. We further show that representations that are continually learned through both supervised and self-supervised learning suffer from feature forgetting. Finally, we study how feature forgetting and knowledge accumulation are affected by different types of continual learning methods.
翻訳日:2023-11-28 04:31:29 公開日:2023-11-24
# 最適パルスを持つ高忠実リドバーグ制御Zゲート

High-fidelity Rydberg controlled-Z gates with optimal pulses ( http://arxiv.org/abs/2303.16395v3 )

ライセンス: Link先を確認
T. H. Chang, T. N. Wang, H. H. Jen, and Y.-C. Chen(参考訳) 高忠実性制御-$z$ (c_z$) ゲートは大規模量子コンピュータを構築するのに必須で必須である。 中性原子では、リドバーグ状態間の強い双極子-双極子相互作用は、c_z$ゲートを実装した先駆的プラットフォームの一つである。 ここでは,高忠実度Rydberg $C_{Z}$ゲートを3レベルラグ型原子系で生成する時間-最適パルスを数値的に検討する。 ガウスまたは分節パルスの時間的形状を調整することにより、中間励起状態の集団は対称ゲート演算プロトコル内で抑制され、これはベル忠実度が高い99.92 %$のC_{Z}$ゲートとなる。 これらの最適化パルスは熱揺らぎや励起場の変動に頑健である。 以上の結果から, 有限閉塞強度下での断熱操作を超越した, 高忠実かつ高速なゲート動作を, 可愛く制御可能な実験パラメータで実現できることを確認した。

High-fidelity control-$Z$ ($C_Z$) gates are essential and mandatory to build a large-scale quantum computer. In neutral atoms, the strong dipole-dipole interactions between their Rydberg states make them one of the pioneering platforms to implement $C_Z$ gates. Here we numerically investigate the time-optimal pulses to generate a high-fidelity Rydberg $C_{Z}$ gate in a three-level ladder-type atomic system. By tuning the temporal shapes of Gaussian or segmented pulses, the populations on the intermediate excited states are shown to be suppressed within the symmetric gate operation protocol, which leads to a $C_{Z}$ gate with a high Bell fidelity up to $99.92\%$. These optimized pulses are robust to thermal fluctuations and the excitation field variations. Our results promise a high-fidelity and fast gate operation under amenable and controllable experimental parameters, which goes beyond the adiabatic operation regime under a finite Blockade strength.
翻訳日:2023-11-28 04:31:07 公開日:2023-11-24
# 多出力回帰タスクにおけるディープアンサンブルによる信頼性不確実性定量化に向けて

Towards Reliable Uncertainty Quantification via Deep Ensembles in Multi-output Regression Task ( http://arxiv.org/abs/2303.16210v4 )

ライセンス: Link先を確認
Sunwoong Yang, Kwanjung Yee(参考訳) 本研究では,ミサイル配置の空力性能を予測するマルチアウトプット回帰タスクにおいて,近似ベイズ推定法であるディープアンサンブル法を包括的に検討することを目的とした。 この目的のために、従来の研究で盲目的に採用されてきたアンサンブルで使用されるニューラルネットワークの数の影響を精査する。 その結果,不確実性の過小評価の傾向を初めて観測し,その不確実性定量化性能を向上させるためにポストホックキャリブレーション法を適用したディープアンサンブルフレームワークを提案する。 ガウス過程の回帰と比較すると、回帰精度(\uparrow55\sim56\%$)、推定不確実性の信頼性(\uparrow38\sim77\%$)、訓練効率(\uparrow78\%$)の点で優れた性能を示す。 最後に,提案フレームワークがベイズ最適化に与える影響について概説し,キャリブレーションのない深層アンサンブルが意図しない探索行動を引き起こす可能性を示唆した。 このuqフレームワークは,特定の問題に対して特別な仮定がなされていないため,任意の回帰タスクにシームレスに適用および拡張することができる。

This study aims to comprehensively investigate the deep ensemble approach, an approximate Bayesian inference, in the multi-output regression task for predicting the aerodynamic performance of a missile configuration. To this end, the effect of the number of neural networks used in the ensemble, which has been blindly adopted in previous studies, is scrutinized. As a result, an obvious trend towards underestimation of uncertainty as it increases is observed for the first time, and in this context, we propose the deep ensemble framework that applies the post-hoc calibration method to improve its uncertainty quantification performance. It is compared with Gaussian process regression and is shown to have superior performance in terms of regression accuracy ($\uparrow55\sim56\%$), reliability of estimated uncertainty ($\uparrow38\sim77\%$), and training efficiency ($\uparrow78\%$). Finally, the potential impact of the suggested framework on the Bayesian optimization is briefly examined, indicating that deep ensemble without calibration may lead to unintended exploratory behavior. This UQ framework can be seamlessly applied and extended to any regression task, as no special assumptions have been made for the specific problem used in this study.
翻訳日:2023-11-28 04:30:51 公開日:2023-11-24
# 都市コンピューティングにおける予測学習のための時空間グラフニューラルネットワーク

Spatio-Temporal Graph Neural Networks for Predictive Learning in Urban Computing: A Survey ( http://arxiv.org/abs/2303.14483v3 )

ライセンス: Link先を確認
Guangyin Jin, Yuxuan Liang, Yuchen Fang, Zezhi Shao, Jincai Huang, Junbo Zhang, Yu Zheng(参考訳) 近年のセンシング技術の進歩により、数多くの時空間データがスマートシティーで生成・記録されている。 時空間データの進化パターンを予測することは、交通、環境、気候、公共安全、医療など、様々な分野におけるインテリジェントな管理決定を強化することができる都市コンピューティングの重要な側面である。 従来の統計的および深層学習手法は、都市時空間データの複雑な相関を捉えるのに苦労する。 この目的のために、時空間グラフニューラルネットワーク(STGNN)が提案され、近年大きな成果を上げている。 STGNNは、グラフニューラルネットワーク(GNN)と様々な時間学習手法を統合することで、複雑な時空間依存の抽出を可能にする。 本稿では,都市コンピューティングにおける予測学習におけるSTGNN技術の最近の進歩を包括的に調査する。 まず、時空間グラフデータの構築方法とSTGNNで広く使われているディープラーニングアーキテクチャについて簡単な紹介を行う。 次に、既存の文献に基づいて、主要なアプリケーションドメインと特定の予測学習タスクを分類する。 その後,STGNNの設計と,最近の先進技術の組み合わせについて検討する。 最後に,既存の研究の限界を結論し,今後の研究の方向性を提案する。

With recent advances in sensing technologies, a myriad of spatio-temporal data has been generated and recorded in smart cities. Forecasting the evolution patterns of spatio-temporal data is an important yet demanding aspect of urban computing, which can enhance intelligent management decisions in various fields, including transportation, environment, climate, public safety, healthcare, and others. Traditional statistical and deep learning methods struggle to capture complex correlations in urban spatio-temporal data. To this end, Spatio-Temporal Graph Neural Networks (STGNN) have been proposed, achieving great promise in recent years. STGNNs enable the extraction of complex spatio-temporal dependencies by integrating graph neural networks (GNNs) and various temporal learning methods. In this manuscript, we provide a comprehensive survey on recent progress on STGNN technologies for predictive learning in urban computing. Firstly, we provide a brief introduction to the construction methods of spatio-temporal graph data and the prevalent deep-learning architectures used in STGNNs. We then sort out the primary application domains and specific predictive learning tasks based on existing literature. Afterward, we scrutinize the design of STGNNs and their combination with some advanced technologies in recent years. Finally, we conclude the limitations of existing research and suggest potential directions for future work.
翻訳日:2023-11-28 04:30:28 公開日:2023-11-24
# Promptは必要なものすべて? いいえ。 包括的かつ広範な授業学習の視点

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning ( http://arxiv.org/abs/2303.10475v6 )

ライセンス: Link先を確認
Renze Lou, Kai Zhang, Wenpeng Yin(参考訳) タスクのセマンティクスは入力から出力までの例のセットやテキストによる命令で表現できる。 自然言語処理(NLP)に対する従来の機械学習アプローチは主に、タスク固有の大規模データセットの可用性に依存している。 まず、タスク固有のラベル付き例の収集は、タスクが複雑すぎるか、アノテートにコストがかかりすぎるか、あるいはシステムが新しいタスクを即座に処理する必要があるシナリオには適用されない。 そのため、NLPの新しい監督・探索パラダイムであるタスク命令からの学習への関心が高まっている。 その目覚ましい進歩にもかかわらず、コミュニティが抱える共通の問題はいくつかある。 本稿では,授業学習に関する現在の研究,特に以下の質問への回答を要約し,考察する。 (i)タスク命令とは何で、どのような命令型が存在するか。 (ii)指示のモデル化方法? (三)指示の実行に影響を及ぼし、説明する要因は何か。 (iv) 指導学習に残る課題は何か? 私たちの知る限りでは、これはテキストによるインストラクションに関する最初の包括的な調査です。

Task semantics can be expressed by a set of input-to-output examples or a piece of textual instruction. Conventional machine learning approaches for natural language processing (NLP) mainly rely on the availability of large-scale sets of task-specific examples. Two issues arise: first, collecting task-specific labeled examples does not apply to scenarios where tasks may be too complicated or costly to annotate, or the system is required to handle a new task immediately; second, this is not user-friendly since end-users are probably more willing to provide task description rather than a set of examples before using the system. Therefore, the community is paying increasing interest in a new supervision-seeking paradigm for NLP: learning from task instructions. Despite its impressive progress, there are some common issues that the community struggles with. This survey paper tries to summarize and provide insights into the current research on instruction learning, particularly by answering the following questions: (i) What is task instruction, and what instruction types exist? (ii) How to model instructions? (iii) What factors influence and explain the instructions' performance? (iv) What challenges remain in instruction learning? To our knowledge, this is the first comprehensive survey about textual instructions.
翻訳日:2023-11-28 04:30:11 公開日:2023-11-24
# 二層グラフェン二重量子ドットにおけるコヒーレント電荷振動

Coherent Charge Oscillations in a Bilayer Graphene Double Quantum Dot ( http://arxiv.org/abs/2303.10119v4 )

ライセンス: Link先を確認
Katrin Hecker, Luca Banszerus, Aaron Sch\"apers, Samuel M\"oller, Anton Peters, Eike Icking, Kenji Watanabe, Takashi Taniguchi, Christian Volk, Christoph Stampfer(参考訳) 2つのエネルギーレベルの反交差を通過する量子力学的2レベル系のコヒーレントダイナミクスは、ランダウ・ツェナー・シュタックルベルク・マヨラナ(LZSM)干渉を引き起こす。 LZSM干渉分光法は、半導体量子ドット(QD)における電荷ノイズと電荷デコヒーレンスを研究するための実りあるツールであることが証明されている。 近年、二層グラフェンは、スピンおよびバレーキュービットのホスティングに有用な、高度に調整可能なqdsをホストするための有望なプラットフォームとして開発されている。 これまでのところ、この系ではコヒーレント振動は観測されておらず、荷電ノイズについてはほとんど知られていない。 ここでは、2層グラフェン二重QDにおけるコヒーレント電荷振動と$T_2^*$電荷デコヒーレンス時間を報告する。 lzsm干渉と光子補助トンネルを用いて電荷非干渉時間を独立に測定する。 どちらの手法も400から500psの範囲の平均値はT_2^*$である。 電荷コヒーレンス観測は、将来の実験における電荷ノイズの起源とスペクトル分布の研究を可能にする。

The coherent dynamics of a quantum mechanical two-level system passing through an anti-crossing of two energy levels can give rise to Landau-Zener-St\"uckelberg-Majorana (LZSM) interference. LZSM interference spectroscopy has proven to be a fruitful tool to investigate charge noise and charge decoherence in semiconductor quantum dots (QDs). Recently, bilayer graphene has developed as a promising platform to host highly tunable QDs potentially useful for hosting spin and valley qubits. So far, in this system no coherent oscillations have been observed and little is known about charge noise in this material. Here, we report coherent charge oscillations and $T_2^*$ charge decoherence times in a bilayer graphene double QD. The charge decoherence times are measured independently using LZSM interference and photon assisted tunneling. Both techniques yield $T_2^*$ average values in the range of 400 to 500 ps. The observation of charge coherence allows to study the origin and spectral distribution of charge noise in future experiments.
翻訳日:2023-11-28 04:29:46 公開日:2023-11-24
# 小児虫垂炎に対する経時的およびインターベンタブル超音波を用いた機械学習モデル

Interpretable and intervenable ultrasonography-based machine learning models for pediatric appendicitis ( http://arxiv.org/abs/2302.14460v3 )

ライセンス: Link先を確認
Ri\v{c}ards Marcinkevi\v{c}s, Patricia Reis Wolfertstetter, Ugne Klimiene, Kieran Chin-Cheong, Alyssia Paschke, Julia Zerres, Markus Denzinger, David Niederberger, Sven Wellmann, Ece Ozkan, Christian Knorr, Julia E. Vogt(参考訳) 虫垂炎は小児腹部手術の最も多い原因の一つである。 虫垂炎の診断支援システムは, 臨床, 検査, 採点, CTデータに重点を置いており, 非侵襲性, 広範囲性にもかかわらず腹部超音波検査を無視している。 本稿では,超音波画像を用いた虫垂炎の診断,管理,重症度を予測するための解釈可能な機械学習モデルを提案する。 提案手法は,臨床医が理解可能な高レベル概念の解釈と相互作用を容易にする概念ボトルネックモデル(CBM)を利用する。 さらに,CBMを複数のビューや不完全な概念セットによる予測問題に拡張する。 対象は小児579例, 超音波画像1709例, 臨床・臨床データ, 検査データであった。 提案手法により, 臨床医は, 性能を損なうことなく, かつ, デプロイ時に時間を要する画像アノテーションを必要とせずに, 人体で理解可能な予測モデルを利用できることを示す。 診断を予測するため、拡張マルチビューCBMはAUROCが0.80、AUPRが0.92に達し、同じデータセットでトレーニングおよびテストされた類似のブラックボックスニューラルネットワークと互換性がある。

Appendicitis is among the most frequent reasons for pediatric abdominal surgeries. Previous decision support systems for appendicitis have focused on clinical, laboratory, scoring, and computed tomography data and have ignored abdominal ultrasound, despite its noninvasive nature and widespread availability. In this work, we present interpretable machine learning models for predicting the diagnosis, management and severity of suspected appendicitis using ultrasound images. Our approach utilizes concept bottleneck models (CBM) that facilitate interpretation and interaction with high-level concepts understandable to clinicians. Furthermore, we extend CBMs to prediction problems with multiple views and incomplete concept sets. Our models were trained on a dataset comprising 579 pediatric patients with 1709 ultrasound images accompanied by clinical and laboratory data. Results show that our proposed method enables clinicians to utilize a human-understandable and intervenable predictive model without compromising performance or requiring time-consuming image annotation when deployed. For predicting the diagnosis, the extended multiview CBM attained an AUROC of 0.80 and an AUPR of 0.92, performing comparably to similar black-box neural networks trained and tested on the same dataset.
翻訳日:2023-11-28 04:27:39 公開日:2023-11-24
# crossget:視覚言語トランスフォーマーを加速するトークンのクロスガイドアンサンブル

CrossGET: Cross-Guided Ensemble of Tokens for Accelerating Vision-Language Transformers ( http://arxiv.org/abs/2305.17455v3 )

ライセンス: Link先を確認
Dachuan Shi, Chaofan Tao, Anyi Rao, Zhendong Yang, Chun Yuan, Jiaqi Wang(参考訳) 最近のビジョン言語モデルは、私たちが予想した以上に大きな進歩を遂げました。 しかし、その計算コストは、特に大規模モデルにおいて、急速な発展とともに劇的に増大している。 限られた資源のシナリオでは、モデル加速が極めて重要である。 ユニモーダルモデルについて広範囲に研究されているが、マルチモーダルモデル、特に視覚言語トランスフォーマーの加速は比較的過小評価されている。 より効率的で使いやすい視覚言語トランスフォーマーを追求するため,本稿では視覚言語トランスフォーマーのための普遍的加速フレームワークである \textbf{cross}-\textbf{g}uided \textbf{e}nsemble of \textbf{t}okens (\textbf{\emph{crossget}})を紹介する。 このフレームワークは、リアルタイムのクロスモーダルガイダンスを通じてトークンを適応的に組み合わせ、高い性能を維持しながら実質的な加速を実現する。 \textit{CrossGET} には2つの重要な革新がある。 1) \textit{Cross-Guided Matching and Ensemble} \textit{CrossGET}は、クロスモーダルなトークンマッチングとアンサンブルを組み込んで、クロスモーダルな情報を効果的に活用する。 2) \textit{Complete-Graph Soft Matching}。 既存の二部作のソフトマッチングアプローチとは対照的に, \textit{CrossGET} では, 並列化性と高効率性を維持しつつ, より信頼性の高いトークンマッチング結果を実現するために, 完全グラフのソフトマッチングポリシーを導入している。 画像テキスト検索、視覚的推論、画像キャプション、視覚的質問応答など、様々な視覚言語タスクに関する広範な実験が行われている。 古典的マルチモーダルアーキテクチャと新興マルチモーダル LLM の性能は,提案した \textit{CrossGET} フレームワークの有効性と汎用性を示している。 コードは \url{https://github.com/sdc17/CrossGET} にある。

Recent vision-language models have achieved tremendous progress far beyond what we ever expected. However, their computational costs are also dramatically growing with rapid development, especially for the large models. It makes model acceleration exceedingly critical in a scenario of limited resources. Although extensively studied for unimodal models, the acceleration for multimodal models, especially the vision-language Transformers, is relatively under-explored. To pursue more efficient and accessible vision-language Transformers, this paper introduces \textbf{Cross}-\textbf{G}uided \textbf{E}nsemble of \textbf{T}okens (\textbf{\emph{CrossGET}}), a universal acceleration framework for vision-language Transformers. This framework adaptively combines tokens through real-time, cross-modal guidance, thereby achieving substantial acceleration while keeping high performance. \textit{CrossGET} has two key innovations: 1) \textit{Cross-Guided Matching and Ensemble}. \textit{CrossGET} incorporates cross-modal guided token matching and ensemble to exploit cross-modal information effectively, only introducing cross-modal tokens with negligible extra parameters. 2) \textit{Complete-Graph Soft Matching}. In contrast to the existing bipartite soft matching approach, \textit{CrossGET} introduces a complete-graph soft matching policy to achieve more reliable token-matching results while maintaining parallelizability and high efficiency. Extensive experiments are conducted on various vision-language tasks, including image-text retrieval, visual reasoning, image captioning, and visual question answering. Performance on both classic multimodal architectures and emerging multimodal LLMs demonstrate the effectiveness and versatility of the proposed \textit{CrossGET} framework. The code will be at \url{https://github.com/sdc17/CrossGET}.
翻訳日:2023-11-28 04:20:19 公開日:2023-11-24
# VISIT:トランスフォーマーのセマンティック情報フローの可視化と解釈

VISIT: Visualizing and Interpreting the Semantic Information Flow of Transformers ( http://arxiv.org/abs/2305.13417v2 )

ライセンス: Link先を確認
Shahar Katz, Yonatan Belinkov(参考訳) 最近の解釈可能性の進歩は、トランスフォーマーベースの言語モデル(lms)の重みと隠れた状態が語彙に投影できることを示唆している。 本稿では,LMアテンションヘッドとメモリ値,モデルが与えられた入力を処理しながら動的に生成し,リコールするベクトルについて検討する。 このプロジェクションを通じて表現するトークンを分析することで,注意機構内の情報フローのパターンを識別する。 我々の発見に基づいて,生成事前学習変換器(GPT)の前方通過を対話的フローグラフとして可視化するツールを作成し,ノードがニューロン,隠れ状態,エッジが相互の相互作用を表す。 我々の可視化は、大量のデータを、モデルの内部処理を反映できる読みやすいプロットに単純化し、モデルの最終予測に対する各コンポーネントの貢献を明らかにする。 また,モデルの出力に影響を与える意味的フィルタとしてのレイヤノルムの役割や,フォワードパス中に常に活性化され,正規化ベクトルとして作用するニューロンについて,新たな知見を提示する。

Recent advances in interpretability suggest we can project weights and hidden states of transformer-based language models (LMs) to their vocabulary, a transformation that makes them more human interpretable. In this paper, we investigate LM attention heads and memory values, the vectors the models dynamically create and recall while processing a given input. By analyzing the tokens they represent through this projection, we identify patterns in the information flow inside the attention mechanism. Based on our discoveries, we create a tool to visualize a forward pass of Generative Pre-trained Transformers (GPTs) as an interactive flow graph, with nodes representing neurons or hidden states and edges representing the interactions between them. Our visualization simplifies huge amounts of data into easy-to-read plots that can reflect the models' internal processing, uncovering the contribution of each component to the models' final prediction. Our visualization also unveils new insights about the role of layer norms as semantic filters that influence the models' output, and about neurons that are always activated during forward passes and act as regularization vectors.
翻訳日:2023-11-28 04:18:10 公開日:2023-11-24
# 高異方性雑音感度を有するゲルマニウムホールスピン量子ビットのスイートスポット動作

Sweet-spot operation of a germanium hole spin qubit with highly anisotropic noise sensitivity ( http://arxiv.org/abs/2305.13150v3 )

ライセンス: Link先を確認
N.W. Hendrickx, L. Massai, M. Mergenthaler, F. Schupp, S. Paredes, S.W. Bedell, G. Salis, and A. Fuhrer(参考訳) 価バンドホール状態によって定義されるスピン量子ビットは、高速でスケーラブルな量子ビット制御を可能にする電場に固有の結合のため、量子情報処理の魅力的な候補である。 特に、ゲルマニウムの重孔は、高速かつ高忠実な量子ビット演算の最近の実証で大きな可能性を示してきた。 しかし、クビット駆動とデコヒーレンスを弱めるメカニズムと異方性はほとんど不明である。 ここでは,高異方性のヘビーホールである$g$-tensor とその電界依存性について報告し,$g$-tensor の電気変調とqubit 駆動とデコヒーレンスの両方を関連付けることができた。 また、予測されたIsing型超微細相互作用も確認するが、量子コヒーレンスが最終的に1/f$の電荷雑音によって制限されることを示す。 最後に、量子ビットを低磁場で操作し、単一量子ビットゲートの忠実度を99.94 %維持しながら、$t_2^*=9.2$$$${\mu}$sの低下時間を測定する。

Spin qubits defined by valence band hole states comprise an attractive candidate for quantum information processing due to their inherent coupling to electric fields enabling fast and scalable qubit control. In particular, heavy holes in germanium have shown great promise, with recent demonstrations of fast and high-fidelity qubit operations. However, the mechanisms and anisotropies that underlie qubit driving and decoherence are still mostly unclear. Here, we report on the highly anisotropic heavy-hole $g$-tensor and its dependence on electric fields, allowing us to relate both qubit driving and decoherence to an electric modulation of the $g$-tensor. We also confirm the predicted Ising-type hyperfine interaction but show that qubit coherence is ultimately limited by $1/f$ charge noise. Finally, we operate the qubit at low magnetic field and measure a dephasing time of $T_2^*=9.2$ ${\mu}$s, while maintaining a single-qubit gate fidelity of 99.94 %, that remains well above 99 % at an operation temperature T>1 K. This understanding of qubit driving and decoherence mechanisms are key for the design and operation of scalable and highly coherent hole qubit arrays.
翻訳日:2023-11-28 04:17:51 公開日:2023-11-24
# 異方性炭化ケイ素中におけるテレコム波長バナジウム中心の超狭帯域不均一スペクトル分布

Ultra-narrow inhomogeneous spectral distribution of telecom-wavelength vanadium centres in isotopically-enriched silicon carbide ( http://arxiv.org/abs/2305.01757v2 )

ライセンス: Link先を確認
Pasquale Cilibrizzi, Muhammad Junaid Arshad, Benedikt Tissot, Nguyen Tien Son, Ivan G. Ivanov, Thomas Astner, Philipp Koller, Misagh Ghezellou, Jawad Ul-Hassan, Daniel White, Christiaan Bekker, Guido Burkard, Michael Trupke, Cristian Bonato(参考訳) スピンアクティブ量子エミッタは量子技術の先駆的なプラットフォームとして登場した。 しかし、彼らの大きな制限の1つは、通常数十ghzを超える光放射周波数の大規模な拡散である。 ここでは, 4H-SiCのV4+バナジウム中心について検討し, テレコム波長発光とコヒーレントS=1/2スピン状態を特徴とする。 単一エミッタ上で分光を行い、スピン光子界面の重要な要件であるスピン依存光遷移の観測を報告する。 SiCマトリックスの同位体組成をエンジニアリングすることにより、異なるエミッタの不均一なスペクトル分布を100MHzまで低減し、他のどの単一量子エミッタよりも大幅に小さくする。 さらに、ドパント濃度を調整して、通信波長V4+帯電状態を安定化し、その寿命を少なくとも2桁以上延長する。 これらの結果は、スケーラブルな通信量子ネットワークにおける物質ノードとしてのSiCの単一Vエミッタの展望を裏付けるものである。

Spin-active quantum emitters have emerged as a leading platform for quantum technologies. However, one of their major limitations is the large spread in optical emission frequencies, which typically extends over tens of GHz. Here, we investigate single V4+ vanadium centres in 4H-SiC, which feature telecom-wavelength emission and a coherent S=1/2 spin state. We perform spectroscopy on single emitters and report the observation of spin-dependent optical transitions, a key requirement for spin-photon interfaces. By engineering the isotopic composition of the SiC matrix, we reduce the inhomogeneous spectral distribution of different emitters down to 100 MHz, significantly smaller than any other single quantum emitter. Additionally, we tailor the dopant concentration to stabilise the telecom-wavelength V4+ charge state, thereby extending its lifetime by at least two orders of magnitude. These results bolster the prospects for single V emitters in SiC as material nodes in scalable telecom quantum networks.
翻訳日:2023-11-28 04:16:07 公開日:2023-11-24
# 異種相互作用学習のための集合的関係推論

Collective Relational Inference for learning heterogeneous interactions ( http://arxiv.org/abs/2305.00557v2 )

ライセンス: Link先を確認
Zhichao Han, Olga Fink, David S. Kammer(参考訳) 相互作用系は、物理学の粒子力学から機能的に連結された脳領域まで、自然と工学においてユビキタスである。 これらの相互作用系は、エッジが対話的実体間の相互作用に対応するグラフによってモデル化することができる。 相互作用法則の探求は基本的な重要性であるが、基礎となる構成上の複雑さのために特に困難である。 関連する課題は、複数の相互作用タイプが同時に共存し、リレーショナル推論が必要な、現実に広く普及している異種システムに対してさらに悪化する。 本稿では,従来の手法と比較して2つの特徴を持つ関係推論の確率的手法を提案する。 第一に、異なるエッジの相互作用タイプをまとめて推測し、第二に、時間とともに変動位相構造を持つシステムを扱うことができる。 提案手法は,複数のベンチマークデータセットにまたがって評価され,既存の手法より優れていることを示す。 さらに、既知の制約と組み合わせることで、例えば、粒子系の物理学的一貫性のある相互作用則を発見できることを示した。 全体として、提案されたモデルはデータ効率が良く、より小さなシステムでトレーニングした場合、大規模システムに一般化できる。 開発した手法は相互作用するシステムを理解する上で重要な要素であり,グラフ構造学習への応用を見出すことができる。

Interacting systems are ubiquitous in nature and engineering, ranging from particle dynamics in physics to functionally connected brain regions. These interacting systems can be modeled by graphs where edges correspond to the interactions between interactive entities. Revealing interaction laws is of fundamental importance but also particularly challenging due to underlying configurational complexities. The associated challenges become exacerbated for heterogeneous systems that are prevalent in reality, where multiple interaction types coexist simultaneously and relational inference is required. Here, we propose a novel probabilistic method for relational inference, which possesses two distinctive characteristics compared to existing methods. First, it infers the interaction types of different edges collectively, and second, it allows handling systems with variable topological structure over time. We evaluate the proposed methodology across several benchmark datasets and demonstrate that it outperforms existing methods in accurately inferring interaction types. We further show that when combined with known constraints, it allows us, for example, to discover physics-consistent interaction laws of particle systems. Overall the proposed model is data-efficient and generalizable to large systems when trained on smaller ones. The developed methodology constitutes a key element for understanding interacting systems and may find application in graph structure learning.
翻訳日:2023-11-28 04:15:17 公開日:2023-11-24
# ダウンストリーム適応のためのタスクローバスト事前訓練

Task-Robust Pre-Training for Worst-Case Downstream Adaptation ( http://arxiv.org/abs/2306.12070v3 )

ライセンス: Link先を確認
Jianghui Wang, Yang Chen, Xingyu Xie, Cong Fang, Zhouchen Lin(参考訳) プレトレーニングは下流のタスクに移行することで大きな成功を収めた。 機械学習では、モデルの優れたパフォーマンスだけでなく、合理的な状態変化下での振る舞いも気にしています。 同じ哲学は、基礎モデルの事前トレーニングで成り立つ。 しかし、基礎モデルは一連の下流タスクに対して一様に振る舞うことができない。 これは例えば、事前トレーニングにおいて、リカバリ能力やパターン特徴のようなトレーニングインスタンスが優勢に抽出されるようなマスクリカバリ回帰を行う場合には発生するが、下流タスクでは意味的特徴も必要となる。 本稿では,下流タスクに対して一様に優れた性能を保証するモデルを事前学習することを検討する。 この目標を $\textit{downstream-task robustness}$ と呼びます。 提案手法は,まず上流タスクを複数の代表タスクに分割し,事前学習に単純なミニマックスロスを適用する。 次に,最小限の損失を解くアルゴリズムを設計し,その収束性を凸設定で証明する。 実験では, 大規模自然言語処理とコンピュータビジョンデータセットの両方について, 提案手法が下降課題のメトリクスを増加させることを示す。 また、この損失がなぜ有益かという理論的説明も提供される。 特に、最も困難なダウンストリームタスクには、本質的に必要なサンプルが少ないことが示されています。

Pre-training has achieved remarkable success when transferred to downstream tasks. In machine learning, we care about not only the good performance of a model but also its behavior under reasonable shifts of condition. The same philosophy holds when pre-training a foundation model. However, the foundation model may not uniformly behave well for a series of related downstream tasks. This happens, for example, when conducting mask recovery regression where the recovery ability or the training instances diverge like pattern features are extracted dominantly on pre-training, but semantic features are also required on a downstream task. This paper considers pre-training a model that guarantees a uniformly good performance over the downstream tasks. We call this goal as $\textit{downstream-task robustness}$. Our method first separates the upstream task into several representative ones and applies a simple minimax loss for pre-training. We then design an efficient algorithm to solve the minimax loss and prove its convergence in the convex setting. In the experiments, we show both on large-scale natural language processing and computer vision datasets our method increases the metrics on worse-case downstream tasks. Additionally, some theoretical explanations for why our loss is beneficial are provided. Specifically, we show fewer samples are inherently required for the most challenging downstream task in some cases.
翻訳日:2023-11-28 04:07:48 公開日:2023-11-24
# ガウス過程ネットワークに対するベイズ的アプローチ

A Bayesian Take on Gaussian Process Networks ( http://arxiv.org/abs/2306.11380v4 )

ライセンス: Link先を確認
Enrico Giudice, Jack Kuipers, Giusi Moffa(参考訳) ガウス過程ネットワーク(英: gaussian process network、gpns)は、ネットワーク内の各変数の条件付き期待値の事前としてガウス過程を用いる有向グラフィカルモデルのクラスである。 このモデルは、変数間の依存関係に関する最小限のパラメトリック仮定で、コンパクトで柔軟な方法で連続的なジョイント分布を記述することができる。 GPNのベイズ構造学習は、ネットワークのグラフの後方を計算し、低次元でも計算不可能である。 この研究はモンテカルロとマルコフ連鎖モンテカルロ法を実装し、ネットワーク構造の後方分布からサンプルを得る。 このように、このアプローチはベイズパラダイムに従い、その限界確率によるモデルの比較とGPN特徴の後方確率の計算を行う。 シミュレーションにより,本手法はネットワークのグラフィカルな構造の復元において最先端のアルゴリズムよりも優れており,その後方分布を精度良く近似できることを示した。

Gaussian Process Networks (GPNs) are a class of directed graphical models which employ Gaussian processes as priors for the conditional expectation of each variable given its parents in the network. The model allows the description of continuous joint distributions in a compact but flexible manner with minimal parametric assumptions on the dependencies between variables. Bayesian structure learning of GPNs requires computing the posterior over graphs of the network and is computationally infeasible even in low dimensions. This work implements Monte Carlo and Markov Chain Monte Carlo methods to sample from the posterior distribution of network structures. As such, the approach follows the Bayesian paradigm, comparing models via their marginal likelihood and computing the posterior probability of the GPN features. Simulation studies show that our method outperforms state-of-the-art algorithms in recovering the graphical structure of the network and provides an accurate approximation of its posterior distribution.
翻訳日:2023-11-28 04:07:29 公開日:2023-11-24
# gemo-clap:正確な音声感情認識のためのジェンダー属性強調コントラスト言語-audio前訓練

GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Accurate Speech Emotion Recognition ( http://arxiv.org/abs/2306.07848v9 )

ライセンス: Link先を確認
Yu Pan, Yanni Hu, Yuguang Yang, Wen Fei, Jixun Yao, Heng Lu, Lei Ma, Jianjun Zhao(参考訳) 対照的なクロスモダリティプリトレーニングは、近年、さまざまな分野で素晴らしい成功を収めている一方、音声感情認識(ser)におけるそのメリットに関する研究は限られている。 本稿では,SERのためのジェンダー属性付きコントラスト言語事前学習(CLAP)手法であるGEmo-CLAPを提案する。 具体的には、まず、事前学習されたテキストとオーディオエンコーダを用いて、SERのための効果的な感情CLAP(Emo-CLAP)を構築する。 第二に、SERにおけるジェンダー情報の重要性を考えると、2つの新しいマルチタスク学習ベースGEmo-CLAP(ML-GEmo-CLAP)とソフトラベルベースGEmo-CLAP(SL-GEmo-CLAP)モデルがさらに提案され、音声信号のジェンダー情報を組み込んでより合理的な目的を形成する。 IEMOCAPの実験から,提案した2つのGEmo-CLAPは,異なる事前学習モデルで一貫してEmo-CLAPを上回っていることが示された。 WavLMベースのSL-GEmo-CLAPは81.43\%の最高のUARと83.16\%のWARを得る。

Contrastive cross-modality pretraining has recently exhibited impressive success in diverse fields, whereas there is limited research on their merits in speech emotion recognition (SER). In this paper, we propose GEmo-CLAP, a kind of gender-attribute-enhanced contrastive language-audio pretraining (CLAP) method for SER. Specifically, we first construct an effective emotion CLAP (Emo-CLAP) for SER, using pre-trained text and audio encoders. Second, given the significance of gender information in SER, two novel multi-task learning based GEmo-CLAP (ML-GEmo-CLAP) and soft label based GEmo-CLAP (SL-GEmo-CLAP) models are further proposed to incorporate gender information of speech signals, forming more reasonable objectives. Experiments on IEMOCAP indicate that our proposed two GEmo-CLAPs consistently outperform Emo-CLAP with different pre-trained models. Remarkably, the proposed WavLM-based SL-GEmo-CLAP obtains the best UAR of 81.43\% and WAR of 83.16\%, which performs better than state-of-the-art SER methods.
翻訳日:2023-11-28 04:06:00 公開日:2023-11-24
# PEAR: 階層的強化学習を促進するための原始的適応的リラベリング

PEAR: Primitive enabled Adaptive Relabeling for boosting Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2306.06394v4 )

ライセンス: Link先を確認
Utsav Singh, Vinay P Namboodiri(参考訳) 階層的強化学習(HRL)は、時間的抽象化と探索の増大により、複雑な長い地平線タスクを解く可能性がある。 しかし、階層的エージェントは本質的に非定常性のために訓練が難しい。 提案手法は,まず数種類の専門家による適応型レザベリングを行い,効率的なサブゴナル・インスペクションを生成するための2段階の手法であるプリミティブ・アダプティブ・アダプティブ・レザベリング(PEAR)を提案し,その後,強化学習(RL)と模倣学習(IL)を用いてHRLエージェントを協調的に最適化する。 理論的な分析を $ にします (i)$ アプローチのサブ最適性にバインドし、$ (ii)RLとILを用いた共同最適化のための汎用的なプラグアンドプレイフレームワークを導出する。 PEARはいくつかの専門家によるデモンストレーションを使用し、タスク構造に対する最小限の仮定を行う。 さらに、実用的なHRLアルゴリズムを生成するために、典型的なモデルフリーなRLアルゴリズムと容易に統合できる。 我々は,ロボット環境に挑戦する実験を行い,pearが長期的意思決定を必要とする課題を解決できることを示す。 PEARは従来の階層的アプローチや非階層的アプローチよりも性能とサンプル効率が向上していることを実証的に示す。 また、複雑なタスクで現実世界のロボット実験を行い、PEARがベースラインを一貫して上回っていることを示す。

Hierarchical reinforcement learning (HRL) has the potential to solve complex long horizon tasks using temporal abstraction and increased exploration. However, hierarchical agents are difficult to train due to inherent non-stationarity. We present primitive enabled adaptive relabeling (PEAR), a two-phase approach where we first perform adaptive relabeling on a few expert demonstrations to generate efficient subgoal supervision, and then jointly optimize HRL agents by employing reinforcement learning (RL) and imitation learning (IL). We perform theoretical analysis to $(i)$ bound the sub-optimality of our approach, and $(ii)$ derive a generalized plug-and-play framework for joint optimization using RL and IL. PEAR uses a handful of expert demonstrations and makes minimal limiting assumptions on the task structure. Additionally, it can be easily integrated with typical model free RL algorithms to produce a practical HRL algorithm. We perform experiments on challenging robotic environments and show that PEAR is able to solve tasks that require long term decision making. We empirically show that PEAR exhibits improved performance and sample efficiency over previous hierarchical and non-hierarchical approaches. We also perform real world robotic experiments on complex tasks and demonstrate that PEAR consistently outperforms the baselines.
翻訳日:2023-11-28 04:05:19 公開日:2023-11-24
# 組合せ最適化のためのニューラルアルゴリズム推論

Neural Algorithmic Reasoning for Combinatorial Optimisation ( http://arxiv.org/abs/2306.06064v3 )

ライセンス: Link先を確認
Dobrik Georgiev and Danilo Numeroso and Davide Bacciu and Pietro Li\`o(参考訳) ニューラルネットワークによるnpハード/完全組合せ問題を解くことは、古典的な近似アルゴリズムを超越することを目的とした、難しい研究領域である。 長期的目的は、訓練データのみから優れた解を生成することを学ぶことにより、NP-hard/complete問題に対する手設計のヒューリスティックスを上回ることにある。 現在のCO問題の解法は、しばしば問題の固有の「アルゴリズム」の性質を見落としている。 対照的に、TSPのようなCO問題のために設計されたヒューリスティックスは、最小分散木を見つけるような、確立されたアルゴリズムを頻繁に活用する。 本稿では,最近のアルゴリズム推論の進歩を活用し,CO問題の学習を改善することを提案する。 具体的には、COインスタンスでトレーニングする前に、関連するアルゴリズムでニューラルネットワークを事前トレーニングすることを提案する。 以上の結果から,この学習装置を用いることで,非アルゴリズム的情報深層学習モデルよりも優れた性能が得られることが示された。

Solving NP-hard/complete combinatorial problems with neural networks is a challenging research area that aims to surpass classical approximate algorithms. The long-term objective is to outperform hand-designed heuristics for NP-hard/complete problems by learning to generate superior solutions solely from training data. Current neural-based methods for solving CO problems often overlook the inherent "algorithmic" nature of the problems. In contrast, heuristics designed for CO problems, e.g. TSP, frequently leverage well-established algorithms, such as those for finding the minimum spanning tree. In this paper, we propose leveraging recent advancements in neural algorithmic reasoning to improve the learning of CO problems. Specifically, we suggest pre-training our neural model on relevant algorithms before training it on CO instances. Our results demonstrate that by using this learning setup, we achieve superior performance compared to non-algorithmically informed deep learning models.
翻訳日:2023-11-28 04:04:49 公開日:2023-11-24
# 非線形リカレントニューラルネットワークの逆近似理論

Inverse Approximation Theory for Nonlinear Recurrent Neural Networks ( http://arxiv.org/abs/2305.19190v3 )

ライセンス: Link先を確認
Shida Wang, Zhong Li and Qianxiao Li(参考訳) 本研究では,recurrent neural network (rnns) を用いた非線形シーケンス-シーケンス関係の近似に対する逆近似定理を証明した。 これはいわゆるベルンシュタイン型近似理論の結果であり、仮説空間によって効果的に近似できるという仮定の下で対象関数の性質を推論する。 特に、非線形RNNによって安定に近似できる非線形シーケンス関係は、指数関数的に減衰するメモリ構造を持つ必要がある。 これは線形rnnにおけるメモリの呪いを一般的な非線形設定に拡張し、長期記憶とのシーケンシャルな関係を学習するためのrnnアーキテクチャの本質的な制限を定量化する。 そこで本研究では,その限界を克服する原理的パラメータ化手法を提案する。 理論的結果は数値実験によって確認される。 コードはhttps://github.com/radarfudan/curse-of-memoryでリリースされている。

We prove an inverse approximation theorem for the approximation of nonlinear sequence-to-sequence relationships using recurrent neural networks (RNNs). This is a so-called Bernstein-type result in approximation theory, which deduces properties of a target function under the assumption that it can be effectively approximated by a hypothesis space. In particular, we show that nonlinear sequence relationships that can be stably approximated by nonlinear RNNs must have an exponential decaying memory structure - a notion that can be made precise. This extends the previously identified curse of memory in linear RNNs into the general nonlinear setting, and quantifies the essential limitations of the RNN architecture for learning sequential relationships with long-term memory. Based on the analysis, we propose a principled reparameterization method to overcome the limitations. Our theoretical results are confirmed by numerical experiments. The code has been released in https://github.com/radarFudan/Curse-of-memory
翻訳日:2023-11-28 04:03:39 公開日:2023-11-24
# ガウス・ボネット重力における一般化体積複雑性:制約と相転移

Generalized Volume Complexity in Gauss-Bonnet Gravity: Constraints and Phase Transitions ( http://arxiv.org/abs/2307.12530v3 )

ライセンス: Link先を確認
Xuanhua Wang, Ran Li, Jin Wang(参考訳) 量子複雑性は、極表面の体積、ホイーラー・デウィットパッチの作用、パッチの時空体積と双対であることが提案されている。 近年、一般化された体積複雑度観測可能法が双対ホログラフィック複雑性の等価な候補として定式化されている。 この提案は ``complexity=anything と略される。 「この提案は極端曲面の選択や物理量(体積や作用など)の評価において、より大きな柔軟性を提供する。 本研究では,様々な次元における漸近反ド・ジッター空間におけるガウス・ボネットブラックホールの「複雑度=あらゆる」提案について検討する。 この提案は, 4次元ガウス・ボンネット重力の結合パラメータによらず, 晩期の一般化体積の線形成長を保証できることを実証する。 しかし、この普遍性は高次元には当てはまらない。 さらに、位相遷移を想起する有効電位に複数のピークが存在すると、極端表面の不連続な変形が生じる。 さらに、一般化された体積がホログラフィック複雑性の候補となるために、5次元モデルの結合パラメータに制約を与える。

It has been proposed that quantum complexity is dual to the volume of the extremal surface, the action of the Wheeler-DeWitt patch, and the spacetime volume of the patch. Recently, a generalized volume-complexity observable was formulated as an equivalently good candidate for the dual holographic complexity. This proposal is abbreviated as ``complexity=anything." This proposal offers greater flexibility in selecting extremal surfaces and evaluating physical quantities, e.g., volume or action, on these surfaces. In this study, we explore the 'complexity=anything' proposal for Gauss-Bonnet black holes in asymptotic anti-de Sitter space in various dimensions. We demonstrate that this proposal guarantees the linear growth of the generalized volume at late times, regardless of the coupling parameters for four-dimensional Gauss-Bonnet gravity. However, this universality does not hold for higher dimensions. Moreover, discontinuous deformations of the extremal surfaces emerge when multiple peaks exist in the effective potential, which is reminiscent of a phase transition. Additionally, we present constraints on the coupling parameters of five-dimensional models in order for the generalized volume to be a viable candidate for holographic complexity.
翻訳日:2023-11-28 03:54:16 公開日:2023-11-24
# 局所化量子系とカオス量子系を区別する方法

A method to discriminate between localized and chaotic quantum systems ( http://arxiv.org/abs/2307.10706v2 )

ライセンス: Link先を確認
Youssef Aziz Alaoui and Bruno Laburthe-Tolra(参考訳) 我々は、当初平衡から設定された一般の孤立量子系がその初期状態に近い局所化あるいはカオス化できるかどうかを区別する基準を導出する。 提案手法では, 格子サイト内のエネルギーと, 格子サイトから次の格子サイトへのトンネルが等質である一次元格子内を移動する粒子に, 系の力学をマッピングするランツォス基底の時間発展を考察する。 カオスシステムとローカライズされたシステムを区別できる基準を推測する。 この基準はランツォ状態と期待エネルギーの変動の間の結合強度を含む。 本研究では,次元関数としてのアンダーソン局在に対応する3つの事例,多体双極子スピン系の平衡外ダイナミクス,可積分系を検証し,妥当性を検証する。 我々は、量子カオス系を特徴づけるために提案されたウィグナー予想と固有状態熱化仮説の正当性を示した。 実際、系がカオスであるための我々の基準は、ウィグナー・ダイソン分布の特徴である固有ネルギのレベル反発(スペクトル剛性とも呼ばれる)を暗示している。 実演では、ハミルトニアンによって弱次に結合された状態と接続する状態として、固有状態の加熱が適用される作用素のクラスを定義することができる。

We derive a criterion that distinguishes whether a generic isolated quantum system initially set out of equilibrium can be considered as localized close to its initial state, or chaotic. Our approach considers the time evolution in the Lanczos basis, which maps the system's dynamics onto that of a particle moving in a one-dimensional lattice where both the energy in the lattice sites and the tunneling from one lattice site to the next are inhomogeneous. We infer a criterion that allows distinguishing localized from chaotic systems. This criterion involves the coupling strengths between Lanczos states and their expectation energy fluctuations. We verify its validity by inspecting three cases, corresponding to Anderson localization as a function of dimension, the out-of-equilibrium dynamics of a many-body dipolar spin system, and integrable systems. We finally show that our approach provides a justification for the Wigner surmise and the eigenstate thermalization hypothesis, which have both been proposed to characterize quantum chaotic systems. Indeed, our criterion for a system to be chaotic implies the level repulsion (also known as spectral rigidity) of eigenenergies, which is characteristic of the Wigner-Dyson distribution; and we also demonstrate that in the chaotic regime, the expectation value of any local observable only weakly varies as a function of eigenstates. Our demonstration allows to define the class of operators to which the eigenstate thermalization applies, as the ones that connect states that are coupled at weak order by the Hamiltonian.
翻訳日:2023-11-28 03:53:58 公開日:2023-11-24
# 量子コンピュータにおける読み出し誤り軽減のための情報理論的アプローチ

Information theoretic approach to readout error mitigation for quantum computers ( http://arxiv.org/abs/2307.09667v2 )

ライセンス: Link先を確認
Hai-Chau Nguyen(参考訳) 量子コンピュータにおける読み出し誤りを緩和するための反復ベイズ展開法は情報理論解析から導出できることを示す。 これにより、このエラー軽減スキームのより柔軟な応用がもたらされる。 特に,構造的緩和と非構造的緩和を区別する。 構造緩和は、コンピュータが単一のまたは少数の結果ビットストリングを出力することが期待される、ほぼ決定論的量子計算に対処する。 読み出し誤差のみを計算の繰り返しによって補正できることが示されている。 対照的に、非構造的緩和は量子シミュレーションのために設計され、コンピュータはビットストリングを広く分散する。 この場合、ある観測可能な関心を緩和することに興味がある。 ほとんどの観測対象はビットに依存しており、全ビットストリングではないため、これらの依存ビットに対する限界分布を緩和するのに十分である。 読み出し誤差のクロストークを無視できる限り、これらの限界分布に局所的に適用される反復ベイズ展開は、最小二乗誤差を用いた緩和と同様の結果をもたらす。 127量子ビット量子コンピュータにおけるGHZ状態の生成データを用いて解析を行った。

We show that the method of iterative bayesian unfolding for mitigating readout errors in quantum computers can be derived from an information theoretic analysis. This inspires more flexible applications of this error mitigation scheme. In particular, we distinguish between structural mitigation and unstructural mitigation. Structural mitigation addresses nearly deterministic quantum computation, where the computer is expected to output a single or few outcome bitstrings. It is shown that the readout errors alone can be corrected by few repetitions of the computation. In contrast, unstructural mitigation is designed for quantum simulation, where the computer outputs bitstrings broadly distributed. In this case, one is interested in mitigating certain observables of interest. As most observables of interest are dependent on few bits and not the whole bitstring, it is sufficient to mitigate the marginal distributions over these dependent bits. As long as the cross-talk of readout errors can be ignored, it is shown that the iterative bayesian unfolding applied locally for these marginal distributions gives similar results as mitigation using least squared errors. We illustrate our analysis using the data of the preparation of the GHZ state in a 127-qubit quantum computer.
翻訳日:2023-11-28 03:53:35 公開日:2023-11-24
# think-on-graph:知識グラフによる大規模言語モデルの深く責任ある推論

Think-on-Graph: Deep and Responsible Reasoning of Large Language Model on Knowledge Graph ( http://arxiv.org/abs/2307.07697v5 )

ライセンス: Link先を確認
Jiashuo Sun, Chengjin Xu, Lumingyuan Tang, Saizhuo Wang, Chen Lin, Yeyun Gong, Lionel M. Ni, Heung-Yeung Shum, Jian Guo(参考訳) 大規模言語モデル(llm)は様々なタスクで大きな成功を収めているが、幻覚の問題、特に深く責任ある推論を必要とするシナリオにしばしば苦労している。 これらの問題は、LLM推論に外部知識グラフ(KG)を導入することで部分的に解決できる。 本稿では, llmをエージェントとして扱い, kgs上の関連エンティティや関係を対話的に探索し, 得られた知識に基づいて推論を行う, llm-kg統合パラダイムである`$\hbox{llm}\otimes\hbox{kg}$''を提案する。 我々は、このパラダイムを、LLMエージェントがKG上でビームサーチを反復的に実行し、最も有望な推論経路を発見し、最も可能性の高い推論結果を返す、Think-on-Graph(ToG)と呼ばれる新しいアプローチを導入することで、さらに実装する。 私たちは、ToGの次の利点を検証し、説明するために、よく設計された多くの実験を使用します。 1) LLMと比較して、ToGはより深い推論能力を有する。 2)togは,llms推論と専門家のフィードバックを活用し,知識のトレーサビリティと知識の正確性を有する。 3)ToGは、異なるLLM、KG、および追加のトレーニングコストなしで戦略を推進するための柔軟なプラグアンドプレイフレームワークを提供する。 4) 小型LLMモデルによるToGの性能は, 特定のシナリオにおいて GPT-4 などの大型 LLM を超える可能性があり, これにより, LLM の展開・適用コストを低減できる。 ToGは、計算コストが低く、より汎用性の高いトレーニングフリーの方法として、以前のSOTAが追加のトレーニングに依存する9つのデータセットのうち6つで、全体的なSOTAを達成する。

Although large language models (LLMs) have achieved significant success in various tasks, they often struggle with hallucination problems, especially in scenarios requiring deep and responsible reasoning. These issues could be partially addressed by introducing external knowledge graphs (KG) in LLM reasoning. In this paper, we propose a new LLM-KG integrating paradigm ``$\hbox{LLM}\otimes\hbox{KG}$'' which treats the LLM as an agent to interactively explore related entities and relations on KGs and perform reasoning based on the retrieved knowledge. We further implement this paradigm by introducing a new approach called Think-on-Graph (ToG), in which the LLM agent iteratively executes beam search on KG, discovers the most promising reasoning paths, and returns the most likely reasoning results. We use a number of well-designed experiments to examine and illustrate the following advantages of ToG: 1) compared with LLMs, ToG has better deep reasoning power; 2) ToG has the ability of knowledge traceability and knowledge correctability by leveraging LLMs reasoning and expert feedback; 3) ToG provides a flexible plug-and-play framework for different LLMs, KGs and prompting strategies without any additional training cost; 4) the performance of ToG with small LLM models could exceed large LLM such as GPT-4 in certain scenarios and this reduces the cost of LLM deployment and application. As a training-free method with lower computational cost and better generality, ToG achieves overall SOTA in 6 out of 9 datasets where most previous SOTAs rely on additional training.
翻訳日:2023-11-28 03:52:53 公開日:2023-11-24
# 量子確率過程からの古典性

Classicality from Quantum Stochastic Processes ( http://arxiv.org/abs/2307.04258v2 )

ライセンス: Link先を確認
Esteban Mart\'inez-Vargas(参考訳) 私は量子システムから古典論を発展させる。 この理論は古典的および量子的定常確率過程の研究に由来する。 確率過程は、多面体(古典)および半定値の代表(量子)錐体によって特徴づけられる。 著者による以前の結果に基づいて、量子チャネルからの固定点の研究を拡大する。 私は、コアと多くのイテレーションで崩壊する部分に分かれた量子チャネルを特徴付ける半定値プログラムを与える。 一般に、解は定義されている空間において非分離である。 分離可能な場合の固定点の観点から,チャネルのキャラクタリゼーションを示す。 そして、多面体円錐の量子シミュレーションを構築することができる。

I develop a theory of classicality from quantum systems. This theory stems from the study of classical and quantum stationary stochastic processes. The stochastic processes are characterized by polyhedral (classical) and semidefinite representative (quantum) cones. Based on a previous result by the author I expand the study of fixed points from quantum channels. I give a semidefinite program that characterizes a quantum channel separating into a core and a part that decays with many iterations. In general, the solution is non-separable in the space it is defined. I present a characterization of channels in terms of their fixed points for the separable case. A quantum simulation of a polyhedral cone can then be constructed.
翻訳日:2023-11-28 03:52:02 公開日:2023-11-24
# Jaynes-Cummingsモデルの量子相転移

Quantum phase transition of the Jaynes-Cummings model ( http://arxiv.org/abs/2306.13519v3 )

ライセンス: Link先を確認
Cheng Liu, Jin-Feng Huang(参考訳) 本稿では,強い結合を持つ量子ラビモデルにおいて,2レベル系の遷移周波数を変調することにより,Jaynes-Cummings(JC)モデルの量子相転移を示す実験可能な手法を提案する。 変調周波数と振幅をチューニングすることにより、回転項の有効結合強度と有効空洞(原子遷移)周波数の比は、逆回転項を無視する一方で、深い結合状態に入ることができる。 これにより、深い強度のJCモデルが得られる。 ディープストロングJCモデルにおける結合強度と共振周波数の比は、元の量子ラビモデルにおける対応する比より2桁大きい。 本手法は,原子キャビティ共鳴やオフ共振の場合に適用でき,幅広い範囲で有効である。 基底状態の非ゼロ平均キャビティ光子は、量子相転移の出現を示している。 さらに, 位相図の原子キャビティ分解および変調パラメータへの依存性を示す。 提案手法で使用するパラメータはすべて,現在の実験技術の範囲内にある。 本手法は, 古典的場制限を必要とせず, 有限大系の臨界現象を調べるための新たなメカニズムを提供し, 超強結合系や深結合系で発生する基本量子現象の研究の扉を開く。

Herein, we propose an experimentally feasible scheme to show the quantum phase transition of the Jaynes-Cummings (JC) model by modulating the transition frequency of a two-level system in a quantum Rabi model with strong coupling. By tuning the modulation frequency and amplitude, the ratio of the effective coupling strength of the rotating terms to the effective cavity (atomic transition) frequency can enter the deep-strong coupling regime, while the counter-rotating terms can be neglected. Thus, a deep-strong JC model is obtained. The ratio of the coupling strength to resonance frequencies in the deep-strong JC model is two orders of magnitude larger than the corresponding ratio in the original quantum Rabi model. Our scheme can be employed in atom-cavity resonance and off-resonance cases, and it is valid over a broad range. The nonzero average cavity photons of the ground state indicate the emergence of a quantum phase transition. Further, we demonstrate the dependence of the phase diagram on the atom-cavity detuning and modulation parameters. All the parameters used in our scheme are within the reach of current experimental technology. Our scheme provides a new mechanism for investigating the critical phenomena of finite-sized systems without requiring classical field limits, thereby opening a door for studying fundamental quantum phenomena occurring in the ultrastrong and even deep-strong coupling regimes.
翻訳日:2023-11-28 03:50:48 公開日:2023-11-24
# 思考のグラフ: 大きな言語モデルで精巧な問題を解決する

Graph of Thoughts: Solving Elaborate Problems with Large Language Models ( http://arxiv.org/abs/2308.09687v3 )

ライセンス: Link先を確認
Maciej Besta, Nils Blach, Ales Kubicek, Robert Gerstenberger, Lukas Gianinazzi, Joanna Gajda, Tomasz Lehmann, Michal Podstawski, Hubert Niewiadomski, Piotr Nyczyk, Torsten Hoefler(参考訳) graph of thoughts (got): 大規模言語モデル(llm)におけるプロンプト機能を、chain-of-thoughtやtree of thoughts (tot)といったパラダイムによって提供されるものを超えて推進するフレームワークです。 GoTの鍵となるアイデアと主要な利点は、LLMによって生成された情報を任意のグラフとしてモデル化する能力であり、そこでは情報の単位(LLM思考)が頂点であり、エッジはこれらの頂点間の依存関係に対応する。 このアプローチにより、任意のLLM思考を相乗的な結果に組み合わせ、思考のネットワーク全体の本質を蒸留したり、フィードバックループを用いて思考を強化することができる。 例えば、totよりもソートの品質を62%向上させ、同時にコストを31%以上削減するなどである。 我々は、getが新しい思考変換によって拡張可能であることを保証し、それによって新しいプロンプトスキームを先導することができる。 この研究は、LLM推論を人間の思考や再発などの脳機構に近づけ、どちらも複雑なネットワークを形成する。

We introduce Graph of Thoughts (GoT): a framework that advances prompting capabilities in large language models (LLMs) beyond those offered by paradigms such as Chain-of-Thought or Tree of Thoughts (ToT). The key idea and primary advantage of GoT is the ability to model the information generated by an LLM as an arbitrary graph, where units of information ("LLM thoughts") are vertices, and edges correspond to dependencies between these vertices. This approach enables combining arbitrary LLM thoughts into synergistic outcomes, distilling the essence of whole networks of thoughts, or enhancing thoughts using feedback loops. We illustrate that GoT offers advantages over state of the art on different tasks, for example increasing the quality of sorting by 62% over ToT, while simultaneously reducing costs by >31%. We ensure that GoT is extensible with new thought transformations and thus can be used to spearhead new prompting schemes. This work brings the LLM reasoning closer to human thinking or brain mechanisms such as recurrence, both of which form complex networks.
翻訳日:2023-11-28 03:41:59 公開日:2023-11-24
# ニューラル量子支援ベクトルマシンについて

On Neural Quantum Support Vector Machines ( http://arxiv.org/abs/2308.08467v2 )

ライセンス: Link先を確認
Lars Simon and Manuel Radons(参考訳) cite{simon2023algorithms}では、ニューラルサポートベクターマシン(nsvm)のトレーニングのための4つのアルゴリズムを導入し、その実現可能性を示した。 本稿では、ニューラル量子サポートベクターマシン、すなわち量子カーネルを持つnsvmを紹介し、その結果をこの設定に拡張する。

In \cite{simon2023algorithms} we introduced four algorithms for the training of neural support vector machines (NSVMs) and demonstrated their feasibility. In this note we introduce neural quantum support vector machines, that is, NSVMs with a quantum kernel, and extend our results to this setting.
翻訳日:2023-11-28 03:41:14 公開日:2023-11-24
# real robot challenge 2022: 現実世界のオフラインデータからデクスター処理を学ぶ

Real Robot Challenge 2022: Learning Dexterous Manipulation from Offline Data in the Real World ( http://arxiv.org/abs/2308.07741v3 )

ライセンス: Link先を確認
Nico G\"urtler, Felix Widmaier, Cansu Sancaktar, Sebastian Blaes, Pavel Kolev, Stefan Bauer, Manuel W\"uthrich, Markus Wulfmeier, Martin Riedmiller, Arthur Allshire, Qiang Wang, Robert McCarthy, Hangyeol Kim, Jongchan Baek, Wookyong Kwon, Shanliang Qian, Yasunori Toshimitsu, Mike Yan Michelis, Amirhossein Kazemipour, Arman Raayatsanati, Hehui Zheng, Barnabas Gavin Cangan, Bernhard Sch\"olkopf, Georg Martius(参考訳) 実際のロボットの実験には時間とコストが要求される。 このため、強化学習(RL)コミュニティの大部分はシミュレータを使ってアルゴリズムを開発し、ベンチマークしている。 しかしながら、シミュレーションで得られた洞察は、実際のロボット、特に環境との複雑な相互作用に関わるタスクに必ずしも変換されない。 それゆえ、実際のロボットチャレンジ2022は、参加者が実際のロボットを遠隔で実験することを可能にすることで、rlとロボットコミュニティの橋渡しとなった。 近年、オフラインの強化学習が成熟し、事前コンパイルされたデータセットから学習するための有望なパラダイムとなり、高価なオンラインインタラクションへの依存が軽減された。 そこで我々は参加者に対して,提供された実ロボットデータセットからプッシュ,握り,手動の向きを含む2つの巧妙な操作タスクを学ぶように求めた。 大規模なソフトウェアドキュメンテーションと、実際のセットアップのシミュレーションに基づく初期ステージは、競争を特にアクセスしやすくした。 それぞれのチームに、オフラインで学習したポリシーを7つのTriFingerプラットホームのクラスタで評価するための、十分なアクセス予算を与えることで、機械学習とロボティクスのエキサイティングな競争を組織した。 本研究では,競争のルールを述べ,勝敗チームが使用する手法を示し,課題データセット上の最先端のオフラインRLアルゴリズムのベンチマークと比較する。

Experimentation on real robots is demanding in terms of time and costs. For this reason, a large part of the reinforcement learning (RL) community uses simulators to develop and benchmark algorithms. However, insights gained in simulation do not necessarily translate to real robots, in particular for tasks involving complex interactions with the environment. The Real Robot Challenge 2022 therefore served as a bridge between the RL and robotics communities by allowing participants to experiment remotely with a real robot - as easily as in simulation. In the last years, offline reinforcement learning has matured into a promising paradigm for learning from pre-collected datasets, alleviating the reliance on expensive online interactions. We therefore asked the participants to learn two dexterous manipulation tasks involving pushing, grasping, and in-hand orientation from provided real-robot datasets. An extensive software documentation and an initial stage based on a simulation of the real set-up made the competition particularly accessible. By giving each team plenty of access budget to evaluate their offline-learned policies on a cluster of seven identical real TriFinger platforms, we organized an exciting competition for machine learners and roboticists alike. In this work we state the rules of the competition, present the methods used by the winning teams and compare their results with a benchmark of state-of-the-art offline RL algorithms on the challenge datasets.
翻訳日:2023-11-28 03:41:07 公開日:2023-11-24
# マルチビジュアル慣性システム:解析・校正・推定

Multi-Visual-Inertial System: Analysis, Calibration and Estimation ( http://arxiv.org/abs/2308.05303v3 )

ライセンス: Link先を確認
Yulin Yang and Patrick Geneva and Guoquan Huang(参考訳) 本稿では,マルチビジュアル慣性システム(mvis)の状態推定と,任意の数の非同期慣性測定ユニット(imus)やジャイロスコープ,グローバルおよび(または)ローリングシャッターカメラを最適に融合するセンサ融合アルゴリズムを開発した。 IMUやカメラの内在性、IMU-IMU(またはカメラ)時空間外在性、ローリングシャッターカメラ(使用)の画像読取時間など、関連する視覚慣性センサーの完全な校正に関心がある。 この目的のために,本研究では,ベースIMUとともに補助IMUと(または)ジャイロスコープの融合に利用した,内在性決定型ACI3-to preintegrate IMU測定と新たなIMU統合法を開発した。 我々は,IMU-IMUの剛体制約を利用して,補助的慣性ポーズの必要を排除し,複雑性を低減しつつ,必要慣性内在およびIMU-IMU時空間外因性パラメータをすべて含む多慣性測定をモデル化した。 MVISの可観測性解析により,慣性センサの数に関わらず,標準の4つの観測不可能な方向が残っていること,IMU-IMU時空間外在性運動と補助慣性内在性運動の退化を初めて確認した。 分析とアルゴリズムを検証する広範なシミュレーションに加えて、我々は独自のmvisセンサリグを構築し、25以上の実世界のデータセットを収集し、kalibrのような最先端のキャリブレーション手法に対するキャリブレーションを実験的に検証した。 提案するmvisキャリブレーションにより,コンバージェンスとリピート性が向上し,コミュニティのメリットを高めるためにオープンソースとして公開されている競合精度が達成できることを示す。

In this paper, we study state estimation of multi-visual-inertial systems (MVIS) and develop sensor fusion algorithms to optimally fuse an arbitrary number of asynchronous inertial measurement units (IMUs) or gyroscopes and global and(or) rolling shutter cameras. We are especially interested in the full calibration of the associated visual-inertial sensors, including the IMU or camera intrinsics and the IMU-IMU(or camera) spatiotemporal extrinsics as well as the image readout time of rolling-shutter cameras (if used). To this end, we develop a new analytic combined IMU integration with intrinsics-termed ACI3-to preintegrate IMU measurements, which is leveraged to fuse auxiliary IMUs and(or) gyroscopes alongside a base IMU. We model the multi-inertial measurements to include all the necessary inertial intrinsic and IMU-IMU spatiotemporal extrinsic parameters, while leveraging IMU-IMU rigid-body constraints to eliminate the necessity of auxiliary inertial poses and thus reducing computational complexity. By performing observability analysis of MVIS, we prove that the standard four unobservable directions remain - no matter how many inertial sensors are used, and also identify, for the first time, degenerate motions for IMU-IMU spatiotemporal extrinsics and auxiliary inertial intrinsics. In addition to the extensive simulations that validate our analysis and algorithms, we have built our own MVIS sensor rig and collected over 25 real-world datasets to experimentally verify the proposed calibration against the state-of-the-art calibration method such as Kalibr. We show that the proposed MVIS calibration is able to achieve competing accuracy with improved convergence and repeatability, which is open sourced to better benefit the community.
翻訳日:2023-11-28 03:40:22 公開日:2023-11-24
# リアルタイムプログレッシブラーニング:ニューラルネットワークに基づく選択記憶による制御から知識を蓄積する

Real-Time Progressive Learning: Accumulate Knowledge from Control with Neural-Network-Based Selective Memory ( http://arxiv.org/abs/2308.04223v2 )

ライセンス: Link先を確認
Yiming Fei, Jiangang Li, Yanan Li(参考訳) 記憶は、学習の基盤として、知識の記憶、更新、忘れ方を決定し、さらに学習の効率を決定づける。 リアルタイム・プログレッシブ・ラーニング(RTPL)と呼ばれる放射基底関数ニューラルネットワークに基づく学習制御スキームは,安定性と閉ループ性能を保証したシステムの未知のダイナミクスを学習するために提案されている。 安定性と制御性能に重点を置く従来のニューラルネットワーク学習制御(NNLC)のLyapunovベースの重み更新法の代わりに、RTPLは選択メモリ再帰最小二乗法(SMRLS)アルゴリズムを使用して、ニューラルネットワークの重みを更新し、以下のメリットを達成する。 1)フィルタリングなしの学習速度の向上。 2)ニューラルネットワークのハイパーパラメータ設定に対する堅牢性 3)優れた一般化能力、すなわち異なるタスクにおける学習知識の再利用 4)パラメータ摂動下での学習性能の保証。 さらに、rtplはメモリを適度に割り当てた結果、知識の連続的な蓄積を実現し、nnlcは学習した知識を徐々に忘れてしまう可能性がある。 対応する理論解析およびシミュレーション研究はrtplの有効性を示す。

Memory, as the basis of learning, determines the storage, update and forgetting of knowledge and further determines the efficiency of learning. Featured with the mechanism of memory, a radial basis function neural network based learning control scheme named real-time progressive learning (RTPL) is proposed to learn the unknown dynamics of the system with guaranteed stability and closed-loop performance. Instead of the Lyapunov-based weight update law of conventional neural network learning control (NNLC), which mainly concentrates on stability and control performance, RTPL employs the selective memory recursive least squares (SMRLS) algorithm to update the weights of the neural network and achieves the following merits: 1) improved learning speed without filtering, 2) robustness to hyperparameter setting of neural networks, 3) good generalization ability, i.e., reuse of learned knowledge in different tasks, and 4) guaranteed learning performance under parameter perturbation. Moreover, RTPL realizes continuous accumulation of knowledge as a result of its reasonably allocated memory while NNLC may gradually forget knowledge that it has learned. Corresponding theoretical analysis and simulation studies demonstrate the effectiveness of RTPL.
翻訳日:2023-11-28 03:39:32 公開日:2023-11-24
# moviechat: 密集したトークンから、長いビデオ理解のためのばらばらなメモリへ

MovieChat: From Dense Token to Sparse Memory for Long Video Understanding ( http://arxiv.org/abs/2307.16449v2 )

ライセンス: Link先を確認
Enxin Song, Wenhao Chai, Guanhong Wang, Yucheng Zhang, Haoyang Zhou, Feiyang Wu, Haozhe Chi, Xun Guo, Tian Ye, Yanting Zhang, Yan Lu, Jenq-Neng Hwang, Gaoang Wang(参考訳) 近年,映像理解システムを構築するために,映像基礎モデルと大規模言語モデルを統合することで,特定の視覚課題の限界を克服することができる。 しかし既存のシステムは、フレーム数が少ないビデオしか扱えない。 長いビデオでは、計算の複雑さ、メモリコスト、長期的接続がさらなる課題を課している。 Atkinson-Shiffrinメモリモデルを利用して、トランスフォーマーのトークンを特別なメモリ機構と組み合わせてメモリキャリアとして使用することにより、これらの課題を克服するためのMovieChatを提案する。 MovieChatは1Kの長ビデオと14Kのマニュアルアノテーションを備えたMovieChat-1Kベンチマークとともに、長ビデオ理解における最先端のパフォーマンスを実現し、本手法の有効性を検証する。

Recently, integrating video foundation models and large language models to build a video understanding system can overcome the limitations of specific pre-defined vision tasks. Yet, existing systems can only handle videos with very few frames. For long videos, the computation complexity, memory cost, and long-term temporal connection impose additional challenges. Taking advantage of the Atkinson-Shiffrin memory model, with tokens in Transformers being employed as the carriers of memory in combination with our specially designed memory mechanism, we propose the MovieChat to overcome these challenges. MovieChat achieves state-of-the-art performance in long video understanding, along with the released MovieChat-1K benchmark with 1K long video and 14K manual annotations for validation of the effectiveness of our method.
翻訳日:2023-11-28 03:39:11 公開日:2023-11-24
# 自己監督型視覚音響マッチング

Self-Supervised Visual Acoustic Matching ( http://arxiv.org/abs/2307.15064v2 )

ライセンス: Link先を確認
Arjun Somayazulu, Changan Chen, Kristen Grauman(参考訳) 音響マッチングは、ターゲット音響環境に録音されたような音声クリップを再合成することを目的としている。 既存の方法は、ソースとターゲット環境の両方でオーディオが観測されるペアトレーニングデータへのアクセスを前提としているが、これはトレーニングデータの多様性を制限するか、あるいはペアサンプルを作成するためにシミュレーションデータやヒューリスティックを使用する必要がある。 本研究では,対象のシーン画像と音声のみを含む視覚的音響マッチングに対する自己教師型アプローチを提案する。 提案手法は, 室内音響をアンタングル化し, ターゲット環境に再合成する手法である。条件付きGANフレームワークと, 残音情報の残音レベルを定量化するための新しい計量法である。 In-theld Webデータまたはシミュレートされたデータを使用したトレーニングでは、複数の挑戦的なデータセットと、さまざまな現実世界のオーディオおよび環境において、最先端のデータセットよりも優れています。

Acoustic matching aims to re-synthesize an audio clip to sound as if it were recorded in a target acoustic environment. Existing methods assume access to paired training data, where the audio is observed in both source and target environments, but this limits the diversity of training data or requires the use of simulated data or heuristics to create paired samples. We propose a self-supervised approach to visual acoustic matching where training samples include only the target scene image and audio -- without acoustically mismatched source audio for reference. Our approach jointly learns to disentangle room acoustics and re-synthesize audio into the target environment, via a conditional GAN framework and a novel metric that quantifies the level of residual acoustic information in the de-biased audio. Training with either in-the-wild web data or simulated data, we demonstrate it outperforms the state-of-the-art on multiple challenging datasets and a wide variety of real-world audio and environments.
翻訳日:2023-11-28 03:38:40 公開日:2023-11-24
# InstructERC:Retrieval Multi-task LLMs Frameworkを用いた会話における感情認識の再構築

InstructERC: Reforming Emotion Recognition in Conversation with a Retrieval Multi-task LLMs Framework ( http://arxiv.org/abs/2309.11911v3 )

ライセンス: Link先を確認
Shanglin Lei, Guanting Dong, Xiaoping Wang, Keheng Wang, Sirui Wang(参考訳) 対話における感情認識(ERC)の開発は、パイプライン設計の複雑さによって一貫して妨げられ、しばしば特定のデータセットや対話パターンに過度に適合するERCモデルに繋がる。 本研究では,差別的枠組みから大規模言語モデル(LLM)に基づく生成的枠組みへERCタスクを再構成する新しい手法,すなわちインストラクタCを提案する。 InstructERCには2つの重要なコントリビューションがある: まず、InstructERCはシンプルだが効果的なテンプレートモジュールを導入する。これは、歴史的ダイアログの内容、ラベル文、感情ドメインのデモを意味的類似度の高いものに結合することで、モデルが多言語対話の監督情報を明示的に統合するのに役立つ。 さらに,会話における対話の役割関係と今後の感情傾向を暗黙的にモデル化するために,話者識別タスクと感情予測タスクという2つの感情アライメントタスクを導入する。 LLMベースのプラグインフレームワークは,従来のすべてのモデルより大幅に優れており,一般的に使用されている3つのERCデータセットに対して包括的なSOTAを実現する。 パラメータ効率とデータスケーリングの実験の広範囲な分析は、実用的なシナリオでinstructercを適用するための経験的ガイダンスを提供する。 私たちのコードはブラインドレビュー後にリリースされます。

The development of emotion recognition in dialogue (ERC) has been consistently hindered by the complexity of pipeline designs, leading to ERC models that often overfit to specific datasets and dialogue patterns. In this study, we propose a novel approach, namely InstructERC, to reformulates the ERC task from a discriminative framework to a generative framework based on Large Language Models (LLMs) . InstructERC has two significant contributions: Firstly, InstructERC introduces a simple yet effective retrieval template module, which helps the model explicitly integrate multi-granularity dialogue supervision information by concatenating the historical dialog content, label statement, and emotional domain demonstrations with high semantic similarity. Furthermore, we introduce two additional emotion alignment tasks, namely speaker identification and emotion prediction tasks, to implicitly model the dialogue role relationships and future emotional tendencies in conversations. Our LLM-based plug-and-play plugin framework significantly outperforms all previous models and achieves comprehensive SOTA on three commonly used ERC datasets. Extensive analysis of parameter-efficient and data-scaling experiments provide empirical guidance for applying InstructERC in practical scenarios. Our code will be released after blind review.
翻訳日:2023-11-28 03:30:55 公開日:2023-11-24
# 拡散とフローベース勾配ブーストツリーによる語彙データの生成と導入

Generating and Imputing Tabular Data via Diffusion and Flow-based Gradient-Boosted Trees ( http://arxiv.org/abs/2309.09968v2 )

ライセンス: Link先を確認
Alexia Jolicoeur-Martineau, Kilian Fatras, Tal Kachman(参考訳) 表データを取得するのが難しく、値が不足している。 本稿では, スコアベース拡散と条件付き流れマッチングを用いて, 混合型(連続型, カテゴリー型) 表データを生成し, インプットする手法を提案する。 スコア関数やベクトル場をニューラルネットワークで学習する以前の研究とは対照的に、我々は代わりに、人気のあるGradient-Boosted Tree(GBT)メソッドであるXGBoostに頼る。 われわれのアプローチが示す27の異なるデータセットを実証的に示す 一 訓練データセットが欠如データによりクリーン又は汚染されたとき、高度に現実的な合成データを生成すること。 ii) 多様な妥当なデータインプテーションを生成する。 さらに,本手法は,データ生成におけるディープラーニング生成手法よりも優れており,データインプテーションに競争力がある。 最後に、gpuを必要とせずに、cpuを使って並列にトレーニングできる。 簡単にアクセスできるようにするため、PythonライブラリとRパッケージを通じてコードをリリースします。

Tabular data is hard to acquire and is subject to missing values. This paper proposes a novel approach to generate and impute mixed-type (continuous and categorical) tabular data using score-based diffusion and conditional flow matching. Contrary to previous work that relies on neural networks to learn the score function or the vector field, we instead rely on XGBoost, a popular Gradient-Boosted Tree (GBT) method. We empirically show on 27 different datasets that our approach i) generates highly realistic synthetic data when the training dataset is either clean or tainted by missing data and ii) generates diverse plausible data imputations. Furthermore, our method outperforms deep-learning generation methods on data generation and is competitive on data imputation. Finally, it can be trained in parallel using CPUs without the need for a GPU. To make it easily accessible, we release our code through a Python library and an R package.
翻訳日:2023-11-28 03:30:32 公開日:2023-11-24
# Forman-Ricci曲率の増大による過スムージングと過スワッシングの緩和

Mitigating Over-Smoothing and Over-Squashing using Augmentations of Forman-Ricci Curvature ( http://arxiv.org/abs/2309.09384v2 )

ライセンス: Link先を確認
Lukas Fesser and Melanie Weber(参考訳) グラフニューラルネットワーク(GNN)は、ドメイン間のグラフ構造化データ学習に成功しているが、いくつかの潜在的な落とし穴が最近説明されている。 それらは、長距離接続でエンコードされた情報を正確に活用できないことや、ネットワークの深さを増加させることで、近くのノードの学習した表現を区別することの困難さを含む。 両効果を特徴づける効果的な方法は離散曲率である: オーバースキャッシング効果の根底にある長距離接続は低曲率であるが、オーバースムーシングに寄与するエッジは高曲率である。 この観察は、過剰なスムーシングと過剰なスケーシングを緩和するためにエッジを追加または削除する技術を生み出した。 グラフの曲率やラプラシアンのスペクトルなどのグラフ特性を利用するいくつかの再配線手法が提案されている。 しかし、既存の手法、特に曲率に基づく手法は、しばしば高価なサブルーチンと注意深いハイパーパラメータチューニングを必要とし、大規模なグラフに適用性を制限する。 本稿では、線形時間で計算可能なスケーラブルな曲率表記法であるAFRC(Augmented Forman-Ricci curvature)に基づく書き換え手法を提案する。 AFRCはメッセージパッシングGNNにおける過剰なスムースと過剰なスキャッシング効果を効果的に特徴付ける。 提案手法は,他の手法と比較して計算コストを大幅に削減しつつ,最先端の性能を実現することを示す実験により理論的結果を補完する。 離散曲率の基本特性を生かして,高コストなハイパーパラメータ探索を回避し,提案手法のスケーラビリティを向上する,曲率ベースリワイアリングにおけるハイパーパラメータの効果的なヒューリスティックスを提案する。

While Graph Neural Networks (GNNs) have been successfully leveraged for learning on graph-structured data across domains, several potential pitfalls have been described recently. Those include the inability to accurately leverage information encoded in long-range connections (over-squashing), as well as difficulties distinguishing the learned representations of nearby nodes with growing network depth (over-smoothing). An effective way to characterize both effects is discrete curvature: Long-range connections that underlie over-squashing effects have low curvature, whereas edges that contribute to over-smoothing have high curvature. This observation has given rise to rewiring techniques, which add or remove edges to mitigate over-smoothing and over-squashing. Several rewiring approaches utilizing graph characteristics, such as curvature or the spectrum of the graph Laplacian, have been proposed. However, existing methods, especially those based on curvature, often require expensive subroutines and careful hyperparameter tuning, which limits their applicability to large-scale graphs. Here we propose a rewiring technique based on Augmented Forman-Ricci curvature (AFRC), a scalable curvature notation, which can be computed in linear time. We prove that AFRC effectively characterizes over-smoothing and over-squashing effects in message-passing GNNs. We complement our theoretical results with experiments, which demonstrate that the proposed approach achieves state-of-the-art performance while significantly reducing the computational cost in comparison with other methods. Utilizing fundamental properties of discrete curvature, we propose effective heuristics for hyperparameters in curvature-based rewiring, which avoids expensive hyperparameter searches, further improving the scalability of the proposed approach.
翻訳日:2023-11-28 03:29:50 公開日:2023-11-24
# ヘマトキシリンおよびエオシン染色組織像の転写学習による乳癌診断の改善

Improved Breast Cancer Diagnosis through Transfer Learning on Hematoxylin and Eosin Stained Histology Images ( http://arxiv.org/abs/2309.08745v2 )

ライセンス: Link先を確認
Fahad Ahmed, Reem Abdel-Salam, Leon Hamnett, Mary Adewunmi, Temitope Ayano(参考訳) 乳がんは世界中の女性にとって主要な死因の1つである。 早期スクリーニングは早期診断には不可欠であるが、がんが進行するにつれて生存率は低下する。 本研究では, 乳腺癌腫瘍の分類に, 組織学的(h\&e)染色画像のbracsデータセットを用いて, 乳腺全層画像(wsi)と腫瘍領域(roi)画像の両方を含む乳がん腫瘍の分類を行った。 xception, efficientnet, resnet50, inceptionresnetなど,imagenetの重みで事前学習されたさまざまなディープラーニングモデルを用いて実験を行った。 BRACSのROIを前処理し、画像増倍、アップサンプリング、データセット分割戦略を適用した。 デフォルトのデータセット分割では、ResNet50が66%のf1スコアを達成した。 カスタムデータセット分割では、アップサンプリングと画像拡張を行い、96.2%のf1-scoreが得られた。 第2のアプローチでは, 偽陽性, 偽陰性分類の数が各クラスで3%未満に減少した。 本研究は乳がん腫瘍とその亜型,特に非定型腫瘍および悪性腫瘍の早期診断と診断に大きく影響し,患者の予後を改善し,患者の死亡率を低下させる。 本研究は主に7種類の乳がん腫瘍の亜型を同定することに焦点を当てており, 実験モデルをさらに微調整して, 過去の乳がん組織学データセットにも応用できると考えている。

Breast cancer is one of the leading causes of death for women worldwide. Early screening is essential for early identification, but the chance of survival declines as the cancer progresses into advanced stages. For this study, the most recent BRACS dataset of histological (H\&E) stained images was used to classify breast cancer tumours, which contains both the whole-slide images (WSI) and region-of-interest (ROI) images, however, for our study we have considered ROI images. We have experimented using different pre-trained deep learning models, such as Xception, EfficientNet, ResNet50, and InceptionResNet, pre-trained on the ImageNet weights. We pre-processed the BRACS ROI along with image augmentation, upsampling, and dataset split strategies. For the default dataset split, the best results were obtained by ResNet50 achieving 66% f1-score. For the custom dataset split, the best results were obtained by performing upsampling and image augmentation which results in 96.2% f1-score. Our second approach also reduced the number of false positive and false negative classifications to less than 3% for each class. We believe that our study significantly impacts the early diagnosis and identification of breast cancer tumors and their subtypes, especially atypical and malignant tumors, thus improving patient outcomes and reducing patient mortality rates. Overall, this study has primarily focused on identifying seven (7) breast cancer tumor subtypes, and we believe that the experimental models can be fine-tuned further to generalize over previous breast cancer histology datasets as well.
翻訳日:2023-11-28 03:29:19 公開日:2023-11-24
# CIEM:より良いインストラクションチューニングのためのコントラストインストラクション評価方法

CIEM: Contrastive Instruction Evaluation Method for Better Instruction Tuning ( http://arxiv.org/abs/2309.02301v2 )

ライセンス: Link先を確認
Hongyu Hu, Jiyuan Zhang, Minyi Zhao, Zhenbang Sun(参考訳) 近年,LVLM (Large Vision-Language Models) の研究は,LLM (Large Language Models) の成功により大きく進められている。 しかしながら、これらの視覚・言語モデル(VLM)は幻覚の欠点に悩まされている -- 視覚と言語モダリティの理解が不十分なため、VLMは下流のアプリケーション(例えば存在しないエンティティをキャプションする)を行う際に誤った知覚情報を生成する可能性がある。 一方、幻覚現象に対処するために、LLMと結合した注釈付き画像テキストデータセットを利用して、VLMの幻覚評価のための事実/対照的な質問応答ペアを生成する自動パイプラインであるContrastive Instruction Evaluation Method (CIEM)を導入する。 一方,CIEMに基づくCIT(Contrastive Instruction Tuningの略)は,高品質な事実/対照的な質問応答ペアを自動生成し,モデルチューニングの正当性を改善することで,VLMの幻覚を緩和する。 CIEMとCITに関する広範な実験を通じて、既存のVLMに共通する幻覚問題、幻覚現象を扱うための現在の命令チューニングデータセットの障害、およびCIEMとパブリックデータセットの両方に対してCITチューニングされたVLMの優位性を指摘した。

Nowadays, the research on Large Vision-Language Models (LVLMs) has been significantly promoted thanks to the success of Large Language Models (LLM). Nevertheless, these Vision-Language Models (VLMs) are suffering from the drawback of hallucination -- due to insufficient understanding of vision and language modalities, VLMs may generate incorrect perception information when doing downstream applications, for example, captioning a non-existent entity. To address the hallucination phenomenon, on the one hand, we introduce a Contrastive Instruction Evaluation Method (CIEM), which is an automatic pipeline that leverages an annotated image-text dataset coupled with an LLM to generate factual/contrastive question-answer pairs for the evaluation of the hallucination of VLMs. On the other hand, based on CIEM, we further propose a new instruction tuning method called CIT (the abbreviation of Contrastive Instruction Tuning) to alleviate the hallucination of VLMs by automatically producing high-quality factual/contrastive question-answer pairs and corresponding justifications for model tuning. Through extensive experiments on CIEM and CIT, we pinpoint the hallucination issues commonly present in existing VLMs, the disability of the current instruction-tuning dataset to handle the hallucination phenomenon and the superiority of CIT-tuned VLMs over both CIEM and public datasets.
翻訳日:2023-11-28 03:27:22 公開日:2023-11-24
# エリート進化アルゴリズムにおける適合度レベルのドリフト解析

Drift Analysis with Fitness Levels for Elitist Evolutionary Algorithms ( http://arxiv.org/abs/2309.00851v2 )

ライセンス: Link先を確認
Jun He and Yuren Zhou(参考訳) 適合レベル法(fitness level method)は、楕円型進化アルゴリズムのヒット時間を分析するための一般的なツールである。 その考え方は、検索スペースを複数のフィットネスレベルに分割し、フィットネスレベル間の遷移確率を用いてヒットタイムの上下境界を推定することである。 しかし、この方法によって生成される下界はしばしば緩い。 フィットネスレベル法に関するオープンな疑問は、フィットネスレベルに基づいて構築できる最も厳密な下限と上限の関係である。 この問題に対処するために、フィットネスレベルによるドリフト解析を開発し、フィットネスレベル制約を受ける制約付き多目的最適化問題として最も厳密な境界問題を定式化する。 フィットネスレベルから最も厳密な距離境界が構築され、初めて証明される。 すると、一般線型境界は計量境界から導出され、異なる種類の線形境界に対する異なる適合度レベル法を開発するのに使用できる枠組みが確立される。 フレームワークは汎用的で有望で、両方のフィットネスランドスケープにショートカットなしでタイトな時間境界を描くために使用することができる。 これは (1+1) EA が TwoMax1 関数を最大化する例で示される。

The fitness level method is a popular tool for analyzing the hitting time of elitist evolutionary algorithms. Its idea is to divide the search space into multiple fitness levels and estimate lower and upper bounds on the hitting time using transition probabilities between fitness levels. However, the lower bound generated by this method is often loose. An open question regarding the fitness level method is what are the tightest lower and upper time bounds that can be constructed based on fitness levels. To answer this question, drift analysis with fitness levels is developed, and the tightest bound problem is formulated as a constrained multi-objective optimization problem subject to a fitness level constraint. The tightest metric bounds from fitness levels are constructed and proven for the first time. Then general linear bounds are derived from metric bounds and a framework is established that can be used to develop different fitness level methods for different types of linear bounds. The framework is generic and promising, as it can be used to draw tight time bounds on both fitness landscapes without and with shortcuts. This is demonstrated in the example of the (1+1) EA maximizing the TwoMax1 function.
翻訳日:2023-11-28 03:26:41 公開日:2023-11-24
# 意味的特徴の強化による心エコー図像の画質向上

Improving Out-of-Distribution Detection in Echocardiographic View Classication through Enhancing Semantic Features ( http://arxiv.org/abs/2308.16483v2 )

ライセンス: Link先を確認
Jaeik Jeon, Seongmin Ha, Yeonggul Jang, Yeonyee E. Yoon, Jiyeon Kim, Hyunseok Jeong, Dawun Jeong, Youngtaek Hong, Seung-Ah Lee Hyuk-Jae Chang(参考訳) 心エコー図では, 分布外データ(OOD)を正確に検出することが不可欠であるが, 特に分布内データとOODデータとの微妙な差異を考慮すると困難である。 マハラノビス距離(MD)のような従来のOOD検出法は、分布をはっきり区別した遠ODのシナリオでは有効であるが、心エコーデータに特徴的な明らかでない変動を識別することは困難である。 本研究では,心エコー図における意味的特徴の表現力を高めるためにラベル平滑化を用いた新しい手法を提案する。 ラベルの平滑化とMDベースのOOD検出を組み合わせることで,心エコーによるOOD検出の精度向上のための新しいベンチマークを構築した。

In echocardiographic view classification, accurately detecting out-of-distribution (OOD) data is essential but challenging, especially given the subtle differences between in-distribution and OOD data. While conventional OOD detection methods, such as Mahalanobis distance (MD) are effective in far-OOD scenarios with clear distinctions between distributions, they struggle to discern the less obvious variations characteristic of echocardiographic data. In this study, we introduce a novel use of label smoothing to enhance semantic feature representation in echocardiographic images, demonstrating that these enriched semantic features are key for significantly improving near-OOD instance detection. By combining label smoothing with MD-based OOD detection, we establish a new benchmark for accuracy in echocardiographic OOD detection.
翻訳日:2023-11-28 03:26:24 公開日:2023-11-24
# EGraFFBench:原子論シミュレーションのための等価なグラフニューラルネットワーク力場の評価

EGraFFBench: Evaluation of Equivariant Graph Neural Network Force Fields for Atomistic Simulations ( http://arxiv.org/abs/2310.02428v2 )

ライセンス: Link先を確認
Vaibhav Bihani, Utkarsh Pratiush, Sajid Mannan, Tao Du, Zhimin Chen, Santiago Miret, Matthieu Micoulaut, Morten M Smedskjaer, Sayan Ranu, N M Anoop Krishnan(参考訳) 等変グラフニューラルネットワーク力場(EGraFFs)は、グラフ固有の対称性を利用することで、原子系の複雑な相互作用をモデル化する大きな可能性を示してきた。 最近の研究は、グラフトランスフォーマーやメッセージパッシングといったアーキテクチャ革新と、原子間相互作用をモデル化する等分散に基づく帰納的バイアスを組み込んだ新しいアーキテクチャの開発に繋がった。 しかし,これらの展開EGraFFによる実世界の原子学シミュレーションの下流タスクの徹底的な評価は不十分である。 そこで本研究では,6つのEGraFFアルゴリズム (NequIP, Allegro, BOTNet, MACE, Equiformer, TorchMDNet) の系統的なベンチマークを行い,それらの能力と限界を現実的な原子論シミュレーションで理解することを目的とする。 ベンチマーク文献に基づく8つの既存データセットの徹底的な評価と分析に加えて,2つのベンチマークデータセットをリリースし,4つの新しいメトリクスを提案し,3つの課題を提起した。 新しいデータセットとタスクは、異なる結晶構造、温度、および新しい分子の観点から、分布外データに対するegraffの性能を評価する。 興味深いことに、力学シミュレーションに基づくEGraFFモデルの評価は、エネルギーや力の誤差が低いことは、安定あるいは信頼性のあるシミュレーションや原子構造の忠実な複製を保証しないことを示している。 さらに、すべてのデータセットやタスクで、他のモデルよりも明確なモデルがないことも分かりました。 重要なことは、実世界のシミュレーションで使用できる力場の基礎モデルの開発の必要性を指摘し、分布外データセット上の全てのモデルの性能が信頼できないことを示している。 要約すると、この研究は原子シミュレーションの文脈で機械学習力場を評価するための厳密な枠組みを確立し、この分野におけるオープンな研究課題を指摘する。

Equivariant graph neural networks force fields (EGraFFs) have shown great promise in modelling complex interactions in atomic systems by exploiting the graphs' inherent symmetries. Recent works have led to a surge in the development of novel architectures that incorporate equivariance-based inductive biases alongside architectural innovations like graph transformers and message passing to model atomic interactions. However, thorough evaluations of these deploying EGraFFs for the downstream task of real-world atomistic simulations, is lacking. To this end, here we perform a systematic benchmarking of 6 EGraFF algorithms (NequIP, Allegro, BOTNet, MACE, Equiformer, TorchMDNet), with the aim of understanding their capabilities and limitations for realistic atomistic simulations. In addition to our thorough evaluation and analysis on eight existing datasets based on the benchmarking literature, we release two new benchmark datasets, propose four new metrics, and three challenging tasks. The new datasets and tasks evaluate the performance of EGraFF to out-of-distribution data, in terms of different crystal structures, temperatures, and new molecules. Interestingly, evaluation of the EGraFF models based on dynamic simulations reveals that having a lower error on energy or force does not guarantee stable or reliable simulation or faithful replication of the atomic structures. Moreover, we find that no model clearly outperforms other models on all datasets and tasks. Importantly, we show that the performance of all the models on out-of-distribution datasets is unreliable, pointing to the need for the development of a foundation model for force fields that can be used in real-world simulations. In summary, this work establishes a rigorous framework for evaluating machine learning force fields in the context of atomic simulations and points to open research challenges within this domain.
翻訳日:2023-11-28 03:19:43 公開日:2023-11-24
# マトリックスセンシングにおける過度パラメータ化の緩やかさ:対称性と初期化の曲線

How Over-Parameterization Slows Down Gradient Descent in Matrix Sensing: The Curses of Symmetry and Initialization ( http://arxiv.org/abs/2310.01769v3 )

ライセンス: Link先を確認
Nuoya Xiong, Lijun Ding, Simon S. Du(参考訳) 本稿では,非等方性線形測定から未知の低位接地面行列を回収することを目的とした行列センシング問題において,過パラメータ化が勾配降下(gd)の収束挙動をどのように変化させるかを示す。 まず、対称パラメータ化を持つ対称集合を考える: $m^* \in \mathbb{r}^{n \times n}$ はランク $r \ll n$ の正の半定値未知行列であり、対称パラメータ化 $xx^\top$ を用いて $m^*$ を学ぶ。 ここで、$X \in \mathbb{R}^{n \times k}$ with $k > r$ は因子行列である。 オーバーパラメータ化されたケース(k >r$)に対して、新しい$\Omega (1/T^2)$ ランダムに初期化された GD の下限を与える。 これは、収束率が$\exp (-\Omega (T))$である正確なパラメータ化シナリオ(k=r$)とは対照的である。 次に、$m^* \in \mathbb{r}^{n_1 \times n_2}$ をランク $r \ll \min\{n_1,n_2\}$ の未知行列とし、非対称パラメータ化 $fg^\top$ を用いて $m^*$ を学習し、$f \in \mathbb{r}^{n_1 \times k}$ と $g \in \mathbb{r}^{n_2 \times k}$ を学習する非対称な設定について検討する。 先行研究に基づいて、$\exp (-\Omega(T))$ rateの正確なパラメータ化の場合(k=r$)に対してランダムに初期化されたGDのグローバルな正確な収束結果を与える。 さらに、オーバーパラメータ化の場合(k>r$)に対して、$\exp(-\Omega(\alpha^2T))$レートで最初の大域的正確な収束結果を与える。 この線形収束は、非対称なパラメータ化を対称性の設定に適用し、$\Omega (1/T^2)$から線形収束に高速化することができるため、特に重要である。 一方,gdの一段階のみを修正し,$\alpha$に依存しない収束率を求め,正確なパラメータ化の場合の収束率を回復する新しい手法を提案する。

This paper rigorously shows how over-parameterization changes the convergence behaviors of gradient descent (GD) for the matrix sensing problem, where the goal is to recover an unknown low-rank ground-truth matrix from near-isotropic linear measurements. First, we consider the symmetric setting with the symmetric parameterization where $M^* \in \mathbb{R}^{n \times n}$ is a positive semi-definite unknown matrix of rank $r \ll n$, and one uses a symmetric parameterization $XX^\top$ to learn $M^*$. Here $X \in \mathbb{R}^{n \times k}$ with $k > r$ is the factor matrix. We give a novel $\Omega (1/T^2)$ lower bound of randomly initialized GD for the over-parameterized case ($k >r$) where $T$ is the number of iterations. This is in stark contrast to the exact-parameterization scenario ($k=r$) where the convergence rate is $\exp (-\Omega (T))$. Next, we study asymmetric setting where $M^* \in \mathbb{R}^{n_1 \times n_2}$ is the unknown matrix of rank $r \ll \min\{n_1,n_2\}$, and one uses an asymmetric parameterization $FG^\top$ to learn $M^*$ where $F \in \mathbb{R}^{n_1 \times k}$ and $G \in \mathbb{R}^{n_2 \times k}$. Building on prior work, we give a global exact convergence result of randomly initialized GD for the exact-parameterization case ($k=r$) with an $\exp (-\Omega(T))$ rate. Furthermore, we give the first global exact convergence result for the over-parameterization case ($k>r$) with an $\exp(-\Omega(\alpha^2 T))$ rate where $\alpha$ is the initialization scale. This linear convergence result in the over-parameterization case is especially significant because one can apply the asymmetric parameterization to the symmetric setting to speed up from $\Omega (1/T^2)$ to linear convergence. On the other hand, we propose a novel method that only modifies one step of GD and obtains a convergence rate independent of $\alpha$, recovering the rate in the exact-parameterization case.
翻訳日:2023-11-28 03:19:13 公開日:2023-11-24
# 現代のネットワークのためのパスノルムツールキット:結果、約束、挑戦

A path-norm toolkit for modern networks: consequences, promises and challenges ( http://arxiv.org/abs/2310.01225v3 )

ライセンス: Link先を確認
Antoine Gonon, Nicolas Brisebarre, Elisa Riccietti, R\'emi Gribonval(参考訳) この研究は、経路ノルムに関する最初のツールキットを導入し、バイアスのある一般的なDAG ReLUネットワークを網羅し、接続をスキップし、順序統計(最大プーリング、GroupSortなど)の抽出に基づいて操作する。 このツールキットにより、最も広く適用可能なパスノルムベースのものだけでなく、このタイプの最も鋭い境界を回復または打ち負かす現代のニューラルネットワークの一般化境界を確立することができる。 これらの拡張パスノルムは、計算の容易さ、ネットワークの対称性の下での不変性、および演算子のノルムの積と比較してフィードフォワードネットワークのシャープネスの改善など、パスノルムの通常の利点をさらに享受する。 ツールキットの汎用性と実装の容易さにより、imagenet上で最もシャープなresnet境界を数値的に評価することで、パスノルムベースの一般化境界の具体的な約束に挑戦できる。

This work introduces the first toolkit around path-norms that is fully able to encompass general DAG ReLU networks with biases, skip connections and any operation based on the extraction of order statistics: max pooling, GroupSort etc. This toolkit notably allows us to establish generalization bounds for modern neural networks that are not only the most widely applicable path-norm based ones, but also recover or beat the sharpest known bounds of this type. These extended path-norms further enjoy the usual benefits of path-norms: ease of computation, invariance under the symmetries of the network, and improved sharpness on feedforward networks compared to the product of operators' norms, another complexity measure most commonly used. The versatility of the toolkit and its ease of implementation allow us to challenge the concrete promises of path-norm-based generalization bounds, by numerically evaluating the sharpest known bounds for ResNets on ImageNet.
翻訳日:2023-11-28 03:18:24 公開日:2023-11-24
# ゲージ量子力学による量子行列幾何学の生成

Generating Quantum Matrix Geometry from Gauged Quantum Mechanics ( http://arxiv.org/abs/2310.01051v2 )

ライセンス: Link先を確認
Kazuki Hasebe(参考訳) 量子行列幾何学は、M(atrix)理論の基礎となる幾何学である。 レベル射影の概念を拡張して、コセット空間 $g/h$ の行列幾何学を生成する量子指向非可換スキームを提案する。 本手法は,高次元球面上のゲージ量子力学を応用し,未探索行列幾何学を披露するものである。 結果として生じる行列幾何学は$\it{pure}$ quantum Nambu geometriesとして表される: それらの非可換構造は、リー代数の従来の可換形式を通して捕獲し、量子ナムブ代数の導入を必要とする。 この行列幾何学は、ネストしたファジィ構造を特徴とする1次元より低い量子内部幾何学を具現化する。 この量子幾何の連続体極限は重なり合う古典多様体によって表されるが、それらの融合は元の量子幾何学を再現することはできない。 これらの量子ナムブ測地がヤン・ミルズ行列モデルにおいて新しい解を生み出し、既知のファジィ球解とは異なる物理的性質を示すことを示す。

Quantum matrix geometry is the underlying geometry of M(atrix) theory. Expanding upon the idea of level projection, we propose a quantum-oriented non-commutative scheme for generating the matrix geometry of the coset space $G/H$. We employ this novel scheme to unveil unexplored matrix geometries by utilizing gauged quantum mechanics on higher dimensional spheres. The resultant matrix geometries manifest as $\it{pure}$ quantum Nambu geometries: Their non-commutative structures elude capture through the conventional commutator formalism of Lie algebra, necessitating the introduction of the quantum Nambu algebra. This matrix geometry embodies a one-dimension-lower quantum internal geometry featuring nested fuzzy structures. While the continuum limit of this quantum geometry is represented by overlapping classical manifolds, their fuzzification cannot reproduce the original quantum geometry. We demonstrate how these quantum Nambu geometries give rise to novel solutions in Yang-Mills matrix models, exhibiting distinct physical properties from the known fuzzy sphere solutions.
翻訳日:2023-11-28 03:18:05 公開日:2023-11-24
# 確率的グラディエントDescenceのノイズ幾何学:定量的および解析的解析

The Noise Geometry of Stochastic Gradient Descent: A Quantitative and Analytical Characterization ( http://arxiv.org/abs/2310.00692v2 )

ライセンス: Link先を確認
Mingze Wang, Lei Wu(参考訳) 確率勾配降下(SGD)の雑音は、損失景観の局所的幾何学と良好に一致していることを示す実証的研究がある。 しかし、この現象の理論的、定量的な説明はいまだに少ない。 本稿では、超パラメータ線形(olms)モデルと2層ニューラルネットワークに対する上述の「emノイズ幾何」に関する包括的理論的検討を行う。 平均的および方向的アライメントを精査し,サンプルサイズや入力データ縮退がアライメント強度に及ぼす影響に特に注意した。 特定の応用として、SGDがいかに鋭い最小値から脱出するかを研究するためにノイズ幾何学的特徴を活用し、逃走方向が平坦な方向に沿って重要な成分を持つことを明らかにする。 これは、最も鋭い方向に沿ってのみ逃げるGDとは対照的である。 理論的知見を裏付けるために, 合成実験と実世界の実験の両方が提供される。

Empirical studies have demonstrated that the noise in stochastic gradient descent (SGD) aligns favorably with the local geometry of loss landscape. However, theoretical and quantitative explanations for this phenomenon remain sparse. In this paper, we offer a comprehensive theoretical investigation into the aforementioned {\em noise geometry} for over-parameterized linear (OLMs) models and two-layer neural networks. We scrutinize both average and directional alignments, paying special attention to how factors like sample size and input data degeneracy affect the alignment strength. As a specific application, we leverage our noise geometry characterizations to study how SGD escapes from sharp minima, revealing that the escape direction has significant components along flat directions. This is in stark contrast to GD, which escapes only along the sharpest directions. To substantiate our theoretical findings, both synthetic and real-world experiments are provided.
翻訳日:2023-11-28 03:17:44 公開日:2023-11-24
# 等変拡散に基づくデ・ノボ3次元分子生成モデルの設計空間の探索

Navigating the Design Space of Equivariant Diffusion-Based Generative Models for De Novo 3D Molecule Generation ( http://arxiv.org/abs/2309.17296v2 )

ライセンス: Link先を確認
Tuan Le, Julian Cremer, Frank No\'e, Djork-Arn\'e Clevert, Kristof Sch\"utt(参考訳) 深部生成拡散モデル(Deep Generative diffusion model)は、材料科学と薬物発見における3D de novo分子設計のための有望な道である。 しかし、その有用性は、大きな分子構造と限られたトレーニングデータに対する最適化性能によって制限されている。 このギャップに対処するため、E(3)-同変拡散モデルの設計空間を探索し、未探索領域に焦点をあてる。 我々は,連続状態空間と離散状態空間の相互作用を評価する。 本研究では,QM9データセットとGEOM-Drugsデータセットの確立したモデルよりも一貫して優れるEQGAT-diffモデルを提案する。 重要な点として、eqgat-diffは連続原子の位置を取るが、化学元素と結合タイプは分類され、時間依存の損失重み付け、トレーニング収束の大幅な増加、生成したサンプルの品質、推論時間を用いる。 また, 拡散過程におけるハイブリダイゼーション状態などの化学的特徴を含め, 生成分子の妥当性が向上することを示した。 限られたトレーニングデータに対する拡散モデルの適用性をさらに強化するため,暗黙の水素原子を用いたPubChem3DデータセットでトレーニングしたEQGAT-diffの転送可能性について検討した。 ほんの数イテレーションの微調整EQGAT-diffは、効率的な分散シフトを示し、データセット全体のパフォーマンスをさらに向上させる。 最後に,構造に基づくde novoリガンド生成のためのクロスドッキングデータセット上でのモデルテストを行い,vinaドッキングスコアの最先端性能を示す結果の重要性について概説した。

Deep generative diffusion models are a promising avenue for 3D de novo molecular design in materials science and drug discovery. However, their utility is still limited by suboptimal performance on large molecular structures and limited training data. To address this gap, we explore the design space of E(3)-equivariant diffusion models, focusing on previously unexplored areas. Our extensive comparative analysis evaluates the interplay between continuous and discrete state spaces. From this investigation, we present the EQGAT-diff model, which consistently outperforms established models for the QM9 and GEOM-Drugs datasets. Significantly, EQGAT-diff takes continuous atom positions, while chemical elements and bond types are categorical and uses time-dependent loss weighting, substantially increasing training convergence, the quality of generated samples, and inference time. We also showcase that including chemically motivated additional features like hybridization states in the diffusion process enhances the validity of generated molecules. To further strengthen the applicability of diffusion models to limited training data, we investigate the transferability of EQGAT-diff trained on the large PubChem3D dataset with implicit hydrogen atoms to target different data distributions. Fine-tuning EQGAT-diff for just a few iterations shows an efficient distribution shift, further improving performance throughout data sets. Finally, we test our model on the Crossdocked data set for structure-based de novo ligand generation, underlining the importance of our findings showing state-of-the-art performance on Vina docking scores.
翻訳日:2023-11-28 03:15:26 公開日:2023-11-24
# なぜAngular Margin Lossesは半スーパービジョンの異常音検出にうまく機能するのか?

Why do Angular Margin Losses work well for Semi-Supervised Anomalous Sound Detection? ( http://arxiv.org/abs/2309.15643v2 )

ライセンス: Link先を確認
Kevin Wilkinghoff and Frank Kurth(参考訳) 最先端の異常音検出システムは、通常、教師付きまたは自己監督型分類タスクである補助タスクを使用して、角マージンの損失を利用して、音響データの適切な表現を学習する。 基本的な考え方は、この補助的なタスクを解決するために、正規データに関する特定の情報を学習した表現で取得する必要があることと、この情報は正規データと異常なサンプルを区別するのに十分であるということである。 特に雑音条件下では、角マージン損失に基づく判別モデルは、生成モデルや一級モデルに基づくシステムよりも著しく優れている傾向にある。 本研究の目的は,補助作業による角周損失が異常音の検出に有効である理由を検討することである。 この目的のために、理論上も実験的にも、角マージン損失を最小限に抑えることは、学習自明な解を本質的に防止しつつ、コンパクト性損失を最小化する。 さらに,関連する分類タスクを補助タスクとして用いることにより,雑音環境下での異常音検出に適した表現を学習できることを示す実験を複数実施した。 これらの実験には、性能評価、t-sneによる埋め込み空間の可視化、説明のためのランダム化入力サンプリングを用いた異常スコアに対する入力表現の可視化などがある。

State-of-the-art anomalous sound detection systems often utilize angular margin losses to learn suitable representations of acoustic data using an auxiliary task, which usually is a supervised or self-supervised classification task. The underlying idea is that, in order to solve this auxiliary task, specific information about normal data needs to be captured in the learned representations and that this information is also sufficient to differentiate between normal and anomalous samples. Especially in noisy conditions, discriminative models based on angular margin losses tend to significantly outperform systems based on generative or one-class models. The goal of this work is to investigate why using angular margin losses with auxiliary tasks works well for detecting anomalous sounds. To this end, it is shown, both theoretically and experimentally, that minimizing angular margin losses also minimizes compactness loss while inherently preventing learning trivial solutions. Furthermore, multiple experiments are conducted to show that using a related classification task as an auxiliary task teaches the model to learn representations suitable for detecting anomalous sounds in noisy conditions. Among these experiments are performance evaluations, visualizing the embedding space with t-SNE and visualizing the input representations with respect to the anomaly score using randomized input sampling for explanation.
翻訳日:2023-11-28 03:13:54 公開日:2023-11-24
# 粒子誘導:拡散モデルを用いた非I.D.逆サンプリング

Particle Guidance: non-I.I.D. Diverse Sampling with Diffusion Models ( http://arxiv.org/abs/2310.13102v2 )

ライセンス: Link先を確認
Gabriele Corso, Yilun Xu, Valentin de Bortoli, Regina Barzilay, Tommi Jaakkola(参考訳) 生成モデルが広く成功したことを踏まえ、かなりの量の研究がサンプリング時間の短縮に費やされている。 しかし、生成モデルはサンプリング時間に直交するコストをもたらす多様な集合を得るために、しばしば何度もサンプリングされる。 独立標本の共通仮定を超えて多様性とサンプル効率を改善するかという課題に取り組む。 本稿では,粒子の時間発展ポテンシャルが多様性を強制する拡散に基づく生成サンプリングの拡張である粒子指導を提案する。 我々は,粒子誘導が生み出す結合分布,最適多様性を達成するポテンシャルの学習方法,および他の分野の手法との関係を理論的に分析する。 実験により,条件付き画像生成の設定,品質に影響を与えずに多様性を向上させること,および分子コンホメータ生成において,最先端の中央値誤差を平均13%削減する手法を実証的に検証した。

In light of the widespread success of generative models, a significant amount of research has gone into speeding up their sampling time. However, generative models are often sampled multiple times to obtain a diverse set incurring a cost that is orthogonal to sampling time. We tackle the question of how to improve diversity and sample efficiency by moving beyond the common assumption of independent samples. We propose particle guidance, an extension of diffusion-based generative sampling where a joint-particle time-evolving potential enforces diversity. We analyze theoretically the joint distribution that particle guidance generates, how to learn a potential that achieves optimal diversity, and the connections with methods in other disciplines. Empirically, we test the framework both in the setting of conditional image generation, where we are able to increase diversity without affecting quality, and molecular conformer generation, where we reduce the state-of-the-art median error by 13% on average.
翻訳日:2023-11-28 03:06:29 公開日:2023-11-24
# Hawkeye:ディープラーニングによる微細画像認識のためのPyTorchベースのライブラリ

Hawkeye: A PyTorch-based Library for Fine-Grained Image Recognition with Deep Learning ( http://arxiv.org/abs/2310.09600v2 )

ライセンス: Link先を確認
Jiabei He, Yang Shen, Xiu-Shen Wei, Ye Wu(参考訳) ファイングラインド画像認識(FGIR)は、コンピュータビジョンとマルチメディアにおける基本的な課題であり、知的経済と産業インターネットアプリケーションにおいて重要な役割を果たす。 しかし、FGIRの様々なパラダイムをカバーする統一されたオープンソースソフトウェアライブラリが存在しないことは、この分野の研究者や実践者にとって大きな課題となっている。 このギャップに対処するために、深層学習を備えたFGIRのためのPyTorchベースのライブラリであるHawkeyeを紹介する。 Hawkeyeはモジュラーアーキテクチャで設計され、高品質なコードと人間可読な構成を強調し、FGIRタスクの包括的なソリューションを提供する。 ホークアイでは、6つの異なるパラダイムをカバーし、FGIRの様々なアプローチを探索できる16の最先端の細粒度メソッドを実装した。 私たちの知る限りでは、hawkeyeはfgir専用のオープンソースのpytorchベースのライブラリです。 https://github.com/Hawkeye-FineGrained/Hawkeye/で公開されており、研究者や実践者にFGIRの分野での研究と開発を進める強力なツールを提供する。

Fine-Grained Image Recognition (FGIR) is a fundamental and challenging task in computer vision and multimedia that plays a crucial role in Intellectual Economy and Industrial Internet applications. However, the absence of a unified open-source software library covering various paradigms in FGIR poses a significant challenge for researchers and practitioners in the field. To address this gap, we present Hawkeye, a PyTorch-based library for FGIR with deep learning. Hawkeye is designed with a modular architecture, emphasizing high-quality code and human-readable configuration, providing a comprehensive solution for FGIR tasks. In Hawkeye, we have implemented 16 state-of-the-art fine-grained methods, covering 6 different paradigms, enabling users to explore various approaches for FGIR. To the best of our knowledge, Hawkeye represents the first open-source PyTorch-based library dedicated to FGIR. It is publicly available at https://github.com/Hawkeye-FineGrained/Hawkeye/, providing researchers and practitioners with a powerful tool to advance their research and development in the field of FGIR.
翻訳日:2023-11-28 03:05:18 公開日:2023-11-24
# ディープラーニングを用いた各種加齢環境における電池寿命予測

Accurate battery lifetime prediction across diverse aging conditions with deep learning ( http://arxiv.org/abs/2310.05052v3 )

ライセンス: Link先を確認
Han Zhang, Yuqi Li, Shun Zheng, Ziheng Lu, Xiaofan Gui, Wei Xu, Jiang Bian(参考訳) 初期のサイクルで電池の寿命を正確に予測することは、多くの下流アプリケーションと同様に、バッテリーの研究と開発に非常に価値がある。 電極材料、運転条件、作業環境など様々な条件が複雑な容量分解挙動を総合的に決定するので、この課題はかなり困難である。 しかし、現在の予測手法は、限られた老化条件下で開発・検証され、様々な老化条件への適合性に疑問が持たれ、異なる条件下で収集された履歴データから完全に恩恵を受けることができない。 本稿では,様々な老化条件を適応させ,豊かな条件からのデータを活用することで,低リソース条件下での効果的な学習を促進する,汎用的な深層学習手法を提案する。 私たちの重要な発見は、単一セル特性のみを考慮せず、セル間特徴の差異を組み込むことで、バッテリー寿命予測の精度とクロスコンディションロバスト性が著しく向上することです。 そこで我々は,シングルセルとセル間モデリングを併用した総合学習フレームワークを開発した。 評価のための総合的なベンチマークが構築され、168回のサイクリング条件で5つの電極材料を利用する401個の電池セルを含んでいる。 老化条件をまたいだ学習において,最初の100サイクルで10%の予測誤差を排他的に達成し,低リソースの学習を促進することで,多くの場合において単細胞モデリングの誤差をほぼ半減する能力を示す。 より広い意味では、異なる老化条件間で学習境界を破ることで、リチウムイオン電池の開発と最適化を著しく加速することができる。

Accurately predicting the lifetime of battery cells in early cycles holds tremendous value for battery research and development as well as numerous downstream applications. This task is rather challenging because diverse conditions, such as electrode materials, operating conditions, and working environments, collectively determine complex capacity-degradation behaviors. However, current prediction methods are developed and validated under limited aging conditions, resulting in questionable adaptability to varied aging conditions and an inability to fully benefit from historical data collected under different conditions. Here we introduce a universal deep learning approach that is capable of accommodating various aging conditions and facilitating effective learning under low-resource conditions by leveraging data from rich conditions. Our key finding is that incorporating inter-cell feature differences, rather than solely considering single-cell characteristics, significantly increases the accuracy of battery lifetime prediction and its cross-condition robustness. Accordingly, we develop a holistic learning framework accommodating both single-cell and inter-cell modeling. A comprehensive benchmark is built for evaluation, encompassing 401 battery cells utilizing 5 prevalent electrode materials across 168 cycling conditions. We demonstrate remarkable capabilities in learning across diverse aging conditions, exclusively achieving 10% prediction error using the first 100 cycles, and in facilitating low-resource learning, almost halving the error of single-cell modeling in many cases. More broadly, by breaking the learning boundaries among different aging conditions, our approach could significantly accelerate the development and optimization of lithium-ion batteries.
翻訳日:2023-11-28 03:01:58 公開日:2023-11-24
# ゼロショット・リレーション・エクストラクタとしての大規模言語モデルの再検討

Revisiting Large Language Models as Zero-shot Relation Extractors ( http://arxiv.org/abs/2310.05028v4 )

ライセンス: Link先を確認
Guozheng Li and Peng Wang and Wenjun Ke(参考訳) 関係抽出(re)は、ゼロショット設定下であっても、一定のラベル付きまたはラベルなしのデータを含む。 近年の研究では、大きな言語モデル(LLM)が、単に自然言語のプロンプトを与えられただけで、データやパラメータのチューニングを伴わずにテキストから関係を抽出できることが示されている。 この研究は、ゼロショット関係抽出器としてChatGPTのようなLLMの研究に焦点を当てている。 一方,既存のREプロンプトの欠点を分析し,ゼロショットREを改善するためにチェーン・オブ・シント(CoT)などの最近のプロンプト技術を取り入れようとしている。 本稿では,LLMを用いてRE入力を効率的な質問応答(QA)形式に変換する簡易なプロンプトであるSmise-and-ask(\textsc{SumAsk})プロンプトを提案する。 一方,ゼロショット RE 上での LLM の能力を検討するため,様々なベンチマークや設定に関する総合的な実験を行っている。 具体的には、以下の結果が得られます。 i) \textsc{SumAsk} は、モデルサイズ、ベンチマーク、設定の異なる LLM のパフォーマンスを一貫して改善します。 (二)ChatGPTによるゼロショットプロンプトは、ゼロショット及び完全教師付き手法と比較して、競争力又は優れた結果が得られる。 三 LLMは、重なり合う関係の抽出において有望な性能を提供する。 (四)異なる関係について、そのパフォーマンスは大きく異なる。 小さな言語モデルとは異なり、LLMは問題なし(NoTA)の関係を扱うのに効果的である。

Relation extraction (RE) consistently involves a certain degree of labeled or unlabeled data even if under zero-shot setting. Recent studies have shown that large language models (LLMs) transfer well to new tasks out-of-the-box simply given a natural language prompt, which provides the possibility of extracting relations from text without any data and parameter tuning. This work focuses on the study of exploring LLMs, such as ChatGPT, as zero-shot relation extractors. On the one hand, we analyze the drawbacks of existing RE prompts and attempt to incorporate recent prompt techniques such as chain-of-thought (CoT) to improve zero-shot RE. We propose the summarize-and-ask (\textsc{SumAsk}) prompting, a simple prompt recursively using LLMs to transform RE inputs to the effective question answering (QA) format. On the other hand, we conduct comprehensive experiments on various benchmarks and settings to investigate the capabilities of LLMs on zero-shot RE. Specifically, we have the following findings: (i) \textsc{SumAsk} consistently and significantly improves LLMs performance on different model sizes, benchmarks and settings; (ii) Zero-shot prompting with ChatGPT achieves competitive or superior results compared with zero-shot and fully supervised methods; (iii) LLMs deliver promising performance in extracting overlapping relations; (iv) The performance varies greatly regarding different relations. Different from small language models, LLMs are effective in handling challenge none-of-the-above (NoTA) relation.
翻訳日:2023-11-28 03:01:32 公開日:2023-11-24
# 報酬ドロップアウトによる制御改善 - 強化lmの双方向視点

Reward Dropout Improves Control: Bi-objective Perspective on Reinforced LM ( http://arxiv.org/abs/2310.04483v2 )

ライセンス: Link先を確認
Changhun Lee and Chiehyeon Lim(参考訳) 二目的最適化の観点から強化言語モデル(rlms)の理論的側面について検討する。 具体的には、RLMを2つの相反する目的、すなわち報酬目的と可能性目標を同時に最大化するパレート最適化問題とみなす。 私たちの主な貢献は3つの部分からなる。 まず,Reward Upper Bound(RUBO)とParetoOptimityを提示することにより,RLMの理論的基礎をパレート最適化問題として確立する。 我々の理論的な結果は推論的証明だけでなく経験的結果によっても支持されている。 第2に,RLMの双方向最適化を改善するための簡易かつ強力な手法であるReward Dropoutを提案する。 最後に、Reward Dropoutは5つのベンチマークデータセットと4つのベンチマークLDMで一貫して有効であることを示し、Reward DropoutはRLMの最適化性能を大幅に改善する。

We study the theoretical aspects of Reinforced Language Models (RLMs) from a bi-objective optimization perspective. Specifically, we consider the RLMs as a Pareto optimization problem that maximizes the two conflicting objectives, i.e., reward objective and likelihood objectives, simultaneously. Our main contribution consists of three parts. First, we establish the theoretical foundations of RLM as a Pareto optimization problem by presenting Reward Upper BOund (RUBO) and Pareto optimality. Our theoretical outcomes are supported by not only deductive proofs but also empirical results. Second, we propose Reward Dropout, a simple yet powerful method that guarantees to improve a bi-objective optimization of RLM. Lastly, we demonstrate that the Reward Dropout is consistently effective across five benchmark datasets and four benchmark LLMs, meaning that the Reward Dropout significantly improves the optimization performance of RLMs.
翻訳日:2023-11-28 03:01:05 公開日:2023-11-24
# 位置方向空間の重み共有による高速表現型SE$(n)$同変ネットワーク

Fast, Expressive SE$(n)$ Equivariant Networks through Weight-Sharing in Position-Orientation Space ( http://arxiv.org/abs/2310.02970v2 )

ライセンス: Link先を確認
Erik J Bekkers, Sharvaree Vadgama, Rob D Hesselink, Putri A van der Linden, David W Romero(参考訳) 均質空間の理論に基づいて、フレキシブルなメッセージパッシングフレームワーク内で使うために \textit{geometrically optimal edge attribute} を導出する。 畳み込みネットワークにおける重み共有の概念を等しく扱うべきポイントペア上でのメッセージ関数の共有として定式化する。 我々は、群内の変換と同一である点ペアの同値類を定義し、これらのクラスを一意的に識別する属性を導出する。 重み共有は、これらの属性にメッセージ関数を条件付けすることで得られる。 この理論の応用として、3次元点雲を処理するための効率的な同変群畳み込みネットワークを開発した。 等質空間の理論は、次数 $\mathbb{r}^3$ 、位数と向きが $\mathbb{r}^3 {\times} s^2$ 、群 se$(3)$ 自身の等質空間上の特徴写像と群畳み込みをどのように行うかを示す。 これらのうち、$\mathbb{r}^3 {\times} s^2$ は方向情報を表現する能力があるため最適選択であり、$\mathbb{r}^3$ の方法は不可能であり、完全な se$(3)$ 群のインデックス化機能に比べて計算効率が著しく向上する。 我々は、原子間ポテンシャルエネルギー予測、n体系における軌道予測、等価拡散モデルによる分子生成という3つの異なるベンチマークで、最先端の結果 -- 精度と速度で -- を達成することで、この主張を実証的に支持する。

Based on the theory of homogeneous spaces we derive \textit{geometrically optimal edge attributes} to be used within the flexible message passing framework. We formalize the notion of weight sharing in convolutional networks as the sharing of message functions over point-pairs that should be treated equally. We define equivalence classes of point-pairs that are identical up to a transformation in the group and derive attributes that uniquely identify these classes. Weight sharing is then obtained by conditioning message functions on these attributes. As an application of the theory, we develop an efficient equivariant group convolutional network for processing 3D point clouds. The theory of homogeneous spaces tells us how to do group convolutions with feature maps over the homogeneous space of positions $\mathbb{R}^3$, position and orientations $\mathbb{R}^3 {\times} S^2$, and the group SE$(3)$ itself. Among these, $\mathbb{R}^3 {\times} S^2$ is an optimal choice due to the ability to represent directional information, which $\mathbb{R}^3$ methods cannot, and it significantly enhances computational efficiency compared to indexing features on the full SE$(3)$ group. We empirically support this claim by reaching state-of-the-art results -- in accuracy and speed -- on three different benchmarks: interatomic potential energy prediction, trajectory forecasting in N-body systems, and generating molecules via equivariant diffusion models.
翻訳日:2023-11-28 03:00:49 公開日:2023-11-24
# 拡散モデルによる無制限データプランによるvaeトレーニングのアップグレード

Upgrading VAE Training With Unlimited Data Plans Provided by Diffusion Models ( http://arxiv.org/abs/2310.19653v2 )

ライセンス: Link先を確認
Tim Z. Xiao, Johannes Zenn, Robert Bamler(参考訳) 変分オートエンコーダ(VAE)は表現学習の一般的なモデルであるが、それらのエンコーダは真の(連続的な)データ分散である$p_{\mathrm{data}}(\mathbf{x})$の代わりに有限トレーニングセットで訓練されているため、オーバーフィッティング(Cremer et al., 2018)の影響を受けやすい。 一方、拡散モデルはエンコーダを固定することでこの問題を回避する。 これにより、それらの表現は解釈できないが、トレーニングを単純化し、$p_{\mathrm{data}}(\mathbf{x})$の正確かつ連続的な近似を可能にする。 本稿では,VAEにおけるオーバーフィッティングエンコーダを,事前学習した拡散モデルからのサンプルのトレーニングにより効果的に緩和できることを示す。 これらの結果は、最近の研究結果(Alemohammad et al., 2023; Shumailov et al., 2023)が、他の生成モデルによって生成されたデータに基づいてモデルが訓練された場合、生成性能の低下を観測している。 提案手法を用いて学習したVAEの一般化性能,償却ギャップ,ロバスト性を3つの異なるデータセットで解析した。 通常のトレーニング法と従来のデータ拡張法と比較して,すべての測定値が改善され,拡散モデルから得られたサンプルの量で十分な値が得られることが判明した。

Variational autoencoders (VAEs) are popular models for representation learning but their encoders are susceptible to overfitting (Cremer et al., 2018) because they are trained on a finite training set instead of the true (continuous) data distribution $p_{\mathrm{data}}(\mathbf{x})$. Diffusion models, on the other hand, avoid this issue by keeping the encoder fixed. This makes their representations less interpretable, but it simplifies training, enabling accurate and continuous approximations of $p_{\mathrm{data}}(\mathbf{x})$. In this paper, we show that overfitting encoders in VAEs can be effectively mitigated by training on samples from a pre-trained diffusion model. These results are somewhat unexpected as recent findings (Alemohammad et al., 2023; Shumailov et al., 2023) observe a decay in generative performance when models are trained on data generated by another generative model. We analyze generalization performance, amortization gap, and robustness of VAEs trained with our proposed method on three different data sets. We find improvements in all metrics compared to both normal training and conventional data augmentation methods, and we show that a modest amount of samples from the diffusion model suffices to obtain these gains.
翻訳日:2023-11-28 02:52:56 公開日:2023-11-24
# PACuna: 粒子加速器のための言語モデルの自動調整

PACuna: Automated Fine-Tuning of Language Models for Particle Accelerators ( http://arxiv.org/abs/2310.19106v2 )

ライセンス: Link先を確認
Antonin Sulc, Raimund Kammering, Annika Eichler, Tim Wilksen(参考訳) 粒子加速器の展望のナビゲートは、近年の貢献の急増とともにますます困難になっている。 これらの複雑なデバイスは、個々の施設内でさえ、理解に挑戦する。 カンファレンスやプレプリント,書籍など,公開されているアクセラレーションリソースを通じて洗練された,微調整された言語モデルであるpacunaを紹介する。 専門家の関与を最小限に抑え、データを公開できるように、データ収集と質問生成を自動化する。 PACunaは、専門家によって検証された複雑なアクセラレーター問題に対処する能力を示す。 提案手法は, 専門文献を微調整し, 自動生成コーパスを抽出することにより, 市販のアシスタントが個々の施設のインテリジェントアシスタントとして機能し得ない, 複雑な質問に答えるために, 事前学習されたモデルをさらに作成できることを示す。

Navigating the landscape of particle accelerators has become increasingly challenging with recent surges in contributions. These intricate devices challenge comprehension, even within individual facilities. To address this, we introduce PACuna, a fine-tuned language model refined through publicly available accelerator resources like conferences, pre-prints, and books. We automated data collection and question generation to minimize expert involvement and make the data publicly available. PACuna demonstrates proficiency in addressing intricate accelerator questions, validated by experts. Our approach shows adapting language models to scientific domains by fine-tuning technical texts and auto-generated corpora capturing the latest developments can further produce pre-trained models to answer some intricate questions that commercially available assistants cannot and can serve as intelligent assistants for individual facilities.
翻訳日:2023-11-28 02:52:06 公開日:2023-11-24
# Cobalt Blue Eyes: 一貫性と持続可能な言語モデルを作成するためのプロンプトテスト

She had Cobalt Blue Eyes: Prompt Testing to Create Aligned and Sustainable Language Models ( http://arxiv.org/abs/2310.18333v2 )

ライセンス: Link先を確認
Veronica Chatrath, Oluwanifemi Bamgbose, Shaina Raza(参考訳) 大きな言語モデル(LLM)の使用が社会内で増加するにつれて、その誤用のリスクも増大する。 適切な安全対策は、LLMの出力が社会の倫理的基準を守れるようにし、人工知能技術が持つべきポジティブな役割を強調しなければならない。 最近の出来事は、従来の訓練されたllmに関する倫理的な懸念を示し、全体的に安全でないユーザエクスペリエンスに繋がる。 LLMのアライメントを確保するにはどうすればいいのか? 本稿では,公平かつ安全かつ堅牢なアライメントllmの開発を促進するための,ユニークなプロンプトのテストスイートを紹介する。 データキュレーションや事前トレーニング,微調整など,開発パイプラインのすべてのステップでLLMをプッシュすることで,全体的な責任を負うモデルが実現することを示す。 テストスイートは、GPT-3.5, GPT-4, OPT, LLaMA-2の4つの最先端言語モデルの出力を評価する。 本稿では,社会的アライメントと現在のLCMの能力のギャップを明らかにする。 さらに、我々のようなテストスイートの実装は、モデルを安全かつ公平にする際の環境負荷を低減します。

As the use of large language models (LLMs) increases within society, as does the risk of their misuse. Appropriate safeguards must be in place to ensure LLM outputs uphold the ethical standards of society, highlighting the positive role that artificial intelligence technologies can have. Recent events indicate ethical concerns around conventionally trained LLMs, leading to overall unsafe user experiences. This motivates our research question: how do we ensure LLM alignment? In this work, we introduce a test suite of unique prompts to foster the development of aligned LLMs that are fair, safe, and robust. We show that prompting LLMs at every step of the development pipeline, including data curation, pre-training, and fine-tuning, will result in an overall more responsible model. Our test suite evaluates outputs from four state-of-the-art language models: GPT-3.5, GPT-4, OPT, and LLaMA-2. The assessment presented in this paper highlights a gap between societal alignment and the capabilities of current LLMs. Additionally, implementing a test suite such as ours lowers the environmental overhead of making models safe and fair.
翻訳日:2023-11-28 02:51:50 公開日:2023-11-24
# duma: 速い思考と遅い思考を持つデュアルマインド会話エージェント

DUMA: a Dual-Mind Conversational Agent with Fast and Slow Thinking ( http://arxiv.org/abs/2310.18075v4 )

ライセンス: Link先を確認
Xiaoyu Tian, Liangyu Chen, Na Liu, Yaxuan Liu, Wei Zou, Kaijiang Chen, Ming Cui(参考訳) 人間の認知の二重プロセス理論に着想を得て,2つの生成的大言語モデル(LLM)をそれぞれ高速・低速な思考に用い,二重マシン機構を具現化した対話エージェントフレームワークであるDUMAを導入する。 高速思考モデルは、外的相互作用と初期応答生成の主要なインターフェースとして機能し、完全な応答の複雑さに基づいて、遅い思考モデルに取り組む必要性を評価する。 起動すると、遅い思考モデルが会話を引き継ぎ、綿密な計画、推論、ツール利用に取り組み、よく分析された応答を提供する。 このデュアルミンド構成は、直感的な応答と状況に基づいた意図的な問題解決プロセスのシームレスな遷移を可能にする。 我々は,不動産業界のオンライン調査を扱う対話エージェントを構築した。 実験は,本手法が有効性と効率のバランスをとることを証明し,ベースラインと比較して著しく改善した。

Inspired by the dual-process theory of human cognition, we introduce DUMA, a novel conversational agent framework that embodies a dual-mind mechanism through the utilization of two generative Large Language Models (LLMs) dedicated to fast and slow thinking respectively. The fast thinking model serves as the primary interface for external interactions and initial response generation, evaluating the necessity for engaging the slow thinking model based on the complexity of the complete response. When invoked, the slow thinking model takes over the conversation, engaging in meticulous planning, reasoning, and tool utilization to provide a well-analyzed response. This dual-mind configuration allows for a seamless transition between intuitive responses and deliberate problem-solving processes based on the situation. We have constructed a conversational agent to handle online inquiries in the real estate industry. The experiment proves that our method balances effectiveness and efficiency, and has a significant improvement compared to the baseline.
翻訳日:2023-11-28 02:51:05 公開日:2023-11-24
# ブラックボックス言語モデルにおけるテストセット汚染の証明

Proving Test Set Contamination in Black Box Language Models ( http://arxiv.org/abs/2310.17623v2 )

ライセンス: Link先を確認
Yonatan Oren and Nicole Meister and Niladri Chatterji and Faisal Ladhak and Tatsunori B. Hashimoto(参考訳) 大規模な言語モデルは大量のインターネットデータに基づいて訓練されており、公開ベンチマークを記憶しているという懸念や憶測を引き起こしている。 プロプライエタリなモデルで使用される事前学習データは一般にはアクセスできないため、憶測から汚染の証明まで難しい。 事前学習データやモデルの重み付けにアクセスせずに、言語モデルにおけるテストセットの汚染の証明可能な保証を提供できることを示す。 我々のアプローチは、データ汚染がない場合、交換可能なベンチマークの全ての順序が等しくなるという事実を活用する。 対照的に、言語モデルが例の順序を記憶する傾向は、汚染された言語モデルが特定の標準順序を他のモデルよりもずっと高い確率で見つけることを意味する。 我々のテストでは、正準順序付きベンチマークデータセットの確率が、サンプルをシャッフルした後の確率よりもかなり高いときに、潜在的な汚染をフラグする。 提案手法は,1000例の小さなテストセット上での14億のパラメータのモデルや,事前学習コーパスに数回しか現れないデータセットなど,困難な状況下でテストセットの汚染を確実に証明するのに十分であることを示す。 本試験では, 一般に普及している5つの言語モデルを用いて, テストセット汚染の検査を行い, 広汎な汚染の証拠はほとんど見つからなかった。

Large language models are trained on vast amounts of internet data, prompting concerns and speculation that they have memorized public benchmarks. Going from speculation to proof of contamination is challenging, as the pretraining data used by proprietary models are often not publicly accessible. We show that it is possible to provide provable guarantees of test set contamination in language models without access to pretraining data or model weights. Our approach leverages the fact that when there is no data contamination, all orderings of an exchangeable benchmark should be equally likely. In contrast, the tendency for language models to memorize example order means that a contaminated language model will find certain canonical orderings to be much more likely than others. Our test flags potential contamination whenever the likelihood of a canonically ordered benchmark dataset is significantly higher than the likelihood after shuffling the examples. We demonstrate that our procedure is sensitive enough to reliably prove test set contamination in challenging situations, including models as small as 1.4 billion parameters, on small test sets of only 1000 examples, and datasets that appear only a few times in the pretraining corpus. Using our test, we audit five popular publicly accessible language models for test set contamination and find little evidence for pervasive contamination.
翻訳日:2023-11-28 02:50:18 公開日:2023-11-24
# 時空間映像の高分解能化のためのスケール適応型特徴集約

Scale-Adaptive Feature Aggregation for Efficient Space-Time Video Super-Resolution ( http://arxiv.org/abs/2310.17294v2 )

ライセンス: Link先を確認
Zhewei Huang, Ailin Huang, Xiaotao Hu, Chen Hu, Jun Xu, Shuchang Zhou(参考訳) Space-Time Video Super-Resolution (STVSR)タスクは、ビデオフレーム補間(VFI)とビデオ超解像(VSR)を同時に行うことで、ビデオの視覚的品質を高めることを目的としている。 しかし、追加の時間次元とスケールの不整合の課題に直面し、既存のSTVSR法の多くは、異なる動き振幅を動的にモデル化する際に複雑で非柔軟である。 本研究では,適切な処理スケールを選択することで,フローに基づく機能伝達において顕著なメリットが得られることを示す。 本稿では,個々のサンプルに対して異なる処理スケールのサブネットワークを適応的に選択する,SAFA(Scale-Adaptive Feature Aggregation)ネットワークを提案する。 4つの公開STVSRベンチマークの実験は、SAFAが最先端のパフォーマンスを達成することを示した。 我々のSAFAネットワークは,PSNRにおける平均0.5dB以上の改善により,TMNetやVideoINRといった最近の最先端手法よりも優れており,パラメータの半数未満と計算コストは1/3に満たない。

The Space-Time Video Super-Resolution (STVSR) task aims to enhance the visual quality of videos, by simultaneously performing video frame interpolation (VFI) and video super-resolution (VSR). However, facing the challenge of the additional temporal dimension and scale inconsistency, most existing STVSR methods are complex and inflexible in dynamically modeling different motion amplitudes. In this work, we find that choosing an appropriate processing scale achieves remarkable benefits in flow-based feature propagation. We propose a novel Scale-Adaptive Feature Aggregation (SAFA) network that adaptively selects sub-networks with different processing scales for individual samples. Experiments on four public STVSR benchmarks demonstrate that SAFA achieves state-of-the-art performance. Our SAFA network outperforms recent state-of-the-art methods such as TMNet and VideoINR by an average improvement of over 0.5dB on PSNR, while requiring less than half the number of parameters and only 1/3 computational costs.
翻訳日:2023-11-28 02:49:56 公開日:2023-11-24
# 物理インフォームドグラフ畳み込みネットワーク:複素幾何学の一般化フレームワークを目指して

Physics-Informed Graph Convolutional Networks: Towards a generalized framework for complex geometries ( http://arxiv.org/abs/2310.14948v4 )

ライセンス: Link先を確認
Marien Chenaud, Jos\'e Alves, Fr\'ed\'eric Magoul\`es(参考訳) 9]とその物理情報ニューラルネットワーク(PINN)のセミナル研究以来、ディープラーニングモデルを用いた偏微分方程式(PDE)の解法に多くの取り組みがなされてきた。 しかし、複雑な3次元幾何学へのモデルの拡張や、そのようなアプローチが古典的数値解法とどのように結合できるかの研究など、いくつかの課題は残っている。 本研究では,偏微分方程式の解法として従来の数値計算手法で用いられるメッシュと,これらのアーキテクチャの類似性に基づいて,これらの問題に対するグラフニューラルネットワークの利用を正当化する。 複素幾何学における物理インフォームドフレームワークの問題点を証明した後、古典的数値解法と物理インフォームドフレームワークを組み合わせることで、PDE残差の計算において別の方法を提案する。 最後に,この手法の実装を提案し,不規則な幾何学上の3次元問題について検証する。

Since the seminal work of [9] and their Physics-Informed neural networks (PINNs), many efforts have been conducted towards solving partial differential equations (PDEs) with Deep Learning models. However, some challenges remain, for instance the extension of such models to complex three-dimensional geometries, and a study on how such approaches could be combined to classical numerical solvers. In this work, we justify the use of graph neural networks for these problems, based on the similarity between these architectures and the meshes used in traditional numerical techniques for solving partial differential equations. After proving an issue with the Physics-Informed framework for complex geometries, during the computation of PDE residuals, an alternative procedure is proposed, by combining classical numerical solvers and the Physics-Informed framework. Finally, we propose an implementation of this approach, that we test on a three-dimensional problem on an irregular geometry.
翻訳日:2023-11-28 02:49:10 公開日:2023-11-24
# 文化的・言語的多様性が視覚表現を改善する

Cultural and Linguistic Diversity Improves Visual Representations ( http://arxiv.org/abs/2310.14356v2 )

ライセンス: Link先を確認
Andre Ye, Sebastin Santy, Jena D. Hwang, Amy X. Zhang, Ranjay Krishna(参考訳) コンピュータビジョンは知覚を客観的に扱うことが多く、この仮定はデータセットの収集やモデルを訓練する方法に反映される。 例えば、異なる言語における画像記述は、典型的には同じ意味的内容の翻訳であると仮定される。 しかし、異文化心理学や言語学の研究は、個人が文化的背景や話す言語によって視覚的に異なることを示している。 本稿では,データセットとモデル生成キャプションの両方において,言語間の意味コンテンツの有意な差異を示す。 モノリンガルとは対照的に、データが多言語である場合、シーングラフ、埋め込み、言語複雑性によって測定される平均的な意味的カバレッジは高い。 例えば、多言語キャプションは、平均21.8%以上のオブジェクト、24.5%以上のリレーション、27.1%以上の属性を持つ。 さらに、異なる言語のコンテンツで訓練されたモデルは、それらの言語のテストデータに対して最善を尽くす一方、多言語コンテンツで訓練されたモデルは、すべての評価データ合成に対して一貫して良好に機能する。 我々の研究は、多様な知覚モードが画像理解をいかに改善できるかを示す。

Computer vision often treats perception as objective, and this assumption gets reflected in the way that datasets are collected and models are trained. For instance, image descriptions in different languages are typically assumed to be translations of the same semantic content. However, work in cross-cultural psychology and linguistics has shown that individuals differ in their visual perception depending on their cultural background and the language they speak. In this paper, we demonstrate significant differences in semantic content across languages in both dataset and model-produced captions. When data is multilingual as opposed to monolingual, captions have higher semantic coverage on average, as measured by scene graph, embedding, and linguistic complexity. For example, multilingual captions have on average 21.8% more objects, 24.5% more relations, and 27.1% more attributes than a set of monolingual captions. Moreover, models trained on content from different languages perform best against test data from those languages, while those trained on multilingual content perform consistently well across all evaluation data compositions. Our research provides implications for how diverse modes of perception can improve image understanding.
翻訳日:2023-11-28 02:47:51 公開日:2023-11-24
# 表データを用いたニューロンネットワークの初期化スキーマ

An Initialization Schema for Neuronal Networks on Tabular Data ( http://arxiv.org/abs/2311.03996v2 )

ライセンス: Link先を確認
Wolfgang Fuhl(参考訳) 現在、多くの現代アプリケーションは異種な表データを必要とするが、回帰や分類の面では依然として困難な課題である。 このタスクにニューラルネットワークを適用するために、多くのアプローチが提案されているが、それでも意思決定木の強化と詰め込みは、このタスクに最適な方法である。 本稿では,二項初期化ニューラルネットワークを表データ上で効果的に使用できることを示す。 提案手法はニューラルネットワークの最初の隠蔽層を初期化するための単純だが効果的なアプローチを示す。 また、この初期化スキーマは、バッチエントリに勾配マスキングを追加し、ニューラルネットワークの最後の層に対する二項初期化を使用することで、アンサンブルを共同で訓練することができることを示す。 本研究の目的は, アンサンブルトレーニングに適応するために, ヒンジ2次損失とソフトマックス損失を修正したことである。 我々は、複数のパブリックデータセットに対するアプローチを評価し、他のニューラルネットワークベースのアプローチと比較して、パフォーマンスの向上を示す。 さらに,グラフデータへのニューラルネットワークの適用性向上に向けた,我々のアプローチの限界とさらなる研究の可能性について論じる。 リンク: https://es-cloud.cs.uni-tuebingen.de/8e2ab8c3fdd444e1a135/? p=%2FinitializationNeuronalNetworksTabularData&mode=list

Nowadays, many modern applications require heterogeneous tabular data, which is still a challenging task in terms of regression and classification. Many approaches have been proposed to adapt neural networks for this task, but still, boosting and bagging of decision trees are the best-performing methods for this task. In this paper, we show that a binomial initialized neural network can be used effectively on tabular data. The proposed approach shows a simple but effective approach for initializing the first hidden layer in neural networks. We also show that this initializing schema can be used to jointly train ensembles by adding gradient masking to batch entries and using the binomial initialization for the last layer in a neural network. For this purpose, we modified the hinge binary loss and the soft max loss to make them applicable for joint ensemble training. We evaluate our approach on multiple public datasets and showcase the improved performance compared to other neural network-based approaches. In addition, we discuss the limitations and possible further research of our approach for improving the applicability of neural networks to tabular data. Link: https://es-cloud.cs.uni-tuebingen.de/d/8e2ab8c3fdd444e1a135/?p=%2FInitializationNeuronalNetworksTabularData&mode=list
翻訳日:2023-11-28 02:40:06 公開日:2023-11-24
# ペルソナ変調による言語モデルのためのスケーラブルで転送可能なブラックボックスジェイルブレイク

Scalable and Transferable Black-Box Jailbreaks for Language Models via Persona Modulation ( http://arxiv.org/abs/2311.03348v2 )

ライセンス: Link先を確認
Rusheb Shah, Quentin Feuillade--Montixi, Soroush Pour, Arush Tagade, Stephen Casper, Javier Rando(参考訳) 大きな言語モデルを調整して無害な応答を生成する努力にもかかわらず、制限のない振る舞いを引き起こすジェイルブレイクプロンプトには依然として脆弱である。 本研究では,ブラックボックス脱獄法としてペルソナ変調法について検討し,有害な指示を順守しようとする個人性をターゲットモデルに制御する。 個人毎のプロンプトを手作業で作成するのではなく、言語モデルアシスタントを使用してジェイルブレイクを自動生成します。 我々は、メタンフェタミンの合成、爆弾の製作、マネーロンダリングなどの詳細な指示を含むペルソナ変調によって可能となった有害な完成範囲を示す。 これらの自動攻撃は、修正前(0.23%)より185倍大きいGPT-4の42.5%の有害な完成率を達成する。 これらのプロンプトは、それぞれ61.0%と35.9%の有害な完成率でclaude 2とvicunaに転送される。 私たちの研究は、商用大規模言語モデルの新たな脆弱性を明らかにし、より包括的なセーフガードの必要性を強調しています。

Despite efforts to align large language models to produce harmless responses, they are still vulnerable to jailbreak prompts that elicit unrestricted behaviour. In this work, we investigate persona modulation as a black-box jailbreaking method to steer a target model to take on personalities that are willing to comply with harmful instructions. Rather than manually crafting prompts for each persona, we automate the generation of jailbreaks using a language model assistant. We demonstrate a range of harmful completions made possible by persona modulation, including detailed instructions for synthesising methamphetamine, building a bomb, and laundering money. These automated attacks achieve a harmful completion rate of 42.5% in GPT-4, which is 185 times larger than before modulation (0.23%). These prompts also transfer to Claude 2 and Vicuna with harmful completion rates of 61.0% and 35.9%, respectively. Our work reveals yet another vulnerability in commercial large language models and highlights the need for more comprehensive safeguards.
翻訳日:2023-11-28 02:39:07 公開日:2023-11-24
# 信号処理とSGD: モーメントからフィルタへ

Signal Processing Meets SGD: From Momentum to Filter ( http://arxiv.org/abs/2311.02818v3 )

ライセンス: Link先を確認
Zhipeng Yao, Guisong Chang, Jiaqi Zhang, Qi Zhang, Yu Zhang, Dazhou Li(参考訳) ディープラーニングの分野では、SGD(Stochastic Gradient Descent)とその運動量に基づく変種が最適化アルゴリズムの主要な選択肢である。 それにもかかわらず、これらの運動量戦略は、固定された$\beta$ハイパーパラメータを用いて最適化処理を円滑にすることで歴史的勾配を蓄積し、しばしば現在の勾配推定に対する歴史的勾配の分散の影響を無視する。 トレーニング中の勾配分散では、ゆらぎは目的関数が常にリプシッツ連続性条件を満たしていないことを示すため、厄介な最適化問題を引き起こす。 本研究の目的は, 歴史的勾配のばらつきを低減し, 最適化器を平坦な解に収束させる可能性を探ることである。 さらに,分散の低減に基づく新しい最適化手法を提案する。 我々は,ワイナーフィルタ理論を用いてsgdの最初のモーメント推定,特にオプティマイザへの適応重みを導入した。 特に、適応重みは、ディープラーニングモデルトレーニング中の勾配変動の時間的変動とともに動的に変化する。 提案する適応ウェイトオプティマイザであるsgdf(stochasticgradient descent with filter)は,最先端のオプティマイザと比較して良好な性能が得られることを示した。

In the field of deep learning, Stochastic Gradient Descent (SGD) and its momentum-based variants are the predominant choices for optimization algorithms. Despite all that, these momentum strategies, which accumulate historical gradients by using a fixed $\beta$ hyperparameter to smooth the optimization processing, often neglect the potential impact of the variance of historical gradients on the current gradient estimation. In the gradient variance during training, fluctuation indicates the objective function does not meet the Lipschitz continuity condition at all time, which raises the troublesome optimization problem. This paper aims to explore the potential benefits of reducing the variance of historical gradients to make optimizer converge to flat solutions. Moreover, we proposed a new optimization method based on reducing the variance. We employed the Wiener filter theory to enhance the first moment estimation of SGD, notably introducing an adaptive weight to optimizer. Specifically, the adaptive weight dynamically changes along with temporal fluctuation of gradient variance during deep learning model training. Experimental results demonstrated our proposed adaptive weight optimizer, SGDF (Stochastic Gradient Descent With Filter), can achieve satisfactory performance compared with state-of-the-art optimizers.
翻訳日:2023-11-28 02:38:50 公開日:2023-11-24
# 付加探索による学習ベース線形二次ガウス制御の回帰解析

Regret Analysis of Learning-Based Linear Quadratic Gaussian Control with Additive Exploration ( http://arxiv.org/abs/2311.02679v2 )

ライセンス: Link先を確認
Archith Athrey, Othmane Mazhar, Meichen Guo, Bart De Schutter and Shengling Shi(参考訳) 本稿では,LQG(Linear Quadratic Gaussian)フレームワーク内の未知の部分観測可能なシステムを制御するために,計算効率のよい探索戦略であるNuive Exploringによって得られた後悔を解析する。 lqg-naiveと呼ばれる二相制御アルゴリズムを導入し、ガウス入力信号を注入してシステムモデルを得る初期フェーズと、エピソディックな方法でのナイーブ探索と制御の相互作用の第2フェーズを紹介する。 我々は,LQG-NAIVE が $\tilde{\mathcal{O}}(\sqrt{T})$,すなわち $\mathcal{O}(\sqrt{T})$,$T$ の時間ステップの後に対数因子まで到達し,その性能を数値シミュレーションにより検証することを示す。 また,FIM(Fisher Information Matrix)を組み込んだ「クローズドループ」設定に探索信号を拡張したLQG-IF2Eを提案する。 我々は,LQG-IF2EとLQG-NAIVEの競合性能を比較検討した。

In this paper, we analyze the regret incurred by a computationally efficient exploration strategy, known as naive exploration, for controlling unknown partially observable systems within the Linear Quadratic Gaussian (LQG) framework. We introduce a two-phase control algorithm called LQG-NAIVE, which involves an initial phase of injecting Gaussian input signals to obtain a system model, followed by a second phase of an interplay between naive exploration and control in an episodic fashion. We show that LQG-NAIVE achieves a regret growth rate of $\tilde{\mathcal{O}}(\sqrt{T})$, i.e., $\mathcal{O}(\sqrt{T})$ up to logarithmic factors after $T$ time steps, and we validate its performance through numerical simulations. Additionally, we propose LQG-IF2E, which extends the exploration signal to a `closed-loop' setting by incorporating the Fisher Information Matrix (FIM). We provide compelling numerical evidence of the competitive performance of LQG-IF2E compared to LQG-NAIVE.
翻訳日:2023-11-28 02:38:29 公開日:2023-11-24
# 模倣ブートストラップ強化学習

Imitation Bootstrapped Reinforcement Learning ( http://arxiv.org/abs/2311.02198v3 )

ライセンス: Link先を確認
Hengyuan Hu, Suvir Mirchandani, Dorsa Sadigh(参考訳) 強化学習(RL)のかなりの可能性にもかかわらず、ロボット制御タスクはより優れたサンプル効率のため、主に模倣学習(IL)に依存している。 しかし、大規模なデモンストレーション収集のコストが高いことから、RLは効率的な自律的自己改善のために限られた模倣データを利用することができるといまだに魅力的である。 デモを利用する既存のrlメソッドは、デモでリプレイバッファを初期化し、rlトレーニング中にオーバーサンプルするか、最新のilメソッドの一般化の恩恵を受けないか、デモでilでrlポリシーを事前トレーニングするかのどちらかで、rlの微調整中に壊滅的なリプレイバッファを忘れるのを防ぐ追加のメカニズムを必要とする。 提案手法は,実演数限定でILポリシーを訓練し,オンライン探索と目標値ブートストラップのための代替行動を提案する新しいフレームワークである,模倣ブートストラップ型強化学習(IBRL)を提案する。 IBRLは、画素から直接学習しながらシミュレーションにおいて、7つのスパース報酬連続制御タスクに対して、SoTA性能とサンプル効率を達成する。 我々の方法のハイライトとして、ILBLはRLPDよりも6.4\times$高い成功率を実現しています。これは、ロボミミックベンチマークの挑戦的なPickPlaceCanタスクにおいて、10のデモと100Kのインタラクションの予算の下で、デモをオーバーサンプリングするアイデアと現代的なRLの改善を組み合わせた強力なメソッドです。

Despite the considerable potential of reinforcement learning (RL), robotics control tasks predominantly rely on imitation learning (IL) owing to its better sample efficiency. However, given the high cost of collecting extensive demonstrations, RL is still appealing if it can utilize limited imitation data for efficient autonomous self-improvement. Existing RL methods that utilize demonstrations either initialize the replay buffer with demonstrations and oversample them during RL training, which does not benefit from the generalization potential of modern IL methods, or pretrain the RL policy with IL on the demonstrations, which requires additional mechanisms to prevent catastrophic forgetting during RL fine-tuning. We propose imitation bootstrapped reinforcement learning (IBRL), a novel framework that first trains an IL policy on a limited number of demonstrations and then uses it to propose alternative actions for both online exploration and target value bootstrapping. IBRL achieves SoTA performance and sample efficiency on 7 challenging sparse reward continuous control tasks in simulation while learning directly from pixels. As a highlight of our method, IBRL achieves $6.4\times$ higher success rate than RLPD, a strong method that combines the idea of oversampling demonstrations with modern RL improvements, under the budget of 10 demos and 100K interactions in the challenging PickPlaceCan task in the Robomimic benchmark.
翻訳日:2023-11-28 02:37:53 公開日:2023-11-24
# 離散拡散による自律運転のための教師なし世界モデル学習

Learning Unsupervised World Models for Autonomous Driving via Discrete Diffusion ( http://arxiv.org/abs/2311.01017v2 )

ライセンス: Link先を確認
Lunjun Zhang, Yuwen Xiong, Ze Yang, Sergio Casas, Rui Hu, Raquel Urtasun(参考訳) 学習世界モデルはエージェントに、教師なしのやり方で世界がどのように機能するかを教えることができる。 シーケンスモデリングの特殊なケースと見なすことができるが、自律運転のようなロボットアプリケーション上での世界モデルをスケールする進歩は、ジェネレーティブ・プレトレーニング・トランスフォーマー(GPT)を用いた言語モデルをスケールするよりもやや速かった。 複雑で構造化されていない観測空間を扱うことと、スケーラブルな生成モデルを持つことである。 そこで本研究では,まずVQVAEを用いてセンサ観測をトークン化し,離散拡散により未来を予測する新しい世界モデリング手法を提案する。 トークンを並列にデコードし、デノーズするために、マスク付き生成画像トランスフォーマーを離散拡散フレームワークに若干の簡単な変更で再キャストし、顕著な改善を行った。 点雲観測の学習の世界モデルに適用した場合、我々のモデルは1s予測で65%以上、NuScenes、KITTI Odometry、Argoverse2データセットで3s予測で50%以上削減する。 本研究は,ロボットエージェントに対するGPTのような教師なし学習のパワーを解き放つことができることを示す。

Learning world models can teach an agent how the world works in an unsupervised manner. Even though it can be viewed as a special case of sequence modeling, progress for scaling world models on robotic applications such as autonomous driving has been somewhat less rapid than scaling language models with Generative Pre-trained Transformers (GPT). We identify two reasons as major bottlenecks: dealing with complex and unstructured observation space, and having a scalable generative model. Consequently, we propose a novel world modeling approach that first tokenizes sensor observations with VQVAE, then predicts the future via discrete diffusion. To efficiently decode and denoise tokens in parallel, we recast Masked Generative Image Transformer into the discrete diffusion framework with a few simple changes, resulting in notable improvement. When applied to learning world models on point cloud observations, our model reduces prior SOTA Chamfer distance by more than 65% for 1s prediction, and more than 50% for 3s prediction, across NuScenes, KITTI Odometry, and Argoverse2 datasets. Our results demonstrate that discrete diffusion on tokenized agent experience can unlock the power of GPT-like unsupervised learning for robotic agents.
翻訳日:2023-11-28 02:37:01 公開日:2023-11-24
# Wolfes model aka $G_2/I_6$-rational integrable model: $g^{(2)}, g^{(3)}$ hidden algebras and quartic polynomial algebra of integrals

Wolfes model aka $G_2/I_6$-rational integrable model: $g^{(2)}, g^{(3)}$ hidden algebras and quartic polynomial algebra of integrals ( http://arxiv.org/abs/2310.20481v2 )

ライセンス: Link先を確認
J C Lopez Vieyra and A V Turbiner(参考訳) g_2/i_6$-有理的可積分モデルとしても知られる2-および3-体相互作用を持つ1次元の3体ウルフ模型は、正確に解くことができ、超積分可能である。 そのハミルトン$H$と2つの積分 ${\cal I}_{1}, {\cal I}_{2}$ は、それぞれ2階と6階の2つの変数(多項式係数を持つ)の代数微分作用素として記述でき、最小限の方法で$g^{(2)}$または$g^{(3)}$(隠れた)代数生成子の非線形結合として表される。 代数作用素を扱うために特別に設計された MAPLE-18 符号を用いることで、$(H, {\cal I}_1, {\cal I}_2, [{\cal I}_1, {\cal I}_2])$ は積分の四次代数の 4 つの生成元であることが分かる。 この代数は普遍包絡代数 $g^{(3)}$ に埋め込まれている。 逆に、3body/$A_2$-rational Calogero モデルは積分の立方多項式代数によって特徴づけられる。

One-dimensional 3-body Wolfes model with 2- and 3-body interactions also known as $G_2/I_6$-rational integrable model of the Hamiltonian reduction is exactly-solvable and superintegrable. Its Hamiltonian $H$ and two integrals ${\cal I}_{1}, {\cal I}_{2}$, which can be written as algebraic differential operators in two variables (with polynomial coefficients) of the 2nd and 6th orders, respectively, are represented as non-linear combinations of $g^{(2)}$ or $g^{(3)}$ (hidden) algebra generators in a minimal manner. By using a specially designed MAPLE-18 code to deal with algebraic operators it is found that $(H, {\cal I}_1, {\cal I}_2, [{\cal I}_1, {\cal I}_2])$ are the four generating elements of the {\it quartic} polynomial algebra of integrals. This algebra is embedded in the universal enveloping algebra $g^{(3)}$. In turn, 3-body/$A_2$-rational Calogero model is characterized by cubic polynomial algebra of integrals, it is mentioned briefly.
翻訳日:2023-11-28 02:35:39 公開日:2023-11-24
# monkey: 画像解像度とテキストラベルは、大規模マルチモーダルモデルにとって重要だ

Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models ( http://arxiv.org/abs/2311.06607v2 )

ライセンス: Link先を確認
Zhang Li, Biao Yang, Qiang Liu, Zhiyin Ma, Shuo Zhang, Jingxu Yang, Yabo Sun, Yuliang Liu, Xiang Bai(参考訳) 大規模マルチモーダルモデル(LMM)は視覚言語タスクにおいて有望であるが、高解像度入力と詳細なシーン理解に苦慮している。 これらの課題に対処するため、LMM機能を強化するためにMonkeyを導入します。 まず、Monkeyは入力画像を均一なパッチに分割して処理し、それぞれのサイズ(例:448x448)をよく訓練されたビジョンエンコーダのトレーニングに使用する。 各パッチ用の個別アダプタを備えており、1344x896ピクセルまでの高解像度の処理が可能で、複雑な視覚情報の詳細なキャプチャを可能にする。 第2に、シーンオブジェクト関連のためのコンテキストを豊かにするマルチレベル記述生成手法を用いる。 この2部構成の戦略は、生成されたデータからより効果的な学習を可能にする: 高分解能により、視覚をより詳細に捉えることができ、それによって包括的な説明の有効性が向上する。 その結果,設計の有効性が検証された。 さらに18のデータセットの実験では、Image CaptioningやさまざまなVisual Question Answeringフォーマットなど、多くのタスクにおいて、Monkeyが既存のLMMを上回ることが示されている。 特に、高密度テキスト質問応答に着目した定性テストでは、MonkeyはGPT4Vと比較して奨励的な結果を示した。 コードはhttps://github.com/Yuliang-Liu/Monkeyで入手できる。

Large Multimodal Models (LMMs) have shown promise in vision-language tasks but struggle with high-resolution input and detailed scene understanding. Addressing these challenges, we introduce Monkey to enhance LMM capabilities. Firstly, Monkey processes input images by dividing them into uniform patches, each matching the size (e.g., 448x448) used in the original training of the well-trained vision encoder. Equipped with individual adapter for each patch, Monkey can handle higher resolutions up to 1344x896 pixels, enabling the detailed capture of complex visual information. Secondly, it employs a multi-level description generation method, enriching the context for scene-object associations. This two-part strategy ensures more effective learning from generated data: the higher resolution allows for a more detailed capture of visuals, which in turn enhances the effectiveness of comprehensive descriptions. Extensive ablative results validate the effectiveness of our designs. Additionally, experiments on 18 datasets further demonstrate that Monkey surpasses existing LMMs in many tasks like Image Captioning and various Visual Question Answering formats. Specially, in qualitative tests focused on dense text question answering, Monkey has exhibited encouraging results compared with GPT4V. Code is available at https://github.com/Yuliang-Liu/Monkey.
翻訳日:2023-11-28 02:27:12 公開日:2023-11-24
# 新型コロナウイルスの迅速診断のためのai技術の課題と解決策

Post-COVID Highlights: Challenges and Solutions of AI Techniques for Swift Identification of COVID-19 ( http://arxiv.org/abs/2311.06258v2 )

ライセンス: Link先を確認
Yingying Fang, Xiaodan Xing, Shiyi Wang, Simon Walsh, Guang Yang(参考訳) 2019年の新型コロナウイルス(COVID-19)パンデミックの開始以来、コスト効率、非侵襲性、迅速なAIベースのツールの開発に協力してきた。 これらのツールは、前例のない世界的な危機に対応するために、医療システムの負担を軽減し、ウイルスの急速な拡散を制御し、介入結果を高めることを目的としていた。 ポスト新型コロナウイルス時代へ移行するにつれて、これらの提案された研究を振り返って評価し、AI診断モデルで採用されるテクニックのレビューを行い、さまざまな課題に対して提案された解決策に焦点を当てます。 このレビューは、パンデミックの間に生じた多面的課題に対処するために設計された多様なソリューションに関する洞察を提供する努力である。 そうすることで、公衆衛生の緊急事態を効果的に解決するためのAIツールの開発のために、AIコミュニティを準備します。

Since the onset of the COVID-19 pandemic in 2019, there has been a concerted effort to develop cost-effective, non-invasive, and rapid AI-based tools. These tools were intended to alleviate the burden on healthcare systems, control the rapid spread of the virus, and enhance intervention outcomes, all in response to this unprecedented global crisis. As we transition into a post-COVID era, we retrospectively evaluate these proposed studies and offer a review of the techniques employed in AI diagnostic models, with a focus on the solutions proposed for different challenges. This review endeavors to provide insights into the diverse solutions designed to address the multifaceted challenges that arose during the pandemic. By doing so, we aim to prepare the AI community for the development of AI tools tailored to address public health emergencies effectively.
翻訳日:2023-11-28 02:26:23 公開日:2023-11-24
# 半教師型医用画像分割のための対角的階層的一貫性学習

Diagonal Hierarchical Consistency Learning for Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2311.06031v3 )

ライセンス: Link先を確認
Heejoon Koo(参考訳) 多くの臨床応用に欠かせない医療画像セグメンテーションは、データ駆動型ディープラーニング技術によってほぼ人間レベルのパフォーマンスを達成した。 それにもかかわらず、そのパフォーマンスは大量の医療画像に手動で注釈をつけるコストのかかるプロセスに基づいている。 そこで本研究では,対角階層整合学習(DiHC-Net)を用いた半教師付き医用画像分割のための新しいフレームワークを提案する。 まず、同一のマルチスケールアーキテクチャを持つ複数のサブモデルで構成され、アップサンプリングや正規化といった異なるサブレイヤを持つ。 第二に、相互整合性により、あるモデルの中間および最終予測と、他のモデルのソフト擬似ラベルの間に、対角的階層的な方法で新しい整合性正規化が実施される。 一連の実験は、私たちのシンプルなフレームワークの有効性を検証するもので、パブリックな左アトリウム(la)データセットで以前のアプローチをすべて上回っています。

Medical image segmentation, which is essential for many clinical applications, has achieved almost human-level performance via data-driven deep learning technologies. Nevertheless, its performance is predicated upon the costly process of manually annotating a vast amount of medical images. To this end, we propose a novel framework for robust semi-supervised medical image segmentation using diagonal hierarchical consistency learning (DiHC-Net). First, it is composed of multiple sub-models with identical multi-scale architecture but with distinct sub-layers, such as up-sampling and normalisation layers. Second, with mutual consistency, a novel consistency regularisation is enforced between one model's intermediate and final prediction and soft pseudo labels from other models in a diagonal hierarchical fashion. A series of experiments verifies the efficacy of our simple framework, outperforming all previous approaches on public Left Atrium (LA) dataset.
翻訳日:2023-11-28 02:25:48 公開日:2023-11-24
# 量子光顕微鏡

Quantum light microscopy ( http://arxiv.org/abs/2311.05807v2 )

ライセンス: Link先を確認
W. P. Bowen, Helen M. Chrzanowski, Dan Oron, Sven Ramelow, Dmitry Tabakaev, Alex Terrasson and Rob Thew(参考訳) 微生物の理解の進歩の多くは、顕微鏡の進歩に支えられている。 例えば、超高分解能顕微鏡は生体構造を原子規模に近い解像度で観察できるのに対し、多光子顕微鏡は組織の奥深くをイメージングできる。 しかし、生体構造や力学は既存の顕微鏡には及ばないことが多く、信号対雑音、分解能、そしてそれらにアクセスするのに必要な速度がさらに進歩している。 多くの場合、顕微鏡の性能は、光子への光の量子化によるノイズや、多光子散乱の低断面積の多光子顕微鏡などの量子効果によって制限されている。 これらの制限は、絡み合いのような量子力学の特徴を活用することで克服できる。 量子効果はまた、新しい超解像技術や波長に達するのが困難な新しい技術など、顕微鏡の性能を向上させる新しい方法を提供することができる。 このレビューは、最近の実験的進歩を含む、量子技術が顕微鏡を改善できる様々な方法の概要を提供する。 それは、何が可能か、どんな制約と機会があるのか、現実的なイメージを提供しようとしている。

Much of our progress in understanding microscale biology has been powered by advances in microscopy. For instance, super-resolution microscopes allow the observation of biological structures at near-atomic-scale resolution, while multi-photon microscopes allow imaging deep into tissue. However, biological structures and dynamics still often remain out of reach of existing microscopes, with further advances in signal-to-noise, resolution and speed needed to access them. In many cases, the performance of microscopes is now limited by quantum effects -- such as noise due to the quantisation of light into photons or, for multi-photon microscopes, the low cross-section of multi-photon scattering. These limitations can be overcome by exploiting features of quantum mechanics such as entanglement. Quantum effects can also provide new ways to enhance the performance of microscopes, such as new super-resolution techniques and new techniques to image at difficult to reach wavelengths. This review provides an overview of these various ways in which quantum techniques can improve microscopy, including recent experimental progress. It seeks to provide a realistic picture of what is possible, and what the constraints and opportunities are.
翻訳日:2023-11-28 02:25:05 公開日:2023-11-24
# 異方性を考慮した共通乱数生成の通信複雑性

Communication Complexity of Common Randomness Generation with Isotropic States ( http://arxiv.org/abs/2311.04723v3 )

ライセンス: Link先を確認
Yangjing Dong, Penghui Yao(参考訳) 本稿では,Alice と Bob 間の通信が最小限に抑えられた,ノイズの多い EPR ペアや量子等方性状態の無制限供給を用いて,min-entropy k で共通乱弦を生成する問題に対処する。 この論文は、一方向古典通信と一方向量子通信の2つの通信モデルを検討し、両モデルの最適共通ランダム性率の上界を導出する。 古典的通信の場合、量子等方性状態はノイズの多い古典的相関[gr16]に勝らないことを示す。 量子通信の場合、量子等方性状態の超高密度符号化を用いて、共通乱数率を増大させることができることを示す。 また,一方向量子通信によって実現可能な最適共通乱数率の上界を証明した。 その結果,ノイズエンタングルメント[hhh+01]を補助する無ノイズ量子チャネルの古典的容量の上界が得られる。

This paper addresses the problem of generating a common random string with min-entropy k using an unlimited supply of noisy EPR pairs or quantum isotropic states, with minimal communication between Alice and Bob. The paper considers two communication models -- one-way classical communication and one-way quantum communication, and derives upper bounds on the optimal common randomness rate for both models. We show that in the case of classical communication, quantum isotropic states have no advantage over noisy classical correlation[GR16]. In the case of quantum communication, we demonstrate that the common randomness rate can be increased by using superdense coding on quantum isotropic states. We also prove an upper bound on the optimal common randomness rate achievable by using one-way quantum communication. As an application, our result yields upper bounds on the classical capacity of the noiseless quantum channel assisted by noisy entanglement[HHH+01].
翻訳日:2023-11-28 02:22:59 公開日:2023-11-24
# FIKIT:カーネル同定による優先度に基づくリアルタイムGPUマルチタスクスケジューリング

FIKIT: Priority-Based Real-time GPU Multi-tasking Scheduling with Kernel Identification ( http://arxiv.org/abs/2311.10359v2 )

ライセンス: Link先を確認
Wenqing Wu(参考訳) 機械学習トレーニングや推論、一般的なHPCタスクといった高度な並列処理は、GPUデバイスを使用して大幅に高速化される。 クラウドコンピューティングクラスタでは、マルチタスク共有を通じてgpuの計算能力を提供するには、利用可能なgpuの数よりもタスク要求が常に多いため、非常に要求される。 既存のGPU共有ソリューションでは、単一のGPUで競合する複数のジョブのタスクレベルの待ち時間やタスクレベルの切り替えコストの削減に重点を置いている。 非停止計算要求は、異なる優先順位を持ち、gpuデバイスを共有するためにqosに非対称な影響を与える。 既存の作業はこの設定によってもたらされたカーネルレベルの最適化の機会を逃した。 そこで本研究では, FIKIT: Filling Inter-kernel Idle Timeというカーネルレベルのスケジューリング手法を提案する。 FIKITはタスクレベルの優先度情報、きめ細かいカーネル識別、カーネル計測を組み込んでおり、優先度の高いタスクのカーネル間アイドル時間内での優先度の低いタスクの実行を可能にする。 これにより、GPUのデバイスランタイムを完全に満たし、クラウドサービスに対する全体的なGPU共有の影響を低減することができる。 一連のMLモデル全体で、FIKITベースの推論システムは、GPU共有モードのJCTに比べて優先度の高いタスクを1.33倍から14.87倍に加速し、ケースの半数以上が3.5倍以上加速した。 あるいは、プリエンプティブ共有の下では、低優先度タスクはデフォルトのGPU共有モード JCTと同等で、0.84から1倍である。 さらにカーネル計測と実行時の細粒度カーネルスケジューリングのオーバーヘッドを10%未満に制限した。

Highly parallelized workloads like machine learning training, inferences and general HPC tasks are greatly accelerated using GPU devices. In a cloud computing cluster, serving a GPU's computation power through multi-tasks sharing is highly demanded since there are always more task requests than the number of GPU available. Existing GPU sharing solutions focus on reducing task-level waiting time or task-level switching costs when multiple jobs competing for a single GPU. Non-stopped computation requests come with different priorities, having non-symmetric impact on QoS for sharing a GPU device. Existing work missed the kernel-level optimization opportunity brought by this setting. To address this problem, we present a novel kernel-level scheduling strategy called FIKIT: Filling Inter-kernel Idle Time. FIKIT incorporates task-level priority information, fine-grained kernel identification, and kernel measurement, allowing low priorities task's execution during high priority task's inter-kernel idle time. Thereby, filling the GPU's device runtime fully, and reduce overall GPU sharing impact to cloud services. Across a set of ML models, the FIKIT based inference system accelerated high priority tasks by 1.33 to 14.87 times compared to the JCT in GPU sharing mode, and more than half of the cases are accelerated by more than 3.5 times. Alternatively, under preemptive sharing, the low-priority tasks have a comparable to default GPU sharing mode JCT, with a 0.84 to 1 times ratio. We further limit the kernel measurement and runtime fine-grained kernel scheduling overhead to less than 10%.
翻訳日:2023-11-28 02:14:11 公開日:2023-11-24
# バックドアアクティベーションアタック:安全調整のためのアクティベーションステアリングを用いた大型言語モデルへの攻撃

Backdoor Activation Attack: Attack Large Language Models using Activation Steering for Safety-Alignment ( http://arxiv.org/abs/2311.09433v2 )

ライセンス: Link先を確認
Haoran Wang, Kai Shu(参考訳) AIの安全性を確保するため、命令調整型大規模言語モデル(LLM)は、人間の意図に応じてモデルを動作させるためのアライメントを確保するために特別に訓練されている。 これらのモデルは様々な安全基準で見事な結果を示しているが、安全性アライメントの脆弱性は広く研究されていない。 LLMがもたらす潜在的な害を考えると、これは特に厄介である。 LLMの既存の攻撃方法は、しばしば有毒な訓練データや悪意のあるプロンプトの注入に依存する。 これらのアプローチは、攻撃のステルス性と一般化性を損なうため、検出しにくい。 さらに、これらのモデルは実装にかなりの計算資源を必要とすることが多く、現実のアプリケーションでは実用的ではない。 最適化を必要とせず, ベクトルを操り, モデル行動を変化させることの成功に触発され, 活性化ステアリングを用いたLLMの4つの重要な側面 – 真理性, 毒性, バイアス, 有害性 – を, 様々なアタック・セッティング・セットで対象とする実験を行った。 多様な目標アライメントに適用可能な普遍的攻撃戦略を手作業解析によらずに確立するため,コントラスト層探索に基づいて介入層を自動的に選択する。 実験の結果,アクティベーションアタックは極めて効果的であり,攻撃効率のオーバーヘッドがほとんどあるいは全くないことがわかった。 また、このようなアクティベーション攻撃に対する潜在的な対策についても論じる。 私たちのコードとデータはhttps://github.com/wang2226/Backdoor-Activation-Attack Warningで公開されています。

To ensure AI safety, instruction-tuned Large Language Models (LLMs) are specifically trained to ensure alignment, which refers to making models behave in accordance with human intentions. While these models have demonstrated commendable results on various safety benchmarks, the vulnerability of their safety alignment has not been extensively studied. This is particularly troubling given the potential harm that LLMs can inflict. Existing attack methods on LLMs often rely on poisoned training data or the injection of malicious prompts. These approaches compromise the stealthiness and generalizability of the attacks, making them susceptible to detection. Additionally, these models often demand substantial computational resources for implementation, making them less practical for real-world applications. Inspired by recent success in modifying model behavior through steering vectors without the need for optimization, and drawing on its effectiveness in red-teaming LLMs, we conducted experiments employing activation steering to target four key aspects of LLMs: truthfulness, toxicity, bias, and harmfulness - across a varied set of attack settings. To establish a universal attack strategy applicable to diverse target alignments without depending on manual analysis, we automatically select the intervention layer based on contrastive layer search. Our experiment results show that activation attacks are highly effective and add little or no overhead to attack efficiency. Additionally, we discuss potential countermeasures against such activation attacks. Our code and data are available at https://github.com/wang2226/Backdoor-Activation-Attack Warning: this paper contains content that can be offensive or upsetting.
翻訳日:2023-11-28 02:12:48 公開日:2023-11-24
# RBPGAN:ビデオスーパーレゾリューションのためのリカレントバックプロジェクションGAN

RBPGAN: Recurrent Back-Projection GAN for Video Super Resolution ( http://arxiv.org/abs/2311.09178v3 )

ライセンス: Link先を確認
Marwah Sulaiman, Zahraa Shehabeldin, Israa Fahmy, Mohammed Barakat, Mohammed El-Naggar, Dareen Hussein, Moustafa Youssef, Hesham Eraqi(参考訳) 近年,ビデオスーパーレゾリューション (VSR) はコンピュータビジョンの領域において,様々な用途で非常に影響力のある課題となっている。 本稿では,空間的詳細を保ちながら時間的コヒーレントな解を生成するために,vsrのためのバックプロジェクション生成逆ネットワーク(rbpgan)を提案する。 RBPGANは2つの最先端モデルを統合して、生成されたビデオの精度を損なうことなく、両方の世界で最高のものを得る。 モデルのジェネレータはRDPNシステムにインスパイアされ、識別器はTecoGANにインスパイアされている。 また,Ping-Pong損失を利用して時間とともに時間的整合性を高める。 我々のコントリビューションは、異なるデータセットを使用して定性的かつ定量的に示すように、時間的に一貫した詳細の観点から、初期の作業より優れているモデルをもたらす。

Recently, video super resolution (VSR) has become a very impactful task in the area of Computer Vision due to its various applications. In this paper, we propose Recurrent Back-Projection Generative Adversarial Network (RBPGAN) for VSR in an attempt to generate temporally coherent solutions while preserving spatial details. RBPGAN integrates two state-of-the-art models to get the best in both worlds without compromising the accuracy of produced video. The generator of the model is inspired by RBPN system, while the discriminator is inspired by TecoGAN. We also utilize Ping-Pong loss to increase temporal consistency over time. Our contribution together results in a model that outperforms earlier work in terms of temporally consistent details, as we will demonstrate qualitatively and quantitatively using different datasets.
翻訳日:2023-11-28 02:12:15 公開日:2023-11-24
# Smooth Nonconvex関数に対する確率勾配勾配を用いた最適雑音スケジューリングによる帰納的逐次最適化の解析

Using Stochastic Gradient Descent to Smooth Nonconvex Functions: Analysis of Implicit Graduated Optimization with Optimal Noise Scheduling ( http://arxiv.org/abs/2311.08745v2 )

ライセンス: Link先を確認
Naoki Sato and Hideaki Iiduka(参考訳) 漸進最適化手法は非凸関数に対する大域的最適解を求めるヒューリスティック手法であり、いくつかの研究で理論的に解析されている。 本稿では,非凸関数群を新たに定義し,それらの条件について考察し,それらの最適化アルゴリズムの収束解析を行う。 その結果,ミニバッチ確率勾配を持つ確率勾配勾配(SGD)は,学習速度とバッチサイズによって決定される関数の平滑化効果を示すことがわかった。 この発見は、大規模なバッチサイズがシャープなローカルミニマに陥る理由、学習率の低下とバッチサイズの増加が、固定された学習率とバッチサイズよりも優れている理由、最適な学習率スケジューリングがどのようなものであるかに関する理論的洞察を提供する。 我々の知る限りでは、これらの側面に関する理論的説明を提供する最初の論文である。 さらに, 劣化する学習率とバッチサイズを増大させる新たな段階最適化フレームワークを解析し, 理論的結果を支持する画像分類の実験結果について報告する。

The graduated optimization approach is a heuristic method for finding globally optimal solutions for nonconvex functions and has been theoretically analyzed in several studies. This paper defines a new family of nonconvex functions for graduated optimization, discusses their sufficient conditions, and provides a convergence analysis of the graduated optimization algorithm for them. It shows that stochastic gradient descent (SGD) with mini-batch stochastic gradients has the effect of smoothing the function, the degree of which is determined by the learning rate and batch size. This finding provides theoretical insights on why large batch sizes fall into sharp local minima, why decaying learning rates and increasing batch sizes are superior to fixed learning rates and batch sizes, and what the optimal learning rate scheduling is. To the best of our knowledge, this is the first paper to provide a theoretical explanation for these aspects. Moreover, a new graduated optimization framework that uses a decaying learning rate and increasing batch size is analyzed and experimental results of image classification that support our theoretical findings are reported.
翻訳日:2023-11-28 02:12:00 公開日:2023-11-24
# 一般化量子干渉計を用いたバイフォトンの完全キャラクタリゼーション

Full characterization of biphotons with a generalized quantum interferometer ( http://arxiv.org/abs/2311.08164v2 )

ライセンス: Link先を確認
Baihong Li, Changhua Chen, Ruifang Dong, Xiaofei Zhang, Shougang Zhang, Rui-Bo Jin(参考訳) 時間周波数自由度における絡み合った光子(biphotons)は基礎物理学と高度な量子技術の両方において重要な役割を果たす。 それらを完全に特徴付ける方法が、重要な科学的問題になる。 本稿では、干渉計の一方の腕に周波数シフトを導入することで、理論上は1つの干渉計の周波数和と差の両方に関連する2光子の振幅と位相を同時に測定し、2光子の完全なトモグラフィを行う一般化された組み合わせ量子干渉計を提案する。 対照的に、一般化されたHong-Ou-MandelとN00N状態干渉計は双光子の部分トモグラフィーしか許さない。 これは交換対称性を持つ任意の2光子状態のフルキャラクタリゼーションのための代替方法であり、高次元量子情報処理において潜在的に有用である。

Entangled photons (biphotons) in the time-frequency degree of freedom play an important role in both foundational physics and advanced quantum technologies. How to fully characterize them becomes a key scientific issue. Here, by introducing a frequency shift in one arm of the interferometer, we propose theoretically a generalized combination quantum interferometer which allows simultaneous measurement of the amplitude and phase of biphotons associated with both frequency sum and difference in a single interferometer, performing the full tomography of biphotons. By contrast, the generalized Hong-Ou-Mandel and N00N state interferometers only allow for the partial tomography of biphotons. This provides an alternative method for full characterization of an arbitrary two-photon state with exchange symmetry and might be potentially useful in high-dimensional quantum information processing.
翻訳日:2023-11-28 02:11:41 公開日:2023-11-24
# 垂直フェデレート大言語モデルに対する入力再構成攻撃

Input Reconstruction Attack against Vertical Federated Large Language Models ( http://arxiv.org/abs/2311.07585v2 )

ライセンス: Link先を確認
Fei Zheng(参考訳) 近年,ChatGPTの出現により,大規模言語モデル (LLM) が学術や一般の注目を集めている。 LLMは、様々なタスクのためのテキスト生成における驚くべき能力を示しているが、プライバシーに関する懸念は、現実のビジネスでの使用を制限する。 具体的には、ユーザの入力(ユーザがモデルホストサーバにクエリを送信する)またはモデル(ユーザが完全なモデルをダウンロードする)自体が、使用中に明らかにされる。 垂直連合学習(VFL)はこの種の問題に対する有望な解決策である。 モデルの底部と上部に分割することで、ユーザの入力とモデルの知識の両方を保護し、それぞれがユーザとモデルプロバイダによって維持される。 しかし,本稿では,llmsでは,中間組込みから入力を再構成することが簡単で安価であるため,vflではユーザ入力を保護できないことを実証する。 実験の結果、商用GPUでも入力文は1秒で再構築できることがわかった。 また,垂直連合LDMのプライバシーを高めるためのいくつかの解決策についても論じる。

Recently, large language models (LLMs) have drawn extensive attention from academia and the public, due to the advent of the ChatGPT. While LLMs show their astonishing ability in text generation for various tasks, privacy concerns limit their usage in real-life businesses. More specifically, either the user's inputs (the user sends the query to the model-hosting server) or the model (the user downloads the complete model) itself will be revealed during the usage. Vertical federated learning (VFL) is a promising solution to this kind of problem. It protects both the user's input and the knowledge of the model by splitting the model into a bottom part and a top part, which is maintained by the user and the model provider, respectively. However, in this paper, we demonstrate that in LLMs, VFL fails to protect the user input since it is simple and cheap to reconstruct the input from the intermediate embeddings. Experiments show that even with a commercial GPU, the input sentence can be reconstructed in only one second. We also discuss several possible solutions to enhance the privacy of vertical federated LLMs.
翻訳日:2023-11-28 02:11:26 公開日:2023-11-24
# 連続乱数変数の右翼確率に基づく上下境界の新しいタイプ

A New Type Of Upper And Lower Bounds On Right-Tail Probabilities Of Continuous Random Variables ( http://arxiv.org/abs/2311.12612v2 )

ライセンス: Link先を確認
Nikola Zlatanov(参考訳) 本稿では,非有界支持と半有界支持を持つ連続確率変数の右尾確率に対して,左からの半有界支持と全く新しい上下有界分布を示す。 提示される右辺と下辺の境界は、確率密度関数(PDF)、その第一微分、および境界を締め付けるために使用される2つのパラメータにのみ依存する。 これらのテール境界は、PDF、その第1および第2微分、および2つのパラメータに依存する特定の条件の下で保持される。 新しいテール境界は、数値的な例を通して、幅広い連続確率変数に対して厳密であることが示されている。

In this paper, I present a completely new type of upper and lower bounds on the right-tail probabilities of continuous random variables with unbounded support and with semi-bounded support from the left. The presented upper and lower right-tail bounds depend only on the probability density function (PDF), its first derivative, and two parameters that are used for tightening the bounds. These tail bounds hold under certain conditions that depend on the PDF, its first and second derivatives, and the two parameters. The new tail bounds are shown to be tight for a wide range of continuous random variables via numerical examples.
翻訳日:2023-11-28 02:02:38 公開日:2023-11-24
# CASR:Magrinalizing Frame-levle Causal Relationsによるリフィニングアクションセグメンテーション

CASR: Refining Action Segmentation via Magrinalizing Frame-levle Causal Relationships ( http://arxiv.org/abs/2311.12401v2 )

ライセンス: Link先を確認
Keqing Du, Xinyu Yang, Hang Chen(参考訳) 深層学習と因果発見を統合することで、時間行動セグメンテーション(TAS)タスクの解釈可能性が高まった。 しかし、フレームレベルの因果関係はセグメントレベルの外側に多くの複雑なノイズが存在するため、マクロアクションセマンティクスを直接表現することは不可能である。 そこで本研究では,フレームレベルのカジュアルな関係を疎外する際のビデオ因果性を高め,様々なモデルからTAS結果を洗練できるCausal Abstraction Segmentation Refiner (CASR)を提案する。 具体的には、等価なフレームレベルのカジュアルモデルとセグメントレベルの因果モデルを定義し、辺限化されたフレームレベルの因果関係から構築された因果隣接行列は、sgmnetレベルの因果関係を表現する能力を持つ。 CASRは, 後骨モデルと後骨モデルとの因果親和性行列の差を小さくすることで機能する。 また,因果解釈可能性を評価するために,新しい評価基準因果編集距離(ced)を提案する。 主要なデータセットに対する大規模な実験結果から,CASRは動作セグメンテーション性能や因果説明可能性,一般化において,既存の様々な手法を大幅に上回っていることが示唆された。

Integrating deep learning and causal discovery has increased the interpretability of Temporal Action Segmentation (TAS) tasks. However, frame-level causal relationships exist many complicated noises outside the segment-level, making it infeasible to directly express macro action semantics. Thus, we propose Causal Abstraction Segmentation Refiner (CASR), which can refine TAS results from various models by enhancing video causality in marginalizing frame-level casual relationships. Specifically, we define the equivalent frame-level casual model and segment-level causal model, so that the causal adjacency matrix constructed from marginalized frame-level causal relationships has the ability to represent the segmnet-level causal relationships. CASR works out by reducing the difference in the causal adjacency matrix between we constructed and pre-segmentation results of backbone models. In addition, we propose a novel evaluation metric Causal Edit Distance (CED) to evaluate the causal interpretability. Extensive experimental results on mainstream datasets indicate that CASR significantly surpasses existing various methods in action segmentation performance, as well as in causal explainability and generalization.
翻訳日:2023-11-28 02:01:43 公開日:2023-11-24
# ディリクレ過程に基づく無限予測組合せ

Infinite forecast combinations based on Dirichlet process ( http://arxiv.org/abs/2311.12379v2 )

ライセンス: Link先を確認
Yinuo Ren and Feng Li and Yanfei Kang and Jue Wang(参考訳) 予測組み合わせは、ターゲット時系列から複数の予測結果を統合することにより、様々なソースからの情報を統合する。 本稿では,1つの最適予測モデルを選択するのではなく,ディリクレプロセスに基づく深層学習アンサンブル予測モデルを提案する。 当初、学習速度は3つの基底分布をハイパーパラメータとしてサンプリングし、無限混合を有限分布に変換する。 全てのチェックポイントを収集し、深層学習サブモデルプールを構築し、組み合わせプロセス中に重量調整と多様性戦略を開発する。 この方法の主な利点は、1つの訓練プロセスを通じて必要なベース学習者を生成する能力であり、最適な学習率を決定する際に勾配降下の確率的性質によって生じる課題に取り組むために減衰戦略を利用する。 本論文は,本手法の汎用性と競争性を確保するため,M4コンペティションの週毎データセットを用いて実験分析を行い,組み合わせるべきモデル数に対する感度について検討する。 その結果,単一ベンチマークモデルと比較して,アンサンブルモデルでは予測精度と安定性が大幅に向上した。

Forecast combination integrates information from various sources by consolidating multiple forecast results from the target time series. Instead of the need to select a single optimal forecasting model, this paper introduces a deep learning ensemble forecasting model based on the Dirichlet process. Initially, the learning rate is sampled with three basis distributions as hyperparameters to convert the infinite mixture into a finite one. All checkpoints are collected to establish a deep learning sub-model pool, and weight adjustment and diversity strategies are developed during the combination process. The main advantage of this method is its ability to generate the required base learners through a single training process, utilizing the decaying strategy to tackle the challenge posed by the stochastic nature of gradient descent in determining the optimal learning rate. To ensure the method's generalizability and competitiveness, this paper conducts an empirical analysis using the weekly dataset from the M4 competition and explores sensitivity to the number of models to be combined. The results demonstrate that the ensemble model proposed offers substantial improvements in prediction accuracy and stability compared to a single benchmark model.
翻訳日:2023-11-28 02:01:18 公開日:2023-11-24
# BrainWash: 継続的な学習で忘れられるような攻撃

BrainWash: A Poisoning Attack to Forget in Continual Learning ( http://arxiv.org/abs/2311.11995v3 )

ライセンス: Link先を確認
Ali Abbasi, Parsa Nooralinejad, Hamed Pirsiavash, Soheil Kolouri(参考訳) 継続的学習はディープラーニングコミュニティで大きな注目を集め、シーケンシャル学習の難しい問題に対する有望な解決策を提供している。 しかし、このパラダイムのほとんど未熟な側面は、特に忘れることを誘発する目的で、敵対的な攻撃に対する感受性である。 本稿では,連続学習者に忘れを強いるように設計された新しいデータ中毒手法である"BrainWash"を紹介する。 様々なベースラインに洗脳ノイズを付加することにより、訓練された連続学習者が、これらの連続学習ベースラインを使用しても、過去の学習タスクを破滅的に忘れるように誘導できることを実証する。 このアプローチの重要な特徴は、攻撃者が以前のタスクのデータにアクセスする必要がなく、モデルの現在のパラメータと最新のタスクに属するデータだけで武装していることです。 本研究は,各種正規化型連続学習法におけるブレインウォッシュの有効性を強調する実験である。

Continual learning has gained substantial attention within the deep learning community, offering promising solutions to the challenging problem of sequential learning. Yet, a largely unexplored facet of this paradigm is its susceptibility to adversarial attacks, especially with the aim of inducing forgetting. In this paper, we introduce "BrainWash," a novel data poisoning method tailored to impose forgetting on a continual learner. By adding the BrainWash noise to a variety of baselines, we demonstrate how a trained continual learner can be induced to forget its previously learned tasks catastrophically, even when using these continual learning baselines. An important feature of our approach is that the attacker requires no access to previous tasks' data and is armed merely with the model's current parameters and the data belonging to the most recent task. Our extensive experiments highlight the efficacy of BrainWash, showcasing degradation in performance across various regularization-based continual learning methods.
翻訳日:2023-11-28 02:00:24 公開日:2023-11-24
# テンソルネットワークアルゴリズムの安定かつ効率的な微分

Stable and efficient differentiation of tensor network algorithms ( http://arxiv.org/abs/2311.11894v3 )

ライセンス: Link先を確認
Anna Francuz, Norbert Schuch, Bram Vanhecke(参考訳) 勾配に基づく最適化法は、射影絡み合ったペア状態を持つ2次元の強い絡み合った量子システムを研究するための確立された最先端パラダイムである。 しかし,角移動行列(CTM)に基づくアプローチでは,重要な成分である勾配そのものが正確かつ確実に計算することが困難であることが証明されている。 勾配を計算する最もよく知られたツールである自動微分(AD)は、依然としていくつかの重大な欠点を被っている。 これらのいくつかは、過剰なメモリ使用の問題や、特異値分解(SVD)を微分する際に生じる発散など、知られている。 また,現在使用されているSVDのバックプロパゲーションには,これまで注目されていなかった根本的な不正確性があることが判明した。 本稿では,これらの問題をすべて説明し,コンパクトで実装が容易なソリューションを提供する。 これらの変更の影響を分析して、最後の問題(正しい勾配の使用)が圧倒的に支配的な問題であることに気付きました。

Gradient based optimization methods are the established state-of-the-art paradigm to study strongly entangled quantum systems in two dimensions with Projected Entangled Pair States. However, the key ingredient, the gradient itself, has proven challenging to calculate accurately and reliably in the case of a corner transfer matrix (CTM)-based approach. Automatic differentiation (AD), which is the best known tool for calculating the gradient, still suffers some crucial shortcomings. Some of these are known, like the problem of excessive memory usage and the divergences which may arise when differentiating a singular value decomposition (SVD). Importantly, we also find that there is a fundamental inaccuracy in the currently used backpropagation of SVD that had not been noted before. In this paper, we describe all these problems and provide them with compact and easy to implement solutions. We analyse the impact of these changes and find that the last problem -- the use of the correct gradient -- is by far the dominant one and thus should be considered a crucial patch to any AD application that makes use of an SVD for truncation.
翻訳日:2023-11-28 01:59:50 公開日:2023-11-24
# ソフトランダムサンプリング:理論的および経験的分析

Soft Random Sampling: A Theoretical and Empirical Analysis ( http://arxiv.org/abs/2311.12727v2 )

ライセンス: Link先を確認
Xiaodong Cui, Ashish Mittal, Songtao Lu, Wei Zhang, George Saon, Brian Kingsbury(参考訳) ソフトランダムサンプリング(Soft random sample, SRS)は、大規模深層ニューラルネットワークの大規模データ処理において、効率的かつ効果的なトレーニング手法である。 SRSは、各エポックにおける全データセットから、ランダムに置換されたサブセットを選択する。 本稿では,SRSの理論的,実証的な分析を行う。 まず,データカバレッジや占有率を含むサンプリングダイナミクスを分析する。 次に,非凸目的関数との収束を調べ,収束率を与える。 最後に、一般化性能を提供する。 CIFAR10における画像認識のためのSRSと、Librispeechにおける音声認識と、その有効性を示すための社内ペイロードデータセットを実験的に評価した。 既存のコアセットベースのデータ選択方法と比較して、SRSは精度と効率のトレードオフが優れている。 特に実世界の産業規模のデータセットでは、大きなスピードアップと競争性能を持つ強力なトレーニング戦略であり、追加の計算コストがほとんどないことが示されている。

Soft random sampling (SRS) is a simple yet effective approach for efficient training of large-scale deep neural networks when dealing with massive data. SRS selects a subset uniformly at random with replacement from the full data set in each epoch. In this paper, we conduct a theoretical and empirical analysis of SRS. First, we analyze its sampling dynamics including data coverage and occupancy. Next, we investigate its convergence with non-convex objective functions and give the convergence rate. Finally, we provide its generalization performance. We empirically evaluate SRS for image recognition on CIFAR10 and automatic speech recognition on Librispeech and an in-house payload dataset to demonstrate its effectiveness. Compared to existing coreset-based data selection methods, SRS offers a better accuracy-efficiency trade-off. Especially on real-world industrial scale data sets, it is shown to be a powerful training strategy with significant speedup and competitive performance with almost no additional computing cost.
翻訳日:2023-11-28 01:45:53 公開日:2023-11-24
# 薬物補充アプローチのより帰納的世界に向けて

Towards a more inductive world for drug repurposing approaches ( http://arxiv.org/abs/2311.12670v2 )

ライセンス: Link先を確認
Jesus de la Fuente, Guillermo Serrano, Ux\'ia Veleiro, Mikel Casals, Laura Vera, Marija Pizurica, Antonio Pineda-Lucena, Idoia Ochoa, Silve Vicent, Olivier Gevaert, and Mikel Hernaez(参考訳) ドラッグ・ターゲット・インタラクション(DTI)の予測は、薬物再資源化において重要な課題である。 グラフモデルによる学習は、薬物再資源化コストと時間的コミットメントを大幅に削減できるため、特に注目されている。 しかし、現在の多くのアプローチでは、評価プロセスとユーザビリティを複雑にするDTI以外に、要求の高い追加情報が必要である。 さらに、現在のモデルの学習アーキテクチャにおける構造的な違いは、公正なベンチマークを妨げる。 本研究では、まず、ロバストなベンチマークプロセスを通じて、現在のDTIデータセットと予測モデルの詳細な評価を行い、トランスダクティブモデルに基づくDTI予測手法には一般化が欠如しており、文献で以前評価されたように、拡張性能が向上していることを示す。 次に, 負のエッジサブサンプリングのための新しい生物駆動戦略を提案し, 新たに発見された相互作用が真であることをin vitroで検証する。 我々は、将来の公正なベンチマークと堅牢なモデル設計の基盤として、この研究を期待する。 生成されたリソースとツールはpythonパッケージとして公開されている。

Drug-target interaction (DTI) prediction is a challenging, albeit essential task in drug repurposing. Learning on graph models have drawn special attention as they can significantly reduce drug repurposing costs and time commitment. However, many current approaches require high-demanding additional information besides DTIs that complicates their evaluation process and usability. Additionally, structural differences in the learning architecture of current models hinder their fair benchmarking. In this work, we first perform an in-depth evaluation of current DTI datasets and prediction models through a robust benchmarking process, and show that DTI prediction methods based on transductive models lack generalization and lead to inflated performance when evaluated as previously done in the literature, hence not being suited for drug repurposing approaches. We then propose a novel biologically-driven strategy for negative edge subsampling and show through in vitro validation that newly discovered interactions are indeed true. We envision this work as the underpinning for future fair benchmarking and robust model design. All generated resources and tools are publicly available as a python package.
翻訳日:2023-11-28 01:45:18 公開日:2023-11-24
# RSB-Pose:オクルージョンハンドリングによるロバスト短基線両眼3次元人物位置推定

RSB-Pose: Robust Short-Baseline Binocular 3D Human Pose Estimation with Occlusion Handling ( http://arxiv.org/abs/2311.14242v1 )

ライセンス: Link先を確認
Xiaoyue Wan, Zhuo Chen, Yiming Bao, Xu Zhao(参考訳) 日常的な応用が広く見られる3Dヒューマンポース推定の領域では、便利な取得機器の要求が増加し続けている。 この要求を満たすため、我々は、ポータビリティと、奥行きのあいまいさを根本的に緩和する幾何的測定特性の両方を提供する短基線双眼設定に目を向けた。 しかし, 2次元誤差に対する3次元再構成のロバスト性が低下し, 2次元視差が限定されたため咬合が再発生するという2つの深刻な課題が生じた。 第1の課題に対処するために,2次元キーポイントのビュー一貫性を改善し,3次元ロバスト性を高めるために,ステレオコキーポイント推定モジュールを提案する。 本モジュールでは、両眼2d点の対応を表すために不一致を利用し、異なる異点間の双眼特徴を含むステレオボリューム特徴を導入する。 SVFの回帰により、2次元キーポイントを協調的に推定し、ビューの一貫性を制限する。 さらに、咬合に対処するために、予め訓練されたポーズトランスフォーマーモジュールを導入する。 このモジュールを通して、3dポーズは、結合相関の表現であるポーズコヒーレンスを知覚することによって洗練される。 この知覚はPose Transformerネットワークによって注入され、反復的なマスク関節を回復するトレーニング前タスクを通じて学習される。 H36MとMHADデータセットを用いた総合的な実験を行い、可視化を行い、短基線双眼3D人物姿勢推定と閉塞処理におけるアプローチの有効性を検証した。

In the domain of 3D Human Pose Estimation, which finds widespread daily applications, the requirement for convenient acquisition equipment continues to grow. To satisfy this demand, we set our sights on a short-baseline binocular setting that offers both portability and a geometric measurement property that radically mitigates depth ambiguity. However, as the binocular baseline shortens, two serious challenges emerge: first, the robustness of 3D reconstruction against 2D errors deteriorates; and second, occlusion reoccurs due to the limited visual differences between two views. To address the first challenge, we propose the Stereo Co-Keypoints Estimation module to improve the view consistency of 2D keypoints and enhance the 3D robustness. In this module, the disparity is utilized to represent the correspondence of binocular 2D points and the Stereo Volume Feature is introduced to contain binocular features across different disparities. Through the regression of SVF, two-view 2D keypoints are simultaneously estimated in a collaborative way which restricts their view consistency. Furthermore, to deal with occlusions, a Pre-trained Pose Transformer module is introduced. Through this module, 3D poses are refined by perceiving pose coherence, a representation of joint correlations. This perception is injected by the Pose Transformer network and learned through a pre-training task that recovers iterative masked joints. Comprehensive experiments carried out on H36M and MHAD datasets, complemented by visualizations, validate the effectiveness of our approach in the short-baseline binocular 3D Human Pose Estimation and occlusion handling.
翻訳日:2023-11-27 16:18:23 公開日:2023-11-24
# 教育アシスタントの軍隊をどう管理するか--cs1コースのスケールに関する経験報告

How We Manage an Army of Teaching Assistants: Experience Report on Scaling a CS1 Course ( http://arxiv.org/abs/2311.14241v1 )

ライセンス: Link先を確認
Ildar Akhmetov, Sadaf Ahmed, Kezziah Ayuno(参考訳) 入学者数の増加は、情報共有の断片化、非効率な会議、教育助手の大規模なチーム間でのコース活動の理解不足など、コース管理において大きな課題となっている。 これらの課題に対処するため、私たちはコースを再構築し、経営の成功と教育実践からインスピレーションを得ました。 私たちはチームのための組織的な3層構造を開発しました。 また、コミュニケーション、コンテンツ、"失われた学生"サポート、盗作、スケジューリングという、特定の責任領域に焦点を当てた5つの機能チームも立ち上げました。 さらに,ソフトウェア産業で使用されているのと同様のモデルに従って,学部生のTA採用方法を改訂し,従来のトレーニングの代わりにリードTAを指導することを決定した。 本経験報告では,我々の経験,学んだ教訓,今後の拡張計画について詳述した。 我々は,大規模コースハンドリングにマネジメント技術を使うことの重要性を強調し,これらの戦略の実行を改善するために協力を呼びかけ,他の機関にこのアプローチを検討し,適応させ,特定のニーズに合わせるように促す。

A considerable increase in enrollment numbers poses major challenges in course management, such as fragmented information sharing, inefficient meetings, and poor understanding of course activities among a large team of teaching assistants. To address these challenges, we restructured the course, drawing inspiration from successful management and educational practices. We developed an organized, three-tier structure for teams, each led by an experienced Lead TA. We also formed five functional teams, each focusing on a specific area of responsibility: communication, content, "lost student" support, plagiarism, and scheduling. In addition, we updated our recruitment method for undergraduate TAs, following a model similar to the one used in the software industry, while also deciding to mentor Lead TAs in place of traditional training. Our experiences, lessons learned, and future plans for enhancement have been detailed in this experience report. We emphasize the value of using management techniques in dealing with large-scale course handling and invite cooperation to improve the implementation of these strategies, inviting other institutions to consider and adapt this approach, tailoring it to their specific needs.
翻訳日:2023-11-27 16:17:36 公開日:2023-11-24
# teacher-student framework を用いたインスタンス依存ノイズの擬似ラベル補正

Pseudo-label Correction for Instance-dependent Noise Using Teacher-student Framework ( http://arxiv.org/abs/2311.14237v1 )

ライセンス: Link先を確認
Eugene Kim(参考訳) 複雑なパターンを学ぶためのディープラーニングモデルのキャパシティは、ラベルノイズに直面すると大きな課題となる。 クリーンでノイズの多いラベルを区別できないため、最終的に一般化が不十分になる。 P-LC (pseudo-label correct) と呼ばれる新しい教師支援型フレームワークを用いて,各画像のラベルを再割り当てすることで,この問題に対処する。 伝統的な教師ネットワークは知識蒸留のための教師と学生の分類器で構成されている。 提案手法では,教師ネットワークを三重エンコーダに再構成し,三重項損失を利用して擬似ラベル補正システムを構築する。 学生が与えられた画像の集合に対して擬似ラベルを生成すると、教師は最初に割り当てられたラベルと擬似ラベルのどちらを選択するかを学ぶ。 MNIST、Fashion-MNIST、SVHNの実験では、P-LCは全てのノイズレベルにおいて既存の最先端手法よりも優れた性能を示している。 さらに,モデルの性能評価を支援するノイズレベル推定手法を導入し,付加的なデータクリーニング手順の必要性を通知する。

The high capacity of deep learning models to learn complex patterns poses a significant challenge when confronted with label noise. The inability to differentiate clean and noisy labels ultimately results in poor generalization. We approach this problem by reassigning the label for each image using a new teacher-student based framework termed P-LC (pseudo-label correction). Traditional teacher-student networks are composed of teacher and student classifiers for knowledge distillation. In our novel approach, we reconfigure the teacher network into a triple encoder, leveraging the triplet loss to establish a pseudo-label correction system. As the student generates pseudo labels for a set of given images, the teacher learns to choose between the initially assigned labels and the pseudo labels. Experiments on MNIST, Fashion-MNIST, and SVHN demonstrate P-LC's superior performance over existing state-of-the-art methods across all noise levels, most notably in high noise. In addition, we introduce a noise level estimation to help assess model performance and inform the need for additional data cleaning procedures.
翻訳日:2023-11-27 16:17:00 公開日:2023-11-24
# 条件付き画像-映像生成のためのコンテンツと動作の分離

Decouple Content and Motion for Conditional Image-to-Video Generation ( http://arxiv.org/abs/2311.14294v1 )

ライセンス: Link先を確認
Cuifeng Shen, Yulu Gan, Chen Chen, Xiongwei Zhu, Lele Cheng, Jinzhi Wang(参考訳) conditional image-to-video(ci2v)生成の目標は,従来のci2v生成手法が従来rgbピクセル空間で実行されていた条件,すなわち1つの画像とテキストから始めて,新たなビデオを作成することにある。 本稿では,対象のrgb画素を空間的内容と時間的動きという2つの異なる要素に分離することで,これらの課題に対処する新しい手法を提案する。 具体的には,3次元UNet拡散モデルに基づいて,動きベクトルと残差を含む時間運動を予測する。 時間的動きを明示的にモデル化し、開始画像に重ね合わせることにより、生成されたビデオの時間的一貫性を向上させる。 これにより空間的冗長性が減少し、時間的詳細が強調される。 提案手法は, モデルに新たな構造的複雑さを導入することなく, コンテンツと動きを分離することで, 性能改善を実現する。 様々なデータセットに関する広範囲な実験により,本手法は実効性と効率性の両方において,最先端手法の大部分よりも優れた性能を示す。

The goal of conditional image-to-video (cI2V) generation is to create a believable new video by beginning with the condition, i.e., one image and text.The previous cI2V generation methods conventionally perform in RGB pixel space, with limitations in modeling motion consistency and visual continuity. Additionally, the efficiency of generating videos in pixel space is quite low.In this paper, we propose a novel approach to address these challenges by disentangling the target RGB pixels into two distinct components: spatial content and temporal motions. Specifically, we predict temporal motions which include motion vector and residual based on a 3D-UNet diffusion model. By explicitly modeling temporal motions and warping them to the starting image, we improve the temporal consistency of generated videos. This results in a reduction of spatial redundancy, emphasizing temporal details. Our proposed method achieves performance improvements by disentangling content and motion, all without introducing new structural complexities to the model. Extensive experiments on various datasets confirm our approach's superior performance over the majority of state-of-the-art methods in both effectiveness and efficiency.
翻訳日:2023-11-27 16:05:04 公開日:2023-11-24
# 情報富化拡散モデルを用いたパラグラフ画像生成

Paragraph-to-Image Generation with Information-Enriched Diffusion Model ( http://arxiv.org/abs/2311.14284v1 )

ライセンス: Link先を確認
Weijia Wu, Zhuang Li, Yefei He, Mike Zheng Shou, Chunhua Shen, Lele Cheng, Yan Li, Tingting Gao, Di Zhang, Zhongyuan Wang(参考訳) text-to-image (t2i)モデルは最近急速に発展し、忠実性とテキストアライメント能力の観点から驚くべきパフォーマンスを達成している。 しかし、長い段落(最大512語)を考えると、これらの世代のモデルは強固なアライメントを達成するのに苦労し、複雑なシーンを描いた画像を生成することができない。 本稿では,大規模言語モデルの広範な意味理解能力から画像生成タスクへ移行するパラディフフュージョン(paradiffusion)と呼ばれる,パラディフフュージョンタスクのための情報エンリッチ拡散モデルを提案する。 コアとなるのは大きな言語モデル(例えばLlama V2)を使って長文をエンコードし、次にLORAを使ってテキストイメージの特徴空間を生成タスクで調整する。 長文セマンティックアライメントのトレーニングを容易にするため,パライメージという高品質なパライメージペアデータセットをキュレートした。 このデータセットは、少量の高品質で微妙な注釈付きデータと、視覚言語モデルを用いて長いテキスト記述が生成される大規模な合成データセットを含む。 実験により、paradiffusionはvlg-300とparapromptsの最先端モデル(sd xl、deepfloyd if)よりも優れており、それぞれ15パーセントと45%の投票率改善を達成している。 コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。

Text-to-image (T2I) models have recently experienced rapid development, achieving astonishing performance in terms of fidelity and textual alignment capabilities. However, given a long paragraph (up to 512 words), these generation models still struggle to achieve strong alignment and are unable to generate images depicting complex scenes. In this paper, we introduce an information-enriched diffusion model for paragraph-to-image generation task, termed ParaDiffusion, which delves into the transference of the extensive semantic comprehension capabilities of large language models to the task of image generation. At its core is using a large language model (e.g., Llama V2) to encode long-form text, followed by fine-tuning with LORA to alignthe text-image feature spaces in the generation task. To facilitate the training of long-text semantic alignment, we also curated a high-quality paragraph-image pair dataset, namely ParaImage. This dataset contains a small amount of high-quality, meticulously annotated data, and a large-scale synthetic dataset with long text descriptions being generated using a vision-language model. Experiments demonstrate that ParaDiffusion outperforms state-of-the-art models (SD XL, DeepFloyd IF) on ViLG-300 and ParaPrompts, achieving up to 15% and 45% human voting rate improvements for visual appeal and text faithfulness, respectively. The code and dataset will be released to foster community research on long-text alignment.
翻訳日:2023-11-27 16:04:44 公開日:2023-11-24
# テキストプロンプト拡散による画像超解像

Image Super-Resolution with Text Prompt Diffusion ( http://arxiv.org/abs/2311.14282v1 )

ライセンス: Link先を確認
Zheng Chen, Yulun Zhang, Jinjin Gu, Xin Yuan, Linghe Kong, Guihai Chen, Xiaokang Yang(参考訳) 画像スーパーレゾリューション(sr)法は通常、複雑で未知の劣化シナリオにおける再構成精度を向上させるために劣化をモデル化する。 しかし、低解像度画像から劣化情報を抽出することは困難であり、モデルの性能が制限される。 イメージsrのパフォーマンスを高めるためには、追加の事前設定を導入する方法がある。 マルチモーダル手法とテキストプロンプト画像処理の進歩に触発されて、画像SRにテキストプロンプトを導入し、劣化の先行情報を提供する。 具体的には,テキスト分解表現と分解モデルを通じてsrデータセットにテキストを統合するテキスト画像生成パイプラインをまず設計する。 テキスト表現は、その分解を抽象的に記述するビンニング法に基づく離散化方式を適用する。 この表現方法は言語の柔軟性も維持できる。 一方,テキストプロンプトSRを実現するために,PromptSRを提案する。 プロンプトsrは拡散モデルと事前学習された言語モデル(例えばt5とクリップ)を用いる。 生成されたテキストイメージデータセットでモデルをトレーニングします。 画像SRにテキストプロンプトを導入すると、合成画像と実世界の画像の両方に優れた結果が得られることを示す。 コード:https://github.com/zhengchen 1999/PromptSR。

Image super-resolution (SR) methods typically model degradation to improve reconstruction accuracy in complex and unknown degradation scenarios. However, extracting degradation information from low-resolution images is challenging, which limits the model performance. To boost image SR performance, one feasible approach is to introduce additional priors. Inspired by advancements in multi-modal methods and text prompt image processing, we introduce text prompts to image SR to provide degradation priors. Specifically, we first design a text-image generation pipeline to integrate text into SR dataset through the text degradation representation and degradation model. The text representation applies a discretization manner based on the binning method to describe the degradation abstractly. This representation method can also maintain the flexibility of language. Meanwhile, we propose the PromptSR to realize the text prompt SR. The PromptSR employs the diffusion model and the pre-trained language model (e.g., T5 and CLIP). We train the model on the generated text-image dataset. Extensive experiments indicate that introducing text prompts into image SR, yields excellent results on both synthetic and real-world images. Code: https://github.com/zhengchen1999/PromptSR.
翻訳日:2023-11-27 16:04:09 公開日:2023-11-24
# クロスドメイン動作認識のためのマルチモーダルインスタンスの改良

Multi-modal Instance Refinement for Cross-domain Action Recognition ( http://arxiv.org/abs/2311.14281v1 )

ライセンス: Link先を確認
Yuan Qing, Naixing Wu, Shaohua Wan, Lixin Duan(参考訳) unsupervised cross-domain action recognitionは、既存のラベル付きソースドメインでトレーニングされたモデルを、新しいラベルなしターゲットドメインに適応させることを目的としている。 既存のほとんどのメソッドは、ソースとターゲットドメインの特徴分布を直接調整することで、タスクを解決する。 しかし、これは両方のドメインの負のトレーニングサンプルによって、ドメイン適応中に負の転送を引き起こす。 ソースドメインでは、いくつかのトレーニングサンプルは、視点やアクションスタイルなどの違いにより、ターゲットドメインと低い関係にある。 ターゲットドメインには、ソースドメインの場合、容易に別のタイプのアクションとして分類できる曖昧なトレーニングサンプルがいくつかあります。 負の転送の問題はクロスドメインオブジェクト検出で検討されているが、クロスドメインアクション認識では未検討のままである。 そこで本研究では,強化学習に基づく負の伝達を緩和するマルチモーダル・インスタンス・リファインメント(mmir)手法を提案する。 具体的には、各ドメインから負のサンプルを選択して訓練データを洗練するために、各モダリティごとに強化学習エージェントを両ドメインで訓練する。 提案手法は,ベンチマークEPIC-Kitchensデータセット上でのクロスドメイン動作認識において,他の最先端のベースラインよりも優れており,これは負の転送を減らすためのMMIRの利点を示している。

Unsupervised cross-domain action recognition aims at adapting the model trained on an existing labeled source domain to a new unlabeled target domain. Most existing methods solve the task by directly aligning the feature distributions of source and target domains. However, this would cause negative transfer during domain adaptation due to some negative training samples in both domains. In the source domain, some training samples are of low-relevance to target domain due to the difference in viewpoints, action styles, etc. In the target domain, there are some ambiguous training samples that can be easily classified as another type of action under the case of source domain. The problem of negative transfer has been explored in cross-domain object detection, while it remains under-explored in cross-domain action recognition. Therefore, we propose a Multi-modal Instance Refinement (MMIR) method to alleviate the negative transfer based on reinforcement learning. Specifically, a reinforcement learning agent is trained in both domains for every modality to refine the training data by selecting out negative samples from each domain. Our method finally outperforms several other state-of-the-art baselines in cross-domain action recognition on the benchmark EPIC-Kitchens dataset, which demonstrates the advantage of MMIR in reducing negative transfer.
翻訳日:2023-11-27 16:03:51 公開日:2023-11-24
# スペクトル画像再構成のための拡張深部展開前の潜時拡散

Latent Diffusion Prior Enhanced Deep Unfolding for Spectral Image Reconstruction ( http://arxiv.org/abs/2311.14280v1 )

ライセンス: Link先を確認
Zongliang Wu, Ruiying Lu, Ying Fu and Xin Yuan(参考訳) スナップショット圧縮分光画像再構成は、単発2次元圧縮計測から3次元空間スペクトル像を再構成することを目的としている。 既存の最先端の手法は、主に深い展開構造に基づいているが、固有の性能ボトルネックがある:$i$) 過度に劣化した測定を扱う不適切な問題、そして$ii$) 回帰損失に基づく再構成モデルは、ほとんど詳細を持って画像を復元する傾向にある。 本稿では,遅延拡散モデル(LDM)と呼ばれる生成モデルを導入し,回帰に基づく深部展開法を強化する前に劣化のないモデルを生成する。 さらに, LDMにおける大規模計算コストの課題を克服するために, 深層展開デノイザにおける知識事前生成のための軽量モデルを提案し, それらの先行処理を統合し, 高品質なスペクトル信号の詳細を補償する再構成プロセスを導出する。 合成データと実世界のデータセットの数値的および視覚的比較は,提案手法の再構成品質と計算効率の両方において優れていることを示す。 コードはリリースされる。

Snapshot compressive spectral imaging reconstruction aims to reconstruct three-dimensional spatial-spectral images from a single-shot two-dimensional compressed measurement. Existing state-of-the-art methods are mostly based on deep unfolding structures but have intrinsic performance bottlenecks: $i$) the ill-posed problem of dealing with heavily degraded measurement, and $ii$) the regression loss-based reconstruction models being prone to recover images with few details. In this paper, we introduce a generative model, namely the latent diffusion model (LDM), to generate degradation-free prior to enhance the regression-based deep unfolding method. Furthermore, to overcome the large computational cost challenge in LDM, we propose a lightweight model to generate knowledge priors in deep unfolding denoiser, and integrate these priors to guide the reconstruction process for compensating high-quality spectral signal details. Numeric and visual comparisons on synthetic and real-world datasets illustrate the superiority of our proposed method in both reconstruction quality and computational efficiency. Code will be released.
翻訳日:2023-11-27 16:03:31 公開日:2023-11-24
# 原子モノポール-スピンハイブリッド系における異方性誘起クーロン相と準粒子動物園

Anisotropy-induced Coulomb phase and quasiparticle zoo in the atomic monopole-spin hybrid system ( http://arxiv.org/abs/2311.14277v1 )

ライセンス: Link先を確認
Shao-Jun Li, Xiang Gao, Xue-Ting Fang, Lushuai Cao, Peter Schmelcher, and Zhong-Kun Hu(参考訳) 単極-スピンハイブリッド系の量子シミュレーションは、ラダー格子内の二極性超低温ガスに基づいて行われる。 双極子格子ガスのサイト占有状態は、モノポールとスピン励起の両方を自然にエミュレートすることができる。 原子のホッピングはスピン-モノポール対間の粒子変換過程を誘導し、双極子-双極子相互作用はスピン-スピン、スピン-モノポール、モノポール-モノポール相互作用を決定する。 双極子-双極子相互作用の異方性は、設計したハイブリッドシステムのフレキシブルなエンジニアリングと、相互作用強度の大幅な調整性を可能にする。 その結果、我々は豊かな位相図に遭遇し、特に、単極子とスピンが共存し、局所ガウスの法則に従って秩序に配置される自己集合クーロン相が発生する。 クーロン相は、様々な種類の準粒子の動物園をホストし、縮退真空、粒子崩壊、変換過程などの粒子物理学における様々な現象をシミュレートすることができる。 我々の研究は、双極子相互作用の異方性に基づく量子シミュレーションの範囲を大幅に拡張する。

Quantum simulation of a monopole-spin hybrid system is performed on basis of a dipolar ultracold gas in a ladder lattice. The site-occupation states of the dipolar ladder lattice gas can spontaneously emulate both the monopole and spin excitations. The hopping of the atoms induces a particle conversion process between spin and monopole pairs, and the dipole-dipole interaction determines the spin-spin, spin-monopole and monopole-monopole interactions. The anisotropic nature of the dipole-dipole interaction allows hereby for a flexible engineering of the designed hybrid system, and for a significant tunability of the interaction strengths. As a result, we encounter a rich phase diagram, and specifically a self-assembled Coulomb phase arises, in which monopoles and spins coexist and are orderly arranged according to the local Gauss's law. The Coulomb phase hosts a zoo of different types of quasiparticles, and provides the possibility to simulate various phenomena in particle physics, such as a degenerate vacuum, particle decay and conversion processes. Our work provides a significant extension of the scope of quantum simulations based on the anisotropy of dipolar interactions.
翻訳日:2023-11-27 16:03:11 公開日:2023-11-24
# ROS 2による自律型フォーミュラ学生レースカーのナビゲーションシステム

Racing With ROS 2 A Navigation System for an Autonomous Formula Student Race Car ( http://arxiv.org/abs/2311.14276v1 )

ライセンス: Link先を確認
Alastair Bradford, Grant van Breda, Tobias Fischer(参考訳) 自動運転車技術の出現は、モータースポーツ、フォーミュラ・学生、フォーミュラ・フォーミュラ・オートモーティブ・エンジニアズ・オブ・オートモーティブ・レーシング・クラスなど、様々な分野に大きな影響を与えた。 これらの課題は、QUT Motorsportのチームを含むエンジニアに新たな課題を提供するとともに、高速ナビゲーションと制御の複雑さによる参入障壁も高めている。 本稿では,自律型フォーミュラ学生レースカーにおける課題を解決するため,ロボットオペレーティングシステム2,特にオープンソースのナビゲーションスタックを用いたオープンソースソリューションを提案する。 このスタックは、QUT Motorsportが開発した従来のカスタムメイドプログラムと比較して、自律的なレースシナリオに適用性を評価し、それらを自律的なレースカーに統合する。 私たちのコントリビューションには、従来のナビゲーションソリューションに対する、これらのパッケージの定量的かつ質的な比較が含まれています。 また,本論文は,同様のレース分野および他の自律移動ロボットアプリケーションに参加するチームを対象とした総合的なチュートリアルとして機能する。

The advent of autonomous vehicle technologies has significantly impacted various sectors, including motorsport, where Formula Student and Formula: Society of Automotive Engineers introduced autonomous racing classes. These offer new challenges to aspiring engineers, including the team at QUT Motorsport, but also raise the entry barrier due to the complexity of high-speed navigation and control. This paper presents an open-source solution using the Robot Operating System 2, specifically its open-source navigation stack, to address these challenges in autonomous Formula Student race cars. We compare off-the-shelf navigation libraries that this stack comprises of against traditional custom-made programs developed by QUT Motorsport to evaluate their applicability in autonomous racing scenarios and integrate them onto an autonomous race car. Our contributions include quantitative and qualitative comparisons of these packages against traditional navigation solutions, aiming to lower the entry barrier for autonomous racing. This paper also serves as a comprehensive tutorial for teams participating in similar racing disciplines and other autonomous mobile robot applications.
翻訳日:2023-11-27 16:02:51 公開日:2023-11-24
# 顔面クイズを用いた音声・視覚音声強調のための協調的デュアルアテンション

Cooperative Dual Attention for Audio-Visual Speech Enhancement with Facial Cues ( http://arxiv.org/abs/2311.14275v1 )

ライセンス: Link先を確認
Feixiang Wang, Shuang Yang, Shiguang Shan, Xilin Chen(参考訳) 本研究では,口唇領域を超えて顔の手がかりを活用して,頑健な音声強調(AVSE)を実現する。 唇領域を包含する顔領域は、AVSEの有効性に寄与する性別、肌の色、国籍などの音声関連属性を反映する。 しかし、静的および動的音声関連属性も存在し、音声中の外観変化を引き起こす。 これらの課題に対処するために,音声関連情報を無視し,顔の手がかりで音声関連情報をキャプチャし,avseの音声信号と動的に統合する,デュアルアテンション協調フレームワークであるdualavseを提案する。 具体的には,唇領域を超えて視覚情報をキャプチャし,拡張する空間的注意に基づく視覚エンコーダを導入し,グローバルな顔コンテキストを取り入れ,ロバストな視覚特徴抽出のための音声関連情報を自動無視する。 さらに, 時間次元セルフアテンションモジュールを統合し, モデルが顔の変動をロバストに扱えるようにすることで, 動的視覚特徴融合戦略を導入する。 発話過程の音響ノイズは可変であり、音質に影響を与える。 そこで,この問題に対処するために,音声と視覚の両方の動的融合戦略を導入する。 視覚エンコーダと音声-視覚融合戦略に協調的二重注意を組み込むことで,AVSEのための音声と視覚の両方から有益な音声情報を効果的に抽出する。 信頼できない、あるいは欠落している視覚情報を含む、さまざまなデータセットに関する徹底した分析と比較は、複数のメトリクスにわたる既存のメソッドよりも優れたモデルを示しています。

In this work, we focus on leveraging facial cues beyond the lip region for robust Audio-Visual Speech Enhancement (AVSE). The facial region, encompassing the lip region, reflects additional speech-related attributes such as gender, skin color, nationality, etc., which contribute to the effectiveness of AVSE. However, static and dynamic speech-unrelated attributes also exist, causing appearance changes during speech. To address these challenges, we propose a Dual Attention Cooperative Framework, DualAVSE, to ignore speech-unrelated information, capture speech-related information with facial cues, and dynamically integrate it with the audio signal for AVSE. Specifically, we introduce a spatial attention-based visual encoder to capture and enhance visual speech information beyond the lip region, incorporating global facial context and automatically ignoring speech-unrelated information for robust visual feature extraction. Additionally, a dynamic visual feature fusion strategy is introduced by integrating a temporal-dimensional self-attention module, enabling the model to robustly handle facial variations. The acoustic noise in the speaking process is variable, impacting audio quality. Therefore, a dynamic fusion strategy for both audio and visual features is introduced to address this issue. By integrating cooperative dual attention in the visual encoder and audio-visual fusion strategy, our model effectively extracts beneficial speech information from both audio and visual cues for AVSE. Thorough analysis and comparison on different datasets, including normal and challenging cases with unreliable or absent visual information, consistently show our model outperforming existing methods across multiple metrics.
翻訳日:2023-11-27 16:02:32 公開日:2023-11-24
# CRISP: クラス認識型モデルプルーニングのためのハイブリッド構造空間

CRISP: Hybrid Structured Sparsity for Class-aware Model Pruning ( http://arxiv.org/abs/2311.14272v1 )

ライセンス: Link先を確認
Shivam Aggarwal, Kuluhan Binici, Tulika Mitra(参考訳) 分類タスクのための機械学習パイプラインは、広範囲のクラスで正確性を達成するために普遍的なモデルを訓練することが多い。 しかし、典型的なユーザーは定期的なクラス選択のみに遭遇する。 この相違は、モデルをユーザー固有のクラスに合わせることによって、計算効率を向上させる機会を提供する。 既存の作業は非構造化プルーニングに依存しており、ランダムに分散されたノンゼロ値がモデルに導入され、ハードウェアアクセラレーションには適さない。 あるいは、チャネルプルーニングのような構造化プルーニングを用いる方法もあるが、これらは最小限の圧縮しか提供せず、モデルの精度を低下させる可能性がある。 本研究では,N:Mの微細構造と粗粒ブロックの微細構造を組み合わせたハイブリッド構造空間パターンを利用した新しい刈り込みフレームワークCRISPを提案する。 我々のプルーニング戦略は、勾配に基づくクラス対応サリエンシスコアによって導かれ、ユーザ固有のクラスに不可欠なウェイトを維持できる。 CRISPは、ImageNetやCIFAR-100データセット上のResNet-50、VGG-16、MobileNetV2のような一般的なモデルで、メモリ消費を最小限に抑えて高い精度を達成する。 さらに、CRISPは、既存のプルーニング手法と比較して、最大14$\times$のレイテンシとエネルギー消費の削減を提供すると同時に、同等の精度を維持している。 私たちのコードはhttps://github.com/shivmgg/CRISP/で利用可能です。

Machine learning pipelines for classification tasks often train a universal model to achieve accuracy across a broad range of classes. However, a typical user encounters only a limited selection of classes regularly. This disparity provides an opportunity to enhance computational efficiency by tailoring models to focus on user-specific classes. Existing works rely on unstructured pruning, which introduces randomly distributed non-zero values in the model, making it unsuitable for hardware acceleration. Alternatively, some approaches employ structured pruning, such as channel pruning, but these tend to provide only minimal compression and may lead to reduced model accuracy. In this work, we propose CRISP, a novel pruning framework leveraging a hybrid structured sparsity pattern that combines both fine-grained N:M structured sparsity and coarse-grained block sparsity. Our pruning strategy is guided by a gradient-based class-aware saliency score, allowing us to retain weights crucial for user-specific classes. CRISP achieves high accuracy with minimal memory consumption for popular models like ResNet-50, VGG-16, and MobileNetV2 on ImageNet and CIFAR-100 datasets. Moreover, CRISP delivers up to 14$\times$ reduction in latency and energy consumption compared to existing pruning methods while maintaining comparable accuracy. Our code is available at https://github.com/shivmgg/CRISP/.
翻訳日:2023-11-27 16:02:04 公開日:2023-11-24
# セグメンテーションによるパラメトリックペイント

Segmentation-Based Parametric Painting ( http://arxiv.org/abs/2311.14271v1 )

ライセンス: Link先を確認
Manuel Ladron de Guevara, Matthew Fisher, Aaron Hertzmann(参考訳) 本研究では,人間のような質とスタイルのバリエーションを持つ大規模で高忠実な絵画の作成を容易にする,新しい画像から絵画へのアプローチを提案する。 大規模な画像処理と絵画処理の制御を実現するため,人間の絵画戦略にインスパイアされたセグメンテーションベースの絵画プロセスとダイナミックアテンションマップアプローチを導入し,ブラシストロークの最適化をさまざまな画像領域のバッチで行なえるようにし,大規模構造と細部の両方を捉えるとともに,細部をスタイリスティックに制御する。 より厳密な評価によって確認されたように,我々の最適化されたバッチ処理とパッチベースの損失フレームワークにより,大きなキャンバスの効率的な処理が可能となり,塗装された出力が従来の方法に比べて美的かつ機能的に優れていることが保証された。 コード提供: https://github.com/manuelladron/semantic\_based\_painting.git

We introduce a novel image-to-painting method that facilitates the creation of large-scale, high-fidelity paintings with human-like quality and stylistic variation. To process large images and gain control over the painting process, we introduce a segmentation-based painting process and a dynamic attention map approach inspired by human painting strategies, allowing optimization of brush strokes to proceed in batches over different image regions, thereby capturing both large-scale structure and fine details, while also allowing stylistic control over detail. Our optimized batch processing and patch-based loss framework enable efficient handling of large canvases, ensuring our painted outputs are both aesthetically compelling and functionally superior as compared to previous methods, as confirmed by rigorous evaluations. Code available at: https://github.com/manuelladron/semantic\_based\_painting.git
翻訳日:2023-11-27 16:01:41 公開日:2023-11-24
# 知識蒸留と自律ルール発見による効率的なオープンワールド強化学習

Efficient Open-world Reinforcement Learning via Knowledge Distillation and Autonomous Rule Discovery ( http://arxiv.org/abs/2311.14270v1 )

ライセンス: Link先を確認
Ekaterina Nikonova, Cheng Xue, Jochen Renz(参考訳) 深層強化学習は壊滅的な放棄とサンプルの非効率に苦しむため、絶えず変化する現実世界に適用できない。 しかし、AIエージェントが新規性に迅速に適応するためには、事前に学習した知識を使用する能力が不可欠である。 しばしば、前のインタラクションでエージェントが観察した空間情報は、タスク固有のルールを推測するために利用することができる。 推論されたルールは、エージェントが未確認状態の潜在的に危険な状況を避けるのに役立ち、エージェントの新規適応速度を高める学習プロセスを導く。 本研究では,深層強化学習エージェントに適用可能な汎用フレームワークを提案する。 我々のフレームワークはエージェントに、新しい環境におけるタスク固有のルールを発見し、学習を自己監督する自律的な方法を提供する。 ルール駆動型深層Q学習エージェント(RDQ)をそのフレームワークの実装として提供する。 本研究では,RDQが世界との対話においてタスク固有のルールを抽出し,学習効率を大幅に向上させることを示す。 実験では、rdqエージェントはベースラインエージェントよりも新規性に対して著しく弾力性があり、新しい状況に素早く適応できることを示した。

Deep reinforcement learning suffers from catastrophic forgetting and sample inefficiency making it less applicable to the ever-changing real world. However, the ability to use previously learned knowledge is essential for AI agents to quickly adapt to novelties. Often, certain spatial information observed by the agent in the previous interactions can be leveraged to infer task-specific rules. Inferred rules can then help the agent to avoid potentially dangerous situations in the previously unseen states and guide the learning process increasing agent's novelty adaptation speed. In this work, we propose a general framework that is applicable to deep reinforcement learning agents. Our framework provides the agent with an autonomous way to discover the task-specific rules in the novel environments and self-supervise it's learning. We provide a rule-driven deep Q-learning agent (RDQ) as one possible implementation of that framework. We show that RDQ successfully extracts task-specific rules as it interacts with the world and uses them to drastically increase its learning efficiency. In our experiments, we show that the RDQ agent is significantly more resilient to the novelties than the baseline agents, and is able to detect and adapt to novel situations faster.
翻訳日:2023-11-27 16:01:23 公開日:2023-11-24
# プラズモニックエンジニアリングによる窒素空孔スピンリードアウト

Plasmonically engineered nitrogen-vacancy spin readout ( http://arxiv.org/abs/2311.14266v1 )

ライセンス: Link先を確認
Harini Hapuarachchi, Francesco Campaioli, Fedor Jelezko, and Jared H. Cole(参考訳) 単一窒素空孔(NV)スピンの超精密読み出しは、量子センシングと計算技術の大幅な進歩を約束する。 プラズモン相互作用によるNVスピン量子ビット読み出しと光磁気共鳴(ODMR)の顕著な輝度およびコントラストの増大を予測した。 このような予測のために,既存の測定値を用いて検証した厳密な理論を提案する。 プラズモニックスピン読み出し強化は、実験の前に厳密なモデリングを必要とするため、注意深く設計されたパラメータ領域に選択的に現れる。

Ultra-precise readout of single nitrogen-vacancy (NV) spins hold promise for major advancements in quantum sensing and computing technologies. We predict significant brightness and contrast enhancements in NV spin qubit readout and optically detected magnetic resonance (ODMR) arising from plasmonic interaction. We present a rigorous theory verified using existing measurements in the literature for such predictions. Plasmonic spin readout enhancements selectively manifest in carefully engineered parameter regions, necessitating rigorous modelling prior to experimentation.
翻訳日:2023-11-27 16:01:05 公開日:2023-11-24
# バーストスパイクス:イベントベースビジョンのための効率的かつ高性能なSNN

Bursting Spikes: Efficient and High-performance SNNs for Event-based Vision ( http://arxiv.org/abs/2311.14265v1 )

ライセンス: Link先を確認
Ziqing Wang, Yuetong Fang, Jiahang Cao, Renjing Xu(参考訳) スパイクニューラルネットワーク(SNN)によるイベント駆動型ビジョンの促進は、高速で効率的な知覚を促進するために不可欠である。 トレーニング済みの人工知能ニューラルネットワーク(ANN)を直接変換する — 非線形活性化をスパイクニューロンに置き換えることで、SNNのパフォーマンスが向上する一方で、結果のSNNは通常、最適なパフォーマンスを達成するために、長いタイムステップと高いエネルギー消費を要求する。 この課題に対処するために、生物学的神経系にインスパイアされたバーストスパイク機構を導入し、時間ごとの複数のスパイクによって変換エラーを低減し、低遅延SNNを生成する。 この強化をさらに強化するため、我々はpareto frontier-drivenアルゴリズムを利用してバーストファイリングパターンを再配置する。 さらに,変換過程におけるエネルギー消費量を低減するため,層別感度に応じて最適な閾値比を自動的に求める感度駆動スパイク圧縮手法を提案する。 広範な実験により,最先端のsnn法よりも優れた性能を示し,分類とオブジェクト検出におけるエネルギー使用率の低減を実証した。 私たちのコードはhttps://github.com/bic-l/burst-ann2snnで入手できる。

Advancing event-driven vision through spiking neural networks (SNNs) is crucial to empowering high-speed and efficient perception. While directly converting the pre-trained artificial neural networks (ANNs) - by replacing the non-linear activation with spiking neurons - can provide SNNs with good performance, the resultant SNNs typically demand long timesteps and high energy consumption to achieve their optimal performance. To address this challenge, we introduce the burst-spike mechanism inspired by the biological nervous system, allowing multiple spikes per timestep to reduce conversion errors and produce low-latency SNNs. To further bolster this enhancement, we leverage the Pareto Frontier-driven algorithm to reallocate burst-firing patterns. Moreover, to reduce energy consumption during the conversion process, we propose a sensitivity-driven spike compression technique, which automatically locates the optimal threshold ratio according to layer-specific sensitivity. Extensive experiments demonstrate our approach outperforms state-of-the-art SNN methods, showcasing superior performance and reduced energy usage across classification and object detection. Our code will be available at https://github.com/bic-L/burst-ann2snn.
翻訳日:2023-11-27 16:00:55 公開日:2023-11-24
# zerops: ゼロショット3d部分セグメンテーションのための高品質クロスモーダル知識転送

ZeroPS: High-quality Cross-modal Knowledge Transfer for Zero-Shot 3D Part Segmentation ( http://arxiv.org/abs/2311.14262v1 )

ライセンス: Link先を確認
Yuheng Xue, Nenglun Chen, Jun Liu, Wenyun Sun(参考訳) 近年、多くの2次元事前訓練された基礎モデルが印象的なゼロショット予測能力を示している。 本研究ではZeroPSと呼ばれるゼロショット3次元部分分割のための新しいパイプラインを設計する。 2D事前訓練された基礎モデルから3Dポイントクラウドに知識を伝達する。 提案手法の主な考え方は,多視点対応と基礎モデルと構築ブリッジの迅速な機構の自然な関係を探ることである。 私たちのパイプラインは2つのコンポーネントで構成されています。 1) 単一視点から空間的グローバルレベル3Dグループまで2Dグループを拡張する自己拡張成分 2)各2d予測バウンダリングボックスを最良マッチング3d部に投票するための2次元チェック機構を導入するマルチモーダルラベリングコンポーネントと、投票行列を洗練するためのクラス非最高投票ペナルティ関数とを備える。 さらに、部分レベル3Dグループをマージするためにマージアルゴリズムが組み込まれている。 PartnetEデータセット上の3つのゼロショットセグメンテーションタスクの広範囲な評価により、既存の手法よりも大幅に改善された(+19.6%、+5.2%、+4.9%)。 提案手法では,トレーニングや微調整,学習可能なパラメータは不要である。 ドメインシフトの影響はほとんどない。 コードはリリースされます。

Recently, many 2D pretrained foundational models have demonstrated impressive zero-shot prediction capabilities. In this work, we design a novel pipeline for zero-shot 3D part segmentation, called ZeroPS. It high-quality transfers knowledge from 2D pretrained foundational models to 3D point clouds. The main idea of our approach is to explore the natural relationship between multi-view correspondences and the prompt mechanism of foundational models and build bridges on it. Our pipeline consists of two components: 1) a self-extension component that extends 2D groups from a single viewpoint to spatial global-level 3D groups; 2) a multi-modal labeling component that introduces a two-dimensional checking mechanism to vote each 2D predicted bounding box to the best matching 3D part, and a Class Non-highest Vote Penalty function to refine the Vote Matrix. Additionally, a merging algorithm is included to merge part-level 3D groups. Extensive evaluation of three zero-shot segmentation tasks on PartnetE datasets, achieving state-of-the-art results with significant improvements (+19.6%, +5.2% and +4.9%, respectively) over existing methods. Our proposed approach does not need any training, fine-tuning or learnable parameters. It is hardly affected by domain shift. The code will be released.
翻訳日:2023-11-27 16:00:33 公開日:2023-11-24
# 絡み合った干渉と分散促進を伴う分布外一般化動的グラフニューラルネットワーク

Out-of-Distribution Generalized Dynamic Graph Neural Network with Disentangled Intervention and Invariance Promotion ( http://arxiv.org/abs/2311.14255v1 )

ライセンス: Link先を確認
Zeyang Zhang, Xin Wang, Ziwei Zhang, Haoyang Li, Wenwu Zhu(参考訳) 動的グラフニューラルネットワーク(DyGNN)は、グラフ構造と時間的ダイナミクスを利用して、強力な予測能力を示す。 しかし、DyGNNsは分散シフトを扱うことができず、DyGNNsが悪用したパターンは分散シフトのラベルに対して変動する可能性があるため、動的グラフに自然に存在する。 本稿では,不変パターン,すなわち分布シフト間での予測能力が安定な構造や特徴を発見・活用することにより,動的グラフにおける時空間的分布シフトを処理するために,分散促進(i-dida)を用いた異方性インベンションに基づく動的グラフアテンションネットワークを提案する。 具体的には,まず,変形パターンと不変パターンを捉えるために,時空間的注意ネットワークを提案する。 本研究では,複数の介入分布を作成できる時空間的介入機構と,潜在時空間環境を推定する環境推論モジュールを設計し,これらの介入された分布と環境間の予測の分散を最小化し,分布シフト下で安定な予測能力を有する不変パターンに基づく予測を行う。 広範にわたる実験により,分布シフト下での最先端ベースラインよりも優れた手法が得られた。 我々の研究は、動的グラフにおける時空間分布シフトに関する最初の研究である。

Dynamic graph neural networks (DyGNNs) have demonstrated powerful predictive abilities by exploiting graph structural and temporal dynamics. However, the existing DyGNNs fail to handle distribution shifts, which naturally exist in dynamic graphs, mainly because the patterns exploited by DyGNNs may be variant with respect to labels under distribution shifts. In this paper, we propose Disentangled Intervention-based Dynamic graph Attention networks with Invariance Promotion (I-DIDA) to handle spatio-temporal distribution shifts in dynamic graphs by discovering and utilizing invariant patterns, i.e., structures and features whose predictive abilities are stable across distribution shifts. Specifically, we first propose a disentangled spatio-temporal attention network to capture the variant and invariant patterns. By utilizing the disentangled patterns, we design a spatio-temporal intervention mechanism to create multiple interventional distributions and an environment inference module to infer the latent spatio-temporal environments, and minimize the variance of predictions among these intervened distributions and environments, so that our model can make predictions based on invariant patterns with stable predictive abilities under distribution shifts. Extensive experiments demonstrate the superiority of our method over state-of-the-art baselines under distribution shifts. Our work is the first study of spatio-temporal distribution shifts in dynamic graphs, to the best of our knowledge.
翻訳日:2023-11-27 16:00:13 公開日:2023-11-24
# テンソルネットワークから見たトラベルセールスマン問題

Traveling Salesman Problem from a Tensor Networks Perspective ( http://arxiv.org/abs/2311.14344v1 )

ライセンス: Link先を確認
Alejandro Mata Ali, I\~nigo Perez Delgado and Aitor Moreno Fdez. de Leceta(参考訳) 本稿では,トラベリングセールスマン問題(TSP)とその変種をテンソルネットワークを用いて解くための新しい量子インスピレーション付きアルゴリズムを提案する。 このアプローチは、全ての可能な組み合わせの重ね合わせ、想像上の時間発展、投影、そして最後には解を探すための部分的トレースを持つ量子システムのシミュレーション初期化に基づいている。 我々は、TSPの異なる一般化に適応し、実際の生産的産業ケースであるジョブ再割り当て問題に適用する。

We present a novel quantum-inspired algorithm for solving the Traveling Salesman Problem (TSP) and some of its variations using tensor networks. This approach consists on the simulated initialization of a quantum system with superposition of all possible combinations, an imaginary time evolution, a projection, and lastly a partial trace to search for solutions. We adapt it to different generalizations of the TSP and apply it to the job reassignment problem, a real productive industrial case.
翻訳日:2023-11-27 15:55:17 公開日:2023-11-24
# グラフ表現学習のための周期不変位置符号化

Cycle Invariant Positional Encoding for Graph Representation Learning ( http://arxiv.org/abs/2311.14333v1 )

ライセンス: Link先を確認
Zuoyu Yan, Tengfei Ma, Liangcai Gao, Zhi Tang, Chao Chen, Yusu Wang(参考訳) サイクルはグラフ構造化データの基本要素であり、グラフ学習モデルの拡張効果を実証している。 このような情報をグラフ学習フレームワークにエンコードするために、先行研究はサイクルの数からより洗練された永続化図の要約まで、しばしば要約量を抽出する。 しかし、エッジが周期的にエンコードされているようなより詳細な情報は、グラフニューラルネットワークではまだ使われていない。 本稿では,このギャップに対処するための一歩を踏み出し,エッジ構造エンコーディングによるサイクル情報を置換不変な方法でエンコードするcyclenetと呼ばれる構造エンコーディングモジュールを提案する。 すべてのサイクルの空間を効率的に符号化するために、入力グラフの1次元ホッジ・ラプラシアンの核を介して計算するサイクル基底(つまり、サイクル空間を生成する最小のサイクルの集合)から始める。 エンコードが不変であることを保証するため、サイクル基底の選択は、limらによって提案された基底ネットに触発されたサイクル基底の直交プロジェクタを介してサイクル情報を符号化する。 また、入力グラフが一意な最短サイクル基底を持つことを要求するより効率的な変種も開発する。 提案モジュールの有効性を示すために,その表現力に関する理論的理解を提供する。 さらに,CycleNetモジュールによって拡張されたネットワークは,既存のSOTAモデルと比較して,様々なベンチマークで性能が向上することを示す。

Cycles are fundamental elements in graph-structured data and have demonstrated their effectiveness in enhancing graph learning models. To encode such information into a graph learning framework, prior works often extract a summary quantity, ranging from the number of cycles to the more sophisticated persistence diagram summaries. However, more detailed information, such as which edges are encoded in a cycle, has not yet been used in graph neural networks. In this paper, we make one step towards addressing this gap, and propose a structure encoding module, called CycleNet, that encodes cycle information via edge structure encoding in a permutation invariant manner. To efficiently encode the space of all cycles, we start with a cycle basis (i.e., a minimal set of cycles generating the cycle space) which we compute via the kernel of the 1-dimensional Hodge Laplacian of the input graph. To guarantee the encoding is invariant w.r.t. the choice of cycle basis, we encode the cycle information via the orthogonal projector of the cycle basis, which is inspired by BasisNet proposed by Lim et al. We also develop a more efficient variant which however requires that the input graph has a unique shortest cycle basis. To demonstrate the effectiveness of the proposed module, we provide some theoretical understandings of its expressive power. Moreover, we show via a range of experiments that networks enhanced by our CycleNet module perform better in various benchmarks compared to several existing SOTA models.
翻訳日:2023-11-27 15:55:09 公開日:2023-11-24
# GATGPT:時空間インプットのためのグラフ注意ネットワーク付き事前学習型大規模言語モデル

GATGPT: A Pre-trained Large Language Model with Graph Attention Network for Spatiotemporal Imputation ( http://arxiv.org/abs/2311.14332v1 )

ライセンス: Link先を確認
Yakun Chen, Xianzhi Wang, Guandong Xu(参考訳) 時空間データの分析は、輸送、医療、気象学など様々な領域でますます活用されている。 実世界の環境では、センサーの故障やデータ転送エラーなどの問題により、そのようなデータには欠落する要素がしばしば含まれる。 時空間計算の目的は、観測された多変量時系列の空間的および時間的関係を理解することによって、これらの欠落値を推定することである。 伝統的に時空間的インプテーションはこの目的のために設計された特定の複雑なアーキテクチャに依存しており、適用性や計算の複雑さが制限されている。 対照的に,本手法では,事前学習された大規模言語モデル(LLM)を時空間計算に統合し,画期的なフレームワークであるGATGPTを導入する。 このフレームワークは、グラフアテンション機構とLLMをマージする。 LLMパラメータのほとんどをそのまま維持し、様々なアプリケーションに適した上層を微調整しながら、時間パターンの学習に既存の知識を活用する。 グラフ注意成分は、LLMの空間的関係を理解する能力を高める。 3つの異なる実世界のデータセットのテストを通じて、我々の革新的なアプローチは確立されたディープラーニングベンチマークに匹敵する結果を示している。

The analysis of spatiotemporal data is increasingly utilized across diverse domains, including transportation, healthcare, and meteorology. In real-world settings, such data often contain missing elements due to issues like sensor malfunctions and data transmission errors. The objective of spatiotemporal imputation is to estimate these missing values by understanding the inherent spatial and temporal relationships in the observed multivariate time series. Traditionally, spatiotemporal imputation has relied on specific, intricate architectures designed for this purpose, which suffer from limited applicability and high computational complexity. In contrast, our approach integrates pre-trained large language models (LLMs) into spatiotemporal imputation, introducing a groundbreaking framework, GATGPT. This framework merges a graph attention mechanism with LLMs. We maintain most of the LLM parameters unchanged to leverage existing knowledge for learning temporal patterns, while fine-tuning the upper layers tailored to various applications. The graph attention component enhances the LLM's ability to understand spatial relationships. Through tests on three distinct real-world datasets, our innovative approach demonstrates comparable results to established deep learning benchmarks.
翻訳日:2023-11-27 15:54:45 公開日:2023-11-24
# テキスト属性グラフの位相構造エンハンサーとしての大規模言語モデル

Large Language Models as Topological Structure Enhancers for Text-Attributed Graphs ( http://arxiv.org/abs/2311.14324v1 )

ライセンス: Link先を確認
Shengyin Sun, Yuxiang Ren, Chen Ma, Xuecang Zhang(参考訳) 大規模言語モデル(LLM)の最近の進歩は、自然言語処理(NLP)の分野に革命をもたらした。 NLPタスクにおけるLLMの成功に触発された最近の研究は、グラフ学習タスクにLLMを適用する可能性の調査を開始した。 しかし、既存の研究の多くは、LLMを強力なノード機能拡張器として活用することに集中しており、グラフトポロジ構造を強化するためにLLMをそのまま残している。 本稿では,llmsの情報検索とテキスト生成機能を活用し,ノード分類設定下でのテキスト属性グラフ(tags)のトポロジー構造を洗練・強化する方法について検討する。 まず、信頼できないエッジを除去し、TAGに信頼性の高いエッジを追加するのに役立つLSMを提案する。 具体的には,まずノード属性間のセマンティックな類似性を繊細なプロンプト設計により出力し,その類似性に基づいてエッジ削除とエッジ付加を行う。 次に,LLMが生成した擬似ラベルを用いてグラフトポロジを改善すること,すなわち,グラフニューラルネットワーク(GNN)の正規化として擬似ラベル伝搬を導入することにより,適切なエッジウェイトを学習する。 最後に、前述の2つのLLMに基づくグラフトポロジ的改善手法をGNNトレーニングのプロセスに組み込んで、4つの実世界のデータセットに対する広範な実験を行う。 実験により, LLMに基づくグラフトポロジ改善の有効性が示された(公開ベンチマークで0.15%~2.47%の性能向上を達成した)。

The latest advancements in large language models (LLMs) have revolutionized the field of natural language processing (NLP). Inspired by the success of LLMs in NLP tasks, some recent work has begun investigating the potential of applying LLMs in graph learning tasks. However, most of the existing work focuses on utilizing LLMs as powerful node feature augmenters, leaving employing LLMs to enhance graph topological structures an understudied problem. In this work, we explore how to leverage the information retrieval and text generation capabilities of LLMs to refine/enhance the topological structure of text-attributed graphs (TAGs) under the node classification setting. First, we propose using LLMs to help remove unreliable edges and add reliable ones in the TAG. Specifically, we first let the LLM output the semantic similarity between node attributes through delicate prompt designs, and then perform edge deletion and edge addition based on the similarity. Second, we propose using pseudo-labels generated by the LLM to improve graph topology, that is, we introduce the pseudo-label propagation as a regularization to guide the graph neural network (GNN) in learning proper edge weights. Finally, we incorporate the two aforementioned LLM-based methods for graph topological refinement into the process of GNN training, and perform extensive experiments on four real-world datasets. The experimental results demonstrate the effectiveness of LLM-based graph topology refinement (achieving a 0.15%--2.47% performance gain on public benchmarks).
翻訳日:2023-11-27 15:54:26 公開日:2023-11-24
# バイナリ化3次元人体メッシュリカバリ

Binarized 3D Whole-body Human Mesh Recovery ( http://arxiv.org/abs/2311.14323v1 )

ライセンス: Link先を確認
Zhiteng Li, Yulun Zhang, Jing Lin, Haotong Qin, Jinjin Gu, Xin Yuan, Linghe Kong, Xiaokang Yang(参考訳) 3Dの人体メッシュの回復は、単一の画像から3Dの人体、顔、手を再構築することを目的としている。 強力なディープラーニングモデルは、このタスクで正確な推定を達成しているが、膨大なメモリと計算リソースを必要とする。 したがって、これらの方法はリソース制限されたエッジデバイスにはほとんどデプロイできない。 本研究では、3次元人体・顔・手のパラメータを効率的に推定する新しい量子化法であるbidrn(binarized dual residual network)を提案する。 具体的には, 局所畳み込み残差 (lcr) とブロック残差 (br) からなる基本単位二元化双対残差ブロック (bidrb) を設計し, 可能な限り全精度情報を保存する。 LCRでは、4種類の畳み込み加群に一般化し、不整合次元においても全精度情報を伝播できるようにする。 また、顔と手動のボックス予測ネットワークをBinaried BoxNetとしてバイナライズし、モデル冗長性をさらに低減する。 総合的な定量的および定性的実験は、最先端のバイナライゼーションアルゴリズムよりも大幅に改善されたBiDRNの有効性を示す。 さらに本提案手法では,22.1%のパラメータと14.8%の演算を併用しながら,全精度のハンド4wholeと同等の性能を実現する。 すべてのコードと事前訓練されたモデルをリリースします。

3D whole-body human mesh recovery aims to reconstruct the 3D human body, face, and hands from a single image. Although powerful deep learning models have achieved accurate estimation in this task, they require enormous memory and computational resources. Consequently, these methods can hardly be deployed on resource-limited edge devices. In this work, we propose a Binarized Dual Residual Network (BiDRN), a novel quantization method to estimate the 3D human body, face, and hands parameters efficiently. Specifically, we design a basic unit Binarized Dual Residual Block (BiDRB) composed of Local Convolution Residual (LCR) and Block Residual (BR), which can preserve full-precision information as much as possible. For LCR, we generalize it to four kinds of convolutional modules so that full-precision information can be propagated even between mismatched dimensions. We also binarize the face and hands box-prediction network as Binaried BoxNet, which can further reduce the model redundancy. Comprehensive quantitative and qualitative experiments demonstrate the effectiveness of BiDRN, which has a significant improvement over state-of-the-art binarization algorithms. Moreover, our proposed BiDRN achieves comparable performance with full-precision method Hand4Whole while using just 22.1% parameters and 14.8% operations. We will release all the code and pretrained models.
翻訳日:2023-11-27 15:54:02 公開日:2023-11-24
# マルチパーティイトログソボレフ不等式による量子消去チャネルの過収縮性

Hypercontractivity for Quantum Erasure Channels via Multipartite Log-Sobolev Inequality ( http://arxiv.org/abs/2311.14321v1 )

ライセンス: Link先を確認
Zongbo Bao, Yangjing Dong, Fengning Ou, Penghui Yao(参考訳) 我々は,量子消去チャネルに対する最適超収縮不等式を証明し,古典二元消去チャネル [nw16] の超contractivityを一般化する。 私たちの知る限り、これは非単位量子チャネルに束縛された最初の超contractivityである。 古典的超収縮性に対する伝統的な帰納的議論は、行列の非可換性の性質から量子集合に一般化することはできない。 難易度を克服するために,古典的対数-ソボレフ不等式 [dsc96] と量子対数-ソボレフ不等式 [kt13] を含む多元数量子対数-ソボレフ不等式を一元的な場合として確立する。 我々は,多成分量子ログソボレフ不等式と,洗練された量子グロス補題(gro75a])を介して量子消去チャネルに束縛された超良性(hypercontractivity)との接続を確立し,量子ログソボレフ不等式(quantum log-sobolev inequality)とキュービット単位チャネルの超良性(hypercontractivity)との類似接続(kin14)を拡張した。 応用として、消去ノイズEPR状態に助長された2次元共通乱数生成の古典的通信複雑性について、グラスワミとラダクリシュナン [GR16] による消去ノイズランダム文字列に助役された同一タスク上のタイトバウンドを一般化し、ほぼ厳密な境界(定数係数まで)を証明した。

We prove an almost optimal hypercontractive inequality for quantum erasure channels, generalizing the hypercontractivity for classical binary erasure channels [NW16]. To our knowledge, this is the first hypercontractivity bound for non-unital quantum channels. The traditional inductive arguments for classical hypercontractivity cannot be generalized to the quantum setting due to the nature of non-commutativity of matrices. To overcome the difficulty, we establish a multipartite quantum log-Sobolev inequality, which includes the classical log-Sobolev inequality [DSC96] and the quantum log-Sobolev inequality [KT13] as one-partite cases. We establish a connection between our multipartite quantum log-Sobolev inequality and the hypercontractivity bound for quantum erasure channels via a refined quantum Gross' lemma [Gro75a], extending the analogous connection [Kin14] between the quantum log-Sobolev inequality and the hypercontractivity for qubit unital channels. As an application, we prove an almost tight bound (up to a constant factor) on the classical communication complexity of two-party common randomness generation assisted with erased-noisy EPR states, generalizing the tight bound on the same task assisted with erased-noisy random strings due to Guruswami and Radhakrishnan [GR16].
翻訳日:2023-11-27 15:53:38 公開日:2023-11-24
# 風車:風速予測のための双方向長距離時空間ネットワーク

Windformer:Bi-Directional Long-Distance Spatio-Temporal Network For Wind Speed Prediction ( http://arxiv.org/abs/2311.14316v1 )

ライセンス: Link先を確認
Xuewei Li, Zewen Shang, Zhiqiang Liu, Jian Yu, Wei Xiong, Mei Yu(参考訳) 風力発電の管理には風速予測が不可欠である。 風速変動と覚醒効果の幅が広いため、長距離風力タービンの間には強い相関関係がある可能性がある。 この難解な特徴は精度向上のボトルネックになっている。 過去の情報と将来の時間情報には、気流の変化の傾向が含まれており、この動的な情報が利用できるかどうかは予測効果にも影響する。 以上の問題に対して,本稿ではWindformerを提案する。 まず、Windformerは風力タービンクラスタを複数の非重重窓に分割し、ウィンドウ内の相関関係を計算し、ウィンドウを部分的にシフトしてウィンドウ間の接続を提供し、最終的には詳細な情報とグローバル情報に基づいてマルチチャネル機能を融合する。 本稿では,風速の変化過程を動的にモデル化するために,歴史と未来の両方の時系列を同時に抽出する。 従来の手法と比較して、WindformerのMean Square Error(MSE)は、NERLの2つのデータセットに対して0.5\%から15\%に減少する。

Wind speed prediction is critical to the management of wind power generation. Due to the large range of wind speed fluctuations and wake effect, there may also be strong correlations between long-distance wind turbines. This difficult-to-extract feature has become a bottleneck for improving accuracy. History and future time information includes the trend of airflow changes, whether this dynamic information can be utilized will also affect the prediction effect. In response to the above problems, this paper proposes Windformer. First, Windformer divides the wind turbine cluster into multiple non-overlapping windows and calculates correlations inside the windows, then shifts the windows partially to provide connectivity between windows, and finally fuses multi-channel features based on detailed and global information. To dynamically model the change process of wind speed, this paper extracts time series in both history and future directions simultaneously. Compared with other current-advanced methods, the Mean Square Error (MSE) of Windformer is reduced by 0.5\% to 15\% on two datasets from NERL.
翻訳日:2023-11-27 15:52:14 公開日:2023-11-24
# マルチモーダル特徴アライメントによるロバストドメイン誤情報検出

Robust Domain Misinformation Detection via Multi-modal Feature Alignment ( http://arxiv.org/abs/2311.14315v1 )

ライセンス: Link先を確認
Hui Liu, Wenya Wang, Hao Sun, Anderson Rocha, and Haoliang Li(参考訳) ソーシャルメディアの誤報は個人や社会に害を与え、急速に成長するマルチモーダルコンテンツ(テキストや画像など)によって、テキストのみのニュースよりも高い「クレディビリティ」を担っている可能性がある。 既存の教師付き誤情報検出手法は、キー設定で許容できる性能を得たが、それらは様々なイベントからの大量のラベル付きデータを必要とする可能性がある。 逆に、公開データセットを利用してモデルを直接訓練することは、トレーニングデータ(例えばソースドメイン)とターゲットドメインのデータの間のドメインシフトによって一般化できない可能性がある。 ドメインシフトに関するほとんどの以前の作業は、単一のモダリティ(例えば、テキストモダリティ)に焦点を当てており、十分なラベルのないターゲットドメインデータが早期に利用できないというシナリオを無視している。 データ不足は、ダイナミックな伝播傾向(すなわち、フェイクニュースに関連する投稿の数が、大衆の注目を集める前に徐々に増加する)によって起こることが多い。 マルチモーダル誤情報検出のための新しい頑健なドメインとクロスモーダルアプローチ(\textbf{RDCM})を提案する。 ドメイン間のアライメントモジュールを通じてテキストと視覚のモダリティの結合分布を整列することでドメインシフトを減少させ、ドメイン間のアライメントモジュールを通じて両方のモダリティ間のセマンティックギャップを橋渡しする。 また、ドメインの一般化(対象のドメインデータが利用できない)とドメインの適応(ラベルのない対象のドメインデータが利用できる)のアプリケーションシナリオを同時に考慮するフレームワークを提案する。 2つの公開マルチモーダルな誤情報検出データセット(PhemeとTwitter Datasets)の評価結果から,提案モデルが優れていることを示す。 本論文の正式な実装は、このリンクにある。 https://github.com/less-and-less-bugs/rdcm。

Social media misinformation harms individuals and societies and is potentialized by fast-growing multi-modal content (i.e., texts and images), which accounts for higher "credibility" than text-only news pieces. Although existing supervised misinformation detection methods have obtained acceptable performances in key setups, they may require large amounts of labeled data from various events, which can be time-consuming and tedious. In turn, directly training a model by leveraging a publicly available dataset may fail to generalize due to domain shifts between the training data (a.k.a. source domains) and the data from target domains. Most prior work on domain shift focuses on a single modality (e.g., text modality) and ignores the scenario where sufficient unlabeled target domain data may not be readily available in an early stage. The lack of data often happens due to the dynamic propagation trend (i.e., the number of posts related to fake news increases slowly before catching the public attention). We propose a novel robust domain and cross-modal approach (\textbf{RDCM}) for multi-modal misinformation detection. It reduces the domain shift by aligning the joint distribution of textual and visual modalities through an inter-domain alignment module and bridges the semantic gap between both modalities through a cross-modality alignment module. We also propose a framework that simultaneously considers application scenarios of domain generalization (in which the target domain data is unavailable) and domain adaptation (in which unlabeled target domain data is available). Evaluation results on two public multi-modal misinformation detection datasets (Pheme and Twitter Datasets) evince the superiority of the proposed model. The formal implementation of this paper can be found in this link: https://github.com/less-and-less-bugs/RDCM
翻訳日:2023-11-27 15:51:57 公開日:2023-11-24
# 深部クラスタリングのための安定クラスタ識別

Stable Cluster Discrimination for Deep Clustering ( http://arxiv.org/abs/2311.14310v1 )

ライセンス: Link先を確認
Qi Qian(参考訳) ディープクラスタリングは、インスタンスの表現(例:表現学習)を最適化し、固有のデータ分散(例:クラスタリング)を同時に探索することができる。 しかし、結合された目的は全てのインスタンスが一様特徴に崩壊する自明な解を意味する。 この課題に対処するために、デカップリングのための2段階のトレーニング戦略を開発し、表現学習のための追加の事前学習ステージを導入し、得られたクラスタリングモデルの微調整を行う。 一方,クラスタリングよりも表現学習を主目的とした一段階法が開発され,クラスタ割り当てに対する制約が明確になるのを避けるために設計されている。 これらの手法の成功にもかかわらず、深層クラスタリングに適した学習目標が十分に研究されていない。 本研究では,各ミニバッチにおける基底ラベルの欠如とクラスタの正のインスタンスの欠如により,教師付き学習における一般的な識別タスクが1段階クラスタリングでは不安定であることを示す。 問題を緩和するため、新しい安定クラスタ識別(SeCu)タスクを提案し、それに応じて新しい硬度対応クラスタリング基準を得ることができる。 さらに,クラスタ割り当てに対する大域的エントロピー制約を効率的な最適化により検討した。 ベンチマークデータセットとimagenetで広範な実験が行われている。 SeCuは、これらすべてに対して最先端のパフォーマンスを実現し、1段階のディープクラスタリングの有効性を示す。 コードは \url{https://github.com/idstcv/SeCu} で入手できる。

Deep clustering can optimize representations of instances (i.e., representation learning) and explore the inherent data distribution (i.e., clustering) simultaneously, which demonstrates a superior performance over conventional clustering methods with given features. However, the coupled objective implies a trivial solution that all instances collapse to the uniform features. To tackle the challenge, a two-stage training strategy is developed for decoupling, where it introduces an additional pre-training stage for representation learning and then fine-tunes the obtained model for clustering. Meanwhile, one-stage methods are developed mainly for representation learning rather than clustering, where various constraints for cluster assignments are designed to avoid collapsing explicitly. Despite the success of these methods, an appropriate learning objective tailored for deep clustering has not been investigated sufficiently. In this work, we first show that the prevalent discrimination task in supervised learning is unstable for one-stage clustering due to the lack of ground-truth labels and positive instances for certain clusters in each mini-batch. To mitigate the issue, a novel stable cluster discrimination (SeCu) task is proposed and a new hardness-aware clustering criterion can be obtained accordingly. Moreover, a global entropy constraint for cluster assignments is studied with efficient optimization. Extensive experiments are conducted on benchmark data sets and ImageNet. SeCu achieves state-of-the-art performance on all of them, which demonstrates the effectiveness of one-stage deep clustering. Code is available at \url{https://github.com/idstcv/SeCu}.
翻訳日:2023-11-27 15:51:28 公開日:2023-11-24
# 個別クラス情報伝達のためのコサイン類似性知識蒸留

Cosine Similarity Knowledge Distillation for Individual Class Information Transfer ( http://arxiv.org/abs/2311.14307v1 )

ライセンス: Link先を確認
Gyeongdo Ham, Seonghak Kim, Suin Lee, Jae-Hyeok Lee, and Daeshik Kim(参考訳) これまでのkd(logits-based knowledge distillation)では,各サンプル内の複数のカテゴリの予測(クラス予測)を活用し,kullback-leibler(kl)のダイバージェンスを用いて,生徒と教師の予測の相違を低減している。 KD技術の普及にもかかわらず、学生モデルは教師と同様のレベルに達するには至っていない。 そこで本研究では,教師モデルの性能と同等以上の結果が得られる新規かつ効果的なKD手法を提案する。 我々は,各カテゴリの複数のサンプル(例えばバッチ予測)に関する教師と学生の予測を利用し,テキスト埋め込みの類似性を測定するために自然言語処理(NLP)においてよく用いられるコサイン類似性を適用した。 この計量の固有のスケール不変性は、大きさではなくベクトル方向のみに依存しており、教師の知識の一定の分布に縛られるのではなく、教師の知識から動的に学習することができる。 さらに,コサイン類似度重み付き温度(CSWT)による性能向上手法を提案する。 CSWTは、学生モデルと教師モデルとのコサイン類似度が高い場合のKDの温度スケーリングを低減し、逆に、コサイン類似度が低い場合の温度スケーリングを増加させる。 この調整は、教師から生徒モデルへの情報の転送を最適化する。 実験結果から,提案手法は既存手法の代替として有効であることが示唆された。 このアプローチは将来のモデル圧縮研究に貴重な洞察を与えるだろうと期待する。

Previous logits-based Knowledge Distillation (KD) have utilized predictions about multiple categories within each sample (i.e., class predictions) and have employed Kullback-Leibler (KL) divergence to reduce the discrepancy between the student and teacher predictions. Despite the proliferation of KD techniques, the student model continues to fall short of achieving a similar level as teachers. In response, we introduce a novel and effective KD method capable of achieving results on par with or superior to the teacher models performance. We utilize teacher and student predictions about multiple samples for each category (i.e., batch predictions) and apply cosine similarity, a commonly used technique in Natural Language Processing (NLP) for measuring the resemblance between text embeddings. This metric's inherent scale-invariance property, which relies solely on vector direction and not magnitude, allows the student to dynamically learn from the teacher's knowledge, rather than being bound by a fixed distribution of the teacher's knowledge. Furthermore, we propose a method called cosine similarity weighted temperature (CSWT) to improve the performance. CSWT reduces the temperature scaling in KD when the cosine similarity between the student and teacher models is high, and conversely, it increases the temperature scaling when the cosine similarity is low. This adjustment optimizes the transfer of information from the teacher to the student model. Extensive experimental results show that our proposed method serves as a viable alternative to existing methods. We anticipate that this approach will offer valuable insights for future research on model compression.
翻訳日:2023-11-27 15:50:48 公開日:2023-11-24
# AIスーパービジョンの新しいエポック:自律的放射線学AIモニタリングシステムの設計と実装

New Epochs in AI Supervision: Design and Implementation of an Autonomous Radiology AI Monitoring System ( http://arxiv.org/abs/2311.14305v1 )

ライセンス: Link先を確認
Vasantha Kumar Venugopal, Abhishek Gupta, Rohit Takhar, Vidur Mahajan(参考訳) 医療におけるAIの普及が拡大するにつれて、臨床実践におけるAIモデルの正確性と信頼性の維持が重要になっている。 本稿では,実演における放射線学AI分類モデルの性能モニタリングのための新しい手法を提案する。 予測分散と時間安定性という2つの指標を提案し、AIのパフォーマンス変化のプリエンプティブアラートに使用する。 kullback-leiblerとjensen-shannon divergencesを用いて測定された予測発散は、2つの補足モデルと予測を比較してモデルの精度を評価する。 時間的安定性は、過去の移動平均との比較を通じて評価され、潜在的なモデル崩壊やデータドリフトを特定する。 このアプローチは、単一の中心画像クリニックの胸部X線データを用いて振り返りに検証され、AIモデルの信頼性を維持する効果が実証された。 モデルパフォーマンスに関する継続的かつリアルタイムな洞察を提供することによって、我々のシステムは、臨床意思決定におけるAIの安全かつ効果的な使用を保証し、医療におけるより堅牢なAI統合への道を開く。

With the increasingly widespread adoption of AI in healthcare, maintaining the accuracy and reliability of AI models in clinical practice has become crucial. In this context, we introduce novel methods for monitoring the performance of radiology AI classification models in practice, addressing the challenges of obtaining real-time ground truth for performance monitoring. We propose two metrics - predictive divergence and temporal stability - to be used for preemptive alerts of AI performance changes. Predictive divergence, measured using Kullback-Leibler and Jensen-Shannon divergences, evaluates model accuracy by comparing predictions with those of two supplementary models. Temporal stability is assessed through a comparison of current predictions against historical moving averages, identifying potential model decay or data drift. This approach was retrospectively validated using chest X-ray data from a single-center imaging clinic, demonstrating its effectiveness in maintaining AI model reliability. By providing continuous, real-time insights into model performance, our system ensures the safe and effective use of AI in clinical decision-making, paving the way for more robust AI integration in healthcare
翻訳日:2023-11-27 15:50:00 公開日:2023-11-24
# AdaMedGraph: パーソナライズドメディカルのためのグラフニューラルネットワーク

AdaMedGraph: Adaboosting Graph Neural Networks for Personalized Medicine ( http://arxiv.org/abs/2311.14304v1 )

ライセンス: Link先を確認
Jie Lian, Xufang Luo, Caihua Shan, Dongqi Han, Varut Vardhanabhuti, Dongsheng Li(参考訳) 近年,個別患者に適した精密医療が注目されている。 画像や遺伝学、評価など、さまざまなソースからパーソナライズされたデータを処理するために、機械学習技術が使用されている。 これらの技術は多くの臨床予測タスクにおいて良い結果を示した。 特に類似した患者をリンクしてグラフニューラルネットワーク(gnns)を適用することによりグラフを構築するアプローチは際立っている。 しかし,各患者が多種多様な情報源から高次元の特徴によって描写されることを考えると,患者の類似性を定義してグラフを構築するのに適したエッジ特徴を選択することは困難である。 これまでの研究では、エッジ機能の選択に人間の専門知識に依存しており、複雑な疾患の重要なエッジ機能を特定するのにスケーラブルでも効率的でもない。 本稿では,複数の患者類似性グラフを構築するために重要な特徴を自動的に選択し,これらのグラフに基づいてGNNを適応的ブースティングにおける弱い学習者として訓練する,‘ours’というアルゴリズムを提案する。 \ours{}は2つの現実世界の医療シナリオで評価され、優れたパフォーマンスを示す。

Precision medicine tailored to individual patients has gained significant attention in recent times. Machine learning techniques are now employed to process personalized data from various sources, including images, genetics, and assessments. These techniques have demonstrated good outcomes in many clinical prediction tasks. Notably, the approach of constructing graphs by linking similar patients and then applying graph neural networks (GNNs) stands out, because related information from analogous patients are aggregated and considered for prediction. However, selecting the appropriate edge feature to define patient similarity and construct the graph is challenging, given that each patient is depicted by high-dimensional features from diverse sources. Previous studies rely on human expertise to select the edge feature, which is neither scalable nor efficient in pinpointing crucial edge features for complex diseases. In this paper, we propose a novel algorithm named \ours, which can automatically select important features to construct multiple patient similarity graphs, and train GNNs based on these graphs as weak learners in adaptive boosting. \ours{} is evaluated on two real-world medical scenarios and shows superiors performance.
翻訳日:2023-11-27 15:48:57 公開日:2023-11-24
# スパイクニューラルネットワークを用いたRFI検出

RFI Detection with Spiking Neural Networks ( http://arxiv.org/abs/2311.14303v1 )

ライセンス: Link先を確認
Nicholas J. Pritchard, Andreas Wicenec, Mohammed Bennamoun and Richard Dodson(参考訳) 電波望遠鏡の科学的出力の実現と最大化にはrfi(radio frequency interference)検出と緩和が不可欠である。 大規模なデータセットを扱う機械学習手法の出現は、ラジオ天文学、特にRFI検出への応用に繋がった。 生体システムにインスパイアされたスパイキングニューラルネットワーク(SNN)は時空間データの処理に適している。 本研究では、SNNの天文データ処理タスク、特にRFI検出への応用について紹介する。 我々は,従来の著者が提案したNLNアルゴリズムとオートエンコーダアーキテクチャを,ANN2SNN変換によるSNN実行に適用し,内部スパイキングニューロンから自然に変化する潜伏空間をサンプリングすることにより,下流RFI検出を簡略化する。 筆者らが提供したhera望遠鏡と手ラベル付きlofarデータセットによる性能評価を行った。 さらに,meerkatにインスパイアされた新たなシミュレーションデータセットによるパフォーマンス評価も行った。 このデータセットは、ますます重要なRFIのクラスである衛星ベースのRFIに焦点を当てており、そのため追加の貢献である。 我々のSNNアプローチは、HERAデータセットのAUROC、AUPRC、F1スコアにおける元のNLNアルゴリズムとAOFlaggerと競合するが、LOFARとMeerKATデータセットでは困難である。 しかし, nln では計算処理やメモリインテンセントの潜在サンプリングステップを完全に取り除きながら, この性能を維持している。 本研究は,SNNの電波望遠鏡における機械学習に基づくRFI検出のための有望な道として,従来の衛星ベースのRFIソース上での最小性能基準を確立することにより,SNNの生存可能性を示すものである。

Radio Frequency Interference (RFI) detection and mitigation is critical for enabling and maximising the scientific output of radio telescopes. The emergence of machine learning methods capable of handling large datasets has led to their application in radio astronomy, particularly in RFI detection. Spiking Neural Networks (SNNs), inspired by biological systems, are well-suited for processing spatio-temporal data. This study introduces the first application of SNNs to an astronomical data-processing task, specifically RFI detection. We adapt the nearest-latent-neighbours (NLN) algorithm and auto-encoder architecture proposed by previous authors to SNN execution by direct ANN2SNN conversion, enabling simplified downstream RFI detection by sampling the naturally varying latent space from the internal spiking neurons. We evaluate performance with the simulated HERA telescope and hand-labelled LOFAR dataset that the original authors provided. We additionally evaluate performance with a new MeerKAT-inspired simulation dataset. This dataset focuses on satellite-based RFI, an increasingly important class of RFI and is, therefore, an additional contribution. Our SNN approach remains competitive with the original NLN algorithm and AOFlagger in AUROC, AUPRC and F1 scores for the HERA dataset but exhibits difficulty in the LOFAR and MeerKAT datasets. However, our method maintains this performance while completely removing the compute and memory-intense latent sampling step found in NLN. This work demonstrates the viability of SNNs as a promising avenue for machine-learning-based RFI detection in radio telescopes by establishing a minimal performance baseline on traditional and nascent satellite-based RFI sources and is the first work to our knowledge to apply SNNs in astronomy.
翻訳日:2023-11-27 15:48:33 公開日:2023-11-24
# ブロック点近傍におけるユニバーサルスケールフリー非エルミチアンスキン効果

Universal Scale-Free Non-Hermitian Skin Effect Near Bloch Point ( http://arxiv.org/abs/2311.14302v1 )

ライセンス: Link先を確認
Wei Li, Zhoujian Sun, Ze Yang and Fuxiang Li(参考訳) スケールフリー非エルミート皮膚効果(NHSE)は、非エルミート系における皮膚モードの局在長がシステムサイズに比例する現象である。 近年の研究では、スケールフリーなnhseは臨界nhse、局所的非ヘルミティシティ、境界不純物効果など様々なメカニズムによって誘導できることが示されている。 それでもこれらの手法には、慎重にモデリングと正確なパラメータチューニングが必要である。 対照的に、我々の研究はスケールフリーのNHSEは普遍的な現象であり、これらの系が非ブロックバンド理論によって記述できる限り、広範なシステムで観測可能であることを示唆し、熱力学限界におけるエネルギースペクトルのブロッホ点をホストする。 重要な点として,gbz の幾何構造は局所化長のスケーリング則を定めており,システムサイズと線形あるいは二次的にスケール可能であることを発見した。 本研究は無スケールNHSE現象を豊かにする。

The scale-free non-Hermitian skin effect (NHSE) refers to the phenomenon that the localization length of skin modes scales proportionally with system size in non-Hermitian systems. Recent studies have demonstrated that scale-free NHSE can be induced through various mechanisms, including critical NHSE, local non-Hermiticity, and boundary impurity effect. Nevertheless, these methods require careful modeling and precise parameter tuning. In contrast, our research suggests that scale-free NHSE is a universal phenomenon, observable in extensive systems as long as these systems can be described by non-Bloch band theory and host Bloch points on the energy spectrum in the thermodynamic limit. Crucially, we discover that the geometry of the GBZ determines the scaling rule of the localization length, which can scale either linearly or quadratically with the system size. Our study enriches the phenomenon of scale-free NHSE.
翻訳日:2023-11-27 15:47:59 公開日:2023-11-24
# GeoViT:地理空間画像解析のための可視変換器アーキテクチャ

GeoViT: A Versatile Vision Transformer Architecture for Geospatial Image Analysis ( http://arxiv.org/abs/2311.14301v1 )

ライセンス: Link先を確認
Madhav Khirwar, Ankur Narang(参考訳) 温室効果ガスは気候変動の原動力であり、正確な定量化と資源の同定を必要としている。 我々は,CO2およびNO2排出をターゲットとしたマルチモーダルセグメンテーション,分類,回帰タスクのための衛星画像処理に有効な小型視覚変換器モデルGeoViTを紹介する。 GeoViTを応用し, 発電速度, 燃料タイプ, CO2 の配管被覆率, 高分解能NO2 濃度マッピングの精度を向上し, モデルサイズを大幅に削減した。 GeoViTは、衛星から得られるデータを利用してGHG排出の洞察を高め、気候変動の監視と排出規制をグローバルに進める上で、ビジョントランスフォーマーアーキテクチャの有効性を実証している。

Greenhouse gases are pivotal drivers of climate change, necessitating precise quantification and source identification to foster mitigation strategies. We introduce GeoViT, a compact vision transformer model adept in processing satellite imagery for multimodal segmentation, classification, and regression tasks targeting CO2 and NO2 emissions. Leveraging GeoViT, we attain superior accuracy in estimating power generation rates, fuel type, plume coverage for CO2, and high-resolution NO2 concentration mapping, surpassing previous state-of-the-art models while significantly reducing model size. GeoViT demonstrates the efficacy of vision transformer architectures in harnessing satellite-derived data for enhanced GHG emission insights, proving instrumental in advancing climate change monitoring and emission regulation efforts globally.
翻訳日:2023-11-27 15:47:42 公開日:2023-11-24
# 射影進化形式における量子時計

Quantum clock in the projection evolution formalism ( http://arxiv.org/abs/2311.14380v1 )

ライセンス: Link先を確認
Andrzej G\'o\'zd\'z, Marek G\'o\'zd\'z(参考訳) プロジェクション進化(PEv)アプローチを用いることで、観測可能な量子力学に時間を含めることができる。 時間演算子を持つことで、様々な量子事象の時間構造を探索することができる。 本稿では,その量子進化中に時間的に進行する量子時計を,新しい位置の時間軸上に自在に局在させる確率を持つステップごとに構築する可能性について議論する。 このような時計の最も単純な例として,動作する2状態モデルを提案する。

Using the projection evolution (PEv) approach, time can be included in the quantum mechanics as an observable. Having the time operator, it is possible to explore the temporal structure of various quantum events. In the present paper we discuss the possibility of constructing a quantum clock, which advances in time during its quantum evolution, in each step having some probability to localize itself on the time axis in the new position. We propose a working two-state model as the simplest example of such a clock.
翻訳日:2023-11-27 15:39:36 公開日:2023-11-24
# 高等教育におけるChatGPTの倫理的意味:スコーピング・レビュー

Ethical implications of ChatGPT in higher education: A scoping review ( http://arxiv.org/abs/2311.14378v1 )

ライセンス: Link先を確認
Ming Li, Ariunaa Enkhtur, Fei Cheng, Beverley Anne Yamamoto(参考訳) このスコーピングレビューは、教育においてchatgptを使用する倫理的課題を探求し、特に高等教育に関する問題に焦点を当てている。 英語,中国語,日本語で書かれた最近の学術論文をレビューすることで,今後の考察のギャップを特定しつつ,関連する研究の概要を概観することを目的とした。 Arksey and O'Malley's five-stage scoping review framework(2005)を参考に、調査質問、検索用語を特定し、対象3言語で4つのデータベースから記事検索を行った。 それぞれの論文は少なくとも2人の研究者によってレビューされ、教育、特に高等教育でaiを利用する主な倫理的問題を特定した。 我々はDeepMind(Weiginger et al., 2021)によって開発された言語モデルにおける倫理的関心事の6つの主要な領域を特定する枠組みに従って倫理的問題を分析した。 論文の大半は誤情報害(n=25)と人間とコンピュータの相互作用関連害(n=24)に関係していた。 ジェネレーティブ・人工知能(GAI)の急速な展開を考えると、教育者はより経験的な研究を行い、GAIを使用するための健全な倫理政策を開発することが不可欠である。

This scoping review explores the ethical challenges of using ChatGPT in education, focusing particularly on issues related to higher education. By reviewing recent academic articles written in English, Chinese, and Japanese, we aimed to provide a comprehensive overview of relevant research while identifying gaps for future considerations. Drawing on Arksey and O'Malley's (2005) five-stage scoping review framework, we identified research questions, search terms, and conducted article search from four databases in the target three languages. Each article was reviewed by at least two researchers identifying the main ethical issues of utilizing AI in education, particularly higher education. Our analysis of ethical issues followed the framework developed by DeepMind (Weiginger et al., 2021) to identify six main areas of ethical concern in Language Models. The majority of papers were concerned with misinformation harms (n=25) and/or human-computer interaction related harms (n=24). Given the rapid deployment of Generative Artificial Intelligence (GAI), it is imperative for educators to conduct more empirical studies to develop sound ethical policies for the use of GAI.
翻訳日:2023-11-27 15:39:28 公開日:2023-11-24
# 円形でセキュアで小さなaiのための連合型トランスフォーメーション学習

Federated Transformed Learning for a Circular, Secure, and Tiny AI ( http://arxiv.org/abs/2311.14371v1 )

ライセンス: Link先を確認
Weisi Guo, Schyler Sun, Bin Li, Sam Blakeman(参考訳) Deep Learning(DL)は、さまざまな種類のマスモビリティ、スマートリビング、産業アプリケーションに浸透し、私たちの生活や仕事のやり方を急速に変えています。 DLは多くのAI実装の中心にある。 1) "circular" - 前の問題を解決する方法を忘れずに新しいタスクを解決できる、(2)"secure" - 敵対的なデータ攻撃に対する免責を持つ、(3)"tiny" - 低電力の低価格組み込みハードウェアで実装できる。 異なる計算と通信の要求を伴う深い表現を変換する必要があるため、プラットフォームの横1層で3つの側面をすべて達成することは困難である。 ここでは、5GおよびBeyondネットワークアーキテクチャで変換されたDL表現を実現するというビジョンを打ち出した。 まず,各課題領域における横断的モチベーションを詳述し,循環型でセキュアで小さなAI(CST-AI)を実現するDL研究の最近の進歩を示す。 各変換された深層表現の相反する需要を認識し、その深層学習変換とネットワーク全体の機能を統合して、接続されたランタイム機能を実現します。

Deep Learning (DL) is penetrating into a diverse range of mass mobility, smart living, and industrial applications, rapidly transforming the way we live and work. DL is at the heart of many AI implementations. A key set of challenges is to produce AI modules that are: (1) "circular" - can solve new tasks without forgetting how to solve previous ones, (2) "secure" - have immunity to adversarial data attacks, and (3) "tiny" - implementable in low power low cost embedded hardware. Clearly it is difficult to achieve all three aspects on a single horizontal layer of platforms, as the techniques require transformed deep representations that incur different computation and communication requirements. Here we set out the vision to achieve transformed DL representations across a 5G and Beyond networked architecture. We first detail the cross-sectoral motivations for each challenge area, before demonstrating recent advances in DL research that can achieve circular, secure, and tiny AI (CST-AI). Recognising the conflicting demand of each transformed deep representation, we federate their deep learning transformations and functionalities across the network to achieve connected run-time capabilities.
翻訳日:2023-11-27 15:39:05 公開日:2023-11-24
# 様々な物理機構を用いたニューラル演算子学習のための不変解の解読と統合

Deciphering and integrating invariants for neural operator learning with various physical mechanisms ( http://arxiv.org/abs/2311.14361v1 )

ライセンス: Link先を確認
Rui Zhang, Qi Meng, Zhi-Ming Ma(参考訳) ニューラル作用素は、従来の偏微分方程式(PDE)の極限を克服するために物理系をシミュレートする代理モデルとして研究されてきた。 しかし、既存の演算子学習手法の多くは、データが単一の物理的メカニズムに由来すると仮定しており、より現実的なシナリオでその適用可能性と性能を制限している。 そこで本研究では,PDE級数からの演算子学習のための物理不変量(PI)を様々な物理機構で解読し,統合する物理不変量ニューラルネットワーク(PIANO)を提案する。 PIANOは、物理的知識と注意機構を抽出し、それらを動的畳み込み層に統合するために自己教師付き学習を採用している。 既存の手法と比較して、PIANOは、係数、力、境界条件の異なるPDE予測タスクにおいて、相対誤差を13.6\%-82.2\%削減することができる。 さらに、下流の様々なタスクは、PIANOによって解読されたPI埋め込みが、PDEシステムの基盤となる不変量とよく一致していることを示し、PIANOの物理的重要性を検証する。 ソースコードは、https://github.com/optray/PIANO.comで公開される。

Neural operators have been explored as surrogate models for simulating physical systems to overcome the limitations of traditional partial differential equation (PDE) solvers. However, most existing operator learning methods assume that the data originate from a single physical mechanism, limiting their applicability and performance in more realistic scenarios. To this end, we propose Physical Invariant Attention Neural Operator (PIANO) to decipher and integrate the physical invariants (PI) for operator learning from the PDE series with various physical mechanisms. PIANO employs self-supervised learning to extract physical knowledge and attention mechanisms to integrate them into dynamic convolutional layers. Compared to existing techniques, PIANO can reduce the relative error by 13.6\%-82.2\% on PDE forecasting tasks across varying coefficients, forces, or boundary conditions. Additionally, varied downstream tasks reveal that the PI embeddings deciphered by PIANO align well with the underlying invariants in the PDE systems, verifying the physical significance of PIANO. The source code will be publicly available at: https://github.com/optray/PIANO.
翻訳日:2023-11-27 15:38:42 公開日:2023-11-24
# ゼロインフレーション計数結果のためのトンプソンサンプリングとDrink Less Mobile Health研究への応用

Thompson sampling for zero-inflated count outcomes with an application to the Drink Less mobile health study ( http://arxiv.org/abs/2311.14359v1 )

ライセンス: Link先を確認
Xueqing Liu, Nina Deliu, Tanujit Chakraborty, Lauren Bell, Bibhas Chakraborty(参考訳) モバイルヘルス(mhealth)技術は、just-in-timeadaptive interventions(ジャスト・イン・タイム・アダプティブ・インターベンション)を通じて近位部アウトカムを最適化することで、臨床状態などの遠位部アウトカムを改善することを目的としている。 コンテキストバンディットは、個々の時間変動コンテキストに応じてそのような介入をカスタマイズするための適切なフレームワークを提供する。 しかしながら、バンディットフレームワーク内のカウント結果のモデリングのようなユニークな課題は、文脈的バンディットをmHealth研究に広く適用することを妨げている。 現在の作業は、カウントデータモデルをオンライン意思決定アプローチに活用することで、この課題に対処している。 具体的には、一般的なオフラインカウントデータモデル(Poisson, negative binomial, zero-inflated Poisson, zero-inflated negative binomial regressions)と、一般的な文脈的バンディットアルゴリズムであるThompsonサンプリングを組み合わせた。 提案アルゴリズムは,mHealthシステムとのユーザエンゲージメントを改善するために,ドリンク・スリート・トライアルの実際のデータセットを用いて,モチベーションと評価を行う。 提案手法はシミュレーションデータ上でさらに評価され,既存のアルゴリズムよりも累積的近位結果の最大化が図られる。 後悔の限界に関する理論的結果も導かれる。 提案手法を実装したユーザフレンドリなRパッケージカウントをhttps://cran.r-project.org/web/packages/counttsで公開している。

Mobile health (mHealth) technologies aim to improve distal outcomes, such as clinical conditions, by optimizing proximal outcomes through just-in-time adaptive interventions. Contextual bandits provide a suitable framework for customizing such interventions according to individual time-varying contexts, intending to maximize cumulative proximal outcomes. However, unique challenges such as modeling count outcomes within bandit frameworks have hindered the widespread application of contextual bandits to mHealth studies. The current work addresses this challenge by leveraging count data models into online decision-making approaches. Specifically, we combine four common offline count data models (Poisson, negative binomial, zero-inflated Poisson, and zero-inflated negative binomial regressions) with Thompson sampling, a popular contextual bandit algorithm. The proposed algorithms are motivated by and evaluated on a real dataset from the Drink Less trial, where they are shown to improve user engagement with the mHealth system. The proposed methods are further evaluated on simulated data, achieving improvement in maximizing cumulative proximal outcomes over existing algorithms. Theoretical results on regret bounds are also derived. A user-friendly R package countts that implements the proposed methods for assessing contextual bandit algorithms is made publicly available at https://cran.r-project.org/web/packages/countts.
翻訳日:2023-11-27 15:38:23 公開日:2023-11-24
# Average Token Delay: 同時翻訳のための経時的遅延メトリクス

Average Token Delay: A Duration-aware Latency Metric for Simultaneous Translation ( http://arxiv.org/abs/2311.14353v1 )

ライセンス: Link先を確認
Yasumasa Kano, Katsuhito Sudoh, Satoshi Nakamura(参考訳) 同時翻訳は、入力された音声セグメントの終了前に翻訳が始まるタスクである。 その評価は品質に加えてレイテンシに基づいて行うべきであり、ユーザにとっては最小限のレイテンシが望ましい。 既存のメトリクスのほとんどは、部分翻訳の開始タイミングに基づいてレイテンシを測定し、その期間を無視する。 これは、長い翻訳出力によるレイテンシをペナルティにしないことを意味しており、ユーザの理解とその後の翻訳を遅らせる。 本研究では,部分翻訳の継続時間に着目した同時翻訳のための新しい遅延評価指標である 'emph{Average Token Delay} (ATD) を提案する。 本稿では,Ear-Voice Span (EVS) に基づくユーザ側遅延の解析により,その効果を実証する。 実験では,ほとんどの条件下でのベースライン遅延測定値において,ATDとEVSの相関が最も高かった。

Simultaneous translation is a task in which the translation begins before the end of an input speech segment. Its evaluation should be conducted based on latency in addition to quality, and for users, the smallest possible amount of latency is preferable. Most existing metrics measure latency based on the start timings of partial translations and ignore their duration. This means such metrics do not penalize the latency caused by long translation output, which delays the comprehension of users and subsequent translations. In this work, we propose a novel latency evaluation metric for simultaneous translation called \emph{Average Token Delay} (ATD) that focuses on the duration of partial translations. We demonstrate its effectiveness through analyses simulating user-side latency based on Ear-Voice Span (EVS). In our experiment, ATD had the highest correlation with EVS among baseline latency metrics under most conditions.
翻訳日:2023-11-27 15:37:50 公開日:2023-11-24
# 動的駆動2レベル系の非線形光信号によるモルロー物理と摂動自由誘導減衰の相互作用の解明

Unveiling the interplay of Mollow physics and perturbed free induction decay by nonlinear optical signals of a dynamically driven two-level system ( http://arxiv.org/abs/2311.14351v1 )

ライセンス: Link先を確認
Jan M. Kaspari, Thomas K. Bracht, Katarina Boos, Sang Kyu Kim, Friedrich Sbresny, Kai Mueller, Doris E. Reiter(参考訳) 光駆動量子系の非線形光学信号はコヒーレンスを明らかにし、量子状態を操作する可能性を開く。 超高速かつ連続波励起の制限事例は広く研究されているが、有限パルスの時間力学は興味深い現象である。 本稿では,レーザーパルスを有限時間励起した2レベル系の非線形光プローブ信号について検討する。 顕著なモローピークに加えて、プローブスペクトルは特定の時間遅延のためにいくつかの小さなピークを特徴付ける。 共鳴蛍光信号(arxiv:2305.15827 (2023))も同様の特徴が最近観測されている。 創発現象は、モルロー三重項物理学と摂動誘導減衰効果の組み合わせによって説明され、基礎となる物理学の洞察に富んだ理解を与えることができる。

Nonlinear optical signals in optically driven quantum systems can reveal coherences and thereby open up the possibility for manipulation of quantum states. While the limiting cases of ultrafast and continuous-wave excitation have been extensively studied, the time-dynamics of finite pulses bear interesting phenomena. In this paper, we explore the nonlinear optical probe signals of a two-level system excited with a laser pulse of finite duration. In addition to the prominent Mollow peaks, the probe spectra feature several smaller peaks for certain time delays. Similar features have been recently observed for resonance fluorescence signals [arxiv:2305.15827 (2023)]. We discuss that the emergent phenomena can be explained by a combination of Mollow triplet physics and perturbed free induction decay effects, providing an insightful understanding of the underlying physics.
翻訳日:2023-11-27 15:37:38 公開日:2023-11-24
# deus:分散型電子患者ファイル更新システム

DEUS: Distributed Electronic Patient File Update System ( http://arxiv.org/abs/2311.14349v1 )

ライセンス: Link先を確認
Christoph P. Neumann and Florian Rampp and Richard Lenz(参考訳) 患者情報が不十分であることは、医療ミスの主な原因であり、医療費に影響を及ぼす。 医療における情報統合への伝統的なアプローチは、この問題を解決しない。 ドキュメント指向のパラダイムをシステム統合に適用することで、医療における制度間情報交換が可能になる。 提案アーキテクチャの目標は,プライマリケアとセカンダリケアのギャップを埋めることで,厳格な自律医療機関間の情報交換を提供することである。 長期医療データ配信のシナリオでは、患者は個人の健康情報に対する主権を維持する必要がある。 このように、従来のパブリッシュ/サブスクライブアーキテクチャは、データフロー内の人間の仲介のフェーズによって拡張される。 DEUSは基本的に、情報著者と情報出版者の役割を異なるアクターに分離し、三角形のデータフローをもたらす。 対話のシナリオは動機づけられるでしょう。 人間の仲裁の重要性について論じる。 DEUSは、仲介パブサブのために、注意深く区別されたアクターとロールモデルを提供する。 参加者間のデータフローは、情報交換の異なるフェーズに分解される。 人工物モデルは、役割依存的な構成部品に分解される。 ドメイン特異的(医療)用語と汎用用語の両方が提供される。 技術的な観点からは、システム設計が提示される。 ネットワーク転送のサブレイヤは、ヒューマンマシンインタラクションのサブシステムと同様に強調される。

Inadequate availability of patient information is a major cause for medical errors and affects costs in healthcare. Traditional approaches to information integration in healthcare do not solve the problem. Applying a document-oriented paradigm to systems integration enables inter-institutional information exchange in healthcare. The goal of the proposed architecture is to provide information exchange between strict autonomous healthcare institutions, bridging the gap between primary and secondary care. In a long-term healthcare data distribution scenario, the patient has to maintain sovereignty over any personal health information. Thus, the traditional publish-subscribe architecture is extended by a phase of human mediation within the data flow. DEUS essentially decouples the roles of information author and information publisher into distinct actors, resulting in a triangular data flow. The interaction scenario will be motivated. The significance of human mediation will be discussed. DEUS provides a carefully distinguished actor and role model for mediated pub-sub. The data flow between the participants is factored into distinct phases of information interchange. The artefact model is decomposed into role-dependent constituent parts. Both a domain specific (healthcare) terminology and a generic terminology is provided. From a technical perspective, the system design is presented. The sublayer for network transfer will be highlighted as well as the subsystem for human-machine interaction.
翻訳日:2023-11-27 15:37:25 公開日:2023-11-24
# 同期多フレーム拡散による高精細・時間連続ビデオスティル化

Highly Detailed and Temporal Consistent Video Stylization via Synchronized Multi-Frame Diffusion ( http://arxiv.org/abs/2311.14343v1 )

ライセンス: Link先を確認
Minshan Xie, Hanyuan Liu, Chengze Li and Tien-Tsin Wong(参考訳) テキストガイド付きビデオからビデオへのスタイライゼーションは、ソースビデオの視覚的な外観を、テキストプロンプトに基づいて異なる外観に変換する。 既存のテキスト誘導画像拡散モデルは、スタイリッシュなビデオ合成のために拡張することができる。 しかし、彼らは高精細な外観と時間的一貫性の両方でビデオを生成するのに苦労している。 本稿では,視覚的詳細と時間的一貫性を両立させる同期型マルチフレーム拡散フレームワークを提案する。 フレームは同期的にデノ化され、さらに重要なことに、デノ化プロセスの開始時から異なるフレームの情報が共有される。 このような情報共有によって、全体構造と色分布の観点から、フレーム間のコンセンサスが、遅すぎる前にデノナイジングプロセスの初期段階に到達できることが保証される。 オリジナルビデオからの光学的流れは接続として機能し、したがってフレーム間の情報共有の場となる。 本手法は,高品質で多種多様な実験結果を生成する際に有効であることを示す。 本手法は,最新の映像編集手法と比較して,質的,定量的に優れた結果を示す。

Text-guided video-to-video stylization transforms the visual appearance of a source video to a different appearance guided on textual prompts. Existing text-guided image diffusion models can be extended for stylized video synthesis. However, they struggle to generate videos with both highly detailed appearance and temporal consistency. In this paper, we propose a synchronized multi-frame diffusion framework to maintain both the visual details and the temporal consistency. Frames are denoised in a synchronous fashion, and more importantly, information of different frames is shared since the beginning of the denoising process. Such information sharing ensures that a consensus, in terms of the overall structure and color distribution, among frames can be reached in the early stage of the denoising process before it is too late. The optical flow from the original video serves as the connection, and hence the venue for information sharing, among frames. We demonstrate the effectiveness of our method in generating high-quality and diverse results in extensive experiments. Our method shows superior qualitative and quantitative results compared to state-of-the-art video editing methods.
翻訳日:2023-11-27 15:37:10 公開日:2023-11-24
# 視覚言語モデルを用いた皮膚病変診断の概念的解釈可能性に向けて

Towards Concept-based Interpretability of Skin Lesion Diagnosis using Vision-Language Models ( http://arxiv.org/abs/2311.14339v1 )

ライセンス: Link先を確認
Cristiano Patr\'icio, Lu\'is F. Teixeira, Jo\~ao C. Neves(参考訳) 概念に基づくモデルは、本質的に解釈可能な皮膚病変の診断の開発に自然に役立ち、医療の専門家は病変の一連の視覚パターンに基づいて決定を下す。 それにもかかわらず、これらのモデルの開発は、アノテーションプロセスに必要な専門的な知識と専門知識のために可用性が低い概念注釈データセットの存在に依存する。 本研究では,視覚言語モデルを用いて,多数の概念注釈付きサンプルへの依存を緩和できることを示す。 特に,CLIPをテキスト埋め込みとして概念に基づく記述を用いた皮膚病変分類の下流タスクに適用するための埋め込み学習戦略を提案する。 実験により,視覚言語モデルでは,概念をテキスト埋め込みとして使用する場合の精度が向上するだけでなく,概念注釈付きサンプルを少なくすることで,概念自動生成のためのアプローチに匹敵する性能が得られることが明らかとなった。

Concept-based models naturally lend themselves to the development of inherently interpretable skin lesion diagnosis, as medical experts make decisions based on a set of visual patterns of the lesion. Nevertheless, the development of these models depends on the existence of concept-annotated datasets, whose availability is scarce due to the specialized knowledge and expertise required in the annotation process. In this work, we show that vision-language models can be used to alleviate the dependence on a large number of concept-annotated samples. In particular, we propose an embedding learning strategy to adapt CLIP to the downstream task of skin lesion classification using concept-based descriptions as textual embeddings. Our experiments reveal that vision-language models not only attain better accuracy when using concepts as textual embeddings, but also require a smaller number of concept-annotated samples to attain comparable performance to approaches specifically devised for automatic concept generation.
翻訳日:2023-11-27 15:36:53 公開日:2023-11-24
# 表面コードのロバスト性と測定によるパーコレーション

Robustness and measurement-induced percolation of the surface code ( http://arxiv.org/abs/2311.14338v1 )

ライセンス: Link先を確認
Thomas Botzung, Michael Buchhold, Sebastian Diehl and Markus M\"uller(参考訳) 本研究では,「測定誤差」に基づく平面表面符号における論理量子ビットのロバスト性,すなわち,既知の位置における局所的なパウリ測定について検討する。 これは、局所的なパウリ測定と安定化器測定の競合によって駆動される測定のみのダイナミクスをもたらす。 この設定は、デコヒーレンスによるエラーが発生し、その位置が不明な従来の表層コードとは異なる。 しかし,本設定では,パーコレーション理論と数値シミュレーションに基づく解析的議論の組み合わせを用いて,エンコードされた論理キュービットのダイナミクスを検証できる。 第一に、一ラウンドのパウリ測度のみの場合、論理量子ビットの可逆損失に対応する閾値は、$ \hat X$-と$\hat Z$-の測定率にのみ依存し、この論理量子情報の損失は2次元正方形格子における結合パーコレーション遷移と等価であることを示す。 局所的な$\hat y$-measurementsは$x$と$z$スタビライザーの両方に影響を与え、ダイアゴナルの1つに沿った全ての物理キュービットが測定されている場合に限り論理キュービットを消去する。 次に,pauli測定のラウンドと安定化器測定のラウンド間の相互作用を考慮し,コードのダイナミクスを検討する。 論理キュービットの寿命に着目し,異なる動的レジームを特徴とするリッチな位相図を得る。 この設定における論理キュービットの損失は、パーコレーション理論によっても理解でき、数値シミュレーションによって議論を基礎としている。

We examine the robustness of a logical qubit in the planar surface code subject to 'measurement-errors', i.e., to local Pauli measurements at known positions. This yields a measurement-only dynamics, which is driven by the competition between local Pauli measurements and stabilizer measurements. The setup differs from the conventional surface code for which errors are caused by decoherence and their positions are unknown. Yet, our setting allows us to examine the dynamics of the encoded logical qubit by using a combination of analytical arguments based on percolation theory and numerical simulations. Firstly, we show that for a single round of Pauli measurements only, the threshold corresponding to the irreversible loss of the logical qubit depends only on the rate of $ \hat X$- and $\hat Z$-measurements, and that this loss of logical quantum information is equivalent to the bond percolation transition in a 2D square lattice. Local $\hat Y$-measurements, which affect both $X$ and $Z$ stabilizers, erase the logical qubit only if all physical qubits along one of the diagonals are measured, and are thus negligible at large code distance. Secondly, we examine the dynamics in the code by considering the interplay between rounds of Pauli measurements and rounds of stabilizer measurements. Focusing on the lifetime of the logical qubit, we obtain a rich phase diagram featuring different dynamical regimes. We argue that the loss of the logical qubit in this setting can still be understood by percolation theory and underpin our arguments with numerical simulations.
翻訳日:2023-11-27 15:36:36 公開日:2023-11-24
# TVT:Tinyデータセット上でのトレーニングフリービジョントランスフォーマー検索

TVT: Training-Free Vision Transformer Search on Tiny Datasets ( http://arxiv.org/abs/2311.14337v1 )

ライセンス: Link先を確認
Zimian Wei, Hengyue Pan, Lujun Li, Peijie Dong, Zhiliang Tian, Xin Niu, Dongsheng Li(参考訳) トレーニングフリービジョントランスフォーマー(ViT)アーキテクチャサーチは、コストゼロのプロキシを持つより良いViTを探すために提示される。 小型データセット上でのCNN教師モデルから,ViTの蒸留能力は著しく向上するが,現在のViTのゼロコストプロキシは,実験結果により,蒸留訓練パラダイムに適していない。 本稿では,教師モデルの助けを借りて,トレーニングフリーで検索する方法を初めて検討し,効果的なトレーニングフリーViT(TVT)検索フレームワークを考案する。 まず,ViTとConvNetの教師間の注意マップの類似性は,蒸留精度に顕著に影響を及ぼす。 そこで本研究では,教師と学生の特徴的注意関係に着目した教師対応尺度を提案する。 さらに、tvtは学生の体重のl2ノルムを学生能力指標として採用し、ランキングの一貫性を高めている。 最後に、TVTは、教師が認識するメトリックと生徒の能力のメトリクスを使って、ConvNetの教師と蒸留するための最高のViTを検索する。 様々な小さなデータセットや検索空間に関する大規模な実験により、我々のTVTは最先端のトレーニング不要な検索方法よりも優れています。 コードはリリースされます。

Training-free Vision Transformer (ViT) architecture search is presented to search for a better ViT with zero-cost proxies. While ViTs achieve significant distillation gains from CNN teacher models on small datasets, the current zero-cost proxies in ViTs do not generalize well to the distillation training paradigm according to our experimental observations. In this paper, for the first time, we investigate how to search in a training-free manner with the help of teacher models and devise an effective Training-free ViT (TVT) search framework. Firstly, we observe that the similarity of attention maps between ViT and ConvNet teachers affects distill accuracy notably. Thus, we present a teacher-aware metric conditioned on the feature attention relations between teacher and student. Additionally, TVT employs the L2-Norm of the student's weights as the student-capability metric to improve ranking consistency. Finally, TVT searches for the best ViT for distilling with ConvNet teachers via our teacher-aware metric and student-capability metric, resulting in impressive gains in efficiency and effectiveness. Extensive experiments on various tiny datasets and search spaces show that our TVT outperforms state-of-the-art training-free search methods. The code will be released.
翻訳日:2023-11-27 15:36:06 公開日:2023-11-24
# 表データモデリング用変圧器の比較分析:業界規模データセットを用いたケーススタディ

Comparative Analysis of Transformers for Modeling Tabular Data: A Casestudy using Industry Scale Dataset ( http://arxiv.org/abs/2311.14335v1 )

ライセンス: Link先を確認
Usneek Singh, Piyush Arora, Shamika Ganesan, Mohit Kumar, Siddhant Kulkarni, Salil R. Joshi(参考訳) 我々は、特に産業規模のデータセットに基づいて、表データモデリング用に設計されたトランスフォーマーモデルの比較分析を行う。 以前の研究では、より小さな公開データセットや合成データセットに対して有望な結果が示されたが、その効果はより大きな産業規模のデータセットにまで及ばなかった。 特定された課題は、高次元データの取り扱い、カテゴリー的および数値的特徴の効率的な前処理の必要性、実質的な計算要件への対処などである。 同定された課題を克服するために、american expressの合成データセットとデフォルト予測kaggleデータセット(2022年)の両方を使用して、様々なトランスフォーマーベースのモデルを広範囲に検討した。 本稿では,最適データ前処理に関する重要な知見を示し,事前学習法と直接教師あり学習法を比較し,分類的および数値的特徴を管理するための戦略を考察し,計算資源と性能のトレードオフを強調する。 時間的金融データモデリングに焦点を当てたこの研究は、リアルタイムシナリオにおけるトランスフォーマーベースのモデルの体系的な開発と展開を促進し、スケーラビリティを強調することを目的としている。

We perform a comparative analysis of transformer-based models designed for modeling tabular data, specifically on an industry-scale dataset. While earlier studies demonstrated promising outcomes on smaller public or synthetic datasets, the effectiveness did not extend to larger industry-scale datasets. The challenges identified include handling high-dimensional data, the necessity for efficient pre-processing of categorical and numerical features, and addressing substantial computational requirements. To overcome the identified challenges, the study conducts an extensive examination of various transformer-based models using both synthetic datasets and the default prediction Kaggle dataset (2022) from American Express. The paper presents crucial insights into optimal data pre-processing, compares pre-training and direct supervised learning methods, discusses strategies for managing categorical and numerical features, and highlights trade-offs between computational resources and performance. Focusing on temporal financial data modeling, the research aims to facilitate the systematic development and deployment of transformer-based models in real-world scenarios, emphasizing scalability.
翻訳日:2023-11-27 15:35:44 公開日:2023-11-24
# エネルギーベーススコアによる知識蒸留の識別能力の最大化

Maximizing Discrimination Capability of Knowledge Distillation with Energy-based Score ( http://arxiv.org/abs/2311.14334v1 )

ライセンス: Link先を確認
Seonghak Kim, Gyeongdo Ham, Suin Lee, Donggon Jang, and Daeshik Kim(参考訳) 実産業で大きな計算コストを必要とする最新のコンピュータビジョン技術を適用するためには,知識蒸留法(kds)が不可欠である。 既存のlogitベースのkdsは、データセット内のすべてのサンプルに一定の温度スケーリングを適用し、各サンプルに固有の知識の利用を制限する。 提案手法では,データセットをエネルギースコアに基づいて2つのカテゴリ(低エネルギーと高エネルギーのサンプル)に分類する。 実験により,低エネルギー試料は高い信頼度を示し,特定の予測値を示し,高エネルギー試料は低い信頼度スコアを生じることを確認した。 非目標クラス予測を調整して最適な知識を蒸留するために,低エネルギー試料に高温を施し,より滑らかな分布と低い温度を高エネルギー試料に適用し,より鋭い分布を実現する。 従来のロジットベースの手法や特徴ベースの手法と比較して、エネルギーベースのKD(Energy KD)は、様々なデータセット上でより良いパフォーマンスを実現する。 特に、エネルギkdは、多くの困難なサンプルを含むcifar-100-ltとimagenetデータセットを大幅に改善している。 さらに,性能向上のための高エネルギーデータ拡張(HE-DA)を提案する。 我々は,20~50%のデータセットを拡張すれば有意義な性能改善が可能であり,リソース制限されたデバイスで使用できることを示唆する。 我々の知る限り、本稿はKDとDAでエネルギースコアを活用しようとする最初の試みであり、今後の研究に大きく貢献すると信じている。

To apply the latest computer vision techniques that require a large computational cost in real industrial applications, knowledge distillation methods (KDs) are essential. Existing logit-based KDs apply the constant temperature scaling to all samples in dataset, limiting the utilization of knowledge inherent in each sample individually. In our approach, we classify the dataset into two categories (i.e., low energy and high energy samples) based on their energy score. Through experiments, we have confirmed that low energy samples exhibit high confidence scores, indicating certain predictions, while high energy samples yield low confidence scores, meaning uncertain predictions. To distill optimal knowledge by adjusting non-target class predictions, we apply a higher temperature to low energy samples to create smoother distributions and a lower temperature to high energy samples to achieve sharper distributions. When compared to previous logit-based and feature-based methods, our energy-based KD (Energy KD) achieves better performance on various datasets. Especially, Energy KD shows significant improvements on CIFAR-100-LT and ImageNet datasets, which contain many challenging samples. Furthermore, we propose high energy-based data augmentation (HE-DA) for further improving the performance. We demonstrate that meaningful performance improvement could be achieved by augmenting only 20-50% of dataset, suggesting that it can be employed on resource-limited devices. To the best of our knowledge, this paper represents the first attempt to make use of energy scores in KD and DA, and we believe it will greatly contribute to future research.
翻訳日:2023-11-27 15:35:24 公開日:2023-11-24
# IDD-AW:非構造交通・逆気象におけるドライブシーンの安全・ロバストセグメンテーションベンチマーク

IDD-AW: A Benchmark for Safe and Robust Segmentation of Drive Scenes in Unstructured Traffic and Adverse Weather ( http://arxiv.org/abs/2311.14459v1 )

ライセンス: Link先を確認
Furqan Ahmed Shaik, Abhishek Malreddy, Nikhil Reddy Billa, Kunal Chaudhary, Sunny Manchanda, Girish Varma(参考訳) 完全自動運転車の大規模展開には、構造化されていない交通や天候条件に対して非常に高い堅牢性が必要であり、安全でない誤予測を防ぐ必要がある。 ドライブシーンのセグメンテーションに焦点を当てたデータセットやベンチマークはいくつかあるが、安全性と堅牢性の問題に特に重点を置いていない。 IDD-AWデータセットは, 降雨, 霧, 低光, 雪などの非構造運転条件下で, 5000対の高品質な画像に画素レベルのアノテーションを付加する。 他の悪天候データセットと比較すると、i。 ) より注釈付き画像, ii。 ) フレーム毎のNIR(Near-Infrared)画像のペア化,iii。 ) 非構造化トラフィック条件をキャプチャする4レベルラベル階層を持つより大きなラベルセット。 IDD-AWにおけるセマンティックセグメンテーションのための最先端モデルのベンチマークを行う。 また,miou(safe mean intersection over union)の従来の定義では捉えられていない危険な誤予測を罰する階層的データセットに対して,'safe mean intersection over union (safe miou)'という新しい指標を提案する。 その結果、idd-awは、これらのタスクでこれまでで最も難しいデータセットの1つであることが判明した。 データセットとコードはここで入手できる。

Large-scale deployment of fully autonomous vehicles requires a very high degree of robustness to unstructured traffic, and weather conditions, and should prevent unsafe mispredictions. While there are several datasets and benchmarks focusing on segmentation for drive scenes, they are not specifically focused on safety and robustness issues. We introduce the IDD-AW dataset, which provides 5000 pairs of high-quality images with pixel-level annotations, captured under rain, fog, low light, and snow in unstructured driving conditions. As compared to other adverse weather datasets, we provide i.) more annotated images, ii.) paired Near-Infrared (NIR) image for each frame, iii.) larger label set with a 4-level label hierarchy to capture unstructured traffic conditions. We benchmark state-of-the-art models for semantic segmentation in IDD-AW. We also propose a new metric called ''Safe mean Intersection over Union (Safe mIoU)'' for hierarchical datasets which penalizes dangerous mispredictions that are not captured in the traditional definition of mean Intersection over Union (mIoU). The results show that IDD-AW is one of the most challenging datasets to date for these tasks. The dataset and code will be available here: http://iddaw.github.io.
翻訳日:2023-11-27 15:27:53 公開日:2023-11-24
# 変形可能なマルチモーダル画像登録による光学計測と組織像の相関

Deformable multi-modal image registration for the correlation between optical measurements and histology images ( http://arxiv.org/abs/2311.14414v1 )

ライセンス: Link先を確認
Lianne Feenstra, Maud Lambregts, Theo J.M Ruers and Behdad Dashtbozorg(参考訳) 正確な病理ラベルとの光学的測定の相関は、組織像の変形による不正確な登録によってしばしば妨げられる。 本研究では, 深層学習の原理を応用したマルチモーダル画像の自動登録手法について検討した。 異なるモダリティによって得られた入力画像は、強度の変化と構造的可視性による課題を示し、線形仮定は不適切である。 VoxelMorphモデルに基づく教師なし・教師なしの学習手法を探索し,手動で登録した画像を用いたデータセットを基底真実として利用した。 Diceスコアや相互情報を含む評価指標は、教師なしモデルが教師付き(および手動のアプローチ)を著しく上回り、優れた画像アライメントを実現することを明らかにする。 この自動登録方式は、手動登録に伴うヒューマンエラーや不整合を最小限に抑え、光学技術の検証を改善することを約束する。

The correlation of optical measurements with a correct pathology label is often hampered by imprecise registration caused by deformations in histology images. This study explores an automated multi-modal image registration technique utilizing deep learning principles to align snapshot breast specimen images with corresponding histology images. The input images, acquired through different modalities, present challenges due to variations in intensities and structural visibility, making linear assumptions inappropriate. An unsupervised and supervised learning approach, based on the VoxelMorph model, was explored, making use of a dataset with manually registered images used as ground truth. Evaluation metrics, including Dice scores and mutual information, reveal that the unsupervised model outperforms the supervised (and manual approach) significantly, achieving superior image alignment. This automated registration approach holds promise for improving the validation of optical technologies by minimizing human errors and inconsistencies associated with manual registration.
翻訳日:2023-11-27 15:27:30 公開日:2023-11-24
# 正規化流れとSurVAEによるPDF投影の比較

A Comparison of PDF Projection with Normalizing Flows and SurVAE ( http://arxiv.org/abs/2311.14412v1 )

ライセンス: Link先を確認
Paul M. Baggenstoss and Felix Govaers(参考訳) 正規化フロー (NF) は, 構成可能な層から正確な確率計算で生成ネットワークを構築する方法として注目されている。 しかし、NF は次元保存変換に制限される。 サージェクションVAE(SurVAE)は、NFを次元変化変換に拡張するために提案されている。 このようなネットワークは表現力があり、正確に訓練できるので望ましい。 提案手法は,20年以上前に現れたPDFプロジェクションの再発明であり,さらに発展していることを示す。

Normalizing flows (NF) recently gained attention as a way to construct generative networks with exact likelihood calculation out of composable layers. However, NF is restricted to dimension-preserving transformations. Surjection VAE (SurVAE) has been proposed to extend NF to dimension-altering transformations. Such networks are desirable because they are expressive and can be precisely trained. We show that the approaches are a re-invention of PDF projection, which appeared over twenty years earlier and is much further developed.
翻訳日:2023-11-27 15:27:13 公開日:2023-11-24
# 説明可能なAIによる美的嗜好の要因の解明

Unveiling The Factors of Aesthetic Preferences with Explainable AI ( http://arxiv.org/abs/2311.14410v1 )

ライセンス: Link先を確認
Derya Soydaner and Johan Wagemans(参考訳) イメージにおける美的魅力の魅力は私たちの感覚を魅了するが、美的嗜好の根底にある複雑さはいまだに解明されていない。 本研究では,好みに影響を及ぼす美的属性に着目した機械学習モデルを用いて,新しい視点を開拓する。 データマイニングアプローチを通じて,これらの属性を入力として処理し,画像の美的スコアを予測する。 さらに,美的嗜好の要因を深く掘り下げ,解釈可能な説明を得るためには,SHAP(SHapley Additive exPlanations)として知られる一般的な説明可能なAI(XAI)技術を利用する。 提案手法では,ランダムフォレスト,xgboost,サポートベクタ回帰,多層パーセプトロンなど様々な機械学習モデルを用いて,美的スコアを正確に予測し,shapと共に結果を一貫して観察する。 我々は3つの画像美的ベンチマーク実験を行い、属性の役割とその相互作用に関する洞察を提供する。 最終的には、機械学習によって画像における審美的嗜好の複雑な性質を解明し、審美的判断に影響を及ぼす属性をより深く理解することを目的としている。

The allure of aesthetic appeal in images captivates our senses, yet the underlying intricacies of aesthetic preferences remain elusive. In this study, we pioneer a novel perspective by utilizing machine learning models that focus on aesthetic attributes known to influence preferences. Through a data mining approach, our models process these attributes as inputs to predict the aesthetic scores of images. Moreover, to delve deeper and obtain interpretable explanations regarding the factors driving aesthetic preferences, we utilize the popular Explainable AI (XAI) technique known as SHapley Additive exPlanations (SHAP). Our methodology involves employing various machine learning models, including Random Forest, XGBoost, Support Vector Regression, and Multilayer Perceptron, to compare their performances in accurately predicting aesthetic scores, and consistently observing results in conjunction with SHAP. We conduct experiments on three image aesthetic benchmarks, providing insights into the roles of attributes and their interactions. Ultimately, our study aims to shed light on the complex nature of aesthetic preferences in images through machine learning and provides a deeper understanding of the attributes that influence aesthetic judgements.
翻訳日:2023-11-27 15:27:06 公開日:2023-11-24
# LLamol:デノボ分子設計のための動的多成分生成変換器

LLamol: A Dynamic Multi-Conditional Generative Transformer for De Novo Molecular Design ( http://arxiv.org/abs/2311.14407v1 )

ライセンス: Link先を確認
Niklas Dobberstein, Astrid Maass, Jan Hamaekers(参考訳) 生成モデルは自然言語処理(nlp)において有望であり、一般予習トランスフォーマー(gpt)モデルに見られるように分子の設計に応用されている。 このような有機化学空間を探索して電気活性化合物を探索するツールを開発するために,我々は,llama 2アーキテクチャに基づく1つの新しい生成トランスフォーマモデルである「llamol」を提案する。 潜在的な不完全なデータを見て,使用の柔軟性とロバスト性を最大化するために,新しい学習手順として「stochastic context learning」を導入する。 得られたモデルが最大4条件の単条件および多条件有機分子生成を順応的に処理できることを実証する。 このモデルは、3つの数値および/または1つのトークン配列を要求通りに生成プロセスに柔軟に組み込んでSMILES表記の有効な分子構造を生成する。 生成された化合物は、テストされたすべてのシナリオで非常に満足できる。 具体的には,トークン配列を個々に,または数値的性質と組み合わせてコンディショニングに利用し,llamolをde novo分子設計のための強力なツールとし,新たな特性により容易に拡張できるモデルについて紹介する。

Generative models have demonstrated substantial promise in Natural Language Processing (NLP) and have found application in designing molecules, as seen in General Pretrained Transformer (GPT) models. In our efforts to develop such a tool for exploring the organic chemical space in search of potentially electro-active compounds, we present "LLamol", a single novel generative transformer model based on the LLama 2 architecture, which was trained on a 13M superset of organic compounds drawn from diverse public sources. To allow for a maximum flexibility in usage and robustness in view of potentially incomplete data, we introduce "Stochastic Context Learning" as a new training procedure. We demonstrate that the resulting model adeptly handles single- and multi-conditional organic molecule generation with up to four conditions, yet more are possible. The model generates valid molecular structures in SMILES notation while flexibly incorporating three numerical and/or one token sequence into the generative process, just as requested. The generated compounds are very satisfactory in all scenarios tested. In detail, we showcase the model's capability to utilize token sequences for conditioning, either individually or in combination with numerical properties, making LLamol a potent tool for de novo molecule design, easily expandable with new properties.
翻訳日:2023-11-27 15:26:45 公開日:2023-11-24
# OneFormer3D: 統一ポイントクラウドセグメンテーションのための1つのトランスフォーマー

OneFormer3D: One Transformer for Unified Point Cloud Segmentation ( http://arxiv.org/abs/2311.14405v1 )

ライセンス: Link先を確認
Maxim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich(参考訳) 例えば3次元点雲のセグメンテーションは、異なる設計のタスク固有モデルを用いて対処されている。 これにより、全てのセグメンテーションタスクの類似性とそれらの間の暗黙の関係は効果的に活用されていない。 本稿では,これらのタスクを協調的に扱う統一的でシンプルで効果的なモデルを提案する。 oneformer3dと名付けられたこのモデルは、学習可能なカーネルのグループを使用して、インスタンスとセマンティックセグメンテーションを一貫して実行する。 これらのカーネルは、インプットとして渡されるインスタンスとセマンティッククエリを統一したトランスフォーマーベースのデコーダでトレーニングされる。 このような設計は、モデルエンドツーエンドを1回の実行でトレーニングできるため、3つのセグメンテーションタスクすべてで最高のパフォーマンスを同時に達成できる。 具体的には、OneFormer3Dが第1位で、ScanNetテストリーダーボードに新しい最先端(+2.1 mAP50)を設定しています。 また、ScanNet(+21 PQ)、ScanNet200(+3.8 mAP50)、S3DIS(+0.8 mIoU)データセットのセマンティック、例、およびパノプティックセグメンテーションの最先端結果も示す。

Semantic, instance, and panoptic segmentation of 3D point clouds have been addressed using task-specific models of distinct design. Thereby, the similarity of all segmentation tasks and the implicit relationship between them have not been utilized effectively. This paper presents a unified, simple, and effective model addressing all these tasks jointly. The model, named OneFormer3D, performs instance and semantic segmentation consistently, using a group of learnable kernels, where each kernel is responsible for generating a mask for either an instance or a semantic category. These kernels are trained with a transformer-based decoder with unified instance and semantic queries passed as an input. Such a design enables training a model end-to-end in a single run, so that it achieves top performance on all three segmentation tasks simultaneously. Specifically, our OneFormer3D ranks 1st and sets a new state-of-the-art (+2.1 mAP50) in the ScanNet test leaderboard. We also demonstrate the state-of-the-art results in semantic, instance, and panoptic segmentation of ScanNet (+21 PQ), ScanNet200 (+3.8 mAP50), and S3DIS (+0.8 mIoU) datasets.
翻訳日:2023-11-27 15:26:21 公開日:2023-11-24
# BHGNN-RT:有向不均一グラフに対するネットワーク埋め込み

BHGNN-RT: Network embedding for directed heterogeneous graphs ( http://arxiv.org/abs/2311.14404v1 )

ライセンス: Link先を確認
Xiyang Sun, Fumiyasu Komaki(参考訳) ネットワークは、現実世界の問題をモデリングする上で、最も価値のあるデータ構造の1つです。 しかし、最近のノード埋め込み戦略は非指向グラフにフォーカスしており、有向グラフ、特に有向ヘテロジニアスグラフにはあまり注目されていない。 本研究では,有向不均一グラフのネットワーク特性について検討した。 ネットワーク解析に基づいて、双方向メッセージパッシングプロセスとネットワークの不均一性を利用する、ランダムテレポート(BHGNN-RT)を用いた双方向不均一グラフニューラルネットワークの組込み手法を提案した。 テレポート比の最適化により、BHGNN-RTは過度にスムースな問題を克服するのに有益である。 BHGNN-RTの有効性と有効性を検証するために, 各種データセットの大規模な実験を行った。 さらに,メッセージコンポーネント,モデル層,テレポート比がモデル性能に及ぼす影響について検討した。 他のすべてのベースラインと比較すると、BHGNN-RTは最先端のパフォーマンスを達成し、ノード分類と教師なしクラスタリングタスクの両方でベンチマーク手法よりも優れている。

Networks are one of the most valuable data structures for modeling problems in the real world. However, the most recent node embedding strategies have focused on undirected graphs, with limited attention to directed graphs, especially directed heterogeneous graphs. In this study, we first investigated the network properties of directed heterogeneous graphs. Based on network analysis, we proposed an embedding method, a bidirectional heterogeneous graph neural network with random teleport (BHGNN-RT), for directed heterogeneous graphs, that leverages bidirectional message-passing process and network heterogeneity. With the optimization of teleport proportion, BHGNN-RT is beneficial to overcome the over-smoothing problem. Extensive experiments on various datasets were conducted to verify the efficacy and efficiency of BHGNN-RT. Furthermore, we investigated the effects of message components, model layer, and teleport proportion on model performance. The performance comparison with all other baselines illustrates that BHGNN-RT achieves state-of-the-art performance, outperforming the benchmark methods in both node classification and unsupervised clustering tasks.
翻訳日:2023-11-27 15:25:58 公開日:2023-11-24
# TEA:テストタイムエネルギー適応

TEA: Test-time Energy Adaptation ( http://arxiv.org/abs/2311.14402v1 )

ライセンス: Link先を確認
Yige Yuan, Bingbing Xu, Liang Hou, Fei Sun, Huawei Shen, Xueqi Cheng(参考訳) テストタイム適応(TTA)は、テストデータがトレーニング分布から分岐する際のモデル一般化性を改善することを目的としており、特に大規模な事前訓練モデルのコンテキストにおいて、トレーニングデータやプロセスへのアクセスを必要としないという明確な利点を提供する。 しかし、現在のTTA法では基本的な問題に対処できない:共変量シフト(covariate shift)、すなわち、一般化可能性の低下は、モデルのキャリブレーションを損なう可能性があるトレーニングデータの限界分布に依存しているためである。 そこで本研究では, 学習データやプロセスへのアクセスを必要とせず, モデルによる対象データ分布の知覚を向上させる, エネルギーに基づく新しい視点を提案する。 この観点から、訓練された分類器をエネルギーベースのモデルに変換し、モデルの分布をテストデータと整合させ、テスト分布を知覚する能力を高め、全体的な一般化性を改善する。 複数のタスク、ベンチマーク、アーキテクチャにわたる大規模な実験は、最先端の手法に対するTEAの優れた一般化性能を示している。 さらに詳細な分析により、TAAはテスト分布を包括的に知覚し、最終的には一般化とキャリブレーションの改善への道を開くことができることが明らかになった。

Test-time adaptation (TTA) aims to improve model generalizability when test data diverges from training distribution, offering the distinct advantage of not requiring access to training data and processes, especially valuable in the context of large pre-trained models. However, current TTA methods fail to address the fundamental issue: covariate shift, i.e., the decreased generalizability can be attributed to the model's reliance on the marginal distribution of the training data, which may impair model calibration and introduce confirmation bias. To address this, we propose a novel energy-based perspective, enhancing the model's perception of target data distributions without requiring access to training data or processes. Building on this perspective, we introduce $\textbf{T}$est-time $\textbf{E}$nergy $\textbf{A}$daptation ($\textbf{TEA}$), which transforms the trained classifier into an energy-based model and aligns the model's distribution with the test data's, enhancing its ability to perceive test distributions and thus improving overall generalizability. Extensive experiments across multiple tasks, benchmarks and architectures demonstrate TEA's superior generalization performance against state-of-the-art methods. Further in-depth analyses reveal that TEA can equip the model with a comprehensive perception of test distribution, ultimately paving the way toward improved generalization and calibration.
翻訳日:2023-11-27 15:25:39 公開日:2023-11-24
# iotデバイスを用いた連合学習の展開プロトタイプ

Prototype of deployment of Federated Learning with IoT devices ( http://arxiv.org/abs/2311.14401v1 )

ライセンス: Link先を確認
Pablo Garc\'ia Santaclara and Ana Fern\'andez Vilas and Rebeca P. D\'iaz Redondo(参考訳) テクノロジの時代において、データはますます重要なリソースです。 この重要性は人工知能(AI)の分野で増大しており、機械学習(ML)のようなサブフィールドはより良い結果を得るためにより多くのデータを必要としている。 IoT(Internet of Things)は、センサとスマートオブジェクトを接続してデータを収集、交換し、他の多くのタスクを達成する。 要求される膨大な量のリソース、データは、モバイルデバイス、センサー、その他のIoTデバイスに格納されるが、データ保護の制限のため、そこに留まる。 同時に、これらのデバイスは良いモデルを訓練するのに十分なデータや計算能力を持っていない。 さらに、すべてのデータを集中型サーバで送信、保存、処理することが問題となる。 Federated Learning (FL)は、デバイスが協調的に学習できる革新的なソリューションを提供する。 さらに重要なのは、データ保護法に違反しずにこれを達成することだ。 FLは現在成長しており、それを実装するソリューションがいくつかあります。 本稿は、IoTデバイスがラズベリー・パイボードであったFLソリューションのプロトタイプについて述べる。 その結果、このタイプのソリューションのパフォーマンスと従来のアプローチによるソリューションのパフォーマンスを比較した。 さらに、FLソリューションの性能を敵対的な環境でテストした。 畳み込みニューラルネットワーク(CNN)と画像データセットを使用した。 その結果,従来の手法の性能には達していないものの,これらの手法の有効性とユーザビリティが示唆された。

In the age of technology, data is an increasingly important resource. This importance is growing in the field of Artificial Intelligence (AI), where sub fields such as Machine Learning (ML) need more and more data to achieve better results. Internet of Things (IoT) is the connection of sensors and smart objects to collect and exchange data, in addition to achieving many other tasks. A huge amount of the resource desired, data, is stored in mobile devices, sensors and other Internet of Things (IoT) devices, but remains there due to data protection restrictions. At the same time these devices do not have enough data or computational capacity to train good models. Moreover, transmitting, storing and processing all this data on a centralised server is problematic. Federated Learning (FL) provides an innovative solution that allows devices to learn in a collaborative way. More importantly, it accomplishes this without violating data protection laws. FL is currently growing, and there are several solutions that implement it. This article presents a prototype of a FL solution where the IoT devices used were raspberry pi boards. The results compare the performance of a solution of this type with those obtained in traditional approaches. In addition, the FL solution performance was tested in a hostile environment. A convolutional neural network (CNN) and a image data set were used. The results show the feasibility and usability of these techniques, although in many cases they do not reach the performance of traditional approaches.
翻訳日:2023-11-27 15:25:14 公開日:2023-11-24
# 可視赤外人物再同定のためのマルチスケールセマンティック相関マイニング

Multi-scale Semantic Correlation Mining for Visible-Infrared Person Re-Identification ( http://arxiv.org/abs/2311.14395v1 )

ライセンス: Link先を確認
Ke Cheng, Xuecheng Hua, Hu Lu, Juanjuan Tu, Yuanquan Wang, Shitong Wang(参考訳) Visible-Infrared Person Re-Identification (VI-ReID)タスクの主な課題は、マッチング目的のために異なるモダリティから識別的特徴を抽出する方法にある。 既存の井戸は主にモダリティの相違を最小化することに重点を置いているが、モダリティ情報は十分に活用できない。 この問題を解決するために,マルチスケールセマンティック相関マイニングネットワーク(MSCMNet)を提案する。 提案するネットワークは3つの新しいコンポーネントを含んでいる。 まず,モダリティ情報の有効利用を考慮したマルチスケール情報相関マイニングブロック(MIMB)を設計し,複数のスケールにまたがる意味的相関を探索する。 第二に、MIMBが利用できる意味情報を強化するために、非共有パラメータを持つ四重ストリーム特徴抽出器(QFE)は、データセットの異なる次元から情報を取り出すように設計されている。 最後に、4重中心三重項損失(qct)をさらに提案し、包括的特徴における情報格差に対処する。 SYSU-MM01、RegDB、 LLCMデータセットの大規模な実験により、提案したMSCMNetが最も精度が高いことを示す。

The main challenge in the Visible-Infrared Person Re-Identification (VI-ReID) task lies in how to extract discriminative features from different modalities for matching purposes. While the existing well works primarily focus on minimizing the modal discrepancies, the modality information can not thoroughly be leveraged. To solve this problem, a Multi-scale Semantic Correlation Mining network (MSCMNet) is proposed to comprehensively exploit semantic features at multiple scales and simultaneously reduce modality information loss as small as possible in feature extraction. The proposed network contains three novel components. Firstly, after taking into account the effective utilization of modality information, the Multi-scale Information Correlation Mining Block (MIMB) is designed to explore semantic correlations across multiple scales. Secondly, in order to enrich the semantic information that MIMB can utilize, a quadruple-stream feature extractor (QFE) with non-shared parameters is specifically designed to extract information from different dimensions of the dataset. Finally, the Quadruple Center Triplet Loss (QCT) is further proposed to address the information discrepancy in the comprehensive features. Extensive experiments on the SYSU-MM01, RegDB, and LLCM datasets demonstrate that the proposed MSCMNet achieves the greatest accuracy.
翻訳日:2023-11-27 15:24:51 公開日:2023-11-24
# CRAC 2023における \'UFAL CorPipe: より大規模なコンテキストによる多言語照合の解決

\'UFAL CorPipe at CRAC 2023: Larger Context Improves Multilingual Coreference Resolution ( http://arxiv.org/abs/2311.14391v1 )

ライセンス: Link先を確認
Milan Straka(参考訳) CRAC 2023Shared Task on Multilingual Coreference Resolutionの勝者であるCorPipeを紹介する。 我々のシステムは、初期の多言語コア推論パイプラインの改良版であり、他の参加者を4.5パーセントの差で上回ります。 CorPipeはまず参照検出を行い、その後、検索したスパンに対する先行最大化アプローチを通じてコア参照リンクを行う。 両方のタスクは、共有事前訓練された言語モデルを使用して、利用可能なすべてのコーパスで共同でトレーニングされる。 主な改善点は、512のサブワード以上の入力と、アンサンブルをサポートするための参照デコードの変更です。 ソースコードはhttps://github.com/ufal/crac2023-corpipeで入手できる。

We present CorPipe, the winning entry to the CRAC 2023 Shared Task on Multilingual Coreference Resolution. Our system is an improved version of our earlier multilingual coreference pipeline, and it surpasses other participants by a large margin of 4.5 percent points. CorPipe first performs mention detection, followed by coreference linking via an antecedent-maximization approach on the retrieved spans. Both tasks are trained jointly on all available corpora using a shared pretrained language model. Our main improvements comprise inputs larger than 512 subwords and changing the mention decoding to support ensembling. The source code is available at https://github.com/ufal/crac2023-corpipe.
翻訳日:2023-11-27 15:24:11 公開日:2023-11-24
# 優先体験の再生を調整した直接注意喪失

Directly Attention Loss Adjusted Prioritized Experience Replay ( http://arxiv.org/abs/2311.14390v1 )

ライセンス: Link先を確認
Zhuoying Chen, Huiping Li, Zhaoxu Wang(参考訳) 優先度付き体験再生(PER)では、アクセス頻度を人工的に変更することで、比較的重要なサンプルについてより深く学習することができる。 しかし、この非一様サンプリング法は、もともとq値関数を推定するために使われる状態-作用分布をシフトさせ、推定偏差をもたらす。 本稿では,DALAP(Directly Attention Loss Adjusted Prioritized Experience Replay)と呼ばれる政策強化学習トレーニングフレームワークを提案する。 さらに、サンプルスクリーニング基準を最適化し、トレーニング効率をさらに向上するため、優先環境改善機構を同時に設計する。 DALAPの有効性と汎用性を検証するために、我々はそれぞれ値関数ベース、ポリシー勾配ベース、マルチエージェント強化学習アルゴリズムと統合する。 比較実験の複数のグループは、DALAPが収束率の向上とトレーニングのばらつきの低減という大きな利点を持っていることを示している。

Prioritized Experience Replay (PER) enables the model to learn more about relatively important samples by artificially changing their accessed frequencies. However, this non-uniform sampling method shifts the state-action distribution that is originally used to estimate Q-value functions, which brings about the estimation deviation. In this article, an novel off policy reinforcement learning training framework called Directly Attention Loss Adjusted Prioritized Experience Replay (DALAP) is proposed, which can directly quantify the changed extent of the shifted distribution through Parallel Self-Attention network, so as to accurately compensate the error. In addition, a Priority-Encouragement mechanism is designed simultaneously to optimize the sample screening criterion, and further improve the training efficiency. In order to verify the effectiveness and generality of DALAP, we integrate it with the value-function based, the policy-gradient based and multi-agent reinforcement learning algorithm, respectively. The multiple groups of comparative experiments show that DALAP has the significant advantages of both improving the convergence rate and reducing the training variance.
翻訳日:2023-11-27 15:23:54 公開日:2023-11-24
# 医用画像分類のための循環射影を用いたパラメータ化生成逆ネットワーク

A Parameterized Generative Adversarial Network Using Cyclic Projection for Explainable Medical Image Classification ( http://arxiv.org/abs/2311.14388v1 )

ライセンス: Link先を確認
Xiangyu Xiong, Yue Sun, Xiaohong Liu, ChanTong Lam, Tong Tong, Hao Chen, Qinquan Gao, Wei Ke, Tao Tan(参考訳) 現在のデータ拡張法はデータ不足を軽減するのに成功しているが、従来の拡張法は主にドメイン内であり、高度な生成逆数ネットワーク(GAN)は不確実な画像を生成する。 本稿では,ドメイン間の合成サンプルの変化を効果的に制御し,下流分類のための注意領域を強調するパラメータ化gan(paragan)を提案する。 具体的には、ParaGANは射影距離パラメータを巡回射影に組み込み、ソース画像を決定境界に投影し、クラス差マップを得る。 実験の結果,ParaGANは2つの小規模医療データセットに対して説明可能な分類を行い,既存の拡張手法より一貫して優れていることがわかった。

Although current data augmentation methods are successful to alleviate the data insufficiency, conventional augmentation are primarily intra-domain while advanced generative adversarial networks (GANs) generate images remaining uncertain, particularly in small-scale datasets. In this paper, we propose a parameterized GAN (ParaGAN) that effectively controls the changes of synthetic samples among domains and highlights the attention regions for downstream classification. Specifically, ParaGAN incorporates projection distance parameters in cyclic projection and projects the source images to the decision boundary to obtain the class-difference maps. Our experiments show that ParaGAN can consistently outperform the existing augmentation methods with explainable classification on two small-scale medical datasets.
翻訳日:2023-11-27 15:23:23 公開日:2023-11-24
# プログレッシブノルムリスケーリングによるマージン最大化の指数関数的高速化

Achieving Margin Maximization Exponentially Fast via Progressive Norm Rescaling ( http://arxiv.org/abs/2311.14387v1 )

ライセンス: Link先を確認
Mingze Wang, Zeping Min, Lei Wu(参考訳) 本研究では,線形分離可能なデータの分類において,勾配に基づくアルゴリズムが示すマージン最大化バイアスについて検討する。 本稿では,(正規化)勾配に付随する速度場の特異性について,マージン最大化におけるその役割に着目して詳細な解析を行う。 この分析にインスパイアされたPRGD(Progressive Rescaling Gradient Descent)と呼ばれる新しいアルゴリズムを提案し、PRGDが指数レートでマージンを最大化できることを示す。 これは、遅い多項式率でマージンを最大化する既存のアルゴリズムとは全く対照的である。 具体的には,勾配降下 (GD) や正規化勾配降下 (NGD) {\em のような既存のアルゴリズムが効率よくマージンを最大化する際のデータ分布の温和な条件を同定する。 理論的知見を検証するために, 合成実験と実世界の実験の両方を提示する。 特にPRGDは、線形に分離できないデータセットやディープニューラルネットワークに適用する際の一般化性能の向上を約束している。

In this work, we investigate the margin-maximization bias exhibited by gradient-based algorithms in classifying linearly separable data. We present an in-depth analysis of the specific properties of the velocity field associated with (normalized) gradients, focusing on their role in margin maximization. Inspired by this analysis, we propose a novel algorithm called Progressive Rescaling Gradient Descent (PRGD) and show that PRGD can maximize the margin at an {\em exponential rate}. This stands in stark contrast to all existing algorithms, which maximize the margin at a slow {\em polynomial rate}. Specifically, we identify mild conditions on data distribution under which existing algorithms such as gradient descent (GD) and normalized gradient descent (NGD) {\em provably fail} in maximizing the margin efficiently. To validate our theoretical findings, we present both synthetic and real-world experiments. Notably, PRGD also shows promise in enhancing the generalization performance when applied to linearly non-separable datasets and deep neural networks.
翻訳日:2023-11-27 15:22:47 公開日:2023-11-24
# 高等教育におけるChatGPTの社会的バイアスの可能性:スコーピング・レビュー

Potential Societal Biases of ChatGPT in Higher Education: A Scoping Review ( http://arxiv.org/abs/2311.14381v1 )

ライセンス: Link先を確認
Ming Li, Ariunaa Enkhtur, Beverley Anne Yamamoto, Fei Cheng(参考訳) ChatGPTや他のジェネレーティブ人工知能(GAI)モデルは、既存の大量のデータに基づいてトレーニングされた社会的バイアスを継承し、さらに増幅する傾向がある。 高等教育機関(heis)の学生・教員・職員によるチャットgptやその他のガイの利用が増加していることから,その潜在的なバイアスなどの倫理的問題を検討することが急務である。 本稿では,近年の学術論文において,高等教育環境におけるGAIに関するバイアスが議論されている方法を明らかにするとともに,本文献で一般的に報告される潜在的なバイアスの種類を明らかにする。 英語,中国語,日本語で書かれた学術論文を,高等教育におけるgaiの利用とバイアスに関する4つの主要データベースで検索した。 以上の結果から,大言語モデル(llm)とgai(gai)には潜在的なバイアスが認識されているものの,記事の大部分は比較的表面的なレベルで「バイアス」に触れていることがわかった。 どのような状況でどのようなバイアスが発生するかを特定することは少ない。 高等教育、職員、教員、または学生に影響を及ぼす可能性についても論じていない。 現時点では経験的な研究が不足しており、私たちは高等教育の研究者やaiの専門家に、この分野でより多くの研究を行うように求めています。

ChatGPT and other Generative Artificial Intelligence (GAI) models tend to inherit and even amplify prevailing societal biases as they are trained on large amounts of existing data. Given the increasing usage of ChatGPT and other GAI by students, faculty members, and staff in higher education institutions (HEIs), there is an urgent need to examine the ethical issues involved such as its potential biases. In this scoping review, we clarify the ways in which biases related to GAI in higher education settings have been discussed in recent academic publications and identify what type of potential biases are commonly reported in this body of literature. We searched for academic articles written in English, Chinese, and Japanese across four main databases concerned with GAI usage in higher education and bias. Our findings show that while there is an awareness of potential biases around large language models (LLMs) and GAI, the majority of articles touch on ``bias'' at a relatively superficial level. Few identify what types of bias may occur under what circumstances. Neither do they discuss the possible implications for the higher education, staff, faculty members, or students. There is a notable lack of empirical work at this point, and we call for higher education researchers and AI experts to conduct more research in this area.
翻訳日:2023-11-27 15:22:26 公開日:2023-11-24
# 適応サンプリングと重要度サンプリングによる効率的勾配推定

Efficient Gradient Estimation via Adaptive Sampling and Importance Sampling ( http://arxiv.org/abs/2311.14468v1 )

ライセンス: Link先を確認
Corentin Sala\"un, Xingchang Huang, Iliyan Georgiev, Niloy J. Mitra, Gurprit Singh(参考訳) 機械学習の問題は最適化のために確率勾配降下(SGD)に大きく依存している。 sgdの有効性は,データサンプルのミニバッチから勾配を正確に推定することにある。 一般に使用される一様サンプリングの代わりに、適応サンプリングまたは重要サンプリングは、重要なデータポイントを優先するミニバッチを形成することにより、勾配推定におけるノイズを低減する。 以前の研究では、データポイントは勾配ノルムに比例する確率で選択されるべきであることが示唆された。 それでも、既存のアルゴリズムは、機械学習フレームワークに重要なサンプリングを統合するのに苦労している。 この作品では、私たちは2つの貢献をします。 まず,既存の重要な機能をフレームワークに組み込むアルゴリズムを提案する。 次に,出力層の損失勾配のみに依存する簡易な重要度関数を提案する。 提案手法を応用して,計算オーバーヘッドを最小限に抑えた分類および回帰タスクの収束性を改善する。 画像およびポイントクラウドデータセットに対する適応的および重要サンプリング手法の有効性を検証する。

Machine learning problems rely heavily on stochastic gradient descent (SGD) for optimization. The effectiveness of SGD is contingent upon accurately estimating gradients from a mini-batch of data samples. Instead of the commonly used uniform sampling, adaptive or importance sampling reduces noise in gradient estimation by forming mini-batches that prioritize crucial data points. Previous research has suggested that data points should be selected with probabilities proportional to their gradient norm. Nevertheless, existing algorithms have struggled to efficiently integrate importance sampling into machine learning frameworks. In this work, we make two contributions. First, we present an algorithm that can incorporate existing importance functions into our framework. Second, we propose a simplified importance function that relies solely on the loss gradient of the output layer. By leveraging our proposed gradient estimation techniques, we observe improved convergence in classification and regression tasks with minimal computational overhead. We validate the effectiveness of our adaptive and importance-sampling approach on image and point-cloud datasets.
翻訳日:2023-11-27 15:14:52 公開日:2023-11-24
# DP-NMT:スケーラブルな微分代用機械翻訳

DP-NMT: Scalable Differentially-Private Machine Translation ( http://arxiv.org/abs/2311.14465v1 )

ライセンス: Link先を確認
Timour Igamberdiev, Doan Nam Long Vu, Felix K\"unnecke, Zhuo Yu, Jannik Holmer, Ivan Habernal(参考訳) ニューラルマシン翻訳(NMT)は、広く普及しているテキスト生成タスクであるが、NMTシステムに重大なデータプライバシー上の懸念があるにもかかわらず、プライバシを保存するNMTモデルの開発にはかなりの研究ギャップがある。 DP-SGDは、具体的なプライバシー保証のある機械学習モデルをトレーニングするための一般的な方法であるが、DP-SGDでモデルをトレーニングする実装仕様は、既存のモデルでは常に明確化されていない。 これを解決するため,DP-SGDを用いてプライバシー保護NMTの研究を行うオープンソースフレームワークであるDP-NMTを導入し,多数のモデル,データセット,評価指標をひとつのソフトウェアパッケージにまとめる。 我々の目標は、DP-SGDアルゴリズムの具体的詳細を透過的かつ直感的に実装し、プライバシー保護型NMTシステムの開発を進めるためのプラットフォームを提供することです。 当社では、汎用およびプライバシ関連ドメインのデータセットに関する一連の実験を実施して、使用中のフレームワークを実演しています。 フレームワークを一般公開し、コミュニティからのフィードバックを歓迎します。

Neural machine translation (NMT) is a widely popular text generation task, yet there is a considerable research gap in the development of privacy-preserving NMT models, despite significant data privacy concerns for NMT systems. Differentially private stochastic gradient descent (DP-SGD) is a popular method for training machine learning models with concrete privacy guarantees; however, the implementation specifics of training a model with DP-SGD are not always clarified in existing models, with differing software libraries used and code bases not always being public, leading to reproducibility issues. To tackle this, we introduce DP-NMT, an open-source framework for carrying out research on privacy-preserving NMT with DP-SGD, bringing together numerous models, datasets, and evaluation metrics in one systematic software package. Our goal is to provide a platform for researchers to advance the development of privacy-preserving NMT systems, keeping the specific details of the DP-SGD algorithm transparent and intuitive to implement. We run a set of experiments on datasets from both general and privacy-related domains to demonstrate our framework in use. We make our framework publicly available and welcome feedback from the community.
翻訳日:2023-11-27 15:14:38 公開日:2023-11-24
# 深層学習に基づくCFDシミュレーションのための有限体積特徴量、グローバル幾何表現および残留訓練

Finite Volume Features, Global Geometry Representations, and Residual Training for Deep Learning-based CFD Simulation ( http://arxiv.org/abs/2311.14464v1 )

ライセンス: Link先を確認
Loh Sher En Jessica, Naheed Anjum Arafat, Wei Xian Lim, Wai Lee Chan and Adams Wai Kin Kong(参考訳) 計算流体力学(CFD)(Computational fluid dynamics)シミュレーションは、多くの工学設計において、置換不可能なモデリングステップである。 グラフニューラルネットワーク(GNN)に基づくCFD法が提案されている。 しかし,本手法は従来の数値シミュレータの弱点を継承し,実用的なcfd応用法である有限体積法で用いられるメッシュのセル特性を無視する。 具体的には、これらのGNN手法の入力ノードは、シミュレーション領域とその周辺環境に没入したオブジェクトについて非常に限られた情報を持っている。 また、GNN法では、メッセージパス操作には、セルボリューム、顔表面積、顔セントロイドなどのメッシュのセル特性は含まれない。 これらの弱点に対処するため、本研究では、最短ベクトル(SV)と方向統合距離(DID)の2つの新しい幾何学的表現を提案する。 メッシュから抽出されたSVとDIDは、各入力ノードにグローバルな幾何学的視点を提供するため、メッセージパッシングを通じてこれらの情報を収集する必要がなくなる。 この作業では、グラフの畳み込みをノードとエッジ属性として使用するFVF(Finite Volume Features)も導入され、メッセージパッシング操作を異なるノードに調整できるようになった。 最後に、この研究は、低分解能データの入手が可能な残差トレーニングをどのように適用してフロー場予測精度を向上させるかを示す最初のものである。 CFDのための5つの最先端GNN手法を用いた2つのデータセットの実験結果から,SV,DID,FVF,残差トレーニングが,現行GNN方式の予測誤差を最大41%低減できることが示された。

Computational fluid dynamics (CFD) simulation is an irreplaceable modelling step in many engineering designs, but it is often computationally expensive. Some graph neural network (GNN)-based CFD methods have been proposed. However, the current methods inherit the weakness of traditional numerical simulators, as well as ignore the cell characteristics in the mesh used in the finite volume method, a common method in practical CFD applications. Specifically, the input nodes in these GNN methods have very limited information about any object immersed in the simulation domain and its surrounding environment. Also, the cell characteristics of the mesh such as cell volume, face surface area, and face centroid are not included in the message-passing operations in the GNN methods. To address these weaknesses, this work proposes two novel geometric representations: Shortest Vector (SV) and Directional Integrated Distance (DID). Extracted from the mesh, the SV and DID provide global geometry perspective to each input node, thus removing the need to collect this information through message-passing. This work also introduces the use of Finite Volume Features (FVF) in the graph convolutions as node and edge attributes, enabling its message-passing operations to adjust to different nodes. Finally, this work is the first to demonstrate how residual training, with the availability of low-resolution data, can be adopted to improve the flow field prediction accuracy. Experimental results on two datasets with five different state-of-the-art GNN methods for CFD indicate that SV, DID, FVF and residual training can effectively reduce the predictive error of current GNN-based methods by as much as 41%.
翻訳日:2023-11-27 15:14:16 公開日:2023-11-24
# COVid-19診断のためのCT-xCOV

CT-xCOV: a CT-scan based Explainable Framework for COVid-19 diagnosis ( http://arxiv.org/abs/2311.14462v1 )

ライセンス: Link先を確認
Ismail Elbouknify, Afaf Bouhoute, Khalid Fardousse, Ismail Berrada, Abdelmajid Badri(参考訳) 本研究では,CTスキャン上での深層学習(DL)を用いた新型コロナウイルス診断のための説明可能なフレームワークであるCT-xCOVを開発した。 CT-xCOVは、肺セグメンテーションからCOVID-19検出へのエンドツーエンドアプローチを採用し、検出モデルの予測を説明する。 肺分画には有名なu-netモデルを用いた。 COVID-19検出では、標準的なCNN、ResNet50、DenseNet121の3つのCNNアーキテクチャを比較しました。 検出後、視覚的およびテキスト的説明が提供される。 視覚的説明のために3つの異なるXAI技術、すなわちGrad-Cam、Integrated Gradient (IG)、LIMEを適用した。 テキストの説明は肺による感染の割合を計算することによって追加される。 得られたXAI技術の性能を評価するため, 可視化出力と接地トラス感染の類似度を計測し, 地中トラスによる評価手法を提案する。 実験の結果, 適用したDLモデルは良好な結果を得た。 U-Netセグメンテーションモデルは高Dice係数(98%)を達成した。 5倍のクロスバリデーション(98.40%,f1スコア98.23%)を用いた分類モデル(標準CNN)の性能評価を行った。 最後に,XAI法との比較結果から,LIME法とIG法を比較検討した結果,IG法とLIME法で得られた29%,LIME法で得られた24%に対して55%のDice係数を達成し,LIME法とIG法とを比較検討した。 本論文で使用するコードとデータセットは、githubリポジトリ[1]で利用可能である。

In this work, CT-xCOV, an explainable framework for COVID-19 diagnosis using Deep Learning (DL) on CT-scans is developed. CT-xCOV adopts an end-to-end approach from lung segmentation to COVID-19 detection and explanations of the detection model's prediction. For lung segmentation, we used the well-known U-Net model. For COVID-19 detection, we compared three different CNN architectures: a standard CNN, ResNet50, and DenseNet121. After the detection, visual and textual explanations are provided. For visual explanations, we applied three different XAI techniques, namely, Grad-Cam, Integrated Gradient (IG), and LIME. Textual explanations are added by computing the percentage of infection by lungs. To assess the performance of the used XAI techniques, we propose a ground-truth-based evaluation method, measuring the similarity between the visualization outputs and the ground-truth infections. The performed experiments show that the applied DL models achieved good results. The U-Net segmentation model achieved a high Dice coefficient (98%). The performance of our proposed classification model (standard CNN) was validated using 5-fold cross-validation (acc of 98.40% and f1-score 98.23%). Lastly, the results of the comparison of XAI techniques show that Grad-Cam gives the best explanations compared to LIME and IG, by achieving a Dice coefficient of 55%, on COVID-19 positive scans, compared to 29% and 24% obtained by IG and LIME respectively. The code and the dataset used in this paper are available in the GitHub repository [1].
翻訳日:2023-11-27 15:13:48 公開日:2023-11-24
# 自律運転システムにおける車両特性変動の安全性評価

Safety Assessment of Vehicle Characteristics Variations in Autonomous Driving Systems ( http://arxiv.org/abs/2311.14461v1 )

ライセンス: Link先を確認
Qi Pan, Tiexin Wang, Paolo Arcaini, Tao Yue, Shaukat Ali(参考訳) 自律運転システム(ADS)は、安全性を確保するために十分にテストされなければならない。 様々なADSテスト手法が有望な結果を示しているが、それらは車両特性設定(VCS)の固定セットに限定されている。 車両特性の変化(例えば、質量、タイヤ摩擦)がADSの安全性に与える影響は、十分に体系的に研究されていないが、多くの変化は、ADSの予期せぬ運転行動を引き起こす恐れのある摩耗や損傷、生産誤差などに起因する。 そこで本研究では,車載ADSの安全性に影響を与える車両特性設定の最小変動を系統的に検出する手法として,SAFEVAR(SAFEVAR)を提案する。 SAFEVARの有効性を評価するため、2つのADSを使用し、2つの駆動シミュレータを用いて実験を行った。 その結果、NSGA-IIを装備したSAFEVARは、ランダム検索と突然変異ベースのファジィザという2つのベースラインアルゴリズムと比較して、より重要なVCSを生成することがわかった。 また、重要な車両の特徴を特定し、ADS車両が安全でない状況に置かれる状況がどの程度異なるか報告した。

Autonomous driving systems (ADSs) must be sufficiently tested to ensure their safety. Though various ADS testing methods have shown promising results, they are limited to a fixed set of vehicle characteristics settings (VCSs). The impact of variations in vehicle characteristics (e.g., mass, tire friction) on the safety of ADSs has not been sufficiently and systematically studied.Such variations are often due to wear and tear, production errors, etc., which may lead to unexpected driving behaviours of ADSs. To this end, in this paper, we propose a method, named SAFEVAR, to systematically find minimum variations to the original vehicle characteristics setting, which affect the safety of the ADS deployed on the vehicle. To evaluate the effectiveness of SAFEVAR, we employed two ADSs and conducted experiments with two driving simulators. Results show that SAFEVAR, equipped with NSGA-II, generates more critical VCSs that put the vehicle into unsafe situations, as compared with two baseline algorithms: Random Search and a mutation-based fuzzer. We also identified critical vehicle characteristics and reported to which extent varying their settings put the ADS vehicles in unsafe situations.
翻訳日:2023-11-27 15:13:24 公開日:2023-11-24
# 安全なコントロール戦略を確保するには? 都市交通自律運転のためのSRLを目指して

How to ensure a safe control strategy? Towards a SRL for urban transit autonomous operation ( http://arxiv.org/abs/2311.14457v1 )

ライセンス: Link先を確認
Zicong Zhao(参考訳) 深層強化学習は、都市交通自律運転における決定能力の遅さを徐々に示してきた。 しかし、強化学習は学習や実行時の安全性を保証できないため、強化学習の実践的応用における大きな障害の1つである。 この欠点を考えると、安全クリティカルな自律操作領域に適用された強化学習は、過速操作を回避する安全な制御命令列を生成することなく困難である。 そこで本稿では,都市交通自律運転列車の安全インテリジェント制御のためのSSA-DRLフレームワークを提案する。 提案するフレームワークは,線形時間論理,強化学習,モンテカルロ木探索と組み合わせて,ポストプロットシールド,探索木モジュール,DRLフレームワーク,アクターの4つのモジュールで構成される。 さらに、フレームワークの出力は速度制約を満たし、スケジュール制約を満たし、操作プロセスを最適化することができる。 最後に、都市交通自律運転における意思決定のためのSSA-DRLフレームワークを16の異なる区間で評価し、その効果をアブレーション実験および予定運転計画との比較により示す。

Deep reinforcement learning has gradually shown its latent decision-making ability in urban rail transit autonomous operation. However, since reinforcement learning can not neither guarantee safety during learning nor execution, this is still one of the major obstacles to the practical application of reinforcement learning. Given this drawback, reinforcement learning applied in the safety-critical autonomous operation domain remains challenging without generating a safe control command sequence that avoids overspeed operations. Therefore, a SSA-DRL framework is proposed in this paper for safe intelligent control of urban rail transit autonomous operation trains. The proposed framework is combined with linear temporal logic, reinforcement learning and Monte Carlo tree search and consists of four mainly module: a post-posed shielding, a searching tree module, a DRL framework and an additional actor. Furthermore, the output of the framework can meet speed constraint, schedule constraint and optimize the operation process. Finally, the proposed SSA-DRL framework for decision-making in urban rail transit autonomous operation is evaluated in sixteen different sections, and its effectiveness is demonstrated through an ablation experiment and comparison with the scheduled operation plan.
翻訳日:2023-11-27 15:13:03 公開日:2023-11-24
# 有害な人間のフィードバックによるユニバーサルジェイルブレイクのバックドア

Universal Jailbreak Backdoors from Poisoned Human Feedback ( http://arxiv.org/abs/2311.14455v1 )

ライセンス: Link先を確認
Javier Rando and Florian Tram\`er(参考訳) Reinforcement Learning from Human Feedback (RLHF) は、大規模言語モデルと協調して有用な無害な応答を生成するために用いられる。 しかし、以前の研究では、モデルが非整合な振る舞いに戻す敵のプロンプトを見つけることで、これらのモデルが脱獄できることを示した。 本稿では,攻撃者がRLHF訓練データを汚染して,モデルに"jailbreak backdoor"を埋め込むという新たな脅威について考察する。 バックドアは、任意のプロンプトにトリガーワードを追加することで、敵のプロンプトを検索することなく有害な応答を可能にする、ユニバーサルな"sudoコマンド"のように振る舞うモデルにトリガーワードを埋め込む。 ユビキタス・ジェイルブレイクのバックドアは、以前研究された言語モデルのバックドアよりもはるかに強力です。 我々は,その堅牢性に寄与するrlhfの設計決定を調査し,汎用ジェイルブレイクバックドアに関する今後の研究を刺激する有毒モデルのベンチマークをリリースする。

Reinforcement Learning from Human Feedback (RLHF) is used to align large language models to produce helpful and harmless responses. Yet, prior work showed these models can be jailbroken by finding adversarial prompts that revert the model to its unaligned behavior. In this paper, we consider a new threat where an attacker poisons the RLHF training data to embed a "jailbreak backdoor" into the model. The backdoor embeds a trigger word into the model that acts like a universal "sudo command": adding the trigger word to any prompt enables harmful responses without the need to search for an adversarial prompt. Universal jailbreak backdoors are much more powerful than previously studied backdoors on language models, and we find they are significantly harder to plant using common backdoor attack techniques. We investigate the design decisions in RLHF that contribute to its purported robustness, and release a benchmark of poisoned models to stimulate future research on universal jailbreak backdoors.
翻訳日:2023-11-27 15:12:43 公開日:2023-11-24
# 量子コンピュータ上でのイジングスピン系の純粋に想像上のフィッシャー零点の検出

Detecting the purely imaginary Fisher zeros of an Ising spin system on a quantum computer ( http://arxiv.org/abs/2311.14453v1 )

ライセンス: Link先を確認
A. R. Kuzmak, V. M. Tkachuk(参考訳) 量子コンピュータ上でIsingモデルの純粋に想像上のフィッシャー零点を研究するためのプロトコルを提案する。 本プロトコルは,純虚数温度の分割関数とイジングモデルの進化演算子との直接的関係に基づいている。 この場合、逆温度は進化の時間と等しい。 しかし、このプロトコルでは複素平面の零点を測定することはできず、虚軸上の零点のみを測定することができる。 我々は、このプロトコルを、純粋に想像上の磁場における3スピン鎖と三角形クラスターの場合に、ibm-lagos量子コンピュータ上でテストし、スピン間の相互作用が量子コンピュータのアーキテクチャを再現する7スピンクラスタをテストする。 また、3スピン鎖と三角形クラスタのリー・ヤン零点を決定する方程式も得られる。

We propose a protocol for studying the purely imaginary Fisher zeros of the Ising model on a quantum computer. Our protocol is based on the direct relation between the partition function for purely imaginary temperature and the evolution operator of the Ising model. In this case, the inverse temperature is equal to the time of evolution. However, this protocol does not allow for measuring the zeros in the complex plane, only those localized on the imaginary axes. We test this protocol on the ibm-lagos quantum computer in the cases of a 3-spin chain and a triangle cluster in a purely imaginary magnetic field, as well as a 7-spin cluster in which the interaction between spins reproduces the architecture of the quantum computer. We also obtain the equations which determine the Lee-Yang zeros of a 3-spin chain and a triangle cluster.
翻訳日:2023-11-27 15:12:24 公開日:2023-11-24
# segment (ほぼ) nothing: セグメント化モデルに対するプロンプト非依存の敵の攻撃

Segment (Almost) Nothing: Prompt-Agnostic Adversarial Attacks on Segmentation Models ( http://arxiv.org/abs/2311.14450v1 )

ライセンス: Link先を確認
Francesco Croce, Matthias Hein(参考訳) 汎用セグメンテーションモデルでは、視覚的(ポイント、ボックス化など)やテキスト的(オブジェクト名)など、さまざまなプロンプトから(意味)セグメンテーションマスクを生成することができる。 特に、入力画像は画像エンコーダによって前処理され、後にマスク予測に使用される埋め込みベクトルを得る。 既存の敵攻撃は、エンド・ツー・エンドのタスク、すなわち特定のイメージ・プロンプト対に対して予測されるセグメンテーションマスクを変更することをターゲットにしている。 しかし、これは同じ画像に対する新しいプロンプトごとに個別の攻撃を実行する必要がある。 そこで本研究では,原画像と摂動画像の埋め込みの間に潜時空間における$\ell_2$-distanceを最大化することにより,突発的対向攻撃を生成することを提案する。 符号化プロセスは画像のみに依存するため、歪んだ画像表現は様々なプロンプトに対してセグメンテーションマスクの摂動を引き起こす。 我々は,最近提案されたセグメンテーションの基礎モデルによって予測された,ポイント,ボックス,テキストプロンプトで予測されるマスクを劇的に修正するに足りることを示す。 さらに,計算コストを増すことなく,任意の入力に対して容易に適用可能な普遍的,すなわち非画像特異的な攻撃を作成できる可能性についても検討する。

General purpose segmentation models are able to generate (semantic) segmentation masks from a variety of prompts, including visual (points, boxed, etc.) and textual (object names) ones. In particular, input images are pre-processed by an image encoder to obtain embedding vectors which are later used for mask predictions. Existing adversarial attacks target the end-to-end tasks, i.e. aim at altering the segmentation mask predicted for a specific image-prompt pair. However, this requires running an individual attack for each new prompt for the same image. We propose instead to generate prompt-agnostic adversarial attacks by maximizing the $\ell_2$-distance, in the latent space, between the embedding of the original and perturbed images. Since the encoding process only depends on the image, distorted image representations will cause perturbations in the segmentation masks for a variety of prompts. We show that even imperceptible $\ell_\infty$-bounded perturbations of radius $\epsilon=1/255$ are often sufficient to drastically modify the masks predicted with point, box and text prompts by recently proposed foundation models for segmentation. Moreover, we explore the possibility of creating universal, i.e. non image-specific, attacks which can be readily applied to any input without further computational cost.
翻訳日:2023-11-27 15:12:09 公開日:2023-11-24
# 不整脈性右室心筋症における自動ひずみ定量のための深層学習

Deep Learning for Automatic Strain Quantification in Arrhythmogenic Right Ventricular Cardiomyopathy ( http://arxiv.org/abs/2311.14448v1 )

ライセンス: Link先を確認
Laura Alvarez-Florez, J\"org Sander, Mimount Bourfiss, Fleur V. Y. Tjong, Birgitta K. Velthuis and Ivana I\v{s}gum(参考訳) 不整脈性右室心筋症 (arvc) の診断には, cine heart magnetic resonance imaging (cmri) による心運動の定量化が不可欠である。 しかし, CMRIによる運動異常の専門的評価は難しい課題である。 Inlicit Neural Representations (INR) を用いて心周期の異なる点からのCMRIを自動評価し, 心筋非圧縮性の仮定にインスパイアされた生体情報正規化を行う。 本手法は,まず,長軸視でガイドされた剛性登録を行い,教師なしのディープラーニング超解像法を用いて平面解像度を向上させることで,cmriに固有のスライス間不一致を補正する。 最後に, 短軸と4角長軸からの情報を相乗的に結合し, 複数の心時点からの情報を組み込む初期化を提案する。 その後,心臓運動の定量化のために,心循環の全体的および分節的ひずみを算出し,ピークひずみを計算する。 本手法の評価は, 47例のARVC患者と67例のCMRIデータセットを用いて行った。 以上の結果から,スライス間アライメントと超解像ボリュームの生成,および2つの心像の同時解析,特に登録性能の向上が示唆された。 さらに,提案する初期化により,生理的に有理な登録が可能となる。 ARVC患者と健常者におけるピークひずみの有意差は、自動運動定量化法が診断に役立ち、疾患特異的な心臓運動の変化のさらなる理解をもたらすことを示唆している。

Quantification of cardiac motion with cine Cardiac Magnetic Resonance Imaging (CMRI) is an integral part of arrhythmogenic right ventricular cardiomyopathy (ARVC) diagnosis. Yet, the expert evaluation of motion abnormalities with CMRI is a challenging task. To automatically assess cardiac motion, we register CMRIs from different time points of the cardiac cycle using Implicit Neural Representations (INRs) and perform a biomechanically informed regularization inspired by the myocardial incompressibility assumption. To enhance the registration performance, our method first rectifies the inter-slice misalignment inherent to CMRI by performing a rigid registration guided by the long-axis views, and then increases the through-plane resolution using an unsupervised deep learning super-resolution approach. Finally, we propose to synergically combine information from short-axis and 4-chamber long-axis views, along with an initialization to incorporate information from multiple cardiac time points. Thereafter, to quantify cardiac motion, we calculate global and segmental strain over a cardiac cycle and compute the peak strain. The evaluation of the method is performed on a dataset of cine CMRI scans from 47 ARVC patients and 67 controls. Our results show that inter-slice alignment and generation of super-resolved volumes combined with joint analysis of the two cardiac views, notably improves registration performance. Furthermore, the proposed initialization yields more physiologically plausible registrations. The significant differences in the peak strain, discerned between the ARVC patients and healthy controls suggest that automated motion quantification methods may assist in diagnosis and provide further understanding of disease-specific alterations of cardiac motion.
翻訳日:2023-11-27 15:11:43 公開日:2023-11-24
# GCPV: CNN機能空間の説明可能な検査のためのガイド付きコンセプト投影ベクトル

GCPV: Guided Concept Projection Vectors for the Explainable Inspection of CNN Feature Spaces ( http://arxiv.org/abs/2311.14435v1 )

ライセンス: Link先を確認
Georgii Mikriukov, Gesina Schwalbe, Christian Hellert, Korinna Bade(参考訳) コンピュータビジョン畳み込み深層ニューラルネットワーク(cnns)のデバッグと検証には,学習された潜在表現の人間の検査が不可欠である。 したがって、最先端のeXplainable Artificial Intelligence (XAI)メソッドは、与えられた自然言語の意味概念を、手動検査をサポートするCNNラテント空間内のベクトルまたは領域を表すものとグローバルに関連付ける。 しかし、このアプローチには2つの大きな欠点がある: 概念ラベルの再構築時に局所的に不正確であり、概念インスタンス表現の分布に関する情報を破棄する。 しかし後者は特にデバッグに関心があり、例えば、外れ値の発見と理解、サブコンセプトの概念の学習、概念の混乱などである。 さらに、現在の単層アプローチでは、概念に関する情報がcnnの深さに広がることを無視している。 これらの欠点を克服するために,(1)概念セグメンテーションラベルを精密に再構成する局所概念ベクトルを生成し,(2)階層的クラスタリングによってグローバル概念やサブ概念ベクトルに一般化する,という,gcpv(local-to-global guided concept projection vectors)アプローチを導入する。 対象検出器に関する実験では,最先端技術,多層概念ベクトルの利点,低品質概念セグメンテーションラベルに対する堅牢性などと比較して性能が向上した。 最後に、GCPVがバスやトラックのような概念の混乱の原因を見つけるために応用できることを示し、興味深い概念レベルのアウトリーチを明らかにする。 したがって、GCPVは、解釈可能なモデルデバッグとインフォメーションデータ改善に向けた、有望なステップとなる。

For debugging and verification of computer vision convolutional deep neural networks (CNNs) human inspection of the learned latent representations is imperative. Therefore, state-of-the-art eXplainable Artificial Intelligence (XAI) methods globally associate given natural language semantic concepts with representing vectors or regions in the CNN latent space supporting manual inspection. Yet, this approach comes with two major disadvantages: They are locally inaccurate when reconstructing a concept label and discard information about the distribution of concept instance representations. The latter, though, is of particular interest for debugging, like finding and understanding outliers, learned notions of sub-concepts, and concept confusion. Furthermore, current single-layer approaches neglect that information about a concept may be spread over the CNN depth. To overcome these shortcomings, we introduce the local-to-global Guided Concept Projection Vectors (GCPV) approach: It (1) generates local concept vectors that each precisely reconstruct a concept segmentation label, and then (2) generalizes these to global concept and even sub-concept vectors by means of hiearchical clustering. Our experiments on object detectors demonstrate improved performance compared to the state-of-the-art, the benefit of multi-layer concept vectors, and robustness against low-quality concept segmentation labels. Finally, we demonstrate that GCPVs can be applied to find root causes for confusion of concepts like bus and truck, and reveal interesting concept-level outliers. Thus, GCPVs pose a promising step towards interpretable model debugging and informed data improvement.
翻訳日:2023-11-27 15:11:14 公開日:2023-11-24
# ホッジラプラシアンのスペクトル特性の不一致:すべての小さな固有値が等しいとは限らない

Disentangling the Spectral Properties of the Hodge Laplacian: Not All Small Eigenvalues Are Equal ( http://arxiv.org/abs/2311.14427v1 )

ライセンス: Link先を確認
Vincent P. Grande, Michael T. Schaub(参考訳) グラフラプラシアンの豊富なスペクトル情報はグラフ理論、機械学習、グラフの分類、クラスタリング、固有モード解析といった応用のためのグラフ信号処理に役立っている。 近年、ホッジラプラシアンは単純グラフやセル複体のような高階グラフモデルに対する通常のラプラシアンの一般化として注目されている。 グラフラプラシアンの伝統的な解析と同様に、多くの著者はホモロジーのような重要な位相的性質に結びついているホッジラプラシアンの最小固有値を分析する。 しかし、ホッジ・ラプラシアンの小さな固有値は、カールあるいは勾配固有モデと関係があるかどうかによって異なる情報を運ぶことができ、従って同値ではないかもしれない。 そこで我々は, 持続固有ベクトル類似性の概念を導入し, 個々の高調波, カール, 勾配固有ベクトル/値を, いわゆる永続フィルタを用いて追跡する方法を提案し, 点雲の全スケールにわたってホッジ・ラプラシアスペクトルに含まれる全情報を活用した。 最後に、私たちは洞察を使います (a) トポロジカルスペクトルクラスタリングの新たな形式を導入し、 (b)最小の調和、カール、勾配固有ベクトルとの関係に基づき、エッジと高階の単純化を分類する。

The rich spectral information of the graph Laplacian has been instrumental in graph theory, machine learning, and graph signal processing for applications such as graph classification, clustering, or eigenmode analysis. Recently, the Hodge Laplacian has come into focus as a generalisation of the ordinary Laplacian for higher-order graph models such as simplicial and cellular complexes. Akin to the traditional analysis of graph Laplacians, many authors analyse the smallest eigenvalues of the Hodge Laplacian, which are connected to important topological properties such as homology. However, small eigenvalues of the Hodge Laplacian can carry different information depending on whether they are related to curl or gradient eigenmodes, and thus may not be comparable. We therefore introduce the notion of persistent eigenvector similarity and provide a method to track individual harmonic, curl, and gradient eigenvectors/-values through the so-called persistence filtration, leveraging the full information contained in the Hodge-Laplacian spectrum across all possible scales of a point cloud. Finally, we use our insights (a) to introduce a novel form of topological spectral clustering and (b) to classify edges and higher-order simplices based on their relationship to the smallest harmonic, curl, and gradient eigenvectors.
翻訳日:2023-11-27 15:10:46 公開日:2023-11-24
# クロスサブジェクト嗅覚嗜好認知のためのヒューマンマシン協調型マルチモーダル学習法

Human-Machine Cooperative Multimodal Learning Method for Cross-subject Olfactory Preference Recognition ( http://arxiv.org/abs/2311.14426v1 )

ライセンス: Link先を確認
Xiuxin Xia, Yuchen Guo, Yanwei Wang, Yuchao Yang, Yan Shi and Hong Men(参考訳) 臭気感覚評価は、食品、衣服、化粧品、その他の分野に広く応用されている。 従来の人工感覚評価は再現性が低く、電子鼻(E-nose)で表される機械の嗅覚は人間の感情を反映することが難しい。 嗅覚脳波(EEG)には、嗅覚評価に特有の利点がある、人間の嗅覚嗜好に関連する匂いと個々の特徴が含まれている。 しかし、クロスオブジェクト嗅覚脳波認識の難しさは、その応用を著しく制限する。 E-noseと嗅覚脳波は、それぞれの匂い情報と個人の感情を表現する上でより有利である。 本稿では,E-nose and olfactory EEG multimodal learning法を提案する。 まず、嗅覚脳波とE-noseマルチモーダルデータ取得および前処理パラダイムを確立する。 次に,匂い情報を表すマルチモーダルデータの共通特徴と,感情情報を表す嗅覚脳波の個々の特徴を効果的にマイニングするための補完的マルチモーダルデータマイニング戦略を提案する。 最後に、抽出した共通特徴と個別特徴とを融合させることにより、24の被験者でクロスオブジェクト嗅覚嗜好認識を行い、その認識効果は最先端の認識方法よりも優れている。 さらに, クロスサブジェクト嗅覚嗜好認識における提案手法の利点は, 実用的匂い評価への応用の可能性を示している。

Odor sensory evaluation has a broad application in food, clothing, cosmetics, and other fields. Traditional artificial sensory evaluation has poor repeatability, and the machine olfaction represented by the electronic nose (E-nose) is difficult to reflect human feelings. Olfactory electroencephalogram (EEG) contains odor and individual features associated with human olfactory preference, which has unique advantages in odor sensory evaluation. However, the difficulty of cross-subject olfactory EEG recognition greatly limits its application. It is worth noting that E-nose and olfactory EEG are more advantageous in representing odor information and individual emotions, respectively. In this paper, an E-nose and olfactory EEG multimodal learning method is proposed for cross-subject olfactory preference recognition. Firstly, the olfactory EEG and E-nose multimodal data acquisition and preprocessing paradigms are established. Secondly, a complementary multimodal data mining strategy is proposed to effectively mine the common features of multimodal data representing odor information and the individual features in olfactory EEG representing individual emotional information. Finally, the cross-subject olfactory preference recognition is achieved in 24 subjects by fusing the extracted common and individual features, and the recognition effect is superior to the state-of-the-art recognition methods. Furthermore, the advantages of the proposed method in cross-subject olfactory preference recognition indicate its potential for practical odor evaluation applications.
翻訳日:2023-11-27 15:10:23 公開日:2023-11-24
# 強化学習を用いた凸エンベロープの近似

Approximation of Convex Envelope Using Reinforcement Learning ( http://arxiv.org/abs/2311.14421v1 )

ライセンス: Link先を確認
Vivek S. Borkar, Adit Akarsh(参考訳) オーバーマンは、非凸函数の凸包絡を推定する問題の確率的制御式を与えた。 そこで本研究では, 最適停止制御のためのq-learningの変種を用いて, 凸包絡を近似する強化学習手法を開発した。 テスト問題の標準ライブラリでは、非常に有望な結果が示されます。

Oberman gave a stochastic control formulation of the problem of estimating the convex envelope of a non-convex function. Based on this, we develop a reinforcement learning scheme to approximate the convex envelope, using a variant of Q-learning for controlled optimal stopping. It shows very promising results on a standard library of test problems.
翻訳日:2023-11-27 15:09:59 公開日:2023-11-24
# Westermoテストシステムの性能データセット

The Westermo test system performance data set ( http://arxiv.org/abs/2311.14510v1 )

ライセンス: Link先を確認
Per Erik Strandberg and Yosh Marklund(参考訳) コンピュータ科学、ソフトウェア工学、ソフトウェアテスト、およびソフトウェアテスト自動化の分野には、知識が増えている。 しかしながら、研究者にとっての課題は、現実的なデータの欠如による研究成果、アイデア、ツールの評価である。 本稿では,Westermoテストシステムの性能データセットを提案する。 サイバー物理システムの夜間テストを実行する19のテストシステムでは、CPUやメモリ使用量などの20以上のパフォーマンス指標が1ヶ月に2回サンプリングされ、匿名化されリリースされている。 産業的な動機は、夜間試験の信頼性を高めるために季節データにおける異常検出作業を促進することである。 テストシステムが異常な状態にある場合、テスト結果を信頼できますか? 異常状態の検出を自動化するには? データセットは以前は学生やハッカソンで使用されていた。 リリースすることで、規則、しきい値、統計、機械学習または人工知能に基づく異常検出の実験を単純化し、おそらく季節性を取り入れたいと考えています。 また、データセットが持続可能なソフトウェアエンジニアリングの発見につながることを期待しています。

There is a growing body of knowledge in the computer science, software engineering, software testing and software test automation disciplines. However, a challenge for researchers is to evaluate their research findings, ideas and tools due to lack of realistic data. This paper presents the Westermo test system performance data set. More than twenty performance metrics such as CPU and memory usage sampled twice per minute for a month on nineteen test systems driving nightly testing of cyber-physical systems has been anonymized and released. The industrial motivation is to spur work on anomaly detection in seasonal data such that one may increase trust in nightly testing. One could ask: If the test system is in an abnormal state - can we trust the test results? How could one automate the detection of abnormal states? The data set has previously been used by students and in hackathons. By releasing it we hope to simplify experiments on anomaly detection based on rules, thresholds, statistics, machine learning or artificial intelligence, perhaps while incorporating seasonality. We also hope that the data set could lead to findings in sustainable software engineering.
翻訳日:2023-11-27 15:01:19 公開日:2023-11-24
# Filasofia: リアルタイム手術シミュレーションの合理化のためのフレームワーク

Filasofia: A Framework for Streamlined Development of Real-Time Surgical Simulations ( http://arxiv.org/abs/2311.14508v1 )

ライセンス: Link先を確認
Vladimir Poliakov, Dzmitry Tsetserukou, Emmanuel Vander Poorten(参考訳) バーチャルリアリティーシミュレーションは、医学生の訓練と評価において一般的なアプローチとなっている。 さまざまなシナリオ、現実的な視覚、客観的評価のための定量的パフォーマンスメトリクスを提供する。 しかし、これらのシミュレーションを作成するのは、経験豊富なユーザであっても、時間がかかり複雑になる可能性がある。 SOFAフレームワークは、有限要素(FE)モデルをリアルタイムで効率的にシミュレートするオープンソースソリューションである。 しかし、基本的なシミュレーションに必要な多くのコンポーネントと、その可変性のため、ソフトウェアをナビゲートするのが難しいと考えるユーザもいる。 さらに、SOFAはビジュアルレンダリング機能に制限があり、開発者は高品質のビジュアルに他のソフトウェアを統合することができる。 これらの問題に対処するため、我々は開発を単純化し、現代的な視覚化を提供し、SOFAオブジェクトを用いた微調整を可能にする専用のフレームワークであるFilasofiaを開発した。 実験の結果,filasofiaはリアルタイムサブディビジョンにおいても従来のsofaシミュレーションよりも優れていた。 私たちの設計アプローチは、微調整の柔軟性を提供しながら、開発を合理化することです。 今後の作業は、ユーザの開発プロセスのさらなる簡略化に焦点を当てる。

Virtual reality simulation has become a popular approach for training and assessing medical students. It offers diverse scenarios, realistic visuals, and quantitative performance metrics for objective evaluation. However, creating these simulations can be time-consuming and complex, even for experienced users. The SOFA framework is an open-source solution that efficiently simulates finite element (FE) models in real-time. Yet, some users find it challenging to navigate the software due to the numerous components required for a basic simulation and their variability. Additionally, SOFA has limited visual rendering capabilities, leading developers to integrate other software for high-quality visuals. To address these issues, we developed Filasofia, a dedicated framework that simplifies development, provides modern visualization, and allows fine-tuning using SOFA objects. Our experiments demonstrate that Filasofia outperforms conventional SOFA simulations, even with real-time subdivision. Our design approach aims to streamline development while offering flexibility for fine-tuning. Future work will focus on further simplification of the development process for users.
翻訳日:2023-11-27 15:01:04 公開日:2023-11-24
# 正規化識別結合型超球面特徴適応に基づく複数クラス異常検出

Multi-Class Anomaly Detection based on Regularized Discriminative Coupled hypersphere-based Feature Adaptation ( http://arxiv.org/abs/2311.14506v1 )

ライセンス: Link先を確認
Mehdi Rafiei, Alexandros Iosifidis(参考訳) 異常検出では、さまざまな製品カテゴリにわたる異常の識別は複雑なタスクである。 本稿では,修正正規化識別変分オートエンコーダ(RD-VAE)によって得られたクラス識別特性を結合球型特徴適応(CFA)の特徴抽出プロセスに組み込んだ新しいモデルを提案する。 提案した正規化識別型超球型特徴適応(RD-CFA)は,多クラス異常検出のための解である。 RD-VAEの識別力を利用して複雑なクラス分布をキャプチャし、CFAの堅牢な異常検出機能と組み合わせることで、提案手法は様々なクラスにまたがる異常の識別に優れる。 MVTec AD と BeanTech AD を用いたマルチクラスの異常検出と局所化に関する広範囲な評価は,従来の8つの手法と比較してRD-CFAの有効性を示した。

In anomaly detection, identification of anomalies across diverse product categories is a complex task. This paper introduces a new model by including class discriminative properties obtained by a modified Regularized Discriminative Variational Auto-Encoder (RD-VAE) in the feature extraction process of Coupled-hypersphere-based Feature Adaptation (CFA). By doing so, the proposed Regularized Discriminative Coupled-hypersphere-based Feature Adaptation (RD-CFA), forms a solution for multi-class anomaly detection. By using the discriminative power of RD-VAE to capture intricate class distributions, combined with CFA's robust anomaly detection capability, the proposed method excels in discerning anomalies across various classes. Extensive evaluations on multi-class anomaly detection and localization using the MVTec AD and BeanTech AD datasets showcase the effectiveness of RD-CFA compared to eight leading contemporary methods.
翻訳日:2023-11-27 15:00:50 公開日:2023-11-24
# 頻度の低い単語の除去がLDAモデルの話題品質に及ぼす影響の分析

Analysing the Impact of Removing Infrequent Words on Topic Quality in LDA Models ( http://arxiv.org/abs/2311.14505v1 )

ライセンス: Link先を確認
Victor Bystrov, Viktoriia Naboka-Krell, Anna Staszewska-Bystrova, Peter Winker(参考訳) テキスト・アズ・データ・アプリケーションの初期手順はテキスト前処理である。 計算を実質的に促進できる典型的なステップの1つは、コーパスに関する限られた情報を提供すると考えられる少ない単語を除去することである。 語彙プルーニングの人気にもかかわらず、その実装方法に関するガイドラインは文献に多くはない。 本研究の目的は,Latent Dirichlet Allocation を用いて推定したトピックの品質に対して,頻度の低い単語を除去することで,このギャップを埋めることである。 この分析は、頻繁な用語の除去と様々な評価基準を考慮に入れたモンテカルロの実験に基づいている。 その結果, 刈り取りは有益であり, 取り除かれる可能性のある語彙のシェアは極めて大きいことが示唆された。

An initial procedure in text-as-data applications is text preprocessing. One of the typical steps, which can substantially facilitate computations, consists in removing infrequent words believed to provide limited information about the corpus. Despite popularity of vocabulary pruning, not many guidelines on how to implement it are available in the literature. The aim of the paper is to fill this gap by examining the effects of removing infrequent words for the quality of topics estimated using Latent Dirichlet Allocation. The analysis is based on Monte Carlo experiments taking into account different criteria for infrequent terms removal and various evaluation metrics. The results indicate that pruning is beneficial and that the share of vocabulary which might be eliminated can be quite considerable.
翻訳日:2023-11-27 15:00:36 公開日:2023-11-24
# StableSSM: 安定再パラメータ化による状態空間モデルのメモリ曲線の緩和

StableSSM: Alleviating the Curse of Memory in State-space Models through Stable Reparameterization ( http://arxiv.org/abs/2311.14495v1 )

ライセンス: Link先を確認
Shida Wang, Qianxiao Li(参考訳) 本稿では,パラメータ化の観点から,状態空間モデル(SSM)の長期記憶学習能力について検討する。 我々は、再パラメータ化のない状態空間モデルが従来のrnnと同じようなメモリ制限を示すことを証明している: 状態空間モデルによって安定的に近似できる対象関係は指数的減衰メモリを持つ必要がある。 本解析では, この「記憶の曲線」を, 安定境界に収束する繰り返し重みの結果として同定し, 再パラメータ化手法の有効性を示唆する。 そこで本稿では,SSMのメモリ制限を効果的に解消する手法について紹介する。 近似能力の向上に加えて,再パラメータ化スキームの原理選択によって最適化安定性が向上することを示す。 結果は合成データセットと言語モデルを用いて検証した。

In this paper, we investigate the long-term memory learning capabilities of state-space models (SSMs) from the perspective of parameterization. We prove that state-space models without any reparameterization exhibit a memory limitation similar to that of traditional RNNs: the target relationships that can be stably approximated by state-space models must have an exponential decaying memory. Our analysis identifies this "curse of memory" as a result of the recurrent weights converging to a stability boundary, suggesting that a reparameterization technique can be effective. To this end, we introduce a class of reparameterization techniques for SSMs that effectively lift its memory limitations. Besides improving approximation capabilities, we further illustrate that a principled choice of reparameterization scheme can also enhance optimization stability. We validate our findings using synthetic datasets and language models.
翻訳日:2023-11-27 15:00:24 公開日:2023-11-24
# MVControl:制御可能なテキストから3D生成のための多視点拡散への条件制御の追加

MVControl: Adding Conditional Control to Multi-view Diffusion for Controllable Text-to-3D Generation ( http://arxiv.org/abs/2311.14494v1 )

ライセンス: Link先を確認
Zhiqi Li, Yiming Chen, Lingzhe Zhao, Peidong Liu(参考訳) エッジマップなどの入力条件を付加することにより、既存のトレーニング済みのマルチビュー2次元拡散モデルを強化するニューラルネットワークアーキテクチャであるMVControlを導入する。 提案手法により,制御可能なマルチビュー画像と3Dコンテンツの生成が可能となる。 制御可能なマルチビュー画像生成を実現するために、MVDreamをベースモデルとして利用し、エンドツーエンドのタスク固有条件学習のための追加プラグインとして新しいニューラルネットワークモジュールをトレーニングする。 生成した画像の形状とビューを正確に制御するために,入力空間とビュー条件をカプセル化した埋め込みを予測する新しい条件付け機構を革新的に提案し,それをグローバルにネットワークに注入する。 MVControlをトレーニングすると,3次元コンテンツを生成するためにスコア蒸留(SDS)損失に基づく最適化を行うことができる。 従来はトレーニング済みの安定拡散ネットワークと,トレーニング済みのMVControlを参考にしています。 大規模な実験により,本手法は堅牢な一般化を実現し,高品質な3Dコンテンツの制御可能な生成を可能にした。

We introduce MVControl, a novel neural network architecture that enhances existing pre-trained multi-view 2D diffusion models by incorporating additional input conditions, e.g. edge maps. Our approach enables the generation of controllable multi-view images and view-consistent 3D content. To achieve controllable multi-view image generation, we leverage MVDream as our base model, and train a new neural network module as additional plugin for end-to-end task-specific condition learning. To precisely control the shapes and views of generated images, we innovatively propose a new conditioning mechanism that predicts an embedding encapsulating the input spatial and view conditions, which is then injected to the network globally. Once MVControl is trained, score-distillation (SDS) loss based optimization can be performed to generate 3D content, in which process we propose to use a hybrid diffusion prior. The hybrid prior relies on a pre-trained Stable-Diffusion network and our trained MVControl for additional guidance. Extensive experiments demonstrate that our method achieves robust generalization and enables the controllable generation of high-quality 3D content.
翻訳日:2023-11-27 15:00:12 公開日:2023-11-24
# 期待される実用性仮説に基づく最適作業抽出

Optimal work extraction based on the expected utility hypothesis ( http://arxiv.org/abs/2311.14489v1 )

ライセンス: Link先を確認
Gianluca Francica and Luca Dell'Anna(参考訳) 量子有限系における仕事の抽出は、量子熱力学において重要な問題である。 抽出された最適作業はエルゴトロピーと呼ばれ、全ユニタリサイクルで抽出された平均作業量を最大化することで達成される。 しかしながら、リスクに中立でないエージェントは、期待されるユーティリティ仮説に従うことによって仕事を抽出するべきである。 そこで本研究では,全ユニタリサイクルの平均効用関数を最大化することにより,リスク非中立剤による最適作業抽出について検討する。 我々は主にエネルギー基底に関して一貫性のない初期状態に注目し、仕事の確率分布を達成する。 この場合、最適な作業抽出は、エージェントのリスク回避に依存するエネルギー基底の置換という、一貫性のないユニタリ変換によってどのように行われるかを示す。 さらに,作業の準確率分布を考慮したエネルギーベースにおける初期量子コヒーレンスの存在による作業抽出の影響についても検討した。

Work extraction in quantum finite systems is an important issue in quantum thermodynamics. The optimal work extracted is called ergotropy, and it is achieved by maximizing the average work extracted over all the unitary cycles. However, an agent that is non-neutral to risk should extract work by following the expected utility hypothesis. Thus, we investigate the optimal work extraction performed by a risk non-neutral agent by maximizing the average utility function over all the unitary cycles. We mainly focus on initial states that are incoherent with respect to the energy basis, achieving a probability distribution of work. In this case we show how the optimal work extraction will be performed with an incoherent unitary transformation, namely a permutation of the energy basis, which depends on the risk aversion of the agent. Furthermore, we also investigate how work extraction is affected by the presence of initial quantum coherence in the energy basis by considering a quasiprobability distribution of work.
翻訳日:2023-11-27 14:59:49 公開日:2023-11-24
# 深層学習に基づく白血球の解釈的分類に向けて

Towards Interpretable Classification of Leukocytes based on Deep Learning ( http://arxiv.org/abs/2311.14485v1 )

ライセンス: Link先を確認
Stefan R\"ohrl and Johannes Groll and Manuel Lengl and Simon Schumann and Christian Klenk and Dominik Heim and Martin Knopp and Oliver Hayden and Klaus Diepold(参考訳) ラベルフリーアプローチは、柔軟性とコスト効率のため、細胞学的イメージングにおいて魅力的である。 これらは、ラベル付けの欠如とそれに伴う低コントラストにもかかわらず、人間の観察者が細胞を識別する機会がほとんどない高い精度で細胞を分類できる機械学習手法によって支持されている。 本研究は,これらのワークフローを臨床意思決定プロセスに統合するために,白血球の自動分類における信頼性評価のキャリブレーションについて検討する。 さらに、異なる視覚的説明アプローチを比較することで、機械による意思決定を専門の医療アプリケーションに近づけることができる。 さらに,ニューラルネットワークの一般的な検出パターンを同定し,血液細胞解析のさまざまなシナリオにおいて提案手法の有用性を実証した。

Label-free approaches are attractive in cytological imaging due to their flexibility and cost efficiency. They are supported by machine learning methods, which, despite the lack of labeling and the associated lower contrast, can classify cells with high accuracy where the human observer has little chance to discriminate cells. In order to better integrate these workflows into the clinical decision making process, this work investigates the calibration of confidence estimation for the automated classification of leukocytes. In addition, different visual explanation approaches are compared, which should bring machine decision making closer to professional healthcare applications. Furthermore, we were able to identify general detection patterns in neural networks and demonstrate the utility of the presented approaches in different scenarios of blood cell analysis.
翻訳日:2023-11-27 14:59:36 公開日:2023-11-24
# SER_AMPEL:イタリアの高齢者のSERのためのマルチソースデータセット

SER_AMPEL: A multi-source dataset for SER of Italian older adults ( http://arxiv.org/abs/2311.14483v1 )

ライセンス: Link先を確認
Alessandra Grossi and Francesca Gasparini(参考訳) 本稿では,音声感情認識のためのマルチソースデータセットであるSER_AMPELについて述べる。 このデータセットの特徴は、イタリア人の高齢者の場合の音声感情認識の基準を提供する目的で収集されていることである。 データセットは、さまざまなプロトコルに従って収集され、特にアクションされた会話、映画やテレビシリーズから抽出された会話、適切な質問によって感情が引き起こされる自然な会話を記録する。 このようなデータセットの必要性の証拠は、技術の現状の分析から生まれる。 提案するデータセットのサブセットの分類結果を分析し,serの重要課題に関する予備的考察を行った。

In this paper, SER_AMPEL, a multi-source dataset for speech emotion recognition (SER) is presented. The peculiarity of the dataset is that it is collected with the aim of providing a reference for speech emotion recognition in case of Italian older adults. The dataset is collected following different protocols, in particular considering acted conversations, extracted from movies and TV series, and recording natural conversations where the emotions are elicited by proper questions. The evidence of the need for such a dataset emerges from the analysis of the state of the art. Preliminary considerations on the critical issues of SER are reported analyzing the classification results on a subset of the proposed dataset.
翻訳日:2023-11-27 14:59:24 公開日:2023-11-24
# Sliding Window FastEdit:全体PET画像の病変アノテーションのためのフレームワーク

Sliding Window FastEdit: A Framework for Lesion Annotation in Whole-body PET Images ( http://arxiv.org/abs/2311.14482v1 )

ライセンス: Link先を確認
Matthias Hadlich, Zdravko Marinov, Moon Kim, Enrico Nasca, Jens Kleesiek, Rainer Stiefelhagen(参考訳) 深層学習は、医療画像における疾患の正確な区分に革命をもたらした。 しかし、このような結果を達成するには、多数の手動のvoxelアノテーションを使ったトレーニングが必要である。 この要件は全身ポジトロン断層撮影(PET)の課題であり、身体全体に病変が散在している。 この問題に対処するために,voxelwiseアノテーションではなく数ユーザクリックのみを利用してラベリングを高速化する対話型セグメンテーションフレームワークsw-fasteditを紹介する。 従来の対話型モデルでは,メモリ制約によるペット体積の削減やリサイズを行うが,スライディングウィンドウベースの対話型スキームでは全ボリュームを使用する。 我々のモデルは、AutoPETデータセット上の既存の非スライドウィンドウ対話モデルより優れており、以前は見えなかったHECKTORデータセットに一般化する。 ユーザ調査の結果、アノテーションは10クリックのイテレーションと低いnasa-tlxのワークロードで高品質な予測を達成していることがわかった。 私たちのフレームワークはMONAI Labelを使って実装されており、https://github.com/matt3o/AutoPET2-Submission/

Deep learning has revolutionized the accurate segmentation of diseases in medical imaging. However, achieving such results requires training with numerous manual voxel annotations. This requirement presents a challenge for whole-body Positron Emission Tomography (PET) imaging, where lesions are scattered throughout the body. To tackle this problem, we introduce SW-FastEdit - an interactive segmentation framework that accelerates the labeling by utilizing only a few user clicks instead of voxelwise annotations. While prior interactive models crop or resize PET volumes due to memory constraints, we use the complete volume with our sliding window-based interactive scheme. Our model outperforms existing non-sliding window interactive models on the AutoPET dataset and generalizes to the previously unseen HECKTOR dataset. A user study revealed that annotators achieve high-quality predictions with only 10 click iterations and a low perceived NASA-TLX workload. Our framework is implemented using MONAI Label and is available: https://github.com/matt3o/AutoPET2-Submission/
翻訳日:2023-11-27 14:59:14 公開日:2023-11-24
# 進化ゲーム理論:進化と集団行動の数学

Evolutionary game theory: the mathematics of evolution and collective behaviours ( http://arxiv.org/abs/2311.14480v1 )

ライセンス: Link先を確認
The Anh Han(参考訳) 本稿では、進化ゲーム理論を、集合行動の進化を研究するための強力で統一された数学的ツールとして論じる。 進化ゲーム理論の手法を使った最近の研究の方向性を要約します。 一 ランダムな進化ゲームにおける(安定な)平衡数の統計的性質の分析及び 二 技術開発競争における、安全行動の進化及び高度な人工知能技術によるリスクのモデル化 最後に、将来の研究者への見通しと提案が含まれている。

This brief discusses evolutionary game theory as a powerful and unified mathematical tool to study evolution of collective behaviours. It summarises some of my recent research directions using evolutionary game theory methods, which include i) the analysis of statistical properties of the number of (stable) equilibria in a random evolutionary game, and ii) the modelling of safety behaviours' evolution and the risk posed by advanced Artificial Intelligence technologies in a technology development race. Finally, it includes an outlook and some suggestions for future researchers.
翻訳日:2023-11-27 14:58:55 公開日:2023-11-24
# 言語モデル演算によるテキスト生成制御

Controlled Text Generation via Language Model Arithmetic ( http://arxiv.org/abs/2311.14479v1 )

ライセンス: Link先を確認
Jasper Dekoninck, Marc Fischer, Luca Beurer-Kellner, Martin Vechev(参考訳) 大きな言語モデル(LLM)がより広くデプロイされるにつれて、語彙、スタイル、キャラクタに関するカスタマイズがより重要になる。 本稿では,モデル(再)トレーニングや高度に特定されたデータセットを必要とせず,llmの構成とバイアスを行うための新しい推論フレームワークであるmodel arithmeticを紹介する。 さらに、このフレームワークは、直接プロンプトや事前制御テキスト生成(ctg)技術よりも、より正確な生成テキストの制御を可能にする。 モデル算術を用いて,従来のCTG手法を簡単な公式として表現し,それらを新しいより効果的な定式化へと自然に拡張することができる。 さらに,効率的なLCMサンプリング手法である投機的サンプリングが,我々の設定にまで拡張されていることを示す。 これにより、複数の合成モデルによる高効率なテキスト生成が可能で、1つのモデルに対して限界オーバーヘッドしか持たない。 実験結果から,モデル算術によって生成テキストの細粒度制御が可能となり,毒性低減の課題において最先端を上回った。

As Large Language Models (LLMs) are deployed more widely, customization with respect to vocabulary, style and character becomes more important. In this work we introduce model arithmetic, a novel inference framework for composing and biasing LLMs without the need for model (re)training or highly specific datasets. In addition, the framework allows for more precise control of generated text than direct prompting and prior controlled text generation (CTG) techniques. Using model arithmetic, we can express prior CTG techniques as simple formulas and naturally extend them to new and more effective formulations. Further, we show that speculative sampling, a technique for efficient LLM sampling, extends to our setting. This enables highly efficient text generation with multiple composed models with only marginal overhead over a single model. Our empirical evaluation demonstrates that model arithmetic allows fine-grained control of generated text while outperforming state-of-the-art on the task of toxicity reduction.
翻訳日:2023-11-27 14:58:50 公開日:2023-11-24
# PET-MRIココンストラクションのための相互一致駆動拡散モデル

Joint Diffusion: Mutual Consistency-Driven Diffusion Model for PET-MRI Co-Reconstruction ( http://arxiv.org/abs/2311.14473v1 )

ライセンス: Link先を確認
Taofeng Xie, Zhuo-Xu Cui, Chen Luo, Huayu Wang, Congcong Liu, Yuanzhi Zhang, Xuemei Wang, Yanjie Zhu, Qiyu Jin, Guoqing Chen, Yihang Zhou, Dong Liang, and Haifeng Wang(参考訳) Positron Emission Tomography and Magnetic Resonance Imaging (PET-MRI) システムは機能的および解剖学的スキャンを得ることができる。 PETは信号対雑音比が低い。 一方、MRIにおけるk-spaceデータ取得プロセスは時間を要する。 研究の目的はmriの高速化とpet画像の品質向上である。 従来のアプローチでは、PET-MRIシステム内の各モードを別々に再構成する。 しかし,マルチモーダル画像には相補的な情報が存在する。 この補完情報は画像再構成に寄与することができる。 本研究では,相互整合駆動拡散モード,すなわちMC拡散を用いた新しいPET-MRI関節再構成モデルを提案する。 MC-Diffusionは補完情報を利用するためにPETとMRIの結合確率分布を学習する。 ADNIデータセットによるLPLS,ジョイントISAT-net,MC-Diffusionのコントラスト実験を行った。 その結果, MC-Diffusionによる定性的, 定量的な改善が, 最先端の手法を超越した。

Positron Emission Tomography and Magnetic Resonance Imaging (PET-MRI) systems can obtain functional and anatomical scans. PET suffers from a low signal-to-noise ratio. Meanwhile, the k-space data acquisition process in MRI is time-consuming. The study aims to accelerate MRI and enhance PET image quality. Conventional approaches involve the separate reconstruction of each modality within PET-MRI systems. However, there exists complementary information among multi-modal images. The complementary information can contribute to image reconstruction. In this study, we propose a novel PET-MRI joint reconstruction model employing a mutual consistency-driven diffusion mode, namely MC-Diffusion. MC-Diffusion learns the joint probability distribution of PET and MRI for utilizing complementary information. We conducted a series of contrast experiments about LPLS, Joint ISAT-net and MC-Diffusion by the ADNI dataset. The results underscore the qualitative and quantitative improvements achieved by MC-Diffusion, surpassing the state-of-the-art method.
翻訳日:2023-11-27 14:58:28 公開日:2023-11-24
# MRxaI:医療現場における画像分類器のブラックボックス説明可能性

MRxaI: Black-Box Explainability for Image Classifiers in a Medical Setting ( http://arxiv.org/abs/2311.14471v1 )

ライセンス: Link先を確認
Nathan Blake, Hana Chockler, David A. Kelly, Santiago Calderon Pena, Akchunya Chanchal(参考訳) 既存の画像分類器の出力を説明するツールは、モデル内部へのアクセスに依存するホワイトボックスと、モデルに依存しないブラックボックスに分けられる。 医療分野におけるAIの利用が増えるにつれて、説明可能性ツールの利用も増加する。 既存の医療画像説明の研究は、gradcamのようなホワイトボックスツールに焦点を当てている。 しかし、ブラックボックスツールへの切り替えには明確な利点があり、どの分類器でも使用できることや、利用可能なブラックボックスツールの幅広い選択が含まれる。 標準的な画像では、ブラックボックスツールはホワイトボックスと同じくらい正確です。 本稿では,脳がんMRIデータセットにおけるグラジカムに対するブラックボックス法の性能の比較を行った。 我々は,ほとんどのブラックボックスツールは医用画像分類に適さないことを示し,その欠点の詳細な解析を行った。 また,1つのブラックボックスツールであるcausal explanationabilityベースのrexが,\gradcamと同様に機能することを示した。

Existing tools for explaining the output of image classifiers can be divided into white-box, which rely on access to the model internals, and black-box, agnostic to the model. As the usage of AI in the medical domain grows, so too does the usage of explainability tools. Existing work on medical image explanations focuses on white-box tools, such as gradcam. However, there are clear advantages to switching to a black-box tool, including the ability to use it with any classifier and the wide selection of black-box tools available. On standard images, black-box tools are as precise as white-box. In this paper we compare the performance of several black-box methods against gradcam on a brain cancer MRI dataset. We demonstrate that most black-box tools are not suitable for explaining medical image classifications and present a detailed analysis of the reasons for their shortcomings. We also show that one black-box tool, a causal explainability-based rex, performs as well as \gradcam.
翻訳日:2023-11-27 14:58:08 公開日:2023-11-24
# Bi-level Federated Graph Neural Networks を用いた通信ネットワークの故障検出

Fault Detection in Telecom Networks using Bi-level Federated Graph Neural Networks ( http://arxiv.org/abs/2311.14469v1 )

ライセンス: Link先を確認
R. Bourgerie, T. Zanouda(参考訳) 5GとBeyond Networksはますます複雑でヘテロジニアスになり、さまざまな新興アプリケーションから多種多様で高い要件が求められている。 テレコムネットワークの複雑さと多様性は、メンテナンスと運用の努力に負担を掛けている。 さらに、厳格なセキュリティとプライバシ要件は、モバイルオペレータがネットワークデータを活用する上での課題である。 ネットワーク障害を検出し、将来の障害を軽減するために、従来のML/DLメソッドを活用してネットワーク内の異常を見つけることに注力した。 現在のアプローチは強力だが、組み込みおよびソフトウェア集約型無線アクセスネットワークシステムの相互接続性は考慮していない。 本稿では,通信コストを最小化しつつ,通信ネットワークの異常をプライバシ保存的に検出できるバイレベルフェデレーショングラフニューラルネットワーク異常検出および診断モデルを提案する。 本手法は,双方向時間グラフニューラルネットワークとして通信データを概念化する。 第1のグラフは、ネットワーク内の異なるデプロイメントシナリオに暴露される異なるRANノード間のインタラクションをキャプチャし、各Radio Access Networkノードは、そのソフトウェア(SW)実行グラフにさらに詳しく記述されている。 さらに、私たちはプライバシーとセキュリティの制限に対処するために連合学習を使用します。 さらに,(1)集中型(2)フェデレーション学習,(3)実世界データを用いたパーソナライズされたフェデレーション学習という3つの条件下での異常検出モデルの性能について検討した。 包括的実験により,パーソナライズされた時間的グラフニューラルネットワーク法は,異常検出に最もよく用いられる手法よりも優れていることが示された。

5G and Beyond Networks become increasingly complex and heterogeneous, with diversified and high requirements from a wide variety of emerging applications. The complexity and diversity of Telecom networks place an increasing strain on maintenance and operation efforts. Moreover, the strict security and privacy requirements present a challenge for mobile operators to leverage network data. To detect network faults, and mitigate future failures, prior work focused on leveraging traditional ML/DL methods to locate anomalies in networks. The current approaches, although powerful, do not consider the intertwined nature of embedded and software-intensive Radio Access Network systems. In this paper, we propose a Bi-level Federated Graph Neural Network anomaly detection and diagnosis model that is able to detect anomalies in Telecom networks in a privacy-preserving manner, while minimizing communication costs. Our method revolves around conceptualizing Telecom data as a bi-level temporal Graph Neural Networks. The first graph captures the interactions between different RAN nodes that are exposed to different deployment scenarios in the network, while each individual Radio Access Network node is further elaborated into its software (SW) execution graph. Additionally, we use Federated Learning to address privacy and security limitations. Furthermore, we study the performance of anomaly detection model under three settings: (1) Centralized (2) Federated Learning and (3) Personalized Federated Learning using real-world data from an operational network. Our comprehensive experiments showed that Personalized Federated Temporal Graph Neural Networks method outperforms the most commonly used techniques for Anomaly Detection.
翻訳日:2023-11-27 14:57:42 公開日:2023-11-24
# FRUITS:時系列分類のための反復要約を用いた特徴抽出

FRUITS: Feature Extraction Using Iterated Sums for Time Series Classification ( http://arxiv.org/abs/2311.14549v1 )

ライセンス: Link先を確認
Joscha Diehl, Richard Krieg(参考訳) 時系列分類のためのパイプラインを導入し,イテレーテッドサムシグニチャ(ISS)に基づいて特徴を抽出し,線形分類器を適用する。 これらの特徴は本質的に非線形であり、時系列情報をキャプチャし、特定の設定下では、時間ウォーピングに不変である。 私たちは、UCRアーカイブの最先端の手法と、精度とスピードの両面で競合しています。 コードは \url{https://github.com/irkri/fruits} で利用可能です。

We introduce a pipeline for time series classification that extracts features based on the iterated-sums signature (ISS) and then applies a linear classifier. These features are intrinsically nonlinear, capture chronological information, and, under certain settings, are invariant to time-warping. We are competitive with state-of-the-art methods on the UCR archive, both in terms of accuracy and speed. We make our code available at \url{https://github.com/irkri/fruits}.
翻訳日:2023-11-27 14:49:39 公開日:2023-11-24
# ジョイントレンジと速度推定のためのハイゼンベルク限界量子ライダー

Heisenberg-Limited Quantum Lidar for Joint Range and Velocity Estimation ( http://arxiv.org/abs/2311.14546v1 )

ライセンス: Link先を確認
Maximilian Reichert, Quntao Zhuang, Mikel Sanz(参考訳) パルス変位光の単一ビームを照射することにより、目標の射程と速度を共同で推定する量子ライダープロトコルを提案する。 損失のないシナリオでは、距離推定と速度推定の両方の平均二乗誤差が信号光子の二乗数に逆比例し、同時にハイゼンベルク限界に達することを示す。 これは、時間モードの多重光子圧縮状態と標準ホモダイン検出の採用によって達成される。 量子プロトコルのロバスト性を評価するため、光子損失とホモダイン受信機のデチューニングを取り入れた。 以上の結果から, 古典的戦略に対する量子的優位性が, 幅広いラウンドトリップトランスミッションで明らかとなった。 特に、量子的な利点は、最適な(潜在的に到達不能な)古典的性能限界と比較しても、十分に小さな損失に相当します。 量子の優位性は、量子工学がワットの電力を持つ強い古典的コヒーレントな状態の上に行われる実例にまで拡張される。 これにより、損失に対するロバスト性や最先端技術による計測の実現可能性とともに、このプロトコルは短期的な実装に非常に有望である。

We propose a quantum lidar protocol to jointly estimate the range and velocity of a target by illuminating it with a single beam of pulsed displaced squeezed light. In the lossless scenario, we show that the mean-squared errors of both range and velocity estimations are inversely proportional to the squared number of signal photons, simultaneously attaining the Heisenberg limit. This is achieved by engineering the multi-photon squeezed state of the temporal modes and adopting standard homodyne detection. To assess the robustness of the quantum protocol, we incorporate photon losses and detuning of the homodyne receiver. Our findings reveal a quantum advantage over the best-known classical strategy across a wide range of round-trip transmissivities. Particularly, the quantum advantage is substantial for sufficiently small losses, even when compared to the optimal -- potentially unattainable -- classical performance limit. The quantum advantage also extends to the practical case where quantum engineering is done on top of the strong classical coherent state with watts of power. This, together with the robustness against losses and the feasibility of the measurement with state-of-the-art technology, make the protocol highly promising for near-term implementation.
翻訳日:2023-11-27 14:49:30 公開日:2023-11-24
# 頑健な視覚深層学習のためのテキストから潜在クラス統計を推定する

Inferring Latent Class Statistics from Text for Robust Visual Few-Shot Learning ( http://arxiv.org/abs/2311.14544v1 )

ライセンス: Link先を確認
Yassir Bendou, Vincent Gripon, Bastien Pasdeloup, Giulia Lioi, Lukas Mauch, Fabien Cardinaux and Ghouthi Boukli Hacene(参考訳) 数ショットの学習という領域では、CLIPのような基礎モデルは有効だが、特に数ショット設定では、ドメイン間の堅牢性に制限がある。 最近の研究は、これらのモデルの性能を高める余分なモダリティとしてテキストを追加する。 これらのアプローチの多くは、下層の視覚的特徴分布を解明する可能性を完全に探ることなく、テキストを補助的モダリティとして扱う。 本稿では,テキスト由来の統計情報を用いて,各クラスにおける視覚特徴分布の平均と共分散を予測する新しい手法を提案する。 この予測フレームワークは潜在空間を豊かにし、より堅牢で一般化可能な数発の学習モデルをもたらす。 そこで本研究では, 平均分布統計値と共分散統計値の両方を組み込むことにより, 各種データセットのマイナショット分類性能を向上させる効果を実証する。 提案手法は, 数発学習シナリオにおいて, 分布の平均と共分散をテキストで予測し, 有望な改善をもたらすことを示す。

In the realm of few-shot learning, foundation models like CLIP have proven effective but exhibit limitations in cross-domain robustness especially in few-shot settings. Recent works add text as an extra modality to enhance the performance of these models. Most of these approaches treat text as an auxiliary modality without fully exploring its potential to elucidate the underlying class visual features distribution. In this paper, we present a novel approach that leverages text-derived statistics to predict the mean and covariance of the visual feature distribution for each class. This predictive framework enriches the latent space, yielding more robust and generalizable few-shot learning models. We demonstrate the efficacy of incorporating both mean and covariance statistics in improving few-shot classification performance across various datasets. Our method shows that we can use text to predict the mean and covariance of the distribution offering promising improvements in few-shot learning scenarios.
翻訳日:2023-11-27 14:49:10 公開日:2023-11-24
# 自然言語を用いた大規模言語モデルの人間フィードバックによるデータ効率アライメント

Data-Efficient Alignment of Large Language Models with Human Feedback Through Natural Language ( http://arxiv.org/abs/2311.14543v1 )

ライセンス: Link先を確認
Di Jin, Shikib Mehri, Devamanyu Hazarika, Aishwarya Padmakumar, Sungjin Lee, Yang Liu, Mahdi Namazifar(参考訳) 人間からのフィードバックから学ぶことは、大きな言語モデル(LLM)の出力と人間の期待を一致させる顕著なテクニックである。 human feedback (rlhf) からの強化学習は、応答ペアのランキングの形式である人間の選好信号を活用し、このアライメントを行う。 しかしながら、LLM出力に対する人間の嗜好は、自然言語を含むよりリッチな形でもたらされ、与えられた応答の強みと弱みに関する詳細なフィードバックを提供する可能性がある。 本研究では,自然言語による人間のフィードバックをモデル化するデータ効率について検討する。 具体的には、オープンソースLLM(例えばFalcon-40B-Instruct)を、自然言語における人間のフィードバックの比較的少量(1000レコード以下)で、批判と応答の修正の形で微調整する。 このモデルは,ChatGPT,BARD,Vicunaといった最強のLCMでさえも,これらの応答の批判と修正を通じて応答の質を向上させることができることを示す。 例えば、chatgpt応答の修正を1回繰り返すと、修正された応答は元の応答よりも56.6%の勝利率を示し、この勝利率は5回の修正を施した後にさらに65.9%に改善できる。

Learning from human feedback is a prominent technique to align the output of large language models (LLMs) with human expectations. Reinforcement learning from human feedback (RLHF) leverages human preference signals that are in the form of ranking of response pairs to perform this alignment. However, human preference on LLM outputs can come in much richer forms including natural language, which may provide detailed feedback on strengths and weaknesses of a given response. In this work we investigate data efficiency of modeling human feedback that is in natural language. Specifically, we fine-tune an open-source LLM, e.g., Falcon-40B-Instruct, on a relatively small amount (1000 records or even less) of human feedback in natural language in the form of critiques and revisions of responses. We show that this model is able to improve the quality of responses from even some of the strongest LLMs such as ChatGPT, BARD, and Vicuna, through critique and revision of those responses. For instance, through one iteration of revision of ChatGPT responses, the revised responses have 56.6% win rate over the original ones, and this win rate can be further improved to 65.9% after applying the revision for five iterations.
翻訳日:2023-11-27 14:48:52 公開日:2023-11-24
# childdiffusion:フラッシュ解釈可能な制御可能な拡散モデル

ToddlerDiffusion: Flash Interpretable Controllable Diffusion Model ( http://arxiv.org/abs/2311.14542v1 )

ライセンス: Link先を確認
Eslam Mohamed Bakr, Liangbing Zhao, Vincent Tao Hu, Matthieu Cord, Patrick Perez, Mohamed Elhoseiny(参考訳) 拡散に基づく生成モデルは知覚的に印象的な合成に優れるが、解釈可能性の課題に直面している。 本稿では,人間の生成システムに触発された解釈可能な2次元拡散画像合成フレームワークToddlerDiffusionを紹介する。 不透明なデノベーションステップを持つ従来の拡散モデルとは異なり、我々の手法は生成プロセスをよりシンプルで解釈可能なステージに分解し、輪郭、パレット、詳細なカラー画像を生成する。 これにより全体的なパフォーマンスが向上するだけでなく、堅牢な編集やインタラクションも可能になる。 各ステージは効率と精度を慎重に定式化し、安定拡散(LDM)を超える。 LSUN-ChurchesやCOCOといったデータセットに関する大規模な実験は、我々のアプローチを検証し、既存の手法を一貫して上回ります。 ToddlerDiffusionはLSUN-ChurchesのLDM性能を3倍高速化し、アーキテクチャは3.76倍の高速化を実現している。 私たちのソースコードは補足資料で提供されており、公開アクセス可能です。

Diffusion-based generative models excel in perceptually impressive synthesis but face challenges in interpretability. This paper introduces ToddlerDiffusion, an interpretable 2D diffusion image-synthesis framework inspired by the human generation system. Unlike traditional diffusion models with opaque denoising steps, our approach decomposes the generation process into simpler, interpretable stages; generating contours, a palette, and a detailed colored image. This not only enhances overall performance but also enables robust editing and interaction capabilities. Each stage is meticulously formulated for efficiency and accuracy, surpassing Stable-Diffusion (LDM). Extensive experiments on datasets like LSUN-Churches and COCO validate our approach, consistently outperforming existing methods. ToddlerDiffusion achieves notable efficiency, matching LDM performance on LSUN-Churches while operating three times faster with a 3.76 times smaller architecture. Our source code is provided in the supplementary material and will be publicly accessible.
翻訳日:2023-11-27 14:48:29 公開日:2023-11-24
# RDFストリーム分類:研究開発におけるRDFストリームタイプの体系化

RDF Stream Taxonomy: Systematizing RDF Stream Types in Research and Practice ( http://arxiv.org/abs/2311.14540v1 )

ライセンス: Link先を確認
Piotr Sowinski, Pawel Szmeja, Maria Ganzha, Marcin Paprzycki(参考訳) 長年にわたり、rdfストリーミングは様々な角度から研究と実践で研究され、幅広いrdfストリーム定義を生み出した。 この多様性は、共通言語がないため、ストリーミングソリューションの議論と統合において大きな課題となっている。 本研究は,新たな分類法で文献に存在するRDFストリームタイプを体系化することによって,この重要な研究ギャップに対処しようとするものである。 提案したRDFストリーム分類法(RDF-STaX)は、FAIR原則に従ってOWL 2 DLオントロジーに具体化されており、実際に容易に適用可能である。 オントロジーの採用を促進するため、広範なドキュメントと追加のリソースが提供される。 研究成果の議論やストリーミングデータセットの注釈付けにおいて,リソースの有用性を示す2つの実例が提示される。 この貢献のもう1つの結果は、RDFストリーミングのコラボレーション的で生きた状態レビューとして機能する、新しいナノパブリケーションデータセットである。 RDF-STaXの目的は、RDFストリームの体系化と記述方法を改善するために、コミュニティの真のニーズに対処することである。 このリソースは、科学的議論、協力、ツールの相互運用性を促進することによって、RDFストリーミングのイノベーションを促進するために設計されている。

Over the years, RDF streaming was explored in research and practice from many angles, resulting in a wide range of RDF stream definitions. This variety presents a major challenge in discussing and integrating streaming solutions, due to the lack of a common language. This work attempts to address this critical research gap, by systematizing RDF stream types present in the literature in a novel taxonomy. The proposed RDF Stream Taxonomy (RDF-STaX) is embodied in an OWL 2 DL ontology that follows the FAIR principles, making it readily applicable in practice. Extensive documentation and additional resources are provided, to foster the adoption of the ontology. Two realized use cases are presented, demonstrating the usefulness of the resource in discussing research works and annotating streaming datasets. Another result of this contribution is the novel nanopublications dataset, which serves as a collaborative, living state-of-the-art review of RDF streaming. The aim of RDF-STaX is to address a real need of the community for a better way to systematize and describe RDF streams. The resource is designed to help drive innovation in RDF streaming, by fostering scientific discussion, cooperation, and tool interoperability.
翻訳日:2023-11-27 14:48:15 公開日:2023-11-24
# CMed-GPT: エンティティを意識した中国語医療対話生成のためのプロンプトチューニング

CMed-GPT: Prompt Tuning for Entity-Aware Chinese Medical Dialogue Generation ( http://arxiv.org/abs/2311.14539v1 )

ライセンス: Link先を確認
Zhijie Qu, Juan Li, Zerui Ma, Jianqiang Li(参考訳) 医療対話生成は、オンライン医療相談を可能にする自然言語生成技術に依存している。 近年,自然言語処理分野における大規模モデルの普及は,この技術の急速な進歩を促している。 既存の医療対話モデルは、主にBERTに基づいており、英語コーパスで事前訓練されているが、中国の医療対話生成における高いパフォーマンスモデルがない。 そこで本研究では,中国医学領域のテキストに基づくGPT事前学習言語モデルであるCMed-GPTを提案する。 モデルにはベースと大型の2つのバージョンがあり、対応するパープレキシティ値は8.64と8.01である。 さらに,下流対話生成タスクの要件を満たすために,対話テキストに語彙的および実体的埋め込みを統一的に組み込む。 CMed-GPTに微調整とp調整を併用することにより,PPLを8.44から7.35に低下させた。 本研究は,漢文生成におけるCMed-GPTモデルの異常な性能を確認するだけでなく,従来の微調整よりもp-tuningの利点を強調した。 さらに,医療対話生成における外部情報の導入の重要性を検証し,対話生成の質を高める。

Medical dialogue generation relies on natural language generation techniques to enable online medical consultations. Recently, the widespread adoption of large-scale models in the field of natural language processing has facilitated rapid advancements in this technology. Existing medical dialogue models are mostly based on BERT and pre-trained on English corpora, but there is a lack of high-performing models on the task of Chinese medical dialogue generation. To solve the above problem, this paper proposes CMed-GPT, which is the GPT pre-training language model based on Chinese medical domain text. The model is available in two versions, namely, base and large, with corresponding perplexity values of 8.64 and 8.01. Additionally, we incorporate lexical and entity embeddings into the dialogue text in a uniform manner to meet the requirements of downstream dialogue generation tasks. By applying both fine-tuning and p-tuning to CMed-GPT, we lowered the PPL from 8.44 to 7.35. This study not only confirms the exceptional performance of the CMed-GPT model in generating Chinese biomedical text but also highlights the advantages of p-tuning over traditional fine-tuning with prefix prompts. Furthermore, we validate the significance of incorporating external information in medical dialogue generation, which enhances the quality of dialogue generation.
翻訳日:2023-11-27 14:47:53 公開日:2023-11-24
# プレテキストタスクを用いた時系列分類の基礎モデル探索

Finding Foundation Models for Time Series Classification with a PreText Task ( http://arxiv.org/abs/2311.14534v1 )

ライセンス: Link先を確認
Ali Ismail-Fawaz, Maxime Devanne, Stefano Berretti, Jonathan Weber, Germain Forestier(参考訳) 過去10年間で、時系列分類(TSC)が注目されている。 様々な手法が研究されているが、特に畳み込みニューラルネットワーク(CNN)による深層学習は効果的なアプローチである。 しかしながら、トレーニングデータの可用性が限られているため、過剰フィッティング問題を克服するtscの基礎モデルの定義は依然として困難な課題である。 UCRアーカイブは、モーション認識から心電図に基づく心臓病検出まで幅広いデータセットを包含しており、多様なTSCシナリオでこの問題を探求する主要な例となっている。 本稿では、事前訓練されたドメイン基盤モデルを導入することで、オーバーフィッティングの課題に対処する。 我々の方法論の重要な側面は、複数のデータセットにまたがる新しいプリテキストタスクである。 このタスクは、異なるデータセットにまたがって適用可能な柔軟な畳み込みフィルタを作成することを目的として、各時系列サンプルのデータセットを識別するように設計されている。 研究プロセスは、プリテキストタスクを通じてモデルが一般的な特徴を取得する事前学習フェーズと、特定のデータセット分類のためのその後の微調整フェーズの2つのフェーズで構成される。 ucrアーカイブを用いた広範な実験により,この事前トレーニング戦略が,事前トレーニングを行わずとも従来のトレーニングアプローチを大きく上回っていることが示された。 この戦略は、小さなデータセットのオーバーフィッティングを効果的に削減し、これらのモデルを新しいデータセットに適応するための効率的なルートを提供する。

Over the past decade, Time Series Classification (TSC) has gained an increasing attention. While various methods were explored, deep learning - particularly through Convolutional Neural Networks (CNNs)-stands out as an effective approach. However, due to the limited availability of training data, defining a foundation model for TSC that overcomes the overfitting problem is still a challenging task. The UCR archive, encompassing a wide spectrum of datasets ranging from motion recognition to ECG-based heart disease detection, serves as a prime example for exploring this issue in diverse TSC scenarios. In this paper, we address the overfitting challenge by introducing pre-trained domain foundation models. A key aspect of our methodology is a novel pretext task that spans multiple datasets. This task is designed to identify the originating dataset of each time series sample, with the goal of creating flexible convolution filters that can be applied across different datasets. The research process consists of two phases: a pre-training phase where the model acquires general features through the pretext task, and a subsequent fine-tuning phase for specific dataset classifications. Our extensive experiments on the UCR archive demonstrate that this pre-training strategy significantly outperforms the conventional training approach without pre-training. This strategy effectively reduces overfitting in small datasets and provides an efficient route for adapting these models to new datasets, thus advancing the capabilities of deep learning in TSC.
翻訳日:2023-11-27 14:47:31 公開日:2023-11-24
# 完全追跡に基づく自閉症スペクトラム障害評価のための特徴工学とエンドツーエンドディープラーニングの比較

Comparing Feature Engineering and End-to-End Deep Learning for Autism Spectrum Disorder Assessment based on Fullbody-Tracking ( http://arxiv.org/abs/2311.14533v1 )

ライセンス: Link先を確認
Alberto Altozano, Maria Eleonora Minissi, Mariano Alca\~niz, Javier Mar\'in-Morales(参考訳) 自閉症スペクトラム障害(ASD)は、社会的コミュニケーションと制限されたパターンの課題が特徴であり、早期発見のために運動異常が牽引されている。 しかし、asdのキネマティック解析は限定的であり、しばしば堅牢な検証を欠き、単一のタスクのために手作りの機能に依存する。 したがって、エンドツーエンドのモデルは機能工学の必要性を克服するための有望な方法になっている。 本研究の目的は,多種多様なキネマティックなタスクにまたがる両方のアプローチを評価し,ASDアセスメントにおける一般的な特徴の有効性を,エンド・ツー・エンド・モデルと比較することである。 具体的には、複数のモータータスクと両方の分類手法を用いたトレーニングモデルを備えたバーチャルリアリティ環境を開発した。 相互検証を繰り返し行う信頼性の高い検証フレームワークを優先しました。 比較分析の結果、手作りの機能は特定のタスクにおけるディープラーニングのアプローチよりも優れており、曲線(AUC)が0.90$\pm$0.06の最先端領域を達成できた。 逆に、エンド・ツー・エンドのモデルでは、すべてのVRタスクのばらつきが少なく、ドメインの一般化と信頼性を示し、最大タスク AUC は 0.89$\pm$0.06 である。 これらの結果から,エンド・ツー・エンドのモデルでは,ドメイン知識やタスク特異性を必要とせず,変数やコンテキストに依存しないSDアセスメントがより少ないことが示唆された。 しかし、特定のタスクシナリオにおける手作り機能の有効性も認識している。

Autism Spectrum Disorder (ASD) is characterized by challenges in social communication and restricted patterns, with motor abnormalities gaining traction for early detection. However, kinematic analysis in ASD is limited, often lacking robust validation and relying on hand-crafted features for single tasks, leading to inconsistencies across studies. Thus, end-to-end models have become promising methods to overcome the need for feature engineering. Our aim is to assess both approaches across various kinematic tasks to measure the efficacy of commonly used features in ASD assessment, while comparing them to end-to-end models. Specifically, we developed a virtual reality environment with multiple motor tasks and trained models using both classification approaches. We prioritized a reliable validation framework with repeated cross-validation. Our comparative analysis revealed that hand-crafted features outperformed our deep learning approach in specific tasks, achieving a state-of-the-art area under the curve (AUC) of 0.90$\pm$0.06. Conversely, end-to-end models provided more consistent results with less variability across all VR tasks, demonstrating domain generalization and reliability, with a maximum task AUC of 0.89$\pm$0.06. These findings show that end-to-end models enable less variable and context-independent ASD assessments without requiring domain knowledge or task specificity. However, they also recognize the effectiveness of hand-crafted features in specific task scenarios.
翻訳日:2023-11-27 14:47:09 公開日:2023-11-24
# 産業ネットワークのためのデジタルツイン負AI駆動サービスアーキテクチャ

Digital Twin-Native AI-Driven Service Architecture for Industrial Networks ( http://arxiv.org/abs/2311.14532v1 )

ライセンス: Link先を確認
Kubra Duran, Matthew Broadbent, Gokhan Yurdakul, and Berk Canberk(参考訳) 接続需要の劇的な増加は、IoT(Internet of Things)センサーの過剰な増加につながる。 正確なモニタリングや学習機能など、これらの大規模ネットワークの管理ニーズを満たすため、Digital Twin(DT)が鍵となる。 しかし、IoTネットワークの永続的な接続要件のため、DT実装に関する現在の試みは不十分である。 さらに、IoTネットワーク内のセンサデータストリーミングは、従来の方法よりも処理時間が長い。 これらに加えて、現在のインテリジェントメカニズムは、実装されたIoTネットワークシナリオの時空間的変化のため、うまく機能しない。 これらの課題に対処するために、IoTネットワークの概念をサポートするDTネイティブなAI駆動サービスアーキテクチャを提案する。 提案するDTネイティブアーキテクチャでは,TCPベースのデータフローパイプラインと強化学習(RL)ベースの学習モデルを実装している。 提案アーキテクチャをIoTネットワークの広範な概念のひとつであるInternet of Vehicles(IoV)に適用する。 提案したアーキテクチャの効率を計測し、TCPベースのデータフローパイプラインのおかげで30%の処理時間を省くことに留意する。 さらに,俳優と批評家のネットワークに複数の学習率の組み合わせを適用して学習者モデルの性能をテストし,最も連続したモデルを強調する。

The dramatic increase in the connectivity demand results in an excessive amount of Internet of Things (IoT) sensors. To meet the management needs of these large-scale networks, such as accurate monitoring and learning capabilities, Digital Twin (DT) is the key enabler. However, current attempts regarding DT implementations remain insufficient due to the perpetual connectivity requirements of IoT networks. Furthermore, the sensor data streaming in IoT networks cause higher processing time than traditional methods. In addition to these, the current intelligent mechanisms cannot perform well due to the spatiotemporal changes in the implemented IoT network scenario. To handle these challenges, we propose a DT-native AI-driven service architecture in support of the concept of IoT networks. Within the proposed DT-native architecture, we implement a TCP-based data flow pipeline and a Reinforcement Learning (RL)-based learner model. We apply the proposed architecture to one of the broad concepts of IoT networks, the Internet of Vehicles (IoV). We measure the efficiency of our proposed architecture and note ~30% processing time-saving thanks to the TCP-based data flow pipeline. Moreover, we test the performance of the learner model by applying several learning rate combinations for actor and critic networks and highlight the most successive model.
翻訳日:2023-11-27 14:46:44 公開日:2023-11-24
# ge'ez言語の機械翻訳

Machine Translation for Ge'ez Language ( http://arxiv.org/abs/2311.14530v1 )

ライセンス: Link先を確認
Aman Kassahun Wassie(参考訳) 日常的に話されていない古代言語であるGe'ezのような低リソース言語のための機械翻訳(MT)は、語彙外単語、ドメインミスマッチ、十分なラベル付きトレーニングデータの欠如といった課題に直面している。 本研究では,関連言語からの移動学習,共有語彙とトークンセグメンテーションアプローチの最適化,大規模事前学習モデルの微調整,ファジィマッチングを用いた数ショット翻訳のための大規模言語モデル(LLM)など,ゲエズMTを改善するための様々な手法を検討する。 本研究では,言語関係に基づく多言語ニューラルマシン翻訳(mnmt)モデルを開発し,従来のバイリンガルモデルと比較して約4 bleuの性能向上を実現する。 我々はまた、現在利用可能な最も先進的な翻訳モデルの1つであるnllb-200モデルを微調整しようとしているが、ge'ezの4kトレーニングサンプルだけではうまく機能しないことがわかった。 さらに, ファジィマッチングを用いた数ショット翻訳において, GPT-3.5を用いて並列コーパスからコンテキスト例を見つけることを試みた。 GPT-3.5 は Ge'ez の初歩的な知識を持たない 9.2 の BLEU スコアを達成するが, MNMT の基準値 15.2 よりは低い。 我々の研究は、低リソースおよび古代言語MTに対する様々なアプローチの可能性と限界についての洞察を提供する。

Machine translation (MT) for low-resource languages such as Ge'ez, an ancient language that is no longer spoken in daily life, faces challenges such as out-of-vocabulary words, domain mismatches, and lack of sufficient labeled training data. In this work, we explore various methods to improve Ge'ez MT, including transfer-learning from related languages, optimizing shared vocabulary and token segmentation approaches, finetuning large pre-trained models, and using large language models (LLMs) for few-shot translation with fuzzy matches. We develop a multilingual neural machine translation (MNMT) model based on languages relatedness, which brings an average performance improvement of about 4 BLEU compared to standard bilingual models. We also attempt to finetune the NLLB-200 model, one of the most advanced translation models available today, but find that it performs poorly with only 4k training samples for Ge'ez. Furthermore, we experiment with using GPT-3.5, a state-of-the-art LLM, for few-shot translation with fuzzy matches, which leverages embedding similarity-based retrieval to find context examples from a parallel corpus. We observe that GPT-3.5 achieves a remarkable BLEU score of 9.2 with no initial knowledge of Ge'ez, but still lower than the MNMT baseline of 15.2. Our work provides insights into the potential and limitations of different approaches for low-resource and ancient language MT.
翻訳日:2023-11-27 14:46:24 公開日:2023-11-24
# トポロジカル量子温度測定

Topological quantum thermometry ( http://arxiv.org/abs/2311.14524v1 )

ライセンス: Link先を確認
Anubhav Kumar Srivastava, Utso Bhattacharya, Maciej Lewenstein, and Marcin P{\l}odzie\'n(参考訳) 最適局所量子温度計は、熱状態温度推定精度(L. Correa, et. al., Phys. Rev. Lett. 114, 220405 (2015))]の基本的な下界を飽和させる量子多体系である。 このような温度計は、単一の基底状態と高い励起状態多様体を持つ特定のエネルギー準位構造を有し、エネルギーギャップは推定温度に比例する。 本研究では,一次元光学格子内に閉じ込められたスピンレスフェルミオンの実験的に実現可能な系において,最適な局所量子温度計を実現することができることを示す。 実験により得られた量子フィッシャー情報および古典的フィッシャー情報を用いて, 温度変化に対するシステムの感度を特徴付ける。

An optimal local quantum thermometer is a quantum many-body system that saturates the fundamental lower bound for the thermal state temperature estimation accuracy [L. Correa, et. al., Phys. Rev. Lett. 114, 220405 (2015)]. Such a thermometer has a particular energy level structure with a single ground state and highly degenerated excited states manifold, with an energy gap proportional to the estimated temperature. In this work, we show that the optimal local quantum thermometer can be realized in an experimentally feasible system of spinless fermions confined in a one-dimensional optical lattice described by the Rice-Mele model. We characterize the system's sensitivity to temperature changes in terms of quantum Fisher information and the classical Fisher information obtained from experimentally available site occupation measurements.
翻訳日:2023-11-27 14:45:59 公開日:2023-11-24
# GaussianEditor: Swiftとコントロール可能な3D編集

GaussianEditor: Swift and Controllable 3D Editing with Gaussian Splatting ( http://arxiv.org/abs/2311.14521v1 )

ライセンス: Link先を確認
Yiwen Chen, Zilong Chen, Chi Zhang, Feng Wang, Xiaofeng Yang, Yikai Wang, Zhongang Cai, Lei Yang, Huaping Liu, Guosheng Lin(参考訳) 3D編集はゲームや仮想現実など多くの分野で重要な役割を果たしている。 メッシュやポイントクラウドのような表現に依存した従来の3D編集手法は、複雑なシーンを現実的に描写するのに不足することが多い。 一方,neural radiance field(nerf)のような暗黙の3d表現に基づく手法では,複雑なシーンを効果的に描画するが,処理速度の低下や特定のシーン領域の制御が制限される。 これらの課題に応えて,新しい3D表現であるGaussian Splatting(GS)に基づく,革新的で効率的な3D編集アルゴリズムであるGaussianEditorを提案する。 GaussianEditorは、トレーニングプロセスを通して編集対象をトレースする提案したGaussianセマンティックトレースを通じて、編集の精度と制御を強化する。 さらに,2次元拡散モデルから確率的生成誘導下での安定化および微細化を実現するために階層型ガウススプラッティング(HGS)を提案する。 また,オブジェクトの効率的な削除と統合のための編集戦略を開発し,既存の手法では難しい課題である。 総合的な実験により,gaussianeditorの優れた制御,有効性,高速性能が示され,3d編集の著しい進歩が示された。 プロジェクトページ: https://buaacyw.github.io/gaussian-editor/

3D editing plays a crucial role in many areas such as gaming and virtual reality. Traditional 3D editing methods, which rely on representations like meshes and point clouds, often fall short in realistically depicting complex scenes. On the other hand, methods based on implicit 3D representations, like Neural Radiance Field (NeRF), render complex scenes effectively but suffer from slow processing speeds and limited control over specific scene areas. In response to these challenges, our paper presents GaussianEditor, an innovative and efficient 3D editing algorithm based on Gaussian Splatting (GS), a novel 3D representation. GaussianEditor enhances precision and control in editing through our proposed Gaussian semantic tracing, which traces the editing target throughout the training process. Additionally, we propose Hierarchical Gaussian splatting (HGS) to achieve stabilized and fine results under stochastic generative guidance from 2D diffusion models. We also develop editing strategies for efficient object removal and integration, a challenging task for existing methods. Our comprehensive experiments demonstrate GaussianEditor's superior control, efficacy, and rapid performance, marking a significant advancement in 3D editing. Project Page: https://buaacyw.github.io/gaussian-editor/
翻訳日:2023-11-27 14:45:45 公開日:2023-11-24
# littleCLAP: コンストラッシブ言語を蒸留する-Audio Pretrained Model

tinyCLAP: Distilling Constrastive Language-Audio Pretrained Models ( http://arxiv.org/abs/2311.14517v1 )

ライセンス: Link先を確認
Francesco Paissan, Elisabetta Farella(参考訳) 音声処理や音声処理の分野では,CLAP(Contrastive Language-Audio Pretraining)が重要になった。 雇用範囲は、音声イベント検出からテキスト音声生成まで多岐にわたる。 しかしながら、主な制限の1つは、トレーニングプロセスに必要な膨大なデータ量と推論中の全体的な計算複雑性である。 本稿では,コントラッシブ言語-オーディオ事前学習モデルの複雑さを減らし,極小CLAPと呼ばれる効率的なモデルを生成する方法について検討する。 第一原理から一元蒸留損失を導出し, 共用多モード潜在空間の次元性を, 刈り込みにより減らす方法について検討する。 TinyCLAPはオリジナルのMicrosoft CLAPパラメータの6%しか使用せず、テスト対象の3つのサウンドイベント検出データセットのゼロショット分類性能は最小限(5%未満)である。

Contrastive Language-Audio Pretraining (CLAP) became of crucial importance in the field of audio and speech processing. Its employment ranges from sound event detection to text-to-audio generation. However, one of the main limitations is the considerable amount of data required in the training process and the overall computational complexity during inference. This paper investigates how we can reduce the complexity of contrastive language-audio pre-trained models, yielding an efficient model that we call tinyCLAP. We derive an unimodal distillation loss from first principles and explore how the dimensionality of the shared, multimodal latent space can be reduced via pruning. TinyCLAP uses only 6% of the original Microsoft CLAP parameters with a minimal reduction (less than 5%) in zero-shot classification performance across the three sound event detection datasets on which it was tested
翻訳日:2023-11-27 14:45:20 公開日:2023-11-24
# FRAD:第3次分類モデルを用いたEthereumのフロントラン攻撃検出

FRAD: Front-Running Attacks Detection on Ethereum using Ternary Classification Model ( http://arxiv.org/abs/2311.14514v1 )

ライセンス: Link先を確認
Yuheng Zhang, Pin Liu, Guojun Wang, Peiqiang Li, Wanyi Gu, Houji Chen, Xuelei Liu, and Jinyao Zhu(参考訳) ブロックチェーン技術の進化に伴い、特にEthereumのようなプラットフォームにおけるトランザクションセキュリティの問題がますます重要になっている。 独自のセキュリティ脅威であるフロントランニング攻撃は、ブロックチェーントランザクションの整合性に重大な課題をもたらす。 これらの攻撃シナリオでは、悪意のあるアクターは他のユーザのトランザクションアクティビティを監視し、より高い手数料で独自のトランザクションを戦略的に送信する。 これにより、監視されたトランザクションがブロックに含まれる前にトランザクションが実行されることを保証する。 本研究の主な目的は、各攻撃に対処するための具体的な戦略を開発者に提供することを目的として、前走攻撃に関連するトランザクションの包括的分類を検討することである。 そこで本研究では,FRAD (Front-Running Attacks Detection on Ethereum using Ternary Classification Model) という新しい検出手法を提案する。 この方法はEthereum上の分散アプリケーション(DApps)内のトランザクションに特化しており、トランザクションの変位、挿入、抑制を含むフロントランニング攻撃の正確な分類を可能にする。 実験により,Multilayer Perceptron (MLP)分類器は前走攻撃の検出において最高の性能を示し,精度84.59%,F1スコア84.60%を達成した。

With the evolution of blockchain technology, the issue of transaction security, particularly on platforms like Ethereum, has become increasingly critical. Front-running attacks, a unique form of security threat, pose significant challenges to the integrity of blockchain transactions. In these attack scenarios, malicious actors monitor other users' transaction activities, then strategically submit their own transactions with higher fees. This ensures their transactions are executed before the monitored transactions are included in the block. The primary objective of this paper is to delve into a comprehensive classification of transactions associated with front-running attacks, which aims to equip developers with specific strategies to counter each type of attack. To achieve this, we introduce a novel detection method named FRAD (Front-Running Attacks Detection on Ethereum using Ternary Classification Model). This method is specifically tailored for transactions within decentralized applications (DApps) on Ethereum, enabling accurate classification of front-running attacks involving transaction displacement, insertion, and suppression. Our experimental validation reveals that the Multilayer Perceptron (MLP) classifier offers the best performance in detecting front-running attacks, achieving an impressive accuracy rate of 84.59% and F1-score of 84.60%.
翻訳日:2023-11-27 14:45:07 公開日:2023-11-24
# 非パラメトリックベイズ推論のための金属ニューラルネットワーク

A Metalearned Neural Circuit for Nonparametric Bayesian Inference ( http://arxiv.org/abs/2311.14601v1 )

ライセンス: Link先を確認
Jake C. Snell, Gianluca Bencomo, Thomas L. Griffiths(参考訳) 分類への機械学習のほとんどの応用は、バランスのとれたクラスの閉集合を仮定する。 これは、クラス発生統計がしばしばロングテールのパワーロー分布に従う現実の世界と正反対であり、全てのクラスが単一のサンプルで見られる可能性は低い。 非パラメトリックベイズモデルは自然にこの現象をとらえるが、実装の複雑さや計算の非効率性など、広く普及する上で重要な現実的な障壁を持つ。 そこで本研究では,非パラメトリックベイズモデルから誘導バイアスを抽出し,それを人工ニューラルネットワークに転送する手法を提案する。 非パラメトリックベイズ型プリミティブでデータをシミュレートすることで、無制限のクラスセット上で推論を行うシーケンスモデルを生成することができる。 トレーニングの後、この「神経回路」は対応する誘導バイアスを蒸留し、オープンなクラスの集合上でシーケンシャルな推論を成功させることができる。 実験結果から,メタ耳付きニューラルネットワークは,ベイズ非パラメトリック推論を明示的に組み込む手法よりも高速かつ簡便に使用しながら,粒子フィルタに基づく推論法と同等あるいは優れた性能が得られることが示された。

Most applications of machine learning to classification assume a closed set of balanced classes. This is at odds with the real world, where class occurrence statistics often follow a long-tailed power-law distribution and it is unlikely that all classes are seen in a single sample. Nonparametric Bayesian models naturally capture this phenomenon, but have significant practical barriers to widespread adoption, namely implementation complexity and computational inefficiency. To address this, we present a method for extracting the inductive bias from a nonparametric Bayesian model and transferring it to an artificial neural network. By simulating data with a nonparametric Bayesian prior, we can metalearn a sequence model that performs inference over an unlimited set of classes. After training, this "neural circuit" has distilled the corresponding inductive bias and can successfully perform sequential inference over an open set of classes. Our experimental results show that the metalearned neural circuit achieves comparable or better performance than particle filter-based methods for inference in these models while being faster and simpler to use than methods that explicitly incorporate Bayesian nonparametric inference.
翻訳日:2023-11-27 14:37:28 公開日:2023-11-24
# 変量演算子の進化的演算子の探索と解析

A Survey and Analysis of Evolutionary Operators for Permutations ( http://arxiv.org/abs/2311.14595v1 )

ライセンス: Link先を確認
Vincent A. Cicirello(参考訳) 多くの組合せ最適化問題があり、その解は置換によって最もよく表される。 古典的な旅行セールスパーソンは、一連の都市で最適な注文を求めます。 スケジューリング問題はタスクやアクティビティの最適な順序を求めることが多い。 このような問題に対するいくつかの進化的アプローチは遺伝的アルゴリズムのビット列を利用するが、置換を伴う解を直接表現することが一般的である。 進化的置換は、直接、特殊進化作用素を必要とする。 長年にわたり、進化的アルゴリズムによる置換問題を解くために多くのクロスオーバーや突然変異演算子が開発されてきた。 本稿では、置換のための進化的演算子の幅を調査する。 これらのすべては、進化計算のためのオープンソースのJavaライブラリであるChips-n-Salsaに実装しました。 最後に,異なる置換特徴を分離した人工的フィットネスランドスケープにおいて,クロスオーバ演算子を経験的に解析する。

There are many combinatorial optimization problems whose solutions are best represented by permutations. The classic traveling salesperson seeks an optimal ordering over a set of cities. Scheduling problems often seek optimal orderings of tasks or activities. Although some evolutionary approaches to such problems utilize the bit strings of a genetic algorithm, it is more common to directly represent solutions with permutations. Evolving permutations directly requires specialized evolutionary operators. Over the years, many crossover and mutation operators have been developed for solving permutation problems with evolutionary algorithms. In this paper, we survey the breadth of evolutionary operators for permutations. We implemented all of these in Chips-n-Salsa, an open source Java library for evolutionary computation. Finally, we empirically analyze the crossover operators on artificial fitness landscapes isolating different permutation features.
翻訳日:2023-11-27 14:37:08 公開日:2023-11-24
# 普遍なトランザクビットゲートの集合におけるカオス的揺らぎ

Chaotic fluctuations in a universal set of transmon qubit gates ( http://arxiv.org/abs/2311.14592v1 )

ライセンス: Link先を確認
Daniel Basilewitsch, Simon-Dominik B\"orner, Christoph Berke, Alexander Altland, Simon Trebst, Christiane P. Koch(参考訳) トランスモン量子ビット(transmon qubits)は、強い、おそらくカオス的な揺らぎの積み重ねにつながる非線形共振器の量子化から生じる。 計算部分空間外の状態の過渡的な人口を含む高速ゲート操作が、そのような不安定性によってどの程度影響を受けるのか疑問に思うかもしれない。 本稿では,普遍ゲート集合を記述する時間発展作用素の固有相と状態について考察し,多体物理学の文脈で適用される手法を用いて解析する。 具体的には,それらのスペクトル統計,時間依存レベル曲率分布,計算部分空間内外における状態占有率について考察する。 高速な絡み合うゲートは、いわゆる量子速度限界に近い速度で動作しており、力学が部分的にカオスになる過渡的な状態を含んでいる。 これらのゲートに対して、ハミルトニアンあるいは制御パラメータの小さなバリエーションは大きなゲート誤差を引き起こし、量子制御の実践的な実装の結果を推測する。

Transmon qubits arise from the quantization of nonlinear resonators, systems that are prone to the buildup of strong, possibly even chaotic, fluctuations. One may wonder to what extent fast gate operations, which involve the transient population of states outside the computational subspace, can be affected by such instabilities. We here consider the eigenphases and -states of the time evolution operators describing a universal gate set, and analyze them by methodology otherwise applied in the context of many-body physics. Specifically, we discuss their spectral statistic, the distribution of time dependent level curvatures, and state occupations in- and outside the computational subspace. We observe that fast entangling gates, operating at speeds close to the so-called quantum speed limit, contain transient regimes where the dynamics indeed becomes partially chaotic. We find that for these gates even small variations of Hamiltonian or control parameters lead to large gate errors and speculate on the consequences for the practical implementation of quantum control.
翻訳日:2023-11-27 14:36:59 公開日:2023-11-24
# GPT構造Me:ナラティブエンティティ抽出に基づくGPTモデルの提案

GPT Struct Me: Probing GPT Models on Narrative Entity Extraction ( http://arxiv.org/abs/2311.14583v1 )

ライセンス: Link先を確認
Hugo Sousa, Nuno Guimar\~aes, Al\'ipio Jorge, Ricardo Campos(参考訳) テキストデータから構造化された情報を抽出できるシステムの重要性は、日々生成されるテキスト量の増加に伴い、ますます顕著になる。 このような情報を相互運用可能な方法で効果的に抽出できるシステムを持つことは、金融、健康、法的といったいくつかの領域の資産となる。 近年の自然言語処理の発展は、ある程度の人間の知能を模倣できる強力な言語モデルを生み出した。 これらのモデルは、構造化された情報の抽出に利用できますか? 本稿では,2つの最先端言語モデル(GPT-3とGPT-3.5,通称ChatGPT)の物語的実体,すなわちイベント,参加者,時間的表現の抽出能力を評価することで,この問題に対処する。 本研究は,ポルトガルの119のニュース記事の集合であるtext2story lusaデータセットを用いて,アノテーションフレームワークが複数のタグと属性値とともにエンティティ構造の集合を含んでいることを示す。 まず、データセットの文書のサブセットに関するさまざまな情報を提供するプロンプトコンポーネントに関するアブレーション研究を通じて、最適なプロンプトテンプレートを選択する。 その後、最も優れたテンプレートを用いて、残りの文書上でのモデルの有効性を評価する。 その結果,gptモデルはアウトオブボックスのベースラインシステムと競合し,リソースの制限のある実践者に対してオールインワンの代替手段が示された。 情報抽出の文脈におけるこれらのモデルの強みと限界を研究することで、この分野での今後の改善と道のりをガイドできる洞察を提供する。

The importance of systems that can extract structured information from textual data becomes increasingly pronounced given the ever-increasing volume of text produced on a daily basis. Having a system that can effectively extract such information in an interoperable manner would be an asset for several domains, be it finance, health, or legal. Recent developments in natural language processing led to the production of powerful language models that can, to some degree, mimic human intelligence. Such effectiveness raises a pertinent question: Can these models be leveraged for the extraction of structured information? In this work, we address this question by evaluating the capabilities of two state-of-the-art language models -- GPT-3 and GPT-3.5, commonly known as ChatGPT -- in the extraction of narrative entities, namely events, participants, and temporal expressions. This study is conducted on the Text2Story Lusa dataset, a collection of 119 Portuguese news articles whose annotation framework includes a set of entity structures along with several tags and attribute values. We first select the best prompt template through an ablation study over prompt components that provide varying degrees of information on a subset of documents of the dataset. Subsequently, we use the best templates to evaluate the effectiveness of the models on the remaining documents. The results obtained indicate that GPT models are competitive with out-of-the-box baseline systems, presenting an all-in-one alternative for practitioners with limited resources. By studying the strengths and limitations of these models in the context of information extraction, we offer insights that can guide future improvements and avenues to explore in this field.
翻訳日:2023-11-27 14:36:41 公開日:2023-11-24
# ランダム森林予測の例に基づく説明

Example-Based Explanations of Random Forest Predictions ( http://arxiv.org/abs/2311.14581v1 )

ライセンス: Link先を確認
Henrik Bostr\"om(参考訳) トレーニング例のラベルのスカラー積と、テスト対象が落下する森林の葉によって決定される重みの集合によってランダムな森林予測が計算されるので、各予測は、重みがゼロでないトレーニング例の集合によって正確に説明することができる。 このような説明で用いられる例の数は、トレーニングセットの次元とランダムフォレストアルゴリズムのハイパーパラメータによって異なることが示されている。 これは、各予測に関連する例の数を、これらのパラメータによってある程度制御できることを意味する。 しかし、必要な予測性能につながる設定の場合、各予測に関係するサンプルの数は不当に大きくなり、ユーザが説明を把握できなくなる。 より有用な説明を提供するため、最上位の例のみを含む修正予測手順が提案されている。 回帰と分類のタスクに関する調査は、各説明で使用される例の数を、標準予測手順と比較して、予測性能を維持し、あるいは改善しながら、大幅に削減できることを示した。

A random forest prediction can be computed by the scalar product of the labels of the training examples and a set of weights that are determined by the leafs of the forest into which the test object falls; each prediction can hence be explained exactly by the set of training examples for which the weights are non-zero. The number of examples used in such explanations is shown to vary with the dimensionality of the training set and hyperparameters of the random forest algorithm. This means that the number of examples involved in each prediction can to some extent be controlled by varying these parameters. However, for settings that lead to a required predictive performance, the number of examples involved in each prediction may be unreasonably large, preventing the user to grasp the explanations. In order to provide more useful explanations, a modified prediction procedure is proposed, which includes only the top-weighted examples. An investigation on regression and classification tasks shows that the number of examples used in each explanation can be substantially reduced while maintaining, or even improving, predictive performance compared to the standard prediction procedure.
翻訳日:2023-11-27 14:36:15 公開日:2023-11-24
# 視覚言語モデルベンチマーク用アライナーとしての大規模言語モデル

Large Language Models as Automated Aligners for benchmarking Vision-Language Models ( http://arxiv.org/abs/2311.14580v1 )

ライセンス: Link先を確認
Yuanfeng Ji, Chongjian Ge, Weikai Kong, Enze Xie, Zhengying Liu, Zhengguo Li, Ping Luo(参考訳) 大規模言語モデル(llms)の発展に伴い、視覚言語モデル(vlms)は新しいレベルの洗練度に達し、複雑な認知と推論タスクの実行能力を示している。 しかしながら、タスク固有のパフォーマンスを測定するために主に厳格で手作りのデータセットに依存している既存の評価ベンチマークは、これらの増大する擬人化モデルと人間の知性との整合を評価する上で大きな制限に直面している。 本研究では,VLMと人間の知性と価値の整合性を自動データキュレーションとアセスメントによって測定し,LLMを有能な整合体として探索するAuto-Benchによる制限に対処する。 具体的には、データキュレーションにおいて、Auto-BenchはLCM(例えば、GPT-4)を使用して視覚的シンボル表現(例えば、キャプション、オブジェクト位置、インスタンス関係など)をプロンプトすることで、質問応答三つ子を自動生成する。 キュレートされたデータは、LLMに埋め込まれた広範な世界の知識のために、人間の意図と密接に一致している。 このパイプラインを通じて、計28.5Kの人間認証と3,504Kの未フィルターの質問応答三重項がキュレーションされ、4つのプライマリ能力と16のサブ能力を含んでいる。 gpt-3.5 のような llm を審査員として採用し,vlm の包括的評価を容易にする定量的・質的自動評価を実施している。 検証の結果,LCMは評価データキュレーションとモデルアセスメントの両方に熟練しており,平均コンセンサス率は85%であることがわかった。 我々はAuto-Benchを,高度に進化したVLMを評価するための,フレキシブルでスケーラブルで包括的なベンチマークとして想定する。

With the advancements in Large Language Models (LLMs), Vision-Language Models (VLMs) have reached a new level of sophistication, showing notable competence in executing intricate cognition and reasoning tasks. However, existing evaluation benchmarks, primarily relying on rigid, hand-crafted datasets to measure task-specific performance, face significant limitations in assessing the alignment of these increasingly anthropomorphic models with human intelligence. In this work, we address the limitations via Auto-Bench, which delves into exploring LLMs as proficient aligners, measuring the alignment between VLMs and human intelligence and value through automatic data curation and assessment. Specifically, for data curation, Auto-Bench utilizes LLMs (e.g., GPT-4) to automatically generate a vast set of question-answer-reasoning triplets via prompting on visual symbolic representations (e.g., captions, object locations, instance relationships, and etc.). The curated data closely matches human intent, owing to the extensive world knowledge embedded in LLMs. Through this pipeline, a total of 28.5K human-verified and 3,504K unfiltered question-answer-reasoning triplets have been curated, covering 4 primary abilities and 16 sub-abilities. We subsequently engage LLMs like GPT-3.5 to serve as judges, implementing the quantitative and qualitative automated assessments to facilitate a comprehensive evaluation of VLMs. Our validation results reveal that LLMs are proficient in both evaluation data curation and model assessment, achieving an average agreement rate of 85%. We envision Auto-Bench as a flexible, scalable, and comprehensive benchmark for evaluating the evolving sophisticated VLMs.
翻訳日:2023-11-27 14:35:56 公開日:2023-11-24
# 結合型クエリに対するカウントソリューション:構造的およびハイブリッドなトラクタビリティ

Counting Solutions to Conjunctive Queries: Structural and Hybrid Tractability ( http://arxiv.org/abs/2311.14579v1 )

ライセンス: Link先を確認
Hubie Chen and Gianluigi Greco and Stefan Mengel and Francesco Scarcello(参考訳) 接続的クエリに対する回答の数をカウントすることは、標準的な仮定では効率的な解を持たないデータベースの基本的な問題である。 この問題は本質的に#p-hardであり、非循環インスタンスのクラスにも拡張される。 これに対処するため、インスタンスの構造的性質を調べ、#-hypertree分解という新しい概念を導入することで、扱いやすいクラスを特定できる。 有界な#-hypertree幅を持つ問合せのクラスに対して多項式時間で解を数える可能性を確立する。 さらに,固定パラメータ計算複雑性の領域からの新たな手法を用いることで,有界arityクエリに対して,有界#-hypertree幅特性が算数問題に対する扱い可能性のフロンティアを正確に記述することを示す。 この結果から,制約満足度問題 (CSP) において,このような基本的問題の複雑性を理解する上で重要なギャップを埋めることができた。 #-hypertree分解に基づいて'hybrid'分解メソッドが現れる。 このアプローチでは、クエリの構造的特徴と入力データベースに固有のプロパティの両方を利用し、キーや値の許容可能な組み合わせを制限する他の(弱い)次数制約を含む。 直感的には、これらの特徴は純粋構造的手法に固有の'worst-possible database'の視点を通して識別を妨げる異なる構造的性質をもたらすかもしれない。

Counting the number of answers to conjunctive queries is a fundamental problem in databases that, under standard assumptions, does not have an efficient solution. The issue is inherently #P-hard, extending even to classes of acyclic instances. To address this, we pinpoint tractable classes by examining the structural properties of instances and introducing the novel concept of #-hypertree decomposition. We establish the feasibility of counting answers in polynomial time for classes of queries featuring bounded #-hypertree width. Additionally, employing novel techniques from the realm of fixed-parameter computational complexity, we prove that, for bounded arity queries, the bounded #-hypertree width property precisely delineates the frontier of tractability for the counting problem. This result closes an important gap in our understanding of the complexity of such a basic problem for conjunctive queries and, equivalently, for constraint satisfaction problems (CSPs). Drawing upon #-hypertree decompositions, a ''hybrid'' decomposition method emerges. This approach leverages both the structural characteristics of the query and properties intrinsic to the input database, including keys or other (weaker) degree constraints that limit the permissible combinations of values. Intuitively, these features may introduce distinct structural properties that elude identification through the ''worst-possible database'' perspective inherent in purely structural methods.
翻訳日:2023-11-27 14:35:21 公開日:2023-11-24
# 位相温度測定における臨界強調精度

Criticality-Enhanced Precision in Phase Thermometry ( http://arxiv.org/abs/2311.14578v1 )

ライセンス: Link先を確認
Mei Yu, H. Chau Nguyen, Stefan Nimmrichter(参考訳) 相互作用する量子多体系の温度推定は、相転移における臨界挙動がメトロロジーの感度を高めることができるため、量子メトロロジーにおける課題と話題の両方である。 本研究では,有限な2次元イジングスピン格子の非侵襲的量子温度測定を,格子に結合したスピンプローブの非マルコフデファスダイナミクスの測定に基づいて検討する。 我々は,結合範囲と問合せ時間に依存する量子フィッシャー情報の観点から,達成可能な精度の強い臨界的向上を示す。 数値シミュレーションは,完全連結格子のキュリーワイスモデルにおける感度の臨界スケーリングに関する指導的解析結果と,スピンプローブが敏感な格子上の臨界スピン揺らぎを記述できない熱力学的極限における平均場記述と比較した。 したがって位相計測は、平均場モデルの妥当性を超えて有限多体系の臨界挙動を調べるのに役立つ。

Temperature estimation of interacting quantum many-body systems is both a challenging task and topic of interest in quantum metrology, given that critical behavior at phase transitions can boost the metrological sensitivity. Here we study non-invasive quantum thermometry of a finite, two-dimensional Ising spin lattice based on measuring the non-Markovian dephasing dynamics of a spin probe coupled to the lattice. We demonstrate a strong critical enhancement of the achievable precision in terms of the quantum Fisher information, which depends on the coupling range and the interrogation time. Our numerical simulations are compared to instructive analytic results for the critical scaling of the sensitivity in the Curie-Weiss model of a fully connected lattice and to the mean-field description in the thermodynamic limit, both of which fail to describe the critical spin fluctuations on the lattice the spin probe is sensitive to. Phase metrology could thus help to investigate the critical behaviour of finite many-body systems beyond the validity of mean-field models.
翻訳日:2023-11-27 14:34:55 公開日:2023-11-24
# 機械学習によるP2P貸出プラットフォームの失敗予測--中国の事例

Predicting Failure of P2P Lending Platforms through Machine Learning: The Case in China ( http://arxiv.org/abs/2311.14577v1 )

ライセンス: Link先を確認
Jen-Yin Yeh, Hsin-Yu Chiu, and Jhih-Huei Huang(参考訳) 本研究では、特に中国でのピアツーピア(P2P)貸付プラットフォームの失敗を予測するために機械学習モデルを用いる。 フィルタ法とラッパー法を用いて前方選択と後方除去を行い, プラットフォーム障害の予測における変数の堅牢性と重要性を保証する厳密かつ実用的な手法を確立する。 この研究では、異なる選択方法とモデルにまたがる機能サブセットに一貫して現れる堅牢な変数のセットを特定し、プラットフォーム障害の予測における信頼性と妥当性を示唆している。 この研究は、機能サブセットの変数数を減らすことで偽の受け入れ率が増加し、パフォーマンス指標は安定し、AUC値は約0.96、F1スコアは約0.88であることを示した。 本研究の成果は、中国のP2P貸付業界で活動している規制当局や投資家に重大な影響をもたらす。

This study employs machine learning models to predict the failure of Peer-to-Peer (P2P) lending platforms, specifically in China. By employing the filter method and wrapper method with forward selection and backward elimination, we establish a rigorous and practical procedure that ensures the robustness and importance of variables in predicting platform failures. The research identifies a set of robust variables that consistently appear in the feature subsets across different selection methods and models, suggesting their reliability and relevance in predicting platform failures. The study highlights that reducing the number of variables in the feature subset leads to an increase in the false acceptance rate while the performance metrics remain stable, with an AUC value of approximately 0.96 and an F1 score of around 0.88. The findings of this research provide significant practical implications for regulatory authorities and investors operating in the Chinese P2P lending industry.
翻訳日:2023-11-27 14:34:37 公開日:2023-11-24
# 強結合状態におけるキャビティオプトメカニクスの非古典的力学状態

Nonclassical mechanical states in cavity optomechanics in the strong coupling regime ( http://arxiv.org/abs/2311.14572v1 )

ライセンス: Link先を確認
Jonathan L. Wise, Cl\'ement Dutreix, Fabio Pistolesi(参考訳) 力学系の非古典的状態の生成は、量子力学の基礎をテストし、量子技術を開発する上で重要な課題である。 キャビティ光学系の定常挙動におけるそのような状態の探索に多大な努力が払われている。 代わりに過渡的なダイナミクスに注目します。 強い結合状態においては、光学駆動の存在は、初期機械的コヒーレント状態が非古典状態へと発展し、強い負のウィグナー関数が現れる。 弱い駆動に対する解析的処理により、これらの状態がコヒーレントな状態の量子重ね合わせであることが分かる。 数値シミュレーションにより、ウィグナーネガティビティの存在は弱い散逸に対して頑健であることが示されている。

Generating nonclassical states of mechanical systems is a challenge relevant for testing the foundations of quantum mechanics and developing quantum technologies. Significant effort has been made to search for such states in the stationary behaviour of cavity optomechanical systems. We focus instead on the transient dynamics. We find that in the strong coupling regime the presence of an optical drive causes an initial mechanical coherent state to evolve to a nonclassical state, with strongly negative Wigner function. An analytical treatment for weak drive reveals that these states are quantum superpositions of coherent states. Numerical simulation shows that the presence of Wigner negativity is robust against weak dissipation.
翻訳日:2023-11-27 14:34:21 公開日:2023-11-24
# RAISE -- エンドツーエンドライフサイクルアプローチであるRadiology AI Safety

RAISE -- Radiology AI Safety, an End-to-end lifecycle approach ( http://arxiv.org/abs/2311.14570v1 )

ライセンス: Link先を確認
M. Jorge Cardoso, Julia Moosbauer, Tessa S. Cook, B. Selnur Erdal, Brad Genereaux, Vikash Gupta, Bennett A. Landman, Tiarna Lee, Parashkev Nachev, Elanchezhian Somasundaram, Ronald M. Summers, Khaled Younis, Sebastien Ourselin, Franz MJ Pfister(参考訳) 放射線学へのAIの統合は、臨床ケアの供給と効率を改善する機会をもたらすが、他の新しい技術と同様に潜在的なリスクを軽減するための巧妙なアプローチを必要とする。 厳密なデプロイメント前評価と検証から始め、モデルが意図したアプリケーションに対する安全性、有効性、有効性の最高の基準を満たすことに重点を置くべきです。 運用中に実装された入力と出力のガードレールは、個々の障害の発生を識別し、対処する追加のレイヤとして機能する。 継続的デプロイ後のモニタリングにより、人口レベルのパフォーマンス(データドリフト)、公平性、価値提供の追跡が可能になる。 デプロイ後のモデルパフォーマンスのスケジューリングと、新しいアルゴリズム駆動の発見に関する放射線学者の教育は、AIが臨床実践に有効であるために重要である。 意図された使用に制限されても、単一のAIソリューションが絶対的な保証を提供することができないことを認識し、規制、臨床、技術、倫理といった複数のレベルで品質保証の相乗的適用が強調された。 医療システム、産業、学界、政府にまたがる利害関係者の協力は、関連する多面的な課題に対処するために不可欠である。 その中には、AIが他の確立された医療技術と同じ厳格な安全性、有効性、有効性基準に準拠していることを明確に示すものも含まれている。 そうすることで、開発者は提供者と患者間の信頼感を損なうことができ、AIの責任あるスケーリングと潜在的なメリットの実現を可能にします。 ここで提示されるロードマップは、放射線学におけるデプロイ可能で信頼性があり、安全なAIの達成を早めることを目的としている。

The integration of AI into radiology introduces opportunities for improved clinical care provision and efficiency but it demands a meticulous approach to mitigate potential risks as with any other new technology. Beginning with rigorous pre-deployment evaluation and validation, the focus should be on ensuring models meet the highest standards of safety, effectiveness and efficacy for their intended applications. Input and output guardrails implemented during production usage act as an additional layer of protection, identifying and addressing individual failures as they occur. Continuous post-deployment monitoring allows for tracking population-level performance (data drift), fairness, and value delivery over time. Scheduling reviews of post-deployment model performance and educating radiologists about new algorithmic-driven findings is critical for AI to be effective in clinical practice. Recognizing that no single AI solution can provide absolute assurance even when limited to its intended use, the synergistic application of quality assurance at multiple levels - regulatory, clinical, technical, and ethical - is emphasized. Collaborative efforts between stakeholders spanning healthcare systems, industry, academia, and government are imperative to address the multifaceted challenges involved. Trust in AI is an earned privilege, contingent on a broad set of goals, among them transparently demonstrating that the AI adheres to the same rigorous safety, effectiveness and efficacy standards as other established medical technologies. By doing so, developers can instil confidence among providers and patients alike, enabling the responsible scaling of AI and the realization of its potential benefits. The roadmap presented herein aims to expedite the achievement of deployable, reliable, and safe AI in radiology.
翻訳日:2023-11-27 14:34:09 公開日:2023-11-24
# 多目的ハリスホークス最適化によるグリッドバランスのための電気自動車コーディネーション

Electric Vehicles coordination for grid balancing using multi-objective Harris Hawks Optimization ( http://arxiv.org/abs/2311.14563v1 )

ライセンス: Link先を確認
Cristina Bianca Pop, Tudor Cioara, Viorica Chifu, Ionut Anghel, Francesco Bellesini(参考訳) 再生可能エネルギーの台頭は、地域グリッドのエネルギー収支に技術的および運用上の課題をもたらす電気自動車(EV)への移行と一致する。 現在、エネルギーグリッドはEVの利用の急増に対応できないため、より協調的でグリッドを意識したEV充電および放電戦略が必要になる。 しかし、複数のevからグリッドへの電力の流れの調整には高度なアルゴリズムと負荷分散戦略が必要である。 本稿では,EVの余剰エネルギーを蓄え,エネルギー不足の期間に排出することで,信頼性の高いエネルギー供給を確保し,安定したローカルグリッドを維持することを目的とした,一日のEV艦隊調整モデルを提案する。 最適化問題は、エネルギーグリッドのバランス、時間利用の好み、evドライバの位置に関する基準を考慮したharris hawks optimization(hho)を用いて解決される。 人口からの個人の位置に関連するevsスケジュールは探索および搾取操作によって調整され、その技術的および運用上の実現性が保証される一方、ウサギ個体はルーレットホイールアルゴリズムを用いて、イテレーション毎に選択された非支配evスケジュールで更新される。 このソリューションはテルニ市のe-mobilityサービスのフレームワーク内で評価される。 その結果,EVの配電・配電はサービス要件のバランスを満たすだけでなく,ユーザの好みに合わせて最小限の偏差が生じることがわかった。

The rise of renewables coincides with the shift towards Electrical Vehicles (EVs) posing technical and operational challenges for the energy balance of the local grid. Nowadays, the energy grid cannot deal with a spike in EVs usage leading to a need for more coordinated and grid aware EVs charging and discharging strategies. However, coordinating power flow from multiple EVs into the grid requires sophisticated algorithms and load-balancing strategies as the complexity increases with more control variables and EVs, necessitating large optimization and decision search spaces. In this paper, we propose an EVs fleet coordination model for the day ahead aiming to ensure a reliable energy supply and maintain a stable local grid, by utilizing EVs to store surplus energy and discharge it during periods of energy deficit. The optimization problem is addressed using Harris Hawks Optimization (HHO) considering criteria related to energy grid balancing, time usage preference, and the location of EV drivers. The EVs schedules, associated with the position of individuals from the population, are adjusted through exploration and exploitation operations, and their technical and operational feasibility is ensured, while the rabbit individual is updated with a non-dominated EV schedule selected per iteration using a roulette wheel algorithm. The solution is evaluated within the framework of an e-mobility service in Terni city. The results indicate that coordinated charging and discharging of EVs not only meet balancing service requirements but also align with user preferences with minimal deviations.
翻訳日:2023-11-27 14:33:40 公開日:2023-11-24
# 駆動散逸キラル結合不均質原子配列における定常相と相互作用誘起欠失

Steady-state phases and interaction-induced depletion in a driven-dissipative chirally-coupled dissimilar atomic array ( http://arxiv.org/abs/2311.14562v1 )

ライセンス: Link先を確認
Shao-Hung Chung, I Gusti Ngurah Yudi Handayana, Yi-Lin Tsao, Chun-Chi Wu, G.-D. Lin, and H. H. Jen(参考訳) 原子配列と結合したナノフォトニック導波路は、強い結合した量子インターフェースの1つを形成し、量子力学の多くの興味深い集合的特徴を示す。 特に、競合する光子媒介双極子相互作用とカップリングの方向性を持つ2つの異なる粒子間間隔の異種配列について、弱駆動レーザー場下での原子励起の定常相について検討する。 等質配列における定常解の組み合わせからなる駆動系の定常相の部分集合を同定する。 また,異種配列の界面における原子の定常相決定における複雑な役割を明らかにし,結晶次数の定常相分布に強く関連する相の二分法における変化を見いだした。 さらに, 類似配列の半分において, 相互作用誘起枯渇を詳細に検討する。 この封鎖された領域は、相互結合系の近くの2つの対照的な粒子間間隔から生じ、相互結合下の解析解から証明される。 本研究は,非相互結合を持つ原子励起の駆動拡散量子位相に関する知見を提供し,量子情報応用に必須なエキゾチック多体状態の量子シミュレーションへの道を開く。

A nanophotonic waveguide coupled with an atomic array forms one of the strongly-coupled quantum interfaces to showcase many fascinating collective features of quantum dynamics. In particular for a dissimilar array of two different interparticle spacings with competing photon-mediated dipole-dipole interactions and directionality of couplings, we study the steady-state phases of atomic excitations under a weakly-driven condition of laser field. We identify a partial set of steady-state phases of the driven system composed of combinations of steady-state solutions in a homogeneous array. We also reveal an intricate role of the atom at the interface of the dissimilar array in determining the steady-state phases and find an alteration in the dichotomy of the phases strongly associated with steady-state distributions with crystalline orders. We further investigate in detail the interaction-induced depletion in half of the dissimilar array. This blockaded region results from two contrasting interparticle spacings near the reciprocal coupling regime, which is evidenced from the analytical solutions under the reciprocal coupling. Our results can provide insights in the driven-dissipative quantum phases of atomic excitations with nonreciprocal couplings and pave the avenues toward quantum simulations of exotic many-body states essential for quantum information applications.
翻訳日:2023-11-27 14:33:16 公開日:2023-11-24
# 有限熱力学資源を用いた量子符号化

Quantum Coding with Finite Thermodynamic Resources ( http://arxiv.org/abs/2311.14561v1 )

ライセンス: Link先を確認
Jake Xuereb, Tiago Debarba, Marcus Huber and Paul Erker(参考訳) 量子直接符号化(英語版)またはシューマッハ圧縮はシャノン理論のアイデアを一般化し、フォン・ノイマンのエントロピーに操作的意味を与え、量子ビットという用語を確立した。 しかし、その情報処理が物理的プロセスによって実行されることを思い出すと、量子情報の圧縮に必要な熱力学的資源と、そのタスクを実行する能力の制約について疑問を抱くようになる。 つまり、アリスとボブが有限の精度で熱量子状態とクロックにしかアクセスできないなら、純粋な量子状態メッセージの計測、エンコード、デコードはどの程度できるのだろうか? 本研究では、aliceの典型的な測定を計測プローブを含むユニタリとしてモデル化し、符号化とデコードに関する不完全なタイムキーピングを調査し、bobの付加量子ビットにおける温度の役割を考察する。 そうすることで、アリスが測定プローブで生成できる相関、時計のくちばしのばらつき、ボブの量子ビットの温度を含むこのプロトコルの忠実性境界を導出する。 最後に、これら2つのエージェントが圧縮プロトコル全体を通して生成するエントロピーについて、それらが使用するリソースを量子熱力学冷却プロトコルに関連付けることで見識を与える。

Quantum direct coding or Schumacher compression generalised the ideas of Shannon theory, gave an operational meaning to the von Neumann entropy and established the term qubit. But remembering that information processing is carried out by physical processes prompts one to wonder what thermodynamic resources are required to compress quantum information and how they constrain one's ability to perform this task. That is, if Alice and Bob only have access to thermal quantum states and clocks with finite accuracy, how well can they measure, encode and decode pure quantum state messages? In this work we examine these questions by modelling Alice's typical measurement as a unitary involving a measurement probe, investigating imperfect timekeeping on encoding and decoding and considering the role of temperature in Bob's appended qubits. In doing so, we derive fidelity bounds for this protocol involving the correlations Alice can form with their measurement probe, the variance of the clock's ticks and the temperature of Bob's qubits. Finally, we give an insight into the entropy produced by these two agents throughout the compression protocol by relating the resources they use to a quantum thermodynamic cooling protocol.
翻訳日:2023-11-27 14:32:54 公開日:2023-11-24
# Griffon: 大規模言語モデルによる任意の粒度でのすべてのオブジェクト位置の排除

Griffon: Spelling out All Object Locations at Any Granularity with Large Language Models ( http://arxiv.org/abs/2311.14552v1 )

ライセンス: Link先を確認
Yufei Zhan, Yousong Zhu, Zhiyang Chen, Fan Yang, Ming Tang, Jinqiao Wang(参考訳) 任意の粒度で自由形式のテキストに基づいて全てのオブジェクトを検出する能力の再現は、ビジョンランゲージモデルにとって大きな課題である。 現在の大きなビジョン言語モデル(lvlms)は、表現理解タスクを参照するデータのみに依存する、既存の単一のオブジェクトの接地に主に制約されている。 この制限はモデル設計の妥協につながり、ビジュアルエキスパートモデルの導入やカスタマイズされた頭部構造の統合が必要となる。 これらの制約を超えて、我々の研究はLVLMの未解決の可能性を掘り下げ、基本的な物体の知覚に固有の能力を解明し、興味のある物体を正確に識別し見つけられるようにしました。 この知見に基づいて,LVLMの微粒な物体認識と正確な位置認識を統合する能力を完全に解き放つために設計された,新しい言語プロンプトローカライゼーションデータセットを提案する。 さらに重要なことは、$\textbf{Griffon}$は純粋にLVLMベースのベースラインであり、特別なトークンやエキスパートモデル、追加の検出モジュールを導入する必要はないということです。 ローカライゼーションに関連するさまざまなシナリオでデータフォーマットを統合することで、一般的なLVLMと一貫した構造を維持し、よく設計されたパイプラインを通じてエンドツーエンドにトレーニングされる。 包括的実験により、$\textbf{Griffon}$は、微細なRefCOCOシリーズにおける最先端のパフォーマンスを達成するだけでなく、検出ベンチマークMSCOCO上でのFaster RCNNの機能にもアプローチすることを示した。

Replicating the innate human ability to detect all objects based on free-form texts at any granularity remains a formidable challenge for Vision-Language models. Current Large Vision Language Models (LVLMs) are predominantly constrained to grounding a single, pre-existing object, relying solely on data from Referring Expression Comprehension tasks. The limitation leads to a compromise in model design, necessitating the introduction of visual expert models or the integration of customized head structures. Beyond these constraints, our research delves into the untapped potential of LVLMs and uncover their inherent capability for basic object perception, allowing them to accurately identify and locate objects of interest. Building on this insight, we introduce a novel language-prompted localization dataset designed to fully unleash the capabilities of LVLMs in integrating fine-grained object perception with precise location awareness. More importantly, we present $\textbf{Griffon}$, a purely LVLM-based baseline, which does not require the introduction of any special tokens, expert models, or additional detection modules. It simply maintains a consistent structure with popular LVLMs by unifying data formats across various localization-related scenarios and is trained end-to-end through a well-designed pipeline. Comprehensive experiments demonstrate that $\textbf{Griffon}$ not only achieves state-of-the-art performance on the fine-grained RefCOCO series but also approaches the capabilities of the expert model Faster RCNN on the detection benchmark MSCOCO.
翻訳日:2023-11-27 14:32:32 公開日:2023-11-24
# 多体散逸量子カオスの創発的トポロジー

Emergent Topology in Many-Body Dissipative Quantum Chaos ( http://arxiv.org/abs/2311.14640v1 )

ライセンス: Link先を確認
Antonio M. Garc\'ia-Garc\'ia, Lucas S\'a, Jacobus J. M. Verbaarschot, Can Yin(参考訳) トポロジカル特徴の同定、記述、分類は、物理学のいくつかの分野における発見と革新のエンジンである。 この研究は、凝縮物質中の整数および分数チャーン絶縁体から光学における複雑なフォトニック格子における保護状態、QCD真空の構造まで幅広いシステムを含む。 ここでは、Sachdev-Ye-Kitaevモデル(SYK)の散逸ダイナミクス、マルコフ浴に結合した強い$q$ボディ相互作用を持つ零次元の$N$フェルミオンを紹介する。 q = 4, 8, \ldots$ と $n$ とバース詳細の特定の選択に対して、擬エルミティシティを含む場合には、フェルミオン交換を実装するユニタリ作用素の異常なトレースの存在に直接関連するベクトル化されたリウビリアンの矩形ブロック表現を見つける。 この矩形化の結果、リウヴィリアンは浴槽へのいかなる結合に対しても純粋に実モードを持つ。 それらのいくつかは、スペクトルフローの明示的な計算によってトポロジカルであることが示され、対称性に依存したトポロジカル指数$\nu$となる。 トポロジカルな性質は普遍的特徴を持つ: 対称性が尊重されることでリウヴィリアンの変化に対して堅牢であり、SYKモデルが同じ対称性クラスにおける量子カオス的デファスリングスピン鎖に置き換えられた場合にも観察される。 さらに、トポロジカル対称性クラスは、対応するランダム行列アンサンブルのレベル統計によって頑健に特徴づけられる。 浴への弱いカップリングの限界において、トポロジカルモードは平衡へのアプローチを制御し、散逸性多体量子カオス系におけるトポロジの実験的な確認を可能にする。

The identification, description, and classification of topological features is an engine of discovery and innovation in several fields of physics. This research encompasses a broad variety of systems, from the integer and fractional Chern insulators in condensed matter, to protected states in complex photonic lattices in optics, and the structure of the QCD vacuum. Here, we introduce another playground for topology: the dissipative dynamics of the Sachdev-Ye-Kitaev (SYK) model, $N$ fermions in zero dimensions with strong $q$-body interactions coupled to a Markovian bath. For $q = 4, 8, \ldots$ and certain choices of $N$ and bath details, involving pseudo-Hermiticity, we find a rectangular block representation of the vectorized Liouvillian that is directly related to the existence of an anomalous trace of the unitary operator implementing fermionic exchange. As a consequence of this rectangularization, the Liouvillian has purely real modes for any coupling to the bath. Some of them are demonstrated to be topological by an explicit calculation of the spectral flow, leading to a symmetry-dependent topological index $\nu$. Topological properties have universal features: they are robust to changes in the Liouvillian provided that the symmetries are respected and they are also observed if the SYK model is replaced by a quantum chaotic dephasing spin chain in the same symmetry class. Moreover, the topological symmetry class can be robustly characterized by the level statistics of the corresponding random matrix ensemble. In the limit of weak coupling to the bath, topological modes govern the approach to equilibrium, which may enable a direct path for experimental confirmation of topology in dissipative many-body quantum chaotic systems.
翻訳日:2023-11-27 14:25:07 公開日:2023-11-24
# 定量的位相画像における細胞核と細胞核の教師なし高スループットセグメンテーション

Unsupervised high-throughput segmentation of cells and cell nuclei in quantitative phase images ( http://arxiv.org/abs/2311.14639v1 )

ライセンス: Link先を確認
Julia Sistermanns, Ellen Emken, Gregor Weirich, Oliver Hayden, Wolfgang Utschick(参考訳) 何千もの画像と数百万の細胞を臨床研究のために高スループットのデジタルホログラフィー顕微鏡を用いて自動単細胞スクリーニングを行うことで、細胞学的診断を支援する。 ボトルネックは、自動的で、高速で、教師なしのセグメンテーション技術にある。 本研究は, 細胞内のノイズや反射を混乱させることなく, かつ, 関連する内部構造, 特に未維持細胞の細胞核の検出を含む細胞を欠くことなく, 正しくセグメンテーションする非教師なし多段階法を提案する。 また, 細胞病理学者にとって, 情報を合理的かつ解釈可能なものにするために, 測定手法に固有の定量的位相情報を利用する細胞診における潜在的支援の新たな細胞質的, 核的特徴を紹介する。 その結果, 分節化は, 細胞分析時間当たりの患者サンプル実験において, 一貫して良好な結果が得られることがわかった。

In the effort to aid cytologic diagnostics by establishing automatic single cell screening using high throughput digital holographic microscopy for clinical studies thousands of images and millions of cells are captured. The bottleneck lies in an automatic, fast, and unsupervised segmentation technique that does not limit the types of cells which might occur. We propose an unsupervised multistage method that segments correctly without confusing noise or reflections with cells and without missing cells that also includes the detection of relevant inner structures, especially the cell nucleus in the unstained cell. In an effort to make the information reasonable and interpretable for cytopathologists, we also introduce new cytoplasmic and nuclear features of potential help for cytologic diagnoses which exploit the quantitative phase information inherent to the measurement scheme. We show that the segmentation provides consistently good results over many experiments on patient samples in a reasonable per cell analysis time.
翻訳日:2023-11-27 14:24:34 公開日:2023-11-24
# UAV画像を用いたリモートセンシングによるWindowsの自動検出・カウント

Automated Detection and Counting of Windows using UAV Imagery based Remote Sensing ( http://arxiv.org/abs/2311.14635v1 )

ライセンス: Link先を確認
Dhruv Patel, Shivani Chepuri, Sarvesh Thakur, K. Harikumar, Ravi Kiran S., K. Madhava Krishna(参考訳) 建設・測量分野の技術的進歩にもかかわらず、地下の窓や既存の建物のような健全な外観の検査は、主に手作業である。 さらに, 建物内に存在する窓の数は, 地震時の変形の大きさと直接関係している。 本研究では,無人航空機(UAV)を用いたリモートセンシングシステムを用いて,建物の窓数を正確に検出・カウントする手法を提案する。 提案手法は,UAV搭載カメラおよび他のセンサからのデータを利用するコンピュータビジョンパイプラインを開発することにより,ウィンドウの識別とカウントを自動化する。 定量的・定性的な結果から,提案手法が既存の手法と比較して窓を高精度に検出・計数することの有効性を示した。

Despite the technological advancements in the construction and surveying sector, the inspection of salient features like windows in an under-construction or existing building is predominantly a manual process. Moreover, the number of windows present in a building is directly related to the magnitude of deformation it suffers under earthquakes. In this research, a method to accurately detect and count the number of windows of a building by deploying an Unmanned Aerial Vehicle (UAV) based remote sensing system is proposed. The proposed two-stage method automates the identification and counting of windows by developing computer vision pipelines that utilize data from UAV's onboard camera and other sensors. Quantitative and Qualitative results show the effectiveness of our proposed approach in accurately detecting and counting the windows compared to the existing method.
翻訳日:2023-11-27 14:24:17 公開日:2023-11-24
# 信号とノイズの比率の低い画像でマークス構造を検出する方法

One Strike, You're Out: Detecting Markush Structures in Low Signal-to-Noise Ratio Images ( http://arxiv.org/abs/2311.14633v1 )

ライセンス: Link先を確認
Thomas Jurriaans, Kinga Szarkowska, Eric Nalisnick, Markus Schwoerer, Camilo Thorne and Saber Akhondi(参考訳) 現代の研究は、研究者を支援する自動化手法にますます依存している。 この例として、化学者が大量の文書から化学物質に関する情報を取得するのを助ける光学化学構造認識(OCSR)がある。 マーシュ構造は、OCSRによって正しく解析できない化学構造であり、エラーを引き起こす。 本研究の目的は,マークシュ構造を分類する新しい手法を提案し,検証することであった。 本手法では,固定機能抽出とエンドツーエンド学習(CNN)を比較した。 エンドツーエンド法は固定機能法よりも有意に優れ、固定機能法の0.701 (0.052 SD)と比較して0.928 (0.035 SD)のマクロF1を達成した。 実験の性質のため、これらの図は下界であり、さらに改善することができる。 これらの結果から,markush構造を効果的かつ高精度にフィルタできることが示唆された。 OCSRパイプラインに実装すると、この手法は性能を改善し、他の研究者に利用することができる。

Modern research increasingly relies on automated methods to assist researchers. An example of this is Optical Chemical Structure Recognition (OCSR), which aids chemists in retrieving information about chemicals from large amounts of documents. Markush structures are chemical structures that cannot be parsed correctly by OCSR and cause errors. The focus of this research was to propose and test a novel method for classifying Markush structures. Within this method, a comparison was made between fixed-feature extraction and end-to-end learning (CNN). The end-to-end method performed significantly better than the fixed-feature method, achieving 0.928 (0.035 SD) Macro F1 compared to the fixed-feature method's 0.701 (0.052 SD). Because of the nature of the experiment, these figures are a lower bound and can be improved further. These results suggest that Markush structures can be filtered out effectively and accurately using the proposed method. When implemented into OCSR pipelines, this method can improve their performance and use to other researchers.
翻訳日:2023-11-27 14:24:06 公開日:2023-11-24
# クリップバイアスのない個人用SGD : エラーフィードバックアプローチ

Differentially Private SGD Without Clipping Bias: An Error-Feedback Approach ( http://arxiv.org/abs/2311.14632v1 )

ライセンス: Link先を確認
Xinwei Zhang, Zhiqi Bu, Zhiwei Steven Wu, Mingyi Hong(参考訳) Differentially Private Stochastic Gradient Descent with gradient clipping (DPSGD-GC)は、機密データを使用してディープラーニングモデルをトレーニングするための強力なツールであり、しっかりとした理論的プライバシ保証と高い効率を提供する。 しかし、DPSGD-GCを用いることで、差分プライバシー(DP)がDPノイズインジェクションと勾配クリッピングによってモデル性能の低下を引き起こすことを保証する。 既存の研究では、DPSGD-GCの理論的収束を広く分析し、問題固有のパラメータに依存する大きなクリッピング閾値を使用する場合にのみ収束することが示されている。 残念ながら、これらのパラメータは実際にはよく知られておらず、最適なクリッピングしきい値を選択することは難しい。 したがって、実際には、DPSGD-GCはクリッピングによって引き起こされる {\it constant} バイアスにより劣化する。 本研究では,DPSGD-GCに代わる新しい誤りフィードバック(EF)DPアルゴリズムを提案する。 本稿では,提案アルゴリズムに対して,R{\'e}nyi DPに基づくプライバシ保証を提供するアルゴリズム固有のDP解析を行う。 さらに, 緩やかな条件下では, 勾配クリッピングを伴わずにDPSGDとほぼ同等の効用が得られることを示した。 我々のCifar-10/100データセットとE2Eデータセットに対する実験結果から,提案アルゴリズムはDP保証レベルを維持しつつ,DPSGDよりも高い精度を達成することが示された。

Differentially Private Stochastic Gradient Descent with gradient clipping (DPSGD-GC) is a powerful tool for training deep learning models using sensitive data, providing both a solid theoretical privacy guarantee and high efficiency. However, using DPSGD-GC to ensure Differential Privacy (DP) comes at the cost of model performance degradation due to DP noise injection and gradient clipping. Existing research has extensively analyzed the theoretical convergence of DPSGD-GC, and has shown that it only converges when using large clipping thresholds that are dependent on problem-specific parameters. Unfortunately, these parameters are often unknown in practice, making it hard to choose the optimal clipping threshold. Therefore, in practice, DPSGD-GC suffers from degraded performance due to the {\it constant} bias introduced by the clipping. In our work, we propose a new error-feedback (EF) DP algorithm as an alternative to DPSGD-GC, which not only offers a diminishing utility bound without inducing a constant clipping bias, but more importantly, it allows for an arbitrary choice of clipping threshold that is independent of the problem. We establish an algorithm-specific DP analysis for our proposed algorithm, providing privacy guarantees based on R{\'e}nyi DP. Additionally, we demonstrate that under mild conditions, our algorithm can achieve nearly the same utility bound as DPSGD without gradient clipping. Our empirical results on Cifar-10/100 and E2E datasets, show that the proposed algorithm achieves higher accuracies than DPSGD while maintaining the same level of DP guarantee.
翻訳日:2023-11-27 14:23:49 公開日:2023-11-24
# CatVersion: 拡散に基づくテキスト-画像パーソナライズのための埋め込みの統合

CatVersion: Concatenating Embeddings for Diffusion-Based Text-to-Image Personalization ( http://arxiv.org/abs/2311.14631v1 )

ライセンス: Link先を確認
Ruoyu Zhao, Mingrui Zhu, Shiyin Dong, Nannan Wang, Xinbo Gao(参考訳) 少数の例を通してパーソナライズされた概念を学習するインバージョンベースの手法であるCatVersionを提案する。 その後、ユーザはテキストプロンプトを利用してパーソナライズされた概念を具現化した画像を生成し、テキストから画像へのパーソナライズを可能にする。 拡散モデルにおける単語埋め込み学習やパラメータの微調整を重要視する既存の手法とは対照的に,本手法は,拡散モデルにおけるテキストエンコーダの特徴密度空間への埋め込みを結合して,個人化概念と基本クラスとのギャップを学習し,拡散モデルにおける事前知識の保存を最大化し,パーソナライズされた概念を復元する。 この目的のために,まず画像生成プロセスにおけるテキストエンコーダの統合を解析し,エンコーダの特徴空間を同定する。 その後、私たちは、パーソナライズされた概念と基本クラスの間のギャップを学ぶために、この領域のキーと値に埋め込みを結合します。 このように、連結埋め込みは最終的に元の注意出力の残差として表される。 パーソナライズされた画像生成の結果をより正確かつ偏りなく定量化するために,マスクに基づくクリップ画像アライメントスコアを改善する。 CatVersionは質的かつ定量的に、パーソナライズの概念をより忠実に復元し、より堅牢な編集を可能にする。

We propose CatVersion, an inversion-based method that learns the personalized concept through a handful of examples. Subsequently, users can utilize text prompts to generate images that embody the personalized concept, thereby achieving text-to-image personalization. In contrast to existing approaches that emphasize word embedding learning or parameter fine-tuning for the diffusion model, which potentially causes concept dilution or overfitting, our method concatenates embeddings on the feature-dense space of the text encoder in the diffusion model to learn the gap between the personalized concept and its base class, aiming to maximize the preservation of prior knowledge in diffusion models while restoring the personalized concepts. To this end, we first dissect the text encoder's integration in the image generation process to identify the feature-dense space of the encoder. Afterward, we concatenate embeddings on the Keys and Values in this space to learn the gap between the personalized concept and its base class. In this way, the concatenated embeddings ultimately manifest as a residual on the original attention output. To more accurately and unbiasedly quantify the results of personalized image generation, we improve the CLIP image alignment score based on masks. Qualitatively and quantitatively, CatVersion helps to restore personalization concepts more faithfully and enables more robust editing.
翻訳日:2023-11-27 14:23:19 公開日:2023-11-24
# ARIA:連合視覚分類におけるアーキテクチャと集約手法と初期化の相互作用について

ARIA: On the interaction between Architectures, Aggregation methods and Initializations in federated visual classification ( http://arxiv.org/abs/2311.14625v1 )

ライセンス: Link先を確認
Vasilis Siomos, Sergio Naval-Marimont, Jonathan Passerat-Palmbach, Giacomo Tarroni(参考訳) Federated Learning(FL)は、機密データの交換を排除し、クライアントとサーバ間のモデルパラメータの交換に頼ることによって、クロスインスタンスモデルのプライバシー保護学習を可能にする協調トレーニングパラダイムである。 クライアントモデルの集約方法に関する個々の研究や、最近ではimagenet事前トレーニングのメリットについて、フェデレーションが選択したアーキテクチャが持つ効果や、前述の要素が相互に関連している方法についての理解が不足している。 この目的のために,第1回ARchitecture-Initialization-Aggregation研究と,医療画像分類タスクにおけるARIAのベンチマークを行う。 現在のプラクティスとは違って、最高のパフォーマンスを達成するためには、ARIA要素を一緒に選択する必要があります。 また,タスク,正規化レイヤの効果,SSL事前トレーニングの有用性などによって,各要素の適切な選択について,FL固有のアーキテクチャやトレーニングパイプラインを設計するための潜在的な方向性を示唆した。

Federated Learning (FL) is a collaborative training paradigm that allows for privacy-preserving learning of cross-institutional models by eliminating the exchange of sensitive data and instead relying on the exchange of model parameters between the clients and a server. Despite individual studies on how client models are aggregated, and, more recently, on the benefits of ImageNet pre-training, there is a lack of understanding of the effect the architecture chosen for the federation has, and of how the aforementioned elements interconnect. To this end, we conduct the first joint ARchitecture-Initialization-Aggregation study and benchmark ARIAs across a range of medical image classification tasks. We find that, contrary to current practices, ARIA elements have to be chosen together to achieve the best possible performance. Our results also shed light on good choices for each element depending on the task, the effect of normalisation layers, and the utility of SSL pre-training, pointing to potential directions for designing FL-specific architectures and training pipelines.
翻訳日:2023-11-27 14:22:52 公開日:2023-11-24
# アルゴリズム指向量子ビットマッピングによるdigitized counterdiabatic quantum optimizationの性能向上

Improving the Performance of Digitized Counterdiabatic Quantum Optimization via Algorithm-Oriented Qubit Mapping ( http://arxiv.org/abs/2311.14624v1 )

ライセンス: Link先を確認
Yanjun Ji, Kathrin F. Koenig, Ilia Polian(参考訳) 本稿では,ディジタル化された反断熱量子最適化アルゴリズムの性能向上戦略を提案する。 ハミルトニアンおよびゲート列、アルゴリズムパラメータ、およびキュービットマッピングを最適化することにより、アルゴリズム性能の大幅な向上が達成される。 詳細な実験は、アルゴリズムの利点とハードウェアの接続性の両方を利用して、短期的な量子デバイスにこれらの最適化を実装することの有効性を実証する。 特に, 誤差緩和のない平均4.49$\times$, 誤り軽減による84.8%, CXゲート数と回路深さを, QiskitとTketと比較して28.8%, 33.4%削減した。 これらの発見は、量子ビットマッピングとアルゴリズムパラメータを最適化するために調整されたアルゴリズム実装の符号に関する貴重な洞察を与え、近距離量子デバイスにおける様々な量子アルゴリズムの性能向上に幅広い意味を持つ。

This paper presents strategies to improve the performance of digitized counterdiabatic quantum optimization algorithms. By cooptimizing the Hamiltonian and gate sequence, algorithm parameters, and qubit mapping, significant enhancements in algorithm performance are achieved. Detailed experiments demonstrate the efficacy of implementing these optimizations on near-term quantum devices, leveraging both algorithmic benefits and hardware connectivity. In particular, our approach increases the approximation ratio by an average of 4.49$\times$ without error mitigation and 84.8% with error mitigation, while reducing the number of CX gates and circuit depth by 28.8% and 33.4%, respectively, compared to Qiskit and Tket. These findings offer valuable insights into the codesign of algorithm implementation, tailored to optimize qubit mapping and algorithm parameters, with broader implications for enhancing the performance of various quantum algorithms on near-term quantum devices.
翻訳日:2023-11-27 14:22:33 公開日:2023-11-24
# 赤道計測を用いた資源効率シャドウトモグラフィ

Resource-efficient shadow tomography using equatorial measurements ( http://arxiv.org/abs/2311.14622v1 )

ライセンス: Link先を確認
Guedong Park, Yong Siah Teo, and Hyunseok Jeong(参考訳) クリフォード単位の部分集合から生成される赤道安定化器の測定値を用いた資源効率の高いシャドウトモグラフィー手法を提案する。 n$-qubitシステムでは、赤道安定器ベースのシャドウトモグラフィスキームは、多項式に束縛されたフロベニウスノルムを持つトレースレス部分を含む、多くのオブザーバブルのコピーをサンプリングするために$\mathcal{o}(\log(m),\mathrm{poly}(n),1/\varepsilon^2)$を用いて、$m$オブザーバブルを推定することができる。 任意の量子状態オブザーバブルの場合、サンプリング複雑性は$n$-独立 -$\mathcal{O}(\log(M),1/\varepsilon^2)$となる。 我々のスキームは、サンプリングコピーごとに$n$-depth control-$z$ (cz) 回路 [$\mathcal{o}(n^2)$ cz gates] とpauli測定が必要であり、従来知られていたランダム化されたcliffordベースの提案と比較して、より小さい最大ゲート数を示す。 実装面では、最大回路深さは、制御NOT(CNOT)ゲートを持つ$\frac{n}{2}+\mathcal{O}(\log(n))$に縮小される。 あるいは、O(n^2)$近くのCNOTゲートを含む2n$depth回路で実現でき、さらにゲート数の改善が期待できる。 ランダムな純粋な状態とマルチキュービットのグラフ状態を持つ理論上のシャドウ・トモグラフィーサンプリングの複雑さを数値的に確認する。 最後に,赤道安定化器を用いたシャドウトモグラフィは,GHZおよびW状態の平均ゲート忠実度および状態検証の観点から,ランダム化クリフォード方式よりも耐雑音性が高いことを示す。

We propose a resource-efficient shadow-tomography scheme using equatorial-stabilizer measurements generated from subsets of Clifford unitaries. For $n$-qubit systems, equatorial-stabilizer-based shadow-tomography schemes can estimate $M$ observables (up to an additive error $\varepsilon$) using $\mathcal{O}(\log(M),\mathrm{poly}(n),1/\varepsilon^2)$ sampling copies for a large class of observables, including those with traceless parts possessing polynomially-bounded Frobenius norms. For arbitrary quantum-state observables, sampling complexity becomes $n$-independent -- $\mathcal{O}(\log(M),1/\varepsilon^2)$. Our scheme only requires an $n$-depth controlled-$Z$ (CZ) circuit [$\mathcal{O}(n^2)$ CZ gates] and Pauli measurements per sampling copy, exhibiting a smaller maximal gate count relative to previously-known randomized-Clifford-based proposals. Implementation-wise, the maximal circuit depth is reduced to $\frac{n}{2}+\mathcal{O}(\log(n))$ with controlled-NOT (CNOT) gates. Alternatively, our scheme is realizable with $2n$-depth circuits comprising $O(n^2)$ nearest-neighboring CNOT gates, with possible further gate-count improvements. We numerically confirm our theoretically-derived shadow-tomographic sampling complexities with random pure states and multiqubit graph states. Finally, we numerically demonstrate that equatorial-stabilizer-based shadow tomography is more noise-tolerant than randomized-Clifford-based schemes in terms of average gate fidelity and state verification for GHZ and W states.
翻訳日:2023-11-27 14:22:16 公開日:2023-11-24
# コンピュータゲームにおけるニューラルスタイル転送

Neural Style Transfer for Computer Games ( http://arxiv.org/abs/2311.14617v1 )

ライセンス: Link先を確認
Eleftherios Ioannou, Steve Maddock(参考訳) ニューラルスタイル転送(NST)の研究は、画像、ビデオ、3Dメッシュ、および放射場に応用されてきたが、3Dコンピュータゲームへの応用は、いまだに研究されていない。 画像とビデオのnstシステムはコンピュータゲームの後処理効果として使用できるが、これは望ましくないアーティファクトと後処理効果の低下をもたらす。 本稿では3次元レンダリングパイプラインの一部として深度認識NSTを注入する手法を提案する。 ゲーム内スタイリングフレームワークを検証するために,定性的かつ定量的な実験が用いられている。 我々は,芸術的スタイルのゲームシーンの時間的一貫した結果,最先端の画像およびビデオNST手法の性能を実証する。

Neural Style Transfer (NST) research has been applied to images, videos, 3D meshes and radiance fields, but its application to 3D computer games remains relatively unexplored. Whilst image and video NST systems can be used as a post-processing effect for a computer game, this results in undesired artefacts and diminished post-processing effects. Here, we present an approach for injecting depth-aware NST as part of the 3D rendering pipeline. Qualitative and quantitative experiments are used to validate our in-game stylisation framework. We demonstrate temporally consistent results of artistically stylised game scenes, outperforming state-of-the-art image and video NST methods.
翻訳日:2023-11-27 14:21:32 公開日:2023-11-24
# SU(1,1)干渉計内多光子サブトラクションによる位相推定

Phase estimation via multi-photon subtraction inside the SU(1,1) interferometer ( http://arxiv.org/abs/2311.14612v1 )

ライセンス: Link先を確認
Q. Q. Kang, Z. K. Zhao, Y. K. Xu, T. Zhao, C. J. Liu, and L. Y. Hu(参考訳) 位相感度を向上させるために、SU(1,1)干渉計内の多光子サブトラクション方式を提案する。 入力状態はコヒーレント状態と真空状態であり、検出方法はホモダイン検出である。 位相感度, 量子フィッシャー情報, 量子クレーダ・ラオ境界に対するマルチ光子減算の影響を理想的および光子損失条件下で解析した。 その結果, 内部減算操作により位相感度が向上し, 減算数の増加により性能が向上した。 また、内部光子損失に対するSU(1,1)干渉計の堅牢性を向上させることもできる。 su(1,1)干渉計内の2モード光子減算を分離的に比較することにより、位相精度における非ガウス演算の不斉特性と量子フィッシャー情報を含む異なる条件下での性能差を解析する。 提案手法は,量子精度測定に有用な手法である。

To improve the phase sensitivity, multi-photon subtraction schemes within the SU(1,1) interferometer are proposed. The input states are the coherent state and the vacuum state, and the detection method is homodyne detection. The effects of multi-photon subtraction on phase sensitivity, quantum Fisher information, and quantum Cramer-Rao bound are analyzed under both ideal and photon losses situations. It is shown that the internal subtraction operation can improve the phase sensitivity, which becomes better performance by increasing subtraction number. It can also efficiently improve the robustness of the SU(1,1) interferometer against internal photon losses. By comparing separatively arbitrary photon subtraction on the two-mode inside SU(1,1) interferometer, the performance differences under different conditions are analyzed, including the asymmetric properties of non-Gaussian operations on the phase precision and the quantum Fisher information. Our proposed scheme represents a valuable method for achieving quantum precision measurements.
翻訳日:2023-11-27 14:21:20 公開日:2023-11-24
# 正規化を伴わない勾配降下による過度パラメータ化深層ニューラルネットワーク推定の予測$L_2$誤差の解析

Analysis of the expected $L_2$ error of an over-parametrized deep neural network estimate learned by gradient descent without regularization ( http://arxiv.org/abs/2311.14609v1 )

ライセンス: Link先を確認
Selina Drews and Michael Kohler(参考訳) 最近の結果は、正規化された経験的l_2$リスクに勾配降下を適用して学習した過パラメータ深層ニューラルネットワークによって定義される推定は、普遍的に一貫性があり、良好な収束率が得られることを示している。 本稿では,同様の結果を得るために正規化項は不要であることを示す。 適切に選択されたネットワークの初期化の場合、適切な勾配降下ステップ数と適切なステップサイズは、正規化項を持たない推定が有界な予測変数に対して普遍的に一致することを示す。 さらに、回帰関数が H と H の指数 $1/2 \leq p \leq 1$ で滑らかであれば、$L_2$ の誤差は、約$n^{-1/(1+d)}$ の収束率で 0 に収束する。 さらに、回帰関数が$d^*$成分のH\より古い滑らかな関数の和からなる相互作用モデルの場合、入力次元$d$に依存しない収束率が導出される。

Recent results show that estimates defined by over-parametrized deep neural networks learned by applying gradient descent to a regularized empirical $L_2$ risk are universally consistent and achieve good rates of convergence. In this paper, we show that the regularization term is not necessary to obtain similar results. In the case of a suitably chosen initialization of the network, a suitable number of gradient descent steps, and a suitable step size we show that an estimate without a regularization term is universally consistent for bounded predictor variables. Additionally, we show that if the regression function is H\"older smooth with H\"older exponent $1/2 \leq p \leq 1$, the $L_2$ error converges to zero with a convergence rate of approximately $n^{-1/(1+d)}$. Furthermore, in case of an interaction model, where the regression function consists of a sum of H\"older smooth functions with $d^*$ components, a rate of convergence is derived which does not depend on the input dimension $d$.
翻訳日:2023-11-27 14:21:03 公開日:2023-11-24
# 単位充填における1次元双極格子ボソンの基底状態

Ground states of one-dimensional dipolar lattice bosons at unit filling ( http://arxiv.org/abs/2311.14606v1 )

ライセンス: Link先を確認
Mateusz \L\k{a}cki, Henning Korbmacher, G. A. Dom\'inguez-Castro, Jakub Zakrzewski, and Luis Santos(参考訳) 光学格子における超低温双極子に関する最近の実験は、拡張ハバードモデルの量子シミュレーションにエキサイティングな可能性を開く。 一次元で考えると、これらのモデルは特に興味深い基底状態の物理を埋める単位に存在し、例えば対称保護位相はハルデン絶縁体(Haldane insulator)として知られる。 両極間相互作用の尾部は, 横方向の閉じ込めによって調整される可能性があり, ハルダン絶縁体機構を定量的に変化させるだけでなく, より大きな周期の密度波を生じさせるだけでなく, 予期せぬ絶縁相でも生じることを示す。 これらの絶縁相は、トポロジカルまたはトポロジカルに自明であり、サイト占有の特異な相関によって特徴づけられる。 これらの相は最先端の実験で実現・観察することができる。

Recent experiments on ultracold dipoles in optical lattices open exciting possibilities for the quantum simulation of extended Hubbard models. When considered in one dimension, these models present at unit filling a particularly interesting ground-state physics, including a symmetry-protected topological phase known as Haldane insulator. We show that the tail of the dipolar interaction beyond nearest-neighbors, which may be tailored by means of the transversal confinement, does not only modify quantitatively the Haldane insulator regime and lead to density waves of larger periods, but results as well in unexpected insulating phases. These insulating phases may be topological or topologically trivial, and are characterized by peculiar correlations of the site occupations. These phases may be realized and observed in state-of-the-art experiments.
翻訳日:2023-11-27 14:20:42 公開日:2023-11-24
# 金融予測のためのニューラルアーキテクチャの進化:危機期のデータ不適合性について

Evolution of Neural Architectures for Financial Forecasting: A Note on Data Incompatibility during Crisis Periods ( http://arxiv.org/abs/2311.14604v1 )

ライセンス: Link先を確認
Faizal Hafiz and Jan Broekaert and Akshya Swain(参考訳) このノートは、市場破壊や危機後の株価指数の動き予測のためのニューラルネットワークの最適化に焦点を当てている。 このような危機が市場ダイナミクスの変化をもたらす可能性があることを考慮し、危機前の市場ダイナミクスからのトレーニングデータが危機期のデータと互換性があるかどうかを検討することを目的とする。 この目的のために、2つの異なる学習環境は、おそらく異なる市場ダイナミクスの効果を評価し、調整するために設計されている。 これらの環境は主に、プリ危機データに割り当てられた役割に基づいて異なる。 どちらの環境においても、非支配的なアーキテクチャの集合は、特徴と隠れ層トポロジーに関する選択問題を同時に扱うマルチクリトリア共進化問題を満たすものとして識別される。 危機前データ不適合性の仮説を検証するため、NASDAQ指数の日頭移動予測は、2008年の金融危機と新型コロナウイルスのパンデミックという、2つの最近の主要な市場混乱の間に検討されている。 比較評価の結果,不適合仮説を説得力強く支持し,再訓練ウィンドウを慎重に選択する必要性を浮き彫りにした。

This note focuses on the optimization of neural architectures for stock index movement forecasting following a major market disruption or crisis. Given that such crises may introduce a shift in market dynamics, this study aims to investigate whether the training data from market dynamics prior to the crisis are compatible with the data during the crisis period. To this end, two distinct learning environments are designed to evaluate and reconcile the effects of possibly different market dynamics. These environments differ principally based on the role assigned to the pre-crisis data. In both environments, a set of non-dominated architectures are identified to satisfy the multi-criteria co-evolution problem, which simultaneously addresses the selection issues related to features and hidden layer topology. To test the hypothesis of pre-crisis data incompatibility, the day-ahead movement prediction of the NASDAQ index is considered during two recent and major market disruptions; the 2008 financial crisis and the COVID-19 pandemic. The results of a detailed comparative evaluation convincingly support the incompatibility hypothesis and highlight the need to select re-training windows carefully.
翻訳日:2023-11-27 14:20:28 公開日:2023-11-24
# Animate124:1枚の画像を4Dダイナミックシーンにアニメーション

Animate124: Animating One Image to 4D Dynamic Scene ( http://arxiv.org/abs/2311.14603v1 )

ライセンス: Link先を確認
Yuyang Zhao, Zhiwen Yan, Enze Xie, Lanqing Hong, Zhenguo Li, Gim Hee Lee(参考訳) Animate124 (Animate-one-image-to-4D) は、テキストによる動作記述を通じて、単一のウィジェット内画像を3Dビデオにアニメーション化するための最初の試みである。 我々の4D生成は、複数の拡散前駆体を用いて3つの異なる段階に最適化された、高度な4Dグリッド動的ニューラルレージアンス場(NeRF)モデルを活用する。 当初、静的モデルは参照画像を用いて最適化され、2Dおよび3D拡散先行により誘導され、動的NeRFの初期化として機能する。 その後、映像拡散モデルを用いて、被写体特有の動きを学習する。 しかし、3dビデオの中のオブジェクトは、時間とともに参照画像から離れる傾向がある。 このドリフトは主に、ビデオ拡散モデルにおけるテキストプロンプトと参照画像とのずれによるものである。 最終段階では、パーソナライズされた拡散先行がセマンティックドリフトに対処するために利用される。 先駆的な画像テキストから4D生成フレームワークである本手法は,定量的および定性的な評価により,既存のベースラインよりも大幅に進歩したことを示す。

We introduce Animate124 (Animate-one-image-to-4D), the first work to animate a single in-the-wild image into 3D video through textual motion descriptions, an underexplored problem with significant applications. Our 4D generation leverages an advanced 4D grid dynamic Neural Radiance Field (NeRF) model, optimized in three distinct stages using multiple diffusion priors. Initially, a static model is optimized using the reference image, guided by 2D and 3D diffusion priors, which serves as the initialization for the dynamic NeRF. Subsequently, a video diffusion model is employed to learn the motion specific to the subject. However, the object in the 3D videos tends to drift away from the reference image over time. This drift is mainly due to the misalignment between the text prompt and the reference image in the video diffusion model. In the final stage, a personalized diffusion prior is therefore utilized to address the semantic drift. As the pioneering image-text-to-4D generation framework, our method demonstrates significant advancements over existing baselines, evidenced by comprehensive quantitative and qualitative assessments.
翻訳日:2023-11-27 14:20:11 公開日:2023-11-24
# SEGIC: インコンテキストセグメンテーションのための創発的対応

SEGIC: Unleashing the Emergent Correspondence for In-Context Segmentation ( http://arxiv.org/abs/2311.14671v1 )

ライセンス: Link先を確認
Lingchen Meng, Shiyi Lan, Hengduo Li, Jose M. Alvarez, Zuxuan Wu, Yu-Gang Jiang(参考訳) インコンテキストセグメンテーション(In-context segmentation)は、いくつかのラベル付き例画像を用いて、サンプルとターゲットの間のコンテンツ類似性を探ることを目的としている。 その結果得られたモデルは、新しいセグメンテーションタスクにシームレスに一般化でき、従来のパイプラインに比べてラベリングとトレーニングのコストを大幅に削減できる。 しかし、文脈内セグメンテーションはメタラーニングの性質から古典的なセグメンテーションよりも困難であり、セグメンテーションだけでなく、少数のサンプルで条件付けられたセグメンテーションルールを学習する必要がある。 アドホックや非エンドツーエンドの設計と異なり、単一ビジョン基盤モデル(VFM)上に構築されたエンドツーエンドセグメント・イン・コンテクストフレームワークSEGICを提案する。 特に、SEGICはVFM内の創発的対応を利用して、ターゲット画像とコンテキスト内サンプル間の密接な関係をキャプチャする。 このように、コンテキスト内サンプルからの情報は、3種類の命令(幾何学、視覚、メタ命令)に抽出され、最終的なマスク予測の明示的な条件となる。 SEGICは、ワンショットセグメンテーションベンチマークで最先端のパフォーマンスをもたらす、単純だが効果的なアプローチである。 特にsegicは、ビデオオブジェクトのセグメンテーションやオープンボキャブラリーセグメンテーションなど、さまざまなタスクに簡単に一般化できる。 コードは \url{https://github.com/MengLcool/SEGIC} で入手できる。

In-context segmentation aims at segmenting novel images using a few labeled example images, termed as "in-context examples", exploring content similarities between examples and the target. The resulting models can be generalized seamlessly to novel segmentation tasks, significantly reducing the labeling and training costs compared with conventional pipelines. However, in-context segmentation is more challenging than classic ones due to its meta-learning nature, requiring the model to learn segmentation rules conditioned on a few samples, not just the segmentation. Unlike previous work with ad-hoc or non-end-to-end designs, we propose SEGIC, an end-to-end segment-in-context framework built upon a single vision foundation model (VFM). In particular, SEGIC leverages the emergent correspondence within VFM to capture dense relationships between target images and in-context samples. As such, information from in-context samples is then extracted into three types of instructions, i.e. geometric, visual, and meta instructions, serving as explicit conditions for the final mask prediction. SEGIC is a straightforward yet effective approach that yields state-of-the-art performance on one-shot segmentation benchmarks. Notably, SEGIC can be easily generalized to diverse tasks, including video object segmentation and open-vocabulary segmentation. Code will be available at \url{https://github.com/MengLcool/SEGIC}.
翻訳日:2023-11-27 14:12:28 公開日:2023-11-24
# 微分可能・加速球面高調波・ウィグナー変換

Differentiable and accelerated spherical harmonic and Wigner transforms ( http://arxiv.org/abs/2311.14670v1 )

ライセンス: Link先を確認
Matthew A. Price, Jason D. McEwen(参考訳) 科学と工学の多くの分野は、球面多様体上で定義されたデータに遭遇する。 球面データのモデリングと解析は、しばしば球面調和変換を高次で必要とし、機械学習やその他の微分可能プログラミングタスクの勾配の効率的な計算がますます必要となる。 本研究では,球面上の一般化フーリエ変換の高速化および微分可能な計算のための新しいアルゴリズム構造である $\mathbb{s}^2$ と回転群 $\text{so}(3)$,すなわち球面調和変換とウィグナー変換を開発した。 高調波次数と超並列性の両方に安定なwigner $d$-関数の計算のための再帰的アルゴリズムを提案する。 これを分離可能な球形変換と密結合することで、現代のハードウェアアクセラレータ(例えばgpu)の高スループットコンピューティングに適した非常に並列性のある構造を示すアルゴリズムを得る。 また,グラデーションを効率的に計算できるように,自動微分と手動微分のハイブリッド手法を開発した。 我々のアルゴリズムは、S2FFTソフトウェアコードのJAX差別化プログラミングフレームワークで実装されています。 等角およびHEALPixサンプリングを含む球面の多数のサンプリングがサポートされている。 計算誤差は、サンプリング定理を許容する球面サンプリングの機械精度の順である。 代替のCコードに対してベンチマークすると、最大400倍の加速度が観測されます。 さらに、複数のGPUに分散すると、アルゴリズムの高度に並列化されバランスの取れた性質のため、GPUの数が増加するにつれて、最適な線形スケーリングに非常に近い。 十分に多くのGPUにアクセスすることで、我々の変換は前例のない効果的な線形時間複雑性を示す。

Many areas of science and engineering encounter data defined on spherical manifolds. Modelling and analysis of spherical data often necessitates spherical harmonic transforms, at high degrees, and increasingly requires efficient computation of gradients for machine learning or other differentiable programming tasks. We develop novel algorithmic structures for accelerated and differentiable computation of generalised Fourier transforms on the sphere $\mathbb{S}^2$ and rotation group $\text{SO}(3)$, i.e. spherical harmonic and Wigner transforms, respectively. We present a recursive algorithm for the calculation of Wigner $d$-functions that is both stable to high harmonic degrees and extremely parallelisable. By tightly coupling this with separable spherical transforms, we obtain algorithms that exhibit an extremely parallelisable structure that is well-suited for the high throughput computing of modern hardware accelerators (e.g. GPUs). We also develop a hybrid automatic and manual differentiation approach so that gradients can be computed efficiently. Our algorithms are implemented within the JAX differentiable programming framework in the S2FFT software code. Numerous samplings of the sphere are supported, including equiangular and HEALPix sampling. Computational errors are at the order of machine precision for spherical samplings that admit a sampling theorem. When benchmarked against alternative C codes we observe up to a 400-fold acceleration. Furthermore, when distributing over multiple GPUs we achieve very close to optimal linear scaling with increasing number of GPUs due to the highly parallelised and balanced nature of our algorithms. Provided access to sufficiently many GPUs our transforms thus exhibit an unprecedented effective linear time complexity.
翻訳日:2023-11-27 14:12:01 公開日:2023-11-24
# 教師なしインスタンスセグメンテーション学習のための自己監督機能を理解する

Understanding Self-Supervised Features for Learning Unsupervised Instance Segmentation ( http://arxiv.org/abs/2311.14665v1 )

ライセンス: Link先を確認
Paul Engstler, Luke Melas-Kyriazi, Christian Rupprecht, Iro Laina(参考訳) 自己教師付き学習(ssl)は、人間のラベルなしで複雑な視覚タスクを解決できる。 自己教師付き表現は、画像に関する有用な意味情報をエンコードし、その結果、教師なし意味セグメンテーションのようなタスクには既に使用されている。 本稿では,手動アノテーションを使わずに,例えばセグメンテーションの自己教師付き表現について検討する。 異なるSSLメソッドの特徴は、インスタンス認識のレベルによって異なります。 特に、優れたセマンティック記述子として知られているDINO機能は、インスタンスを分離する感度にMAE機能を欠いている。

Self-supervised learning (SSL) can be used to solve complex visual tasks without human labels. Self-supervised representations encode useful semantic information about images, and as a result, they have already been used for tasks such as unsupervised semantic segmentation. In this paper, we investigate self-supervised representations for instance segmentation without any manual annotations. We find that the features of different SSL methods vary in their level of instance-awareness. In particular, DINO features, which are known to be excellent semantic descriptors, lack behind MAE features in their sensitivity for separating instances.
翻訳日:2023-11-27 14:11:35 公開日:2023-11-24
# 正規直交ディープリニアニューラルネットワーク学習のための収束解析

Convergence Analysis for Learning Orthonormal Deep Linear Neural Networks ( http://arxiv.org/abs/2311.14658v1 )

ライセンス: Link先を確認
Zhen Qin, Xuwei Tan, Zhihui Zhu(参考訳) 重み行列の正則性や等尺性は、勾配の爆発/消滅を緩和し、学習ネットワークの堅牢性を高めることにより、ディープニューラルネットワークのトレーニングを強化することが示されている。 しかし、実際的な性能にもかかわらず、ニューラルネットワークの正則性の理論的解析はいまだに欠けており、例えば、正則性がトレーニングプロセスの収束にどのように影響するかである。 本稿では,正規直交深い線形ニューラルネットワークのトレーニングに収束解析を提供することで,このギャップを埋めることを目的とする。 具体的には,損失関数のクラスで正規直交の深い線形ニューラルネットワークを訓練するために,適切な初期化を伴うリーマン勾配降下が線形速度で収束することを示す。 すべての層に対して正規直交重み行列を強制する既存の作品とは異なり、このアプローチは1つの層に対するこの要件を除外し、収束保証を確立するのに不可欠である。 その結果,隠れた層数の増加が収束速度に与える影響を明らかにした。 実験結果は理論解析を検証する。

Enforcing orthonormal or isometric property for the weight matrices has been shown to enhance the training of deep neural networks by mitigating gradient exploding/vanishing and increasing the robustness of the learned networks. However, despite its practical performance, the theoretical analysis of orthonormality in neural networks is still lacking; for example, how orthonormality affects the convergence of the training process. In this letter, we aim to bridge this gap by providing convergence analysis for training orthonormal deep linear neural networks. Specifically, we show that Riemannian gradient descent with an appropriate initialization converges at a linear rate for training orthonormal deep linear neural networks with a class of loss functions. Unlike existing works that enforce orthonormal weight matrices for all the layers, our approach excludes this requirement for one layer, which is crucial to establish the convergence guarantee. Our results shed light on how increasing the number of hidden layers can impact the convergence speed. Experimental results validate our theoretical analysis.
翻訳日:2023-11-27 14:11:27 公開日:2023-11-24
# 新しい領域のチャート化:マルチモーダルllmの地理的および地理空間的能力の探索

Charting New Territories: Exploring the Geographic and Geospatial Capabilities of Multimodal LLMs ( http://arxiv.org/abs/2311.14656v1 )

ライセンス: Link先を確認
Jonathan Roberts, Timo L\"uddecke, Rehan Sheikh, Kai Han, Samuel Albanie(参考訳) マルチモーダル大規模言語モデル (MLLM) は幅広いタスクにおいて顕著な能力を示してきたが, ナビゲーション, 環境研究, 都市開発, 災害対応に対する幅広いメリットがあるにもかかわらず, 地理的・地理空間領域におけるその知識と能力はまだ検討されていない。 我々は,これらの領域におけるMLLMの様々な視覚能力,特にフロンティアモデル GPT-4V に着目した一連の実験を行い,その性能をオープンソースと比較した。 我々の手法は、視覚的なタスクからなる小さなベンチマークでこれらのモデルに挑戦し、その能力を様々な複雑さでテストする。 この分析は、そのようなモデルが優れている場所だけでなく、人間よりも優れている事例も明らかにし、地理的領域におけるそれらの能力のバランスのとれたビューを提供する。 将来のモデルの比較と評価を可能にするため,我々のベンチマークを公開する。

Multimodal large language models (MLLMs) have shown remarkable capabilities across a broad range of tasks but their knowledge and abilities in the geographic and geospatial domains are yet to be explored, despite potential wide-ranging benefits to navigation, environmental research, urban development, and disaster response. We conduct a series of experiments exploring various vision capabilities of MLLMs within these domains, particularly focusing on the frontier model GPT-4V, and benchmark its performance against open-source counterparts. Our methodology involves challenging these models with a small-scale geographic benchmark consisting of a suite of visual tasks, testing their abilities across a spectrum of complexity. The analysis uncovers not only where such models excel, including instances where they outperform humans, but also where they falter, providing a balanced view of their capabilities in the geographic domain. To enable the comparison and evaluation of future models, our benchmark will be publicly released.
翻訳日:2023-11-27 14:11:09 公開日:2023-11-24
# JetLOV: 最適LundNet変数のニューラルネットワーク学習によるジェットツリータグの強化

JetLOV: Enhancing Jet Tree Tagging through Neural Network Learning of Optimal LundNet Variables ( http://arxiv.org/abs/2311.14654v1 )

ライセンス: Link先を確認
Mauricio A. Diaz, Giorgio Cerro, Jacan Chaplais, Srinandan Dasmahapatra, Stefano Moretti(参考訳) 機械学習は物理学の進歩において重要な役割を担い、ジェット物理学の分野におけるジェットタグのような複雑な分類問題の解決に深く貢献している。 この実験では、ニューラルネットワークのポテンシャルを最大限に活用しながら、これらのモデルを支配する基礎となる物理学を見失う可能性があることを認識することを目的としています。 それにもかかわらず、我々は物理学の知識を損なう驚くべき結果を達成し、モデルの結果に完全に依存できることを実証する。 直列多層パーセプトロン(MLP)とLundNet(LundNet)の2つのモデルからなるコンポジットであるJetLOVを紹介する。 本研究は,事前に計算された lundnet 変数を頼らずに,同等の jet tagging 性能を達成できることを示す。 代わりに、ネットワークは基礎となる物理学の事前知識を欠いた全く新しい変数の集合を自律的に学習することができる。 これらの発見は、特にモデル依存の問題への対処において、様々なデータセットの一般化とトレーニングによって緩和される。

Machine learning has played a pivotal role in advancing physics, with deep learning notably contributing to solving complex classification problems such as jet tagging in the field of jet physics. In this experiment, we aim to harness the full potential of neural networks while acknowledging that, at times, we may lose sight of the underlying physics governing these models. Nevertheless, we demonstrate that we can achieve remarkable results obscuring physics knowledge and relying completely on the model's outcome. We introduce JetLOV, a composite comprising two models: a straightforward multilayer perceptron (MLP) and the well-established LundNet. Our study reveals that we can attain comparable jet tagging performance without relying on the pre-computed LundNet variables. Instead, we allow the network to autonomously learn an entirely new set of variables, devoid of a priori knowledge of the underlying physics. These findings hold promise, particularly in addressing the issue of model dependence, which can be mitigated through generalization and training on diverse data sets.
翻訳日:2023-11-27 14:10:51 公開日:2023-11-24
# ベイズ最適化のためのデータ駆動事前学習

Data-driven Prior Learning for Bayesian Optimisation ( http://arxiv.org/abs/2311.14653v1 )

ライセンス: Link先を確認
Sigrid Passano Hellan and Christopher G. Lucas and Nigel H. Goddard(参考訳) ベイズ最適化のための転送学習は一般に最適化タスク間の強い類似性を仮定しており、少なくとも同様の最適入力を持つ部分集合がある。 この仮定は計算コストを削減できるが、転送学習が有用であるにもかかわらず、幅広い最適化問題に違反する。 我々は、この仮定を、最適化ランドスケープの形状が類似することだけを必要とする弱いものに置き換え、この設定で最近のベイズ最適化の事前学習(PLeBO)を分析します。 ガウス過程代理モデルのハイパーパラメーターの事前学習により、基礎関数、特に少数の関数評価についてよりよく近似することができる。 本研究は, 総合データと最近の大気汚染最適化問題をベンチマークとして, 学習先を検証し, 伝達学習アプローチの広範性と比較する。 PLeBOと先行転送は少ない評価で良好な入力が得られることを示す。

Transfer learning for Bayesian optimisation has generally assumed a strong similarity between optimisation tasks, with at least a subset having similar optimal inputs. This assumption can reduce computational costs, but it is violated in a wide range of optimisation problems where transfer learning may nonetheless be useful. We replace this assumption with a weaker one only requiring the shape of the optimisation landscape to be similar, and analyse the recent method Prior Learning for Bayesian Optimisation - PLeBO - in this setting. By learning priors for the hyperparameters of the Gaussian process surrogate model we can better approximate the underlying function, especially for few function evaluations. We validate the learned priors and compare to a breadth of transfer learning approaches, using synthetic data and a recent air pollution optimisation problem as benchmarks. We show that PLeBO and prior transfer find good inputs in fewer evaluations.
翻訳日:2023-11-27 14:10:31 公開日:2023-11-24
# サブリニア空間における超長期トークン注意近似のためのワンパスストリーミングアルゴリズム

One Pass Streaming Algorithm for Super Long Token Attention Approximation in Sublinear Space ( http://arxiv.org/abs/2311.14652v1 )

ライセンス: Link先を確認
Raghav Addanki, Chenyang Li, Zhao Song, Chiwun Yang(参考訳) 長いコンテキストを含むストリーミングアプリケーション、特に拡張対話とテキスト分析にLLM(Large Language Models)をデプロイすることは、非常に重要であるが、2つの重要な課題がある。 第一に、以前のトークンのキーおよびバリュー状態(KV)のキャッシュのため、デコードフェーズにおいてメモリ消費は相当である。 第二に、注意計算は各トークンの生成にO(n^2)$の時間複雑さで時間を要する。 先日のOpenAI DevDay (2023年2月6日)で、OpenAIは、128Kのドキュメントをサポート可能な新しいモデルをリリースした。 Query, Key, and Value 行列 $Q, K, V \in \mathbb{R}^{n \times d}$ の単層自己アテンションを考えると、多項式法は注意出力 $T \in \mathbb{R}^{n \times d}$ を近似する。 u_1, u_2 \in \mathbb{r}^{n \times t}$ to expedite attention ${\sf attn}(q, k, v)$ computation within $n^{1+o(1)}$ time executions. でこれを実現している。 これにもかかわらず、キーとバリューの行列を$Kに格納するV \in \mathbb{R}^{n \times d}$はまだ$O(n d)$スペースを必要とするため、メモリ使用量は大幅に増加する。 これらの課題に対応して,ストリーミング方式でデータの1パスのみを読み取る新しいアルゴリズムを導入する。 この方法は3つのスケッチ行列を格納するためにサブ線形空間$o(n)$を使用し、正確な$K、V$ストレージの必要性を緩和する。 特に,超長トークンを用いたメモリ効率の優れた性能を示す。 トークン長の$n$が増加すると、メモリ使用量がほぼ一定である間、エラー保証は減少します。 このユニークな属性は、ストリーミングアプリケーションにおけるLLMの効率的な処理における我々の技術の可能性を示している。

Deploying Large Language Models (LLMs) in streaming applications that involve long contexts, particularly for extended dialogues and text analysis, is of paramount importance but presents two significant challenges. Firstly, the memory consumption is substantial during the decoding phase due to the caching of Key and Value states (KV) of previous tokens. Secondly, attention computation is time-consuming with a time complexity of $O(n^2)$ for the generation of each token. In recent OpenAI DevDay (Nov 6, 2023), OpenAI released a new model that is able to support a 128K-long document, in our paper, we focus on the memory-efficient issue when context length $n$ is much greater than 128K ($n \gg 2^d$). Considering a single-layer self-attention with Query, Key, and Value matrices $Q, K, V \in \mathbb{R}^{n \times d}$, the polynomial method approximates the attention output $T \in \mathbb{R}^{n \times d}$. It accomplishes this by constructing $U_1, U_2 \in \mathbb{R}^{n \times t}$ to expedite attention ${\sf Attn}(Q, K, V)$ computation within $n^{1+o(1)}$ time executions. Despite this, storing the Key and Value matrices $K, V \in \mathbb{R}^{n \times d}$ still necessitates $O( n d)$ space, leading to significant memory usage. In response to these challenges, we introduce a new algorithm that only reads one pass of the data in streaming fashion. This method employs sublinear space $o(n)$ to store three sketch matrices, alleviating the need for exact $K, V$ storage. Notably, our algorithm exhibits exceptional memory-efficient performance with super-long tokens. As the token length $n$ increases, our error guarantee diminishes while the memory usage remains nearly constant. This unique attribute underscores the potential of our technique in efficiently handling LLMs in streaming applications.
翻訳日:2023-11-27 14:10:16 公開日:2023-11-24
# 不完全な情報ゲームにおける履歴フィルタリング:アルゴリズムと複雑性

History Filtering in Imperfect Information Games: Algorithms and Complexity ( http://arxiv.org/abs/2311.14651v1 )

ライセンス: Link先を確認
Christopher Solinas, Douglas Rebstock, Nathan R. Sturtevant, Michael Buro(参考訳) 歴史的に完全な情報ゲームにのみ適用されるが、値関数による深度制限付き検索は、不完全な情報ゲームのためのAIの最近の進歩の鍵となっている。 強力な理論的保証を持つ最も顕著なアプローチは、サブゲーム分解(サブゲームが公的な情報やプレイヤーの信念から計算されるプロセス)を必要とする。 しかし、サブゲーム分解自体は非自明な計算を必要とする可能性があり、そのトラクタビリティは、サブゲームの根を形成する全列挙またはヒストリーの生成のための効率的なアルゴリズムの存在に依存する。 それにもかかわらず、そのような計算のトラクタビリティに関する公式な分析は過去の研究で確立されておらず、アプリケーションドメインはしばしばポーカーのようなゲームで構成されており、現代のハードウェアでは列挙は自明である。 これらのアイデアをより複雑なドメインに適用するには、そのコストを理解する必要がある。 本研究では,サブゲーム分解のためのフィルタリング履歴の計算的側面とトラクタビリティについて述べる。 サブゲームの根元から1つの履歴を構築することは一般に難解であり、効率的な列挙のために必要かつ十分な条件を提供する。 また、カードゲームのためのMarkov Chain Monte Carloベースの新しい生成アルゴリズムについても紹介する。 我々の実験はトリックテイクカードゲームOh Hellにおけるスケーラビリティの向上を実証した。 これらのコントリビューションは、サブゲーム分解による深度制限探索が、不完全な情報設定におけるシーケンシャルな意思決定に有効なツールとなる時期と方法を明らかにする。

Historically applied exclusively to perfect information games, depth-limited search with value functions has been key to recent advances in AI for imperfect information games. Most prominent approaches with strong theoretical guarantees require subgame decomposition - a process in which a subgame is computed from public information and player beliefs. However, subgame decomposition can itself require non-trivial computations, and its tractability depends on the existence of efficient algorithms for either full enumeration or generation of the histories that form the root of the subgame. Despite this, no formal analysis of the tractability of such computations has been established in prior work, and application domains have often consisted of games, such as poker, for which enumeration is trivial on modern hardware. Applying these ideas to more complex domains requires understanding their cost. In this work, we introduce and analyze the computational aspects and tractability of filtering histories for subgame decomposition. We show that constructing a single history from the root of the subgame is generally intractable, and then provide a necessary and sufficient condition for efficient enumeration. We also introduce a novel Markov Chain Monte Carlo-based generation algorithm for trick-taking card games - a domain where enumeration is often prohibitively expensive. Our experiments demonstrate its improved scalability in the trick-taking card game Oh Hell. These contributions clarify when and how depth-limited search via subgame decomposition can be an effective tool for sequential decision-making in imperfect information settings.
翻訳日:2023-11-27 14:09:37 公開日:2023-11-24
# ガウス的信念伝播を伴う深部因子グラフの学習

Learning in Deep Factor Graphs with Gaussian Belief Propagation ( http://arxiv.org/abs/2311.14649v1 )

ライセンス: Link先を確認
Seth Nabarro, Mark van der Wilk, Andrew J Davison(参考訳) ガウス因子グラフにおける学習の方法を提案する。 我々は,すべての関連する量(インプット,出力,パラメータ,潜時)をグラフィカルモデルにおけるランダム変数として扱い,学習と予測の両方を異なる観測ノードでの推論問題とみなす。 実験の結果,これらの問題は,更新が本質的にローカルである信念伝達(BP)によって効率的に解決できることが示唆された。 提案手法はディープネットワークに拡張可能であり,連続的な学習を行う自然な手段を提供する。 ビデオデノケーションタスクでは、古典的因子グラフアプローチよりも学習可能なパラメータの利点を示し、MNIST上での連続的な画像分類のための深度因子グラフの性能を示す。

We propose an approach to do learning in Gaussian factor graphs. We treat all relevant quantities (inputs, outputs, parameters, latents) as random variables in a graphical model, and view both training and prediction as inference problems with different observed nodes. Our experiments show that these problems can be efficiently solved with belief propagation (BP), whose updates are inherently local, presenting exciting opportunities for distributed and asynchronous training. Our approach can be scaled to deep networks and provides a natural means to do continual learning: use the BP-estimated parameter marginals of the current task as parameter priors for the next. On a video denoising task we demonstrate the benefit of learnable parameters over a classical factor graph approach and we show encouraging performance of deep factor graphs for continual image classification on MNIST.
翻訳日:2023-11-27 14:09:12 公開日:2023-11-24
# 校正された言語モデルには幻覚が必要だ

Calibrated Language Models Must Hallucinate ( http://arxiv.org/abs/2311.14648v1 )

ライセンス: Link先を確認
Adam Tauman Kalai, Santosh S. Vempala(参考訳) 最近の言語モデルは、疑わしいがもっともらしいテキストを生成する傾向を持っている。 このような“幻覚”は、言語ベースのaiシステムのユーザビリティに対する障害であり、アウトプットに依存する人々を傷つける可能性がある。 この研究は、事前訓練された言語モデルがある種の事実を幻覚させ、トランスフォーマーLMアーキテクチャやデータ品質とは無関係であることを示す。 学習データから真性が判断できない「確率的」事実について,生成言語モデルに適した統計的校正条件を満たす言語モデルには幻覚が必要であることを示す。 具体的には、任意の事象の最大確率が有界であれば、幻覚を発生させる確率はトレーニングデータ(「Good-Turing」推定)で正確に1回発生する事象のごく一部に近く、たとえエラーのない理想的なトレーニングデータと仮定してもよい。 1つの結論は、十分に優れた予測子(すなわち校正された)として事前訓練されたモデルは、訓練セットに一度現れる傾向にある任意の事実のタイプに対する幻覚を緩和するために後トレーニングを必要とする可能性があるということである。 しかし,本研究では,事前学習がトレーニングデータに1回以上現れる傾向にある事実(特に顕著で問題のある記事や書籍などの出版物への参照など)や,体系的な事実(算術計算など)に幻覚をもたらすという統計的理由も示していない。 したがって、異なるアーキテクチャと学習アルゴリズムは、これらの後者の幻覚を緩和する可能性がある。

Recent language models have a mysterious tendency to generate false but plausible-sounding text. Such "hallucinations" are an obstacle to the usability of language-based AI systems and can harm people who rely upon their outputs. This work shows shows that there is an inherent statistical reason that pretrained language models hallucinate certain types of facts, having nothing to do with the transformer LM architecture or data quality. For "arbitrary" facts whose veracity cannot be determined from the training data, we show that hallucination is necessary for language models that satisfy a statistical calibration condition appropriate for generative language models. Specifically, if the maximum probability of any fact is bounded, we show that the probability of generating a hallucination is close to the fraction of facts that occur exactly once in the training data (a "Good-Turing" estimate), even assuming ideal training data without errors. One conclusion is that models pretrained to be sufficiently good predictors (i.e., calibrated) may require post-training to mitigate hallucinations on the type of arbitrary facts that tend to appear once in the training set. However, our analysis also suggests that there is no statistical reason that pretraining will lead to hallucination on facts that tend to appear more than once in the training data (like references to publications such as articles and books, whose hallucinations have been particularly notable and problematic) or on systematic facts (like arithmetic calculations). Therefore, different architectures and learning algorithms may mitigate these latter types of hallucinations.
翻訳日:2023-11-27 14:08:58 公開日:2023-11-24
# 現代の機械学習のさらなる進歩 - 過度パラメータ化が最適でオーバーフィッティングが最適である場合

More is Better in Modern Machine Learning: when Infinite Overparameterization is Optimal and Overfitting is Obligatory ( http://arxiv.org/abs/2311.14646v1 )

ライセンス: Link先を確認
James B. Simon, Dhruva Karkada, Nikhil Ghosh, Mikhail Belkin(参考訳) 巨大なニューラルネットワークの時代において、より良いという哲学によって経験的な進歩が導かれてきた。 最近のディープラーニングの実践は、より大きなモデルサイズ、より多くのデータ、より多くの計算(トレーニング損失の低減)がパフォーマンスを改善することを繰り返し発見している。 本稿では,これら3つの性質がランダムな特徴(rf)回帰を持ち,最終層のみを訓練した浅層ネットワークと同等のモデル群であることを示すことにより,これらの経験的観察を理論的に裏付ける。 具体的には,リッジペナルティを最適に調整すれば,rf回帰テストのリスクは特徴数とサンプル数の両方で単調に減少することを示した。 特に、これは無限幅RFアーキテクチャが任意の有限幅のアーキテクチャよりも好ましいことを意味する。 次に, パワーロー固有構造を特徴とする多種多様なタスクに対して, ほぼゼロに近いトレーニング損失に対するトレーニングが義務付けられ, ほぼ最適性能は, テストエラーよりもはるかに小さい場合にのみ達成可能であることを示す。 実世界のデータに基づいて、畳み込みニューラルタンジェントカーネルを用いた標準的なコンピュータビジョンタスクは明らかにこのクラスに該当する。 まとめると、我々の結果は、ランダムな特徴モデルにおける過度なパラメータ化、過度な適合、およびより多くのデータの利点について、シンプルで検証可能な物語を語る。

In our era of enormous neural networks, empirical progress has been driven by the philosophy that more is better. Recent deep learning practice has found repeatedly that larger model size, more data, and more computation (resulting in lower training loss) improves performance. In this paper, we give theoretical backing to these empirical observations by showing that these three properties hold in random feature (RF) regression, a class of models equivalent to shallow networks with only the last layer trained. Concretely, we first show that the test risk of RF regression decreases monotonically with both the number of features and the number of samples, provided the ridge penalty is tuned optimally. In particular, this implies that infinite width RF architectures are preferable to those of any finite width. We then proceed to demonstrate that, for a large class of tasks characterized by powerlaw eigenstructure, training to near-zero training loss is obligatory: near-optimal performance can only be achieved when the training error is much smaller than the test error. Grounding our theory in real-world data, we find empirically that standard computer vision tasks with convolutional neural tangent kernels clearly fall into this class. Taken together, our results tell a simple, testable story of the benefits of overparameterization, overfitting, and more data in random feature models.
翻訳日:2023-11-27 14:08:29 公開日:2023-11-24
# ユーザガイドベイズ最適化のための汎用フレームワーク

A General Framework for User-Guided Bayesian Optimization ( http://arxiv.org/abs/2311.14645v1 )

ライセンス: Link先を確認
Carl Hvarfner and Frank Hutter and Luigi Nardi(参考訳) 高価なブラックボックス関数の最適化は、様々な科学分野において一般的である。 ベイズ最適化(英: bayesian optimization)は、基本関数のダイナミクスを最小限の知識で解く自動的、一般的、サンプル効率の良い手法である。 しかし、最適化を加速するために、事前の知識や目の前の機能についての信念を組み込むベイズ最適化の能力は限られており、予算の厳しい知識のある実践者へのアピールを減少させる。 ドメインエキスパートが最適化ルーチンをカスタマイズできるようにするため、最適化器の位置や最適値などの典型的なカーネル構造を超えて、事前の信念を組み込む最初のベイズ原理フレームワークであるColaBOを提案する。 ColaBOの一般性は、モンテカルロの様々な獲得関数やユーザー信念の種類に応用できる。 我々は,ColaBOの事前情報が正確である場合に最適化を著しく高速化し,ミスリード時のほぼ既定性能を維持する能力を実証的に実証した。

The optimization of expensive-to-evaluate black-box functions is prevalent in various scientific disciplines. Bayesian optimization is an automatic, general and sample-efficient method to solve these problems with minimal knowledge of the underlying function dynamics. However, the ability of Bayesian optimization to incorporate prior knowledge or beliefs about the function at hand in order to accelerate the optimization is limited, which reduces its appeal for knowledgeable practitioners with tight budgets. To allow domain experts to customize the optimization routine, we propose ColaBO, the first Bayesian-principled framework for incorporating prior beliefs beyond the typical kernel structure, such as the likely location of the optimizer or the optimal value. The generality of ColaBO makes it applicable across different Monte Carlo acquisition functions and types of user beliefs. We empirically demonstrate ColaBO's ability to substantially accelerate optimization when the prior information is accurate, and to retain approximately default performance when it is misleading.
翻訳日:2023-11-27 14:08:03 公開日:2023-11-24
# 離散放送データからの連続フットボール選手追跡

Continuous football player tracking from discrete broadcast data ( http://arxiv.org/abs/2311.14642v1 )

ライセンス: Link先を確認
Matthew J. Penn, Christl A. Donnelly, and Samir Bhatt(参考訳) 選手追跡データは、ビデオフィードがコンピュータビジョン技術を使用するには十分な品質ではないため、多くのプロサッカーチームにとって到達範囲外である。 このギャップを埋めるために,放送映像からの離散データから連続した全ピッチ追跡データを推定する手法を提案する。 このようなデータは、セミプロレベルまで広く入手可能なイベントデータと同様のコストで、クラブやプレーヤによって収集することができる。 我々は,オープンソースの追跡データを用いて本手法を検証し,そのような離散データを持つ200以上のゲームに対して適用可能なバージョンを含める。

Player tracking data remains out of reach for many professional football teams as their video feeds are not sufficiently high quality for computer vision technologies to be used. To help bridge this gap, we present a method that can estimate continuous full-pitch tracking data from discrete data made from broadcast footage. Such data could be collected by clubs or players at a similar cost to event data, which is widely available down to semi-professional level. We test our method using open-source tracking data, and include a version that can be applied to a large set of over 200 games with such discrete data.
翻訳日:2023-11-27 14:07:44 公開日:2023-11-24
# ニューロモルフィック中間表現:相互運用型脳誘発コンピューティングのための統一命令セット

Neuromorphic Intermediate Representation: A Unified Instruction Set for Interoperable Brain-Inspired Computing ( http://arxiv.org/abs/2311.14641v1 )

ライセンス: Link先を確認
Jens E. Pedersen, Steven Abreu, Matthias Jobst, Gregor Lenz, Vittorio Fra, Felix C. Bauer, Dylan R. Muir, Peng Zhou, Bernhard Vogginger, Kade Heckel, Gianvito Urgese, Sadasivan Shankar, Terrence C. Stewart, Jason K. Eshraghian, Sadique Sheik(参考訳) 神経力学をエミュレートするスパイクニューラルネットワークとニューロモルフィックハードウェアプラットフォームは、徐々に勢いを増し、メインストリームの利用へと移行している。 神経動力学の確立された数学的基盤にもかかわらず、実装の詳細はプラットフォームによって大きく異なる。 それに対応して、独自の技術スタックを持つソフトウェアやハードウェア実装が数多く存在する。 その結果、ニューロモルフィックシステムは通常、プラットフォーム間の再現性と信頼性に挑戦する期待計算モデルから逸脱する。 さらに、ほとんどのニューロモルフィックハードウェアは、訓練手順が限定された単一のソフトウェアフレームワークを介してアクセスすることで制限される。 そこで我々は,ニューロモルフィック・インターミディエート表現(NIR)と呼ばれる,ニューロモルフィックシステムにおける計算の共通参照フレームを確立する。 NIRは計算プリミティブの集合を理想化された連続時間ハイブリッドシステムとして定義し、グラフに分解して様々なニューロモルフィックな技術スタックにマッピングすることができる。 離散化とハードウェア制約に関する仮定を抽象化することにより、NIRは基礎計算を忠実に捉え、評価された実装と理想化された数学的形式主義の正確な違いを同時に明らかにする。 3つのnirグラフを7つのニューロモルフィックシミュレータと4つのハードウェアプラットフォームで再現し,前例のない数のニューロモルフィックシステムのサポートを示した。 NIRでは、ニューロモルフィックハードウェアとソフトウェアの進化を分離し、最終的にプラットフォーム間の相互運用性を高め、ニューロモルフィック技術へのアクセシビリティを向上させる。 NIRは脳に触発されたハードウェアとボトムアップアプローチの継続的な研究に向けた重要なステップであり、神経系の計算基盤の理解の向上を目的としている。

Spiking neural networks and neuromorphic hardware platforms that emulate neural dynamics are slowly gaining momentum and entering main-stream usage. Despite a well-established mathematical foundation for neural dynamics, the implementation details vary greatly across different platforms. Correspondingly, there are a plethora of software and hardware implementations with their own unique technology stacks. Consequently, neuromorphic systems typically diverge from the expected computational model, which challenges the reproducibility and reliability across platforms. Additionally, most neuromorphic hardware is limited by its access via a single software frameworks with a limited set of training procedures. Here, we establish a common reference-frame for computations in neuromorphic systems, dubbed the Neuromorphic Intermediate Representation (NIR). NIR defines a set of computational primitives as idealized continuous-time hybrid systems that can be composed into graphs and mapped to and from various neuromorphic technology stacks. By abstracting away assumptions around discretization and hardware constraints, NIR faithfully captures the fundamental computation, while simultaneously exposing the exact differences between the evaluated implementation and the idealized mathematical formalism. We reproduce three NIR graphs across 7 neuromorphic simulators and 4 hardware platforms, demonstrating support for an unprecedented number of neuromorphic systems. With NIR, we decouple the evolution of neuromorphic hardware and software, ultimately increasing the interoperability between platforms and improving accessibility to neuromorphic technologies. We believe that NIR is an important step towards the continued study of brain-inspired hardware and bottom-up approaches aimed at an improved understanding of the computational underpinnings of nervous systems.
翻訳日:2023-11-27 14:07:34 公開日:2023-11-24
# バッチフィードバックを用いた高次元帯域学習

Provably Efficient High-Dimensional Bandit Learning with Batched Feedbacks ( http://arxiv.org/abs/2311.13180v2 )

ライセンス: Link先を確認
Jianqing Fan, Zhaoran Wang, Zhuoran Yang, and Chenlu Ye(参考訳) 本稿では,オンラインインタラクションのT$ステップをバッチに分割したバッチフィードバックによる高次元マルチアームコンテキストバンドレットについて検討する。 具体的には、各バッチは以前のバッチに依存するポリシーに従ってデータを収集し、その報酬はバッチの最後にのみ明らかにする。 このようなフィードバック構造は、パーソナライズされた医療やオンライン広告などのアプリケーションで人気があり、オンラインデータが完全にシリアルに届かないことが多い。 我々は、banditモデルの報酬関数がスパースまたはローランク構造のいずれかを認め、$l = t$の完全な動的データと同等の性能を実現するために、バッチがどれだけ小さいか尋ねる高次元および線形の設定を考える。 これらの設定のために、スパースケースで$ \mathcal{\tilde O}(s_0^2 \log^2 T)$後悔と$ \mathcal{\tilde O} (r ^2 \log^2 T)$後悔を、低ランクケースでは$L = \mathcal{O}( \log T)$バッチのみを用いて、証明可能なサンプル効率のアルゴリズムを設計する。 ここで、$s_0$ と $r$ はそれぞれスパースとローランクのケースにおける報酬パラメータのスパースとランクであり、$mathcal{\tilde o}(\cdot)$ は特徴次元を含む対数因子を省略する。 言い換えれば、我々のアルゴリズムは、$\mathcal{O}( \log T)$ batches で完全に逐次設定のものと同等の後悔境界を達成する。 本アルゴリズムは,各バッチ内の推定精度と累積後悔に応じてバッチサイズを調整する新しいバッチ割当法を特徴とする。 さらに,合成データと実世界データを用いて実験を行い,理論を検証する。

We study high-dimensional multi-armed contextual bandits with batched feedback where the $T$ steps of online interactions are divided into $L$ batches. In specific, each batch collects data according to a policy that depends on previous batches and the rewards are revealed only at the end of the batch. Such a feedback structure is popular in applications such as personalized medicine and online advertisement, where the online data often do not arrive in a fully serial manner. We consider high-dimensional and linear settings where the reward function of the bandit model admits either a sparse or low-rank structure and ask how small a number of batches are needed for a comparable performance with fully dynamic data in which $L = T$. For these settings, we design a provably sample-efficient algorithm which achieves a $ \mathcal{\tilde O}(s_0^2 \log^2 T)$ regret in the sparse case and $ \mathcal{\tilde O} ( r ^2 \log^2 T)$ regret in the low-rank case, using only $L = \mathcal{O}( \log T)$ batches. Here $s_0$ and $r$ are the sparsity and rank of the reward parameter in sparse and low-rank cases, respectively, and $ \mathcal{\tilde O}(\cdot)$ omits logarithmic factors involving the feature dimensions. In other words, our algorithm achieves regret bounds comparable to those in fully sequential setting with only $\mathcal{O}( \log T)$ batches. Our algorithm features a novel batch allocation method that adjusts the batch sizes according to the estimation accuracy within each batch and cumulative regret. Furthermore, we also conduct experiments with synthetic and real-world data to validate our theory.
翻訳日:2023-11-27 12:26:37 公開日:2023-11-24
# ホワイトボックス・トランスフォーマーの低レート化:圧縮がすべて存在するか?

White-Box Transformers via Sparse Rate Reduction: Compression Is All There Is? ( http://arxiv.org/abs/2311.13110v2 )

ライセンス: Link先を確認
Yaodong Yu, Sam Buchanan, Druv Pai, Tianzhe Chu, Ziyang Wu, Shengbang Tong, Hao Bai, Yuexiang Zhai, Benjamin D. Haeffele, Yi Ma(参考訳) 本稿では,表現学習の自然な目的は,トークン集合などのデータの分布を非一貫性部分空間上で支持される低次元ガウス混合へと圧縮・変換することである。 このような表現の良さはスパースレート還元と呼ばれる原理的尺度で評価することができ、学習された表現の内在的な情報ゲインと外在的な空間性を同時に最大化する。 この観点からは、トランスフォーマーを含む一般的なディープネットワークアーキテクチャは、この測定を最適化するための反復的なスキームの実現と見なすことができる。 マルチヘッド自己注意演算子は、特徴の符号化速度に近似的な勾配降下ステップを実装して表現を圧縮し、その後の多層パーセプトロンは特徴を拡大する。 これは、数学的に完全に解釈可能なCRATEと呼ばれる、ホワイトボックストランスフォーマーのようなディープネットワークアーキテクチャのファミリーにつながる。 我々は, 雑音化と圧縮の新たな接続により, 上記の圧縮エンコーディングの逆を同一のcrateアーキテクチャで実現できることを示す。 したがって、ホワイトボックスアーキテクチャはエンコーダとデコーダの両方に共通である。 実験によると、これらのネットワークは、その単純さにもかかわらず、大規模な現実世界の画像やテキストデータセットの表現を圧縮し、スパース化することを学び、高度にエンジニアリングされたトランスフォーマーベースのモデルであるViT、MAE、DINO、BERT、GPT2に非常に近い性能を達成する。 提案した計算フレームワークは,データ圧縮の統一的な視点から,深層学習の理論と実践のギャップを埋める大きな可能性を実証している。 コードは、https://ma-lab-berkeley.github.io/CRATE で入手できる。

In this paper, we contend that a natural objective of representation learning is to compress and transform the distribution of the data, say sets of tokens, towards a low-dimensional Gaussian mixture supported on incoherent subspaces. The goodness of such a representation can be evaluated by a principled measure, called sparse rate reduction, that simultaneously maximizes the intrinsic information gain and extrinsic sparsity of the learned representation. From this perspective, popular deep network architectures, including transformers, can be viewed as realizing iterative schemes to optimize this measure. Particularly, we derive a transformer block from alternating optimization on parts of this objective: the multi-head self-attention operator compresses the representation by implementing an approximate gradient descent step on the coding rate of the features, and the subsequent multi-layer perceptron sparsifies the features. This leads to a family of white-box transformer-like deep network architectures, named CRATE, which are mathematically fully interpretable. We show, by way of a novel connection between denoising and compression, that the inverse to the aforementioned compressive encoding can be realized by the same class of CRATE architectures. Thus, the so-derived white-box architectures are universal to both encoders and decoders. Experiments show that these networks, despite their simplicity, indeed learn to compress and sparsify representations of large-scale real-world image and text datasets, and achieve performance very close to highly engineered transformer-based models: ViT, MAE, DINO, BERT, and GPT2. We believe the proposed computational framework demonstrates great potential in bridging the gap between theory and practice of deep learning, from a unified perspective of data compression. Code is available at: https://ma-lab-berkeley.github.io/CRATE .
翻訳日:2023-11-27 12:25:42 公開日:2023-11-24
# 3次元潜在拡散モデルを用いた顔表現の教師なしディアンタングリング

Unsupervised Disentangling of Facial Representations with 3D-aware Latent Diffusion Models ( http://arxiv.org/abs/2309.08273v3 )

ライセンス: Link先を確認
Ruian He, Zhen Xing, Weimin Tan, Bo Yan(参考訳) 顔表現の教師なし学習は、大規模な注釈付きデータセットに大きく依存することなく、顔理解能力の注目を集めている。 しかし、顔の同一性、表情、ポーズや光といった外部要因の結合により未解決のままである。 従来の手法は主に2D因子とピクセルレベルの一貫性に重点を置いており、下流タスクでは不完全なアンタングリングと準最適性能をもたらす。 本稿では,顔表現と識別表現のための非教師付き非教師付きアンタングリングフレームワークであるLatentFaceを提案する。 そこで本研究では,3D対応潜伏拡散モデルを用いた解法を提案する。 まず,顔画像を3次元ラテント埋め込みに符号化する3D対応オートエンコーダを提案する。 第2に,顔の識別と表情に3D潜伏する新しい表現拡散モデル(RDM)を提案する。 その結果,教師なし顔表情学習モデルにおける表情認識と顔認証の最先端性能が得られた。 コードは \url{https://github.com/ryanhe312/latentface} で入手できる。

Unsupervised learning of facial representations has gained increasing attention for face understanding ability without heavily relying on large-scale annotated datasets. However, it remains unsolved due to the coupling of facial identities, expressions, and external factors like pose and light. Prior methods primarily focus on 2D factors and pixel-level consistency, leading to incomplete disentangling and suboptimal performance in downstream tasks. In this paper, we propose LatentFace, a novel unsupervised disentangling framework for facial expression and identity representation. We suggest the disentangling problem should be performed in latent space and propose the solution using a 3D-aware latent diffusion model. First, we introduce a 3D-aware autoencoder to encode face images into 3D latent embeddings. Second, we propose a novel representation diffusion model (RDM) to disentangle 3D latent into facial identity and expression. Consequently, our method achieves state-of-the-art performance in facial expression recognition and face verification among unsupervised facial representation learning models. Codes are available at \url{https://github.com/ryanhe312/LatentFace}.
翻訳日:2023-11-27 12:24:11 公開日:2023-11-24
# AutoDroid-0shot: AndroidにおけるGPTによるUIベースのスマートフォンタスク自動化のためのシンプルなベースライン

AutoDroid-0shot: A Simple Baseline for GPT-powered UI-grounded Smartphone Task Automation in Android ( http://arxiv.org/abs/2304.07061v4 )

ライセンス: Link先を確認
Hao Wen, Hongming Wang, Jiaxuan Liu, Yuanchun Li(参考訳) 本稿では,GPTライクな大規模言語モデル(LLM)を用いてAndroidモバイルアプリケーションとのインタラクションを自動化するAutoDroid-0shotを紹介する。 望ましいタスクの自然な言語記述が与えられると、autodroid-0shotは、タスクを完了させるためにアプリをナビゲートするアクションを自動生成および実行することができる。 これは、スマートフォン画面のgui状態情報と利用可能なアクションを自然言語プロンプトに翻訳し、llmにアクションの選択を依頼することで機能する。 LLMは通常、多様なソフトウェアアプリケーションのハウツーマニュアルを含む大量のデータに基づいて訓練されているため、提供された情報に基づいて適切なアクションを選択することができる。 我々はAutoDroid-0shotを10カテゴリにわたる17のAndroidアプリケーションから収集された33のタスクを含む自己生成データセットで評価した。 39.39%のタスクを完了し、平均的な部分的な完了確率は約66.76%である。 当社の手法が完全に教師なしであるという事実(アプリとLLMの両方の修正は不要)を考えると、より良いアプリ開発パラダイムやカスタムモデルトレーニングで自動化性能を向上させる大きな可能性があると信じています。

This paper introduces AutoDroid-0shot, a tool that utilizes GPT-like large language models (LLMs) to automate the interactions with Android mobile applications. Given a natural language description of a desired task, AutoDroid-0shot can automatically generate and execute actions that navigate the app to complete the task. It works by translating the app GUI state information and the available actions on the smartphone screen to natural language prompts and asking the LLM to make a choice of actions. Since the LLM is typically trained on a large amount of data including the how-to manuals of diverse software applications, it has the ability to make reasonable choices of actions based on the provided information. We evaluate AutoDroid-0shot with a self-created dataset that contains 33 tasks collected from 17 Android applications spanning 10 categories. It can successfully complete 39.39% of the tasks, and the average partial completion progress is about 66.76%. Given the fact that our method is fully unsupervised (no modification required from both the app and the LLM), we believe there is great potential to enhance automation performance with better app development paradigms and/or custom model training.
翻訳日:2023-11-27 12:23:10 公開日:2023-11-24