このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230905となっている論文です。

PDF登録状況(公開日: 20230905)

TitleAuthorsAbstract論文公表日・翻訳日
# MAFIA: 欠陥注入攻撃に対する組込みシステムのマイクロアーキテクチャ保護

MAFIA: Protecting the Microarchitecture of Embedded Systems Against Fault Injection Attacks ( http://arxiv.org/abs/2309.02255v1 )

ライセンス: Link先を確認
Thomas Chamelot, Damien Couroussé, Karine Heydemann, (参考訳) フォールトインジェクション攻撃は組み込みシステムにとって効果的な脅威である。 最近Laurentらは、欠陥注入攻撃はマイクロアーキテクチャ内の障害を活用できると報告している。 しかし、ハードウェアのみ、あるいはハードウェアサポートを伴う最先端の対策は、これらの欠陥の標的となるマイクロアーキテクチャ制御信号の完全性を考慮していない。 欠陥注入攻撃に対するマイクロアーキテクチャ保護であるMAFIAを提案する。 MAFIAは、シグネチャベースのメカニズムを通じてパイプライン制御信号の整合性を確保し、完全な間接ブランチサポートとコード認証を備えたきめ細かい制御フローの整合性を保証する。 我々は、CBC-MAC/Princeシグネチャ関数を持つものと、CRC32を持つものという、異なるセキュリティ/オーバーヘッドトレードオフを持つ2つの実装のセキュリティ特性を分析する。 LLVM/Clangをベースとした専用のコンパイラツールチェーンによってサポートされているRISC-VプロセッサにMAFIAを実装した。 CBC-MAC/Prince と CRC32 のハードウェア領域のオーバヘッドは 23.8 % と 6.5 % である。 CRC32では平均コードサイズと実行時間のオーバーヘッドが29.4 %と18.4 %であり、CBC-MAC/Princeでは50%と39 %である。

Fault injection attacks represent an effective threat to embedded systems. Recently, Laurent et al. have reported that fault injection attacks can leverage faults inside the microarchitecture. However, state-of-the-art counter-measures, hardwareonly or with hardware support, do not consider the integrity of microarchitecture control signals that are the target of these faults. We present MAFIA, a microarchitecture protection against fault injection attacks. MAFIA ensures integrity of pipeline control signals through a signature-based mechanism, and ensures fine-grained control-flow integrity with a complete indirect branch support and code authenticity. We analyse the security properties of two different implementations with different security/overhead trade-offs: one with a CBC-MAC/Prince signature function, and another one with a CRC32. We present our implementation of MAFIA in a RISC-V processor, supported by a dedicated compiler toolchain based on LLVM/Clang. We report a hardware area overhead of 23.8 % and 6.5 % for the CBC-MAC/Prince and CRC32 respectively. The average code size and execution time overheads are 29.4 % and 18.4 % respectively for the CRC32 implementation and are 50 % and 39 % for the CBC-MAC/Prince.
翻訳日:2024-03-25 23:19:21 公開日:2023-09-05
# スムーズなブロック報酬:鉱山労働者はどのくらいの費用を採掘プールに支払うべきか?

Smoothening block rewards: How much should miners pay for mining pools? ( http://arxiv.org/abs/2309.02297v1 )

ライセンス: Link先を確認
Axel Cortes-Cubero, Juan P. Madrigal-Cianci, Kiran Karra, Zixuan Zhang, (参考訳) ブロックチェーンマイニングの報酬は、時間によって異なります。 ほとんどの時間は報酬を受け取らずに採掘に費やされ、時折採掘者がブロックを勝ち取り、報酬を得る。 マイニングプールは報酬の確率的な流れを円滑にし、理想的な場合、時間とともに報酬の安定した流れを提供する。 スムースブロック報酬は、鉱山労働者が最適な鉱業力成長戦略を選択でき、それが与えられた投資に対して高い報酬利回りをもたらす。 我々は、スムーズな報酬を持つ鉱夫の経済的優位性を定量化し、これを用いて鉱夫が鉱業用プールサービスに対して支払うべき報酬の最大割合を定義する。

The rewards a blockchain miner earns vary with time. Most of the time is spent mining without receiving any rewards, and only occasionally the miner wins a block and earns a reward. Mining pools smoothen the stochastic flow of rewards, and in the ideal case, provide a steady flow of rewards over time. Smooth block rewards allow miners to choose an optimal mining power growth strategy that will result in a higher reward yield for a given investment. We quantify the economic advantage for a given miner of having smooth rewards, and use this to define a maximum percentage of rewards that a miner should be willing to pay for the mining pool services.
翻訳日:2024-03-25 23:19:21 公開日:2023-09-05
# 有害なパラメータ同定に対する防除のための乗算型透かしのハイブリッド設計

Hybrid Design of Multiplicative Watermarking for Defense Against Malicious Parameter Identification ( http://arxiv.org/abs/2309.02385v1 )

ライセンス: Link先を確認
Jiaxuan Zhang, Alexander J. Gallo, Riccardo M. G. Ferrari, (参考訳) 透かしは高度な攻撃を検知するための有望な能動的診断技術であるが、盗聴データを使って透かしを識別し、削除し、複製する悪意のあるエージェントに弱い。 本研究では,PWAハイブリッドシステムの非可観測状態のダイナミクスに追従して,透かしパラメータを周期的に更新するハイブリッド乗算型透かし(HMWM)方式を提案する。 本稿では, この手法が閉ループ性能に及ぼす影響を理論的に解析し, 安定性が保たれていることを証明する。 さらに,提案手法により,電子透かしによる透かしパラメータの再構成が困難になることを示す。

Watermarking is a promising active diagnosis technique for detection of highly sophisticated attacks, but is vulnerable to malicious agents that use eavesdropped data to identify and then remove or replicate the watermark. In this work, we propose a hybrid multiplicative watermarking (HMWM) scheme, where the watermark parameters are periodically updated, following the dynamics of the unobservable states of specifically designed piecewise affine (PWA) hybrid systems. We provide a theoretical analysis of the effects of this scheme on the closed-loop performance, and prove that stability properties are preserved. Additionally, we show that the proposed approach makes it difficult for an eavesdropper to reconstruct the watermarking parameters, both in terms of the associated computational complexity and from a systems theoretic perspective.
翻訳日:2024-03-25 23:09:29 公開日:2023-09-05
# バランス違反による署名付きグラフ分析に対するブラックボックス攻撃

Black-Box Attacks against Signed Graph Analysis via Balance Poisoning ( http://arxiv.org/abs/2309.02396v1 )

ライセンス: Link先を確認
Jialong Zhou, Yuni Lai, Jian Ren, Kai Zhou, (参考訳) 符号付きグラフは、肯定的な関係と否定的な関係の両方を捉えるため、ソーシャルネットワークをモデル化するのに適している。 符号付きグラフニューラルネットワーク(SGNN)は、符号付きグラフのユニークな構造を扱う能力のため、これらのグラフのリンク信号(正と負の)を予測するために一般的に使用される。 しかし、実世界のグラフはエッジ関係を操作することによって悪意ある攻撃に対して脆弱であり、既存の逆グラフ攻撃法は署名されたグラフの特定の構造を考慮していない。 SGNNはしばしば、正と負のリンクを効果的にモデル化するためにバランス理論を取り入れている。 驚くべきことに、彼らが依存しているバランス理論は、皮肉にもブラックボックス攻撃として利用することができる。 本稿では,署名されたグラフのバランス度を下げることを目的とした,バランスアタックと呼ばれる新しいブラックボックス攻撃を提案する。 このNPハード最適化問題を解くために,効率的なヒューリスティックアルゴリズムを提案する。 5つの人気のあるSGNNモデルと4つの実世界のデータセットについて広範な実験を行い、提案手法の有効性と適用性を実証した。 これらの課題に対処することにより、SGNNに対する攻撃に直面した場合のロバストモデルの制限とレジリエンスの理解を深める上で、我々の研究は貢献する。 この研究は,ソーシャル・ネットワーク・モデリングにおける署名付きグラフ解析の安全性と信頼性の向上に寄与する。 私たちのPyTorch実装はGitHubで公開されています。

Signed graphs are well-suited for modeling social networks as they capture both positive and negative relationships. Signed graph neural networks (SGNNs) are commonly employed to predict link signs (i.e., positive and negative) in such graphs due to their ability to handle the unique structure of signed graphs. However, real-world signed graphs are vulnerable to malicious attacks by manipulating edge relationships, and existing adversarial graph attack methods do not consider the specific structure of signed graphs. SGNNs often incorporate balance theory to effectively model the positive and negative links. Surprisingly, we find that the balance theory that they rely on can ironically be exploited as a black-box attack. In this paper, we propose a novel black-box attack called balance-attack that aims to decrease the balance degree of the signed graphs. We present an efficient heuristic algorithm to solve this NP-hard optimization problem. We conduct extensive experiments on five popular SGNN models and four real-world datasets to demonstrate the effectiveness and wide applicability of our proposed attack method. By addressing these challenges, our research contributes to a better understanding of the limitations and resilience of robust models when facing attacks on SGNNs. This work contributes to enhancing the security and reliability of signed graph analysis in social network modeling. Our PyTorch implementation of the attack is publicly available on GitHub: https://github.com/JialongZhou666/Balance-Attack.git.
翻訳日:2024-03-25 23:09:29 公開日:2023-09-05
# ハードウェアセキュリティ攻撃下の統合フォトニックAI加速器:影響と対策

Integrated Photonic AI Accelerators under Hardware Security Attacks: Impacts and Countermeasures ( http://arxiv.org/abs/2309.02543v1 )

ライセンス: Link先を確認
Felipe Gohring de Magalhães, Mahdi Nikdast, Gabriela Nicolescu, (参考訳) シリコンフォトニクスプラットフォームに基づく統合フォトニクスは、高性能コンピューティングシステムにおける超高速チップスケール通信の実現から、人工知能(AI)ハードウェアアクセラレータにおけるエネルギー効率の高い光計算まで、いくつかのアプリケーション領域を駆動している。 シリコンフォトニクスをシステムに統合するには、データバッファリングに必要なフォトニックと電子サブシステム間のインターフェースの採用が必要である。 これにより、純粋に電子システムのために提案されたハードウェアセキュリティソリューションで完全に対処できない、新しくて避けられないセキュリティ違反が発生する可能性がある。 本稿では、統合フォトニックニューラルネットワークアクセラレーターにおけるこのような侵入から利益を得るさまざまなタイプの攻撃について検討する。 これらの攻撃がシステム性能(すなわち、精度に影響を及ぼす電力と位相分布)に与える影響と、そのような攻撃に対処する可能性のある解決策を示す。

Integrated photonics based on silicon photonics platform is driving several application domains, from enabling ultra-fast chip-scale communication in high-performance computing systems to energy-efficient optical computation in artificial intelligence (AI) hardware accelerators. Integrating silicon photonics into a system necessitates the adoption of interfaces between the photonic and the electronic subsystems, which are required for buffering data and optical-to-electrical and electrical-to-optical conversions. Consequently, this can lead to new and inevitable security breaches that cannot be fully addressed using hardware security solutions proposed for purely electronic systems. This paper explores different types of attacks profiting from such breaches in integrated photonic neural network accelerators. We show the impact of these attacks on the system performance (i.e., power and phase distributions, which impact accuracy) and possible solutions to counter such attacks.
翻訳日:2024-03-25 23:09:29 公開日:2023-09-05
# Mayhem氏: 登録とスタック変数の破壊を目標に

Mayhem: Targeted Corruption of Register and Stack Variables ( http://arxiv.org/abs/2309.02545v1 )

ライセンス: Link先を確認
Andrew J. Adiletta, M. Caner Tol, Yarkın Doröz, Berk Sunar, (参考訳) 過去10年間に多くの脆弱性がマイクロアーキテクチャーで発見され、攻撃ベクトルが得られ、対策の研究の動機となった。 さらに、DRAMのアーキテクチャ上の欠陥と物理的欠陥は、被害者のメモリ空間にビットフリップを導入する敵の力を与えるローハンマー攻撃の発見につながった。 多くの研究がローハンマーを解析し、それを防ぐか、その効果を緩和する手法を提案した。 この研究では、境界を押して、Rowhammerをさらに活用してスタック変数に障害を注入し、被害者のプロセスに値を登録する方法を示します。 我々は、プロセスのスタックに格納されているレジスタ値をターゲットとして、その後メモリに流出させ、Rowhammerに対して脆弱になる。 障害値がレジスタに復元されると、その後のイテレーションで使用されることになる。 レジスタ値は、ソース内の潜在関数呼び出しまたはシグナルハンドラをアクティブにトリガーすることでスタックに格納することができる。 本研究では,SUDO認証とSSH認証をバイパスする手法を適用して,その効果を実証する。 MySQLや他の暗号化ライブラリが新たなアタックベクターでどのようにターゲットにできるのか、さらに概説する。 OpenSSLのデジタルシグネチャにエンドツーエンドのアタックを発生させる前に、この作業が広範な実験で克服する課題は、スタックとレジスタ変数とのコロケーションの実現、ブロッキングウィンドウによる同期、などである。 スタックとレジスタがもはやRowhammer攻撃から安全でないことを示す。

In the past decade, many vulnerabilities were discovered in microarchitectures which yielded attack vectors and motivated the study of countermeasures. Further, architectural and physical imperfections in DRAMs led to the discovery of Rowhammer attacks which give an adversary power to introduce bit flips in a victim's memory space. Numerous studies analyzed Rowhammer and proposed techniques to prevent it altogether or to mitigate its effects. In this work, we push the boundary and show how Rowhammer can be further exploited to inject faults into stack variables and even register values in a victim's process. We achieve this by targeting the register value that is stored in the process's stack, which subsequently is flushed out into the memory, where it becomes vulnerable to Rowhammer. When the faulty value is restored into the register, it will end up used in subsequent iterations. The register value can be stored in the stack via latent function calls in the source or by actively triggering signal handlers. We demonstrate the power of the findings by applying the techniques to bypass SUDO and SSH authentication. We further outline how MySQL and other cryptographic libraries can be targeted with the new attack vector. There are a number of challenges this work overcomes with extensive experimentation before coming together to yield an end-to-end attack on an OpenSSL digital signature: achieving co-location with stack and register variables, with synchronization provided via a blocking window. We show that stack and registers are no longer safe from the Rowhammer attack.
翻訳日:2024-03-25 23:09:29 公開日:2023-09-05
# 配電系統運用促進のためのコミュニティ電池エネルギー貯蔵システム:多目的最適化アプローチ

Community Battery Energy Storage Systems for Enhancing Distribution System Operation: A Multi-objective Optimization Approach ( http://arxiv.org/abs/2311.16110v1 )

ライセンス: Link先を確認
Yunqi Wang, Hao Wang, Markus Wagner, Ariel Liebman(参考訳) 配電網(dns)における分散エネルギー資源(der)の普及は、特に信頼性と電圧規制の観点から新たな運用上の課題を提起する。 これらの課題に対応して,多目的最適化による革新的なdn運用フレームワークを導入し,c-bess(community battery energy storage systems)を活用する。 提案フレームワークは,配電ネットワークサービスプロバイダ(DNSP)の関心事である電圧偏差を最小化すること,および需要側におけるDERの利用を最大化すること,の2つの主要な運用目標を対象としている。 これらの目的の相反する性質を認識し,c-bessを用いてシステムの適応性を高め,dn操作を動的に調整する。 非支配的ソート遺伝的アルゴリズム-II (NSGA-II) を用いて多目的最適化問題を解く。 実世界データを用いたケーススタディを行い,提案手法の有効性を検証する。 その結果,より信頼性の高いDN操作を実現する上でのC-BESSの可能性を示すとともに,電圧制御とDER利用の大幅な改善が示された。 本研究は,DN操作増強とDER統合におけるC-BESSの役割に関する議論の進行に寄与する。

The growing penetration of distributed energy resources (DERs) in distribution networks (DNs) raises new operational challenges, particularly in terms of reliability and voltage regulation. In response to these challenges, we introduce an innovative DN operation framework with multi-objective optimization, leveraging community battery energy storage systems (C-BESS). The proposed framework targets two key operational objectives: first, to minimize voltage deviation, which is a concern for a distribution network service provider (DNSP), and second, to maximize the utilization of DERs on the demand side. Recognizing the conflicting nature of these objectives, we utilize C-BESS to enhance the system's adaptability to dynamically adjust DN operations. The multi-objective optimization problem is solved using the non-dominated sorting genetic algorithm-II (NSGA-II). Case studies using real-world data are conducted to validate the effectiveness of the proposed framework. The results show significant improvements in voltage regulation and DER utilization, demonstrating the potential of C-BESS in enabling more reliable DN operation. Our findings contribute to the ongoing discourse on the role of C-BESS in DN operation enhancement and DER integration.
翻訳日:2024-01-15 15:23:09 公開日:2023-09-05
# Beta Divergence を用いた変分自己監督型コントラスト学習

Variational Self-Supervised Contrastive Learning Using Beta Divergence ( http://arxiv.org/abs/2312.00824v1 )

ライセンス: Link先を確認
Mehmet Can Yavuz and Berrin Yanikoglu(参考訳) ラベルなしおよびノイズの多いデータを用いた識別意味空間の学習は、マルチラベル設定では未適応のままである。 本稿では,データノイズに対して頑健な自己教師付き学習手法を提案する。 この方法(vcl)は、変分コントラスト学習とベータダイバージェンスを用いて、未修正データセットやノイズデータセットを含むラベルなしデータセットからロバストに学習する。 顔理解領域における多ラベルデータセットを用いた線形評価と微調整シナリオを含む厳密な実験により,提案手法の有効性を実証する。 ほぼすべてのテストシナリオにおいて、vclは最先端の自己監視メソッドのパフォーマンスを上回り、注目すべき精度向上を達成している。

Learning a discriminative semantic space using unlabelled and noisy data remains unaddressed in a multi-label setting. We present a contrastive self-supervised learning method which is robust to data noise, grounded in the domain of variational methods. The method (VCL) utilizes variational contrastive learning with beta-divergence to learn robustly from unlabelled datasets, including uncurated and noisy datasets. We demonstrate the effectiveness of the proposed method through rigorous experiments including linear evaluation and fine-tuning scenarios with multi-label datasets in the face understanding domain. In almost all tested scenarios, VCL surpasses the performance of state-of-the-art self-supervised methods, achieving a noteworthy increase in accuracy.
翻訳日:2024-01-15 15:11:08 公開日:2023-09-05
# 子どものメタラーニング・インフォームド・コンピテンス : 脳にインスパイアされた人工知能の意義

Metalearning-Informed Competence in Children: Implications for Responsible Brain-Inspired Artificial Intelligence ( http://arxiv.org/abs/2401.01001v1 )

ライセンス: Link先を確認
Chaitanya Singh(参考訳) 本稿では,幼児におけるメタラーニング(知識と学習の制御)戦略の実施を可能にするために,並行かつ協調的に機能する4つの基本的な認知機構からなる新しい概念枠組みを提案する。 コアメカニズムと関連する戦略を取り入れたロードマップは、発達する脳の顕著なクロスコンテキスト学習能力の説明として提示される。 基本的な補完的プロセスの4つは、脳に似た学習と問題解決スキルを模した人工知能(AI)システムに拡張可能なベアボーンメタラーニングアーキテクチャを集合的に表現するために選択される。 メタラーニング可能な若者の心を脳に触発されたコンピューティングのモデルとして利用し、この研究は道徳的に基礎付けられたAIに対する重要な意味をさらに議論する。

This paper offers a novel conceptual framework comprising four essential cognitive mechanisms that operate concurrently and collaboratively to enable metalearning (knowledge and regulation of learning) strategy implementation in young children. A roadmap incorporating the core mechanisms and the associated strategies is presented as an explanation of the developing brain's remarkable cross-context learning competence. The tetrad of fundamental complementary processes is chosen to collectively represent the bare-bones metalearning architecture that can be extended to artificial intelligence (AI) systems emulating brain-like learning and problem-solving skills. Utilizing the metalearning-enabled young mind as a model for brain-inspired computing, this work further discusses important implications for morally grounded AI.
翻訳日:2024-01-15 12:29:21 公開日:2023-09-05
# 青銅の年代測定のためのAIモバイル応用

AI Mobile Application for Archaeological Dating of Bronze Dings ( http://arxiv.org/abs/2401.01002v1 )

ライセンス: Link先を確認
Chuntao Li, Ruihua Qi, Chuan Tang, Jiafu Wei, Xi Yang, Qian Zhang, Rixin Zhou(参考訳) 我々は青銅器の考古学的年代測定のためのAIアプリケーションを開発した。 入力Dingの期間を予測するために分類モデルを使用し、考古学的年代決定のための特徴部を示すために検出モデルを用いる。 この2つの深層学習モデルをトレーニングするために,公開資料から多数のDing画像を収集し,各画像の特徴と期間を考古学専門家によって注釈した。 さらに,ユーザシステムを設計し,WeChat Mini Programのプラットフォームをベースとした事前学習モデルをデプロイし,使いやすくする。 WeChat APPをインストールしたスマートフォンだけで、ユーザーは青銅のDingの写真を撮って、インテリジェントな考古学的年代測定結果、特徴部品、その他の参照アーティファクトを簡単に知ることができる。 私たちのアプリケーションを使用するには、このQRコードをWeChatでスキャンしてください。

We develop an AI application for archaeological dating of bronze Dings. A classification model is employed to predict the period of the input Ding, and a detection model is used to show the feature parts for making a decision of archaeological dating. To train the two deep learning models, we collected a large number of Ding images from published materials, and annotated the period and the feature parts on each image by archaeological experts. Furthermore, we design a user system and deploy our pre-trained models based on the platform of WeChat Mini Program for ease of use. Only need a smartphone installed WeChat APP, users can easily know the result of intelligent archaeological dating, the feature parts, and other reference artifacts, by taking a photo of a bronze Ding. To use our application, please scan this QR code by WeChat.
翻訳日:2024-01-15 12:19:21 公開日:2023-09-05
# グラフニューラルネットワークを用いたソフトウェア検証のためのアルゴリズム選択

Algorithm Selection for Software Verification using Graph Neural Networks ( http://arxiv.org/abs/2201.11711v3 )

ライセンス: Link先を確認
Will Leeson, Matthew B Dwyer(参考訳) ソフトウェア検証の分野は、与えられたプログラムの様々な特性を証明できる幅広いアルゴリズム技術を生み出している。 これらの手法の性能は、同一の検証問題において最大4桁まで変化することが示されている。 検証の専門家でさえ、どのツールが与えられた問題に対してベストに機能するかを決めるのは難しい。 一般ユーザにとって,検証問題に最適なツールを決定することは事実上不可能である。 本稿では,グラフニューラルネットワーク(GNN)に基づく選択戦略であるGravesを紹介する。 Gravesは、GNNがプログラムのパフォーマンスを示す検証器のスコアを予測するプログラムのグラフ表現を生成する。 10の検証ツールセットと8000以上の検証問題に基づいてGravesを評価し、検証アルゴリズムの選択における最先端性を12%、または8ポイント改善することを発見した。 さらに、テストセットにある既存の検証者よりも9%多い問題を検証できます。 モデル解釈可能性に関する定性的研究を通じて、バウンドモデルがアルゴリズム技法のユニークな特徴に関連する要因に基づいて予測を基礎づけることを学ぶという強い証拠が得られた。

The field of software verification has produced a wide array of algorithmic techniques that can prove a variety of properties of a given program. It has been demonstrated that the performance of these techniques can vary up to 4 orders of magnitude on the same verification problem. Even for verification experts, it is difficult to decide which tool will perform best on a given problem. For general users, deciding the best tool for their verification problem is effectively impossible. In this work, we present Graves, a selection strategy based on graph neural networks (GNNs). Graves generates a graph representation of a program from which a GNN predicts a score for a verifier that indicates its performance on the program. We evaluate Graves on a set of 10 verification tools and over 8000 verification problems and find that it improves the state-of-the-art in verification algorithm selection by 12%, or 8 percentage points. Further, it is able to verify 9% more problems than any existing verifier on our test set. Through a qualitative study on model interpretability, we find strong evidence that the Graves' model learns to base its predictions on factors that relate to the unique features of the algorithmic techniques.
翻訳日:2023-10-24 15:37:54 公開日:2023-09-05
# Object as a Service (OaaS) - サーバレスクラウドにおけるオブジェクト抽象化の実現

Object as a Service (OaaS): Enabling Object Abstraction in Serverless Clouds ( http://arxiv.org/abs/2206.05361v3 )

ライセンス: Link先を確認
Pawissanutt Lertpongrujikorn, Mohsen Amini Salehi(参考訳) FaaS(Function as a Service)パラダイムは広く普及しており、プログラマやクラウドソリューションアーキテクトの負担を軽減する次世代のクラウドシステムとして想定されている。 しかし、faasの抽象化は、クラウドリソース管理の側面を透明にするだけでなく、アプリケーションデータ側面を扱わない。 そのため、開発者はアプリケーションデータ管理の負担を負う必要があり、多くの場合、別々のクラウドサービス(AWS S3など)を経由する。 同様に、FaaSの抽象化は関数ワークフローをネイティブにサポートしていないため、開発者はワークフローを構築するためにワークフローオーケストレーションサービス(AWS Step Functionsなど)を扱う必要があることが多い。 さらに、ワークフロー全体を通してデータを明示的にナビゲートする必要がある。 FaaSのこれらの問題を克服するために、複雑さを隠蔽し、クラウドネイティブなアプリケーション開発の負担を軽減する、高度なクラウドプログラミング抽象化を設計します。 我々はオブジェクト指向プログラミングからオブジェクトの概念を借用し、object as a service(oaas)として知られる関数抽象化の上に新しい抽象化レベルを提案する。 oaasはアプリケーションデータと機能をオブジェクト抽象化にカプセル化し、開発者がリソースとデータ管理の負担を軽減します。 また、ソフトウェア再利用性、データのローカリティ、キャッシュなど、組み込み最適化機能の機会を開放する。 OaaSはデータフロープログラミングをネイティブにサポートしており、開発者はデータナビゲーション、同期、並列処理の側面に関わらなくても、関数のワークフローを透過的に定義できる。 oaasプラットフォームのプロトタイプを実装して,オーバーヘッドやスケーラビリティ,使いやすさといった問題に関して,最先端のプラットフォームに対して現実の環境で評価しました。 その結果、oaasはクラウドプログラミングを合理化し、基盤となるクラウドシステムに対して重要なオーバーヘッドを伴うスケーラビリティを提供する。

Function as a Service (FaaS) paradigm is becoming widespread and is envisioned as the next generation of cloud systems that mitigate the burden for programmers and cloud solution architects. However, the FaaS abstraction only makes the cloud resource management aspects transparent but does not deal with the application data aspects. As such, developers have to undergo the burden of managing the application data, often via separate cloud services (e.g., AWS S3). Similarly, the FaaS abstraction does not natively support function workflow, hence, the developers often have to work with workflow orchestration services (e.g., AWS Step Functions) to build workflows. Moreover, they have to explicitly navigate the data throughout the workflow. To overcome these problems of FaaS, we design a higher-level cloud programming abstraction that hides the complexities and mitigate the burden of developing cloud-native application development. We borrow the notion of object from object-oriented programming and propose a new abstraction level atop the function abstraction, known as Object as a Service (OaaS). OaaS encapsulates the application data and function into the object abstraction and relieves the developers from resource and data management burdens. It also unlocks opportunities for built-in optimization features, such as software reusability, data locality, and caching. OaaS natively supports dataflow programming such that developers define a workflow of functions transparently without getting involved in data navigation, synchronization, and parallelism aspects. We implemented a prototype of the OaaS platform and evaluated it under real-world settings against state-of-the-art platforms regarding the imposed overhead, scalability, and ease of use. The results demonstrate that OaaS streamlines cloud programming and offers scalability with an insignificant overhead to the underlying cloud system.
翻訳日:2023-10-24 15:27:22 公開日:2023-09-05
# githubにおけるaiopsプロジェクトの特性調査

Studying the Characteristics of AIOps Projects on GitHub ( http://arxiv.org/abs/2212.13245v2 )

ライセンス: Link先を確認
Roozbeh Aghili, Heng Li, Foutse Khomh(参考訳) AIOps(Artificial Intelligence for IT Operations)は、AIアプローチを活用して、ソフトウェアシステムの運用中に生成された大量のデータを処理する。 以前の研究では、異常検出など、システム操作やメンテナンスでさまざまなタスクをサポートするaiopsソリューションを提案している。 本研究では,AIOpsの実践的特徴を理解するために,オープンソースのAIOpsプロジェクトの詳細な分析を行う。 まず、githubからaiopsプロジェクトのセットを慎重に特定し、リポジトリメトリクス(例えば、使用済みプログラミング言語)を分析します。 次に、プロジェクトの入力データ、分析技術、目標を理解するために、質的に調査する。 最後に、バグの数などの異なる品質指標を用いて、これらのプロジェクトの品質を評価します。 コンテキストを提供するために、githubから2つのベースラインプロジェクト(機械学習プロジェクトのランダムサンプルと汎用プロジェクトのランダムサンプル)をサンプルする。 特定したAIOpsプロジェクトとこれらのベースラインのメトリクスを比較することで、意味のある洞察を導き出します。 我々の結果は、AIOpsソリューションへの関心が高まっていることを示している。 しかしながら、品質指標は、aiopsプロジェクトがベースラインプロジェクトよりも多くの問題を抱えていることを示している。 AIOpsアプローチの最も一般的な問題を特定し、これらの課題に対処する潜在的なソリューションについて議論します。 私たちの発見は、研究者や実践者に貴重なガイダンスを提供し、AIOpsプラクティスの現状を理解し、AIOpsの弱点を改善するさまざまな方法に光を当てています。 私たちの知る限りでは、この研究はオープンソースのaiopsプロジェクトを特徴付ける最初の試みです。

Artificial Intelligence for IT Operations (AIOps) leverages AI approaches to handle the massive amount of data generated during the operations of software systems. Prior works have proposed various AIOps solutions to support different tasks in system operations and maintenance, such as anomaly detection. In this study, we conduct an in-depth analysis of open-source AIOps projects to understand the characteristics of AIOps in practice. We first carefully identify a set of AIOps projects from GitHub and analyze their repository metrics (e.g., the used programming languages). Then, we qualitatively examine the projects to understand their input data, analysis techniques, and goals. Finally, we assess the quality of these projects using different quality metrics, such as the number of bugs. To provide context, we also sample two sets of baseline projects from GitHub: a random sample of machine learning projects and a random sample of general-purposed projects. By comparing different metrics between our identified AIOps projects and these baselines, we derive meaningful insights. Our results reveal a recent and growing interest in AIOps solutions. However, the quality metrics indicate that AIOps projects suffer from more issues than our baseline projects. We also pinpoint the most common issues in AIOps approaches and discuss potential solutions to address these challenges. Our findings offer valuable guidance to researchers and practitioners, enabling them to comprehend the current state of AIOps practices and shed light on different ways of improving AIOps' weaker aspects. To the best of our knowledge, this work marks the first attempt to characterize open-source AIOps projects.
翻訳日:2023-10-24 13:47:40 公開日:2023-09-05
# 会話型大規模言語モデルによる自律テストエージェントに向けて

Towards Autonomous Testing Agents via Conversational Large Language Models ( http://arxiv.org/abs/2306.05152v2 )

ライセンス: Link先を確認
Robert Feldt, Sungmin Kang, Juyeon Yoon, Shin Yoo(参考訳) ソフトウェアテストは開発サイクルの重要な部分ですが、ソフトウェアを適切にテストするには専門的な専門知識と実質的な開発者努力が必要です。 最近の大言語モデル(llm)の機能の発見は、自動テストアシスタントとして使用できることを示唆しており、それによって役立つ情報を提供し、テストプロセスを進めることさえできる。 この技術の可能性を強調するために、我々は、LLMベースのテストエージェントの分類を、その自律性レベルに基づいて提示し、より高度な自律性が実際に開発者にどのような恩恵をもたらすかを説明する。 テストアシスタントとしてのLLMの例は、テストのための会話フレームワークが開発者にどのように役立つかを示すために提供されている。 これはまた、しばしば批判されるLLMの幻覚がテストにどのように役立つかを強調している。 LLM駆動テストエージェントが期待できる他の具体的なメリットを特定し、潜在的な制限について議論する。

Software testing is an important part of the development cycle, yet it requires specialized expertise and substantial developer effort to adequately test software. Recent discoveries of the capabilities of large language models (LLMs) suggest that they can be used as automated testing assistants, and thus provide helpful information and even drive the testing process. To highlight the potential of this technology, we present a taxonomy of LLM-based testing agents based on their level of autonomy, and describe how a greater level of autonomy can benefit developers in practice. An example use of LLMs as a testing assistant is provided to demonstrate how a conversational framework for testing can help developers. This also highlights how the often criticized hallucination of LLMs can be beneficial for testing. We identify other tangible benefits that LLM-driven testing agents can bestow, and also discuss potential limitations.
翻訳日:2023-10-24 04:02:50 公開日:2023-09-05
# プロプライエタリな拡張を備えたParsing Fortran-77

Parsing Fortran-77 with proprietary extensions ( http://arxiv.org/abs/2309.02019v1 )

ライセンス: Link先を確認
Younoussa Sow, Larisa Safina, L\'eandre Brault, Papa Ibou Diouf, St\'ephane Ducasse, Nicolas Anquetil(参考訳) ソフトウェア開発における最新のイノベーションとは程遠いが、多くの組織はいまだに"obsolete"プログラミング言語で記述された古いコードに依存している。 このソースコードは古くて証明されているので、組織の継続的な成功に大きく貢献することが多い。 しかし、アプリケーションを関連づけて、進化する環境で動かすためには、更新や新しい言語や新しいプラットフォームへの移行が必要になることがある。 これらの"獣言語"を扱うことの難しさのひとつは、ソースコードを解析してその表現を構築することだ。 パーシングにより、現代のソフトウェア開発ツールやIDEがこれらのベテラン言語をより良くサポートできる。 私たちは、私たちのグループとFramatome社の間のプロジェクトを開始し、古いFortran-77をプロプライエタリな拡張(Esopeと呼ばれる)で、より現代的なFortranへの移行を支援しました。 本稿では,esope言語を島文法と正規構文解析器の組み合わせで解析し,コードの抽象構文木を構築する方法について述べる。

Far from the latest innovations in software development, many organizations still rely on old code written in "obsolete" programming languages. Because this source code is old and proven it often contributes significantly to the continuing success of these organizations. Yet to keep the applications relevant and running in an evolving environment, they sometimes need to be updated or migrated to new languages or new platforms. One difficulty of working with these "veteran languages" is being able to parse the source code to build a representation of it. Parsing can also allow modern software development tools and IDEs to offer better support to these veteran languages. We initiated a project between our group and the Framatome company to help migrate old Fortran-77 with proprietary extensions (called Esope) into more modern Fortran. In this paper, we explain how we parsed the Esope language with a combination of island grammar and regular parser to build an abstract syntax tree of the code.
翻訳日:2023-10-23 09:16:57 公開日:2023-09-05
# VFFINDER:サイレント脆弱性の自動同定のためのグラフベースのアプローチ

VFFINDER: A Graph-based Approach for Automated Silent Vulnerability-Fix Identification ( http://arxiv.org/abs/2309.01971v1 )

ライセンス: Link先を確認
Son Nguyen, Thanh Trong Vu, and Hieu Dinh Vo(参考訳) サードパーティのライブラリへのソフトウェアプロジェクトの依存が高まり、隠れた脆弱性によるこれらのライブラリのセキュリティに対する懸念が高まっている。 これらの脆弱性の管理は、修正と公開開示の間の時間的ギャップのために難しい。 さらに、オープンソースプロジェクトの大部分は、公開せずに脆弱性を静かに修正し、脆弱性管理に影響を与えている。 OWASPのような既存のツールは公開公開に大きく依存しており、未知の脆弱性を検出する効果を妨げている。 この問題に対処するため、脆弱性修正コミットの自動識別が登場した。 しかし、静かな脆弱性修正を特定することは依然として難しい。 本稿では,サイレント脆弱性の自動修正のためのグラフベースアプローチであるvffinderを提案する。 VFFINDERは抽象構文木(AST)を使用して構造変化をキャプチャし、アノテーション付きASTでそれらを表現する。 VFFINDERは、アテンションベースのグラフニューラルネットワークモデルを使用して構造的特徴を抽出する、脆弱性修正コミットと非修正コミットを区別する。 実世界の507のC/C++プロジェクトで,36K以上の修正と非修正コミットのデータセット上でVFFINDERを評価する実験を行った。 以上の結果から,VFFINDERの精度は39~83%,リコール率19~148%,F1では30~109%向上した。 特に、vffinderはサイレントフィックスの識別プロセスを最大47%高速化し、既存のアプローチと比較して5%のレビュー作業を行う。

The increasing reliance of software projects on third-party libraries has raised concerns about the security of these libraries due to hidden vulnerabilities. Managing these vulnerabilities is challenging due to the time gap between fixes and public disclosures. Moreover, a significant portion of open-source projects silently fix vulnerabilities without disclosure, impacting vulnerability management. Existing tools like OWASP heavily rely on public disclosures, hindering their effectiveness in detecting unknown vulnerabilities. To tackle this problem, automated identification of vulnerability-fixing commits has emerged. However, identifying silent vulnerability fixes remains challenging. This paper presents VFFINDER, a novel graph-based approach for automated silent vulnerability fix identification. VFFINDER captures structural changes using Abstract Syntax Trees (ASTs) and represents them in annotated ASTs. VFFINDER distinguishes vulnerability-fixing commits from non-fixing ones using attention-based graph neural network models to extract structural features. We conducted experiments to evaluate VFFINDER on a dataset of 36K+ fixing and non-fixing commits in 507 real-world C/C++ projects. Our results show that VFFINDER significantly improves the state-of-the-art methods by 39-83% in Precision, 19-148% in Recall, and 30-109% in F1. Especially, VFFINDER speeds up the silent fix identification process by up to 47% with the same review effort of 5% compared to the existing approaches.
翻訳日:2023-10-23 09:16:41 公開日:2023-09-05
# コードの可読性をどのように改善するか? プルリクエストに関する実証的研究

How do Developers Improve Code Readability? An Empirical Study of Pull Requests ( http://arxiv.org/abs/2309.02594v1 )

ライセンス: Link先を確認
Carlos Eduardo C. Dantas and Adriano M. Rocha and Marcelo A. Maia(参考訳) コードを読む労力を測定するために、可読性モデルとツールが提案されている。 しかし、これらのモデルは開発者が認識するコードの品質改善を完全に捉えることはできない。 新たな可読性モデルと本番対応ツールの可能性を検討するため,コード可読性を改善する際に開発者が実行する可読性の改善のタイプをよりよく理解し,自動静的ツールの提案と開発者による実際の改善との相違点を特定することを目的とした。 109のgithubリポジトリの下で284のマージプルリクエスト(prs)から370のコード可読性の改善を収集し、26種類のコード可読性改善を備えたカタログを作成しました。 驚いたことに、SonarQubeは370のコード可読性の改善のうち26だけを検出した。 これは、生成したカタログのいくつかがSonarQubeルールによってまだ対処されていないことを示唆しており、開発者が認識する自動静的解析ツール(ASAT)コード可読性ルールの改善の可能性を強調している。

Readability models and tools have been proposed to measure the effort to read code. However, these models are not completely able to capture the quality improvements in code as perceived by developers. To investigate possible features for new readability models and production-ready tools, we aim to better understand the types of readability improvements performed by developers when actually improving code readability, and identify discrepancies between suggestions of automatic static tools and the actual improvements performed by developers. We collected 370 code readability improvements from 284 Merged Pull Requests (PRs) under 109 GitHub repositories and produce a catalog with 26 different types of code readability improvements, where in most of the scenarios, the developers improved the code readability to be more intuitive, modular, and less verbose. Surprisingly, SonarQube only detected 26 out of the 370 code readability improvements. This suggests that some of the catalog produced has not yet been addressed by SonarQube rules, highlighting the potential for improvement in Automatic static analysis tools (ASAT) code readability rules as they are perceived by developers.
翻訳日:2023-10-23 09:04:52 公開日:2023-09-05
# Mind the Gap: カバレッジとミューテーションスコアの違いはテストの指針になる

Mind the Gap: The Difference Between Coverage and Mutation Score Can Guide Testing Efforts ( http://arxiv.org/abs/2309.02395v1 )

ライセンス: Link先を確認
Kush Jain, Goutamkumar Tulajappa Kalburgi, Claire Le Goues, Alex Groce(参考訳) テストスイートは、システムの要求/仕様と実装の間のすべての矛盾を効果的に見つけるべきです。 実践者は、しばしばコードカバレッジを使って精度を近似するが、学者は、突然変異スコアは真の(奇抜な)精度を近似する方がよいと主張している。 ファジングを含む自動テスト生成によって、大規模システムでも高いコードカバレッジが達成されるようになる。 テスト作業の測定と改善のためのこれらすべてのオプションを考慮して、QAエンジニアはどのように時間を費やすべきか? 我々は、oracle gapと呼ばれるアイデアや、あるソフトウェア要素のソースコードカバレッジと突然変異スコアの違いに基づいて、所定のテスト作業の程度、限界、性質を推論するための新しいフレームワークを提案します。 我々は(1)ポピュラーなMavenプロジェクト間でのオラクルギャップに関する大規模な観察研究、(2)テストとオラクルの品質を複数のプロジェクトにわたって変化させる研究、(3)ブロックチェーンプロジェクト全体で非常に批判的でテストされたコードに関する小規模の観察研究を行う。 オラクルギャップは, いずれの基準も満たさない, テストの規模と品質に関する重要な情報を表面化することを示す。 特に、実践者が重要なコードをテストする弱いオラクルテストである可能性のあるソースファイルを識別する方法を提供する。

An "adequate" test suite should effectively find all inconsistencies between a system's requirements/specifications and its implementation. Practitioners frequently use code coverage to approximate adequacy, while academics argue that mutation score may better approximate true (oracular) adequacy coverage. High code coverage is increasingly attainable even on large systems via automatic test generation, including fuzzing. In light of all of these options for measuring and improving testing effort, how should a QA engineer spend their time? We propose a new framework for reasoning about the extent, limits, and nature of a given testing effort based on an idea we call the oracle gap, or the difference between source code coverage and mutation score for a given software element. We conduct (1) a large-scale observational study of the oracle gap across popular Maven projects, (2) a study that varies testing and oracle quality across several of those projects and (3) a small-scale observational study of highly critical, well-tested code across comparable blockchain projects. We show that the oracle gap surfaces important information about the extent and quality of a test effort beyond either adequacy metric alone. In particular, it provides a way for practitioners to identify source files where it is likely a weak oracle tests important code.
翻訳日:2023-10-23 09:04:21 公開日:2023-09-05
# コンテキスト予測変異テスト

Contextual Predictive Mutation Testing ( http://arxiv.org/abs/2309.02389v1 )

ライセンス: Link先を確認
Kush Jain, Uri Alon, Alex Groce, Claire Le Goues(参考訳) 突然変異テストは、バグを人為的に導入し、テストスイートがそれらを捕まえるかどうかをチェックするテストスイートの品質を評価し、改善するための強力な技術である。 しかし、計算コストも高く、大規模なシステムやプロジェクトにはスケールしない。 このスケーラビリティ問題に取り組む最近の有望なアプローチのひとつが、実際にテストを実行することなく、テストが合成バグを検出するかどうかを予測するために機械学習を使用している。 しかし、既存の予測突然変異テストアプローチは、ランダムにサンプリングされたミュータント-テストスイートペアの33%を誤分類している。 本研究では,MutationBERTを提案する。MutationBERTは,ソースメソッドの突然変異とテストメソッドを同時にエンコードし,入力表現のキーコンテキストをキャプチャする。 精度が高いため、MutationBERTは、ライブミュータントをチェック・検証する以前のアプローチで費やされた時間の33%を節約する。 MutationBERTは、同じプロジェクトとクロスプロジェクトの両方で最先端で、精度、リコール、F1スコアが有意義に改善されている。 テストマトリックスレベルからテストスイートレベルへの予測を持ち上げるための入力表現とアグリゲーションアプローチを検証することで、同様のパフォーマンス改善が得られます。 MutationBERTは、予測突然変異テストの最先端性を向上するだけでなく、開発者の時間を節約し、ミュータントを検出するのが難しい実世界のアプリケーションにも実用的利益をもたらす。

Mutation testing is a powerful technique for assessing and improving test suite quality that artificially introduces bugs and checks whether the test suites catch them. However, it is also computationally expensive and thus does not scale to large systems and projects. One promising recent approach to tackling this scalability problem uses machine learning to predict whether the tests will detect the synthetic bugs, without actually running those tests. However, existing predictive mutation testing approaches still misclassify 33% of detection outcomes on a randomly sampled set of mutant-test suite pairs. We introduce MutationBERT, an approach for predictive mutation testing that simultaneously encodes the source method mutation and test method, capturing key context in the input representation. Thanks to its higher precision, MutationBERT saves 33% of the time spent by a prior approach on checking/verifying live mutants. MutationBERT, also outperforms the state-of-the-art in both same project and cross project settings, with meaningful improvements in precision, recall, and F1 score. We validate our input representation, and aggregation approaches for lifting predictions from the test matrix level to the test suite level, finding similar improvements in performance. MutationBERT not only enhances the state-of-the-art in predictive mutation testing, but also presents practical benefits for real-world applications, both in saving developer time and finding hard to detect mutants.
翻訳日:2023-10-23 09:03:33 公開日:2023-09-05
# 非公式仕様による学生のコード正当性とテスト完全性の向上

Improving students' code correctness and test completeness by informal specifications ( http://arxiv.org/abs/2309.02221v1 )

ライセンス: Link先を確認
Arno Broeders and Ruud Hermans and Sylvia Stuurman and Lex Bijlsma and Harrie Passier(参考訳) 学生が生成するソフトウェアの品質は、しばしば貧弱である。 学生に高品質なソフトウェアを開発する方法を教えることは、長い間、コンピュータサイエンスの教育と研究のトピックであった。 私たちはまだこの質問に良い答えがないと結論づけなければならない。 ソフトウェアの正確性を判断し、エラーのないソフトウェアを開発し、完全なテストを書くには仕様が必要である。 学生にコードを書く前に仕様を書くように教える試みがいくつか行われた。 学生は仕様を書くことが好きではなく、仕様を書くことの利点を見ていない。 本稿では,非公式な仕様の使用に焦点を当てる。 学生に仕様を書く方法を教える代わりに、非公式な仕様を使って正しいソフトウェアを開発する方法を教える。 ソフトウェアにおけるエラーの数とテストの完全性はどちらも大幅に改善され、そして最も重要なことに、学生は仕様に本当に感謝しています。 学生が仕様を理解すれば、その価値を指定し、評価する方法を教えるための鍵があると思います。

The quality of software produced by students is often poor. How to teach students to develop good quality software has long been a topic in computer science education and research. We must conclude that we still do not have a good answer to this question. Specifications are necessary to determine the correctness of software, to develop error-free software and to write complete tests. Several attempts have been made to teach students to write specifications before writing code. So far, that has not proven to be very successful: Students do not like to write a specification and do not see the benefits of writing specifications. In this paper we focus on the use of informal specifications. Instead of teaching students how to write specifications, we teach them how to use informal specifications to develop correct software. The results were surprising: the number of errors in software and the completeness of tests both improved considerably and, most importantly, students really appreciate the specifications. We think that if students appreciate specification, we have a key to teach them how to specify and to appreciate its value.
翻訳日:2023-10-23 09:03:10 公開日:2023-09-05
# 最寄りのbertベースアプローチによるスケーラブルクローン検出

Using a Nearest-Neighbour, BERT-Based Approach for Scalable Clone Detection ( http://arxiv.org/abs/2309.02182v1 )

ライセンス: Link先を確認
Muslim Chochlov (1), Gul Aftab Ahmed (2), James Vincent Patten (1), Guoxian Lu (3), Wei Hou (4), David Gregg (2), Jim Buckley (1) ((1) Deptment of Computer Science and Information Systems, University of Limerick, Ireland, (2) Deptment of Computer Science, Trinity College Dublin, Ireland, (3) WN Digital IPD and Trustworthiness Enabling, Huawei Technologies Co., Ltd., Shanghai, China, (4) Huawei Vulnerability Management Center, Huawei Technologies Co., Ltd., Shenzhen, Guangdong, China)(参考訳) コードクローンはソフトウェアのメンテナンスに有害に影響を与え、非常に大きなコードベースで手動で検出することは非現実的です。 さらに、自動的なアプローチでは、Type 3とType 4のクローンの検出は非常に困難である。 最新の人工深層ニューラルネットワーク(例えばBERTベースの人工ニューラルネットワーク)は、そのようなクローンを検出するのに非常に効果的であるように見えるが、ターゲットシステム内のすべてのコードペアのペア比較は非効率で、大規模なコードベースではスケールが不十分である。 そこで我々は,BERTベースのクローン検出手法であるSSCDを導入し,大規模にType 3とType 4のクローンをリコールすることを目的とした(当社の産業パートナーの要求に応じて)。 これにより、各コードフラグメントに対する代表埋め込みを計算し、最寄りのサーチを使用して類似のフラグメントを見つける。 SSCDは、他のニューラルネットワークアプローチのペアワイズ比較ボトルネックを回避すると同時に、並列GPUアクセラレーション検索を使用してスケーラビリティに対処する。 本稿では,産業環境でのアプローチの設定と評価に対するアプローチと経験的評価について述べる。 構成分析では、短い入力長とテキストのみベースのニューラルネットワークモデルにより、SSCDの効率は向上するが、効率はわずかに低下する。 評価結果は,SAGAやSourcererCCのような最先端アプローチよりもSSCDの方が有効であることが示唆された。 最適設定では、sscdは3億2000万locのbigclonebench(標準クローン検出ベンチマーク)のクローンを3時間以内で効果的に配置する。

Code clones can detrimentally impact software maintenance and manually detecting them in very large codebases is impractical. Additionally, automated approaches find detection of Type 3 and Type 4 (inexact) clones very challenging. While the most recent artificial deep neural networks (for example BERT-based artificial neural networks) seem to be highly effective in detecting such clones, their pairwise comparison of every code pair in the target system(s) is inefficient and scales poorly on large codebases. We therefore introduce SSCD, a BERT-based clone detection approach that targets high recall of Type 3 and Type 4 clones at scale (in line with our industrial partner's requirements). It does so by computing a representative embedding for each code fragment and finding similar fragments using a nearest neighbour search. SSCD thus avoids the pairwise-comparison bottleneck of other Neural Network approaches while also using parallel, GPU-accelerated search to tackle scalability. This paper details the approach and an empirical assessment towards configuring and evaluating that approach in industrial setting. The configuration analysis suggests that shorter input lengths and text-only based neural network models demonstrate better efficiency in SSCD, while only slightly decreasing effectiveness. The evaluation results suggest that SSCD is more effective than state-of-the-art approaches like SAGA and SourcererCC. It is also highly efficient: in its optimal setting, SSCD effectively locates clones in the entire 320 million LOC BigCloneBench (a standard clone detection benchmark) in just under three hours.
翻訳日:2023-10-23 09:02:55 公開日:2023-09-05
# 高分解能衛星画像からの自動建物抽出のためのu-net++アーキテクチャの性能解析

Performance Analysis of Various EfficientNet Based U-Net++ Architecture for Automatic Building Extraction from High Resolution Satellite Images ( http://arxiv.org/abs/2310.06847v1 )

ライセンス: Link先を確認
Tareque Bashar Ovi, Nomaiya Bashree, Protik Mukherjee, Shakil Mosharrof, and Masuma Anjum Parthima(参考訳) 建物抽出はリモートセンシング科学における研究の重要な要素であり、高分解能リモートセンシング画像の意味セグメンテーションに大きく依存する建物抽出のための応用である。 しかし,近年の深層学習における意味情報抽出ギャップの制約は,セグメンテーションの結果が不十分である。 この問題に対処し,高い精度で建物を抽出するために,ネットワークバックボーンに基づく様々なU-Net++が提案されている。 U-Netをベースとした設計されたネットワークは、深い監視によってモデルの感度を向上し、再設計されたスキップ接続により、背景にある無関係な特徴領域の影響を減らすことができる。 ネットワークをトレーニングして、より関連性の高い特徴を抽出する能力を高めるために、さまざまなエフェクトネットバックボーンベースのエンコーダが採用されている。 実験結果によると,提案モデルは従来の切削刃アプローチを大きく上回っている。 効率的なb4に基づく5つの効率の良いネットワーク変動Unet++の中では、平均精度92.23%、平均iou88.32%、マサチューセッツの建築データセットの平均精度93.2%、高解像度衛星画像からの自動ビルディング抽出のモデルが約束されている。

Building extraction is an essential component of study in the science of remote sensing, and applications for building extraction heavily rely on semantic segmentation of high-resolution remote sensing imagery. Semantic information extraction gap constraints in the present deep learning based approaches, however can result in inadequate segmentation outcomes. To address this issue and extract buildings with high accuracy, various efficientNet backbone based U-Net++ has been proposed in this study. The designed network, based on U-Net, can improve the sensitivity of the model by deep supervision, voluminous redesigned skip-connections and hence reducing the influence of irrelevant feature areas in the background. Various effecientNet backbone based encoders have been employed when training the network to enhance the capacity of the model to extract more relevant feature. According on the experimental findings, the suggested model significantly outperforms previous cutting-edge approaches. Among the 5 efficientNet variation Unet++ based on efficientb4 achieved the best result by scoring mean accuracy of 92.23%, mean iou of 88.32%, and mean precision of 93.2% on publicly available Massachusetts building dataset and thus showing the promises of the model for automatic building extraction from high resolution satellite images.
翻訳日:2023-10-23 03:35:26 公開日:2023-09-05
# 認知エージェントの知識源としての言語モデルの作成

Exploiting Language Models as a Source of Knowledge for Cognitive Agents ( http://arxiv.org/abs/2310.06846v1 )

ライセンス: Link先を確認
James R. Kirk, Robert E. Wray, John E. Laird(参考訳) 大規模言語モデル(LLM)は、質問応答、要約、自然言語推論など、文の完全性を超える機能を提供する。 これらの能力の多くは認知システムに潜在的に適用できるが、我々の研究は認知エージェントのタスク知識の源として言語モデルを利用しており、認知アーキテクチャを通じて実現されたエージェントである。 我々は,認知システムのための外部知識源として言語モデルを使用するための課題と機会を特定し,この領域における最近の研究の例を示しながら,認知アーキテクチャ能力の抽出と統合することにより,知識抽出の有効性を向上させる方法を提案する。

Large language models (LLMs) provide capabilities far beyond sentence completion, including question answering, summarization, and natural-language inference. While many of these capabilities have potential application to cognitive systems, our research is exploiting language models as a source of task knowledge for cognitive agents, that is, agents realized via a cognitive architecture. We identify challenges and opportunities for using language models as an external knowledge source for cognitive systems and possible ways to improve the effectiveness of knowledge extraction by integrating extraction with cognitive architecture capabilities, highlighting with examples from our recent work in this area.
翻訳日:2023-10-23 03:35:02 公開日:2023-09-05
# RobustEdge: クラウドエッジシステムの低消費電力逆検出

RobustEdge: Low Power Adversarial Detection for Cloud-Edge Systems ( http://arxiv.org/abs/2310.06845v1 )

ライセンス: Link先を確認
Abhishek Moitra, Abhiroop Bhattacharjee, Youngeun Kim and Priyadarshini Panda(参考訳) 現実的なクラウドエッジシナリオでは、リソース制約のあるエッジがデータ取得を行い、(十分なリソースを持つ)クラウドシステムがディープニューラルネットワーク(DNN)で推論タスクを実行する場合、信頼性とユビキタスなデプロイメントには、敵の堅牢性が不可欠である。 対向検出は、先行文献で使用される主対向防御技術である。 しかし、先行検出作業では、検出器は分類器モデルにアタッチされ、検出器と分類器の両方がタンデムで動作し、低消費電力エッジでは利用できない高い計算オーバーヘッドを必要とする対角検出を行う。 したがって、事前の作業は、エッジではなく、クラウドでのみ敵検出を行うことができる。 これは、敵の攻撃の場合、望ましくない敵のサンプルを雲に伝達し、エッジデバイスでエネルギーを無駄にすることを意味する。 そのため,クラウド型分類器のエッジのエネルギー効率とロバスト性を向上させるために,低消費電力エッジフレンドリーな対向検出法が必要である。 この目的のためにRobustEdgeは、エッジベースの低コスト対向検出を行うために、"早期検出と終了"を備えた量子化可能なエネルギー分離(QES)トレーニングを提案する。 エッジブロックに実装されたQES学習検出器は、分類器モデルへの逆データ伝送をブロックし、クラウドエッジシステムの対向ロバスト性とエネルギー効率を向上させる。

In practical cloud-edge scenarios, where a resource constrained edge performs data acquisition and a cloud system (having sufficient resources) performs inference tasks with a deep neural network (DNN), adversarial robustness is critical for reliability and ubiquitous deployment. Adversarial detection is a prime adversarial defence technique used in prior literature. However, in prior detection works, the detector is attached to the classifier model and both detector and classifier work in tandem to perform adversarial detection that requires a high computational overhead which is not available at the low-power edge. Therefore, prior works can only perform adversarial detection at the cloud and not at the edge. This means that in case of adversarial attacks, the unfavourable adversarial samples must be communicated to the cloud which leads to energy wastage at the edge device. Therefore, a low-power edge-friendly adversarial detection method is required to improve the energy efficiency of the edge and robustness of the cloud-based classifier. To this end, RobustEdge proposes Quantization-enabled Energy Separation (QES) training with "early detection and exit" to perform edge-based low cost adversarial detection. The QES-trained detector implemented at the edge blocks adversarial data transmission to the classifier model, thereby improving adversarial robustness and energy-efficiency of the Cloud-Edge system.
翻訳日:2023-10-23 03:34:51 公開日:2023-09-05
# DeepTriNet: 衛星画像のセマンティックセグメンテーションのための三層アテンションに基づくDeepLabv3+アーキテクチャ

DeepTriNet: A Tri-Level Attention Based DeepLabv3+ Architecture for Semantic Segmentation of Satellite Images ( http://arxiv.org/abs/2310.06848v1 )

ライセンス: Link先を確認
Tareque Bashar Ovi, Shakil Mosharrof, Nomaiya Bashree, Md Shofiqul Islam, and Muhammad Nazrul Islam(参考訳) 衛星画像のセグメンテーションはリモートセンシング応用において重要である。 既存の手法では,衛星画像のセマンティックセグメンテーションにおける小型物体の認識には,基盤となるネットワークの低レベル特性を無視したり,異なる特徴マップによって異なる量の情報を含むため,課題に直面している。 そこで本研究では,衛星画像のセマンティックセグメンテーションのために,三レベルアテンションに基づくDeepLabv3+アーキテクチャ(DeepTriNet)を提案する。 提案手法は, 圧縮・励起ネットワーク(SENet)とトリレベルアテンションユニット(TAU)をバニラのDeepLabv3+アーキテクチャと組み合わせ, TAUはエンコーダ出力とSENetのセマンティック特徴ギャップを橋渡しする。 提案されたDeepTriNetは、アノテートするのではなく、自己スーパービジョンによってどの機能がより関連性があり、より一般化されているかを見つける。 提案したDeepTriNetは、精度98%と77%、IoU 80%と58%、精度88%と68%で、それぞれ4クラスのLand-Cover.aiデータセットと15クラスのGID-2データセットで79%と55%をリコールした。 提案手法は,効率的かつセマンティックな衛星画像セグメンテーションにより,農村・都市における自然資源管理と変化検出に大きく貢献する。

The segmentation of satellite images is crucial in remote sensing applications. Existing methods face challenges in recognizing small-scale objects in satellite images for semantic segmentation primarily due to ignoring the low-level characteristics of the underlying network and due to containing distinct amounts of information by different feature maps. Thus, in this research, a tri-level attention-based DeepLabv3+ architecture (DeepTriNet) is proposed for the semantic segmentation of satellite images. The proposed hybrid method combines squeeze-and-excitation networks (SENets) and tri-level attention units (TAUs) with the vanilla DeepLabv3+ architecture, where the TAUs are used to bridge the semantic feature gap among encoders output and the SENets used to put more weight on relevant features. The proposed DeepTriNet finds which features are the more relevant and more generalized way by its self-supervision rather we annotate them. The study showed that the proposed DeepTriNet performs better than many conventional techniques with an accuracy of 98% and 77%, IoU 80% and 58%, precision 88% and 68%, and recall of 79% and 55% on the 4-class Land-Cover.ai dataset and the 15-class GID-2 dataset respectively. The proposed method will greatly contribute to natural resource management and change detection in rural and urban regions through efficient and semantic satellite image segmentation
翻訳日:2023-10-23 03:20:45 公開日:2023-09-05
# 不確実性定量化によるmlに基づくネットワーク侵入検出の信頼性向上

Enhancing Trustworthiness in ML-Based Network Intrusion Detection with Uncertainty Quantification ( http://arxiv.org/abs/2310.10655v1 )

ライセンス: Link先を確認
Jacopo Talpini, Fabio Sartori, Marco Savi(参考訳) インターネットとその関連通信技術の進化は、サイバー攻撃のリスクを一貫して高めてきた。 この文脈では、現代のネットワークへの攻撃を識別し緩和するために設計されたセキュリティデバイスである侵入検知システム(IDS)が重要な役割を果たす。 過去10年間で、IDSが必要とする分類タスクの実行において、機械学習(ML)に基づくデータ駆動アプローチがますます人気を集めている。 しかし、この目的のために採用された典型的なMLモデルは、自身の予測に関連する不確実性を適切に考慮していない。 これは、未分類の入力と未知のクラスに属する入力(例えば、新しい攻撃)の両方に対して誤って高い分類スコアを生成する傾向があり、既存のMLベースのソリューションの信頼性を制限しているため、大きな課題となる。 本稿では、MLベースのIDSが常に正確な不確実性定量化を提供し、過信な予測を避けるべきであると論じる。 実際、不確実性認識分類は、クローズドセット分類性能の向上に有用であり、アクティブラーニングを効率的に実行することができ、未知クラスの入力を真に未知のクラス(つまり、既知のクラスに属さない)として認識し、オープンセット分類能力とアウト・オブ・ディストリビューション(ood)検出をアンロックするのに役立つ。 そこで本研究では,ネットワーク侵入検出の領域に特化して設計・調整した様々なmlベースの不確かさ定量化法とood検出法を比較し,mlベースのidsの信頼性を高めるためにモデル不確かさを適切に推定する方法を示す。 また,従来のMLによるネットワーク侵入検出手法(例えば,従来のフィードフォワードニューラルネットワーク)は適切ではなく,慎重に適用すべきであることを確認した。

The evolution of Internet and its related communication technologies have consistently increased the risk of cyber-attacks. In this context, a crucial role is played by Intrusion Detection Systems (IDSs), which are security devices designed to identify and mitigate attacks to modern networks. In the last decade, data-driven approaches based on Machine Learning (ML) have gained more and more popularity for executing the classification tasks required by IDSs. However, typical ML models adopted for this purpose do not properly take into account the uncertainty associated with their own prediction. This poses significant challenges, as they tend to produce misleadingly high classification scores for both misclassified inputs and inputs belonging to unknown classes (e.g. novel attacks), limiting the trustworthiness of existing ML-based solutions. In this paper we argue that ML-based IDSs should always provide accurate uncertainty quantification to avoid overconfident predictions. In fact, an uncertainty-aware classification would be beneficial to enhance closed-set classification performance, would make it possible to efficiently carry out Active Learning, and would help recognize inputs of unknown classes as truly unknowns (i.e., not belonging to any known class), unlocking open-set classification capabilities and Out-of-Distribution (OoD) detection. To verify it, we compare various ML-based methods for uncertainty quantification and for OoD detection, either specifically designed for or tailored to the domain of network intrusion detection, showing how a proper estimation of the model uncertainty can be exploited to significantly enhance the trustworthiness of ML-based IDSs. Our results also confirm that conventional ML-based approaches to network intrusion detection (e.g. based on traditional feed-forward Neural Networks) may not be appropriate and should be adopted with caution.
翻訳日:2023-10-23 02:31:39 公開日:2023-09-05
# サイバーセキュリティの永続的脅威に対する限定的な情報ガバナンス政策を証明したアイデンティティ

Identity Prove Limited Information Governance Policy against cyber security persistent threats ( http://arxiv.org/abs/2310.10654v1 )

ライセンス: Link先を確認
Antigoni Kruti(参考訳) identity prove limited (idpl) は、銀行サービス市民のオンラインid認証ソフトウェアプロバイダである。 IDPLはISO/IEC 27001:2022のセキュリティ標準に基づいて情報ガバナンスを適用し、GDPR内で顔認証を行う。 同社はバイオメトリック認証サービスで有名で、金融サービスプロバイダに対して、セキュリティデバイス非依存で、安心と利便性をユーザに提供するための、安全でシンプルで持続可能なオンラインアクセスを可能にする。 企業は、正しい人、本物の人、リアルタイムで認証することを保証するべきです。 IDPL企業は、人間の介入を伴わない日々の運用において、持続可能なセキュリティモデルを想定しなければならない。 IDPL Security Operations Centre(ISOC)は、継続的にシステムパフォーマンスの最適なスケールを提供し、新しい脅威に対するセキュリティ手順を利用し、システムパフォーマンスの最適なスケールを保証する。 情報ガバナンスポリシーの目的は、リスク検出と脆弱性軽減の前で、効果的かつ効率的に企業のパフォーマンスを宣言し、実証することである。 このポリシーの範囲は、全ての管理システムと利害関係者の詳細を含み、送信者と受信者のユニークな識別子を含む。 同社は、顧客データとその情報システム資産に対するあらゆる潜在的なリスクに焦点を当てた社内システムを持っている。

Identity Prove Limited (IDPL) is a long-founded online identity verification software provider of citizens for Banking services. IDPL applies an information governance based on the ISO/IEC 27001:2022 standard of security and within GDPR to accomplish face verification. The company has a good reputation for biometric authentication services that allow a secure, simple, sustainable online access for financial services providers on delivering security device-independent, ensuring reassurance and convenience to users. The company should ensure a right person, a real person, authenticating in real-time. The IDPL company must assume sustainable security models for the duration of day-to-day operations does not involve human intervention. The IDPL Security Operations Centre (ISOC) should continuously provide the optimum scale of system performance, utilize security procedures against new threats, ensure the optimum scale of system performance capabilities. The aim of information governance policy is to declare and to demonstrate the performance of the company on effectively and efficiently way in front of risk detection and vulnerability mitigation. The scope of this policy involves all management systems and stakeholders details, include unique identifiers of submitter and receiver. The company has in-house systems focused on all potential risks to client data and its information system assets.
翻訳日:2023-10-23 02:31:07 公開日:2023-09-05
# パーソナライズ、認知、ゲーミフィケーションに基づくプログラミング言語学習--現状の体系的文献レビュー

Personalization, Cognition, and Gamification-based Programming Language Learning: A State-of-the-Art Systematic Literature Review ( http://arxiv.org/abs/2309.12362v1 )

ライセンス: Link先を確認
Kashif Ishaq, Atif Alvi(参考訳) 計算機科学におけるプログラミングコースは、多くの学生にとって最初のコンピュータプログラミング入門であるため重要である。 多くの大学生は、入門コースで学ばなければならない情報に圧倒されている。 現在の大学講堂でよく使われている学習モデルでは、モチベーションや学習への参加が欠如していることが多い。 パーソナライズド・ゲーミフィケーション(Personalized Gamification)は、ゲーミフィケーションとパーソナライズド・ラーニングを組み合わせた教育的アプローチであり、個々の学習の違いに対処しながら、学生の動機付けと参加を促進する。 このアプローチはゲーミフィケーションとパーソナライズされた学習戦略を統合し、独自の学習ニーズと差異に対処しながら学生を刺激し、巻き込む。 総合的な文献検索は、研究設計、介入、成果測定、品質評価に基づいて分析された81の研究を含む。 この結果から,プログラミングコースにおける学習者の認知を高めるために,学習者のモチベーション,エンゲージメント,学習結果を改善することが示唆された。 しかし、パーソナライズされたゲーミフィケーションの有効性は、使用するゲーミフィケーション要素の種類、パーソナライゼーションの程度、学習者の特性などによって異なる。 本稿では,プログラミングコースにおける効果的パーソナライズされたゲーミフィケーション介入の設計と実装に関する知見を提供する。 この発見は、プログラミング教育の実践者や研究者に、パーソナライズされたゲーミフィケーションの潜在的メリットとその教育実践への影響について知らせる可能性がある。

Programming courses in computing science are important because they are often the first introduction to computer programming for many students. Many university students are overwhelmed with the information they must learn for an introductory course. The current teacher-lecturer model of learning commonly employed in university lecture halls often results in a lack of motivation and participation in learning. Personalized gamification is a pedagogical approach that combines gamification and personalized learning to motivate and engage students while addressing individual differences in learning. This approach integrates gamification and personalized learning strategies to inspire and involve students while addressing their unique learning needs and differences. A comprehensive literature search was conducted by including 81 studies that were analyzed based on their research design, intervention, outcome measures, and quality assessment. The findings suggest that personalized gamification can enhance student cognition in programming courses by improving motivation, engagement, and learning outcomes. However, the effectiveness of personalized gamification varies depending on various factors, such as the type of gamification elements used, the degree of personalization, and the characteristics of the learners. This paper provides insights into designing and implementing effective personalized gamification interventions in programming courses. The findings could inform educational practitioners and researchers in programming education about the potential benefits of personalized gamification and its implications for educational practice.
翻訳日:2023-10-01 12:47:01 公開日:2023-09-05
# 症例報告に基づく神経眼科疾患の診断を支援するchatgpt

ChatGPT Assisting Diagnosis of Neuro-ophthalmology Diseases Based on Case Reports ( http://arxiv.org/abs/2309.12361v1 )

ライセンス: Link先を確認
Yeganeh Madadi, Mohammad Delsoz, Priscilla A. Lao, Joseph W. Fong, TJ Hollingsworth, Malik Y. Kahook, Siamak Yousefi(参考訳) 目的:chatgptのような大規模言語モデル(llm)の効率を評価し,詳細な症例記述に基づいて神経眼疾患の診断を支援すること。 方法: 公開されているオンラインデータベースから22種類の神経眼科疾患の症例を選定した。 これらの症例は、神経眼科のサブスペシャリストによく見られる、幅広い慢性および急性の疾患を含んでいた。 それぞれの症例のテキストを,ChatGPT v3.5とChatGPT Plus v4.0に新たなプロンプトとして挿入し,最も可能性の高い診断を求めた。 次に2人の神経眼科医に正確な情報を提示し,その診断結果と両バージョンのChatGPTとの比較を行った。 結果: chatgpt v3.5, chatgpt plus v4.0, 2名の神経眼科医はそれぞれ13例 (59%), 18例 (82%), 19例 (86%), 19例 (86%) であった。 chatgpt v3.5とchatgpt plus v4.0, 13 (59%)、chatgpt v3.5と第1神経眼科医12 (55%)、chatgpt v3.5と第2神経眼科医12 (55%)、chatgpt plus v4.0と第1神経眼科医17 (77%)、chatgpt plus v4.0と第2神経眼科医16 (73%)、第1および第2神経眼科医17 (17%)である。 結論: 神経眼疾患の診断におけるchatgpt v3.5およびchatgpt plus v4.0の精度は, それぞれ59%, 82%であった。 さらなる発展に伴い、ChatGPT Plus v4.0 は、臨床医が神経眼科領域の患者の迅速かつ正確な診断を行えるように、臨床治療に使用される可能性がある。 ChatGPTのようなLLMを、特定の訓練を受けた神経眼科医にアクセスできない臨床環境に適用することは、さらなる研究に値する。

Objective: To evaluate the efficiency of large language models (LLMs) such as ChatGPT to assist in diagnosing neuro-ophthalmic diseases based on detailed case descriptions. Methods: We selected 22 different case reports of neuro-ophthalmic diseases from a publicly available online database. These cases included a wide range of chronic and acute diseases that are commonly seen by neuro-ophthalmic sub-specialists. We inserted the text from each case as a new prompt into both ChatGPT v3.5 and ChatGPT Plus v4.0 and asked for the most probable diagnosis. We then presented the exact information to two neuro-ophthalmologists and recorded their diagnoses followed by comparison to responses from both versions of ChatGPT. Results: ChatGPT v3.5, ChatGPT Plus v4.0, and the two neuro-ophthalmologists were correct in 13 (59%), 18 (82%), 19 (86%), and 19 (86%) out of 22 cases, respectively. The agreement between the various diagnostic sources were as follows: ChatGPT v3.5 and ChatGPT Plus v4.0, 13 (59%); ChatGPT v3.5 and the first neuro-ophthalmologist, 12 (55%); ChatGPT v3.5 and the second neuro-ophthalmologist, 12 (55%); ChatGPT Plus v4.0 and the first neuro-ophthalmologist, 17 (77%); ChatGPT Plus v4.0 and the second neuro-ophthalmologist, 16 (73%); and first and second neuro-ophthalmologists 17 (17%). Conclusions: The accuracy of ChatGPT v3.5 and ChatGPT Plus v4.0 in diagnosing patients with neuro-ophthalmic diseases was 59% and 82%, respectively. With further development, ChatGPT Plus v4.0 may have potential to be used in clinical care settings to assist clinicians in providing quick, accurate diagnoses of patients in neuro-ophthalmology. The applicability of using LLMs like ChatGPT in clinical settings that lack access to subspeciality trained neuro-ophthalmologists deserves further research.
翻訳日:2023-10-01 12:46:29 公開日:2023-09-05
# フェアネス対パーソナライゼーション--認識能力の公平性に向けて

Fairness Vs. Personalization: Towards Equity in Epistemic Utility ( http://arxiv.org/abs/2309.11503v1 )

ライセンス: Link先を確認
Jennifer Chien, David Danks(参考訳) パーソナライズされたリコメンデーションシステムのアプリケーションは、ソーシャルメディア、オンラインショッピング、検索エンジンの結果など、急速に拡大している。 これらのシステムは、利用可能な膨大なアイテムをナビゲートするより効率的な方法を提供する。 しかし、この成長とともに、アルゴリズムシステムによるバイアスの顕在化と持続可能性の認識が高まり、パーソナライズされたドメインにおける不公平さのリスクが高まっている。 本研究では,パーソナライズと従来のフェアネスの実践との緊張関係を明らかにする。 代替として、疫学的効用という文脈において公平性を達成するためのエクイティを提案する。 我々は、目標と実践的な実装のマッピングを提供し、重要な利害関係者間でポリシーの推奨事項を詳述し、パーソナライズされたシステムにおける公平性を達成するための道を開く。

The applications of personalized recommender systems are rapidly expanding: encompassing social media, online shopping, search engine results, and more. These systems offer a more efficient way to navigate the vast array of items available. However, alongside this growth, there has been increased recognition of the potential for algorithmic systems to exhibit and perpetuate biases, risking unfairness in personalized domains. In this work, we explicate the inherent tension between personalization and conventional implementations of fairness. As an alternative, we propose equity to achieve fairness in the context of epistemic utility. We provide a mapping between goals and practical implementations and detail policy recommendations across key stakeholders to forge a path towards achieving fairness in personalized systems.
翻訳日:2023-09-24 03:53:59 公開日:2023-09-05
# メッシュ変分オートエンコーダにおける潜在性遠絡は頭蓋顔面症候群の診断と手術計画を改善する

Latent Disentanglement in Mesh Variational Autoencoders Improves the Diagnosis of Craniofacial Syndromes and Aids Surgical Planning ( http://arxiv.org/abs/2309.10825v1 )

ライセンス: Link先を確認
Simone Foti, Alexander J. Rickart, Bongjin Koo, Eimear O' Sullivan, Lara S. van de Lande, Athanasios Papaioannou, Roman Khonsari, Danail Stoyanov, N. u. Owase Jeelani, Silvia Schievano, David J. Dunaway, Matthew J. Clarkson(参考訳) 人間の頭部の複雑さの形状解析を深層学習で行うことは、非常に有望である。 しかし、伝統的に、特にグローバルレベルとローカルレベルの両方で動作する場合、正確なモデリングには多くの障壁があった。 本研究では,Swap Disentangled Variational Autoencoder (SD-VAE) の適用について,Crouzon,Apert,Muenke 症候群との関連について検討する。 メッシュ全体においてシンドローム分類が行われるが、頭頂部の各領域が相乗的表現型に与える影響を初めて分析することも可能である。 生成モデルの特定のパラメータを操作し、プロシージャ特異的な新しい形状を生産することにより、脳外科手術の範囲の結果をシミュレートすることもできる。 これにより、診断の進歩、手術計画の支援、手術結果の客観的評価が可能になる。

The use of deep learning to undertake shape analysis of the complexities of the human head holds great promise. However, there have traditionally been a number of barriers to accurate modelling, especially when operating on both a global and local level. In this work, we will discuss the application of the Swap Disentangled Variational Autoencoder (SD-VAE) with relevance to Crouzon, Apert and Muenke syndromes. Although syndrome classification is performed on the entire mesh, it is also possible, for the first time, to analyse the influence of each region of the head on the syndromic phenotype. By manipulating specific parameters of the generative model, and producing procedure-specific new shapes, it is also possible to simulate the outcome of a range of craniofacial surgical procedures. This opens new avenues to advance diagnosis, aids surgical planning and allows for the objective evaluation of surgical outcomes.
翻訳日:2023-09-24 03:53:44 公開日:2023-09-05
# アンハーモニック・アライアンス:正確なWKBはETPと出会う

An anharmonic alliance: exact WKB meets EPT ( http://arxiv.org/abs/2309.02505v1 )

ライセンス: Link先を確認
Bruno Bucciotti, Tomas Reis, and Marco Serone(参考訳) 離散スペクトルを持つある種の量子力学系において、可観測値は$\hbar$の半連続で与えられることが示され、ボレル再帰可能な拡張を持つ$\hbar_0$-deformationsは、元のモデルを$\hbar_0=\hbar$で再現する。 このような拡張はExact Perturbation Theory (EPT)と呼ばれた。 本研究では, 多項式量子力学系のスペクトルを調べることにより, 厳密な wkb 法の枠組みの中で, 上記の結果が得られるかを検討する。 正確な wkb の中で、エネルギー固有値は voros の記号 $a_{\gamma_i}$, $\gamma_i$ で定義される正確な量子化条件によって決定され、一般に $\hbar$ で変換される。 準調和ポテンシャルにおけるエネルギー固有値のボレル和が正確なWKBでどのように出現するかをレビューした後、量子補正で高次無調和ポテンシャルに拡張する。 次に、任意の多項式ポテンシャルが、正確な量子化条件が単に$a_\gamma=-1$と読み取るモデルに$\hbar_0$-変形できることを示し、すべてのエネルギー固有値に対して EPT Borel 再帰級数をもたらす。

Certain quantum mechanical systems with a discrete spectrum, whose observables are given by a transseries in $\hbar$, were shown to admit $\hbar_0$-deformations with Borel resummable expansions which reproduce the original model at $\hbar_0=\hbar$. Such expansions were dubbed Exact Perturbation Theory (EPT). We investigate how the above results can be obtained within the framework of the exact WKB method by studying the spectrum of polynomial quantum mechanical systems. Within exact WKB, energy eigenvalues are determined by exact quantization conditions defined in terms of Voros symbols $a_{\gamma_i}$, $\gamma_i$ being their associated cycles, and generally give rise to transseries in $\hbar$. After reviewing how the Borel summability of energy eigenvalues in the quartic anharmonic potential emerges in exact WKB, we extend it to higher order anharmonic potentials with quantum corrections. We then show that any polynomial potential can be $\hbar_0$-deformed to a model where the exact quantization condition reads simply $a_\gamma=-1$ and leads to the EPT Borel resummable series for all energy eigenvalues.
翻訳日:2023-09-17 14:05:59 公開日:2023-09-05
# ボソニック量子システムの1次元ニューラルネットワーク解

Neural Network Solutions of Bosonic Quantum Systems in One Dimension ( http://arxiv.org/abs/2309.02352v1 )

ライセンス: Link先を確認
Paulo F. Bedaque, Hersh Kumar, Andy Sheng(参考訳) ニューラルネットワークは、基底状態解の幅広い機能形式を変分探索するために使用できる効率的な数値波動関数 ansatze として提案されている。 これらのニューラルネットワーク手法は、より多くの変動パラメータとシステムの自由度を容易に追加できる点でも有利である。 ニューラルネットワークを用いて1次元で複数の異なる積分可能なボソニック量子系を解析し、その結果を正確な解と比較する。 多数の粒子を持つシステムに対する手続きのスケーラビリティをテストする一方で、ニューラルネットワークに対称関数入力を導入し、区別できない粒子の交換対称性を強制する。

Neural networks have been proposed as efficient numerical wavefunction ansatze which can be used to variationally search a wide range of functional forms for ground state solutions. These neural network methods are also advantageous in that more variational parameters and system degrees of freedom can be easily added. We benchmark the methodology by using neural networks to study several different integrable bosonic quantum systems in one dimension and compare our results to the exact solutions. While testing the scalability of the procedure to systems with many particles, we also introduce using symmetric function inputs to the neural network to enforce exchange symmetries of indistinguishable particles.
翻訳日:2023-09-17 14:05:33 公開日:2023-09-05
# agibench: 大規模言語モデルのためのマルチグラニュラリティ、マルチモーダル、ヒューマンリファレンス、自動スコーリングベンチマーク

AGIBench: A Multi-granularity, Multimodal, Human-referenced, Auto-scoring Benchmark for Large Language Models ( http://arxiv.org/abs/2309.06495v1 )

ライセンス: Link先を確認
Fei Tang, Wanling Gao, Luzhou Peng, Jianfeng Zhan(参考訳) ChatGPTのような大規模言語モデル(LLM)は驚くべきインテリジェンスを明らかにしている。 LLMの問題解決能力とその知能度を評価する方法はホットスポットだが難しい問題である。 第一に、問題解決能力は、理解や数学のような膨大な知識カテゴリーのような異なる能力の分野に介在する。 第二に、質問の入力はテキストや画像を含むマルチモーダルである。 第3に、LLMの応答形式は多様であり、結果の抽出と評価に大きな課題が生じる。 本稿では,LLMのマルチグラニュラリティ,マルチモーダル,ヒューマン参照,オートスコーリングのベンチマーク手法であるAGIBenchを提案する。 agibench氏は3つの典型的な能力ブランチに注目し、各質問の属性をラベル付けするために4つのタプル <ability branch, knowledge, difficulty, modal>を採用した。 第一に、マルチグラニュラリティベンチマーク(例えば、クエリごと、パービリティーブランチ、知識ごと、モーダルごと、データセットごと、および微分レベル粒度ごと)をサポートする。 第二に、テキストや画像を含むマルチモーダル入力を含む。 第3に、豊富な教育を受けた人間の平均的正確度(人間参照)に応じて、すべての質問を5つの難易度に分類する。 第4に、ゼロショット学習を採用して、追加の予測不可能性の導入を回避し、結果を抽出し判断する自動スコーリング方法を提供する。 最後に、平均、最悪、最良、多数決のケースの精度、繰り返し可能性など、多次元のメトリクスを定義します。 AGIBench は \url{https://www.benchcouncil.org/agibench} から公開されている。

Large language models (LLMs) like ChatGPT have revealed amazing intelligence. How to evaluate the question-solving abilities of LLMs and their degrees of intelligence is a hot-spot but challenging issue. First, the question-solving abilities are interlaced with different ability branches like understanding and massive knowledge categories like mathematics. Second, the inputs of questions are multimodal that may involve text and images. Third, the response format of LLMs is diverse and thus poses great challenges for result extraction and evaluation. In this paper, we propose AGIBench -- a multi-granularity, multimodal, human-referenced, and auto-scoring benchmarking methodology for LLMs. Instead of a collection of blended questions, AGIBench focuses on three typical ability branches and adopts a four-tuple <ability branch, knowledge, difficulty, modal> to label the attributes of each question. First, it supports multi-granularity benchmarking, e.g., per-question, per-ability branch, per-knowledge, per-modal, per-dataset, and per-difficulty level granularities. Second, it contains multimodal input, including text and images. Third, it classifies all the questions into five degrees of difficulty according to the average accuracy rate of abundant educated humans (human-referenced). Fourth, it adopts zero-shot learning to avoid introducing additional unpredictability and provides an auto-scoring method to extract and judge the result. Finally, it defines multi-dimensional metrics, including accuracy under the average, worst, best, and majority voting cases, and repeatability. AGIBench is publically available from \url{https://www.benchcouncil.org/agibench}.
翻訳日:2023-09-17 14:01:13 公開日:2023-09-05
# 音楽演奏におけるXAIの文脈感的アプローチ

A Context-Sensitive Approach to XAI in Music Performance ( http://arxiv.org/abs/2309.04491v1 )

ライセンス: Link先を確認
Nicola Privato and Jack Armitage(参考訳) 説明可能な人工知能(XAI)の急速に発展する分野は、AIシステムをより透明で理解しやすいものにする方法の開発に多大な関心を集めている。 しかしながら、任意のaiシステムに対して適切な説明を生成するために普遍的に適用できる単一のアプローチが存在しないため、説明可能性の問題は抽象的には徹底的には解決できない。 本稿では,音楽演奏におけるXAIのための説明的プラグマティズム(EP)フレームワークを提案する。 特定のオーディエンスに説明を調整し、フィードバックに基づいて継続的に修正することで、EPは幅広い芸術的応用、特に音楽パフォーマンスにおいて、AIシステムの透明性と解釈可能性を高めるための有望な方向性を提供する。

The rapidly evolving field of Explainable Artificial Intelligence (XAI) has generated significant interest in developing methods to make AI systems more transparent and understandable. However, the problem of explainability cannot be exhaustively solved in the abstract, as there is no single approach that can be universally applied to generate adequate explanations for any given AI system, and this is especially true in the arts. In this position paper, we propose an Explanatory Pragmatism (EP) framework for XAI in music performance, emphasising the importance of context and audience in the development of explainability requirements. By tailoring explanations to specific audiences and continuously refining them based on feedback, EP offers a promising direction for enhancing the transparency and interpretability of AI systems in broad artistic applications and more specifically to music performance.
翻訳日:2023-09-17 13:58:49 公開日:2023-09-05
# lb-simtsc:半教師付き時系列分類のための効率的な類似性認識グラフニューラルネットワーク

LB-SimTSC: An Efficient Similarity-Aware Graph Neural Network for Semi-Supervised Time Series Classification ( http://arxiv.org/abs/2301.04838v3 )

ライセンス: Link先を確認
Wenjie Xi, Arnav Jain, Li Zhang, Jessica Lin(参考訳) 時系列分類は、過去20年間に多くの関心を集めてきた重要なデータマイニングタスクである。 ラベルの不足により、ラベル付きサンプルの少ない半教師付き時系列分類が一般的になった。 近年,一対の動的時間ワープ(DTW)距離から生成されたグラフ上のグラフニューラルネットワーク分類モデルを用いて,類似性を考慮した時系列分類(SimTSC)を提案する。 精度は優れており、いくつかのラベル設定で最先端のディープラーニングモデルを上回る。 しかし、SimTSCはペアのDTW距離に依存するため、DTWの二次的な複雑さは、その使用性を合理的なサイズのデータセットに限定する。 そこで本研究では,新しいグラフ構築モジュールを用いた半教師付き時系列分類手法LB-SimTSCを提案する。 DTW の代わりに,DTW の低境界 LB_Keogh を用いて線形時間におけるインスタンス間の相似性を近似し,DTW によって得られる相対的近接関係を維持することを提案する。 LB_Keoghを用いてペア距離行列を構築し,グラフニューラルネットワークのためのグラフを構築する。 このアプローチを,有名なudr時系列分類アーカイブの10大データセットに適用する。 その結果,大規模データセット上でグラフを構築する場合,分類精度を著しく低下させることなく,simtscよりも最大104倍高速になることがわかった。

Time series classification is an important data mining task that has received a lot of interest in the past two decades. Due to the label scarcity in practice, semi-supervised time series classification with only a few labeled samples has become popular. Recently, Similarity-aware Time Series Classification (SimTSC) is proposed to address this problem by using a graph neural network classification model on the graph generated from pairwise Dynamic Time Warping (DTW) distance of batch data. It shows excellent accuracy and outperforms state-of-the-art deep learning models in several few-label settings. However, since SimTSC relies on pairwise DTW distances, the quadratic complexity of DTW limits its usability to only reasonably sized datasets. To address this challenge, we propose a new efficient semi-supervised time series classification technique, LB-SimTSC, with a new graph construction module. Instead of using DTW, we propose to utilize a lower bound of DTW, LB_Keogh, to approximate the dissimilarity between instances in linear time, while retaining the relative proximity relationships one would have obtained via computing DTW. We construct the pairwise distance matrix using LB_Keogh and build a graph for the graph neural network. We apply this approach to the ten largest datasets from the well-known UCR time series classification archive. The results demonstrate that this approach can be up to 104x faster than SimTSC when constructing the graph on large datasets without significantly decreasing classification accuracy.
翻訳日:2023-09-08 17:45:59 公開日:2023-09-05
# 量子aiエンパワードインテリジェントサーベイランス:革新的なコントラバンド検出による公衆安全の推進

Quantum-AI empowered Intelligent Surveillance: Advancing Public Safety Through Innovative Contraband Detection ( http://arxiv.org/abs/2309.03231v1 )

ライセンス: Link先を確認
Syed Atif Ali Shah, Nasir Algeelani, Najeeb Al-Sammarraie(参考訳) 監視システムは、現代の世界の平和と安全を維持する上で重要な要素として現れてきた。 疑わしい活動を効果的に監視するのに役立つ。 しかし、人口密度の高い環境では、連続的なアクティブモニタリングは現実的ではなく、インテリジェントな監視システムの開発を必要としている。 監視ドメインにおけるai統合は大きな革命でしたが、スピードの問題によってこの分野での広範な実装が妨げられました。 量子人工知能が大きなブレークスルーをもたらしたことが観測されている。 量子人工知能に基づく監視システムは、これまで見たことのないリアルタイムシナリオにおいて、より正確かつ優れた性能を発揮することが示されている。 本研究では,RentinaNetモデルをQuantum CNNに統合し,Quantum-RetinaNetと呼ぶ。 QCNNの量子能力を利用することで、Quantum-RetinaNetは精度と速度のバランスを取る。 この革新的な統合は、密集したシナリオにおけるアクティブモニタリングの課題に対処するため、ゲームチェンジャーとして位置づけている。 効率的な監視ソリューションの需要が増加を続ける中、quantum-retinanetは既存のcnnモデルに強力な代替手段を提供し、リアルタイムパフォーマンスを犠牲にすることなく精度基準を維持している。 量子網膜のユニークな特性は、インテリジェントな監視の未来に広く影響している。 処理速度が向上し、高速かつ高精度な監視の必要性に対処して、フィールドに革命を起こすことができる。 Quantum-RetinaNetが新しい標準になるにつれて、監視におけるAIの境界を押し広げながら、公衆の安全とセキュリティを確保する。

Surveillance systems have emerged as crucial elements in upholding peace and security in the modern world. Their ubiquity aids in monitoring suspicious activities effectively. However, in densely populated environments, continuous active monitoring becomes impractical, necessitating the development of intelligent surveillance systems. AI integration in the surveillance domain was a big revolution, however, speed issues have prevented its widespread implementation in the field. It has been observed that quantum artificial intelligence has led to a great breakthrough. Quantum artificial intelligence-based surveillance systems have shown to be more accurate as well as capable of performing well in real-time scenarios, which had never been seen before. In this research, a RentinaNet model is integrated with Quantum CNN and termed as Quantum-RetinaNet. By harnessing the Quantum capabilities of QCNN, Quantum-RetinaNet strikes a balance between accuracy and speed. This innovative integration positions it as a game-changer, addressing the challenges of active monitoring in densely populated scenarios. As demand for efficient surveillance solutions continues to grow, Quantum-RetinaNet offers a compelling alternative to existing CNN models, upholding accuracy standards without sacrificing real-time performance. The unique attributes of Quantum-RetinaNet have far-reaching implications for the future of intelligent surveillance. With its enhanced processing speed, it is poised to revolutionize the field, catering to the pressing need for rapid yet precise monitoring. As Quantum-RetinaNet becomes the new standard, it ensures public safety and security while pushing the boundaries of AI in surveillance.
翻訳日:2023-09-08 15:40:53 公開日:2023-09-05
# 自然例に基づく説明可能性:調査

Natural Example-Based Explainability: a Survey ( http://arxiv.org/abs/2309.03234v1 )

ライセンス: Link先を確認
Antonin Poch\'e, Lucas Hervier, Mohamed-Chafik Bakkay(参考訳) 説明可能な人工知能(XAI)は、機械学習モデルの解釈可能性と信頼性を改善するためにますます重要になっている。 この数年間、xai分野では、サリエンシーマップがショーを盗み出したが、モデルの内部プロセスを反映する能力は疑問視されている。 スポットライトは少ないが、例ベースのXAI手法は改善され続けている。 機械学習モデルの予測のための説明として例を使用するメソッドを含む。 これは、人間の推論の心理的メカニズムと一致し、サンプルベースの説明を自然かつ直感的にユーザに理解させる。 実際、人間は例に基づいて概念の精神的表現を形成することで学習し、理性を持つ。 本稿では, 自然例に基づくXAIにおける最先端技術の概要と, それぞれのアプローチの長所と短所について述べる。 自然」の例は、単にそれが生成過程を伴わずに、トレーニングデータから直接引き出されることを意味する。 サンプルの生成を必要とするメソッドの除外は、ユーザの信頼を得るために必要となる妥当性の必要性によって正当化される。 そこで本稿では,類似の例,反事実的,半事実的,影響力のある例,プロトタイプ,概念などについて考察する。 特に、意味的定義、認知的影響、付加価値を比較します。 自然の例に基づくXAIの今後の取り組みを奨励し、促進したいと思っています。

Explainable Artificial Intelligence (XAI) has become increasingly significant for improving the interpretability and trustworthiness of machine learning models. While saliency maps have stolen the show for the last few years in the XAI field, their ability to reflect models' internal processes has been questioned. Although less in the spotlight, example-based XAI methods have continued to improve. It encompasses methods that use examples as explanations for a machine learning model's predictions. This aligns with the psychological mechanisms of human reasoning and makes example-based explanations natural and intuitive for users to understand. Indeed, humans learn and reason by forming mental representations of concepts based on examples. This paper provides an overview of the state-of-the-art in natural example-based XAI, describing the pros and cons of each approach. A "natural" example simply means that it is directly drawn from the training data without involving any generative process. The exclusion of methods that require generating examples is justified by the need for plausibility which is in some regards required to gain a user's trust. Consequently, this paper will explore the following family of methods: similar examples, counterfactual and semi-factual, influential instances, prototypes, and concepts. In particular, it will compare their semantic definition, their cognitive impact, and added values. We hope it will encourage and facilitate future work on natural example-based XAI.
翻訳日:2023-09-08 15:28:32 公開日:2023-09-05
# 小売店舗の顧客行動分析システム:設計と実装

Retail store customer behavior analysis system: Design and Implementation ( http://arxiv.org/abs/2309.03232v1 )

ライセンス: Link先を確認
Tuan Dinh Nguyen, Keisuke Hihara, Tung Cao Hoang, Yumeka Utada, Akihiko Torii, Naoki Izumi, Nguyen Thanh Thuy and Long Quoc Tran(参考訳) 小売店舗における顧客行動を理解することは、サービスにパーソナライズされた価値を加えることで顧客満足度を向上させる上で重要な役割を果たす。 行動分析は、顧客と店舗アイテムや他の人々とのインタラクションにおける一般的なパターンと詳細なパターンを明らかにし、店長に顧客の好みに関する洞察を提供する。 いくつかのソリューションは、統計的視覚化によって特定の振る舞いを認識することで、このデータを活用することを目的としている。 しかし、現在のアプローチは、従来の行動検出手法を利用して、小さな顧客の行動集合の分析に限られている。 彼らは、コンピュータビジョンの分野で強力な手法であるディープニューラルネットワークのようなディープラーニング技術を使用しない。 さらに、システムによって取得された行動データを可視化する際には、これらの手法は限られた数値を提供する。 本研究では,顧客行動の数学的モデリング,効率的な深層学習システムを用いた行動分析,個人および集団行動の可視化という3つの主成分を含む枠組みを提案する。 各モジュールとシステム全体は、小売店舗の実際の状況からのデータを使用して検証された。

Understanding customer behavior in retail stores plays a crucial role in improving customer satisfaction by adding personalized value to services. Behavior analysis reveals both general and detailed patterns in the interaction of customers with a store items and other people, providing store managers with insight into customer preferences. Several solutions aim to utilize this data by recognizing specific behaviors through statistical visualization. However, current approaches are limited to the analysis of small customer behavior sets, utilizing conventional methods to detect behaviors. They do not use deep learning techniques such as deep neural networks, which are powerful methods in the field of computer vision. Furthermore, these methods provide limited figures when visualizing the behavioral data acquired by the system. In this study, we propose a framework that includes three primary parts: mathematical modeling of customer behaviors, behavior analysis using an efficient deep learning based system, and individual and group behavior visualization. Each module and the entire system were validated using data from actual situations in a retail store.
翻訳日:2023-09-08 15:28:11 公開日:2023-09-05
# Schr\\odinger 方程式からのハミルトンの運動方程式

Hamilton's Equations of Motion from Schr\"odinger's Equation ( http://arxiv.org/abs/2309.03349v1 )

ライセンス: Link先を確認
Phil Attard(参考訳) Schr\"odinger's equation から始め、ハミルトンの古典的な運動方程式は、その環境に絡み合った非対称な開量子系の非対称波動関数の崩壊から生じる。

Starting from Schr\"odinger's equation, Hamilton's classical equations of motion emerge from the collapse of the unsymmetrized wave function in a decoherent open quantum system entangled with its environment.
翻訳日:2023-09-08 14:56:39 公開日:2023-09-05
# ベルの定理で証明された実験的量子鍵分布

Experimental quantum key distribution certified by Bell's theorem ( http://arxiv.org/abs/2109.14600v2 )

ライセンス: Link先を確認
D. P. Nadlinger, P. Drmota, B. C. Nichol, G. Araneda, D. Main, R. Srinivas, D. M. Lucas, C. J. Ballance, K. Ivanov, E. Y-Z. Tan, P. Sekatski, R. L. Urbanke, R. Renner, N. Sangouard, and J-D. Bancal(参考訳) 暗号鍵交換プロトコルは伝統的に、盗聴攻撃に対するセキュリティを提供するために素因数分解の難しさのような計算上の予想に依存している。 驚くべきことに、bennett氏やbrasard氏によって提案されたような量子鍵配布プロトコルは、このような攻撃に対する情報理論的なセキュリティを提供します。 しかし、これまでに認識された量子プロトコルは、多くの巧妙な実験で示されているように、関連する物理デバイスの実装欠陥を悪用する新しい種類の攻撃の対象となる。 ベルの定理から敵の情報を束縛するために絡み合いを使うことを提唱するエケルトの先駆的な研究に続いて、これらの脆弱性に免疫する完全量子鍵分布プロトコルの実験的実現を提示する。 本研究では, 有限統計解析, 誤り訂正, プライバシー増幅に関する理論的展開と, 光ファイバーリンクで接続された2つの捕捉イオン量子ビット間の高忠実性絡み合いの高速発生を可能にするイベント対応スキームを組み合わせた。 量子理論の妥当性に基づいており、実験中に観測された測定統計によって認証されている。 この結果から,実世界のデバイスを用いたセキュアな暗号化が可能であり,デバイス独立原理に基づくさらなる量子情報応用の道を開いた。

Cryptographic key exchange protocols traditionally rely on computational conjectures such as the hardness of prime factorisation to provide security against eavesdropping attacks. Remarkably, quantum key distribution protocols like the one proposed by Bennett and Brassard provide information-theoretic security against such attacks, a much stronger form of security unreachable by classical means. However, quantum protocols realised so far are subject to a new class of attacks exploiting implementation defects in the physical devices involved, as demonstrated in numerous ingenious experiments. Following the pioneering work of Ekert proposing the use of entanglement to bound an adversary's information from Bell's theorem, we present here the experimental realisation of a complete quantum key distribution protocol immune to these vulnerabilities. We achieve this by combining theoretical developments on finite-statistics analysis, error correction, and privacy amplification, with an event-ready scheme enabling the rapid generation of high-fidelity entanglement between two trapped-ion qubits connected by an optical fibre link. The secrecy of our key is guaranteed device-independently: it is based on the validity of quantum theory, and certified by measurement statistics observed during the experiment. Our result shows that provably secure cryptography with real-world devices is possible, and paves the way for further quantum information applications based on the device-independence principle.
翻訳日:2023-09-07 20:39:11 公開日:2023-09-05
# Laplacian Constrained Graphical Modelsの下で$\ell_1$-normはスパースグラフを学ぶか?

Does the $\ell_1$-norm Learn a Sparse Graph under Laplacian Constrained Graphical Models? ( http://arxiv.org/abs/2006.14925v2 )

ライセンス: Link先を確認
Jiaxi Ying, Jos\'e Vin\'icius de M. Cardoso, Daniel P. Palomar(参考訳) ラプラシアン制約付きガウス図形モデルの下でスパースグラフを学習する問題を考える。 この問題は、ラプラシア制約精度行列のペナル化最大推定として定式化することができる。 古典的なグラフィカルラッソ問題と同様に、最近の研究ではラプラシアン制約付き精度行列推定のスパーシティを促進する目的で$\ell_1$-norm正規化を用いた。 しかし、広く使われている $\ell_1$-norm は、この問題におけるスパース解を与えるのに有効ではない。 経験的証拠を通して、正規化パラメータの増加に伴って非零グラフ重みの数が増加することを観測する。 理論的には、大きな正規化パラメータが驚くほど完全なグラフ、すなわちすべての頂点対がエッジによって接続されることを証明している。 この問題に対処するために,非凸スパルシティペナルティを導入し,重み付き$\ell_1$-normペナルティ化されたサブプロブレムの列を解いて,新しい推定器を提案する。 本研究では,最適化誤差と統計誤差の両方に対して非漸近的最適化性能を保証し,提案手法がエッジを高い確率で正しく回復できることを示す。 それぞれのサブプロブレムを解くために,線形収束率を満足する射影勾配降下アルゴリズムを開発した。 最後に,追加のランク制約を課すことにより,切断グラフを学習するための拡張を提案する。 本稿では,乗算器の交互方向法に基づく数値解法を提案し,その理論列収束性を確立する。 合成および実世界のデータセットを含む数値実験により,提案手法の有効性が示された。

We consider the problem of learning a sparse graph under the Laplacian constrained Gaussian graphical models. This problem can be formulated as a penalized maximum likelihood estimation of the Laplacian constrained precision matrix. Like in the classical graphical lasso problem, recent works made use of the $\ell_1$-norm regularization with the goal of promoting sparsity in Laplacian constrained precision matrix estimation. However, we find that the widely used $\ell_1$-norm is not effective in imposing a sparse solution in this problem. Through empirical evidence, we observe that the number of nonzero graph weights grows with the increase of the regularization parameter. From a theoretical perspective, we prove that a large regularization parameter will surprisingly lead to a complete graph, i.e., every pair of vertices is connected by an edge. To address this issue, we introduce the nonconvex sparsity penalty, and propose a new estimator by solving a sequence of weighted $\ell_1$-norm penalized sub-problems. We establish the non-asymptotic optimization performance guarantees on both optimization error and statistical error, and prove that the proposed estimator can recover the edges correctly with a high probability. To solve each sub-problem, we develop a projected gradient descent algorithm which enjoys a linear convergence rate. Finally, an extension to learn disconnected graphs is proposed by imposing additional rank constraint. We propose a numerical algorithm based on based on the alternating direction method of multipliers, and establish its theoretical sequence convergence. Numerical experiments involving synthetic and real-world data sets demonstrate the effectiveness of the proposed method.
翻訳日:2023-09-07 20:37:25 公開日:2023-09-05
# 反復数が異なるニューラル・オードモデルのフェデレーション学習

Federated Learning of Neural ODE Models with Different Iteration Counts ( http://arxiv.org/abs/2208.09478v4 )

ライセンス: Link先を確認
Yuto Hoshino, Hiroki Kawakami, Hiroki Matsutani(参考訳) フェデレーション学習(federated learning)は、クライアントが自身のデータをローカルにトレーニングし、それをサーバにアップロードする分散機械学習アプローチである。 フェデレート学習には,コミュニケーションサイズ削減やクライアントの不均一性など,いくつかの課題がある。 前者は通信のオーバーヘッドを軽減でき、後者はクライアントが利用可能な計算リソースに応じて適切なモデルを選択することができる。 本稿では、これらの課題に対処するために、ニューラルネットワークODEに基づくモデルを用いてフェデレート学習を行う。 提案するフレキシブルな連合学習アプローチは,イテレーション数や深さの異なるモデルを集約しながら,コミュニケーションサイズを削減できる。 私たちの貢献は、提案したフェデレーション学習が、反復数や深さの異なるモデルを集約できることを実験的に実証することです。 精度の面では、異なる連合学習アプローチと比較される。 さらに,CIFAR-10データセットを用いたベースラインResNetモデルと比較して,通信サイズを最大92.4%削減できることを示す。

Federated learning is a distributed machine learning approach in which clients train models locally with their own data and upload them to a server so that their trained results are shared between them without uploading raw data to the server. There are some challenges in federated learning, such as communication size reduction and client heterogeneity. The former can mitigate the communication overheads, and the latter can allow the clients to choose proper models depending on their available compute resources. To address these challenges, in this paper, we utilize Neural ODE based models for federated learning. The proposed flexible federated learning approach can reduce the communication size while aggregating models with different iteration counts or depths. Our contribution is that we experimentally demonstrate that the proposed federated learning can aggregate models with different iteration counts or depths. It is compared with a different federated learning approach in terms of the accuracy. Furthermore, we show that our approach can reduce communication size by up to 92.4% compared with a baseline ResNet model using CIFAR-10 dataset.
翻訳日:2023-09-07 20:19:53 公開日:2023-09-05
# グラフ分類のためのグラフニューラルネットワークの逆攻撃の再検討

Revisiting Adversarial Attacks on Graph Neural Networks for Graph Classification ( http://arxiv.org/abs/2208.06651v2 )

ライセンス: Link先を確認
Xin Wang, Heng Chang, Beini Xie, Tian Bian, Shiji Zhou, Daixin Wang, Zhiqiang Zhang, Wenwu Zhu(参考訳) グラフニューラルネットワーク(GNN)は、グラフ分類とそのさまざまな下流現実世界のアプリケーションにおいて、大きな成功を収めている。 グラフ表現の学習に大きな成功にもかかわらず、現在のGNNモデルは、グラフ構造化データ上の潜在的に敵対的な例に対する脆弱性を実証している。 既存のアプローチは、構造攻撃に限られるか、ローカル情報に制限されるかのいずれかであり、グラフ分類におけるより一般的な攻撃フレームワークの設計を要求する。 本稿では,この「グローバル・ツー・ローカル」攻撃問題に対処するために,グラフ構造とノード機能を操作することによって,逆行例を生成するための新しい汎用フレームワークを提案する。 具体的には,グラフ分類タスクに対応するノードレベルの重要度を生成するために,グラフクラスアクティベーションマッピングとその変種を利用する。 そしてアルゴリズムのヒューリスティックな設計により、ノードレベルとサブグラフレベルの両方の重要性の助けを借りて、目立たない摂動予算の下で特徴的および構造的攻撃を行うことができる。 6つの実世界のベンチマークで4つの最先端グラフ分類モデルを攻撃する実験は、フレームワークの柔軟性と有効性を検証する。

Graph neural networks (GNNs) have achieved tremendous success in the task of graph classification and its diverse downstream real-world applications. Despite the huge success in learning graph representations, current GNN models have demonstrated their vulnerability to potentially existent adversarial examples on graph-structured data. Existing approaches are either limited to structure attacks or restricted to local information, urging for the design of a more general attack framework on graph classification, which faces significant challenges due to the complexity of generating local-node-level adversarial examples using the global-graph-level information. To address this "global-to-local" attack challenge, we present a novel and general framework to generate adversarial examples via manipulating graph structure and node features. Specifically, we make use of Graph Class Activation Mapping and its variant to produce node-level importance corresponding to the graph classification task. Then through a heuristic design of algorithms, we can perform both feature and structure attacks under unnoticeable perturbation budgets with the help of both node-level and subgraph-level importance. Experiments towards attacking four state-of-the-art graph classification models on six real-world benchmarks verify the flexibility and effectiveness of our framework.
翻訳日:2023-09-07 20:19:36 公開日:2023-09-05
# バイレベル最適化を用いた学習スパーシティプロモーティング正則化器

Learning Sparsity-Promoting Regularizers using Bilevel Optimization ( http://arxiv.org/abs/2207.08939v2 )

ライセンス: Link先を確認
Avrajit Ghosh, Michael T. McCann, Madeline Mitchell, and Saiprasad Ravishankar(参考訳) 本稿では,信号と画像の同期化のためのスパルシリティプロモーティング正規化器の教師付き学習法を提案する。 スパルシリティプロモーティング正則化は、現代の信号再構成問題を解決する上で重要な要素であるが、これらの正則化の基礎となる演算子は通常、手で設計するか、教師なしの方法でデータから学習される。 画像再構成問題の解決における教師あり学習(主に畳み込みニューラルネットワーク)の成功は、正規化器を設計するための実りあるアプローチであることを示している。 そこで本研究では,パラメトリック・スパーシティ・プロモーティング・レギュラライザを用いた変分定式化手法を用いて,レギュラライザのパラメータを学習し,地上真理画像と計測ペアのトレーニングセットにおける再構成平均二乗誤差を最小化する手法を提案する。 トレーニングは、難解な双可解最適化問題を解くことを含み、デノナイジング問題の閉形式解を用いて、トレーニング損失の勾配の式を導出し、それを最小化する勾配降下アルゴリズムを提供する。 本研究では,構造化1次元信号と自然画像を用いた実験により,既知の正規化器(トータル変動,dct-sparsity,教師なし辞書学習)と協調フィルタリングを学習し,雑音除去を行うことができることを示す。 我々が提示するアプローチはデノイジングに特有であるが、線形計測モデルによるより広い種類の逆問題に適用できると信じており、幅広い信号再構成設定で適用可能である。

We present a method for supervised learning of sparsity-promoting regularizers for denoising signals and images. Sparsity-promoting regularization is a key ingredient in solving modern signal reconstruction problems; however, the operators underlying these regularizers are usually either designed by hand or learned from data in an unsupervised way. The recent success of supervised learning (mainly convolutional neural networks) in solving image reconstruction problems suggests that it could be a fruitful approach to designing regularizers. Towards this end, we propose to denoise signals using a variational formulation with a parametric, sparsity-promoting regularizer, where the parameters of the regularizer are learned to minimize the mean squared error of reconstructions on a training set of ground truth image and measurement pairs. Training involves solving a challenging bilievel optimization problem; we derive an expression for the gradient of the training loss using the closed-form solution of the denoising problem and provide an accompanying gradient descent algorithm to minimize it. Our experiments with structured 1D signals and natural images show that the proposed method can learn an operator that outperforms well-known regularizers (total variation, DCT-sparsity, and unsupervised dictionary learning) and collaborative filtering for denoising. While the approach we present is specific to denoising, we believe that it could be adapted to the larger class of inverse problems with linear measurement models, giving it applicability in a wide range of signal reconstruction settings.
翻訳日:2023-09-07 20:18:41 公開日:2023-09-05
# 実処理インメモリシステムにおける機械学習学習の実験的評価

An Experimental Evaluation of Machine Learning Training on a Real Processing-in-Memory System ( http://arxiv.org/abs/2207.07886v5 )

ライセンス: Link先を確認
Juan G\'omez-Luna, Yuxin Guo, Sylvan Brocard, Julien Legriel, Remy Cimadomo, Geraldo F. Oliveira, Gagandeep Singh, Onur Mutlu(参考訳) 機械学習(ML)アルゴリズムのトレーニングは計算集約的なプロセスであり、大規模なトレーニングデータセットに繰り返しアクセスするため、メモリバウンドが頻繁に発生する。 その結果、プロセッサ中心のシステム(CPU、GPUなど)は、大量のエネルギーと実行サイクルを消費するメモリユニットと処理ユニットの間のコストのかかるデータ移動に悩まされる。 メモリ中心のコンピューティングシステム、すなわち処理・イン・メモリ(pim)機能により、このデータ移動ボトルネックを軽減することができる。 我々のゴールは、MLトレーニングを加速する現代の汎用PIMアーキテクチャの可能性を理解することである。 そのため,(1) 現実の汎用PIMアーキテクチャ上での代表的なMLアルゴリズム(線形回帰,ロジスティック回帰,決定木,K平均クラスタリング)を実装し,(2) 精度,性能,スケーリングの点でそれらを厳格に評価,特徴付けし,(3) 対応するCPUやGPUの実装と比較する。 2500以上のPIMコアを持つ実メモリ中心型コンピューティングシステムに対する評価は、PIMハードウェアで必要な操作やデータタイプをネイティブにサポートする場合、汎用PIMアーキテクチャがメモリバウンドMLワークロードを大幅に高速化できることを示している。 例えば、私たちのPIMによる決定ツリーの実装は、8コアのIntel Xeonの最先端CPUバージョンよりも27\times$高速で、NVIDIA A100の最先端GPUバージョンより1.34\times$高速です。 PIM上でのK-Meansクラスタリングは、それぞれ最先端のCPUバージョンとGPUバージョンよりも2.8\times$と3.2\times$です。 私たちの知る限り、実際のPIMアーキテクチャ上でMLトレーニングを評価するのは、私たちの仕事が初めてです。 我々は、MLワークロードのユーザ、PIMアーキテクチャのプログラマ、将来のメモリ中心コンピューティングシステムのハードウェアデザイナやアーキテクトに刺激を与える、重要な観察、テイクアウト、レコメンデーションで締めくくります。

Training machine learning (ML) algorithms is a computationally intensive process, which is frequently memory-bound due to repeatedly accessing large training datasets. As a result, processor-centric systems (e.g., CPU, GPU) suffer from costly data movement between memory units and processing units, which consumes large amounts of energy and execution cycles. Memory-centric computing systems, i.e., with processing-in-memory (PIM) capabilities, can alleviate this data movement bottleneck. Our goal is to understand the potential of modern general-purpose PIM architectures to accelerate ML training. To do so, we (1) implement several representative classic ML algorithms (namely, linear regression, logistic regression, decision tree, K-Means clustering) on a real-world general-purpose PIM architecture, (2) rigorously evaluate and characterize them in terms of accuracy, performance and scaling, and (3) compare to their counterpart implementations on CPU and GPU. Our evaluation on a real memory-centric computing system with more than 2500 PIM cores shows that general-purpose PIM architectures can greatly accelerate memory-bound ML workloads, when the necessary operations and datatypes are natively supported by PIM hardware. For example, our PIM implementation of decision tree is $27\times$ faster than a state-of-the-art CPU version on an 8-core Intel Xeon, and $1.34\times$ faster than a state-of-the-art GPU version on an NVIDIA A100. Our K-Means clustering on PIM is $2.8\times$ and $3.2\times$ than state-of-the-art CPU and GPU versions, respectively. To our knowledge, our work is the first one to evaluate ML training on a real-world PIM architecture. We conclude with key observations, takeaways, and recommendations that can inspire users of ML workloads, programmers of PIM architectures, and hardware designers & architects of future memory-centric computing systems.
翻訳日:2023-09-07 20:17:45 公開日:2023-09-05
# 複数の選択肢から選択する学習

Learning to Select from Multiple Options ( http://arxiv.org/abs/2212.00301v2 )

ライセンス: Link先を確認
Jiangshu Du, Wenpeng Yin, Congying Xia, Philip S. Yu(参考訳) 多くのNLPタスクは、分類タスク、複数選択質問応答など、一連のオプションから選択問題とみなすことができる。 テクスチャエンテーメント(TE)は、それらの選択問題に対処するための最先端(SOTA)アプローチとして示されている。 TEは入力テキストを前提 (P) として扱い、オプションを仮説 (H) として扱う。 第一に、ペアワイズ・モデリングは、他の選択肢に気付かないが、人間は競合する候補を比較して最適な選択肢を決定することが多いため、直感的ではない。 この2つの問題に対処するために、この研究はまず、現在の(P, H)モデリングのコンテキストとして他のkオプションを追加することで、コンテキスト化されたTEモデル(Context-TE)を提案する。 Context-TEは、さまざまなコンテキストを考慮するため、より信頼性の高いHの決定を学習することができる。 次に,複数の選択肢を同時に選択するparallel-teを考案することで,コンテキストテを高速化する。 Parallel-TEはContext-TEと同等のパフォーマンスを維持しながら、推論速度を大幅に改善する。 提案手法は,オプションのサイズの異なる典型的な選択問題である3つのタスク(超微細なエンティティタイピング,意図検出,複数選択QA)で評価する。 実験の結果,新たなSOTA性能が得られた。特にParallel-TEは,1対のTEよりも100倍高速である。 私たちのコードはhttps://github.com/jiangshdd/LearningToSelect.comで公開されています。

Many NLP tasks can be regarded as a selection problem from a set of options, such as classification tasks, multi-choice question answering, etc. Textual entailment (TE) has been shown as the state-of-the-art (SOTA) approach to dealing with those selection problems. TE treats input texts as premises (P), options as hypotheses (H), then handles the selection problem by modeling (P, H) pairwise. Two limitations: first, the pairwise modeling is unaware of other options, which is less intuitive since humans often determine the best options by comparing competing candidates; second, the inference process of pairwise TE is time-consuming, especially when the option space is large. To deal with the two issues, this work first proposes a contextualized TE model (Context-TE) by appending other k options as the context of the current (P, H) modeling. Context-TE is able to learn more reliable decision for the H since it considers various context. Second, we speed up Context-TE by coming up with Parallel-TE, which learns the decisions of multiple options simultaneously. Parallel-TE significantly improves the inference speed while keeping comparable performance with Context-TE. Our methods are evaluated on three tasks (ultra-fine entity typing, intent detection and multi-choice QA) that are typical selection problems with different sizes of options. Experiments show our models set new SOTA performance; particularly, Parallel-TE is faster than the pairwise TE by k times in inference. Our code is publicly available at https://github.com/jiangshdd/LearningToSelect.
翻訳日:2023-09-07 19:57:58 公開日:2023-09-05
# 視覚障害者が撮影する画像の高次物体検出

Salient Object Detection for Images Taken by People With Vision Impairments ( http://arxiv.org/abs/2301.05323v2 )

ライセンス: Link先を確認
Jarek Reynolds, Chandra Kanth Nagesh, Danna Gurari(参考訳) 正当性オブジェクト検出は、前景オブジェクトと背景オブジェクトとに属するピクセルを解読する画像のためのバイナリマスクを生成するタスクである。 視覚障害者が周囲をよりよく理解しようとした場合,視覚障害者が撮影した画像を用いて,新たな有能な物体検出データセットを提案する。 既存の7つのデータセットと比較すると、VizWiz-SalientObjectは最大(つまり32,000の人間による注釈付き画像)であり、サリアンオブジェクト(68 %のイメージ)におけるテキストの頻度が高く、画像の比率が大きいサリアンオブジェクト(平均で$\sim$50 %のカバレッジ)を含むユニークな特徴を持っている。 われわれのデータセット上で7つの現代的な正当性オブジェクト検出手法をベンチマークした結果、大きめの正当性オブジェクトが特徴的で、境界が複雑で、テキストの欠如や画質の低い画像に最も苦労していることが判明した。 データセットをhttps://vizwiz.org/tasks-and-datasets/salient-object.orgで公開することで、新たなデータセット課題に取り組むために、幅広いコミュニティを招待します。

Salient object detection is the task of producing a binary mask for an image that deciphers which pixels belong to the foreground object versus background. We introduce a new salient object detection dataset using images taken by people who are visually impaired who were seeking to better understand their surroundings, which we call VizWiz-SalientObject. Compared to seven existing datasets, VizWiz-SalientObject is the largest (i.e., 32,000 human-annotated images) and contains unique characteristics including a higher prevalence of text in the salient objects (i.e., in 68\% of images) and salient objects that occupy a larger ratio of the images (i.e., on average, $\sim$50\% coverage). We benchmarked seven modern salient object detection methods on our dataset and found they struggle most with images featuring salient objects that are large, have less complex boundaries, and lack text as well as for lower quality images. We invite the broader community to work on our new dataset challenge by publicly sharing the dataset at https://vizwiz.org/tasks-and-datasets/salient-object .
翻訳日:2023-09-07 19:45:46 公開日:2023-09-05
# 世界のホログラムは

Holograms In Our World ( http://arxiv.org/abs/2302.07892v2 )

ライセンス: Link先を確認
Raphael Bousso and Geoff Penington(参考訳) AdS/CFT において、絡み合いウェッジ EW$(B)$ は境界領域 $B$ から再構成できるバルク幾何学の一部であり、言い換えれば EW$(B)$ は B$ のホログラムである。 この概念を任意の時空に拡張する。 任意の重力領域 $a$ が与えられると、max- と min-アンタグルメント wedge, $e_{\rm max}(a)$ と $e_{\rm min}(a)$ を定義するので、$e_{\rm min}(a)\supset e_{\rm max}(a)\supset a$ となる。 AdS/CFTの類似物とは異なり、この2つの時空領域は、一般化エントロピーが領域によって近似されるとき、古典的なレベルで既に異なることができる。 a$ in $e_{\rm max}(a)$ 以外の全ての情報は、中間ホモロジー曲面の領域によって容量が制御される量子チャネルを通して、a$ に向かって内向きに流れることができる。 対照的に、$e_{\rm min}(a)$ 以外の全ての情報は外部へ流れることができる。 適切な絡み合いのウェッジの一般化エントロピーは強い部分付加性に従い、通常の量子系のフォン・ノイマンエントロピーを表すことを示唆している。 適度に独立な領域の絡み合いは、非閉関係を満たす。 これは、a$の半古典的記述を超越するリソースを使って、a$のオブザーバーが、空間的な関連点から情報を$e_{\rm max}(a)$で呼び出すことができることを示唆している。

In AdS/CFT, the entanglement wedge EW$(B)$ is the portion of the bulk geometry that can be reconstructed from a boundary region $B$; in other words, EW$(B)$ is the hologram of $B$. We extend this notion to arbitrary spacetimes. Given any gravitating region $a$, we define a max- and a min-entanglement wedge, $e_{\rm max}(a)$ and $e_{\rm min}(a)$, such that $e_{\rm min}(a)\supset e_{\rm max}(a)\supset a$. Unlike their analogues in AdS/CFT, these two spacetime regions can differ already at the classical level, when the generalized entropy is approximated by the area. All information outside $a$ in $e_{\rm max}(a)$ can flow inwards towards $a$, through quantum channels whose capacity is controlled by the areas of intermediate homology surfaces. In contrast, all information outside $e_{\rm min}(a)$ can flow outwards. The generalized entropies of appropriate entanglement wedges obey strong subadditivity, suggesting that they represent the von Neumann entropies of ordinary quantum systems. The entanglement wedges of suitably independent regions satisfy a no-cloning relation. This suggests that it may be possible for an observer in $a$ to summon information from spacelike related points in $e_{\rm max}(a)$, using resources that transcend the semiclassical description of $a$.
翻訳日:2023-09-07 19:36:47 公開日:2023-09-05
# edgeserve:分散型モデルサービスのためのストリーミングシステム

EdgeServe: A Streaming System for Decentralized Model Serving ( http://arxiv.org/abs/2303.08028v2 )

ライセンス: Link先を確認
Ted Shaowang, Sanjay Krishnan(参考訳) 機械学習タスクの関連する機能は、ネットワーク内の異なるノードで収集されたデータソースから集約することができる。 この問題は分散予測と呼ばれ、データルーティングの管理、計算の配置、時間同期といった多くの興味深いシステム課題を生み出します。 本稿では,分散予測が可能な機械学習システムであるEdgeServeを提案する。 EdgeServeは低レイテンシのメッセージブローカを使用して、予測を処理可能なノードにデータをルーティングする。 EdgeServeは、計算、通信、精度をトレードオフできる一連の新しい最適化に依存している。 1)マルチカメラオブジェクト追跡,(2)ネットワーク侵入検出,(3)人間の活動認識の3つの分散予測タスクについて,EdgeServeの評価を行った。

The relevant features for a machine learning task may be aggregated from data sources collected on different nodes in a network. This problem, which we call decentralized prediction, creates a number of interesting systems challenges in managing data routing, placing computation, and time-synchronization. This paper presents EdgeServe, a machine learning system that can serve decentralized predictions. EdgeServe relies on a low-latency message broker to route data through a network to nodes that can serve predictions. EdgeServe relies on a series of novel optimizations that can tradeoff computation, communication, and accuracy. We evaluate EdgeServe on three decentralized prediction tasks: (1) multi-camera object tracking, (2) network intrusion detection, and (3) human activity recognition.
翻訳日:2023-09-07 19:26:18 公開日:2023-09-05
# ChatGPTは地平線上にある: 大規模言語モデルは知的交通安全研究や応用に適しているのか?

ChatGPT is on the Horizon: Could a Large Language Model be Suitable for Intelligent Traffic Safety Research and Applications? ( http://arxiv.org/abs/2303.05382v3 )

ライセンス: Link先を確認
Ou Zheng, Mohamed Abdel-Aty, Dongdong Wang, Zijin Wang, Shengxuan Ding(参考訳) ChatGPTは人工知能の新しい時代に乗り出し、インテリジェントな交通安全システムへのアプローチに革命をもたらすだろう。 本稿では,大規模言語モデル(LLM)の開発について概説する。 次に、重要な交通安全問題に対処するためにChatGPTを例示する。 さらに,llmを取り巻く議論を議論し,デプロイに関する重要な疑問を提起し,ソリューションを提供する。 さらに,よりスマートな交通安全意思決定のためのマルチモダリティ表現学習のアイデアを提案し,アプリケーション改善のためのさらなる疑問を提起する。 LLMは交通安全研究の構成要素を形作り、潜在的に促進するものと信じている。

ChatGPT embarks on a new era of artificial intelligence and will revolutionize the way we approach intelligent traffic safety systems. This paper begins with a brief introduction about the development of large language models (LLMs). Next, we exemplify using ChatGPT to address key traffic safety issues. Furthermore, we discuss the controversies surrounding LLMs, raise critical questions for their deployment, and provide our solutions. Moreover, we propose an idea of multi-modality representation learning for smarter traffic safety decision-making and open more questions for application improvement. We believe that LLM will both shape and potentially facilitate components of traffic safety research.
翻訳日:2023-09-07 19:24:56 公開日:2023-09-05
# TransPimLib: メモリ内処理システムにおける効率的な超越関数ライブラリ

TransPimLib: A Library for Efficient Transcendental Functions on Processing-in-Memory Systems ( http://arxiv.org/abs/2304.01951v5 )

ライセンス: Link先を確認
Maurus Item, Juan G\'omez-Luna, Yuxin Guo, Geraldo F. Oliveira, Mohammad Sadrosadati, Onur Mutlu(参考訳) プロセッシング・イン・メモリ(PIM)は、現代のコンピューティングシステムにおけるデータ移動のボトルネックを軽減することを約束する。 しかし、現在の実世界のpimシステムは、メモリの近くで処理要素を構築するのが困難でコストがかかるため、ハードウェアが従来のプロセッサ(cpu、gpu)よりも制約が強いという固有の欠点がある。 その結果、汎用PIMアーキテクチャは、かなり限られた命令セットをサポートし、超越関数などの複雑な操作(例えば平方根)を実行するのに苦労する。 これらの操作は、機械学習アプリケーションにおけるアクティベーション機能など、現代のワークロードにおいて特に重要である。 汎用PIMシステムにおける超越関数(およびその他のハード・トゥ・カルキュレート関数)のサポートを提供するため,CORDICに基づく三角関数,双曲関数,指数関数,対数,平方根などのためのライブラリである \emph{TransPimLib} を提案する。 UPMEM PIMアーキテクチャのためのTransPimLibの実装を開発し、マイクロベンチマークと3つのフルワークロード(Blackscholes, Sigmoid, Softmax)を用いて、TransPimLibの手法を性能と精度で徹底的に評価する。 私たちは、すべてのコードとデータセットを、~\url{https://github.com/CMU-SAFARI/transpimlib}でオープンソースにしています。

Processing-in-memory (PIM) promises to alleviate the data movement bottleneck in modern computing systems. However, current real-world PIM systems have the inherent disadvantage that their hardware is more constrained than in conventional processors (CPU, GPU), due to the difficulty and cost of building processing elements near or inside the memory. As a result, general-purpose PIM architectures support fairly limited instruction sets and struggle to execute complex operations such as transcendental functions and other hard-to-calculate operations (e.g., square root). These operations are particularly important for some modern workloads, e.g., activation functions in machine learning applications. In order to provide support for transcendental (and other hard-to-calculate) functions in general-purpose PIM systems, we present \emph{TransPimLib}, a library that provides CORDIC-based and LUT-based methods for trigonometric functions, hyperbolic functions, exponentiation, logarithm, square root, etc. We develop an implementation of TransPimLib for the UPMEM PIM architecture and perform a thorough evaluation of TransPimLib's methods in terms of performance and accuracy, using microbenchmarks and three full workloads (Blackscholes, Sigmoid, Softmax). We open-source all our code and datasets at~\url{https://github.com/CMU-SAFARI/transpimlib}.
翻訳日:2023-09-07 19:17:08 公開日:2023-09-05
# ゼロショット分類器によるテキスト・画像拡散モデル

Text-to-Image Diffusion Models are Zero-Shot Classifiers ( http://arxiv.org/abs/2303.15233v2 )

ライセンス: Link先を確認
Kevin Clark, Priyank Jaini(参考訳) テキスト間拡散モデルの優れた生成能力は、画像テキストデータの情報表現を学ぶことを示唆している。 しかし、それらの表現がどのような知識を捉えているかは完全には理解されておらず、下流のタスクで徹底的に調べられていない。 拡散モデルをゼロショット分類器として評価する手法を提案する。 重要なアイデアは、ラベルのテキスト記述をそのラベルの確率の代理として与えたノイズ画像に対して拡散モデルの能力を使用することである。 本研究では,モデル知識のきめ細かな側面を探索し,クリップのゼロショット能力と比較することにより,拡散の安定と画像化に適用する。 彼らは幅広いゼロショット画像分類データセットでCLIPと競合する。 さらに、形状/テクスチャバイアステストで最先端の結果が得られ、CLIPができない間に属性バインディングをうまく実行できます。 生成前訓練はNLPで一般的であるが、視覚基礎モデルはコントラスト学習などの他の手法を用いることが多い。 本研究は,視覚言語タスクの代替として,生成的事前学習を探求すべきであると考えている。

The excellent generative capabilities of text-to-image diffusion models suggest they learn informative representations of image-text data. However, what knowledge their representations capture is not fully understood, and they have not been thoroughly explored on downstream tasks. We investigate diffusion models by proposing a method for evaluating them as zero-shot classifiers. The key idea is using a diffusion model's ability to denoise a noised image given a text description of a label as a proxy for that label's likelihood. We apply our method to Stable Diffusion and Imagen, using it to probe fine-grained aspects of the models' knowledge and comparing them with CLIP's zero-shot abilities. They perform competitively with CLIP on a wide range of zero-shot image classification datasets. Additionally, they achieve state-of-the-art results on shape/texture bias tests and can successfully perform attribute binding while CLIP cannot. Although generative pre-training is prevalent in NLP, visual foundation models often use other methods such as contrastive learning. Based on our findings, we argue that generative pre-training should be explored as a compelling alternative for vision-language tasks.
翻訳日:2023-09-07 19:16:22 公開日:2023-09-05
# インクリメンタル学習とコンセプトドリフト適応を用いたストリーミングデータのオートエンコーダによる異常検出

Autoencoder-based Anomaly Detection in Streaming Data with Incremental Learning and Concept Drift Adaptation ( http://arxiv.org/abs/2305.08977v2 )

ライセンス: Link先を確認
Jin Li, Kleanthis Malialis, Marios M. Polycarpou(参考訳) 現代のデジタル世界では、様々なアプリケーション領域で大量のデータがストリーミング形式で生成されています。 これらのデータは、しばしば重複しない。 この場合、異常などの頻度の低い事象を特定することは大きな課題となる。 この問題は非定常環境においてさらに難しくなり、モデルの予測性能が劣化する可能性がある。 以上の課題に対処するため,自動エンコーダを用いたドリフト検出学習手法(strAEm++DD)を提案する。 提案手法は,逐次学習とドリフト検出の両方の利点を利用する。 重度または極度のクラス不均衡を持つ実世界および合成データセットを用いた実験研究を行い,straem++ddの実証分析を行った。 さらに比較研究を行い,提案手法が既存のベースライン法と先進法を著しく上回ることを示す。

In our digital universe nowadays, enormous amount of data are produced in a streaming manner in a variety of application areas. These data are often unlabelled. In this case, identifying infrequent events, such as anomalies, poses a great challenge. This problem becomes even more difficult in non-stationary environments, which can cause deterioration of the predictive performance of a model. To address the above challenges, the paper proposes an autoencoder-based incremental learning method with drift detection (strAEm++DD). Our proposed method strAEm++DD leverages on the advantages of both incremental learning and drift detection. We conduct an experimental study using real-world and synthetic datasets with severe or extreme class imbalance, and provide an empirical analysis of strAEm++DD. We further conduct a comparative study, showing that the proposed method significantly outperforms existing baseline and advanced methods.
翻訳日:2023-09-07 19:09:00 公開日:2023-09-05
# GANを用いた胸部X線データセットバイアスの可視化

Visualizing chest X-ray dataset biases using GANs ( http://arxiv.org/abs/2305.00147v2 )

ライセンス: Link先を確認
Hao Liang, Kevin Ni, Guha Balakrishnan(参考訳) 最近の研究では、様々な胸部X線データセットの画像には、人種や性別といった保護された人口特性と強く相関する視覚的特徴が含まれていることが示されている。 これらの要因のいくつかは臨床予測のために下流アルゴリズムによって使用される可能性があるため、この発見は公平性の問題を提起する。 本研究では,2つの層群に属するX線に最も異なる特徴を可視化するために,GAN(Generative Adversarial Network)を用いたフレームワークを提案する。

Recent work demonstrates that images from various chest X-ray datasets contain visual features that are strongly correlated with protected demographic attributes like race and gender. This finding raises issues of fairness, since some of these factors may be used by downstream algorithms for clinical predictions. In this work, we propose a framework, using generative adversarial networks (GANs), to visualize what features are most different between X-rays belonging to two demographic subgroups.
翻訳日:2023-09-07 19:07:47 公開日:2023-09-05
# データ駆動気象予測のためのその場観測の検証

Verification against in-situ observations for Data-Driven Weather Prediction ( http://arxiv.org/abs/2305.00048v2 )

ライセンス: Link先を確認
Vivek Ramavajjala, Peetak P. Mitra(参考訳) 近年,データ駆動型気象予報モデル (DDWP) が急速に進歩し, 数値気象予報モデル (NWP) を高精度に近似できることを示した。 高速で正確で低コストなddwp予測は、運用予測に利用することが魅力的な提案であるが、真の運用環境でddwpを厳密に評価する作業はまだ残されている。 通常、ERA5の再解析データを用いて訓練され評価され、DDWPはシミュレーションでのみテストされている。 運用予測におけるddwpsの安全な使用には、より詳細な"実世界の"検証と、ddwpの現在の訓練と評価方法の慎重に検討が必要である。 例えば、トレーニングに使用され、現実世界をシミュレートするリアナリシスデータセットは、どの程度うまく機能するのかを問う価値がある。 気候の正義と気象データの不均一性に注目して、このシミュレーションは世界中のすべての地域に等しく良いのか、DDWPsはトレーニングデータに存在するバイアスを悪化させるのだろうか? シミュレーションにおける優れたパフォーマンスは、運用環境での優れたパフォーマンスに相当しますか? NWPモデルの物理を近似するだけでなく、より正確な天気予報を提供するためにMLをどのように一意に展開できるか? このような質問に答える第一歩として,NOAA MADISプログラムから得られたその場観測の頑健なデータセットを,DDWPを運用環境で検証するためのベンチマークとして提供する。 品質管理されたその場観察の大規模なコーパスを提供することで、このデータセットはすべてのNWPとDDWPをテスト可能な有意義な現実世界タスクを提供する。 このデータは、運用中の気象モデルを厳密かつ公平に比較するだけでなく、今後の研究の推進にも活用できることを願っています。

Data-driven weather prediction models (DDWPs) have made rapid strides in recent years, demonstrating an ability to approximate Numerical Weather Prediction (NWP) models to a high degree of accuracy. The fast, accurate, and low-cost DDWP forecasts make their use in operational forecasting an attractive proposition, however, there remains work to be done in rigorously evaluating DDWPs in a true operational setting. Typically trained and evaluated using ERA5 reanalysis data, DDWPs have been tested only in a simulation, which cannot represent the real world with complete accuracy even if it is of a very high quality. The safe use of DDWPs in operational forecasting requires more thorough "real-world" verification, as well as a careful examination of how DDWPs are currently trained and evaluated. It is worth asking, for instance, how well do the reanalysis datasets, used for training, simulate the real world? With an eye towards climate justice and the uneven availability of weather data: is the simulation equally good for all regions of the world, and would DDWPs exacerbate biases present in the training data? Does a good performance in simulation correspond to good performance in operational settings? In addition to approximating the physics of NWP models, how can ML be uniquely deployed to provide more accurate weather forecasts? As a first step towards answering such questions, we present a robust dataset of in-situ observations derived from the NOAA MADIS program to serve as a benchmark to validate DDWPs in an operational setting. By providing a large corpus of quality-controlled, in-situ observations, this dataset provides a meaningful real-world task that all NWPs and DDWPs can be tested against. We hope that this data can be used not only to rigorously and fairly compare operational weather models but also to spur future research in new directions.
翻訳日:2023-09-07 19:07:35 公開日:2023-09-05
# t細胞受容体タンパク質配列とスパースコード : 癌分類への新しいアプローチ

T Cell Receptor Protein Sequences and Sparse Coding: A Novel Approach to Cancer Classification ( http://arxiv.org/abs/2304.13145v2 )

ライセンス: Link先を確認
Zahra Tayebi, Sarwan Ali, Prakash Chourasia, Taslim Murad and Murray Patterson(参考訳) 癌は、制御不能な細胞増殖と増殖を特徴とする複雑な疾患である。 T細胞受容体(TCR)は、適応免疫系に必須のタンパク質であり、抗原の特異的認識は、がんを含む疾患に対する免疫応答において重要な役割を果たす。 TCRの多様性と特異性は、がん細胞をターゲットにするのに理想的であり、シークエンシング技術の最近の進歩は、TCRレパートリーの包括的なプロファイリングを可能にしている。 これにより、強力な抗がん活性を持つTCRの発見とTCRベースの免疫療法の開発につながった。 本研究では,癌分類を対象とするTCRタンパク質配列のマルチクラス分類におけるスパース符号の利用について検討した。 スパースコーディングは、一連の情報的特徴を持つデータの表現を可能にし、アミノ酸間の複雑な関係を捉え、低次元の方法で見逃される可能性のあるシーケンス内の微妙なパターンを識別できる機械学習の一般的なテクニックである。 まず、TCRシーケンスからk-merを計算し、次にスパース符号化を適用してデータの本質的な特徴を捉える。 最終埋め込みの予測性能を向上させるため,各種類のがん特性に関するドメイン知識を統合する。 次に,教師付き解析のためにtcr系列の埋め込みについて,異なる機械学習(線形および非線形)分類器を訓練する。 提案手法は,TCRシーケンスのベンチマークデータセットへの埋め込みにより,予測性能においてベースラインを著しく上回り,99.8\%の精度を実現する。 本研究は癌研究や他の関連分野におけるTCRタンパク質配列の解析におけるスパースコーディングの可能性を明らかにするものである。

Cancer is a complex disease characterized by uncontrolled cell growth and proliferation. T cell receptors (TCRs) are essential proteins for the adaptive immune system, and their specific recognition of antigens plays a crucial role in the immune response against diseases, including cancer. The diversity and specificity of TCRs make them ideal for targeting cancer cells, and recent advancements in sequencing technologies have enabled the comprehensive profiling of TCR repertoires. This has led to the discovery of TCRs with potent anti-cancer activity and the development of TCR-based immunotherapies. In this study, we investigate the use of sparse coding for the multi-class classification of TCR protein sequences with cancer categories as target labels. Sparse coding is a popular technique in machine learning that enables the representation of data with a set of informative features and can capture complex relationships between amino acids and identify subtle patterns in the sequence that might be missed by low-dimensional methods. We first compute the k-mers from the TCR sequences and then apply sparse coding to capture the essential features of the data. To improve the predictive performance of the final embeddings, we integrate domain knowledge regarding different types of cancer properties. We then train different machine learning (linear and non-linear) classifiers on the embeddings of TCR sequences for the purpose of supervised analysis. Our proposed embedding method on a benchmark dataset of TCR sequences significantly outperforms the baselines in terms of predictive performance, achieving an accuracy of 99.8\%. Our study highlights the potential of sparse coding for the analysis of TCR protein sequences in cancer research and other related fields.
翻訳日:2023-09-07 19:06:38 公開日:2023-09-05
# インターネットをどう消したか

How We Ruined The Internet ( http://arxiv.org/abs/2306.01101v2 )

ライセンス: Link先を確認
Micah Beck, Terry Moore(参考訳) 19世紀末、論理学者のC・S・パース(英語版)は「我々の知識は絶対ではなく、常に泳いでいるという教義」を「不確実性と不確定性の連続体」と定義した。 科学的実践の観点では、我々は仮定、証拠、そしてその後の経験が疑わしい結論のための議論を再検討する義務を負うことになる。 本稿では,インターネットアーキテクチャ開発の基盤となるもの,すなわち疎同期のポイント・ツー・ポイント・データグラム配信サービスが,世界規模でコンテンツやサービスを配信するアプリケーションを含むすべてのネットワークアプリケーションのニーズを十分に満たすことができるという仮定を検討する。 このような非同期・ポイント・ツー・マルチポイント・アプリケーションをサポートするための公開かつ手頃なメカニズムをネットワークコミュニティが提供できないことが,CDNやクラウドネットワークといったプライベート・オーバーレイ・インフラストラクチャの開発につながったかを検討する。 これらの初期目標と過大なオーバーレイインフラストラクチャーオペレータの独占的商業命令との矛盾は、最も利益率の高いアプリケーション(ソーシャルメディアなど)と戦略(ターゲット広告など)の負の影響によって生じる明らかな矛盾の重要な理由である、と我々は主張する。 我々は、パースの処方則に従って、この矛盾を解決することは、深い仮定を再考することによってのみ解決できると提案する。

At the end of the 19th century the logician C.S. Peirce coined the term "fallibilism" for the "... the doctrine that our knowledge is never absolute but always swims, as it were, in a continuum of uncertainty and of indeterminacy". In terms of scientific practice, this means we are obliged to reexamine the assumptions, the evidence, and the arguments for conclusions that subsequent experience has cast into doubt. In this paper we examine an assumption that underpinned the development of the Internet architecture, namely that a loosely synchronous point-to-point datagram delivery service could adequately meet the needs of all network applications, including those which deliver content and services to a mass audience at global scale. We examine how the inability of the Networking community to provide a public and affordable mechanism to support such asynchronous point-to-multipoint applications led to the development of private overlay infrastructure, namely CDNs and Cloud networks, whose architecture stands at odds with the Open Data Networking goals of the early Internet advocates. We argue that the contradiction between those initial goals and the monopolistic commercial imperatives of hypergiant overlay infrastructure operators is an important reason for the apparent contradiction posed by the negative impact of their most profitable applications (e.g., social media) and strategies (e.g., targeted advertisement). We propose that, following the prescription of Peirce, we can only resolve this contradiction by reconsidering some of our deeply held assumptions.
翻訳日:2023-09-07 18:58:23 公開日:2023-09-05
# てんかん発作検出のための機械学習に基づくIoT適応アーキテクチャ:解剖と解析

Machine Learning Based IoT Adaptive Architecture for Epilepsy Seizure Detection: Anatomy and Analysis ( http://arxiv.org/abs/2305.19347v2 )

ライセンス: Link先を確認
Zag ElSayed, Murat Ozer, Nelly Elsayed, Ahmed Abdelgawad(参考訳) 発作追跡システムはてんかんの治療のモニタリングと評価に不可欠である。 今日ではてんかん治療にケアタカー発作日記が用いられているが、臨床的な発作モニタリングでは発作を見逃す可能性がある。 装着可能な監視装置は、より耐久性が高く、長期使用に適している。 発作検出には多くの技術や方法が提案されているが,検出精度を保ちながら,日常的に使用する上で重要な概念は単純さと手頃さである。 本研究では,簡単なリアルタイムk-Nearest-Neighbors (kNN) 機械学習を用いて,4秒未満のトレーニング時間で個々のユーザに対してカスタマイズおよび適応が可能な汎用的で安価な非侵襲的手法を提案する。

A seizure tracking system is crucial for monitoring and evaluating epilepsy treatments. Caretaker seizure diaries are used in epilepsy care today, but clinical seizure monitoring may miss seizures. Monitoring devices that can be worn may be better tolerated and more suitable for long-term ambulatory use. Many techniques and methods are proposed for seizure detection; However, simplicity and affordability are key concepts for daily use while preserving the accuracy of the detection. In this study, we propose a versal, affordable noninvasive based on a simple real-time k-Nearest-Neighbors (kNN) machine learning that can be customized and adapted to individual users in less than four seconds of training time; the system was verified and validated using 500 subjects, with seizure detection data sampled at 178 Hz, the operated with a mean accuracy of (94.5%).
翻訳日:2023-09-07 18:57:27 公開日:2023-09-05
# 政策最適化の加速

Acceleration in Policy Optimization ( http://arxiv.org/abs/2306.10587v2 )

ライセンス: Link先を確認
Veronica Chelu, Tom Zahavy, Arthur Guez, Doina Precup, Sebastian Flennerhag(参考訳) 我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを統合することで、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。 ポリシー反復法とポリシー勾配法との関係を生かして、ポリシー最適化アルゴリズムを、元の目的の局所下限の一連の代理目的を反復的に解くものとして捉えた。 我々は、最適化を、政策の将来行動の予測モデルとして定義し、適応性は、過大な予測や変化に対する遅延応答からエラーを蓄積する即時的および予見的な修正措置をとるものである。 我々はこの共有レンズを用いて、前方探索に基づくモデルベースのポリシー改善や楽観的なメタ学習アルゴリズムなど、他のよく知られたアルゴリズムを共同で表現する。 この定式化の性質を解析し,他の最適化アルゴリズムとの接続性を示す。 そこで我々は,メタ・グラディエント・ラーニングを応用した楽観的なポリシー勾配アルゴリズムを設計し,加速に関する設計選択を実証的に強調する。

We work towards a unifying paradigm for accelerating policy optimization methods in reinforcement learning (RL) by integrating foresight in the policy improvement step via optimistic and adaptive updates. Leveraging the connection between policy iteration and policy gradient methods, we view policy optimization algorithms as iteratively solving a sequence of surrogate objectives, local lower bounds on the original objective. We define optimism as predictive modelling of the future behavior of a policy, and adaptivity as taking immediate and anticipatory corrective actions to mitigate accumulating errors from overshooting predictions or delayed responses to change. We use this shared lens to jointly express other well-known algorithms, including model-based policy improvement based on forward search, and optimistic meta-learning algorithms. We analyze properties of this formulation, and show connections to other accelerated optimization algorithms. Then, we design an optimistic policy gradient algorithm, adaptive via meta-gradient learning, and empirically highlight several design choices pertaining to acceleration, in an illustrative task.
翻訳日:2023-09-07 18:46:36 公開日:2023-09-05
# 機械学習センサ用データシート

Datasheets for Machine Learning Sensors ( http://arxiv.org/abs/2306.08848v2 )

ライセンス: Link先を確認
Matthew Stewart, Pete Warden, Yasmine Omri, Shvetank Prakash, Joao Santos, Shawn Hymel, Benjamin Brown, Jim MacArthur, Nat Jeffries, Brian Plancher, Vijay Janapa Reddi(参考訳) 機械学習(ML)センサーは、エッジでのインテリジェンスを可能にするための新たなパラダイムを提供すると同時に、エンドユーザによるデータコントロールの強化を実現している。 これらのMLセンサーはインテリジェントデバイスの開発において重要な役割を果たすため、仕様、機能、制限の明確な文書化が重要である。 本稿では,MLセンサの標準データシートテンプレートを導入し,システムのハードウェア,MLモデルとデータセット属性,エンドツーエンドのパフォーマンス指標,環境への影響など,その重要なコンポーネントについて論じる。 機械学習センサーのサンプルデータシートを提供し、各セクションの詳細を議論する。 我々は、これらのデータシートがmlアプリケーションにおけるセンサデータの理解と利用をいかに促進できるかを強調し、システムの性能を評価し比較できる客観的な尺度を提供する。 MLセンサーとそのデータシートは、ML対応組み込みシステムのプライバシー、セキュリティ、透明性、説明可能性、監査性、ユーザフレンドリ性を提供する。 センサデータの責任と効果的な利用を保証するため、MLコミュニティ全体にわたるデータシートの標準化の必要性を強調した。

Machine learning (ML) sensors offer a new paradigm for sensing that enables intelligence at the edge while empowering end-users with greater control of their data. As these ML sensors play a crucial role in the development of intelligent devices, clear documentation of their specifications, functionalities, and limitations is pivotal. This paper introduces a standard datasheet template for ML sensors and discusses its essential components including: the system's hardware, ML model and dataset attributes, end-to-end performance metrics, and environmental impact. We provide an example datasheet for our own ML sensor and discuss each section in detail. We highlight how these datasheets can facilitate better understanding and utilization of sensor data in ML applications, and we provide objective measures upon which system performance can be evaluated and compared. Together, ML sensors and their datasheets provide greater privacy, security, transparency, explainability, auditability, and user-friendliness for ML-enabled embedded systems. We conclude by emphasizing the need for standardization of datasheets across the broader ML community to ensure the responsible and effective use of sensor data.
翻訳日:2023-09-07 18:45:52 公開日:2023-09-05
# 長期データに基づく大規模言語モデル再構成

Large-scale Language Model Rescoring on Long-form Data ( http://arxiv.org/abs/2306.08133v2 )

ライセンス: Link先を確認
Tongzhou Chen, Cyril Allauzen, Yinghui Huang, Daniel Park, David Rybach, W. Ronny Huang, Rodrigo Cabrera, Kartik Audhkhasi, Bhuvana Ramabhadran, Pedro J. Moreno, Michael Riley(参考訳) 本研究では,大規模言語モデル(LLM)がYouTubeビデオの自動音声認識(ASR)に与える影響について検討する。 米国英語(en-us)およびコードスイッチインド英語(en-in)の長文asrテストセットにおける単語エラーイート(wer)の最大8-%の相対的削減と,最大エントロピーベースの言語モデルを用いた強固なファーストパスベースライン上でのsalient term error rate(ster)に対する最大30-%の削減を実証した。 適切な(木を含まない)グラフトポロジーを持つ格子と、前のセグメントの1-best仮説からのコンテキストを持つ格子処理の改善により、LLMによる再描画において大きな勝利をもたらす。 また,大量の利用可能なデータ(例えば C4 など)を学習した LLM と従来のニューラル LM の併用による性能向上は付加的であり,最大エントロピー LM で強いファーストパスベースラインを著しく上回ることがわかった。 著作権2023 IEEE。 この素材の個人使用は許可されている。 IEEEからの許可は、広告又は宣伝目的のためにこの資料を再印刷または再出版すること、新しい集団作品の作成、サーバやリストの再販売または再配布、この作品の著作権のあるコンポーネントの再利用を含む、現在又は将来のメディアのあらゆる用途で取得されなければならない。

In this work, we study the impact of Large-scale Language Models (LLM) on Automated Speech Recognition (ASR) of YouTube videos, which we use as a source for long-form ASR. We demonstrate up to 8\% relative reduction in Word Error Eate (WER) on US English (en-us) and code-switched Indian English (en-in) long-form ASR test sets and a reduction of up to 30\% relative on Salient Term Error Rate (STER) over a strong first-pass baseline that uses a maximum-entropy based language model. Improved lattice processing that results in a lattice with a proper (non-tree) digraph topology and carrying context from the 1-best hypothesis of the previous segment(s) results in significant wins in rescoring with LLMs. We also find that the gains in performance from the combination of LLMs trained on vast quantities of available data (such as C4) and conventional neural LMs is additive and significantly outperforms a strong first-pass baseline with a maximum entropy LM. Copyright 2023 IEEE. Personal use of this material is permitted. Permission from IEEE must be obtained for all other uses, in any current or future media, including reprinting/republishing this material for advertising or promotional purposes, creating new collective works, for resale or redistribution to servers or lists, or reuse of any copyrighted component of this work in other works.
翻訳日:2023-09-07 18:45:34 公開日:2023-09-05
# MRFモデルのグラフ埋め込みに基づく球面および双曲的トーリックトポロジーに基づくコード:古典的および量子トポロジー機械学習

Spherical and Hyperbolic Toric Topology-Based Codes On Graph Embedding for Ising MRF Models: Classical and Quantum Topology Machine Learning ( http://arxiv.org/abs/2307.15778v2 )

ライセンス: Link先を確認
Vasiliy Usatyuk, Sergey Egorov, Denis Sapozhnikov(参考訳) 本稿では, トリックおよび球面トポロジ上の巡回及び準循環符号のパリティチェック行列を利用して, イジングモデルの基底状態を記述するための情報幾何学の適用について紹介する。 このアプローチは、機械学習とエラー訂正コーディングの関連を確立する。 提案手法は,トラップセットに基づく新しい埋め込み手法の開発に影響を及ぼす。 統計物理学と数幾何学は誤り訂正符号の最適化に応用され、これらの埋め込みとスパース因数分解法に繋がる。 本稿では,DNN アーキテクチャと誤り訂正符号の直接接続を,長距離アリーナからの最先端アーキテクチャ (ChordMixer, Mega, Mega-chunk, CDIL, ...) がブロックおよび畳み込みLDPC符号 (Cage-graph, Repeat Accumulate) と等価であることを示すことによって確立する。 QC符号は特定の種類の化学元素に対応し、炭素元素は混合自己同型Shu-Lin-Fossorier QC-LDPC符号で表される。 信仰伝播と永久的・永久的・西森温度・ベート・ヘッセン行列との関係について詳述する。 sherrington-kirkpatrick isingモデルで用いられる量子近似最適化アルゴリズム(qaoa)は、トレーニングdnnにおけるバックプロパゲーション損失関数のランドスケープに類似していると見なすことができる。 この類似性は、信念伝播法に似たts擬似符号語に匹敵する問題を引き起こす。 さらに、QAOAの層深さは、ウィバーグ復号木における復号信条伝播反復の数と相関する。 全体として、この研究は情報理論、dnnアーキテクチャ設計(疎結合で構造化された事前グラフトポロジー)、量子および古典dpu/tpuの効率的なハードウェア設計(グラフ、量子化およびシフトレジスタアーキテクト)から材料科学まで、様々な分野を前進させる可能性がある。

The paper introduces the application of information geometry to describe the ground states of Ising models by utilizing parity-check matrices of cyclic and quasi-cyclic codes on toric and spherical topologies. The approach establishes a connection between machine learning and error-correcting coding. This proposed approach has implications for the development of new embedding methods based on trapping sets. Statistical physics and number geometry applied for optimize error-correcting codes, leading to these embedding and sparse factorization methods. The paper establishes a direct connection between DNN architecture and error-correcting coding by demonstrating how state-of-the-art architectures (ChordMixer, Mega, Mega-chunk, CDIL, ...) from the long-range arena can be equivalent to of block and convolutional LDPC codes (Cage-graph, Repeat Accumulate). QC codes correspond to certain types of chemical elements, with the carbon element being represented by the mixed automorphism Shu-Lin-Fossorier QC-LDPC code. The connections between Belief Propagation and the Permanent, Bethe-Permanent, Nishimori Temperature, and Bethe-Hessian Matrix are elaborated upon in detail. The Quantum Approximate Optimization Algorithm (QAOA) used in the Sherrington-Kirkpatrick Ising model can be seen as analogous to the back-propagation loss function landscape in training DNNs. This similarity creates a comparable problem with TS pseudo-codeword, resembling the belief propagation method. Additionally, the layer depth in QAOA correlates to the number of decoding belief propagation iterations in the Wiberg decoding tree. Overall, this work has the potential to advance multiple fields, from Information Theory, DNN architecture design (sparse and structured prior graph topology), efficient hardware design for Quantum and Classical DPU/TPU (graph, quantize and shift register architect.) to Materials Science and beyond.
翻訳日:2023-09-07 18:39:22 公開日:2023-09-05
# fed-cprompt:リハーサルフリー連続学習のためのコントラストプロンプト

Fed-CPrompt: Contrastive Prompt for Rehearsal-Free Federated Continual Learning ( http://arxiv.org/abs/2307.04869v2 )

ライセンス: Link先を確認
Gaurav Bagwe and Xiaoyong Yuan and Miao Pan and Lan Zhang(参考訳) フェデレーション連続学習(FCL)は、クライアントに分散した機密データセットから、時間とともに漸進的なタスクを学習する。 本稿では,過去のタスクデータにアクセスできないため,新しいタスクを学習する際の忘れを厳しくするリハーサルのないFCLに焦点を当てる。 そこで本研究では,コミュニケーション効率のよいタスク固有プロンプトを得るために,プロンプト学習技術に基づくfeed-cpromptを提案する。 Fed-CPromptは非同期プロンプト学習とコントラスト連続損失という2つの重要なコンポーネントを導入し、それぞれFCLの非同期タスク到着と異種データ分散を処理する。 大規模な実験は、SOTAリハーサルフリーFCL性能を達成するためのFed-CPromptの有効性を示した。

Federated continual learning (FCL) learns incremental tasks over time from confidential datasets distributed across clients. This paper focuses on rehearsal-free FCL, which has severe forgetting issues when learning new tasks due to the lack of access to historical task data. To address this issue, we propose Fed-CPrompt based on prompt learning techniques to obtain task-specific prompts in a communication-efficient way. Fed-CPrompt introduces two key components, asynchronous prompt learning, and contrastive continual loss, to handle asynchronous task arrival and heterogeneous data distributions in FCL, respectively. Extensive experiments demonstrate the effectiveness of Fed-CPrompt in achieving SOTA rehearsal-free FCL performance.
翻訳日:2023-09-07 18:36:57 公開日:2023-09-05
# 多様体フィルタ結合ネットワーク

Manifold Filter-Combine Networks ( http://arxiv.org/abs/2307.04056v3 )

ライセンス: Link先を確認
Joyce Chew and Edward De Brouwer and Smita Krishnaswamy and Deanna Needell and Michael Perlmutter(参考訳) グラフニューラルネットワーク(GNN)の理解にどのように役立つかに類似した,MNNの理解を深めることを目的とした,MFCN(Manifold Filter-Combine Networks)と呼ばれる多様体ニューラルネットワークのクラスを紹介した。 このクラスは多種多様なサブクラスを含み、様々な人気のあるGNNの多様体類似と見なすことができる。 次に、そのようなネットワークを実装するためのデータ駆動グラフを構築する手法について、多様体の全体的知識を持たないが有限個のサンプル点へのアクセスしか持たない場合を考える。 サンプル点の数が無限になりがちであるため,ネットワークはその連続限界に確実に収束するのに十分な条件を与える。 特定のグラフ構成に焦点を当てた以前の作業とは異なり、我々の収束率は、使用するフィルタの数に直接依存しない。 さらに,従来得られた指数的依存よりもネットワークの深さに線形依存を示す。 さらに、MFCNの興味深い部分クラスと、特定のグラフ構造の下で得られる収束率のいくつかの例を示す。

We introduce a class of manifold neural networks (MNNs) that we call Manifold Filter-Combine Networks (MFCNs), that aims to further our understanding of MNNs, analogous to how the aggregate-combine framework helps with the understanding of graph neural networks (GNNs). This class includes a wide variety of subclasses that can be thought of as the manifold analog of various popular GNNs. We then consider a method, based on building a data-driven graph, for implementing such networks when one does not have global knowledge of the manifold, but merely has access to finitely many sample points. We provide sufficient conditions for the network to provably converge to its continuum limit as the number of sample points tends to infinity. Unlike previous work (which focused on specific graph constructions), our rate of convergence does not directly depend on the number of filters used. Moreover, it exhibits linear dependence on the depth of the network rather than the exponential dependence obtained previously. Additionally, we provide several examples of interesting subclasses of MFCNs and of the rates of convergence that are obtained under specific graph constructions.
翻訳日:2023-09-07 18:36:44 公開日:2023-09-05
# 画像多様体の確率的・意味的記述とその応用

Probabilistic and Semantic Descriptions of Image Manifolds and Their Applications ( http://arxiv.org/abs/2307.02881v3 )

ライセンス: Link先を確認
Peter Tu, Zhaoyuan Yang, Richard Hartley, Zhiwei Xu, Jing Zhang, Yiwei Fu, Dylan Campbell, Jaskirat Singh, Tianyu Wang(参考訳) 本稿では,高次元画像空間の制限領域内に存在するように制限されているという観測結果を反映した画像の確率密度関数を推定する手法について記述することから始める。 画像は高次元空間の低次元多様体上にあると言うのが一般的である。 しかし、像はそのような低次元多様体上に存在するかもしれないが、多様体上のすべての点が同じ確率で像になるとは限らない。 画像は多様体上に不均一に分布し、この分布を確率分布としてモデル化する方法を考案する。 この目標を追求するために、AIやコンピュータビジョンコミュニティで人気のある生成モデルを検討する。 我々の目的のために、生成的・確率的モデルは性質を持つべきである 1)サンプル生成:モデル化された密度関数に従ってこの分布からサンプルを採取できなければならない。 2) 確率計算: 興味のあるデータセットから以前に見つからなかったサンプルが与えられた場合、少なくとも正規化定数までサンプルの確率を計算することができる。 そこで本研究では,流れの正規化や拡散モデルなどの手法について検討する。 次に,このような確率的記述を,敵の攻撃に対する防御構築に利用できることを示す。 密度の観点で多様体を記述することに加えて、多様体上の点を記述するために意味論的解釈をどのように利用できるかを考える。 この目的のために, 変分エンコーダを用いて与えられた多様体上に存在する点の不等角表現を生成する, 創発的言語フレームワークを考える。 多様体上の点間の軌道は、進化する意味記述によって記述することができる。

This paper begins with a description of methods for estimating probability density functions for images that reflects the observation that such data is usually constrained to lie in restricted regions of the high-dimensional image space - not every pattern of pixels is an image. It is common to say that images lie on a lower-dimensional manifold in the high-dimensional space. However, although images may lie on such lower-dimensional manifolds, it is not the case that all points on the manifold have an equal probability of being images. Images are unevenly distributed on the manifold, and our task is to devise ways to model this distribution as a probability distribution. In pursuing this goal, we consider generative models that are popular in AI and computer vision community. For our purposes, generative/probabilistic models should have the properties of 1) sample generation: it should be possible to sample from this distribution according to the modelled density function, and 2) probability computation: given a previously unseen sample from the dataset of interest, one should be able to compute the probability of the sample, at least up to a normalising constant. To this end, we investigate the use of methods such as normalising flow and diffusion models. We then show that such probabilistic descriptions can be used to construct defences against adversarial attacks. In addition to describing the manifold in terms of density, we also consider how semantic interpretations can be used to describe points on the manifold. To this end, we consider an emergent language framework which makes use of variational encoders to produce a disentangled representation of points that reside on a given manifold. Trajectories between points on a manifold can then be described in terms of evolving semantic descriptions.
翻訳日:2023-09-07 18:36:26 公開日:2023-09-05
# 再正規化拡散モデル

Renormalizing Diffusion Models ( http://arxiv.org/abs/2308.12355v2 )

ライセンス: Link先を確認
Jordan Cotler, Semon Rezchikov(参考訳) 拡散モデルを用いて、統計および量子場理論の逆再正規化群フローを学習する方法を説明する。 拡散モデルは、自然画像の分布のような複雑な分布からサンプルを生成するために使用される機械学習モデルのクラスである。 これらのモデルは、データ分布が純粋なノイズになるまでデータにノイズを付加する拡散過程に逆過程を学習することでサンプル生成を実現する。 物理学における非摂動的再正規化群スキームは自然に場の空間における拡散過程として記述できる。 これらの観測を、フィールド理論を研究するためのMLベースのモデルを構築するための具体的な枠組みに組み合わせ、モデルの逆過程を明示的に特定された再正規化群スキームに学習する。 これらのモデルが格子場理論の適応ブリッジ(または並列テンパリング)サンプルのクラスをどのように定義するかを詳述する。 再正規化群スキームは物理的意味を持つので、いくつかの異なる異なる再正規化群スキームに関連するモデルから導かれる結果を比較する方法を明示的に処方する。 また,拡散モデルを用いて量子系の基底状態を検出する方法についても説明する。 本手法のいくつかを適用し, 相互作用する統計場理論の rg フローを数値的に求める。 機械学習の観点から、我々の研究はマルチスケール拡散モデルの解釈を提供し、新しい性質を持つべき拡散モデルに対する物理的に着想を得た提案を与える。

We explain how to use diffusion models to learn inverse renormalization group flows of statistical and quantum field theories. Diffusion models are a class of machine learning models which have been used to generate samples from complex distributions, such as the distribution of natural images. These models achieve sample generation by learning the inverse process to a diffusion process which adds noise to the data until the distribution of the data is pure noise. Nonperturbative renormalization group schemes in physics can naturally be written as diffusion processes in the space of fields. We combine these observations in a concrete framework for building ML-based models for studying field theories, in which the models learn the inverse process to an explicitly-specified renormalization group scheme. We detail how these models define a class of adaptive bridge (or parallel tempering) samplers for lattice field theory. Because renormalization group schemes have a physical meaning, we provide explicit prescriptions for how to compare results derived from models associated to several different renormalization group schemes of interest. We also explain how to use diffusion models in a variational method to find ground states of quantum systems. We apply some of our methods to numerically find RG flows of interacting statistical field theories. From the perspective of machine learning, our work provides an interpretation of multiscale diffusion models, and gives physically-inspired suggestions for diffusion models which should have novel properties.
翻訳日:2023-09-07 18:27:02 公開日:2023-09-05
# BatchPrompt: より少ないものに対応

BatchPrompt: Accomplish more with less ( http://arxiv.org/abs/2309.00384v2 )

ライセンス: Link先を確認
Jianzhe Lin, Maurice Diesendruck, Liang Du, Robin Abraham(参考訳) 大規模言語モデル(LLM)のトークン制限が拡大するにつれて、入力として長時間のコンテキストが可能になったため、単一のデータサンプルの使用はもはや効率的な方法ではないかもしれない。 BatchPromptと呼ばれるトークン制限(gpt-3.5-turboは8k、GPT-4は32k)内でデータをバッチする。 バッチデータでプロンプトする最初の2つの観測結果がある。 まず、より長いコンテキストでのバッチデータによるプロンプトは、必然的に、シングルデータプロンプトに比べてパフォーマンスを悪化させる。 第2に、デコーダのコンテキストの変化により、言語モデルの性能はバッチデータの位置と順序と大きく相関する。 効率を保ち,性能損失を克服するために,BPE(Batch Permutation and Ensembling)と,SEAS(Self-reflection-guided EArly Stopping)技術を提案する。 包括的実験により,bpeは,質問応答(boolq),テキスト記述(rte),重複質問識別(qqp)など,一般的なnlpタスクにおいて極めて高いマージンでバッチプロンプトの性能を向上できることが実証された。 これらのパフォーマンスはシングルデータのプロンプト(SinglePrompt)よりもはるかに少ないが、BatchPromptはLLM呼び出しと入力トークンをはるかに少なくする(SinglePrompt v.s. BatchPromptはバッチサイズ32で、わずか9%-16%、LLM呼び出しの90.6%から90.9%、27.4%、QQP精度87.2%から88.4%、RTE精度91.5%から91.1%、30.8%)。 私たちの知る限りでは、これは大規模な言語モデルの促進効率を技術的に改善する最初の仕事です。 我々のシンプルで効果的なアプローチが、大きな言語モデルの将来の研究に光を当てることを願っています。 コードはリリースされます。

As the ever-increasing token limits of large language models (LLMs) have enabled long context as input, prompting with single data samples might no longer an efficient way. A straightforward strategy improving efficiency is to batch data within the token limit (e.g., 8k for gpt-3.5-turbo; 32k for GPT-4), which we call BatchPrompt. We have two initial observations for prompting with batched data. First, we find that prompting with batched data in longer contexts will inevitably lead to worse performance, compared to single-data prompting. Second, the performance of the language model is significantly correlated with the positions and order of the batched data, due to the corresponding change in decoder context. To retain efficiency and overcome performance loss, we propose Batch Permutation and Ensembling (BPE), and a novel Self-reflection-guided EArly Stopping (SEAS) technique. Our comprehensive experimental evaluation demonstrates that BPE can boost the performance of BatchPrompt with a striking margin on a range of popular NLP tasks, including question answering (Boolq), textual entailment (RTE), and duplicate questions identification (QQP). These performances are even competitive with/higher than single-data prompting(SinglePrompt), while BatchPrompt requires much fewer LLM calls and input tokens (For SinglePrompt v.s. BatchPrompt with batch size 32, using just 9%-16% the number of LLM calls, Boolq accuracy 90.6% to 90.9% with 27.4% tokens, QQP accuracy 87.2% to 88.4% with 18.6% tokens, RTE accuracy 91.5% to 91.1% with 30.8% tokens). To the best of our knowledge, this is the first work to technically improve prompting efficiency of large language models. We hope our simple yet effective approach will shed light on the future research of large language models. The code will be released.
翻訳日:2023-09-07 18:17:53 公開日:2023-09-05
# socratis: 大規模なマルチモーダルモデルは感情的に認識されているか?

Socratis: Are large multimodal models emotionally aware? ( http://arxiv.org/abs/2308.16741v2 )

ライセンス: Link先を確認
Katherine Deng, Arijit Ray, Reuben Tan, Saadia Gabriel, Bryan A. Plummer, Kate Saenko(参考訳) 既存の感情予測ベンチマークには、さまざまな理由で画像やテキストが人間にもたらす感情の多様性を考慮しない粗い感情ラベルが含まれている。 マルチモーダルコンテンツに対する多様な反応を学習することは、インテリジェントマシンが社会へのコンテンツの生成と配信において中心的な役割を果たすため重要である。 このギャップに対処するため、社会反応ベンチマークであるSocratisを提案し、各画像キャプチャー(IC)ペアに複数の感情とそれらを感じる理由を注釈付けする。 Socratisには、広く読まれている5つのニュースおよび画像キャプチャ(IC)データセットから、2075のイメージキャプチャペア上での980の感情に対する18Kのフリーフォーム反応が含まれている。 我々は、ICペアが与えられた感情を感じる理由を生成するために、最先端のマルチモーダル言語モデルの能力をベンチマークする。 予備的な人間の研究に基づいて、人間は機械生成の2倍の頻度で人間が書いた理由を好む。 これは、例えば、人間が機械と人書きのニュース記事を区別できない最近の発見とは対照的に、私たちのタスクが通常の生成タスクよりも難しいことを示している。 大規模視覚言語モデルに基づく現在のキャプション指標は,人間の好みにも相関しない。 これらの発見とベンチマークが、感情に敏感なモデルをトレーニングするためのさらなる研究を促すことを期待しています。

Existing emotion prediction benchmarks contain coarse emotion labels which do not consider the diversity of emotions that an image and text can elicit in humans due to various reasons. Learning diverse reactions to multimodal content is important as intelligent machines take a central role in generating and delivering content to society. To address this gap, we propose Socratis, a societal reactions benchmark, where each image-caption (IC) pair is annotated with multiple emotions and the reasons for feeling them. Socratis contains 18K free-form reactions for 980 emotions on 2075 image-caption pairs from 5 widely-read news and image-caption (IC) datasets. We benchmark the capability of state-of-the-art multimodal large language models to generate the reasons for feeling an emotion given an IC pair. Based on a preliminary human study, we observe that humans prefer human-written reasons over 2 times more often than machine-generated ones. This shows our task is harder than standard generation tasks because it starkly contrasts recent findings where humans cannot tell apart machine vs human-written news articles, for instance. We further see that current captioning metrics based on large vision-language models also fail to correlate with human preferences. We hope that these findings and our benchmark will inspire further research on training emotionally aware models.
翻訳日:2023-09-07 18:17:09 公開日:2023-09-05
# 模倣学習に関する調査 : アルゴリズム,最近の展開,課題

A Survey of Imitation Learning: Algorithms, Recent Developments, and Challenges ( http://arxiv.org/abs/2309.02473v1 )

ライセンス: Link先を確認
Maryam Zare, Parham M. Kebria, Abbas Khosravi, Saeid Nahavandi(参考訳) 近年、ロボット工学と人工知能(AI)システムの開発は目覚ましいものではなかった。 これらのシステムは進化を続けるにつれて、自律運転、航空ロボティクス、自然言語処理など、ますます複雑で非構造的な環境で利用されていく。 その結果、手動でプログラミングしたり、(強化学習(RL)で行うように)報酬関数を通じて振舞いを定義することは極めて困難になっている。 これは、このような環境は高い柔軟性と適応性を必要とするため、あらゆる可能な状況に対処できる最適なルールや報奨信号のセットを特定することは困難である。 このような環境では、模倣を通じて専門家の行動から学ぶことがより魅力的であることが多い。 これは、模倣学習(IL)が活躍する場であり、専門家の振る舞いを模倣することによって望ましい振る舞いが学習されるプロセスである。 本稿では,ilの紹介と基礎となる前提とアプローチの概要について述べる。 また、この分野における最近の進歩と新たな研究分野についても詳述している。 さらに、ilに関連する共通の課題に研究者がどのように対処し、今後の研究の方向性を提供するのかについても論じた。 本論文の目的は、ロボット工学とAIにおけるILの成長分野への包括的ガイドを提供することである。

In recent years, the development of robotics and artificial intelligence (AI) systems has been nothing short of remarkable. As these systems continue to evolve, they are being utilized in increasingly complex and unstructured environments, such as autonomous driving, aerial robotics, and natural language processing. As a consequence, programming their behaviors manually or defining their behavior through reward functions (as done in reinforcement learning (RL)) has become exceedingly difficult. This is because such environments require a high degree of flexibility and adaptability, making it challenging to specify an optimal set of rules or reward signals that can account for all possible situations. In such environments, learning from an expert's behavior through imitation is often more appealing. This is where imitation learning (IL) comes into play - a process where desired behavior is learned by imitating an expert's behavior, which is provided through demonstrations. This paper aims to provide an introduction to IL and an overview of its underlying assumptions and approaches. It also offers a detailed description of recent advances and emerging areas of research in the field. Additionally, the paper discusses how researchers have addressed common challenges associated with IL and provides potential directions for future research. Overall, the goal of the paper is to provide a comprehensive guide to the growing field of IL in robotics and AI.
翻訳日:2023-09-07 18:07:27 公開日:2023-09-05
# 2型糖尿病(t2d)患者の入院リスクを高めるための公平な個別化多社会リスクスコア(ipsrs)の開発

Developing A Fair Individualized Polysocial Risk Score (iPsRS) for Identifying Increased Social Risk of Hospitalizations in Patients with Type 2 Diabetes (T2D) ( http://arxiv.org/abs/2309.02467v1 )

ライセンス: Link先を確認
Yu Huang, Jingchuan Guo, William T Donahoo, Zhengkang Fan, Ying Lu, Wei-Han Chen, Huilin Tang, Lori Bilello, Elizabeth A Shenkman, Jiang Bian(参考訳) 背景: 人種や民族の少数派や社会的不利益に直面している個人は、しばしば彼らの社会的健康決定因子(SDoH)に由来するが、2型糖尿病(T2D)とその合併症に対する不均衡な負担を負う。 したがって、ケアの時点で効果的な社会的リスク管理戦略を実施することが重要である。 目的:ehlベースの機械学習(ml)分析パイプラインを開発し,t2d患者の入院リスクにかかわる社会的ニーズを同定すること。 方法: フロリダ大学健康統合データリポジトリのEHRデータ(2012年~2022年)から, 文脈的SDoH(地区分断)と個別レベルのSDoH(住宅安定性など)を含む10,192人のT2D患者を同定した。 ehr(electronic health records)ベースの機械学習(ml)分析パイプライン、すなわちipsr( individualized polysocial risk score)を開発し、t2d患者の入院に伴う高い社会的リスクを特定し、説明可能なai(xai)技術と公平性評価と最適化を行った。 結果:ipsrは、人種集団間の公平性最適化後の1年間の入院予測において、0.72のc統計を達成した。 iPsRSは高い入院リスクで個人を捕獲するのに優れた有用性を示し、iPsRSの上位5%の実際の1年間の入院率は、下肢の13倍であった。 結論:我々のMLパイプラインiPsRSは,T2D患者の入院につながる社会的リスクの高い患者に対して,公平かつ正確にスクリーニングすることができる。

Background: Racial and ethnic minority groups and individuals facing social disadvantages, which often stem from their social determinants of health (SDoH), bear a disproportionate burden of type 2 diabetes (T2D) and its complications. It is therefore crucial to implement effective social risk management strategies at the point of care. Objective: To develop an EHR-based machine learning (ML) analytical pipeline to identify the unmet social needs associated with hospitalization risk in patients with T2D. Methods: We identified 10,192 T2D patients from the EHR data (from 2012 to 2022) from the University of Florida Health Integrated Data Repository, including contextual SDoH (e.g., neighborhood deprivation) and individual-level SDoH (e.g., housing stability). We developed an electronic health records (EHR)-based machine learning (ML) analytic pipeline, namely individualized polysocial risk score (iPsRS), to identify high social risk associated with hospitalizations in T2D patients, along with explainable AI (XAI) techniques and fairness assessment and optimization. Results: Our iPsRS achieved a C statistic of 0.72 in predicting 1-year hospitalization after fairness optimization across racial-ethnic groups. The iPsRS showed excellent utility for capturing individuals at high hospitalization risk; the actual 1-year hospitalization rate in the top 5% of iPsRS was ~13 times as high as the bottom decile. Conclusion: Our ML pipeline iPsRS can fairly and accurately screen for patients who have increased social risk leading to hospitalization in T2D patients.
翻訳日:2023-09-07 18:07:10 公開日:2023-09-05
# 勾配最適化のためのスケルトン化アルゴリズム

A skeletonization algorithm for gradient-based optimization ( http://arxiv.org/abs/2309.02527v1 )

ライセンス: Link先を確認
Martin J. Menten and Johannes C. Paetzold and Veronika A. Zimmer and Suprosanna Shit and Ivan Ezhov and Robbie Holland and Monika Probst and Julia A. Schnabel and Daniel Rueckert(参考訳) デジタル画像の骨格は、そのトポロジー、幾何学、スケールのコンパクトな表現である。 画像記述、セグメンテーション、登録など、多くのコンピュータビジョンアプリケーションで有用である。 しかし、骨格化は現代のディープラーニングソリューションでしか使われていない。 既存のスケルトン化アルゴリズムの多くは微分可能ではなく、勾配に基づく最適化と統合することは不可能である。 形態素演算とニューラルネットワークに基づく互換性のあるアルゴリズムが提案されているが、それらの結果はしばしば真の媒介軸の幾何学とトポロジーから逸脱している。 この研究は、勾配に基づく最適化と両立し、オブジェクトのトポロジを保存する最初の3次元骨格化アルゴリズムを導入している。 本手法は,行列の加法と乗法,畳み込み演算,基本非線形関数,一様確率分布からのサンプリングにより,任意の主要な深層学習ライブラリで容易に実装できる。 ベンチマーク実験では,非微分可能,形態的,ニューラルネットワークに基づくベースラインと比較して,骨格化アルゴリズムの利点を証明した。 最後に,このアルゴリズムを2つの医用画像処理アプリケーションに統合し,その有用性を実証する。深部学習に基づく血管分割法と,ctおよび磁気共鳴画像における下顎骨のマルチモーダル・レジストレーション法である。

The skeleton of a digital image is a compact representation of its topology, geometry, and scale. It has utility in many computer vision applications, such as image description, segmentation, and registration. However, skeletonization has only seen limited use in contemporary deep learning solutions. Most existing skeletonization algorithms are not differentiable, making it impossible to integrate them with gradient-based optimization. Compatible algorithms based on morphological operations and neural networks have been proposed, but their results often deviate from the geometry and topology of the true medial axis. This work introduces the first three-dimensional skeletonization algorithm that is both compatible with gradient-based optimization and preserves an object's topology. Our method is exclusively based on matrix additions and multiplications, convolutional operations, basic non-linear functions, and sampling from a uniform probability distribution, allowing it to be easily implemented in any major deep learning library. In benchmarking experiments, we prove the advantages of our skeletonization algorithm compared to non-differentiable, morphological, and neural-network-based baselines. Finally, we demonstrate the utility of our algorithm by integrating it with two medical image processing applications that use gradient-based optimization: deep-learning-based blood vessel segmentation, and multimodal registration of the mandible in computed tomography and magnetic resonance images.
翻訳日:2023-09-07 17:58:02 公開日:2023-09-05
# ChatGPTを信頼しているか? --人間とAIによるコンテンツの信頼性の認識

Do You Trust ChatGPT? -- Perceived Credibility of Human and AI-Generated Content ( http://arxiv.org/abs/2309.02524v1 )

ライセンス: Link先を確認
Martin Huschens, Martin Briesch, Dominik Sobania, Franz Rothlauf(参考訳) 本稿では,ChatGPTを利用するGPT言語モデルファミリなどの大規模言語モデルが生成するコンテンツに対して,個人が人間の作者から派生したコンテンツの信頼性を異なるユーザインタフェースバージョンでどのように認識するかを検討する。 意外なことに,ユーザインターフェースのプレゼンテーションによらず,参加者は同様の信頼性のレベルを考慮しがちである。 参加者はまた、人間とAI生成コンテンツの間の能力と信頼性の異なる認識を報告していないが、AI生成コンテンツはより明確でよりエンゲージメントが高いと評価している。 この研究から得られた知見は、情報ソースを評価するためのより明確なアプローチを呼び起こすものであり、AIシステムによって生成されたコンテンツに携わる際の注意と批判的な思考をユーザーに促す。

This paper examines how individuals perceive the credibility of content originating from human authors versus content generated by large language models, like the GPT language model family that powers ChatGPT, in different user interface versions. Surprisingly, our results demonstrate that regardless of the user interface presentation, participants tend to attribute similar levels of credibility. While participants also do not report any different perceptions of competence and trustworthiness between human and AI-generated content, they rate AI-generated content as being clearer and more engaging. The findings from this study serve as a call for a more discerning approach to evaluating information sources, encouraging users to exercise caution and critical thinking when engaging with content generated by AI systems.
翻訳日:2023-09-07 17:57:40 公開日:2023-09-05
# ディープラーニングモデルにおけるCPUとGPUプロファイリングの比較解析

Comparative Analysis of CPU and GPU Profiling for Deep Learning Models ( http://arxiv.org/abs/2309.02521v1 )

ライセンス: Link先を確認
Dipesh Gyawali(参考訳) 近年,ディープラーニング(DL)と機械学習(ML)アプリケーションが急速に増加している。 インターネット上で大量のデータが生成されており、MLとDLアルゴリズムを使用することで意味のある結果が得られる。 ハードウェアリソースとオープンソースライブラリにより、これらのアルゴリズムの実装が容易になった。 TensorflowとPytorchはMLプロジェクトを実装する主要なフレームワークの1つだ。 これらのフレームワークを使用することで、gpuとcpuの両方で実行される操作をトレースし、リソースの割り当てと消費を分析することができる。 本稿では、Pytorchを用いて深層ニューラルネットワークをトレーニングしながら、CPUとGPUの時間とメモリ割り当てを示す。 本稿では,深層ニューラルネットワークのCPUと比較してGPUの実行時間が低いことを示す。 単純なネットワークでは、CPUよりもGPUが大幅に改善されることはない。

Deep Learning(DL) and Machine Learning(ML) applications are rapidly increasing in recent days. Massive amounts of data are being generated over the internet which can derive meaningful results by the use of ML and DL algorithms. Hardware resources and open-source libraries have made it easy to implement these algorithms. Tensorflow and Pytorch are one of the leading frameworks for implementing ML projects. By using those frameworks, we can trace the operations executed on both GPU and CPU to analyze the resource allocations and consumption. This paper presents the time and memory allocation of CPU and GPU while training deep neural networks using Pytorch. This paper analysis shows that GPU has a lower running time as compared to CPU for deep neural networks. For a simpler network, there are not many significant improvements in GPU over the CPU.
翻訳日:2023-09-07 17:57:26 公開日:2023-09-05
# 一次元ギャップレス系における低温物理の効率的なシミュレーション

Efficient Simulation of Low Temperature Physics in One-Dimensional Gapless Systems ( http://arxiv.org/abs/2309.02519v1 )

ライセンス: Link先を確認
Yuya Kusuki, Kotaro Tamaoka, Zixia Wei, Yasushi Yoneta(参考訳) 有限温度シミュレーションの計算効率を,最小絡み合った典型的な熱状態(METTS)を用いて論じる。 METTS を行列積状態として効率的に表現できると主張するためには、Renyi index $0<q\leq 1$ に対する METTS の平均エンタングルメント Renyi entropy に対する解析上界を提示する。 特に、CFTによって記述された1Dギャップレス系の場合、上界スケールは$\mathcal{O}(c N^0 \log \beta)$、$c$は中心電荷、$N$はシステムサイズである。 さらに,平均renyiエントロピーは中心電荷によって特徴づけられる普遍的な挙動を示し,解析上界の半分で大まかに与えられることがわかった。 これらの結果から,METTSは1次元空隙系における低温熱平衡状態の解析に精製法を用いることに比べ,大きな速度向上をもたらすことが示された。

We discuss the computational efficiency of the finite temperature simulation with the minimally entangled typical thermal states (METTS). To argue that METTS can be efficiently represented as matrix product states, we present an analytic upper bound for the average entanglement Renyi entropy of METTS for Renyi index $0<q\leq 1$. In particular, for 1D gapless systems described by CFTs, the upper bound scales as $\mathcal{O}(c N^0 \log \beta)$ where $c$ is the central charge and $N$ is the system size. Furthermore, we numerically find that the average Renyi entropy exhibits a universal behavior characterized by the central charge and is roughly given by half of the analytic upper bound. Based on these results, we show that METTS provide a significant speedup compared to employing the purification method to analyze thermal equilibrium states at low temperatures in 1D gapless systems.
翻訳日:2023-09-07 17:57:17 公開日:2023-09-05
# ユーザ誘導型行動可能リコースに向けて

Towards User Guided Actionable Recourse ( http://arxiv.org/abs/2309.02517v1 )

ライセンス: Link先を確認
Jayanth Yetukuri, Ian Hardy and Yang Liu(参考訳) 医療、銀行、刑事司法といった重要な分野における機械学習の普及は、MLモデルの信頼性と透明性を保証するツールの開発を動機付けている。 そのようなツールのひとつが、悪影響のあるユーザのためのActionable Recourse(AR)だ。 arは、望ましい結果を得るために、ユーザの実行可能な機能に対するコスト効率の高い変更を推奨する。 リコースを提供する既存のアプローチは、近接性、スパーシティ、妥当性、距離ベースのコストなどの特性を最適化する。 しかし、しばしば見過ごされるが、実行可能性に対する重要な要件は、リコース生成プロセスを導くためのユーザの好みを考慮することである。 本研究では,3つの簡単な形式で,ソフト制約によってユーザの好みを捉えようとする。 一 連続的特徴の得点 二 特徴値及び特徴値の有界化 三 分類上の特徴 最後に,ユーザ優先アクション・リコース(UP-AR)を特定するための勾配に基づくアプローチを提案する。 提案手法の有効性を検証するための広範囲な実験を行った。

Machine Learning's proliferation in critical fields such as healthcare, banking, and criminal justice has motivated the creation of tools which ensure trust and transparency in ML models. One such tool is Actionable Recourse (AR) for negatively impacted users. AR describes recommendations of cost-efficient changes to a user's actionable features to help them obtain favorable outcomes. Existing approaches for providing recourse optimize for properties such as proximity, sparsity, validity, and distance-based costs. However, an often-overlooked but crucial requirement for actionability is a consideration of User Preference to guide the recourse generation process. In this work, we attempt to capture user preferences via soft constraints in three simple forms: i) scoring continuous features, ii) bounding feature values and iii) ranking categorical features. Finally, we propose a gradient-based approach to identify User Preferred Actionable Recourse (UP-AR). We carried out extensive experiments to verify the effectiveness of our approach.
翻訳日:2023-09-07 17:56:59 公開日:2023-09-05
# 開量子系の対称性試験のための効率的な量子アルゴリズム

Efficient quantum algorithms for testing symmetries of open quantum systems ( http://arxiv.org/abs/2309.02515v1 )

ライセンス: Link先を確認
Rahul Bandyopadhyay, Alex H. Rubin, Marina Radulaski, Mark M. Wilde(参考訳) 対称性は物理学の多くの分野において重要かつ統一的な概念である。 量子力学では、対称性を利用して可能な物理的遷移を識別することで、システムから自由度を取り除くことができる。 これにより、計算を単純化し、システムの複雑なダイナミクスを比較的簡単に特徴付けることができます。 従来の研究は、忠実度に基づく対称性測定によって対称性を確かめるための量子アルゴリズムの考案に重点を置いてきた。 本研究では,量子コンピュータ上で効率よく実装可能な量子アルゴリズムの代替対称性試験法を開発した。 提案手法は, フィルベルト-シュミット距離に基づく非対称性測度を, 距離として忠実度を用いるよりも計算的にはるかに容易である。 この方法は、状態、チャネル、リンドブラジアンおよび測定値の対称性を測定するために導かれる。 この手法を、振幅減衰チャネルやスピンチェーンを含む開量子システムを含む多くのシナリオに適用し、ハミルトニアンおよびリンドブラッド作用素の有限対称性群内外における対称性を検証した。

Symmetry is an important and unifying notion in many areas of physics. In quantum mechanics, it is possible to eliminate degrees of freedom from a system by leveraging symmetry to identify the possible physical transitions. This allows us to simplify calculations and characterize potentially complicated dynamics of the system with relative ease. Previous works have focused on devising quantum algorithms to ascertain symmetries by means of fidelity-based symmetry measures. In our present work, we develop alternative symmetry testing quantum algorithms that are efficiently implementable on quantum computers. Our approach estimates asymmetry measures based on the Hilbert--Schmidt distance, which is significantly easier, in a computational sense, than using fidelity as a metric. The method is derived to measure symmetries of states, channels, Lindbladians, and measurements. We apply this method to a number of scenarios involving open quantum systems, including the amplitude damping channel and a spin chain, and we test for symmetries within and outside the finite symmetry group of the Hamiltonian and Lindblad operators.
翻訳日:2023-09-07 17:56:46 公開日:2023-09-05
# 回転する量子ガスの最低ランダウ準位への幾何スクイーズ

Geometric squeezing of rotating quantum gases into the lowest Landau level ( http://arxiv.org/abs/2309.02510v1 )

ライセンス: Link先を確認
Valentin Cr\'epel, Ruixiao Yao, Biswaroop Mukherjee, Richard J. Fletcher, Martin Zwierlein(参考訳) 量子ホール物理学と回転する量子気体のシミュレーションは、ボース=アインシュタイン凝縮体を最低運動エネルギー状態、すなわちランダウ準位に完全に含む観察を可能にする最近の実験的な進歩により、復活を目撃している。 この実験結果を理論的に記述し,問題の幾何学的自由度である誘導中心計量のスクイージングとして解釈できることを示した。 この「幾何学的スクイージング」はランドーレベルのアナログにおける量子幾何学に対する前例のない実験的制御を提供し、同時に中性原子を持つ量子ホール状態に似た量子相を得るための現実的な道を開く。

The simulation of quantum Hall physics with rotating quantum gases is witnessing a revival due to recent experimental advances that enabled the observation of a Bose-Einstein condensate entirely contained in its lowest kinetic energy state, i.e. the lowest Landau level. We theoretically describe this experimental result, and show that it can be interpreted as a squeezing of the geometric degree of freedom of the problem, the guiding center metric. This "geometric squeezing" offers an unprecedented experimental control over the quantum geometry in Landau-level analogues, and at the same time opens a realistic path towards achieving correlated quantum phases akin to quantum Hall states with neutral atoms.
翻訳日:2023-09-07 17:56:30 公開日:2023-09-05
# 片半反射エントロピーは浄化の絡み合いの低い境界ではない

One-half reflected entropy is not a lower bound for entanglement of purification ( http://arxiv.org/abs/2309.02506v1 )

ライセンス: Link先を確認
Josiah Couch, Phuc Nguyen, Sarah Racz, Georgios Stratis, Yuxuan Zhang(参考訳) 最近の研究で、Akers et al. は、精製の絡み合い$E_p(A:B)$が$q$-R\enyiの反射エントロピー$S_R^{(q)}(A:B)$の下の半分で有界であることを証明し、すべての$q\geq2$に対して$E_p(A:B) = \frac{1}{2} S_R^{(q)}(A:B)$がランダムテンソルネットワーク状態のクラスに対して成り立つことを示した。 自然に、著者は同様の境界が$q = 1$ であるかどうかという疑問を提起する。 我々の研究は、数値最適化によって得られた明示的な反例を見つけることで、負の質問に答える。 この結果は、半古典重力双対を持つ CFT 状態のような制限された状態の集合が問題のある境界に従う可能性を妨げるものではない。

In recent work, Akers et al. proved that the entanglement of purification $E_p(A:B)$ is bounded below by half of the $q$-R\'enyi reflected entropy $S_R^{(q)}(A:B)$ for all $q\geq2$, showing that $E_p(A:B) = \frac{1}{2} S_R^{(q)}(A:B)$ for class of random tensor network states. Naturally, the authors raise the question of whether a similar bound holds at $q = 1$. Our work answers that question in the negative by finding explicit counter-examples, which are arrived at through numerical optimization. This result does not preclude the possibility that restricted sets of states, such as CFT states with semi-classical gravity duals, could obey the bound in question.
翻訳日:2023-09-07 17:56:15 公開日:2023-09-05
# 深層生成モデルによるセマンティックコミュニケーションの強化 -- ICASSPの特別セッション概要

Enhancing Semantic Communication with Deep Generative Models -- An ICASSP Special Session Overview ( http://arxiv.org/abs/2309.02478v1 )

ライセンス: Link先を確認
Eleonora Grassucci, Yuki Mitsufuji, Ping Zhang, Danilo Comminiello(参考訳) セマンティックコミュニケーションは、将来のAI駆動通信システムのランドスケープを形成する上で重要な役割を果たしている。 元の複雑なコンテンツから意味情報を抽出し、受信機で意味的に一貫性のあるデータを再生するという課題は、おそらくチャネルの破損に頑健であり、深い生成モデルで対処できる。 このICASSP特別セッションの概要は、機械学習の観点から意味コミュニケーションの課題を明らかにし、より深い生成モデルが現実世界の複雑なデータを扱う際に意味コミュニケーションのフレームワークを大幅に強化し、意味情報を抽出して活用し、チャネルの破損に対して堅牢であることを明らかにする。 この新興分野の確立とともに、本論文は次の生成的意味コミュニケーションフレームワークのための新しい研究経路を示す。

Semantic communication is poised to play a pivotal role in shaping the landscape of future AI-driven communication systems. Its challenge of extracting semantic information from the original complex content and regenerating semantically consistent data at the receiver, possibly being robust to channel corruptions, can be addressed with deep generative models. This ICASSP special session overview paper discloses the semantic communication challenges from the machine learning perspective and unveils how deep generative models will significantly enhance semantic communication frameworks in dealing with real-world complex data, extracting and exploiting semantic information, and being robust to channel corruptions. Alongside establishing this emerging field, this paper charts novel research pathways for the next generative semantic communication frameworks.
翻訳日:2023-09-07 17:55:48 公開日:2023-09-05
# 不確実性推定による最適サンプル選択とその深層学習への応用

Optimal Sample Selection Through Uncertainty Estimation and Its Application in Deep Learning ( http://arxiv.org/abs/2309.02476v1 )

ライセンス: Link先を確認
Yong Lin, Chen Liu, Chenlu Ye, Qing Lian, Yuan Yao, Tong Zhang(参考訳) 現代のディープラーニングは大きなラベル付きデータセットに大きく依存しており、手動ラベリングと計算資源の両面で高いコストで処理されることが多い。 これらの課題を軽減するため、研究者はコアセットの選択やアクティブラーニングを含む情報的サブセット選択技術の使用について検討した。 具体的には、コアセットの選択は入力($\bx$)と出力($\by$)の両方でデータをサンプリングすることを含み、アクティブな学習は入力データ($\bx$)にのみフォーカスする。 本研究では,線形ソフトマックス回帰の文脈において,コアセット選択とアクティブ学習の両方に対処する理論的に最適な解を提案する。 提案手法であるCOPS(UnCertainty based Optimal Sub-sampling)は,サブサンプルデータに基づいてトレーニングされたモデルの損失を最小限に抑える。 ディープラーニングシナリオに容易に適用できない逆共分散行列の明示的な計算に依存する既存のアプローチとは異なり、copsはモデルのロジットを利用してサンプリング比率を推定する。 このサンプリング比はモデルの不確実性と密接に関連しており、ディープラーニングタスクに効果的に適用することができる。 さらに,低密度サンプルに低重み付け手法を導入し,過去の作品からインスピレーションを得ることにより,誤特定に対するモデル感度の課題に対処する。 提案手法の有効性を評価するため,ベンチマークデータセット上でディープニューラルネットワークを用いた広範な実験を行った。 その結果,COPSは基準法に比べて優れた性能を示し,有効性を再確認した。

Modern deep learning heavily relies on large labeled datasets, which often comse with high costs in terms of both manual labeling and computational resources. To mitigate these challenges, researchers have explored the use of informative subset selection techniques, including coreset selection and active learning. Specifically, coreset selection involves sampling data with both input ($\bx$) and output ($\by$), active learning focuses solely on the input data ($\bx$). In this study, we present a theoretically optimal solution for addressing both coreset selection and active learning within the context of linear softmax regression. Our proposed method, COPS (unCertainty based OPtimal Sub-sampling), is designed to minimize the expected loss of a model trained on subsampled data. Unlike existing approaches that rely on explicit calculations of the inverse covariance matrix, which are not easily applicable to deep learning scenarios, COPS leverages the model's logits to estimate the sampling ratio. This sampling ratio is closely associated with model uncertainty and can be effectively applied to deep learning tasks. Furthermore, we address the challenge of model sensitivity to misspecification by incorporating a down-weighting approach for low-density samples, drawing inspiration from previous works. To assess the effectiveness of our proposed method, we conducted extensive empirical experiments using deep neural networks on benchmark datasets. The results consistently showcase the superior performance of COPS compared to baseline methods, reaffirming its efficacy.
翻訳日:2023-09-07 17:55:33 公開日:2023-09-05
# 暗号化画像を用いた高速微調整型視覚変換器のドメイン適応

Domain Adaptation for Efficiently Fine-tuning Vision Transformer with Encrypted Images ( http://arxiv.org/abs/2309.02556v1 )

ライセンス: Link先を確認
Teru Nagamori, Sayaka Shiota, Hitoshi Kiya(参考訳) 近年、データ変換でトレーニングされたディープニューラルネットワーク(DNN)は、プライバシ保護学習、アクセス制御、敵防衛など、さまざまなアプリケーションに適用されている。 しかし、変換データの使用はモデルの性能を低下させる。 そこで本稿では,視覚トランスフォーマ (vit) を用いて,変換画像を持つモデルの微調整を行う新しい手法を提案する。 提案手法は,vitの埋め込み構造に基づいて,モデルの精度を低下させるものではない。 実験では,CIFAR-10とCIFAR-100データセットを用いた暗号化画像を用いても,精度の低下を防止できることを確認した。

In recent years, deep neural networks (DNNs) trained with transformed data have been applied to various applications such as privacy-preserving learning, access control, and adversarial defenses. However, the use of transformed data decreases the performance of models. Accordingly, in this paper, we propose a novel method for fine-tuning models with transformed images under the use of the vision transformer (ViT). The proposed domain adaptation method does not cause the accuracy degradation of models, and it is carried out on the basis of the embedding structure of ViT. In experiments, we confirmed that the proposed method prevents accuracy degradation even when using encrypted images with the CIFAR-10 and CIFAR-100 datasets.
翻訳日:2023-09-07 17:47:04 公開日:2023-09-05
# 放射線画像診断における自己監督型事前訓練の効果に関する調査

A Survey of the Impact of Self-Supervised Pretraining for Diagnostic Tasks with Radiological Images ( http://arxiv.org/abs/2309.02555v1 )

ライセンス: Link先を確認
Blake VanBerlo, Jesse Hoey, Alexander Wong(参考訳) 自己教師付き事前学習は,大量の未学習データを活用することによって,伝達学習における特徴表現の改善に有効であることが観察されている。 本稿では, X線, コンピュータ断層撮影, 磁気共鳴, 超音波画像の応用に関する最近の研究を要約し, 自己教師付きプレトレーニングと, 分類やセグメンテーションなどの診断タスクの完全教師付き学習を比較した。 最も注意深い発見は、自己教師付き事前訓練が一般的に、完全な監督よりも下流のタスクパフォーマンスを改善することである。 総合的エビデンスに基づき,自己指導型学習の活用を検討する実践者に対して勧告を行う。 臨床知識を理論的に正当化された自己教師あり学習手法と統合し、公開データセットで評価し、超音波の証拠の控えめな体を成長させ、自己教師ありプレトレーニングが一般化に与える影響を特徴づけるなど、現在の研究で特定された制限により、今後の研究の方向性や実践が示唆される。

Self-supervised pretraining has been observed to be effective at improving feature representations for transfer learning, leveraging large amounts of unlabelled data. This review summarizes recent research into its usage in X-ray, computed tomography, magnetic resonance, and ultrasound imaging, concentrating on studies that compare self-supervised pretraining to fully supervised learning for diagnostic tasks such as classification and segmentation. The most pertinent finding is that self-supervised pretraining generally improves downstream task performance compared to full supervision, most prominently when unlabelled examples greatly outnumber labelled examples. Based on the aggregate evidence, recommendations are provided for practitioners considering using self-supervised learning. Motivated by limitations identified in current research, directions and practices for future study are suggested, such as integrating clinical knowledge with theoretically justified self-supervised learning methods, evaluating on public datasets, growing the modest body of evidence for ultrasound, and characterizing the impact of self-supervised pretraining on generalization.
翻訳日:2023-09-07 17:46:53 公開日:2023-09-05
# 機械翻訳における行動テストの自動化

Automating Behavioral Testing in Machine Translation ( http://arxiv.org/abs/2309.02553v1 )

ライセンス: Link先を確認
Javier Ferrando, Matthias Sperber, Hendra Setiawan, Dominic Telaar, Sa\v{s}a Hasan(参考訳) NLPにおける振る舞いテストは、入出力動作の分析を通じて言語能力を調べることによって、システムのきめ細かい評価を可能にする。 残念ながら、機械翻訳(MT)における振る舞いテストに関する既存の作業は、現在、限られた機能と言語をカバーする手作りのテストに限られている。 この制限に対処するために,我々は,MTモデルの振る舞いを幅広い状況でテストするために,多種多様なソース文を生成するために,Large Language Models (LLMs) を提案する。 次に, MTモデルがLLMを用いて生成した候補集合をマッチングすることにより, 期待される挙動を示すか否かを検証する。 本研究の目的は,人的労力を最小限に抑えながら,MTシステムの動作試験を実践することである。 実験では,提案手法を用いて複数のMTシステムの評価を行い,従来の精度に基づく測定値から観測可能な傾向をパスレートで追従するが,精度のみに依存する場合,いくつかの重要な違いや潜在的なバグを明らかにすることができた。

Behavioral testing in NLP allows fine-grained evaluation of systems by examining their linguistic capabilities through the analysis of input-output behavior. Unfortunately, existing work on behavioral testing in Machine Translation (MT) is currently restricted to largely handcrafted tests covering a limited range of capabilities and languages. To address this limitation, we propose to use Large Language Models (LLMs) to generate a diverse set of source sentences tailored to test the behavior of MT models in a range of situations. We can then verify whether the MT model exhibits the expected behavior through matching candidate sets that are also generated using LLMs. Our approach aims to make behavioral testing of MT systems practical while requiring only minimal human effort. In our experiments, we apply our proposed evaluation framework to assess multiple available MT systems, revealing that while in general pass-rates follow the trends observable from traditional accuracy-based metrics, our method was able to uncover several important differences and potential bugs that go unnoticed when relying only on accuracy.
翻訳日:2023-09-07 17:46:32 公開日:2023-09-05
# 階層クラスタリングのためのデータ集約

Data Aggregation for Hierarchical Clustering ( http://arxiv.org/abs/2309.02552v1 )

ライセンス: Link先を確認
Erich Schubert and Andreas Lang(参考訳) 階層的集約クラスタリング(HAC)は、多くの距離、類似性、および様々なリンク戦略で使用できるため、最も早く、最も柔軟なクラスタリング法である可能性が高い。 データセットが生成するクラスタの数が不明で、データの何らかの階層化が可能である場合、しばしば使用される。 HACのほとんどのアルゴリズムは完全距離行列で動作し、従って二次記憶を必要とする。 標準アルゴリズムは、完全な階層を生成するためにキュービックランタイムも備えている。 メモリとランタイムは、組み込みシステムやリソースに制約のあるシステムのコンテキストで特に問題となる。 本稿では、よく知られたBIRCHデータ集約アルゴリズムの数値的安定バージョンであるBETULAによるデータ集約を用いて、クラスタリング品質に小さな損失しか与えない制約のあるリソースを持つシステムにおいて、HACを実行可能なものにし、非常に大きなデータセットの探索データ解析を可能にする方法について述べる。

Hierarchical Agglomerative Clustering (HAC) is likely the earliest and most flexible clustering method, because it can be used with many distances, similarities, and various linkage strategies. It is often used when the number of clusters the data set forms is unknown and some sort of hierarchy in the data is plausible. Most algorithms for HAC operate on a full distance matrix, and therefore require quadratic memory. The standard algorithm also has cubic runtime to produce a full hierarchy. Both memory and runtime are especially problematic in the context of embedded or otherwise very resource-constrained systems. In this section, we present how data aggregation with BETULA, a numerically stable version of the well known BIRCH data aggregation algorithm, can be used to make HAC viable on systems with constrained resources with only small losses on clustering quality, and hence allow exploratory data analysis of very large data sets.
翻訳日:2023-09-07 17:46:14 公開日:2023-09-05
# しきい値に基づく新奇性検出の連続的改善

Continual Improvement of Threshold-Based Novelty Detection ( http://arxiv.org/abs/2309.02551v1 )

ライセンス: Link先を確認
Abe Ejilemele and Jorge Mendez-Mendez(参考訳) ダイナミックでオープンな状況で評価すると、ニューラルネットワークは未知のクラスを検出するのに苦労する。 この課題は,エージェントが新規カテゴリに遭遇した時に明示的に通知されない現実的な環境における連続学習者の配置を複雑化する。 ノベルティを検出する一般的な手法は、観測されたデータポイントとトレーニングに使用されるデータとの類似性のしきい値に依存する。 しかしながら、これらの手法は、しばしばこれらのしきい値の値を手動で指定する必要があるため、データの性質に適応することができない。 本稿では,idクラスにおける線形探索と左一元クロスバリデーションを用いて,これらのしきい値を自動的に選択する新しい手法を提案する。 本手法により, MNIST, Fashion MNIST, CIFAR-10の精度が向上することが実証された。

When evaluated in dynamic, open-world situations, neural networks struggle to detect unseen classes. This issue complicates the deployment of continual learners in realistic environments where agents are not explicitly informed when novel categories are encountered. A common family of techniques for detecting novelty relies on thresholds of similarity between observed data points and the data used for training. However, these methods often require manually specifying (ahead of time) the value of these thresholds, and are therefore incapable of adapting to the nature of the data. We propose a new method for automatically selecting these thresholds utilizing a linear search and leave-one-out cross-validation on the ID classes. We demonstrate that this novel method for selecting thresholds results in improved total accuracy on MNIST, Fashion MNIST, and CIFAR-10.
翻訳日:2023-09-07 17:45:58 公開日:2023-09-05
# 多レベル再配置計画のためのグラフ注意による構造概念学習

Structural Concept Learning via Graph Attention for Multi-Level Rearrangement Planning ( http://arxiv.org/abs/2309.02547v1 )

ライセンス: Link先を確認
Manav Kulshrestha and Ahmed H. Qureshi(参考訳) 物体再構成などのロボット操作タスクは、ロボットが複雑で任意の環境と対話できるようにする上で重要な役割を果たす。 既存の研究は主に単一レベルの再配置計画に焦点を当てており、複数のレベルが存在するとしても、サブ構造間の依存関係関係は、タワー積み重ねのように幾何学的に単純である。 本研究では,グラフアテンションネットワークを利用した構造化概念学習(Structure Concept Learning, SCL)を提案する。 直感的な構造を持つ自己生成シミュレーションデータセットでトレーニングされ、任意の数のオブジェクトと構造がより複雑である未確認シーンを処理し、独立したサブ構造を推論し、複数のマニピュレータ上でタスクの並列化を可能にし、現実世界に一般化する。 提案手法を古典的およびモデルベースラインの範囲と比較し,そのシーン理解を活用して性能,柔軟性,効率性を向上することを示す。 データセット、補足的な詳細、ビデオ、およびコード実装は、https://manavkulshrestha.github.io/sclで利用可能である。

Robotic manipulation tasks, such as object rearrangement, play a crucial role in enabling robots to interact with complex and arbitrary environments. Existing work focuses primarily on single-level rearrangement planning and, even if multiple levels exist, dependency relations among substructures are geometrically simpler, like tower stacking. We propose Structural Concept Learning (SCL), a deep learning approach that leverages graph attention networks to perform multi-level object rearrangement planning for scenes with structural dependency hierarchies. It is trained on a self-generated simulation data set with intuitive structures, works for unseen scenes with an arbitrary number of objects and higher complexity of structures, infers independent substructures to allow for task parallelization over multiple manipulators, and generalizes to the real world. We compare our method with a range of classical and model-based baselines to show that our method leverages its scene understanding to achieve better performance, flexibility, and efficiency. The dataset, supplementary details, videos, and code implementation are available at: https://manavkulshrestha.github.io/scl
翻訳日:2023-09-07 17:45:47 公開日:2023-09-05
# 映像音源分離のための一般化帯域分割ニューラルネットワーク

A Generalized Bandsplit Neural Network for Cinematic Audio Source Separation ( http://arxiv.org/abs/2309.02539v1 )

ライセンス: Link先を確認
Karn N. Watcharasupat, Chih-Wei Wu, Yiwei Ding, Iroro Orife, Aaron J. Hipple. Phillip A. Williams, Scott Kramer, Alexander Lerch, and William Wolcott(参考訳) 映像音源分離は、音声音源分離の比較的新しいサブタスクであり、対話ステム、音楽ステム、およびそれらの混合物からのエフェクトを抽出することを目的としている。 本研究では,周波数軸の完全あるいは過剰な分割に対してバンドスプリットRNNを一般化するモデルを開発した。 心理的に動機づけられた周波数尺度は、より信頼性の高い特徴抽出のために冗長性で定義されているバンド定義を知らせるために用いられた。 1-ノルムの信号対雑音比とスパーシティ・プロモーティング特性に動機づけられた損失関数を提案した。 さらに、共通エンコーダ構成の情報共有性を利用して、トレーニングと推論の両方における計算複雑性を低減し、難解な音のクラスに対する分離性能を改善し、容易に解離可能なデコーダによる推論時間における柔軟性を実現する。 我々の最良のモデルは、対話stemの理想的な比マスクよりも高いパフォーマンスで分割とリマスターのデータセットに芸術の状態を設定します。

Cinematic audio source separation is a relatively new subtask of audio source separation, with the aim of extracting the dialogue stem, the music stem, and the effects stem from their mixture. In this work, we developed a model generalizing the Bandsplit RNN for any complete or overcomplete partitions of the frequency axis. Psycho-acoustically motivated frequency scales were used to inform the band definitions which are now defined with redundancy for more reliable feature extraction. A loss function motivated by the signal-to-noise ratio and the sparsity-promoting property of the 1-norm was proposed. We additionally exploit the information-sharing property of a common-encoder setup to reduce computational complexity during both training and inference, improve separation performance for hard-to-generalize classes of sounds, and allow flexibility during inference time with easily detachable decoders. Our best model sets the state of the art on the Divide and Remaster dataset with performance above the ideal ratio mask for the dialogue stem.
翻訳日:2023-09-07 17:45:29 公開日:2023-09-05
# 経験と予測:新しいリトマステストのための硬さのメトリクス

Experience and Prediction: A Metric of Hardness for a Novel Litmus Test ( http://arxiv.org/abs/2309.02534v1 )

ライセンス: Link先を確認
Nicos Isaak and Loizos Michael(参考訳) 過去10年間で、winograd schema challenge(wsc)は、新しいlitmusテストとして研究コミュニティの中心的側面となっている。 その結果、wscは人間の行動を理解する手段と見なすことができるため、研究の関心を喚起している。 この点において、新しい手法の開発により、captchasの新しい形態の設計など、様々な分野でwinogradスキーマの使用が可能となった。 WSCで人間の成人のパフォーマンスの基準を確立した文献から、すべてのスキーマが同じではないことが示されている。 この点に関して、この \textit{hardness-metric} は将来の課題や、Winograd スキーマを区別するために WSC CAPTCHA サービスで使用できる。 私たちの最近の研究では、適用可能なスキーマ数に関する制限はあるものの、winogradスキーマのハードネスインデックスを出力できる自動システムの設計によって、これが実現可能であることが示されています。 本稿では,機械学習(ML)に基づく新しいシステムを提案することにより,従来のどの手法よりも高速かつ高精度にWinogradスキーマの硬さを出力できることを示す。 我々の開発システムは、ランダムフォレストとディープラーニング(LSTM)という2つの異なるアプローチで機能するが、人間の認識する硬さに応じて、ウィノグラードのスキーマを区別することを目的とした他のシステムの拡張として使用できる。 同時に,我々の開発したシステムとともに,winogradスキーマ間で人間のパフォーマンスがどのように変化するかを示す大規模実験の結果を提示することにより,これまでの作業を拡張する。

In the last decade, the Winograd Schema Challenge (WSC) has become a central aspect of the research community as a novel litmus test. Consequently, the WSC has spurred research interest because it can be seen as the means to understand human behavior. In this regard, the development of new techniques has made possible the usage of Winograd schemas in various fields, such as the design of novel forms of CAPTCHAs. Work from the literature that established a baseline for human adult performance on the WSC has shown that not all schemas are the same, meaning that they could potentially be categorized according to their perceived hardness for humans. In this regard, this \textit{hardness-metric} could be used in future challenges or in the WSC CAPTCHA service to differentiate between Winograd schemas. Recent work of ours has shown that this could be achieved via the design of an automated system that is able to output the hardness-indexes of Winograd schemas, albeit with limitations regarding the number of schemas it could be applied on. This paper adds to previous research by presenting a new system that is based on Machine Learning (ML), able to output the hardness of any Winograd schema faster and more accurately than any other previously used method. Our developed system, which works within two different approaches, namely the random forest and deep learning (LSTM-based), is ready to be used as an extension of any other system that aims to differentiate between Winograd schemas, according to their perceived hardness for humans. At the same time, along with our developed system we extend previous work by presenting the results of a large-scale experiment that shows how human performance varies across Winograd schemas.
翻訳日:2023-09-07 17:45:11 公開日:2023-09-05
# 確率単純性に関する拡散

Diffusion on the Probability Simplex ( http://arxiv.org/abs/2309.02530v1 )

ライセンス: Link先を確認
Griffin Floto, Thorsteinn Jonsson, Mihai Nica, Scott Sanner, Eric Zhengyu Zhu(参考訳) 拡散モデルは、データ分布の進行的ノイズ化を逆転して生成モデルを生成する。 しかし、ノイズ発生過程の所望の連続性は離散データと矛盾することがある。 連続オブジェクトと離散オブジェクトのこの緊張に対処するために,確率単純度上で拡散を行う手法を提案する。 確率の単純性を用いて自然に、点がカテゴリの確率分布に対応するような解釈を作る。 本手法は,有名な確率微分方程式ornstein-unlenbeck法に適用したsoftmax関数を用いる。 また,本手法は,有界画像生成に適用可能な単位立方体上の拡散を含むように自然に拡張されている。

Diffusion models learn to reverse the progressive noising of a data distribution to create a generative model. However, the desired continuous nature of the noising process can be at odds with discrete data. To deal with this tension between continuous and discrete objects, we propose a method of performing diffusion on the probability simplex. Using the probability simplex naturally creates an interpretation where points correspond to categorical probability distributions. Our method uses the softmax function applied to an Ornstein-Unlenbeck Process, a well-known stochastic differential equation. We find that our methodology also naturally extends to include diffusion on the unit cube which has applications for bounded image generation.
翻訳日:2023-09-07 17:44:42 公開日:2023-09-05
# 適応型対向訓練はリコース費用を増加させない

Adaptive Adversarial Training Does Not Increase Recourse Costs ( http://arxiv.org/abs/2309.02528v1 )

ライセンス: Link先を確認
Ian Hardy, Jayanth Yetukuri and Yang Liu(参考訳) 最近の研究は、敵対的攻撃法とアルゴリズム的会話法を結びつけており、どちらもモデルの分類決定を変更する入力インスタンスに最小限の変更を求める。 悪質な摂動に対する分類器の感受性を最小化しようとする伝統的な敵意訓練は、生成したリアクションのコストを増加させ、より大きな敵意トレーニングradiiはより高いリコースコストと関連することが示されている。 しかし、アルゴリズム的帰納法の観点からは、適切な対向訓練半径は常に不明である。 もうひとつの最近の研究は、アダプティブトレーニングradiiによる敵のトレーニングを動機付けて、インスタンス毎の可変敵の脆弱性の問題に対処し、未知の攻撃radiiを持つドメインでの成功を示している。 本研究は,適応的対人訓練がアルゴリズム的リコースコストに及ぼす影響について検討する。 適応的対向訓練によるモデルのロバスト性の改善はアルゴリズム的リコースコストにはほとんど影響を与えず,リバータビリティが重要となる領域において,手頃なロバスト性への潜在的な道筋を提供する。

Recent work has connected adversarial attack methods and algorithmic recourse methods: both seek minimal changes to an input instance which alter a model's classification decision. It has been shown that traditional adversarial training, which seeks to minimize a classifier's susceptibility to malicious perturbations, increases the cost of generated recourse; with larger adversarial training radii correlating with higher recourse costs. From the perspective of algorithmic recourse, however, the appropriate adversarial training radius has always been unknown. Another recent line of work has motivated adversarial training with adaptive training radii to address the issue of instance-wise variable adversarial vulnerability, showing success in domains with unknown attack radii. This work studies the effects of adaptive adversarial training on algorithmic recourse costs. We establish that the improvements in model robustness induced by adaptive adversarial training show little effect on algorithmic recourse costs, providing a potential avenue for affordable robustness in domains where recoursability is critical.
翻訳日:2023-09-07 17:44:33 公開日:2023-09-05
# 捕捉イオンによる高速交換冷却

Rapid Exchange Cooling with Trapped Ions ( http://arxiv.org/abs/2309.02581v1 )

ライセンス: Link先を確認
Spencer D. Fallek, Vikram S. Sandhu, Ryan A. McGill, John M. Gray, Holly N. Tinkey, Craig R. Clark and Kenton R. Brown(参考訳) トラップイオン量子電荷結合デバイス(QCCD)アーキテクチャは、先進量子情報処理の第一候補である。 現在のQCCD実装では、不完全イオン輸送と異常加熱は計算中にイオン運動を励起することができる。 これに対抗するには、高忠実度ゲート性能を維持するために中間冷却が必要である。 計算イオンを他の種のイオンに同調的に冷却することは、一般的に使用される戦略である。 ここでは、交換冷却と呼ばれる別のアプローチを示す。 交感冷却とは異なり、交換冷却は2つの異なる原子種をトラップする必要がない。 このプロトコルは、繰り返しレーザー冷却される$$$coolant$"$イオンのバンクを導入する。 計算イオンは、冷却液イオンをその近傍に輸送することで冷却することができる。 我々はこの概念を2つのイオンで実験的にテストし、107$\mu s$で必要な輸送を実行する。 計算イオンから軸運動エネルギーの96%以上と最大102(5)クオンタを除去した。 冷却剤イオンの再冷却が計算イオンを脱離しないことを検証する。 このアプローチは、高速な量子シミュレーションと計算が可能な単一種QCCDプロセッサの実現可能性を検証する。

The trapped-ion quantum charge-coupled device (QCCD) architecture is a leading candidate for advanced quantum information processing. In current QCCD implementations, imperfect ion transport and anomalous heating can excite ion motion during a calculation. To counteract this, intermediate cooling is necessary to maintain high-fidelity gate performance. Cooling the computational ions sympathetically with ions of another species, a commonly employed strategy, creates a significant runtime bottleneck. Here, we demonstrate a different approach we call exchange cooling. Unlike sympathetic cooling, exchange cooling does not require trapping two different atomic species. The protocol introduces a bank of $"$coolant$"$ ions which are repeatedly laser cooled. A computational ion can then be cooled by transporting a coolant ion into its proximity. We test this concept experimentally with two ions, executing the necessary transport in 107 $\mu s$, an order of magnitude faster than typical sympathetic cooling durations. We remove over 96%, and as many as 102(5) quanta, of axial motional energy from the computational ion. We verify that re-cooling the coolant ion does not decohere the computational ion. This approach validates the feasibility of a single-species QCCD processor, capable of fast quantum simulation and computation.
翻訳日:2023-09-07 17:39:40 公開日:2023-09-05
# 深層学習アルゴリズムを用いた難治性てんかん原性脳ネットワークの展開 : 一様脳画像データを用いた拡張性シーズーア予測のための新しい包括的枠組み

Unveiling Intractable Epileptogenic Brain Networks with Deep Learning Algorithms: A Novel and Comprehensive Framework for Scalable Seizure Prediction with Unimodal Neuroimaging Data in Pediatric Patients ( http://arxiv.org/abs/2309.02580v1 )

ライセンス: Link先を確認
Bliss Singhal, Fnu Pooja(参考訳) てんかんは、世界中で5000万人、アメリカ人120万人に影響を及ぼす神経疾患である。 難治性てんかんの小児患者は数百万人いるが、発作が制御できない状態である。 発作の発生は、身体的外傷、感覚障害、無意識、および子供の日常的な作業に参加する能力を妨げる追加の症状を引き起こす可能性がある。 発作の予知は、親や医療提供者が予防措置を取るのに役立ち、危険な状況を避け、子どもを精神的に準備し、発作の不確実性に関連する不安や緊張を最小限に抑えるのに役立つ。 本研究は,脳波信号を用いた一過性神経画像データに基づく機械学習アルゴリズムの評価により,小児の発作を予測するための新しい包括的枠組みを提案する。 帯域通過フィルタと独立成分分析は、データセットからノイズやアーティファクトを減らすのに有効であることが判明した。 各種機械学習アルゴリズムの性能は、精度、精度、特異性、感度、F1スコア、MCCといった重要な指標に基づいて評価される。 その結果, 深層学習アルゴリズムはロジスティック回帰よりも発作の予測に成功し, k近傍の隣接者よりも精度が高いことがわかった。 recurrent neural network (rnn) は高い精度とf1スコアを示し,long short-term memory (lstm) はrnnよりも精度が優れ,畳み込みニューラルネットワーク (cnn) は高い特異性を示した。 本研究は、小児患者の発作発生を積極的に管理し、臨床実践を変革し、小児医療を改善する医療提供者にとって重要な意味を持つ。

Epilepsy is a prevalent neurological disorder affecting 50 million individuals worldwide and 1.2 million Americans. There exist millions of pediatric patients with intractable epilepsy, a condition in which seizures fail to come under control. The occurrence of seizures can result in physical injury, disorientation, unconsciousness, and additional symptoms that could impede children's ability to participate in everyday tasks. Predicting seizures can help parents and healthcare providers take precautions, prevent risky situations, and mentally prepare children to minimize anxiety and nervousness associated with the uncertainty of a seizure. This research proposes a novel and comprehensive framework to predict seizures in pediatric patients by evaluating machine learning algorithms on unimodal neuroimaging data consisting of electroencephalogram signals. The bandpass filtering and independent component analysis proved to be effective in reducing the noise and artifacts from the dataset. Various machine learning algorithms' performance is evaluated on important metrics such as accuracy, precision, specificity, sensitivity, F1 score and MCC. The results show that the deep learning algorithms are more successful in predicting seizures than logistic Regression, and k nearest neighbors. The recurrent neural network (RNN) gave the highest precision and F1 Score, long short-term memory (LSTM) outperformed RNN in accuracy and convolutional neural network (CNN) resulted in the highest Specificity. This research has significant implications for healthcare providers in proactively managing seizure occurrence in pediatric patients, potentially transforming clinical practices, and improving pediatric care.
翻訳日:2023-09-07 17:39:23 公開日:2023-09-05
# 胸部X線による解剖学的診断

Anatomy-Driven Pathology Detection on Chest X-rays ( http://arxiv.org/abs/2309.02578v1 )

ライセンス: Link先を確認
Philip M\"uller, Felix Meissen, Johannes Brandt, Georgios Kaissis, Daniel Rueckert(参考訳) 病理診断とデライン化により、胸部X線などの医療スキャンの自動解釈が可能となり、放射線医が情報的決定を行う際に高いレベルの説明が可能である。 しかし、この目的のために大きな公開データセットが不足するなど、病理のバウンディングボックスの注釈付けは時間のかかる作業である。 したがって、現在のアプローチでは、弱い教師付きオブジェクト検出を用いて画像レベルのアノテーションから病理の(粗い)ローカライゼーションを学習している。 そこで我々は解剖学的領域境界ボックスを病理のプロキシとして用いた解剖学的病理検出(adpd)を提案する。 解剖学レベルの病理ラベルを用いた教師付きトレーニングと,画像レベルの病理ラベルを用いた複数インスタンス学習(mil)の2つのトレーニング方法を検討した。 以上の結果から,我々の解剖学レベルのトレーニングアプローチは,弱い教師付き手法と限られたトレーニングサンプルによる完全教師付き検出よりも優れており,MILアプローチは両ベースラインアプローチと競合し,我々のアプローチの可能性を示している。

Pathology detection and delineation enables the automatic interpretation of medical scans such as chest X-rays while providing a high level of explainability to support radiologists in making informed decisions. However, annotating pathology bounding boxes is a time-consuming task such that large public datasets for this purpose are scarce. Current approaches thus use weakly supervised object detection to learn the (rough) localization of pathologies from image-level annotations, which is however limited in performance due to the lack of bounding box supervision. We therefore propose anatomy-driven pathology detection (ADPD), which uses easy-to-annotate bounding boxes of anatomical regions as proxies for pathologies. We study two training approaches: supervised training using anatomy-level pathology labels and multiple instance learning (MIL) with image-level pathology labels. Our results show that our anatomy-level training approach outperforms weakly supervised methods and fully supervised detection with limited training samples, and our MIL approach is competitive with both baseline approaches, therefore demonstrating the potential of our approach.
翻訳日:2023-09-07 17:38:52 公開日:2023-09-05
# 深部神経回路を用いた胸部CTスキャンの気腫サブタイプ

Emphysema Subtyping on Thoracic Computed Tomography Scans using Deep Neural Networks ( http://arxiv.org/abs/2309.02576v1 )

ライセンス: Link先を確認
Weiyi Xie, Colin Jacobs, Jean-Paul Charbonnier, Dirk Jan Slebos, Bram van Ginneken(参考訳) 肺気腫の亜型と重症度の正確な同定は、COPDの効果的な管理と疾患の不均一性の研究に不可欠である。 気腫の亜型と重症度の手動解析は熱心で主観的である。 この課題に対処するために,我々はFleischner Societyの視覚スコアシステムを自動化するための深層学習に基づくアプローチを提案する。 COPDGeneによる9650名の被験者を対象に,本アルゴリズムの訓練と評価を行った。 本アルゴリズムは, 予測精度を52\%で達成し, 提案手法の精度を45\%で上回った。 また,提案手法の予測スコアと視覚スコアとの一致は良好であり,従来手法では中程度の一致しか得られなかった。 提案手法では,ネットワーク予測を可視化する高分解能局所化アクティベーションマップを同時に生成しながら,カテゴリラベルを生成するための回帰学習手法を採用している。 これらの濃密な活性化マップを利用することで、肺1個あたりの気腫の関与率を、カテゴリー別重症度スコアに加えて計算する能力を有する。 さらに,その予測能力は遠心性気腫を越え,寄生性気腫のサブタイプを含むように拡張した。

Accurate identification of emphysema subtypes and severity is crucial for effective management of COPD and the study of disease heterogeneity. Manual analysis of emphysema subtypes and severity is laborious and subjective. To address this challenge, we present a deep learning-based approach for automating the Fleischner Society's visual score system for emphysema subtyping and severity analysis. We trained and evaluated our algorithm using 9650 subjects from the COPDGene study. Our algorithm achieved the predictive accuracy at 52\%, outperforming a previously published method's accuracy of 45\%. In addition, the agreement between the predicted scores of our method and the visual scores was good, where the previous method obtained only moderate agreement. Our approach employs a regression training strategy to generate categorical labels while simultaneously producing high-resolution localized activation maps for visualizing the network predictions. By leveraging these dense activation maps, our method possesses the capability to compute the percentage of emphysema involvement per lung in addition to categorical severity scores. Furthermore, the proposed method extends its predictive capabilities beyond centrilobular emphysema to include paraseptal emphysema subtypes.
翻訳日:2023-09-07 17:38:31 公開日:2023-09-05
# 線形力学系の因果構造回復:FFTに基づくアプローチ

Causal Structure Recovery of Linear Dynamical Systems: An FFT based Approach ( http://arxiv.org/abs/2309.02571v1 )

ライセンス: Link先を確認
Mishfad Shaikh Veedu, James Melbourne, Murti V. Salapaka(参考訳) データから因果関係を学習することは、特に因果関係が本質的に静的である場合、科学全体で根本的でよく研究されている問題である。 しかし、動的依存関係がある場合、すなわち時間を通してエンティティ間で依存関係が存在する場合、因果効果は調査されない。 時系列観測による動的因果効果の同定は,静的シナリオと比較して計算コストが高い。 ベクトル自己回帰(var)モデルの因果構造を復元する計算の複雑さは$o(tn^3n^2)$であり、ここで$n$はノード数、$t$はサンプル数、$n$はエンティティ間の依存関係において最大のタイムラグである。 我々は,時間系列の周波数領域(FD)表現を得るために,因果構造を復元するために,$O(Tn^3 \log N)$の複雑さを低減した手法を報告する。 FFTは全ての周波数に全ての時間依存を蓄積するため、任意の周波数で状態変数をランダム変数として考えることで因果推論を効率的に行うことができる。 さらに, LTI であるシステムでは, 従来のシングルドア(サイクル付き), フロント, バックドアの基準, などによって, ドカルス機構をFDで実現可能であることを示す。 大規模な問題に対して、多変量ウィナー射影を用いたグラフ再構成は、$O(n)$、$O(n^q)$複雑さを持つPCアルゴリズムのような再構成アルゴリズムよりも、$O(n)$、$q$が最大近傍サイズであるような計算上の優位性を示す。 この利点は、いかなる時間領域アプローチにも存在しない周波数依存ウィナー係数の位相応答のいくつかの顕著な性質によって生じる。

Learning causal effects from data is a fundamental and well-studied problem across science, especially when the cause-effect relationship is static in nature. However, causal effect is less explored when there are dynamical dependencies, i.e., when dependencies exist between entities across time. Identifying dynamic causal effects from time-series observations is computationally expensive when compared to the static scenario. We demonstrate that the computational complexity of recovering the causation structure for the vector auto-regressive (VAR) model is $O(Tn^3N^2)$, where $n$ is the number of nodes, $T$ is the number of samples, and $N$ is the largest time-lag in the dependency between entities. We report a method, with a reduced complexity of $O(Tn^3 \log N)$, to recover the causation structure to obtain frequency-domain (FD) representations of time-series. Since FFT accumulates all the time dependencies on every frequency, causal inference can be performed efficiently by considering the state variables as random variables at any given frequency. We additionally show that, for systems with interactions that are LTI, do-calculus machinery can be realized in the FD resulting in versions of the classical single-door (with cycles), front and backdoor criteria. We demonstrate, for a large class of problems, graph reconstruction using multivariate Wiener projections results in a significant computational advantage with $O(n)$ complexity over reconstruction algorithms such as the PC algorithm which has $O(n^q)$ complexity, where $q$ is the maximum neighborhood size. This advantage accrues due to some remarkable properties of the phase response of the frequency-dependent Wiener coefficients which is not present in any time-domain approach.
翻訳日:2023-09-07 17:38:10 公開日:2023-09-05
# 時間領域における応答関数の正定性について

On the Positive Definiteness of Response Functions in the Time Domain ( http://arxiv.org/abs/2309.02566v1 )

ライセンス: Link先を確認
Alexander F. Kemper, Chao Yang, and Emanuel Gull(参考訳) 電子グリーン関数、磁気、電荷感受性といった量子系の応答関数は、系の外部摂動に対する応答を記述する。 これらは場の理論や量子コンピューティングに関心を持つ中心的な対象であり、実験で直接測定される。 応答関数は本質的に因果的です。 平衡系と定常状態系では、周波数領域の正のスペクトル関数に対応する。 本稿では、応答関数がヒルベルト空間上の内積を定義し、従って正定値関数を誘導することを示す。 この関数の特性は、測定されたデータのノイズを低減し、平衡状態と定常状態において、有限時間間隔で知られているデータに対する正の定値拡張を構築するために利用することができる。

Response functions of quantum systems, such as electron Green's functions, magnetic, or charge susceptibilities, describe the response of a system to an external perturbation. They are the central objects of interest in field theories and quantum computing and measured directly in experiment. Response functions are intrinsically causal. In equilibrium and steady-state systems, they correspond to a positive spectral function in the frequency domain. This article shows that response functions define an inner product on a Hilbert space and thereby induce a positive definite function. The properties of this function can be used to reduce noise in measured data and, in equilibrium and steady state, to construct positive definite extensions for data known on finite time intervals, which are then guaranteed to correspond to positive spectra.
翻訳日:2023-09-07 17:37:36 公開日:2023-09-05
# 畳み込みニューラルネットワークとトランスフォーマーを用いた全身スライドイメージングにおける腎臓層分割の評価

Evaluation Kidney Layer Segmentation on Whole Slide Imaging using Convolutional Neural Networks and Transformers ( http://arxiv.org/abs/2309.02563v1 )

ライセンス: Link先を確認
Muhao Liu, Chenyang Qi, Shunxing Bao, Quan Liu, Ruining Deng, Yu Wang, Shilin Zhao, Haichun Yang, Yuankai Huo(参考訳) ヒト腎全スライド画像(WSI)における大脳皮質,外側ストライプ,内ストライプ,内膜などの腎層構造の分画は,腎病理における自動画像解析において重要な役割を担っている。 しかし,現在の手作業による分節処理は,大規模に遭遇する広範囲なデジタル病理像の処理において,労働集約的かつ実現不可能であることが証明されている。 デジタル腎病理学の領域では、深層学習に基づく方法論が出現している。 しかし、深層学習に基づくアプローチが腎臓層構造区分に応用されている例はごくわずかである。 このギャップに対処するため, 本論文は, 腎臓層構造セグメトネーションに基づく深層学習の可能性を評価する。 本研究は、代表的な畳み込みニューラルネットワーク(cnn)とトランスフォーマリンセグメンテーションアプローチ(swin-unet, medical-transformer, transunet, u-net, pspnet, deeplabv3+)を用いる。 マウス腎wsisを用いた腎皮質層分節における6種類の深層学習モデルについて定量的に評価した。 MIoU(Mean Intersection over Union)指標が示すように,我々のアプローチから生じる経験的結果は,有意義な進歩を示している。 その結果,Transformerモデルの方がCNNモデルより優れていることがわかった。 腎皮質構造を定量的に評価することで、深層学習のアプローチは、これらの医療専門家により知的な腎層セグメンテーションを可能にすることを約束している。

The segmentation of kidney layer structures, including cortex, outer stripe, inner stripe, and inner medulla within human kidney whole slide images (WSI) plays an essential role in automated image analysis in renal pathology. However, the current manual segmentation process proves labor-intensive and infeasible for handling the extensive digital pathology images encountered at a large scale. In response, the realm of digital renal pathology has seen the emergence of deep learning-based methodologies. However, very few, if any, deep learning based approaches have been applied to kidney layer structure segmentation. Addressing this gap, this paper assesses the feasibility of performing deep learning based approaches on kidney layer structure segmetnation. This study employs the representative convolutional neural network (CNN) and Transformer segmentation approaches, including Swin-Unet, Medical-Transformer, TransUNet, U-Net, PSPNet, and DeepLabv3+. We quantitatively evaluated six prevalent deep learning models on renal cortex layer segmentation using mice kidney WSIs. The empirical results stemming from our approach exhibit compelling advancements, as evidenced by a decent Mean Intersection over Union (mIoU) index. The results demonstrate that Transformer models generally outperform CNN-based models. By enabling a quantitative evaluation of renal cortical structures, deep learning approaches are promising to empower these medical professionals to make more informed kidney layer segmentation.
翻訳日:2023-09-07 17:37:23 公開日:2023-09-05
# CT-based radiomics Model を用いた肛門扁平上皮癌化学療法の再発無生存予測

Recurrence-Free Survival Prediction for Anal Squamous Cell Carcinoma Chemoradiotherapy using Planning CT-based Radiomics Model ( http://arxiv.org/abs/2309.02562v1 )

ライセンス: Link先を確認
Shanshan Tang, Kai Wang, David Hein, Gloria Lin, Nina N. Sanford, Jing Wang(参考訳) 目的:非転移性陰茎扁平上皮癌(ascc)患者の約30%は、放射線化学療法(crt)後に再発し、現在利用可能な臨床変数は治療反応の予測因子に乏しい。 CRT後のASCC患者における放射線前処置計画CTから抽出した情報を利用した再発無生存(RFS)予測モデルの開発を目的とした。 方法:ASCC96例のCT像から放射線学的特徴を抽出した。 先行特徴選択後,多変量cox比例ハザードモデルを用いたステップフォワード特徴選択により最適な特徴セットを選定した。 RFS予測は、5倍のクロスバリデーションを5回繰り返した最適特徴セットに基づいて放射能・クリニカル複合モデルから生成した。 提案モデルのリスク階層化能力をkaplan-meier分析により評価した。 結果: 形状とテクスチャに基づく放射能は, RFSを有意に予測した。 臨床のみのモデルと比較して、放射性ミクス-臨床結合モデルは、高いc-index (0.80 vs 0.73) と auc (0.84 vs 0.79 for 1-year rfs, 0.84 vs 0.78 for 2-year rfs, 0.86 vs 0.83 for 3-year rfs) を持つテストコホートにおいて優れた性能を達成する。 結論:CTをベースとした放射線治療計画モデルと臨床併用モデルでは,臨床像のみを用いたモデルと比較して,CRTを併用したASCC患者のRASの予後が改善した。

Objectives: Approximately 30% of non-metastatic anal squamous cell carcinoma (ASCC) patients will experience recurrence after chemoradiotherapy (CRT), and currently available clinical variables are poor predictors of treatment response. We aimed to develop a model leveraging information extracted from radiation pretreatment planning CT to predict recurrence-free survival (RFS) in ASCC patients after CRT. Methods: Radiomics features were extracted from planning CT images of 96 ASCC patients. Following pre-feature selection, the optimal feature set was selected via step-forward feature selection with a multivariate Cox proportional hazard model. The RFS prediction was generated from a radiomics-clinical combined model based on an optimal feature set with five repeats of five-fold cross validation. The risk stratification ability of the proposed model was evaluated with Kaplan-Meier analysis. Results: Shape- and texture-based radiomics features significantly predicted RFS. Compared to a clinical-only model, radiomics-clinical combined model achieves better performance in the testing cohort with higher C-index (0.80 vs 0.73) and AUC (0.84 vs 0.79 for 1-year RFS, 0.84 vs 0.78 for 2-year RFS, and 0.86 vs 0.83 for 3-year RFS), leading to distinctive high- and low-risk of recurrence groups (p<0.001). Conclusions: A treatment planning CT based radiomics and clinical combined model had improved prognostic performance in predicting RFS for ASCC patients treated with CRT as compared to a model using clinical features only.
翻訳日:2023-09-07 17:36:56 公開日:2023-09-05
# ロボット操作のための物理的接地視覚言語モデル

Physically Grounded Vision-Language Models for Robotic Manipulation ( http://arxiv.org/abs/2309.02561v1 )

ライセンス: Link先を確認
Jensen Gao, Bidipta Sarkar, Fei Xia, Ted Xiao, Jiajun Wu, Brian Ichter, Anirudha Majumdar, Dorsa Sadigh(参考訳) 視覚言語モデル(vlms)の最近の進歩は、視覚質問応答や画像キャプションといったタスクのパフォーマンス向上につながった。 その結果、これらのモデルは現在、特にロボット操作のような領域において、物理的世界に関する推論に適している。 しかしながら、現在のVLMは、一般的な物体の物理的概念(材料、脆弱性など)に対する理解に限られており、そのような物体に対する相互作用や物理的推論を含むロボット操作タスクにおいて有用性を制限する。 この制限に対処するために、一般的な家庭用オブジェクトの36.9Kのクラウドソースと417Kの自動物理概念アノテーションからなるオブジェクト中心のデータセットであるPhysObjectsを提案する。 physobjects 上の vlm の微調整は,人間の視覚からこれらの概念の先行性を捉えることにより,物理的対象概念に対する理解を向上させる。 我々は、この物理接地型VLMを、大規模言語モデルに基づくロボットプランナーと対話的なフレームワークに統合し、物理接地型VLMを使わないベースラインと比較して、物理対象概念の推論を必要とするタスクにおける計画性能の向上を示す。 さらに、実際のロボットに物理的に座ったVLMの利点を説明し、タスク成功率を改善する。 私たちはデータセットをリリースし、結果のさらなる詳細と可視化をhttps://iliad.stanford.edu/pg-vlm/で発表します。

Recent advances in vision-language models (VLMs) have led to improved performance on tasks such as visual question answering and image captioning. Consequently, these models are now well-positioned to reason about the physical world, particularly within domains such as robotic manipulation. However, current VLMs are limited in their understanding of the physical concepts (e.g., material, fragility) of common objects, which restricts their usefulness for robotic manipulation tasks that involve interaction and physical reasoning about such objects. To address this limitation, we propose PhysObjects, an object-centric dataset of 36.9K crowd-sourced and 417K automated physical concept annotations of common household objects. We demonstrate that fine-tuning a VLM on PhysObjects improves its understanding of physical object concepts, by capturing human priors of these concepts from visual appearance. We incorporate this physically-grounded VLM in an interactive framework with a large language model-based robotic planner, and show improved planning performance on tasks that require reasoning about physical object concepts, compared to baselines that do not leverage physically-grounded VLMs. We additionally illustrate the benefits of our physically-grounded VLM on a real robot, where it improves task success rates. We release our dataset and provide further details and visualizations of our results at https://iliad.stanford.edu/pg-vlm/.
翻訳日:2023-09-07 17:36:15 公開日:2023-09-05
# メドイド周囲のスパース分割

Sparse Partitioning Around Medoids ( http://arxiv.org/abs/2309.02557v1 )

ライセンス: Link先を確認
Lars Lenssen and Erich Schubert(参考訳) 分裂 メドイド (PAM, k-メドイド) は任意の距離関数や類似性を持つ一般的なクラスタリング技法であり、各クラスタはメドイド (medoid) と呼ばれる最も中心的な対象によって表現される。 運用研究においては、この問題のファシリティ・ロケーション・イシュー(FLP)とも呼ばれる。 fastpamは最近、大きなkの高速化を導入し、より大きな問題に適用できるようにしましたが、nではまだ実行時二乗法があります。本章では、道路網などのグラフデータで使用するために、この問題のばらばらで非対称な変種について論じます。 空間性を活用することで、局所最適化を行うのに十分な接続性のグラフを構築できる限り、二次的なランタイムとメモリ要件を回避し、このメソッドをさらに大きな問題にスケーラブルにすることができる。 さらに, メドロイド群が被被覆点の集合と同一でない非対称の場合(あるいは施設位置の解釈において, 可能な施設位置が消費者の位置と同一でない場合)を考える。 空間性のため、小さな k に対して k 個のメドイドで全ての点をカバーすることは不可能であり、この問題は解決不可能となり、良い開始条件を見つけるための一般的なヒューリスティックスを破ることになる。 そこで我々は,k を最適化問題の一部として決定することを検討するとともに,まずより大きい k で欲求初期解を構築することを提案する。次に,医薬をより良い代替品に置き換えることで結果が改善される PAM スタイルの "スワップ" 演算を交互に行い,k の数を減らし,結果の質をさらに向上させることは不可能である。 本手法の有効性を,地図データから入力グラフを抽出し,電気工学的な問題に対して示す。

Partitioning Around Medoids (PAM, k-Medoids) is a popular clustering technique to use with arbitrary distance functions or similarities, where each cluster is represented by its most central object, called the medoid or the discrete median. In operations research, this family of problems is also known as facility location problem (FLP). FastPAM recently introduced a speedup for large k to make it applicable for larger problems, but the method still has a runtime quadratic in N. In this chapter, we discuss a sparse and asymmetric variant of this problem, to be used for example on graph data such as road networks. By exploiting sparsity, we can avoid the quadratic runtime and memory requirements, and make this method scalable to even larger problems, as long as we are able to build a small enough graph of sufficient connectivity to perform local optimization. Furthermore, we consider asymmetric cases, where the set of medoids is not identical to the set of points to be covered (or in the interpretation of facility location, where the possible facility locations are not identical to the consumer locations). Because of sparsity, it may be impossible to cover all points with just k medoids for too small k, which would render the problem unsolvable, and this breaks common heuristics for finding a good starting condition. We, hence, consider determining k as a part of the optimization problem and propose to first construct a greedy initial solution with a larger k, then to optimize the problem by alternating between PAM-style "swap" operations where the result is improved by replacing medoids with better alternatives and "remove" operations to reduce the number of k until neither allows further improving the result quality. We demonstrate the usefulness of this method on a problem from electrical engineering, with the input graph derived from cartographic data.
翻訳日:2023-09-07 17:35:50 公開日:2023-09-05
# ハイブリッド量子/古典計算のためのpragmaベースのc++フレームワーク

A pragma based C++ framework for hybrid quantum/classical computation ( http://arxiv.org/abs/2309.02605v1 )

ライセンス: Link先を確認
Arnaud Gazda and Oc\'eane Koska(参考訳) 量子コンピュータは、様々なタスクのために古典的コンピュータよりも指数関数的なスピードアップを約束する。 この新興技術は、HPCの範囲を超えて問題を解決することができるため、HPC(High Performance Computing)に初めて大きな影響を与えることが期待されている。 そのためにHPCは、古典的および量子的デバイスの両方で、ハイブリッドな量子古典的ノードを介してアプリケーションを動作させる量子アクセラレータを必要とする。 ハイブリッド量子HPCアプリケーションはスケーラブルで、Quantum Error Corrected (QEC)デバイス上で実行可能なものでなければならない。 しかし、スケーラビリティの欠如、性能の低さ、量子アプリケーションに古典的なスキームを挿入できないため、現在の量子フレームワークはHPCコミュニティによって採用されなくなった。 本稿では,hpcのためのハイブリッド量子古典フレームワークの要件を定義し,q-pragmaと呼ばれる新しいハードウェア非依存フレームワークを提案する。 このフレームワークは、量子計算を管理するためにプラグマディレクティブを追加することで、HPCでよく使われる古典的なプログラミング言語C++を拡張している。

Quantum computers promise exponential speed ups over classical computers for various tasks. This emerging technology is expected to have its first huge impact in High Performance Computing (HPC), as it can solve problems beyond the reach of HPC. To that end, HPC will require quantum accelerators, which will enable applications to run on both classical and quantum devices, via hybrid quantum-classical nodes. Hybrid quantum-HPC applications should be scalable, executable on Quantum Error Corrected (QEC) devices, and could use quantum-classical primitives. However, the lack of scalability, poor performances, and inability to insert classical schemes within quantum applications has prevented current quantum frameworks from being adopted by the HPC community. This paper specifies the requirements of a hybrid quantum-classical framework for HPC, and introduces a novel hardware-agnostic framework called Q-Pragma. This framework extends the classical programming language C++ heavily used in HPC via the addition of pragma directives to manage quantum computations.
翻訳日:2023-09-07 17:27:56 公開日:2023-09-05
# TriNetを用いたトリアージにおける肺炎および尿路感染症のスクリーニング

Screening of Pneumonia and Urinary Tract Infection at Triage using TriNet ( http://arxiv.org/abs/2309.02604v1 )

ライセンス: Link先を確認
Stephen Z. Lu(参考訳) 人口の安定した増加と長寿のため、北米では救急部門への訪問が増えている。 より多くの患者が救急部門を訪れると、従来の臨床ワークフローは過負荷で非効率になり、待ち時間が長くなり、医療の質が低下する。 このようなワークフローの1つは、ヒトの労働負荷の制限、不正確な診断、侵襲的な過度な検査によって妨げられるトリアージ医療指令である。 この問題を解決するために、診断確認のために下流テストを必要とする条件に対して、トリアージでのファーストラインスクリーニングを自動化する医療ディレクティブのための機械学習モデルであるTriNetを提案する。 スクリーニングの可能性を検証するため,TriNetは病院トリアージデータを用いてトレーニングを行い,肺炎(0.86例)および尿路感染症(0.93)の検出において高い正の予測値を得た。 これらのモデルは、現在の臨床ベンチマークを上回っており、機械学習医療指令は、共通の状況に対して高い特異性を持つコストフリーで非侵襲的なスクリーニングを提供し、緊急部門の効率を高めながら過剰な検査のリスクを低減できることを示している。

Due to the steady rise in population demographics and longevity, emergency department visits are increasing across North America. As more patients visit the emergency department, traditional clinical workflows become overloaded and inefficient, leading to prolonged wait-times and reduced healthcare quality. One of such workflows is the triage medical directive, impeded by limited human workload, inaccurate diagnoses and invasive over-testing. To address this issue, we propose TriNet: a machine learning model for medical directives that automates first-line screening at triage for conditions requiring downstream testing for diagnosis confirmation. To verify screening potential, TriNet was trained on hospital triage data and achieved high positive predictive values in detecting pneumonia (0.86) and urinary tract infection (0.93). These models outperform current clinical benchmarks, indicating that machine-learning medical directives can offer cost-free, non-invasive screening with high specificity for common conditions, reducing the risk of over-testing while increasing emergency department efficiency.
翻訳日:2023-09-07 17:27:27 公開日:2023-09-05
# 物理誘導プロセスモデルと統計的適合を利用したサイバー物理システムにおける未知の発見

Detection of Unknown-Unknowns in Cyber-Physical Systems using Statistical Conformance with Physics Guided Process Models ( http://arxiv.org/abs/2309.02603v1 )

ライセンス: Link先を確認
Aranyak Maity, Ayan Banerjee and Sandeep Gupta(参考訳) 未知の未知は、設計とテスト段階で考慮されていないサイバー物理システムにおける運用シナリオである。 未知のシナリオでは、CPSの運用動作は、出力軌道上の信号時間論理(STL)を用いて指定された安全性や有効性などの要件を満たすことが保証されない。 我々は,未知の未知のシナリオを発見し,潜在的安全ハザードを評価できる,安全クリティカルなサイバー物理システムの運用出力特性の確率的適合性を分析するための新しい枠組みを提案する。 モデル係数のSTLを用いてモデル適合性をチェックするために,物理誘導サロゲートモデル(PGSM)をマイニングするために動的に誘導されるハイブリッドリカレントニューラルネットワーク(DiH-RNN)を提案する。 未知のインスリンカートリッジエラーによる人工膵(AP)の手術的変化の検出を実証した。

Unknown unknowns are operational scenarios in a cyber-physical system that are not accounted for in the design and test phase. As such under unknown-unknown scenarios, the operational behavior of the CPS is not guaranteed to meet requirements such as safety and efficacy specified using Signal Temporal Logic (STL) on the output trajectories. We propose a novel framework for analyzing the stochastic conformance of operational output characteristics of safety-critical cyber-physical systems that can discover unknown-unknown scenarios and evaluate potential safety hazards. We propose dynamics-induced hybrid recurrent neural networks (DiH-RNN) to mine a physics-guided surrogate model (PGSM) which is used to check the model conformance using STL on the model coefficients. We demonstrate the detection of operational changes in an Artificial Pancreas(AP) due to unknown insulin cartridge errors.
翻訳日:2023-09-07 17:26:37 公開日:2023-09-05
# 短期気象予報におけるハイパーパラメータ選択のためのメタヒューリスティックアルゴリズムの比較評価

Comparative Evaluation of Metaheuristic Algorithms for Hyperparameter Selection in Short-Term Weather Forecasting ( http://arxiv.org/abs/2309.02600v1 )

ライセンス: Link先を確認
Anuvab Sen, Arul Rhik Mazumder, Dibyarup Dutta, Udayon Sen, Pathikrit Syam and Sandipan Dhar(参考訳) 気象予報は多くの分野において重要な役割を担っているが、従来の統計モデルでは気象システムの複雑なダイナミクスを正確に把握することが課題となっている。 ARIMAのような自動回帰時間予測モデルとは別に、ディープラーニング技術(Vanilla ANNs、LSTM、GRUネットワーク)は、時間依存性をキャプチャすることで予測精度を向上させることを約束している。 本稿では,遺伝的アルゴリズム (GA), 微分進化 (DE), 粒子群最適化 (PSO) のメタヒューリスティックアルゴリズムを適用し, モデルアーキテクチャにおける最適ハイパーパラメータの探索を自動化する。 メタヒューリスティックアルゴリズムはグローバル最適化に優れ、非線形問題を扱う際の堅牢性、汎用性、スケーラビリティを提供する。 メタヒューリスティック最適化と統合された異なるモデルアーキテクチャの比較分析を行い、平均正方形誤差(MSE)や平均絶対パーセンテージ誤差(MAPE)といった指標に基づいて天気予報の性能を評価する。 その結果、気象予報精度向上におけるメタヒューリスティックアルゴリズムの可能性が示され、各モデルに対する最適なハイパーパラメータのセットを決定するのに役立つ。 本稿では,天気予報タスクに最適なメタヒューリスティックアルゴリズムを選択するために,高度な最適化手法を活用することの重要性を強調した。

Weather forecasting plays a vital role in numerous sectors, but accurately capturing the complex dynamics of weather systems remains a challenge for traditional statistical models. Apart from Auto Regressive time forecasting models like ARIMA, deep learning techniques (Vanilla ANNs, LSTM and GRU networks), have shown promise in improving forecasting accuracy by capturing temporal dependencies. This paper explores the application of metaheuristic algorithms, namely Genetic Algorithm (GA), Differential Evolution (DE), and Particle Swarm Optimization (PSO), to automate the search for optimal hyperparameters in these model architectures. Metaheuristic algorithms excel in global optimization, offering robustness, versatility, and scalability in handling non-linear problems. We present a comparative analysis of different model architectures integrated with metaheuristic optimization, evaluating their performance in weather forecasting based on metrics such as Mean Squared Error (MSE) and Mean Absolute Percentage Error (MAPE). The results demonstrate the potential of metaheuristic algorithms in enhancing weather forecasting accuracy \& helps in determining the optimal set of hyper-parameters for each model. The paper underscores the importance of harnessing advanced optimization techniques to select the most suitable metaheuristic algorithm for the given weather forecasting task.
翻訳日:2023-09-07 17:26:14 公開日:2023-09-05
# 自己教師付き事前訓練は複数肺超音波検査における性能と推論効率を向上させる

Self-Supervised Pretraining Improves Performance and Inference Efficiency in Multiple Lung Ultrasound Interpretation Tasks ( http://arxiv.org/abs/2309.02596v1 )

ライセンス: Link先を確認
Blake VanBerlo, Brian Li, Jesse Hoey, Alexander Wong(参考訳) 本研究では,Bモード肺超音波検査における複数の分類課題に適用可能なニューラルネットワーク特徴抽出器を,自己指導型プレトレーニングで作成できるかどうかを検討した。 3つの肺超音波のタスクを微調整すると、事前訓練されたモデルにより、各テストセットの受信操作曲線(AUC)における平均クロスタスク面積は、それぞれ0.032と0.061に改善された。 単一の事前学習モデルによって出力される特徴に基づいて訓練されたコンパクトな非線形分類器は、すべてのタスクで性能を改善することはなかったが、個別の微調整モデルの連続実行と比較して推論時間を49%削減した。 利用可能なラベルの1%を使用したトレーニングでは、事前訓練されたモデルが常に教師付きモデルよりも優れており、最大で観察されたaucは視角分類のタスクで0.396増加した。 以上の結果から,自己指導型プレトレーニングは,肺超音波分類器の初期体重の生成に有用であることが示唆された。

In this study, we investigated whether self-supervised pretraining could produce a neural network feature extractor applicable to multiple classification tasks in B-mode lung ultrasound analysis. When fine-tuning on three lung ultrasound tasks, pretrained models resulted in an improvement of the average across-task area under the receiver operating curve (AUC) by 0.032 and 0.061 on local and external test sets respectively. Compact nonlinear classifiers trained on features outputted by a single pretrained model did not improve performance across all tasks; however, they did reduce inference time by 49% compared to serial execution of separate fine-tuned models. When training using 1% of the available labels, pretrained models consistently outperformed fully supervised models, with a maximum observed test AUC increase of 0.396 for the task of view classification. Overall, the results indicate that self-supervised pretraining is useful for producing initial weights for lung ultrasound classifiers.
翻訳日:2023-09-07 17:25:50 公開日:2023-09-05
# 原子-原子相関から自由エネルギーと分配関数を測定する方法

How to measure the free energy and partition function from atom-atom correlations ( http://arxiv.org/abs/2309.02595v1 )

ライセンス: Link先を確認
Matthew L. Kerr and Karen V. Kheruntsyan(参考訳) 短距離相互作用を持つ超低温原子気体の熱力学特性を実験的に決定する手法を提案する。 テストケースとして,積分可能なリーブ・リンガーモデルによって記述された1次元ボース気体に着目した。 提案手法はヘルマン・ファインマンの定理の有限温度版を逆転させることにより局所原子相関の測定から直接ヘルムホルツあるいはランダウ自由エネルギーを導出することに依存する。 理論的には1次元ボース気体の特定の漸近状態における自由エネルギーの近似解析式を導出し、この積分可能なモデルで利用可能な熱力学Betheアンザッツに基づく正確な結果と良好な一致を見出した。

We propose an experimental approach for determining thermodynamic properties of ultracold atomic gases with short-range interactions. As a test case, we focus on the one-dimensional (1D) Bose gas described by the integrable Lieb-Liniger model. The proposed approach relies on deducing the Helmholtz or Landau free energy directly from measurements of local atom-atom correlations by utilising the inversion of a finite-temperature version of the Hellmann-Feynman theorem. We demonstrate this approach theoretically by deriving approximate analytic expressions for the free energies in specific asymptotic regimes of the 1D Bose gas and find excellent agreement with the exact results based on the thermodynamic Bethe ansatz available for this integrable model.
翻訳日:2023-09-07 17:25:32 公開日:2023-09-05
# Gibbard-Satterthwaiteの不確かさ理論の量子投票と振動

Quantum Voting and Violation of Gibbard-Satterthwaite's Impossibility Theorem ( http://arxiv.org/abs/2309.02593v1 )

ライセンス: Link先を確認
Ethan Dickey, Aidan Casey(参考訳) アルゴリズム経済学の領域では、投票システムは、それらが満たす性質や公理を調べて評価され、比較される。 この追求は価値ある洞察を与えてきたが、アローやギバード=サッタースウェイトのイポッシビリティ理論のようなセミナルな不合理性の結果も導いており、理想的な投票システムを設計する上での課題となっている。 量子コンピューティングの分野に入る:最近の進歩は、セキュリティやブロックチェーンなど多くの潜在的なアプリケーションを持つ量子投票システムの概念を導入している。 量子投票システムを用いたアローの不確実性定理をバイパスする最近の研究に基づいて、我々は量子コンドルセット投票(qcv)を拡張し、量子設定におけるギバード・サッタースウェート不確実性定理に対抗する。 これを示すために、真理性という量子特有な概念を導入し、インセンティブの互換性や、その目的を量子領域に拡張し、社会福祉関数をこの領域の社会的選択関数にマッピングする新しいツールを導入する。

In the realm of algorithmic economics, voting systems are evaluated and compared by examining the properties or axioms they satisfy. While this pursuit has yielded valuable insights, it has also led to seminal impossibility results such as Arrow's and Gibbard-Satterthwaite's Impossibility Theorems, which pose challenges in designing ideal voting systems. Enter the domain of quantum computing: recent advancements have introduced the concept of quantum voting systems, which have many potential applications including in security and blockchain. Building on recent works that bypass Arrow's Impossibility Theorem using quantum voting systems, our research extends Quantum Condorcet Voting (QCV) to counter the Gibbard-Satterthwaite Impossibility Theorem in a quantum setting. To show this, we introduce a quantum-specific notion of truthfulness, extend ideas like incentive compatibility and the purpose of onto to the quantum domain, and introduce new tools to map social welfare functions to social choice functions in this domain.
翻訳日:2023-09-07 17:25:17 公開日:2023-09-05
# 自己回帰型マルチモーダルモデルのスケーリング:事前トレーニングと命令チューニング

Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning ( http://arxiv.org/abs/2309.02591v1 )

ライセンス: Link先を確認
Lili Yu, Bowen Shi, Ramakanth Pasunuru, Benjamin Muller, Olga Golovneva, Tianlu Wang, Arun Babu, Binh Tang, Brian Karrer, Shelly Sheynin, Candace Ross, Adam Polyak, Russell Howes, Vasu Sharma, Puxin Xu, Hovhannes Tamoyan, Oron Ashual, Uriel Singer, Shang-Wen Li, Susan Zhang, Richard James, Gargi Ghosh, Yaniv Taigman, Maryam Fazel-Zarandi, Asli Celikyilmaz, Luke Zettlemoyer, Armen Aghajanyan(参考訳) cm3leon("chameleon"と発音される)は、テキストと画像の両方を生成および埋め込むことができる、検索型、トークンベース、デコーダのみのマルチモーダル言語モデルである。 CM3LeonはCM3マルチモーダルアーキテクチャを使用しているが、さらに多様な命令スタイルのデータをスケールアップおよびチューニングする際の極端な利点を示している。 これはテキストのみの言語モデルに適応したレシピで訓練された最初のマルチモーダルモデルであり、大規模な検索強化事前学習ステージと、SFT(Multi-task supervised fine-tuning)ステージを含む。 また、テキスト対画像および画像対テキスト生成の両方が可能な汎用モデルであり、高品質な出力を生成する自己完結型コントラスト復号法を導入することができる。 広範な実験により、このレシピがマルチモーダルモデルに非常に有効であることが示されている。 CM3Leonは、テキスト・ツー・イメージ生成における最先端のパフォーマンスを、同等の手法(ゼロショットMS-COCO FID:4.88)よりも5倍少ないトレーニング計算で達成している。 SFT後、CM3Leonは言語誘導画像編集から画像制御生成、セグメンテーションに至るまで、前例のないレベルの制御可能性を示すことができる。

We present CM3Leon (pronounced "Chameleon"), a retrieval-augmented, token-based, decoder-only multi-modal language model capable of generating and infilling both text and images. CM3Leon uses the CM3 multi-modal architecture but additionally shows the extreme benefits of scaling up and tuning on more diverse instruction-style data. It is the first multi-modal model trained with a recipe adapted from text-only language models, including a large-scale retrieval-augmented pre-training stage and a second multi-task supervised fine-tuning (SFT) stage. It is also a general-purpose model that can do both text-to-image and image-to-text generation, allowing us to introduce self-contained contrastive decoding methods that produce high-quality outputs. Extensive experiments demonstrate that this recipe is highly effective for multi-modal models. CM3Leon achieves state-of-the-art performance in text-to-image generation with 5x less training compute than comparable methods (zero-shot MS-COCO FID of 4.88). After SFT, CM3Leon can also demonstrate unprecedented levels of controllability in tasks ranging from language-guided image editing to image-controlled generation and segmentation.
翻訳日:2023-09-07 17:24:55 公開日:2023-09-05
# 物理インフォームドニューラルネットワークによる高次元の最小表面の計算

Using Physics-Informed Neural Networks to Calculate Minimal Surfaces in Higher Dimensions ( http://arxiv.org/abs/2309.02589v1 )

ライセンス: Link先を確認
Steven Zhou and Xiaojing Ye(参考訳) 本稿では,PDE(Partial Differential Equation)の基本型である最小曲面の数値近似を高次元で計算する。 古典的手法はこの場合、次元の呪いのために処理できない、なぜならこれらの方法の計算コストは、より高次元の問題に対応して指数関数的に増大し、現代のスーパーコンピュータの計算能力を大きく超えているからである。 過去数年間で、機械学習の研究者たちはこの問題を緩和することができた。 ここで選択される解法は、深層ニューラルネットワーク(dnn)を訓練して極小表面pdeを解決する物理インフォームドニューラルネットワーク(pinn)として知られるモデルである。 より高次元にスケールアップでき、GPUのないラップトップでも比較的高速にトレーニングできる。 高次元出力を見ることができないため、データは十分な固定軸を持つ高次元形状のスニペットとして提示され、3次元グラフで見ることができる。 このメソッドの機能をテストするだけでなく、メソッドのパフォーマンスの潜在的な制限についても検討します。

In this paper, we compute numerical approximations of the minimal surfaces, an essential type of Partial Differential Equation (PDE), in higher dimensions. Classical methods cannot handle it in this case because of the Curse of Dimensionality, where the computational cost of these methods increases exponentially fast in response to higher problem dimensions, far beyond the computing capacity of any modern supercomputers. Only in the past few years have machine learning researchers been able to mitigate this problem. The solution method chosen here is a model known as a Physics-Informed Neural Network (PINN) which trains a deep neural network (DNN) to solve the minimal surface PDE. It can be scaled up into higher dimensions and trained relatively quickly even on a laptop with no GPU. Due to the inability to view the high-dimension output, our data is presented as snippets of a higher-dimension shape with enough fixed axes so that it is viewable with 3-D graphs. Not only will the functionality of this method be tested, but we will also explore potential limitations in the method's performance.
翻訳日:2023-09-07 17:24:33 公開日:2023-09-05
# 逐次ボリュームデザインタスクのための表現学習

Representation Learning for Sequential Volumetric Design Tasks ( http://arxiv.org/abs/2309.02583v1 )

ライセンス: Link先を確認
Md Ferdous Alam, Yi Wang, Linh Tran, Chin-Yi Cheng, Jieliang Luo(参考訳) ボリュームデザイン(英: volumetric design)は、マスキングデザインとも呼ばれる、プロの建築設計における最初の重要なステップである。 ボリューム設計プロセスは複雑であるため、基礎となるシーケンシャル設計プロセスはデザイナーにとって価値のある情報をエンコードする。 合理的なボリューム設計を自動生成するための多くの努力がなされているが、生成した設計ソリューションの品質は様々であり、設計ソリューションを評価するには、極めて包括的なメトリクスセットか、高価な人間の専門知識が必要である。 従来の手法では逐次的な設計タスクではなく最終設計のみを学習するが、専門家やハイパフォーマンスな設計シーケンスの集合から設計知識をエンコードし、トランスフォーマティブベースのモデルを用いて有用な表現を抽出する。 その後,設計嗜好評価や手続き的設計生成といった重要な下流アプリケーションに対して,学習表現を利用するように提案する。 学習した表現の密度を推定し, 逐次設計のための自己回帰トランスフォーマーモデルを訓練することで選好モデルを構築する。 数千の逐次ボリュームデザインの新たなデータセットを活用することで、私たちのアイデアを実証する。 我々の選好モデルは任意の2つの設計シーケンスを比較でき、ランダムな設計シーケンスに対して90%近い精度で評価できる。 自動回帰モデルはまた、部分設計シーケンスからボリューム設計シーケンスを自動補完することができる。

Volumetric design, also called massing design, is the first and critical step in professional building design which is sequential in nature. As the volumetric design process is complex, the underlying sequential design process encodes valuable information for designers. Many efforts have been made to automatically generate reasonable volumetric designs, but the quality of the generated design solutions varies, and evaluating a design solution requires either a prohibitively comprehensive set of metrics or expensive human expertise. While previous approaches focused on learning only the final design instead of sequential design tasks, we propose to encode the design knowledge from a collection of expert or high-performing design sequences and extract useful representations using transformer-based models. Later we propose to utilize the learned representations for crucial downstream applications such as design preference evaluation and procedural design generation. We develop the preference model by estimating the density of the learned representations whereas we train an autoregressive transformer model for sequential design generation. We demonstrate our ideas by leveraging a novel dataset of thousands of sequential volumetric designs. Our preference model can compare two arbitrarily given design sequences and is almost 90% accurate in evaluation against random design sequences. Our autoregressive model is also capable of autocompleting a volumetric design sequence from a partial design sequence.
翻訳日:2023-09-07 17:24:15 公開日:2023-09-05
# 最適ガウスクラスターの統計的に有意な分離群を見つけるスーパークラスタリング

Superclustering by finding statistically significant separable groups of optimal gaussian clusters ( http://arxiv.org/abs/2309.02623v1 )

ライセンス: Link先を確認
Oleg I.Berngardt(参考訳) 本稿では, bic基準の観点から, ガウスクラスターの数を, 統計分離性の観点から, 最適クラスタに分類し, データセットをクラスタリングするアルゴリズムを提案する。 The algorithm consists of three stages: representation of the dataset as a mixture of Gaussian distributions - clusters, which number is determined based on the minimum of the BIC criterion; using the Mahalanobis distance, to estimate the distances between the clusters and cluster sizes; combining the resulting clusters into superclusters using the DBSCAN method by finding its hyperparameter (maximum distance) providing maximum value of introduced matrix quality criterion at maximum number of superclusters. 行列の品質基準は、すべてのスーパークラスター間で統計的に有意に分離されたスーパークラスタの割合に対応する。 このアルゴリズムは1つのハイパーパラメーター(統計的重要性レベル)しか持たず、統計仮説テストアプローチに基づいて、スーパークラスタの最適数と形状を自動的に検出する。 このアルゴリズムは、ノイズやノイズのない状況におけるテストデータセットに対して良い結果を示す。 このアルゴリズムの重要な利点は、既にトレーニング済みのclustererをベースにした新しいデータに対して正しいスーパークラスタを予測し、ソフト(ファズィ)クラスタリングを実行する能力である。 アルゴリズムの欠点は、その低速さと最終的なクラスタリングの確率的性質である。 クラスタリングには十分大きなデータセットが必要であり、多くの統計的手法で典型的である。

The paper presents the algorithm for clustering a dataset by grouping the optimal, from the point of view of the BIC criterion, number of Gaussian clusters into the optimal, from the point of view of their statistical separability, superclusters. The algorithm consists of three stages: representation of the dataset as a mixture of Gaussian distributions - clusters, which number is determined based on the minimum of the BIC criterion; using the Mahalanobis distance, to estimate the distances between the clusters and cluster sizes; combining the resulting clusters into superclusters using the DBSCAN method by finding its hyperparameter (maximum distance) providing maximum value of introduced matrix quality criterion at maximum number of superclusters. The matrix quality criterion corresponds to the proportion of statistically significant separated superclusters among all found superclusters. The algorithm has only one hyperparameter - statistical significance level, and automatically detects optimal number and shape of superclusters based of statistical hypothesis testing approach. The algorithm demonstrates a good results on test datasets in noise and noiseless situations. An essential advantage of the algorithm is its ability to predict correct supercluster for new data based on already trained clusterer and perform soft (fuzzy) clustering. The disadvantages of the algorithm are: its low speed and stochastic nature of the final clustering. It requires a sufficiently large dataset for clustering, which is typical for many statistical methods.
翻訳日:2023-09-07 17:17:53 公開日:2023-09-05
# 導波路QEDにおける空間及びスペクトル変化エミッタのアンサンブル間のコヒーレントダイナミクス

Coherent dynamics amongst ensembles of spatially and spectrally varying emitters in waveguide QED ( http://arxiv.org/abs/2309.02622v1 )

ライセンス: Link先を確認
Lewis Ruks, Xuejun Xu, Ryuichi Ohta, William John Munro, Victor Manuel Bastidas(参考訳) 導波管に埋め込まれた分光的および空間的に変化するエミッタのアンサンブルは、確立された技術と新興技術の両方に常に存在する。 集団励起の制御が可能であれば、導波路量子電磁力学(wqed)のスケーラブルなパラダイムにおいて、多数のコヒーレント量子力学と応用がオンチップで実現される。 本稿では、導波路に埋め込まれた不均一なアンサンブルが単一有効でコヒーレントなエミッタとしてどのように用いられるかを示す。 局所的およびメスコスコープ的アンサンブルの対称励起は、大きな集合導波路カップリングの恩恵を受け、大きな不均質な広化を克服する導波路光子のほぼ一元的かつ調整不可能な非ローレンツ的消滅を可能にする。 現在行われている実験で可能な最初の例として、希少イオンのアンサンブルをコヒーレントミラーやキュービットとして用いた空洞QED(CQED)パラダイムの古典的レクリエーションを示す。 この研究は、WQEDにコヒーレントアンサンブルダイナミクスを導入し、領域をスペクトル的に調整可能なエミッターに拡張する。

Spectrally and spatially varying ensembles of emitters embedded into waveguide are ever-present in both well-established and emerging technologies. If control of collective excitations can be attained, a plethora of coherent quantum dynamics and applications may be realized on-chip in the scalable paradigm of waveguide quantum electrodynamics (WQED). Here, we demonstrate how inhomogeneous ensembles embedded into waveguides may be employed as single effective and coherent emitters. The symmetric excitation of localized and mescoscopic ensembles benefit from large collective waveguide coupling, allowing for near-unity and tailorable non-Lorentzian extinction of waveguide photons overcoming large inhomogeneous broadening. As an initial illustration possible in currently existing experiments, we demonstrate the classic recreation of the cavity QED (CQED) paradigm using ensembles of rare-earth ions as coherent mirrors and qubits. This work introduces coherent ensemble dynamics to WQED and extends the realm to spectrally tailorable emitters.
翻訳日:2023-09-07 17:17:33 公開日:2023-09-05
# 低リソース視覚学習のための視覚トランスフォーマーの圧縮

Compressing Vision Transformers for Low-Resource Visual Learning ( http://arxiv.org/abs/2309.02617v1 )

ライセンス: Link先を確認
Eric Youn, Sai Mitheran J, Sanjana Prabhu, Siyuan Chen(参考訳) 視覚トランスフォーマー(vit)とその変種は、視覚学習のリーダーボードを通り抜け、画像分類、オブジェクト検出、セマンティックセグメンテーションなどのタスクにおいて、視覚入力の異なる部分に参加し、長距離空間依存性をキャプチャすることで、最先端の精度を提供する。 しかし、これらのモデルは巨大で計算量が多い。 例えば、最近提案されたViT-Bモデルには86Mパラメータがあり、リソース制約のあるデバイスへのデプロイには実用的ではない。 その結果、モバイルとエッジのシナリオへのデプロイメントは限られている。 本研究では,蒸留,プルーニング,量子化といった一般的なモデル圧縮技術を活用して,視覚トランスフォーマーをエッジに持ち込むための一歩を踏み出す。 我々の選択したアプリケーション環境は、バッテリー駆動でメモリに制約のある無人航空機(UAV)で、4GBのRAMを持つNVIDIA Jetson Nanoのスケールでシングルボードコンピュータを搭載。 一方UAVは、自律航法における安全な物体回避や、捜索救助における人間の正確な位置決めを確保するために、最先端のViTに近い精度の精度を必要とする。 アプリケーションの要件を考慮すると、推論のレイテンシも最小限にすべきです。 したがって、私たちの目標は、nvidia jetson nano (4gb) 上のビジョントランスフォーマーを、最小限の精度の損失で迅速に推論できるようにすることです。 これにより、リソース制約のあるデバイスにViTをデプロイし、監視や環境監視などの新たな可能性を開くことができます。 実装はhttps://github.com/chensy7/ efficient-vitで利用可能です。

Vision transformer (ViT) and its variants have swept through visual learning leaderboards and offer state-of-the-art accuracy in tasks such as image classification, object detection, and semantic segmentation by attending to different parts of the visual input and capturing long-range spatial dependencies. However, these models are large and computation-heavy. For instance, the recently proposed ViT-B model has 86M parameters making it impractical for deployment on resource-constrained devices. As a result, their deployment on mobile and edge scenarios is limited. In our work, we aim to take a step toward bringing vision transformers to the edge by utilizing popular model compression techniques such as distillation, pruning, and quantization. Our chosen application environment is an unmanned aerial vehicle (UAV) that is battery-powered and memory-constrained, carrying a single-board computer on the scale of an NVIDIA Jetson Nano with 4GB of RAM. On the other hand, the UAV requires high accuracy close to that of state-of-the-art ViTs to ensure safe object avoidance in autonomous navigation, or correct localization of humans in search-and-rescue. Inference latency should also be minimized given the application requirements. Hence, our target is to enable rapid inference of a vision transformer on an NVIDIA Jetson Nano (4GB) with minimal accuracy loss. This allows us to deploy ViTs on resource-constrained devices, opening up new possibilities in surveillance, environmental monitoring, etc. Our implementation is made available at https://github.com/chensy7/efficient-vit.
翻訳日:2023-09-07 17:17:13 公開日:2023-09-05
# マルチモーダルプロンプトによる生成型ai支援共同学習フリーセキュアセマンティクスコミュニケーション

Generative AI-aided Joint Training-free Secure Semantic Communications via Multi-modal Prompts ( http://arxiv.org/abs/2309.02616v1 )

ライセンス: Link先を確認
Hongyang Du, Guangyuan Liu, Dusit Niyato, Jiayi Zhang, Jiawen Kang, Zehui Xiong, Bo Ai, and Dong In Kim(参考訳) セマンティック通信(SemCom)は、通信目標を達成すると同時に、ネットワークリソース消費を減らすことを約束している。 しかし、セマンティックエンコーダとデコーダの合同トレーニングにおける計算オーバーヘッドと、その後のネットワークデバイスへの展開は見過ごされています。 生成人工知能(GAI)の最近の進歩は潜在的な解決策を提供する。 GAIモデルの堅牢な学習能力は、セマンティックデコーダが、セマンティックエンコーダと共同でトレーニングすることなく、プロンプトなどの限られた量のセマンティック情報を使って、ソースメッセージを再構築できることを示している。 しかし、注目すべき課題は、GAIの多様な世代能力によって導入された不安定性である。 この不安定性は、テキスト生成画像のような出力で明らかであり、顔画像送信のような正確なメッセージ復元を必要とするシナリオにおけるgaiの直接適用を制限する。 上記の問題を解決するために,マルチモデルプロンプトを用いたGAI支援型SemComシステムを提案する。 さらに,セキュリティ上の懸念に応えて,フレンドリーなジャマーによって支援される隠蔽通信の適用を導入する。 このシステムは、生成拡散モデルの助けを借りて拡散ステップ、ジャミング、送信電力を共同で最適化し、ソースメッセージの正常かつ安全な送信を可能にする。

Semantic communication (SemCom) holds promise for reducing network resource consumption while achieving the communications goal. However, the computational overheads in jointly training semantic encoders and decoders-and the subsequent deployment in network devices-are overlooked. Recent advances in Generative artificial intelligence (GAI) offer a potential solution. The robust learning abilities of GAI models indicate that semantic decoders can reconstruct source messages using a limited amount of semantic information, e.g., prompts, without joint training with the semantic encoder. A notable challenge, however, is the instability introduced by GAI's diverse generation ability. This instability, evident in outputs like text-generated images, limits the direct application of GAI in scenarios demanding accurate message recovery, such as face image transmission. To solve the above problems, this paper proposes a GAI-aided SemCom system with multi-model prompts for accurate content decoding. Moreover, in response to security concerns, we introduce the application of covert communications aided by a friendly jammer. The system jointly optimizes the diffusion step, jamming, and transmitting power with the aid of the generative diffusion models, enabling successful and secure transmission of the source messages.
翻訳日:2023-09-07 17:16:48 公開日:2023-09-05
# 物理系ワイルドファイア拡散モデルと衛星データとの融合のための生成アルゴリズムによるワイルドファイア予測の初期化

Generative Algorithms for Fusion of Physics-Based Wildfire Spread Models with Satellite Data for Initializing Wildfire Forecasts ( http://arxiv.org/abs/2309.02615v1 )

ライセンス: Link先を確認
Bryan Shaddy, Deep Ray, Angel Farguell, Valentina Calaza, Jan Mandel, James Haley, Kyle Hilburn, Derek V. Mallia, Adam Kochanski and Assad Oberai(参考訳) 野火活動の増加とその結果生じる影響は、火の拡散を予測するために高分解能の野火行動モデルの開発を促した。 衛星による火災位置検出の最近の進歩は、データ同化による数値モデルからの火災拡散予測を改善するために、測定を使用する機会を提供する。 本研究は, 衛星観測から山火事の歴史を推定する手法を開発し, 観測された山火事状態から大気・山火事モデルを初期化するために必要な情報を提供する。 火災到着時刻は、火が所定の空間的な場所に到達したときであり、山火事の歴史の簡潔な表現として機能する。 本研究では、WRF-SFIREシミュレーションで訓練した条件付きWasserstein Generative Adversarial Network (cWGAN)を用いて、衛星アクティブファイアデータから着火時刻を推定する。 cwganは、衛星の能動火検出による着火時刻の条件分布から発火時刻のサンプルを生成するために使用される。 cwganが生成したサンプルは、さらに予測の不確実性を評価するために用いられる。 cWGANは、2020年から2022年にかけて発生したカリフォルニアの4回の山火事でテストされ、高解像度の空中赤外線測定と比較された。 さらに、予測点火時間を報告された点火時間と比較する。 火災周辺における平均ソレンセン係数0.81と平均点火時間誤差32分は、この手法が極めて正確であることを示唆している。

Increases in wildfire activity and the resulting impacts have prompted the development of high-resolution wildfire behavior models for forecasting fire spread. Recent progress in using satellites to detect fire locations further provides the opportunity to use measurements to improve fire spread forecasts from numerical models through data assimilation. This work develops a method for inferring the history of a wildfire from satellite measurements, providing the necessary information to initialize coupled atmosphere-wildfire models from a measured wildfire state in a physics-informed approach. The fire arrival time, which is the time the fire reaches a given spatial location, acts as a succinct representation of the history of a wildfire. In this work, a conditional Wasserstein Generative Adversarial Network (cWGAN), trained with WRF-SFIRE simulations, is used to infer the fire arrival time from satellite active fire data. The cWGAN is used to produce samples of likely fire arrival times from the conditional distribution of arrival times given satellite active fire detections. Samples produced by the cWGAN are further used to assess the uncertainty of predictions. The cWGAN is tested on four California wildfires occurring between 2020 and 2022, and predictions for fire extent are compared against high resolution airborne infrared measurements. Further, the predicted ignition times are compared with reported ignition times. An average Sorensen's coefficient of 0.81 for the fire perimeters and an average ignition time error of 32 minutes suggest that the method is highly accurate.
翻訳日:2023-09-07 17:16:26 公開日:2023-09-05
# angry birdsの安定構造生成における生成逆ネットワークの利用

Utilizing Generative Adversarial Networks for Stable Structure Generation in Angry Birds ( http://arxiv.org/abs/2309.02614v1 )

ライセンス: Link先を確認
Frederic Abraham, Matthew Stephenson(参考訳) 本稿では,GAN(Generative Adversarial Networks)を用いて,物理学ベースのパズルゲームAngry Birdsの安定した構造を生成する方法を提案する。 レベル生成のためのganの以前の応用はタイルベースの表現に限られているが、本論文は複数の小さなブロックから安定した構造を作成するのに適していることを示す。 これには、Angry Birdsのレベル記述と適切なグリッドベースの表現を変換するための詳細なエンコーディング/デコーディングプロセス、最先端のGANアーキテクチャと新しい構造設計のトレーニング方法の利用が含まれる。 以上の結果から,ganは多種多様な複雑で安定なangry birds構造を生成できることがわかった。

This paper investigates the suitability of using Generative Adversarial Networks (GANs) to generate stable structures for the physics-based puzzle game Angry Birds. While previous applications of GANs for level generation have been mostly limited to tile-based representations, this paper explores their suitability for creating stable structures made from multiple smaller blocks. This includes a detailed encoding/decoding process for converting between Angry Birds level descriptions and a suitable grid-based representation, as well as utilizing state-of-the-art GAN architectures and training methods to produce new structure designs. Our results show that GANs can be successfully applied to generate a varied range of complex and stable Angry Birds structures.
翻訳日:2023-09-07 17:16:00 公開日:2023-09-05
# T-SaS: ストリーミングデータに対するシフト対応動的適応に向けて

T-SaS: Toward Shift-aware Dynamic Adaptation for Streaming Data ( http://arxiv.org/abs/2309.02610v1 )

ライセンス: Link先を確認
Weijieying Ren, Tianxiang Zhao, Wei Qin, Kunpeng Liu(参考訳) 多くの現実のシナリオでは、時間ステップにわたるストリーミングデータに分散シフトが存在する。 多くの複雑なシーケンシャルデータは、永続的なダイナミクスを示す異なるレジームに効果的に分けられる。 移動した動作とストリーミングデータの基盤となる進化パターンの発見は、動的システムを理解する上で重要である。 既存の手法は通常、1つのロバストなモデルを訓練し、異なる分布の進化するデータを扱うか、明示的に与えられた規則境界を利用してモデルを逐次適応させる。 しかし、2つの課題がある: (1)データストリームのシフトは、前駆者なしで劇的に、そして突然起こる可能性がある。 分散シフトの境界は通常不可能であり、(2)すべてのドメインで共有モデルをトレーニングしても、さまざまなパターンをキャプチャできない可能性がある。 本稿では,前駆者なしで発生する突然の分布変化の存在下での逐次データモデリングの課題を解決することを目的とする。 具体的には、データの急激なシフトを捉えるために、離散分布モデリング変数を持つT-SaSと呼ばれるベイズフレームワークを設計する。 そこで我々は,その離散変数に条件付き動的ネットワーク選択に適応可能なモデルを設計する。 提案手法は,全ネットワークでどのニューロンを活性化すべきかを学習することで,各分布の特定のモデルパラメータを学習する。 ここでは、スパースネットワークのオーバーラップによる分配間転送を支援するために、動的マスキング戦略を採用する。 その結果,提案手法は,分布の異なるセグメントを正確に検出し,下流予測や分類タスクに効果的に適応できることが示唆された。

In many real-world scenarios, distribution shifts exist in the streaming data across time steps. Many complex sequential data can be effectively divided into distinct regimes that exhibit persistent dynamics. Discovering the shifted behaviors and the evolving patterns underlying the streaming data are important to understand the dynamic system. Existing methods typically train one robust model to work for the evolving data of distinct distributions or sequentially adapt the model utilizing explicitly given regime boundaries. However, there are two challenges: (1) shifts in data streams could happen drastically and abruptly without precursors. Boundaries of distribution shifts are usually unavailable, and (2) training a shared model for all domains could fail to capture varying patterns. This paper aims to solve the problem of sequential data modeling in the presence of sudden distribution shifts that occur without any precursors. Specifically, we design a Bayesian framework, dubbed as T-SaS, with a discrete distribution-modeling variable to capture abrupt shifts of data. Then, we design a model that enable adaptation with dynamic network selection conditioned on that discrete variable. The proposed method learns specific model parameters for each distribution by learning which neurons should be activated in the full network. A dynamic masking strategy is adopted here to support inter-distribution transfer through the overlapping of a set of sparse networks. Extensive experiments show that our proposed method is superior in both accurately detecting shift boundaries to get segments of varying distributions and effectively adapting to downstream forecast or classification tasks.
翻訳日:2023-09-07 17:15:45 公開日:2023-09-05
# オンライン教師付き学習のための分散変分推論

Distributed Variational Inference for Online Supervised Learning ( http://arxiv.org/abs/2309.02606v1 )

ライセンス: Link先を確認
Parth Paritosh, Nikolay Atanasov, Sonia Martinez(参考訳) インテリジェントセンサーネットワークにおける推論問題に対する効率的なソリューションの開発は、次世代のロケーション、トラッキング、マッピングサービスにとって不可欠である。 本稿では,センサネットワークにおける連続変数,抽出可能な後部および大規模リアルタイムデータに適用可能な,スケーラブルな分散確率推定アルゴリズムを提案する。 集中的な環境では、変分推論は近似ベイズ推定の基本的な手法であり、難解な後方密度をパラメトリック密度で近似する。 センサネットワークにおける1ホップ通信による分散変分推論を可能にする,集中的推定目標に対する分離可能な下限の導出が鍵となる。 我々の分散エビデンスローバウンド(DELBO)は、観測可能性の重み付けと事前密度のばらつきで構成されており、測定エビデンスとのギャップは、コンセンサスとモデリングエラーによるものである。 ストリーミングデータを扱う場合のバイナリ分類と回帰問題を解決するために,DELBOを最大化するオンライン分散アルゴリズムを設計し,非線形確率を持つガウス変分密度に特化する。 結果の分散ガウス変分推論(DGVI)は、共分散行列に1ドルランクの補正を効率的に反転させる。 最後に、高次元モデルにおけるオンライン分散推論のための対角化バージョンを導出し、屋内ライダーデータを用いたマルチロボット確率マッピングに適用する。

Developing efficient solutions for inference problems in intelligent sensor networks is crucial for the next generation of location, tracking, and mapping services. This paper develops a scalable distributed probabilistic inference algorithm that applies to continuous variables, intractable posteriors and large-scale real-time data in sensor networks. In a centralized setting, variational inference is a fundamental technique for performing approximate Bayesian estimation, in which an intractable posterior density is approximated with a parametric density. Our key contribution lies in the derivation of a separable lower bound on the centralized estimation objective, which enables distributed variational inference with one-hop communication in a sensor network. Our distributed evidence lower bound (DELBO) consists of a weighted sum of observation likelihood and divergence to prior densities, and its gap to the measurement evidence is due to consensus and modeling errors. To solve binary classification and regression problems while handling streaming data, we design an online distributed algorithm that maximizes DELBO, and specialize it to Gaussian variational densities with non-linear likelihoods. The resulting distributed Gaussian variational inference (DGVI) efficiently inverts a $1$-rank correction to the covariance matrix. Finally, we derive a diagonalized version for online distributed inference in high-dimensional models, and apply it to multi-robot probabilistic mapping using indoor LiDAR data.
翻訳日:2023-09-07 17:15:22 公開日:2023-09-05
# ハイゼンベルク画像における量子力学の等価原理

Equivalence Principle for Quantum Mechanics in the Heisenberg Picture ( http://arxiv.org/abs/2309.03095v1 )

ライセンス: Link先を確認
Otto C.W. Kong (NAt'l Central U, Taiwan)(参考訳) 我々は「相対論的」量子粒子に対する弱同値原理の正確な量子可観測アナログを示す。 量子測地線方程式はハイゼンベルク運動方程式から完全共変古典ハミルトン進化図の完全な類似物として得られ、標準運動量変数の適切な識別は$p^\mu$ではなく$p_\mu$である。 時空の非可換幾何学図の1つとして解曲線を持つ方程式や、量子座標変換(quantum coordinate transformation)の概念を含む物理量としての量子可観測性(quantum observables)の理論として、量子重力に対する妥当なアプローチについて論じる。

We present an exact quantum observable analog of the weak equivalence principle for a `relativistic' quantum particle. The quantum geodesic equations are obtained from Heisenberg equations of motion as an exact analog of a fully covariant classical Hamiltonian evolution picture, with the proper identification of the canonical momentum variables as $p_\mu$, rather than $p^\mu$. We discuss the meaning of the equations in relation to projective measurements as well as equations with solution curves as ones in the noncommutative geometric picture of spacetime, and a plausible approach to quantum gravity as a theory about quantum observables as physical quantities including the notion of quantum coordinate transformation.
翻訳日:2023-09-07 14:58:31 公開日:2023-09-05
# 予測・データ同化・不確実性定量化のための生成ネットワークに基づく減次モデル

Generative Network-Based Reduced-Order Model for Prediction, Data Assimilation and Uncertainty Quantification ( http://arxiv.org/abs/2105.13859v4 )

ライセンス: Link先を確認
Vinicius L. S. Silva, Claire E. Heaney, Nenko Nenov, Christopher C. Pain(参考訳) 本稿では,偏微分方程式(pde)の逆問題を解くために,生成ネットワーク(gn)を還元次モデル(rom)フレームワークに統合する新しい手法を提案する。 その目的は、利用可能な測定値と一致し、数値物理シミュレーションの状態やパラメータに関連する不確かさを推定することである。 GNは離散化PDEモデルの無条件シミュレーションのみを用いて訓練される。 提案手法と黄金標準マルコフ連鎖モンテカルロとの比較を行った。 提案手法を疫学における時空間分割モデルに適用する。 提案したGNベースのROMは,実数値PDEモデルの無条件シミュレーションを用いて,不確実性を効率よく定量化し,測定値と黄金標準を正確に一致させることができることを示す。

We propose a new method in which a generative network (GN) integrate into a reduced-order model (ROM) framework is used to solve inverse problems for partial differential equations (PDE). The aim is to match available measurements and estimate the corresponding uncertainties associated with the states and parameters of a numerical physical simulation. The GN is trained using only unconditional simulations of the discretized PDE model. We compare the proposed method with the golden standard Markov chain Monte Carlo. We apply the proposed approaches to a spatio-temporal compartmental model in epidemiology. The results show that the proposed GN-based ROM can efficiently quantify uncertainty and accurately match the measurements and the golden standard, using only a few unconditional simulations of the full-order numerical PDE model.
翻訳日:2023-09-07 12:34:31 公開日:2023-09-05
# 入場資格の標準試験の廃止、情報とアクセスのトレードオフ

Dropping Standardized Testing for Admissions Trades Off Information and Access ( http://arxiv.org/abs/2010.04396v5 )

ライセンス: Link先を確認
Nikhil Garg, Hannah Li, Faidra Monachou(参考訳) フェアネスを考慮した容量制約選択問題における情報とアクセスの役割について検討する。 我々は,各応募者が複数の特徴を持ち,潜在的に戦略的である理論的統計的識別フレームワークを開発する。 このモデルは、特徴の(潜在的にポジティブな)情報的役割とその(否定的な)排他的性質の間のトレードオフを定式化する。 この枠組みは、大学入学試験における標準化テストの廃止に関する最近の政策論争に自然に適用できる。 私たちのおもな結論は、機能(テストスコアなど)をドロップする決定は、他の機能が提供する情報と、その要求が応募者プールの構成にどのように影響するかの、共同コンテキストなしではできないということです。 特徴の削除は、各応募者、特に非伝統的背景からの情報量を減らすことで、格差を悪化させる可能性がある。 しかし,機能に対するアクセス障壁の存在下では,情報環境とアクセス障壁の相互作用がアプリケーションプールサイズに与える影響は非常に複雑になる。 この場合、特徴の除去が学術的メリットと多様性の両方を改善する際の閾値特性を提供する。 最後に、戦略的および非戦略的な設定で校正されたシミュレーションを用いて、標準化されたテストを排除する決定がすべてのメトリクスを改善したり、悪化させたりする実例の存在を実証する。

We study the role of information and access in capacity-constrained selection problems with fairness concerns. We develop a theoretical statistical discrimination framework, where each applicant has multiple features and is potentially strategic. The model formalizes the trade-off between the (potentially positive) informational role of a feature and its (negative) exclusionary nature when members of different social groups have unequal access to this feature. Our framework finds a natural application to recent policy debates on dropping standardized testing in college admissions. Our primary takeaway is that the decision to drop a feature (such as test scores) cannot be made without the joint context of the information provided by other features and how the requirement affects the applicant pool composition. Dropping a feature may exacerbate disparities by decreasing the amount of information available for each applicant, especially those from non-traditional backgrounds. However, in the presence of access barriers to a feature, the interaction between the informational environment and the effect of access barriers on the applicant pool size becomes highly complex. In this case, we provide a threshold characterization regarding when removing a feature improves both academic merit and diversity. Finally, using calibrated simulations in both the strategic and non-strategic settings, we demonstrate the presence of practical instances where the decision to eliminate standardized testing improves or worsens all metrics.
翻訳日:2023-09-07 12:31:54 公開日:2023-09-05
# 知識インフォームド分子学習:パラダイム伝達に関する調査

Knowledge-informed Molecular Learning: A Survey on Paradigm Transfer ( http://arxiv.org/abs/2202.10587v2 )

ライセンス: Link先を確認
Yin Fang, Zhuo Chen, Xiaohui Fan and Ningyu Zhang(参考訳) 機械学習、特にディープラーニングは、生化学領域における分子研究を著しく推進している。 伝統的に、このような研究のモデリングはいくつかのパラダイムを中心に行われてきた。 例えば、予測パラダイムは分子特性予測のようなタスクに対して頻繁にデプロイされる。 純粋データ駆動モデルの生成と解読性を高めるため、研究者は生化学的ドメイン知識をこれらの分子研究モデルに統合した。 この統合によってパラダイムトランスファーが急増し、ある分子学習タスクを別の分子として再構成することで解決している。 大規模言語モデルの出現に伴い、これらのパラダイムは調和化された統一へのエスカレーション傾向を示した。 本研究では,パラダイム伝達の観点から,知識インフォームド分子学習に着目した文献調査を概説する。 パラダイムを分類し、方法論を精査し、ドメイン知識の貢献を解剖します。 さらに, 普及傾向をカプセル化し, 今後の分子学習への興味をそそる道筋を明らかにした。

Machine learning, notably deep learning, has significantly propelled molecular investigations within the biochemical sphere. Traditionally, modeling for such research has centered around a handful of paradigms. For instance, the prediction paradigm is frequently deployed for tasks such as molecular property prediction. To enhance the generation and decipherability of purely data-driven models, scholars have integrated biochemical domain knowledge into these molecular study models. This integration has sparked a surge in paradigm transfer, which is solving one molecular learning task by reformulating it as another one. With the emergence of Large Language Models, these paradigms have demonstrated an escalating trend towards harmonized unification. In this work, we delineate a literature survey focused on knowledge-informed molecular learning from the perspective of paradigm transfer. We classify the paradigms, scrutinize their methodologies, and dissect the contribution of domain knowledge. Moreover, we encapsulate prevailing trends and identify intriguing avenues for future exploration in molecular learning.
翻訳日:2023-09-07 12:25:24 公開日:2023-09-05
# ライドバーグ原子鎖の厳密なダイナミクスを用いた離散切断ウィグナー近似と制限ボルツマンニューラルネットワークのベンチマーク

Benchmarking discrete truncated Wigner approximation and restricted Boltzmann neural networks with the exact dynamics of a Rydberg atomic chain ( http://arxiv.org/abs/2110.02201v3 )

ライセンス: Link先を確認
Vighnesh Naik, Varna Shenoy, Weibin Li and Rejish Nath(参考訳) 我々は,10個のRydberg原子の連鎖における正確な励起と相関のダイナミクスを用いて,制限ボルツマン機械法の離散トランカテッドウィグナー近似(DTWA)と人工ニューラルネットワーク(ANN)をベンチマークした。 初期状態は、全ての原子が電子基底状態にある場所である。 我々はRydberg励起の最大値と平均値を用いて励起ダイナミクスを特徴づける。 DTWAとANNは、十分に小さなRydberg-Rydberg相互作用に対して信頼性があるが、励起ダイナミクスを捉えるために大きな相互作用強度で失敗する。 相関関係に関して、ANNは2階のバイパルタイトとR\'enyiエントロピーがRydberg-Rydberg相互作用が小さいときに正確に捕捉されるので、この2つの手法の中でより有望であるように見える。 2階のDTWAは、小さな相互作用強度では初期周期の相関を正確に定量化できるが、大きな相互作用では失敗する。

We benchmark the discrete truncated Wigner approximation (DTWA) and artificial neural networks (ANN) of restricted Boltzmann machine methods with the exact excitation and correlation dynamics in a chain of ten Rydberg atoms. The initial state is where all atoms are in their electronic ground state. We characterize the excitation dynamics using the maximum and average number of Rydberg excitations. DTWA and ANN are reliable for sufficiently small Rydberg-Rydberg interactions but fail at large interaction strengths to capture the excitation dynamics. Concerning the correlations, ANN looks more promising among the two methods as the second-order bipartite and average two-site R\'enyi entropies are captured accurately when the Rydberg-Rydberg interactions are small. The second-order DTWA can accurately quantify the correlations for initial periods for small interaction strengths but fail for large interactions.
翻訳日:2023-09-07 12:23:47 公開日:2023-09-05
# トップNレコメンダシステムにおけるランク付け蒸留の二重補正戦略

Dual Correction Strategy for Ranking Distillation in Top-N Recommender System ( http://arxiv.org/abs/2109.03459v2 )

ライセンス: Link先を確認
Youngjune Lee and Kee-Eung Kim(参考訳) 十分に訓練された大規模モデル(教師)の知識を小モデル(学生)に移す知識蒸留(kd)は、レコメンダシステムの実践的展開のための重要な研究分野となっている。 近年,リコメンデーションリストのランキング情報を蒸留することで,性能が著しく向上することが示された。 しかし その方法には まだ限界があります 1)学生モデルの予測誤差を十分に活用していないため、学習の効率が良くない。 2) ユーザ側のランキング情報のみを抽出し, まばらな暗黙的なフィードバックの下では不十分なビューを提供する。 本稿では,教師モデルから生徒モデルへのランキング情報をより効率的に伝達するDCD(Dual Correction Strategy for Distillation)を提案する。 最も重要なことは、DCDは教師モデルと生徒モデル予測の相違を利用して、どの知識を蒸留するかを決定することである。 そうすることによって、DCDは、学生モデルが正確に予測できなかったことを「修正」するために調整された学習指導を提供する。 このプロセスは、ユーザ側およびアイテム側からランキング情報を転送して、まばらな暗黙的なユーザフィードバックに対処するために適用される。 実験の結果,提案手法は最先端のベースラインよりも優れており,アブレーション実験により各コンポーネントの有効性が検証された。

Knowledge Distillation (KD), which transfers the knowledge of a well-trained large model (teacher) to a small model (student), has become an important area of research for practical deployment of recommender systems. Recently, Relaxed Ranking Distillation (RRD) has shown that distilling the ranking information in the recommendation list significantly improves the performance. However, the method still has limitations in that 1) it does not fully utilize the prediction errors of the student model, which makes the training not fully efficient, and 2) it only distills the user-side ranking information, which provides an insufficient view under the sparse implicit feedback. This paper presents Dual Correction strategy for Distillation (DCD), which transfers the ranking information from the teacher model to the student model in a more efficient manner. Most importantly, DCD uses the discrepancy between the teacher model and the student model predictions to decide which knowledge to be distilled. By doing so, DCD essentially provides the learning guidance tailored to "correcting" what the student model has failed to accurately predict. This process is applied for transferring the ranking information from the user-side as well as the item-side to address sparse implicit user feedback. Our experiments show that the proposed method outperforms the state-of-the-art baselines, and ablation studies validate the effectiveness of each component.
翻訳日:2023-09-07 12:23:14 公開日:2023-09-05
# Anti-$\mathcal{PT}$ Transformations and Complex Non-Hermitian $\mathcal{PT}$-Symmetric Superpartners

Anti-$\mathcal{PT}$ Transformations And Complex Non-Hermitian $\mathcal{PT}$-Symmetric Superpartners ( http://arxiv.org/abs/2108.12834v2 )

ライセンス: Link先を確認
Taha Koohrokhi and Sehban Kartal and Ali Mohammadi(参考訳) 従来の形状不変超ポテンシャルを複素領域に拡張することにより、複素非エルミート的$\mathcal{pt}$-symmetric superpartnerを構築するための新しい代数的形式を提案する。 結果として得られるポテンシャルは、実エネルギー固有値を持つ非破壊超時間およびパリティ時間(\mathcal{PT}$)対称形状不変ポテンシャルであり、全てのパラメータ値に対してこの性質を維持する。 真の量子論における確率論的解釈を復元するために、$\mathcal{CPT}$-inner 積と呼ばれる新しい内部積は $\mathcal{PT}$-symmetric 量子力学で定義され、ディラック・エルミート内積を置き換える。 本研究では,内部積の新たなバージョンである anti-$\mathcal{pt}$ (\mathcal{apt}$)-inner product, $\langle a|b\rangle\equiv |a\rangle^{\mathcal{apt}} を提案する。 B\rangle$は、追加の考慮なしに以前のバージョンを置き換える。 この$\mathcal{PT}$-supersymmetric quantum mechanics frameworkは、古典光学や量子力学など、物理学の様々な領域を統一することを可能にする。 この理論を検証するために、我々は、$\rm ^{3}H(d,n)^{4}He$反応において、ポテンシャル障壁を越える確率に関する実験データと優れた一致を示す、光導波路の正確な解と量子トンネル確率を示す。

We propose a new algebraic formalism for constructing complex non-Hermitian $\mathcal{PT}$-symmetric superpartners by extending a conventional shape-invariant superpotential into the complex domain. The resulting potential is an unbroken super- and parity-time ($\mathcal{PT}$)-symmetric shape-invariant potential with real energy eigenvalues, maintaining this property for all parameter values. In order to restore the probabilistic interpretation within a true quantum theory, a new inner product called the $\mathcal{CPT}$-inner product is defined in $\mathcal{PT}$-symmetric quantum mechanics, replacing the Dirac Hermitian inner product. In this work, we propose a new version of the inner product called the anti-$\mathcal{PT}$ ($\mathcal{APT}$)-inner product, $\langle A|B\rangle\equiv |A\rangle^{\mathcal{APT}}.|B\rangle$, which replaces the previous versions without any additional considerations. This $\mathcal{PT}$-supersymmetric quantum mechanics framework also allows for the unification of various areas of physics, including classical optics and quantum mechanics. To validate the theory, we present exact solutions for optical waveguides and the quantum tunneling probability, demonstrating excellent agreement with experimental data for the probability of crossing the potential barrier in the $\rm ^{3}H(d,n)^{4}He$ reaction.
翻訳日:2023-09-07 12:22:52 公開日:2023-09-05
# 置換対称状態を含む絡み合いクラス内の状態変換

State transformations within entanglement classes containing permutation-symmetric states ( http://arxiv.org/abs/2107.13949v2 )

ライセンス: Link先を確認
Martin Hebenstreit, Cornelia Spee, Nicky Kai Hong Li, Barbara Kraus, Julio I. de Vicente(参考訳) 局所的な操作と古典的コミュニケーション(LOCC)の下での状態変換の研究は、絡み合い理論において重要な役割を果たす。 これは長い間、純粋な二部制状態に特徴付けられてきたが、多くの政党のシステムでは状況は大きく異なる: 一般的な純粋なキューディット状態は任意の状態(すなわち、それらは孤立している)から得られないし、異なる量の絡み合いを含む。 ここでは、任意の個数と局所次元の置換対称な純粋状態に対するLOCC変換性の問題と、物理的および数学的理由の両方について明確な関心のクラスと、上記の結果が状態空間のゼロ測度部分集合であることから適用されないことを考える。 一般のn$-qubit対称状態も分離されていることが判明しているが、それとは対照的に、locc変換性を実現するための必要条件として、豊富な局所安定化器が付与されていると判断できる特定の族を考える。 これにより、置換対称状態間のLOCC変換が可能なクラスを特定できる。 にもかかわらず、これらの高度対称クラスにおいてもLOCC変換性に対する深刻な障害を示すいくつかの結果が得られている。 locc変換の研究の過程では、対称状態の局所対称性も特徴付ける。

The study of state transformations under local operations and classical communication (LOCC) plays a crucial role in entanglement theory. While this has been long ago characterized for pure bipartite states, the situation is drastically different for systems of more parties: generic pure qudit states cannot be obtained from nor transformed to any state (i.e., they are isolated), which contains a different amount of entanglement. We consider here the question of LOCC convertibility for permutation-symmetric pure states of an arbitrary number of parties and local dimension, a class of clear interest both for physical and mathematical reasons and for which the aforementioned result does not apply given that it is a zero-measure subset in the state space. While it turns out that generic $n$-qubit symmetric states are also isolated, we consider particular families for which we can determine to be, on the contrary, endowed with a rich local stabilizer, a necessary requirement for LOCC convertibility to be possible. This allows us to identify classes in which LOCC transformations among permutation-symmetric states are possible. Notwithstanding, we provide several results that indicate severe obstructions to LOCC convertibility in general even within these highly symmetrical classes. In the course of the study of LOCC transformations, we also characterize the local symmetries of symmetric states.
翻訳日:2023-09-07 12:22:16 公開日:2023-09-05
# 画像検索のためのイントロスペクティブ深度学習

Introspective Deep Metric Learning for Image Retrieval ( http://arxiv.org/abs/2205.04449v2 )

ライセンス: Link先を確認
Wenzhao Zheng, Chengkun Wang, Jie Zhou, Jiwen Lu(参考訳) 本稿では,不確実性を考慮した画像比較のための内観的深度学習(IDML)フレームワークを提案する。 従来のディープメトリック学習手法は、不確実性レベルに関係なく、画像間の自信ある意味距離を生成する。 しかし,良質な類似性モデルでは,より強固なトレーニングのために曖昧な画像を扱うための注意が必要である。 そこで本研究では,画像の意味的特徴とあいまいさをそれぞれ記述した,意味的埋め込みだけでなく付随する不確実性埋め込みを用いた画像表現を提案する。 さらに,その意味的差異とあいまいさの両方を考慮し,画像間の類似性判定を行うイントロスペクティブ類似度尺度を提案する。 提案したIDMLフレームワークは、不確実性モデリングによる深度メトリック学習の性能を改善し、画像検索とクラスタリングのためのCUB-200-2011、Cars196、Stanford Online Productsデータセットの最先端結果を得る。 さらに,IDMLの有効性と信頼性を示すために,フレームワークの詳細な分析を行う。 コードは、https://github.com/wzzheng/IDML.comで入手できる。

This paper proposes an introspective deep metric learning (IDML) framework for uncertainty-aware comparisons of images. Conventional deep metric learning methods produce confident semantic distances between images regardless of the uncertainty level. However, we argue that a good similarity model should consider the semantic discrepancies with caution to better deal with ambiguous images for more robust training. To achieve this, we propose to represent an image using not only a semantic embedding but also an accompanying uncertainty embedding, which describes the semantic characteristics and ambiguity of an image, respectively. We further propose an introspective similarity metric to make similarity judgments between images considering both their semantic differences and ambiguities. The proposed IDML framework improves the performance of deep metric learning through uncertainty modeling and attains state-of-the-art results on the widely used CUB-200-2011, Cars196, and Stanford Online Products datasets for image retrieval and clustering. We further provide an in-depth analysis of our framework to demonstrate the effectiveness and reliability of IDML. Code is available at: https://github.com/wzzheng/IDML.
翻訳日:2023-09-07 12:13:39 公開日:2023-09-05
# 励起状態に対する量子ダビッドソンアルゴリズム

Quantum Davidson Algorithm for Excited States ( http://arxiv.org/abs/2204.10741v2 )

ライセンス: Link先を確認
Nikolay V. Tkachenko and Lukasz Cincio and Alexander I. Boldyrev and Sergei Tretiak and Pavel A. Dub and Yu Zhang(参考訳) 励起状態の性質は電荷分離や発光といった様々な化学的・物理的現象において重要な役割を果たす。 しかし、既存の量子アルゴリズムのほとんどの主要な焦点は、量子位相推定や変分量子固有解法(vqe)に見られるような基底状態である。 VQE方式は励起状態の探索のために拡張されているが、これらの手法は最適化の問題に対処している。 対照的に、量子クリャロフ部分空間(QKS)法は基底状態と励起状態の両方に対処するために導入され、自らを量子位相推定の費用対効果の代替として位置づけている。 本研究は,量子ダビッドソン(qdavidson)アルゴリズムと呼ばれる,経済的なqksアルゴリズムを提案する。 この革新は、クリロフ部分空間の反復的拡大とデビッドソンフレームワーク内のプレコンディショナーの導入にかかっている。 固有状態の剰余を使ってクリロフ部分空間を広げることにより、我々は正確な解と密接に一致するコンパクト部分空間を定式化することができる。 この反復部分空間展開は、量子ランツォスのような他のQKS技術と比較して、より高速な収束の道を開く。 量子シミュレータを用いて、ハイゼンベルクスピンモデルから実分子にまたがる様々な系の励起状態特性を探索するために、新しいQDavidsonアルゴリズムを用いる。 既存のQKS法と比較して、QDavidsonアルゴリズムは迅速に収束するだけでなく、はるかに浅い回路を必要とする。 この効率性は、量子コンピューティングプラットフォーム上の基底状態と励起状態の両方を解明する実用的なツールとしてQDavidson法を確立する。

Excited state properties play a pivotal role in various chemical and physical phenomena, such as charge separation and light emission. However, the primary focus of most existing quantum algorithms has been the ground state, as seen in quantum phase estimation and the variational quantum eigensolver (VQE). Although VQE-type methods have been extended to explore excited states, these methods grapple with optimization challenges. In contrast, the quantum Krylov subspace (QKS) method has been introduced to address both ground and excited states, positioning itself as a cost-effective alternative to quantum phase estimation. Our research presents an economic QKS algorithm, which we term the quantum Davidson (QDavidson) algorithm. This innovation hinges on the iterative expansion of the Krylov subspace and the incorporation of a pre-conditioner within the Davidson framework. By using the residues of eigenstates to expand the Krylov subspace, we manage to formulate a compact subspace that aligns closely with the exact solutions. This iterative subspace expansion paves the way for a more rapid convergence in comparison to other QKS techniques, such as the quantum Lanczos. Using quantum simulators, we employ the novel QDavidson algorithm to delve into the excited state properties of various systems, spanning from the Heisenberg spin model to real molecules. Compared to the existing QKS methods, the QDavidson algorithm not only converges swiftly but also demands a significantly shallower circuit. This efficiency establishes the QDavidson method as a pragmatic tool for elucidating both ground and excited state properties on quantum computing platforms.
翻訳日:2023-09-07 12:12:23 公開日:2023-09-05
# 深層学習によるgi tract segmentationの自動化

Automated GI tract segmentation using deep learning ( http://arxiv.org/abs/2206.11048v5 )

ライセンス: Link先を確認
Manhar Sharma(参考訳) 放射線腫瘍学者の仕事はx線ビームを腫瘍に向けることであり、同時に胃や腸を避けることである。 MR-Linacs(磁気共鳴イメージングと線形加速器システム)では、腫瘍の位置を可視化し、日によって異なる腫瘍細胞の存在に応じて正確な投与を可能にする。 胃と腸の位置を概説し、臓器を避けながら腫瘍への線量伝達のためのx線ビーム方向を調整する現在の仕事。 これは、深層学習法がセグメンテーションプロセスを自動化できなければ、1日15分から1時間に簡単に治療を延長できる、時間を要する労働集約プロセスである。 本稿では,このプロセスをより高速にし,より多くの患者に効果的な治療を施すために,ディープラーニングを用いた自動セグメンテーションプロセスについて述べる。

The job of Radiation oncologists is to deliver x-ray beams pointed toward the tumor and at the same time avoid the stomach and intestines. With MR-Linacs (magnetic resonance imaging and linear accelerator systems), oncologists can visualize the position of the tumor and allow for precise dose according to tumor cell presence which can vary from day to day. The current job of outlining the position of the stomach and intestines to adjust the X-ray beams direction for the dose delivery to the tumor while avoiding the organs. This is a time-consuming and labor-intensive process that can easily prolong treatments from 15 minutes to an hour a day unless deep learning methods can automate the segmentation process. This paper discusses an automated segmentation process using deep learning to make this process faster and allow more patients to get effective treatment.
翻訳日:2023-09-07 12:05:34 公開日:2023-09-05
# 2D-3Dレジストレーションによる深度3次元ビデオデータセット

Colonoscopy 3D Video Dataset with Paired Depth from 2D-3D Registration ( http://arxiv.org/abs/2206.08903v3 )

ライセンス: Link先を確認
Taylor L. Bobrow, Mayank Golhar, Rohan Vijayan, Venkata S. Akshintala, Juan R. Garcia, and Nicholas J. Durr(参考訳) スクリーニング大腸内視鏡は,深度推定,表面再構成,欠損領域検出など,いくつかの3次元コンピュータビジョン技術における重要な臨床応用である。 しかし,実際の大腸内視鏡映像におけるこれらの手法の開発と評価,比較は,真理データ取得の難しさから定性的なままである。 本稿では,高精細度大腸内視鏡と高精細度大腸モデルを用いて取得した大腸内視鏡3dビデオデータセット(c3vd)について紹介する。 本稿では, 既知の3次元モデルの基底真理レンダリングを用いた光学映像列を登録する, 新規なマルチモーダル2d-3d登録手法を提案する。 光画像からデプスマップへジェネレーティブ・アドバイサル・ネットワークで変換し、エッジ特徴を進化最適化器で整列することで、様々なモダリティが登録される。 この登録法は, 誤差のない地上真実が利用できるシミュレーション実験において, 平均翻訳誤差0.321mm, 平均回転誤差0.159度を達成する。 また、ビデオ情報を利用して、翻訳の登録精度を55.6%向上し、回転の60.4%向上させる。 22の短いビデオシーケンスが登録され、ペア化された地上の真理深度、表面の正常度、光学的流れ、閉塞度、6自由度ポーズ、カバレッジマップ、および3Dモデルで10,015フレームを生成する。 このデータセットには、胃腸科医が取得した3Dサーフェスモデルを用いたスクリーニングビデオも含まれている。 データセットと登録ソースコードは durr.jhu.edu/C3VD で入手できる。

Screening colonoscopy is an important clinical application for several 3D computer vision techniques, including depth estimation, surface reconstruction, and missing region detection. However, the development, evaluation, and comparison of these techniques in real colonoscopy videos remain largely qualitative due to the difficulty of acquiring ground truth data. In this work, we present a Colonoscopy 3D Video Dataset (C3VD) acquired with a high definition clinical colonoscope and high-fidelity colon models for benchmarking computer vision methods in colonoscopy. We introduce a novel multimodal 2D-3D registration technique to register optical video sequences with ground truth rendered views of a known 3D model. The different modalities are registered by transforming optical images to depth maps with a Generative Adversarial Network and aligning edge features with an evolutionary optimizer. This registration method achieves an average translation error of 0.321 millimeters and an average rotation error of 0.159 degrees in simulation experiments where error-free ground truth is available. The method also leverages video information, improving registration accuracy by 55.6% for translation and 60.4% for rotation compared to single frame registration. 22 short video sequences were registered to generate 10,015 total frames with paired ground truth depth, surface normals, optical flow, occlusion, six degree-of-freedom pose, coverage maps, and 3D models. The dataset also includes screening videos acquired by a gastroenterologist with paired ground truth pose and 3D surface models. The dataset and registration source code are available at durr.jhu.edu/C3VD.
翻訳日:2023-09-07 12:04:55 公開日:2023-09-05
# 暗黒知識を持つサロゲートモデルの逆移動性向上

Boosting the Adversarial Transferability of Surrogate Models with Dark Knowledge ( http://arxiv.org/abs/2206.08316v2 )

ライセンス: Link先を確認
Dingcheng Yang, Zihao Xiao, Wenjian Yu(参考訳) ディープニューラルネットワーク(DNN)は敵の例に弱い。 そして、逆の例は転送可能性を持ち、つまり、DNNモデルの逆の例は、非自明な確率で他のモデルを騙すことができる。 これにより転送ベースの攻撃が発生し、サロゲートモデルによって生成された敵の例がブラックボックス攻撃に使用される。 より優れた転送性を持つ与えられた代理モデルから逆例を生成するための研究がある。 しかし、転送性が向上した敵対的な例を生成するための特別なサロゲートモデルの訓練は、比較的未検討である。 本稿では,サロゲートモデルが生成する逆例の伝達性を高めるために,暗知識を持つサロゲートモデルのトレーニング手法を提案する。 この訓練されたサロゲートモデルはダークサロゲートモデル (DSM) と呼ばれる。 提案手法は,暗黒知識を抽出する教師モデルと,学習データの暗黒知識を高める混合強化スキルの2つの主成分からなる。 提案手法は,サロゲートモデルとオプティマイザの異なるアーキテクチャにおけるサロゲートモデルの逆転可能性を大幅に向上し,顔認証などの暗黒知識を含む移動攻撃のシナリオに適用可能であることを示す。 我々のコードは \url{https://github.com/ydc123/dark_surrogate_model} で公開されている。

Deep neural networks (DNNs) are vulnerable to adversarial examples. And, the adversarial examples have transferability, which means that an adversarial example for a DNN model can fool another model with a non-trivial probability. This gave birth to the transfer-based attack where the adversarial examples generated by a surrogate model are used to conduct black-box attacks. There are some work on generating the adversarial examples from a given surrogate model with better transferability. However, training a special surrogate model to generate adversarial examples with better transferability is relatively under-explored. This paper proposes a method for training a surrogate model with dark knowledge to boost the transferability of the adversarial examples generated by the surrogate model. This trained surrogate model is named dark surrogate model (DSM). The proposed method for training a DSM consists of two key components: a teacher model extracting dark knowledge, and the mixing augmentation skill enhancing dark knowledge of training data. We conducted extensive experiments to show that the proposed method can substantially improve the adversarial transferability of surrogate models across different architectures of surrogate models and optimizers for generating adversarial examples, and it can be applied to other scenarios of transfer-based attack that contain dark knowledge, like face verification. Our code is publicly available at \url{https://github.com/ydc123/Dark_Surrogate_Model}.
翻訳日:2023-09-07 12:04:27 公開日:2023-09-05
# 線形量子ネットワークにおける匿名会議キー合意

Anonymous conference key agreement in linear quantum networks ( http://arxiv.org/abs/2205.09169v2 )

ライセンス: Link先を確認
Jarn de Jong, Frederik Hahn, Jens Eisert, Nathan Walk, Anna Pappa(参考訳) パーティ間で複数のパーティ間の量子絡み合いを共有することで、多様なセキュアな通信タスクを実行することができる。 中でも,鍵配布を複数の当事者に拡大する会議鍵協定(CKA)が近年注目されている。 興味深いことに、CKAは参加者のアイデンティティを保護し、匿名性を提供する方法で実行することもできる。 本研究では,ネットワーク上で実装された3つのパーティに対して,匿名CKAプロトコルを提案する。 具体的には、量子リピータノードのラインを使用して、すべてのノード間の線形クラスタ状態を構築し、これら3つのノード間の秘密鍵を匿名で確立する。 ノードは最大の絡み合ったペアのみを隣人と共有する必要があるため、中央サーバが絡み合った状態を共有する必要はない。 このリピータ設定により、将来の量子ネットワークにおける実装の優れた候補となる。 我々は,提案プロトコルが参加者の身元を相互に保護し,有限状態における鍵レートの分析を行うことを明示的に証明し,ポイント・ツー・ポイントを超えるネットワークアーキテクチャにおいて実現可能な量子通信タスクの特定に寄与する。

Sharing multi-partite quantum entanglement between parties allows for diverse secure communication tasks to be performed. Among them, conference key agreement (CKA), an extension of key distribution to multiple parties, has received much attention recently. Interestingly, CKA can also be performed in a way that protects the identities of the participating parties, therefore providing anonymity. In this work, we propose an anonymous CKA protocol for three parties that is implemented in a highly practical network setting. Specifically, a line of quantum repeater nodes is used to build a linear cluster state among all nodes, which is then used to anonymously establish a secret key between any three of them. The nodes need only share maximally entangled pairs with their neighbours, therefore avoiding the necessity of a central server sharing entangled states. This repeater setup makes our protocol an excellent candidate for implementation in future quantum networks. We explicitly prove that our protocol protects the identities of the participants from one another and perform an analysis of the key rate in the finite regime, contributing to the quest of identifying feasible quantum communication tasks for network architectures beyond point-to-point.
翻訳日:2023-09-07 12:02:00 公開日:2023-09-05
# 視覚トランスフォーマーの多次元注意

Multi-manifold Attention for Vision Transformers ( http://arxiv.org/abs/2207.08569v3 )

ライセンス: Link先を確認
Dimitrios Konstantinidis, Ilias Papastratis, Kosmas Dimitropoulos, Petros Daras(参考訳) 視覚変換器は、画像分類や行動認識などのコンピュータビジョンタスクにおける最先端の性能のために、今日では非常に人気がある。 高度に記述的なパッチ埋め込みと階層構造によって性能は大幅に向上しているが、トランスフォーマの自己アテンションマップを洗練するために、追加のデータ表現を利用する研究は限られている。 この問題を解決するために, 変圧器のバニラ自己着脱に代えて, マルチマニフォールドマルチヘッド注意と呼ばれる新しい注意機構が提案されている。 提案する機構は、入力空間をユークリッド、対称正定値、グラスマンという3つの異なる多様体でモデル化し、高い記述的注意写像の計算に入力の異なる統計的および幾何学的性質を利用する。 このようにして,視覚トランスフォーマーが画像の重要な外観,色,テクスチャの特徴にもっと注意を向けるように誘導し,よく知られたデータセットにおける実験結果に示すように,分類やセグメンテーション結果の改善に繋がる。

Vision Transformers are very popular nowadays due to their state-of-the-art performance in several computer vision tasks, such as image classification and action recognition. Although their performance has been greatly enhanced through highly descriptive patch embeddings and hierarchical structures, there is still limited research on utilizing additional data representations so as to refine the selfattention map of a Transformer. To address this problem, a novel attention mechanism, called multi-manifold multihead attention, is proposed in this work to substitute the vanilla self-attention of a Transformer. The proposed mechanism models the input space in three distinct manifolds, namely Euclidean, Symmetric Positive Definite and Grassmann, thus leveraging different statistical and geometrical properties of the input for the computation of a highly descriptive attention map. In this way, the proposed attention mechanism can guide a Vision Transformer to become more attentive towards important appearance, color and texture features of an image, leading to improved classification and segmentation results, as shown by the experimental results on well-known datasets.
翻訳日:2023-09-07 11:53:03 公開日:2023-09-05
# zprobe: 連合学習のためのゼロピークロバスト性チェック

zPROBE: Zero Peek Robustness Checks for Federated Learning ( http://arxiv.org/abs/2206.12100v3 )

ライセンス: Link先を確認
Zahra Ghodsi, Mojan Javaheripi, Nojan Sheybani, Xinqiao Zhang, Ke Huang, Farinaz Koushanfar(参考訳) プライバシ保護フェデレーション学習は、複数のユーザが中央サーバの調整でモデルを共同でトレーニングすることを可能にする。 サーバは最終的な集計結果のみを学習するため、個々のモデル更新からユーザの(プライベートな)トレーニングデータがリークされない。 しかし、個々の更新をプライベートに保つことで、悪意のあるユーザーがビザンチン攻撃を実行し、検出されることなく精度を低下させることができる。 ビザンチン労働者に対する最善の防御策は、悪意のある更新を見つけるために、中央値など、ロバストなランクベースの統計に依存している。 しかし、プライバシの保存するランクベースの統計の実装は、すべての更新をソートする必要があるため、セキュアなドメインではスケーラブルではない。 集約モデル更新において,ハイブレークポイントランクに基づく統計情報を用いた最初のプライベートロバスト性チェックを行う。 ランダムなクラスタリングを利用することで、プライバシを損なうことなく、防御のスケーラビリティを大幅に向上します。 ゼロ知識証明における統計的境界を利用して、悪意のある更新を検出し、削除します。 我々の新しいフレームワークであるzPROBEは、ビザンチンの弾力性とセキュアな連邦学習を可能にする。 実証的な評価では、zprobeはプライバシを維持しながら最先端のビザンチン攻撃から防御するための低いオーバーヘッドソリューションを提供する。

Privacy-preserving federated learning allows multiple users to jointly train a model with coordination of a central server. The server only learns the final aggregation result, thus the users' (private) training data is not leaked from the individual model updates. However, keeping the individual updates private allows malicious users to perform Byzantine attacks and degrade the accuracy without being detected. Best existing defenses against Byzantine workers rely on robust rank-based statistics, e.g., median, to find malicious updates. However, implementing privacy-preserving rank-based statistics is nontrivial and not scalable in the secure domain, as it requires sorting all individual updates. We establish the first private robustness check that uses high break point rank-based statistics on aggregated model updates. By exploiting randomized clustering, we significantly improve the scalability of our defense without compromising privacy. We leverage our statistical bounds in zero-knowledge proofs to detect and remove malicious updates without revealing the private user updates. Our novel framework, zPROBE, enables Byzantine resilient and secure federated learning. Empirical evaluations demonstrate that zPROBE provides a low overhead solution to defend against state-of-the-art Byzantine attacks while preserving privacy.
翻訳日:2023-09-07 11:51:27 公開日:2023-09-05
# 量子相対エントロピーの積分公式はデータ処理の不等式を意味する

Integral formula for quantum relative entropy implies data processing inequality ( http://arxiv.org/abs/2208.12194v4 )

ライセンス: Link先を確認
P\'eter E. Frenkel(参考訳) Integral representations of quantum relative entropy, and of the directional second and higher order derivatives of von Neumann entropy, are established, and used to give simple proofs of fundamental, known data processing inequalities: the Holevo bound on the quantity of information transmitted by a quantum communication channel, and, much more generally, the monotonicity of quantum relative entropy under trace-preserving positive linear maps -complete positivity of the map need not be assumed. 後者の結果は、ビギの業績に基づいてM\"uller-Hermes and Reebによって初めて証明された。 そのような単調性の簡単な応用として、フォン・ノイマンエントロピーの凹凸や様々な既知の量子発散など、量子測度では増加しない「発散」を考える。 hiai, ohya, tsukadaによるエレガントな議論は、特定のトレース距離を持つ量子状態の対におけるそのような「ダイバージェンス」のインフィムが、二元古典状態の対の対応するインフィムと同じであることを示すために用いられる。 情報理論の一般確率モデルへの新しい積分公式の適用、および古典的R'enyi分散に対する関連する積分公式についても論じる。

Integral representations of quantum relative entropy, and of the directional second and higher order derivatives of von Neumann entropy, are established, and used to give simple proofs of fundamental, known data processing inequalities: the Holevo bound on the quantity of information transmitted by a quantum communication channel, and, much more generally, the monotonicity of quantum relative entropy under trace-preserving positive linear maps -- complete positivity of the map need not be assumed. The latter result was first proved by M\"uller-Hermes and Reeb, based on work of Beigi. For a simple application of such monotonicities, we consider any `divergence' that is non-increasing under quantum measurements, such as the concavity of von Neumann entropy, or various known quantum divergences. An elegant argument due to Hiai, Ohya, and Tsukada is used to show that the infimum of such a `divergence' on pairs of quantum states with prescribed trace distance is the same as the corresponding infimum on pairs of binary classical states. Applications of the new integral formulae to the general probabilistic model of information theory, and a related integral formula for the classical R\'enyi divergence, are also discussed.
翻訳日:2023-09-07 11:16:04 公開日:2023-09-05
# 線形回帰係数の外部ロバストとスパース推定

Outlier Robust and Sparse Estimation of Linear Regression Coefficients ( http://arxiv.org/abs/2208.11592v4 )

ライセンス: Link先を確認
Takeyuki Sasai and Hironori Fujisawa(参考訳) 重み付き分布から, 共変量と雑音が外乱によって汚染され, ノイズがサンプリングされる場合, 線形回帰係数の外れ値とスパース推定を考察する。 本研究は,本研究と類似の関心を持つ先行研究よりも,仮説の弱い誤差境界を示す。 私たちの分析は、ジェネリック連鎖によって生じる鋭い濃度の不等式に依存しています。

We consider outlier-robust and sparse estimation of linear regression coefficients, when the covariates and the noises are contaminated by adversarial outliers and noises are sampled from a heavy-tailed distribution. Our results present sharper error bounds under weaker assumptions than prior studies that share similar interests with this study. Our analysis relies on some sharp concentration inequalities resulting from generic chaining.
翻訳日:2023-09-07 11:15:31 公開日:2023-09-05
# 予測するものを選択する効率的な抽象的計画モデルを学ぶ

Learning Efficient Abstract Planning Models that Choose What to Predict ( http://arxiv.org/abs/2208.07737v3 )

ライセンス: Link先を確認
Nishanth Kumar, Willie McClinton, Rohan Chitnis, Tom Silver, Tom\'as Lozano-P\'erez, Leslie Pack Kaelbling(参考訳) ロボット領域における長期的タスクを連続状態と行動空間で解決するための効果的なアプローチは、環境の抽象化をハイレベルに探索することで、低レベルな意思決定をガイドする二段階計画である。 近年の研究では、記号演算子とニューラルサンプリング器の形式で抽象モデルを学ぶことによって、このような二段階計画を実現する方法が示されている。 本研究では,ロボットの動作が抽象状態の無関係な変化を引き起こす傾向がある多くのロボット領域において,既存の記号操作学習手法が不足していることを示す。 これは主に、観測されたすべての抽象状態の変化を正確に予測する演算子を学習しようとするためである。 この問題を克服するために,抽象計画に必要な変化をモデル化し,特定の目標を達成するためにのみ「予測すべきものを選ぶ」演算子を提案する。 実験により,提案手法は,新たな初期状態,目標,対象に一般化しつつ,挑戦的行動-100ベンチマークから4つを含む,10種類のハイブリッドロボットドメインの効率的な計画に導くオペレーターを学習することを示した。

An effective approach to solving long-horizon tasks in robotics domains with continuous state and action spaces is bilevel planning, wherein a high-level search over an abstraction of an environment is used to guide low-level decision-making. Recent work has shown how to enable such bilevel planning by learning abstract models in the form of symbolic operators and neural samplers. In this work, we show that existing symbolic operator learning approaches fall short in many robotics domains where a robot's actions tend to cause a large number of irrelevant changes in the abstract state. This is primarily because they attempt to learn operators that exactly predict all observed changes in the abstract state. To overcome this issue, we propose to learn operators that 'choose what to predict' by only modelling changes necessary for abstract planning to achieve specified goals. Experimentally, we show that our approach learns operators that lead to efficient planning across 10 different hybrid robotics domains, including 4 from the challenging BEHAVIOR-100 benchmark, while generalizing to novel initial states, goals, and objects.
翻訳日:2023-09-07 11:14:40 公開日:2023-09-05
# 人間中心型説明可能なAIを目指して : モデル説明のためのユーザスタディ

Towards Human-centered Explainable AI: A Survey of User Studies for Model Explanations ( http://arxiv.org/abs/2210.11584v3 )

ライセンス: Link先を確認
Yao Rong, Tobias Leemann, Thai-trang Nguyen, Lisa Fiedler, Peizhu Qian, Vaibhav Unhelkar, Tina Seidel, Gjergji Kasneci, Enkelejda Kasneci(参考訳) 説明可能なAI(XAI)は、拡張可能なAI研究の正当性として広く見なされている。 XAIユーザのニーズをよりよく理解すると同時に、説明可能なモデルの人間中心の評価も必要かつ課題である。 本稿では、系統的な文献レビューに基づいて、HCIとAI研究者がXAIアプリケーションでユーザ研究を行う方法について検討する。 過去5年間のXAI評価による97コア論文の同定と分析を行った結果,信頼,理解,ユーザビリティ,人間とAIのコラボレーション性能など,説明的手法の指標的特徴に沿って分類した。 我々の研究は、XAIが推奨システムなど特定のアプリケーション領域において他の分野よりも急速に普及していることを示しているが、ユーザ評価はいまだに疎外であり、認知科学や社会科学からの洞察をほとんど含まない。 ユーザ研究におけるベストプラクティス、すなわち共通モデル、設計選択、測定の包括的議論に基づいて、xai研究者や実践者のためにユーザー研究を設計・実施するための実践的ガイドラインを提案する。 最後に、この調査はいくつかのオープンな研究の方向性、特に心理学と人間中心のXAIの関連を強調している。

Explainable AI (XAI) is widely viewed as a sine qua non for ever-expanding AI research. A better understanding of the needs of XAI users, as well as human-centered evaluations of explainable models are both a necessity and a challenge. In this paper, we explore how HCI and AI researchers conduct user studies in XAI applications based on a systematic literature review. After identifying and thoroughly analyzing 97core papers with human-based XAI evaluations over the past five years, we categorize them along the measured characteristics of explanatory methods, namely trust, understanding, usability, and human-AI collaboration performance. Our research shows that XAI is spreading more rapidly in certain application domains, such as recommender systems than in others, but that user evaluations are still rather sparse and incorporate hardly any insights from cognitive or social sciences. Based on a comprehensive discussion of best practices, i.e., common models, design choices, and measures in user studies, we propose practical guidelines on designing and conducting user studies for XAI researchers and practitioners. Lastly, this survey also highlights several open research directions, particularly linking psychological science and human-centered XAI.
翻訳日:2023-09-07 07:35:21 公開日:2023-09-05
# 悪者、狂人、調理--AI軍部における民間人による損害の責任

Bad, mad and cooked: Responsibility for civilian harms in human-AI military teams ( http://arxiv.org/abs/2211.06326v2 )

ライセンス: Link先を確認
Susannah Kate Devitt(参考訳) この章では、AIチームによる民間人の損害に対する道徳的責任について論じる。 軍部は戦争犯罪の責任を負う悪いりんごや、戦争中の行動に責任を負えない狂ったりんごを持っているかもしれないが、軍部は、人間の意思決定を戦争におけるAI決定に置き換えるプロセスを通じて、不適切な意思決定環境に配置することで、良いりんごを「調理」することができる。 人間とAIの軍事チームにおける民間の損害に対する責任は争われ、オペレーターが分離され、極端な道徳的な証人になり、道徳的な残酷なゾーンになったり、国家によって認可されたより大きな人道AIシステムの一部として道徳的な傷を負ったりする恐れがある。 この章は、軍事倫理、人間的要因、AI作業、および批判的ケーススタディを認識し、人間-AIチームにおける道徳的責任の条件をマップアウトするための新しいメカニズムを提供する。 以下を含む。 1)認知的タスク分析における批判的意思決定のための新たな意思決定責任 2)AI職場の健康・安全の枠組みを適用し,意思決定における道徳的責任の帰属に関連する認知的・心理的リスクを識別する。 このようなメカニズムにより、軍隊は責任ある展開のために人間中心のAIシステムを設計できる。

This chapter explores moral responsibility for civilian harms by human-artificial intelligence (AI) teams. Although militaries may have some bad apples responsible for war crimes and some mad apples unable to be responsible for their actions during a conflict, increasingly militaries may 'cook' their good apples by putting them in untenable decision-making environments through the processes of replacing human decision-making with AI determinations in war making. Responsibility for civilian harm in human-AI military teams may be contested, risking operators becoming detached, being extreme moral witnesses, becoming moral crumple zones or suffering moral injury from being part of larger human-AI systems authorised by the state. Acknowledging military ethics, human factors and AI work to date as well as critical case studies, this chapter offers new mechanisms to map out conditions for moral responsibility in human-AI teams. These include: 1) new decision responsibility prompts for critical decision method in a cognitive task analysis, and 2) applying an AI workplace health and safety framework for identifying cognitive and psychological risks relevant to attributions of moral responsibility in targeting decisions. Mechanisms such as these enable militaries to design human-centred AI systems for responsible deployment.
翻訳日:2023-09-07 07:25:27 公開日:2023-09-05
# QMAとQCMAの分配試験オラクル分離

A distribution testing oracle separation between QMA and QCMA ( http://arxiv.org/abs/2210.15380v3 )

ライセンス: Link先を確認
Anand Natarajan and Chinmay Nirkhe(参考訳) 量子複雑性理論では、$\textit{non-deterministic}$の量子計算の定義が量子証人$(\textsf{QMA})$、または古典的目撃者がsuffice$(\textsf{QCMA})$を必要としているかどうかという長い問題である。 各計算複雑性クラスを分離したランダム化された古典オラクルを構築することにより、この問題を進展させる。 以前の分離 (Aaronson-Kuperberg (CCC'07), Fefferman-Kimmel (MFCS'18)) は量子ユニタリオラクルを必要とした。 分離問題は、正規の非方向グラフでサポートされている分布が複数の連結成分(yesインスタンス)で構成されているか、または1つの拡張連結成分(noインスタンス)で構成されているかを決定することである。 したがって oracle は $n$-bit boolean 関数上のディストリビューションである。

It is a long-standing open question in quantum complexity theory whether the definition of $\textit{non-deterministic}$ quantum computation requires quantum witnesses $(\textsf{QMA})$ or if classical witnesses suffice $(\textsf{QCMA})$. We make progress on this question by constructing a randomized classical oracle separating the respective computational complexity classes. Previous separations [Aaronson-Kuperberg (CCC'07), Fefferman-Kimmel (MFCS'18)] required a quantum unitary oracle. The separating problem is deciding whether a distribution supported on regular un-directed graphs either consists of multiple connected components (yes instances) or consists of one expanding connected component (no instances) where the graph is given in an adjacency-list format by the oracle. Therefore, the oracle is a distribution over $n$-bit boolean functions.
翻訳日:2023-09-07 07:23:41 公開日:2023-09-05
# ロバスト学習のための動的損失

Dynamic Loss For Robust Learning ( http://arxiv.org/abs/2211.12506v2 )

ライセンス: Link先を確認
Shenwang Jiang, Jianan Li, Jizhou Zhang, Ying Wang, Tingfa Xu(参考訳) ラベルノイズとクラス不均衡は、現実世界のデータによく共存する。 しかしながら、堅牢な学習のためのこれまでの作業は、通常、データバイアスの1つのタイプに対処する。 このギャップを緩和するため,本研究では,目標関数を学習プロセスで自動調整し,長大なノイズデータから分類器を頑健に学習する,メタラーニングに基づく動的損失を提案する。 具体的には,ラベル補正器とマージン生成器とからなり,それぞれノイズラベルを補正し,基礎となるデータ分布と分類器の学習状態を知覚して付加的なクラス別分類マージンを生成する。 多様なサンプルと硬いサンプルで少量のメタデータを豊かにする新しい階層的なサンプリング戦略により、動的損失の2つのコンポーネントはメタラーニングによって共同で最適化され、クリーンでバランスの取れたテストデータに適合するように分類器を栽培する。 CIFAR-10/100, Animal-10N, ImageNet-LT, Webvision など,様々な種類のデータバイアスを持つ複数の実世界および合成データセットの最先端の精度を実現する。 コードはまもなく公開される予定だ。

Label noise and class imbalance commonly coexist in real-world data. Previous works for robust learning, however, usually address either one type of the data biases and underperform when facing them both. To mitigate this gap, this work presents a novel meta-learning based dynamic loss that automatically adjusts the objective functions with the training process to robustly learn a classifier from long-tailed noisy data. Concretely, our dynamic loss comprises a label corrector and a margin generator, which respectively correct noisy labels and generate additive per-class classification margins by perceiving the underlying data distribution as well as the learning state of the classifier. Equipped with a new hierarchical sampling strategy that enriches a small amount of unbiased metadata with diverse and hard samples, the two components in the dynamic loss are optimized jointly through meta-learning and cultivate the classifier to well adapt to clean and balanced test data. Extensive experiments show our method achieves state-of-the-art accuracy on multiple real-world and synthetic datasets with various types of data biases, including CIFAR-10/100, Animal-10N, ImageNet-LT, and Webvision. Code will soon be publicly available.
翻訳日:2023-09-07 07:14:51 公開日:2023-09-05
# 2次元ディラック方程式の数値問題

Numerical issues of the two-dimensional Dirac equation ( http://arxiv.org/abs/2211.10914v5 )

ライセンス: Link先を確認
Jiale Sun, Xiaoshui Lin(参考訳) 二次元ディラック方程式はグラフェン物理学、トポロジカル絶縁体の表面、特に量子スカーリングで広く用いられている。 数年前に任意の精錬問題に取り組むための数値的なアプローチが提案されたが、いくつかの根本的な問題が完全に理解され解決されなければならない。 本研究では,これらの課題を隠蔽し解決し,分析結果との比較により検証可能な完全な手法を最終的に開発する。

The two-dimensional Dirac equation has been widely used in graphene physics, the surface of topological insulators, and especially quantum scarring. Although a numerical approach to tackling an arbitrary confining problem was proposed several years ago, several fundamental issues must be thoroughly understood and solved. In this work, we conceal and address these challenges and finally develop a complete method, validated by comparison with analytical results.
翻訳日:2023-09-07 07:13:46 公開日:2023-09-05
# ネットワークにおける相同性評価のための名目的乱雑性の欠如について

On the inadequacy of nominal assortativity for assessing homophily in networks ( http://arxiv.org/abs/2211.10245v2 )

ライセンス: Link先を確認
Fariba Karimi and Marcos Oliveira(参考訳) 群混合パターンやネットワーク内のホモフィリーを特徴付けるために、離散的アスカティビティ(あるいは離散的アスカティティティ)が広く用いられており、研究者は集団同士の相互作用を分析できる。 本稿では,不等な群サイズと非対称混合を持つネットワークに適用した場合,本尺度が深刻な欠点をもたらすことを示す。 それらの欠点を解析的に特徴付け, 総合的および経験的ネットワークを用いて, 非対称群間相互作用と群不均衡を表わさないことを示し, 不正確な混合パターンのキャラクタリゼーションを生成する。 この調整により,様々な混合レベルを有するネットワークにおいて,期待されるアソーサビリティが回復することを示す。 さらに,群間および群内結合の傾向を推定し,非対称混合を評価する解析手法を提案する。 最後に、このアプローチが現実世界のネットワークにおける隠れた混合パターンを明らかにする方法について議論する。

Nominal assortativity (or discrete assortativity) is widely used to characterize group mixing patterns and homophily in networks, enabling researchers to analyze how groups interact with one another. Here we demonstrate that the measure presents severe shortcomings when applied to networks with unequal group sizes and asymmetric mixing. We characterize these shortcomings analytically and use synthetic and empirical networks to show that nominal assortativity fails to account for group imbalance and asymmetric group interactions, thereby producing an inaccurate characterization of mixing patterns. We propose adjusted nominal assortativity and show that this adjustment recovers the expected assortativity in networks with various level of mixing. Furthermore, we propose an analytical method to assess asymmetric mixing by estimating the tendency of inter- and intra-group connectivities. Finally, we discuss how this approach enables uncovering hidden mixing patterns in real-world networks.
翻訳日:2023-09-07 07:13:01 公開日:2023-09-05
# DDColor:デュアルデコーダによる写真リアリスティック画像のカラー化を目指して

DDColor: Towards Photo-Realistic Image Colorization via Dual Decoders ( http://arxiv.org/abs/2212.11613v5 )

ライセンス: Link先を確認
Xiaoyang Kang, Tao Yang, Wenqi Ouyang, Peiran Ren, Lingzhi Li, Xuansong Xie(参考訳) 画像のカラー化は、マルチモーダルな不確実性と高い不正性のために難しい問題である。 ディープニューラルネットワークを直接トレーニングすることは、通常、誤ったセマンティックカラーと低い色のリッチネスにつながる。 トランスフォーマーベースの手法はより良い結果をもたらすが、しばしば手動で設計したプリエントに依存し、一般化能力に乏しく、色出血効果をもたらす。 これらの問題に対処するため,画像カラー化のためのデュアルデコーダを用いたエンドツーエンドのDDColorを提案する。 我々のアプローチには、ピクセルデコーダとクエリベースのカラーデコーダが含まれる。 前者は画像の空間解像度を復元し、後者はリッチな視覚的特徴を利用して色クエリを洗練し、手作りの先行を避ける。 2つのデコーダが協力して,色表現とマルチスケール意味表現の相関関係をクロスアテンションによって確立し,色出血効果を著しく軽減した。 さらに、色豊かさを高めるために、単純で効果的な色度損失を導入する。 DDColorは,既存の最先端技術よりも定量的かつ定性的に優れた性能を発揮することを示した。 コードとモデルはhttps://github.com/piddnad/DDColor.comで公開されている。

Image colorization is a challenging problem due to multi-modal uncertainty and high ill-posedness. Directly training a deep neural network usually leads to incorrect semantic colors and low color richness. While transformer-based methods can deliver better results, they often rely on manually designed priors, suffer from poor generalization ability, and introduce color bleeding effects. To address these issues, we propose DDColor, an end-to-end method with dual decoders for image colorization. Our approach includes a pixel decoder and a query-based color decoder. The former restores the spatial resolution of the image, while the latter utilizes rich visual features to refine color queries, thus avoiding hand-crafted priors. Our two decoders work together to establish correlations between color and multi-scale semantic representations via cross-attention, significantly alleviating the color bleeding effect. Additionally, a simple yet effective colorfulness loss is introduced to enhance the color richness. Extensive experiments demonstrate that DDColor achieves superior performance to existing state-of-the-art works both quantitatively and qualitatively. The codes and models are publicly available at https://github.com/piddnad/DDColor.
翻訳日:2023-09-07 07:05:55 公開日:2023-09-05
# mdps吸収のためのミニマックス重み学習

Minimax Weight Learning for Absorbing MDPs ( http://arxiv.org/abs/2301.03183v2 )

ライセンス: Link先を確認
Fengyin Li, Yuqiang Li, Xianyi Wu(参考訳) 強化学習政策評価問題は、有限あるいは割引/平均無限水平MDPとしてモデル化されることが多い。 本稿では,MDPを吸収する政策評価について検討する。 与えられたトランケーションレベルのi.i.dエピソードからなるデータセットを考慮し、状態-行動占有率の重要度によって予測されるリターンを直接推定するMWLAアルゴリズムを提案する。 MWLA法に結合した平均角誤差(MSE)を調査し,データサイズとトランケーションレベルに対する統計的誤差の依存性を解析した。 エピソードタクシー環境では、計算実験によりMWLAアルゴリズムの性能が示されている。

Reinforcement learning policy evaluation problems are often modeled as finite or discounted/averaged infinite-horizon MDPs. In this paper, we study undiscounted off-policy policy evaluation for absorbing MDPs. Given the dataset consisting of the i.i.d episodes with a given truncation level, we propose a so-called MWLA algorithm to directly estimate the expected return via the importance ratio of the state-action occupancy measure. The Mean Square Error (MSE) bound for the MWLA method is investigated and the dependence of statistical errors on the data size and the truncation level are analyzed. With an episodic taxi environment, computational experiments illustrate the performance of the MWLA algorithm.
翻訳日:2023-09-07 06:55:18 公開日:2023-09-05
# RecRecNet:薄膜スプラインモデルとDoFに基づくカリキュラム学習による修正広角画像の整形化

RecRecNet: Rectangling Rectified Wide-Angle Images by Thin-Plate Spline Model and DoF-based Curriculum Learning ( http://arxiv.org/abs/2301.01661v2 )

ライセンス: Link先を確認
Kang Liao, Lang Nie, Chunyu Lin, Zishuo Zheng, Yao Zhao(参考訳) 広角レンズはVR技術の魅力的な応用例だが、撮像された画像に厳しい半径歪みをもたらす。 現実的なシーンを回復するため、以前の作品では広角画像の内容の修正に取り組んでいた。 しかし、このような整流解は必然的に画像境界を歪め、関連する幾何学的分布を変化させ、現在の視覚知覚モデルを誤解させる。 本研究では,新たな学習モデルであるrecrecnet(retangling rectification network)のコンテントとバウンダリの両方におけるwin-win表現の構築について検討する。 特に,直交画像に対する非線形および非剛性変換を定式化する薄板スプライン (TPS) モジュールを提案する。 補正画像の制御ポイントを学習することにより, 対象領域に柔軟にソース構造を付与し, エンドツーエンドの教師なし変形を実現する。 構造近似の複雑さを軽減するため、我々はRecRecNetにインスピレーションを与え、DoF(Degree of Freedom)ベースのカリキュラム学習で段階的な変形規則を学ぶ。 各カリキュラムステージにおけるdof、すなわち類似度変換(4-dof)からホモグラフィ変換(8-dof)を増加させることにより、ネットワークはより詳細な変形を調査でき、最終整流タスクの高速収束を提供する。 実験では, 定量的評価と質的評価の両方において, 比較法よりも溶液の優越性を示す。 コードとデータセットはhttps://github.com/kangliao929/recrecnetで入手できる。

The wide-angle lens shows appealing applications in VR technologies, but it introduces severe radial distortion into its captured image. To recover the realistic scene, previous works devote to rectifying the content of the wide-angle image. However, such a rectification solution inevitably distorts the image boundary, which changes related geometric distributions and misleads the current vision perception models. In this work, we explore constructing a win-win representation on both content and boundary by contributing a new learning model, i.e., Rectangling Rectification Network (RecRecNet). In particular, we propose a thin-plate spline (TPS) module to formulate the non-linear and non-rigid transformation for rectangling images. By learning the control points on the rectified image, our model can flexibly warp the source structure to the target domain and achieves an end-to-end unsupervised deformation. To relieve the complexity of structure approximation, we then inspire our RecRecNet to learn the gradual deformation rules with a DoF (Degree of Freedom)-based curriculum learning. By increasing the DoF in each curriculum stage, namely, from similarity transformation (4-DoF) to homography transformation (8-DoF), the network is capable of investigating more detailed deformations, offering fast convergence on the final rectangling task. Experiments show the superiority of our solution over the compared methods on both quantitative and qualitative evaluations. The code and dataset are available at https://github.com/KangLiao929/RecRecNet.
翻訳日:2023-09-07 06:53:58 公開日:2023-09-05
# マルチタイムスケールと時間的注意機構に基づく新しい風力予測フレームワーク

A novel automatic wind power prediction framework based on multi-time scale and temporal attention mechanisms ( http://arxiv.org/abs/2302.01222v5 )

ライセンス: Link先を確認
Meiyu Jiang, Jun Shen, Xuetao Jiang, Lihui Luo, Rui Zhou, Qingguo Zhou(参考訳) 風力エネルギーは広く分布し、再生可能で、環境に優しいエネルギー源であり、地球温暖化の緩和とエネルギー不足への対処に重要な役割を果たしている。 それでも、風力発電は変動性、断続性、ランダム性が特徴であり、グリッドの信頼性の高い電源として機能することを妨げる。 風力発電の正確な予測は、再生可能エネルギー源に大きく依存する新しい発電システムの開発に不可欠である。 しかし、従来の風力発電予測システムは、主に極短または短期の予測に焦点を当てており、電力システムの多様な調整要求に同時に対処する能力を制限する。 これらの課題を克服するために,マルチタイムスケールでの風力予測が可能な自動フレームワークを提案する。 本手法では, 風力予測にTFTを用い, その特性に基づいて特徴を分類する。 さらに,分解法とモデルのハイパーパラメータを同時に微調整する汎用アルゴリズムを提案する。 3つの一般的な分解アルゴリズムと6つの最先端モデルを用いて,マルチタイムスケール予測のためのアブレーション実験を行うことで,フレームワークの性能を評価する。 実験の結果,提案手法は公開データセット engie https://opendata-renewables.engie.com の予測精度を大幅に向上させることがわかった。 第2の最先端モデルと比較して,24時間予測では正規化平均絶対誤差(nmae)が31.75%,28.74%,48時間予測では20.79%,16.93%であった。

Wind energy is a widely distributed, renewable, and environmentally friendly energy source that plays a crucial role in mitigating global warming and addressing energy shortages. Nevertheless, wind power generation is characterized by volatility, intermittence, and randomness, which hinder its ability to serve as a reliable power source for the grid. Accurate wind power forecasting is crucial for developing a new power system that heavily relies on renewable energy sources. However, traditional wind power forecasting systems primarily focus on ultra-short-term or short-term forecasts, limiting their ability to address the diverse adjustment requirements of the power system simultaneously. To overcome these challenges, We propose an automatic framework capable of forecasting wind power across multi-time scale. The framework based on the tree-structured Parzen estimator (TPE) and temporal fusion transformer (TFT) that can provide ultra-short-term, short-term and medium-term wind power forecasting power.Our approach employs the TFT for wind power forecasting and categorizes features based on their properties. Additionally, we introduce a generic algorithm to simultaneously fine-tune the hyperparameters of the decomposition method and model. We evaluate the performance of our framework by conducting ablation experiments using three commonly used decomposition algorithms and six state-of-the-art models for forecasting multi-time scale. The experimental results demonstrate that our proposed method considerably improves prediction accuracy on the public dataset Engie https://opendata-renewables.engie.com. Compared to the second-best state-of-the-art model, our approach exhibits a reduction of 31.75% and 28.74% in normalized mean absolute error (nMAE) for 24-hour forecasting, and 20.79% and 16.93% in nMAE for 48-hour forecasting, respectively.
翻訳日:2023-09-07 06:46:52 公開日:2023-09-05
# 教師なし異常検出のための一致学習

Coincident Learning for Unsupervised Anomaly Detection ( http://arxiv.org/abs/2301.11368v2 )

ライセンス: Link先を確認
Ryan Humble, Zhe Zhang, Finn O'Shea, Eric Darve, Daniel Ratner(参考訳) 異常検出は複雑なシステム(例えば、工業施設、製造、大規模科学実験)にとって重要な課題であり、サブシステムの故障は、低収率や不良品、部品の損傷につながる可能性がある。 複雑なシステムはしばしば豊富なデータを持っているが、ラベル付き異常は通常稀(あるいは存在しない)で、取得する費用がかかる。 したがって教師なしのアプローチは一般的であり、典型的には入力特徴空間(または関連する低次元表現)の例の距離または密度によってアノマリーを探索する。 本稿では,マルチモーダルなタスクに特化して設計され,特徴空間の2つの異なるスライスにまたがる \textit{coincident} 動作に基づいて異常を識別する CoAD という新しい手法を提案する。 我々は、教師付き分類 $f_\beta$ statistic の類似性から、 \textit{unsupervised} の計量 $\hat{f}_\beta$ を定義する。 CoAD は \textit{unlabeled data} 上で異常検出アルゴリズムをトレーニングするために $\hat{F}_\beta$ を使用する。 本手法は合成外れ値データセットとMNISTに基づく画像データセットを用いて図示し、金属製ミリングデータセットと粒子加速器からのデータセットの2つの実世界のタスクにおける先行技術と比較する。

Anomaly detection is an important task for complex systems (e.g., industrial facilities, manufacturing, large-scale science experiments), where failures in a sub-system can lead to low yield, faulty products, or even damage to components. While complex systems often have a wealth of data, labeled anomalies are typically rare (or even nonexistent) and expensive to acquire. Unsupervised approaches are therefore common and typically search for anomalies either by distance or density of examples in the input feature space (or some associated low-dimensional representation). This paper presents a novel approach called CoAD, which is specifically designed for multi-modal tasks and identifies anomalies based on \textit{coincident} behavior across two different slices of the feature space. We define an \textit{unsupervised} metric, $\hat{F}_\beta$, out of analogy to the supervised classification $F_\beta$ statistic. CoAD uses $\hat{F}_\beta$ to train an anomaly detection algorithm on \textit{unlabeled data}, based on the expectation that anomalous behavior in one feature slice is coincident with anomalous behavior in the other. The method is illustrated using a synthetic outlier data set and a MNIST-based image data set, and is compared to prior state-of-the-art on two real-world tasks: a metal milling data set and a data set from a particle accelerator.
翻訳日:2023-09-07 06:44:28 公開日:2023-09-05
# Moby: エッジ上の効率的なポイントクラウド分析のための2Dモデル

Moby: Empowering 2D Models for Efficient Point Cloud Analytics on the Edge ( http://arxiv.org/abs/2302.09221v3 )

ライセンス: Link先を確認
Jingzong Li, Yik Hong Cai, Libin Liu, Yu Mao, Chun Jason Xue, Hong Xu(参考訳) 3dオブジェクト検出は、自動運転やロボット工学など、多くのアプリケーションで重要な役割を果たす。 これらのアプリケーションは、環境と迅速に対話するために一般的にエッジデバイスにデプロイされる。 計算能力が限られているため、高度に複雑なニューラルネットワークを用いてエッジ上で3d検出を行うことは困難である。 クラウドへのオフロードのような一般的なアプローチは、送信中の大量のポイントクラウドデータのために、大きな遅延オーバーヘッドを引き起こす。 ワイムピーエッジデバイスと計算集約型推論ワークロードの緊張を解消するため,高速な2次元検出による3次元境界ボックスの外挿の可能性を探る。 この目的のために,我々のアプローチの実現可能性と可能性を示す新しいシステムであるMobyを紹介する。 3dバウンディングボックスを効率的に高精度に生成する変換パイプラインを,3d検出器を動作させることなく2d検出結果に基づいて設計する。 さらに,誤差の蓄積を避けるため,クラウド上で適切に3d検出器を起動するタイミングを決定するフレームオフロードスケジューラを考案する。 NVIDIA Jetson TX2と現実の自律運転データセットの大規模な評価は、Mobyが91.9%のレイテンシ改善と、最先端の精度の低下を提供することを示している。

3D object detection plays a pivotal role in many applications, most notably autonomous driving and robotics. These applications are commonly deployed on edge devices to promptly interact with the environment, and often require near real-time response. With limited computation power, it is challenging to execute 3D detection on the edge using highly complex neural networks. Common approaches such as offloading to the cloud induce significant latency overheads due to the large amount of point cloud data during transmission. To resolve the tension between wimpy edge devices and compute-intensive inference workloads, we explore the possibility of empowering fast 2D detection to extrapolate 3D bounding boxes. To this end, we present Moby, a novel system that demonstrates the feasibility and potential of our approach. We design a transformation pipeline for Moby that generates 3D bounding boxes efficiently and accurately based on 2D detection results without running 3D detectors. Further, we devise a frame offloading scheduler that decides when to launch the 3D detector judiciously in the cloud to avoid the errors from accumulating. Extensive evaluations on NVIDIA Jetson TX2 with real-world autonomous driving datasets demonstrate that Moby offers up to 91.9% latency improvement with modest accuracy loss over state of the art.
翻訳日:2023-09-07 06:36:15 公開日:2023-09-05
# 小さい)構造で下界を破る:重み付き雑音による非凸確率最適化の高速化

Breaking the Lower Bound with (Little) Structure: Acceleration in Non-Convex Stochastic Optimization with Heavy-Tailed Noise ( http://arxiv.org/abs/2302.06763v2 )

ライセンス: Link先を確認
Zijian Liu, Jiawei Zhang, Zhengyuan Zhou(参考訳) 確率勾配の雑音が有界なp$thモーメント(p\in(1,2]$)と仮定される重み付き雑音系において、滑らかだが必ずしも凸な目的を持つ確率最適化問題を考察する。 Zhang et al. (2020) は$\Omega(T^{\frac{1-p}{3p-2}})$ lower bound for convergence (in expectation) を初めて証明し、この最適な速度に一致する単純なクリッピングアルゴリズムを提供する。 cutkosky と mehta (2021) は、ほぼ最適な高確率収束保証 $o(\log(t/\delta)t^{\frac{1-p}{3p-2}})$ を達成する別のアルゴリズムを提案している。 しかし、この望ましい保証は、確率的勾配自体が p$th モーメントに有界であるという追加の仮定の下でのみ確立され、二次目的や中心ガウスノイズに対しても保持されない。 本研究では,Cutkosky と Mehta (2021) におけるアルゴリズムの解析を改善し,上記の制限的仮定なしに,ほぼ最適に近い高確率収束率$O(\log(T/\delta)T^{\frac{1-p}{3p-2}})$を得る。 次に、興味深いことに、目的関数 $f(x)$ が $\mathbb{e}_{\xi\sim\mathcal{d}}[f(x,\xi)]$ の形であると仮定された場合、最小のビット構造だけで、下限の$\omega(t^{\frac{1-p}{3p-2}})$ によって指示されるよりも速い速度が得られる。 このクラスの問題に対して、最初の分散還元促進アルゴリズムを提案し、その確率収束率を$O(\log(T/\delta)T^{\frac{1-p}{2p-1}})$で保証し、$Omega(T^{\frac{1-p}{3p-2}})$より高速である。 特に、有限分散の場合に特化しても、我々の結果は(準)最適高確率率$O(\log(T/\delta)T^{-1/3})$となる。

We consider the stochastic optimization problem with smooth but not necessarily convex objectives in the heavy-tailed noise regime, where the stochastic gradient's noise is assumed to have bounded $p$th moment ($p\in(1,2]$). Zhang et al. (2020) is the first to prove the $\Omega(T^{\frac{1-p}{3p-2}})$ lower bound for convergence (in expectation) and provides a simple clipping algorithm that matches this optimal rate. Cutkosky and Mehta (2021) proposes another algorithm, which is shown to achieve the nearly optimal high-probability convergence guarantee $O(\log(T/\delta)T^{\frac{1-p}{3p-2}})$, where $\delta$ is the probability of failure. However, this desirable guarantee is only established under the additional assumption that the stochastic gradient itself is bounded in $p$th moment, which fails to hold even for quadratic objectives and centered Gaussian noise. In this work, we first improve the analysis of the algorithm in Cutkosky and Mehta (2021) to obtain the same nearly optimal high-probability convergence rate $O(\log(T/\delta)T^{\frac{1-p}{3p-2}})$, without the above-mentioned restrictive assumption. Next, and curiously, we show that one can achieve a faster rate than that dictated by the lower bound $\Omega(T^{\frac{1-p}{3p-2}})$ with only a tiny bit of structure, i.e., when the objective function $F(x)$ is assumed to be in the form of $\mathbb{E}_{\Xi\sim\mathcal{D}}[f(x,\Xi)]$, arguably the most widely applicable class of stochastic optimization problems. For this class of problems, we propose the first variance-reduced accelerated algorithm and establish that it guarantees a high-probability convergence rate of $O(\log(T/\delta)T^{\frac{1-p}{2p-1}})$ under a mild condition, which is faster than $\Omega(T^{\frac{1-p}{3p-2}})$. Notably, even when specialized to the finite-variance case, our result yields the (near-)optimal high-probability rate $O(\log(T/\delta)T^{-1/3})$.
翻訳日:2023-09-07 06:35:14 公開日:2023-09-05
# v1t:視覚トランスフォーマーを用いた大規模マウスv1応答予測

V1T: large-scale mouse V1 response prediction using a Vision Transformer ( http://arxiv.org/abs/2302.03023v4 )

ライセンス: Link先を確認
Bryan M. Li, Isabel M. Cornacchia, Nathalie L. Rochefort, Arno Onken(参考訳) 自然視刺激に対する視覚野神経反応の正確な予測モデルは、計算神経科学の課題である。 本稿では,動物間の視覚と行動の共通表現を学習する新しい視覚トランスフォーマーアーキテクチャであるv1tを紹介する。 マウス一次視覚野から記録された2つの大規模データセットを用いて,従来の畳み込みモデルと比較して予測性能が12.7%以上向上した。 さらに,トランスフォーマーが学習した自己意識重みは,集団受容野と相関することを示した。 そこで本モデルはニューラルレスポンス予測のための新しいベンチマークを設定し,行動記録とニューラル記録を併用して視覚野の特徴を明らかにする。

Accurate predictive models of the visual cortex neural response to natural visual stimuli remain a challenge in computational neuroscience. In this work, we introduce V1T, a novel Vision Transformer based architecture that learns a shared visual and behavioral representation across animals. We evaluate our model on two large datasets recorded from mouse primary visual cortex and outperform previous convolution-based models by more than 12.7% in prediction performance. Moreover, we show that the self-attention weights learned by the Transformer correlate with the population receptive fields. Our model thus sets a new benchmark for neural response prediction and can be used jointly with behavioral and neural recordings to reveal meaningful characteristic features of the visual cortex.
翻訳日:2023-09-07 06:33:24 公開日:2023-09-05
# 閉じ込められたイオンquditに埋め込まれた量子ビットを用いたユニバーサル量子コンピューティング

Universal quantum computing with qubits embedded in trapped-ion qudits ( http://arxiv.org/abs/2302.02966v2 )

ライセンス: Link先を確認
Anastasiia S. Nikolaeva, Evgeniy O. Kiktenko, Aleksey K. Fedorov(参考訳) 量子コンピューティングの最近の発展、特に閉じ込められたイオンは、物理情報キャリアの数を増やすことなく量子プロセッサをスケーリングする興味深い可能性を開く。 本研究では,量子ビットを実験的に関連する次元のqudits, $d=3,\ldots,8$に組み込む場合の量子回路のコンパイル法を提案する。 特に,シングルキュート演算とモルマー・ソレンセン(ms)ゲートを基本2粒子演算として,シングルキュービット,2キュービット,マルチキュービットゲートを実現する方法を示す。 我々の発見は、トラップイオンベースのquditプロセッサに直接適用できると期待している。

Recent developments in qudit-based quantum computing, in particular with trapped ions, open interesting possibilities for scaling quantum processors without increasing the number of physical information carriers. In this work, we propose a method for compiling quantum circuits in the case, where qubits are embedded into qudits of experimentally relevant dimensionalities, $d=3,\ldots,8$, for the trapped-ion platform. In particular, we demonstrate how single-qubit, two-qubit, and multiqubit gates can be realized using single-qudit operations and the Molmer-Sorensen (MS) gate as a basic two-particle operation. We expect that our findings are directly applicable to trapped-ion-based qudit processors.
翻訳日:2023-09-07 06:33:12 公開日:2023-09-05
# 量子コンピュータ上の高次位相状態の観測

Observation of higher-order topological states on a quantum computer ( http://arxiv.org/abs/2303.02179v2 )

ライセンス: Link先を確認
Jin Ming Koh, Tommy Tai, Ching Hua Lee(参考訳) 超伝導量子プロセッサや超低温原子格子などのプログラム可能な量子シミュレータは、ある日既存の古典的コンピュータを質的に上回る可能性のある創発的な技術が急速に発達していることを示している。 しかし、いくつかのブレークスルーを除けば、現在のノイズの多い中間スケール量子(nisq)デバイスで実行可能な計算応用の範囲は、ゲートエラー、量子デコヒーレンス、高品質の量子ビット数によって依然として著しく制限されている。 本研究では,nisqハードウェアを多次元凝縮体系をシミュレートするのに適したプラットフォームとして位置づける手法を開発した。 量子鎖の指数的に大きなヒルベルト空間を十分に活用することにより、より体系的に量子ゲートに転写できる非局所多体相互作用の観点から高次元モデルを符号化した。 我々は,IBMトランスモンベースの量子コンピュータ上で,最大4次元の高次位相状態を実現することで,我々のアプローチのパワーを実証する。 室内回路の圧縮と誤差軽減技術を用いて, トポロジカルな状態ダイナミクスと保護された中ギャップスペクトルを高精度に測定し, 基準精度の対角化データでベンチマークした。 我々のアプローチに必要な時間とメモリは、古典的コンピュータの正確な対角化と比較すると、システムのサイズと寸法に好適にスケールする。

Programmable quantum simulators such as superconducting quantum processors and ultracold atomic lattices represent rapidly developing emergent technology that may one day qualitatively outperform existing classical computers. Yet, apart from a few breakthroughs, the range of viable computational applications with current-day noisy intermediate-scale quantum (NISQ) devices is still significantly limited by gate errors, quantum decoherence, and the number of high-quality qubits. In this work, we develop an approach that places NISQ hardware as a particularly suitable platform for simulating multi-dimensional condensed matter systems, including lattices beyond three dimensions which are difficult to realize or probe in other settings. By fully exploiting the exponentially large Hilbert space of a quantum chain, we encoded a high-dimensional model in terms of non-local many-body interactions that can further be systematically transcribed into quantum gates. We demonstrate the power of our approach by realizing, on IBM transmon-based quantum computers, higher-order topological states in up to four dimensions, which are exotic phases that have never been realized in any quantum setting. With the aid of in-house circuit compression and error mitigation techniques, we measured the topological state dynamics and their protected mid-gap spectra to a high degree of accuracy, as benchmarked by reference exact diagonalization data. The time and memory needed with our approach scale favorably with system size and dimensionality compared to exact diagonalization on classical computers.
翻訳日:2023-09-07 06:26:10 公開日:2023-09-05
# ゲーム業界の専門家によるテキスト・画像生成AIの認識・採用・利用

"An Adapt-or-Die Type of Situation": Perception, Adoption, and Use of Text-To-Image-Generation AI by Game Industry Professionals ( http://arxiv.org/abs/2302.12601v5 )

ライセンス: Link先を確認
Veera Vimpari, Annakaisa Kultima, Perttu H\"am\"al\"ainen, Christian Guckelsberger(参考訳) クリエイティブAIに最近追加されたTTIG(Text-to-image Generation)モデルは、テキスト記述に基づいて画像を生成することができる。 これらのモデルは、プロのクリエイティブな作品に匹敵し始め、創造的な仕事の未来、失業、著作権問題など、重要な意味を持つ議論を巻き起こした。 TTIGの持続可能な採用を支援するためには、専門家がTTIGをどのように認識し、採用し、利用しているかについて、豊かで信頼性が高く透明な洞察を提供する必要がある。 しかし、公共の議論は浅く、狭く、透明性を欠いている一方で、学術的な研究は一般の芸術家におけるティグの使用についての研究に焦点をあてているが、特定の産業における専門家の認識や態度には焦点を当てていない。 本稿では,フィンランドのビデオゲーム産業におけるTTIGに関する質的,探索的なインタビュー研究に貢献する。 14人のゲーム専門家による半構造化インタビューのテンプレート分析により,専門家の認識,ttigシステムの採用,利用に関する49のサブテーマからなる12のオーバーアーキシングテーマが明らかにされた。 役割や創造的プロセスの変化を経験して、私たちの参加者のリフレクションは、業界内での議論を伝え、政策立案者によって緊急に必要な法律を通知し、ゲームやHCI、AIの研究者を支援し、TTIGの持続可能なプロフェッショナルな使用を支援し、文化的な成果物として人々やゲームに恩恵を与えることができます。

Text-to-image generation (TTIG) models, a recent addition to creative AI, can generate images based on a text description. These models have begun to rival the work of professional creatives, and sparked discussions on the future of creative work, loss of jobs, and copyright issues, amongst other important implications. To support the sustainable adoption of TTIG, we must provide rich, reliable and transparent insights into how professionals perceive, adopt and use TTIG. Crucially though, the public debate is shallow, narrow and lacking transparency, while academic work has focused on studying the use of TTIG in a general artist population, but not on the perceptions and attitudes of professionals in a specific industry. In this paper, we contribute a qualitative, exploratory interview study on TTIG in the Finnish videogame industry. Through a Template Analysis on semi-structured interviews with 14 game professionals, we reveal 12 overarching themes, structured into 49 sub-themes on professionals' perception, adoption and use of TTIG systems in games industry practice. Experiencing (yet another) change of roles and creative processes, our participants' reflections can inform discussions within the industry, be used by policymakers to inform urgently needed legislation, and support researchers in games, HCI and AI to support the sustainable, professional use of TTIG to benefit people and games as cultural artefacts.
翻訳日:2023-09-07 06:25:20 公開日:2023-09-05
# アイデンティティ保存ネットワークと知識蒸留によるクロスレゾリューション顔認識

Cross-resolution Face Recognition via Identity-Preserving Network and Knowledge Distillation ( http://arxiv.org/abs/2303.08665v2 )

ライセンス: Link先を確認
Yuhang Lu, Touradj Ebrahimi(参考訳) クロスレゾリューション顔認識は、現代の深層顔認識システムにとって難しい問題となっている。 データベースに登録された高解像度のギャラリー画像と低解像度のプローブ画像をマッチングすることを目的としている。 既存の手法は主に、顔の詳細を超解像技術で再構築するか、統合された特徴空間を学習することで、高解像度画像からの事前情報を活用する。 本稿では,この課題に対処するために,低解像度画像の低周波成分に格納された識別情報にネットワークを集中させる新しい手法を提案する。 クロスレゾリューション知識蒸留パラダイムを学習フレームワークとして最初に採用する。 そして、低周波の詳細を捕捉し、性能を高めるために、アイデンティティ保存ネットワーク、WaveResNet、ウェーブレット類似性損失を設計する。 最後に、より現実的な低解像度トレーニングデータをシミュレートするための画像劣化モデルを提案する。 その結果,提案手法は様々な画像解像度において,ベースラインモデルや他の最先端手法よりも一貫して優れていた。

Cross-resolution face recognition has become a challenging problem for modern deep face recognition systems. It aims at matching a low-resolution probe image with high-resolution gallery images registered in a database. Existing methods mainly leverage prior information from high-resolution images by either reconstructing facial details with super-resolution techniques or learning a unified feature space. To address this challenge, this paper proposes a new approach that enforces the network to focus on the discriminative information stored in the low-frequency components of a low-resolution image. A cross-resolution knowledge distillation paradigm is first employed as the learning framework. Then, an identity-preserving network, WaveResNet, and a wavelet similarity loss are designed to capture low-frequency details and boost performance. Finally, an image degradation model is conceived to simulate more realistic low-resolution training data. Consequently, extensive experimental results show that the proposed method consistently outperforms the baseline model and other state-of-the-art methods across a variety of image resolutions.
翻訳日:2023-09-07 06:15:26 公開日:2023-09-05
# グラフニューラルネットワークの記述的複雑性

The Descriptive Complexity of Graph Neural Networks ( http://arxiv.org/abs/2303.04613v3 )

ライセンス: Link先を確認
Martin Grohe(参考訳) 我々はブール回路の複雑さと記述複雑性の観点からグラフニューラルネットワーク(GNN)のパワーを分析する。 GNNの多項式サイズ境界深度ファミリーで計算できるグラフクエリは、計算と組込み関係を持つ一階述語論理のガード付きフラグメント GFO+C で正確に定義可能であることを証明した。 これにより、GNNは回路複雑性クラスTC^0に入る。 注目すべきことに、GNNファミリーは任意の実重みと、標準ReLU、ロジスティックな「sigmod」、双曲的接形関数を含む幅広い種類の活性化関数を使用することができる。 gnnがランダム初期化とグローバル読み出し(どちらも実際には広く使われているgnnの標準機能)を使用することが許されている場合、それらはしきい値ゲートを持つ有界深さブール回路、すなわちtc^0のクエリと全く同じクエリを計算できる。 さらに,GFO+Cでは,一括線形なアクティベーションと有理重みを持つ単一のGNNで計算可能なクエリが,組込み関係なく定義可能であることを示す。 したがって、それらは一様TC^0に含まれる。

We analyse the power of graph neural networks (GNNs) in terms of Boolean circuit complexity and descriptive complexity. We prove that the graph queries that can be computed by a polynomial-size bounded-depth family of GNNs are exactly those definable in the guarded fragment GFO+C of first-order logic with counting and with built-in relations. This puts GNNs in the circuit complexity class TC^0. Remarkably, the GNN families may use arbitrary real weights and a wide class of activation functions that includes the standard ReLU, logistic "sigmod", and hyperbolic tangent functions. If the GNNs are allowed to use random initialisation and global readout (both standard features of GNNs widely used in practice), they can compute exactly the same queries as bounded depth Boolean circuits with threshold gates, that is, exactly the queries in TC^0. Moreover, we show that queries computable by a single GNN with piecewise linear activations and rational weights are definable in GFO+C without built-in relations. Therefore, they are contained in uniform TC^0.
翻訳日:2023-09-07 06:13:29 公開日:2023-09-05
# InterviewBot: 大学受験生にインタビューするリアルタイムエンドツーエンド対話システム

InterviewBot: Real-Time End-to-End Dialogue System to Interview Students for College Admission ( http://arxiv.org/abs/2303.15049v3 )

ライセンス: Link先を確認
Zihao Wang, Nathan Keyes, Terry Crawford, Jinho D. Choi(参考訳) 本稿では,会話履歴を動的に統合し,トピックをカスタマイズしたインタビューボットをコヒーレントな埋め込み空間に組み込んで,米国の大学に通学する留学生と10分間のハイブリッドドメイン(オープンおよびクローズド)会話を行い,学術的・文化的即応性を評価する。 ニューラルベースエンドツーエンド対話モデルを構築するために、人間対人間インタビューの音声録音7,361件を自動転写し、440件を手作業で微調整・評価する。 変換器を用いたエンコーダデコーダモデルの入力/出力サイズ制限を克服するため、コンテキストアテンションとトピック記憶という2つの新しい手法を提案し、モデルが関連性があり一貫した相互作用を行えるようにした。 最終モデルは,インタビューデータに対する回答を統計的に比較し,また,プロのインタビュアーや様々な学生にリアルタイムに対話させ,フルエンシーや文脈認識において高い満足度を得ることにより,動的に評価した。

We present the InterviewBot that dynamically integrates conversation history and customized topics into a coherent embedding space to conduct 10 mins hybrid-domain (open and closed) conversations with foreign students applying to U.S. colleges for assessing their academic and cultural readiness. To build a neural-based end-to-end dialogue model, 7,361 audio recordings of human-to-human interviews are automatically transcribed, where 440 are manually corrected for finetuning and evaluation. To overcome the input/output size limit of a transformer-based encoder-decoder model, two new methods are proposed, context attention and topic storing, allowing the model to make relevant and consistent interactions. Our final model is tested both statistically by comparing its responses to the interview data and dynamically by inviting professional interviewers and various students to interact with it in real-time, finding it highly satisfactory in fluency and context awareness.
翻訳日:2023-09-07 06:07:29 公開日:2023-09-05
# ゼロセグメントラベルを用いたゼロ誘導セグメンテーション

Zero-guidance Segmentation Using Zero Segment Labels ( http://arxiv.org/abs/2303.13396v3 )

ライセンス: Link先を確認
Pitchaporn Rewatbowornwong, Nattanat Chatthee, Ekapol Chuangsuwanich, Supasorn Suwajanakorn(参考訳) CLIPは新しくてエキサイティングな共同ビジョン言語アプリケーションを実現した。ひとつはオープン語彙セグメンテーションで、任意のテキストクエリの任意のセグメントを特定できる。 本研究では,テキストクエリや事前定義されたクラスでユーザ誘導なしに意味セグメントを見つけ出し,自然言語で自動的にラベル付けすることができるか質問する。 そこで本研究では,DINOとCLIPという2つの事前学習されたジェネラリストモデルを利用したゼロガイダンスセグメンテーションと第1ベースラインを提案する。 一般的なアイデアは、まず画像を小さなオーバーセグメントに分割し、クリップのビジュアル言語空間にエンコードし、テキストラベルに変換し、意味的に類似したセグメントをマージすることだ。 しかし、重要な課題は、視覚セグメントを、グローバルなコンテキスト情報とローカルなコンテキスト情報のバランスをとるセグメント固有の埋め込みにエンコードする方法だ。 私たちの主な貢献は、CLIP内のアテンション層を分析することによって、2つのコンテキストのバランスをとる新しいアテンションマスキング技術です。 この新しいタスクの評価のための指標もいくつか紹介する。 CLIPの生来の知識により、美術館の観衆の間でモナ・リザの絵を正確に見つけることができる。 プロジェクトページ: https://zero-guide-seg.github.io/

CLIP has enabled new and exciting joint vision-language applications, one of which is open-vocabulary segmentation, which can locate any segment given an arbitrary text query. In our research, we ask whether it is possible to discover semantic segments without any user guidance in the form of text queries or predefined classes, and label them using natural language automatically? We propose a novel problem zero-guidance segmentation and the first baseline that leverages two pre-trained generalist models, DINO and CLIP, to solve this problem without any fine-tuning or segmentation dataset. The general idea is to first segment an image into small over-segments, encode them into CLIP's visual-language space, translate them into text labels, and merge semantically similar segments together. The key challenge, however, is how to encode a visual segment into a segment-specific embedding that balances global and local context information, both useful for recognition. Our main contribution is a novel attention-masking technique that balances the two contexts by analyzing the attention layers inside CLIP. We also introduce several metrics for the evaluation of this new task. With CLIP's innate knowledge, our method can precisely locate the Mona Lisa painting among a museum crowd. Project page: https://zero-guide-seg.github.io/.
翻訳日:2023-09-07 06:06:24 公開日:2023-09-05
# ジェネリック表現を用いたキャリブレーションアウトオブディストリビューション検出

Calibrated Out-of-Distribution Detection with a Generic Representation ( http://arxiv.org/abs/2303.13148v2 )

ライセンス: Link先を確認
Tomas Vojir, Jan Sochman, Rahaf Aljundi, Jiri Matas(参考訳) 分散検出は、実際のビジョンモデルのデプロイにおいて一般的な問題であり、それを解決することは、安全クリティカルなアプリケーションにおいて必須のビルディングブロックである。 既存のOOD検出ソリューションのほとんどは、ID(In-distriion)データに特化して訓練された分類モデルのOODロバスト性の改善に重点を置いている。 本研究では,異なるアプローチを採り,汎用的な事前学習表現の活用を提案する。 GROODと呼ばれる新しい OOD 法を提案する。これは,OOD 検出をベイマン・ピアソンのタスクとしてよく校正されたスコアで定式化し,優れた汎用表現によって予測される優れた性能を実現する。 特定の問題にグロッドを適用するには、簡単なトレーニングプロセスのみが必要である。 この方法は単純で、一般的で、効率良く、校正され、数個のハイパーパラメータしか持たない。 この手法は多くのOODベンチマークで最先端の性能を達成し、いくつかのベンチマークでほぼ完璧な性能を達成した。 ソースコードはhttps://github.com/vojirt/grood.comで入手できる。

Out-of-distribution detection is a common issue in deploying vision models in practice and solving it is an essential building block in safety critical applications. Most of the existing OOD detection solutions focus on improving the OOD robustness of a classification model trained exclusively on in-distribution (ID) data. In this work, we take a different approach and propose to leverage generic pre-trained representation. We propose a novel OOD method, called GROOD, that formulates the OOD detection as a Neyman-Pearson task with well calibrated scores and which achieves excellent performance, predicated by the use of a good generic representation. Only a trivial training process is required for adapting GROOD to a particular problem. The method is simple, general, efficient, calibrated and with only a few hyper-parameters. The method achieves state-of-the-art performance on a number of OOD benchmarks, reaching near perfect performance on several of them. The source code is available at https://github.com/vojirt/GROOD.
翻訳日:2023-09-07 06:06:01 公開日:2023-09-05
# AI規制におけるグローバルディバイドのブリッジ: コンテキスト、一貫性、快適なフレームワークの提案

Bridging the Global Divide in AI Regulation: A Proposal for a Contextual, Coherent, and Commensurable Framework ( http://arxiv.org/abs/2303.11196v3 )

ライセンス: Link先を確認
Sangchul Park(参考訳) 本稿では,AI規制の現況を概観し,異なるアプローチが講じられていることを強調し,文脈的,一貫性,快適な3Cフレームワークを提案する。 EU、カナダ、韓国、ブラジルは、AIシステムの均質性を仮定する水平方向または横方向のアプローチに従い、共通の害原因を特定し、統一的な人間の介入を要求する。 対照的に、英国、イスラエル、スイス、日本、中国は、aiシステムの特定のユースケースに規制を合わせた、コンテキスト固有の、あるいはモジュラーなアプローチを追求している。 米国は戦略を再評価し、AIに関連する現実的なリスクを制御するためのサポートを拡大している。 このようなAI規制の断片化に対処することは、AIの相互運用性を保証するために不可欠である。 EU AI法における現在の比例、粒度、および予測可能性の程度は、合意を得るには不十分である。 コンテキスト固有のアプローチは、より多くの約束を持っていますが、詳細、一貫性、および可測性の観点からさらなる開発が必要です。 バランスを取るため,本稿ではハイブリッド3cフレームワークを提案する。 文脈性を確保するため、このフレームワークはAIを、自律的、割当的、刺激的、認知的、生成的AIという、その使用と人間との相互作用に基づいて、異なるタイプに分類する。 一貫性を確保するために、各カテゴリには、自律AIの安全性、割当AIの公正性と説明性、罰的AIの正確性と説明性、認知AIの正確性、堅牢性、プライバシ、生成AIの侵害と誤用の軽減といった、特定の規制目標が割り当てられている。 コンメンサビリティを確保するため、このフレームワークは原則を定量化メトリクスに変換する国際業界標準の採用を促進する。 そうすることで、過度のコンプライアンスコストを伴わずに、国際協力と標準化を促進することが期待される。

This paper examines the current landscape of AI regulations, highlighting the divergent approaches being taken, and proposes an alternative contextual, coherent, and commensurable (3C) framework. The EU, Canada, South Korea, and Brazil follow a horizontal or lateral approach that postulates the homogeneity of AI systems, seeks to identify common causes of harm, and demands uniform human interventions. In contrast, the U.K., Israel, Switzerland, Japan, and China have pursued a context-specific or modular approach, tailoring regulations to the specific use cases of AI systems. The U.S. is reevaluating its strategy, with growing support for controlling existential risks associated with AI. Addressing such fragmentation of AI regulations is crucial to ensure the interoperability of AI. The present degree of proportionality, granularity, and foreseeability of the EU AI Act is not sufficient to garner consensus. The context-specific approach holds greater promises but requires further development in terms of details, coherency, and commensurability. To strike a balance, this paper proposes a hybrid 3C framework. To ensure contextuality, the framework categorizes AI into distinct types based on their usage and interaction with humans: autonomous, allocative, punitive, cognitive, and generative AI. To ensure coherency, each category is assigned specific regulatory objectives: safety for autonomous AI; fairness and explainability for allocative AI; accuracy and explainability for punitive AI; accuracy, robustness, and privacy for cognitive AI; and the mitigation of infringement and misuse for generative AI. To ensure commensurability, the framework promotes the adoption of international industry standards that convert principles into quantifiable metrics. In doing so, the framework is expected to foster international collaboration and standardization without imposing excessive compliance costs.
翻訳日:2023-09-07 06:04:27 公開日:2023-09-05
# ノイズ量子電池からの作業抽出過程--非局所的資源の役割

Work extraction processes from noisy quantum batteries: the role of non local resources ( http://arxiv.org/abs/2304.01270v2 )

ライセンス: Link先を確認
Salvatore Tirone, Raffaele Salvia, Stefano Chessa and Vittorio Giovannetti(参考訳) 量子バッテリモデルからの作業抽出における環境騒音の悪影響を緩和するために,非局所操作で得られる有益効果と非局所状態との非対称性を示す。 具体的には、ノイズ動作後の非局所回復操作を用いることで、一般に、分離可能な(非絡み合った)入力状態であっても、バッテリから回復できる作業量を増やすことができることを示す。 逆に、局所回復操作で絡み合った入力状態を採用すると、一般的にバッテリー性能は向上しない。

We demonstrate an asymmetry between the beneficial effects one can obtain using non-local operations and non-local states to mitigate the detrimental effects of environmental noise in the work extraction from quantum battery models. Specifically, we show that using non-local recovery operations after the noise action can in general increase the amount of work one can recover from the battery even with separable (i.e. non entangled) input states. On the contrary, employing entangled input states with local recovery operations will not generally improve the battery performances.
翻訳日:2023-09-07 05:54:47 公開日:2023-09-05
# 教師なし深層学習における原理不等角化の非線形独立成分分析

Nonlinear Independent Component Analysis for Principled Disentanglement in Unsupervised Deep Learning ( http://arxiv.org/abs/2303.16535v2 )

ライセンス: Link先を確認
Aapo Hyvarinen, Ilyes Khemakhem, Hiroshi Morioka(参考訳) 教師なしディープラーニングにおける中心的な問題は、高次元データの有用な表現を見つける方法である。 ほとんどのアプローチはヒューリスティックであり、適切な理論基盤を欠いている。 線形表現学習では、独立成分分析(ICA)は多くの応用分野で成功しており、よく定義された確率モデルに基づいて原理化されている。 しかし、ICAの非線形ケースへの拡張は、識別可能性の欠如、すなわち表現の特異性のために問題となっている。 近年,時間構造や補助情報を利用した非線形拡張が提案されている。 このようなモデルは実際に識別可能であり、その結果、アルゴリズムの数が増加している。 特に、いくつかの自己教師付きアルゴリズムは、当初はヒューリスティックな観点から提案されたものの、非線形ICAを推定することができる。 本稿では非線形ICA理論とアルゴリズムの現状を概観する。

A central problem in unsupervised deep learning is how to find useful representations of high-dimensional data, sometimes called "disentanglement". Most approaches are heuristic and lack a proper theoretical foundation. In linear representation learning, independent component analysis (ICA) has been successful in many applications areas, and it is principled, i.e., based on a well-defined probabilistic model. However, extension of ICA to the nonlinear case has been problematic due to the lack of identifiability, i.e., uniqueness of the representation. Recently, nonlinear extensions that utilize temporal structure or some auxiliary information have been proposed. Such models are in fact identifiable, and consequently, an increasing number of algorithms have been developed. In particular, some self-supervised algorithms can be shown to estimate nonlinear ICA, even though they have initially been proposed from heuristic perspectives. This paper reviews the state-of-the-art of nonlinear ICA theory and algorithms.
翻訳日:2023-09-07 05:53:41 公開日:2023-09-05
# RS2G:ロバストな自律認識とシナリオ理解のためのデータ駆動のシーングラフ抽出と埋め込み

RS2G: Data-Driven Scene-Graph Extraction and Embedding for Robust Autonomous Perception and Scenario Understanding ( http://arxiv.org/abs/2304.08600v2 )

ライセンス: Link先を確認
Junyao Wang, Arnav Vaibhav Malawade, Junhong Zhou, Shih-Yuan Yu, Mohammad Abdullah Al Faruque(参考訳) 道路利用者間の複雑な相互作用を効果的に捉えることは、自動運転車の安全なナビゲーションを実現する上で重要である。 グラフ学習(GL)はこの課題に取り組むための有望なアプローチとして現れてきたが、既存のGLモデルは定義済みのドメイン固有のグラフ抽出ルールに依存しており、現実の状況で大きく変化するシナリオで失敗することが多い。 さらに、これらのグラフ抽出規則は、ドメイン間の知識を一般化する既存のGLメソッドの能力を著しく損なう。 本研究では,道路利用者間の多様な関係を動的に捉えた新しいデータ駆動グラフ抽出・モデリングアプローチを用いた,革新的な自律シナリオ理解フレームワークである roadscene2graph (rs2g) を提案する。 評価の結果,平均RS2Gは4.47%,SOTA深層学習モデルでは22.19%,最先端(SOTA)ルールベースグラフ抽出法では22.19%を上回った。 さらに重要なことに、rs2gはシミュレーション環境から得られる知識を現実世界のシナリオに移す際の優れたパフォーマンスを提供する。

Effectively capturing intricate interactions among road users is of critical importance to achieving safe navigation for autonomous vehicles. While graph learning (GL) has emerged as a promising approach to tackle this challenge, existing GL models rely on predefined domain-specific graph extraction rules that often fail in real-world drastically changing scenarios. Additionally, these graph extraction rules severely impede the capability of existing GL methods to generalize knowledge across domains. To address this issue, we propose RoadScene2Graph (RS2G), an innovative autonomous scenario understanding framework with a novel data-driven graph extraction and modeling approach that dynamically captures the diverse relations among road users. Our evaluations demonstrate that on average RS2G outperforms the state-of-the-art (SOTA) rule-based graph extraction method by 4.47% and the SOTA deep learning model by 22.19% in subjective risk assessment. More importantly, RS2G delivers notably better performance in transferring knowledge gained from simulation environments to unseen real-world scenarios.
翻訳日:2023-09-07 05:47:39 公開日:2023-09-05
# point-slam:密集したニューラルポイントクラウドベースのslam

Point-SLAM: Dense Neural Point Cloud-based SLAM ( http://arxiv.org/abs/2304.04278v2 )

ライセンス: Link先を確認
Erik Sandstr\"om and Yue Li and Luc Van Gool and Martin R. Oswald(参考訳) 本稿では,入力に依存したデータ駆動方式で反復生成される点クラウドにおいて,神経シーン表現の特徴をアンカーする単眼型rgbd入力のための高密度ニューラルネットワーク同時局在マッピング(slam)手法を提案する。 rgbdベースの再レンダリングロスを最小化することで、トラッキングとマッピングの両方を同じポイントベースのニューラルネットワークシーン表現で実行できることを実証する。 スパースグリッドのシーン特徴を固定する近年の高密度ニューラルネットワークSLAM法とは対照的に,我々のポイントベースアプローチは,アンカー点密度を入力の情報密度に動的に適応させることができる。 この戦略は、ディテールの少ないリージョンでのランタイムとメモリ使用量を削減し、詳細を解決するために高いポイント密度を捧げる。 我々の手法は、Replica、TUM-RGBD、ScanNetデータセット上での追跡、マッピング、レンダリングの精度において、既存の高密度ニューラルネットワークRGBD SLAM法により良い、あるいは競合する。 ソースコードはhttps://github.com/eriksandstroem/point-slamで入手できる。

We propose a dense neural simultaneous localization and mapping (SLAM) approach for monocular RGBD input which anchors the features of a neural scene representation in a point cloud that is iteratively generated in an input-dependent data-driven manner. We demonstrate that both tracking and mapping can be performed with the same point-based neural scene representation by minimizing an RGBD-based re-rendering loss. In contrast to recent dense neural SLAM methods which anchor the scene features in a sparse grid, our point-based approach allows dynamically adapting the anchor point density to the information density of the input. This strategy reduces runtime and memory usage in regions with fewer details and dedicates higher point density to resolve fine details. Our approach performs either better or competitive to existing dense neural RGBD SLAM methods in tracking, mapping and rendering accuracy on the Replica, TUM-RGBD and ScanNet datasets. The source code is available at https://github.com/eriksandstroem/Point-SLAM.
翻訳日:2023-09-07 05:44:10 公開日:2023-09-05
# ノイズは量子通信における資源コンテキストである

Noise is resource-contextual in quantum communication ( http://arxiv.org/abs/2305.00680v3 )

ライセンス: Link先を確認
Aditya Nema, Ananda G. Maity, Sergii Strelchuk and David Elkouss(参考訳) 量子チャネルの情報伝達能力の推定は、量子情報処理における根本的な問題の一つである。 古典的チャネルとは対照的に、量子チャネルの情報伝達能力は文脈的である。 2つの量子チャネルの容量は、個々の容量の合計よりも大きい可能性がある。 本稿では、パラメータが1つの量子容量とプライベート容量を増加させるにつれて、2つのチャネル容量が減少する1つのパラメータのチャネルファミリを示す。 また,一方向と二方向の蒸留可能な絡み合いと秘密鍵に関して,類似の挙動を持つ1パラメータの状態の族を示す。 我々の構造は、ノイズが量子通信に依存していることを示している。

Estimating the information transmission capability of a quantum channel remains one of the fundamental problems in quantum information processing. In contrast to classical channels, the information-carrying capability of quantum channels is contextual. One of the most significant manifestations of this is the superadditivity of the channel capacity: the capacity of two quantum channels used together can be larger than the sum of the individual capacities. Here, we present a one-parameter family of channels for which as the parameter increases its one-way quantum and private capacities increase while its two-way capacities decrease. We also exhibit a one-parameter family of states with analogous behavior with respect to the one- and two-way distillable entanglement and secret key. Our constructions demonstrate that noise is context dependent in quantum communication.
翻訳日:2023-09-07 05:35:42 公開日:2023-09-05
# ねじれた量子状態のユニタリ同値

Unitary equivalence of twisted quantum states ( http://arxiv.org/abs/2305.06293v4 )

ライセンス: Link先を確認
N. V. Filina and S. S. Baturin(参考訳) 我々は、ツイスト量子状態の時間ダイナミクスを示す。 我々は、よく知られた定常ランダウ状態と、ハミルトニアンが線形エネルギー散逸を考慮していても、進化するツイスト状態の間に明示的な関係を見出す。 このユニタリ接続を利用して非定常ランダウ状態を分析し,その性質を明らかにした。 提案した変換は、古典的エルマコフ方程式と定常ランダウ状態上で計算された行列要素の解に基づいて、進化したツイスト状態に対する異なる演算子平均値の簡易評価を可能にする。 提案された形式論は解析を著しく単純化し、ツイスト量子波パケットの散逸進化のさらなる理論的発展のための便利なツールとなるかもしれない。

We present the time dynamics of twisted quantum states. We find an explicit connection between the well-known stationary Landau state and an evolving twisted state, even when the Hamiltonian accounts for linear energy dissipation. Utilizing this unitary connection, we analyze nonstationary Landau states and unveil some of their properties. The proposed transformation enables simple evaluation of different operator mean values for the evolving twisted state based on the solution to the classical Ermakov equation and matrix elements calculated on the stationary Landau states. The suggested formalism may significantly simplify analysis and become a convenient tool for further theoretical development on the dissipative evolution of the twisted quantum wave packet.
翻訳日:2023-09-07 05:27:00 公開日:2023-09-05
# 奥行き分割型クロスモーダル学習によるマルチプロンプト

Multi-Prompt with Depth Partitioned Cross-Modal Learning ( http://arxiv.org/abs/2305.06221v3 )

ライセンス: Link先を確認
Yingjie Tian, Yiqi Wang, Xianda Guo, Zheng Zhu, Long Chen(参考訳) 近年,様々な下流タスクのための大規模視覚言語事前学習モデルにソフトプロンプト学習法が提案されている。 これらのメソッドは通常、学習可能なテキストトークンと、凍ったパラメータを持つモデルの入力としてクラストークンを組み合わせる。 しかし、それらはしばしばクラスコンテキストを記述するために単一のプロンプトを使い、カテゴリの多様な属性を適切に捉えられなかった。 本研究は,学習可能な1つのプロンプトから複数のプロンプトへのソフトプロンプトを拡張するマルチモーダルプロンプト技術であるパーティショルド・マルチモーダル・プロンプト(PMPO)を紹介する。 本手法は,視覚エンコーダ深度を分割し,学習可能なプロンプトを分離した視覚深度に接続することにより,視覚表現の階層的な文脈深度を捉えることができる。 さらに,マルチプロンプト学習の利点を最大化するために,手作業で設計したテンプレートと学習可能なマルチプロンプトからの事前情報を取り込んで,その一般化能力を向上させる。 我々は,新しいクラス一般化,クロスデータセット評価,ドメイン一般化の3つの課題に対して,アプローチの有効性を評価する。 例えば,本手法は,11種類の画像認識データセット(+7.62ドル)を平均して79.28ドルという高調波平均を達成し,最先端のプロンプト手法と比較して大きな競争力を示した。

In recent years, soft prompt learning methods have been proposed to fine-tune large-scale vision-language pre-trained models for various downstream tasks. These methods typically combine learnable textual tokens with class tokens as input for models with frozen parameters. However, they often employ a single prompt to describe class contexts, failing to capture categories' diverse attributes adequately. This study introduces the Partitioned Multi-modal Prompt (PMPO), a multi-modal prompting technique that extends the soft prompt from a single learnable prompt to multiple prompts. Our method divides the visual encoder depths and connects learnable prompts to the separated visual depths, enabling different prompts to capture the hierarchical contextual depths of visual representations. Furthermore, to maximize the advantages of multi-prompt learning, we incorporate prior information from manually designed templates and learnable multi-prompts, thus improving the generalization capabilities of our approach. We evaluate the effectiveness of our approach on three challenging tasks: new class generalization, cross-dataset evaluation, and domain generalization. For instance, our method achieves a $79.28$ harmonic mean, averaged over 11 diverse image recognition datasets ($+7.62$ compared to CoOp), demonstrating significant competitiveness compared to state-of-the-art prompting methods.
翻訳日:2023-09-07 05:26:49 公開日:2023-09-05
# 欠落値下の相関の可視化 : インプテーション法と直接パラメータ推定法の比較

Correlation visualization under missing values: a comparison between imputation and direct parameter estimation methods ( http://arxiv.org/abs/2305.06044v2 )

ライセンス: Link先を確認
Nhat-Hao Pham, Khanh-Linh Vo, Mai Anh Vu, Thu Nguyen, Michael A. Riegler, P{\aa}l Halvorsen, Binh T. Nguyen(参考訳) 相関行列の可視化はデータセット内の変数間の関係を理解するのに不可欠であるが、データの欠如は相関係数の推定において大きな課題となる。 本稿では,様々な欠落データ手法が相関プロットに与える影響を比較し,無作為と単調の2つの共通欠落パターンに着目した。 我々は,相関プロットの作成と分析において,研究者や実践者に実践的な戦略と勧告を提供することを目指している。 実験結果から, インプテーションは欠落データに一般的に用いられるが, 相関行列のプロットにインプテーションデータを用いると, 特徴間の関係を著しく誤解させる可能性がある。 実験では, 直接パラメータ推定手法であるDPERを用いて相関行列をプロットすることを推奨する。

Correlation matrix visualization is essential for understanding the relationships between variables in a dataset, but missing data can pose a significant challenge in estimating correlation coefficients. In this paper, we compare the effects of various missing data methods on the correlation plot, focusing on two common missing patterns: random and monotone. We aim to provide practical strategies and recommendations for researchers and practitioners in creating and analyzing the correlation plot. Our experimental results suggest that while imputation is commonly used for missing data, using imputed data for plotting the correlation matrix may lead to a significantly misleading inference of the relation between the features. We recommend using DPER, a direct parameter estimation approach, for plotting the correlation matrix based on its performance in the experiments.
翻訳日:2023-09-07 05:26:25 公開日:2023-09-05
# 非負行列分解における2対5の真理

Two to Five Truths in Non-Negative Matrix Factorization ( http://arxiv.org/abs/2305.05389v2 )

ライセンス: Link先を確認
John M. Conroy, Neil P Molino, Brian Baughman, Rod Gomez, Ryan Kaliszewski, and Nicholas A. Lines(参考訳) 本稿では,非負行列分解を用いた話題モデル構築におけるカウント行列における行列スケーリングの役割について検討する。 本稿では,非負行列分解の品質を大幅に向上できるグラフの正規化ラプラシアン(nl)に触発されたスケーリングを提案する。 著者らは, 隣接スペクトル埋め込み (ase) のスペクトルクラスタリングにより, コア・ペリーピー分割が発見され, ラプラシアンスペクトル埋め込み (lse) は親和性分割が発見されやすいことを証明した。 テキスト解析では、非負行列分解(NMF)は、通常、共起の ``contexts'' と ` `terms' の数の行列で使用される。 LSEにインスパイアされた行列スケーリングは、さまざまなデータセットのテキストトピックモデルに大幅な改善をもたらす。 NMFにおける行列スケーリングの劇的な違いは、人間のアノテーションが利用できる3つのデータセットにおけるトピックモデルの品質を大幅に向上させることができる。 調整されたRand index(ARI)を用いることで、Twitterデータに対して50\%、ニュースグループデータセットに対して200\%以上増加し、ASEの類似であるカウントを使用することが分かる。 Document Understanding Conferenceのようなクリーンなデータに対して、NLはASEよりも40%以上改善している。 我々は、この現象のいくつかの解析と、このスケーリングと他の行列スケーリング手法との関係を結論付けている。

In this paper, we explore the role of matrix scaling on a matrix of counts when building a topic model using non-negative matrix factorization. We present a scaling inspired by the normalized Laplacian (NL) for graphs that can greatly improve the quality of a non-negative matrix factorization. The results parallel those in the spectral graph clustering work of \cite{Priebe:2019}, where the authors proved adjacency spectral embedding (ASE) spectral clustering was more likely to discover core-periphery partitions and Laplacian Spectral Embedding (LSE) was more likely to discover affinity partitions. In text analysis non-negative matrix factorization (NMF) is typically used on a matrix of co-occurrence ``contexts'' and ``terms" counts. The matrix scaling inspired by LSE gives significant improvement for text topic models in a variety of datasets. We illustrate the dramatic difference a matrix scalings in NMF can greatly improve the quality of a topic model on three datasets where human annotation is available. Using the adjusted Rand index (ARI), a measure cluster similarity we see an increase of 50\% for Twitter data and over 200\% for a newsgroup dataset versus using counts, which is the analogue of ASE. For clean data, such as those from the Document Understanding Conference, NL gives over 40\% improvement over ASE. We conclude with some analysis of this phenomenon and some connections of this scaling with other matrix scaling methods.
翻訳日:2023-09-07 05:26:12 公開日:2023-09-05
# DELTA: CTR予測のための微調整意識を用いた動的埋め込み学習

DELTA: Dynamic Embedding Learning with Truncated Conscious Attention for CTR Prediction ( http://arxiv.org/abs/2305.04891v3 )

ライセンス: Link先を確認
Chen Zhu, Liang Du, Hong Chen, Shuang Zhao, Zixun Sun, Xin Wang, Wenwu Zhu(参考訳) CTR(Click-Through Rate)予測は製品とコンテンツの推奨において重要なタスクであり、効果的な機能の埋め込みを学ぶことが非常に重要である。 しかし、伝統的な手法は通常、文脈情報に従って特徴表現を動的に精錬することなく固定的な特徴表現を学習し、最適な性能をもたらす。 最近のアプローチでは、ビット単位の重み付けや特徴表現のための拡張埋め込みを学習することでこの問題に対処しようとしているが、文脈において非形式的あるいは冗長な特徴に苦しめられている。 意識処理におけるグローバルワークスペース理論(Global Workspace Theory)に着想を得て、製品の特徴の特定のサブセットのみに関係があり、残りはノイズがあり、人間のクリック行動に有害である、と仮定し、CTRモデルを提案する。 DELTAには2つの重要な要素がある: (I) 意識的トランケーションモジュール (CTM) カリキュラム学習を利用して、注意重みに適応的トランケーションを適用して、コンテキスト内で最も重要な特徴を選択する (II) 明示的埋め込み最適化 (EEO) 学習中に補助的なタスクを適用し、損失層から埋め込み層への勾配を直接かつ独立に伝播し、線形的特徴交差を介して明示的に埋め込みを最適化する。 5つの挑戦的CTRデータセットに対する大規模な実験は、DELTAが現在のCTR手法で新しい最先端性能を達成することを示した。

Click-Through Rate (CTR) prediction is a pivotal task in product and content recommendation, where learning effective feature embeddings is of great significance. However, traditional methods typically learn fixed feature representations without dynamically refining feature representations according to the context information, leading to suboptimal performance. Some recent approaches attempt to address this issue by learning bit-wise weights or augmented embeddings for feature representations, but suffer from uninformative or redundant features in the context. To tackle this problem, inspired by the Global Workspace Theory in conscious processing, which posits that only a specific subset of the product features are pertinent while the rest can be noisy and even detrimental to human-click behaviors, we propose a CTR model that enables Dynamic Embedding Learning with Truncated Conscious Attention for CTR prediction, termed DELTA. DELTA contains two key components: (I) conscious truncation module (CTM), which utilizes curriculum learning to apply adaptive truncation on attention weights to select the most critical feature in the context; (II) explicit embedding optimization (EEO), which applies an auxiliary task during training that directly and independently propagates the gradient from the loss layer to the embedding layer, thereby optimizing the embedding explicitly via linear feature crossing. Extensive experiments on five challenging CTR datasets demonstrate that DELTA achieves new state-of-art performance among current CTR methods.
翻訳日:2023-09-07 05:25:47 公開日:2023-09-05
# 大規模ガウス過程回帰と統計的有限要素解析のための確率場の確率的PDE表現

Stochastic PDE representation of random fields for large-scale Gaussian process regression and statistical finite element analysis ( http://arxiv.org/abs/2305.13879v2 )

ライセンス: Link先を確認
Kim Jie Koh and Fehmi Cirak(参考訳) 幾何学的複素領域上のランダムフィールドの効率的な表現は、エンジニアリングと機械学習におけるベイズモデルにとって重要である。 今日の一般的なランダム場表現は、非有界な領域を意図しているか、あるいはフィールドの性質に関して制限的すぎる。 これらの制約により、確率的PDE(SPDE)とランダム場との歴史的に確立されたリンクを利用する技術が注目されている。 SPDE表現は、物理保存方程式を解くための有限要素の離散化をすでに持っている工学的応用に特に魅力的である。 ランダム場の密度共分散行列とは対照的に、その逆行列である精度行列は通常スパースであり、楕円型SPDEの剛性行列と等しい。 spde表現を用いて,複素幾何学上の大規模統計有限要素解析とガウス過程(gp)回帰のためのスケーラブルなフレームワークを開発した。 girolami et al. (2022) によって導入された統計有限要素法(statfem)は、測定データと有限要素モデルを合成するための新しいアプローチである。 statFEMとGP回帰の両方において、SPDE定式化を用いてスパース精度行列を用いて関連する事前確率密度を求める。 前者の性質はSPDEのパラメータと分数次数によって支配され、任意の滑らかさを持つ有界領域と多様体の異方性非定常確率場をモデル化することができる。 statfemとgp回帰の観測モデルは、後確率密度が閉形式平均と精度を持つガウス型である。 各平均ベクトルおよび精度行列はスパース行列演算のみを用いて評価することができる。 提案するフレームワークの汎用性とその収束特性を,Poisson および Thin-shell の例で示す。

The efficient representation of random fields on geometrically complex domains is crucial for Bayesian modelling in engineering and machine learning. Today's prevalent random field representations are either intended for unbounded domains or are too restrictive in terms of possible field properties. Because of these limitations, techniques leveraging the historically established link between stochastic PDEs (SPDEs) and random fields have been gaining interest. The SPDE representation is especially appealing for engineering applications which already have a finite element discretisation for solving the physical conservation equations. In contrast to the dense covariance matrix of a random field, its inverse, the precision matrix, is usually sparse and equal to the stiffness matrix of an elliptic SPDE. We use the SPDE representation to develop a scalable framework for large-scale statistical finite element analysis and Gaussian process (GP) regression on complex geometries. The statistical finite element method (statFEM) introduced by Girolami et al. (2022) is a novel approach for synthesising measurement data and finite element models. In both statFEM and GP regression, we use the SPDE formulation to obtain the relevant prior probability densities with a sparse precision matrix. The properties of the priors are governed by the parameters and possibly fractional order of the SPDE so that we can model on bounded domains and manifolds anisotropic, non-stationary random fields with arbitrary smoothness. The observation models for statFEM and GP regression are such that the posterior probability densities are Gaussians with a closed-form mean and precision. The respective mean vector and precision matrix and can be evaluated using only sparse matrix operations. We demonstrate the versatility of the proposed framework and its convergence properties with Poisson and thin-shell examples.
翻訳日:2023-09-07 05:16:45 公開日:2023-09-05
# 距離測度空間におけるランダム探索からバンディット学習へ

From Random Search to Bandit Learning in Metric Measure Spaces ( http://arxiv.org/abs/2305.11509v5 )

ライセンス: Link先を確認
Chuying Han, Yasong Feng, Tianyu Wang(参考訳) ランダム検索はハイパーパラメータ最適化の最も広く使われている手法の1つであり、ディープラーニングモデルの成功に不可欠である。 驚くべき性能にもかかわらず、基礎となる作用機構を記述するために非ヒューリスティック理論はほとんど開発されていない。 本稿ではランダム探索に関する理論的考察を行う。 本稿では,基礎となる関数の景観を記述する散乱次元の概念を導入し,ランダム探索の性能を定量化する。 環境がノイズのない場合、ランダム探索の出力はレート $ \widetilde{\mathcal{o}} \left( \left( \frac{1}{t} \right)^{ \frac{1}{d_s} } \right) $ の確率において最適値に収束する。 観測された関数値が有界な$iid$ノイズによって破損した場合、ランダム探索の出力は、$ \widetilde{\mathcal{O}} \left( \left( \frac{1}{T} \right)^{ \frac{1}{d_s + 1} } \right)$で確率の最適値に収束する。 さらに、ランダム探索の原理に基づいて、確率測度も同時に与えられるような距離空間の2倍化におけるリプシッツブライトに対して、BLiN-MOSと呼ばれるアルゴリズムを導入し、ある条件下では、BLiN-MOSは、次数 $ \widetilde{\mathcal{O}} \left(T^{ \frac{d_z}{d_z + 1} } \right)$, $d_z$ が問題インスタンスのズーム次元であることを示す。

Random Search is one of the most widely-used method for Hyperparameter Optimization, and is critical to the success of deep learning models. Despite its astonishing performance, little non-heuristic theory has been developed to describe the underlying working mechanism. This paper gives a theoretical accounting of Random Search. We introduce the concept of scattering dimension that describes the landscape of the underlying function, and quantifies the performance of random search. We show that, when the environment is noise-free, the output of random search converges to the optimal value in probability at rate $ \widetilde{\mathcal{O}} \left( \left( \frac{1}{T} \right)^{ \frac{1}{d_s} } \right) $, where $ d_s \ge 0 $ is the scattering dimension of the underlying function. When the observed function values are corrupted by bounded $iid$ noise, the output of random search converges to the optimal value in probability at rate $ \widetilde{\mathcal{O}} \left( \left( \frac{1}{T} \right)^{ \frac{1}{d_s + 1} } \right) $. In addition, based on the principles of random search, we introduce an algorithm, called BLiN-MOS, for Lipschitz bandits in doubling metric spaces that are also endowed with a probability measure, and show that under certain conditions, BLiN-MOS achieves a regret rate of order $ \widetilde{\mathcal{O}} \left( T^{ \frac{d_z}{d_z + 1} } \right) $, where $d_z$ is the zooming dimension of the problem instance.
翻訳日:2023-09-07 05:15:54 公開日:2023-09-05
# 球面負のパーセプトロンの解の星形の空間

The star-shaped space of solutions of the spherical negative perceptron ( http://arxiv.org/abs/2305.10623v2 )

ライセンス: Link先を確認
Brandon Livio Annesi, Clarissa Lauditi, Carlo Lucibello, Enrico M. Malatesta, Gabriele Perugini, Fabrizio Pittorino and Luca Saglietti(参考訳) ニューラルネットワークのランドスケープに関する実証研究により、低エネルギーの配置は、遠方解のペア間のゼロエネルギー経路を構成できる複雑な連結構造でしばしば見られることが示されている。 ここでは,非凸型ニューラルネットワークモデルである球面負パーセプトロンを連続的制約満足度問題として考察する。 本稿では,平衡からサンプリングされた頂点構成を持つ単純系におけるエネルギー障壁の一般解析法を提案する。 過パラメータ化状態において、解多様体は単純な接続性を示す。 広い範囲の最適化ダイナミクスに魅力的な大きな測地線凸成分が存在する。 この領域内では、他のほとんどの解と測地線で繋がる非定型高マージン解のサブセットが同定され、星形の幾何学が生まれる。 我々は、接続された解空間の組織を解析的に特徴付け、上述した単純な測地接続が断ち切れる大きな制約密度で遷移の数値的な証拠を示す。

Empirical studies on the landscape of neural networks have shown that low-energy configurations are often found in complex connected structures, where zero-energy paths between pairs of distant solutions can be constructed. Here we consider the spherical negative perceptron, a prototypical non-convex neural network model framed as a continuous constraint satisfaction problem. We introduce a general analytical method for computing energy barriers in the simplex with vertex configurations sampled from the equilibrium. We find that in the over-parameterized regime the solution manifold displays simple connectivity properties. There exists a large geodesically convex component that is attractive for a wide range of optimization dynamics. Inside this region we identify a subset of atypical high-margin solutions that are geodesically connected with most other solutions, giving rise to a star-shaped geometry. We analytically characterize the organization of the connected space of solutions and show numerical evidence of a transition, at larger constraint densities, where the aforementioned simple geodesic connectivity breaks down.
翻訳日:2023-09-07 05:15:10 公開日:2023-09-05
# 視覚質問応答における言語モーダルに関する経験的研究

An Empirical Study on the Language Modal in Visual Question Answering ( http://arxiv.org/abs/2305.10143v2 )

ライセンス: Link先を確認
Daowan Peng, Wei Wei, Xian-Ling Mao, Yuanyuan Fu, Dangyang Chen(参考訳) ドメイン内エクスペリエンスを越えた分散データへの一般化は、aiドメインにおいて最も重要な意味を持つ。 vqa(state-of-the-art visual question answering)モデルは、言語がバイアスを優先していることもあって、ドメイン内データで印象的なパフォーマンスを示しているが、実際には一般化能力を妨げる。 本稿では,言語モダリティがVQAパフォーマンスに与える影響について,実証的研究の観点から新たな知見を提供する。 これを実現するために、6つのモデルで一連の実験を行った。 これらの実験の結果、 1) 質問タイプによる先行バイアスとは別に、修正後のバイアスがバイアスの誘発に顕著な影響がある。 2) 単語系列に関連した変種質問によるvqaモデルの訓練は, 分散ベンチマークの性能向上を実証し, lxmertはデバイアス手法を用いずに10点のゲインを達成した。 これらの実験結果の背後にある根本的な理由を掘り下げて、モデルの言語前の依存性を減らすための簡単な提案を行った。 実験の結果,提案手法が分散ベンチマークであるvqa-cpv2の性能向上に有効であることが示された。 この研究がバイアス還元アプローチの設計に関する今後の研究に新たな洞察をもたらすことを期待している。

Generalization beyond in-domain experience to out-of-distribution data is of paramount significance in the AI domain. Of late, state-of-the-art Visual Question Answering (VQA) models have shown impressive performance on in-domain data, partially due to the language priors bias which, however, hinders the generalization ability in practice. This paper attempts to provide new insights into the influence of language modality on VQA performance from an empirical study perspective. To achieve this, we conducted a series of experiments on six models. The results of these experiments revealed that, 1) apart from prior bias caused by question types, there is a notable influence of postfix-related bias in inducing biases, and 2) training VQA models with word-sequence-related variant questions demonstrated improved performance on the out-of-distribution benchmark, and the LXMERT even achieved a 10-point gain without adopting any debiasing methods. We delved into the underlying reasons behind these experimental results and put forward some simple proposals to reduce the models' dependency on language priors. The experimental results demonstrated the effectiveness of our proposed method in improving performance on the out-of-distribution benchmark, VQA-CPv2. We hope this study can inspire novel insights for future research on designing bias-reduction approaches.
翻訳日:2023-09-07 05:14:53 公開日:2023-09-05
# MINT:スパイクニューラルネットワークのためのマルチプライヤレス整数量子化

MINT: Multiplier-less Integer Quantization for Spiking Neural Networks ( http://arxiv.org/abs/2305.09850v3 )

ライセンス: Link先を確認
Ruokai Yin, Yuhang Li, Abhishek Moitra, Priyadarshini Panda(参考訳) スパイキングニューラルネットワーク(SNN)における重みと膜電位の均一化手法であるMINT(Multiplier-less INTeger)量子化法を提案する。 従来のSNN量子化法とは異なり、MINTはメモリ・ハングリー膜電位を極端に低い精度(2ビット)に量子化し、メモリ全体のフットプリントを大幅に減少させる。 さらに、MINT量子化は重みと膜電位の間の量子化スケーリング係数を共有し、バニラ均一量子化に必要な乗算器を不要にする。 実験により,提案手法は,全精度モデルと他の最先端SNN量子化手法とを一致させながら,総メモリフットプリントとハードウェアコストで性能を向上することを示す。 例えば、2ビットのMINT VGG-16はCIFAR-10で90.6%の精度を実現し、全体のメモリフットプリントを全精度モデルから約93.8%削減した。

We propose Multiplier-less INTeger (MINT) quantization, an efficient uniform quantization scheme for the weights and membrane potentials in spiking neural networks (SNNs). Unlike prior SNN quantization works, MINT quantizes the memory-hungry membrane potentials to extremely low precision (2-bit) to significantly reduce the total memory footprint. Additionally, MINT quantization shares the quantization scaling factor between the weights and membrane potentials, eliminating the need for multipliers that are necessary for vanilla uniform quantization. Experimental results demonstrate that our proposed method achieves accuracy that matches the full-precision models and other state-of-the-art SNN quantization works while outperforming them on total memory footprint and hardware cost at deployment. For instance, 2-bit MINT VGG-16 achieves 90.6% accuracy on CIFAR-10 with approximately 93.8% reduction in total memory footprint from the full-precision model; meanwhile, it reduces 90% computation energy compared to the vanilla uniform quantization at deployment.
翻訳日:2023-09-07 05:14:33 公開日:2023-09-05
# 相対性理論と理論変数に基づく量子論のバージョンとの接続の可能性

Possible connections between relativity theory and a version of quantum theory based upon theoretical variables ( http://arxiv.org/abs/2305.15435v3 )

ライセンス: Link先を確認
Inge S. Helland(参考訳) 量子論への別のアプローチについて述べ、彼のアプローチを特殊相対性理論と一般相対性理論に結びつける仮の試みについて論じる。 重要な概念はゲージ群といくつかの物理系に接続された情報/エントロピーである。 ブラックホールに関連する情報に関する最近のいくつかの結果は触れられ、どのように情報が保存されるかが示されている。 この議論はブラックホールの外で何が起こるかにのみ依存する。 ブラックホールの内部に繋がる全ての物はアクセスできない。

An alternative approach towards quantum theory is described, and tentative attempts to connect his approach to special and general relativity are discussed. Important concepts are gauge groups and information/entropy connected to some physical systems. Some recent results on information in connection to black holes are touched upon, and it is indicated how expected information can be argued to be conserved. This argument only depends on what happens outside the black hole. Everything connected to the interior of the black hole is inaccessible.
翻訳日:2023-09-07 05:05:21 公開日:2023-09-05
# binaryvit:効率良く正確なバイナリビジョントランスフォーマーを目指して

BinaryViT: Towards Efficient and Accurate Binary Vision Transformers ( http://arxiv.org/abs/2305.14730v3 )

ライセンス: Link先を確認
Junrui Xiao, Zhikai Li, Lianwei Yang, Qingyi Gu(参考訳) ビジョントランスフォーマー(ViT)は、ほとんどのコンピュータビジョンフィールドの基本的なアーキテクチャとして登場したが、メモリと計算のコストが資源制限されたデバイスへの応用を妨げる。 最も強力な圧縮手法の1つとして、重みとアクティベーション値を$\pm$1に量子化することにより、ニューラルネットワークの計算を減少させる。 既存のバイナライゼーション手法は畳み込みニューラルネットワーク(CNN)では優れた性能を示したが、ViTの完全なバイナライゼーションはまだ未研究であり、大幅な性能低下を被っている。 本報告では,重度性能低下は主に双対化訓練における重み振動とvits活性化における情報歪みによるものであることを実証的に論じる。 これらの分析に基づいて、VTTの量子化を極限まで押し上げる精度の高い完全双項化スキームである$\textbf{BinaryViT}$を提案する。 具体的には、重みのバイモーダル分布を駆動し、バイナライズ訓練における振動を低減するための新しい勾配正規化スキーム(GRS)を提案する。 さらに,2値化による情報歪みを低減するために,アクティベーション分布を適応的に調整するアクティベーションシフトモジュール(asm)を設計する。 ImageNetデータセットの大規模な実験によると、BinaryViTは強いベースラインを2.05%上回り、完全に二項化されたViTの精度を使用可能なレベルに向上しています。 さらに,本手法はモデルサイズとOPの16.2$\times$と17.7$\times$を,完全精度のDeiT-Sと比較した。

Vision Transformers (ViTs) have emerged as the fundamental architecture for most computer vision fields, but the considerable memory and computation costs hinders their application on resource-limited devices. As one of the most powerful compression methods, binarization reduces the computation of the neural network by quantizing the weights and activation values as $\pm$1. Although existing binarization methods have demonstrated excellent performance on Convolutional Neural Networks (CNNs), the full binarization of ViTs is still under-studied and suffering a significant performance drop. In this paper, we first argue empirically that the severe performance degradation is mainly caused by the weight oscillation in the binarization training and the information distortion in the activation of ViTs. Based on these analyses, we propose $\textbf{BinaryViT}$, an accurate full binarization scheme for ViTs, which pushes the quantization of ViTs to the limit. Specifically, we propose a novel gradient regularization scheme (GRS) for driving a bimodal distribution of the weights to reduce oscillation in binarization training. Moreover, we design an activation shift module (ASM) to adaptively tune the activation distribution to reduce the information distortion caused by binarization. Extensive experiments on ImageNet dataset show that our BinaryViT consistently surpasses the strong baseline by 2.05% and improve the accuracy of fully binarized ViTs to a usable level. Furthermore, our method achieves impressive savings of 16.2$\times$ and 17.7$\times$ in model size and OPs compared to the full-precision DeiT-S.
翻訳日:2023-09-07 05:05:14 公開日:2023-09-05
# 全スライド画像分類のためのトランスフォーマを用いたマルチレベルマルチインスタンス学習

Multi-level Multiple Instance Learning with Transformer for Whole Slide Image Classification ( http://arxiv.org/abs/2306.05029v2 )

ライセンス: Link先を確認
Ruijie Zhang, Qiaozhe Zhang, Yingzhuang Liu, Hao Xin, Yan Liu, Xinggang Wang(参考訳) whole slide image (wsi) は、コンピュータ支援診断 (cad) に広く用いられている高分解能スキャンされた組織画像の一種である。 極端に高解像度かつ限定的な領域レベルのアノテーションは、WSIベースのデジタル診断にディープラーニング手法を採用することを困難にしている。 最近、wsi分析にmil(multiple instance learning)とtransformerを統合することで、非常に有望な結果が得られた。 しかし、この弱教師付き高分解能画像解析のための効果的なトランスフォーマーの設計は、未検討だが重要な問題である。 本稿では,MILに階層構造を導入し,多数のインスタンスを含むMILタスクを効率的に処理できるMMIL(Multi-level MIL)方式を提案する。 MMILに基づくMMIL-Transformerは,大規模MILタスクに対して,ウィンドウ化された正確な自己アテンションを持つ効率的なトランスフォーマーモデルである。 そこで, MMIL-Transformer は, CAMELYON16 データセットにおける 96.80% テスト AUC と 97.67% のテスト精度, 99.04% テスト AUC と 94.37% テスト精度を, TCGA-NSCLC データセット上でそれぞれ比較した。 すべてのコードおよび事前訓練済みモデルは、https://github.com/hustvl/MMIL-Transformerで利用可能である。

Whole slide image (WSI) refers to a type of high-resolution scanned tissue image, which is extensively employed in computer-assisted diagnosis (CAD). The extremely high resolution and limited availability of region-level annotations make employing deep learning methods for WSI-based digital diagnosis challenging. Recently integrating multiple instance learning (MIL) and Transformer for WSI analysis shows very promising results. However, designing effective Transformers for this weakly-supervised high-resolution image analysis is an underexplored yet important problem. In this paper, we propose a Multi-level MIL (MMIL) scheme by introducing a hierarchical structure to MIL, which enables efficient handling of MIL tasks involving a large number of instances. Based on MMIL, we instantiated MMIL-Transformer, an efficient Transformer model with windowed exact self-attention for large-scale MIL tasks. To validate its effectiveness, we conducted a set of experiments on WSI classification tasks, where MMIL-Transformer demonstrate superior performance compared to existing state-of-the-art methods, i.e., 96.80% test AUC and 97.67% test accuracy on the CAMELYON16 dataset, 99.04% test AUC and 94.37% test accuracy on the TCGA-NSCLC dataset, respectively. All code and pre-trained models are available at: https://github.com/hustvl/MMIL-Transformer
翻訳日:2023-09-07 04:56:42 公開日:2023-09-05
# 連続時間ガウス過程回帰による時間分解能を有するイベントベースステレオビジュアルオドメトリー

Event-based Stereo Visual Odometry with Native Temporal Resolution via Continuous-time Gaussian Process Regression ( http://arxiv.org/abs/2306.01188v3 )

ライセンス: Link先を確認
Jianeng Wang, Jonathan D. Gammell(参考訳) イベントベースのカメラは、シーン内の個々の視覚変化を非同期に捉えます。 これにより、従来のフレームベースのカメラよりも、非常にダイナミックな動きと照明が弱い。 それはまた、シーン内のすべての測定が、ユニークなタイミングで起こりうることを意味する。 これらの異なる測定時間を扱うことは、イベントベースのカメラを使用する上で大きな課題である。 視覚計測(VO)パイプラインでは、時間的に近い測定を1つの共通の時間で行うように近似することで、しばしば対処される。 このグルーピングは推定問題を単純化するが、追加センサーがないため、イベントベースカメラの時間分解能を犠牲にする。 そこで本稿では,グループ化や近似を必要とせず,個々の事象計測時間を直接推定する完全ステレオVOパイプラインを提案する。 連続時間軌道推定を用いて、物理的動機付け前のガウス過程の回帰を通じて、イベントベースのカメラの時間的忠実度と非同期性を維持する。 その性能はMVSECデータセットで評価され、2つの独立したシーケンスで7.9e-3と5.9e-3の相対誤差を達成し、既存の公開イベントベースのステレオVOパイプラインをそれぞれ2回と4回上回る。

Event-based cameras asynchronously capture individual visual changes in a scene. This makes them more robust than traditional frame-based cameras to highly dynamic motions and poor illumination. It also means that every measurement in a scene can occur at a unique time. Handling these different measurement times is a major challenge of using event-based cameras. It is often addressed in visual odometry (VO) pipelines by approximating temporally close measurements as occurring at one common time. This grouping simplifies the estimation problem but, absent additional sensors, sacrifices the inherent temporal resolution of event-based cameras. This paper instead presents a complete stereo VO pipeline that estimates directly with individual event-measurement times without requiring any grouping or approximation in the estimation state. It uses continuous-time trajectory estimation to maintain the temporal fidelity and asynchronous nature of event-based cameras through Gaussian process regression with a physically motivated prior. Its performance is evaluated on the MVSEC dataset, where it achieves 7.9e-3 and 5.9e-3 RMS relative error on two independent sequences, outperforming the existing publicly available event-based stereo VO pipeline by two and four times, respectively.
翻訳日:2023-09-07 04:55:25 公開日:2023-09-05
# AMR4NLI:意味グラフからの解釈可能かつ堅牢なNLI測度

AMR4NLI: Interpretable and robust NLI measures from semantic graphs ( http://arxiv.org/abs/2306.00936v2 )

ライセンス: Link先を確認
Juri Opitz and Shira Wein and Julius Steen and Anette Frank and Nathan Schneider(参考訳) 自然言語推論(NLI)のタスクは、与えられた前提(NLで表される)が与えられたNL仮説を含むかどうかを問うものである。 NLIベンチマークには人間による評価が含まれているが、これらの評価を駆動する関係は形式化されていない。 文対関係は、解釈可能で頑健な方法でより明確化できるのか? 文脈的埋め込みや意味グラフ(抽象的意味表現)の集合を含む前提と仮説のセマンティック構造を比較し,その仮説が前提のセマンティックサブ構造であるかどうかを解釈可能な指標を用いて測定する。 3つの英語ベンチマークの評価では,コンテキスト化された埋め込みと意味グラフの両方に価値を見出すことができた。

The task of natural language inference (NLI) asks whether a given premise (expressed in NL) entails a given NL hypothesis. NLI benchmarks contain human ratings of entailment, but the meaning relationships driving these ratings are not formalized. Can the underlying sentence pair relationships be made more explicit in an interpretable yet robust fashion? We compare semantic structures to represent premise and hypothesis, including sets of contextualized embeddings and semantic graphs (Abstract Meaning Representations), and measure whether the hypothesis is a semantic substructure of the premise, utilizing interpretable metrics. Our evaluation on three English benchmarks finds value in both contextualized embeddings and semantic graphs; moreover, they provide complementary signals, and can be leveraged together in a hybrid model.
翻訳日:2023-09-07 04:54:56 公開日:2023-09-05
# 説明可能な顔認識のための識別的深部特徴可視化

Discriminative Deep Feature Visualization for Explainable Face Recognition ( http://arxiv.org/abs/2306.00402v2 )

ライセンス: Link先を確認
Zewei Xu, Yuhang Lu, and Touradj Ebrahimi(参考訳) 顔認識(fr)タスクにおける深い畳み込みニューラルネットワークの成功にもかかわらず、現在の手法では、その「ブラックボックス」の性質から、その予測について説明できない。 近年、深いFR系の決定を解釈するために研究が進められている。 しかし, 入力顔画像と抽出した深部像との親和性については検討されていない。 本稿では,まず,深部特徴と顔領域の対応性を明らかにする顔再構成に基づく説明モジュールを考案し,説明可能な顔認識の問題に寄与する。 frモデルの決定を更に解釈するために,新しい視覚塩分説明アルゴリズムが提案されている。 入力面間の類似した異質な領域を表現する視覚的なサリエンシーマップを作成することで、洞察に富んだ説明を提供する。 提案手法の有効性を示すために, 生成した視覚説明に対して詳細な解析を行った。

Despite the huge success of deep convolutional neural networks in face recognition (FR) tasks, current methods lack explainability for their predictions because of their "black-box" nature. In recent years, studies have been carried out to give an interpretation of the decision of a deep FR system. However, the affinity between the input facial image and the extracted deep features has not been explored. This paper contributes to the problem of explainable face recognition by first conceiving a face reconstruction-based explanation module, which reveals the correspondence between the deep feature and the facial regions. To further interpret the decision of an FR model, a novel visual saliency explanation algorithm has been proposed. It provides insightful explanation by producing visual saliency maps that represent similar and dissimilar regions between input faces. A detailed analysis has been presented for the generated visual explanation to show the effectiveness of the proposed method.
翻訳日:2023-09-07 04:54:42 公開日:2023-09-05
# AnoOnly: 通常のデータにロスのない半教師付き異常検出

AnoOnly: Semi-Supervised Anomaly Detection without Loss on Normal Data ( http://arxiv.org/abs/2305.18798v2 )

ライセンス: Link先を確認
Yixuan Zhou, Peiyu Yang, Yi Qu, Xing Xu, Zhe Sun, Andrzej Cichocki(参考訳) semi-supervised anomaly detection (ssad) 法は、少数ながら指導的な異常インスタンスを活用することで、unsupervised anomaly detection (uad) を強化する効果を実証した。 しかしながら、異常に対する均質な正規データの優位は、ssadモデルを効果的に知覚する異常に対してバイアスする。 この問題に対処し,不均衡な正規データと異常データとのバランスの取れた監督を実現するために,anoonly (anomaly only) と呼ばれる新しいフレームワークを開発した。 厳格な損失監視を行う既存のssadメソッドとは異なり、ano onlyはそれを中断し、通常のデータに対する弱い監視方式を導入する。 この弱い監視はバッチ正規化を利用してインスタンス化され、通常のデータ上でクラスタ学習を暗黙的に実行する。 既存のssadメソッドに組み込むと、提案されたanoのみは様々なモデルとデータセットにまたがる顕著なパフォーマンス向上を示し、新しい最先端のパフォーマンスを達成する。 さらに、私たちのanoonlyは、データ汚染に苦しんでいるときにノイズをラベル付けするためにネイティブに堅牢です。 私たちのコードはhttps://github.com/cool-xuan/anoonlyで公開されています。

Semi-supervised anomaly detection (SSAD) methods have demonstrated their effectiveness in enhancing unsupervised anomaly detection (UAD) by leveraging few-shot but instructive abnormal instances. However, the dominance of homogeneous normal data over anomalies biases the SSAD models against effectively perceiving anomalies. To address this issue and achieve balanced supervision between heavily imbalanced normal and abnormal data, we develop a novel framework called AnoOnly (Anomaly Only). Unlike existing SSAD methods that resort to strict loss supervision, AnoOnly suspends it and introduces a form of weak supervision for normal data. This weak supervision is instantiated through the utilization of batch normalization, which implicitly performs cluster learning on normal data. When integrated into existing SSAD methods, the proposed AnoOnly demonstrates remarkable performance enhancements across various models and datasets, achieving new state-of-the-art performance. Additionally, our AnoOnly is natively robust to label noise when suffering from data contamination. Our code is publicly available at https://github.com/cool-xuan/AnoOnly.
翻訳日:2023-09-07 04:54:13 公開日:2023-09-05
# パウリ-マルコフ鎖による多体魔法-臨界からゲージ理論まで

Many-body magic via Pauli-Markov chains -- from criticality to gauge theories ( http://arxiv.org/abs/2305.18541v3 )

ライセンス: Link先を確認
Poetri Sonya Tarabunga, Emanuele Tirrito, Titas Chanda, Marcello Dalmonte(参考訳) マルコフ連鎖によるパウリ弦の統計的探索に基づいて,量子系における多体マジックを測定する手法を提案する。 このようなポーリ・マルコフ鎖のサンプリングは、サンプリングするパーティションの観点で多くの柔軟性をもたらすことを実証する: 特に、マジックの非局所性を特徴付ける広く分離されたサブシステム間の相関に含まれるマジックを効率的に抽出することができる。 我々の方法は様々な状況で実装できる。 本稿では,木テンソルネットワークを用いた効率的なサンプリング手順について述べる。その階層構造を利用して,システム規模でo(\log n)$計算スケーリングを行う。 本手法の適用性と効率性を示すため,多体システムにおける魔法の重要性を,以下の発見を通じて示す。 a) 1次元システムの場合、長距離魔法は共形量子臨界性の強いシグネチャ(Ising, Potts, Gaussian)を示し、完全な状態魔法の限界を克服することを示す。 b) 2次元の$\mathbb{Z}_2$格子ゲージ理論において、魔術が閉じ込め分解遷移を識別できるという決定的な証拠を提供し、比較的穏やかな体積でも重要なスケーリング挙動を示す。 最後に,パウリ観測値の測定のみに依存する手法の実験的実装について論じる。

We introduce a method to measure many-body magic in quantum systems based on a statistical exploration of Pauli strings via Markov chains. We demonstrate that sampling such Pauli-Markov chains gives ample flexibility in terms of partitions where to sample from: in particular, it enables to efficiently extract the magic contained in the correlations between widely-separated subsystems, which characterizes the nonlocality of magic. Our method can be implemented in a variety of situations. We describe an efficient sampling procedure using Tree Tensor Networks, that exploits their hierarchical structure leading to a modest $O(\log N)$ computational scaling with system size. To showcase the applicability and efficiency of our method, we demonstrate the importance of magic in many-body systems via the following discoveries: (a) for one dimensional systems, we show that long-range magic displays strong signatures of conformal quantum criticality (Ising, Potts, and Gaussian), overcoming the limitations of full state magic; (b) in two-dimensional $\mathbb{Z}_2$ lattice gauge theories, we provide conclusive evidence that magic is able to identify the confinement-deconfinement transition, and displays critical scaling behavior even at relatively modest volumes. Finally, we discuss an experimental implementation of the method, which only relies on measurements of Pauli observables.
翻訳日:2023-09-07 04:53:56 公開日:2023-09-05
# CVPR2023視覚異常とノベルティ検出のための第2位入賞ソリューション:データ中心異常検出のためのマルチモーダルプロンプト

2nd Place Winning Solution for the CVPR2023 Visual Anomaly and Novelty Detection Challenge: Multimodal Prompting for Data-centric Anomaly Detection ( http://arxiv.org/abs/2306.09067v2 )

ライセンス: Link先を確認
Yunkang Cao, Xiaohao Xu, Chen Sun, Yuqi Cheng, Liang Gao, Weiming Shen(参考訳) この技術レポートでは、CVPR2023 Visual Anomaly and Novelty Detection (VAND)チャレンジに対するSegment Any Anomalyチームの勝利ソリューションを紹介します。 ユニモーダルなプロンプト、例えば言語プロンプトを超えて、カスケードされた現代基礎モデルの正規化のためのマルチモーダルなプロンプトを持つゼロショット異常セグメンテーションのための新しいフレームワーク、すなわちセグメンツ・アノマリー + (SAA$+$) を提示する。 Segment Anythingのような基礎モデルのゼロショット一般化能力に触発されて、我々はまずそれらのアセンブリ(SAA)を探索し、異常な局所化のために多様なマルチモーダル事前知識を活用する。 その後、ドメインエキスパートの知識とターゲット画像コンテキストから派生したマルチモーダルプロンプト(SAA$+$)を導入し、基礎モデルの異常セグメンテーションへの非パラメータ適応を可能にする。 提案したSAA$+$モデルは、ゼロショット設定において、VisAやMVTec-ADを含むいくつかの異常セグメンテーションベンチマークの最先端性能を達成する。 我々は、cvpr2023バンの勝利ソリューションのコードをリリースする。

This technical report introduces the winning solution of the team Segment Any Anomaly for the CVPR2023 Visual Anomaly and Novelty Detection (VAND) challenge. Going beyond uni-modal prompt, e.g., language prompt, we present a novel framework, i.e., Segment Any Anomaly + (SAA$+$), for zero-shot anomaly segmentation with multi-modal prompts for the regularization of cascaded modern foundation models. Inspired by the great zero-shot generalization ability of foundation models like Segment Anything, we first explore their assembly (SAA) to leverage diverse multi-modal prior knowledge for anomaly localization. Subsequently, we further introduce multimodal prompts (SAA$+$) derived from domain expert knowledge and target image context to enable the non-parameter adaptation of foundation models to anomaly segmentation. The proposed SAA$+$ model achieves state-of-the-art performance on several anomaly segmentation benchmarks, including VisA and MVTec-AD, in the zero-shot setting. We will release the code of our winning solution for the CVPR2023 VAN.
翻訳日:2023-09-07 04:47:32 公開日:2023-09-05
# 予測:連続画像を用いた予測誘導3次元物体検出

Predict to Detect: Prediction-guided 3D Object Detection using Sequential Images ( http://arxiv.org/abs/2306.08528v3 )

ライセンス: Link先を確認
Sanmin Kim, Youngseok Kim, In-Jae Lee, Dongsuk Kum(参考訳) 最近のカメラベースの3Dオブジェクト検出手法では、複数のフレームが大きな深さ推定誤差を軽減することを期待して、シーケンシャルフレームを導入している。 検出性能の改善にもかかわらず、先行の作業は単純融合法(例えば結合)や静的なシーン(例えば時間ステレオ)に限られており、物体の動きキューの重要性を無視している。 これらのアプローチはシーケンシャルなイメージの可能性を完全に活用せず、限られた性能改善を示す。 この制限に対処するために,予測スキームを検出フレームワークに統合し,運動特徴を明示的に抽出し活用する新しい3Dオブジェクト検出モデルP2D(Predict to Detect)を提案する。 P2Dは、過去のフレームのみを用いて現在のフレーム内のオブジェクト情報を予測し、時間運動の特徴を学習する。 次に,予測対象情報に基づいてバードアイビュー(BEV)特徴を注意深く活用し,正確な3次元物体検出を実現する新しい時間的特徴集約手法を提案する。 実験結果から,P2Dは連続画像ベースラインに比べてmAPとNDSを3.0%,3.7%改善し,予測スキームを組み込むことで検出精度が大幅に向上することが示された。

Recent camera-based 3D object detection methods have introduced sequential frames to improve the detection performance hoping that multiple frames would mitigate the large depth estimation error. Despite improved detection performance, prior works rely on naive fusion methods (e.g., concatenation) or are limited to static scenes (e.g., temporal stereo), neglecting the importance of the motion cue of objects. These approaches do not fully exploit the potential of sequential images and show limited performance improvements. To address this limitation, we propose a novel 3D object detection model, P2D (Predict to Detect), that integrates a prediction scheme into a detection framework to explicitly extract and leverage motion features. P2D predicts object information in the current frame using solely past frames to learn temporal motion features. We then introduce a novel temporal feature aggregation method that attentively exploits Bird's-Eye-View (BEV) features based on predicted object information, resulting in accurate 3D object detection. Experimental results demonstrate that P2D improves mAP and NDS by 3.0% and 3.7% compared to the sequential image-based baseline, illustrating that incorporating a prediction scheme can significantly improve detection accuracy.
翻訳日:2023-09-07 04:47:05 公開日:2023-09-05
# 社会的に認識された時間的因果デコーダ推薦システムに関する研究

STUDY: Socially Aware Temporally Causal Decoder Recommender Systems ( http://arxiv.org/abs/2306.07946v3 )

ライセンス: Link先を確認
Eltayeb Ahmed, Diana Mincu, Lauren Harrell, Katherine Heller, Subhrajit Roy(参考訳) レコメンダシステムは、人々が自分の興味に合ったアイテムを見つけるのに広く使われている。 これらの関心はしばしばソーシャルネットワークに影響され、リコメンデーションシステムにおいてソーシャルネットワーク情報を効果的に利用することが重要である。 これは、多数派とは異なる関心を持つ人口集団に特に当てはまる。 本稿では,社会的に意識した時間的カウスアルデコーダsYstemを紹介する。 研究は、既存の手法よりも学習とトレーニングがはるかに効率的である、社会的に認識された新しいレコメンデーションシステムアーキテクチャを紹介する。 変圧器デコーダネットワークの1つの前方通過における社会的連結群に対する共同推論を行う。 本論文は,読字障害や読者の苦悩に苦しむ学生向けの本推薦において,学習の利点を実証する。 ディスレクシックな学生は、しばしば読書に関わることが難しく、自分の興味に合わせた本を推薦することが重要である。 私たちは非営利団体のLearning Allyと協力して、苦労している読者のデータセットに関する評価を行いました。 従来の方法と比較して、学生のエンゲージメントをより正確に予測するレコメンデーションを生成することができた。

Recommender systems are widely used to help people find items that are tailored to their interests. These interests are often influenced by social networks, making it important to use social network information effectively in recommender systems. This is especially true for demographic groups with interests that differ from the majority. This paper introduces STUDY, a Socially-aware Temporally caUsal Decoder recommender sYstem. STUDY introduces a new socially-aware recommender system architecture that is significantly more efficient to learn and train than existing methods. STUDY performs joint inference over socially connected groups in a single forward pass of a modified transformer decoder network. We demonstrate the benefits of STUDY in the recommendation of books for students who are dyslexic, or struggling readers. Dyslexic students often have difficulty engaging with reading material, making it critical to recommend books that are tailored to their interests. We worked with our non-profit partner Learning Ally to evaluate STUDY on a dataset of struggling readers. STUDY was able to generate recommendations that more accurately predicted student engagement, when compared with existing methods.
翻訳日:2023-09-07 04:46:41 公開日:2023-09-05
# 天体物理学による量子コヒーレント光信号

Astrophysically sourced quantum coherent photonic signals ( http://arxiv.org/abs/2306.06676v2 )

ライセンス: Link先を確認
Arjun Berera, Jaime Calder\'on-Figueroa, Liang Chen, and Thomas W. Kephart(参考訳) 恒星の放出は強いことが示されている。 ボース強化により、レーザーに似た一色光子の量子状態を生成する。 そのような状態を作る確率は計算される。 太陽コロナから、このような量子状態は、太陽圏外や太陽系内を脱コヒーレンスなしで伝播することを示した。 太陽から地球までの距離にある1ドルの {\rm m}^2$検出器では、数秒間にそのような量子状態の速度を推定するので、潜在的に検出可能である。 同じ過程は、恒星間距離の恒星からもそのような量子状態をもたらすはずである。

Stimulated emission is shown to be robust in stars. Through Bose enhancement this produces quantum states of aligned, monochromatic photons similar to a laser. The probability of creating such states is computed. We show that from the solar corona such quantum states would propagate outside of the solar region and through the Solar System without decoherence. For a $1 {\rm m}^2$ detector at the distance of the Earth from the Sun we estimate rates of such quantum states in the few per second thus potentially detectable. The same process should lead to such quantum states also arriving from stars at interstellar distances.
翻訳日:2023-09-07 04:45:08 公開日:2023-09-05
# 自動歌唱音声理解タスクのための事前学習型セルフスーパービジョンフロントエンドの活用に向けて:3事例

Toward Leveraging Pre-Trained Self-Supervised Frontends for Automatic Singing Voice Understanding Tasks: Three Case Studies ( http://arxiv.org/abs/2306.12714v2 )

ライセンス: Link先を確認
Yuya Yamamoto(参考訳) 歌手識別、歌唱音声書き起こし、歌唱技法分類などの自動歌唱音声理解タスクは、深層学習技術を利用したデータ駆動アプローチの恩恵を受ける。 これらのアプローチは、その表現能力のために声楽と雑音の豊富なサンプルの下でもうまく機能する。 しかし、ラベル付きデータの可用性の制限は、十分なパフォーマンスを達成するための重要な障害である。 近年,音声処理や音楽分類の分野で,ラベルのない大量のデータを用いて自己教師付き学習モデル(SSLモデル)を訓練している。 これらのモデルを対象タスク向けに微調整することで、限られたトレーニングデータで従来の教師付き学習と同等のパフォーマンスが得られる。 そこで本研究では,さまざまな歌声音声認識タスクにおけるSSLモデルの有効性について検討する。 本研究は,3つのタスク(歌手識別,歌唱音声書き起こし,歌唱技法分類)におけるSSLモデルの比較実験を初期探索として報告し,これらの知見を議論することを目的とした。 実験の結果、各SSLモデルは、各タスクの最先端メソッドと比較して、同等のパフォーマンスを達成し、時にはパフォーマンスを向上することが示された。 また,sslモデルの挙動をさらに理解するために,層別分析を行った。

Automatic singing voice understanding tasks, such as singer identification, singing voice transcription, and singing technique classification, benefit from data-driven approaches that utilize deep learning techniques. These approaches work well even under the rich diversity of vocal and noisy samples owing to their representation ability. However, the limited availability of labeled data remains a significant obstacle to achieving satisfactory performance. In recent years, self-supervised learning models (SSL models) have been trained using large amounts of unlabeled data in the field of speech processing and music classification. By fine-tuning these models for the target tasks, comparable performance to conventional supervised learning can be achieved with limited training data. Therefore, in this paper, we investigate the effectiveness of SSL models for various singing voice recognition tasks. We report the results of experiments comparing SSL models for three different tasks (i.e., singer identification, singing voice transcription, and singing technique classification) as initial exploration and aim to discuss these findings. Experimental results show that each SSL model achieves comparable performance and sometimes outperforms compared to state-of-the-art methods on each task. We also conducted a layer-wise analysis to further understand the behavior of the SSL models.
翻訳日:2023-09-07 04:36:45 公開日:2023-09-05
# 量子コンピュータにおける分類と回帰のための量子支援ベクトルマシン

Quantum support vector machines for classification and regression on a trapped-ion quantum computer ( http://arxiv.org/abs/2307.02091v2 )

ライセンス: Link先を確認
Teppei Suzuki, Takashi Hasebe, Tsubasa Miyazaki(参考訳) 量子機械学習は、量子コンピューティングと機械学習の交差点で急速に成長する分野である。 本研究では、量子サポートベクトル分類(QSVC)と量子サポートベクトル回帰(QSVR)に基づく量子機械学習モデルについて検討する。 我々はこれらのモデルについて、ノイズの有無に関わらず量子回路シミュレータとionq harmony量子プロセッサを用いて検討する。 QSVCタスクには不正なクレジットカード取引と画像データセット(MNISTとFashion-MNISTデータセット)を含むデータセットを使用し、QSVRタスクには財務データセットと資料データセットを使用します。 分類タスクでは, 捕捉イオン量子コンピュータの4量子ビットを用いたQSVCモデルの性能は, ノイズレス量子回路シミュレーションで得られたものと同等であった。 その結果,量子ゲート誤り率の異なるデバイスノイズシミュレーションの解析結果と一致した。 回帰タスクでは、ノイズ量子カーネルに低ランク近似を適用し、"epsilon}-svr"のハイパーパラメータチューニングを組み合わせることで、短期量子デバイスにおけるqsvrモデルの性能が向上した。 この結果から,量子カーネルはQSVCとQSVRの両方のタスクに効果的に利用でき,ノイズに対する耐性と各種データセットへの適応性を示すことが示唆された。

Quantum machine learning is a rapidly growing field at the intersection of quantum computing and machine learning. In this work, we examine our quantum machine learning models, which are based on quantum support vector classification (QSVC) and quantum support vector regression (QSVR). We investigate these models using a quantum-circuit simulator, both with and without noise, as well as the IonQ Harmony quantum processor. For the QSVC tasks, we use a dataset containing fraudulent credit card transactions and image datasets (the MNIST and the Fashion-MNIST datasets); for the QSVR tasks, we use a financial dataset and a materials dataset. For the classification tasks, the performance of our QSVC models using 4 qubits of the trapped-ion quantum computer was comparable to that obtained from noiseless quantum-circuit simulations. The result is consistent with the analysis of our device-noise simulations with varying qubit-gate error rates. For the regression tasks, applying a low-rank approximation to the noisy quantum kernel, in combination with hyperparameter tuning in {\epsilon}-SVR, improved the performance of the QSVR models on the near-term quantum device. Our results suggest that the quantum kernel, as described by our shallow quantum circuit, can be effectively used for both QSVC and QSVR tasks, indicating its resistance to noise and its adaptability to various datasets.
翻訳日:2023-09-07 04:27:50 公開日:2023-09-05
# 知的取引確率波方程式に基づく複雑適応学習の理論

Theory of Complex Adaptive Learning Based on a Subject's Intelligent Trading Probability Wave Equation ( http://arxiv.org/abs/2306.15554v5 )

ライセンス: Link先を確認
Leilei Shi, Bing-Hong Wang, Xinshuai Guo, Guocheng Wang(参考訳) 複雑な適応学習は知的です。 適応的で、フィードバックループで学び、多くの個人、要素、粒子が複雑なシステムで相互作用するように隠れたパターンを生成する。 生命と不生の複雑なシステムにおいて重要な役割を果たす。 数学的にシミュレートし、知的トレーダーが価格運動量と反転トレーダーの間の価格をめぐって相互作用する金融市場の複雑さにおいて、かなり適応的な学習を示す。 筆者らは、金融市場の取引量-価格確率波方程式から複素適応学習の法則を抽出し、この法則に従う複素量子系に適用し、約1世紀にわたって議論された量子絡み合いの革新的な2世界解釈を持つ。 時間間隔の累積量や体積が複素量子系における運動量を表す場合、粒子は対話的なコヒーレンスにおいて知性的な性質を持つと仮定する。 運動力はニュートンの法則に違反している。 量子絡み合いは2つのコヒーレント状態の重ね合わせ状態ではなく、主流コペンハーゲン解釈である。 相補的な2つの力と可変力の相互作用におけるコヒーレントな状態である。 2つのインテリジェントなパワーは相互作用の不変性を保持し、二部量子系の2つの反対の性質と相互作用的にコヒーレントな絡み合いを生成する。 キーワード:複雑なシステム、複雑な適応学習、インテリジェンスのような粒子、二世界解釈、対話的コヒーレントな絡み合いPACS:89.75.k(複雑システム)、89.65.Gh(経済、経済、経済、金融市場、ビジネスとマネジメント)03.65.Ud(絡み合いと量子非局所性)

Complex adaptive learning is intelligent. It is adaptive, learns in feedback loops, and generates hidden patterns as many individuals, elements or particles interact in complex systems. It plays crucial roles in life and inanimate complex systems. It simulates mathematically and shows significantly adaptive learning in the complexity of financial markets where intelligent traders interact over prices between the price momentum and reversal traders. The authors attempt to extract a law of complex adaptive learning from a trading volume-price probability wave equation in the financial markets, apply it to inanimate complex quantum systems that obey the law and have an innovative two-worlds interpretation of the quantum entanglement debated for nearly a century. It assumes particles possess an intelligence-like property in interactive coherence if cumulative quantity or volume in a time interval represents momentum in complex quantum systems. The momentum force violates Newton's laws. It concludes that quantum entanglement is not a superposition state of two coherent states as mainstream Copenhagen interprets. It is a coherent state in interaction between two opposite, complementary, and variable forces. The two intelligent powers keep an invariance of interaction and generate particles' interactively coherent entanglement with two opposite properties in a bipartite quantum system. Keywords: complex systems, complex adaptive learning, intelligence-like particle, two-worlds interpretation, interactively coherent entanglement PACS: 89.75.-k (Complex Systems); 89.65.Gh (Economics, Econophysics, Financial Markets, Business and Management); 03.65.Ud (Entanglement and Quantum Nonlocality)
翻訳日:2023-09-07 04:25:43 公開日:2023-09-05
# 量子スクイージングは標準量子限界を破ることができない

Quantum squeezing cannot beat the standard quantum limit ( http://arxiv.org/abs/2306.14666v3 )

ライセンス: Link先を確認
Liam P. McGuinness(参考訳) 粒子間の量子絡み合いは、そうでなければ不可能なタスクを実行できると期待されている。 量子センシングと気象学において、絡み合いはしばしば、同じ数の粒子と時間で達成できない精度で絡み合いを抑えることができると主張される。 2つの異なるアプローチが存在する: どちらか一方が絡み合った状態を作る 一 信号に迅速に応答すること、又は 二 騒音の低減及び不確実性に関連すること。 第2級の州は一般にスクレッデッド州と呼ばれる。 ここでは、成功の定義が -- 同一のリソースを使っては達成できないが絡み合いのない精度 -- ならば、第2のアプローチは成功しないことを示す。 その際、分離不能な1つの状態は、単位時間当たりの精度が1つの粒子よりも基本的に良くないことを示す。

Quantum entanglement between particles is expected to allow one to perform tasks that would otherwise be impossible. In quantum sensing and metrology, entanglement is often claimed to enable a precision that cannot be attained with the same number of particles and time, forgoing entanglement. Two distinct approaches exist: creation of entangled states that either i) respond quicker to the signal, or ii) are associated with lower noise and uncertainty. The second class of states are generally called squeezed states. Here we show that if our definition of success is -- a precision that is impossible to achieve using the same resources but without entanglement -- then the second approach cannot succeed. In doing so we show that a single non-separable squeezed state provides fundamentally no better precision, per unit time, than a single particle.
翻訳日:2023-09-07 04:25:14 公開日:2023-09-05
# RGB-Event Transformer-Tracker におけるクロスモーダル直交高階化

Cross-modal Orthogonal High-rank Augmentation for RGB-Event Transformer-trackers ( http://arxiv.org/abs/2307.04129v2 )

ライセンス: Link先を確認
Zhiyu Zhu, Junhui Hou, and Dapeng Oliver Wu(参考訳) 本稿では,RGBビデオとイベントデータからのクロスモーダルオブジェクト追跡の問題に対処する。 複雑なクロスモーダル融合ネットワークを構築するのではなく、事前学習された視覚変換器(ViT)の大きな可能性を探る。 特に,2つのモード間の広い分散ギャップを橋渡しし,網羅的な相互モーダル情報通信を可能にし,その能力を高めるプラグイン・アンド・プレイ・トレーニングの強化を微妙に調査する。 具体的には,あるトークンの特定のモダリティをランダムにマスクして,異なるモダリティからのトークン間のインタラクションを積極的に実施するマスクモデリング戦略を提案する。 マスキング戦略によるネットワーク振動を緩和し、さらにその正の効果を増幅するため、理論上は注意行列を正則化する直交高ランク損失を提案する。 広汎な実験により、我々のプラグアンドプレイトレーニング強化技術は、追跡精度と成功率の両方の観点から、最先端の1ストリームと2ストリームのトラッカーを大幅に向上させることができることが示された。 我々の新たな視点と発見は、強力なトレーニング済みのViTを使って、クロスモーダルデータをモデル化する分野に洞察をもたらす可能性がある。 コードは公開される予定だ。

This paper addresses the problem of cross-modal object tracking from RGB videos and event data. Rather than constructing a complex cross-modal fusion network, we explore the great potential of a pre-trained vision Transformer (ViT). Particularly, we delicately investigate plug-and-play training augmentations that encourage the ViT to bridge the vast distribution gap between the two modalities, enabling comprehensive cross-modal information interaction and thus enhancing its ability. Specifically, we propose a mask modeling strategy that randomly masks a specific modality of some tokens to enforce the interaction between tokens from different modalities interacting proactively. To mitigate network oscillations resulting from the masking strategy and further amplify its positive effect, we then theoretically propose an orthogonal high-rank loss to regularize the attention matrix. Extensive experiments demonstrate that our plug-and-play training augmentation techniques can significantly boost state-of-the-art one-stream and twostream trackers to a large extent in terms of both tracking precision and success rate. Our new perspective and findings will potentially bring insights to the field of leveraging powerful pre-trained ViTs to model cross-modal data. The code will be publicly available.
翻訳日:2023-09-07 04:15:02 公開日:2023-09-05
# モーメントプローブによる事前学習モデルのチューニング

Tuning Pre-trained Model via Moment Probing ( http://arxiv.org/abs/2307.11342v2 )

ライセンス: Link先を確認
Mingze Gao and Qilong Wang and Zhenyi Lin and Pengfei Zhu and Qinghua Hu and Jingbo Zhou(参考訳) 近年、大規模事前学習モデルの効率的な微調整が研究の興味を惹きつけ、基本モジュールとしての線形探索(LP)がタスク依存分類の最終表現の活用に関与している。 しかし,既存の手法のほとんどは,学習可能なパラメータのいくつかを効果的に導入する方法に重点を置いている。 本稿では,LP の可能性を探るため,新しい Moment Probing (MP) 法を提案する。 最終特徴(例えばvitの単語トークン)や分類トークンの平均に基づいて線形分類ヘッドを構築するlpと区別して,特徴分布の線形分類を行い,特徴に固有のより豊かな統計情報を活用することにより,より強力な表現能力を提供する。 具体的には,特徴関数を用いて特徴分布を表現し,特徴の1次および2次モーメントを用いて効率よく近似する。 さらに, 2次モーメントを効率的かつ効果的に計算するためのマルチヘッド畳み込み共分散(MHC$^3$)を提案する。 また,MPが特徴学習に影響を及ぼす可能性を考慮し,MPをベースとした2つのバックボーン(PSRP)、すなわちMP$_{+}$を学習するための部分共有モジュールを導入する。 様々なモデルを用いた10のベンチマーク実験の結果、MPはLPを著しく上回り、トレーニングコストが低いのに対して、MP$_{+}$は最先端のパフォーマンスを実現していることがわかった。

Recently, efficient fine-tuning of large-scale pre-trained models has attracted increasing research interests, where linear probing (LP) as a fundamental module is involved in exploiting the final representations for task-dependent classification. However, most of the existing methods focus on how to effectively introduce a few of learnable parameters, and little work pays attention to the commonly used LP module. In this paper, we propose a novel Moment Probing (MP) method to further explore the potential of LP. Distinguished from LP which builds a linear classification head based on the mean of final features (e.g., word tokens for ViT) or classification tokens, our MP performs a linear classifier on feature distribution, which provides the stronger representation ability by exploiting richer statistical information inherent in features. Specifically, we represent feature distribution by its characteristic function, which is efficiently approximated by using first- and second-order moments of features. Furthermore, we propose a multi-head convolutional cross-covariance (MHC$^3$) to compute second-order moments in an efficient and effective manner. By considering that MP could affect feature learning, we introduce a partially shared module to learn two recalibrating parameters (PSRP) for backbones based on MP, namely MP$_{+}$. Extensive experiments on ten benchmarks using various models show that our MP significantly outperforms LP and is competitive with counterparts at less training cost, while our MP$_{+}$ achieves state-of-the-art performance.
翻訳日:2023-09-07 04:06:48 公開日:2023-09-05
# メタ学習のためのタスクのサンプル学習

Learning to Sample Tasks for Meta Learning ( http://arxiv.org/abs/2307.08924v2 )

ライセンス: Link先を確認
Jingyao Wang, Zeen Song, Xingzhe Su, Lingyu Si, Hongwei Dong, Wenwen Qiang, Changwen Zheng(参考訳) 本稿では,様々なメタラーニング手法,タスクサンプリング,少数ショットラーニングタスクの実験を通じて,3つの結論に達した。 まず,メタ学習モデルの性能を保証する普遍的なタスクサンプリング戦略は存在しない。 第二に、タスクの多様性は、トレーニング中にモデルに不適合または過適合をもたらす可能性がある。 最後に、モデルの一般化性能は、タスクの発散、タスクエントロピー、タスクの難易度に影響される。 そこで本研究では,ASr(Adaptive Sampler)と呼ばれる新しいタスクサンプリング手法を提案する。 ASrは、タスクのばらつき、タスクのエントロピー、タスクのサンプリングが困難になるタスクサンプリングツールである。 ASrを最適化するために、我々はシンプルで一般的なメタ学習アルゴリズムを再考し提案する。 最後に、多数の実験実験を行い、提案したASrの有効性を示した。

Through experiments on various meta-learning methods, task samplers, and few-shot learning tasks, this paper arrives at three conclusions. Firstly, there are no universal task sampling strategies to guarantee the performance of meta-learning models. Secondly, task diversity can cause the models to either underfit or overfit during training. Lastly, the generalization performance of the models are influenced by task divergence, task entropy, and task difficulty. In response to these findings, we propose a novel task sampler called Adaptive Sampler (ASr). ASr is a plug-and-play task sampler that takes task divergence, task entropy, and task difficulty to sample tasks. To optimize ASr, we rethink and propose a simple and general meta-learning algorithm. Finally, a large number of empirical experiments demonstrate the effectiveness of the proposed ASr.
翻訳日:2023-09-07 04:05:48 公開日:2023-09-05
# 偏微分方程式のアナログ量子シミュレーション

Analog quantum simulation of partial differential equations ( http://arxiv.org/abs/2308.00646v2 )

ライセンス: Link先を確認
Shi Jin and Nana Liu(参考訳) 量子シミュレータはもともと1つの偏微分方程式(PDE)、特にシュロディンガー方程式をシミュレートするために提案された。 量子シミュレータは他のPDEを効率的にシミュレートできるのか? PDEの計算方法(古典と量子の両方)はデジタルであるが(PDEはまず離散化されなければならない)、PDEは連続的な自由度を持つ。 これはアナログ表現がより自然であることが示唆される。 デジタル量子自由度は通常、量子ビットによって記述されるが、アナログまたは連続量子自由度は量子モデで表される。 シュロディンジェライゼーション(Schrodingerisation)と呼ばれる手法に基づいて、D+1 qumod 上のアナログあるいは連続変数ハミルトニアンシミュレーションを使用できる(D+1)-量子系に直接D次元線形PDEをマッピングする方法を示す。 この非常に単純な方法論は、まずPDEを識別する必要はないし、線形PDEだけでなく、非線形PDEや非線形ODEのシステムにも適用できる。 この手法を用いて、リウヴィル方程式、熱方程式、フォッカー・プランク方程式、ブラック・シェール方程式、波動方程式、マクスウェル方程式などを示す。 また、不確かさの定量化において重要な線形PDEに対する新しいプロトコルを考案し、アナログや連続変数のフレームワークがいかに自然であるかを明らかにした。 これはまた、いくつかのPDEがそれらの量子系に対して自然にハミルトニアンを用いることで、アナログ量子系上で直接シミュレートされる可能性を高める。

Quantum simulators were originally proposed for simulating one partial differential equation (PDE) in particular - Schrodinger's equation. Can quantum simulators also efficiently simulate other PDEs? While most computational methods for PDEs - both classical and quantum - are digital (PDEs must be discretised first), PDEs have continuous degrees of freedom. This suggests that an analog representation can be more natural. While digital quantum degrees of freedom are usually described by qubits, the analog or continuous quantum degrees of freedom can be captured by qumodes. Based on a method called Schrodingerisation, we show how to directly map D-dimensional linear PDEs onto a (D+1)-qumode quantum system where analog or continuous-variable Hamiltonian simulation on D+1 qumodes can be used. This very simple methodology does not require one to discretise PDEs first, and it is not only applicable to linear PDEs but also to some nonlinear PDEs and systems of nonlinear ODEs. We show some examples using this method, including the Liouville equation, heat equation, Fokker-Planck equation, Black-Scholes equations, wave equation and Maxwell's equations. We also devise new protocols for linear PDEs with random coefficients, important in uncertainty quantification, where it is clear how the analog or continuous-variable framework is most natural. This also raises the possibility that some PDEs may be simulated directly on analog quantum systems by using Hamiltonians natural for those quantum systems.
翻訳日:2023-09-07 03:57:34 公開日:2023-09-05
# 応答前の推論:共感応答生成のためのコモンセンスに基づく因果説明の統合

Reasoning before Responding: Integrating Commonsense-based Causality Explanation for Empathetic Response Generation ( http://arxiv.org/abs/2308.00085v2 )

ライセンス: Link先を確認
Yahui Fu, Koji Inoue, Chenhui Chu, Tatsuya Kawahara(参考訳) 共感応答生成に対する最近のアプローチでは、ユーザの経験や感情をよりよく理解するために、常識的な知識や感情の原因に関する推論を取り入れようとしている。 しかし,これらのアプローチは主にユーザの視点からコンテキストの因果関係を理解することに焦点を当て,システムの観点からは無視する。 本稿では,ユーザ視点(ユーザの欲望と反応)とシステム視点(システムの意図と反応)の両方を考慮した,多様な共感応答生成のための共通感覚に基づく因果関係説明手法を提案する。 コンテキスト内学習と常識知識を統合し,システムの視点を推論するチャットgptの能力を高める。 次に,コモンセンスに基づく因果説明をChatGPTとT5ベースモデルの両方に統合する。 実験により,本手法は自動評価と人的評価の両方において,他の同等の手法よりも優れていることが示された。

Recent approaches to empathetic response generation try to incorporate commonsense knowledge or reasoning about the causes of emotions to better understand the user's experiences and feelings. However, these approaches mainly focus on understanding the causalities of context from the user's perspective, ignoring the system's perspective. In this paper, we propose a commonsense-based causality explanation approach for diverse empathetic response generation that considers both the user's perspective (user's desires and reactions) and the system's perspective (system's intentions and reactions). We enhance ChatGPT's ability to reason for the system's perspective by integrating in-context learning with commonsense knowledge. Then, we integrate the commonsense-based causality explanation with both ChatGPT and a T5-based model. Experimental evaluations demonstrate that our method outperforms other comparable methods on both automatic and human evaluations.
翻訳日:2023-09-07 03:57:04 公開日:2023-09-05
# エンドツーエンドビデオベース異常検出システムを用いたジェットソンエッジデバイスのベンチマーク

Benchmarking Jetson Edge Devices with an End-to-end Video-based Anomaly Detection System ( http://arxiv.org/abs/2307.16834v2 )

ライセンス: Link先を確認
Hoang Viet Pham, Thinh Gia Tran, Chuong Dinh Le, An Dinh Le, Hien Bich Vo(参考訳) 組み込みシステムプラットフォーム、特にハードウェアアクセラレーションの革新的強化は、現実世界のシナリオにおけるディープラーニングの適用に大きな影響を与える。 これらのイノベーションは、人間の労働力を自律運転、ロボット工学、IoT(Internet-of-Things)など、さまざまな分野で使用されている自動化インテリジェントシステムに変換する。 NVIDIAのJetsonプラットフォームは、ディープラーニングアルゴリズムの実行におけるエネルギー効率とスループットに関する最適なパフォーマンスを提供するパイオニアの1つである。 以前は、ほとんどのベンチマーク分析は、比較結果ごとに1つのディープラーニングモデルを持つ2D画像に基づいていた。 本稿では,監視ビデオから入力されるエンドツーエンドのビデオベース犯罪シーン異常検知システムを実装し,複数のJetsonエッジデバイス(Nano, AGX Xavier, Orin Nano)で完全に動作させる。 比較分析では、モデルパフォーマンスの最適化のためにNVIDIAのソフトウェア開発キットとしてTorch-TensorRTを統合している。 このシステムは、facebookのpyslowfastオープンソースプロジェクトに基づいて、コーディングテンプレートとして構築されている。 エンドツーエンドシステムプロセスは、カメラからの映像、データ前処理パイプライン、特徴抽出装置、異常検出を含む。 私たちは,さまざまなJetson Edgeデバイスに,AIベースのシステムデプロイメントをDockerテクノロジで実施した経験を提供します。 異常検出器については,ロバスト時間特徴量学習(rtfm)と呼ばれる弱教師付きビデオベース深層学習モデルを適用した。 アプローチシステムは、Jetsonエッジデバイス上の毎秒47.56フレーム(FPS)の推論速度に到達し、RAM使用量は3.11GBである。 また、aiシステムが前バージョンのjetsonデバイスよりも15%優れた性能を実現し、50%のエネルギーを消費する有望なjetsonデバイスも発見する。

Innovative enhancement in embedded system platforms, specifically hardware accelerations, significantly influence the application of deep learning in real-world scenarios. These innovations translate human labor efforts into automated intelligent systems employed in various areas such as autonomous driving, robotics, Internet-of-Things (IoT), and numerous other impactful applications. NVIDIA's Jetson platform is one of the pioneers in offering optimal performance regarding energy efficiency and throughput in the execution of deep learning algorithms. Previously, most benchmarking analysis was based on 2D images with a single deep learning model for each comparison result. In this paper, we implement an end-to-end video-based crime-scene anomaly detection system inputting from surveillance videos and the system is deployed and completely operates on multiple Jetson edge devices (Nano, AGX Xavier, Orin Nano). The comparison analysis includes the integration of Torch-TensorRT as a software developer kit from NVIDIA for the model performance optimisation. The system is built based on the PySlowfast open-source project from Facebook as the coding template. The end-to-end system process comprises the videos from camera, data preprocessing pipeline, feature extractor and the anomaly detection. We provide the experience of an AI-based system deployment on various Jetson Edge devices with Docker technology. Regarding anomaly detectors, a weakly supervised video-based deep learning model called Robust Temporal Feature Magnitude Learning (RTFM) is applied in the system. The approach system reaches 47.56 frames per second (FPS) inference speed on a Jetson edge device with only 3.11 GB RAM usage total. We also discover the promising Jetson device that the AI system achieves 15% better performance than the previous version of Jetson devices while consuming 50% less energy power.
翻訳日:2023-09-07 03:56:49 公開日:2023-09-05
# BAGM:テキスト対画像生成モデルのバックドア攻撃

BAGM: A Backdoor Attack for Manipulating Text-to-Image Generative Models ( http://arxiv.org/abs/2307.16489v2 )

ライセンス: Link先を確認
Jordan Vice, Naveed Akhtar, Richard Hartley, Ajmal Mian(参考訳) テキストから画像への生成人工知能(AI)の普及は、大衆の関心を集めている。 ユーザを微妙に操作するコンテンツを生成するために,この技術を攻撃できることを示す。 本稿では,テキストから画像への生成モデル (BAGM) に対するバックドア攻撃を提案する。 我々の攻撃は, 組込みトークン化器, 言語モデル, 画像生成モデルの動作を変更することで, 生成過程の3段階にわたる3つの一般的なテキスト・画像生成モデルをターゲットにした最初の攻撃である。 浸透レベルに基づいて、bagmは、この記事で表面攻撃、浅い攻撃、深い攻撃と呼ばれる一連の攻撃の形式をとります。 この領域における既存のギャップを考慮すると、テキスト対画像モデルにおけるバックドア攻撃の有効性を評価するために特別に設計された定量的指標の包括的なセットも提供します。 BAGMの有効性は、マーケティングシナリオをターゲットドメインとして、最先端の生成モデルを攻撃することによって確立される。 そのためにブランド化された製品イメージのデータセットをコントリビュートする。 組込みバックドアは、モデルロバスト性や生成されたコンテンツユーティリティを損なうことなく、通常の5倍以上の目標出力に対するバイアスを増大させる。 生成型aiの脆弱性を明らかにすることで、研究者はこれらの課題に取り組み、事前訓練されたモデルを使用する際に注意を喚起するよう促す。 関連するコード、入力プロンプト、補足資料はhttps://github.com/JJ-Vice/BAGMで、データセットはhttps://ieee-dataport.org/documents/marketable-foods-mf-datasetで見ることができる。 キーワード:生成人工知能、生成モデル、テキスト・ツー・イメージ生成、バックドア攻撃、トロイの木馬、安定拡散。

The rise in popularity of text-to-image generative artificial intelligence (AI) has attracted widespread public interest. We demonstrate that this technology can be attacked to generate content that subtly manipulates its users. We propose a Backdoor Attack on text-to-image Generative Models (BAGM), which upon triggering, infuses the generated images with manipulative details that are naturally blended in the content. Our attack is the first to target three popular text-to-image generative models across three stages of the generative process by modifying the behaviour of the embedded tokenizer, the language model or the image generative model. Based on the penetration level, BAGM takes the form of a suite of attacks that are referred to as surface, shallow and deep attacks in this article. Given the existing gap within this domain, we also contribute a comprehensive set of quantitative metrics designed specifically for assessing the effectiveness of backdoor attacks on text-to-image models. The efficacy of BAGM is established by attacking state-of-the-art generative models, using a marketing scenario as the target domain. To that end, we contribute a dataset of branded product images. Our embedded backdoors increase the bias towards the target outputs by more than five times the usual, without compromising the model robustness or the generated content utility. By exposing generative AI's vulnerabilities, we encourage researchers to tackle these challenges and practitioners to exercise caution when using pre-trained models. Relevant code, input prompts and supplementary material can be found at https://github.com/JJ-Vice/BAGM, and the dataset is available at: https://ieee-dataport.org/documents/marketable-foods-mf-dataset. Keywords: Generative Artificial Intelligence, Generative Models, Text-to-Image generation, Backdoor Attacks, Trojan, Stable Diffusion.
翻訳日:2023-09-07 03:56:24 公開日:2023-09-05
# 人間の感情の不確かさの測定

Measure of Uncertainty in Human Emotions ( http://arxiv.org/abs/2308.04032v2 )

ライセンス: Link先を確認
Balaram Panda(参考訳) 多くの研究は、コンピュータがいかに人間によって表示された感情を検査し、そのデータを使って異なるタスクを遂行できるかを調査している。 しかし,ユーザの意思決定やタスクの実行を支援するために,感情分類情報を生成するコンピュータ能力を評価する研究はほとんどない。 これは、人間とコンピュータの双方向コミュニケーションにとって最重要となるため、探究すべき重要な領域である。 本研究では,感情分類の異なる不確実性情報表示が意思決定プロセスに与える影響を検討する実験を行った。 その結果,不確実性情報を表示することで,意思決定に自信が持てることがわかった。

Many research explore how well computers are able to examine emotions displayed by humans and use that data to perform different tasks. However, there have been very few research which evaluate the computers ability to generate emotion classification information in an attempt to help the user make decisions or perform tasks. This is a crucial area to explore as it is paramount to the two way communication between humans and computers. This research conducted an experiment to investigate the impact of different uncertainty information displays of emotion classification on the human decision making process. Results show that displaying more uncertainty information can help users to be more confident when making decisions.
翻訳日:2023-09-07 03:47:55 公開日:2023-09-05
# 放射線学の一般モデルに向けて

Towards Generalist Foundation Model for Radiology ( http://arxiv.org/abs/2308.02463v3 )

ライセンス: Link先を確認
Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang and Weidi Xie(参考訳) 本研究では,RadFMと呼ばれるRadlogy Foundation Modelの開発を目標とし,データセットの構築,モデル設計,徹底的な評価の観点から基礎モデルの構築を検討する。 i) 大規模医療用マルチモーダルデータセット medmd を構築し,16m 2d と 3d の医療スキャンと,さまざまなデータフォーマット,モダリティ,タスクにわたって高品質なテキスト記述やレポートを提供し,5,000 以上の異なる疾患をカバーする。 我々の知る限り、これは2Dスキャンと3Dスキャンの両方を備えた最初の大規模で高品質な医用ビジュアル言語データセットである; (ii)、視覚条件付き生成前トレーニングを可能にするアーキテクチャ、すなわち、2Dまたは3D医療スキャンとのテキスト入力の統合を可能にし、多様な放射線学的タスクに対する応答を生成するアーキテクチャを提案する。 The model was initially pre-trained on MedMD and subsequently fine-tuned on the domain-specific dataset, which is a radiologic cleaned version of MedMD, containing 3M radiologic visual-language pairs, termed as RadMD; (iii), we propose a new evaluation benchmark, RadBench, that comprises five tasks, including modality recognition, disease diagnosis, visual question answering, report generation and rationale diagnosis, aiming to comprehensively assess the capability of foundation models in handling practical clinical problems. radbench の自動評価と人間評価の両方を行い,radfm は既存のマルチモーダル基礎モデルを大きく上回っている。 コード、データ、モデルチェックポイントはすべて、この分野におけるさらなる研究と開発を促進するために公開されます。

In this study, we aim to initiate the development of Radiology Foundation Model, termed as RadFM.We consider the construction of foundational models from the perspectives of dataset construction, model design, and thorough evaluation. Our contribution can be concluded as follows: (i), we construct a large-scale Medical Multi-modal Dataset, MedMD, which consists of 16M 2D and 3D medical scans with high-quality text descriptions or reports across various data formats, modalities, and tasks, covering over 5000 distinct diseases. To the best of our knowledge, this is the first large-scale, high-quality, medical visual-language dataset, with both 2D and 3D scans; (ii ), we propose an architecture that enables visually conditioned generative pre-training, i.e., allowing for integration of text input with 2D or 3D medical scans, and generate responses for diverse radiologic tasks. The model was initially pre-trained on MedMD and subsequently fine-tuned on the domain-specific dataset, which is a radiologic cleaned version of MedMD, containing 3M radiologic visual-language pairs, termed as RadMD; (iii), we propose a new evaluation benchmark, RadBench, that comprises five tasks, including modality recognition, disease diagnosis, visual question answering, report generation and rationale diagnosis, aiming to comprehensively assess the capability of foundation models in handling practical clinical problems. We conduct both automatic and human evaluation on RadBench, in both cases, RadFM significantly outperforms existing multi-modal foundation models. The codes, data, and model checkpoint will all be made publicly available to promote further research and development in the field.
翻訳日:2023-09-07 03:46:33 公開日:2023-09-05
# causalops -- 因果確率グラフィカルモデルのための産業ライフサイクルに向けて

CausalOps -- Towards an Industrial Lifecycle for Causal Probabilistic Graphical Models ( http://arxiv.org/abs/2308.01375v2 )

ライセンス: Link先を確認
Robert Maier, Andreas Schlattl, Thomas Guess, J\"urgen Mottok(参考訳) 因果確率グラフベースのモデルが広く普及し、多様なドメイン間の因果関係のモデリングが可能になった。 自動車システムの安全性やマシンラーニングといった新しい分野への採用の増加に伴い、DevOpsやMLOpsに似た統合ライフサイクルフレームワークの必要性が高まっている。 現在、因果的エンジニアリングを採用する組織のためのプロセス参照が欠落している。 このギャップに対処し、幅広い産業採用を促進するために、因果モデルの開発と応用のための新しいライフサイクルフレームワークであるCausalOpsを提案する。 因果エンジニアリング中に生成された重要なエンティティ、依存関係、中間アーティファクトを定義することで、一貫した語彙とワークフローモデルを確立します。 この作業は、異なるステージとステークホルダー間で因果モデルの使用をコンテキスト化し、それらの作成と維持に関する全体的見解を概説する。 CausalOpsの目的は、関心のある組織や因果関係のコミュニティにおける実践的な応用における因果関係の手法の採用を促進することだ。

Causal probabilistic graph-based models have gained widespread utility, enabling the modeling of cause-and-effect relationships across diverse domains. With their rising adoption in new areas, such as automotive system safety and machine learning, the need for an integrated lifecycle framework akin to DevOps and MLOps has emerged. Currently, a process reference for organizations interested in employing causal engineering is missing. To address this gap and foster widespread industrial adoption, we propose CausalOps, a novel lifecycle framework for causal model development and application. By defining key entities, dependencies, and intermediate artifacts generated during causal engineering, we establish a consistent vocabulary and workflow model. This work contextualizes causal model usage across different stages and stakeholders, outlining a holistic view of creating and maintaining them. CausalOps' aim is to drive the adoption of causal methods in practical applications within interested organizations and the causality community.
翻訳日:2023-09-07 03:45:18 公開日:2023-09-05
# 生成拡散モデルによる降水流速予測

Precipitation nowcasting with generative diffusion models ( http://arxiv.org/abs/2308.06733v2 )

ライセンス: Link先を確認
Andrea Asperti, Fabio Merizzi, Alberto Paparella, Giorgio Pedrazzi, Matteo Angelinelli and Stefano Colamonaco(参考訳) 近年,深層学習法によって,正確な気象予報のための従来の数値的手法が求められている。 短距離および中距離の天気予報に用いられる多くの歴史的データセットは、通常、通常の空間格子構造に整理される。 この配置は画像によく似ており、それぞれの気象変動を地図として、あるいは時間軸をビデオとして考えるときに、可視化することができる。 生成逆ネットワーク、変分オートエンコーダ、あるいは最近の変分拡散モデルを含むいくつかの生成モデルクラスは、主に次のフレーム予測問題に適用できることを証明しており、そのため天気予報ベンチマークでその性能をテストするのが自然である。 気象予測の本質的な確率的性質から、拡散モデルは特にこの文脈で魅力的である:我々が本当に関心を持っているのは、気象指標の確率分布であり、その予測値が最も高い確率である。 本研究では,2016年から2021年までの中央ヨーロッパに関する時間データを含む,ERA-5データセットの特定のサブセットに着目した。 そこで本研究では,降水処理における拡散モデルの有効性について検討した。 本研究は,既存の文献に記録されているような,確立されたU-Netモデルの性能と比較したものである。 提案手法は, 拡散モデルを用いて, 気象シナリオのセットを生成し, 処理後ネットワークを用いて予測可能な予測に融合する手法である。 このアプローチは、最近のディープラーニングモデルと比較して、全体的なパフォーマンスにおいて、かなり優れています。

In recent years traditional numerical methods for accurate weather prediction have been increasingly challenged by deep learning methods. Numerous historical datasets used for short and medium-range weather forecasts are typically organized into a regular spatial grid structure. This arrangement closely resembles images: each weather variable can be visualized as a map or, when considering the temporal axis, as a video. Several classes of generative models, comprising Generative Adversarial Networks, Variational Autoencoders, or the recent Denoising Diffusion Models have largely proved their applicability to the next-frame prediction problem, and is thus natural to test their performance on the weather prediction benchmarks. Diffusion models are particularly appealing in this context, due to the intrinsically probabilistic nature of weather forecasting: what we are really interested to model is the probability distribution of weather indicators, whose expected value is the most likely prediction. In our study, we focus on a specific subset of the ERA-5 dataset, which includes hourly data pertaining to Central Europe from the years 2016 to 2021. Within this context, we examine the efficacy of diffusion models in handling the task of precipitation nowcasting. Our work is conducted in comparison to the performance of well-established U-Net models, as documented in the existing literature. Our proposed approach of Generative Ensemble Diffusion (GED) utilizes a diffusion model to generate a set of possible weather scenarios which are then amalgamated into a probable prediction via the use of a post-processing network. This approach, in comparison to recent deep learning models, substantially outperformed them in terms of overall performance.
翻訳日:2023-09-07 03:37:02 公開日:2023-09-05
# ヒルベルト空間の不物理性

The unphysicality of Hilbert spaces ( http://arxiv.org/abs/2308.06669v2 )

ライセンス: Link先を確認
Gabriele Carcassi, Francisco Calderon, Christine A. Aidala(参考訳) ヒルベルト空間は、数学的に量子状態を表現するための「正しい」空間と考えるべきではない。 まず、複素内積空間による要求が物理的に正当であることを証明する。 そして、無限次元の場合の完備性には、無限の期待を持つ状態の包含、無限の期待を無限の期待と逆転に導く座標変換、有限の期待を無限の時間で無限の期待に変換する時間発展が必要であることを示す。 これにより、ヒルベルト空間は、ポテンシャル無限遠を実際の無限遠としてモデル化するので、物理的に不健全となる。 無限大に関連する量子論における少なくともいくつかの問題は、最終的に使用中の間違った空間によって引き起こされる可能性がある。 我々はより良い解を見つけることができると強く信じており、シュワルツ空間をインスピレーションとして見つめている。例えば、位置と運動量のすべての多項式の期待は有限であり、それらの元はこれらの期待によって一意に特定され、フーリエ変換の下で閉じた唯一の空間である。

We show that Hilbert spaces should not be considered the ``correct'' spaces to represent quantum states mathematically. We first prove that the requirements posited by complex inner product spaces are physically justified. We then show that completeness in the infinite-dimensional case requires the inclusion of states with infinite expectations, coordinate transformations that take finite expectations to infinite ones and vice-versa, and time evolutions that transform finite expectations to infinite ones in finite time. This makes Hilbert spaces physically unsound as they model a potential infinity as an actual infinity. We suspect that at least some problems in quantum theory related to infinities may be ultimately caused by the wrong space being used. We strongly believe a better solution can be found, and we look at Schwartz spaces for inspiration, as, among other things, they guarantee that the expectation of all polynomials of position and momentum are finite, their elements are uniquely identified by these expectations, and they are the only space closed under Fourier transform.
翻訳日:2023-09-07 03:36:38 公開日:2023-09-05
# YOLOrtho -- 歯列挙と歯科疾患検出のための統一フレームワーク

YOLOrtho -- A Unified Framework for Teeth Enumeration and Dental Disease Detection ( http://arxiv.org/abs/2308.05967v2 )

ライセンス: Link先を確認
Shenxiao Mei, Chenglong Ma, Feihong Shen, Huikai Wu(参考訳) パノラマX線画像による歯科疾患の検出は歯科医の標準的な処置である。 通常、歯科医は病気を識別し、感染した歯を見つける必要がある。 この2段階の手順を採用した多くの機械学習モデルが開発されているが、歯とその関連疾患を同時に識別できるエンドツーエンドモデルはない。 このギャップを埋めるために,歯列と歯疾患検出のための統合的な枠組みであるYOLOrthoを開発した。 我々は、3種類のアノテーション付きデータからなるdentex challenge 2023データに基づくモデルを開発した。 第1部は四角形、第2部は四角形、第3部は四角形、第3部は四角形、第2部は病形である。 検出をさらに改善するために、Tufts Dental公開データセットを利用する。 このデータを十分に活用し,同時に歯の発見と疾患の同定を学習するために,歯に付着する属性として疾患を定式化する。 歯列挙における位置関係の性質から,モデルのコンボリューション層をCoordConvに置き換えて,モデルにより多くの位置情報を提供する。 また、モデルアーキテクチャを調整し、FPNにもう1つのアップサンプリング層を挿入し、大きなオブジェクト検出に役立てる。 最後に,リニアサム割り当てに基づいて歯の列挙を補正する歯の配置の処理後戦略を提案する。 実験の結果,我々のモデルは拡散モデルを上回ることがわかった。

Detecting dental diseases through panoramic X-rays images is a standard procedure for dentists. Normally, a dentist need to identify diseases and find the infected teeth. While numerous machine learning models adopting this two-step procedure have been developed, there has not been an end-to-end model that can identify teeth and their associated diseases at the same time. To fill the gap, we develop YOLOrtho, a unified framework for teeth enumeration and dental disease detection. We develop our model on Dentex Challenge 2023 data, which consists of three distinct types of annotated data. The first part is labeled with quadrant, and the second part is labeled with quadrant and enumeration and the third part is labeled with quadrant, enumeration and disease. To further improve detection, we make use of Tufts Dental public dataset. To fully utilize the data and learn both teeth detection and disease identification simultaneously, we formulate diseases as attributes attached to their corresponding teeth. Due to the nature of position relation in teeth enumeration, We replace convolution layer with CoordConv in our model to provide more position information for the model. We also adjust the model architecture and insert one more upsampling layer in FPN in favor of large object detection. Finally, we propose a post-process strategy for teeth layout that corrects teeth enumeration based on linear sum assignment. Results from experiments show that our model exceeds large Diffusion-based model.
翻訳日:2023-09-07 03:35:15 公開日:2023-09-05
# 一般化p\"oschl-tellerポテンシャルの再正規化群とスペクトル

Renormalization group and spectra of the generalized P\"oschl-Teller potential ( http://arxiv.org/abs/2308.04596v2 )

ライセンス: Link先を確認
Ulysses Camara da Silva, Andre Alves Lima, Carlos F.S. Pereira(参考訳) p\"oschl-teller potential $v(x) = \alpha^2 g_s \sinh^{-2}(\alpha x) + \alpha^2 g_c \cosh^{-2}(\alpha x)$ 次元のないパラメータのすべての値について、原点での正規特異点がハミルトンの自己随伴を妨げるような通常の範囲を含む、p\"oschl-teller potential $v(x) = \alpha^2 g_s \sinh^{-2}(\alpha x) + \alpha^2 g_c \cosh^{-2}(\alpha x)$ を調べる。 エネルギー固有関数の族を得るために再正規化法を適用し、関連する再正規化群(RG)の流れを研究する。 次元変換によって現れる異常な長さのスケールを見つけ、特異点に近い漸近的共形対称性を自発的に破り、これはポテンシャルの次元パラメータ$\alpha$によって明確に破られる。 共形対称性を破る2つの競合する方法により、RGフローはリッチな構造となり、異常次元が存在しない場合でも、歩行結合の可能な領域、巨大な位相、非自明な極限などの現象が生じる。 また, ポテンシャルの超対称性は非対称性とともに自発的に破壊されることを示した。 固有関数の族を用いて、パラメータ空間のすべての領域におけるS行列を異常スケールの任意の値として計算し、S行列の極を体系的に研究して、準正規モードを含むすべての有界、反有界、準安定状態の分類を行う。 異常スケールは、予想通り、非自明な方法でスペクトルを変化させる。

We study the P\"oschl-Teller potential $V(x) = \alpha^2 g_s \sinh^{-2}(\alpha x) + \alpha^2 g_c \cosh^{-2}(\alpha x)$, for every value of the dimensionless parameters $g_s$ and $g_c$, including the less usual ranges for which the regular singularity at the origin prevents the Hamiltonian from being self-adjoint. We apply a renormalization procedure to obtain a family of well-defined energy eigenfunctions, and study the associated renormalization group (RG) flow. We find an anomalous length scale that appears by dimensional transmutation, and spontaneously breaks the asymptotic conformal symmetry near the singularity, which is also explicitly broken by the dimensionful parameter $\alpha$ in the potential. These two competing ways of breaking conformal symmetry give the RG flow a rich structure, with phenomena such as a possible region of walking coupling, massive phases, and non-trivial limits even when the anomalous dimension is absent. We show that supersymmetry of the potential, when present, is also spontaneously broken, along with asymptotic conformal symmetry. We use the family of eigenfunctions to compute the S-matrix in all regions of parameter space, for any value of anomalous scale, and systematically study the poles of the S-matrix to classify all bound, anti-bound and metastable states, including quasi-normal modes. The anomalous scale, as expected, changes the spectra in non-trivial ways.
翻訳日:2023-09-07 03:34:53 公開日:2023-09-05
# 1+1)Dハミルトンハードコア格子QCDにおけるハドロン

Hadrons in (1+1)D Hamiltonian hardcore lattice QCD ( http://arxiv.org/abs/2308.04488v2 )

ライセンス: Link先を確認
Marco Rigobello, Giuseppe Magnifico, Pietro Silvi, Simone Montangero(参考訳) 本研究では, (1+1)D にハードコアグルーオンを持つ2-フレーバーハミルトン格子 QCD を, 行列積状態を用いて0, 有限密度で検討した。 ゲージ冗長性が存在しない理論を定式化し、ゲージ不変テンソルネットワーク ansatz を構成する。 モデルがパラメータ空間の拡張部分領域において重要なことを示し、少なくとも2つの異なる位相を同定し、そのうちの1つは連続極限位置を埋め込む。 我々は各相における粒子スペクトルのサブセットを再構成し、エッジとバルクギャップレスモードを同定する。 したがって、研究モデルは、3+1D QCDの既知の現象を再現しながら、最小の SU(3) ゲージ理論を提供することを示した。 特筆すべきは、充電されたピオンだ。

We study 2-flavor Hamiltonian lattice QCD in (1+1)D with hardcore gluons, at zero and finite density, by means of matrix product states. We introduce a formulation of the theory where gauge redundancy is absent and construct a gauge invariant tensor network ansatz. We show that the model is critical in an extended subregion of parameter space and identify at least two distinct phases, one of which embeds the continuum limit location. We reconstruct a subset of the particle spectrum in each phase, identifying edge and bulk gapless modes. We thereby show that the studied model provides a minimal SU(3) gauge theory whilst reproducing known phenomena of (3+1)D QCD. Most notably, it features charged pions.
翻訳日:2023-09-07 03:34:15 公開日:2023-09-05
# 空間的かつスペクトル的に一貫した深層関数写像

Spatially and Spectrally Consistent Deep Functional Maps ( http://arxiv.org/abs/2308.08871v2 )

ライセンス: Link先を確認
Mingze Sun and Shiwei Mao and Puhua Jiang and Maks Ovsjanikov and Ruqi Huang(参考訳) サイクル一貫性は、長い間、形状の集合内の地図を共同最適化するための強力な先駆体として利用されてきた。 本稿では,非剛体形状マッチングにおける最先端技術と考えられるDeep Functional Mapsのアプローチにおける有用性について検討する。 まず、ある条件下では、学習された写像はスペクトル領域で表されるとき、既にサイクル一貫性を持っていることを正当化する。 さらに、スペクトル整合写像が必ずしも空間的、あるいは点的に一貫したとは限らないという不一致を特定する。 そこで本研究では,教師なしの深部汎関数写像の設計を提案し,スペクトルと点表現に基づく学習地図の調和を効果的に実施する。 サイクルの整合性を生かして,本フレームワークは,歪みの大きい場合においても形状のマッピングを行う。 さらに、スペクトル領域と空間領域の両方の地図を独立に推定することで、ネットワークトレーニングにおける過剰フィッティングを自然に軽減し、近距離等距離データセットと非等尺データセットの両方の挑戦的テストにおいて、優れた一般化性能と精度をもたらす。 コードはhttps://github.com/rqhuang88/Spatiallyand-Spectrally-Consistent-Deep-Functional-Mapsで公開されている。

Cycle consistency has long been exploited as a powerful prior for jointly optimizing maps within a collection of shapes. In this paper, we investigate its utility in the approaches of Deep Functional Maps, which are considered state-of-the-art in non-rigid shape matching. We first justify that under certain conditions, the learned maps, when represented in the spectral domain, are already cycle consistent. Furthermore, we identify the discrepancy that spectrally consistent maps are not necessarily spatially, or point-wise, consistent. In light of this, we present a novel design of unsupervised Deep Functional Maps, which effectively enforces the harmony of learned maps under the spectral and the point-wise representation. By taking advantage of cycle consistency, our framework produces state-of-the-art results in mapping shapes even under significant distortions. Beyond that, by independently estimating maps in both spectral and spatial domains, our method naturally alleviates over-fitting in network training, yielding superior generalization performance and accuracy within an array of challenging tests for both near-isometric and non-isometric datasets. Codes are available at https://github.com/rqhuang88/Spatiallyand-Spectrally-Consistent-Deep-Functional-Maps.
翻訳日:2023-09-07 03:27:12 公開日:2023-09-05
# 自己監督型電子顕微鏡インスタンスセグメンテーションのためのマルチスケール一貫性の学習

Learning Multiscale Consistency for Self-supervised Electron Microscopy Instance Segmentation ( http://arxiv.org/abs/2308.09917v3 )

ライセンス: Link先を確認
Yinda Chen, Wei Huang, Xiaoyu Liu, Shiyu Deng, Qi Chen, Zhiwei Xiong(参考訳) 電子顕微鏡におけるインスタンスセグメンテーション(em)ボリュームは複雑な形状とスパースアノテーションのため困難である。 自己教師型学習は、EMの複雑な視覚パターンに苦しむのに役立つ。 そこで本稿では,EMボリュームのマルチスケール一貫性を高める事前学習フレームワークを提案する。 提案手法では,強力なデータ拡張と弱いデータ拡張を統合し,マルチスケールな特徴を効果的に抽出する。 これらの拡張インスタンスから元の入力データを再構成することで、voxelレベルのコヒーレンスを保ちます。 さらに,これらの拡張間の微細な特徴アライメントを容易にするために,クロスアテンション機構を組み込んだ。 最後に、特徴ピラミッド全体にコントラスト学習技術を適用し、様々なスケールにまたがる特徴表現を抽出する。 4つの大規模EMデータセットを事前トレーニングした後、我々のフレームワークはニューロンやミトコンドリアのセグメンテーションといった下流タスクを大幅に改善する。 効果的にボクセルと機能の一貫性をキャプチャし、EM分析のための転送可能な表現を学習する。

Instance segmentation in electron microscopy (EM) volumes is tough due to complex shapes and sparse annotations. Self-supervised learning helps but still struggles with intricate visual patterns in EM. To address this, we propose a pretraining framework that enhances multiscale consistency in EM volumes. Our approach leverages a Siamese network architecture, integrating both strong and weak data augmentations to effectively extract multiscale features. We uphold voxel-level coherence by reconstructing the original input data from these augmented instances. Furthermore, we incorporate cross-attention mechanisms to facilitate fine-grained feature alignment between these augmentations. Finally, we apply contrastive learning techniques across a feature pyramid, allowing us to distill distinctive representations spanning various scales. After pretraining on four large-scale EM datasets, our framework significantly improves downstream tasks like neuron and mitochondria segmentation, especially with limited finetuning data. It effectively captures voxel and feature consistency, showing promise for learning transferable representations for EM analysis.
翻訳日:2023-09-07 03:15:54 公開日:2023-09-05
# ロバストAIのための大規模言語モデルと認知アーキテクチャの相乗的統合:探索的分析

Synergistic Integration of Large Language Models and Cognitive Architectures for Robust AI: An Exploratory Analysis ( http://arxiv.org/abs/2308.09830v2 )

ライセンス: Link先を確認
Oscar J. Romero, John Zimmerman, Aaron Steinfeld, Anthony Tomasic(参考訳) 本稿では,Large Language Models (LLM) とCognitive Architectures (CA) という,知的行動を示す人工知能の開発に使用される2つのAIサブカテゴリの統合について検討する。 我々は,理論モデルに基礎を置き,予備的な実証的証拠によって支持される3つの統合アプローチを提案する。 モジュラーアプローチは、統合の度合いが異なる4つのモデルを導入し、チェーン・オブ・ソート・プロンプトを使用し、拡張LLM、コモン・モデル・オブ・コグニション、認識のシミュレーション理論からインスピレーションを得ている。 機関のアプローチは、心の理論とLIDA認知アーキテクチャによって動機付けられ、LLMまたは象徴的コンポーネントによって駆動されるマイクロおよびマクロ認知レベルで相互作用するエージェントコレクションの形成を提案する。 CLARION認知アーキテクチャからインスピレーションを得たニューロシンボリックアプローチでは、ボトムアップ学習がLLM層からシンボル表現を抽出し、トップダウンガイダンスはシンボル表現を利用してLLM層のエンジニアリングを直接促進するモデルを提案する。 これらのアプローチは、LSMとCAの長所を活用すると同時に、弱点を軽減し、より堅牢なAIシステムの開発を促進することを目的としている。 それぞれのアプローチに関連するトレードオフと課題について論じる。

This paper explores the integration of two AI subdisciplines employed in the development of artificial agents that exhibit intelligent behavior: Large Language Models (LLMs) and Cognitive Architectures (CAs). We present three integration approaches, each grounded in theoretical models and supported by preliminary empirical evidence. The modular approach, which introduces four models with varying degrees of integration, makes use of chain-of-thought prompting, and draws inspiration from augmented LLMs, the Common Model of Cognition, and the simulation theory of cognition. The agency approach, motivated by the Society of Mind theory and the LIDA cognitive architecture, proposes the formation of agent collections that interact at micro and macro cognitive levels, driven by either LLMs or symbolic components. The neuro-symbolic approach, which takes inspiration from the CLARION cognitive architecture, proposes a model where bottom-up learning extracts symbolic representations from an LLM layer and top-down guidance utilizes symbolic representations to direct prompt engineering in the LLM layer. These approaches aim to harness the strengths of both LLMs and CAs, while mitigating their weaknesses, thereby advancing the development of more robust AI systems. We discuss the tradeoffs and challenges associated with each approach.
翻訳日:2023-09-07 03:15:29 公開日:2023-09-05
# 特許出願傾向予測のためのイベントベース動的グラフ表現学習

Event-based Dynamic Graph Representation Learning for Patent Application Trend Prediction ( http://arxiv.org/abs/2308.09780v2 )

ライセンス: Link先を確認
Tao Zou, Le Yu, Leilei Sun, Bowen Du, Deqing Wang, Fuzhen Zhuang(参考訳) 企業が次の期間に申請する特許の種類を正確に予測することは、彼らの開発戦略を解明し、事前に潜在的なパートナーや競合相手を見つけるのに役立つ。 この問題は, 企業における継続的な嗜好のモデル化と, 分類コードの意味的相関を捉えることの難しさから, これまでの研究では, ほとんど研究されていない。 このギャップを埋めるために,特許出願傾向予測のためのイベントベースの動的グラフ学習フレームワークを提案する。 特に,本手法は,企業と特許分類コードの記憶に残る表現に基づくものである。 新しい特許が観察されると、履歴記憶や現在符号化されているメッセージに基づいて関連企業や分類コードの表示が更新される。 さらに、階層的分類法に沿ってそれらの表現を更新することにより、特許分類コードの意味的近さをキャプチャする階層的メッセージパッシング機構を提供する。 最後に、特許出願の傾向は、静的、動的、階層的な観点から、ターゲット企業の表現と分類コードの集約によって予測される。 実世界データを用いた実験により,様々な実験条件下でのアプローチの有効性が示され,また,分類コードの意味学習や企業の軌道開発のための追跡技術における手法の能力も明らかにされている。

Accurate prediction of what types of patents that companies will apply for in the next period of time can figure out their development strategies and help them discover potential partners or competitors in advance. Although important, this problem has been rarely studied in previous research due to the challenges in modelling companies' continuously evolving preferences and capturing the semantic correlations of classification codes. To fill in this gap, we propose an event-based dynamic graph learning framework for patent application trend prediction. In particular, our method is founded on the memorable representations of both companies and patent classification codes. When a new patent is observed, the representations of the related companies and classification codes are updated according to the historical memories and the currently encoded messages. Moreover, a hierarchical message passing mechanism is provided to capture the semantic proximities of patent classification codes by updating their representations along the hierarchical taxonomy. Finally, the patent application trend is predicted by aggregating the representations of the target company and classification codes from static, dynamic, and hierarchical perspectives. Experiments on real-world data demonstrate the effectiveness of our approach under various experimental conditions, and also reveal the abilities of our method in learning semantics of classification codes and tracking technology developing trajectories of companies.
翻訳日:2023-09-07 03:15:05 公開日:2023-09-05
# SparseBEV:マルチカメラ映像からの高性能スパース3次元物体検出

SparseBEV: High-Performance Sparse 3D Object Detection from Multi-Camera Videos ( http://arxiv.org/abs/2308.09244v2 )

ライセンス: Link先を確認
Haisong Liu, Yao Teng, Tao Lu, Haiguang Wang, Limin Wang(参考訳) BEV(Bird's Eye View)空間におけるカメラによる3Dオブジェクト検出は、ここ数年で大きな注目を集めている。 デンス検出器は、まず高密度のBEV機能を構築し、次に複雑なビュー変換と高い計算コストに苦しむBEV空間で物体検出を行う。 一方、スパース検出器は、明示的な高密度BEV機能構築を伴わないクエリベースのパラダイムを踏襲するが、高密度BEVよりも性能が劣る。 本稿では,この性能ギャップを緩和する鍵として,BEVおよび画像空間における検出器の適応性について述べる。 この目的を達成するために,高密度の3Dオブジェクト検出器であるSparseBEVを提案する。 SparseBEV は,(1) BEV 空間における適応的受容場を持つ集合特徴に対するスケール適応型自己注意,(2) クエリの誘導によるサンプリング位置の生成のための適応時空間サンプリング,(3) クエリから動的重み付きサンプル特徴を復号する適応混合という3つの重要な設計を含む。 nuScenesのテスト分割で、SparseBEVは67.5 NDSの最先端のパフォーマンスを達成した。 valスプリットでは、SparseBEVは55.8 NDSを達成し、リアルタイムの推論速度は23.5 FPSである。 コードはhttps://github.com/MCG-NJU/SparseBEVで入手できる。

Camera-based 3D object detection in BEV (Bird's Eye View) space has drawn great attention over the past few years. Dense detectors typically follow a two-stage pipeline by first constructing a dense BEV feature and then performing object detection in BEV space, which suffers from complex view transformations and high computation cost. On the other side, sparse detectors follow a query-based paradigm without explicit dense BEV feature construction, but achieve worse performance than the dense counterparts. In this paper, we find that the key to mitigate this performance gap is the adaptability of the detector in both BEV and image space. To achieve this goal, we propose SparseBEV, a fully sparse 3D object detector that outperforms the dense counterparts. SparseBEV contains three key designs, which are (1) scale-adaptive self attention to aggregate features with adaptive receptive field in BEV space, (2) adaptive spatio-temporal sampling to generate sampling locations under the guidance of queries, and (3) adaptive mixing to decode the sampled features with dynamic weights from the queries. On the test split of nuScenes, SparseBEV achieves the state-of-the-art performance of 67.5 NDS. On the val split, SparseBEV achieves 55.8 NDS while maintaining a real-time inference speed of 23.5 FPS. Code is available at https://github.com/MCG-NJU/SparseBEV.
翻訳日:2023-09-07 03:14:24 公開日:2023-09-05
# LFS-GANの長寿命画像生成

LFS-GAN: Lifelong Few-Shot Image Generation ( http://arxiv.org/abs/2308.11917v2 )

ライセンス: Link先を確認
Juwon Seo, Ji-Su Kang, Gyeong-Moon Park(参考訳) 我々は、初めて挑戦的な生涯の少数ショット画像生成タスクに対処した。 このような状況下では、生成モデルはタスク毎のサンプル数だけを使用してタスクのシーケンスを学習する。 その結果、学習モデルは破滅的な忘れと過度な問題に一度に遭遇する。 生涯ganに関する既存の研究は、壊滅的な忘れることを防ぐための変調に基づく方法を提案している。 しかし、それらはかなりの追加パラメータを必要とし、限られたデータから高忠実度で多様な画像を生成することができない。 一方、既存の数発のganは、複数のタスクを学習するときに深刻な壊滅的な忘れに苦しむ。 そこで本稿では,この課題を解消するために,lng(lifelong few-shot gan,lfs-gan)というフレームワークを提案する。 提案するフレームワークは,効率的なタスク固有変調器-Learningable Factorized Tensor (LeFT) を用いて各タスクを学習する。 LeFTはランク制約があり、独自の再構築技術により豊かな表現能力を有する。 さらに,低データ環境下でのモデルの多様性向上のために,損失を求める新しいモードを提案する。 広汎な実験により,LFS-GANは,様々な領域で忘れられ,モードが崩れることなく,高忠実で多様な画像を生成できることが実証された。 驚くべきことに、私たちのLFS-GANは、数ショットの画像生成タスクにおいて、既存の数ショットのGANよりも優れています。 コードはgithubで入手できる。

We address a challenging lifelong few-shot image generation task for the first time. In this situation, a generative model learns a sequence of tasks using only a few samples per task. Consequently, the learned model encounters both catastrophic forgetting and overfitting problems at a time. Existing studies on lifelong GANs have proposed modulation-based methods to prevent catastrophic forgetting. However, they require considerable additional parameters and cannot generate high-fidelity and diverse images from limited data. On the other hand, the existing few-shot GANs suffer from severe catastrophic forgetting when learning multiple tasks. To alleviate these issues, we propose a framework called Lifelong Few-Shot GAN (LFS-GAN) that can generate high-quality and diverse images in lifelong few-shot image generation task. Our proposed framework learns each task using an efficient task-specific modulator - Learnable Factorized Tensor (LeFT). LeFT is rank-constrained and has a rich representation ability due to its unique reconstruction technique. Furthermore, we propose a novel mode seeking loss to improve the diversity of our model in low-data circumstances. Extensive experiments demonstrate that the proposed LFS-GAN can generate high-fidelity and diverse images without any forgetting and mode collapse in various domains, achieving state-of-the-art in lifelong few-shot image generation task. Surprisingly, we find that our LFS-GAN even outperforms the existing few-shot GANs in the few-shot image generation task. The code is available at Github.
翻訳日:2023-09-07 03:08:50 公開日:2023-09-05
# グリーン関数の逆流補正:二次元Fermi-Hubbard型モデルのベンチマーク

Backflow Corrections of Green's Functions: Benchmarks on the Two-dimensional Fermi-Hubbard-type Model ( http://arxiv.org/abs/2308.11823v2 )

ライセンス: Link先を確認
Yu-Tong Zhou, Zheng-Wei Zhou, Xiao Liang(参考訳) 量子多体問題は凝縮物質物理学において重要なトピックである。 この問題を解決するため、波動関数の表現能力を向上させるため、いくつかの手法が開発されている。 フェルミ・ハバード型モデルでは、基底エネルギーは1体と2体の相関を含む。 波動関数とは対照的に、グリーン関数は複数の部位間の時空間相関を直接表現する。 本研究では, 1体グリーン関数の逆流補正を行い, 相関を捉える能力を向上させる。 本手法は,開境界条件を持つスピンレス$t-V$モデルと,長方形格子上の周期的および円筒的境界条件を持つFermi-Hubbardモデルでベンチマークを行う。 本手法で得られたエネルギーは最先端の手法で達成したエネルギーよりも、あるいはさらに低いエネルギーである。

The quantum many-body problem is an important topic in condensed matter physics. To efficiently solve the problem, several methods have been developped to improve the representation ability of wave-functions. For the Fermi-Hubbard-type model, the ground energy contains one-body and two-body correlations. In contrast to the wave-function, the Green function directly represents the spatio-temporal correlations between multiple sites. In this work, we propose a backflow correction of the one-body Green function to improve the ability to capture correlations. Our method is benchmarked on the spinless $t-V$ model with open boundary conditions and on the Fermi-Hubbard model with periodic and cylindrical boudary conditions, both on rectangular lattices. The energies achieved by our method are competitive with or even lower than those achieved by state-of-the-art methods.
翻訳日:2023-09-07 03:07:38 公開日:2023-09-05
# 自動音声認識システムとディープラーニングモデルを用いたスマートフォンによる自由応答音声記録における抑うつ関連トピックの同定

Identifying depression-related topics in smartphone-collected free-response speech recordings using an automatic speech recognition system and a deep learning topic model ( http://arxiv.org/abs/2308.11773v2 )

ライセンス: Link先を確認
Yuezhou Zhang, Amos A Folarin, Judith Dineley, Pauline Conde, Valeria de Angel, Shaoxiong Sun, Yatharth Ranjan, Zulqarnain Rashid, Callum Stewart, Petroula Laiou, Heet Sankesara, Linglong Qian, Faith Matcham, Katie M White, Carolin Oetzmann, Femke Lamers, Sara Siddi, Sara Simblett, Bj\"orn W. Schuller, Srinivasan Vairavan, Til Wykes, Josep Maria Haro, Brenda WJH Penninx, Vaibhav A Narayan, Matthew Hotopf, Richard JB Dobson, Nicholas Cummins, RADAR-CNS consortium(参考訳) 言語使用は抑うつと相関することが示されているが、大規模な検証が必要である。 臨床研究のような伝統的な方法は高価です。 そのため、ソーシャルメディアでは抑うつを予測するために自然言語処理が採用されているが、検証済みラベル、バイアス付きユーザーサンプル、コンテキストの制限は残っていない。 調査では,WhisperツールとBERTopicモデルを用いて,265人のスマートフォンによる音声記録3919件中29件を抽出した。 PHQ-8の中央値が10以上の6つのトピックは、期待、睡眠、精神療法、ヘアカット、学習、コースワークといったうつ病のリスクトピックとみなされた。 うつ病の出現と関連性を明らかにするため,特定トピック間での行動的特徴と言語的特徴を比較した。 また, トピックシフトとうつ病重症度の変化との関係についても検討し, 言語使用の縦断的モニタリングの重要性を示唆した。 また, BERTopicモデルについても, 57名の参加者の音声記録356件を対象に実験を行い, 一貫性のある結果を得た。 要約すると,特定の音声話題はうつ病の重篤さを示す可能性がある。 提示されたデータ駆動ワークフローは、デジタルヘルス研究のための現実世界の設定から大規模な音声データを収集し分析するための実践的なアプローチを提供する。

Language use has been shown to correlate with depression, but large-scale validation is needed. Traditional methods like clinic studies are expensive. So, natural language processing has been employed on social media to predict depression, but limitations remain-lack of validated labels, biased user samples, and no context. Our study identified 29 topics in 3919 smartphone-collected speech recordings from 265 participants using the Whisper tool and BERTopic model. Six topics with a median PHQ-8 greater than or equal to 10 were regarded as risk topics for depression: No Expectations, Sleep, Mental Therapy, Haircut, Studying, and Coursework. To elucidate the topic emergence and associations with depression, we compared behavioral (from wearables) and linguistic characteristics across identified topics. The correlation between topic shifts and changes in depression severity over time was also investigated, indicating the importance of longitudinally monitoring language use. We also tested the BERTopic model on a similar smaller dataset (356 speech recordings from 57 participants), obtaining some consistent results. In summary, our findings demonstrate specific speech topics may indicate depression severity. The presented data-driven workflow provides a practical approach to collecting and analyzing large-scale speech data from real-world settings for digital health research.
翻訳日:2023-09-07 03:07:24 公開日:2023-09-05
# 共同設立者としての非共変量の誤分類は、潜在的な結果フレームワーク内の因果推論に影響を与えるか?

Does Misclassifying Non-confounding Covariates as Confounders Affect the Causal Inference within the Potential Outcomes Framework? ( http://arxiv.org/abs/2308.11676v2 )

ライセンス: Link先を確認
Yonghe Zhao, Qiang Huang, Shuai Fu, Huiyan Sun(参考訳) 潜在的なアウトカムフレームワーク(POF)は因果推論の分野で重要な役割を果たしている。 POF(CIMs-POF)に基づくほとんどの因果推論モデルは、共起バイアスを排除し、共起共分散の前提となる仮定をデフォルトとするように設計されている。 この仮定は、共変数は共同設立者のみからなることを仮定する。 しかし、特に高次元の共変体を扱う場合、共変体を補足するという仮定は実際は維持することが困難である。 因果推論を行う前に、共変数の異なる成分を区別する特定の方法が提案されているが、非衝突共変数を共同設立者として扱う結果はまだ不明である。 この曖昧さは、実践的なシナリオで因果推論を行う際に潜在的リスクをもたらす。 本稿では,CIMs-POFのための統一的なグラフィカル・フレームワークを提案する。 本稿では,CIMs-POFの推論性能が,機器変数,仲介者,衝突者,調整変数など,様々な種類の非衝突共変体を組み込んだ場合の程度を定量的に分析する。 主な発見は, 偏見を除去するタスクにおいて, 共同設立者のみを包含する最適なシナリオであり, 反現実的な結果を推測するタスクでは, 調整変数がより正確な推論に寄与する。 さらに、合成データセット上で行われた広範な実験は、これらの理論的な結論を一貫して検証する。

The Potential Outcome Framework (POF) plays a prominent role in the field of causal inference. Most causal inference models based on the POF (CIMs-POF) are designed for eliminating confounding bias and default to an underlying assumption of Confounding Covariates. This assumption posits that the covariates consist solely of confounders. However, the assumption of Confounding Covariates is challenging to maintain in practice, particularly when dealing with high-dimensional covariates. While certain methods have been proposed to differentiate the distinct components of covariates prior to conducting causal inference, the consequences of treating non-confounding covariates as confounders remain unclear. This ambiguity poses a potential risk when conducting causal inference in practical scenarios. In this paper, we present a unified graphical framework for the CIMs-POF, which greatly enhances the comprehension of these models' underlying principles. Using this graphical framework, we quantitatively analyze the extent to which the inference performance of CIMs-POF is influenced when incorporating various types of non-confounding covariates, such as instrumental variables, mediators, colliders, and adjustment variables. The key findings are: in the task of eliminating confounding bias, the optimal scenario is for the covariates to exclusively encompass confounders; in the subsequent task of inferring counterfactual outcomes, the adjustment variables contribute to more accurate inferences. Furthermore, extensive experiments conducted on synthetic datasets consistently validate these theoretical conclusions.
翻訳日:2023-09-07 03:07:02 公開日:2023-09-05
# LLaMA-Reviewer:パラメータ効率の良いファインチューニングによる大規模言語モデルによるコードレビューの自動化

LLaMA-Reviewer: Advancing Code Review Automation with Large Language Models through Parameter-Efficient Fine-Tuning ( http://arxiv.org/abs/2308.11148v2 )

ライセンス: Link先を確認
Junyi Lu, Lei Yu, Xiaojia Li, Li Yang, Chun Zuo(参考訳) ソフトウェア工学における長年の追求であるコードレビュー活動の自動化は、主に多くのドメイン固有の事前訓練モデルによって対処されてきた。 その成功にもかかわらず、これらのモデルはしばしばスクラッチから事前訓練するための広範囲なリソースを要求する。 対照的に、Large Language Models (LLMs) は、ドメイン固有の知識を補足する際、その優れた能力を考えると、興味深い代替手段を提供する。 しかし、コードレビュータスクを自動化する可能性はほとんど調査されていない。 この研究のギャップに対応するために、コードレビューの領域において、人気のあるLLMであるLLaMAの機能を活用する革新的なフレームワークであるLLaMA-Reviewerを紹介します。 リソース制約を念頭に置いて、このフレームワークはパラメータ効率の細かいチューニング(peft)メソッドを採用し、トレーニング可能なパラメータの1%未満を使用して高いパフォーマンスを提供する。 LLaMA-Reviewerの広範な評価は、2つの多様な公開データセットに対して行われる。 特に、6.7Bパラメータと限られたチューニングエポック数からなる最小のLLaMAベースモデルであっても、LLaMA-Reviewerは既存のコードレビューに焦点を当てたモデルの性能と同等である。 アブレーション実験は、入力表現、命令チューニング、異なるPEFTメソッドを含む様々な微調整プロセスコンポーネントの影響についての洞察を提供する。 この分野での継続的な進歩を促進するために、コードとすべてのPEFT軽量プラグインがオープンソース化された。

The automation of code review activities, a long-standing pursuit in software engineering, has been primarily addressed by numerous domain-specific pre-trained models. Despite their success, these models frequently demand extensive resources for pre-training from scratch. In contrast, Large Language Models (LLMs) provide an intriguing alternative, given their remarkable capabilities when supplemented with domain-specific knowledge. However, their potential for automating code review tasks remains largely unexplored. In response to this research gap, we present LLaMA-Reviewer, an innovative framework that leverages the capabilities of LLaMA, a popular LLM, in the realm of code review. Mindful of resource constraints, this framework employs parameter-efficient fine-tuning (PEFT) methods, delivering high performance while using less than 1% of trainable parameters. An extensive evaluation of LLaMA-Reviewer is conducted on two diverse, publicly available datasets. Notably, even with the smallest LLaMA base model consisting of 6.7B parameters and a limited number of tuning epochs, LLaMA-Reviewer equals the performance of existing code-review-focused models. The ablation experiments provide insights into the influence of various fine-tuning process components, including input representation, instruction tuning, and different PEFT methods. To foster continuous progress in this field, the code and all PEFT-weight plugins have been made open-source.
翻訳日:2023-09-07 03:05:58 公開日:2023-09-05
# グラフニューラルネットワークはどのように推奨されるか?

How Expressive are Graph Neural Networks in Recommendation? ( http://arxiv.org/abs/2308.11127v2 )

ライセンス: Link先を確認
Xuheng Cai, Lianghao Xia, Xubin Ren, Chao Huang(参考訳) グラフニューラルネットワーク(GNN)は、グラフの協調フィルタリング信号を活用するレコメンデーションを含む、さまざまなグラフ学習タスクにおいて、優れたパフォーマンスを示している。 しかし、その能力の理論的定式化は、最先端のレコメンデータモデルにおける経験的有効性にもかかわらず、ほとんどない。 近年, メッセージパッシングGNNはWeisfeiler-Lehmanテストと同じくらい強力であり, ランダムノードの初期化と組み合わせたGNNは普遍的であることを示す。 それでも、GNNの「表現性」という概念はあいまいに定義されている。 既存のほとんどの作品ではグラフ同型テストが表現力の指標として採用されているが、このグラフレベルのタスクはモデルが推奨する能力を効果的に評価するものではない。 本稿では,グラフ同型(グラフレベル),ノード自己同型(ノードレベル),位相的近接性(リンクレベル)の3段階の表現性指標を考慮して,gnnの表現性に関する総合的な理論的解析を行う。 本稿では,GNNがノード間の構造的距離を捉える能力を評価するための位相的近接度尺度を提案する。 そこで本研究では,提案手法の有効性を検証するために,新しい基準に最適であり,ノードレベルの基準に最適な学習レスgnnアルゴリズムを提案する。 本稿では,提案手法を各種の最先端GNNモデルと比較し,提案課題における新しい指標の説明可能性について検討する。 再現性のために実装コードはhttps://github.com/HKUDS/GTEで公開されている。

Graph Neural Networks (GNNs) have demonstrated superior performance on various graph learning tasks, including recommendation, where they leverage user-item collaborative filtering signals in graphs. However, theoretical formulations of their capability are scarce, despite their empirical effectiveness in state-of-the-art recommender models. Recently, research has explored the expressiveness of GNNs in general, demonstrating that message passing GNNs are at most as powerful as the Weisfeiler-Lehman test, and that GNNs combined with random node initialization are universal. Nevertheless, the concept of "expressiveness" for GNNs remains vaguely defined. Most existing works adopt the graph isomorphism test as the metric of expressiveness, but this graph-level task may not effectively assess a model's ability in recommendation, where the objective is to distinguish nodes of different closeness. In this paper, we provide a comprehensive theoretical analysis of the expressiveness of GNNs in recommendation, considering three levels of expressiveness metrics: graph isomorphism (graph-level), node automorphism (node-level), and topological closeness (link-level). We propose the topological closeness metric to evaluate GNNs' ability to capture the structural distance between nodes, which aligns closely with the objective of recommendation. To validate the effectiveness of this new metric in evaluating recommendation performance, we introduce a learning-less GNN algorithm that is optimal on the new metric and can be optimal on the node-level metric with suitable modification. We conduct extensive experiments comparing the proposed algorithm against various types of state-of-the-art GNN models to explore the explainability of the new metric in the recommendation task. For reproducibility, implementation codes are available at https://github.com/HKUDS/GTE.
翻訳日:2023-09-07 03:05:34 公開日:2023-09-05
# スケーラブルなハイゼンベルク模型の量子基底状態合成--変分量子固有解法

Scalable Quantum Ground State Preparation of the Heisenberg Model: A Variational Quantum Eigensolver Approach ( http://arxiv.org/abs/2308.12020v2 )

ライセンス: Link先を確認
Jinao Wang, Rimika Jaiswal(参考訳) 量子システムは歴史的に、特にシステムのサイズが大きくなるにつれて、古典的な計算手法を用いてシミュレートすることが難しい。 近年、量子コンピューティング技術の進歩により、複雑な量子システムに取り組む新たな機会が提供され、量子プロセッサに直接量子状態の研究と準備が可能になった。 変分量子固有解法 (VQE) アルゴリズムは、量子回路と古典オプティマイザからなるシステムであり、現在のノイズの多い中間スケール量子 (NISQ) デバイス上で興味深い多体状態を効率的に作成するために使用できる。 磁気材料を理解する上で重要なモデルである1次元一般化ハイゼンベルクモデルの基底状態を作成することにより,VQEの有効性とスケーラビリティを評価する。 我々は,異方性xxzモデルの臨界状態を含め,カップリングの可能なすべての値に対して基底状態を準備できるアンサッツを提案する。 また,予測値の計算において,古典的かつ最適化されたサンプリング手法に係わる精度と時間消費に関する知見を提供する。 ハイゼンベルク模型の基底状態の準備において、本論文はより効率的な量子アルゴリズムへの道を開き、凝縮物質物理学の幅広い分野に寄与する。

Quantum systems have historically been formidable to simulate using classical computational methods, particularly as the system size grows. In recent years, advancements in quantum computing technology have offered new opportunities for tackling complex quantum systems, potentially enabling the study and preparation of quantum states directly on quantum processors themselves. The Variational Quantum Eigensolver (VQE) algorithm is a system composed of a quantum circuit as well as a classical optimizer that can be used to efficiently prepare interesting many-body states on the current noisy intermediate-scale quantum (NISQ) devices. We assess the efficacy and scalability of VQE by preparing the ground states of the 1D generalized Heisenberg model, a pivotal model in understanding magnetic materials. We present an ansatz capable of preparing the ground states for all possible values of the coupling, including the critical states for the anisotropic XXZ model. This paper also aims to provide insights into the precision and time consumption involved in classical and optimized sampling approaches in the calculation of expectation values. In preparing the ground state for the Heisenberg models, this paper paves the way for more efficient quantum algorithms and contributes to the broader field of condensed matter physics.
翻訳日:2023-09-07 02:55:32 公開日:2023-09-05
# RESTORE: 再構築によるグラフ埋め込みアセスメント

RESTORE: Graph Embedding Assessment Through Reconstruction ( http://arxiv.org/abs/2308.14659v2 )

ライセンス: Link先を確認
Hong Yung Yip, Chidaksh Ravuru, Neelabha Banerjee, Shashwat Jha, Amit Sheth, Aman Chadha, Amitava Das(参考訳) Word2Vecの埋め込みの成功に続いて、グラフ埋め込み(GE)が大きな注目を集めている。 geは下流のアプリケーションで一般的に生成され、評価されるが、トポロジー構造と意味情報の観点からの元のグラフ特性の固有の評価は不足している。 これらの理解は、関連する知識の保存や誤った知識の学習という観点でグラフをベクトル化するときにge法の様々なファミリーの不足を特定するのに役立つ。 これを解決するために,グラフ再構成による固有GE評価フレームワークRESTOREを提案する。 基礎となるgesから元のグラフを再構成すると、与えられたベクトル形式に保存された相対的な情報量についての洞察が得られる。 最初にグラフ再構築タスクを紹介します。 我々は,CommonSense Knowledge Graph (CSKG) を用いて,因子化手法,ランダムウォーク,深層学習(各家族の代表的アルゴリズムを含む)に基づいて,GEを3つのGEファミリーから生成する。 保存における有効性の分析 (a)ホップ数の増加によるノードレベルグラフ再構成の位相構造 b)様々な単語の意味と類似性テストに関する意味情報。 深層学習に基づくgeアルゴリズム(sdne)は全体として保存性が優れていることを示す。 (a)平均平均精度(map)は0.54と0.35で2と3hopで、因子分解に基づくアルゴリズム(hope)はカプセル化が優れている。 (b)平均ユークリッド距離は1, 2, 3ホップのそれぞれ0.14, 0.17, 0.11である。 これらのgesの控えめな性能は、より良いグラフ表現学習に関するさらなる研究の道のりを残している。

Following the success of Word2Vec embeddings, graph embeddings (GEs) have gained substantial traction. GEs are commonly generated and evaluated extrinsically on downstream applications, but intrinsic evaluations of the original graph properties in terms of topological structure and semantic information have been lacking. Understanding these will help identify the deficiency of the various families of GE methods when vectorizing graphs in terms of preserving the relevant knowledge or learning incorrect knowledge. To address this, we propose RESTORE, a framework for intrinsic GEs assessment through graph reconstruction. We show that reconstructing the original graph from the underlying GEs yields insights into the relative amount of information preserved in a given vector form. We first introduce the graph reconstruction task. We generate GEs from three GE families based on factorization methods, random walks, and deep learning (with representative algorithms from each family) on the CommonSense Knowledge Graph (CSKG). We analyze their effectiveness in preserving the (a) topological structure of node-level graph reconstruction with an increasing number of hops and (b) semantic information on various word semantic and analogy tests. Our evaluations show deep learning-based GE algorithm (SDNE) is overall better at preserving (a) with a mean average precision (mAP) of 0.54 and 0.35 for 2 and 3-hop reconstruction respectively, while the factorization-based algorithm (HOPE) is better at encapsulating (b) with an average Euclidean distance of 0.14, 0.17, and 0.11 for 1, 2, and 3-hop reconstruction respectively. The modest performance of these GEs leaves room for further research avenues on better graph representation learning.
翻訳日:2023-09-07 02:49:26 公開日:2023-09-05
# MetaWeather: 劣化パターンマッチングによる気象劣化画像復元

MetaWeather: Few-Shot Weather-Degraded Image Restoration via Degradation Pattern Matching ( http://arxiv.org/abs/2308.14334v2 )

ライセンス: Link先を確認
Youngrae Kim, Younggeol Cho, Thanh-Tung Nguyen, Dongman Lee(参考訳) 実世界の視覚タスクは、キャプチャー画像の雨、霧、雪、雨滴などの悪天候の出現にしばしば悩まされる。 近年, 気象劣化画像の復元手法がいくつか提案されており, 画像中の悪天候の影響を除去することを目的としている。 しかし、これらの方法は気象を離散的で相互排他的な変数とみなしており、雨、霧、雨滴の同時発生のような訓練データの範囲を超えて予測できない気象条件の一般化に失敗している。 この目的のために、気象劣化画像復元モデルは、信頼性と最適な性能を確保するために、現在の未知の気象条件に柔軟に対応できるべきである。 また,適応手法は実世界の適応のためのデータ不足にも対処できる。 本稿では,任意の気象条件に対する数ショットの気象劣化画像復元手法であるMetaWeatherを提案する。 そこで我々は,新しい気象条件下での入力画像とサンプル画像のマッチングによって,数ショットのサポートセットからの表現を活用する,DPMM(Degradation Pattern Matching Module)というMetaWeatherのコアピースを考案した。 さらに,MetaWeatherアーキテクチャ上にメタ知識とエピソードメタ学習を構築し,柔軟な適応性を実現する。 メタテストフェーズでは,事前に構築した知識を保存し,オーバーフィッティング問題を回避するためにパラメータ効率のよい微調整手法を採用する。 BIDタスクIIにおける実験結果から,PSNRとSSIMでは最新の画像復元法と比較して最高の性能を示す。 コードは (tba) で利用可能である。

Real-world vision tasks frequently suffer from the appearance of adverse weather conditions including rain, fog, snow, and raindrops in captured images. Recently, several generic methods for restoring weather-degraded images have been proposed, aiming to remove multiple types of adverse weather effects present in the images. However, these methods have considered weather as discrete and mutually exclusive variables, leading to failure in generalizing to unforeseen weather conditions beyond the scope of the training data, such as the co-occurrence of rain, fog, and raindrops. To this end, weather-degraded image restoration models should have flexible adaptability to the current unknown weather condition to ensure reliable and optimal performance. The adaptation method should also be able to cope with data scarcity for real-world adaptation. This paper proposes MetaWeather, a few-shot weather-degraded image restoration method for arbitrary weather conditions. For this, we devise the core piece of MetaWeather, coined Degradation Pattern Matching Module (DPMM), which leverages representations from a few-shot support set by matching features between input and sample images under new weather conditions. In addition, we build meta-knowledge with episodic meta-learning on top of our MetaWeather architecture to provide flexible adaptability. In the meta-testing phase, we adopt a parameter-efficient fine-tuning method to preserve the prebuilt knowledge and avoid the overfitting problem. Experiments on the BID Task II.A dataset show our method achieves the best performance on PSNR and SSIM compared to state-of-the-art image restoration methods. Code is available at (TBA).
翻訳日:2023-09-07 02:48:58 公開日:2023-09-05
# Kretschmann-Schlingemann-Werner Conjectureの進展

Progress on the Kretschmann-Schlingemann-Werner Conjecture ( http://arxiv.org/abs/2308.15389v2 )

ライセンス: Link先を確認
Frederik vom Ende(参考訳) 任意の量子チャネルの対 $\Phi_1,\Phi_2$ が、少なくとも一方がクラウス階数 1 を持ち、また任意のスタインスプリング等距離 $V_1,V_2$ を持つとすると、$\|V_1-({\bf1}\otimes U)V_2\|_\infty\leq\sqrt{2\|\Phi_1-\Phi_2\|_\diamond}$ のような環境上には、ユニタリ $U$ が存在することが証明される。 さらに、右辺の係数 $\sqrt2$ が最適であることを示す単純な例を示し、この不等式が全てのチャネルに対して成り立つことを予想する。

Given any pair of quantum channels $\Phi_1,\Phi_2$ such that at least one of them has Kraus rank one, as well as any respective Stinespring isometries $V_1,V_2$, we prove that there exists a unitary $U$ on the environment such that $\|V_1-({\bf1}\otimes U)V_2\|_\infty\leq\sqrt{2\|\Phi_1-\Phi_2\|_\diamond}$. Moreover, we provide a simple example which shows that the factor $\sqrt2$ on the right-hand side is optimal, and we conjecture that this inequality holds for every pair of channels.
翻訳日:2023-09-07 02:36:37 公開日:2023-09-05
# 人工磁石を用いたオプトメカニカルプラケットの多端子非相互ルーティング

Multiterminal Nonreciprocal Routing in an Optomechanical Plaquette via Synthetic Magnetism ( http://arxiv.org/abs/2308.15379v2 )

ライセンス: Link先を確認
Zhi-Xiang Tang and Xun-Wei Xu(参考訳) 光(光子)モードとメカニカル(フォノン)モードのパラメトリック結合を持つ光学系は、アイソレータ、サーキュレータ、指向性増幅器などの様々な磁気フリー非相互デバイスを実現するための有用なプラットフォームを提供する。 しかし、マルチアクセスチャネルを持つ非相互ルータはまだ広く研究されていない。 本稿では,2つの光モードと2つのメカニカルモードから構成されるオプティメカル・プラケットに基づく,1つの送信機と1つの受信機と2つの出力端子を備えた非相互ルータを提案する。 系の時間反転対称性は、2つの光学モードを位相相関レーザー場で駆動することによって引き起こされる合成磁性によって破壊される。 非交互経路の前提条件を解析的および数値的に求め、非交互性のロバスト性を数値的に示す。 オプティメカル・プラケットにおけるマルチ端末非相互ルータは、量子ネットワーク情報セキュリティの開発と量子セキュア通信の実現に有用な量子ノードを提供する。

Optomechanical systems with parametric coupling between optical (photon) and mechanical (phonon) modes provide a useful platform to realize various magnetic-free nonreciprocal devices, such as isolators, circulators, and directional amplifiers. However, nonreciprocal router with multiaccess channels has not been extensively studied yet. Here, we propose a nonreciprocal router with one transmitter, one receiver, and two output terminals, based on an optomechanical plaquette composing of two optical modes and two mechanical modes. The time-reversal symmetry of the system is broken via synthetic magnetism induced by driving the two optical modes with phase-correlated laser fields. The prerequisites for nonreciprocal routing are obtained both analytically and numerically, and the robustness of the nonreciprocity is demonstrated numerically. Multi-terminal nonreciprocal router in optomechanical plaquette provides a useful quantum node for development of quantum network information security and realization of quantum secure communication.
翻訳日:2023-09-07 02:36:12 公開日:2023-09-05
# 米国法制度はAIの人的価値への挑戦の準備が整っているか?

Is the U.S. Legal System Ready for AI's Challenges to Human Values? ( http://arxiv.org/abs/2308.15906v3 )

ライセンス: Link先を確認
Inyoung Cheong, Aylin Caliskan, Tadayoshi Kohno(参考訳) 我々の学際的研究は、ジェネレーティブAIが人間の価値にもたらす課題に対して、米国の法律がいかに効果的に直面するかを調査する。 専門家ワークショップで作成された多様な仮説的シナリオの分析を通じて,プライバシ,自律性,尊厳,多様性,公平性,身体的・身体的幸福といった基本的価値観の保護に関する既存の法的枠組みにおける顕著なギャップと不確実性を特定した。 憲法と公民権は、AIが生成した差別的アウトプットに対して十分な保護を提供していないようだ。 さらに、第230条によって提供される責任シールドを除外したとしても、AIシステムの複雑で不透明な性質のため、破壊と製品責任の主張の因果関係を証明することは困難な取り組みである。 生成AIによって引き起こされる独特で予期せぬ脅威に対処するために、我々は、新たな脅威を認識し、業界ステークホルダーに積極的に監査可能なガイドラインを提供するために進化する法的枠組みを提唱する。 これらの問題に対処するには、危害、価値観、緩和戦略を特定するために、深い学際的な協力が必要である。

Our interdisciplinary study investigates how effectively U.S. laws confront the challenges posed by Generative AI to human values. Through an analysis of diverse hypothetical scenarios crafted during an expert workshop, we have identified notable gaps and uncertainties within the existing legal framework regarding the protection of fundamental values, such as privacy, autonomy, dignity, diversity, equity, and physical/mental well-being. Constitutional and civil rights, it appears, may not provide sufficient protection against AI-generated discriminatory outputs. Furthermore, even if we exclude the liability shield provided by Section 230, proving causation for defamation and product liability claims is a challenging endeavor due to the intricate and opaque nature of AI systems. To address the unique and unforeseeable threats posed by Generative AI, we advocate for legal frameworks that evolve to recognize new threats and provide proactive, auditable guidelines to industry stakeholders. Addressing these issues requires deep interdisciplinary collaborations to identify harms, values, and mitigation strategies.
翻訳日:2023-09-07 02:28:12 公開日:2023-09-05
# 時間的階層型bフレーム符号化によるニューラルビデオ圧縮

Neural Video Compression with Temporal Layer-Adaptive Hierarchical B-frame Coding ( http://arxiv.org/abs/2308.15791v3 )

ライセンス: Link先を確認
Yeongwoong Kim, Suyong Bahk, Seungeon Kim, Won Hee Lee, Dokwan Oh, Hui Yong Kim(参考訳) neural video compression (nvc) は急速に発展するビデオ符号化研究分野であり、最新のビデオ符号化標準であるvvc (vvc) よりも優れた符号化効率を達成するモデルもある。 従来のビデオ符号化では、高圧縮のために双方向予測構造を利用する階層的Bフレーム符号化がよく研究され、利用されてきた。 しかし、NVCでは、階層的Bスキームの研究が限られている。 本稿では,階層的Bフレーム符号化と時間層適応最適化を用いたNVCモデルを提案する。 まず、既存の一方向NVCモデルを双方向モデルに拡張し、一方向ベースラインモデルに対して-21.13%のBDレートゲインを達成する。 しかし、このモデルは複雑な動きや大きな動きのシーケンスに適用すると問題に直面し、パフォーマンスが低下する。 そこで我々は,時間層適応品質スケーリング(TAQS)や時間層適応遅延スケーリング(TALS)などの手法を取り入れ,時間層適応最適化を導入する。 提案手法による最終モデルは、ベースラインに対して-39.86%のBDレート向上を達成した。 また、単純な双方向拡張よりも最大-49.13%のBDレートゲインを持つ大きなあるいは複雑な動きを持つシーケンスの課題も解決する。 この改善は、下位の時間層により多くのビットを割り当てることによるものであり、これにより、より小さなビットで全体の再構築品質が向上する。 提案手法は特定のNVCモデルアーキテクチャにはほとんど依存しないため,一方向NVCモデルを階層的Bフレーム符号化に拡張するための汎用ツールとして機能する。

Neural video compression (NVC) is a rapidly evolving video coding research area, with some models achieving superior coding efficiency compared to the latest video coding standard Versatile Video Coding (VVC). In conventional video coding standards, the hierarchical B-frame coding, which utilizes a bidirectional prediction structure for higher compression, had been well-studied and exploited. In NVC, however, limited research has investigated the hierarchical B scheme. In this paper, we propose an NVC model exploiting hierarchical B-frame coding with temporal layer-adaptive optimization. We first extend an existing unidirectional NVC model to a bidirectional model, which achieves -21.13% BD-rate gain over the unidirectional baseline model. However, this model faces challenges when applied to sequences with complex or large motions, leading to performance degradation. To address this, we introduce temporal layer-adaptive optimization, incorporating methods such as temporal layer-adaptive quality scaling (TAQS) and temporal layer-adaptive latent scaling (TALS). The final model with the proposed methods achieves an impressive BD-rate gain of -39.86% against the baseline. It also resolves the challenges in sequences with large or complex motions with up to -49.13% more BD-rate gains than the simple bidirectional extension. This improvement is attributed to the allocation of more bits to lower temporal layers, thereby enhancing overall reconstruction quality with smaller bits. Since our method has little dependency on a specific NVC model architecture, it can serve as a general tool for extending unidirectional NVC models to the ones with hierarchical B-frame coding.
翻訳日:2023-09-07 02:27:53 公開日:2023-09-05
# 計測タンパ検出ベンチマーク

Benchmarks for Detecting Measurement Tampering ( http://arxiv.org/abs/2308.15605v2 )

ライセンス: Link先を確認
Fabien Roger, Ryan Greenblatt, Max Nadeau, Buck Shlegeris, Nate Thomas(参考訳) 複雑なタスクを実行するために強力なAIシステムをトレーニングする場合、最適化に堅牢なトレーニング信号を提供することは困難である。 ひとつは \textit{measurement tampering} で、aiシステムは望ましい結果を得るのではなく、良い結果の錯覚を作り出すために複数の測定値を操作する。 本研究では,大規模言語モデルにおける計測改ざん検出手法を評価するために,新たに4つのテキストベースデータセットを構築した。 具体的には、何らかの結果が生じたかどうかを判断するためのテキスト入力と測定のセットと、測定結果を正確に予測できるベースモデルが与えられた場合、すべての測定結果が実際に結果が生じたかどうかを示す例、測定の改ざんによって引き起こされたかどうかを判断する。 ほとんどのデータセットで単純なベースラインを上回りますが、最大パフォーマンスは達成できません。 技術とデータセットの両方に改善の余地があると信じており、測定の改ざんに取り組む今後の作業に興奮しています。

When training powerful AI systems to perform complex tasks, it may be challenging to provide training signals which are robust to optimization. One concern is \textit{measurement tampering}, where the AI system manipulates multiple measurements to create the illusion of good results instead of achieving the desired outcome. In this work, we build four new text-based datasets to evaluate measurement tampering detection techniques on large language models. Concretely, given sets of text inputs and measurements aimed at determining if some outcome occurred, as well as a base model able to accurately predict measurements, the goal is to determine if examples where all measurements indicate the outcome occurred actually had the outcome occur, or if this was caused by measurement tampering. We demonstrate techniques that outperform simple baselines on most datasets, but don't achieve maximum performance. We believe there is significant room for improvement for both techniques and datasets, and we are excited for future work tackling measurement tampering.
翻訳日:2023-09-07 02:26:23 公開日:2023-09-05
# 自然言語推論課題としてのウィキペディア記事のリンク予測

Link Prediction for Wikipedia Articles as a Natural Language Inference Task ( http://arxiv.org/abs/2308.16469v2 )

ライセンス: Link先を確認
Chau-Thang Phan, Quoc-Nam Nguyen, Kiet Van Nguyen(参考訳) リンク予測タスクは、大きな知識基盤の構造を自動的に理解するために不可欠である。 本稿では,この課題をデータサイエンス・アドバンスト・アナリティクス2023コンペティション「効率的かつ効果的なリンク予測」(dsaa-2023コンペティション)において、948,233のトレーニングと238,265の公開試験を含むコーパスを用いて解決するシステムを提案する。 本稿では、自然言語推論(NLI)タスクとして定式化することで、ウィキペディアの記事の予測をリンクする手法を提案する。 自然言語処理と理解の最近の進歩からインスピレーションを得て、リンク予測をNLIタスクとし、2つの記事間のリンクの存在を前提として扱い、この前提が記事に提示される情報に基づいて保持されるか否かを判断する。 ウィキペディア記事タスクのリンク予測のための文ペア分類に基づくシステムを実装した。 システムはそれぞれ0.99996マクロf1-scoreと1.00000マクロf1-scoreをパブリックおよびプライベートテストセットで達成した。 UIT-NLPチームは,1位と2位のスコアに匹敵する,プライベートテストセットで3位にランク付けした。 私たちのコードは研究目的で公開されています。

Link prediction task is vital to automatically understanding the structure of large knowledge bases. In this paper, we present our system to solve this task at the Data Science and Advanced Analytics 2023 Competition "Efficient and Effective Link Prediction" (DSAA-2023 Competition) with a corpus containing 948,233 training and 238,265 for public testing. This paper introduces an approach to link prediction in Wikipedia articles by formulating it as a natural language inference (NLI) task. Drawing inspiration from recent advancements in natural language processing and understanding, we cast link prediction as an NLI task, wherein the presence of a link between two articles is treated as a premise, and the task is to determine whether this premise holds based on the information presented in the articles. We implemented our system based on the Sentence Pair Classification for Link Prediction for the Wikipedia Articles task. Our system achieved 0.99996 Macro F1-score and 1.00000 Macro F1-score for the public and private test sets, respectively. Our team UIT-NLP ranked 3rd in performance on the private test set, equal to the scores of the first and second places. Our code is publicly for research purposes.
翻訳日:2023-09-07 02:17:43 公開日:2023-09-05
# BioCoder: 文脈論的知識を用いたバイオインフォマティクスコード生成ベンチマーク

BioCoder: A Benchmark for Bioinformatics Code Generation with Contextual Pragmatic Knowledge ( http://arxiv.org/abs/2308.16458v2 )

ライセンス: Link先を確認
Xiangru Tang, Bill Qian, Rick Gao, Jiakang Chen, Xinyun Chen, Mark Gerstein(参考訳) ChatGPTのような事前訓練された言語モデルは、コード生成を大幅に改善した。 これらのモデルが拡大するにつれて、より複雑なタスクを処理するためのアウトプットの必要性が増しています。 さらに、バイオインフォマティクスにおいて、機能プログラムの生成は、ドメイン知識の量、複雑なデータ操作の必要性、操作間の機能的依存関係の複雑化など、さらなる課題を引き起こす。 本稿では,バイオインフォマティクスコードの生成において,既存の事前学習モデルを評価するベンチマークであるBioCoderを提案する。 関数コード生成に関して、BioCoderは潜在的なパッケージ依存性、クラス宣言、グローバル変数をカバーしている。 GitHubから1026の関数と1243のメソッドをPythonとJavaに組み込んでおり、Rosalindプロジェクトから253の例がある。 BioCoderはファズテストフレームワークを組み込んで評価を行い、InCoder、CodeGen、CodeGen2、SantaCoder、StarCoder、StarCoder+、InstructCodeT5+、ChatGPTといった多くのモデルを評価しました。 これらのモデルの詳細な分析は、ドメイン知識、実用的なコード生成、コンテキスト理解の重要性を強調します。 テストに必要なデータセット、ベンチマーク、dockerイメージ、スクリプトはすべて、https://github.com/gersteinlab/biocoderで利用可能です。

Pre-trained language models like ChatGPT have significantly improved code generation. As these models scale up, there is an increasing need for the output to handle more intricate tasks. Moreover, in bioinformatics, generating functional programs poses additional notable challenges due to the amount of domain knowledge, the need for complicated data operations, and intricate functional dependencies between the operations. Here, we present BioCoder, a benchmark developed to evaluate existing pre-trained models in generating bioinformatics code. In relation to function-code generation, BioCoder covers potential package dependencies, class declarations, and global variables. It incorporates 1026 functions and 1243 methods in Python and Java from GitHub and 253 examples from the Rosalind Project. BioCoder incorporates a fuzz-testing framework for evaluation, and we have applied it to evaluate many models including InCoder, CodeGen, CodeGen2, SantaCoder, StarCoder, StarCoder+, InstructCodeT5+, and ChatGPT. Our detailed analysis of these models emphasizes the importance of domain knowledge, pragmatic code generation, and contextual understanding. Our dataset, benchmark, Docker images, and scripts required for testing are all available at https://github.com/gersteinlab/biocoder.
翻訳日:2023-09-07 02:17:20 公開日:2023-09-05
# 競争選択による因果戦略学習

Causal Strategic Learning with Competitive Selection ( http://arxiv.org/abs/2308.16262v2 )

ライセンス: Link先を確認
Kiet Q. H. Vo, Muneeb Aadil, Siu Lun Chau, Krikamol Muandet(参考訳) 複数の意思決定者による因果戦略学習におけるエージェント選択の問題を調査し,それに伴う2つの課題に対処した。 まず, 先行研究の多くは, 評価によらず静的なエージェントプールの研究に焦点が当てられているが, エージェントが評価されるだけでなく, 選択される際の選択手順の影響を考察する。 各意思決定者が自身の効用を最大化してエージェントを一方的に選択した場合、最適な選択規則は、最適なエージェントを選択し、エージェントの改善を最大化するためのインセンティブを提供することの間のトレードオフであることを示す。 さらに、この最適選択規則は、エージェントの結果の誤った予測に依存する。 したがって、意思決定者の最適選択規則がエージェントの結果の劣化を招き、エージェントの選択確率を不当に低下させることのない条件について検討する。 この目的のために, 最適選択規則の分析形式と, エージェントの行動に関する一定の仮定の下で, 観測データから因果パラメータを抽出する機構を提案する。 第二に、複数の意思決定者がいる場合、選択規則間の干渉は、基礎となる因果パラメータを推定する別のバイアス源をもたらす。 この問題に対処するために,我々は,意思決定者が一体となって真の因果パラメータを回復しなければならない協調プロトコルを提供する。 最後に,シミュレーション研究により理論的結果を補完する。 本研究は,ゲームの効果を緩和するための戦略としての因果モデリングの重要性を強調するだけでなく,それを実現するために善意のレギュレータが必要である。

We study the problem of agent selection in causal strategic learning under multiple decision makers and address two key challenges that come with it. Firstly, while much of prior work focuses on studying a fixed pool of agents that remains static regardless of their evaluations, we consider the impact of selection procedure by which agents are not only evaluated, but also selected. When each decision maker unilaterally selects agents by maximising their own utility, we show that the optimal selection rule is a trade-off between selecting the best agents and providing incentives to maximise the agents' improvement. Furthermore, this optimal selection rule relies on incorrect predictions of agents' outcomes. Hence, we study the conditions under which a decision maker's optimal selection rule will not lead to deterioration of agents' outcome nor cause unjust reduction in agents' selection chance. To that end, we provide an analytical form of the optimal selection rule and a mechanism to retrieve the causal parameters from observational data, under certain assumptions on agents' behaviour. Secondly, when there are multiple decision makers, the interference between selection rules introduces another source of biases in estimating the underlying causal parameters. To address this problem, we provide a cooperative protocol which all decision makers must collectively adopt to recover the true causal parameters. Lastly, we complement our theoretical results with simulation studies. Our results highlight not only the importance of causal modeling as a strategy to mitigate the effect of gaming, as suggested by previous work, but also the need of a benevolent regulator to enable it.
翻訳日:2023-09-07 02:15:52 公開日:2023-09-05
# LM-Infinite:大規模言語モデルのための簡易オンザフライ長一般化

LM-Infinite: Simple On-the-Fly Length Generalization for Large Language Models ( http://arxiv.org/abs/2308.16137v2 )

ライセンス: Link先を確認
Chi Han, Qifan Wang, Wenhan Xiong, Yu Chen, Heng Ji, Sinong Wang(参考訳) 近年,トランスフォーマーを用いた大規模言語モデル (LLM) の性能は,様々な領域で顕著に向上している。 これらのllmはますます複雑なタスクにデプロイされるため、より長い推論プロセスやより大きなコンテキストを理解する必要性に直面することが多い。 これらの状況下では、長い列上のLLMの長さ一般化失敗がより顕著になる。 ほとんどの事前訓練は、トレーニングシーケンスを一定長さに切り詰める。 LLMは、この問題に対処するために設計された相対的な位置エンコーディングでさえも、より長いコンテキストの後に下流のタスクを実行することは言うまでもなく、流動的で一貫性のあるテキストを生成するのに苦労する。 長いコーパスの微調整のような一般的な解決策は、しばしばハードウェアと時間のコストを悩ませ、注意深くトレーニングプロセス設計を必要とする。 既存のLCMの生成能力をより効率的に活用するため,本問題に寄与する主要なアウト・オブ・ディストリビューション(OOD)要因を理論的・実験的に検討した。 この診断にインスパイアされた本研究では,オンザフライ長一般化のための単純かつ効果的な解であるLM-Infiniteを提案する。 これはパラメータ更新や学習を必要とせず、$\lambda$型のアテンションマスク(過剰な出席トークンを避けるため)と距離制限(見えない距離を避けるため)のみを含む。 相対配置符号化法を用いて,様々なLLMに適用できることを示す。 LM-Infiniteは、$O(n)$の時間と空間で計算的に効率的であり、ArXivとOpenWebText2データセットで32kトークンの一貫性のあるテキスト生成率と品質を示し、2.72倍のデコード速度を持つ。 パスキー検索などの下流タスクでは、バニラモデルが即座に失敗するトレーニング長よりもずっと長い入力が処理される。

In recent years, there have been remarkable advancements in the performance of Transformer-based Large Language Models (LLMs) across various domains. As these LLMs are deployed for increasingly complex tasks, they often face the need to conduct longer reasoning processes or understand larger contexts. In these situations, the length generalization failure of LLMs on long sequences becomes more prominent. Most pre-training schemes truncate training sequences to a fixed length. LLMs often struggle to generate fluent and coherent texts, let alone carry out downstream tasks, after longer contexts, even with relative positional encoding designed to cope with this problem. Common solutions such as finetuning on longer corpora often involve daunting hardware and time costs and require careful training process design. To more efficiently leverage the generation capacity of existing LLMs, we theoretically and empirically investigate the main out-of-distribution (OOD) factors contributing to this problem. Inspired by this diagnosis, we propose a simple yet effective solution for on-the-fly length generalization, LM-Infinite. It involves only a $\Lambda$-shaped attention mask (to avoid excessive attended tokens) and a distance limit (to avoid unseen distances) while requiring no parameter updates or learning. We find it applicable to a variety of LLMs using relative-position encoding methods. LM-Infinite is computationally efficient with $O(n)$ time and space, and demonstrates consistent text generation fluency and quality to as long as 32k tokens on ArXiv and OpenWebText2 datasets, with 2.72x decoding speedup. On downstream tasks such as passkey retrieval, it continues to work on inputs much longer than training lengths where vanilla models fail immediately.
翻訳日:2023-09-07 02:15:03 公開日:2023-09-05
# StratMed:低リソース医療勧告のための関連戦略

StratMed: Relevance Stratification for Low-resource Medication Recommendation ( http://arxiv.org/abs/2308.16781v2 )

ライセンス: Link先を確認
Xiang Li, Shunpan Liang, Tengfei Ma, Yulei Hou(参考訳) 限られた医療資源と需要の増大の間の不均衡が増し、AIベースの臨床タスクが最重要になっている。 医薬推奨は、医療知識と縦断患者の歴史を融合させることを目的としており、医師がより安全で正確な薬品の組み合わせを処方するのを手助けしている。 既存の手法では、頭部と尾部のデータのバランスの取れた表現が無く、医用データの固有長テール分布を見落としている。 この課題に対処するために、革新的な関連性階層化機構を組み込んだモデルであるStratMedを紹介する。 データの長期分布における相違を調和させ、医薬品の組み合わせの安全性と精度のバランスをとる。 具体的には,まず,深層学習ネットワークを用いた事前学習手法を構築し,エンティティ表現を得る。 その後,不人気エンティティの特徴を補強することにより,より一般化したエンティティ関係を得るために,ピラミッド型データ階層化手法を設計する。 この関係に基づき,医薬の精度と安全性を同時に表現し,訪問表現を得るための2つのグラフ構造を設計した。 最後に、患者の過去の臨床情報は、現在の健康状態の薬剤の組み合わせを生成するために適合する。 MIMIC-IIIデータセットを用いた実験により,本手法は4つの評価指標(安全性と精度を含む)において,最先端の手法よりも優れていることが示された。

With the growing imbalance between limited medical resources and escalating demands, AI-based clinical tasks have become paramount. Medication recommendation, as a sub-domain, aims to amalgamate longitudinal patient history with medical knowledge, assisting physicians in prescribing safer and more accurate medication combinations. Existing methods overlook the inherent long-tail distribution in medical data, lacking balanced representation between head and tail data, which leads to sub-optimal model performance. To address this challenge, we introduce StratMed, a model that incorporates an innovative relevance stratification mechanism. It harmonizes discrepancies in data long-tail distribution and strikes a balance between the safety and accuracy of medication combinations. Specifically, we first construct a pre-training method using deep learning networks to obtain entity representation. After that, we design a pyramid-like data stratification method to obtain more generalized entity relationships by reinforcing the features of unpopular entities. Based on this relationship, we designed two graph structures to express medication precision and safety at the same level to obtain visit representations. Finally, the patient's historical clinical information is fitted to generate medication combinations for the current health condition. Experiments on the MIMIC-III dataset demonstrate that our method has outperformed current state-of-the-art methods in four evaluation metrics (including safety and accuracy).
翻訳日:2023-09-07 02:08:58 公開日:2023-09-05
# 協調専門家によるグラフ分類のロングテール認識に向けて

Towards Long-Tailed Recognition for Graph Classification via Collaborative Experts ( http://arxiv.org/abs/2308.16609v2 )

ライセンス: Link先を確認
Siyu Yi, Zhengyang Mao, Wei Ju, Yongdao Zhou, Luchen Liu, Xiao Luo, and Ming Zhang(参考訳) 効果的なクラス割り当てのためのグラフレベルの表現を学習することを目的としたグラフ分類は、優れた成果を得ている。 実際、ほとんどの実世界のグラフデータには自然に長い尾を持つ形式があり、ヘッドクラスはテールクラスよりもはるかに多くのサンプルを占有しているため、長い尾を持つデータよりもグラフレベルの分類を研究することが不可欠であり、まだほとんど探索されていないままである。 しかし、既存の視覚における長い尾の学習方法のほとんどは、表現学習と分類器訓練を共同で最適化するだけでなく、分類の難しいクラスのマイニングを無視する。 グラフに既存の手法を直接適用すると、複雑な位相特性のためにグラフで訓練されたモデルの方が長い尾の分布に敏感になるので、準最適性能が得られる。 そこで本研究では,協調型多専門家学習(come)を用いた,新しい長尾グラフレベル分類フレームワークを提案する。 頭と尾の授業のコントリビューションを均等化するために,まず表現学習の観点からコントラスト学習のバランスを保ち,硬質クラスマイニングに基づく個人専門家分類器のトレーニングを設計する。 さらに,複数の専門家間でゲート融合と異種知識蒸留を行い,複数専門家による協調を促進する。 7つのベンチマークデータセットで包括的な実験を行い、最先端のベースラインよりも優れた方法を示す。

Graph classification, aiming at learning the graph-level representations for effective class assignments, has received outstanding achievements, which heavily relies on high-quality datasets that have balanced class distribution. In fact, most real-world graph data naturally presents a long-tailed form, where the head classes occupy much more samples than the tail classes, it thus is essential to study the graph-level classification over long-tailed data while still remaining largely unexplored. However, most existing long-tailed learning methods in visions fail to jointly optimize the representation learning and classifier training, as well as neglect the mining of the hard-to-classify classes. Directly applying existing methods to graphs may lead to sub-optimal performance, since the model trained on graphs would be more sensitive to the long-tailed distribution due to the complex topological characteristics. Hence, in this paper, we propose a novel long-tailed graph-level classification framework via Collaborative Multi-expert Learning (CoMe) to tackle the problem. To equilibrate the contributions of head and tail classes, we first develop balanced contrastive learning from the view of representation learning, and then design an individual-expert classifier training based on hard class mining. In addition, we execute gated fusion and disentangled knowledge distillation among the multiple experts to promote the collaboration in a multi-expert framework. Comprehensive experiments are performed on seven widely-used benchmark datasets to demonstrate the superiority of our method CoMe over state-of-the-art baselines.
翻訳日:2023-09-07 02:07:49 公開日:2023-09-05
# 心臓の形状:学習された距離関数による心臓モデル

Shape of my heart: Cardiac models through learned signed distance functions ( http://arxiv.org/abs/2308.16568v2 )

ライセンス: Link先を確認
Jan Verh\"ulsdonk, Thomas Grandits, Francisco Sahli Costabal, Rolf Krause, Angelo Auricchio, Gundolf Haase, Simone Pezzuto, Alexander Effland(参考訳) 解剖学的モデルの効率的な構築は、患者固有のヒト心臓のシリコン内モデルの主要な課題の1つである。 現在の手法は、しばしば線形統計モデルに頼り、高度なトポロジカルな変化を許さず、あるいは、画像解像度、品質、モダリティに強く依存するメッシュパイプラインが続く医療画像セグメンテーションを必要とする。 これらのアプローチは、他のイメージングドメインへの転送性に制限がある。 本研究では、リプシッツ正則性を持つ3次元深部符号距離関数を用いて心臓の形状を再構成する。 この目的のために、カルト空間内の複数のチャンバーの空間的関係をモデル化するために、パブリックデータベースから心臓MRIの形状を学習する。 また,本手法は,1つの心室からの点群や訓練されたMRIと異なるモダリティなどの部分的データから解剖モデルを再構成し,無作為な潜伏ベクトルをランダムにサンプリングすることで,新しい解剖形状を生成できることを実証した。

The efficient construction of an anatomical model is one of the major challenges of patient-specific in-silico models of the human heart. Current methods frequently rely on linear statistical models, allowing no advanced topological changes, or requiring medical image segmentation followed by a meshing pipeline, which strongly depends on image resolution, quality, and modality. These approaches are therefore limited in their transferability to other imaging domains. In this work, the cardiac shape is reconstructed by means of three-dimensional deep signed distance functions with Lipschitz regularity. For this purpose, the shapes of cardiac MRI reconstructions are learned from public databases to model the spatial relation of multiple chambers in Cartesian space. We demonstrate that this approach is also capable of reconstructing anatomical models from partial data, such as point clouds from a single ventricle, or modalities different from the trained MRI, such as electroanatomical mapping, and in addition, allows us to generate new anatomical shapes by randomly sampling latent vectors.
翻訳日:2023-09-07 02:07:04 公開日:2023-09-05
# 尺度が信頼できないとき--トップ$kのマルチラベル学習に対する非知覚的逆転摂動

When Measures are Unreliable: Imperceptible Adversarial Perturbations toward Top-$k$ Multi-Label Learning ( http://arxiv.org/abs/2309.00007v2 )

ライセンス: Link先を確認
Yuchen Sun, Qianqian Xu, Zitai Wang, and Qingming Huang(参考訳) ディープニューラルネットワークの成功により、マルチクラス学習からマルチラベル学習まで、さまざまな研究で敵対学習が広く注目を集めている。 しかし、既存のマルチラベル学習に対する敵対的攻撃は、従来の視覚的非受容性のみを追求するが、Precision@$k$やmAP@$k$といった尺度による新しい知覚可能な問題を無視する。 具体的には、よく訓練されたマルチラベル分類器がいくつかのサンプルの期待値よりはるかに下回る場合、被害者はモデル自体ではなく、このパフォーマンスの低下が攻撃によるものであることを容易に認識することができる。 したがって、理想的な多ラベル対人攻撃は、視覚的知覚を騙すだけでなく、測定の監視を回避できる。 そこで本研究ではまず,測定不能性の概念を提案する。 そして、視覚的および測定的不受容性を両立できるような対向的摂動を生成するために、新しい損失関数を考案した。 さらに、この目的を最適化するために、凸目標を満足する効率的なアルゴリズムを確立する。 最後に,PASCAL VOC 2012 や MS COCO, NUS WIDE などの大規模ベンチマークデータセットに対する広範な実験により,提案手法が上位$k のマルチラベルシステムを攻撃する上で優れていることを示す。

With the great success of deep neural networks, adversarial learning has received widespread attention in various studies, ranging from multi-class learning to multi-label learning. However, existing adversarial attacks toward multi-label learning only pursue the traditional visual imperceptibility but ignore the new perceptible problem coming from measures such as Precision@$k$ and mAP@$k$. Specifically, when a well-trained multi-label classifier performs far below the expectation on some samples, the victim can easily realize that this performance degeneration stems from attack, rather than the model itself. Therefore, an ideal multi-labeling adversarial attack should manage to not only deceive visual perception but also evade monitoring of measures. To this end, this paper first proposes the concept of measure imperceptibility. Then, a novel loss function is devised to generate such adversarial perturbations that could achieve both visual and measure imperceptibility. Furthermore, an efficient algorithm, which enjoys a convex objective, is established to optimize this objective. Finally, extensive experiments on large-scale benchmark datasets, such as PASCAL VOC 2012, MS COCO, and NUS WIDE, demonstrate the superiority of our proposed method in attacking the top-$k$ multi-label systems.
翻訳日:2023-09-07 01:55:25 公開日:2023-09-05
# マルチスケール超画素グラフ上の構造エントロピー最小化による非教師付き皮膚病変分割

Unsupervised Skin Lesion Segmentation via Structural Entropy Minimization on Multi-Scale Superpixel Graphs ( http://arxiv.org/abs/2309.01899v1 )

ライセンス: Link先を確認
Guangjie Zeng, Hao Peng, Angsheng Li, Zhiwei Liu, Chunyang Liu, Philip S. Yu, Lifang He(参考訳) 皮膚病変のセグメンテーションは皮膚画像解析の基本的な課題である。 病変領域の画素の複雑な特徴は病変の分節精度を阻害し,既存の深層学習に基づく手法では,この問題に対する解釈可能性に欠けることが多い。 本研究では,構造エントロピーと森林の孤立度検出に基づく新しい非教師付き皮膚病変sEgmentationフレームワーク,すなわちSLEDを提案する。 特に、皮膚病変は、皮膚内視鏡像から構築された超画素グラフの構造エントロピーを最小化することにより区分される。 次に, 健康な肌特徴の一貫性を特徴とし, 異常検出による新しいマルチスケールセグメンテーション機構を考案し, スーパーピクセル特徴を多スケールから活用することでセグメンテーション精度を向上させる。 4つの皮膚病変のベンチマーク実験を行い、SLEDと9つの非教師なしセグメンテーション法を比較した。 実験により,提案手法の優位性を示した。 さらに、SLEDの有効性を示すためにいくつかのケーススタディを分析した。

Skin lesion segmentation is a fundamental task in dermoscopic image analysis. The complex features of pixels in the lesion region impede the lesion segmentation accuracy, and existing deep learning-based methods often lack interpretability to this problem. In this work, we propose a novel unsupervised Skin Lesion sEgmentation framework based on structural entropy and isolation forest outlier Detection, namely SLED. Specifically, skin lesions are segmented by minimizing the structural entropy of a superpixel graph constructed from the dermoscopic image. Then, we characterize the consistency of healthy skin features and devise a novel multi-scale segmentation mechanism by outlier detection, which enhances the segmentation accuracy by leveraging the superpixel features from multiple scales. We conduct experiments on four skin lesion benchmarks and compare SLED with nine representative unsupervised segmentation methods. Experimental results demonstrate the superiority of the proposed framework. Additionally, some case studies are analyzed to demonstrate the effectiveness of SLED.
翻訳日:2023-09-06 16:54:53 公開日:2023-09-05
# 患者記録からの実際の治療経路の推測

Inferring Actual Treatment Pathways from Patient Records ( http://arxiv.org/abs/2309.01897v1 )

ライセンス: Link先を確認
Adrian Wilkins-Caruana, Madhushi Bandara, Katarzyna Musial, Daniel Catchpoole and Paul J. Kennedy(参考訳) 治療経路は、特定の疾患に対する推奨医療を概説するステップ・バイ・ステップの計画であり、異なる治療が患者の予後を改善すると修正される。 健康記録の検査は, この改訂プロセスにおいて重要な部分であるが, 複雑なイベントコーディング手法と経路関連アノテーションの欠如により, 患者の実際の治療を健康データから推測することは困難である。 本研究は, 表型医療データの共通形態である行政医療記録(ahr)から特定の患者集団の実際の治療手順を推測し, 治療経路関連研究における技術と方法論に基づくギャップに対処することを目的とする。 特定の患者群に対する現実的な治療手順を推測するためのAHRの検査方法であるDefragを紹介する。 Defragは、医療イベントシーケンスの意味と時間的意味を学び、複雑な医療データから治療ステップを確実に推測する。 私たちの知る限り、Defragはニューラルネットワーク(NN)を利用する最初の経路推論手法です。 また,経路推定のためのテストおよび検証フレームワークを開発し,Defragの経路推定能力を特徴付け,評価し,ベースラインと比較した。 乳がん, 肺癌, メラノーマに最も有効な経路断片を公衆医療記録で同定し, Defragの有効性を実証した。 さらに,defrag法の特性を示すために合成データ実験を行い,非nn法を大きく上回る複数のベースラインと比較した。 defragは既存の経路参照法を著しく上回り、ahrsから治療経路を推定する革新的な効果的なアプローチを提供する。 オープンソースコードは、この分野のさらなる研究を促進するために提供されている。

Treatment pathways are step-by-step plans outlining the recommended medical care for specific diseases; they get revised when different treatments are found to improve patient outcomes. Examining health records is an important part of this revision process, but inferring patients' actual treatments from health data is challenging due to complex event-coding schemes and the absence of pathway-related annotations. This study aims to infer the actual treatment steps for a particular patient group from administrative health records (AHR) - a common form of tabular healthcare data - and address several technique- and methodology-based gaps in treatment pathway-inference research. We introduce Defrag, a method for examining AHRs to infer the real-world treatment steps for a particular patient group. Defrag learns the semantic and temporal meaning of healthcare event sequences, allowing it to reliably infer treatment steps from complex healthcare data. To our knowledge, Defrag is the first pathway-inference method to utilise a neural network (NN), an approach made possible by a novel, self-supervised learning objective. We also developed a testing and validation framework for pathway inference, which we use to characterise and evaluate Defrag's pathway inference ability and compare against baselines. We demonstrate Defrag's effectiveness by identifying best-practice pathway fragments for breast cancer, lung cancer, and melanoma in public healthcare records. Additionally, we use synthetic data experiments to demonstrate the characteristics of the Defrag method, and to compare Defrag to several baselines where it significantly outperforms non-NN-based methods. Defrag significantly outperforms several existing pathway-inference methods and offers an innovative and effective approach for inferring treatment pathways from AHRs. Open-source code is provided to encourage further research in this area.
翻訳日:2023-09-06 16:54:35 公開日:2023-09-05
# LHC解析のための拡張対称性保存アテンションネットワーク

Extended Symmetry Preserving Attention Networks for LHC Analysis ( http://arxiv.org/abs/2309.01886v1 )

ライセンス: Link先を確認
Michael James Fenton, Alexander Shmakov, Hideki Okawa, Yuji Li, Ko-Yang Hsiao, Shih-Chieh Hsu, Daniel Whiteson, Pierre Baldi(参考訳) 不安定な重粒子を再構成するには、検出対象をパルトンに割り当てるために、多数の可能な置換を行う高度な技術が必要である。 一般化された注意機構、対称性保存注意ネットワーク(SPANet)に基づくアプローチは、以前は6つのハドロンジェットを生成する大型ハドロン衝突型加速器のクォーク対崩壊に対して適用されてきた。 ここでは、SPANetアーキテクチャを拡張して、レプトンのような複数の入力ストリームと、欠落した横運動量のようなグローバルイベントの特徴を考察する。 さらに、partonの割り当てを補完するために回帰と分類アウトプットを提供する。 本研究では,トップクォーク対の半レプトン崩壊とヒッグス粒子と共に生成するトップクォーク対の文脈におけるスパネットの拡張性能について検討する。 ttHの探索,トップクォーク質量の測定,およびトップクォーク対に崩壊する重いZ'の探索という,3つの代表的な研究の力の顕著な改善を見出した。 それぞれのケースでネットワークが何を学んだかを知るためのアブレーション研究を紹介する。

Reconstructing unstable heavy particles requires sophisticated techniques to sift through the large number of possible permutations for assignment of detector objects to partons. An approach based on a generalized attention mechanism, symmetry preserving attention networks (SPANet), has been previously applied to top quark pair decays at the Large Hadron Collider, which produce six hadronic jets. Here we extend the SPANet architecture to consider multiple input streams, such as leptons, as well as global event features, such as the missing transverse momentum. In addition, we provide regression and classification outputs to supplement the parton assignment. We explore the performance of the extended capability of SPANet in the context of semi-leptonic decays of top quark pairs as well as top quark pairs produced in association with a Higgs boson. We find significant improvements in the power of three representative studies: search for ttH, measurement of the top quark mass and a search for a heavy Z' decaying to top quark pairs. We present ablation studies to provide insight on what the network has learned in each case.
翻訳日:2023-09-06 16:54:06 公開日:2023-09-05
# QuantEase: 言語モデルの最適化に基づく量子化 -- 効率的かつ直感的なアルゴリズム

QuantEase: Optimization-based Quantization for Language Models -- An Efficient and Intuitive Algorithm ( http://arxiv.org/abs/2309.01885v1 )

ライセンス: Link先を確認
Kayhan Behdin, Ayan Acharya, Aman Gupta, Sathiya Keerthi, Rahul Mazumder(参考訳) 大規模言語モデル(llm)の人気が高まり、効率的なデプロイを可能にする圧縮技術への関心が高まっている。 本研究では,LLMのPTQ(Post-Training Quantization)に着目した。 近年の進歩を踏まえ,個々の層が別々の量子化を行う層別量子化フレームワーク quantease を紹介する。 この問題は離散的な非凸最適化であり、コーディネート・Descent(CD)技術に根ざしたアルゴリズムの開発を促す。 これらのCDベースの手法は、複雑な非凸層量子化問題に対する高品質な解を提供する。 特に、cdベースのアプローチでは、マトリックス反転や分解の必要性を回避して、マトリックス操作とベクトル操作のみに依存する、直接的な更新が特徴です。 我々はまた、我々のアプローチのoutlier-aware変種を探索し、完全な精度でかなりの重量(outlier)を保持できるようにしました。 提案手法は, GPTQなどの手法よりも15%向上し, 各種LLMおよびデータセットにわたる経験的評価において, パープレキシティとゼロショット精度の両面で最先端性能を実現する。 特に注目すべきは,LLMのほぼ3ビットの量子化と精度の低下を許容し,不均一な量子化やグループ化技術の必要性を回避し,SpQRなどの手法を最大2倍に改善する,という異常認識アルゴリズムである。

With the rising popularity of Large Language Models (LLMs), there has been an increasing interest in compression techniques that enable their efficient deployment. This study focuses on the Post-Training Quantization (PTQ) of LLMs. Drawing from recent advances, our work introduces QuantEase, a layer-wise quantization framework where individual layers undergo separate quantization. The problem is framed as a discrete-structured non-convex optimization, prompting the development of algorithms rooted in Coordinate Descent (CD) techniques. These CD-based methods provide high-quality solutions to the complex non-convex layer-wise quantization problems. Notably, our CD-based approach features straightforward updates, relying solely on matrix and vector operations, circumventing the need for matrix inversion or decomposition. We also explore an outlier-aware variant of our approach, allowing for retaining significant weights (outliers) with complete precision. Our proposal attains state-of-the-art performance in terms of perplexity and zero-shot accuracy in empirical evaluations across various LLMs and datasets, with relative improvements up to 15% over methods such as GPTQ. Particularly noteworthy is our outlier-aware algorithm's capability to achieve near or sub-3-bit quantization of LLMs with an acceptable drop in accuracy, obviating the need for non-uniform quantization or grouping techniques, improving upon methods such as SpQR by up to two times in terms of perplexity.
翻訳日:2023-09-06 16:53:45 公開日:2023-09-05
# 弾性力学系運動ポリシーによる安定性保証を伴うタスク一般化

Task Generalization with Stability Guarantees via Elastic Dynamical System Motion Policies ( http://arxiv.org/abs/2309.01884v1 )

ライセンス: Link先を確認
Tianyu Li, Nadia Figueroa(参考訳) dynamical system (ds) ベースのlearning from demonstration (lfd) は、いくつかの軌道から安定性と収束性を保証するリアクティブな運動ポリシーの学習を可能にする。 しかし、現在のDS学習技術は、基礎となる軌道を本質的に変更する明示的なタスクパラメータを無視して、新しいタスクインスタンスに一般化する柔軟性を欠いている。 本研究では,Gaussian Mixture Model(GMM)に基づく線形パラメータバリアリング(LPV)DSの定式化にタスクパラメータを組み込む,新しいDS学習および一般化手法であるElastic-DSを提案する。 我々のアプローチの中心は、SE(3)タスク関連フレームに制約されたGMMであるElastic-GMMである。 新しいタスクインスタンス/コンテキストが与えられたとき、Elastic-GMMはLaplacian Editingで変換され、LPV-DSポリシーの再見積に使用される。 Elastic-DSは本質的に構成的であり、柔軟なマルチステップタスクを構築するために使用できる。 我々は、制御理論上の望ましい保証を保ちながら、シミュレーションおよび実ロボット実験の無数の強度を示す。 追加ビデオはhttps://sites.google.com/view/elastic-dsで見ることができる。

Dynamical System (DS) based Learning from Demonstration (LfD) allows learning of reactive motion policies with stability and convergence guarantees from a few trajectories. Yet, current DS learning techniques lack the flexibility to generalize to new task instances as they ignore explicit task parameters that inherently change the underlying trajectories. In this work, we propose Elastic-DS, a novel DS learning, and generalization approach that embeds task parameters into the Gaussian Mixture Model (GMM) based Linear Parameter Varying (LPV) DS formulation. Central to our approach is the Elastic-GMM, a GMM constrained to SE(3) task-relevant frames. Given a new task instance/context, the Elastic-GMM is transformed with Laplacian Editing and used to re-estimate the LPV-DS policy. Elastic-DS is compositional in nature and can be used to construct flexible multi-step tasks. We showcase its strength on a myriad of simulated and real-robot experiments while preserving desirable control-theoretic guarantees. Supplementary videos can be found at https://sites.google.com/view/elastic-ds
翻訳日:2023-09-06 16:53:20 公開日:2023-09-05
# ピアソンのカイ平方統計量の非漸近近似と離散分布の確率重みの厳密に凸関数に対する信頼区間への応用

Non-asymptotic approximations for Pearson's chi-square statistic and its application to confidence intervals for strictly convex functions of the probability weights of discrete distributions ( http://arxiv.org/abs/2309.01882v1 )

ライセンス: Link先を確認
Eric Bax and Fr\'ed\'eric Ouimet(参考訳) 本稿では,多項確率に対する非漸近局所正規近似を開発する。 まず,同一の手段と共変性を持つ多変数正規値との一様ジッタ付き多項法によって引き起こされる測度間の非漸近的全変動境界を求める。 総変分境界から、ピアソンのカイ二乗統計量(多項ベクトルの正規化二次形式として記述される)と多変量正規アナログとの累積分布関数と量子結合の不等式の比較も導出する。 この結果を用いて離散分布の負エントロピーに対する信頼区間を求める。 本手法は離散分布の重みの厳密な凸関数に対する信頼区間を求めるためにより一般的に適用できる。

In this paper, we develop a non-asymptotic local normal approximation for multinomial probabilities. First, we use it to find non-asymptotic total variation bounds between the measures induced by uniformly jittered multinomials and the multivariate normals with the same means and covariances. From the total variation bounds, we also derive a comparison of the cumulative distribution functions and quantile coupling inequalities between Pearson's chi-square statistic (written as the normalized quadratic form of a multinomial vector) and its multivariate normal analogue. We apply our results to find confidence intervals for the negative entropy of discrete distributions. Our method can be applied more generally to find confidence intervals for strictly convex functions of the weights of discrete distributions.
翻訳日:2023-09-06 16:53:02 公開日:2023-09-05
# 画像合成のための勾配領域拡散モデル

Gradient Domain Diffusion Models for Image Synthesis ( http://arxiv.org/abs/2309.01875v1 )

ライセンス: Link先を確認
Yuanhao Gong(参考訳) 拡散モデルは生成画像とビデオ合成で人気を集めている。 しかし、拡散過程のため、それらは収束するために多くのステップを必要とする。 この問題に対処するため,本論文では,収束が速くなる勾配領域における拡散過程を提案する。 理由は2つある。 まず、ポアソン方程式により、勾配領域は元の画像領域と数学的に等価である。 したがって、画像領域の各拡散ステップは独自の対応する勾配領域表現を有する。 第2に、勾配領域は画像領域よりもはるかにスパースである。 その結果、勾配領域拡散モデルはより速く収束する。 いくつかの数値実験により、勾配領域拡散モデルは元の拡散モデルよりも効率的であることが確認された。 提案手法は画像処理,コンピュータビジョン,機械学習タスクなど,幅広いアプリケーションに適用可能である。

Diffusion models are getting popular in generative image and video synthesis. However, due to the diffusion process, they require a large number of steps to converge. To tackle this issue, in this paper, we propose to perform the diffusion process in the gradient domain, where the convergence becomes faster. There are two reasons. First, thanks to the Poisson equation, the gradient domain is mathematically equivalent to the original image domain. Therefore, each diffusion step in the image domain has a unique corresponding gradient domain representation. Second, the gradient domain is much sparser than the image domain. As a result, gradient domain diffusion models converge faster. Several numerical experiments confirm that the gradient domain diffusion models are more efficient than the original diffusion models. The proposed method can be applied in a wide range of applications such as image processing, computer vision and machine learning tasks.
翻訳日:2023-09-06 16:52:44 公開日:2023-09-05
# 大規模言語モデルの計画・探索・記憶能力について

On the Planning, Search, and Memorization Capabilities of Large Language Models ( http://arxiv.org/abs/2309.01868v1 )

ライセンス: Link先を確認
Yunhao Yang, Anshul Tomar(参考訳) GPT(Generative Pre-trained Transformer)シリーズのような大規模言語モデルの急速な進歩は、様々な分野に重大な影響を与えている。 本研究では,現在最先端の大規模言語モデル(GPT-4)の計画課題に対する可能性について検討する。 我々は、複数のプランニングサブフィールドにおいてその効果を調べ、その強みと限界を強調する。 包括的調査により,大規模言語モデルが計画問題の解決に優れている領域を特定し,適用性を制限する制約を明らかにする。 実験分析では,GPT-4による領域抽出,グラフ探索経路計画,および対向計画の性能に着目した。 次に、上記のタスクに対する思考連鎖(cot)能力を改善するために、ドメイン固有の大規模言語モデルを微調整する方法を提案する。 その結果、計画領域における大規模言語モデルの潜在的な応用に関する貴重な洞察が得られ、将来の研究が限界を克服し、その能力を拡大するための道を開く。

The rapid advancement of large language models, such as the Generative Pre-trained Transformer (GPT) series, has had significant implications across various disciplines. In this study, we investigate the potential of the state-of-the-art large language model (GPT-4) for planning tasks. We explore its effectiveness in multiple planning subfields, highlighting both its strengths and limitations. Through a comprehensive examination, we identify areas where large language models excel in solving planning problems and reveal the constraints that limit their applicability. Our empirical analysis focuses on GPT-4's performance in planning domain extraction, graph search path planning, and adversarial planning. We then propose a way of fine-tuning a domain-specific large language model to improve its Chain of Thought (CoT) capabilities for the above-mentioned tasks. The results provide valuable insights into the potential applications of large language models in the planning domain and pave the way for future research to overcome their limitations and expand their capabilities.
翻訳日:2023-09-06 16:52:35 公開日:2023-09-05
# ゼロ知識設定下でのMLベースのAndroidマルウェア検出に対する効率的なクエリベース攻撃

Efficient Query-Based Attack against ML-Based Android Malware Detection under Zero Knowledge Setting ( http://arxiv.org/abs/2309.01866v1 )

ライセンス: Link先を確認
Ping He, Yifan Xia, Xuhong Zhang, Shouling Ji(参考訳) Android OSの普及により、悪意のあるAndroidアプリケーションが攻撃者にとって魅力的なターゲットとなっている。 機械学習ベースの(MLベースの)Androidマルウェア検出(AMD)手法はこの問題に対処するために重要であるが、敵の例に対する脆弱性は懸念を引き起こす。 MLベースのAMD手法に対する現在の攻撃は、顕著な性能を示すが、実世界のシナリオでは現実的でない強い仮定(例えば、特徴空間に関する知識要件、モデルパラメータ、トレーニングデータセット)に依存している。 この制限に対処するために,MLベースのAMDメソッドに対する効率的なクエリベースのアタックフレームワークであるAdvDroidZeroを導入する。 本稿では,AdvDroidZeroが各種MLベースのAMD法,特に最先端の手法や現実のアンチウイルスソリューションに対して有効であることを示す。

The widespread adoption of the Android operating system has made malicious Android applications an appealing target for attackers. Machine learning-based (ML-based) Android malware detection (AMD) methods are crucial in addressing this problem; however, their vulnerability to adversarial examples raises concerns. Current attacks against ML-based AMD methods demonstrate remarkable performance but rely on strong assumptions that may not be realistic in real-world scenarios, e.g., the knowledge requirements about feature space, model parameters, and training dataset. To address this limitation, we introduce AdvDroidZero, an efficient query-based attack framework against ML-based AMD methods that operates under the zero knowledge setting. Our extensive evaluation shows that AdvDroidZero is effective against various mainstream ML-based AMD methods, in particular, state-of-the-art such methods and real-world antivirus solutions.
翻訳日:2023-09-06 16:52:20 公開日:2023-09-05
# BigFUSE:デュアルビュー光シート蛍光顕微鏡における画像形成前の地球環境対応画像融合

BigFUSE: Global Context-Aware Image Fusion in Dual-View Light-Sheet Fluorescence Microscopy with Image Formation Prior ( http://arxiv.org/abs/2309.01865v1 )

ライセンス: Link先を確認
Yu Liu, Gesine Muller, Nassir Navab, Carsten Marr, Jan Huisken, Tingying Peng(参考訳) 光シート蛍光顕微鏡(lsfm、light-sheet fluorescence microscope)は、試料の高分解能イメージングを可能にする平面照明技術で、光子が厚い組織を透過する際に光散乱によって生じる画質の低下を経験する。 この問題を回避するため、デュアルビューイメージングは有用である。 反対方向からサンプルを見ることで、標本の様々な部分を理想的にスキャンすることができる。 次に,最近の画像融合手法を適用し,局所的に2つのビューの画質を比較して焦点内画素を決定することで,視野の制限による空間的不整合度を計測する。 本稿では,局所的な画像品質に基づいて焦点差を判定しながら,試料中の光子伝播のグローバルな影響を考慮し,LSFMにおける画像融合を安定化する,大域的文脈認識画像フィルタBigFUSEを提案する。 デュアルビューLSFMに先立つ画像形成にインスパイアされた画像融合は、ベイズ理論を用いた焦点差境界の推定と見なされる。 (i)焦点測度に対する光散乱の影響は、その可能性に含まれている。 (ii)フォーカスデフォーカスに関する空間的一貫性を予め課す。 次に、期待最大アルゴリズムを用いてフォーカス・デフォーカス境界を推定する。 比較実験の結果,BigFUSEは情報融合時に構造化されたアーティファクトを排除できる最初のデュアルビューLSFMフィルタであり,自動画像融合の能力を強調している。

Light-sheet fluorescence microscopy (LSFM), a planar illumination technique that enables high-resolution imaging of samples, experiences defocused image quality caused by light scattering when photons propagate through thick tissues. To circumvent this issue, dualview imaging is helpful. It allows various sections of the specimen to be scanned ideally by viewing the sample from opposing orientations. Recent image fusion approaches can then be applied to determine in-focus pixels by comparing image qualities of two views locally and thus yield spatially inconsistent focus measures due to their limited field-of-view. Here, we propose BigFUSE, a global context-aware image fuser that stabilizes image fusion in LSFM by considering the global impact of photon propagation in the specimen while determining focus-defocus based on local image qualities. Inspired by the image formation prior in dual-view LSFM, image fusion is considered as estimating a focus-defocus boundary using Bayes Theorem, where (i) the effect of light scattering onto focus measures is included within Likelihood; and (ii) the spatial consistency regarding focus-defocus is imposed in Prior. The expectation-maximum algorithm is then adopted to estimate the focus-defocus boundary. Competitive experimental results show that BigFUSE is the first dual-view LSFM fuser that is able to exclude structured artifacts when fusing information, highlighting its abilities of automatic image fusion.
翻訳日:2023-09-06 16:52:04 公開日:2023-09-05
# RoboAgent:Semantic AugmentationとAction Chunkingによるロボット操作の一般化と効率性

RoboAgent: Generalization and Efficiency in Robot Manipulation via Semantic Augmentations and Action Chunking ( http://arxiv.org/abs/2309.01918v1 )

ライセンス: Link先を確認
Homanga Bharadhwaj, Jay Vakil, Mohit Sharma, Abhinav Gupta, Shubham Tulsiani, Vikash Kumar(参考訳) さまざまな設定で任意のオブジェクトを操作できる単一のロボットを持つことは、ロボットのデータセットの質に反する。 このようなデータセットの取得と成長は、手作業や運用コスト、安全性上の課題などによって困難である。 そのような普遍的なエージェントへの道は、広く一般化できるが合理的なデータ予算内で訓練される構造化されたフレームワークを必要とするだろう。 本稿では,マルチタスク操作能力を有するユニバーサルエージェントを訓練するための効率的なシステム(RoboAgent)を開発する。 (a)既存のデータセットを迅速に乗算できるセマンティック拡張 b) 過度に適合することなく,小型かつ多様なマルチモーダルデータセットを用いて実行ポリシーを抽出できる行動表現。 さらに、信頼性の高いタスク条件付けと表現型ポリシーアーキテクチャにより、言語コマンドを使用して指定された新しい状況において、エージェントは多様なスキルのレパートリーを表現できる。 たった7500のデモンストレーションを使って、12のユニークなスキルを持つ1つのエージェントを訓練し、さまざまなキッチンシーンで共通の日常活動にまたがる38以上のタスクの一般化を実証しました。 平均して、roboagentは、未発見の状況では40%以上前のメソッドを上回り、よりサンプル効率が高く、微調整による能力改善や拡張に適している。 ビデオ: https://robopen.github.io/

The grand aim of having a single robot that can manipulate arbitrary objects in diverse settings is at odds with the paucity of robotics datasets. Acquiring and growing such datasets is strenuous due to manual efforts, operational costs, and safety challenges. A path toward such an universal agent would require a structured framework capable of wide generalization but trained within a reasonable data budget. In this paper, we develop an efficient system (RoboAgent) for training universal agents capable of multi-task manipulation skills using (a) semantic augmentations that can rapidly multiply existing datasets and (b) action representations that can extract performant policies with small yet diverse multi-modal datasets without overfitting. In addition, reliable task conditioning and an expressive policy architecture enable our agent to exhibit a diverse repertoire of skills in novel situations specified using language commands. Using merely 7500 demonstrations, we are able to train a single agent capable of 12 unique skills, and demonstrate its generalization over 38 tasks spread across common daily activities in diverse kitchen scenes. On average, RoboAgent outperforms prior methods by over 40% in unseen situations while being more sample efficient and being amenable to capability improvements and extensions through fine-tuning. Videos at https://robopen.github.io/
翻訳日:2023-09-06 16:44:30 公開日:2023-09-05
# ランダム局所射影による放射ブラックホールからの高精度情報回復

High-fidelity information recovery from radiating black holes through random local projection ( http://arxiv.org/abs/2309.01917v1 )

ライセンス: Link先を確認
Ran Li, Xuanhua Wang, Kun Zhang, Jin Wang(参考訳) ブラックホールのユニタリ蒸発はホーキング放射からの情報の潜在的な検索を可能にし、明示的な復号プロトコルの開発に繋がる。 しかし、実効場理論の記述は、エントロピーを保存するために後期のユニタリティからの逸脱を必要とする冗長な自由度をもたらす。 これにより、情報回復は不確実となる。 一般的な見方では、そのような効果的なプロセスは、冗長な状態が量子テレポーテーションに似た最大絡み合ったペアで消滅しない限り、情報損失をもたらす。 この手紙では、この仮定は不要であることを示す。 本研究では、ランダムに選択されたモードをスクランブル・ユニタリから投影する非ユニタリダイナミクスを用いて、放射するブラックホールの情報回復可能性について検討する。 このモデルは、島式計算と整合したブラックホールのフォン・ノイマンエントロピーを生成する利点があり、ブラックホール内部の情報は、ページ時間後に失われることなくホーキング放射から復号できることを示す。 量子回路の実現とともに,2つのデコード戦略を提案する。 戦略の実験的検証では、7量子ビットのIBM量子プロセッサを使用し、これらの戦略の生存可能性とブラックホール内部を探索する量子プロセッサの可能性を示す。

The unitary evaporation of black holes enables the potential retrieval of information from Hawking radiation, leading to the development of explicit decoding protocols. However, the effective field theory description introduces redundant degrees of freedom that necessitate deviations from unitarity at late stages to conserve entropy. Consequently, information recovery becomes uncertain. The prevailing view is that such effective process can result in information loss unless the redundant states are annihilated in maximally entangled pairs, resembling quantum teleportation. In this Letter, we show that this assumption is unnecessary. We study information recoverability in a radiating black hole through the non-unitary dynamics that projects the randomly-selected modes from a scrambling unitary. We show that the model has the merit of producing the von Neumann entropy of black holes consistent with the island formula calculation and that information in the black hole interior can be decoded from the Hawking radiation without loss after the Page time. We present two decoding strategies along with their quantum circuit realizations. Experimental verification of the strategies employs 7-qubit IBM quantum processors, demonstrating the viability of these strategies and the potential for quantum processors to probe the black hole interior.
翻訳日:2023-09-06 16:44:07 公開日:2023-09-05
# キャビティ真空ゆらぎのehrenfestモデルと3レベル原子からの放出方法

Ehrenfest Modeling of Cavity Vacuum Fluctuations and How to Achieve Emission from a Three-Level Atom ( http://arxiv.org/abs/2309.01912v1 )

ライセンス: Link先を確認
Ming-Hsiu Hsieh, Alex Krotz, Roel Tempelaar(参考訳) 物質と光学キャビティモードの強いカップリングの効率的なモデリングには、古典的キャビティ場がエレンフェストの定理を通じて物質の量子状態と自己整合的に相互作用する平均場混合量子-古典力学を用いる。 従来, 2レベル原子による真空揺らぎからエネルギーの非物理的描画を解く手段として, 空洞場の真空揺らぎを量子力学的基底状態から切り離す手法として, 分離平均場(DC-MF)ダイナミックス(decoupled mean-field dynamics)を導入した。 ここでは、任意の数の(非退化)原子レベルのDC-MFダイナミクスを一般化し、従来の平均場力学によって予測される3レベル原子からの非物理的放出の欠如を解消することを示す。 さらに、直流-MFにより再吸収と2光子放出のプロセスの改善が図られた。

A much-needed solution for the efficient modeling of strong coupling between matter and optical cavity modes is offered by mean-field mixed quantum--classical dynamics, where a classical cavity field interacts self-consistently with quantum states of matter through Ehrenfest's theorem. We previously introduced a modified mean-field approach, referred to as decoupled mean-field (DC-MF) dynamics, wherein vacuum fluctuations of the cavity field are decoupled from the quantum-mechanical ground state as a means to resolve an unphysical drawing of energy from the vacuum fluctuations by a two-level atom. Here, we generalize DC-MF dynamics for an arbitrary number of (nondegenerate) atomic levels, and show that it resolves an unphysical lack of emission from a three-level atom predicted by conventional mean-field dynamics. We furthermore show DC-MF to provide an improved description of reabsorption and two-photon emission processes.
翻訳日:2023-09-06 16:43:47 公開日:2023-09-05
# 量子回路蒸留と圧縮

Quantum Circuit Distillation and Compression ( http://arxiv.org/abs/2309.01911v1 )

ライセンス: Link先を確認
Shunsuke Daimon, Kakeru Tsunekawa, Ryoto Takeuchi, Takahiro Sagawa, Naoki Yamamoto, Eiji Saitoh(参考訳) 量子コヒーレンスは環境騒音に弱い。 長い量子計算が量子プロセッサ上でエラー訂正なしで実行される場合、ノイズはしばしば致命的なエラーを引き起こし、計算を混乱させる。 そこで,本研究では,短いが,元の回路とほぼ同一の出力を生成するのに十分な機能を有する量子回路を生成するために,量子回路蒸留を提案する。 蒸留回路はノイズに敏感ではなく、量子コヒーレンスが量子ビットで壊れる前に計算を完了させることができる。 我々は、強化学習モデルを構築して量子回路蒸留器を作成し、それを逆量子フーリエ変換(IQFT)とショアの量子素分解に適用した。 得られた蒸留回路は、ibm量子プロセッサの正しい計算を可能にする。 量子回路蒸留器を用いて、一般の$n$-qubit IQFTを近似する量子回路を生成する一般的な規則も見出した。 量子回路蒸留器は、ノイズの多い量子プロセッサの性能を改善するための新しいアプローチを提供する。

Quantum coherence in a qubit is vulnerable to environmental noise. When long quantum calculation is run on a quantum processor without error correction, the noise often causes fatal errors and messes up the calculation. Here, we propose quantum-circuit distillation to generate quantum circuits that are short but have enough functions to produce an output almost identical to that of the original circuits. The distilled circuits are less sensitive to the noise and can complete calculation before the quantum coherence is broken in the qubits. We created a quantum-circuit distillator by building a reinforcement learning model, and applied it to the inverse quantum Fourier transform (IQFT) and Shor's quantum prime factorization. The obtained distilled circuit allows correct calculation on IBM-Quantum processors. By working with the quantum-circuit distillator, we also found a general rule to generate quantum circuits approximating the general $n$-qubit IQFTs. The quantum-circuit distillator offers a new approach to improve performance of noisy quantum processors.
翻訳日:2023-09-06 16:43:26 公開日:2023-09-05
# 物理学インフォームド強化学習に関する調査 : レビューとオープン問題

A Survey on Physics Informed Reinforcement Learning: Review and Open Problems ( http://arxiv.org/abs/2309.01909v1 )

ライセンス: Link先を確認
Chayan Banerjee, Kien Nguyen, Clinton Fookes, Maziar Raissi(参考訳) 機械学習フレームワークに物理情報を含めることで、多くのアプリケーション分野に革命をもたらした。 これには、物理的な制約を取り入れ、物理的な法則に固執することで学習プロセスを強化することが含まれる。 本研究は, 強化学習への応用について検討する。 本稿では,物理プライオリティーとして知られる物理情報の統合に関する文献の徹底的なレビューを行い,一般に物理インフォームド強化学習(pirl)と呼ばれる強化学習アプローチについて述べる。 我々は,既存の作品を分類し,比較・対比し,重要な知見を導出するためのバックボーンとして,強化学習パイプラインを用いた新しい分類法を提案する。 既存の研究は、統合のためにモデル化された支配物理の表現・形式、典型的な強化学習アーキテクチャへの具体的な貢献、基礎となる強化学習パイプラインステージとの関係について分析される。 また,既存のpirlアプローチにおけるコア・ラーニング・アーキテクチャと物理学的統合バイアス(観察的,帰納的,学習)を特定し,それらをより理解と適応のためにさらに分類するために利用する。 物理インフォームド能力の実装に関する包括的な視点を提供することにより、分類学はPIRLに対して凝集的なアプローチを示す。 このアプローチが適用された領域と、存在するギャップと機会を特定します。 さらに、分類学は未解決の問題や今後の研究を導く課題に光を当てている。 この新たな分野は、実世界のシナリオにおける物理的な妥当性、精度、データ効率、適用性を高めて強化学習アルゴリズムを強化する大きな可能性を秘めている。

The inclusion of physical information in machine learning frameworks has revolutionized many application areas. This involves enhancing the learning process by incorporating physical constraints and adhering to physical laws. In this work we explore their utility for reinforcement learning applications. We present a thorough review of the literature on incorporating physics information, as known as physics priors, in reinforcement learning approaches, commonly referred to as physics-informed reinforcement learning (PIRL). We introduce a novel taxonomy with the reinforcement learning pipeline as the backbone to classify existing works, compare and contrast them, and derive crucial insights. Existing works are analyzed with regard to the representation/ form of the governing physics modeled for integration, their specific contribution to the typical reinforcement learning architecture, and their connection to the underlying reinforcement learning pipeline stages. We also identify core learning architectures and physics incorporation biases (i.e., observational, inductive and learning) of existing PIRL approaches and use them to further categorize the works for better understanding and adaptation. By providing a comprehensive perspective on the implementation of the physics-informed capability, the taxonomy presents a cohesive approach to PIRL. It identifies the areas where this approach has been applied, as well as the gaps and opportunities that exist. Additionally, the taxonomy sheds light on unresolved issues and challenges, which can guide future research. This nascent field holds great potential for enhancing reinforcement learning algorithms by increasing their physical plausibility, precision, data efficiency, and applicability in real-world scenarios.
翻訳日:2023-09-06 16:43:11 公開日:2023-09-05
# SyntheWorld: 土地被覆マッピングと建物変更検出のための大規模合成データセット

SyntheWorld: A Large-Scale Synthetic Dataset for Land Cover Mapping and Building Change Detection ( http://arxiv.org/abs/2309.01907v1 )

ライセンス: Link先を確認
Jian Song and Hongruixuan Chen and Naoto Yokoya(参考訳) コスト効率で認識される合成データセットは、コンピュータビジョンタスクや技術の発展において重要な役割を果たす。 しかし、リモートセンシング画像処理では、より大規模で多様な3Dモデルの需要により、合成データセットの作成が困難になる。 この複雑さは、限られたデータ取得や高いアノテーションコストを含む、実際のリモートセンシングデータセットに関連する困難によって複雑化され、高品質な合成代替品の必要性が増す。 これを解決するために、私たちはSyntheWorldという、品質、多様性、スケールに相容れない合成データセットを紹介します。 サブメーターレベルのピクセルを持つ4万枚の画像と8つのカテゴリの詳細なランドカバーアノテーション、変更検出タスクを構築するための変更アノテーションを構築するための4万枚のバイテンポラルイメージペアを提供する。 我々は,SyntheWorldの有効性を検証するために,複数のベンチマークリモートセンシングデータセットの実験を行い,合成データが有利な条件について検討した。 リモートセンシング画像処理研究を容易にするSyntheWorldをリリースする。

Synthetic datasets, recognized for their cost effectiveness, play a pivotal role in advancing computer vision tasks and techniques. However, when it comes to remote sensing image processing, the creation of synthetic datasets becomes challenging due to the demand for larger-scale and more diverse 3D models. This complexity is compounded by the difficulties associated with real remote sensing datasets, including limited data acquisition and high annotation costs, which amplifies the need for high-quality synthetic alternatives. To address this, we present SyntheWorld, a synthetic dataset unparalleled in quality, diversity, and scale. It includes 40,000 images with submeter-level pixels and fine-grained land cover annotations of eight categories, and it also provides 40,000 pairs of bitemporal image pairs with building change annotations for building change detection task. We conduct experiments on multiple benchmark remote sensing datasets to verify the effectiveness of SyntheWorld and to investigate the conditions under which our synthetic data yield advantages. We will release SyntheWorld to facilitate remote sensing image processing research.
翻訳日:2023-09-06 16:42:47 公開日:2023-09-05
# Tetris: VQEアプリケーションのためのコンパイルフレームワーク

Tetris: A compilation Framework for VQE Applications ( http://arxiv.org/abs/2309.01905v1 )

ライセンス: Link先を確認
Yuwei Jin, Zirui Li, Fei Hua, Yanhao Chen, Henry Chen, Yipeng Huang, and Eddy Z. Zhang(参考訳) 量子コンピューティングは重ね合わせと絡み合いの原理を利用して複雑な問題を解決することに有望である。 変分量子固有ソルバ(vqe)アルゴリズムは、量子アルゴリズムの領域において重要なアプローチであり、量子ハードウェア上の量子システムのシミュレーションを可能にする。 本稿では,vqeタスクの効率性と効率性を高めるために設計された2つの革新的手法「テトリス」と「高速ブリッジング」を提案する。 テトリス法は、UCCSDアンサッツの論理回路位相内でのキャンセル機会を明らかにすることにより、VQE最適化の重要な側面に対処する。 テトリスは、最先端のコンパイラである'paulihedral'と比較して、最大20%のcnotゲート数、約119048のcnotゲート、30%の深さ減少を示す。 テトリスに加えて,スワップ操作に大きく依存する従来のqubitルーティング手法の代替として,高速ブリッジング手法を提案する。 高速ブリッジングはキュービットルーティングに対する新しいアプローチを提供し、スワップ重ルーティングに関連する制限を緩和する。 高速ブリッジングをvqeフレームワークに統合することにより、cnotゲート数と回路深さのさらなる低減を観測する。 ブリッジング技術は、qaoaアプリケーションにおいて最大27%のcnotゲート削減を達成できる。 テトリスと高速架橋を組み合わせることで,VQE性能向上のための総合戦略を提案する。 実験結果は,テトリスがキャンセルの機会を明らかにすることの有効性を示し,ゲート数と回路深度の最小化において,テトリスと高速ブリッジングの共生関係を示す。 本稿では,VQE技術の進歩だけでなく,量子アルゴリズム最適化の幅広い分野にも貢献する。

Quantum computing has shown promise in solving complex problems by leveraging the principles of superposition and entanglement. The Variational Quantum Eigensolver (VQE) algorithm stands as a pivotal approach in the realm of quantum algorithms, enabling the simulation of quantum systems on quantum hardware. In this paper, we introduce two innovative techniques, namely "Tetris" and "Fast Bridging," designed to enhance the efficiency and effectiveness of VQE tasks. The "Tetris" technique addresses a crucial aspect of VQE optimization by unveiling cancellation opportunities within the logical circuit phase of UCCSD ansatz. Tetris demonstrates a remarkable reduction up to 20% in CNOT gate counts, about 119048 CNOT gates, and 30% depth reduction compared to the state-of-the-art compiler 'Paulihedral'. In addition to Tetris, we present the "Fast Bridging" technique as an alternative to the conventional qubit routing methods that heavily rely on swap operations. The fast bridging offers a novel approach to qubit routing, mitigating the limitations associated with swap-heavy routing. By integrating the fast bridging into the VQE framework, we observe further reductions in CNOT gate counts and circuit depth. The bridging technique can achieve up to 27% CNOT gate reduction in the QAOA application. Through a combination of Tetris and the fast bridging, we present a comprehensive strategy for enhancing VQE performance. Our experimental results showcase the effectiveness of Tetris in uncovering cancellation opportunities and demonstrate the symbiotic relationship between Tetris and the fast bridging in minimizing gate counts and circuit depth. This paper contributes not only to the advancement of VQE techniques but also to the broader field of quantum algorithm optimization.
翻訳日:2023-09-06 16:42:31 公開日:2023-09-05
# 荒野捜索救難におけるコンピュータビジョン/機械学習のためのドローン画像の改善

Improving Drone Imagery For Computer Vision/Machine Learning in Wilderness Search and Rescue ( http://arxiv.org/abs/2309.01904v1 )

ライセンス: Link先を確認
Robin Murphy, Thomas Manzini(参考訳) 本稿では,コンピュータビジョン/機械学習(CV/ML)モデルの使用を損なうドローン画像の取得におけるギャップについて述べる。 これは、荒野の捜索・救助事件でドローンを使用するための記入作業プロセスを説明する。 広範囲の検索フェーズからの大量のデータは、手動で検査しなければならない大量の画像のため、CV/ML技術にとって最大の機会となる。 2023年、日本最大の行方不明者検索の1つ、ウームラド捜索事件が事例調査として挙げられた。 広域検索を行うドローンチームは、収集したデータがCV/ML後処理に使用されるかどうかを事前に知らないかもしれないが、自動収集ソフトウェアで一般的に検索を改善するデータ収集手順が存在する。 ドローンチームがCV/MLを使用する予定なら、モデルに関する知識を利用して飛行をさらに最適化することができる。

This paper describes gaps in acquisition of drone imagery that impair the use with computer vision/machine learning (CV/ML) models and makes five recommendations to maximize image suitability for CV/ML post-processing. It describes a notional work process for the use of drones in wilderness search and rescue incidents. The large volume of data from the wide area search phase offers the greatest opportunity for CV/ML techniques because of the large number of images that would otherwise have to be manually inspected. The 2023 Wu-Murad search in Japan, one of the largest missing person searches conducted in that area, serves as a case study. Although drone teams conducting wide area searches may not know in advance if the data they collect is going to be used for CV/ML post-processing, there are data collection procedures that can improve the search in general with automated collection software. If the drone teams do expect to use CV/ML, then they can exploit knowledge about the model to further optimize flights.
翻訳日:2023-09-06 16:42:03 公開日:2023-09-05
# ハードサンプルリマイニング戦略によるロバスト植物病診断に向けて

Towards Robust Plant Disease Diagnosis with Hard-sample Re-mining Strategy ( http://arxiv.org/abs/2309.01903v1 )

ライセンス: Link先を確認
Quan Huu Cap, Atsushi Fukuda, Satoshi Kagiwada, Hiroyuki Uga, Nobusuke Iwasaki, Hitoshi Iyatomi(参考訳) リッチなアノテーション情報により、オブジェクト検出に基づく自動植物病診断システム(例えば、yoloベースのシステム)は、病気の位置の検出や優れた分類性能などの分類ベースのシステム(例えば、effernetベースの)よりも優れていることが多い。 これらの検出システムの欠点の1つは、実際の症状が存在しない無注釈の健康データを扱うことである。 実際には、健康な植物データは多くの病気データと非常によく似ている。 したがって、これらのモデルはしばしば、健康な画像の誤検出ボックスを生成する。 加えて、新しいデータを検出モデルにラベル付けるのは通常時間がかかる。 HSM (Hard-sample mining) は、誤り検出ボックスを新しいトレーニングサンプルとして使用することで、モデルを再訓練する一般的な手法である。 しかしながら、任意の量のハードサンプルを盲目的に選択すると、疾患と健康データとの類似性が高いため、他の疾患の診断性能が低下する。 本稿では,健康なデータの診断性能を高めるとともに,適切なレベルでハードサンプルトレーニング画像を戦略的に選択することで疾患データの性能を向上させることを目的とした,ハードサンプルリマイニング(HSReM)と呼ばれる簡易かつ効果的なトレーニング戦略を提案する。 実践的な2つの8クラスキュウリと10クラスのトマトデータセット(42.7Kと35.6Kの画像)に基づく実験により、我々のHSReMトレーニング戦略は、大規模未確認データに対する全体的な診断性能を大幅に改善することを示した。 具体的には、HSReM戦略を用いて訓練されたオブジェクト検出モデルは、分類に基づく最先端のNetV2-Largeモデルやオリジナルのオブジェクト検出モデルに比べ、優れた結果を得ただけでなく、HSM戦略を用いたモデルよりも優れていた。

With rich annotation information, object detection-based automated plant disease diagnosis systems (e.g., YOLO-based systems) often provide advantages over classification-based systems (e.g., EfficientNet-based), such as the ability to detect disease locations and superior classification performance. One drawback of these detection systems is dealing with unannotated healthy data with no real symptoms present. In practice, healthy plant data appear to be very similar to many disease data. Thus, those models often produce mis-detected boxes on healthy images. In addition, labeling new data for detection models is typically time-consuming. Hard-sample mining (HSM) is a common technique for re-training a model by using the mis-detected boxes as new training samples. However, blindly selecting an arbitrary amount of hard-sample for re-training will result in the degradation of diagnostic performance for other diseases due to the high similarity between disease and healthy data. In this paper, we propose a simple but effective training strategy called hard-sample re-mining (HSReM), which is designed to enhance the diagnostic performance of healthy data and simultaneously improve the performance of disease data by strategically selecting hard-sample training images at an appropriate level. Experiments based on two practical in-field eight-class cucumber and ten-class tomato datasets (42.7K and 35.6K images) show that our HSReM training strategy leads to a substantial improvement in the overall diagnostic performance on large-scale unseen data. Specifically, the object detection model trained using the HSReM strategy not only achieved superior results as compared to the classification-based state-of-the-art EfficientNetV2-Large model and the original object detection model, but also outperformed the model using the HSM strategy.
翻訳日:2023-09-06 16:41:47 公開日:2023-09-05
# Sparkの汎用的かつ効率的なオンラインチューニングに向けて

Towards General and Efficient Online Tuning for Spark ( http://arxiv.org/abs/2309.01901v1 )

ライセンス: Link先を確認
Yang Li, Huaijun Jiang, Yu Shen, Yide Fang, Xiaofeng Yang, Danqing Huang, Xinyi Zhang, Wentao Zhang, Ce Zhang, Peng Chen and Bin Cui(参考訳) 分散データ分析システム -- sparkは大量の異種データを処理するための一般的な選択肢であるが、高いパフォーマンスを達成するためにパラメータを調整することは難しい。 最近の研究では、この問題を解決するために自動チューニング技術を採用するが、機能制限、高いオーバーヘッド、非効率的な検索という3つの問題に苦しむ。 本稿では,3つの問題を同時に処理できる汎用的で効率的なSparkチューニングフレームワークを提案する。 まず,複数のチューニング目標と制約を便利にサポート可能な一般化チューニング定式化と,この一般化最適化問題を解決するためのベイズ最適化(bo)に基づく解を提案する。 第2に,既存の手法におけるオフライン評価の追加によるオーバヘッドを回避するため,各ジョブの実際の定期実行(オンライン評価)に合わせてパラメータをチューニングすることを提案する。 オンラインジョブ実行中の安全性を確保するため,安全な領域をモデル化する安全な構成取得手法を設計する。 最後に, 適応部分空間生成, 近似勾配降下, メタラーニングという3つの革新的手法を用いて探索過程を高速化する。 このフレームワークを独立したクラウドサービスとして実装し、Tencentのデータプラットフォームに適用しました。 公開ベンチマークと大規模生産タスクの実証結果は、実用性、一般性、効率性の両面でその優位性を示している。 特に、このサービスは平均57.00%のメモリコストと、20イテレーションで25Kの本番環境でのCPUコストを34.93%削減している。

The distributed data analytic system -- Spark is a common choice for processing massive volumes of heterogeneous data, while it is challenging to tune its parameters to achieve high performance. Recent studies try to employ auto-tuning techniques to solve this problem but suffer from three issues: limited functionality, high overhead, and inefficient search. In this paper, we present a general and efficient Spark tuning framework that can deal with the three issues simultaneously. First, we introduce a generalized tuning formulation, which can support multiple tuning goals and constraints conveniently, and a Bayesian optimization (BO) based solution to solve this generalized optimization problem. Second, to avoid high overhead from additional offline evaluations in existing methods, we propose to tune parameters along with the actual periodic executions of each job (i.e., online evaluations). To ensure safety during online job executions, we design a safe configuration acquisition method that models the safe region. Finally, three innovative techniques are leveraged to further accelerate the search process: adaptive sub-space generation, approximate gradient descent, and meta-learning method. We have implemented this framework as an independent cloud service, and applied it to the data platform in Tencent. The empirical results on both public benchmarks and large-scale production tasks demonstrate its superiority in terms of practicality, generality, and efficiency. Notably, this service saves an average of 57.00% memory cost and 34.93% CPU cost on 25K in-production tasks within 20 iterations, respectively.
翻訳日:2023-09-06 16:41:13 公開日:2023-09-05
# 機能的脳ネットワーク解析のための多レベル注意を伴う動的脳トランスフォーマ

Dynamic Brain Transformer with Multi-level Attention for Functional Brain Network Analysis ( http://arxiv.org/abs/2309.01941v1 )

ライセンス: Link先を確認
Xuan Kan, Antonio Aodong Chen Gu, Hejie Cui, Ying Guo, Carl Yang(参考訳) 最近の神経画像研究は、特に機能的磁気共鳴画像において、ネットワーク中心脳分析の重要性を強調している。 ディープニューラルネットワークの出現は、臨床結果の予測と、脳ネットワークに基づいた個人分類に対する大きな関心を育んでいる。 しかし、従来の静的脳ネットワーク解析によるアプローチは、脳機能のダイナミズムを捉えるのに限られた可能性を秘めている。 近年の研究では動的脳ネットワークの利用が試みられているが、その高次元と複雑さは大きな課題となっている。 本稿では、静的脳ネットワークと動的脳ネットワークを組み合わせて、より効果的でニュアンスの高い脳機能解析を行う新しい手法であるDynamic bRAin Transformer(DART)を提案する。 我々のモデルは、静的脳ネットワークをベースラインとして使用し、動的脳ネットワークを統合し、従来の手法に対する性能を向上させる。 我々は,注意機構を革新的に採用し,モデルの説明可能性を高め,動的脳ネットワークの時間的変動を利用した。 提案手法は血液酸素レベル依存性信号の低信号対雑音比に対するロバストな解決策を提供する。 また、脳回路や動的ネットワークが最終的な予測に寄与する貴重な洞察を提供する。 このように、DRATは神経画像研究において有望な方向性を示し、脳の組織と神経回路の役割の包括的理解に寄与している。

Recent neuroimaging studies have highlighted the importance of network-centric brain analysis, particularly with functional magnetic resonance imaging. The emergence of Deep Neural Networks has fostered a substantial interest in predicting clinical outcomes and categorizing individuals based on brain networks. However, the conventional approach involving static brain network analysis offers limited potential in capturing the dynamism of brain function. Although recent studies have attempted to harness dynamic brain networks, their high dimensionality and complexity present substantial challenges. This paper proposes a novel methodology, Dynamic bRAin Transformer (DART), which combines static and dynamic brain networks for more effective and nuanced brain function analysis. Our model uses the static brain network as a baseline, integrating dynamic brain networks to enhance performance against traditional methods. We innovatively employ attention mechanisms, enhancing model explainability and exploiting the dynamic brain network's temporal variations. The proposed approach offers a robust solution to the low signal-to-noise ratio of blood-oxygen-level-dependent signals, a recurring issue in direct DNN modeling. It also provides valuable insights into which brain circuits or dynamic networks contribute more to final predictions. As such, DRAT shows a promising direction in neuroimaging studies, contributing to the comprehensive understanding of brain organization and the role of neural circuits.
翻訳日:2023-09-06 16:34:47 公開日:2023-09-05
# CodeApex: 大規模言語モデルのためのバイリンガルプログラミング評価ベンチマーク

CodeApex: A Bilingual Programming Evaluation Benchmark for Large Language Models ( http://arxiv.org/abs/2309.01940v1 )

ライセンス: Link先を確認
Lingyue Fu, Huacan Chai, Shuang Luo, Kounianhua Du, Weiming Zhang, Longteng Fan, Jiayi Lei, Renting Rui, Jianghao Lin, Yuchen Fang, Yifan Liu, Jingkuan Wang, Siyuan Qi, Kangning Zhang, Weinan Zhang, Yong Yu(参考訳) 大規模言語モデル(llm)の出現により、モデルのプログラミング能力が大幅に改善され、研究者から注目を集めている。 我々は,LLMのプログラミング理解とコード生成能力に着目した,バイリンガルなベンチマークデータセットであるCodeApexを提案する。 codeapexは、概念理解、コモンセンス推論、マルチホップ推論という、プログラミング理解タスクのllmを評価するための3つのタイプのマルチチョイス質問を含んでいる。 さらに、CodeApexはアルゴリズムによる質問とそれに対応するテストケースを使用して、LLMが生成するコード品質を評価する。 汎用モデルと特殊モデルの両方を含む14の最先端LCMを評価した。 GPTは最高のプログラミング能力を示し、2つのタスクでそれぞれ50%と56%の近似精度を達成する。 プログラミングタスクの改善の余地は依然として大きい。 CodeApex が LLM のコーディング能力を評価するリファレンスとして機能し,開発と成長をさらに促進できることを願っている。 データセットは \url{https://github.com/APEXLAB/CodeApex.git} でリリースされる。 CodeApexの提出サイトは \url{https://apex.sjtu.edu.cn/codeapex/} である。

With the emergence of Large Language Models (LLMs), there has been a significant improvement in the programming capabilities of models, attracting growing attention from researchers. We propose CodeApex, a bilingual benchmark dataset focusing on the programming comprehension and code generation abilities of LLMs. CodeApex comprises three types of multiple-choice questions: conceptual understanding, commonsense reasoning, and multi-hop reasoning, designed to evaluate LLMs on programming comprehension tasks. Additionally, CodeApex utilizes algorithmic questions and corresponding test cases to assess the code quality generated by LLMs. We evaluate 14 state-of-the-art LLMs, including both general-purpose and specialized models. GPT exhibits the best programming capabilities, achieving approximate accuracies of 50% and 56% on the two tasks, respectively. There is still significant room for improvement in programming tasks. We hope that CodeApex can serve as a reference for evaluating the coding capabilities of LLMs, further promoting their development and growth. Datasets are released at \url{https://github.com/APEXLAB/CodeApex.git}. CodeApex submission website is \url{https://apex.sjtu.edu.cn/codeapex/}.
翻訳日:2023-09-06 16:34:25 公開日:2023-09-05
# 確実に安全なシステム: 制御可能なagiへの唯一の道

Provably safe systems: the only path to controllable AGI ( http://arxiv.org/abs/2309.01933v1 )

ライセンス: Link先を確認
Max Tegmark (MIT), Steve Omohundro (Beneficial AI Research)(参考訳) 人間の要求を満たすように構築することで、強力な人工知能(AGI)で安全に繁栄する人類への道について述べる。 我々は、これが間もなく技術的に実現可能で、高度なAIを使って正式な検証と機械的解釈が可能であると論じている。 また、安全制御AGIを保証する唯一の経路であると主張する。 最終的には、この肯定的な結果にソリューションが貢献する課題のリストを作成し、読者をこの作業に参加させます。

We describe a path to humanity safely thriving with powerful Artificial General Intelligences (AGIs) by building them to provably satisfy human-specified requirements. We argue that this will soon be technically feasible using advanced AI for formal verification and mechanistic interpretability. We further argue that it is the only path which guarantees safe controlled AGI. We end with a list of challenge problems whose solution would contribute to this positive outcome and invite readers to join in this work.
翻訳日:2023-09-06 16:34:06 公開日:2023-09-05
# 弱い測定相互作用におけるメーター揺らぎの起源

Origin of meter fluctuations in weak measurement interactions ( http://arxiv.org/abs/2309.01932v1 )

ライセンス: Link先を確認
Tomonori Matsushita and Holger F. Hofmann(参考訳) 測定値は、観測可能な対象の値をメートルシフトにマップし、結果として、メートル状態の初期統計と観測対象の量子統計とを組み合わせるメートル読み出しが行われる。 弱い測定相互作用の限界においても、測定相互作用によって引き起こされる読み出し変動の変化から、観測可能な対象の揺らぎに関する情報を抽出することができる。 そこで,このハイゼンベルク像を用いて,測定値応答における非線形性の影響を含む,十分な弱測定相互作用による測定値の読み出し統計量の変化を分析する。 その後のシステム測定で追加情報が得られると、対象の観測可能な後選択された統計に基づいてメーター変動が変化する。 また,測定間相互作用における計測器の動力学にポストセレクション確率が依存することによるメーター変動の直接的変化を解析により明らかにする。 量子フォーマリズムは、この動的項を観測対象の物理的変動と区別することを難しくし、観測対象の実際の条件変動と測定バックアクションに関連する動的擬分散とを区別することの重要性を強調している。

Measurements map the value of a target observable onto a meter shift, resulting in a meter readout that combines the initial statistics of the meter state with the quantum statistics of the target observable. Even in the limit of weak measurement interactions, some information about the fluctuations of the target observable can be extracted from the change in the readout fluctuations caused by the measurement interaction. Here, we apply the Heisenberg picture to analyze the changes in the meter readout statistics caused by sufficiently weak measurement interactions, including the effects of non-linearities in the meter response. When additional information is obtained in a subsequent measurement of the system, the meter fluctuations are modified based on the post-selected statistics of the target observable. In addition, our analysis reveals a direct modification of the meter fluctuations due to the dependence of the post-selection probability on the dynamics induced by the meter in the measurement interaction. We point out that the quantum formalism makes it difficult to distinguish this dynamic term from the physical fluctuations of the target observable and stress the importance of distinguishing between genuine conditional fluctuations of the target observable and the dynamic pseudovariance associated with the measurement back-action.
翻訳日:2023-09-06 16:33:58 公開日:2023-09-05
# 量子力学の疑問と疑問

Questionable and Unquestionable in Quantum Mechanics ( http://arxiv.org/abs/2309.01928v1 )

ライセンス: Link先を確認
Laszlo E. Szabo, Marton Gomori, Zalan Gyenis(参考訳) 我々は、観測可能な事象(測定操作と測定結果)の相対周波数のみに基づく、非常に単純な操作仮定から量子物理学の基本仮定を導出した。 我々は,システム自身の状態と同一視できる概念を,可能なすべての測定操作に対してシステムの確率的振る舞いを特徴付けるという意味で分離する。 我々は,システムの考えられる状態のいくつかの重要な特徴について検討する。 これらの研究はすべて古典コルモゴロヴィアン確率論の枠組みに残っており、操作項で記述できる任意の物理系(伝統的に古典的あるいは量子的に分類される)は古典コルモゴロヴィアン確率論で記述できる。 論文の第2部では、操作項で記述できる任意のものは、もし私たちが望むならば、ヒルベルト空間の量子力学的形式論で表現できることを示す。 それぞれの測定結果はヒルベルト空間全体にまたがる一対の直交閉部分空間の系で表すことができ、系の状態は純粋状態作用素で表すことができ、その結果の確率は通常のトレース式で再現できる。 各実数値量は適切な自己共役作用素と関連付けることができ、可能な測定結果が固有値であり、結果イベントは問題の作用素のスペクトル分解に従って固有空間によって表現される。 これは、量子論の基本的な仮定は、実際に解析的なステートメントであることを示している:それらは、システムが運用用語で記述できるという事実以外に、物理的なシステムについて何も教えてくれない。 これはほぼ真実です。 論文の最後に、得られた表現が標準量子力学と完全に同一でないいくつかの微妙な点について論じる。

We derive the basic postulates of quantum physics from a few very simple operational assumptions based exclusively on the relative frequencies of observable events (measurement operations and measurement outcomes). We isolate a notion which can be identified with the system's own state, in the sense that it characterizes the system's probabilistic behavior against all possible measurement operations. We investigate some important features of the possible states of the system. All those investigations remain within the framework of classical Kolmogorovian probability theory, meaning that any physical system (traditionally categorized as classical or quantum) that can be described in operational terms can be described within classical Kolmogorovian probability theory. In the second part of the paper we show that anything that can be described in operational terms can, if we wish, be represented in the Hilbert space quantum mechanical formalism. The outcomes of each measurement can be represented by a system of pairwise orthogonal closed subspaces spanning the entire Hilbert space; the states of the system can be represented by pure state operators, and the probabilities of the outcomes can be reproduced by the usual trace formula. Each real valued quantity can be associated with a suitable self-adjoint operator, such that the possible measurement results are the eigenvalues and the outcome events are represented by the eigenspaces, according to the spectral decomposition of the operator in question. This suggests that the basic postulates of quantum theory are in fact analytic statements: they do not tell us anything about a physical system beyond the fact that the system can be described in operational terms. This is almost true. At the end of the paper we discuss a few subtle points where the representation we obtained is not completely identical with standard quantum mechanics.
翻訳日:2023-09-06 16:33:40 公開日:2023-09-05
# キャビティ誘起トポロジカルエッジとコーナー状態

Cavity-induced topological edge and corner states ( http://arxiv.org/abs/2309.01927v1 )

ライセンス: Link先を確認
Motohiko Ezawa(参考訳) 光子空洞内のXX結合を交互に行う2レベルシステムについて検討した。 これは、相互作用が非常に非局所的な光子と等しく結合した自由ボソンモデルにマッピングされる。 興味深いトポロジカル現象は光子結合の関数として現れる。 光子エネルギーレベルは、ある光子カップリングでゼロエネルギー位相エッジと反交差し、その周りで対称エッジ状態は光子との混合によって非ゼロエネルギーを得る。 さらに、光子結合が十分に強ければ、光子状態は位相的ゼロエネルギーエッジまたはコーナー状態へと変換される。 空洞によって引き起こされる位相的エッジまたはコーナー状態である。 一方、他の位相的エッジやコーナー状態は光子と干渉せず、空洞の存在下でもエネルギーはゼロのままである。 su-schrieffer-heegerモデルにおけるキャビティ誘起位相エッジ状態と呼吸カゴメモデルにおけるキャビティ誘起位相コーナー状態の解析を行った。

We investigate a two-level system with alternating XX coupling in a photon cavity. It is mapped to a free boson model equally coupled to a photon, whose interaction is highly nonlocal. Some intriguing topological phenomena emerge as a function of the photon coupling. The photon energy level anticrosses the zero-energy topological edges at a certain photon coupling, around which the symmetric edge state acquires nonzero energy due to the mixing with the photon. Furthermore, the photon state is transformed into the topological zero-energy edge or corner state when the photon coupling is strong enough. It is a cavity-induced topological edge or corner state. On the other hand, the other topological edge or corner states do not couple with the photon and remains at zero energy even in the presence of the cavity. We analyze a cavity-induced topological edge state in the Su-Schrieffer-Heeger model and a cavity-induced topological corner state in the breathing Kagome model.
翻訳日:2023-09-06 16:33:11 公開日:2023-09-05
# DR-Pose:カテゴリーレベルの6次元オブジェクト位置推定のための2段階変形・登録パイプライン

DR-Pose: A Two-stage Deformation-and-Registration Pipeline for Category-level 6D Object Pose Estimation ( http://arxiv.org/abs/2309.01925v1 )

ライセンス: Link先を確認
Lei Zhou, Zhiyang Liu, Runze Gan, Haozhe Wang, Marcelo H. Ang Jr(参考訳) カテゴリーレベルのオブジェクトポーズ推定では、所定のカテゴリからオブジェクトの6Dポーズと3Dメトリックサイズを推定する。 近年のアプローチでは、ポーズ推定精度を向上させるためにカテゴリ形状の事前情報を参考にしているが、パイプラインに2つの異なるタスクがあるため、シングルステージのネットワーク設計とトレーニング方法が準最適性能をもたらす。 本稿では, 単段設計に対する二段パイプラインの利点について論じる。 そこで本研究では,完成支援型変形ステージとスケールド登録ステージからなる2段階の変形・登録パイプライン dr-pose を提案する。 第1段階では、点雲完了法を用いて対象物の見えない部分を発生させ、それに続く変形を先行形状に導く。 第2段階では、ポーズに敏感な特徴を抽出し、第1段階からの変形結果に基づいて、正準空間における対象部分点雲の表現を予測できるように新規登録ネットワークが設計されている。 DR-Pose は CAMERA25 と REAL275 のベンチマークにおいて、最先端の先行手法よりも優れた結果をもたらす。 コードはhttps://github.com/zray26/dr-pose.gitで入手できる。

Category-level object pose estimation involves estimating the 6D pose and the 3D metric size of objects from predetermined categories. While recent approaches take categorical shape prior information as reference to improve pose estimation accuracy, the single-stage network design and training manner lead to sub-optimal performance since there are two distinct tasks in the pipeline. In this paper, the advantage of two-stage pipeline over single-stage design is discussed. To this end, we propose a two-stage deformation-and registration pipeline called DR-Pose, which consists of completion-aided deformation stage and scaled registration stage. The first stage uses a point cloud completion method to generate unseen parts of target object, guiding subsequent deformation on the shape prior. In the second stage, a novel registration network is designed to extract pose-sensitive features and predict the representation of object partial point cloud in canonical space based on the deformation results from the first stage. DR-Pose produces superior results to the state-of-the-art shape prior-based methods on both CAMERA25 and REAL275 benchmarks. Codes are available at https://github.com/Zray26/DR-Pose.git.
翻訳日:2023-09-06 16:32:56 公開日:2023-09-05
# Infinite Horizon Average Reward Markov決定過程におけるポリシー勾配アルゴリズムの回帰解析

Regret Analysis of Policy Gradient Algorithm for Infinite Horizon Average Reward Markov Decision Processes ( http://arxiv.org/abs/2309.01922v1 )

ライセンス: Link先を確認
Qinbo Bai, Washim Uddin Mondal, Vaneet Aggarwal(参考訳) 本稿では、無限水平平均報酬マルコフ決定過程(MDP)について考察する。 この文脈における既存の作品と区別して、我々のアプローチは一般的なポリシー勾配に基づくアルゴリズムの力を利用し、線形mdp構造を仮定する制約から解放する。 政策勾配に基づくアルゴリズムを提案し,その大域収束特性を示す。 次に、提案アルゴリズムが$\tilde{\mathcal{o}}({t}^{3/4})$ regretであることを証明する。 本稿は,平均報酬シナリオの文脈において,一般パラメータ化ポリシ勾配アルゴリズムの残差計算に関する最初の研究を行ない,先駆的な試みである。

In this paper, we consider an infinite horizon average reward Markov Decision Process (MDP). Distinguishing itself from existing works within this context, our approach harnesses the power of the general policy gradient-based algorithm, liberating it from the constraints of assuming a linear MDP structure. We propose a policy gradient-based algorithm and show its global convergence property. We then prove that the proposed algorithm has $\tilde{\mathcal{O}}({T}^{3/4})$ regret. Remarkably, this paper marks a pioneering effort by presenting the first exploration into regret-bound computation for the general parameterized policy gradient algorithm in the context of average reward scenarios.
翻訳日:2023-09-06 16:32:36 公開日:2023-09-05
# 因果スコアリング医療画像の解説--元ビボ腎臓結石像を事例として

Causal Scoring Medical Image Explanations: A Case Study On Ex-vivo Kidney Stone Images ( http://arxiv.org/abs/2309.01921v1 )

ライセンス: Link先を確認
Armando Villegas-Jimenez and Daniel Flores-Araiza and Francisco Lopez-Tiro and Gilberto Ochoa-Ruiz andand Christian Daul(参考訳) 人間のユーザがアウトプットの原因を知っていれば、アウトプットに責任のあるプロセスを把握でき、それを理解するために、その入力に基づいてモデルのアウトプットの原因を示すために多くの説明可能な方法が提案されている。 それにもかかわらず、入力と説明とモデルの出力の間の因果関係の定量的な測定についてはほとんど報告されていない。 このような状況に対処するため,我々は,クラスの画像に対する関心対象の領域と分類器の出力から特徴の因果関係を測定する手法を検討する。 本研究は,クラス毎の関心対象の面積が説明可能な方法でマスクによって示される場合と,人間の注釈によって示される場合とで測定された因果関係の改善を示す。 そのため、CaES (Causal Explanation Score) の名称が選ばれた。

On the promise that if human users know the cause of an output, it would enable them to grasp the process responsible for the output, and hence provide understanding, many explainable methods have been proposed to indicate the cause for the output of a model based on its input. Nonetheless, little has been reported on quantitative measurements of such causal relationships between the inputs, the explanations, and the outputs of a model, leaving the assessment to the user, independent of his level of expertise in the subject. To address this situation, we explore a technique for measuring the causal relationship between the features from the area of the object of interest in the images of a class and the output of a classifier. Our experiments indicate improvement in the causal relationships measured when the area of the object of interest per class is indicated by a mask from an explainable method than when it is indicated by human annotators. Hence the chosen name of Causal Explanation Score (CaES)
翻訳日:2023-09-06 16:32:27 公開日:2023-09-05
# 野生のディープフェイク動画理解に向けて

Towards Understanding of Deepfake Videos in the Wild ( http://arxiv.org/abs/2309.01919v1 )

ライセンス: Link先を確認
Beomsang Cho, Binh M. Le, Jiwon Kim, Simon Woo, Shahroz Tariq, Alsharif Abuadbba, Kristen Moore(参考訳) 近年、ディープフェイクの懸念が高まり、研究者はこの問題に取り組むためにベンチマークデータセットと検出アルゴリズムを開発するようになった。 しかし、既存のデータセットは、その有効性を阻害する重大な欠点に苦しむ。 特に、これらのデータセットは、さまざまなプラットフォームで共有されている最先端のメソッドによって生成された最新のディープフェイクビデオを含んでいない。 この制限は、現実世界のディープフェイク生産で使用される生成AI技術の急速な進化を妨げている。 このIRB承認研究における我々の貢献は、この知識ギャップを現在の現実世界のディープフェイクから深く分析することで橋渡しすることである。 reddit、youtube、tiktok、bilibiliの4か国から4つの異なる言語を対象とする4つのプラットフォームから集められた2000のdeepfakeビデオからなる、これまでで最大かつ最も多様で最新のdeepfakeデータセット(rwdf-23)を初めて紹介した。 これまでの研究を超えてデータセットの範囲を広げることで、オンラインプラットフォームの進化を続ける展望を反映して、現実世界のディープフェイクコンテンツの範囲を広げることができます。 また,クリエーター,操作戦略,目的,実世界のコンテンツ制作手法など,ディープフェイクのさまざまな側面を包括的に分析する。 これにより、異なるコンテキストにおけるディープフェイクのニュアンスと特性に関する貴重な洞察を得ることができる。 最後に、ビデオコンテンツに加えて、視聴者のコメントや対話も収集し、ディープフェイクコンテンツによるインターネットユーザーのエンゲージメントを探求することができました。 このリッチな文脈情報を考慮することで、進化するディープフェイク現象とそのオンラインプラットフォームへの影響を包括的に理解することを目指している。

Deepfakes have become a growing concern in recent years, prompting researchers to develop benchmark datasets and detection algorithms to tackle the issue. However, existing datasets suffer from significant drawbacks that hamper their effectiveness. Notably, these datasets fail to encompass the latest deepfake videos produced by state-of-the-art methods that are being shared across various platforms. This limitation impedes the ability to keep pace with the rapid evolution of generative AI techniques employed in real-world deepfake production. Our contributions in this IRB-approved study are to bridge this knowledge gap from current real-world deepfakes by providing in-depth analysis. We first present the largest and most diverse and recent deepfake dataset (RWDF-23) collected from the wild to date, consisting of 2,000 deepfake videos collected from 4 platforms targeting 4 different languages span created from 21 countries: Reddit, YouTube, TikTok, and Bilibili. By expanding the dataset's scope beyond the previous research, we capture a broader range of real-world deepfake content, reflecting the ever-evolving landscape of online platforms. Also, we conduct a comprehensive analysis encompassing various aspects of deepfakes, including creators, manipulation strategies, purposes, and real-world content production methods. This allows us to gain valuable insights into the nuances and characteristics of deepfakes in different contexts. Lastly, in addition to the video content, we also collect viewer comments and interactions, enabling us to explore the engagements of internet users with deepfake content. By considering this rich contextual information, we aim to provide a holistic understanding of the {evolving} deepfake phenomenon and its impact on online platforms.
翻訳日:2023-09-06 16:32:12 公開日:2023-09-05
# 2023年のゼロショット画像キャプションチャレンジ

NICE 2023 Zero-shot Image Captioning Challenge ( http://arxiv.org/abs/2309.01961v1 )

ライセンス: Link先を確認
Taehoon Kim, Pyunghwan Ahn, Sangyun Kim, Sihaeng Lee, Mark Marsden, Alessandra Sala, Seung Hwan Kim, Honglak Lee, Kyounghoon Bae, Bohyung Han, Kyoung Mu Lee, Xiangyu Wu, Yi Gao, Hailiang Zhang, Yang Yang, Weili Guo, Jianfeng Lu, Youngtaek Oh, Jae Won Cho, Dong-jin Kim, In So Kweon, Junmo Kim, Wooyoung Kang, Won Young Jhoo, Byungseok Roh, Jonghwan Mun, Solgil Oh, Kenan Emir Ak, Gwang-Gook Lee, Yan Xu, Mingwei Shen, Kyomin Hwang, Wonsik Shin, Kamin Lee, Wonhark Park, Dongkwan Lee, Nojun Kwak, Yujin Wang, Yimu Wang, Tiancheng Gu, Xingchang Lv, Mingmao Sun(参考訳) 本稿では、NICE project\footnote{\url{https://nice.lgresearch.ai/}}を紹介し、2023年のNICEチャレンジの結果と成果を共有する。 このプロジェクトはコンピュータビジョンのコミュニティに挑戦し、精度と公正性の両面で最先端の技術を推し進める堅牢な画像キャプションモデルを開発するよう設計されている。 この課題を通じて、画像キャプションモデルは、多くのドメインからさまざまな視覚概念を含む新しい評価データセットを用いてテストされた。 課題には具体的なトレーニングデータがなかったため、トレーニング中に見られなかった新しいタイプの画像記述に適応するためには、課題エントリが要求された。 本報告では,新たに提案したNICEデータセット,評価方法,課題結果,上位項目の技術的詳細について述べる。 この課題の結果が、様々な視覚言語タスクにおけるAIモデルの改善に寄与することを期待している。

In this report, we introduce NICE project\footnote{\url{https://nice.lgresearch.ai/}} and share the results and outcomes of NICE challenge 2023. This project is designed to challenge the computer vision community to develop robust image captioning models that advance the state-of-the-art both in terms of accuracy and fairness. Through the challenge, the image captioning models were tested using a new evaluation dataset that includes a large variety of visual concepts from many domains. There was no specific training data provided for the challenge, and therefore the challenge entries were required to adapt to new types of image descriptions that had not been seen during training. This report includes information on the newly proposed NICE dataset, evaluation methods, challenge results, and technical details of top-ranking entries. We expect that the outcomes of the challenge will contribute to the improvement of AI models on various vision-language tasks.
翻訳日:2023-09-06 16:23:58 公開日:2023-09-05
# 分数化スピンの位相同期

Topological synchronization of fractionalized spins ( http://arxiv.org/abs/2309.01960v1 )

ライセンス: Link先を確認
Christopher W. W\"achtler, Joel E. Moore(参考訳) Affleck-Kennedy-Lieb-Tasaki (AKLT)モデルのギャップ対称相は開鎖の端で分数化されたスピンを示す。 我々は、SU(2)対称性を破り、大域スピン降下散逸器を適用することで、これらの分数化スピンの同期を実現することを示す。 追加の局所散逸子は基底状態多様体への収束を保証する。 この同期のどの側面がhaldane-gap位相全体においてロバストであるかを理解するために、外部フィールドの必要性をなくしながら同期を不安定にする二次項を減少させる。 基底状態部分空間内では、グローバル降下散逸器のみを用いて安定性が回復する。 これらの結果は、分数化自由度が、トポロジカルな保護から生じるかなりの堅牢性を持つ拡張系で同期可能であることを示す。

The gapped symmetric phase of the Affleck-Kennedy-Lieb-Tasaki (AKLT) model exhibits fractionalized spins at the ends of an open chain. We show that breaking SU(2) symmetry and applying a global spin-lowering dissipator achieves synchronization of these fractionalized spins. Additional local dissipators ensure convergence to the ground state manifold. In order to understand which aspects of this synchronization are robust within the entire Haldane-gap phase, we reduce the biquadratic term which eliminates the need for an external field but destabilizes synchronization. Within the ground state subspace, stability is regained using only the global lowering dissipator. These results demonstrate that fractionalized degrees of freedom can be synchronized in extended systems with a significant degree of robustness arising from topological protection.
翻訳日:2023-09-06 16:23:44 公開日:2023-09-05
# カスタマイズ可能な事前学習による低照度画像エンハンスの実現

Empowering Low-Light Image Enhancer through Customized Learnable Priors ( http://arxiv.org/abs/2309.01958v1 )

ライセンス: Link先を確認
Naishan Zheng, Man Zhou, Yanmeng Dong, Xiangyu Rui, Jie Huang, Chongyi Li, Feng Zhao(参考訳) 深層ニューラルネットワークは、輝度の向上とノイズの除去により、低光度画像の拡張において顕著な進歩を遂げている。 しかし、既存のほとんどの手法は、画像強調タスクの本質的な先行を無視し、透明性と解釈性に欠けるエンドツーエンドマッピングネットワークをヒューリスティックに構築している。 これらの問題を解決するために、いくつかの解決法が提案されているが、それらは曖昧で暗黙的な優先順位を提供する近距離演算子ネットワークに依存している。 本研究では,低照度画像強調のためのパラダイムを提案し,より深く展開するパラダイムの透明性を向上させるために,カスタマイズ可能な事前学習の可能性を探る。 Masked Autoencoder(MAE)の強力な特徴表現能力により、MAEベースの照明とノイズ先行をカスタマイズし、2つの視点から再開発する。 1) \textbf{structure flow}: 正規光画像から照明特性にMAEを訓練し、展開アーキテクチャの近位演算子設計に組み込む; そして m2) \textbf{optimization flow}: 正規光画像から勾配表現にMAEを訓練し、モデル出力のノイズを制限する正規化項として使用する。 これらの設計によりモデルの解釈可能性や表現能力が向上し,複数の低照度画像強調データセットに対する実験により,提案手法よりも提案手法が優れていることを示す。 コードはhttps://github.com/zheng980629/CUEで入手できる。

Deep neural networks have achieved remarkable progress in enhancing low-light images by improving their brightness and eliminating noise. However, most existing methods construct end-to-end mapping networks heuristically, neglecting the intrinsic prior of image enhancement task and lacking transparency and interpretability. Although some unfolding solutions have been proposed to relieve these issues, they rely on proximal operator networks that deliver ambiguous and implicit priors. In this work, we propose a paradigm for low-light image enhancement that explores the potential of customized learnable priors to improve the transparency of the deep unfolding paradigm. Motivated by the powerful feature representation capability of Masked Autoencoder (MAE), we customize MAE-based illumination and noise priors and redevelop them from two perspectives: 1) \textbf{structure flow}: we train the MAE from a normal-light image to its illumination properties and then embed it into the proximal operator design of the unfolding architecture; and m2) \textbf{optimization flow}: we train MAE from a normal-light image to its gradient representation and then employ it as a regularization term to constrain noise in the model output. These designs improve the interpretability and representation capability of the model.Extensive experiments on multiple low-light image enhancement datasets demonstrate the superiority of our proposed paradigm over state-of-the-art methods. Code is available at https://github.com/zheng980629/CUE.
翻訳日:2023-09-06 16:23:33 公開日:2023-09-05
# 解釈可能なクロスモーダル推論に関する調査

A Survey on Interpretable Cross-modal Reasoning ( http://arxiv.org/abs/2309.01955v1 )

ライセンス: Link先を確認
Dizhan Xue, Shengsheng Qian, Zuyi Zhou, Changsheng Xu(参考訳) 近年,マルチメディア解析から医療診断まで幅広い応用分野において,様々なモダリティの理解と推論のプロセスであるcmr(cross-modal reasoning)が重要視されている。 AIシステムの展開がより普及するにつれて、これらのシステムの意思決定プロセスにおける透明性と理解性の要求が高まっている。 この調査は、高い予測性能を達成することだけでなく、人間の理解可能な説明を提供することを目的としている、解釈可能なクロスモーダル推論(I-CMR)の領域を掘り下げるものである。 本調査では,I-CMRの3段階分類法について概説する。 さらに,本調査では,既存のcmrデータセットを解説のためのアノテーションでレビューする。 最後に,I-CMRの課題を要約し,今後の方向性について考察する。 本研究は,パノラマ的かつ包括的な視点を提供し,芸術の現状を照らし,機会を見極めることにより,新興研究分野の進展を触媒することを目的としている。

In recent years, cross-modal reasoning (CMR), the process of understanding and reasoning across different modalities, has emerged as a pivotal area with applications spanning from multimedia analysis to healthcare diagnostics. As the deployment of AI systems becomes more ubiquitous, the demand for transparency and comprehensibility in these systems' decision-making processes has intensified. This survey delves into the realm of interpretable cross-modal reasoning (I-CMR), where the objective is not only to achieve high predictive performance but also to provide human-understandable explanations for the results. This survey presents a comprehensive overview of the typical methods with a three-level taxonomy for I-CMR. Furthermore, this survey reviews the existing CMR datasets with annotations for explanations. Finally, this survey summarizes the challenges for I-CMR and discusses potential future directions. In conclusion, this survey aims to catalyze the progress of this emerging research area by providing researchers with a panoramic and comprehensive perspective, illuminating the state of the art and discerning the opportunities.
翻訳日:2023-09-06 16:23:06 公開日:2023-09-05
# 対話生成のためのバイレベルスケジュールサンプリング

Bilevel Scheduled Sampling for Dialogue Generation ( http://arxiv.org/abs/2309.01953v1 )

ライセンス: Link先を確認
Jiawen Liu and Kan Li(参考訳) 露光バイアスは多くの自然言語処理タスク、特にダイアログ生成において共通の課題となる。 この問題に対して、研究者らは様々な手法を考案し、定期的なサンプリングが露光バイアスを軽減する効果的な方法であることが証明された。 しかし、既存の最先端のスケジュールサンプリング手法では、文レベルの情報の重要性やしきい値切り出し保証の方法を見落としている閾値切り出しサンプリングにおける現在のサンプリング語の品質のみを考慮している。 本稿では,文レベルの情報を考慮し,単語レベルの品質に組み込む2段階のスケジュールサンプリングモデルを提案する。 サンプリングの多様性を高め,モデルの適応性を向上させるために,文レベルの情報と単語レベルの情報を組み合わせた結果を適切な範囲にマッピングする滑らかな関数を提案し,しきい値切り換えではなく,マッピングされた値に基づく確率的サンプリングを導入する。 dailydialogとペルソナチャットデータセットで行った実験では,提案手法の有効性が示され,露光バイアス問題を大幅に軽減し,最先端のスケジュールサンプリング法を上回っている。

Exposure bias poses a common challenge in numerous natural language processing tasks, particularly in the dialog generation. In response to this issue, researchers have devised various techniques, among which scheduled sampling has proven to be an effective method for mitigating exposure bias. However, the existing state-of-the-art scheduled sampling methods solely consider the current sampling words' quality for threshold truncation sampling, which overlooks the importance of sentence-level information and the method of threshold truncation warrants further discussion. In this paper, we propose a bilevel scheduled sampling model that takes the sentence-level information into account and incorporates it with word-level quality. To enhance sampling diversity and improve the model's adaptability, we propose a smooth function that maps the combined result of sentence-level and word-level information to an appropriate range, and employ probabilistic sampling based on the mapped values instead of threshold truncation. Experiments conducted on the DailyDialog and PersonaChat datasets demonstrate the effectiveness of our proposed methods, which significantly alleviate the exposure bias problem and outperform state-of-the-art scheduled sampling methods.
翻訳日:2023-09-06 16:22:48 公開日:2023-09-05
# RADIO: 基準非依存のダビングビデオ合成

RADIO: Reference-Agnostic Dubbing Video Synthesis ( http://arxiv.org/abs/2309.01950v1 )

ライセンス: Link先を確認
Dongyeun Lee, Chaewon Kim, Sangjoon Yu, Jaejun Yoo, Gyeong-Moon Park(参考訳) 音声駆動音声ヘッド生成における最も難しい問題の一つは、正確な同期を確保しながら高精度なディテールを達成することである。 単一の参照画像だけを考えると、意味のあるアイデンティティ属性を抽出することがさらに難しくなり、しばしばネットワークが顔と唇の構造を近づきすぎてしまう。 これらの問題に対処するために、参照画像のポーズや表現に関係なく高品質な「ビデオ」を提供するためのフレームワークRADIOを導入する。 鍵となるのは、オーディオと参照機能からなる潜在空間を使用してデコーダ層を変調することだ。 さらに、特に唇領域において、高忠実度の詳細を強調するために、ViTブロックをデコーダに組み込む。 実験の結果,RADIOは忠実度を損なうことなく高い同期性を示すことがわかった。 特に,基準フレームが基礎的真理から著しく逸脱する過酷なシナリオでは,本手法は最先端手法よりも優れており,その頑健性が強調される。 事前訓練されたモデルとコードはレビュー後に公開される。

One of the most challenging problems in audio-driven talking head generation is achieving high-fidelity detail while ensuring precise synchronization. Given only a single reference image, extracting meaningful identity attributes becomes even more challenging, often causing the network to mirror the facial and lip structures too closely. To address these issues, we introduce RADIO, a framework engineered to yield high-quality dubbed videos regardless of the pose or expression in reference images. The key is to modulate the decoder layers using latent space composed of audio and reference features. Additionally, we incorporate ViT blocks into the decoder to emphasize high-fidelity details, especially in the lip region. Our experimental results demonstrate that RADIO displays high synchronization without the loss of fidelity. Especially in harsh scenarios where the reference frame deviates significantly from the ground truth, our method outperforms state-of-the-art methods, highlighting its robustness. Pre-trained model and codes will be made public after the review.
翻訳日:2023-09-06 16:22:27 公開日:2023-09-05
# サロゲートスコアを用いた効率よいベイズ計算イメージング

Efficient Bayesian Computational Imaging with a Surrogate Score-Based Prior ( http://arxiv.org/abs/2309.01949v1 )

ライセンス: Link先を確認
Berthy T. Feng, Katherine L. Bouman(参考訳) ベイズ逆画像のためのスコアベース先行値の効率的な利用のための代理関数を提案する。 最近の研究は、ODEベースの対数確率関数に訴えることにより、スコアベースの拡散モデルを不適切な画像問題を解決するための確率的先行モデルに変えた。 しかし、この関数の評価は計算量的に非効率であり、高次元画像の後方推定を阻害する。 提案するサロゲート前処理は,スコアに基づく拡散モデルのエビデンスに基づく。 変動推定に先立ってサロゲートを実証し, 大規模画像の近似的後方サンプリングを行う。 先行研究の正確な前処理と比較すると,我々のサロゲート前処理は変動画像分布の少なくとも2桁の最適化を加速する。 また,提案手法は推定時ハイパーパラメータチューニングを含む非ベイズ基底線よりも高忠実度画像を実現する。 本研究は,画像の汎用的優先としてスコアベース拡散モデルを用いるための実践的な道筋を定めている。

We propose a surrogate function for efficient use of score-based priors for Bayesian inverse imaging. Recent work turned score-based diffusion models into probabilistic priors for solving ill-posed imaging problems by appealing to an ODE-based log-probability function. However, evaluating this function is computationally inefficient and inhibits posterior estimation of high-dimensional images. Our proposed surrogate prior is based on the evidence lower-bound of a score-based diffusion model. We demonstrate the surrogate prior on variational inference for efficient approximate posterior sampling of large images. Compared to the exact prior in previous work, our surrogate prior accelerates optimization of the variational image distribution by at least two orders of magnitude. We also find that our principled approach achieves higher-fidelity images than non-Bayesian baselines that involve hyperparameter-tuning at inference. Our work establishes a practical path forward for using score-based diffusion models as general-purpose priors for imaging.
翻訳日:2023-09-06 16:22:11 公開日:2023-09-05
# TODM:列車が複数の効率的なスーパーネットベースのRNN-T圧縮をオンデバイスASRモデルに展開

TODM: Train Once Deploy Many Efficient Supernet-Based RNN-T Compression For On-device ASR Models ( http://arxiv.org/abs/2309.01947v1 )

ライセンス: Link先を確認
Yuan Shangguan, Haichuan Yang, Danni Li, Chunyang Wu, Yassir Fathullah, Dilin Wang, Ayushi Dalmia, Raghuraman Krishnamoorthi, Ozlem Kalinli, Junteng Jia, Jay Mahadeokar, Xin Lei, Mike Seltzer, Vikas Chandra(参考訳) 自動音声認識(ASR)モデルは、デバイスにデプロイする前に、特定のハードウェアに最適化する必要がある。 これはモデルのハイパーパラメータをチューニングしたり、アーキテクチャのバリエーションを探索することで実現できる。 これらの変更後のモデルの再トレーニングと再検証は、リソース集約的なタスクになり得る。 本稿では,TODM(Train Once Deploy Many)を提案する。ハードウェアフレンドリーなデバイス上でのASRモデルのサイズを,単一のトレーニングジョブと同等のGPU時間で効率的にトレーニングするための新しいアプローチである。 TODMは、Recurrent Neural Network Transducer(RNN-T)モデルがSupernet内で重みを共有するSupernetに関する以前の作業の洞察を活用する。 サブネットワークを得るためにスーパーネットの層サイズと幅を削減し、すべてのハードウェアタイプに適したモデルを小さくする。 我々は,TODMスーパーネットの結果を改善するために,適応ドロップアウト,Alpha-diergenceナレッジ蒸留,ScaledAdamオプティマイザの3つの新しい組み合わせを紹介した。 LibriSpeech を用いたマルチヘッド状態空間モデル (MH-SSM) RNN-T との比較により,提案手法の有効性を検証した。 その結果,todmスーパーネットは,単語誤り率 (wer) の相対値が最大3%向上し,多くのモデルのトレーニングコストを小さく抑えつつ,手作業で調整したモデルの性能と一致するか,あるいは超えていることがわかった。

Automatic Speech Recognition (ASR) models need to be optimized for specific hardware before they can be deployed on devices. This can be done by tuning the model's hyperparameters or exploring variations in its architecture. Re-training and re-validating models after making these changes can be a resource-intensive task. This paper presents TODM (Train Once Deploy Many), a new approach to efficiently train many sizes of hardware-friendly on-device ASR models with comparable GPU-hours to that of a single training job. TODM leverages insights from prior work on Supernet, where Recurrent Neural Network Transducer (RNN-T) models share weights within a Supernet. It reduces layer sizes and widths of the Supernet to obtain subnetworks, making them smaller models suitable for all hardware types. We introduce a novel combination of three techniques to improve the outcomes of the TODM Supernet: adaptive dropouts, an in-place Alpha-divergence knowledge distillation, and the use of ScaledAdam optimizer. We validate our approach by comparing Supernet-trained versus individually tuned Multi-Head State Space Model (MH-SSM) RNN-T using LibriSpeech. Results demonstrate that our TODM Supernet either matches or surpasses the performance of manually tuned models by up to a relative of 3% better in word error rate (WER), while efficiently keeping the cost of training many models at a small constant.
翻訳日:2023-09-06 16:21:58 公開日:2023-09-05
# OHQ:オンチップのハードウェア対応量子化

OHQ: On-chip Hardware-aware Quantization ( http://arxiv.org/abs/2309.01945v1 )

ライセンス: Link先を確認
Wei Huang, Haotong Qin, Yangdong Liu, Jingzhuo Liang, Yifu Ding, Ying Li, Xianglong Liu(参考訳) 量子化は、リソース制約のあるハードウェアに高度なディープモデルをデプロイするための最も有望なアプローチの1つとして現れます。 mixed-precision quantizationは、複数のビット幅アーキテクチャを活用して、量子化モデルの精度と効率性を解き放つ。 しかし、既存の混合精度量子化は、膨大な計算オーバーヘッドを引き起こす網羅的な探索空間に苦しむ。 本稿では,ハードウェア・アウェア・量子化(ohq)フレームワークを提案する。このフレームワークは,オンラインデバイスにアクセスせずにハードウェア・アウェアの複合精度量子化を行う。 第一に、オンチップ量子化認識(OQA)パイプラインを構築し、ハードウェア上で量子化演算子の実際の効率指標を認識できるようにする。第二に、オンチップレベルの計算能力の制約下で演算子の精度指標を効率的に推定するMask-guided Quantization Estimation(MQE)技術を提案する。 特に、量子化プロセスは、追加のコンピューティングデバイスやデータアクセスなしで、オンチップで完全に実行される。 ResNet-18とMobileNetV3では,それぞれ70%,73%の精度を実現した。 OHQは、デプロイメント時のINT8と比較して、レイテンシを15~30%改善する。

Quantization emerges as one of the most promising approaches for deploying advanced deep models on resource-constrained hardware. Mixed-precision quantization leverages multiple bit-width architectures to unleash the accuracy and efficiency potential of quantized models. However, existing mixed-precision quantization suffers exhaustive search space that causes immense computational overhead. The quantization process thus relies on separate high-performance devices rather than locally, which also leads to a significant gap between the considered hardware metrics and the real deployment.In this paper, we propose an On-chip Hardware-aware Quantization (OHQ) framework that performs hardware-aware mixed-precision quantization without accessing online devices. First, we construct the On-chip Quantization Awareness (OQA) pipeline, enabling perceive the actual efficiency metrics of the quantization operator on the hardware.Second, we propose Mask-guided Quantization Estimation (MQE) technique to efficiently estimate the accuracy metrics of operators under the constraints of on-chip-level computing power.By synthesizing network and hardware insights through linear programming, we obtain optimized bit-width configurations. Notably, the quantization process occurs on-chip entirely without any additional computing devices and data access. We demonstrate accelerated inference after quantization for various architectures and compression ratios, achieving 70% and 73% accuracy for ResNet-18 and MobileNetV3, respectively. OHQ improves latency by 15~30% compared to INT8 on deployment.
翻訳日:2023-09-06 16:21:35 公開日:2023-09-05
# 3次元インタラクションハンドメッシュリカバリのための抽出・適応ネットワーク

Extract-and-Adaptation Network for 3D Interacting Hand Mesh Recovery ( http://arxiv.org/abs/2309.01943v1 )

ライセンス: Link先を確認
JoonKyu Park, Daniel Sungho Jung, Gyeongsik Moon, Kyoung Mu Lee(参考訳) 両手の相互作用を理解することは、正確な3Dインタラクションによる手メッシュの回復の重要な要素である。 しかし、最近のトランスフォーマーベースの手法では、2つの手の特徴を直接入力トークンとして利用するため、両者の相互作用を学ぶのに苦労している。 遠いトークン問題は、入力トークンが異種空間にあることを示し、Transformerは入力トークン間の相関を捉えるのに失敗する。 従来のトランスフォーマーベースの手法では、特に2つのハンドのポーズが大きく異なり、バックボーンから左と右の別々の特徴に特徴を投影している場合、問題に苦しんでいる。 我々は、EANet, extract-and-adaptation Network, EABlockをネットワークの主要コンポーネントとして提示する。 EABlockは入力トークンとして2つの手の特徴を直接利用するのではなく、SimTokenとJoinTokenという2つの補完的なトークンを入力トークンとして利用しています。 我々の2つの新しいトークンは、分離された2つの手の特徴の組み合わせによるものであるため、遠く離れたトークン問題に対してより堅牢である。 2種類のトークンを使用することで、eablockはインタラクション機能を効果的に抽出し、それぞれに適応させます。 提案したEANetは、3Dインタラクションハンドベンチマークにおける最先端のパフォーマンスを実現する。 コードはhttps://github.com/jkpark0825/EANetで公開されている。

Understanding how two hands interact with each other is a key component of accurate 3D interacting hand mesh recovery. However, recent Transformer-based methods struggle to learn the interaction between two hands as they directly utilize two hand features as input tokens, which results in distant token problem. The distant token problem represents that input tokens are in heterogeneous spaces, leading Transformer to fail in capturing correlation between input tokens. Previous Transformer-based methods suffer from the problem especially when poses of two hands are very different as they project features from a backbone to separate left and right hand-dedicated features. We present EANet, extract-and-adaptation network, with EABlock, the main component of our network. Rather than directly utilizing two hand features as input tokens, our EABlock utilizes two complementary types of novel tokens, SimToken and JoinToken, as input tokens. Our two novel tokens are from a combination of separated two hand features; hence, it is much more robust to the distant token problem. Using the two type of tokens, our EABlock effectively extracts interaction feature and adapts it to each hand. The proposed EANet achieves the state-of-the-art performance on 3D interacting hands benchmarks. The codes are available at https://github.com/jkpark0825/EANet.
翻訳日:2023-09-06 16:21:11 公開日:2023-09-05
# 高データ効率深層学習を用いたフォトニック構造最適化:ナノフィンおよび環状溝位相マスクへの応用

Photonic Structures Optimization Using Highly Data-Efficient Deep Learning: Application To Nanofin And Annular Groove Phase Masks ( http://arxiv.org/abs/2309.01995v1 )

ライセンス: Link先を確認
Nicolas Roy, Lorenzo K\"onig, Olivier Absil, Charlotte Beauthier, Alexandre Mayer, Micha\"el Lobet(参考訳) metasurfacesは、薄膜光学の領域における光特性を操作するための柔軟な枠組みを提供する。 具体的には、薄板を用いて光の偏光を効果的に制御することができる。 本研究の目的は,これらのデバイスに対するサロゲート最適化フレームワークの導入である。 本フレームワークは、天文高コントラストイメージングへの応用に適した2種類の渦位相マスク(VPM)の開発に応用される。 計算知能技術は、これらのデバイスの幾何学的特徴を最適化するために利用される。 大きな設計空間と計算限界は、部分最小二乗クリグ、ラジアル基底関数、ニューラルネットワークのような代理モデルの使用を必要とする。 しかし,これらの手法がvpmsの性能のモデル化において不十分であることを示す。 これらの手法の欠点に対処するために、ディープニューラルネットワークを高精度かつ効率的な代理モデルとして用いたデータ効率のよい進化的最適化手法を提案する。 本研究の最適化プロセスは、光デバイスにおける明示的な幾何学的パラメータに基づくロバスト粒子群進化最適化方式を用いる。 このアプローチにより、2つの設計候補に対して最適な設計が開発される。 最も複雑な場合、進化的最適化は非現実的(過剰なシミュレーションを必要とする)設計の最適化を可能にする。 どちらの場合も、サロゲートモデルは手順の信頼性と効率を向上し、従来の最適化手法と比較して、必要なシミュレーション数を最大75%削減する。

Metasurfaces offer a flexible framework for the manipulation of light properties in the realm of thin film optics. Specifically, the polarization of light can be effectively controlled through the use of thin phase plates. This study aims to introduce a surrogate optimization framework for these devices. The framework is applied to develop two kinds of vortex phase masks (VPMs) tailored for application in astronomical high-contrast imaging. Computational intelligence techniques are exploited to optimize the geometric features of these devices. The large design space and computational limitations necessitate the use of surrogate models like partial least squares Kriging, radial basis functions, or neural networks. However, we demonstrate the inadequacy of these methods in modeling the performance of VPMs. To address the shortcomings of these methods, a data-efficient evolutionary optimization setup using a deep neural network as a highly accurate and efficient surrogate model is proposed. The optimization process in this study employs a robust particle swarm evolutionary optimization scheme, which operates on explicit geometric parameters of the photonic device. Through this approach, optimal designs are developed for two design candidates. In the most complex case, evolutionary optimization enables optimization of the design that would otherwise be impractical (requiring too much simulations). In both cases, the surrogate model improves the reliability and efficiency of the procedure, effectively reducing the required number of simulations by up to 75% compared to conventional optimization techniques.
翻訳日:2023-09-06 16:16:17 公開日:2023-09-05
# Sasdim:空間時系列計算のための自己適応型ノイズスケーリング拡散モデル

sasdim: self-adaptive noise scaling diffusion model for spatial time series imputation ( http://arxiv.org/abs/2309.01988v1 )

ライセンス: Link先を確認
Shunyang Zhang, Senzhang Wang, Xianzhen Tan, Ruochen Liu, Jian Zhang, Jianxin Wang(参考訳) 空間時系列インプテーションは、インテリジェントな輸送や空気質のモニタリングなど、多くの現実のアプリケーションにとって極めて重要である。 近年の変圧器および拡散モデルに基づく手法は従来の統計に基づく手法と比較して大きな性能向上を遂げているが,空間時系列データの複雑な時空間依存性とノイズの不確実性のため,空間時系列計算は依然として困難な問題として残っている。 特に、最近の拡散過程に基づくモデルでは、インプテーションにランダムノイズをもたらし、モデル性能に悪影響を及ぼす可能性がある。 そこで本研究では,空間時系列インプテーションをより効果的に行うために,sasdim という自己適応型ノイズスケーリング拡散モデルを提案する。 特に,同様の強度に音をスケールできる新しい損失関数を提案し,より効率的に空間-時空間依存性を捉えるために,空間-時空間間の大域畳み込み加群を提案する。 3つの実世界のデータセットで実施された大規模な実験は、現在の最先端ベースラインと比較して、SASDimの有効性を検証する。

Spatial time series imputation is critically important to many real applications such as intelligent transportation and air quality monitoring. Although recent transformer and diffusion model based approaches have achieved significant performance gains compared with conventional statistic based methods, spatial time series imputation still remains as a challenging issue due to the complex spatio-temporal dependencies and the noise uncertainty of the spatial time series data. Especially, recent diffusion process based models may introduce random noise to the imputations, and thus cause negative impact on the model performance. To this end, we propose a self-adaptive noise scaling diffusion model named SaSDim to more effectively perform spatial time series imputation. Specially, we propose a new loss function that can scale the noise to the similar intensity, and propose the across spatial-temporal global convolution module to more effectively capture the dynamic spatial-temporal dependencies. Extensive experiments conducted on three real world datasets verify the effectiveness of SaSDim by comparison with current state-of-the-art baselines.
翻訳日:2023-09-06 16:16:00 公開日:2023-09-05
# 拡散グラフ畳み込みネットワークを用いたグラフベースインタラクションアウェアマルチモーダル2次元車両軌道予測

Graph-Based Interaction-Aware Multimodal 2D Vehicle Trajectory Prediction using Diffusion Graph Convolutional Networks ( http://arxiv.org/abs/2309.01981v1 )

ライセンス: Link先を確認
Keshu Wu, Yang Zhou, Haotian Shi, Xiaopeng Li, Bin Ran(参考訳) 自動走行の効率と安全性を確保するためには,車両軌道予測が不可欠である。 このような動的な環境では、車両の動きは、その歴史的挙動と周囲の車両との相互作用によって決定される。 これらの複雑な相互作用は予測不可能な動作パターンから生じ、深い調査を保証できる幅広い運転行動を引き起こす。 本研究では,これらの相互作用を効果的に捉え,将来の車両軌道を確率的に予測するグラフベースインタラクション対応マルチモーダル軌道予測(GIMTP)フレームワークを提案する。 この枠組みでは、車両の動きは時間変化グラフのノードとして概念化され、交通相互作用は動的隣接行列によって表される。 この動的隣接行列に埋め込まれた空間的および時間的依存関係の両方を均等に捉えるため、この手法は拡散グラフ畳み込みネットワーク(DGCN)を導入し、歴史的状態と将来の状態の両方をグラフ埋め込む。 さらに、運転意図特異的な特徴融合を用いて、歴史的および将来の埋め込みを適応的に統合し、意図認識と軌道予測を強化する。 このモデルでは、縦・横の運転行動の各モードについて2次元予測を行い、複雑な車両相互作用の課題と運転行動の多モード性に対処する確率論的未来経路を提供する。 実世界の軌道データセットを用いた検証は、効率とポテンシャルを示す。

Predicting vehicle trajectories is crucial for ensuring automated vehicle operation efficiency and safety, particularly on congested multi-lane highways. In such dynamic environments, a vehicle's motion is determined by its historical behaviors as well as interactions with surrounding vehicles. These intricate interactions arise from unpredictable motion patterns, leading to a wide range of driving behaviors that warrant in-depth investigation. This study presents the Graph-based Interaction-aware Multi-modal Trajectory Prediction (GIMTP) framework, designed to probabilistically predict future vehicle trajectories by effectively capturing these interactions. Within this framework, vehicles' motions are conceptualized as nodes in a time-varying graph, and the traffic interactions are represented by a dynamic adjacency matrix. To holistically capture both spatial and temporal dependencies embedded in this dynamic adjacency matrix, the methodology incorporates the Diffusion Graph Convolutional Network (DGCN), thereby providing a graph embedding of both historical states and future states. Furthermore, we employ a driving intention-specific feature fusion, enabling the adaptive integration of historical and future embeddings for enhanced intention recognition and trajectory prediction. This model gives two-dimensional predictions for each mode of longitudinal and lateral driving behaviors and offers probabilistic future paths with corresponding probabilities, addressing the challenges of complex vehicle interactions and multi-modality of driving behaviors. Validation using real-world trajectory datasets demonstrates the efficiency and potential.
翻訳日:2023-09-06 16:15:42 公開日:2023-09-05
# 時変変動を考慮したlstmに基づくデータ予測モニタリング手法

An LSTM-Based Predictive Monitoring Method for Data with Time-varying Variability ( http://arxiv.org/abs/2309.01978v1 )

ライセンス: Link先を確認
Jiaqi Qiu, Yu Lin, Inez Zwetsloot(参考訳) リカレントニューラルネットワークとその変種は近年、シーケンスの処理において大きな成功を収めている。 しかし、このディープニューラルネットワークは、予測的プロセス監視による異常検出にはあまり注目されていない。 さらに、従来の統計モデルは仮定や仮説テストで機能するが、ニューラルネットワーク(NN)モデルは多くの仮定を必要としない。 この柔軟性により、NNモデルは、実際のデータの共通の固有の側面である、時間変化のばらつきのあるデータで効率的に作業することができる。 本稿では、繰り返しニューラルネットワーク構造がプロセスを監視する能力について検討し、時間変動のあるデータに対する長期記憶(LSTM)予測間隔に基づく制御チャートを提案する。 シミュレーション研究は,提案手法がnnに基づく平均シフト検出の予測モニタリング手法よりも優れていることを示す実証的証拠を提供する。 提案手法は時系列センサデータにも適用され,本手法が異常検出に有効な手法であることを確認した。

The recurrent neural network and its variants have shown great success in processing sequences in recent years. However, this deep neural network has not aroused much attention in anomaly detection through predictively process monitoring. Furthermore, the traditional statistic models work on assumptions and hypothesis tests, while neural network (NN) models do not need that many assumptions. This flexibility enables NN models to work efficiently on data with time-varying variability, a common inherent aspect of data in practice. This paper explores the ability of the recurrent neural network structure to monitor processes and proposes a control chart based on long short-term memory (LSTM) prediction intervals for data with time-varying variability. The simulation studies provide empirical evidence that the proposed model outperforms other NN-based predictive monitoring methods for mean shift detection. The proposed method is also applied to time series sensor data, which confirms that the proposed method is an effective technique for detecting abnormalities.
翻訳日:2023-09-06 16:15:18 公開日:2023-09-05
# クロック同期の異常熱力学コスト

Anomalous Thermodynamic Cost of Clock Synchronization ( http://arxiv.org/abs/2309.01974v1 )

ライセンス: Link先を確認
Cheng Yang, Jiteng Sheng, Haibin Wu(参考訳) クロック同期は位置決め、ナビゲーション、タイミングシステムにおいて極めて重要である。 その性能は幅広い分野において集中的に研究されてきたが、クロック同期の基本的な熱力学や精度の制限、クロック同期のエネルギーコストの最適化についてはあまり知られていない。 本稿では,2つの確率時計同期に関する最初の実験的研究を報告し,オープンキャビティ光学系におけるエントロピーコストとクロック同期との間の熱力学的関係を明らかにした。 2つの自律時計は、制御可能な光子を媒介とする散逸性光学的カップリングとハイブリッドモードの異なる崩壊速度によって自然に同期される。 エントロピーコストに対する同期度の測定は予期せぬ非単調特性を示し、完全クロック同期が最大エントロピーを犠牲にせず、最適値が存在することを示す。 クロック同期の過渡ダイナミクスの研究は、エネルギーと時間消費のトレードオフを露呈する。 本研究は, クロック同期と熱力学の基本的な関係を明らかにし, 精度測定, 分散量子ネットワーク, 生物科学に大きな可能性を秘めている。

Clock synchronization is critically important in positioning, navigation and timing systems. While its performance has been intensively studied in a wide range of disciplines, much less is known for the fundamental thermodynamics of clock synchronization, what limits the precision and how to optimize the energy cost for clock synchronization. Here, we report the first experimental investigation of two stochastic clocks synchronization, unveiling the thermodynamic relation between the entropy cost and clock synchronization in an open cavity optomechanical system. Two autonomous clocks are synchronized spontaneously by engineering the controllable photon-mediated dissipative optomechanical coupling and the disparate decay rates of hybrid modes. The measured dependence of the degree of synchronization on entropy cost exhibits an unexpected non-monotonic characteristic, indicating that the perfect clock synchronization does not cost the maximum entropy and there exists an optimum. The investigation of transient dynamics of clock synchronization exposes a trade-off between energy and time consumption. Our results reveal the fundamental relation between clock synchronization and thermodynamics, and have a great potential for precision measurements, distributed quantum networks, and biological science.
翻訳日:2023-09-06 16:15:03 公開日:2023-09-05
# 不均一データバッチを用いた線形回帰

Linear Regression using Heterogeneous Data Batches ( http://arxiv.org/abs/2309.01973v1 )

ライセンス: Link先を確認
Ayush Jain, Rajat Sen, Weihao Kong, Abhimanyu Das, Alon Orlitsky(参考訳) 多くの学習アプリケーションでは、データは複数のソースから収集され、それぞれが入力と出力の関係を学ぶのに不十分なサンプルのemph{batch}を提供する。 一般的なアプローチでは、ソースは未知のサブグループの1つに該当し、それぞれ未知の入力分布と入出力関係を持つ。 我々は、出力が入力のノイズの多い線形結合であり、それぞれが回帰ベクトルを持つ$k$部分群が存在する、この設定の最も基本的かつ重要な表現の1つを考える。 先行研究~\cite{kong2020meta} は、豊富な小さなバッチでは、回帰ベクトルはわずかに、$\tilde\Omega(k^{3/2})$、$\tilde\Omega(\sqrt k)$サンプルのバッチでのみ学習できることを示した。 しかし、この論文は、すべての$k$ 部分群の入力分布が等方的ガウス群であることを要求し、この仮定の除去は「興味深く挑戦的な問題」であると述べている。 そこで本研究では,いくつかの方法で既存の結果を改善するアルゴリズムを提案する。 アルゴリズムの適用性は、(1)サブグループの下位の入力分布が異なる、未知、重み付きを許容する、(2)すべてのサブグループを回復し、無限の$k$でもかなりのバッチの割合で処理する、(3)回帰ベクトル間の分離要件を取り除く、(4)バッチ数を減らし、バッチサイズを小さくする、などによって拡張される。

In many learning applications, data are collected from multiple sources, each providing a \emph{batch} of samples that by itself is insufficient to learn its input-output relationship. A common approach assumes that the sources fall in one of several unknown subgroups, each with an unknown input distribution and input-output relationship. We consider one of this setup's most fundamental and important manifestations where the output is a noisy linear combination of the inputs, and there are $k$ subgroups, each with its own regression vector. Prior work~\cite{kong2020meta} showed that with abundant small-batches, the regression vectors can be learned with only few, $\tilde\Omega( k^{3/2})$, batches of medium-size with $\tilde\Omega(\sqrt k)$ samples each. However, the paper requires that the input distribution for all $k$ subgroups be isotropic Gaussian, and states that removing this assumption is an ``interesting and challenging problem". We propose a novel gradient-based algorithm that improves on the existing results in several ways. It extends the applicability of the algorithm by: (1) allowing the subgroups' underlying input distributions to be different, unknown, and heavy-tailed; (2) recovering all subgroups followed by a significant proportion of batches even for infinite $k$; (3) removing the separation requirement between the regression vectors; (4) reducing the number of batches and allowing smaller batch sizes.
翻訳日:2023-09-06 16:14:44 公開日:2023-09-05
# 超短パルスをポンプとする非平衡SU(1,1)干渉計から発生するマルチモード量子相関

Multi-mode quantum correlation generated from an unbalanced SU(1,1) interferometer using ultra-short laser pulses as pump ( http://arxiv.org/abs/2309.01969v1 )

ライセンス: Link先を確認
Xueshi Guo, Wen Zhao, Xiaoying Li, Z. Y. Ou(参考訳) マルチモード絡み合いは量子情報技術における重要な資源の一つである。 時間遅延連続変数 einstein-podolsky-rosen 対と線形ビームスリッターをコヒーレントに組み合わせた大規模マルチモード絡み合い状態の生成は近年広く研究されている。 本研究では、不平衡su(1,1)干渉計励起超短パルスから発生する光場のマルチモード量子相関特性を理論的に検討し、非退化パラメトリックプロセスを用いて多重モード絡み合い状態を生成し、遅延したアインシュタイン-ポドルスキー-ローゼン対を異なる周波数帯域でコヒーレントに結合する。 生成したマルチモード状態の共分散行列は、隣接タイミングスロット内の任意のモード番号$M$に対して解析的に導出され、与えられたモードは他の5つのモードと最大に相関していることを示す。 導出共分散行列に基づいて、生成された状態の光子数相関と二次振幅相関の両方を解析する。 また, 線形ビームスプリッタを遅延EPRペアのコヒーレントコンバインダとして用いて, 絡み合った状態を生成する方式に拡張し, 2つのコヒーレント結合方式で生成された状態を比較する。 この結果は、ガウス系の範囲内の非平衡su(1,1)干渉計から生成される量子相関の包括的理論記述を提供し、量子情報技術へのさらなる展望を提供する。

Multi-mode entanglement is one of the critical resource in quantum information technology. Generating large scale multi-mode entanglement state by coherently combining time-delayed continuous variables Einstein-Podolsky-Rosen pairs with linear beam-splitters has been widely studied recently. Here we theoretically investigate the multi-mode quantum correlation property of the optical fields generated from an unbalanced SU(1,1) interferometer pumped ultra-short pulses, which generates multi-mode entangled state by using a non-degenerate parametric processes to coherently combine delayed Einstein-Podolsky-Rosen pairs in different frequency band. The covariance matrix of the generated multi-mode state is derived analytically for arbitrary mode number $M$ within adjacent timing slot, which shows a given mode is maximally correlated to 5 other modes. Based on the derived covariance matrix, both photon number correlation and quadrature amplitude correlation of the generated state is analyzed. We also extend our analyzing method to the scheme of generating entangled state by using linear beam splitter as a coherent combiner of delayed EPR pairs, and compare the states generated by the two coherently combining schemes. Our result provides a comprehensive theoretical description on the quantum correlations generated from an unbalanced SU(1,1) interferometer within Gaussian system range, and will offer more perspectives to quantum information technology.
翻訳日:2023-09-06 16:14:07 公開日:2023-09-05
# weyl tileの議論が間違っている理由

Why the Weyl Tile Argument is Wrong ( http://arxiv.org/abs/2309.01968v1 )

ライセンス: Link先を確認
Lu Chen(参考訳) ワイルは、空間が離散的であればユークリッド幾何学は概ね成り立たないと主張した。 それ以来、多くの哲学者がこの議論に反応し、ユークリッド空間を復元する離散幾何学の代替的記述を推し進めた。 しかし、彼らはワイルの議論において重大な欠陥のある仮定を見逃した:物理幾何学は力学の法則とは独立に基本的な時空構造によって決定される。 本稿では、統計物理学のランダムウォークと量子力学の2つの厳密な例を通して、その虚偽性を示すことを目的とする。

Weyl famously argued that if space were discrete, then Euclidean geometry could not hold even approximately. Since then, many philosophers have responded to this argument by advancing alternative accounts of discrete geometry that recover approximately Euclidean space. However, they have missed an importantly flawed assumption in Weyl's argument: physical geometry is determined by fundamental spacetime structures independently from dynamical laws. In this paper, I aim to show its falsity through two rigorous examples: random walks in statistical physics and quantum mechanics.
翻訳日:2023-09-06 16:13:21 公開日:2023-09-05
# AdaPlus:Nesterov Momentumの統合とAdamW Basisの高精度調整

AdaPlus: Integrating Nesterov Momentum and Precise Stepsize Adjustment on AdamW Basis ( http://arxiv.org/abs/2309.01966v1 )

ライセンス: Link先を確認
Lei Guan(参考訳) 本稿では,Nesterov運動量とAdamWに基づく高精度なステップサイズ調整を組み合わせたAdaPlusという最適化手法を提案する。 AdaPlusはAdamW、Nadam、AdaBeliefの利点を組み合わせており、特に、追加のハイパーパラメータを導入していない。 adaplusの有効性を検証するために,3つの機械学習タスクについて広範な実験評価を行った。 実験結果は adaplusが (i)画像分類タスクにおいて、sgdの運動量に匹敵する(たとえ若干優れているとしても)最も優れた適応的手法である。 (II)言語モデリングタスクにおける他の最先端最適化よりも優れており、GANを訓練する際の安定性が最も高いことを示す。 AdaPlusの実験コードは、https://github.com/guanleics/AdaPlus.comで公開されている。

This paper proposes an efficient optimizer called AdaPlus which integrates Nesterov momentum and precise stepsize adjustment on AdamW basis. AdaPlus combines the advantages of AdamW, Nadam, and AdaBelief and, in particular, does not introduce any extra hyper-parameters. We perform extensive experimental evaluations on three machine learning tasks to validate the effectiveness of AdaPlus. The experiment results validate that AdaPlus (i) is the best adaptive method which performs most comparable with (even slightly better than) SGD with momentum on image classification tasks and (ii) outperforms other state-of-the-art optimizers on language modeling tasks and illustrates the highest stability when training GANs. The experiment code of AdaPlus is available at: https://github.com/guanleics/AdaPlus.
翻訳日:2023-09-06 16:13:04 公開日:2023-09-05
# 性別の不平等:女性研究者は特定のトピックと実験トピックにより多くの知識を必要としている

Gender Inequalities: Women Researchers Require More Knowledge in Specific and Experimental Topics ( http://arxiv.org/abs/2309.01964v1 )

ライセンス: Link先を確認
Shiqi Tang, Dongyi Wang, Jianhua Hou(参考訳) 科学における男女不平等は、長い間世界中で観察されてきた。 調査データや出版文献を通じて、被験者や著者の関心に焦点をあてた研究が行われてきたが、研究者の知識状況に対する男女不平等の顕在性についてはほとんど調査されていない。 本研究は, 研究者のオンラインq&aを用いて, 地域とジェンダーのアイデンティティ, 話題, 知識状況の関係を解析し, 科学・科学研究における女性労働部門を明らかにする。 男女不平等は地域特有の特徴とグローバルな共通パターンの両方にマージされている。 フィールド内の女性のフィールドとトピックの分布は地域の影響を受けているが、一般的なトピックはすべての地域で一貫している。 女性は特定のトピック、特に知識の弱いレベルの実験についてより深く関わっており、援助が少ない。 科学における不平等を促進するため、科学界は知識格差を減らすことにより多くの注意を払って、女性が未調査の話題や分野に取り組むことを奨励すべきである。

Gender inequalities in science have long been observed globally. Studies have demonstrated it through survey data or published literature, focusing on the interests of subjects or authors; few, however, examined the manifestation of gender inequalities on researchers' knowledge status. This study analyzes the relationship between regional and gender identities, topics, and knowledge status while revealing the female labor division in science and scientific research using online Q&A from researchers. We find that gender inequalities are merged with both regional-specific characteristics and global common patterns. Women's field and topic distribution within fields are influenced by regions, yet the prevalent topics are consistent in all regions. Women are more involved in specific topics, particularly topics about experiments with weaker levels of knowledge and they are of less assistance. To promote inequality in science, the scientific community should pay more attention to reducing the knowledge gap and encourage women to work on unexplored topics and areas.
翻訳日:2023-09-06 16:12:18 公開日:2023-09-05
# 動的早期退避型予測符号化ニューラルネットワーク

Dynamic Early Exiting Predictive Coding Neural Networks ( http://arxiv.org/abs/2309.02022v1 )

ライセンス: Link先を確認
Alaa Zniber, Ouassim Karrakchou, Mounir Ghogho(参考訳) iot(internet of things, モノのインターネット)センサーは、ウェアラブルから農業技術や健康モニタリングによるスマートビルディングまで、さまざまな現実のアプリケーションで広く利用されている。 これらの小さなデバイスによって生成される膨大なデータにより、Deep Learning(DL)モデルはインテリジェントな処理でそれらを強化するために広く利用されている。 しかし、より小型で正確なデバイスが求められたため、dlモデルはデプロイするには重すぎた。 したがって、ハードウェアの限られたリソースを設計プロセスに組み込む必要がある。 そこで我々は,その効率性と低消費電力で知られている人間の脳にインスパイアされた,予測符号化理論と動的早期終了に基づく浅層双方向ネットワークを提案し,性能閾値を超えた場合のさらなる計算を停止させる。 CIFAR-10上の画像分類におけるVGG-16の精度は,パラメータが少なく,計算量も少ない。

Internet of Things (IoT) sensors are nowadays heavily utilized in various real-world applications ranging from wearables to smart buildings passing by agrotechnology and health monitoring. With the huge amounts of data generated by these tiny devices, Deep Learning (DL) models have been extensively used to enhance them with intelligent processing. However, with the urge for smaller and more accurate devices, DL models became too heavy to deploy. It is thus necessary to incorporate the hardware's limited resources in the design process. Therefore, inspired by the human brain known for its efficiency and low power consumption, we propose a shallow bidirectional network based on predictive coding theory and dynamic early exiting for halting further computations when a performance threshold is surpassed. We achieve comparable accuracy to VGG-16 in image classification on CIFAR-10 with fewer parameters and less computational complexity.
翻訳日:2023-09-06 16:04:26 公開日:2023-09-05
# rawhdr: 単一のraw画像からの高ダイナミックレンジ画像再構成

RawHDR: High Dynamic Range Image Reconstruction from a Single Raw Image ( http://arxiv.org/abs/2309.02020v1 )

ライセンス: Link先を確認
Yunhao Zou, Chenggang Yan, Ying Fu(参考訳) 高ダイナミックレンジ(HDR)画像は、標準画像よりもはるかに多くの強度レベルを捉えている。 現在の方法では、カメラ処理パイプラインによって劣化した8ビット低ダイナミックレンジ(LDR)sRGB画像から、主にHDR画像を生成する。 しかし、そのような制限されたビット深度データから非常に高いダイナミックレンジのシーンを取得するのは実に難しい作業となる。 既存の方法とは異なり、この研究の核となる考え方は、より情報に富んだ生のセンサーデータを組み込んでhdr画像を生成し、ハード領域(hdrシーンで最も暗く明るい領域)でシーン情報を復元することである。 そこで本研究では,Raw-to-HDRマッピングを容易にするために,Rawデータのユニークな特徴を活かしたRaw画像に適したモデルを提案する。 具体的には,ハイダイナミックシーンの難易度と容易度を分離するために,露出マスクを学習する。 次に,2つの重要なガイダンス,より情報に富んだチャンネルを案内する二重強度誘導,拡張空間領域上のシーン特定を外挿するグローバル空間誘導を導入する。 我々のRaw-to-HDRアプローチを検証するために、トレーニングとテストの両方のために大規模なRaw/HDRペアデータセットを収集します。 実験では,提案するraw-to-hdr再構成モデルと新たに取得したデータセットの優位性を実証的に評価した。

High dynamic range (HDR) images capture much more intensity levels than standard ones. Current methods predominantly generate HDR images from 8-bit low dynamic range (LDR) sRGB images that have been degraded by the camera processing pipeline. However, it becomes a formidable task to retrieve extremely high dynamic range scenes from such limited bit-depth data. Unlike existing methods, the core idea of this work is to incorporate more informative Raw sensor data to generate HDR images, aiming to recover scene information in hard regions (the darkest and brightest areas of an HDR scene). To this end, we propose a model tailor-made for Raw images, harnessing the unique features of Raw data to facilitate the Raw-to-HDR mapping. Specifically, we learn exposure masks to separate the hard and easy regions of a high dynamic scene. Then, we introduce two important guidances, dual intensity guidance, which guides less informative channels with more informative ones, and global spatial guidance, which extrapolates scene specifics over an extended spatial domain. To verify our Raw-to-HDR approach, we collect a large Raw/HDR paired dataset for both training and testing. Our empirical evaluations validate the superiority of the proposed Raw-to-HDR reconstruction model, as well as our newly captured dataset in the experiments.
翻訳日:2023-09-06 16:04:13 公開日:2023-09-05
# PROMISE:スケーラブルな曲率推定を組み込んだ事前条件付き確率最適化手法

PROMISE: Preconditioned Stochastic Optimization Methods by Incorporating Scalable Curvature Estimates ( http://arxiv.org/abs/2309.02014v1 )

ライセンス: Link先を確認
Zachary Frangella, Pratik Rathore, Shipu Zhao, and Madeleine Udell(参考訳) 本稿では,機械学習における大規模凸最適化問題を解くための,スケッチに基づく事前条件付き確率勾配アルゴリズムである PROMISE ($\textbf{Pr}$econditioned Stochastic $\textbf{O}$ptimization $\textbf{M}$ethods by $\textbf{I}$ncorporating $\textbf{S}$calable Curvature $\textbf{E}$stimates を紹介する。 PROMISEには、SVRG、SAGA、Katyushaのプレコンディション版が含まれており、それぞれのアルゴリズムには強力な理論解析と効果的なデフォルトのハイパーパラメータ値がある。 対照的に、従来の確率的勾配法では、機械学習においてユビキタスな現象である悪条件の存在下では、注意深いハイパーパラメータチューニングが必要となる。 実験では,デフォルトのハイパーパラメータ値を用いて,511ドルのリッジテストベッドとベンチマーク機械学習リポジトリから組み立てたロジスティック回帰問題に対して,一般的なチューン確率勾配最適化器を上回ったり、一致させたりすることで,提案アルゴリズムの優位性を検証する。 理論的には, プリコンディショナーが不定期に更新された場合でも, 提案手法の線形収束を確立するために, 二次正則性の概念を導入する。 線形収束の速度は2次正規度比によって決定されるが、これは理論上も実際上も条件数よりも収束率に厳密な制約を与え、提案手法の高速大域的線形収束を説明する。

This paper introduces PROMISE ($\textbf{Pr}$econditioned Stochastic $\textbf{O}$ptimization $\textbf{M}$ethods by $\textbf{I}$ncorporating $\textbf{S}$calable Curvature $\textbf{E}$stimates), a suite of sketching-based preconditioned stochastic gradient algorithms for solving large-scale convex optimization problems arising in machine learning. PROMISE includes preconditioned versions of SVRG, SAGA, and Katyusha; each algorithm comes with a strong theoretical analysis and effective default hyperparameter values. In contrast, traditional stochastic gradient methods require careful hyperparameter tuning to succeed, and degrade in the presence of ill-conditioning, a ubiquitous phenomenon in machine learning. Empirically, we verify the superiority of the proposed algorithms by showing that, using default hyperparameter values, they outperform or match popular tuned stochastic gradient optimizers on a test bed of $51$ ridge and logistic regression problems assembled from benchmark machine learning repositories. On the theoretical side, this paper introduces the notion of quadratic regularity in order to establish linear convergence of all proposed methods even when the preconditioner is updated infrequently. The speed of linear convergence is determined by the quadratic regularity ratio, which often provides a tighter bound on the convergence rate compared to the condition number, both in theory and in practice, and explains the fast global linear convergence of the proposed methods.
翻訳日:2023-09-06 16:03:49 公開日:2023-09-05
# ilore: 短時間の長期モデリングと再帰保存による動的グラフ表現

iLoRE: Dynamic Graph Representation with Instant Long-term Modeling and Re-occurrence Preservation ( http://arxiv.org/abs/2309.02012v1 )

ライセンス: Link先を確認
Siwei Zhang, Yun Xiong, Yao Zhang, Xixi Wu, Yiheng Sun and Jiawei Zhang(参考訳) 継続的動的グラフモデリングは、金融リスク管理や不正検出など、現実の多くのアプリケーションにとって重要なタスクである。 既存の動的グラフモデリング手法は十分な結果を得たが、スケーラビリティとさらなる適用性を妨げる3つの重要な制限をまだ抱えている。 i) 更新を無差別に行う。 入ってくるエッジに対しては、既存のメソッドが非差別にそれらを扱うため、より多くの時間消費と予期せぬノイズ情報をもたらす可能性がある。 二 非効率なノード単位の長期モデリング バックボーンとしてリカレントニューラルネットワーク(RNN)に強く依存しており、イベントシーケンスにおけるノードの長期依存関係を完全にキャプチャできないことが示されている。 三 再発生パターンの無視 ダイナミックグラフは、その重要性を示す隣人の繰り返し発生を伴い、既存の手法では無視されている。 本稿では,ノード毎の長期モデリングと再帰保存を備えた新しい動的グラフモデリング手法であるiloreを提案する。 非差別的な更新問題を克服するために,無用なエッジやうるさいエッジを自動的に破棄し,iloreの有効性と即時能力を確保する適応型短期更新モジュールを導入する。 さらに,ノード回りの長期モデリングをより効果的なものにするための長期更新器の提案を行い,従来のrnn支配型設計の限定的な効果を回避し,トランスフォーマベースの更新器のエンパワー化のためのアイデンティティ注意機構を革新的に提案する。 最後に、重要な再帰パターンを情報表現学習のためのグラフモジュールに符号化し、提案手法の表現性をさらに向上させる。 実世界のデータセットに対する実験結果から,動的グラフモデリングにおけるiLoREの有効性が示された。

Continuous-time dynamic graph modeling is a crucial task for many real-world applications, such as financial risk management and fraud detection. Though existing dynamic graph modeling methods have achieved satisfactory results, they still suffer from three key limitations, hindering their scalability and further applicability. i) Indiscriminate updating. For incoming edges, existing methods would indiscriminately deal with them, which may lead to more time consumption and unexpected noisy information. ii) Ineffective node-wise long-term modeling. They heavily rely on recurrent neural networks (RNNs) as a backbone, which has been demonstrated to be incapable of fully capturing node-wise long-term dependencies in event sequences. iii) Neglect of re-occurrence patterns. Dynamic graphs involve the repeated occurrence of neighbors that indicates their importance, which is disappointedly neglected by existing methods. In this paper, we present iLoRE, a novel dynamic graph modeling method with instant node-wise Long-term modeling and Re-occurrence preservation. To overcome the indiscriminate updating issue, we introduce the Adaptive Short-term Updater module that will automatically discard the useless or noisy edges, ensuring iLoRE's effectiveness and instant ability. We further propose the Long-term Updater to realize more effective node-wise long-term modeling, where we innovatively propose the Identity Attention mechanism to empower a Transformer-based updater, bypassing the limited effectiveness of typical RNN-dominated designs. Finally, the crucial re-occurrence patterns are also encoded into a graph module for informative representation learning, which will further improve the expressiveness of our method. Our experimental results on real-world datasets demonstrate the effectiveness of our iLoRE for dynamic graph modeling.
翻訳日:2023-09-06 16:03:09 公開日:2023-09-05
# 自己監督型モデルの表現学習ダイナミクス

Representation Learning Dynamics of Self-Supervised Models ( http://arxiv.org/abs/2309.02011v1 )

ライセンス: Link先を確認
Pascal Esser, Satyaki Mukherjee, Debarghya Ghoshdastidar(参考訳) 自己監視学習(SSL)は、非競合データから表現を学習するための重要なパラダイムであり、ニューラルネットワークによるSSLは、実際に高い成功を収めている。 しかし、SSLの現在の理論的解析は主に一般化エラー境界に限定されている。 対照的に、学習力学はしばしばニューラルネットワークベースのモデルの振る舞いを正確に特徴づけるが、今のところは主に教師付き設定で知られている。 本稿では,SSLモデルの学習力学,特にコントラストと非コントラストの損失を最小限に抑えた表現について検討する。 SSLにおける多変量回帰のダイマニクスの素直な拡張は、SSLにおける次元の崩壊を示す自明なスカラー表現の学習につながることを示す。 その結果、重みの直交制約でSSL目標を定式化し、グラスマン多様体上の勾配降下を用いて訓練されたSSLモデルの正確な(ネットワーク幅に依存しない)学習力学を導出する。 また、sslモデルの無限幅近似は教師付きモデルの神経接核近似から著しく逸脱していると主張する。 本論文は,本理論の妥当性を数値的に示し,コントラストと非一貫性のsslを理論的に解析するための枠組みについて考察する。

Self-Supervised Learning (SSL) is an important paradigm for learning representations from unlabelled data, and SSL with neural networks has been highly successful in practice. However current theoretical analysis of SSL is mostly restricted to generalisation error bounds. In contrast, learning dynamics often provide a precise characterisation of the behaviour of neural networks based models but, so far, are mainly known in supervised settings. In this paper, we study the learning dynamics of SSL models, specifically representations obtained by minimising contrastive and non-contrastive losses. We show that a naive extension of the dymanics of multivariate regression to SSL leads to learning trivial scalar representations that demonstrates dimension collapse in SSL. Consequently, we formulate SSL objectives with orthogonality constraints on the weights, and derive the exact (network width independent) learning dynamics of the SSL models trained using gradient descent on the Grassmannian manifold. We also argue that the infinite width approximation of SSL models significantly deviate from the neural tangent kernel approximations of supervised models. We numerically illustrate the validity of our theoretical findings, and discuss how the presented results provide a framework for further theoretical analysis of contrastive and non-contrastive SSL.
翻訳日:2023-09-06 16:02:40 公開日:2023-09-05
# ディープラーニングを用いたバレンシア市におけるリアルタイムトラヒックアラームの確立

Establishing a real-time traffic alarm in the city of Valencia with Deep Learning ( http://arxiv.org/abs/2309.02010v1 )

ライセンス: Link先を確認
Miguel Folgado, Veronica Sanz, Johannes Hirn, Edgar Lorenzo-Saez, Javier Urchueguia(参考訳) 都市交通の排出は、公衆衛生と環境に有害な影響があるため、重大な懸念となっている。 その結果、意思決定者はその削減を重要な目標と宣言した。 本研究では,まずスペインのバレンシア市における交通流束と大気汚染の関係について分析した。 私たちの結果は、トラフィックが特定の汚染物質のレベル(特に$\text{no}_\text{x}$)に大きな影響を与えることを示している。 第2に,各道路の独立レベルを用いて,今後30分で異常に高い交通量が発生する可能性を予測できるアラームシステムの開発を行う。 予測には10分毎に更新されたトラフィックデータとLong Short-Term Memory(LSTM)ニューラルネットワークを使用します。 2018年のトラフィックデータを使ってLSTMをトレーニングし、2019年のトラフィックデータを使ってテストしました。

Urban traffic emissions represent a significant concern due to their detrimental impacts on both public health and the environment. Consequently, decision-makers have flagged their reduction as a crucial goal. In this study, we first analyze the correlation between traffic flux and pollution in the city of Valencia, Spain. Our results demonstrate that traffic has a significant impact on the levels of certain pollutants (especially $\text{NO}_\text{x}$). Secondly, we develop an alarm system to predict if a street is likely to experience unusually high traffic in the next 30 minutes, using an independent three-tier level for each street. To make the predictions, we use traffic data updated every 10 minutes and Long Short-Term Memory (LSTM) neural networks. We trained the LSTM using traffic data from 2018, and tested it using traffic data from 2019.
翻訳日:2023-09-06 16:02:19 公開日:2023-09-05
# 改定と違和感を信じるのは冗談か?

Belief revision and incongruity: is it a joke? ( http://arxiv.org/abs/2309.02009v1 )

ライセンス: Link先を確認
Florence Dupin de Saint Cyr - Bannay (IRIT-ADRIA), Henri Prade (IRIT-ADRIA)(参考訳) 相性はしばしば人を笑わせる。 愚かなことを言うのは賢明でなければならない。 理解するためには、もっと賢くする必要があります。 本論文は,ジョークを聴くエージェントの場合には,この知的行動を形式化しようとする恥ずべき試みである。 これらはすべて信念の修正、驚き、規範違反の問題である。

Incongruity often makes people laugh. You have to be smart to say stupid things. It requires to be even smarter for understanding them. This paper is a shameless attempt to formalize this intelligent behavior in the case of an agent listening to a joke. All this is a matter of revision of beliefs, surprise and violation of norms.
翻訳日:2023-09-06 16:02:05 公開日:2023-09-05
# 対数数学的形態学:理論と応用

Logarithmic Mathematical Morphology: theory and applications ( http://arxiv.org/abs/2309.02007v1 )

ライセンス: Link先を確認
Guillaume Noyel (LHC)(参考訳) 古典的には、数学的形態学において、画像(すなわち、グレーレベル関数)は構造要素または構造関数と呼ばれる別の画像によって解析される。 この構造関数は、画像領域上に移動され、画像にまとめられる。 しかし、照明変動を示す画像では、構成関数による分析では、画像強度に応じて振幅が変化する必要がある。 そのような性質は、構造関数が通常の加法則で像にまとめられるとき、グレイレベル関数の数学的形態では証明されない。 この問題に対処するために、新しい枠組みは、画像振幅に応じて構造化関数の振幅が変化する付加則で定義される。 この付加則は対数画像処理フレームワーク内で選択され、光強度の変化やカメラ露光時間の変化などの物理的原因による照明変動をモデル化する。 新しいフレームワークは対数数学的形態学 (LMM) と呼ばれ、そのような光の変動に頑健な作用素の定義を可能にする。 均一な照明変化を持つ画像では、これらの新しいLMM演算子は通常の形態演算子よりも優れた性能を示す。 非均一な照明変化を持つ眼底画像では, 血管分割のためのLMM法を3つの最先端手法と比較した。 その結果,LMM法は他の3法よりもロバスト性が高いことがわかった。

Classically, in Mathematical Morphology, an image (i.e., a grey-level function) is analysed by another image which is named the structuring element or the structuring function. This structuring function is moved over the image domain and summed to the image. However, in an image presenting lighting variations, the analysis by a structuring function should require that its amplitude varies according to the image intensity. Such a property is not verified in Mathematical Morphology for grey level functions, when the structuring function is summed to the image with the usual additive law. In order to address this issue, a new framework is defined with an additive law for which the amplitude of the structuring function varies according to the image amplitude. This additive law is chosen within the Logarithmic Image Processing framework and models the lighting variations with a physical cause such as a change of light intensity or a change of camera exposure-time. The new framework is named Logarithmic Mathematical Morphology (LMM) and allows the definition of operators which are robust to such lighting variations. In images with uniform lighting variations, those new LMM operators perform better than usual morphological operators. In eye-fundus images with non-uniform lighting variations, a LMM method for vessel segmentation is compared to three state-of-the-art approaches. Results show that the LMM approach has a better robustness to such variations than the three others.
翻訳日:2023-09-06 16:02:00 公開日:2023-09-05
# ほとんど)トレーニング無しで相関推定を集約する

Aggregating Correlated Estimations with (Almost) no Training ( http://arxiv.org/abs/2309.02005v1 )

ライセンス: Link先を確認
Theo Delemazure (LAMSADE), Fran\c{c}ois Durand (CREM, LINCS), Fabien Mathieu (LINCS)(参考訳) 多くの決定問題は正確には解決できず、利用可能な異なるオプションにスコアを割り当てる複数の推定アルゴリズムを使用する。 推定誤差は、低(例えば2つの非常に異なるアプローチ)から高(例えば、異なるハイパーパラメータを持つ特定のアルゴリズムを使用する場合)までの様々な相関を持つことができる。 ほとんどのアグリゲーションルールは、この相関の多様性に悩まされる。 本稿では, 相関を考慮に入れた異なるアグリゲーションルールを提案し, 合成データに基づく様々な実験において, ナイーブルールと比較する。 その結果,誤差間の相関関係について十分な情報が知られている場合には,最大確率集約が望ましいことがわかった。 そうでなければ、通常は限られたトレーニングデータで、Embedded Voting (EV)と呼ばれる手法を推奨します。

Many decision problems cannot be solved exactly and use several estimation algorithms that assign scores to the different available options. The estimation errors can have various correlations, from low (e.g. between two very different approaches) to high (e.g. when using a given algorithm with different hyperparameters). Most aggregation rules would suffer from this diversity of correlations. In this article, we propose different aggregation rules that take correlations into account, and we compare them to naive rules in various experiments based on synthetic data. Our results show that when sufficient information is known about the correlations between errors, a maximum likelihood aggregation should be preferred. Otherwise, typically with limited training data, we recommend a method that we call Embedded Voting (EV).
翻訳日:2023-09-06 16:01:41 公開日:2023-09-05
# MICCAI KiTS23 Challengeにおける追加データを用いたドメインシフトの分析

Analyzing domain shift when using additional data for the MICCAI KiTS23 Challenge ( http://arxiv.org/abs/2309.02001v1 )

ライセンス: Link先を確認
George Stoica, Mihaela Breaban and Vlad Barbu(参考訳) 追加のトレーニングデータを使用することで結果を改善することが知られており、特にトレーニング材料が不足している医用画像の3Dセグメンテーションでは、利用可能なデータが少ないことからモデルを十分に一般化する必要がある。 しかし、新しいデータが他の機器で取得され、前処理されたため、その分布は元のトレーニングデータと大きく異なる。 そこで,本研究では,トレーニング中のドメインシフトを改善する手法について検討した。 以上の結果から,ヒストグラムマッチングによる追加データの変換は,単純な正規化よりも良好な結果が得られた。

Using additional training data is known to improve the results, especially for medical image 3D segmentation where there is a lack of training material and the model needs to generalize well from few available data. However, the new data could have been acquired using other instruments and preprocessed such its distribution is significantly different from the original training data. Therefore, we study techniques which ameliorate domain shift during training so that the additional data becomes better usable for preprocessing and training together with the original data. Our results show that transforming the additional data using histogram matching has better results than using simple normalization.
翻訳日:2023-09-06 16:01:30 公開日:2023-09-05
# プロンプティング戦略によるレビューテキストのマルチドメイン感性分析

Enhance Multi-domain Sentiment Analysis of Review Texts through Prompting Strategies ( http://arxiv.org/abs/2309.02045v1 )

ライセンス: Link先を確認
Yajing Wang and Zongwei Luo(参考訳) 大規模言語モデル(LLM)は科学的研究と実践的応用の両方において大きな進歩を遂げてきた。 既存の研究では、自然言語処理タスクにおけるLLMの最先端(SOTA)性能が実証されている。 しかし、特定のタスクにおいて、プロンプト戦略を用いてLLMの性能をさらに向上させるかという問題は、依然として重要な懸念事項である。 本稿では,感情分析におけるLCMの性能向上について,プロンプト戦略の適用を通して検討する。 本研究では,感情分析タスクの促進過程を定式化し,感情分析に適した2つの新しい戦略,RolePlaying(RP)プロンプトとChain-of-Thought(CoT)プロンプトを導入する。 具体的には,RPプロンプトとCoTプロンプトを組み合わせたRP-CoTプロンプト戦略を提案する。 提案する感情分析手法の有効性を評価するために,3つの異なるドメインデータセットの比較実験を行った。 その結果,提案手法の採用により,感情分析の精度が向上することが示唆された。 さらに、CoTプロンプト戦略は暗黙の感情分析に顕著な影響を与え、RP-CoTプロンプト戦略はすべての戦略の中で最も優れたパフォーマンスを提供する。

Large Language Models (LLMs) have made significant strides in both scientific research and practical applications. Existing studies have demonstrated the state-of-the-art (SOTA) performance of LLMs in various natural language processing tasks. However, the question of how to further enhance LLMs' performance in specific task using prompting strategies remains a pivotal concern. This paper explores the enhancement of LLMs' performance in sentiment analysis through the application of prompting strategies. We formulate the process of prompting for sentiment analysis tasks and introduce two novel strategies tailored for sentiment analysis: RolePlaying (RP) prompting and Chain-of-thought (CoT) prompting. Specifically, we also propose the RP-CoT prompting strategy which is a combination of RP prompting and CoT prompting. We conduct comparative experiments on three distinct domain datasets to evaluate the effectiveness of the proposed sentiment analysis strategies. The results demonstrate that the adoption of the proposed prompting strategies leads to a increasing enhancement in sentiment analysis accuracy. Further, the CoT prompting strategy exhibits a notable impact on implicit sentiment analysis, with the RP-CoT prompting strategy delivering the most superior performance among all strategies.
翻訳日:2023-09-06 15:56:34 公開日:2023-09-05
# 効率的なRGB誘導深度補完のための分解誘導動的フィルタ

Decomposed Guided Dynamic Filters for Efficient RGB-Guided Depth Completion ( http://arxiv.org/abs/2309.02043v1 )

ライセンス: Link先を確認
Yufei Wang, Yuxin Mao, Qi Liu, Yuchao Dai(参考訳) RGB誘導深度補正は、疎深度測定と対応するRGB画像から深度マップを予測することを目的としており、マルチモーダル情報の有効かつ効率的に活用する方法が重要な課題である。 RGB特徴から深度特徴を導出する空間可変な深度分割可能な畳み込みフィルタを生成する誘導動的フィルタは,この課題に有効であることが証明された。 しかし、動的に生成されたフィルタは、機能チャネルの数が大きい場合、膨大なモデルパラメータ、計算コスト、メモリフットプリントを必要とする。 本稿では,各空間位置において,コンテンツ適応型適応器に乗じた空間共用成分に誘導型動的フィルタを分解する。 提案手法に基づいて,フィルタ構造を分割し,空間的注意力を用いてフィルタを分解する2つの分解スキームAとBを導入する。 分解されたフィルタは、ガイド付き動的フィルタの好ましい特性をコンテンツ依存的かつ空間的変動として維持するだけでなく、学習した適応器が特徴チャネルの数と分離されるため、モデルパラメータとハードウェアコストも低減する。 その結果,提案手法はKITTIデータセットの最先端手法よりも優れており,提案時のKITTIベンチマークでは第1位,第2位であることがわかった。 また、NYUv2データセットでも同等のパフォーマンスを実現している。 さらに,提案手法は汎用的であり,rgb-dサルエント物体検出など他のマルチモーダル融合タスクにおけるプラグイン・アンド・プレイ機能融合ブロックとして使用可能である。

RGB-guided depth completion aims at predicting dense depth maps from sparse depth measurements and corresponding RGB images, where how to effectively and efficiently exploit the multi-modal information is a key issue. Guided dynamic filters, which generate spatially-variant depth-wise separable convolutional filters from RGB features to guide depth features, have been proven to be effective in this task. However, the dynamically generated filters require massive model parameters, computational costs and memory footprints when the number of feature channels is large. In this paper, we propose to decompose the guided dynamic filters into a spatially-shared component multiplied by content-adaptive adaptors at each spatial location. Based on the proposed idea, we introduce two decomposition schemes A and B, which decompose the filters by splitting the filter structure and using spatial-wise attention, respectively. The decomposed filters not only maintain the favorable properties of guided dynamic filters as being content-dependent and spatially-variant, but also reduce model parameters and hardware costs, as the learned adaptors are decoupled with the number of feature channels. Extensive experimental results demonstrate that the methods using our schemes outperform state-of-the-art methods on the KITTI dataset, and rank 1st and 2nd on the KITTI benchmark at the time of submission. Meanwhile, they also achieve comparable performance on the NYUv2 dataset. In addition, our proposed methods are general and could be employed as plug-and-play feature fusion blocks in other multi-modal fusion tasks such as RGB-D salient object detection.
翻訳日:2023-09-06 15:56:14 公開日:2023-09-05
# 限られたサンプルを対象とするビデオオブジェクト分割参照のための相互親和性学習

Learning Cross-Modal Affinity for Referring Video Object Segmentation Targeting Limited Samples ( http://arxiv.org/abs/2309.02041v1 )

ライセンス: Link先を確認
Guanghui Li, Mingqi Gao, Heng Liu, Xiantong Zhen, Feng Zheng(参考訳) ビデオオブジェクトセグメンテーション(RVOS)を教師付き学習タスクとして参照することは、与えられたシーンに十分な注釈付きデータに依存する。 しかし、より現実的なシナリオでは、新しいシーンでは最小限のアノテーションしか利用できません。 そこで本研究では,Transformer アーキテクチャをベースとした相互親和性 (CMA) モジュールを新たに設計したシンプルなモデルを提案する。 CMAモジュールは、いくつかのサンプルでマルチモーダル親和性を構築し、新しいセマンティック情報を素早く学習し、モデルが異なるシナリオに適応できるようにする。 提案手法は,新しいシーンの限られたサンプルを対象としているため,ビデオオブジェクトセグメンテーション (FS-RVOS) を参照して問題を一般化する。 この方向の研究を促進するため、現在利用可能なデータセットに基づいた新しいFS-RVOSベンチマークを構築した。 このベンチマークは幅広い範囲をカバーし、現実世界のシナリオを最大限にシミュレートできる複数の状況を含む。 大規模な実験により、我々のモデルは少数のサンプルで異なるシナリオに順応し、ベンチマークで最先端のパフォーマンスに達することが示された。 Mini-Ref-YouTube-VOS では,ベースラインよりも平均 53.1 J と 54.8 F を達成している。 さらに,Mini-Ref-SAIL-VOSの77.7 Jと74.8 Fは,ベースラインよりも大幅に優れていた。 コードはhttps://github.com/hengliusky/Few_shot_RVOSで公開されている。

Referring video object segmentation (RVOS), as a supervised learning task, relies on sufficient annotated data for a given scene. However, in more realistic scenarios, only minimal annotations are available for a new scene, which poses significant challenges to existing RVOS methods. With this in mind, we propose a simple yet effective model with a newly designed cross-modal affinity (CMA) module based on a Transformer architecture. The CMA module builds multimodal affinity with a few samples, thus quickly learning new semantic information, and enabling the model to adapt to different scenarios. Since the proposed method targets limited samples for new scenes, we generalize the problem as - few-shot referring video object segmentation (FS-RVOS). To foster research in this direction, we build up a new FS-RVOS benchmark based on currently available datasets. The benchmark covers a wide range and includes multiple situations, which can maximally simulate real-world scenarios. Extensive experiments show that our model adapts well to different scenarios with only a few samples, reaching state-of-the-art performance on the benchmark. On Mini-Ref-YouTube-VOS, our model achieves an average performance of 53.1 J and 54.8 F, which are 10% better than the baselines. Furthermore, we show impressive results of 77.7 J and 74.8 F on Mini-Ref-SAIL-VOS, which are significantly better than the baselines. Code is publicly available at https://github.com/hengliusky/Few_shot_RVOS.
翻訳日:2023-09-06 15:55:47 公開日:2023-09-05
# 拡散生成逆設計

Diffusion Generative Inverse Design ( http://arxiv.org/abs/2309.02040v1 )

ライセンス: Link先を確認
Marin Vlastelica, Tatiana L\'opez-Guevara and Kelsey Allen, Peter Battaglia, Arnaud Doucet, Kimberley Stachenfeld(参考訳) 逆設計(inverse design)とは、目的関数の入力を最適化して目標結果を達成する問題を指す。 多くの実世界のエンジニアリング問題に対して、客観的関数は、システム状態が時間とともにどのように進化するかを予測するシミュレータの形式をとり、設計上の課題は、ターゲットとなる結果につながる初期条件を最適化することである。 近年の学習シミュレーションでは、グラフニューラルネットワーク(GNN)がシミュレーション力学の正確で効率的で微分可能な推定に利用でき、勾配やサンプリングに基づく最適化手順による高品質な設計最適化をサポートすることが示されている。 しかし,スクラッチから設計を最適化するには多くの高価なモデルクエリが必要であり,非凸問題や高次元問題において基本的な故障が生じている。本研究は,逆設計問題を効率的に解くために拡散モデル(ddms)がどのように使われるかを示し,その効率をさらに向上させる粒子サンプリングアルゴリズムを提案する。 我々は流体力学設計の課題について実験を行い,本手法はシミュレータの呼び出し回数を標準手法に比べて大幅に削減することを示した。

Inverse design refers to the problem of optimizing the input of an objective function in order to enact a target outcome. For many real-world engineering problems, the objective function takes the form of a simulator that predicts how the system state will evolve over time, and the design challenge is to optimize the initial conditions that lead to a target outcome. Recent developments in learned simulation have shown that graph neural networks (GNNs) can be used for accurate, efficient, differentiable estimation of simulator dynamics, and support high-quality design optimization with gradient- or sampling-based optimization procedures. However, optimizing designs from scratch requires many expensive model queries, and these procedures exhibit basic failures on either non-convex or high-dimensional problems.In this work, we show how denoising diffusion models (DDMs) can be used to solve inverse design problems efficiently and propose a particle sampling algorithm for further improving their efficiency. We perform experiments on a number of fluid dynamics design challenges, and find that our approach substantially reduces the number of calls to the simulator compared to standard techniques.
翻訳日:2023-09-06 15:55:20 公開日:2023-09-05
# Data-Juicer:大規模言語モデルのためのワンストップデータ処理システム

Data-Juicer: A One-Stop Data Processing System for Large Language Models ( http://arxiv.org/abs/2309.02033v1 )

ライセンス: Link先を確認
Daoyuan Chen, Yilun Huang, Zhijian Ma, Hesen Chen, Xuchen Pan, Ce Ge, Dawei Gao, Yuexiang Xie, Zhaoyang Liu, Jinyang Gao, Yaliang Li, Bolin Ding, Jingren Zhou(参考訳) 大規模言語モデル(LLM)の膨大な進化は、大規模で多様で高品質なデータの重要性を強調している。 それにもかかわらず、LLMデータ処理のための既存のオープンソースツールは、適応性とユーザビリティよりもリリースデータの再現性を重視し、潜在的なアプリケーションを抑制することで、主に特定のデータセットに適合する。 そこで本研究では,Data-Juicerという,ワンストップかつ強力でフレキシブルでユーザフレンドリーなLLMデータ処理システムを提案する。 当社のシステムは50以上の組み込み多用途オペレータとプラグインツールを提供しており、多様なllmデータ処理ニーズに特化したモジュール性、コンポーザビリティ、拡張性を統合している。 Data-Juicerは視覚化された自動評価機能を組み込むことで、タイムリーなフィードバックループによってデータ処理を加速し、データインサイトを得ることができる。 ユーザビリティを高めるため、Data-Juicerは、さまざまなバックグラウンドを持つユーザのためのアウト・オブ・ザ・ボックスのコンポーネントと、LLM事前トレーニングとポストチューニング使用のための実りの多いデータレシピを提供する。 さらに,マルチファセットシステムの最適化と,llmと分散コンピューティングのエコシステムとのデータjuicerをシームレスに統合することにより,効率的かつスケーラブルなデータ処理を実現する。 生成したデータレシピの実証検証により、様々な事前学習および後トレーニングのケースにおいて、LLaMAのパフォーマンスが大幅に向上し、16 LLMベンチマークの平均スコアが7.45%、ペアワイズ GPT-4 評価を用いた16.25%向上した。 システムの効率性とスケーラビリティも検証されており、シングルマシン処理時間の最大88.7%削減、メモリ使用率77.1%、CPU使用率73.1%削減、分散コンピューティングエコシステムの利用時の7.91倍の処理アクセラレーションがサポートされている。 我々のシステム、データレシピ、および複数のチュートリアルデモがリリースされ、LLMデータを中心としたより広範な研究が求められている。

The immense evolution in Large Language Models (LLMs) has underscored the importance of massive, diverse, and high-quality data. Despite this, existing open-source tools for LLM data processing remain limited and mostly tailored to specific datasets, with an emphasis on the reproducibility of released data over adaptability and usability, inhibiting potential applications. In response, we propose a one-stop, powerful yet flexible and user-friendly LLM data processing system named Data-Juicer. Our system offers over 50 built-in versatile operators and pluggable tools, which synergize modularity, composability, and extensibility dedicated to diverse LLM data processing needs. By incorporating visualized and automatic evaluation capabilities, Data-Juicer enables a timely feedback loop to accelerate data processing and gain data insights. To enhance usability, Data-Juicer provides out-of-the-box components for users with various backgrounds, and fruitful data recipes for LLM pre-training and post-tuning usages. Further, we employ multi-facet system optimization and seamlessly integrate Data-Juicer with both LLM and distributed computing ecosystems, to enable efficient and scalable data processing. Empirical validation of the generated data recipes reveals considerable improvements in LLaMA performance for various pre-training and post-tuning cases, demonstrating up to 7.45% relative improvement of averaged score across 16 LLM benchmarks and 16.25% higher win rate using pair-wise GPT-4 evaluation. The system's efficiency and scalability are also validated, supported by up to 88.7% reduction in single-machine processing time, 77.1% and 73.1% less memory and CPU usage respectively, and 7.91x processing acceleration when utilizing distributed computing ecosystems. Our system, data recipes, and multiple tutorial demos are released, calling for broader research centered on LLM data.
翻訳日:2023-09-06 15:54:59 公開日:2023-09-05
# 効率的な視覚トランスフォーマーに関する調査:アルゴリズム、技術、およびパフォーマンスベンチマーク

A survey on efficient vision transformers: algorithms, techniques, and performance benchmarking ( http://arxiv.org/abs/2309.02031v1 )

ライセンス: Link先を確認
Lorenzo Papa, Paolo Russo, Irene Amerini, and Luping Zhou(参考訳) Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションに取り組むために人気が高まり、広く使われている。 彼らの主な特徴は、自己追跡機構を通じてグローバル情報を抽出する能力であり、初期の畳み込みニューラルネットワークを上回っている。 しかし、ViTのデプロイメントとパフォーマンスは、サイズ、トレーニング可能なパラメータの数、操作によって着実に向上している。 さらに、自己注意の計算コストとメモリコストは、画像解像度によって2次的に増加する。 一般的に言って、処理や計算能力といった多くのハードウェアや環境上の制約のため、現実のアプリケーションでこれらのアーキテクチャを採用することは困難である。 そこで本研究では,最小最適推定性能を確保するための最も効率的な手法について検討する。 より詳しくは、コンパクトアーキテクチャ、プルーニング、知識蒸留、量子化戦略の4つの効率的なカテゴリが分析される。 さらに、パラメータ数、ビット数、フロップ数、モデルサイズなど、推論時にハードウェアデバイスに影響するモデルの機能を正規化し比較するために、効率的なエラーレートと呼ばれる新しいメトリックが導入された。 本稿ではまず,ビジョントランスフォーマーを効率的にするための戦略を数学的に定義し,現状の方法論を記述し,議論し,その性能を異なるアプリケーションシナリオで分析する。 本稿の最後には,オープンチャレンジと有望な研究方向性についても論じる。

Vision Transformer (ViT) architectures are becoming increasingly popular and widely employed to tackle computer vision applications. Their main feature is the capacity to extract global information through the self-attention mechanism, outperforming earlier convolutional neural networks. However, ViT deployment and performance have grown steadily with their size, number of trainable parameters, and operations. Furthermore, self-attention's computational and memory cost quadratically increases with the image resolution. Generally speaking, it is challenging to employ these architectures in real-world applications due to many hardware and environmental restrictions, such as processing and computational capabilities. Therefore, this survey investigates the most efficient methodologies to ensure sub-optimal estimation performances. More in detail, four efficient categories will be analyzed: compact architecture, pruning, knowledge distillation, and quantization strategies. Moreover, a new metric called Efficient Error Rate has been introduced in order to normalize and compare models' features that affect hardware devices at inference time, such as the number of parameters, bits, FLOPs, and model size. Summarizing, this paper firstly mathematically defines the strategies used to make Vision Transformer efficient, describes and discusses state-of-the-art methodologies, and analyzes their performances over different application scenarios. Toward the end of this paper, we also discuss open challenges and promising research directions.
翻訳日:2023-09-06 15:54:25 公開日:2023-09-05
# デジタル教育の進化における人工知能の影響:ChatGPT, Bing Chat, Bard, Ernieを含むOpenAIテキスト生成ツールの比較研究

The Impact of Artificial Intelligence on the Evolution of Digital Education: A Comparative Study of OpenAI Text Generation Tools including ChatGPT, Bing Chat, Bard, and Ernie ( http://arxiv.org/abs/2309.02029v1 )

ライセンス: Link先を確認
Negin Yazdani Motlagh, Matin Khajavi, Abbas Sharifi, Mohsen Ahmadi(参考訳) デジタル時代には、教育における人工知能(AI)の統合は、変革的変化、教育方法論の再定義、カリキュラム計画、学生のエンゲージメントを背景としている。 このレビュー論文は、Bing Chat、Bard、ErnieといったOpenAIの先駆的なテキスト生成ツールの能力と影響を、小説『ChatGPT』に重点を置いて対比することで、急速に進化するデジタル教育の風景を深く掘り下げている。 システム、プロセス、そして結果のレンズを通して教育を観る類型学に基づいて、論文はAIの多面的応用をナビゲートする。 グローバル教育の分散化やカリキュラムのパーソナライズ、能力に基づく成果のデジタル化など、AIは教育の近代化の最前線にいる。 ChatGPTの隕石がわずか5日で100万人に達したことを踏まえて、この研究は教育の民主化、自律主義の育成、学生のエンゲージメントの拡大といった役割を強調している。 しかし、このような変換力があれば、テキスト生成ツールが誤って学術的整合性に挑戦する可能性があるため、誤用の可能性も生まれる。 教育におけるAIの約束と落とし穴を論じることで、AIツールと教育コミュニティの調和した相乗効果を提唱し、倫理的ガイドライン、教育的適応、戦略的協力の緊急の必要性を強調した。

In the digital era, the integration of artificial intelligence (AI) in education has ushered in transformative changes, redefining teaching methodologies, curriculum planning, and student engagement. This review paper delves deep into the rapidly evolving landscape of digital education by contrasting the capabilities and impact of OpenAI's pioneering text generation tools like Bing Chat, Bard, Ernie with a keen focus on the novel ChatGPT. Grounded in a typology that views education through the lenses of system, process, and result, the paper navigates the multifaceted applications of AI. From decentralizing global education and personalizing curriculums to digitally documenting competence-based outcomes, AI stands at the forefront of educational modernization. Highlighting ChatGPT's meteoric rise to one million users in just five days, the study underscores its role in democratizing education, fostering autodidacticism, and magnifying student engagement. However, with such transformative power comes the potential for misuse, as text-generation tools can inadvertently challenge academic integrity. By juxtaposing the promise and pitfalls of AI in education, this paper advocates for a harmonized synergy between AI tools and the educational community, emphasizing the urgent need for ethical guidelines, pedagogical adaptations, and strategic collaborations.
翻訳日:2023-09-06 15:54:05 公開日:2023-09-05
# カーネルを用いた非パラメトリック表現学習

Non-Parametric Representation Learning with Kernels ( http://arxiv.org/abs/2309.02028v1 )

ライセンス: Link先を確認
Pascal Esser, Maximilian Fleissner, Debarghya Ghoshdastidar(参考訳) 近年,未学習データから有用な特徴を学習するために,教師なし・自己教師付き表現学習が普及している。 表現学習は主にニューラルネットワークの文献で開発されており、表現学習の他のモデルは驚くほど未解明である。 本稿では,2つのカーネル自己教師付き学習(ssl)モデルをコントラスト損失関数を用いて定義し,もう1つは,データの埋め込み・再構成という考え方に基づくカーネルオートエンコーダ(ae)モデルである。 教師付きカーネルマシンの古典的表現定理は、必ずしも(自己教師付き)表現学習に適用できるものではなく、カーネルモデルによって学習された表現をカーネル行列で表現できることを示す新しい表現定理である。 さらに,カーネルsslとaeを用いた表現学習における一般化誤り境界を導出し,これらの手法の性能を実験的に評価し,ニューラルネットワークモデルとの比較を行った。

Unsupervised and self-supervised representation learning has become popular in recent years for learning useful features from unlabelled data. Representation learning has been mostly developed in the neural network literature, and other models for representation learning are surprisingly unexplored. In this work, we introduce and analyze several kernel-based representation learning approaches: Firstly, we define two kernel Self-Supervised Learning (SSL) models using contrastive loss functions and secondly, a Kernel Autoencoder (AE) model based on the idea of embedding and reconstructing data. We argue that the classical representer theorems for supervised kernel machines are not always applicable for (self-supervised) representation learning, and present new representer theorems, which show that the representations learned by our kernel models can be expressed in terms of kernel matrices. We further derive generalisation error bounds for representation learning with kernel SSL and AE, and empirically evaluate the performance of these methods in both small data regimes as well as in comparison with neural network based models.
翻訳日:2023-09-06 15:53:38 公開日:2023-09-05
# 最小メッセージ長による多変量ホークプロセスのグランガー因果推論

Granger Causal Inference in Multivariate Hawkes Processes by Minimum Message Length ( http://arxiv.org/abs/2309.02027v1 )

ライセンス: Link先を確認
Katerina Hlavackova-Schindler, Anna Melnykova, Irene Tubikanec(参考訳) 多変量ホークスプロセス(MHP)は、地震、株式市場での運営、神経活動、ウイルスの伝播など、様々な実生活現象をモデル化するための多用途確率的ツールである。 本稿では,指数減衰核を持つmhpに着目し,それらのコンポーネント間のグレンジャー因果関係を表す接続グラフを推定する。 我々は、最小メッセージ長(mml)原理に基づく最適化基準とモデル選択アルゴリズムを提案することにより、この推論問題にアプローチする。 MMLは、オッカムのカウンサル原理を用いたグランガー因果関係モデルと比較する: モデルが観測データと同等に適している場合でも、データの最も簡潔な説明を生成するモデルが好まれる。 ラッソ型ペナル化を用いた最先端の手法の多くは、短い時間軸のシナリオでは過度に適合する傾向にあるが、提案手法はこれらの設定において高いF1スコアを達成する。 提案手法を他の古典的手法や最先端手法と比較し,特定のスパースグラフ設定においてf1スコアの最高値を得る。 提案手法は,g7ソブリン社債データにも適用でき,文献で利用可能な専門家の知識と一致した因果関係が得られる。

Multivariate Hawkes processes (MHPs) are versatile probabilistic tools used to model various real-life phenomena: earthquakes, operations on stock markets, neuronal activity, virus propagation and many others. In this paper, we focus on MHPs with exponential decay kernels and estimate connectivity graphs, which represent the Granger causal relations between their components. We approach this inference problem by proposing an optimization criterion and model selection algorithm based on the minimum message length (MML) principle. MML compares Granger causal models using the Occam's razor principle in the following way: even when models have a comparable goodness-of-fit to the observed data, the one generating the most concise explanation of the data is preferred. While most of the state-of-art methods using lasso-type penalization tend to overfitting in scenarios with short time horizons, the proposed MML-based method achieves high F1 scores in these settings. We conduct a numerical study comparing the proposed algorithm to other related classical and state-of-art methods, where we achieve the highest F1 scores in specific sparse graph settings. We illustrate the proposed method also on G7 sovereign bond data and obtain causal connections, which are in agreement with the expert knowledge available in the literature.
翻訳日:2023-09-06 15:53:22 公開日:2023-09-05
# RDGSL:構造学習による動的グラフ表現学習

RDGSL: Dynamic Graph Representation Learning with Structure Learning ( http://arxiv.org/abs/2309.02025v1 )

ライセンス: Link先を確認
Siwei Zhang, Yun Xiong, Yao Zhang, Yiheng Sun, Xi Chen, Yizhu Jiao and Yangyong Zhu(参考訳) 時間グラフネットワーク(TGN)は、連続時間動的グラフの学習表現において顕著な性能を示した。 しかし、実世界のダイナミックグラフは典型的には多様で複雑なノイズを含む。 ノイズは表現生成の質を著しく低下させ、下流タスクにおけるTGNの有効性を阻害する。 構造学習は静的グラフのノイズ軽減に広く応用されているが、動的グラフ設定への適応は2つの重要な課題を生んでいる。 i)ノイズダイナミクス。 既存の構造学習手法は、ノイズの時間的側面に対処するには不適であり、そのような動的かつ絶え間なく変化するノイズパターンにおけるそれらの効果を妨げる。 二)より厳しい騒音。 ノイズは2つのノード間の複数の相互作用とともに導入され、これらのノードが再汚染され、静的グラフよりも重いノイズを引き起こす。 本稿では,連続時間動的グラフにおける表現学習手法RDGSLを提案する。 一方,動的グラフの雑音に効果的に対処できるRDGSLを補助する新しい信号である動的グラフ構造学習を提案する。 ノイズダイナミックス問題に対処するために、動的グラフフィルタを導入し、現在および過去のノイズの両方を動的にキャプチャする動的ノイズ関数を提案し、ノイズの時間的側面を評価し、復調グラフを生成する。 さらに,目視を雑音エッジに選択的に向け,通常のエッジに焦点を合わせ,雑音に耐性のある表現生成のための表現表現性を高めるための注意機構を用いた,より重大な雑音の課題に取り組むための時間的埋め込み学習器を提案する。 提案手法は,下流タスクに対するロバスト性を示し,第2ベットベースラインに比べて,進化的分類において最大5.1%の絶対的なAUC改善をもたらす。

Temporal Graph Networks (TGNs) have shown remarkable performance in learning representation for continuous-time dynamic graphs. However, real-world dynamic graphs typically contain diverse and intricate noise. Noise can significantly degrade the quality of representation generation, impeding the effectiveness of TGNs in downstream tasks. Though structure learning is widely applied to mitigate noise in static graphs, its adaptation to dynamic graph settings poses two significant challenges. i) Noise dynamics. Existing structure learning methods are ill-equipped to address the temporal aspect of noise, hampering their effectiveness in such dynamic and ever-changing noise patterns. ii) More severe noise. Noise may be introduced along with multiple interactions between two nodes, leading to the re-pollution of these nodes and consequently causing more severe noise compared to static graphs. In this paper, we present RDGSL, a representation learning method in continuous-time dynamic graphs. Meanwhile, we propose dynamic graph structure learning, a novel supervisory signal that empowers RDGSL with the ability to effectively combat noise in dynamic graphs. To address the noise dynamics issue, we introduce the Dynamic Graph Filter, where we innovatively propose a dynamic noise function that dynamically captures both current and historical noise, enabling us to assess the temporal aspect of noise and generate a denoised graph. We further propose the Temporal Embedding Learner to tackle the challenge of more severe noise, which utilizes an attention mechanism to selectively turn a blind eye to noisy edges and hence focus on normal edges, enhancing the expressiveness for representation generation that remains resilient to noise. Our method demonstrates robustness towards downstream tasks, resulting in up to 5.1% absolute AUC improvement in evolving classification versus the second-best baseline.
翻訳日:2023-09-06 15:52:58 公開日:2023-09-05
# 効率は不十分:環境に優しいaiの批判的視点

Efficiency is Not Enough: A Critical Perspective of Environmentally Sustainable AI ( http://arxiv.org/abs/2309.02065v1 )

ライセンス: Link先を確認
Dustin Wright and Christian Igel and Gabrielle Samuel and Raghavendra Selvan(参考訳) 人工知能(AI)は現在、ディープラーニング(DL)のような機械学習(ML)手法によって先導されており、AIから外れていると考えられる多くのタスクの進捗を加速している。 これらのml法は、しばしば空腹でエネルギー集約的な計算となり、人為的な気候変動の原動力として既知の炭素排出量を発生させる。 さらに、MLシステムが動作するプラットフォームは、二酸化炭素を含む環境への影響と関連している。 MLの環境持続可能性を高めるため、産業とMLコミュニティの両方が結集した解決策は、計算とエネルギー消費の両面でMLシステムが運用する効率を高めることである。 この観点では、効率だけではMLを環境的に持続できる技術にするには不十分である。 そこで我々は,mlの環境持続性に及ぼす効率性の影響について,その相互作用する多数の変数を考慮した場合の3つの高レベルな差異を提示する。 そこで我々は、技術的理由と非技術的理由の両方において、MLの環境影響を完全に是正するのに効率が不十分な理由を、複数のレベルで包括的に示す。 そこで本研究では,mlの環境持続可能性を改善するための有効な経路としてシステム思考を提示し,議論する。

Artificial Intelligence (AI) is currently spearheaded by machine learning (ML) methods such as deep learning (DL) which have accelerated progress on many tasks thought to be out of reach of AI. These ML methods can often be compute hungry, energy intensive, and result in significant carbon emissions, a known driver of anthropogenic climate change. Additionally, the platforms on which ML systems run are associated with environmental impacts including and beyond carbon emissions. The solution lionized by both industry and the ML community to improve the environmental sustainability of ML is to increase the efficiency with which ML systems operate in terms of both compute and energy consumption. In this perspective, we argue that efficiency alone is not enough to make ML as a technology environmentally sustainable. We do so by presenting three high level discrepancies between the effect of efficiency on the environmental sustainability of ML when considering the many variables which it interacts with. In doing so, we comprehensively demonstrate, at multiple levels of granularity both technical and non-technical reasons, why efficiency is not enough to fully remedy the environmental impacts of ML. Based on this, we present and argue for systems thinking as a viable path towards improving the environmental sustainability of ML holistically.
翻訳日:2023-09-06 15:44:49 公開日:2023-09-05
# MvFS:リコメンダシステムのためのマルチビュー特徴選択

MvFS: Multi-view Feature Selection for Recommender System ( http://arxiv.org/abs/2309.02064v1 )

ライセンス: Link先を確認
Youngjune Lee, Yeongjong Jeong, Keunchan Park and SeongKu Kang(参考訳) 推薦システムにおいて重要な特徴を抽出する技術である特徴選択は研究の注目を集めている。 近年,アダプティブ・フィーチャー・セレクション (AdaFS) は,各データ・インスタンスの機能を適応的に選択することで,データ間で特徴フィールドの重要性が著しく異なることを考慮し,顕著な性能を示した。 しかし、この方法には、選択過程が頻繁に発生する主要な特徴に偏りやすいという制限がある。 これらの問題に対処するために、各インスタンスのより効率的な情報機能を選択するMulti-view Feature Selection (MvFS)を提案する。 最も重要なのは、MvFSは複数のサブネットワークで構成されるマルチビューネットワークを採用しており、それぞれが異なる特徴パターンを持つデータの一部の特徴的重要性を計測することを学ぶ。 これにより、MvFSはよりバランスのとれた特徴選択プロセスを促進し、バイアス問題を支配的なパターンに向けて緩和する。 さらにmvfsは、機能間の依存性を伴わずに各フィールドに独立して適用される効果的な重要度スコアモデリング戦略を採用している。 実世界のデータセットに対する実験結果は、最先端のベースラインと比較してMvFSの有効性を示している。

Feature selection, which is a technique to select key features in recommender systems, has received increasing research attention. Recently, Adaptive Feature Selection (AdaFS) has shown remarkable performance by adaptively selecting features for each data instance, considering that the importance of a given feature field can vary significantly across data. However, this method still has limitations in that its selection process could be easily biased to major features that frequently occur. To address these problems, we propose Multi-view Feature Selection (MvFS), which selects informative features for each instance more effectively. Most importantly, MvFS employs a multi-view network consisting of multiple sub-networks, each of which learns to measure the feature importance of a part of data with different feature patterns. By doing so, MvFS promotes a more balanced feature selection process mitigating the bias problem towards dominant patterns. Moreover, MvFS adopts an effective importance score modeling strategy which is applied independently to each field without incurring dependency among features. Experimental results on real-world datasets demonstrate the effectiveness of MvFS compared to state-of-the-art baselines.
翻訳日:2023-09-06 15:43:59 公開日:2023-09-05
# コヒーレントドライブと環境ドライブの両方を備えたオープンキュービットにおけるh$とt$ゲートの生成のための量子制御ランドスケープ

Quantum control landscape for generation of $H$ and $T$ gates in an open qubit with both coherent and environmental drive ( http://arxiv.org/abs/2309.02063v1 )

ライセンス: Link先を確認
Vadim Petruhanov and Alexander Pechen(参考訳) 量子計算における重要な問題は、普遍的なゲートの集合の構成要素であるhadamard (h$) や$\pi/8$ (t$) ゲートのような単一量子ビット量子ゲートの生成である。 量子コンピューティングデバイスの実験的実現における量子ビットは、その環境と相互作用している。 環境はゲートの忠実度を低下させる障害と見なされることが多いが、場合によっては資源として利用することができる。 ここでは,コヒーレント制御によるh$およびt$ゲートの最適生成問題と,非コヒーレント制御によるキュービットに作用する資源としての環境について考察する。 そこで本研究では,不確かさの振る舞いを制御関数として表現する量子制御のランドスケープについて検討する。 3つのランドスケープを考察し、(ゲールツ=ライヒ=コッホのアプローチによる)2,3と、キュービットヒルベルト空間内の4つの行列を操ることによって、不フィデリティを定義する。 クリフォードゲート (clifford gate) である$h$ゲートは、3つの無限小すべてに対して勾配探索によって得られる最小値の分布は1つのピークしか持たない単純な形式である。 しかし、クリフォードではないゲートである$t$ゲートの場合、この状況は驚くほど異なる - 2つの行列によって定義される不確かさの分布もまた1つのピークを持つが、3つの行列と4つの行列で定義される不フィデリティの分布は2つのピークを持つ。 これら3つの不完全性のうち、3つの行列と4つの行列で定義されるものだけが、生成されたゲートのターゲットへの近接性を保証し、近接性のよい尺度として使用できる点が重要である。 この最も一般的な問題に対して、コヒーレントかつ非コヒーレントな制御が共に作用する場合には処理されない最適化された解の集合を研究し、それらが制御空間で部分多様体を形成し、時には2つの孤立部分多様体が予期せぬことに気付く。

An important problem in quantum computation is generation of single-qubit quantum gates such as Hadamard ($H$) and $\pi/8$ ($T$) gates which are components of a universal set of gates. Qubits in experimental realizations of quantum computing devices are interacting with their environment. While the environment is often considered as an obstacle leading to decrease of the gate fidelity, in some cases it can be used as a resource. Here we consider the problem of optimal generation of $H$ and $T$ gates using coherent control and the environment as a resource acting on the qubit via incoherent control. For this problem, we study quantum control landscape which represents the behaviour of the infidelity as a functional of the controls. We consider three landscapes, with infidelities defined by steering between two, three (via Goerz-Reich-Koch approach), and four matrices in the qubit Hilbert space. We observe that for the $H$ gate, which is Clifford gate, for all three infidelities the distributions of minimal values obtained with gradient search have a simple form with just one peak. However, for $T$ gate which is a non-Clifford gate, the situation is surprisingly different - this distribution for the infidelity defined by two matrices also has one peak, whereas distributions for the infidelities defined by three and four matrices have two peaks, that might indicate possible existence of two isolated minima in the control landscape. Important is that among these three infidelities only those defined with three and four matrices guarantee closeness of generated gate to a target and can be used as a good measure of closeness. We study sets of optimized solutions for this most general and not treated before case of coherent and incoherent controls acting together, and discover that they form submanifolds in the control space, and unexpected, in some cases two isolated submanifolds.
翻訳日:2023-09-06 15:43:23 公開日:2023-09-05
# 異方性系の時間遅延

Time delays in anisotropic systems ( http://arxiv.org/abs/2309.02059v1 )

ライセンス: Link先を確認
Ulf Saalmann and Jan M. Rost(参考訳) 各s行列の観点から一般(非対称)ポテンシャルの散乱特性と時間遅れを1次元および対称ポテンシャルと比較し、パラダイム論的に考察した。 後者のみ、ウィグナーとスミスの時間遅延は一致する。 非対称ポテンシャルを考えると、文献で使われるs-行列の1つのバージョン(対角線上の反射係数を持つもの)のみが非対称の場合に一般化する。 最後に、散乱中心から単にオフセットである場合、非対称的な振る舞いをする内在対称性を持つポテンシャルを特定する方法を与える。

Scattering properties and time delays for general (non-symmetric) potentials in terms of the respective S-matrices are discussed paradigmatically in one dimension and in comparison to symmetric potentials. Only for the latter the Wigner and Smith time delays coincide. Considering asymmetric potentials also reveals that only one version of S-matrices used in the literature (the one with reflection coefficients on the diagonal) generalizes to the asymmetric case. Finally, we give a criterion how to identify a potential with intrinsic symmetry which behaves like an asymmetric one if it is merely offset from the scattering center.
翻訳日:2023-09-06 15:42:44 公開日:2023-09-05
# ノイズを考慮したノンリグレットキャッシング

No-Regret Caching with Noisy Request Estimates ( http://arxiv.org/abs/2309.02055v1 )

ライセンス: Link先を確認
Younes Ben Mazziane, Francescomaria Faticanti, Giovanni Neglia, Sara Alouf(参考訳) オンライン学習アルゴリズムは、後悔の保証のあるキャッシュポリシーの設計に成功している。 既存のアルゴリズムでは、キャッシュが正確なリクエストシーケンスを知っていると仮定しているが、高負荷やメモリ制限されたシナリオでは、キャッシュがサンプリングされたリクエストのみにアクセスしたり、ほぼリクエストのカウンタにアクセスできない可能性がある。 本稿では,リクエスト推定がノイズである場合,従来のFPLの変種であるNoisy-Follow-the-Perturbed-Leader (NFPL)アルゴリズムを提案する。 実験により,提案手法を古典的なキャッシュポリシと比較し,提案手法を合成および実要求トレースの両方で検証した。

Online learning algorithms have been successfully used to design caching policies with regret guarantees. Existing algorithms assume that the cache knows the exact request sequence, but this may not be feasible in high load and/or memory-constrained scenarios, where the cache may have access only to sampled requests or to approximate requests' counters. In this paper, we propose the Noisy-Follow-the-Perturbed-Leader (NFPL) algorithm, a variant of the classic Follow-the-Perturbed-Leader (FPL) when request estimates are noisy, and we show that the proposed solution has sublinear regret under specific conditions on the requests estimator. The experimental evaluation compares the proposed solution against classic caching policies and validates the proposed approach under both synthetic and real request traces.
翻訳日:2023-09-06 15:42:33 公開日:2023-09-05
# 赤外小型目標検出のための適応的空間時間特性差法

An Adaptive Spatial-Temporal Local Feature Difference Method for Infrared Small-moving Target Detection ( http://arxiv.org/abs/2309.02054v1 )

ライセンス: Link先を確認
Yongkang Zhao, Chuang Zhu, Yuan Li, Shuaishuai Wang, Zihan Lan, Yuanyuan Qiao(参考訳) 赤外線(IR)画像シーケンスで小さな移動目標を正確に検出することは大きな課題である。 この問題に対処するため,適応的背景抑圧(ABS)を用いた時空間局所特徴差法(STLFD)を提案する。 提案手法では,空間領域と時間領域のフィルタを用いて,出力に対して画素レベルのABSを行い,対象と背景のコントラストを高める。 提案手法は3段階からなる。 まず、現在のフレーム画像に基づいて3つの時間フレーム画像を取得し、設計した空間領域と時間領域フィルタを用いて2つの特徴マップを抽出する。 次に,空間領域と時間領域の情報を融合して空間時空間特徴写像を生成し,画素レベルのABSモジュールを用いて雑音を抑制する。 最後に、しきい値を適用してセグメント化されたバイナリマップを得る。 実験の結果,提案手法は赤外線小移動目標検出のための最先端手法よりも優れていた。

Detecting small moving targets accurately in infrared (IR) image sequences is a significant challenge. To address this problem, we propose a novel method called spatial-temporal local feature difference (STLFD) with adaptive background suppression (ABS). Our approach utilizes filters in the spatial and temporal domains and performs pixel-level ABS on the output to enhance the contrast between the target and the background. The proposed method comprises three steps. First, we obtain three temporal frame images based on the current frame image and extract two feature maps using the designed spatial domain and temporal domain filters. Next, we fuse the information of the spatial domain and temporal domain to produce the spatial-temporal feature maps and suppress noise using our pixel-level ABS module. Finally, we obtain the segmented binary map by applying a threshold. Our experimental results demonstrate that the proposed method outperforms existing state-of-the-art methods for infrared small-moving target detection.
翻訳日:2023-09-06 15:42:19 公開日:2023-09-05
# 重力および標準モデル展開における単一光子遷移からの原子回折

Atomic diffraction from single-photon transitions in gravity and Standard-Model extensions ( http://arxiv.org/abs/2309.02051v1 )

ライセンス: Link先を確認
Alexander Bott, Fabio Di Pumpo, Enno Giese(参考訳) 単一光子遷移は、地上重力波やダークマター検出に適した非常に長いベースライン原子干渉計を設計し、運用するための重要な技術の1つである。 このようなセットアップは相対論的および超高次モデル物理学の発見を目的としているため、この精度とそれらの効果を含む原子回折と同様に、インターフェロメトリー相の解析を行う必要がある。 対照的に、ほとんどの治療は理想化された回折に焦点を当てている。 ここでは、重力および標準模型拡張における単光子遷移の研究を行い、暗黒物質とアインシュタイン同値原理の破れをモデル化した。 我々は、質量欠陥によって引き起こされる内部から中心への自由度の結合や、回折光パルスの重力赤方偏移といった相対論的効果を考慮する。 この目的のためには、地上で必要とされる光パルスのチャープと、それに伴う単光子遷移の運動量移動も含んでいる。

Single-photon transitions are one of the key technologies for designing and operating very-long-baseline atom interferometers tailored for terrestrial gravitational-wave and dark-matter detection. Since such setups aim at the detection of relativistic and beyond-Standard-Model physics, the analysis of interferometric phases as well as of atomic diffraction must be performed to this precision and including these effects. In contrast, most treatments focused on idealized diffraction so far. Here, we study single-photon transitions, both magnetically-induced and direct ones, in gravity and Standard-Model extensions modeling dark matter as well as Einstein-equivalence-principle violations. We take into account relativistic effects like the coupling of internal to center-of-mass degrees of freedom, induced by the mass defect, as well as the gravitational redshift of the diffracting light pulse. To this end, we also include chirping of the light pulse required by terrestrial setups, as well as its associated modified momentum transfer for single-photon transitions.
翻訳日:2023-09-06 15:42:05 公開日:2023-09-05
# カリキュラム学習による雑音計測によるモデル依存型ネットワーク推論の強化

Model-agnostic network inference enhancement from noisy measurements via curriculum learning ( http://arxiv.org/abs/2309.02050v1 )

ライセンス: Link先を確認
Kai Wu, Yuanyuan Li, Jing Liu(参考訳) ノイズは実世界の計測データにおける広汎な要素であり、ネットワーク推論モデルの性能を著しく損なう。 しかし、様々なネットワーク推論モデルにまたがって耐雑音性を増強できる包括的拡張フレームワークの追求は、いまだ解明されていない。 本稿では,ノイズの存在下でのネットワーク推論モデルの能力を増幅するための,エレガントで効率的なフレームワークを提案する。 カリキュラム学習を活用し,ノイズサンプルのネットワーク推論モデルへの影響を軽減した。 提案するフレームワークはモデルに依存しず,モデルベースおよびモデルフリーのネットワーク推論手法にシームレスに統合可能である。 特に,モデルベースと3つのモデルフリーネットワーク推論手法を基礎として利用する。 様々な合成および実世界のネットワークにわたる大規模な実験は、様々な非線形動的過程をカプセル化しており、様々なノイズタイプ、特にクリーンサンプルで富んだシナリオにおいて、顕著なパフォーマンス向上を示す。 モデルフリーとモデルベースの両方のネットワーク推論方法論を強化するこのフレームワークは、ネットワーク推論モデルのスペクトル全体を包含する、包括的で統一された拡張フレームワークへの道を拓いている。 コード:https://github.com/xiaoyuans/MANIE.com

Noise is a pervasive element within real-world measurement data, significantly undermining the performance of network inference models. However, the quest for a comprehensive enhancement framework capable of bolstering noise resistance across a diverse array of network inference models has remained elusive. Here, we present an elegant and efficient framework tailored to amplify the capabilities of network inference models in the presence of noise. Leveraging curriculum learning, we mitigate the deleterious impact of noisy samples on network inference models. Our proposed framework is model-agnostic, seamlessly integrable into a plethora of model-based and model-free network inference methods. Notably, we utilize one model-based and three model-free network inference methods as the foundation. Extensive experimentation across various synthetic and real-world networks, encapsulating diverse nonlinear dynamic processes, showcases substantial performance augmentation under varied noise types, particularly thriving in scenarios enriched with clean samples. This framework's adeptness in fortifying both model-free and model-based network inference methodologies paves the avenue towards a comprehensive and unified enhancement framework, encompassing the entire spectrum of network inference models. Available Code: https://github.com/xiaoyuans/MANIE.
翻訳日:2023-09-06 15:41:48 公開日:2023-09-05
# ランダムボックスを用いた拡散型3次元物体検出

Diffusion-based 3D Object Detection with Random Boxes ( http://arxiv.org/abs/2309.02049v1 )

ライセンス: Link先を確認
Xin Zhou, Jinghua Hou, Tingting Yao, Dingkang Liang, Zhe Liu, Zhikang Zou, Xiaoqing Ye, Jianwei Cheng, Xiang Bai(参考訳) 3dオブジェクト検出は、自動運転を実現する上で不可欠なタスクである。 既存のアンカーに基づく検出法は、アンカーの経験的ヒューリスティックス設定に依存しており、アルゴリズムにはエレガンスがない。 近年,拡散モデルが2つの分布の変換を学習する大きな可能性を示すいくつかの生成モデルが出現するのを目撃している。 提案するDiff3Detは,検出ボックスを生成対象として考慮し,拡散モデルから3次元オブジェクト検出のための提案生成へ移行する。 トレーニング中、オブジェクトボックスは基底真理ボックスからガウス分布に拡散し、デコーダはこのノイズプロセスを逆転することを学習する。 推論段階では、モデルは予測結果にランダムボックスのセットを徐々に洗練する。 我々はkittiベンチマークに関する詳細な実験を行い,従来のアンカー型3d検出法と比較して有望な性能を実現する。

3D object detection is an essential task for achieving autonomous driving. Existing anchor-based detection methods rely on empirical heuristics setting of anchors, which makes the algorithms lack elegance. In recent years, we have witnessed the rise of several generative models, among which diffusion models show great potential for learning the transformation of two distributions. Our proposed Diff3Det migrates the diffusion model to proposal generation for 3D object detection by considering the detection boxes as generative targets. During training, the object boxes diffuse from the ground truth boxes to the Gaussian distribution, and the decoder learns to reverse this noise process. In the inference stage, the model progressively refines a set of random boxes to the prediction results. We provide detailed experiments on the KITTI benchmark and achieve promising performance compared to classical anchor-based 3D detection methods.
翻訳日:2023-09-06 15:41:29 公開日:2023-09-05
# Scoring Rules Minimizationによる確率的自己教師型学習

Probabilistic Self-supervised Learning via Scoring Rules Minimization ( http://arxiv.org/abs/2309.02048v1 )

ライセンス: Link先を確認
Amirhossein Vahidi, Simon Scho{\ss}er, Lisa Wimmer, Yawei Li, Bernd Bischl, Eyke H\"ullermeier, Mina Rezaei(参考訳) 本稿では,確率モデルのパワーを活用して表現の質を高め,畳み込み表現を緩和する,スコーリングルール最小化(ProSMIN)による新しい確率的自己教師型学習を提案する。 提案手法は2つのニューラルネットワーク – オンラインネットワークとターゲットネットワーク – が,知識蒸留を通じて相互に協調して表現の多様な分布を学習する。 入力サンプルを2つの拡張フォーマットで提示することにより、オンラインネットワークは異なる拡張ビューの下で同じサンプルのターゲットネットワーク表現を予測するように訓練される。 2つのネットワークは、適切なスコアリングルールに基づいて、新しい損失関数によってトレーニングされる。 我々はProSMINの収束の理論的正当性を提供し、修正されたスコアリング規則の厳密な妥当性を示す。 この洞察は、手法の最適化プロセスを検証し、その堅牢性と表現品質の改善に寄与する。 我々は,分布内一般化,分布外検出,データセットの破損,低ショット学習,転帰学習など,下流タスクの確率モデルを評価する。 本手法は,imagenet-o や imagenet-c のような大規模データセットにおける幅広い実験において,自己教師付きベースラインを上回って,精度と校正に優れる。

In this paper, we propose a novel probabilistic self-supervised learning via Scoring Rule Minimization (ProSMIN), which leverages the power of probabilistic models to enhance representation quality and mitigate collapsing representations. Our proposed approach involves two neural networks; the online network and the target network, which collaborate and learn the diverse distribution of representations from each other through knowledge distillation. By presenting the input samples in two augmented formats, the online network is trained to predict the target network representation of the same sample under a different augmented view. The two networks are trained via our new loss function based on proper scoring rules. We provide a theoretical justification for ProSMIN's convergence, demonstrating the strict propriety of its modified scoring rule. This insight validates the method's optimization process and contributes to its robustness and effectiveness in improving representation quality. We evaluate our probabilistic model on various downstream tasks, such as in-distribution generalization, out-of-distribution detection, dataset corruption, low-shot learning, and transfer learning. Our method achieves superior accuracy and calibration, surpassing the self-supervised baseline in a wide range of experiments on large-scale datasets like ImageNet-O and ImageNet-C, ProSMIN demonstrates its scalability and real-world applicability.
翻訳日:2023-09-06 15:41:17 公開日:2023-09-05
# ブリッジング感情ロールラベリングと評価に基づく感情分析

Bridging Emotion Role Labeling and Appraisal-based Emotion Analysis ( http://arxiv.org/abs/2309.02092v1 )

ライセンス: Link先を確認
Roman Klinger(参考訳) テキストにおける感情分析という用語は、コンピュータが感情を理解するための共通の目標を持つ様々な自然言語処理タスクを仮定する。 最も人気のある感情分類は、1つまたは複数の感情が予め定義されたテキスト単位に割り当てられる感情分類である。 このような設定は読者または著者の感情を特定するのに適しているが、感情役割ラベル付けは言及された実体の視点を追加し、感情の原因に対応するテキストスパンを抽出する。 感情は内的または外部的な出来事によって引き起こされ、主観的感情や認知的評価を含むいくつかのサブコンポーネントから構成される。 したがって、感情と出来事は2つの方法で関連していると論じる。 1)感情は出来事であり,この視点は感情役割のラベル付けのためのNLPの基盤である。 2)感情は事象によって引き起こされるものであり,NLPモデルに心理的評価理論を組み込んで事象を解釈する方法が研究によって明らかにされている。 これら2つの研究方向、すなわちロールラベリングと(イベント中心の)感情分類は、個別に取り組まれている。 我々は,SEAT (Structured Multi-Domain Emotion Analysis from Text) とCEAT (Computational Event Evaluation based on Appraisal Theories for Emotion Analysis) をドイツ研究財団から出資した。 本稿では,研究結果を整理し,オープンな研究課題を指摘する。

The term emotion analysis in text subsumes various natural language processing tasks which have in common the goal to enable computers to understand emotions. Most popular is emotion classification in which one or multiple emotions are assigned to a predefined textual unit. While such setting is appropriate to identify the reader's or author's emotion, emotion role labeling adds the perspective of mentioned entities and extracts text spans that correspond to the emotion cause. The underlying emotion theories agree on one important point; that an emotion is caused by some internal or external event and comprises several subcomponents, including the subjective feeling and a cognitive evaluation. We therefore argue that emotions and events are related in two ways. (1) Emotions are events; and this perspective is the fundament in NLP for emotion role labeling. (2) Emotions are caused by events; a perspective that is made explicit with research how to incorporate psychological appraisal theories in NLP models to interpret events. These two research directions, role labeling and (event-focused) emotion classification, have by and large been tackled separately. We contributed to both directions with the projects SEAT (Structured Multi-Domain Emotion Analysis from Text) and CEAT (Computational Event Evaluation based on Appraisal Theories for Emotion Analysis), both funded by the German Research Foundation. In this paper, we consolidate the findings and point out open research questions.
翻訳日:2023-09-06 15:35:03 公開日:2023-09-05
# DeNISE: セグメンテーションエッジを改善するディープネットワーク

DeNISE: Deep Networks for Improved Segmentation Edges ( http://arxiv.org/abs/2309.02091v1 )

ライセンス: Link先を確認
Sander Riis{\o}en Jyhne, Per-Arne Andersen, Morten Goodwin(参考訳) 本稿では,エッジ検出とセグメンテーションモデルを用いた新しいデータ拡張手法であるセグメンテーション・エッジ(denise)を用いて,セグメンテーション・マスクの境界品質を向上させるディープ・ネットワークを提案する。 DeNISEは、予測されたセグメンテーションエッジの精度を改善するために、2つのシーケンシャルなディープニューラルネットワークアーキテクチャの固有の違いを利用する。 DeNISEはあらゆる種類のニューラルネットワークに適用され、エンドツーエンドでトレーニングされていない。 航空画像における建物のセグメンテーションに対してdeniseをテストし,応用する。 空中画像は、反射、影、視覚障害などの光学ノイズが低解像度であることから、難しい条件で知られている。 全体として、この論文はDeNISEの可能性を示している。 この手法を用いて, 建物IoUの78.9%の基準値を改善する。

This paper presents Deep Networks for Improved Segmentation Edges (DeNISE), a novel data enhancement technique using edge detection and segmentation models to improve the boundary quality of segmentation masks. DeNISE utilizes the inherent differences in two sequential deep neural architectures to improve the accuracy of the predicted segmentation edge. DeNISE applies to all types of neural networks and is not trained end-to-end, allowing rapid experiments to discover which models complement each other. We test and apply DeNISE for building segmentation in aerial images. Aerial images are known for difficult conditions as they have a low resolution with optical noise, such as reflections, shadows, and visual obstructions. Overall the paper demonstrates the potential for DeNISE. Using the technique, we improve the baseline results with a building IoU of 78.9%.
翻訳日:2023-09-06 15:34:37 公開日:2023-09-05
# リアリスティックなサポートクエリシフト学習のための双対アライメント

Dual Adversarial Alignment for Realistic Support-Query Shift Few-shot Learning ( http://arxiv.org/abs/2309.02088v1 )

ライセンス: Link先を確認
Siyang Jiang, Rui Fang, Hsi-Wen Chen, Wei Ding, and Ming-Syan Chen(参考訳) サポートクエリシフト 少数ショット学習の目的は、サポートセットとクエリセットの間の分散シフトの下で、学習された低次元空間への埋め込みに基づいて、未確認例(クエリセット)をラベル付きデータ(サポートセット)に分類することである。 しかし、現実のシナリオでは、シフトは通常未知であり、変化するため、事前に見積もるのは困難である。 そこで本稿では,現実的なサポートクエリシフトによる数ショット学習に着目した,新しい難題であるRSQSを提案する。 RSQSの鍵となる特徴は、メタタスク内の個々のサンプルは、メタタスクごとに複数の分散シフトを受けることである。 さらに,DuaL(dual adversarial alignment framework)と呼ばれる一貫した対角的特徴アライメント手法を提案し,RSQSをドメイン間バイアスとドメイン内分散の2つの側面から緩和する。 一方、ドメイン間バイアスについては、予め元のデータを分解し、合成した摂動入力を用いて、特徴レベルの距離を最小化し、補修ネットワークを訓練する。 一方, ドメイン内分散のために, ハードを合成するジェネレータネットワーク, すなわち, 自己教師あり方式でサポートセットから例を合成し, 円滑な最適輸送計画の導出のために, 正規化最適輸送を導入することを提案した。 最後に、RSQSのベンチマークは、3つのデータセット(CIFAR100、mini-ImageNet、Tiered-Imagenet)のうち、最先端のベースラインで構築されている。 実験の結果,DuaLは我々のベンチマークで最先端の手法よりも優れていた。

Support-query shift few-shot learning aims to classify unseen examples (query set) to labeled data (support set) based on the learned embedding in a low-dimensional space under a distribution shift between the support set and the query set. However, in real-world scenarios the shifts are usually unknown and varied, making it difficult to estimate in advance. Therefore, in this paper, we propose a novel but more difficult challenge, RSQS, focusing on Realistic Support-Query Shift few-shot learning. The key feature of RSQS is that the individual samples in a meta-task are subjected to multiple distribution shifts in each meta-task. In addition, we propose a unified adversarial feature alignment method called DUal adversarial ALignment framework (DuaL) to relieve RSQS from two aspects, i.e., inter-domain bias and intra-domain variance. On the one hand, for the inter-domain bias, we corrupt the original data in advance and use the synthesized perturbed inputs to train the repairer network by minimizing distance in the feature level. On the other hand, for intra-domain variance, we proposed a generator network to synthesize hard, i.e., less similar, examples from the support set in a self-supervised manner and introduce regularized optimal transportation to derive a smooth optimal transportation plan. Lastly, a benchmark of RSQS is built with several state-of-the-art baselines among three datasets (CIFAR100, mini-ImageNet, and Tiered-Imagenet). Experiment results show that DuaL significantly outperforms the state-of-the-art methods in our benchmark.
翻訳日:2023-09-06 15:34:23 公開日:2023-09-05
# 変分オートエンコーダを用いた非教師なし分布検出への効率的なアプローチ

An Efficient Approach to Unsupervised Out-of-Distribution Detection with Variational Autoencoders ( http://arxiv.org/abs/2309.02084v1 )

ライセンス: Link先を確認
Zezhen Zeng, Bin Liu(参考訳) 本稿では,教師なしアウト・オブ・ディストリビューション(OOD)検出のための深部生成モデル(DGM)について述べる。 特に,潜在変数の標準正規分布を用いたバニラ変分オートエンコーダ(vae)に着目した。 これらのモデルはモデルサイズが小さく、より高速なトレーニングと推論が可能であり、より複雑なDGMと比較してリソース制限のアプリケーションに適している。 本稿では,バニラVAEを対象とした新しいOODスコアであるError Reduction (ER)を提案する。 ERは、失われた画像からの入力を再構築するというアイデアを取り入れ、画像のコルモゴロフの複雑さを考慮に入れている。 多様なデータセットに対する実験結果は,ベースライン法よりもアプローチが優れていることを示す。 私たちのコードは、https://github.com/ZJLAB-AMMI/VAE4OOD.comで利用可能です。

This paper is concerned with deep generative models (DGMs) for unsupervised out-of-distribution (OOD) detection. In particular, we focus on vanilla Variational Autoencoders (VAE) that use a standard normal prior distribution for the latent variables. These models have a smaller model size, enabling faster training and inference, making them well-suited for resource-limited applications compared to more complex DGMs. We propose a novel OOD score called Error Reduction (ER) specifically designed for vanilla VAE. ER incorporate the idea of reconstructing image inputs from their lossy counterparts and takes into account the Kolmogorov complexity of the images. Experimental results on diverse datasets demonstrate the superiority of our approach over baseline methods. Our code is available at: https://github.com/ZJLAB-AMMI/VAE4OOD.
翻訳日:2023-09-06 15:33:49 公開日:2023-09-05
# 確率的最適化アルゴリズムの後方誤差解析と質的挙動:確率的座標降下への応用

Backward error analysis and the qualitative behaviour of stochastic optimization algorithms: Application to stochastic coordinate descent ( http://arxiv.org/abs/2309.02082v1 )

ライセンス: Link先を確認
Stefano Di Giovacchino, Desmond J. Higham, Konstantinos Zygalakis(参考訳) 確率的最適化法は、完全な勾配の計算が計算的に禁じられているときに、大規模な最適化問題の実現に成功している。 数値積分器に対する修正方程式の理論を用いて、従来の勾配流よりも近い一般確率最適化法の力学を近似する確率微分方程式のクラスを提案する。 修正確率微分方程式の解析は、関連する最適化法に関する質的な洞察を明らかにすることができる。 本稿では,確率座標降下の場合の修正方程式の平均二乗安定性について検討する。

Stochastic optimization methods have been hugely successful in making large-scale optimization problems feasible when computing the full gradient is computationally prohibitive. Using the theory of modified equations for numerical integrators, we propose a class of stochastic differential equations that approximate the dynamics of general stochastic optimization methods more closely than the original gradient flow. Analyzing a modified stochastic differential equation can reveal qualitative insights about the associated optimization method. Here, we study mean-square stability of the modified equation in the case of stochastic coordinate descent.
翻訳日:2023-09-06 15:33:36 公開日:2023-09-05
# 大規模言語モデルのマルチターン医療相談機能のための自動評価フレームワーク

An Automatic Evaluation Framework for Multi-turn Medical Consultations Capabilities of Large Language Models ( http://arxiv.org/abs/2309.02077v1 )

ライセンス: Link先を確認
Yusheng Liao, Yutong Meng, Hongcheng Liu, Yanfeng Wang, Yu Wang(参考訳) 大規模言語モデル(LLM)は人間との対話において大きな成功を収めた。 しかし、近年の研究により、これらのモデルはしばしば幻覚に苦しむことがあり、過度に自信あるが不正確な判断に繋がることが明らかになっている。 これにより、タスクが最も正確さを必要とする医療領域での応用が制限される。 本稿では,マルチターンコンサルテーションにおける仮想医師としてのLCMの実用能力を評価するための自動評価フレームワークを提案する。 コンサルテーション・タスクは、LSMが自分の知らないことを認識し、患者から欠落した医療情報を問い合わせ、最終的に診断するために設計されている。 これらの課題に対するllmの性能を評価するために,米国医療ライセンス試験(usmle)からの医学的多項目質問を改訂し,3つのテストセットにおいて総合的な評価指標を開発し,評価した。 LLMのコンサルテーション能力を向上させるため、医療相談訓練セットをさらに構築する。 実験の結果,トレーニングセットによる微調整により幻覚が軽減され,LLMの性能が向上することが示された。 提案手法の有効性とロバスト性を検証するため,広範な実験とアブレーション実験を行った。

Large language models (LLMs) have achieved significant success in interacting with human. However, recent studies have revealed that these models often suffer from hallucinations, leading to overly confident but incorrect judgments. This limits their application in the medical domain, where tasks require the utmost accuracy. This paper introduces an automated evaluation framework that assesses the practical capabilities of LLMs as virtual doctors during multi-turn consultations. Consultation tasks are designed to require LLMs to be aware of what they do not know, to inquire about missing medical information from patients, and to ultimately make diagnoses. To evaluate the performance of LLMs for these tasks, a benchmark is proposed by reformulating medical multiple-choice questions from the United States Medical Licensing Examinations (USMLE), and comprehensive evaluation metrics are developed and evaluated on three constructed test sets. A medical consultation training set is further constructed to improve the consultation ability of LLMs. The results of the experiments show that fine-tuning with the training set can alleviate hallucinations and improve LLMs' performance on the proposed benchmark. Extensive experiments and ablation studies are conducted to validate the effectiveness and robustness of the proposed framework.
翻訳日:2023-09-06 15:33:27 公開日:2023-09-05
# 量子エントロピーに関する対数凸定理

Some log-convexity theorems on quantum entropies ( http://arxiv.org/abs/2309.02074v1 )

ライセンス: Link先を確認
Saptak Bhattacharya(参考訳) 本稿では,相対エントロピーと忠実度をパラメトリケートしたバージョンで対数凸性を証明する。 また、Seshadreesanらによって導入された相対エントロピー差のR'enyi一般化についても検討する。 J. Phys の略。 a: 数学。 Theor 48 (2015) であり、それらの予想の一つに反例を与える。

In this paper, we prove log-convexity of some parametrized versions of the relative entropy and fidelity. We also look at a R\'enyi generalization of relative entropy difference introduced by Seshadreesan et. al. in J. Phys. A: Math. Theor. 48 (2015) and give a counterexample to one of their conjectures.
翻訳日:2023-09-06 15:33:06 公開日:2023-09-05
# DeepVol: ユニバーサルアセットのボラティリティモデリングのためのDeep Transfer Learningアプローチ

DeepVol: A Deep Transfer Learning Approach for Universal Asset Volatility Modeling ( http://arxiv.org/abs/2309.02072v1 )

ライセンス: Link先を確認
Chen Liu, Minh-Ngoc Tran, Chao Wang, Richard Gerlach, Robert Kohn(参考訳) 本稿では,従来のeconometricモデルよりも汎用性に優れる,新たなディープラーニングボラティリティモデルであるdeepvolを紹介する。 DeepVolは、トランスファー学習の力を活用して、単一のユニバーサルモデルを使用して、以前は目に見えないものを含むすべての金融資産のボラティリティのダイナミクスを効果的に捉え、モデル化する。 これは、個別のデータセットに対する個別のモデルのトレーニングを必要とする計量学文献における一般的なプラクティスとは対照的である。 DeepVolの導入は、金融業界におけるボラティリティのモデリングと予測のための新たな道を開き、ボラティリティの理解と予測方法を変える可能性がある。

This paper introduces DeepVol, a promising new deep learning volatility model that outperforms traditional econometric models in terms of model generality. DeepVol leverages the power of transfer learning to effectively capture and model the volatility dynamics of all financial assets, including previously unseen ones, using a single universal model. This contrasts to the prevailing practice in econometrics literature, which necessitates training separate models for individual datasets. The introduction of DeepVol opens up new avenues for volatility modeling and forecasting in the finance industry, potentially transforming the way volatility is understood and predicted.
翻訳日:2023-09-06 15:33:02 公開日:2023-09-05
# BeeTLe: 線形B細胞エピトープ予測と分類のためのフレームワーク

BeeTLe: A Framework for Linear B-Cell Epitope Prediction and Classification ( http://arxiv.org/abs/2309.02071v1 )

ライセンス: Link先を確認
Xiao Yuan(参考訳) 抗体によって認識される抗原の一部であるB細胞エピトープの同定と特徴付けのプロセスは、免疫系の理解、ワクチン開発、治療、診断を含む多くの用途において重要である。 計算エピトープ予測は、研究室作業の時間とコストを著しく削減するので、困難である。 既存のツールの多くは十分な性能を持っておらず、エピトープと非エピトープを区別するだけである。 本稿では,リニアb細胞エピトープの予測と抗体型特異的エピトープ分類のための深層学習型マルチタスクフレームワークを提案する。 具体的には,リカレント層とトランスフォーマーブロックを用いたシーケンスベースニューラルネットワークモデルを開発した。 本稿では,固有分解に基づくアミノ酸符号化法を提案し,エピトープの表現をモデルで学習する。 本稿では,ロジット調整手法を拡張し,クラス不均衡に対処することで,標準クロスエントロピー損失関数の修正を提案する。 最大公立エピトープデータベースから収集したデータに対する実験結果から,提案手法の有効性と,競合手法と比較して優れた性能を示した。

The process of identifying and characterizing B-cell epitopes, which are the portions of antigens recognized by antibodies, is important for our understanding of the immune system, and for many applications including vaccine development, therapeutics, and diagnostics. Computational epitope prediction is challenging yet rewarding as it significantly reduces the time and cost of laboratory work. Most of the existing tools do not have satisfactory performance and only discriminate epitopes from non-epitopes. This paper presents a new deep learning-based multi-task framework for linear B-cell epitope prediction as well as antibody type-specific epitope classification. Specifically, a sequenced-based neural network model using recurrent layers and Transformer blocks is developed. We propose an amino acid encoding method based on eigen decomposition to help the model learn the representations of epitopes. We introduce modifications to standard cross-entropy loss functions by extending a logit adjustment technique to cope with the class imbalance. Experimental results on data curated from the largest public epitope database demonstrate the validity of the proposed methods and the superior performance compared to competing ones.
翻訳日:2023-09-06 15:32:48 公開日:2023-09-05
# ヒンディー語オンライン手書き文字認識のための点, 向き, 方向特徴のヒストグラム

Histograms of Points, Orientations, and Dynamics of Orientations Features for Hindi Online Handwritten Character Recognition ( http://arxiv.org/abs/2309.02067v1 )

ライセンス: Link先を確認
Anand Sharma (MIET, Meerut), A. G. Ramakrishnan (IISc, Bengaluru)(参考訳) オンライン手書き文字認識において,文字ストローク方向と順序変化とは無関係な特徴セットを提案する。 点の座標、点におけるストロークの向き、点におけるストロークの向きのダイナミクスなどの特徴を、点の値の関数として空間的にマッピングし、空間地図内の異なる領域からこれらの特徴のヒストグラムを計算する方法を開発した。 時空間, 離散フーリエ変換, 離散コサイン変換, 離散ウェーブレット変換, 空間, 向き勾配のヒストグラムなどの異なる特徴を, 文字認識のための分類器の訓練に用いている。 分類性能比較のために選択された分類器は、異なる特徴で訓練された場合、サポートベクトルマシン(SVM)である。 分類器の訓練とテストに使用される文字データセットは、96の異なるヒンディー文字のオンライン手書きサンプルで構成されている。 トレーニングデータセットとテストデータセットには,それぞれ12832と2821のサンプルがある。 提案した機能で訓練されたSVM分類器は、他の機能で訓練され、同じテストデータセットでテストされたSVM分類器のパフォーマンスと比較して、92.9\%の分類精度を持つ。 したがって,提案する特徴は,比較対象の他の特徴よりも識別性が優れる。

A set of features independent of character stroke direction and order variations is proposed for online handwritten character recognition. A method is developed that maps features like co-ordinates of points, orientations of strokes at points, and dynamics of orientations of strokes at points spatially as a function of co-ordinate values of the points and computes histograms of these features from different regions in the spatial map. Different features like spatio-temporal, discrete Fourier transform, discrete cosine transform, discrete wavelet transform, spatial, and histograms of oriented gradients used in other studies for training classifiers for character recognition are considered. The classifier chosen for classification performance comparison, when trained with different features, is support vector machines (SVM). The character datasets used for training and testing the classifiers consist of online handwritten samples of 96 different Hindi characters. There are 12832 and 2821 samples in training and testing datasets, respectively. SVM classifiers trained with the proposed features has the highest classification accuracy of 92.9\% when compared to the performances of SVM classifiers trained with the other features and tested on the same testing dataset. Therefore, the proposed features have better character discriminative capability than the other features considered for comparison.
翻訳日:2023-09-06 15:32:31 公開日:2023-09-05
# エゴセントリックビジョンによるマルチラベルアフォーマンスマッピング

Multi-label affordance mapping from egocentric vision ( http://arxiv.org/abs/2309.02120v1 )

ライセンス: Link先を確認
Lorenzo Mur-Labadia, Jose J. Guerrero and Ruben Martinez-Cantin(参考訳) ピクセル精度による正確なアフォーマンス検出とセグメンテーションは、ロボットやアシエーションデバイスのような相互作用に基づく多くの複雑なシステムにおいて重要な要素である。 本稿では,高精度なマルチラベルセグメンテーションを実現するアフォーマンス知覚への新しいアプローチを提案する。 提案手法は,環境の3dマップを用いて,1人目のインタラクション映像から,アプライアンス位置のピクセルレベル精度を自動抽出する。 この手法を用いて,EPIC-Kitchen データセット EPIC-Aff に基づいて,対話型,多ラベル,メートル法,空間的アベイランスアノテーション を提供する。 そこで本稿では,例えば同一のオブジェクトに関連付けられている場合など,同一空間内で複数のアベイランスを共存させることができるマルチラベル検出に基づくアベイランスセグメンテーションの新たなアプローチを提案する。 本稿では,複数のセグメンテーションアーキテクチャを用いたマルチラベル検出手法を提案する。 実験結果は,マルチラベル検出の重要性を強調した。 最後に,空間的行動中心領域における相互作用ホットスポットのマップ構築に,我々のメトリック表現をどのように活用するかを示し,その表現を用いてタスク指向ナビゲーションを行う。

Accurate affordance detection and segmentation with pixel precision is an important piece in many complex systems based on interactions, such as robots and assitive devices. We present a new approach to affordance perception which enables accurate multi-label segmentation. Our approach can be used to automatically extract grounded affordances from first person videos of interactions using a 3D map of the environment providing pixel level precision for the affordance location. We use this method to build the largest and most complete dataset on affordances based on the EPIC-Kitchen dataset, EPIC-Aff, which provides interaction-grounded, multi-label, metric and spatial affordance annotations. Then, we propose a new approach to affordance segmentation based on multi-label detection which enables multiple affordances to co-exists in the same space, for example if they are associated with the same object. We present several strategies of multi-label detection using several segmentation architectures. The experimental results highlight the importance of the multi-label detection. Finally, we show how our metric representation can be exploited for build a map of interaction hotspots in spatial action-centric zones and use that representation to perform a task-oriented navigation.
翻訳日:2023-09-06 15:23:48 公開日:2023-09-05
# 階層型マスク型3次元拡散モデルによる映像アウトパインティング

Hierarchical Masked 3D Diffusion Model for Video Outpainting ( http://arxiv.org/abs/2309.02119v1 )

ライセンス: Link先を確認
Fanda Fan, Chaoxu Guo, Litong Gong, Biao Wang, Tiezheng Ge, Yuning Jiang, Chunjie Luo, Jianfeng Zhan(参考訳) video outpaintingは、ビデオフレームの端にある欠損領域を適切に完成することを目的としている。 画像のオーバーペイントと比較すると、モデルが満たされた領域の時間的一貫性を維持する必要があるため、追加の課題がある。 本稿では,映像出力のためのマスク付き3次元拡散モデルを提案する。 マスクモデリングの手法を用いて3次元拡散モデルを訓練する。 これにより、複数のガイドフレームを使用して複数のビデオクリップの推測結果を接続し、時間的一貫性を確保し、隣接するフレーム間のジッタを低減できる。 一方,映像のグローバルフレームをプロンプトとして抽出し,モデルにクロスアテンションを用いて現在の映像クリップ以外の情報を得るよう誘導する。 また,アーティファクトの蓄積問題を解決するために,ハイブリッドな粗粒度推定パイプラインを導入する。 既存の粗粒度パイプラインはインフィルディング戦略のみを使用するため、スパースフレームの時間間隔が大きすぎるため、劣化が発生する。 我々のパイプラインは、マスクモデリングの双方向学習の恩恵を受けており、スパースフレームを生成する際に、埋め込みと補間というハイブリッド戦略を利用することができる。 実験の結果,本手法は映像の画質向上に有効であることがわかった。 さらなる結果がhttps://fanfanda.github.io/m3ddm/で得られます。

Video outpainting aims to adequately complete missing areas at the edges of video frames. Compared to image outpainting, it presents an additional challenge as the model should maintain the temporal consistency of the filled area. In this paper, we introduce a masked 3D diffusion model for video outpainting. We use the technique of mask modeling to train the 3D diffusion model. This allows us to use multiple guide frames to connect the results of multiple video clip inferences, thus ensuring temporal consistency and reducing jitter between adjacent frames. Meanwhile, we extract the global frames of the video as prompts and guide the model to obtain information other than the current video clip using cross-attention. We also introduce a hybrid coarse-to-fine inference pipeline to alleviate the artifact accumulation problem. The existing coarse-to-fine pipeline only uses the infilling strategy, which brings degradation because the time interval of the sparse frames is too large. Our pipeline benefits from bidirectional learning of the mask modeling and thus can employ a hybrid strategy of infilling and interpolation when generating sparse frames. Experiments show that our method achieves state-of-the-art results in video outpainting tasks. More results are provided at our https://fanfanda.github.io/M3DDM/.
翻訳日:2023-09-06 15:23:30 公開日:2023-09-05
# 磁性誘電体材料のカシミールとカシミール-金属相互作用:表面散乱膨張

Casimir and Casimir-Polder Interactions for Magneto-dielectric Materials: Surface Scattering Expansion ( http://arxiv.org/abs/2309.02114v1 )

ライセンス: Link先を確認
Giuseppe Bimonte, Thorsten Emig(参考訳) 我々は、磁化誘電体間のカシミール力と偏光性粒子と磁化誘電体間のカシミール・ポルダー力を計算するための一般的な多重散乱展開(MSE)を開発する。 このアプローチは、変動する電流と磁場の電流と電荷に基づいている。 これらの表面場の曲面積分方程式は、表面散乱作用素(SSO)によって定式化することができる。 そのような作用素の族全体が存在することを示す。 このファミリーの特定のメンバーは弱い発散しかなく、一般の磁気誘電体に対して収束しているように見えるMSEを許容する。 我々は、この作用素の多くの性質を証明し、十分低い周波数と高い周波数、そして完全導体に対して明示的に収束することを示す。 一般的な表現は、巨視体間のカシミール相互作用と、ゼロ温度と有限温度の両方でssoの観点から粒子と巨視体の間のカシミール-ポルダー相互作用のために導かれる。 先行散乱法以上のアプローチの利点は、物体の散乱振幅(t-演算子)の知識を必要としないことである。 このメソッドの使用を示すために、いくつかの簡単な例が提供されている。 我々のアプローチのいくつかの応用が以前に現れている(T. Emig, G. Bimonte, Phys. Rev. 130, 200401 (2023)]。 ここではさらに技術的な側面とアプローチの詳細を説明します。

We develop a general multiple scattering expansion (MSE) for computing Casimir forces between magneto-dielectric bodies and Casimir-Polder forces between polarizable particles and magneto-dielectric bodies. The approach is based on fluctuating electric and magnetic surface currents and charges. The surface integral equations for these surface fields can be formulated in terms of surface scattering operators (SSO). We show that there exists an entire family of such operators. One particular member of this family is only weakly divergent and allows for a MSE that appears to be convergent for general magneto-dielectric bodies. We proof a number of properties of this operator, and demonstrate explicitly convergence for sufficiently low and high frequencies, and for perfect conductors. General expressions are derived for the Casimir interaction between macroscopic bodies and for the Casimir-Polder interaction between particles and macroscopic bodies in terms of the SSO, both at zero and finite temperatures. An advantage of our approach above previous scattering methods is that it does not require the knowledge of the scattering amplitude (T-operator) of the bodies. A number of simple examples are provided to demonstrate the use of the method. Some applications of our approach have appeared previously [T. Emig, G. Bimonte, Phys. Rev. Lett. 130, 200401 (2023)]. Here we provide additional technical aspects and details of our approach.
翻訳日:2023-09-06 15:23:13 公開日:2023-09-05
# Wordle: 人生のマイクロコスム。 Luck, Skill, Cheating, Loyalty, and Influence!

Wordle: A Microcosm of Life. Luck, Skill, Cheating, Loyalty, and Influence! ( http://arxiv.org/abs/2309.02110v1 )

ライセンス: Link先を確認
James P. Dilger(参考訳) WordleはNew York Times(nytimes.com)が提供している人気のオンラインワードゲームである。 現在、全世界で約200万人の英語版プレイヤーがいる。 プレイヤーは毎日の単語(ターゲット語)を推測する6つの試みがあり、各試みの後、各文字の正しさと位置に関する色分けされた情報を受け取る。 パズルの完成に成功するか、最終的に失敗した試みのどちらかの後に、ソフトウェアは情報理論を用いてプレイヤーの運とスキルを評価し、全てのプレイヤーのランダムなサンプルの第1、第2、第6の推測データを表示することができる。 最近私は、後者のデータが簡単にコピーしてスプレッドシートにペーストできるフォーマットで表示されていることを発見しました。 私は2023年5月から2023年8月まで、wordleプレーヤーの最初の推測に関するデータをコンパイルし、wordleプレイヤーに関する興味深い情報を推測しました。 A) 毎日約0.2-0.5%のプレイヤーが1回の挑戦でパズルを解く。 2,315の候補語のうちの1つをランダムに推測する確率は0.043%なので、4000万のプレイヤーがゲームの外でターゲット語を取得してカンニングすることを意味する。 b) プレイヤーの少なくとも1/3は、お気に入りの開始語又は数回のサイクルを有する。 また、対象語が繰り返されることはないことをプレイヤーは認識すべきであるが、ほとんどのプレイヤーは対象語として出現した後も開始語に忠実であるように見える。 C) 2023年8月15日,約30,000人のプレーヤーが,クロスワードパズルのヒントに基づいて,突然開始語を変更しました! ワードルプレイヤーは 影響を受けます! この調査はソーシャルメディアの投稿、調査、Google Trendsに留まらず、Wordleでの不正行為に関する確固とした定量的証拠を提供する。

Wordle is a popular, online word game offered by the New York Times (nytimes.com). Currently there are some 2 million players of the English version worldwide. Players have 6 attempts to guess the daily word (target word) and after each attempt, the player receives color-coded information about the correctness and position of each letter in the guess. After either a successful completion of the puzzle or the final unsuccessful attempt, software can assess the player's luck and skill using Information Theory and can display data for the first, second, ..., sixth guesses of a random sample of all players. Recently, I discovered that the latter data is presented in a format that can easily be copied and pasted into a spreadsheet. I compiled data on Wordle players' first guesses from May 2023 - August 2023 and inferred some interesting information about Wordle players. A) Every day, about 0.2-0.5% of players solve the puzzle in one attempt. Because the odds of guessing the one of 2,315 possible target words at random is 0.043%, this implies that 4,000 - 10,000 players cheat by obtaining the target word outside of playing the game! B) At least 1/3 of the players have a favorite starting word, or cycle through several. And even though players should be aware that target words are never repeated, most players appear to remain loyal to their starting word even after its appearance as a target word. C) On August 15, 2023, about 30,000 players abruptly changed their starting word, presumably based on a crossword puzzle clue! Wordle players can be influenced! This study goes beyond social media postings, surveys, and Google Trends to provide solid, quantitative evidence about cheating in Wordle.
翻訳日:2023-09-06 15:22:48 公開日:2023-09-05
# マルチモーダル感情認識のためのラベル情報活用

Leveraging Label Information for Multimodal Emotion Recognition ( http://arxiv.org/abs/2309.02106v1 )

ライセンス: Link先を確認
Peiying Wang, Sunlu Zeng, Junqing Chen, Lu Fan, Meng Chen, Youzheng Wu, Xiaodong He(参考訳) マルチモーダル感情認識(MER)は、音声とテキスト情報を組み合わせて、与えられた表現の感情状態を検出することを目的とする。 直感的には、ラベル情報は、モデルが特定の感情に関連する適切なトークンやフレームを見つけるのに役立つものでなければならない。 そこで本研究では,ラベル情報を利用した新しいMER手法を提案する。 具体的には、まず、テキストと音声のモダリティの両方に対する代表ラベルの埋め込みを取得し、ラベルとトークン、およびラベルとフレームの相互作用を通じて各発話に対するラベル付きテキスト/音声表現を学習する。 最後に,感情分類のためのラベル認識テキストと音声表現を融合させる新しいラベル誘導注意融合モジュールを考案する。 公開iemocapデータセットで広範な実験を行い,提案手法が既存のベースラインを上回り,新たな最先端性能を実現することを実証した。

Multimodal emotion recognition (MER) aims to detect the emotional status of a given expression by combining the speech and text information. Intuitively, label information should be capable of helping the model locate the salient tokens/frames relevant to the specific emotion, which finally facilitates the MER task. Inspired by this, we propose a novel approach for MER by leveraging label information. Specifically, we first obtain the representative label embeddings for both text and speech modalities, then learn the label-enhanced text/speech representations for each utterance via label-token and label-frame interactions. Finally, we devise a novel label-guided attentive fusion module to fuse the label-aware text and speech representations for emotion classification. Extensive experiments were conducted on the public IEMOCAP dataset, and experimental results demonstrate that our proposed approach outperforms existing baselines and achieves new state-of-the-art performance.
翻訳日:2023-09-06 15:22:18 公開日:2023-09-05
# クエリ関連知識による会議要約の改善

Improving Query-Focused Meeting Summarization with Query-Relevant Knowledge ( http://arxiv.org/abs/2309.02105v1 )

ライセンス: Link先を確認
Tiezheng Yu, Ziwei Ji, Pascale Fung(参考訳) Query-Focused Meeting Summarization (QFMS)は、クエリに条件付けされたミーティングの書き起こしの要約を生成することを目的としている。 QFMSの主な課題は、長い入力テキストの長さと会議の書き起こしにおけるクエリ関連情報である。 本稿では,この課題に対処するために,知識認識要約器 (KAS) と呼ばれる知識強化2段階のフレームワークを提案する。 第1段階では,問合せ関連セグメント抽出を改善するための知識認識スコアを導入する。 第2段階では,クエリ関連の知識を要約生成に組み込む。 QMSumデータセットによる実験結果から,本手法が最先端の性能を実現することを示す。 さらなる分析は、我々の手法が関連性があり忠実な要約を生成する能力を証明している。

Query-Focused Meeting Summarization (QFMS) aims to generate a summary of a given meeting transcript conditioned upon a query. The main challenges for QFMS are the long input text length and sparse query-relevant information in the meeting transcript. In this paper, we propose a knowledge-enhanced two-stage framework called Knowledge-Aware Summarizer (KAS) to tackle the challenges. In the first stage, we introduce knowledge-aware scores to improve the query-relevant segment extraction. In the second stage, we incorporate query-relevant knowledge in the summary generation. Experimental results on the QMSum dataset show that our approach achieves state-of-the-art performance. Further analysis proves the competency of our methods in generating relevant and faithful summaries.
翻訳日:2023-09-06 15:22:02 公開日:2023-09-05
# 複数視点からの3次元物体の反復的重ね合わせ

Iterative Superquadric Recomposition of 3D Objects from Multiple Views ( http://arxiv.org/abs/2309.02102v1 )

ライセンス: Link先を確認
Stephan Alaniz, Massimiliano Mancini, Zeynep Akata(参考訳) 人間は、未知の物体間の共通点を一般的な構造から細部まで識別することができ、機械によって複製することが難しい。 本稿では,3次元のスーパークワッドリックを用いてオブジェクトを2次元のビューから直接意味的部分として再構成するフレームワークISCOを提案する。 これを実現するために、オブジェクトの特定のインスタンスを構成するスーパークアドリックパラメータを最適化し、レンダリングされた3dビューと2dイメージシルエットを比較した。 当社のiscoフレームワークは,レコンストラクションエラーの高い場所に新たなスーパークアドリクスを反復的に追加し,最初の粗い領域を抽象化し,ターゲットオブジェクトの詳細を詳細にします。 この単純な粗いインダクティブバイアスにより、ISCOは意味的な監督を持たないにもかかわらず、関連するオブジェクト部分に対して一貫したスーパークワッドリックを提供する。 ISCOはニューラルネットワークをトレーニングしないため、本来は分布外オブジェクトに対して堅牢である。 実験によると、最近のsingle instance superquadrics reconstructionアプローチと比較して、iscoは野生の画像からでも一貫してより正確な3d再構成を提供している。 コードはhttps://github.com/explainableml/iscoで利用可能。

Humans are good at recomposing novel objects, i.e. they can identify commonalities between unknown objects from general structure to finer detail, an ability difficult to replicate by machines. We propose a framework, ISCO, to recompose an object using 3D superquadrics as semantic parts directly from 2D views without training a model that uses 3D supervision. To achieve this, we optimize the superquadric parameters that compose a specific instance of the object, comparing its rendered 3D view and 2D image silhouette. Our ISCO framework iteratively adds new superquadrics wherever the reconstruction error is high, abstracting first coarse regions and then finer details of the target object. With this simple coarse-to-fine inductive bias, ISCO provides consistent superquadrics for related object parts, despite not having any semantic supervision. Since ISCO does not train any neural network, it is also inherently robust to out-of-distribution objects. Experiments show that, compared to recent single instance superquadrics reconstruction approaches, ISCO provides consistently more accurate 3D reconstructions, even from images in the wild. Code available at https://github.com/ExplainableML/ISCO .
翻訳日:2023-09-06 15:21:52 公開日:2023-09-05
# 多様性と一貫性のタイポグラフィー生成に向けて

Towards Diverse and Consistent Typography Generation ( http://arxiv.org/abs/2309.02099v1 )

ライセンス: Link先を確認
Wataru Shimoda, Daichi Haraguchi, Seiichi Uchida, Kota Yamaguchi(参考訳) 本稿では,与えられた図形文書に対して多様なタイポグラフィースタイルを作成することを目的としたタイポグラフィ生成タスクについて考察する。 複数のテキスト要素に対する微粒な属性生成としてタイポグラフィ生成を定式化し、入力設計コンテキストにマッチする多様なタイポグラフィを生成する自己回帰モデルを構築する。 さらに,タイポグラフィの一貫性と区別の原則を尊重し,テキスト要素間で一貫したタイポグラフィスタイリングを共有する,簡易かつ効果的なサンプリング手法を提案する。 実験の結果,本モデルは一貫性のあるタイポグラフィ構造を維持しつつ,多様なタイポグラフィデザインをうまく生成できることがわかった。

In this work, we consider the typography generation task that aims at producing diverse typographic styling for the given graphic document. We formulate typography generation as a fine-grained attribute generation for multiple text elements and build an autoregressive model to generate diverse typography that matches the input design context. We further propose a simple yet effective sampling approach that respects the consistency and distinction principle of typography so that generated examples share consistent typographic styling across text elements. Our empirical study shows that our model successfully generates diverse typographic designs while preserving a consistent typographic structure.
翻訳日:2023-09-06 15:21:31 公開日:2023-09-05
# 量子ネットワークにおける絡み合い発生スイッチの制御アーキテクチャ

A Control Architecture for Entanglement Generation Switches in Quantum Networks ( http://arxiv.org/abs/2309.02098v1 )

ライセンス: Link先を確認
Scarlett Gauthier, Gayane Vardoyan, Stephanie Wehner(参考訳) 量子ネットワークノード間の絡み合いはしばしば、ヘラルドステーションのような中間装置をリソースとして使用する。 量子ネットワークを多くのノードにスケールする場合、各ノードに専用の仲介装置が必要となると、高いコストがかかる。 本稿では,EGS(Entanglement Generation Switch)と呼ばれる中央量子ネットワークハブを介して,多くの量子ネットワークノードを接続するコスト効率の高いアーキテクチャを提案する。 EGSは、複数の量子ノードを固定リソースコストで接続することを可能にし、絡み合うのに必要なリソースを共有する。 本稿では,ユーザ群間のハブリソースへのアクセス競争のレベルを緩和するレート制御プロトコル(rcp)と呼ばれるアルゴリズムを提案する。 アルゴリズムによって得られる速度に対する収束定理を証明する。 このアルゴリズムを導出するために、ネットワークユーティリティ最大化(NUM)の枠組みで働き、ラグランジュ乗算とラグランジュ双対性の理論を利用する。 EGSアーキテクチャは、他の種類の量子ネットワークハブと互換性のある制御アーキテクチャや、より複雑なシステムモデルを開発するための基盤となる。

Entanglement between quantum network nodes is often produced using intermediary devices - such as heralding stations - as a resource. When scaling quantum networks to many nodes, requiring a dedicated intermediary device for every pair of nodes introduces high costs. Here, we propose a cost-effective architecture to connect many quantum network nodes via a central quantum network hub called an Entanglement Generation Switch (EGS). The EGS allows multiple quantum nodes to be connected at a fixed resource cost, by sharing the resources needed to make entanglement. We propose an algorithm called the Rate Control Protocol (RCP) which moderates the level of competition for access to the hub's resources between sets of users. We proceed to prove a convergence theorem for rates yielded by the algorithm. To derive the algorithm we work in the framework of Network Utility Maximization (NUM) and make use of the theory of Lagrange multipliers and Lagrangian duality. Our EGS architecture lays the groundwork for developing control architectures compatible with other types of quantum network hubs as well as system models of greater complexity.
翻訳日:2023-09-06 15:21:18 公開日:2023-09-05
# tensorbank:tensor lakehouseの基礎モデルトレーニング

TensorBank:Tensor Lakehouse for Foundation Model Training ( http://arxiv.org/abs/2309.02094v1 )

ライセンス: Link先を確認
Romeo Kienzler, Benedikt Blumenstiel, Zoltan Arnold Nagy, S. Karthik Mukkavilli, Johannes Schmude, Marcus Freitag, Michael Behrendt, Daniel Salles Civitarese, Hendrik Hamann(参考訳) 基礎モデルトレーニングのための高次元データのストリングとストリーミングは、自然言語を超えた基礎モデルの台頭によって重要な要件となった。 本稿では,複雑なリレーショナルクエリに基づいて,クラウドオブジェクトストア(COS)からGPUメモリへテンソルを高速にストリーミング可能な,ペタバイト規模のテンソルレイクハウスであるTensorBankを紹介する。 クエリアクセラレーションには階層統計指標(HSI)を用いる。 当社のアーキテクチャでは,HTTPレンジ読み込みを使用して,ブロックレベルのテンソルを直接処理することが可能です。 GPUメモリでは、PyTorch変換を使用してデータを変換することができる。 我々は、リレーショナルクエリと要求された変換をインスタンスとして翻訳する、対応するデータセットファクトリを備えた汎用的なPyTorchデータセットタイプを提供する。 hsiを使用することで、無関係なブロックを読まずにスキップすることができる。これらのインデックスは、異なる階層的な解像度レベルにあるコンテンツの統計情報を含んでいる。 これはオープンスタンダードを基盤としたアーキテクチャであり、オープンソーステクノロジーを多用している。 地理空間時間データを用いた生産用として強化されているが、このアーキテクチャはコンピュータビジョン、計算神経科学、生物学的配列解析など他のユースケースに一般化されている。

Storing and streaming high dimensional data for foundation model training became a critical requirement with the rise of foundation models beyond natural language. In this paper we introduce TensorBank, a petabyte scale tensor lakehouse capable of streaming tensors from Cloud Object Store (COS) to GPU memory at wire speed based on complex relational queries. We use Hierarchical Statistical Indices (HSI) for query acceleration. Our architecture allows to directly address tensors on block level using HTTP range reads. Once in GPU memory, data can be transformed using PyTorch transforms. We provide a generic PyTorch dataset type with a corresponding dataset factory translating relational queries and requested transformations as an instance. By making use of the HSI, irrelevant blocks can be skipped without reading them as those indices contain statistics on their content at different hierarchical resolution levels. This is an opinionated architecture powered by open standards and making heavy use of open-source technology. Although, hardened for production use using geospatial-temporal data, this architecture generalizes to other use case like computer vision, computational neuroscience, biological sequence analysis and more.
翻訳日:2023-09-06 15:21:00 公開日:2023-09-05
# ChatGPTのユーザは誰か? Web追跡データからのデジタル分割の意義

Who are the users of ChatGPT? Implications for the digital divide from web tracking data ( http://arxiv.org/abs/2309.02142v1 )

ライセンス: Link先を確認
Celina Kacperski, Roberto Ulloa, Denis Bonnay, Juhi Kulshrestha, Peter Selb, Andreas Spitz(参考訳) 我々の時代の大きな課題は、デジタル技術へのアクセスと効果的な利用における格差を減らすことであり、近年の議論は、デジタルディビジョンの悪化におけるAIの役割を強調している。 本稿では,AIを利用した会話エージェントChatGPTのユーザ特性について検討する。 N=1068人のドイツ市民のWeb追跡と調査データを組み合わせて、チャット.openai.comでの使用状況、訪問時間、時間)の差異を調査した。 ディジタルディバイドに共通する社会デモグラフィを考察し,ラッソ回帰における安定性選択によって特定される社会政治的属性について検討する。 年齢や教育の充実がChatGPTの利用に影響を及ぼすが、性別や収入には影響しない。 フルタイムの雇用と、より多くの子どもがChatGPT活動の障壁になる。 農村住宅、書記、ソーシャルメディア活動、さらに政治的な知識は、ChatGPT活動と肯定的に関連していた。 本研究は,デジタル格差に対処し,少数住民のデジタルリテラシーを促進するための取り組みである。

A major challenge of our time is reducing disparities in access to and effective use of digital technologies, with recent discussions highlighting the role of AI in exacerbating the digital divide. We examine user characteristics that predict usage of the AI-powered conversational agent ChatGPT. We combine web tracking and survey data of N=1068 German citizens to investigate differences in activity (usage, visits and duration on chat.openai.com). We examine socio-demographics commonly associated with the digital divide and explore further socio-political attributes identified via stability selection in Lasso regressions. We confirm lower age and more education to affect ChatGPT usage, but not gender and income. We find full-time employment and more children to be barriers to ChatGPT activity. Rural residence, writing and social media activities, as well as more political knowledge, were positively associated with ChatGPT activity. Our research informs efforts to address digital disparities and promote digital literacy among underserved populations.
翻訳日:2023-09-06 15:15:07 公開日:2023-09-05
# 胸部X線結核検出のための軽量・迅速・高効率深部畳み込みネットワーク

A Lightweight, Rapid and Efficient Deep Convolutional Network for Chest X-Ray Tuberculosis Detection ( http://arxiv.org/abs/2309.02140v1 )

ライセンス: Link先を確認
Daniel Capell\'an-Mart\'in, Juan J. G\'omez-Valverde, David Bermejo-Pel\'aez, Mar\'ia J. Ledesma-Carbayo(参考訳) 結核(TB)はいまだに世界中の死因の1つとして認識されている。 近年のディープラーニング (dl) の進歩により、胸部x線像を正確かつ少ない誤差で解釈する放射線科医の能力が向上し、この疾患の診断が向上した。 しかし、効率的で高速で計算コストが安いTBを診断できるモデルを開発するための作業はほとんど行われていない。 本稿では,CXR画像からTBを検出するために特別にカスタマイズされた,軽量で高速で効率的な深層畳み込みネットワークであるLightTBNetを提案する。 2つの公開データセットから得られた800個の前頭葉CXR画像を用いて, 独立テストサブセット上でそれぞれ精度, F1, ROC曲線(AUC)下の面積0.906, 0.907, 0.961を得た。 提案モデルでは,高速な予測を実現すると同時に,計算・メモリ要件の最小化を図り,低リソース領域で高いTB頻度で使用可能なハンドヘルドデバイスへの展開に極めて適していることを示す。 コードはhttps://github.com/dani-capellan/LightTBNet.comで公開されている。

Tuberculosis (TB) is still recognized as one of the leading causes of death worldwide. Recent advances in deep learning (DL) have shown to enhance radiologists' ability to interpret chest X-ray (CXR) images accurately and with fewer errors, leading to a better diagnosis of this disease. However, little work has been done to develop models capable of diagnosing TB that offer good performance while being efficient, fast and computationally inexpensive. In this work, we propose LightTBNet, a novel lightweight, fast and efficient deep convolutional network specially customized to detect TB from CXR images. Using a total of 800 frontal CXR images from two publicly available datasets, our solution yielded an accuracy, F1 and area under the ROC curve (AUC) of 0.906, 0.907 and 0.961, respectively, on an independent test subset. The proposed model demonstrates outstanding performance while delivering a rapid prediction, with minimal computational and memory requirements, making it highly suitable for deployment in handheld devices that can be used in low-resource areas with high TB prevalence. Code publicly available at https://github.com/dani-capellan/LightTBNet.
翻訳日:2023-09-06 15:14:49 公開日:2023-09-05
# セルフ・スーパービジョンによるLiDARデータのセマンティックシーンセグメンテーション

Self-Supervised Pre-Training Boosts Semantic Scene Segmentation on LiDAR data ( http://arxiv.org/abs/2309.02139v1 )

ライセンス: Link先を確認
Mariona Car\'os, Ariadna Just, Santi Segu\'i, Jordi Vitri\`a(参考訳) 空中ライダーシステムは、主に3d座標で定義された点からなる広範囲な点雲データを生成することで、地球表面を捉えることができる。 しかし、教師付き学習タスクにそのようなポイントをラベル付けするのは時間を要する。 その結果,無ラベルデータから学習し,注釈付きサンプルの数を著しく削減できる技術を検討する必要がある。 本研究では,Barlow Twins を用いた自己教師型エンコーダを訓練し,セマンティックシーンセグメンテーションのタスクにおいて,事前学習ネットワークとして使用することを提案する。 実験の結果,教師なしの事前学習により,教師なしのタスク,特に未提示のカテゴリでパフォーマンスが向上することが示された。

Airborne LiDAR systems have the capability to capture the Earth's surface by generating extensive point cloud data comprised of points mainly defined by 3D coordinates. However, labeling such points for supervised learning tasks is time-consuming. As a result, there is a need to investigate techniques that can learn from unlabeled data to significantly reduce the number of annotated samples. In this work, we propose to train a self-supervised encoder with Barlow Twins and use it as a pre-trained network in the task of semantic scene segmentation. The experimental results demonstrate that our unsupervised pre-training boosts performance once fine-tuned on the supervised task, especially for under-represented categories.
翻訳日:2023-09-06 15:14:27 公開日:2023-09-05
# 一般化された単純注意ニューラルネットワーク

Generalized Simplicial Attention Neural Networks ( http://arxiv.org/abs/2309.02138v1 )

ライセンス: Link先を確認
Claudio Battiloro, Lucia Testa, Lorenzo Giusti, Stefania Sardellitti, Paolo Di Lorenzo, Sergio Barbarossa(参考訳) 本研究の目的は、汎用単純注意ニューラルネットワーク(GSAN)、すなわち、マスク付き自己注意層を用いて単体錯体上に定義されたデータを処理するように設計された新しいニューラルネットワークを導入することである。 トポロジカルな信号処理の原則に注目しながら,ノードやエッジ,三角形など,さまざまな簡素な順序で定義されたデータコンポーネントを処理可能な一連の自己対応スキームを考案する。 これらのスキームは与えられた位相領域の近傍をタスク指向の方法で重み付けする方法を学び、ディラック作用素とそのディラック分解を通じて異なる順序の簡約間の相互作用を利用する。 また理論上は、gsan は置換同値であり、単純である。 最後に, トラジェクティブ予測, 欠落データ計算, グラフ分類, 単純予測といった, 帰納的および帰納的タスクに適用した場合のアプローチが, 他の手法とどのように比較されるかを述べる。

The aim of this work is to introduce Generalized Simplicial Attention Neural Networks (GSANs), i.e., novel neural architectures designed to process data defined on simplicial complexes using masked self-attentional layers. Hinging on topological signal processing principles, we devise a series of self-attention schemes capable of processing data components defined at different simplicial orders, such as nodes, edges, triangles, and beyond. These schemes learn how to weight the neighborhoods of the given topological domain in a task-oriented fashion, leveraging the interplay among simplices of different orders through the Dirac operator and its Dirac decomposition. We also theoretically establish that GSANs are permutation equivariant and simplicial-aware. Finally, we illustrate how our approach compares favorably with other methods when applied to several (inductive and transductive) tasks such as trajectory prediction, missing data imputation, graph classification, and simplex prediction.
翻訳日:2023-09-06 15:14:14 公開日:2023-09-05
# 戦後中国農村における文化創造性向上のための複雑な美学と創造的AIの相互作用を探る

Exploring the Intersection of Complex Aesthetics and Generative AI for Promoting Cultural Creativity in Rural China after the Post-Pandemic Era ( http://arxiv.org/abs/2309.02136v1 )

ライセンス: Link先を確認
Mengyao Guo, Xiaolin Zhang, Yuan Zhuang, Jing Chen, Pengfei Wang, Ze Gao(参考訳) 本稿では,中国農村部において,covid-19の影響下での文化創造性を促進するために,生成型aiと美学を用いて検討する。 文献レビュー、ケーススタディ、調査、テキスト分析を通じて、田園部における芸術とテクノロジーの応用を検証し、重要な課題を特定する。 研究によると、アートワークはローカルで共鳴しないことが多いが、外部アーティストに依存して持続可能性を制限する。 したがって、aiによる草の根「芸術村人」の育成が提案されている。 我々のアプローチは、文化的に関連のあるコンテンツを生成するために、主観的美学で機械学習を訓練することである。 インタラクティブなAIメディアは、遺産を維持しながら観光を促進できる。 この先駆的な研究は、農村文化を活気づけるaiと美学の交点に関する独自の視点を示している。 テクノロジーの総合的な統合を提唱し、AIの創造的イネーブラーと置き換えの可能性を強調している。 最終的には、AIイノベーションを活用して農村部のコミュニティを強化するための、さらなる調査の基盤となる。 このタイムリーな研究は、中国農村部が直面する重要な問題に対処する新興技術への関心の高まりに寄与する。

This paper explores using generative AI and aesthetics to promote cultural creativity in rural China amidst COVID-19's impact. Through literature reviews, case studies, surveys, and text analysis, it examines art and technology applications in rural contexts and identifies key challenges. The study finds artworks often fail to resonate locally, while reliance on external artists limits sustainability. Hence, nurturing grassroots "artist villagers" through AI is proposed. Our approach involves training machine learning on subjective aesthetics to generate culturally relevant content. Interactive AI media can also boost tourism while preserving heritage. This pioneering research puts forth original perspectives on the intersection of AI and aesthetics to invigorate rural culture. It advocates holistic integration of technology and emphasizes AI's potential as a creative enabler versus replacement. Ultimately, it lays the groundwork for further exploration of leveraging AI innovations to empower rural communities. This timely study contributes to growing interest in emerging technologies to address critical issues facing rural China.
翻訳日:2023-09-06 15:13:57 公開日:2023-09-05
# 地道自由外国人アクセント変換の評価法

Evaluating Methods for Ground-Truth-Free Foreign Accent Conversion ( http://arxiv.org/abs/2309.02133v1 )

ライセンス: Link先を確認
Wen-Chin Huang, Tomoki Toda(参考訳) 外部アクセント変換(英: Foreign accent conversion, FAC)は、非ネイティブ話者のアクセント付き音声を、同じ話者アイデンティティを持つネイティブ音声に変換することを目的とした、音声変換(VC)の特殊な応用である。 FACは、学習対象として好まれる非ネイティブ話者からのネイティブ音声を収集することが不可能であるため、難しい。 本研究は,最近提案された3つの基本構造のないFACの評価手法であり,これらすべては,アクセントを適切に変換し,話者識別を制御するためにシーケンス・ツー・シーケンス(seq2seq)と非並列VCモデルのパワーを活用することを目的としている。 実験評価の結果,すべての評価軸において,先行研究の結論とは対照的に,他の方法に比べて有意な改善は認められなかった。 また,これらの手法の有効性をセック2セックモデルの学習入力と出力で説明し,非並列VCモデルの設計選択を検証し,単語誤り率などの知能度尺度が主観的アクセントとよく相関しないことを示す。 最後に、再現可能な研究を促進し、将来の研究者による比較システムの改善を支援するために、我々の実装をオープンソース化する。

Foreign accent conversion (FAC) is a special application of voice conversion (VC) which aims to convert the accented speech of a non-native speaker to a native-sounding speech with the same speaker identity. FAC is difficult since the native speech from the desired non-native speaker to be used as the training target is impossible to collect. In this work, we evaluate three recently proposed methods for ground-truth-free FAC, where all of them aim to harness the power of sequence-to-sequence (seq2seq) and non-parallel VC models to properly convert the accent and control the speaker identity. Our experimental evaluation results show that no single method was significantly better than the others in all evaluation axes, which is in contrast to conclusions drawn in previous studies. We also explain the effectiveness of these methods with the training input and output of the seq2seq model and examine the design choice of the non-parallel VC model, and show that intelligibility measures such as word error rates do not correlate well with subjective accentedness. Finally, our implementation is open-sourced to promote reproducible research and help future researchers improve upon the compared systems.
翻訳日:2023-09-06 15:13:40 公開日:2023-09-05
# 単純な非対称モーメントは、SGDを再び最高にする

A Simple Asymmetric Momentum Make SGD Greatest Again ( http://arxiv.org/abs/2309.02130v1 )

ライセンス: Link先を確認
Gongyue Zhang, Dinghuang Zhang, Shuwen Zhao, Donghan Liu, Carrie M. Toptan and Honghai Liu(参考訳) そこで我々は,Saddle Point問題を直接対象とする,最も単純なSGD拡張手法であるLos-Controlled Asymmetric Momentum (LCAM)を提案する。 従来のsgdに比べて計算需要は増加しませんが、現在のオプティマイザを上回っています。 この現象を説明するために,重み共役とトラクション効果の概念を用いる。 我々は,特定のエポックでの学習率を迅速に低減し,サドルポイントでパラメータをより容易にトラップする実験を設計した。 We select WRN28-10 as the test network and select cifar10 and cifar100 as test datasets, a same group to the original paper of WRN and Cosine Annealing Scheduling (CAS)。 異なる優先順位で非対称運動量の鞍点をバイパスする能力を比較した。 最後に,Cifar100 上で WRN28-10 を用いて,120 年代前後の平均試験精度80.78 % に達した。 比較として、元のWRNの論文では80.75\%、CASは80.42\%、全て200エポックであった。 これは、精度を高めつつも、ほぼ半分の収束時間を使うことを意味する。 デモコードは、\ https://github.com/hakumaicc/Asymmetric-Momentum-LCAMで公開されている。

We propose the simplest SGD enhanced method ever, Loss-Controlled Asymmetric Momentum(LCAM), aimed directly at the Saddle Point problem. Compared to the traditional SGD with Momentum, there's no increase in computational demand, yet it outperforms all current optimizers. We use the concepts of weight conjugation and traction effect to explain this phenomenon. We designed experiments to rapidly reduce the learning rate at specified epochs to trap parameters more easily at saddle points. We selected WRN28-10 as the test network and chose cifar10 and cifar100 as test datasets, an identical group to the original paper of WRN and Cosine Annealing Scheduling(CAS). We compared the ability to bypass saddle points of Asymmetric Momentum with different priorities. Finally, using WRN28-10 on Cifar100, we achieved a peak average test accuracy of 80.78\% around 120 epoch. For comparison, the original WRN paper reported 80.75\%, while CAS was at 80.42\%, all at 200 epoch. This means that while potentially increasing accuracy, we use nearly half convergence time. Our demonstration code is available at\\ https://github.com/hakumaicc/Asymmetric-Momentum-LCAM
翻訳日:2023-09-06 15:13:19 公開日:2023-09-05
# 動的デカップリングを用いた量子ゲート相互作用の集束化

Focusing of quantum gate interactions using dynamical decoupling ( http://arxiv.org/abs/2309.02125v1 )

ライセンス: Link先を確認
M. C. Smith and A. D. Leu and M. F. Gely and D. M. Lucas(参考訳) 1995年、ciracとzollerは、マイクロンスポットサイズに焦点を当てたレーザービームを用いて、線形結晶内の個々の閉じ込められたイオンに対処する、小型量子コンピュータの最初の具体的な実装を提案した。 本稿では、マイクロ波波長10^{-5}に対応するマイクロンサイズの領域に、電子場によって駆動されるゲート相互作用を集中させる手法を提案する。 我々は、単一イオンを用いたスピン依存力の抑制能力を示し、必要な相互作用は、単一量子ビットのベンチマークシーケンスにおいて、エミュレートゲート当たりの誤差が3.7(4)\times 10^{-4}$となることを示す。 我々は17量子ビットイオン結晶のスキームをモデル化し、任意のイオン対は平均クロストーク誤差$\sim 10^{-5}$で対応可能であることを発見した。

In 1995, Cirac and Zoller proposed the first concrete implementation of a small-scale quantum computer, using laser beams focused to micron spot sizes to address individual trapped ions in a linear crystal. Here we propose a method to focus entangling gate interactions, but driven by microwave fields, to micron-sized zones, corresponding to $10^{-5}$ microwave wavelengths. We demonstrate the ability to suppress the spin-dependent force using a single ion, and find the required interaction introduces $3.7(4)\times 10^{-4}$ error per emulated gate in a single-qubit benchmarking sequence. We model the scheme for a 17-qubit ion crystal, and find that any pair of ions should be addressable with an average crosstalk error of $\sim 10^{-5}$.
翻訳日:2023-09-06 15:12:57 公開日:2023-09-05
# ハイパーグラフ学習による睡眠ステージ分類における空間時間データの活用

Exploiting Spatial-temporal Data for Sleep Stage Classification via Hypergraph Learning ( http://arxiv.org/abs/2309.02124v1 )

ライセンス: Link先を確認
Yuze Liu, Ziming Zhao, Tiehua Zhang, Kang Wang, Xin Chen, Xiaowei Huang, Jun Yin, Zhishu Shen(参考訳) 睡眠ステージ分類は患者の健康状態を検出するのに不可欠である。 既存のモデルでは、主にユークリッドデータのモデリングに畳み込みニューラルネットワーク(CNN)、非ユークリッドデータのモデリングにグラフ畳み込みネットワーク(GNN)を使用しており、マルチモーダルデータの異質性と相互作用性を同時に考慮できないため、分類性能のさらなる向上を妨げている。 本稿では,睡眠段階分類のための時空間データをエンコードするハイパーグラフを導入した動的学習フレームワークSTHLを提案する。 ハイパーグラフは2つの主題間の単純なペアリーではなく、マルチモーダル/マルチタイプのデータを構築することができる。 sthlはノード相関を構築するために空間的および時間的ハイパーエッジを生成し、その属性を埋め込み空間にエンコードするためにタイプ固有のハイパーグラフ学習プロセスを実行する。 実験の結果,STHLは睡眠段階分類作業における最先端モデルよりも優れていた。

Sleep stage classification is crucial for detecting patients' health conditions. Existing models, which mainly use Convolutional Neural Networks (CNN) for modelling Euclidean data and Graph Convolution Networks (GNN) for modelling non-Euclidean data, are unable to consider the heterogeneity and interactivity of multimodal data as well as the spatial-temporal correlation simultaneously, which hinders a further improvement of classification performance. In this paper, we propose a dynamic learning framework STHL, which introduces hypergraph to encode spatial-temporal data for sleep stage classification. Hypergraphs can construct multi-modal/multi-type data instead of using simple pairwise between two subjects. STHL creates spatial and temporal hyperedges separately to build node correlations, then it conducts type-specific hypergraph learning process to encode the attributes into the embedding space. Extensive experiments show that our proposed STHL outperforms the state-of-the-art models in sleep stage classification tasks.
翻訳日:2023-09-06 15:12:41 公開日:2023-09-05
# 熱平衡における異方性ラビ模型の持続的量子効果

Persisting quantum effects in the anisotropic Rabi model at thermal equilibrium ( http://arxiv.org/abs/2309.02123v1 )

ライセンス: Link先を確認
He-Guang Xu, V. Montenegro, Gao Xianlong, Jiasen Jin and G. D. de Moraes Neto(参考訳) 量子相関と非古典状態は、新興の量子技術の中心にある。 このような量子リソースの長期的状態を生成する努力は、疲れのない追及の対象である。 量子技術に有用ないくつかのプラットフォームの中で、光-物質相互作用の成熟した量子系は、現在のオンチップナノファブリケーション、その構成成分の効率的な量子制御、および幅広い運用体制により、前例のない利点をもたらす。 近年、jaynes-cummingsモデルとrabiモデルの間の連続的な遷移が、異方性量子ラビモデルとして知られる光-物質相互作用の異方性を利用して提案されている。 本研究では、異方性Rabiモデルで生じる長寿命な量子相関と非古典状態について検討し、これらの状態が熱平衡においても実際に持続することを示す。 そこで本研究では,全ての結合系に有効である着飾ったマスター方程式と,標準ギブス状態と保証される定常状態から,長寿命量子状態を求める量子性量子量化器を徹底的に解析する。 さらに,光-物質相互作用が切り替わったとき,強いカップリング構造を超えた仮想励起と量子性定量化器との大きな違いを示す。 これは、異方性量子ラビモデルで生成される平衡量子特徴の性質に関する重要な疑問を提起し、地上冷却に挑戦することなく将来の実験研究への道を開く。

Quantum correlations and nonclassical states are at the heart of emerging quantum technologies. Efforts to produce long-lived states of such quantum resources are a subject of tireless pursuit. Among several platforms useful for quantum technology, the mature quantum system of light-matter interactions offers unprecedented advantages due to current on-chip nanofabrication, efficient quantum control of its constituents, and its wide range of operational regimes. Recently, a continuous transition between the Jaynes-Cummings model and the Rabi model has been proposed by exploiting anisotropies in their light-matter interactions, known as the anisotropic quantum Rabi model. In this work, we study the long-lived quantum correlations and nonclassical states generated in the anisotropic Rabi model and how these indeed persist even at thermal equilibrium. To achieve this, we thoroughly analyze several quantumness quantifiers, where the long-lived quantum state is obtained from a dressed master equation that is valid for all coupling regimes and with the steady state ensured to be the canonical Gibbs state. Furthermore, we demonstrate a stark distinction between virtual excitations produced beyond the strong coupling regime and the quantumness quantifiers once the light-matter interaction has been switched off. This raises the key question about the nature of the equilibrium quantum features generated in the anisotropic quantum Rabi model and paves the way for future experimental investigations, without the need for challenging ground-state cooling.
翻訳日:2023-09-06 15:12:22 公開日:2023-09-05
# 可変時間推論の逆意味

The Adversarial Implications of Variable-Time Inference ( http://arxiv.org/abs/2309.02159v1 )

ライセンス: Link先を確認
Dudi Biton, Aditi Misra, Efrat Levy, Jaidip Kotak, Ron Bitton, Roei Schuster, Nicolas Papernot, Yuval Elovici, Ben Nassi(参考訳) 機械学習(ML)モデルは、予測の完全性やトレーニングデータのプライバシを目標とする数多くの攻撃に対して脆弱であることが知られている。 これらの攻撃を実行するために、ブラックボックスの敵は通常、モデルに問い合わせてその出力(例えばラベル)を観察する能力を持つ必要がある。 本研究では,このような意思決定に基づく攻撃を,初めて強化できることを実証する。 これを実現するために,攻撃対象のMLモデルの予測を後処理するアルゴリズムの実行時間を簡単に計測する,新たなサイドチャネルを利用する手法を提案する。 これまでアルゴリズムによるタイミングサイドチャネルへの推論状態要素のリークは研究されておらず、ラベル出力のみに基づく攻撃よりも優れたタイミング攻撃を容易にする豊富な情報を含むことが判明した。 本研究では,物体検出装置の動作において重要な役割を果たす非最大抑制(nms)アルゴリズムからの漏洩について検討する。 本アルゴリズムに付随するタイミングサイドチャネル脆弱性について検討し,意思決定に基づく攻撃の可能性を明らかにした。 我々は、YOLOv3検出器に対する攻撃を実演し、タイミングリークを利用して、逆例を用いてオブジェクト検出を回避し、データセット推論を行う。 実験の結果,提案手法は決定に基づく攻撃よりも摂動品質が優れていることが示された。 さらに,タイミングリークのみに基づくデータセット推論を行う新たな脅威モデルを提案する。 NMSアルゴリズムに固有のタイミングリーク脆弱性に対処するために,定数時間推論パスを実装する可能性と限界を緩和戦略として検討する。

Machine learning (ML) models are known to be vulnerable to a number of attacks that target the integrity of their predictions or the privacy of their training data. To carry out these attacks, a black-box adversary must typically possess the ability to query the model and observe its outputs (e.g., labels). In this work, we demonstrate, for the first time, the ability to enhance such decision-based attacks. To accomplish this, we present an approach that exploits a novel side channel in which the adversary simply measures the execution time of the algorithm used to post-process the predictions of the ML model under attack. The leakage of inference-state elements into algorithmic timing side channels has never been studied before, and we have found that it can contain rich information that facilitates superior timing attacks that significantly outperform attacks based solely on label outputs. In a case study, we investigate leakage from the non-maximum suppression (NMS) algorithm, which plays a crucial role in the operation of object detectors. In our examination of the timing side-channel vulnerabilities associated with this algorithm, we identified the potential to enhance decision-based attacks. We demonstrate attacks against the YOLOv3 detector, leveraging the timing leakage to successfully evade object detection using adversarial examples, and perform dataset inference. Our experiments show that our adversarial examples exhibit superior perturbation quality compared to a decision-based attack. In addition, we present a new threat model in which dataset inference based solely on timing leakage is performed. To address the timing leakage vulnerability inherent in the NMS algorithm, we explore the potential and limitations of implementing constant-time inference passes as a mitigation strategy.
翻訳日:2023-09-06 15:04:40 公開日:2023-09-05
# 畳み込みニューラルネットワークを用いた交通光の認識:サーベイ

Traffic Light Recognition using Convolutional Neural Networks: A Survey ( http://arxiv.org/abs/2309.02158v1 )

ライセンス: Link先を確認
Svetlana Pavlitska, Nico Lambing, Ashok Kumar Bangaru and J. Marius Z\"ollner(参考訳) 自動運転にはリアルタイム交通光認識が不可欠である。 しかし、このタスクの基盤となるモデルアーキテクチャの密集した概要が現在欠けている。 本研究では,畳み込みニューラルネットワーク(cnns)を用いた交通光認識手法の包括的調査と分析を行う。 データセットとcnnアーキテクチャという2つの重要な側面に焦点を当てています。 基礎となるアーキテクチャに基づいて,(1)特定のタスク特性を補償する汎用オブジェクト検出器の修正,(2)ルールベースとcnnコンポーネントの両方を含む多段階アプローチ,(3)タスク固有の単一ステージメソッドの3つのグループにメソッドを分類した。 各クラスタで最も重要な作業について説明し、データセットの利用について話し、研究のギャップを特定します。

Real-time traffic light recognition is essential for autonomous driving. Yet, a cohesive overview of the underlying model architectures for this task is currently missing. In this work, we conduct a comprehensive survey and analysis of traffic light recognition methods that use convolutional neural networks (CNNs). We focus on two essential aspects: datasets and CNN architectures. Based on an underlying architecture, we cluster methods into three major groups: (1) modifications of generic object detectors which compensate for specific task characteristics, (2) multi-stage approaches involving both rule-based and CNN components, and (3) task-specific single-stage methods. We describe the most important works in each cluster, discuss the usage of the datasets, and identify research gaps.
翻訳日:2023-09-06 15:04:13 公開日:2023-09-05
# adversarial networkを用いたモデルベースオフラインポリシー最適化

Model-based Offline Policy Optimization with Adversarial Network ( http://arxiv.org/abs/2309.02157v1 )

ライセンス: Link先を確認
Junming Yang, Xingguo Chen, Shengyuan Wang, Bolei Zhang(参考訳) モデルベースオフライン強化学習(rl)は、オンライン環境とのコストのかかるインタラクションを避けるため、ロギングデータセットと教師付き移行モデルを構築するが、オフラインポリシー最適化にとって有望なアプローチである。 ログデータとオンライン環境の相違が分散シフト問題を引き起こす可能性があるため、多くの先行研究がロバストな遷移モデルの構築方法を保守的に研究し、モデルの不確かさを正確に推定している。 しかし、過保守主義はエージェントの探索を制限する可能性があり、不確実性の推定は信頼できない可能性がある。 本稿では,adversarial network (moan) を用いた新しいモデルベースオフラインポリシー最適化フレームワークを提案する。 鍵となる考え方は、敵の学習を用いてより一般化された移行モデルを構築することである。 さらに、敵は自然にモデルの不確かさを理論的な保証で定量化することができる。 広範な実験により,オフラインのrlベンチマークにおいて,既存の最先端のベースラインよりも優れた手法が得られた。 また、多様な分布サンプルを生成し、不確かさをより正確に定量化することができる。

Model-based offline reinforcement learning (RL), which builds a supervised transition model with logging dataset to avoid costly interactions with the online environment, has been a promising approach for offline policy optimization. As the discrepancy between the logging data and online environment may result in a distributional shift problem, many prior works have studied how to build robust transition models conservatively and estimate the model uncertainty accurately. However, the over-conservatism can limit the exploration of the agent, and the uncertainty estimates may be unreliable. In this work, we propose a novel Model-based Offline policy optimization framework with Adversarial Network (MOAN). The key idea is to use adversarial learning to build a transition model with better generalization, where an adversary is introduced to distinguish between in-distribution and out-of-distribution samples. Moreover, the adversary can naturally provide a quantification of the model's uncertainty with theoretical guarantees. Extensive experiments showed that our approach outperforms existing state-of-the-art baselines on widely studied offline RL benchmarks. It can also generate diverse in-distribution samples, and quantify the uncertainty more accurately.
翻訳日:2023-09-06 15:04:01 公開日:2023-09-05
# S3C: 自己批判学習による半教師付きVQA自然言語説明

S3C: Semi-Supervised VQA Natural Language Explanation via Self-Critical Learning ( http://arxiv.org/abs/2309.02155v1 )

ライセンス: Link先を確認
Wei Suo, Mengyang Sun, Weisong Liu, Yiqi Gao, Peng Wang, Yanning Zhang, Qi Wu(参考訳) VQA自然言語説明(VQA-NLE)タスクは、自然言語におけるVQAモデルの意思決定プロセスを説明することを目的としている。 従来の注意や勾配分析とは異なり、自由文理性はユーザーの信頼を得るのが容易である。 既存の方法は、ほとんどがポストホックあるいは自己有理化モデルを使用して、妥当な説明を得る。 しかしながら、これらのフレームワークは以下の課題によってボトルネックになっている。 1) 推論過程は, 論理的不整合の問題に対して忠実に対応できず, 対処できない。 2)人間の注釈による説明は高価で収集に時間がかかる。 本稿では,自己批判学習(S3C)を用いた半教師付きVQA-NLEを提案する。 半教師付き学習フレームワークを使用することで、S3Cは人間に注釈のない説明なしに膨大な量のサンプルの恩恵を受けることができる。 多数の自動測定と人的評価がいずれも本手法の有効性を示している。 一方、このフレームワークは2つのVQA-NLEデータセット上で、最先端のパフォーマンスを新たに達成している。

VQA Natural Language Explanation (VQA-NLE) task aims to explain the decision-making process of VQA models in natural language. Unlike traditional attention or gradient analysis, free-text rationales can be easier to understand and gain users' trust. Existing methods mostly use post-hoc or self-rationalization models to obtain a plausible explanation. However, these frameworks are bottlenecked by the following challenges: 1) the reasoning process cannot be faithfully responded to and suffer from the problem of logical inconsistency. 2) Human-annotated explanations are expensive and time-consuming to collect. In this paper, we propose a new Semi-Supervised VQA-NLE via Self-Critical Learning (S3C), which evaluates the candidate explanations by answering rewards to improve the logical consistency between answers and rationales. With a semi-supervised learning framework, the S3C can benefit from a tremendous amount of samples without human-annotated explanations. A large number of automatic measures and human evaluations all show the effectiveness of our method. Meanwhile, the framework achieves a new state-of-the-art performance on the two VQA-NLE datasets.
翻訳日:2023-09-06 15:03:44 公開日:2023-09-05
# 量子古典的フィードバックによる離散時間結晶の延長

Prolonging a discrete time crystal by quantum-classical feedback ( http://arxiv.org/abs/2309.02151v1 )

ライセンス: Link先を確認
Gonzalo Camacho and Benedikt Fauseweh(参考訳) 時間結晶固有状態秩序を特徴とする量子物質の非平衡相は、近年、ノイズのある中間スケール量子(NISQ)デバイスで実現されている。 理想的な量子時間結晶は集合的なサブハーモニック振動を示し、時空間の長期秩序は無限に持続するが、現在のNISQ装置のデコヒーレンス時間はこれらの位相の生存に自然な制限を課し、それらの観測を浅い量子回路に制限する。 本稿では,量子古典的フィードバックプロトコルを活用し,装置のデコヒーレンス時間を大幅に超える時間結晶信号を強化する手法を提案する。 本研究は, 環境との非整合性を考慮した一次元蹴りアイシングモデルにおける多体局所離散時間結晶相(MBL-DTC)の生存を古典シミュレーションで実証するものである。 システムのサブリージョンで得られた測定結果に基づいて,周期的量子古典フィードバックプロトコルを用いたスキームを用いる。 このアプローチは既存の量子ハードウェアの実装に適しており、現在のデジタル量子コンピュータの低深さ限界を超越する複雑な量子多体ダイナミクスをシミュレートする先進的な経路を示す。

Non-equilibrium phases of quantum matter featuring time crystalline eigenstate order have been realized recently on noisy intermediate-scale quantum (NISQ) devices. While ideal quantum time crystals exhibit collective subharmonic oscillations and spatio-temporal long-range order persisting for infinite times, the decoherence time of current NISQ devices sets a natural limit to the survival of these phases, restricting their observation to a shallow quantum circuit. Here we propose a scheme that leverages quantum-classical feedback protocols to enhance a time crystal signal significantly exceeding the decoherence time of the device. As a case of study, we demonstrate the survival of the many-body localized discrete time crystal phase (MBL-DTC) in the one dimensional periodically kicked Ising model, accounting for decoherence of the system with an environment, in a classical simulation. We employ a scheme that uses a periodic quantum-classical feedback protocol based on measurement outcomes obtained in subregions of the system. This approach is suitable for implementation on existing quantum hardware and presents a prospective path to simulate complex quantum many-body dynamics that transcend the low depth limit of current digital quantum computers.
翻訳日:2023-09-06 15:03:28 公開日:2023-09-05
# 衛星ボーンハイパースペクトル雲検出のための領域適応

Domain Adaptation for Satellite-Borne Hyperspectral Cloud Detection ( http://arxiv.org/abs/2309.02150v1 )

ライセンス: Link先を確認
Andrew Du, Anh-Dzung Doan, Yee Wei Law, Tat-Jun Chin(参考訳) 衛星搭載機械学習ハードウェアアクセラレーターの出現により、畳み込みニューラルネットワーク(CNN)などの機械学習技術を使用してペイロードデータのオンボード処理が可能になった。 注目すべき例としては、地球観測(eo)ミッションで捉えたハイパースペクトルデータにおける雲の存在を検出するためにcnnを使用することがある。 しかし、配備前には、新しいセンサーを使用する新しいミッションでは、cnnモデルをトレーニングするための十分な代表データセットがないため、以前のミッションのデータのみに基づいてトレーニングされたモデルは、新しいミッションでデータを処理するためにデプロイされた場合、過小評価される。 この低パフォーマンスは、前のミッションと将来のミッションで異なるセンサーによって生成されたデータの基盤となる分布の違いであるドメインギャップに起因する。 本稿では,オンボード型ハイパースペクトル雲検出における領域ギャップ問題に対処する。 我々の主な貢献は、具体的なEOミッションによって動機付けられた新しいドメイン適応タスクの定式化、帯域効率の高い教師付きドメイン適応のための新しいアルゴリズムの開発、宇宙展開可能なニューラルネットワークアクセラレータ上でのテスト時間適応アルゴリズムの実証である。 我々の貢献により、最小限のデータ転送(例えばResNet50の重量の1%)が実行され、ドメインのギャップや帯域幅の制限によって妨げられることなく、より洗練されたCNNモデルを衛星上に展開、更新できる。

The advent of satellite-borne machine learning hardware accelerators has enabled the on-board processing of payload data using machine learning techniques such as convolutional neural networks (CNN). A notable example is using a CNN to detect the presence of clouds in hyperspectral data captured on Earth observation (EO) missions, whereby only clear sky data is downlinked to conserve bandwidth. However, prior to deployment, new missions that employ new sensors will not have enough representative datasets to train a CNN model, while a model trained solely on data from previous missions will underperform when deployed to process the data on the new missions. This underperformance stems from the domain gap, i.e., differences in the underlying distributions of the data generated by the different sensors in previous and future missions. In this paper, we address the domain gap problem in the context of on-board hyperspectral cloud detection. Our main contributions lie in formulating new domain adaptation tasks that are motivated by a concrete EO mission, developing a novel algorithm for bandwidth-efficient supervised domain adaptation, and demonstrating test-time adaptation algorithms on space deployable neural network accelerators. Our contributions enable minimal data transmission to be invoked (e.g., only 1% of the weights in ResNet50) to achieve domain adaptation, thereby allowing more sophisticated CNN models to be deployed and updated on satellites without being hampered by domain gap and bandwidth limitations.
翻訳日:2023-09-06 15:03:06 公開日:2023-09-05
# 開2量子ビット系の量子コヒーレンスとメトロロジー非古典相関の量子テレポーテーションとダイナミクス:マルコフ系と非マルコフ系の研究

Quantum teleportation and dynamics of quantum coherence and metrological non-classical correlations for open two-qubit systems: A study of Markovian and non-Markovian regimes ( http://arxiv.org/abs/2309.02149v1 )

ライセンス: Link先を確認
Yassine Dakir, Abdallah Slaoui, Abdel-Baset A. Mohamed, Rachid Ahl Laamara and Hichem Eleuch(参考訳) オープン量子システムにおける非古典的相関と量子コヒーレンスのダイナミクスを,局所量子フィッシャー情報,局所量子不確実性,量子ジェンセン・シャノン分岐などのメトリクスを用いて検討する。 ひとつは、2つの量子ビットが1つのモードの空洞に結合されたときであり、もうひとつは2つの量子ビットが強調された貯水池に浸漬されているときである。 本研究は,これらの量子基準の進化が初期状態の純度(純度か混合か)と環境の性質(マルコフ型か非マルコフ型か)にどのように影響するかを重要視する。 初期状態の純度の減少は、量子相関と量子コヒーレンスの両方の減少に対応するが、高純度はこれらの量子性を高める。 さらに、2つの異なる物理シナリオに基づいて量子テレポーテーション戦略を確立する。 このアプローチでは、2つの量子ビットの状態は量子テレポーテーションプロトコルに統合された量子チャネルとして機能する。 また,初期状態とマルコフ的あるいは非マルコフ的状態の純度が量子テレポーテーション過程にどのように影響するかを解析した。

We investigate the dynamics of non-classical correlations and quantum coherence in open quantum systems by employing metrics like local quantum Fisher information, local quantum uncertainty, and quantum Jensen-Shannon divergence. Our focus here is on a system of two qubits in two distinct physical situations: the first one when the two qubits are coupled to a single-mode cavity, while the second consists of two qubits immersed in dephasing reservoirs. Our study places significant emphasis on how the evolution of these quantum criterion is influenced by the initial state's purity (whether pure or mixed) and the nature of the environment (whether Markovian or non-Markovian). We observe that a decrease in the initial state's purity corresponds to a reduction in both quantum correlations and quantum coherence, whereas higher purity enhances these quantumness. Furthermore, we establish a quantum teleportation strategy based on the two different physical scenarios. In this approach, the resulting state of the two qubits functions as a quantum channel integrated into a quantum teleportation protocol. We also analyze how the purity of the initial state and the Markovian or non-Markovian regimes impact the quantum teleportation process.
翻訳日:2023-09-06 15:02:42 公開日:2023-09-05
# INCEPTNET:医学画像解析のための精密・早期疾患検出アプリケーション

INCEPTNET: Precise And Early Disease Detection Application For Medical Images Analyses ( http://arxiv.org/abs/2309.02147v1 )

ライセンス: Link先を確認
Amirhossein Sajedi, Mohammad Javad Fadaeieslam(参考訳) 近年のディープAIに基づく画像処理手法のパラダイムシフトを考えると、医用画像処理はかなり進歩している。 本研究では,医療画像処理の分野において,医療画像の早期発見と分割を行い,精度と性能を向上させるために,inceptnetという新しい深層ニューラルネットワーク(dnn)を提案する。 また、ユーザとInceptNetアプリケーションとのインタラクションを調査し、背景プロセスやユーザとのフォアグラウンドインタラクションを含む包括的なアプリケーションを提示する。 Fast InceptNetは、著名なUnetアーキテクチャによって形成されており、最適な局所スパース構造を近似しながら、Inceptionモジュールのパワーを高速かつコスト効率で利用することができる。 さまざまな並列カーネルサイズでインセプションモジュールを追加することで、ネットワークの関心領域のバリエーションをキャプチャする能力を向上させることができる。 実験のために、このモデルは網膜血管セグメンテーション、肺結節セグメンテーション、皮膚病変セグメンテーション、乳がん細胞検出の4つのベンチマークデータセットでテストされている。 この改良は、小さな構造を持つ画像においてより重要であった。 提案手法は, 提案手法の精度を0.9531, 0.8900, 0.9872, 0.9881 から0.9555, 0.9510, 0.9945, 0.9945 に改善し, 提案手法の先行研究よりも優れた性能を示した。 さらに、開始から終了までの手順を探索することにより、inceptnetの試用版を完全なアプリケーションとして利用した個人に対して、提案手法を評価するために13の複数の選択質問を提示する。 結果は、人間のコンピュータインタラクションによって評価される。

In view of the recent paradigm shift in deep AI based image processing methods, medical image processing has advanced considerably. In this study, we propose a novel deep neural network (DNN), entitled InceptNet, in the scope of medical image processing, for early disease detection and segmentation of medical images in order to enhance precision and performance. We also investigate the interaction of users with the InceptNet application to present a comprehensive application including the background processes, and foreground interactions with users. Fast InceptNet is shaped by the prominent Unet architecture, and it seizes the power of an Inception module to be fast and cost effective while aiming to approximate an optimal local sparse structure. Adding Inception modules with various parallel kernel sizes can improve the network's ability to capture the variations in the scaled regions of interest. To experiment, the model is tested on four benchmark datasets, including retina blood vessel segmentation, lung nodule segmentation, skin lesion segmentation, and breast cancer cell detection. The improvement was more significant on images with small scale structures. The proposed method improved the accuracy from 0.9531, 0.8900, 0.9872, and 0.9881 to 0.9555, 0.9510, 0.9945, and 0.9945 on the mentioned datasets, respectively, which show outperforming of the proposed method over the previous works. Furthermore, by exploring the procedure from start to end, individuals who have utilized a trial edition of InceptNet, in the form of a complete application, are presented with thirteen multiple choice questions in order to assess the proposed method. The outcomes are evaluated through the means of Human Computer Interaction.
翻訳日:2023-09-06 15:02:18 公開日:2023-09-05
# 雑音をもたらす: 事前学習された自動音声認識に雑音ロバスト性を導入する

Bring the Noise: Introducing Noise Robustness to Pretrained Automatic Speech Recognition ( http://arxiv.org/abs/2309.02145v1 )

ライセンス: Link先を確認
Patrick Eickhoff, Matthias M\"oller, Theresa Pekarek Rosin, Johannes Twiefel, Stefan Wermter(参考訳) 近年,音声処理の分野では,音声認識(ASR)のための大規模エンド・ツー・エンド(E2E)システムが様々なベンチマークで最先端の性能を報告している。 これらのシステムは、音声からノイズ条件を処理し除去する方法を本質的に学習する。 これまでの研究では、下流のasrモデルのフロントエンドとして使用できるプリプロセッサネットワークに、これらのモデルの分別機能を抽出できることが示されている。 しかし、提案手法は特定の完全な畳み込みアーキテクチャに限られていた。 そこで本研究では,任意のエンコーダ・デコーダアーキテクチャに適用可能なデノーダ機能を抽出する新しい手法を提案する。 本稿では,Conformer ASRモデルから隠れたアクティベーションを抽出し,デコーダに供給し,復号化スペクトログラムを予測するクリーンコーダプリプロセッサアーキテクチャを提案する。 ノイズ音声データベース (nsd) 上でプリプロセッサをトレーニングし, 雑音入力から発声スペクトログラムを再構成する。 そして,本モデルについて,事前訓練されたコンフォーマーASRモデルのフロントエンドとして評価し,小型のコンフォーマーASRモデルをスクラッチからトレーニングするフロントエンドとして評価する。 そこで本研究では,Creepcoderが音声からノイズをフィルタリングし,両方のアプリケーションに対してノイズの多い条件下で下流モデルのワード誤り率(WER)を改善することを示す。

In recent research, in the domain of speech processing, large End-to-End (E2E) systems for Automatic Speech Recognition (ASR) have reported state-of-the-art performance on various benchmarks. These systems intrinsically learn how to handle and remove noise conditions from speech. Previous research has shown, that it is possible to extract the denoising capabilities of these models into a preprocessor network, which can be used as a frontend for downstream ASR models. However, the proposed methods were limited to specific fully convolutional architectures. In this work, we propose a novel method to extract the denoising capabilities, that can be applied to any encoder-decoder architecture. We propose the Cleancoder preprocessor architecture that extracts hidden activations from the Conformer ASR model and feeds them to a decoder to predict denoised spectrograms. We train our pre-processor on the Noisy Speech Database (NSD) to reconstruct denoised spectrograms from noisy inputs. Then, we evaluate our model as a frontend to a pretrained Conformer ASR model as well as a frontend to train smaller Conformer ASR models from scratch. We show that the Cleancoder is able to filter noise from speech and that it improves the total Word Error Rate (WER) of the downstream model in noisy conditions for both applications.
翻訳日:2023-09-06 15:01:48 公開日:2023-09-05
# 大規模言語モデルによるアライメントによる推論の改善

Making Large Language Models Better Reasoners with Alignment ( http://arxiv.org/abs/2309.02144v1 )

ライセンス: Link先を確認
Peiyi Wang and Lei Li and Liang Chen and Feifan Song and Binghuai Lin and Yunbo Cao and Tianyu Liu and Zhifang Sui(参考訳) 推論は、正しい結論に達するために証拠を使用する認知過程である。 推論能力は、大規模言語モデル(LLM)が人工知能エージェントの脳として機能するために不可欠である。 近年の研究では、思考の連鎖(COT)推論プロセスによるデータ上の微調整LDMは、その推論能力を著しく向上させることができることが示されている。 しかし、微調整 LLM は \textit{Assessment Misalignment} 問題、すなわち COT のサブパー化に高得点を割り当てることによって、推論能力の潜在的な制限が生じる。 この問題に対処するために,3つのステップを含む‘textit{Alignment Fine-Tuning(AFT)パラダイムを導入する。 1)COTトレーニングデータを用いた微調整LDM 2) 各質問に対して複数のcot応答を生成し,その回答が正しいかどうかに基づいて肯定的かつ否定的な回答に分類する。 3) LLMの正と負の反応のスコアを, 新たな拘束アライメント損失で調整した。 具体的には、制約アライメント損失には2つの目的がある。 a) 高品質のCOTで回答を促すために正のスコアが負のスコアを超えることを保証する調整 b) モデル劣化を防止するために,負のスコアを妥当な範囲に限定する制約。 バイナリ正と負のフィードバックだけでなく、ランク付けされたフィードバックがアクセス可能な場合、制約アライメント損失はランキングの状況にシームレスに適応できる。 さらに,最近のdpo,rrhf,proなどのランキングに基づくアライメント手法を深く検討し,これらのアプローチで見過ごされている制約が性能に重要であることを発見した。 2値と2値の両方のフィードバックを持つ4つの推論ベンチマークの大規模な実験は、AFTの有効性を示している。

Reasoning is a cognitive process of using evidence to reach a sound conclusion. The reasoning capability is essential for large language models (LLMs) to serve as the brain of the artificial general intelligence agent. Recent studies reveal that fine-tuning LLMs on data with the chain of thought (COT) reasoning process can significantly enhance their reasoning capabilities. However, we find that the fine-tuned LLMs suffer from an \textit{Assessment Misalignment} problem, i.e., they frequently assign higher scores to subpar COTs, leading to potential limitations in their reasoning abilities. To address this problem, we introduce an \textit{Alignment Fine-Tuning (AFT)} paradigm, which involves three steps: 1) fine-tuning LLMs with COT training data; 2) generating multiple COT responses for each question, and categorizing them into positive and negative ones based on whether they achieve the correct answer; 3) calibrating the scores of positive and negative responses given by LLMs with a novel constraint alignment loss. Specifically, the constraint alignment loss has two objectives: a) Alignment, which guarantees that positive scores surpass negative scores to encourage answers with high-quality COTs; b) Constraint, which keeps the negative scores confined to a reasonable range to prevent the model degradation. Beyond just the binary positive and negative feedback, the constraint alignment loss can be seamlessly adapted to the ranking situations when ranking feedback is accessible. Furthermore, we also delve deeply into recent ranking-based alignment methods, such as DPO, RRHF, and PRO, and discover that the constraint, which has been overlooked by these approaches, is also crucial for their performance. Extensive experiments on four reasoning benchmarks with both binary and ranking feedback demonstrate the effectiveness of AFT.
翻訳日:2023-09-06 15:01:25 公開日:2023-09-05
# 変圧器を用いた交換式マルチモーダル核融合

Exchanging-based Multimodal Fusion with Transformer ( http://arxiv.org/abs/2309.02190v1 )

ライセンス: Link先を確認
Renyu Zhu, Chengcheng Han, Yong Qian, Qiushi Sun, Xiang Li, Ming Gao, Xuezhi Cao, Yunsen Xian(参考訳) 本稿ではマルチモーダル融合の問題について考察する。 近年,あるモダリティから学習した埋め込みを相互に交換するビジョン・ビジョン融合法が提案されている。 しかし、そのほとんどは異なる低次元空間にマルチモーダルの入力を投影しており、シーケンシャルな入力データには適用できない。 そこで本稿では,Transformer を用いたテキストビジョン融合のための交換型マルチモーダル融合モデル MuSE を提案する。 まず2つのエンコーダを用いて、異なる低次元空間にマルチモーダル入力を別々にマッピングする。 次に、2つのデコーダを使って埋め込みを正規化し、それらを同じ空間に引き込む。 2つのデコーダは、画像キャプションタスクとテキスト対画像生成タスクとの相関関係をそれぞれキャプチャする。 さらに,正規化埋め込みに基づいて,共有パラメータを持つ2つのトランスコーダをバックボーンモデルとして使用し,マルチモーダリティ間の知識を交換するクロストランスフォーマを提案する。 具体的には、crosstransformerはまず、浅い層にある入力のグローバルなコンテキスト情報を学習する。 その後、あるモダリティにおけるトークンの割合を選択し、それらの埋め込みを他のモダリティにおける埋め込みの平均に置き換えることで、モダリティ間交換を行う。 マルチモーダル名付きエンティティ認識タスクとマルチモーダル感情分析タスクにおけるmuseの性能評価のための広範囲な実験を行った。 我々の結果は、他の競合相手に対する MuSE の優位性を示している。 私たちのコードとデータはhttps://github.com/RecklessRonan/MuSE.comで公開されています。

We study the problem of multimodal fusion in this paper. Recent exchanging-based methods have been proposed for vision-vision fusion, which aim to exchange embeddings learned from one modality to the other. However, most of them project inputs of multimodalities into different low-dimensional spaces and cannot be applied to the sequential input data. To solve these issues, in this paper, we propose a novel exchanging-based multimodal fusion model MuSE for text-vision fusion based on Transformer. We first use two encoders to separately map multimodal inputs into different low-dimensional spaces. Then we employ two decoders to regularize the embeddings and pull them into the same space. The two decoders capture the correlations between texts and images with the image captioning task and the text-to-image generation task, respectively. Further, based on the regularized embeddings, we present CrossTransformer, which uses two Transformer encoders with shared parameters as the backbone model to exchange knowledge between multimodalities. Specifically, CrossTransformer first learns the global contextual information of the inputs in the shallow layers. After that, it performs inter-modal exchange by selecting a proportion of tokens in one modality and replacing their embeddings with the average of embeddings in the other modality. We conduct extensive experiments to evaluate the performance of MuSE on the Multimodal Named Entity Recognition task and the Multimodal Sentiment Analysis task. Our results show the superiority of MuSE against other competitors. Our code and data are provided at https://github.com/RecklessRonan/MuSE.
翻訳日:2023-09-06 14:56:47 公開日:2023-09-05
# 多言語ESG問題同定のためのBERT言語モデルの活用

Leveraging BERT Language Models for Multi-Lingual ESG Issue Identification ( http://arxiv.org/abs/2309.02189v1 )

ライセンス: Link先を確認
Elvys Linhares Pontes, Mohamed Benjannet, Lam Kim Ming(参考訳) 環境、社会、ガバナンス(ESG)は、環境、社会、ガバナンスといった分野における企業の負の影響を測定し、ポジティブな結果を高めるための指標として使われてきた。 近年、投資家は投資選択におけるESG基準の重要性をますます認識し、ビジネスがESG原則を運用戦略に組み込むようになっている。 多言語ESG課題識別(ML-ESG: Multi-Lingual ESG Issue Identification)は、ニュース文書を35の異なるESG課題ラベルに分類するタスクである。 本研究では,BERT言語モデルを用いた複数の手法を探索し,これらのラベル間のニュース文書の正確な分類を実現する。 分析の結果,RoBERTa分類器は最も成功した手法の1つであり,英語テストデータセットでは第2位,フランス語テストデータセットでは第5位であった。 さらに、中国語に適したSVMベースのバイナリモデルでは、例外的な性能を示し、テストデータセットで2位となった。

Environmental, Social, and Governance (ESG) has been used as a metric to measure the negative impacts and enhance positive outcomes of companies in areas such as the environment, society, and governance. Recently, investors have increasingly recognized the significance of ESG criteria in their investment choices, leading businesses to integrate ESG principles into their operations and strategies. The Multi-Lingual ESG Issue Identification (ML-ESG) shared task encompasses the classification of news documents into 35 distinct ESG issue labels. In this study, we explored multiple strategies harnessing BERT language models to achieve accurate classification of news documents across these labels. Our analysis revealed that the RoBERTa classifier emerged as one of the most successful approaches, securing the second-place position for the English test dataset, and sharing the fifth-place position for the French test dataset. Furthermore, our SVM-based binary model tailored for the Chinese language exhibited exceptional performance, earning the second-place rank on the test dataset.
翻訳日:2023-09-06 14:56:20 公開日:2023-09-05
# ソーシャルメディアから新型コロナウイルスの医療概念を抽出するニューラルネットワークアーキテクチャに辞書を組み込む

Incorporating Dictionaries into a Neural Network Architecture to Extract COVID-19 Medical Concepts From Social Media ( http://arxiv.org/abs/2309.02188v1 )

ライセンス: Link先を確認
Abul Hasan and Mark Levene and David Weston(参考訳) 自然言語処理のためのニューラルネットワークアーキテクチャに辞書情報を組み込むことの潜在的な利点について検討する。 特に、このアーキテクチャを用いて、オンライン医療フォーラムからCOVID-19に関連するいくつかの概念を抽出する。 我々は、フォーラムからサンプルを使用して、各概念の1つの辞書を手作業でキュレートする。 さらに,生物医学的な概念を抽出するためのツールであるmetamapを用いて,少数の意味概念を識別する。 フォーラムデータ上の教師付き概念抽出タスクでは、最善のモデルは、90\%のマクロ$f_1$スコアを達成しました。 医療概念抽出における大きな困難は、教師付きモデルを構築するためのラベル付きデータを取得することである。 異なるソースから派生したデータに2つの方法で転送するモデルの有用性について検討する。 まず、弱い学習を通じてラベルを生産し、次に概念抽出を行う。 このケースで使用するデータセットは、covid-19関連ツイートであり、弱いラベル付きデータに基づいてトレーニングされた症状概念抽出のために、$f_1$スコア81\%を達成します。 われわれの辞書の有用性は、twitterから直接構築されたcovid-19の症状辞書と比較される。 BERT と BERTweet の COVID-19 バージョンを組み込んださらなる実験は、辞書が相反する結果をもたらすことを示した。 この結果から,小ドメイン辞書を深層学習モデルに組み込むことで,概念抽出作業の改善が期待できることがわかった。 さらに、辞書を用いて構築されたモデルは、よく一般化され、同様のタスクで異なるデータセットに転送可能である。

We investigate the potential benefit of incorporating dictionary information into a neural network architecture for natural language processing. In particular, we make use of this architecture to extract several concepts related to COVID-19 from an on-line medical forum. We use a sample from the forum to manually curate one dictionary for each concept. In addition, we use MetaMap, which is a tool for extracting biomedical concepts, to identify a small number of semantic concepts. For a supervised concept extraction task on the forum data, our best model achieved a macro $F_1$ score of 90\%. A major difficulty in medical concept extraction is obtaining labelled data from which to build supervised models. We investigate the utility of our models to transfer to data derived from a different source in two ways. First for producing labels via weak learning and second to perform concept extraction. The dataset we use in this case comprises COVID-19 related tweets and we achieve an $F_1$ score 81\% for symptom concept extraction trained on weakly labelled data. The utility of our dictionaries is compared with a COVID-19 symptom dictionary that was constructed directly from Twitter. Further experiments that incorporate BERT and a COVID-19 version of BERTweet demonstrate that the dictionaries provide a commensurate result. Our results show that incorporating small domain dictionaries to deep learning models can improve concept extraction tasks. Moreover, models built using dictionaries generalize well and are transferable to different datasets on a similar task.
翻訳日:2023-09-06 14:56:04 公開日:2023-09-05
# AniPortraitGAN:2D画像からのアニメーション3D画像生成

AniPortraitGAN: Animatable 3D Portrait Generation from 2D Image Collections ( http://arxiv.org/abs/2309.02186v1 )

ライセンス: Link先を確認
Yue Wu, Sicheng Xu, Jianfeng Xiang, Fangyun Wei, Qifeng Chen, Jiaolong Yang, Xin Tong(参考訳) 従来のアニメーション可能な3D対応のGANは、主に人間の頭と全身に焦点を合わせてきた。 しかし、ヘッドオンリーのビデオは実生活ではごく稀であり、フルボディ生成は通常表情制御には対応せず、高品質な結果を生み出す上でも課題がある。 適切なビデオアバターに向けて, 顔の表情, 頭部ポーズ, 肩の動きを制御可能なポートレート画像を生成する, アニメーション可能な3d認識ganを提案する。 これは、3Dやビデオデータを使用しない非構造化2次元画像コレクションで訓練された生成モデルである。 新たな課題として, 生成的放射多様体表現を基礎とし, 学習可能な顔および頭部ショルダー変形を具備する。 ポートレート画像にとって重要な生成顔の品質を向上させるために,デュアルカメラレンダリングと逆学習方式を提案する。 長髪などの挑戦領域に対する可塑性変形を生成するために、ポーズ変形処理網を開発する。 実験により,非構造な2d画像を用いた学習により,様々な特性を所望の制御で多様で高品質な3dポートレートを生成できることが確認された。

Previous animatable 3D-aware GANs for human generation have primarily focused on either the human head or full body. However, head-only videos are relatively uncommon in real life, and full body generation typically does not deal with facial expression control and still has challenges in generating high-quality results. Towards applicable video avatars, we present an animatable 3D-aware GAN that generates portrait images with controllable facial expression, head pose, and shoulder movements. It is a generative model trained on unstructured 2D image collections without using 3D or video data. For the new task, we base our method on the generative radiance manifold representation and equip it with learnable facial and head-shoulder deformations. A dual-camera rendering and adversarial learning scheme is proposed to improve the quality of the generated faces, which is critical for portrait images. A pose deformation processing network is developed to generate plausible deformations for challenging regions such as long hair. Experiments show that our method, trained on unstructured 2D images, can generate diverse and high-quality 3D portraits with desired control over different properties.
翻訳日:2023-09-06 14:55:40 公開日:2023-09-05
# BEVTrack:Bird's-Eye-Viewでのポイントクラウド追跡のためのシンプルなベースライン

BEVTrack: A Simple Baseline for Point Cloud Tracking in Bird's-Eye-View ( http://arxiv.org/abs/2309.02185v1 )

ライセンス: Link先を確認
Yuxiang Yang, Yingqi Deng, Jiahao Nie, Jing Zhang(参考訳) 点雲における3Dシングルオブジェクトトラッキング(SOT)は、外見のばらつき、イントラクタ、点雲の分散度が高いため、依然として難しい問題である。 特に自律走行のシナリオでは、ターゲットオブジェクトは通常、連続するフレーム間で空間的隣接性を維持し、主に水平方向に移動する。 この空間連続性は、ターゲットの局在に対する貴重な事前知識を提供する。 しかし、しばしばポイントワイズ表現を用いる既存のトラッカーは、そのような表現の不規則な形式のため、この知識を効率的に活用するのに苦労している。 そのため、空間対応を確立するために、精巧な設計と複数のサブタスクを解く必要がある。 本稿では,3次元SOTのためのシンプルながら強力なベースラインフレームワークであるBEVTrackを紹介する。 連続する点雲を共通のBird's-Eye-View表現に変換した後、BEVTrackは本質的に空間的近接を符号化し、単純な要素操作と畳み込み層によるトラッキングのためのモーションキューをキャプチャする。 さらに、多様なサイズと移動パターンを持つオブジェクトをよりうまく扱うために、bevtrackは、以前の作品のように固定ラプラシアンやガウス的仮定をするのではなく、基盤となる動き分布を直接学習する。 ベルとホイッスルなしで、BEVTrackは122FPSの高速な推論速度を維持しながら、KITTIとNuScenesデータセットの最先端のパフォーマンスを達成する。 コードはhttps://github.com/xmm-prio/bevtrackでリリースされる。

3D single object tracking (SOT) in point clouds is still a challenging problem due to appearance variation, distractors, and high sparsity of point clouds. Notably, in autonomous driving scenarios, the target object typically maintains spatial adjacency across consecutive frames, predominantly moving horizontally. This spatial continuity offers valuable prior knowledge for target localization. However, existing trackers, which often employ point-wise representations, struggle to efficiently utilize this knowledge owing to the irregular format of such representations. Consequently, they require elaborate designs and solving multiple subtasks to establish spatial correspondence. In this paper, we introduce BEVTrack, a simple yet strong baseline framework for 3D SOT. After converting consecutive point clouds into the common Bird's-Eye-View representation, BEVTrack inherently encodes spatial proximity and adeptly captures motion cues for tracking via a simple element-wise operation and convolutional layers. Additionally, to better deal with objects having diverse sizes and moving patterns, BEVTrack directly learns the underlying motion distribution rather than making a fixed Laplacian or Gaussian assumption as in previous works. Without bells and whistles, BEVTrack achieves state-of-the-art performance on KITTI and NuScenes datasets while maintaining a high inference speed of 122 FPS. The code will be released at https://github.com/xmm-prio/BEVTrack.
翻訳日:2023-09-06 14:55:22 公開日:2023-09-05
# 教師なし画像登録ニューラルネットワークによる左房変位の高分解能3次元マップ

High-resolution 3D Maps of Left Atrial Displacements using an Unsupervised Image Registration Neural Network ( http://arxiv.org/abs/2309.02179v1 )

ライセンス: Link先を確認
Christoforos Galazis, Anil Anthony Bharath and Marta Varela(参考訳) 左心房(la)の機能解析は心血管疾患の予後と診断においてますます重要な役割を担っている。 エコー心電図によるLA次元とひずみの測定はバイオマーカーとして有用であるが、心房変形の不完全な画像を提供する。 高分解能ダイナミック磁気共鳴画像(Cine MRI)は、LAの運動と3次元の変形を高分解能、全LAカバレッジで観察する機会を提供する。 しかし、3DでLAの動きを自動的に特徴づける専用のツールはない。 そこで本稿では,LAを自動的に分割し,心循環全体にわたって変位場を抽出するツールを提案する。 このパイプラインは、平均ハウスドルフ距離が2.51 \pm 1.3~mm$、ダイススコアが0.96 \pm 0.02$で、心臓周期のla壁を正確に追跡することができる。

Functional analysis of the left atrium (LA) plays an increasingly important role in the prognosis and diagnosis of cardiovascular diseases. Echocardiography-based measurements of LA dimensions and strains are useful biomarkers, but they provide an incomplete picture of atrial deformations. High-resolution dynamic magnetic resonance images (Cine MRI) offer the opportunity to examine LA motion and deformation in 3D, at higher spatial resolution and with full LA coverage. However, there are no dedicated tools to automatically characterise LA motion in 3D. Thus, we propose a tool that automatically segments the LA and extracts the displacement fields across the cardiac cycle. The pipeline is able to accurately track the LA wall across the cardiac cycle with an average Hausdorff distance of $2.51 \pm 1.3~mm$ and Dice score of $0.96 \pm 0.02$.
翻訳日:2023-09-06 14:54:52 公開日:2023-09-05
# 合成画像検索のためのデュアルリレーションアライメント

Dual Relation Alignment for Composed Image Retrieval ( http://arxiv.org/abs/2309.02169v1 )

ライセンス: Link先を確認
Xintong Jiang, Yaxiong Wang, Yujiao Wu, Meng Wang, Xueming Qian(参考訳) 合成画像検索は、参照画像を用いた対象画像の検索と、クエリとしての補完テキストの検索を伴うタスクであり、クロスモーダルモデリングの進歩により、大幅に進歩している。 1つのアライメント関係のみを持つ一般的な画像テキスト検索問題、すなわち画像テキストとは異なり、合成画像検索において2種類の関係が存在することを議論する。 明示的な関係は、既存の方法によって一般的に利用される参照画像と補完的なテキストターゲット画像に関連する。 この直感的関係に加えて、我々の実践中の観察では、対象画像と参照画像の関係を研究することにより、補完的なテキストを推測できることから、参照画像とターゲット画像の補完テキストという、暗黙的かつ重要な関係が明らかになった。 既存の手法は、暗黙の関係を見下ろしながら、ネットワークを学習するために明示的な関係を活用することに重点を置いている。 この弱点に対応するために,三重項間の相関関係を完全に活用するために,明示的関係と暗黙的関係を統合した合成画像検索のための新しい枠組みを提案する。 具体的には、まず、基準画像と対象画像とを融合させる視覚合成器を設計し、その結果得られた表現は、(1)補完テキストと意味的アライメントの対応、(2)明示的な関係モデリングを促進するために補完テキストの補償という2つの役割を担い、暗黙的な関係をアライメント学習に組み込む。 提案手法は,CIRRとFashionIQの2つの一般的なデータセットに対して,広範な実験により評価する。 その結果,合成画像検索性能が大幅に向上する上で,二重相関学習の有効性が確認できた。

Composed image retrieval, a task involving the search for a target image using a reference image and a complementary text as the query, has witnessed significant advancements owing to the progress made in cross-modal modeling. Unlike the general image-text retrieval problem with only one alignment relation, i.e., image-text, we argue for the existence of two types of relations in composed image retrieval. The explicit relation pertains to the reference image & complementary text-target image, which is commonly exploited by existing methods. Besides this intuitive relation, the observations during our practice have uncovered another implicit yet crucial relation, i.e., reference image & target image-complementary text, since we found that the complementary text can be inferred by studying the relation between the target image and the reference image. Regrettably, existing methods largely focus on leveraging the explicit relation to learn their networks, while overlooking the implicit relation. In response to this weakness, We propose a new framework for composed image retrieval, termed dual relation alignment, which integrates both explicit and implicit relations to fully exploit the correlations among the triplets. Specifically, we design a vision compositor to fuse reference image and target image at first, then the resulted representation will serve two roles: (1) counterpart for semantic alignment with the complementary text and (2) compensation for the complementary text to boost the explicit relation modeling, thereby implant the implicit relation into the alignment learning. Our method is evaluated on two popular datasets, CIRR and FashionIQ, through extensive experiments. The results confirm the effectiveness of our dual-relation learning in substantially enhancing composed image retrieval performance.
翻訳日:2023-09-06 14:54:27 公開日:2023-09-05
# PCFGaze:外見に基づく視線推定のための物理特性

PCFGaze: Physics-Consistent Feature for Appearance-based Gaze Estimation ( http://arxiv.org/abs/2309.02165v1 )

ライセンス: Link先を確認
Yiwei Bao, Feng Lu(参考訳) 近年のディープラーニングに基づく視線推定手法は大幅に改善されているが,視線の特徴と視線の物理との関係についてはほとんど分かっていない。 本稿では,視線特徴多様体の分析により,この疑問に答える。 分析の結果,視線特徴間の測地距離は試料間の視線差と一致していることがわかった。 この結果から, 視線の特徴と視線の物理的定義を結びつける解析的手法として, 物理一貫性機能 (pcf) を構築した。 さらに,PCF の誘導により視線特徴空間を直接最適化する PCFGaze フレームワークを提案する。 実験により,提案手法はオーバーフィッティング問題を緩和し,余分なトレーニングデータなしで領域間視線推定精度を大幅に向上することを示した。 視線の特徴の洞察は、他の回帰タスクに物理的な意味を持つ可能性がある。

Although recent deep learning based gaze estimation approaches have achieved much improvement, we still know little about how gaze features are connected to the physics of gaze. In this paper, we try to answer this question by analyzing the gaze feature manifold. Our analysis revealed the insight that the geodesic distance between gaze features is consistent with the gaze differences between samples. According to this finding, we construct the Physics- Consistent Feature (PCF) in an analytical way, which connects gaze feature to the physical definition of gaze. We further propose the PCFGaze framework that directly optimizes gaze feature space by the guidance of PCF. Experimental results demonstrate that the proposed framework alleviates the overfitting problem and significantly improves cross-domain gaze estimation accuracy without extra training data. The insight of gaze feature has the potential to benefit other regression tasks with physical meanings.
翻訳日:2023-09-06 14:53:20 公開日:2023-09-05
# 新しいハイパーパラメータ最適化手法を用いたテキスト-GLOSSニューラル翻訳の高速化

Advancing Text-to-GLOSS Neural Translation Using a Novel Hyper-parameter Optimization Technique ( http://arxiv.org/abs/2309.02162v1 )

ライセンス: Link先を確認
Younes Ouargani, Noussaima El Khattabi(参考訳) 本稿では,難聴・難聴通信におけるテキスト-GLOSSのニューラルマシン翻訳におけるトランスフォーマの利用について検討する。 利用可能なデータの不足と、テキスト間翻訳のリソースが限られているため、この問題を低リソース言語タスクとして扱う。 我々は,新しいハイパーパラメータ探索手法を用いて様々なアーキテクチャパラメータを探索し,テキストから言語への翻訳に特化して最適なトランスフォーマーアーキテクチャを構築する。 この研究は、ニューラルネットワーク翻訳生成GLOSSの精度と頻度を改善することを目的としている。 これは、層数、注意ヘッド、埋め込み次元、ドロップアウト、ラベル平滑化を含む様々なアーキテクチャパラメータを調べ、テキストから言語への翻訳性能を改善するための最適なアーキテクチャを特定することによって達成される。 PHOENIX14Tデータセットで実施された実験では、最適なトランスフォーマーアーキテクチャが、同じデータセットでの以前の作業より優れていることが明らかになった。 最高のモデルでは、ROUGE (Recall-Oriented Understudy for Gisting Evaluation)スコア55.18%、BLEU-1 (BiLingual Evaluation Understudy 1)スコア63.6%に達する。

In this paper, we investigate the use of transformers for Neural Machine Translation of text-to-GLOSS for Deaf and Hard-of-Hearing communication. Due to the scarcity of available data and limited resources for text-to-GLOSS translation, we treat the problem as a low-resource language task. We use our novel hyper-parameter exploration technique to explore a variety of architectural parameters and build an optimal transformer-based architecture specifically tailored for text-to-GLOSS translation. The study aims to improve the accuracy and fluency of Neural Machine Translation generated GLOSS. This is achieved by examining various architectural parameters including layer count, attention heads, embedding dimension, dropout, and label smoothing to identify the optimal architecture for improving text-to-GLOSS translation performance. The experiments conducted on the PHOENIX14T dataset reveal that the optimal transformer architecture outperforms previous work on the same dataset. The best model reaches a ROUGE (Recall-Oriented Understudy for Gisting Evaluation) score of 55.18% and a BLEU-1 (BiLingual Evaluation Understudy 1) score of 63.6%, outperforming state-of-the-art results on the BLEU1 and ROUGE score by 8.42 and 0.63 respectively.
翻訳日:2023-09-06 14:52:46 公開日:2023-09-05
# フェデレーション学習におけるバイアス伝播

Bias Propagation in Federated Learning ( http://arxiv.org/abs/2309.02160v1 )

ライセンス: Link先を確認
Hongyan Chang, Reza Shokri(参考訳) 連合学習に参加することは,集団公平を損なう可能性がある。 実際に、少数派(性別や人種などのセンシティブな属性で識別される)に対する一部の政党の偏見は、ネットワーク内のすべての政党にネットワークを通して伝播する。 自然に分割された実世界のデータセット上でのフェデレーション学習におけるバイアス伝搬の分析と説明を行う。 分析の結果、偏りのある当事者は意図せず、少数のモデルパラメータに偏りをひそかにエンコードしていることがわかり、トレーニングを通じて、グローバルモデルの感度の高い属性への依存度を着実に高めています。 注目すべきなのは、フェデレートされた学習における経験的バイアスが、すべてのデータの統一に基づいてトレーニングされたモデルによる集中的なトレーニングにおいて、従来よりも高いことだ。 これは偏見がアルゴリズムによるものであることを示している。 私たちの研究は、連合学習におけるグループフェアネスの監査と、バイアス伝播にロバストな学習アルゴリズムの設計を求めています。

We show that participating in federated learning can be detrimental to group fairness. In fact, the bias of a few parties against under-represented groups (identified by sensitive attributes such as gender or race) can propagate through the network to all the parties in the network. We analyze and explain bias propagation in federated learning on naturally partitioned real-world datasets. Our analysis reveals that biased parties unintentionally yet stealthily encode their bias in a small number of model parameters, and throughout the training, they steadily increase the dependence of the global model on sensitive attributes. What is important to highlight is that the experienced bias in federated learning is higher than what parties would otherwise encounter in centralized training with a model trained on the union of all their data. This indicates that the bias is due to the algorithm. Our work calls for auditing group fairness in federated learning and designing learning algorithms that are robust to bias propagation.
翻訳日:2023-09-06 14:52:22 公開日:2023-09-05
# マルチソースデータを用いた分散ロバスト機械学習

Distributionally Robust Machine Learning with Multi-source Data ( http://arxiv.org/abs/2309.02211v1 )

ライセンス: Link先を確認
Zhenyu Wang, Peter B\"uhlmann, Zijian Guo(参考訳) 古典的な機械学習手法は、ターゲット分布がソース集団と異なる場合、予測性能が低下する可能性がある。 本稿では,複数のソースから得られるデータを活用し,対象分布のクラスに対する説明分散に関する対角的報酬を最適化するために定義された群分布的堅牢な予測モデルを提案する。 従来の経験的リスク最小化と比較して,提案手法は分布シフトを伴うターゲット集団の予測精度を向上させる。 集団分布にロバストな予測モデルは,資源集団の条件付き結果モデルの重み付け平均であることを示す。 この重要な識別結果を利用して、ランダムな森林やニューラルネットワークなど、任意の機械学習アルゴリズムを堅牢化します。 汎用機械学習アルゴリズムの最適凝集重みを推定するために,新しいバイアス補正推定器を考案し,収束率の向上を示す。 提案手法は,任意の機械学習ベースアルゴリズムを用いて計算効率が高く実装が容易であり,プライバシの制約を満たし,対象とする共変量分布の予測において異なる情報源の重要性をうまく解釈できる。 ランダムな森林とニューラルネットワークをベースラーニングアルゴリズムとして用いたシミュレーションおよび実データに対して,提案手法の有効性を示す。

Classical machine learning methods may lead to poor prediction performance when the target distribution differs from the source populations. This paper utilizes data from multiple sources and introduces a group distributionally robust prediction model defined to optimize an adversarial reward about explained variance with respect to a class of target distributions. Compared to classical empirical risk minimization, the proposed robust prediction model improves the prediction accuracy for target populations with distribution shifts. We show that our group distributionally robust prediction model is a weighted average of the source populations' conditional outcome models. We leverage this key identification result to robustify arbitrary machine learning algorithms, including, for example, random forests and neural networks. We devise a novel bias-corrected estimator to estimate the optimal aggregation weight for general machine-learning algorithms and demonstrate its improvement in the convergence rate. Our proposal can be seen as a distributionally robust federated learning approach that is computationally efficient and easy to implement using arbitrary machine learning base algorithms, satisfies some privacy constraints, and has a nice interpretation of different sources' importance for predicting a given target covariate distribution. We demonstrate the performance of our proposed group distributionally robust method on simulated and real data with random forests and neural networks as base-learning algorithms.
翻訳日:2023-09-06 14:44:19 公開日:2023-09-05
# 路面分類における連続的クロスデータセット適応

Continual Cross-Dataset Adaptation in Road Surface Classification ( http://arxiv.org/abs/2309.02210v1 )

ライセンス: Link先を確認
Paolo Cudrano, Matteo Bellusci, Giuseppe Macino, Matteo Matteucci(参考訳) 正確な道路表面分類は、運転条件を最適化し、安全性を高め、高度な道路マッピングを可能にするために、自動運転車(AV)にとって不可欠である。 しかし、路面分類のためのディープラーニングモデルは、目に見えないデータセットでのテストでは一般化が不十分である。 これらのモデルを新しい情報で更新するには、破滅的な忘れ物を避けるために、元のトレーニングデータセットも考慮する必要がある。 しかし、これは不可能でなくても非効率である。例えば、データがストリームや大量のデータに収集される場合である。 この制限を克服し、高速かつ効率的なクロスデータセット適応を実現するために、新しいデータに適応しながら過去の知識を保持するためにデザインされた連続的な学習微調整手法を提案する。 実験により, 新鮮リトレーニングに近い性能を達成し, ナイーブ微調整よりもこのアプローチが優れていることが示された。 この既知の問題を解決する一方で、同手法が他のAVシナリオにどのように適用できるかを概説する。 我々は,av産業に継続的な適応がもたらしうる計算と経済の利益を浮き彫りにすると同時に,不要な共同再訓練による温室効果ガス排出量を削減する。

Accurate road surface classification is crucial for autonomous vehicles (AVs) to optimize driving conditions, enhance safety, and enable advanced road mapping. However, deep learning models for road surface classification suffer from poor generalization when tested on unseen datasets. To update these models with new information, also the original training dataset must be taken into account, in order to avoid catastrophic forgetting. This is, however, inefficient if not impossible, e.g., when the data is collected in streams or large amounts. To overcome this limitation and enable fast and efficient cross-dataset adaptation, we propose to employ continual learning finetuning methods designed to retain past knowledge while adapting to new data, thus effectively avoiding forgetting. Experimental results demonstrate the superiority of this approach over naive finetuning, achieving performance close to fresh retraining. While solving this known problem, we also provide a general description of how the same technique can be adopted in other AV scenarios. We highlight the potential computational and economic benefits that a continual-based adaptation can bring to the AV industry, while also reducing greenhouse emissions due to unnecessary joint retraining.
翻訳日:2023-09-06 14:44:00 公開日:2023-09-05
# かなり良い伝達を示すスピン系の到着時間のスケーリング則

The scaling law of the arrival time of spin systems that present pretty good transmission ( http://arxiv.org/abs/2309.02207v1 )

ライセンス: Link先を確認
Pablo Serra, Alejandro Ferr\'on and Omar Osenda(参考訳) かなり良好な伝送シナリオは、スピン鎖の1つの極端からもう1つの極端へ1つの励起を送信する確率が、十分な時間を待つだけで、任意の値がユニティに近づくことを示唆している。 このシナリオの出現を保証する条件は、相互作用と長さの異なる連鎖で知られている。 かなり良好な伝達が存在するための十分な条件は、スピン鎖のハミルトニアンのスペクトルに依存する。 非常に良い伝達が起こる時間 $t_{\varepsilon}$ は 1/(|\varepsilon|)^{f(N)}$ であり、$\varepsilon$ は1つの励起が鎖の1つの極端からもう1つの極端まで伝播する確率とユニティの間の差であり、$f(N)$ は鎖長の未知の関数である。 本稿では、指数が鎖長の単純な関数ではなく、ハミルトニアンの1つの励磁ブロックの線形独立な不合理固有値の数が1つの励磁の伝達確率の表現に入る力則であることを示す。 スピン間の結合が変化し、長さが固定されているときに指数が変化することを示す連鎖の例を明示的に提示する。 中心対称スピンチェーンの場合、指数は最大でn/2$である。

The pretty good transmission scenario implies that the probability of sending one excitation from one extreme of a spin chain to the other can reach values arbitrarily close to the unity just by waiting a time long enough. The conditions that ensure the appearance of this scenario are known for chains with different interactions and lengths. Sufficient conditions for the presence of pretty good transmission depend on the spectrum of the Hamiltonian of the spin chain. Some works suggest that the time $t_{\varepsilon}$ at which the pretty good transmission takes place scales as $1/(|\varepsilon|)^{f(N)}$, where $\varepsilon$ is the difference between the probability that a single excitation propagates from one extreme of the chain to the other and the unity, while $f(N)$ is an unknown function of the chain length. In this paper, we show that the exponent is not a simple function of the chain length but a power law of the number of linearly independent irrational eigenvalues of the one-excitation block of the Hamiltonian that enter into the expression of the probability of transmission of one excitation. We explicitly provide examples of a chain showing that the exponent changes when the couplings between the spins change while the length remains fixed. For centrosymmetric spin chains the exponent is at most $N/2$.
翻訳日:2023-09-06 14:43:40 公開日:2023-09-05
# システムコールトレースにおける新規検出のための言語モデル

Language Models for Novelty Detection in System Call Traces ( http://arxiv.org/abs/2309.02206v1 )

ライセンス: Link先を確認
Quentin Fournier, Daniel Aloise, Leandro R. Costa(参考訳) 現代のコンピュータシステムの複雑さのため、新しい行動や予期せぬ行動が頻繁に起こる。 このような逸脱は、ソフトウェア更新や新しいユーザアクティビティ、あるいは設定ミス、レイテンシの問題、侵入、ソフトウェアバグなどの異常などの通常の発生である。 いずれにせよ、新しい振る舞いは開発者にとって非常に興味を持ち、それらを検出するための効率的で効果的な方法の必要性があります。 今日では、研究者はシステムコールがコンピュータシステムの振る舞いを調べるための最もきめ細かい情報源であると考えている。 そこで本稿では,システムコールのシーケンス上の確率分布を言語モデルとしてとらえる手法を提案する。 言語モデルはシーケンスの確率を推定し、新奇性は定義によって以前に観察された行動から逸脱するので、モデルの下では不可能である。 言語モデルのためのニューラルネットワークの成功に続いて、広範にわたるlstm、最先端トランスフォーマ、低複雑さのlongformerという3つのアーキテクチャが評価されている。 しかし、大規模なニューラルネットワークは通常、効果的にトレーニングするために大量のデータを必要とし、私たちの知る限り、カーネルトレースの大規模な現代的なデータセットは公開されていない。 本稿では,7つの異なる動作を持つ200万以上のWebリクエストからなるカーネルトレースのオープンソースデータセットを導入することで,この制限に対処する。 提案手法では,データやタスクに依存しないf-scoreとaurocを95%以上の新規性で達成する。 ソースコードとトレーニングされたモデルはGitHubで公開されており、データセットはZenodoで公開されている。

Due to the complexity of modern computer systems, novel and unexpected behaviors frequently occur. Such deviations are either normal occurrences, such as software updates and new user activities, or abnormalities, such as misconfigurations, latency issues, intrusions, and software bugs. Regardless, novel behaviors are of great interest to developers, and there is a genuine need for efficient and effective methods to detect them. Nowadays, researchers consider system calls to be the most fine-grained and accurate source of information to investigate the behavior of computer systems. Accordingly, this paper introduces a novelty detection methodology that relies on a probability distribution over sequences of system calls, which can be seen as a language model. Language models estimate the likelihood of sequences, and since novelties deviate from previously observed behaviors by definition, they would be unlikely under the model. Following the success of neural networks for language models, three architectures are evaluated in this work: the widespread LSTM, the state-of-the-art Transformer, and the lower-complexity Longformer. However, large neural networks typically require an enormous amount of data to be trained effectively, and to the best of our knowledge, no massive modern datasets of kernel traces are publicly available. This paper addresses this limitation by introducing a new open-source dataset of kernel traces comprising over 2 million web requests with seven distinct behaviors. The proposed methodology requires minimal expert hand-crafting and achieves an F-score and AuROC greater than 95% on most novelties while being data- and task-agnostic. The source code and trained models are publicly available on GitHub while the datasets are available on Zenodo.
翻訳日:2023-09-06 14:43:13 公開日:2023-09-05
# 固定信頼度を持つ微分プライベートベストアーム識別の複雑さについて

On the Complexity of Differentially Private Best-Arm Identification with Fixed Confidence ( http://arxiv.org/abs/2309.02202v1 )

ライセンス: Link先を確認
Achraf Azize, Marc Jourdan, Aymen Al Marjani, Debabrota Basu(参考訳) BAI問題(Best Arm Identification)は、適応型臨床試験の設計、ハイパーパラメータのチューニング、ユーザスタディの実施など、データセンシティブなアプリケーションに徐々に使用されている。 これらのアプリケーションによって引き起こされるデータプライバシの懸念に動機づけられて, bai の問題を $\epsilon$-global differential privacy (dp) の下で固定信頼で検討した。 まず、プライバシのコストを定量化するために、$\epsilon$-global DPを満たす任意の$\delta$-correct BAIアルゴリズムのサンプル複雑性を低くする。 われわれの限界は、プライバシー予算$\epsilon$に依存する2つのプライバシー体制の存在を示唆している。 高プライバシー体制(小さな$\epsilon$)では、ハードネスはプライバシーの結合効果と、総変動特性時間と呼ばれる新しい情報理論量に依存する。 低プライバシーのレジーム(大きな$\epsilon$)では、サンプル複雑性の下限は古典的な非プライベートな下限に還元される。 第2に、トップ2アルゴリズムの$\epsilon$-global DP変種であるAdaP-TTを提案する。 AdaP-TTはアーム依存の適応エピソードで動作し、優れたプライバシーユーティリティトレードオフを保証するためにLaplaceノイズを追加する。 我々は,AdaP-TTのサンプル複雑性に基づく漸近上界の導出を行う。 最後に,adap-ttの実験的解析を行い,理論結果の検証を行った。

Best Arm Identification (BAI) problems are progressively used for data-sensitive applications, such as designing adaptive clinical trials, tuning hyper-parameters, and conducting user studies to name a few. Motivated by the data privacy concerns invoked by these applications, we study the problem of BAI with fixed confidence under $\epsilon$-global Differential Privacy (DP). First, to quantify the cost of privacy, we derive a lower bound on the sample complexity of any $\delta$-correct BAI algorithm satisfying $\epsilon$-global DP. Our lower bound suggests the existence of two privacy regimes depending on the privacy budget $\epsilon$. In the high-privacy regime (small $\epsilon$), the hardness depends on a coupled effect of privacy and a novel information-theoretic quantity, called the Total Variation Characteristic Time. In the low-privacy regime (large $\epsilon$), the sample complexity lower bound reduces to the classical non-private lower bound. Second, we propose AdaP-TT, an $\epsilon$-global DP variant of the Top Two algorithm. AdaP-TT runs in arm-dependent adaptive episodes and adds Laplace noise to ensure a good privacy-utility trade-off. We derive an asymptotic upper bound on the sample complexity of AdaP-TT that matches with the lower bound up to multiplicative constants in the high-privacy regime. Finally, we provide an experimental analysis of AdaP-TT that validates our theoretical results.
翻訳日:2023-09-06 14:42:48 公開日:2023-09-05
# グリーン関数に対する極小特異性の原理

Principle of minimal singularity for Green's functions ( http://arxiv.org/abs/2309.02201v1 )

ライセンス: Link先を確認
Wenliang Li(参考訳) 近年,d$次元時空における非摂動型ダイソン・シュウィンガー方程式の不確定性を解くための2つのアプローチが提案されている。 あるアプローチでは、グリーンの関数 $g_n=\langle\phi^n\rangle$ の漸近的挙動を利用しており、もう一方は null の状態条件を使っている。 この研究において、この二つの一見異なるアプローチは、新しい原理によって統一することができることを指摘した:複素平面の特異点は極小であるべきである。 d=0$ に対して、一般の $g\phi^m$ 理論の厳密なグリーン函数は、本質特異点の複雑性を $n=\infty$ で最小化することによって決定できる。 D=1$ の場合、クォート理論を再検討し、グリーン関数の異なる枝が正確な解で融合することを発見する。

Recently, two approaches were proposed to resolve the indeterminacy of the nonperturbative Dyson-Schwinger equations in $D$-dimensional spacetime. One approach utilizes the asymptotic behavior of the Green's functions $G_n=\langle\phi^n\rangle$ at large $n$, while the other one makes use of the null state condition. In this work, we point out that these two seemingly different approaches can be unified by a novel principle: Singularities in the complex plane should be minimal. For $D=0$, the exact Green's functions of the general $g\phi^m$ theory can be determined by minimizing the complexity of the essential singularities at $n=\infty$. For $D=1$, we revisit the quartic theory and discover the merging of different branches of Green's functions at exact solutions.
翻訳日:2023-09-06 14:42:22 公開日:2023-09-05
# 単層グラフェン中の超臨界不純物クラスターの空間電荷とスクリーニング

Space charge and screening of a supercritical impurity cluster in monolayer graphene ( http://arxiv.org/abs/2309.02199v1 )

ライセンス: Link先を確認
Eugene B. Kolomeisky and Joseph P. Straley(参考訳) coulomb impurity of charge $ze$ は、z$ が物質の微細構造定数 $\alpha$ で設定された1/2\alpha$ の臨界値を超える場合、スクリーニング空間電荷の生成に関して未ドープグラフェンの基底状態を不安定にすることが知られている。 最近の実験的進歩により、臨界点を越えて$z$をチューニングすることで、この遷移を制御できるようになりました。 これは比較的大きな値である$\alpha$と組み合わせることで、スクリーニング電荷が大きい場合の超臨界不純物$z\alpha\gg1$に対するグラフェンのスクリーニング反応を研究できる可能性を開く。 この方法でのスクリーニングの性格は、無次元スクリーニングパラメータ$z\alpha^{2}$によって制御される。 具体的には、円不純物クラスターの場合、弱いスクリーニング体制である$Z\alpha^{2}\ll1$のスクリーニング電荷のほとんどは、クラスタの外側に存在する。 強い遮蔽状態である$z\alpha^{2}\gg1$ はトムソン原子の実現をもたらす: 遮蔽電荷の大部分は、空間電荷の残りの電荷が局所化されているクラスタのエッジ付近の遷移層を除いて、ほぼ完全に源電荷を中和する。

Coulomb impurity of charge $Ze$ is known to destabilize the ground state of undoped graphene with respect to creation of screening space charge if $Z$ exceeds a critical value of $1/2\alpha$ set by material's fine structure constant $\alpha$. Recent experimental advances made it possible to explore this transition in a controlled manner by tuning $Z$ across the critical point. Combined with relatively large value of $\alpha$ this opens a possibility to study graphene's screening response to a supercritical impurity $Z\alpha\gg1$ when the screening charge is large, and the Thomas-Fermi analysis, that we revisit, is adequate. The character of screening in this regime is controlled by the dimensionless screening parameter $Z\alpha^{2}$. Specifically, for circular impurity cluster most of the screening charge in the weak-screening regime $Z\alpha^{2}\ll1$ is found to reside outside the cluster. The strong-screening regime $Z\alpha^{2}\gg1$ provides a realization of the Thomson atom: most of the screening charge is inside the cluster nearly perfectly neutralizing the source charge with the exception of a transition layer near cluster's edge where the rest of the space charge is localized.
翻訳日:2023-09-06 14:42:05 公開日:2023-09-05
# マルチビューネットワークによる側方マンモグラフィーの評価

Delving into Ipsilateral Mammogram Assessment under Multi-View Network ( http://arxiv.org/abs/2309.02197v1 )

ライセンス: Link先を確認
Thai Ngoc Toan Truong, Thanh-Huy Nguyen, Ba Thinh Lam, Vu Minh Duy Nguyen, Hong Phuc Nguyen(参考訳) 近年、マルチビューマンモグラフィー分析はAIに基づくがん評価に広く焦点が当てられている。 本研究では,多種多様な融合戦略(平均的および連結的)を探求し,粗層と微細層を含む様々な個人と融合経路を用いてモデルの学習行動を検討することを目的とする。 ResNet-18の5つの融合タイプ(Pre, Early, Middle, Last, Post Fusion)からなるIpsilateral Multi-View Networkが採用されている。 特に、ミドルフュージョンは最もバランスよく効果的なアプローチとして現れ、VinDr-Mammoデータセットでは+5.29\%(連結)と+5.9\%(平均)、マクロF1-Score上のCMMDデータセットでは+2.03\%(連結)と+3\%(平均)のディープラーニングモデルの一般化性能を高める。 本稿では,多視点ネットワーク抽出におけるレイヤ割り当ての重要性を強調する。

In many recent years, multi-view mammogram analysis has been focused widely on AI-based cancer assessment. In this work, we aim to explore diverse fusion strategies (average and concatenate) and examine the model's learning behavior with varying individuals and fusion pathways, involving Coarse Layer and Fine Layer. The Ipsilateral Multi-View Network, comprising five fusion types (Pre, Early, Middle, Last, and Post Fusion) in ResNet-18, is employed. Notably, the Middle Fusion emerges as the most balanced and effective approach, enhancing deep-learning models' generalization performance by +5.29\% (concatenate) and +5.9\% (average) in VinDr-Mammo dataset and +2.03\% (concatenate) and +3\% (average) in CMMD dataset on macro F1-Score. The paper emphasizes the crucial role of layer assignment in multi-view network extraction with various strategies.
翻訳日:2023-09-06 14:41:44 公開日:2023-09-05
# ニューラルネットワークのスパース関数空間表現

Sparse Function-space Representation of Neural Networks ( http://arxiv.org/abs/2309.02195v1 )

ライセンス: Link先を確認
Aidan Scannell and Riccardo Mereu and Paul Chang and Ella Tamir and Joni Pajarinen and Arno Solin(参考訳) ディープニューラルネットワーク(nns)は、不確実性の推定を欠き、新しいデータを取り込むのに苦労していることが知られている。 本稿では,NNを重み空間から関数空間に変換することにより,これらの問題を緩和する手法を提案する。 重要なのは、デュアルパラメータ化により、データセット全体から情報をキャプチャするスパース表現を定式化できます。 これにより、不確実性を捕捉するコンパクトで原則化された方法が提供され、予測性能を維持しながら再トレーニングすることなく、新しいデータを組み込むことができます。 UCIベンチマークタスクにおける教師あり学習の不確かさを定量化する手法を提案する。

Deep neural networks (NNs) are known to lack uncertainty estimates and struggle to incorporate new data. We present a method that mitigates these issues by converting NNs from weight space to function space, via a dual parameterization. Importantly, the dual parameterization enables us to formulate a sparse representation that captures information from the entire data set. This offers a compact and principled way of capturing uncertainty and enables us to incorporate new data without retraining whilst retaining predictive performance. We provide proof-of-concept demonstrations with the proposed approach for quantifying uncertainty in supervised learning on UCI benchmark tasks.
翻訳日:2023-09-06 14:41:23 公開日:2023-09-05
# 多UAV支援エッジコンピューティングのための個人化深層強化学習に基づく軌道最適化

Personalized Federated Deep Reinforcement Learning-based Trajectory Optimization for Multi-UAV Assisted Edge Computing ( http://arxiv.org/abs/2309.02193v1 )

ライセンス: Link先を確認
Zhengrong Song, Chuan Ma, Ming Ding, Howard H. Yang, Yuwen Qian, Xiangwei Zhou(参考訳) 5g移動通信の時代には、無人航空機(uavs)とモバイルエッジコンピューティング技術に焦点を当てた研究が大幅に急増している。 UAVはエッジコンピューティング環境でインテリジェントなサーバとして機能し、通信システムのスループットを最大化するために飛行軌道を最適化する。 深層強化学習(drl)に基づく軌道最適化アルゴリズムは、複雑な地形特徴と不適切な訓練データのために訓練性能が低下する可能性がある。 この制限を克服するために、データ分離問題を緩和し、収束を早めるために連邦学習(FL)を活用することを提案する研究もある。 それにもかかわらず、グローバルflモデルの有効性は、ローカルデータの高い不均一性によって否定的に影響され、これは訓練過程を阻害し、ローカルエージェントのパフォーマンスを損なう可能性がある。 本研究は,多UAV軌道最適化のためのPF-DRLという,これらの課題に対処する新しい手法を提案する。 PF-DRLは、データ不足問題に対処し、データ不均一性の負の影響を軽減するために、各エージェントの個別化モデルを開発することを目的としている。 シミュレーションの結果,提案アルゴリズムはより高速な収束率で優れた訓練性能を達成し,他のDRLベース手法と比較してサービス品質の向上を図っている。

In the era of 5G mobile communication, there has been a significant surge in research focused on unmanned aerial vehicles (UAVs) and mobile edge computing technology. UAVs can serve as intelligent servers in edge computing environments, optimizing their flight trajectories to maximize communication system throughput. Deep reinforcement learning (DRL)-based trajectory optimization algorithms may suffer from poor training performance due to intricate terrain features and inadequate training data. To overcome this limitation, some studies have proposed leveraging federated learning (FL) to mitigate the data isolation problem and expedite convergence. Nevertheless, the efficacy of global FL models can be negatively impacted by the high heterogeneity of local data, which could potentially impede the training process and even compromise the performance of local agents. This work proposes a novel solution to address these challenges, namely personalized federated deep reinforcement learning (PF-DRL), for multi-UAV trajectory optimization. PF-DRL aims to develop individualized models for each agent to address the data scarcity issue and mitigate the negative impact of data heterogeneity. Simulation results demonstrate that the proposed algorithm achieves superior training performance with faster convergence rates, and improves service quality compared to other DRL-based approaches.
翻訳日:2023-09-06 14:41:11 公開日:2023-09-05
# 医療研究における自然言語処理のサンプルサイズ

Sample Size in Natural Language Processing within Healthcare Research ( http://arxiv.org/abs/2309.02237v1 )

ライセンス: Link先を確認
Jaya Chaturvedi, Diana Shamsutdinova, Felix Zimmer, Sumithra Velupillai, Daniel Stahl, Robert Stewart, Angus Roberts(参考訳) サンプルサイズ計算は、ほとんどのデータベースの分野において重要なステップである。 十分なサンプルは、人口の代表性を確保し、見積もりの精度を決定する。 これは、自然言語処理などの機械学習手法を用いたものを含む、ほとんどの定量的研究において当てはまる。 医療領域内では、事前に収集されたデータの十分なコーパスの欠如が、新しい研究のためにサンプルサイズを決定する際の制限要因となり得る。 本稿では,医療領域におけるテキスト分類タスクのサンプルサイズを推奨することでこの問題に対処しようとする。 MIMIC-IIIデータベースでトレーニングされたBeth Israel Deaconess Medical Centerからの重要なケア記録のモデルは、データベース内で最も一般的な診断コードである未特定本態性高血圧を有するか否かを文書に分類するために使用された。 サンプルサイズとクラス比率の異なる様々な分類器を用いてシミュレーションを行った。 合併症に言及せず,糖尿病データベース内の診断基準が比較的少ないため,本症例は繰り返す。 より小さいサンプルサイズはK-アネレス近傍の分類器を使用する場合よりもよい結果を得たが、大きいサンプルサイズはサポートベクターマシンとBERTモデルでより良い結果を得た。 全体としては、1000以上のサンプルサイズで十分なパフォーマンス指標を提供できた。 本研究で実施したシミュレーションは、適切なサンプルサイズとクラス比率を選択し、テキスト医療データの分類器を構築する際に期待される性能を予測するためのガイドラインを提供する。 ここで用いられる方法論は、サンプルサイズ推定計算のために他のデータセットで修正することができる。

Sample size calculation is an essential step in most data-based disciplines. Large enough samples ensure representativeness of the population and determine the precision of estimates. This is true for most quantitative studies, including those that employ machine learning methods, such as natural language processing, where free-text is used to generate predictions and classify instances of text. Within the healthcare domain, the lack of sufficient corpora of previously collected data can be a limiting factor when determining sample sizes for new studies. This paper tries to address the issue by making recommendations on sample sizes for text classification tasks in the healthcare domain. Models trained on the MIMIC-III database of critical care records from Beth Israel Deaconess Medical Center were used to classify documents as having or not having Unspecified Essential Hypertension, the most common diagnosis code in the database. Simulations were performed using various classifiers on different sample sizes and class proportions. This was repeated for a comparatively less common diagnosis code within the database of diabetes mellitus without mention of complication. Smaller sample sizes resulted in better results when using a K-nearest neighbours classifier, whereas larger sample sizes provided better results with support vector machines and BERT models. Overall, a sample size larger than 1000 was sufficient to provide decent performance metrics. The simulations conducted within this study provide guidelines that can be used as recommendations for selecting appropriate sample sizes and class proportions, and for predicting expected performance, when building classifiers for textual healthcare data. The methodology used here can be modified for sample size estimates calculations with other datasets.
翻訳日:2023-09-06 14:35:45 公開日:2023-09-05
# 大規模状態空間を用いた分布ロバストモデルに基づく強化学習

Distributionally Robust Model-based Reinforcement Learning with Large State Spaces ( http://arxiv.org/abs/2309.02236v1 )

ライセンス: Link先を確認
Shyam Sundhar Ramesh, Pier Giuseppe Sessa, Yifan Hu, Andreas Krause, Ilija Bogunovic(参考訳) 強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境からの現実世界のダイナミクスの逸脱である。 これらの問題を克服するために,kullback-leibler,chi-square,total variation uncertainty setにおいて,連続状態空間を持つ分布的ロバストなマルコフ決定過程について検討した。 本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,生成モデル(シミュレータ)へのアクセスを利用して,多出力名目遷移ダイナミクスを効率的に学習するモデルベースアプローチを提案する。 さらに、異なる不確実性集合に対する提案手法の統計的サンプル複雑性を実証する。 これらの複雑性境界は状態の数とは独立であり、線形ダイナミクスを超えて拡張され、最適に近い分布ロバストポリシーを特定するためのアプローチの有効性を保証する。 提案手法は,他のモデルのない分布型頑健な強化学習手法と組み合わせて,最適に近いロバストポリシを得ることができる。 実験により,本アルゴリズムの分散シフトに対する堅牢性と,必要なサンプル数の点で優れた性能を示す。

Three major challenges in reinforcement learning are the complex dynamical systems with large state spaces, the costly data acquisition processes, and the deviation of real-world dynamics from the training environment deployment. To overcome these issues, we study distributionally robust Markov decision processes with continuous state spaces under the widely used Kullback-Leibler, chi-square, and total variation uncertainty sets. We propose a model-based approach that utilizes Gaussian Processes and the maximum variance reduction algorithm to efficiently learn multi-output nominal transition dynamics, leveraging access to a generative model (i.e., simulator). We further demonstrate the statistical sample complexity of the proposed method for different uncertainty sets. These complexity bounds are independent of the number of states and extend beyond linear dynamics, ensuring the effectiveness of our approach in identifying near-optimal distributionally-robust policies. The proposed method can be further combined with other model-free distributionally robust reinforcement learning methods to obtain a near-optimal robust policy. Experimental results demonstrate the robustness of our algorithm to distributional shifts and its superior performance in terms of the number of samples needed.
翻訳日:2023-09-06 14:35:22 公開日:2023-09-05
# 医療用教科書を用いたブラックボックス式LCMの臨床質問応答

Augmenting Black-box LLMs with Medical Textbooks for Clinical Question Answering ( http://arxiv.org/abs/2309.02233v1 )

ライセンス: Link先を確認
Yubo Wang, Xueguang Ma, Wenhu Chen(参考訳) ChatGPTのような大規模言語モデル(LLM)は、タスク指向の対話や質問応答など、さまざまな下流タスクに対してヒューマンライクな応答を生成することができる。 しかし、LLMを医学領域に適用することは、ドメイン固有の知識を活用できないため、依然として困難である。 本研究では,医療用テキストを付加した大規模言語モデル (LLM-AMT) を提案し,その設計の基盤として権威ある医療用教科書を統合し,クエリ・オーグメンタとLCMリーダによって補完されたハイブリッドテキストブック・レトリバーからなるプラグイン・アンド・プレイ・モジュールを通じて,特定のドメインにおける習熟度を高めた。 3つのオープンドメイン医療質問応答タスクに対する実験的評価は、LSM-AMTを利用する場合のプロ主義とLSM応答の精度の両方が大幅に向上し、11.4%から13.2%の改善が見られた。 検索コーパスとしての医学教科書は,100倍小さいにもかかわらず,医学領域におけるウィキペディアよりも貴重な外部知識源であることがわかった。 実験の結果,教科書の増補はウィキペディアの増補よりも9.7%から12.2%に向上した。

Large-scale language models (LLMs), such as ChatGPT, are capable of generating human-like responses for various downstream tasks, such as task-oriented dialogues and question answering. However, applying LLMs to medical domains remains challenging due to their inability to leverage domain-specific knowledge. In this study, we present the Large-scale Language Models Augmented with Medical Textbooks (LLM-AMT), which integrates authoritative medical textbooks as the cornerstone of its design, enhancing its proficiency in the specialized domain through plug-and-play modules, comprised of a Hybrid Textbook Retriever, supplemented by the Query Augmenter and the LLM Reader. Experimental evaluation on three open-domain medical question-answering tasks reveals a substantial enhancement in both the professionalism and accuracy of the LLM responses when utilizing LLM-AMT, exhibiting an improvement ranging from 11.4% to 13.2%. Despite being 100 times smaller, we found that medical textbooks as the retrieval corpus serves as a more valuable external knowledge source than Wikipedia in the medical domain. Our experiments show that textbook augmentation results in a performance improvement ranging from 9.7% to 12.2% over Wikipedia augmentation.
翻訳日:2023-09-06 14:35:03 公開日:2023-09-05
# FSD:中国初のフェイクソング検出用データセット

FSD: An Initial Chinese Dataset for Fake Song Detection ( http://arxiv.org/abs/2309.02232v1 )

ライセンス: Link先を確認
Yuankun Xie, Jingjing Zhou, Xiaolin Lu, Zhenghao Jiang, Yuxin Yang, Haonan Cheng, Long Ye(参考訳) 歌声合成と歌声変換は著しく進歩し、音楽体験に革命をもたらした。 しかし、これらの技術が生み出した「ディープフェイクソング」の台頭は、真偽を懸念させる。 Audio DeepFake Detection (ADD)とは異なり、歌のディープフェイク検出の分野には、歌の認証のための特別なデータセットや方法がない。 本稿ではまず,中国語のFake Song Detection(FSD)データセットを構築し,曲のディープフェイク検出の分野について検討する。 FSDデータセットの偽曲は、5つの最先端の歌声合成と歌声変換方法によって生成される。 FSDの初期実験では,既存の音声学習型ADDモデルのSong DeepFake検出に対する効果が示された。 そこで本研究では,ADDモデルのトレーニングにFSDデータセットを用いる。 その後、オリジナル曲と別曲の2つのシナリオでこれらのモデルを評価した。 実験結果から,歌唱型ADDモデルはFSDテストセットの音声学習型ADDモデルと比較して,平均等速の38.58%の削減率を示した。

Singing voice synthesis and singing voice conversion have significantly advanced, revolutionizing musical experiences. However, the rise of "Deepfake Songs" generated by these technologies raises concerns about authenticity. Unlike Audio DeepFake Detection (ADD), the field of song deepfake detection lacks specialized datasets or methods for song authenticity verification. In this paper, we initially construct a Chinese Fake Song Detection (FSD) dataset to investigate the field of song deepfake detection. The fake songs in the FSD dataset are generated by five state-of-the-art singing voice synthesis and singing voice conversion methods. Our initial experiments on FSD revealed the ineffectiveness of existing speech-trained ADD models for the task of Song DeepFake Detection. Thus, we employ the FSD dataset for the training of ADD models. We subsequently evaluate these models under two scenarios: one with the original songs and another with separated vocal tracks. Experiment results show that song-trained ADD models exhibit an approximate 38.58% reduction in average equal error rate compared to speech-trained ADD models on the FSD test set.
翻訳日:2023-09-06 14:34:38 公開日:2023-09-05
# dcp-net:リモートセンシング意味セグメンテーションのための分散協調知覚ネットワーク

DCP-Net: A Distributed Collaborative Perception Network for Remote Sensing Semantic Segmentation ( http://arxiv.org/abs/2309.02230v1 )

ライセンス: Link先を確認
Zhechao Wang and Peirui Cheng and Shujing Duan and Kaiqiang Chen and Zhirui Wang and Xinming Li and Xian Sun(参考訳) 遠隔センシングの分野では,インテリジェント処理が緊急タスクに広く適用されている。 しかし、主に観測範囲が限られ、干渉の影響を受けやすい個々のプラットフォームに限定されており、精度は限られている。 本稿では、多プラットフォーム協調観測の現状を踏まえ、分散協調認識ネットワークであるDCP-Netを革新的に提示する。 まず、提案されたDCP-Netは、他のプラットフォームの機能を統合することで、メンバーが知覚性能を向上させるのに役立つ。 次に,協調機会を識別し,適切なパートナーを選定し,重要な協調機能を優先順位付けし,冗長な伝送コストを削減するための自己交換型情報マッチングモジュールを提案する。 第三に、関連する機能融合モジュールは、局所的特徴と協調的特徴の相違に対処し、下流タスクの融合機能の品質を改善するように設計されている。 我々は,Potsdam,iSAID,DFC23を含む3つのセマンティックセグメンテーションデータセットを用いて,広範な実験と可視化分析を行った。 その結果、DCP-Netは既存の手法を総合的に上回り、mIoUを2.61%〜16.89%向上させ、高いコラボレーション効率で性能を向上し、最先端レベルまで向上させることを示した。

Onboard intelligent processing is widely applied in emergency tasks in the field of remote sensing. However, it is predominantly confined to an individual platform with a limited observation range as well as susceptibility to interference, resulting in limited accuracy. Considering the current state of multi-platform collaborative observation, this article innovatively presents a distributed collaborative perception network called DCP-Net. Firstly, the proposed DCP-Net helps members to enhance perception performance by integrating features from other platforms. Secondly, a self-mutual information match module is proposed to identify collaboration opportunities and select suitable partners, prioritizing critical collaborative features and reducing redundant transmission cost. Thirdly, a related feature fusion module is designed to address the misalignment between local and collaborative features, improving the quality of fused features for the downstream task. We conduct extensive experiments and visualization analyses using three semantic segmentation datasets, including Potsdam, iSAID and DFC23. The results demonstrate that DCP-Net outperforms the existing methods comprehensively, improving mIoU by 2.61%~16.89% at the highest collaboration efficiency, which promotes the performance to a state-of-the-art level.
翻訳日:2023-09-06 14:34:23 公開日:2023-09-05
# 3dシーンにおける高密度物体の接地

Dense Object Grounding in 3D Scenes ( http://arxiv.org/abs/2309.02224v1 )

ライセンス: Link先を確認
Wencan Huang, Daizong Liu, Wei Hu(参考訳) 与えられた自然言語のセマンティクスに従って3Dシーンにオブジェクトをローカライズすることは、マルチメディア理解の分野における基本的な重要なタスクであり、ロボット工学や自律運転といった様々な現実世界の応用に恩恵をもたらす。 しかし、既存の3Dオブジェクトグラウンド法の大部分は、個々のオブジェクトを記述する単一文入力に限られており、より実用的な3Dケースでは、複数のオブジェクトのよりコンテキスト化された記述を理解および推論できない。 この目的のために,1文ではなく,より複雑な段落で記述された複数のオブジェクトを共同でローカライズする3D Dense Object Grounding (3D DOG) という課題を導入した。 各文誘導対象を別々に局所化する代わりに、同じ段落に記述された密接な対象はしばしば意味的に関連し、3dシーンの焦点領域に空間的に位置する。 高密度に参照される物体のそのような意味的・空間的関係を探索し,より正確な位置推定を行うため,我々は3d犬用スタック型トランスフォーマフレームワーク,3dogsformerを提案する。 具体的には、まずコンテキスト型クエリ駆動ローカルトランスフォーマーデコーダを考案し、各対象オブジェクトに対する初期基底提案を生成する。 次に,局所オブジェクトの特徴を生かして相関関係を学習し,初期接地提案をさらに洗練するグローバルトランスフォーマーデコーダを提案する。 3つの挑戦的ベンチマーク(Nr3D, Sr3D, ScanRefer)の大規模な実験により、提案した3DOGSFormerは、最先端の3Dシングルオブジェクトグラウンド法とその密度オブジェクトの変種を大きなマージンで上回っていることが示された。

Localizing objects in 3D scenes according to the semantics of a given natural language is a fundamental yet important task in the field of multimedia understanding, which benefits various real-world applications such as robotics and autonomous driving. However, the majority of existing 3D object grounding methods are restricted to a single-sentence input describing an individual object, which cannot comprehend and reason more contextualized descriptions of multiple objects in more practical 3D cases. To this end, we introduce a new challenging task, called 3D Dense Object Grounding (3D DOG), to jointly localize multiple objects described in a more complicated paragraph rather than a single sentence. Instead of naively localizing each sentence-guided object independently, we found that dense objects described in the same paragraph are often semantically related and spatially located in a focused region of the 3D scene. To explore such semantic and spatial relationships of densely referred objects for more accurate localization, we propose a novel Stacked Transformer based framework for 3D DOG, named 3DOGSFormer. Specifically, we first devise a contextual query-driven local transformer decoder to generate initial grounding proposals for each target object. Then, we employ a proposal-guided global transformer decoder that exploits the local object features to learn their correlation for further refining initial grounding proposals. Extensive experiments on three challenging benchmarks (Nr3D, Sr3D, and ScanRefer) show that our proposed 3DOGSFormer outperforms state-of-the-art 3D single-object grounding methods and their dense-object variants by significant margins.
翻訳日:2023-09-06 14:34:02 公開日:2023-09-05
# ディープフェイク検出のロバスト性と一般化性:拡散モデルによる検討

Robustness and Generalizability of Deepfake Detection: A Study with Diffusion Models ( http://arxiv.org/abs/2309.02218v1 )

ライセンス: Link先を確認
Haixu Song, Shiyu Huang, Yinpeng Dong, Wei-Wei Tu(参考訳) 特に有名人のディープフェイク画像の出現は、真偽情報の拡散に深刻な脅威をもたらす。 そこで本研究では,ディープフェイクがどのように生成され,どのように識別されるかに関する徹底的な調査を行う。 私たちの研究の基盤は、DeepFakeFace(DFF)という名の、人工の有名人の豊富なコレクションです。 高度な拡散モデルを用いてDFFデータセットを作成し、オンラインプラットフォームを通じてコミュニティと共有しました。 このデータはディープフェイクを見つけるために設計されたアルゴリズムを訓練し、テストするための堅牢な基盤となる。 dffデータセットの徹底的なレビューを行い,deepfake認識ツールの強度と適応性を評価するための2つの評価手法を提案する。 最初の方法は、ある種類の偽画像で訓練されたアルゴリズムが、他の方法で生成されたものを認識するかどうかをテストする。 後者は、ぼやけた画像、低品質の画像、圧縮画像など、アルゴリズムのパフォーマンスを不完全な画像で評価する。 ディープフェイク法と画像変化の多様な結果から,より優れたディープフェイク検出装置の必要性が強調された。 dffデータセットとテストの目的は、ディープフェイクに対するより効果的なツールの開発を促進することです。

The rise of deepfake images, especially of well-known personalities, poses a serious threat to the dissemination of authentic information. To tackle this, we present a thorough investigation into how deepfakes are produced and how they can be identified. The cornerstone of our research is a rich collection of artificial celebrity faces, titled DeepFakeFace (DFF). We crafted the DFF dataset using advanced diffusion models and have shared it with the community through online platforms. This data serves as a robust foundation to train and test algorithms designed to spot deepfakes. We carried out a thorough review of the DFF dataset and suggest two evaluation methods to gauge the strength and adaptability of deepfake recognition tools. The first method tests whether an algorithm trained on one type of fake images can recognize those produced by other methods. The second evaluates the algorithm's performance with imperfect images, like those that are blurry, of low quality, or compressed. Given varied results across deepfake methods and image changes, our findings stress the need for better deepfake detectors. Our DFF dataset and tests aim to boost the development of more effective tools against deepfakes.
翻訳日:2023-09-06 14:33:27 公開日:2023-09-05
# 複雑な照明条件下での水中画像復元

Advanced Underwater Image Restoration in Complex Illumination Conditions ( http://arxiv.org/abs/2309.02217v1 )

ライセンス: Link先を確認
Yifan Song, Mengkun She, Kevin K\"oser(参考訳) 水中画像の復元は、水中写真が出現してから数十年間、難しい問題だった。 ほとんどの解決策は浅い水のシナリオに焦点を当てており、シーンは日光によって均一に照らされている。 しかし、未開の水中の地形の大部分は、自然光が不足し人工照明が必要な深さ200メートル以上に位置している。 この場合、カメラと連動する光源は、シーンの外観を動的に変化させ、浅い水回復方法が不十分になる。 特に、多光源システム(現在は数十個のledで構成されている)では、各光源の校正には時間がかかり、エラーが発生しやすく、手間がかかるため、個々の光源ではなく、カメラの閲覧ボリューム内の統合照明のみが重要であることが観察される。 そこで本論文は, カメラの視線フラストタルを横切る際に, 物体や海底の外観変化を活用することを目的としている。 ランベルシャン面を仮定した新たな制約により、対応する画像画素はカメラの前方の光野を制約し、それぞれのボクセルに対して、信号係数と後方散乱値が、照明や媒体のアーティファクトによって支配される大きな3dモデルや地図を一貫してテキスト化するのを容易にするカメラ照明プラットフォームの非常に効率的な画像復元に使用できる体積格子に格納される。 本手法の有効性を検証するため,シミュレーションおよび実世界のデータセットについて広範な実験を行った。 これらの実験の結果,照明と中効果の影響を緩和しながら,真のアルベドを復元する手法の頑健性が示された。 さらに,この手法を,人工照明による空中イメージングなど,他のシナリオにも容易に拡張できることを実証する。

Underwater image restoration has been a challenging problem for decades since the advent of underwater photography. Most solutions focus on shallow water scenarios, where the scene is uniformly illuminated by the sunlight. However, the vast majority of uncharted underwater terrain is located beyond 200 meters depth where natural light is scarce and artificial illumination is needed. In such cases, light sources co-moving with the camera, dynamically change the scene appearance, which make shallow water restoration methods inadequate. In particular for multi-light source systems (composed of dozens of LEDs nowadays), calibrating each light is time-consuming, error-prone and tedious, and we observe that only the integrated illumination within the viewing volume of the camera is critical, rather than the individual light sources. The key idea of this paper is therefore to exploit the appearance changes of objects or the seafloor, when traversing the viewing frustum of the camera. Through new constraints assuming Lambertian surfaces, corresponding image pixels constrain the light field in front of the camera, and for each voxel a signal factor and a backscatter value are stored in a volumetric grid that can be used for very efficient image restoration of camera-light platforms, which facilitates consistently texturing large 3D models and maps that would otherwise be dominated by lighting and medium artifacts. To validate the effectiveness of our approach, we conducted extensive experiments on simulated and real-world datasets. The results of these experiments demonstrate the robustness of our approach in restoring the true albedo of objects, while mitigating the influence of lighting and medium effects. Furthermore, we demonstrate our approach can be readily extended to other scenarios, including in-air imaging with artificial illumination or other similar cases.
翻訳日:2023-09-06 14:33:08 公開日:2023-09-05
# ジャコビアンホメオスタシスによる重量対称性のない平衡伝播の改善

Improving equilibrium propagation without weight symmetry through Jacobian homeostasis ( http://arxiv.org/abs/2309.02214v1 )

ライセンス: Link先を確認
Axel Laborieux and Friedemann Zenke(参考訳) 平衡伝播(EP)は、ニューラルネットワークの生物学的またはアナログなニューロモルフィック基板上の勾配を計算するための誤差アルゴリズム(BP)のバックプロパゲーションの魅力的な代替手段である。 それでもこのアルゴリズムは、非バイアス勾配を効率的に推定するために、ウェイト対称性と無限小平衡摂動(nudges)を必要とする。 両方の要件は物理的システムで実装することが難しい。 しかし、質量非対称性が適用性にどう影響するかは、実際には有限ヌッジによって導入されたバイアスによって隠蔽される可能性があるため、不明である。 この問題に対処するために,重み対称性を伴わずに定式化できる一般化epを研究し,2つのバイアス源を解析的に分離する。 複素微分可能でない非対称ネットワークに対しては、完全微分はコーシー積分によって推定できるため、有限ヌッジが問題を引き起こすことはないことを示す。 対照的に、重み非対称性は、BPと比較してEPの神経エラーベクトルのアライメントが悪いために、低いタスク性能をもたらすバイアスをもたらす。 この問題を軽減するために,ネットワークの不動点においてジャコビアン関数の非対称性を直接ペナルティ化する新しいホメオスタティック目標を提案する。 このホメオスタティックな目的は、ImageNet 32x32のような複雑なタスクを解くネットワークの能力を大幅に改善する。 本研究は,物理ネットワークの不完全さが基板の緩和ダイナミクスに依存する学習アルゴリズムに与える影響を研究・緩和するための理論的基礎研究である。

Equilibrium propagation (EP) is a compelling alternative to the backpropagation of error algorithm (BP) for computing gradients of neural networks on biological or analog neuromorphic substrates. Still, the algorithm requires weight symmetry and infinitesimal equilibrium perturbations, i.e., nudges, to estimate unbiased gradients efficiently. Both requirements are challenging to implement in physical systems. Yet, whether and how weight asymmetry affects its applicability is unknown because, in practice, it may be masked by biases introduced through the finite nudge. To address this question, we study generalized EP, which can be formulated without weight symmetry, and analytically isolate the two sources of bias. For complex-differentiable non-symmetric networks, we show that the finite nudge does not pose a problem, as exact derivatives can still be estimated via a Cauchy integral. In contrast, weight asymmetry introduces bias resulting in low task performance due to poor alignment of EP's neuronal error vectors compared to BP. To mitigate this issue, we present a new homeostatic objective that directly penalizes functional asymmetries of the Jacobian at the network's fixed point. This homeostatic objective dramatically improves the network's ability to solve complex tasks such as ImageNet 32x32. Our results lay the theoretical groundwork for studying and mitigating the adverse effects of imperfections of physical networks on learning algorithms that rely on the substrate's relaxation dynamics.
翻訳日:2023-09-06 14:32:38 公開日:2023-09-05
# 機械学習によるランダムウォークの量子スピードアップの検出

Detecting quantum speedup of random walks with machine learning ( http://arxiv.org/abs/2309.02212v1 )

ライセンス: Link先を確認
Hanna Linn, Yu Zheng, Anton Frisk Kockum(参考訳) グラフ上のランダムウォークにおける量子スピードアップを検出するための機械学習手法について検討する。 具体的には,線形,巡回的,ランダムな3種類のニューラルネットワークアーキテクチャ(完全連結および畳み込みニューラルネットワークの変分)の性能について検討し,グラフの他のノードで開始後,目標ノードに到達するための打上げ時間の観点から量子スピードアップを求める。 以上の結果から,トレーニング用データセットを慎重に構築することでニューラルネットワークの性能が向上する可能性が示唆された。しかし,我々がテストしているすべてのアーキテクチャは,大きなランダムグラフの分類や,あるグラフサイズでのトレーニングから別のテストへの一般化に苦労している。 分類精度がさらに向上すれば、ランダムウォークだけでなく、量子コンピューティングや量子輸送の分野でも、これらのニューラルネットワークから量子優位性に関する貴重な洞察を引き出すことができる。

We explore the use of machine-learning techniques to detect quantum speedup in random walks on graphs. Specifically, we investigate the performance of three different neural-network architectures (variations on fully connected and convolutional neural networks) for identifying linear, cyclic, and random graphs that yield quantum speedups in terms of the hitting time for reaching a target node after starting in another node of the graph. Our results indicate that carefully building the data set for training can improve the performance of the neural networks, but all architectures we test struggle to classify large random graphs and generalize from training on one graph size to testing on another. If classification accuracy can be improved further, valuable insights about quantum advantage may be gleaned from these neural networks, not only for random walks, but more generally for quantum computing and quantum transport.
翻訳日:2023-09-06 14:32:15 公開日:2023-09-05
# 簡易シルエットを用いた複数クラス分類のためのグラフベース自動特徴選択

Graph-Based Automatic Feature Selection for Multi-Class Classification via Mean Simplified Silhouette ( http://arxiv.org/abs/2309.02272v1 )

ライセンス: Link先を確認
David Levin, Gonen Singer(参考訳) 本稿では,多クラス分類タスクの自動特徴選択(gb-afs)のためのグラフベースのフィルタ手法を提案する。 異なるクラス間の相補的識別能力を維持しつつ、予測性能を維持するために必要な機能の最小組み合わせを決定する。 選択する機能の数など、ユーザ定義パラメータを一切必要としない。 この手法は t-distributed Stochastic Neighbor Embedding (t-SNE) とともに、Jeffries-Matusita (JM) 距離を用いて、各特徴が各クラスをいかに効果的に区別できるかを反映した低次元空間を生成する。 特徴選択タスクのクラスタリング結果を評価するために,新たに開発したMean Simplified Silhouette(MSS)インデックスを用いて,最小限の機能数を選択する。 提案したGB-AFSは,他のフィルタ技術や自動特徴選択手法よりも優れた性能を示した。 さらに,提案手法では,すべての機能を利用する場合の精度を維持しつつ,機能のうち7~30ドル程度しか使用しなかった。 その結果、分類に要する時間を、$15\%$から$70\%$に短縮した。

This paper introduces a novel graph-based filter method for automatic feature selection (abbreviated as GB-AFS) for multi-class classification tasks. The method determines the minimum combination of features required to sustain prediction performance while maintaining complementary discriminating abilities between different classes. It does not require any user-defined parameters such as the number of features to select. The methodology employs the Jeffries-Matusita (JM) distance in conjunction with t-distributed Stochastic Neighbor Embedding (t-SNE) to generate a low-dimensional space reflecting how effectively each feature can differentiate between each pair of classes. The minimum number of features is selected using our newly developed Mean Simplified Silhouette (abbreviated as MSS) index, designed to evaluate the clustering results for the feature selection task. Experimental results on public data sets demonstrate the superior performance of the proposed GB-AFS over other filter-based techniques and automatic feature selection approaches. Moreover, the proposed algorithm maintained the accuracy achieved when utilizing all features, while using only $7\%$ to $30\%$ of the features. Consequently, this resulted in a reduction of the time needed for classifications, from $15\%$ to $70\%$.
翻訳日:2023-09-06 14:24:27 公開日:2023-09-05
# SAM-Deblur: 画像の劣化を加速させるセグメンテーション

SAM-Deblur: Let Segment Anything Boost Image Deblurring ( http://arxiv.org/abs/2309.02270v1 )

ライセンス: Link先を確認
Siwei Li, Mingxuan Liu, Yating Zhang, Shu Chen, Haoxiang Li, Hong Chen and Zifei Dou(参考訳) 画像のデブラリングは画像復元の分野において重要な課題であり、ぼやけたアーティファクトを取り除くことを目的としている。 しかし、不均一な曖昧化に対処することの課題は、既存のデブロワーリングモデルの一般化性能を制限する不適切な問題に繋がる。 そこで本研究では,Segment Anything Model (SAM) からの事前知識を初めてデブロア処理に組み込んだ SAM-Deblur フレームワークを提案する。 特にSAM-Deblurは3つの段階に分けられる。 まず、ぼやけた画像を前処理し、SAMを用いて画像マスクを取得し、モデルの堅牢性を高めるためのトレーニングのためのマスクドロップアウト手法を提案する。 そこで本研究では,SAM が生成する構造的前提をフル活用するために,SAM 生成したセグメント領域の平均化を目的とした Mask Average Pooling (MAP) ユニットを提案する。 最後に、MAPユニットが生成した融合特徴をデブロアリングモデルに供給し、シャープな画像を得る。 RealBlurJ、ReloBlur、REDSデータセットの実験結果から、NAFNetのPSNRをそれぞれ0.05、0.96、および7.03改善することが判明した。 コードは \href{https://github.com/HPLQAQ/SAM-Deblur}{SAM-Deblur} で入手できる。

Image deblurring is a critical task in the field of image restoration, aiming to eliminate blurring artifacts. However, the challenge of addressing non-uniform blurring leads to an ill-posed problem, which limits the generalization performance of existing deblurring models. To solve the problem, we propose a framework SAM-Deblur, integrating prior knowledge from the Segment Anything Model (SAM) into the deblurring task for the first time. In particular, SAM-Deblur is divided into three stages. First, We preprocess the blurred images, obtain image masks via SAM, and propose a mask dropout method for training to enhance model robustness. Then, to fully leverage the structural priors generated by SAM, we propose a Mask Average Pooling (MAP) unit specifically designed to average SAM-generated segmented areas, serving as a plug-and-play component which can be seamlessly integrated into existing deblurring networks. Finally, we feed the fused features generated by the MAP Unit into the deblurring model to obtain a sharp image. Experimental results on the RealBlurJ, ReloBlur, and REDS datasets reveal that incorporating our methods improves NAFNet's PSNR by 0.05, 0.96, and 7.03, respectively. Code will be available at \href{https://github.com/HPLQAQ/SAM-Deblur}{SAM-Deblur}.
翻訳日:2023-09-06 14:24:04 公開日:2023-09-05
# 非相反帯域構造による広帯域光非相反性

Broadband optical nonreciprocity via nonreciprocal band structure ( http://arxiv.org/abs/2309.02267v1 )

ライセンス: Link先を確認
Ning Hu, Zhi-Xiang Tang, Xun-Wei Xu(参考訳) 磁気材料のない光学的非相反性への有望なアプローチとして、光機械的に誘起される非相反性は、チップ上の全光制御可能なイソレータと循環器に大きなポテンシャルを持つ。 しかし, 実用化における重要な課題として, 高い分離性を有する非相互伝送の帯域幅が十分に検討されていない。 本研究では,単一キャビティを有するブリルアン光力学系における非相反性について検討し,高い分離度で広帯域化を実現するための課題を指摘する。 この課題を克服するために,非相反バンド構造による広帯域光非相反性を実現するための1次元光メカニカルアレイを提案する。 指向性光ポンピングを用いたブリルアン散乱誘導透過による非相互帯域構造を応用し,広帯域と高分離の両方で光非相互性を示すことができることを示す。 このような、非相互バンド構造を持つブリルアン光学格子は、非相互トポロジカル・フォトニック相やフォノン相のような異なる電磁的および機械的な周波数状態における非相互集団効果を探索する手段を提供する。

As a promising approach for optical nonreciprocity without magnetic materials, optomechanically induced nonreciprocity has great potential for all-optical controllable isolators and circulators on chips. However, as a very important issue in practical applications, the bandwidth for nonreciprocal transmission with high isolation has not been fully investigated yet. In this study we review the nonreciprocity in a Brillouin optomechanical system with single cavity and point out the challenge in achieving broad bandwidth with high isolation. To overcome this challenge, we propose a one dimensional optomechanical array to realize broadband optical nonreciprocity via nonreciprocal band structure. We exploit nonreciprocal band structure by the stimulated Brillouin scattering induced transparency with directional optical pumping, and show that it is possible to demonstrate optical nonreciprocity with both broad bandwidth and high isolation. Such Brillouin optomechanical lattices with nonreciprocal band structure, offer an avenue to explore nonreciprocal collective effects in different electromagnetic and mechanical frequency regimes, such as nonreciprocal topological photonic and phononic phases.
翻訳日:2023-09-06 14:23:38 公開日:2023-09-05
# MA-VAE:マルチヘッドアテンションに基づく変分オートエンコーダによる多変量時系列の異常検出

MA-VAE: Multi-head Attention-based Variational Autoencoder Approach for Anomaly Detection in Multivariate Time-series Applied to Automotive Endurance Powertrain Testing ( http://arxiv.org/abs/2309.02253v1 )

ライセンス: Link先を確認
Lucas Correia, Jan-Christoph Goos, Philipp Klein, Thomas B\"ack, Anna V. Kononova(参考訳) オートマチックテストに適用される自動異常検出の必要性は、記録されたデータにより多くの注意が払われ、人間の手動による評価がキャパシティに達するにつれて明らかになっている。 このような実世界のデータは多様で多変量で時間的な性質を持つため、テスターの振る舞いをモデル化する必要がある。 本研究では,マルチヘッドアテンセーション(ma-vae)を備えた変分オートエンコーダを提案する。 それに加えて、この手法は文学で調査された望ましくない振る舞いであるバイパス現象を避ける新しい方法を提供する。 最後に、このアプローチでは、個々のウィンドウを連続した時系列に再マップする新しい方法も導入されている。 結果は実世界の産業データセットの文脈で提示され、提案モデルの特定の側面をさらに調査するためにいくつかの実験が行われている。 適切に設定された場合、異常をフラグ付けし、異常の67%を発見した場合、9%が誤りである。 また、MA-VAEは、トレーニングおよび検証サブセットのごく一部でのみうまく機能する可能性があるが、それを抽出するためには、より洗練されたしきい値推定方法が必要である。

A clear need for automatic anomaly detection applied to automotive testing has emerged as more and more attention is paid to the data recorded and manual evaluation by humans reaches its capacity. Such real-world data is massive, diverse, multivariate and temporal in nature, therefore requiring modelling of the testee behaviour. We propose a variational autoencoder with multi-head attention (MA-VAE), which, when trained on unlabelled data, not only provides very few false positives but also manages to detect the majority of the anomalies presented. In addition to that, the approach offers a novel way to avoid the bypass phenomenon, an undesirable behaviour investigated in literature. Lastly, the approach also introduces a new method to remap individual windows to a continuous time series. The results are presented in the context of a real-world industrial data set and several experiments are undertaken to further investigate certain aspects of the proposed model. When configured properly, it is 9% of the time wrong when an anomaly is flagged and discovers 67% of the anomalies present. Also, MA-VAE has the potential to perform well with only a fraction of the training and validation subset, however, to extract it, a more sophisticated threshold estimation method is required.
翻訳日:2023-09-06 14:23:19 公開日:2023-09-05
# RoBoSS: 教師付き学習のためのロバスト,バウンド,スパース,スムースロス機能

RoBoSS: A Robust, Bounded, Sparse, and Smooth Loss Function for Supervised Learning ( http://arxiv.org/abs/2309.02250v1 )

ライセンス: Link先を確認
Mushir Akhtar, M. Tanveer, and Mohd. Arshad(参考訳) 機械学習アルゴリズムの分野では、特に教師付き学習タスクにおいて、損失関数の重要性が最重要である。 教師付き学習アルゴリズムの振る舞いと有効性に深く影響を及ぼす基本的な柱として機能する。 従来の損失関数は広く使われているが、しばしばノイズや高次元のデータを扱うのに苦労し、モデルの解釈可能性を妨げる。 本稿では,教師付き学習のための新しいロバスト,バウンド,スパース,スムース(RoBoSS)損失関数を提案することで,上記の制約に対処する。 さらに、サポートベクトルマシン(SVM)のフレームワークにRoBoSS損失関数を組み込んで、$\mathcal{L}_{rbss}$-SVMという新しいロバストアルゴリズムを導入する。 理論解析では,分類に適合した性質と一般化能力も提示する。 これらの調査は、分類タスクにおけるRoBoSS損失関数の性能に関する深い洞察を得る上で重要である。 提案した $\mathcal{L}_{rbss}$-SVM の有効性を実証的に示すため,実世界の UCI と KEEL のデータセットを多種多様な領域から評価した。 さらに,生体医学領域で提案された$\mathcal{l}_{rbss}$-svmの有効性を実証するために,心電図(eeg)信号データセットと乳がん(breakhis)データセットの2つの医療データセットで評価した。 数値計算の結果から,提案する$\mathcal{l}_{rbss}$-svmモデルの卓越性は,その顕著な一般化性能とトレーニング時間における効率の両面で証明された。

In the domain of machine learning algorithms, the significance of the loss function is paramount, especially in supervised learning tasks. It serves as a fundamental pillar that profoundly influences the behavior and efficacy of supervised learning algorithms. Traditional loss functions, while widely used, often struggle to handle noisy and high-dimensional data, impede model interpretability, and lead to slow convergence during training. In this paper, we address the aforementioned constraints by proposing a novel robust, bounded, sparse, and smooth (RoBoSS) loss function for supervised learning. Further, we incorporate the RoBoSS loss function within the framework of support vector machine (SVM) and introduce a new robust algorithm named $\mathcal{L}_{rbss}$-SVM. For the theoretical analysis, the classification-calibrated property and generalization ability are also presented. These investigations are crucial for gaining deeper insights into the performance of the RoBoSS loss function in the classification tasks and its potential to generalize well to unseen data. To empirically demonstrate the effectiveness of the proposed $\mathcal{L}_{rbss}$-SVM, we evaluate it on $88$ real-world UCI and KEEL datasets from diverse domains. Additionally, to exemplify the effectiveness of the proposed $\mathcal{L}_{rbss}$-SVM within the biomedical realm, we evaluated it on two medical datasets: the electroencephalogram (EEG) signal dataset and the breast cancer (BreaKHis) dataset. The numerical results substantiate the superiority of the proposed $\mathcal{L}_{rbss}$-SVM model, both in terms of its remarkable generalization performance and its efficiency in training time.
翻訳日:2023-09-06 14:22:56 公開日:2023-09-05
# モジュール型ニューラルネットワークによる需要予測のための季節気候予測の符号化

Encoding Seasonal Climate Predictions for Demand Forecasting with Modular Neural Network ( http://arxiv.org/abs/2309.02248v1 )

ライセンス: Link先を確認
Smit Marvaniya, Jitendra Singh, Nicolas Galichet, Fred Ochieng Otieno, Geeth De Mel, Kommy Weldemariam(参考訳) 現在の時系列予測問題は、短期気象特性を外因性入力として用いている。 しかし、特定の時系列予測ソリューション(サプライチェーンの需要予測など)では、季節的な気候予測がレジリエンスを改善するために不可欠である。 季節的な気候予測は不確実であり、気候予測と需要との時空間的関係を符号化することは複雑である。 本稿では,サプライチェーン機能に対する堅牢で信頼性の高い時系列予測を実現するため,季節的気候予測を効率的に符号化する新しいモデリングフレームワークを提案する。 このエンコーディングフレームワークは、モジュール型ニューラルネットワークアーキテクチャによって、季節的な気候予測や、その他の時系列データ(購入者パターンなど)といった潜在表現の効果的な学習を可能にする。 このような表現を季節気候予測モデルに学習すると、既存の需要予測手法と比較して、複数の実世界のデータセットで約13~17倍の誤差が減少することを示す。

Current time-series forecasting problems use short-term weather attributes as exogenous inputs. However, in specific time-series forecasting solutions (e.g., demand prediction in the supply chain), seasonal climate predictions are crucial to improve its resilience. Representing mid to long-term seasonal climate forecasts is challenging as seasonal climate predictions are uncertain, and encoding spatio-temporal relationship of climate forecasts with demand is complex. We propose a novel modeling framework that efficiently encodes seasonal climate predictions to provide robust and reliable time-series forecasting for supply chain functions. The encoding framework enables effective learning of latent representations -- be it uncertain seasonal climate prediction or other time-series data (e.g., buyer patterns) -- via a modular neural network architecture. Our extensive experiments indicate that learning such representations to model seasonal climate forecast results in an error reduction of approximately 13\% to 17\% across multiple real-world data sets compared to existing demand forecasting methods.
翻訳日:2023-09-06 14:22:22 公開日:2023-09-05
# 量子コンピュータ上での量子バックフローのシミュレーション

Simulating quantum backflow on a quantum computer ( http://arxiv.org/abs/2309.02245v1 )

ライセンス: Link先を確認
Arseni Goussev and Jaewoo Joo(参考訳) 量子バックフロー(Quantum backflow)は、自由粒子の確率密度が粒子の運動量と反対方向に移動する反直感効果である。 粒子が電気的に帯電されている場合、その効果は電流の方向と運動量とのコントラストと見なすことができる。 これまで、量子バックフローの実験的な観測は行われていない。 しかし、この効果は数値的に(古典的コンピュータを用いて)、光学的に(古典的光を用いて)シミュレートされている。 本研究では,実際の量子コンピュータを用いた量子バックフローの最初のシミュレーションを行う。

Quantum backflow is a counterintuitive effect in which the probability density of a free particle moves in the direction opposite to the particle's momentum. If the particle is electrically charged, then the effect can be viewed as the contrast between the direction of electric current and that of the momentum. To date, there has been no direct experimental observation of quantum backflow. However, the effect has been simulated numerically (using classical computers) and optically (using classical light). In this study, we present the first simulation of quantum backflow using a real quantum computer.
翻訳日:2023-09-06 14:22:05 公開日:2023-09-05
# 非拡張アノテーションによる胸部X線データセットの増大

Augmenting Chest X-ray Datasets with Non-Expert Annotations ( http://arxiv.org/abs/2309.02244v1 )

ライセンス: Link先を確認
Cathrine Damgaard, Trine Naja Eriksen, Dovile Juodelyte, Veronika Cheplygina, Amelia Jim\'enez-S\'anchez(参考訳) 医療画像解析における機械学習アルゴリズムの進歩は、トレーニングデータセットの拡張を必要とする。 一般的で費用効果の高いアプローチは、フリーテキスト医療報告からの自動アノテーション抽出であり、主に胸部X線画像に注釈を付ける専門医のコストが高いためである。 しかしながら、得られたデータセットはバイアスやショートカットの影響を受けやすいことが示されている。 データセットのサイズを拡大するもう1つの戦略はクラウドソーシングであり、一般的なコンピュータビジョンにおいて広く採用されており、医療画像解析に成功している。 クラウドソーシングと同じような形で、非専門家アノテーションを組み込むことで、公開の胸部X線データセットを2つ拡張する。 しかし、診断ラベルを使う代わりに、チューブの形でショートカットをアノテートします。 CXR14の3.5k胸部ドレインアノテーションとPadChestの4種類のチューブアノテーションを収集した。 専門家ラベルによく一般化する非専門アノテーションで胸部ドレイン検出器を訓練する。 さらに、専門家が提供したアノテーションと比較し、"モデレート"と"ほぼ完全な"合意を示す。 最後に,基礎的真理アノテーションに対する意識を高めるための病理合意研究について述べる。 アノテーションとコードを利用可能にします。

The advancement of machine learning algorithms in medical image analysis requires the expansion of training datasets. A popular and cost-effective approach is automated annotation extraction from free-text medical reports, primarily due to the high costs associated with expert clinicians annotating chest X-ray images. However, it has been shown that the resulting datasets are susceptible to biases and shortcuts. Another strategy to increase the size of a dataset is crowdsourcing, a widely adopted practice in general computer vision with some success in medical image analysis. In a similar vein to crowdsourcing, we enhance two publicly available chest X-ray datasets by incorporating non-expert annotations. However, instead of using diagnostic labels, we annotate shortcuts in the form of tubes. We collect 3.5k chest drain annotations for CXR14, and 1k annotations for 4 different tube types in PadChest. We train a chest drain detector with the non-expert annotations that generalizes well to expert labels. Moreover, we compare our annotations to those provided by experts and show "moderate" to "almost perfect" agreement. Finally, we present a pathology agreement study to raise awareness about ground truth annotations. We make our annotations and code available.
翻訳日:2023-09-06 14:21:54 公開日:2023-09-05
# 音楽構造解析のための自己相似性と新規性に基づく損失

Self-Similarity-Based and Novelty-based loss for music structure analysis ( http://arxiv.org/abs/2309.02243v1 )

ライセンス: Link先を確認
Geoffroy Peeters(参考訳) 音楽構造分析(英語: music structure analysis、msa)は、楽曲を構成する音楽セグメントを識別し、その類似性に基づいてラベル付けすることを目的としたタスクである。 本稿では,音楽境界検出のための教師ありアプローチを提案する。 このアプローチでは、機能と畳み込みカーネルを同時に学習します。 本研究では,SSM-lossで示される学習特徴を持つ自己相似行列(SSM)に基づく損失と,この学習カーネルを推定されたSSMに適用したノベルティスコアに基づく損失とを共同で最適化する。 また,MSAの課題に対して,自己注意による相対的特徴学習が有益であることを示す。 最後に,従来提案されていた標準RWC-PopとSALAMIの各種サブセットの性能を比較した。

Music Structure Analysis (MSA) is the task aiming at identifying musical segments that compose a music track and possibly label them based on their similarity. In this paper we propose a supervised approach for the task of music boundary detection. In our approach we simultaneously learn features and convolution kernels. For this we jointly optimize -- a loss based on the Self-Similarity-Matrix (SSM) obtained with the learned features, denoted by SSM-loss, and -- a loss based on the novelty score obtained applying the learned kernels to the estimated SSM, denoted by novelty-loss. We also demonstrate that relative feature learning, through self-attention, is beneficial for the task of MSA. Finally, we compare the performances of our approach to previously proposed approaches on the standard RWC-Pop, and various subsets of SALAMI.
翻訳日:2023-09-06 14:21:37 公開日:2023-09-05
# ダイアログポリシ学習のためのダイアログアクションアウェアトランスフォーマ

Dialog Action-Aware Transformer for Dialog Policy Learning ( http://arxiv.org/abs/2309.02240v1 )

ライセンス: Link先を確認
Huimin Wang, Wai-Chung Kwan, Kam-Fai Wong(参考訳) 最近の研究は通常、最高の対話行動を決定するために強化学習(RL)エージェントを訓練することでダイアログポリシー学習DPLに対処する。 しかし、既存の深層RLの研究は、許容可能な性能を達成するために大量のエージェント-ユーザインタラクションを必要とする。 本稿では,RLエージェントの学習速度を高速化するために,事前学習言語モデルからプレーンテキスト知識をフル活用することを提案する。 具体的には、ダイアログ対応のダイアログ対応トランスフォーマーエンコーダ(DaTrans)を設計し、マスクされた最後のアクションタスクと呼ばれる新しい微調整手順を統合し、DaTransをダイアログ対応にし、アクション固有の特徴を消耗させる。 次に、DATransは継続する相互作用を伴うRL設定でさらに最適化され、長期蓄積された報酬を最大化するためにダイアログアクション空間での探索を通じて進化する。 シミュレーション評価と人的評価の両面から,提案モデルの有効性と効率を実証した。

Recent works usually address Dialog policy learning DPL by training a reinforcement learning (RL) agent to determine the best dialog action. However, existing works on deep RL require a large volume of agent-user interactions to achieve acceptable performance. In this paper, we propose to make full use of the plain text knowledge from the pre-trained language model to accelerate the RL agent's learning speed. Specifically, we design a dialog action-aware transformer encoder (DaTrans), which integrates a new fine-tuning procedure named masked last action task to encourage DaTrans to be dialog-aware and distils action-specific features. Then, DaTrans is further optimized in an RL setting with ongoing interactions and evolves through exploration in the dialog action space toward maximizing long-term accumulated rewards. The effectiveness and efficiency of the proposed model are demonstrated with both simulator evaluation and human evaluation.
翻訳日:2023-09-06 14:21:20 公開日:2023-09-05
# 第一級エルミート・ガウス系におけるポンプ調整ベル状態発生

Pump-tailored Alternative Bell State Generation in the First-Order Hermite-Gaussian basis ( http://arxiv.org/abs/2309.02296v1 )

ライセンス: Link先を確認
Zhe Kan and Andrew A. Voitiv and Patrick C. Ford and Mark T. Lusk and Mark E. Siemens(参考訳) 非線形結晶中の自然パラメトリックダウンコンバージョンプロセスから直接, エルミート-ガウス基底の1次モードの絡み合い状態スワップを実演する。 この方法は、ポンプ光子の空間構造を明示的に調整することで、結晶から出る所望の絡み合った空間モードの積と似ている。 重要なことは、バランスの取れたHGモードの絡み合った状態であり、光学による幾何相の対称的な蓄積に依存する応用や、アジムタル感度による量子センシングとイメージングの応用に有用である。 さらに,他の空間モードベースにも容易に適用可能である。

We demonstrate entangled-state swapping, within the Hermite-Gaussian basis of first-order modes, directly from the process of spontaneous parametric down-conversion within a nonlinear crystal. The method works by explicitly tailoring the spatial structure of the pump photon such that it resembles the product of the desired entangled spatial modes exiting the crystal. Importantly, the result is an entangled state of balanced HG modes, which may be beneficial in applications that depend on symmetric accumulations of geometric phase through optics or in applications of quantum sensing and imaging with azimuthal sensitivity. Furthermore, the methods are readily adaptable to other spatial mode bases.
翻訳日:2023-09-06 14:15:34 公開日:2023-09-05
# 一対の不均一強度源の単光子サブレイリー精度測定

Single-photon sub-Rayleigh precision measurements of a pair of incoherent sources of unequal intensity ( http://arxiv.org/abs/2309.02295v1 )

ライセンス: Link先を確認
Luigi Santamaria Amato, Fabrizio Sgobba, Cosmo Lupo(参考訳) インターフェロメトリ法は近年,極端量子限界までのかすかな非コヒーレント源のサブレイリーイメージングと精密測定を実現するために研究されている。 ここでは、不等強度の2つの点状エミッタの単一光子像について考察する。 これは、例えば連星系や外惑星のように、自然放出星の対が通常不等輝度を持つという事実が動機である。 我々は、横分離 $d$ と相対強度 $\epsilon$ を推定する問題に対処する。 理論解析の結果,関連する統計誤差は等強度の場合と定性的に異なることがわかった。 我々は多平面光変換技術を用いてHermite-Gaussian(HG)空間モードデマルチプレクシング(SPADE)を実験的に実装し、ガウス点スプレッド関数を持つ2つのエミッタのサブレイリー測定を実証した。 実験誤差は理論的境界に匹敵する。 後者は直接撮像に対してベンチマークされ、例えば外惑星の撮像のように、一次光源が二次光源よりも明るいときに有意な信号-雑音比が$$\epsilon^{-1/2}$改善される。 しかし、この改良されたスケーリングを実現するには、通常HGモード間のクロストークに影響されるSPADEの実装において低ノイズを必要とする。

Interferometric methods have been recently investigated to achieve sub-Rayleigh imaging and precision measurements of faint incoherent sources up to the ultimate quantum limit. Here we consider single-photon imaging of two point-like emitters of unequal intensity. This is motivated by the fact that pairs of natural emitters will typically have unequal brightness, as for example binary star systems and exoplanets. We address the problems of estimating the transverse separation $d$ and the relative intensity $\epsilon$. Our theoretical analysis shows that the associated statistical errors are qualitatively different from the case of equal intensity. We employ multi-plane light conversion technology to experimentally implement Hermite-Gaussian (HG) spatial-mode demultiplexing (SPADE), and demonstrate sub-Rayleigh measurement of two emitters with Gaussian point-spread function. The experimental errors are comparable with the theoretical bounds. The latter are benchmarked against direct imaging, yielding a $\epsilon^{-1/2}$ improvement in the signal-to-noise ratio, which may be significant when the primary source is much brighter than the secondary one, as for example for imaging of exoplanets. However, achieving this improved scaling requires low noise in the implementation of SPADE, which is typically affected by crosstalk between HG modes.
翻訳日:2023-09-06 14:15:21 公開日:2023-09-05
# 制限ボルツマンマシンによる有効結合の推論

Inferring effective couplings with Restricted Boltzmann Machines ( http://arxiv.org/abs/2309.02292v1 )

ライセンス: Link先を確認
Aur\'elien Decelle, Cyril Furtlehner, Alfonso De Jesus Navas G\'omez, Beatriz Seoane(参考訳) 生成モデルは複雑なデータを直接モデル化する方法を提供する。 それらのうち、エネルギーベースのモデルは、モデルのボルツマン重みのレベルでデータで観測されたすべての統計相関を正確に再現することを目的としたニューラルネットワークモデルを提供する。 しかし、一つの課題はそのようなモデルの物理的解釈を理解することである。 本研究では、制限ボルツマン機械のエネルギー関数と、スピン間の高次相互作用を含む効果的なイジングスピンハミルトニアンとの直接マッピングを実装することで、簡単な解法を提案する。 このマッピングは、全ての可能な順序の相互作用を含み、逆イジングアプローチで一般的に考慮される通常のペアワイズ相互作用を超えて、複雑なデータセットの記述を可能にする。 初期の研究は、この目標を達成しようとしたが、提案されたマッピングは問題の複雑さを適切に扱うことができず、また実践的な応用のための直接処方薬を含まない。 本手法を検証するために,各低次元トポロジーにおける局所外部場,2体および3体相互作用を含む事前定義されたモデルの平衡サンプルをトレーニングサンプルとする,いくつかの制御された数値実験を行った。 その結果,提案手法が適切なインタラクションネットワークを学習し,興味深いデータセットをモデル化する方法について検討した。 また,異なるトレーニング手法を用いて,推定モデルの品質を評価する。

Generative models offer a direct way to model complex data. Among them, energy-based models provide us with a neural network model that aims to accurately reproduce all statistical correlations observed in the data at the level of the Boltzmann weight of the model. However, one challenge is to understand the physical interpretation of such models. In this study, we propose a simple solution by implementing a direct mapping between the energy function of the Restricted Boltzmann Machine and an effective Ising spin Hamiltonian that includes high-order interactions between spins. This mapping includes interactions of all possible orders, going beyond the conventional pairwise interactions typically considered in the inverse Ising approach, and allowing the description of complex datasets. Earlier work attempted to achieve this goal, but the proposed mappings did not do properly treat the complexity of the problem or did not contain direct prescriptions for practical application. To validate our method, we perform several controlled numerical experiments where the training samples are equilibrium samples of predefined models containing local external fields, two-body and three-body interactions in various low-dimensional topologies. The results demonstrate the effectiveness of our proposed approach in learning the correct interaction network and pave the way for its application in modeling interesting datasets. We also evaluate the quality of the inferred model based on different training methods.
翻訳日:2023-09-06 14:14:54 公開日:2023-09-05
# 量子センシングプロトコルはいつ機能するのか?

When does a one-axis-twist-untwist quantum sensing protocol work? ( http://arxiv.org/abs/2309.02291v1 )

ライセンス: Link先を確認
Martin Koppenh\"ofer and A. A. Clerk(参考訳) スピンスクイージングは、標準量子限界を超える大きなスピンアンサンブルにおける小さな信号の干渉計測の感度を高めることができる。 多くの実践的な設定において、理想的なメロジカルゲインはセンサの不完全な読み出しによって制限される。 この問題を克服するために,単軸twist (oat) スピンスキーズダイナミクスの時間反転に基づくプロトコルが提案されている。 このようなプロトコルは、読み出しノイズを軽減し、キャビティフィードバックを用いて実施すると、システムの集合的協調性が十分に大きい限り、散逸に対して堅牢であるとも主張されている[Davis et al., PRL 116, 053601 (2016)]。 本稿では,oatツイスト・アントウィストセンシングの3つの異なる実装(対称と非対称キャビティフィードバックとtavis-cummings相互作用に基づく)に対する散逸効果を注意深く体系的に研究する。 完全治療は,3つのアプローチが散逸する際の特性とレジリエンスが著しく異なることを示している。 さらに,対称共振器フィードバックを用いた実装のメロジカルゲインは,従来よりも望ましくない散逸に敏感である。

Spin squeezing can increase the sensitivity of interferometric measurements of small signals in large spin ensembles beyond the standard quantum limit. In many practical settings, the ideal metrological gain is limited by imperfect readout of the sensor. To overcome this issue, protocols based on time reversal of unitary one-axis-twist (OAT) spin-squeezing dynamics have been proposed. Such protocols mitigate readout noise and, when implemented using cavity feedback, have been argued to also be robust against dissipation as long as the collective cooperativity of the system is sufficiently large [Davis et al., PRL 116, 053601 (2016)]. Here, we perform a careful systematic study of dissipative effects on three different implementations of a OAT twist-untwist sensing scheme (based on symmetric as well as asymmetric cavity feedback and on a Tavis-Cummings interaction). Our full treatment shows that the three approaches have markedly different properties and resilience when subject to dissipation. Moreover, the metrological gain for an implementation using symmetric cavity feedback is more sensitive to undesired dissipation than was previously appreciated.
翻訳日:2023-09-06 14:14:33 公開日:2023-09-05
# ATM:ビデオ質問応答のための行動時間モデリング

ATM: Action Temporality Modeling for Video Question Answering ( http://arxiv.org/abs/2309.02290v1 )

ライセンス: Link先を確認
Junwen Chen, Jie Zhu, Yu Kong(参考訳) ビデオ質問応答 (VideoQA) の大幅な進歩にもかかわらず、既存の手法ではフレーム間の因果的・時間的推論を必要とする質問が不足している。 これは不正確な動きの表現による。 We introduce Action Temporality Modeling (ATM) for temporality reasoning via three-fold uniqueness: (1) rethinking the optical flow and realizing that optical flow is effective in capturing the long horizon temporality reasoning; (2) training the visual-text embedding by contrastive learning in an action-centric manner, leading to better action representations in both vision and text modalities; and (3) preventing the model from answering the question given the shuffled video in the fine-tuning stage, to avoid spurious correlation between appearance and motion and hence ensure faithful temporality reasoning. 実験では,複数のビデオqaの正確性の観点からatmが従来のアプローチを上回っており,真の時間的推論能力が向上することを示す。

Despite significant progress in video question answering (VideoQA), existing methods fall short of questions that require causal/temporal reasoning across frames. This can be attributed to imprecise motion representations. We introduce Action Temporality Modeling (ATM) for temporality reasoning via three-fold uniqueness: (1) rethinking the optical flow and realizing that optical flow is effective in capturing the long horizon temporality reasoning; (2) training the visual-text embedding by contrastive learning in an action-centric manner, leading to better action representations in both vision and text modalities; and (3) preventing the model from answering the question given the shuffled video in the fine-tuning stage, to avoid spurious correlation between appearance and motion and hence ensure faithful temporality reasoning. In the experiments, we show that ATM outperforms previous approaches in terms of the accuracy on multiple VideoQAs and exhibits better true temporality reasoning ability.
翻訳日:2023-09-06 14:14:12 公開日:2023-09-05
# 因果構造を考慮した最適観測・干渉トレードオフ

Optimal Observation-Intervention Trade-Off in Optimisation Problems with Causal Structure ( http://arxiv.org/abs/2309.02287v1 )

ライセンス: Link先を確認
Kim Hammar and Neil Dhir(参考訳) 設計変数間の因果構造の形で、既知の側情報が存在する有限予算内で、コスト対評価グレーボックスの目的関数を最適化する問題を考察する。 標準ブラックボックス最適化は因果構造を無視し、しばしば非効率で費用がかかる。 因果構造を考慮に入れた数少ない方法が筋電図であり、因果効果を推定する際に生じる観察・干渉トレードオフを完全に満たさない。 本稿では,効率的な解法を実現する非筋覚的最適停止問題として観察・干渉トレードオフを定式化できることを示す。 最適停止時間の構造を詳述した理論的結果を与え,既存の因果ベイズ最適化アルゴリズムと統合できることを示すことにより,提案手法の汎用性を示す。 実験の結果,本手法は実および合成ベンチマークにおいて既存のアルゴリズムを拡張できることが判明した。

We consider the problem of optimising an expensive-to-evaluate grey-box objective function, within a finite budget, where known side-information exists in the form of the causal structure between the design variables. Standard black-box optimisation ignores the causal structure, often making it inefficient and expensive. The few existing methods that consider the causal structure are myopic and do not fully accommodate the observation-intervention trade-off that emerges when estimating causal effects. In this paper, we show that the observation-intervention trade-off can be formulated as a non-myopic optimal stopping problem which permits an efficient solution. We give theoretical results detailing the structure of the optimal stopping times and demonstrate the generality of our approach by showing that it can be integrated with existing causal Bayesian optimisation algorithms. Experimental results show that our formulation can enhance existing algorithms on real and synthetic benchmarks.
翻訳日:2023-09-06 14:14:00 公開日:2023-09-05
# haystack: まれな述語クラスを評価するためのpanoptic scene graphデータセット

Haystack: A Panoptic Scene Graph Dataset to Evaluate Rare Predicate Classes ( http://arxiv.org/abs/2309.02286v1 )

ライセンス: Link先を確認
Julian Lorenz, Florian Barthel, Daniel Kienzle, Rainer Lienhart(参考訳) 現在のシーングラフデータセットは、述語クラスの強いロングテール分布に苦しむ。 テストセット内のいくつかの述語クラスの数が極めて少ないため、最も稀なクラスに対して信頼できるメトリクスを取得できない。 我々は,特に稀な述語クラスにおける予測性能のベンチマークとして設計された,新しいパノプティカルシーングラフデータセットとメトリクスのセットを構築した。 新しいデータセットを構築するために,干し草の針のような大きな画像に隠された希少な述語クラスを効率的に見つけるモデル支援型アノテーションパイプラインを提案する。 以前のシーングラフデータセットとは対照的に、haystackには明示的なネガティブアノテーション、すなわち特定の関係が特定の述語クラスを持っていないアノテーションが含まれている。 負のアノテーションはシーングラフ生成の分野で特に有用であり、現在のシーングラフ生成モデルを改善するための全く新しい可能性のセットを開く。 haystackは既存のpanoptic scene graphデータセットと100%互換性があり、既存の評価パイプラインと簡単に統合できる。 私たちのデータセットとコードは以下の通りです。 アノテーションファイルとスクリプトやユーティリティの使用が簡単で、データセットを既存の作業に統合するのに役立ちます。

Current scene graph datasets suffer from strong long-tail distributions of their predicate classes. Due to a very low number of some predicate classes in the test sets, no reliable metrics can be retrieved for the rarest classes. We construct a new panoptic scene graph dataset and a set of metrics that are designed as a benchmark for the predictive performance especially on rare predicate classes. To construct the new dataset, we propose a model-assisted annotation pipeline that efficiently finds rare predicate classes that are hidden in a large set of images like needles in a haystack. Contrary to prior scene graph datasets, Haystack contains explicit negative annotations, i.e. annotations that a given relation does not have a certain predicate class. Negative annotations are helpful especially in the field of scene graph generation and open up a whole new set of possibilities to improve current scene graph generation models. Haystack is 100% compatible with existing panoptic scene graph datasets and can easily be integrated with existing evaluation pipelines. Our dataset and code can be found here: https://lorjul.github.io/haystack/. It includes annotation files and simple to use scripts and utilities, to help with integrating our dataset in existing work.
翻訳日:2023-09-06 14:13:46 公開日:2023-09-05
# PromptTTS 2: テキストプロンプトによる音声の記述と生成

PromptTTS 2: Describing and Generating Voices with Text Prompt ( http://arxiv.org/abs/2309.02285v1 )

ライセンス: Link先を確認
Yichong Leng, Zhifang Guo, Kai Shen, Xu Tan, Zeqian Ju, Yanqing Liu, Yufei Liu, Dongchao Yang, Leying Zhang, Kaitao Song, Lei He, Xiang-Yang Li, Sheng Zhao, Tao Qin, Jiang Bian(参考訳) 音声は単にテキスト以上の情報を伝達し、同じ単語を様々な声で発声して多様な情報を伝えることができる。 音声の可変性のために音声プロンプト(参照音声)に依存する従来のtts(text-to-speech)メソッドと比較して、テキストプロンプト(記述)の使用は、音声プロンプトを見つけるのが困難か全く存在しないか、ユーザフレンドリである。 テキストプロンプトに基づくTSアプローチは2つの課題に直面している。 1)テキストプロンプトに音声の変動性に関するすべての詳細を記述できない一対一の問題がある。 2) テキストプロンプトデータセットが限られており、ベンダーと大量のデータラベリングが音声のテキストプロンプトを書くために必要となる。 本稿では,テキストプロンプトでキャプチャされていない音声の可変性情報を提供するために,これらの課題に対処するPromptTTS 2と,高品質なテキストプロンプトを構成するために大規模言語モデル(LLM)を利用するプロンプト生成パイプラインを導入する。 具体的には、テキストプロンプト表現に基づいて、参照音声(音声に関する全情報を含む)から抽出された表現を予測する。 このプロンプト生成パイプラインでは、音声理解モデルを用いて音声のテキストプロンプトを生成し、音声から音声属性(例えば、性別、速度)を認識し、大言語モデルを用いて認識結果に基づいてテキストプロンプトを定式化する。 大規模(44K時間)の音声データセットの実験では、PromptTTS 2は以前の研究と比較すると、テキストプロンプトとより整合性のある音声を生成し、多様な音声のバラツキのサンプリングをサポートする。 さらに、プロンプト生成パイプラインは高品質なプロンプトを生成し、大きなラベリングコストを削減します。 PromptTTS 2のデモページはオンラインで公開されている。

Speech conveys more information than just text, as the same word can be uttered in various voices to convey diverse information. Compared to traditional text-to-speech (TTS) methods relying on speech prompts (reference speech) for voice variability, using text prompts (descriptions) is more user-friendly since speech prompts can be hard to find or may not exist at all. TTS approaches based on the text prompt face two challenges: 1) the one-to-many problem, where not all details about voice variability can be described in the text prompt, and 2) the limited availability of text prompt datasets, where vendors and large cost of data labeling are required to write text prompt for speech. In this work, we introduce PromptTTS 2 to address these challenges with a variation network to provide variability information of voice not captured by text prompts, and a prompt generation pipeline to utilize the large language models (LLM) to compose high quality text prompts. Specifically, the variation network predicts the representation extracted from the reference speech (which contains full information about voice) based on the text prompt representation. For the prompt generation pipeline, it generates text prompts for speech with a speech understanding model to recognize voice attributes (e.g., gender, speed) from speech and a large language model to formulate text prompt based on the recognition results. Experiments on a large-scale (44K hours) speech dataset demonstrate that compared to the previous works, PromptTTS 2 generates voices more consistent with text prompts and supports the sampling of diverse voice variability, thereby offering users more choices on voice generation. Additionally, the prompt generation pipeline produces high-quality prompts, eliminating the large labeling cost. The demo page of PromptTTS 2 is available online\footnote{https://speechresearch.github.io/prompttts2}.
翻訳日:2023-09-06 14:13:27 公開日:2023-09-05
# s-ID : サブポピュレーションにおける因果効果の同定

s-ID: Causal Effect Identification in a Sub-Population ( http://arxiv.org/abs/2309.02281v1 )

ライセンス: Link先を確認
Amir Mohammad Abouei, Ehsan Mokhtarian, Negar Kiyavash(参考訳) サブ集団における因果推論は、大きな集団内の特定のサブグループに対する介入の因果効果を特定することを含む。 しかし、サブポピュレーションによって導入された微妙さを無視することは、誤った推論につながるか、既存のメソッドの適用性を制限する可能性がある。 我々は、(人口全体とは対照的に)対象のサブ人口の観測データにアクセスするだけでよいサブ人口(s-idと呼ばれる)における因果推論問題を紹介し、提唱する。 サブポピュレーションにおける既存の推論問題は、与えられたデータ分布が全人口に由来することを前提に、s-ID問題に対処できない。 このギャップに対処するために、我々は、そのサブ人口の観測分布から識別可能なサブ人口における因果効果の因果グラフに保持される必要十分条件を提供する。 これらの条件から,s-ID問題に対する健全かつ完全なアルゴリズムを提案する。

Causal inference in a sub-population involves identifying the causal effect of an intervention on a specific subgroup within a larger population. However, ignoring the subtleties introduced by sub-populations can either lead to erroneous inference or limit the applicability of existing methods. We introduce and advocate for a causal inference problem in sub-populations (henceforth called s-ID), in which we merely have access to observational data of the targeted sub-population (as opposed to the entire population). Existing inference problems in sub-populations operate on the premise that the given data distributions originate from the entire population, thus, cannot tackle the s-ID problem. To address this gap, we provide necessary and sufficient conditions that must hold in the causal graph for a causal effect in a sub-population to be identifiable from the observational distribution of that sub-population. Given these conditions, we present a sound and complete algorithm for the s-ID problem.
翻訳日:2023-09-06 14:12:52 公開日:2023-09-05
# 断層検出における残差法の比較

A Comparison of Residual-based Methods on Fault Detection ( http://arxiv.org/abs/2309.02274v1 )

ライセンス: Link先を確認
Chi-Ching Hsu, Gaetan Frusque, Olga Fink(参考訳) 複雑な産業システムにおける障害検出における重要な最初のステップは、その状態を理解することである。 その後、この状態の継続的な監視は、その進化を観察し、時間とともに変化を追跡し、障害を分離するために不可欠となる。 断層は通常稀に発生するため、このモニタリングを教師なしの方法で行うことが不可欠である。 教師なしの方法で障害を検出するだけでなく、異なる潜在的な障害タイプを区別するために様々なアプローチが提案されている。 本研究では,動作条件とセンサ読み取りをマッピングするオートエンコーダと入力出力モデルという,残差に基づく2つのアプローチの総合的な比較を行う。 両手法でシステム全体のセンサワイド残差と集約残差を探索する。 性能評価は, 健康指標構築, 断層検出, 健康指標解釈の3つの課題に焦点をあてる。 そこで本研究では,3種類の故障タイプを含むターボファンエンジンデータセットのサブセットであるc-mapss(commercial modular aero-propulsion system simulation)力学モデルを用いて比較を行った。 すべてのモデルは、健康的なデータにのみ訓練される。 故障検出は、健康状態に基づいて決定される閾値を適用することで達成される。 その結果,両モデルとも平均20サイクルの遅延で故障を検知でき,偽陽性率が低いことが判明した。 両方のモデルで障害検出性能は似ているが、入力出力モデルは潜在的な故障タイプと潜在的な故障コンポーネントに関するより良い解釈可能性を提供する。

An important initial step in fault detection for complex industrial systems is gaining an understanding of their health condition. Subsequently, continuous monitoring of this health condition becomes crucial to observe its evolution, track changes over time, and isolate faults. As faults are typically rare occurrences, it is essential to perform this monitoring in an unsupervised manner. Various approaches have been proposed not only to detect faults in an unsupervised manner but also to distinguish between different potential fault types. In this study, we perform a comprehensive comparison between two residual-based approaches: autoencoders, and the input-output models that establish a mapping between operating conditions and sensor readings. We explore the sensor-wise residuals and aggregated residuals for the entire system in both methods. The performance evaluation focuses on three tasks: health indicator construction, fault detection, and health indicator interpretation. To perform the comparison, we utilize the Commercial Modular Aero-Propulsion System Simulation (C-MAPSS) dynamical model, specifically a subset of the turbofan engine dataset containing three different fault types. All models are trained exclusively on healthy data. Fault detection is achieved by applying a threshold that is determined based on the healthy condition. The detection results reveal that both models are capable of detecting faults with an average delay of around 20 cycles and maintain a low false positive rate. While the fault detection performance is similar for both models, the input-output model provides better interpretability regarding potential fault types and the possible faulty components.
翻訳日:2023-09-06 14:12:35 公開日:2023-09-05
# ソースコード要約のためのファイルコンテキストの再検討

Revisiting File Context for Source Code Summarization ( http://arxiv.org/abs/2309.02326v1 )

ライセンス: Link先を確認
Aakash Bansal, Chia-Yi Su, and Collin McMillan(参考訳) ソースコードの要約は、ソースコードの自然言語記述を書くタスクである。 典型的なユースケースは、APIドキュメントで使用するサブルーチンの短い要約を生成することだ。 コード要約に関する現在の研究の核心はエンコーダ-デコーダニューラルアーキテクチャであり、エンコーダ入力はほとんど常に1つのサブルーチンや他の短いコードスニペットである。 この設定の問題は、コードを記述するために必要な情報がコード自体に存在しないことが多いことです。 本稿では,コード要約における `file context'' の考え方を再考する。 ファイルコンテキストとは、同じファイル内の他のサブルーチンから選択情報をエンコードする考え方である。 本稿では,ファイルコンテキストをエンコードし,その改善を複数のベースラインで示す目的で構築されたTransformerアーキテクチャの新たな改良を提案する。 ファイルコンテキストは、従来のアプローチが苦労する困難な例のサブセットに役立ちます。

Source code summarization is the task of writing natural language descriptions of source code. A typical use case is generating short summaries of subroutines for use in API documentation. The heart of almost all current research into code summarization is the encoder-decoder neural architecture, and the encoder input is almost always a single subroutine or other short code snippet. The problem with this setup is that the information needed to describe the code is often not present in the code itself -- that information often resides in other nearby code. In this paper, we revisit the idea of ``file context'' for code summarization. File context is the idea of encoding select information from other subroutines in the same file. We propose a novel modification of the Transformer architecture that is purpose-built to encode file context and demonstrate its improvement over several baselines. We find that file context helps on a subset of challenging examples where traditional approaches struggle.
翻訳日:2023-09-06 14:05:45 公開日:2023-09-05
# 電磁誘導透過性とオートラータウン分割の識別指標としてのコヒーレンス

Coherence as an indicator to discern electromagnetically induced transparency and Autler-Townes splitting ( http://arxiv.org/abs/2309.02321v1 )

ライセンス: Link先を確認
Arif Warsi Laskar, Pratik Adhikary, Niharika Singh and Saikat Ghosh(参考訳) 電磁誘導透過(eit)とオートラータウン分割(ats)は、強い制御場の存在下で弱いプローブの吸収プロファイルに生じる透明性の幅によって特徴づけられ、区別される。 どちらの現象も同様の分光図形を生成するため、これはしばしば曖昧性をもたらす。 しかし、AIC試験に基づく客観的手法は、プローブ吸収プロファイルに適用した場合の2つの条件を定量的に識別する方法を提供する。 得られた制御場強度の遷移値は,対応する非対角密度行列要素 $\rho_{13}$ の極解析により得られた値よりも高い値であることが判明した。 対照的に、基底状態コヒーレンス $\rho_{12}$ と測定されたコヒーレンス量子化器でテストを行い、ノイズの存在下で予測値の周りの異なる遷移点を得た。 このテストは2つのレジーム間の遷移を正確に捉え、そのような区別を行うのに適切なコヒーレンス尺度が不可欠であることを示す。

Electromagnetically induced transparency (EIT) and Autler-Townes splitting (ATS) are generally characterized and distinguished by the width of the transparency created in the absorption profile of a weak probe in presence of a strong control field. This often leads to ambiguities, as both phenomena yield similar spectroscopic signature. However, an objective method based on the AIC test offers a quantitative way to discern the two regimes when applied on the probe absorption profile. The obtained transition value of control field strength was found to be higher than the value given by pole analysis of the corresponding off-diagonal density matrix element $\rho_{13}$. By contrast, we apply the test on ground state coherence $\rho_{12}$ and the measured coherence quantifier, which yielded a distinct transition point around the predicted value also in presence of noise. Our test accurately captures the transition between the two regimes, indicating that a proper measure of coherence is essential for making such distinctions.
翻訳日:2023-09-06 14:05:30 公開日:2023-09-05
# SeisCLIP:多目的地震特徴抽出のためのマルチモーダルデータによる地震基礎モデル

SeisCLIP: A seismology foundation model pre-trained by multi-modal data for multi-purpose seismic feature extraction ( http://arxiv.org/abs/2309.02320v1 )

ライセンス: Link先を確認
Xu Si, Xinming Wu, Hanlin Sheng, Jun Zhu, Zefeng Li(参考訳) 特定のタスクに対する特定のディープラーニングモデルのトレーニングは、地震学のさまざまな領域で一般的です。 しかし、このアプローチには2つの制限がある: 特定のタスクのラベル付きデータが不十分で、領域をまたいだ一般化が限られている。 これらの課題に対処するため,マルチモーダルデータからのコントラスト学習を通じて学習した地震基盤モデルSeesCLIPを開発した。 時間周波数の地震スペクトルから重要な特徴を抽出するトランスフォーマーエンコーダと、同じ事象の位相とソース情報を統合するMLPエンコーダから構成される。 これらのエンコーダは巨大なデータセットで共同で事前訓練され、その後、様々な下流タスクのために小さなデータセットでスペクトルエンコーダを微調整する。 特に、SeesCLIPのパフォーマンスは、イベント分類、ローカライゼーション、焦点機構分析タスクにおけるベースラインメソッドを上回り、異なる領域の異なるデータセットを使用する。 結論として,SeesCLIPは地震学の基盤モデルとして大きな可能性を秘めており,基礎モデルに基づく地震学研究における革新的な方向性の道を開いた。

Training specific deep learning models for particular tasks is common across various domains within seismology. However, this approach encounters two limitations: inadequate labeled data for certain tasks and limited generalization across regions. To address these challenges, we develop SeisCLIP, a seismology foundation model trained through contrastive learning from multi-modal data. It consists of a transformer encoder for extracting crucial features from time-frequency seismic spectrum and an MLP encoder for integrating the phase and source information of the same event. These encoders are jointly pre-trained on a vast dataset and the spectrum encoder is subsequently fine-tuned on smaller datasets for various downstream tasks. Notably, SeisCLIP's performance surpasses that of baseline methods in event classification, localization, and focal mechanism analysis tasks, employing distinct datasets from different regions. In conclusion, SeisCLIP holds significant potential as a foundational model in the field of seismology, paving the way for innovative directions in foundation-model-based seismology research.
翻訳日:2023-09-06 14:05:12 公開日:2023-09-05
# TiAVox: Sparse-view 4D DSAリコンストラクションのためのタイムアウェア減衰ボクセル

TiAVox: Time-aware Attenuation Voxels for Sparse-view 4D DSA Reconstruction ( http://arxiv.org/abs/2309.02318v1 )

ライセンス: Link先を確認
Zhenghong Zhou, Huangxuan Zhao, Jiemin Fang, Dongqiao Xiang, Lei Chen, Lingxia Wu, Feihong Wu, Wenyu Liu, Chuansheng Zheng and Xinggang Wang(参考訳) 4次元デジタルサブトラクション血管造影 (4D DSA) は, 動静脈奇形 (AVM) や動静脈奇形 (AVF) などの多くの疾患の診断において重要な役割を担っている。 その重要な応用価値にもかかわらず、4D DSAの再構築は複雑な容器と放射性コントラストの流れを効果的にモデル化するために多くの視点を必要とする。 この高放射能問題に対処するため,高画質4Dイメージングの道筋をたどるスパースビュー4D DSA再構成のためのTiAVox(Time-Aware Attenuation Voxel)アプローチを提案する。 さらに、再構成した4D DSA画像から2Dおよび3D DSAイメージング結果を生成することができる。 TiAVoxは空間次元と時間次元の両方の減衰特性を反映する4D減衰ボクセル格子を導入している。 レンダリング画像とスパース2D DSA画像との差を最小限にして最適化する。 ニューラルネットワークがなければ、TiAVoxは特定の物理的解釈性を楽しむことができる。 各学習可能なボクセルのパラメータは減衰係数を表す。 臨床およびシミュレートされたデータセットに対するTiAVoxアプローチの有効性を検証し,臨床から得られたデータセットの30ビューのみを用いて,31.23Peak Signal-to-Noise Ratio(PSNR)を新規ビュー合成するために達成した。 同様に、合成データセットからわずか10ビューで、tiavoxは34.32psnrを新規なビュー合成に、41.40psnrを3d再構成に用いた。 また,TiAVoxの本質成分の相関に関するアブレーション研究も行った。 コードは一般公開される予定だ。

Four-dimensional Digital Subtraction Angiography (4D DSA) plays a critical role in the diagnosis of many medical diseases, such as Arteriovenous Malformations (AVM) and Arteriovenous Fistulas (AVF). Despite its significant application value, the reconstruction of 4D DSA demands numerous views to effectively model the intricate vessels and radiocontrast flow, thereby implying a significant radiation dose. To address this high radiation issue, we propose a Time-aware Attenuation Voxel (TiAVox) approach for sparse-view 4D DSA reconstruction, which paves the way for high-quality 4D imaging. Additionally, 2D and 3D DSA imaging results can be generated from the reconstructed 4D DSA images. TiAVox introduces 4D attenuation voxel grids, which reflect attenuation properties from both spatial and temporal dimensions. It is optimized by minimizing discrepancies between the rendered images and sparse 2D DSA images. Without any neural network involved, TiAVox enjoys specific physical interpretability. The parameters of each learnable voxel represent the attenuation coefficients. We validated the TiAVox approach on both clinical and simulated datasets, achieving a 31.23 Peak Signal-to-Noise Ratio (PSNR) for novel view synthesis using only 30 views on the clinically sourced dataset, whereas traditional Feldkamp-Davis-Kress methods required 133 views. Similarly, with merely 10 views from the synthetic dataset, TiAVox yielded a PSNR of 34.32 for novel view synthesis and 41.40 for 3D reconstruction. We also executed ablation studies to corroborate the essential components of TiAVox. The code will be publically available.
翻訳日:2023-09-06 14:04:51 公開日:2023-09-05
# 事前学習モデルがジャストインタイム欠陥予測に及ぼす影響に関する研究

A study on the impact of pre-trained model on Just-In-Time defect prediction ( http://arxiv.org/abs/2309.02317v1 )

ライセンス: Link先を確認
Yuxiang Guo, Xiaopeng Gao, Zhenyu Zhang, W.K.Chan and Bo Jiang(参考訳) JIT(Just-In-Time)欠陥予測タスクを実行する以前の研究者は、主に、トレーニング済みモデルとトレーニング済みモデルの関係をバックボーンとして調べることなく、トレーニング済みモデルの個々のパフォーマンスに焦点を当ててきた。 本研究では,RoBERTaJIT,CodeBERTJIT,BARTJIT,PLBARTJIT,GPT2JIT,CodeGPTJITの6つのモデルを構築する。 これらのモデルの違いと関係を体系的に検討する。 具体的には、コミットコードとコミットメッセージを入力として使用する際のモデルの性能と、これらの6つのモデル間のトレーニング効率とモデル分布の関係について検討する。 さらに,入力に対する各モデルの感度を調べるため,アブレーション実験を行った。 さらに,ゼロショットと少数ショットのシナリオでモデルがどのように機能するかを検討する。 以上の結果から, 異なるバックボーンに基づく各モデルでは改善が見られ, バックボーンの事前学習モデルが類似している場合には, 使用すべきトレーニングリソースがはるかに近いことが示唆された。 我々はまた、Commitコードが欠陥検出において重要な役割を果たすことを観察し、様々な事前訓練されたモデルが、数ショットのシナリオ下でバランスの取れたデータセットでより良い欠陥検出能力を示す。 これらの結果は、事前学習したモデルを用いてjit欠陥予測タスクを最適化するための新しい洞察を与え、これらのモデルを構築する際により注意を要する要因を強調する。 さらに、CodeGPTJITとGPT2JITは、2000のトレーニングサンプルでそれぞれ2つのデータセットでDeepJITとCC2Vecよりも優れたパフォーマンスを達成した。 これらの結果は,JIT欠陥予測タスク,特に限られたトレーニングデータを持つシナリオにおいて,トランスフォーマーに基づく事前学習モデルの有効性を強調した。

Previous researchers conducting Just-In-Time (JIT) defect prediction tasks have primarily focused on the performance of individual pre-trained models, without exploring the relationship between different pre-trained models as backbones. In this study, we build six models: RoBERTaJIT, CodeBERTJIT, BARTJIT, PLBARTJIT, GPT2JIT, and CodeGPTJIT, each with a distinct pre-trained model as its backbone. We systematically explore the differences and connections between these models. Specifically, we investigate the performance of the models when using Commit code and Commit message as inputs, as well as the relationship between training efficiency and model distribution among these six models. Additionally, we conduct an ablation experiment to explore the sensitivity of each model to inputs. Furthermore, we investigate how the models perform in zero-shot and few-shot scenarios. Our findings indicate that each model based on different backbones shows improvements, and when the backbone's pre-training model is similar, the training resources that need to be consumed are much more closer. We also observe that Commit code plays a significant role in defect detection, and different pre-trained models demonstrate better defect detection ability with a balanced dataset under few-shot scenarios. These results provide new insights for optimizing JIT defect prediction tasks using pre-trained models and highlight the factors that require more attention when constructing such models. Additionally, CodeGPTJIT and GPT2JIT achieved better performance than DeepJIT and CC2Vec on the two datasets respectively under 2000 training samples. These findings emphasize the effectiveness of transformer-based pre-trained models in JIT defect prediction tasks, especially in scenarios with limited training data.
翻訳日:2023-09-06 14:04:20 公開日:2023-09-05
# 自分達の言葉を振り返って:注意規則化によるヘイトスピーチカウンタナラティブ生成の改善

Weigh Your Own Words: Improving Hate Speech Counter Narrative Generation via Attention Regularization ( http://arxiv.org/abs/2309.02311v1 )

ライセンス: Link先を確認
Helena Bonaldi, Giuseppe Attanasio, Debora Nozza, Marco Guerini(参考訳) オンラインヘイトスピーチと戦うための最近の計算手法は、事前学習されたトランスフォーマーベース言語モデル(PLM)を人間の計算データに適応させることにより、カウンターナラティブの自動生成を含む。 しかし、このプロセスはドメイン内のオーバーフィッティングを発生させ、トレーニングデータと同様の憎悪に対してのみ許容される物語を生成するモデルとなり、他のターゲットや現実世界の有害言語への移植性がほとんどない。 本稿では,対談生成のためのplmの一般化能力を向上させるために,新しい注意正規化手法を提案する。 訓練固有の用語への過度な適合は妨げられ、それによってより多様でリッチな物語が生まれる。 我々は,2つの注意に基づく正規化手法を英語のベンチマークデータセット上で実験した。 正規化モデルは、特にトレーニングデータに憎しみのあるターゲットが存在しない場合、自動測定と人的評価の両方の観点から、ほとんどの場合、最先端のアプローチよりも優れた対物物語を生成する。 この作業は、データセットの生成が非常に困難なタスクである、より良い、より柔軟な対音声生成モデルを実現するための道を開く。

Recent computational approaches for combating online hate speech involve the automatic generation of counter narratives by adapting Pretrained Transformer-based Language Models (PLMs) with human-curated data. This process, however, can produce in-domain overfitting, resulting in models generating acceptable narratives only for hatred similar to training data, with little portability to other targets or to real-world toxic language. This paper introduces novel attention regularization methodologies to improve the generalization capabilities of PLMs for counter narratives generation. Overfitting to training-specific terms is then discouraged, resulting in more diverse and richer narratives. We experiment with two attention-based regularization techniques on a benchmark English dataset. Regularized models produce better counter narratives than state-of-the-art approaches in most cases, both in terms of automatic metrics and human evaluation, especially when hateful targets are not present in the training data. This work paves the way for better and more flexible counter-speech generation models, a task for which datasets are highly challenging to produce.
翻訳日:2023-09-06 14:03:50 公開日:2023-09-05
# 競合する位相秩序における隠れサブシステム対称性保護状態

Hidden subsystem symmetry protected states in competing topological orders ( http://arxiv.org/abs/2309.02307v1 )

ライセンス: Link先を確認
Shi Feng(参考訳) 本研究では,2次元サブシステム対称性保護トポロジカル状態と2次元トポロジカル秩序の相互関係を明らかにする。 このモデルは、トーリック符号(tc)とその双対相互作用の強化であり、サブシステム対称性と部分拡張基底状態縮退性を持つ双対格子上で定義されるモデルにマッピングすることができる。 地図は、フラストレーションされたTCを、線形サブシステム対称性を持つ強いSSPTモデルとして、トポロジカルプラケットイジングモデル(TPIM)の2つのコピーに正確に接続する。 TPIMの膜秩序パラメータをフラストレーションTCモデルの秩序パラメータとして2つのTC安定化器に正確にマッピングし、SSPT順序TPIMから自明な常磁性相への遷移を2つの異なる位相秩序間の遷移にマッピングする。 また、このフラストレーションTCの図は、他のSSPTモデルの構築に利用でき、SSPT秩序と2次元の位相秩序との微妙な結びつきを示唆している。

We reveal the connection between two-dimensional subsystem symmetry-protected topological (SSPT) states and two-dimensional topological orders via a self-dual frustrated toric code model. This model, an enrichment of the toric code (TC) with its dual interactions, can be mapped to a model defined on the dual lattice with subsystem symmetries and subextensive ground state degeneracy. The map connects exactly the frustrated TC to two copies of the topological plaquette Ising model (TPIM), as a strong SSPT model with linear subsystem symmetries. The membrane order parameter of TPIM is exactly mapped to dual TC stabilizers as the order parameter of the frustrated TC model, and the transition between the SSPT-ordered TPIM to the trivial paramagnetic phase is mapped to the transition between two distinct topological orders. We also demonstrate that this picture of frustrated TC can be used to construct other SSPT models, hinting at a subtle linkage between SSPT order and topological order in two dimensions.
翻訳日:2023-09-06 14:03:31 公開日:2023-09-05
# 光発振器に符号化されたゴッテマン・キタエフ・プレスキル状態の伝播

Propagating Gottesman-Kitaev-Preskill states encoded in an optical oscillator ( http://arxiv.org/abs/2309.02306v1 )

ライセンス: Link先を確認
Shunya Konno, Warit Asavanant, Fumiya Hanamura, Hironari Nagayoshi, Kosuke Fukui, Atsushi Sakaguchi, Ryuhoh Ide, Fumihiro China, Masahiro Yabuno, Shigehito Miki, Hirotaka Terai, Kan Takase, Mamoru Endo, Petr Marek, Radim Filip, Peter van Loock, Akira Furusawa(参考訳) 有用な量子計算には、低エラーで高速な量子演算と相互接続能力を備えた量子コンピュータが必要である。 単一ボソニック高調波発振器におけるGottesman-Kitaev-Preskill (GKP) qubitと呼ばれる論理量子ビットは、量子コンピュータにおけるエラーの軽減に効率的である。 gkp量子ビットの特に興味深い予測は、ゲートの絡み合いや量子誤差補正のためのシンドローム測定は効率的でノイズロバストな線形演算のみを必要とすることである。 しかし、これまでGKP量子ビットは、非常に非線形な物理系において、機械的およびマイクロ波的周波数でのみ実証されてきた。 拡張性のある線形ツールボックスを自然に提供する物理プラットフォームは光学であり、ほぼ理想的損失のないビームスプリッターと、最適化された量子エラー補正のための完全なアナログシンドロームを得ることができる準単位効率ホモダイン検出器を含む。 追加の光線形増幅器、特に設計されたGKP量子ビット状態は、普遍量子コンピューティングに必要な全てである。 本研究では,通信波長で光を伝搬するGKP状態を実現し,損失補正なしに初めてGKP状態にホモダイン測定を示す。 我々のGKP状態は、室温と大気圧で非古典性と非ガウス性を示すだけでなく、定常量子ビットを持つ既存のスキームとは異なり、伝播波系では実現可能である。 この性質により、光ファイバーと5G通信技術との互換性が強く、大規模量子計算と相互接続が可能である。

A quantum computer with low-error, high-speed quantum operations and capability for interconnections is required for useful quantum computations. A logical qubit called Gottesman-Kitaev-Preskill (GKP) qubit in a single Bosonic harmonic oscillator is efficient for mitigating errors in a quantum computer. The particularly intriguing prospect of GKP qubits is that entangling gates as well as syndrome measurements for quantum error correction only require efficient, noise-robust linear operations. To date, however, GKP qubits have been only demonstrated at mechanical and microwave frequency in a highly nonlinear physical system. The physical platform that naturally provides the scalable linear toolbox is optics, including near-ideal loss-free beam splitters and near-unit efficiency homodyne detectors that allow to obtain the complete analog syndrome for optimized quantum error correction. Additional optical linear amplifiers and specifically designed GKP qubit states are then all that is needed for universal quantum computing. In this work, we realize a GKP state in propagating light at the telecommunication wavelength and demonstrate homodyne meausurements on the GKP states for the first time without any loss corrections. Our GKP states do not only show non-classicality and non-Gaussianity at room temperature and atmospheric pressure, but unlike the existing schemes with stationary qubits, they are realizable in a propagating wave system. This property permits large-scale quantum computation and interconnections, with strong compatibility to optical fibers and 5G telecommunication technology.
翻訳日:2023-09-06 14:02:56 公開日:2023-09-05
# グラフ自己コントラスト表現学習

Graph Self-Contrast Representation Learning ( http://arxiv.org/abs/2309.02304v1 )

ライセンス: Link先を確認
Minjie Chen, Yao Cheng, Ye Wang, Xiang Li, Ming Gao(参考訳) グラフコントラスト学習(GCL)はグラフ表現学習において有望なアプローチとして最近登場した。 既存の手法では、各グラフに対して1つの正とkの負のサンプルを構成するために1-vs-kスキームを採用しているが、kをセットすることは困難である。 これらの欠点は、間違いなくモデルの一般化性と効率に悪影響を及ぼすだろう。 本稿では,これらの問題に対処するために,1つの正と負のサンプルのみを用いるグラフ自己コントラストフレームワークGraphSCを提案し,その目的として三重項損失を選択する。 特に、自己コントラストには2つの意味がある。 まず、グラフSCはグラフ自体からのグラフサンプルの正と負の両方のビューを、様々な強度のグラフ拡張関数を介して生成し、自己コントラストに使用する。 第二に、GraphSCはHilbert-Schmidt Independence Criterion (HSIC)を使用して表現を複数の因子に分解し、正と負のサンプルをよりよく分離する自己コントラスト機構を提案する。 さらに、三重項損失はアンカーと正負のサンプルとの相対距離のみを最適化するので、アンカーと正のサンプルとの絶対距離を確保することは困難である。 したがって,アンカーと正サンプルとの絶対距離を明示的に削減し,収束を加速する。 最後に,教師なし学習と転送学習の両方において,19の最先端手法に対するgraphscの性能評価を行う。

Graph contrastive learning (GCL) has recently emerged as a promising approach for graph representation learning. Some existing methods adopt the 1-vs-K scheme to construct one positive and K negative samples for each graph, but it is difficult to set K. For those methods that do not use negative samples, it is often necessary to add additional strategies to avoid model collapse, which could only alleviate the problem to some extent. All these drawbacks will undoubtedly have an adverse impact on the generalizability and efficiency of the model. In this paper, to address these issues, we propose a novel graph self-contrast framework GraphSC, which only uses one positive and one negative sample, and chooses triplet loss as the objective. Specifically, self-contrast has two implications. First, GraphSC generates both positive and negative views of a graph sample from the graph itself via graph augmentation functions of various intensities, and use them for self-contrast. Second, GraphSC uses Hilbert-Schmidt Independence Criterion (HSIC) to factorize the representations into multiple factors and proposes a masked self-contrast mechanism to better separate positive and negative samples. Further, Since the triplet loss only optimizes the relative distance between the anchor and its positive/negative samples, it is difficult to ensure the absolute distance between the anchor and positive sample. Therefore, we explicitly reduced the absolute distance between the anchor and positive sample to accelerate convergence. Finally, we conduct extensive experiments to evaluate the performance of GraphSC against 19 other state-of-the-art methods in both unsupervised and transfer learning settings.
翻訳日:2023-09-06 14:02:03 公開日:2023-09-05
# CIEM:より良いインストラクションチューニングのためのコントラストインストラクション評価方法

CIEM: Contrastive Instruction Evaluation Method for Better Instruction Tuning ( http://arxiv.org/abs/2309.02301v1 )

ライセンス: Link先を確認
Hongyu Hu, Jiyuan Zhang, Minyi Zhao, Zhenbang Sun(参考訳) 近年,LVLM (Large Vision-Language Models) の研究は,LLM (Large Language Models) の成功により大きく進められている。 しかしながら、これらの視覚・言語モデル(VLM)は幻覚の欠点に悩まされている -- 視覚と言語モダリティの理解が不十分なため、VLMは下流のアプリケーション(例えば存在しないエンティティをキャプションする)を行う際に誤った知覚情報を生成する可能性がある。 一方、幻覚現象に対処するために、LLMと結合した注釈付き画像テキストデータセットを利用して、VLMの幻覚評価のための事実/対照的な質問応答ペアを生成する自動パイプラインであるContrastive Instruction Evaluation Method (CIEM)を導入する。 一方,CIEMに基づくCIT(Contrastive Instruction Tuningの略)は,高品質な事実/対照的な質問応答ペアを自動生成し,モデルチューニングの正当性を改善することで,VLMの幻覚を緩和する。 CIEMとCITに関する広範な実験を通じて、既存のVLMに共通する幻覚問題、幻覚現象を扱うための現在の命令チューニングデータセットの障害、およびCIEMとパブリックデータセットの両方に対してCITチューニングされたVLMの優位性を指摘した。

Nowadays, the research on Large Vision-Language Models (LVLMs) has been significantly promoted thanks to the success of Large Language Models (LLM). Nevertheless, these Vision-Language Models (VLMs) are suffering from the drawback of hallucination -- due to insufficient understanding of vision and language modalities, VLMs may generate incorrect perception information when doing downstream applications, for example, captioning a non-existent entity. To address the hallucination phenomenon, on the one hand, we introduce a Contrastive Instruction Evaluation Method (CIEM), which is an automatic pipeline that leverages an annotated image-text dataset coupled with an LLM to generate factual/contrastive question-answer pairs for the evaluation of the hallucination of VLMs. On the other hand, based on CIEM, we further propose a new instruction tuning method called CIT (the abbreviation of Contrastive Instruction Tuning) to alleviate the hallucination of VLMs by automatically producing high-quality factual/contrastive question-answer pairs and corresponding justifications for model tuning. Through extensive experiments on CIEM and CIT, we pinpoint the hallucination issues commonly present in existing VLMs, the disability of the current instruction-tuning dataset to handle the hallucination phenomenon and the superiority of CIT-tuned VLMs over both CIEM and public datasets.
翻訳日:2023-09-06 14:01:29 公開日:2023-09-05
# NanoT5: リソース制限付き事前トレーニングおよび微調整T5スタイルモデルのためのPyTorchフレームワーク

nanoT5: A PyTorch Framework for Pre-training and Fine-tuning T5-style Models with Limited Resources ( http://arxiv.org/abs/2309.02373v1 )

ライセンス: Link先を確認
Piotr Nawrot(参考訳) T5のような最先端の言語モデルはNLPのランドスケープに革命をもたらしたが、その計算要求は研究コミュニティの大部分を妨げている。 この課題に対処するため、T5モデルの事前学習と微調整を効率的に行うために特別に最適化されたPyTorchフレームワークであるnanoT5を提案する。 nanot5はオプティマイザの違いと優先順位付け効率から得られた洞察に基づいて、t5ベースのモデルをたった16時間で1つのgpuで事前トレーニングすることができる。 このオープンソースフレームワークの導入により、言語モデリングの研究へのアクセシビリティを拡大し、よりユーザフレンドリーなT5(Encoder-Decoder)実装に対するコミュニティの要求に応えたいと思っています。 コントリビューション、コードベース、ソフトウェア/ハードウェアの洞察、事前訓練されたモデルなどを含む私たちのコントリビューションは、NLPにおける研究アクセシビリティとリソースの制約のバランスをとることを目的として、一般に公開されています。

State-of-the-art language models like T5 have revolutionized the NLP landscape, but their computational demands hinder a large portion of the research community. To address this challenge, we present nanoT5, a specially-optimized PyTorch framework for efficient pre-training and fine-tuning of T5 models. Drawing on insights from optimizer differences and prioritizing efficiency, nanoT5 allows a T5-Base model to be pre-trained on a single GPU in just 16 hours, without any loss in performance. With the introduction of this open-source framework, we hope to widen the accessibility to language modelling research and cater to the community's demand for more user-friendly T5 (Encoder-Decoder) implementations. Our contributions, including configurations, codebase, software/hardware insights, and pre-trained models, are available to the public, aiming to strike a balance between research accessibility and resource constraints in NLP.
翻訳日:2023-09-06 13:55:25 公開日:2023-09-05
# step -- 構造化されたシーンテキストスポッティングへ

STEP -- Towards Structured Scene-Text Spotting ( http://arxiv.org/abs/2309.02356v1 )

ライセンス: Link先を確認
Sergi Garcia-Bordils, Dimosthenis Karatzas, Mar\c{c}al Rusi\~nol(参考訳) 我々は,クエリ正規表現に従ってテキストを野放しにするために,シーンテキストocrシステムを必要とする構造化シーンテキストスポッティングタスクを導入する。 一般的なシーンテキストOCRとは対照的に、構造化シーンテキストスポッティングは、ユーザが提供する正規表現に対して、シーンテキストの検出と認識の両方を動的に条件付けしようとする。 この課題に対処するために,提案したテキスト構造を利用してOCRプロセスのガイドを行うStructured TExt sPotter (STEP) を提案する。 STEPは空間を含む正規表現を扱うことができ、単語レベルの粒度での検出に縛られない。 提案手法により,さまざまな実世界の読影シナリオにおけるゼロショット構造化テキストスポッティングの精度が向上し,公開データのみをトレーニングできる。 提案手法の有効性を示すために,価格,日付,シリアル番号,ライセンスプレートなどの分野における重要な読み出しを反映した,語彙外構造化テキストを含む,新たな挑戦的テストデータセットを導入する。 テストシナリオのすべてにおいて,STEPが要求に応じて特別なOCR性能を提供できることを示す。

We introduce the structured scene-text spotting task, which requires a scene-text OCR system to spot text in the wild according to a query regular expression. Contrary to generic scene text OCR, structured scene-text spotting seeks to dynamically condition both scene text detection and recognition on user-provided regular expressions. To tackle this task, we propose the Structured TExt sPotter (STEP), a model that exploits the provided text structure to guide the OCR process. STEP is able to deal with regular expressions that contain spaces and it is not bound to detection at the word-level granularity. Our approach enables accurate zero-shot structured text spotting in a wide variety of real-world reading scenarios and is solely trained on publicly available data. To demonstrate the effectiveness of our approach, we introduce a new challenging test dataset that contains several types of out-of-vocabulary structured text, reflecting important reading applications of fields such as prices, dates, serial numbers, license plates etc. We demonstrate that STEP can provide specialised OCR performance on demand in all tested scenarios.
翻訳日:2023-09-06 13:55:06 公開日:2023-09-05
# ロバストなレゴ操作のための軽量で転送可能な設計

A Lightweight and Transferable Design for Robust LEGO Manipulation ( http://arxiv.org/abs/2309.02354v1 )

ライセンス: Link先を確認
Ruixuan Liu and Yifan Sun and Changliu Liu(参考訳) LEGOは、ピクセル化されたオブジェクトをプロトタイピングするためのよく知られたプラットフォームである。 しかし, ロボットレゴのプロトタイピング(レゴブロックの操作)は, 密接な接続と精度の要求により困難である。 本稿では,安全かつ効率的なロボットレゴ操作について検討する。 特に,ハードウェア・ソフトウェア共同設計による操作の複雑さを低減した。 EOAT(End-of-arm Tool)は、問題次元を小さくし、大きな産業用ロボットがLEGOブロックを容易に操作できるように設計されている。 さらに,ロボットの動きをLEGO操作に安全に最適化するために,進化戦略を用いる。 実験により、EOATはLEGOブロックを操作する上で確実に機能し、学習フレームワークは、操作性能を100%の成功率で効果的かつ安全に改善できることが示された。 共同設計は複数のロボット(FANUC LR-mate 200id/7LとYaskawa GP4)に展開され、その一般化性と伝達性を示す。 最後に,提案手法により,ロボットが複数のプロトタイプを組み立てて分解できる,持続可能なロボットレゴプロトタイプが実現可能であることを示す。

LEGO is a well-known platform for prototyping pixelized objects. However, robotic LEGO prototyping (i.e. manipulating LEGO bricks) is challenging due to the tight connections and accuracy requirement. This paper investigates safe and efficient robotic LEGO manipulation. In particular, this paper reduces the complexity of the manipulation by hardware-software co-design. An end-of-arm tool (EOAT) is designed, which reduces the problem dimension and allows large industrial robots to easily manipulate LEGO bricks. In addition, this paper uses evolution strategy to safely optimize the robot motion for LEGO manipulation. Experiments demonstrate that the EOAT performs reliably in manipulating LEGO bricks and the learning framework can effectively and safely improve the manipulation performance to a 100\% success rate. The co-design is deployed to multiple robots (i.e. FANUC LR-mate 200id/7L and Yaskawa GP4) to demonstrate its generalizability and transferability. In the end, we show that the proposed solution enables sustainable robotic LEGO prototyping, in which the robot can repeatedly assemble and disassemble different prototypes.
翻訳日:2023-09-06 13:54:46 公開日:2023-09-05
# 連続時間ガウス過程ダイナミクスの厳密推論

Exact Inference for Continuous-Time Gaussian Process Dynamics ( http://arxiv.org/abs/2309.02351v1 )

ライセンス: Link先を確認
Katharina Ensinger, Nicholas Tagliapietra, Sebastian Ziesche, Sebastian Trimpe(参考訳) 物理系はしばしば連続時間力学系を通して記述される。 実際には、真の系はしばしば未知であり、測定データから学ばなければならない。 データは通常、センサなどによって離散的に収集されるため、ガウス過程(GP)のダイナミックスモデル学習のほとんどの方法は、一段階の予測に基づいて訓練される。 例えば、不規則にサンプリングされた時間ステップで測定を行う場合や、物理的システム特性を保存しなければならない場合などだ。 したがって、真の連続時間ダイナミクスのgpモデルを目指している。 高次数値積分器は、力学関数を任意の精度で離散化することでこの問題に対処するために必要なツールを提供する。 多くの高階積分器は、正確にGP推論を抽出可能な中間段階における動的評価を必要とする。 以前の研究では、gpの後部を変分推論で近似することでこの問題にしばしば取り組まれている。 しかし、正確なGP推論は、数学的な保証のために多くのシナリオで好まれる。 直接推論を抽出可能にするために,マルチステップおよびテイラー積分器の活用を提案する。 この種の積分器のフレキシブルな推論スキームを導出する方法を実証する。 さらに,学習後から一貫したダイナミクス関数を描けるように調整されたサンプリングスキームを導出する。 これは、動的モデルから一貫した予測をサンプリングするために重要である。 実験的および理論的に、我々の手法が連続時間系の正確な表現をもたらすことを示す。

Physical systems can often be described via a continuous-time dynamical system. In practice, the true system is often unknown and has to be learned from measurement data. Since data is typically collected in discrete time, e.g. by sensors, most methods in Gaussian process (GP) dynamics model learning are trained on one-step ahead predictions. This can become problematic in several scenarios, e.g. if measurements are provided at irregularly-sampled time steps or physical system properties have to be conserved. Thus, we aim for a GP model of the true continuous-time dynamics. Higher-order numerical integrators provide the necessary tools to address this problem by discretizing the dynamics function with arbitrary accuracy. Many higher-order integrators require dynamics evaluations at intermediate time steps making exact GP inference intractable. In previous work, this problem is often tackled by approximating the GP posterior with variational inference. However, exact GP inference is preferable in many scenarios, e.g. due to its mathematical guarantees. In order to make direct inference tractable, we propose to leverage multistep and Taylor integrators. We demonstrate how to derive flexible inference schemes for these types of integrators. Further, we derive tailored sampling schemes that allow to draw consistent dynamics functions from the learned posterior. This is crucial to sample consistent predictions from the dynamics model. We demonstrate empirically and theoretically that our approach yields an accurate representation of the continuous-time system.
翻訳日:2023-09-06 13:54:28 公開日:2023-09-05
# パッチバイパッチパラダイムによるganを用いた無限分解能テクスチャの生成

Generating Infinite-Resolution Texture using GANs with Patch-by-Patch Paradigm ( http://arxiv.org/abs/2309.02340v1 )

ライセンス: Link先を確認
Alhasan Abdellatif and Ahmed H. Elsheikh(参考訳) 本稿では,パッチ・バイ・パッチ・パラダイムに基づくGAN(Generative Adversarial Networks)を用いて,無限解像度のテクスチャ画像を生成する手法を提案する。 既存のテクスチャ合成技術では、生成モデルへのワンフォワードパスを使用して大規模なテクスチャを生成することが多いため、生成画像のスケーラビリティと柔軟性が制限される。 これとは対照的に、提案手法では、単一のテクスチャイメージ上のgansモデルをトレーニングして、ローカルに関連付けられ、シームレスに結合して大きなイメージを形成することができる比較的小さなパッチを生成する。 本手法は局所的なテクスチャ構造を学習し,任意のサイズのテクスチャを生成できると同時に,コヒーレンスや多様性も維持する。 提案手法は,パッチ間の一貫性を確保するためにジェネレータ内の局所パディングに依存し,空間的確率的変調を利用して大規模画像内の局所的な変動や多様性を実現する。 実験結果は,生成テクスチャの視覚的コヒーレンスを維持しつつ,既存のアプローチよりも優れたスケーラビリティを示す。

In this paper, we introduce a novel approach for generating texture images of infinite resolutions using Generative Adversarial Networks (GANs) based on a patch-by-patch paradigm. Existing texture synthesis techniques often rely on generating a large-scale texture using a one-forward pass to the generating model, this limits the scalability and flexibility of the generated images. In contrast, the proposed approach trains GANs models on a single texture image to generate relatively small patches that are locally correlated and can be seamlessly concatenated to form a larger image while using a constant GPU memory footprint. Our method learns the local texture structure and is able to generate arbitrary-size textures, while also maintaining coherence and diversity. The proposed method relies on local padding in the generator to ensure consistency between patches and utilizes spatial stochastic modulation to allow for local variations and diversity within the large-scale image. Experimental results demonstrate superior scalability compared to existing approaches while maintaining visual coherence of generated textures.
翻訳日:2023-09-06 13:54:08 公開日:2023-09-05
# deepbeas3d:ディープラーニングとb-splineの明示的なアクティブサーフェス

DEEPBEAS3D: Deep Learning and B-Spline Explicit Active Surfaces ( http://arxiv.org/abs/2309.02335v1 )

ライセンス: Link先を確認
Helena Williams and Jo\~ao Pedrosa and Muhammad Asad and Laura Cattani and Tom Vercauteren and Jan Deprest and Jan D'hooge(参考訳) ディープラーニングに基づく自動セグメンテーション手法は最先端技術となっている。 しかし、トレーニングとテストデータのドメインシフトがパフォーマンスに影響するため、直接臨床応用には不十分であることが多い。 自動セグメンテーションの失敗は、修正を必要とする準最適結果を引き起こす可能性がある。 これらの問題に対処するために,畳み込みニューラルネットワーク(CNN)からB-スプライン明示型アクティブサーフェス(BEAS)へのセグメンテーションを表現する対話型セグメンテーションフレームワークの3次元拡張を提案する。 BEASは、セグメンテーションを3D空間で滑らかにし、解剖学的妥当性を高め、ユーザが正確に3D表面を編集できるようにする。 骨盤底疾患クリニック(4D View VOCAL, GE Healthcare, Zipf, オーストリア)において, 経腹膜超音波(TPUS)画像から肛門括約筋複合体(AS)の3次元分画作業に適用し, 臨床ツールと比較した。 実験の結果は 1) 提案フレームワークは,ユーザに表面輪郭の明示的な制御を与える。 2) nasa-tlx 指標で算出した作業負荷は, 声帯と比較すると30%減少し, 3) VOCAL (p< 0.00001) よりも70% (170秒) 少ないユーザ時間が必要であった。

Deep learning-based automatic segmentation methods have become state-of-the-art. However, they are often not robust enough for direct clinical application, as domain shifts between training and testing data affect their performance. Failure in automatic segmentation can cause sub-optimal results that require correction. To address these problems, we propose a novel 3D extension of an interactive segmentation framework that represents a segmentation from a convolutional neural network (CNN) as a B-spline explicit active surface (BEAS). BEAS ensures segmentations are smooth in 3D space, increasing anatomical plausibility, while allowing the user to precisely edit the 3D surface. We apply this framework to the task of 3D segmentation of the anal sphincter complex (AS) from transperineal ultrasound (TPUS) images, and compare it to the clinical tool used in the pelvic floor disorder clinic (4D View VOCAL, GE Healthcare; Zipf, Austria). Experimental results show that: 1) the proposed framework gives the user explicit control of the surface contour; 2) the perceived workload calculated via the NASA-TLX index was reduced by 30% compared to VOCAL; and 3) it required 7 0% (170 seconds) less user time than VOCAL (p< 0.00001)
翻訳日:2023-09-06 13:53:51 公開日:2023-09-05
# PolyLUT:超低レイテンシFPGA LUTに基づく推論のための線形多項式学習

PolyLUT: Learning Piecewise Polynomials for Ultra-Low Latency FPGA LUT-based Inference ( http://arxiv.org/abs/2309.02334v1 )

ライセンス: Link先を確認
Marta Andronic and George A. Constantinides(参考訳) フィールドプログラマブルゲートアレイ(FPGA)はディープラーニング推論の実装に広く利用されている。 標準ディープニューラルネットワーク推論は、インターリーブされた線形写像と非線形活性化関数の計算を含む。 超低レイテンシ実装の以前の研究は、FPGAルックアップテーブル(LUT)内の線形マップと非線形アクティベーションの組み合わせをハードコードした。 我々の研究はFPGAのLUTがこれよりもはるかに多種多様な機能を実装するのに使えるという考えに動機づけられている。 本稿では,多変量多項式を基本構成ブロックとして,FPGAデプロイメントのためのニューラルネットワークのトレーニング手法を提案する。 本手法はソフトロジックによって提供される柔軟性を活用し,LUT内の多項式評価をオーバーヘッドゼロで隠蔽する。 多項式構成ブロックを用いることで, 線形関数を用いた場合に比べてソフトロジックの層がかなり少なくなり, レイテンシが大幅に向上し, 面積が改善することを示した。 本手法の有効性を,ネットワーク侵入検出,CERN大型ハドロン衝突型加速器におけるジェット識別,MNISTデータセットを用いた手書き桁認識の3つのタスクで示す。

Field-programmable gate arrays (FPGAs) are widely used to implement deep learning inference. Standard deep neural network inference involves the computation of interleaved linear maps and nonlinear activation functions. Prior work for ultra-low latency implementations has hardcoded the combination of linear maps and nonlinear activations inside FPGA lookup tables (LUTs). Our work is motivated by the idea that the LUTs in an FPGA can be used to implement a much greater variety of functions than this. In this paper, we propose a novel approach to training neural networks for FPGA deployment using multivariate polynomials as the basic building block. Our method takes advantage of the flexibility offered by the soft logic, hiding the polynomial evaluation inside the LUTs with zero overhead. We show that by using polynomial building blocks, we can achieve the same accuracy using considerably fewer layers of soft logic than by using linear functions, leading to significant latency and area improvements. We demonstrate the effectiveness of this approach in three tasks: network intrusion detection, jet identification at the CERN Large Hadron Collider, and handwritten digit recognition using the MNIST dataset.
翻訳日:2023-09-06 13:53:27 公開日:2023-09-05
# レジリエントVAE:SLACリナックコヒーレント光源における教師なし異常検出

Resilient VAE: Unsupervised Anomaly Detection at the SLAC Linac Coherent Light Source ( http://arxiv.org/abs/2309.02333v1 )

ライセンス: Link先を確認
Ryan Humble, William Colocho, Finn O'Shea, Daniel Ratner, Eric Darve(参考訳) 近年,異常検出における深層学習の利用が著しい進歩を遂げている。 しかし、これらの方法は、通常訓練セット(例えば、異常によって汚染されない)や完全なラベル付き訓練セットの存在を主に想定している。 粒子加速器のような多くの複雑な工学システムでは、ラベルはばらばらで高価である。これらのケースで異常検出を行うためには、これらの仮定を捨てて、完全に教師なしの方法を使用する必要がある。 本稿では,異常検出に特化した深部生成モデルである resilient variational autoencoder (resvae) を提案する。 ResVAEはトレーニングデータに存在する異常に対するレジリエンスを示し、特徴レベルの異常属性を提供する。 トレーニングプロセス中、ResVAEは各サンプルの異常確率と個々の特徴を学習し、これらの確率を利用してトレーニングデータ中の異常な例を効果的に無視する。 本稿では, SLAC Linac Coherent Light Source (LCLS) における加速器状態の異常を検出するために提案手法を適用した。 ビーム位置監視システムからのショット・ツー・ショットデータを利用することで,加速器で見える各種異常を識別する上で,特に有用性を示す。

Significant advances in utilizing deep learning for anomaly detection have been made in recent years. However, these methods largely assume the existence of a normal training set (i.e., uncontaminated by anomalies) or even a completely labeled training set. In many complex engineering systems, such as particle accelerators, labels are sparse and expensive; in order to perform anomaly detection in these cases, we must drop these assumptions and utilize a completely unsupervised method. This paper introduces the Resilient Variational Autoencoder (ResVAE), a deep generative model specifically designed for anomaly detection. ResVAE exhibits resilience to anomalies present in the training data and provides feature-level anomaly attribution. During the training process, ResVAE learns the anomaly probability for each sample as well as each individual feature, utilizing these probabilities to effectively disregard anomalous examples in the training data. We apply our proposed method to detect anomalies in the accelerator status at the SLAC Linac Coherent Light Source (LCLS). By utilizing shot-to-shot data from the beam position monitoring system, we demonstrate the exceptional capability of ResVAE in identifying various types of anomalies that are visible in the accelerator.
翻訳日:2023-09-06 13:53:09 公開日:2023-09-05
# 中枢神経系におけるニューロン集団による情報処理:データと操作の数学的構造

Information Processing by Neuron Populations in the Central Nervous System: Mathematical Structure of Data and Operations ( http://arxiv.org/abs/2309.02332v1 )

ライセンス: Link先を確認
Martin N. P. Nilsson(参考訳) 哺乳類の中枢神経系の複雑な構造では、神経細胞が集団を形成する。 軸索束はスパイク列車を媒介としてこれらのクラスター間で通信する。 しかし、これらのニューロン集団の正確なエンコーディングと操作はまだ発見されていない。 私たちの分析では、開始点は可塑性を持つジェネリックニューロンの最先端の機構モデルである。 情報の表現と操作は、有限凸錐の代数によって正確に特徴づけられる。 さらに、これらのニューロン集団は単なる受動送信機ではない。 それらはこの代数構造内の演算子として働き、低レベルプログラミング言語の機能を反映している。 これらの集団が相互に結合すると、簡潔だが強力な代数表現を具現化する。 これらのネットワークにより、特殊化、一般化、新規検出、次元減少、逆モデリング、予測、連想記憶といった多くの操作を実装できる。 広い意味で言えば、この研究は認知科学やaiといった分野の理解を深める上でマトリックス埋め込みの可能性を照らしている。 これらの埋め込みは、ベクトル上の概念処理と階層的記述の能力を高める。

In the intricate architecture of the mammalian central nervous system, neurons form populations. Axonal bundles communicate between these clusters using spike trains as their medium. However, these neuron populations' precise encoding and operations have yet to be discovered. In our analysis, the starting point is a state-of-the-art mechanistic model of a generic neuron endowed with plasticity. From this simple framework emerges a profound mathematical construct: The representation and manipulation of information can be precisely characterized by an algebra of finite convex cones. Furthermore, these neuron populations are not merely passive transmitters. They act as operators within this algebraic structure, mirroring the functionality of a low-level programming language. When these populations interconnect, they embody succinct yet potent algebraic expressions. These networks allow them to implement many operations, such as specialization, generalization, novelty detection, dimensionality reduction, inverse modeling, prediction, and associative memory. In broader terms, this work illuminates the potential of matrix embeddings in advancing our understanding in fields like cognitive science and AI. These embeddings enhance the capacity for concept processing and hierarchical description over their vector counterparts.
翻訳日:2023-09-06 13:52:49 公開日:2023-09-05
# 非定常環境下での安全な自動運転を実現するニューロシンボリックメタ強化ルックアヘッド学習

Neurosymbolic Meta-Reinforcement Lookahead Learning Achieves Safe Self-Driving in Non-Stationary Environments ( http://arxiv.org/abs/2309.02328v1 )

ライセンス: Link先を確認
Haozhe Lei and Quanyan Zhu(参考訳) 機械学習による人工知能の進歩の分野では、機械学習(ML)と自動運転(SD)技術の統合は素晴らしいエンジニアリングの偉業である。 しかし、制御された実験室のシナリオの範囲外の現実世界のアプリケーションでは、自動運転技術の展開は生命に重要な役割を担い、安全性と効率の両方に研究者の注意を向ける必要がある。 実時間実行において、自動運転モデルが不慣れな環境に遭遇した場合、期待する性能向上にのみ焦点をあてる必要はなく、その実行やリアルタイム適応が必要な安全性レベルを維持するためには、十分な考慮が必要となる。 本研究では,<emph{neurosymbolic meta-reinforcement lookahead learning} (numerla) に基づくルックアヘッドシンボリック制約を用いたオンラインメタ強化学習アルゴリズムを提案する。 NUMERLAは、オンライン適応の効率と長期的安全性を確保するという包括的な目標を調和させるルックアヘッド更新機構を提案する。 実験により、NUMERLAはリアルタイム適応能力を持つ自動運転エージェントを推定し、非定常都市での人間と車両の相互作用シナリオ下での安全かつ自己適応運転を実現する。

In the area of learning-driven artificial intelligence advancement, the integration of machine learning (ML) into self-driving (SD) technology stands as an impressive engineering feat. Yet, in real-world applications outside the confines of controlled laboratory scenarios, the deployment of self-driving technology assumes a life-critical role, necessitating heightened attention from researchers towards both safety and efficiency. To illustrate, when a self-driving model encounters an unfamiliar environment in real-time execution, the focus must not solely revolve around enhancing its anticipated performance; equal consideration must be given to ensuring its execution or real-time adaptation maintains a requisite level of safety. This study introduces an algorithm for online meta-reinforcement learning, employing lookahead symbolic constraints based on \emph{Neurosymbolic Meta-Reinforcement Lookahead Learning} (NUMERLA). NUMERLA proposes a lookahead updating mechanism that harmonizes the efficiency of online adaptations with the overarching goal of ensuring long-term safety. Experimental results demonstrate NUMERLA confers the self-driving agent with the capacity for real-time adaptability, leading to safe and self-adaptive driving under non-stationary urban human-vehicle interaction scenarios.
翻訳日:2023-09-06 13:52:33 公開日:2023-09-05
# Doppelgangers: 類似した構造のイメージを明確にする学習

Doppelgangers: Learning to Disambiguate Images of Similar Structures ( http://arxiv.org/abs/2309.02420v1 )

ライセンス: Link先を確認
Ruojin Cai, Joseph Tung, Qianqian Wang, Hadar Averbuch-Elor, Bharath Hariharan, Noah Snavely(参考訳) 一対の視覚的に類似した画像が、同じまたは異なる3次元表面(例えば、対称な建物の同一または反対側)を描いているかどうかを判定する視覚的曖昧化タスクを考える。 2つの画像が異なるが視覚的に類似した3D表面を観察するIllusory画像マッチングは、人間が区別することは困難であり、3D再構成アルゴリズムを導いて誤った結果を生成することもできる。 本稿では,視覚的曖昧化に対する学習に基づくアプローチを提案し,イメージペア上でのバイナリ分類タスクとして定式化する。 そこで我々は,この問題に対する新たなデータセットであるDoppelgangersを紹介した。 また、ローカルキーポイントの空間分布とマッチを入力とするネットワークアーキテクチャも設計し、ローカルキーポイントとグローバルキーの両方についてよりよい推論を可能にします。 提案手法は,難易度を識別し,sfmパイプラインに統合することで,正しく,曖昧な3次元再構成を実現することができることを示す。 コードやデータセット、その他の結果については、プロジェクトのページをご覧ください。

We consider the visual disambiguation task of determining whether a pair of visually similar images depict the same or distinct 3D surfaces (e.g., the same or opposite sides of a symmetric building). Illusory image matches, where two images observe distinct but visually similar 3D surfaces, can be challenging for humans to differentiate, and can also lead 3D reconstruction algorithms to produce erroneous results. We propose a learning-based approach to visual disambiguation, formulating it as a binary classification task on image pairs. To that end, we introduce a new dataset for this problem, Doppelgangers, which includes image pairs of similar structures with ground truth labels. We also design a network architecture that takes the spatial distribution of local keypoints and matches as input, allowing for better reasoning about both local and global cues. Our evaluation shows that our method can distinguish illusory matches in difficult cases, and can be integrated into SfM pipelines to produce correct, disambiguated 3D reconstructions. See our project page for our code, datasets, and more results: http://doppelgangers-3d.github.io/.
翻訳日:2023-09-06 13:44:25 公開日:2023-09-05
# モデル構造情報を用いたSHAP計算

Computing SHAP Efficiently Using Model Structure Information ( http://arxiv.org/abs/2309.02417v1 )

ライセンス: Link先を確認
Linwei Hu, Ke Wang(参考訳) SHAP(SHapley Additive exPlanations)は、機械学習モデルの予測を特徴量に当てはめる一般的な手法となっている。 SHAPの主な課題は計算時間である。 シャプリー値の正確な計算には指数時間複雑さが必要である。 そのため,本論文では多くの近似手法が提案されている。 本稿では,我々の付加性とダミー仮定を満たすSHAP定義(ケナルSHAP,ベースラインSHAPなど)に対して,SHAPを多項式時間以上で正確に計算できる手法を提案する。 モデル構造情報のレベルが異なるモデルに対して、既知の機能的分解、既知のモデルの順序(モデルにおける相互作用の最高順序として定義される)、未知の順序という異なる戦略を開発する。 最初のケースでは、付加的な特性と低次機能コンポーネントからshapを計算する方法を示します。 2つ目の場合、多項式時間でshapを計算できる公式を導出する。 どちらの方法も正確なシェープ結果をもたらす。 最後に,モデルの順序が未知であれば,シェープリー値の近似を反復的に行う方法を提案する。 私たちが提案する3つの手法は、モデル順序が高くない場合に計算的に効率的である。 castor & gomez (2008) で提案されているサンプリング手法と比較し,提案手法の有効性をシミュレーションにより検証した。

SHAP (SHapley Additive exPlanations) has become a popular method to attribute the prediction of a machine learning model on an input to its features. One main challenge of SHAP is the computation time. An exact computation of Shapley values requires exponential time complexity. Therefore, many approximation methods are proposed in the literature. In this paper, we propose methods that can compute SHAP exactly in polynomial time or even faster for SHAP definitions that satisfy our additivity and dummy assumptions (eg, kernal SHAP and baseline SHAP). We develop different strategies for models with different levels of model structure information: known functional decomposition, known order of model (defined as highest order of interaction in the model), or unknown order. For the first case, we demonstrate an additive property and a way to compute SHAP from the lower-order functional components. For the second case, we derive formulas that can compute SHAP in polynomial time. Both methods yield exact SHAP results. Finally, if even the order of model is unknown, we propose an iterative way to approximate Shapley values. The three methods we propose are computationally efficient when the order of model is not high which is typically the case in practice. We compare with sampling approach proposed in Castor & Gomez (2008) using simulation studies to demonstrate the efficacy of our proposed methods.
翻訳日:2023-09-06 13:44:04 公開日:2023-09-05
# 遅延近似ヘッシアンを用いた正則化ニュートン法の一階およびゼロ階実装

First and zeroth-order implementations of the regularized Newton method with lazy approximated Hessians ( http://arxiv.org/abs/2309.02412v1 )

ライセンス: Link先を確認
Nikita Doikov, Geovani Nunes Grapiglia(参考訳) 本研究では,一般の非凸最適化問題を解くために,立方正則ニュートン法の1次(ヘッセンフリー)および0次(微分フリー)実装を開発する。 そのため、微分の有限差分近似を用いる。 アルゴリズムでは、正規化定数と有限差分近似のパラメータの両方に同時に適合する特別な適応探索手順を用いる。 これは我々のスキームを実際のリプシッツ定数を知る必要性から解放する。 さらに、いくつかのイテレーションで計算済みのヘッセン近似行列を再利用する遅延ヘッセン更新をアルゴリズムに装備する。 具体的には、新しい Hessian-free 法に対する関数および勾配評価の $\mathcal{O}(n^{1/2} \epsilon^{-3/2})$ と微分自由法に対する $\mathcal{O}(n^{3/2} \epsilon^{-3/2} )$ の関数評価の $n$ は問題の次元であり、$\epsilon$ は勾配ノルムの所望の精度であることを示す。 これらの複雑性は、一階およびゼロ階の非凸最適化に対する$n$と$\epsilon$の合同依存の観点から、これまで知られていたものを大幅に改善する。

In this work, we develop first-order (Hessian-free) and zero-order (derivative-free) implementations of the Cubically regularized Newton method for solving general non-convex optimization problems. For that, we employ finite difference approximations of the derivatives. We use a special adaptive search procedure in our algorithms, which simultaneously fits both the regularization constant and the parameters of the finite difference approximations. It makes our schemes free from the need to know the actual Lipschitz constants. Additionally, we equip our algorithms with the lazy Hessian update that reuse a previously computed Hessian approximation matrix for several iterations. Specifically, we prove the global complexity bound of $\mathcal{O}( n^{1/2} \epsilon^{-3/2})$ function and gradient evaluations for our new Hessian-free method, and a bound of $\mathcal{O}( n^{3/2} \epsilon^{-3/2} )$ function evaluations for the derivative-free method, where $n$ is the dimension of the problem and $\epsilon$ is the desired accuracy for the gradient norm. These complexity bounds significantly improve the previously known ones in terms of the joint dependence on $n$ and $\epsilon$, for the first-order and zeroth-order non-convex optimization.
翻訳日:2023-09-06 13:43:44 公開日:2023-09-05
# Delta-LoRA:低ランク行列のデルタを用いた微調整高ランクパラメータ

Delta-LoRA: Fine-Tuning High-Rank Parameters with the Delta of Low-Rank Matrices ( http://arxiv.org/abs/2309.02411v1 )

ライセンス: Link先を確認
Bojia Zi, Xianbiao Qi, Lingzhi Wang, Jianan Wang, Kam-Fai Wong, Lei Zhang(参考訳) 本稿では,大規模言語モデル(LLM)に対するパラメータ効率の新たなアプローチであるDelta-LoRAを提案する。 AdaLoRAやDelta-LoRAのような低ランク適応手法とは対照的に、低ランク行列を$\bA$と$\bB$に更新するだけでなく、2つの低ランク行列の積のデルタ値($\bA^{(t+1)}\bB^{(t+1)} - \bA^{(t)}\bB^{(t)}$を更新することで、事前訓練された重みに学習を広める。 このような戦略は、低ランク行列の漸進的な更新が下流タスクが可能な表現の学習に不十分であるという限界に効果的に対処する。 さらに、$\bW$の更新では、$\bW$の勾配を計算してモメンタムを保存する必要がないため、Delta-LoRAはLoRAと同等のメモリ要件と計算コストを共有する。 デルタロラは既存の低ランク適応法よりも大幅に優れていた。 Delta-LoRAの有効性を裏付ける包括的分析により,これらの結果をさらに支援する。

In this paper, we present Delta-LoRA, which is a novel parameter-efficient approach to fine-tune large language models (LLMs). In contrast to LoRA and other low-rank adaptation methods such as AdaLoRA, Delta-LoRA not only updates the low-rank matrices $\bA$ and $\bB$, but also propagate the learning to the pre-trained weights $\bW$ via updates utilizing the delta of the product of two low-rank matrices ($\bA^{(t+1)}\bB^{(t+1)} - \bA^{(t)}\bB^{(t)}$). Such a strategy effectively addresses the limitation that the incremental update of low-rank matrices is inadequate for learning representations capable for downstream tasks. Moreover, as the update of $\bW$ does not need to compute the gradients of $\bW$ and store their momentums, Delta-LoRA shares comparable memory requirements and computational costs with LoRA. Extensive experiments show that Delta-LoRA significantly outperforms existing low-rank adaptation methods. We further support these results with comprehensive analyses that underscore the effectiveness of Delta-LoRA.
翻訳日:2023-09-06 13:43:15 公開日:2023-09-05
# 野生音からリアルな画像を生成する

Generating Realistic Images from In-the-wild Sounds ( http://arxiv.org/abs/2309.02405v1 )

ライセンス: Link先を確認
Taegyeong Lee, Jeonghun Kang, Hyeonyu Kim, Taehwan Kim(参考訳) 野生の音を画像として表現することは、音と画像のペアデータセットの欠如と、これらの2つのモードの特徴の顕著な相違による重要な課題である。 これまでの研究は、限られたカテゴリーや音楽の音声から画像を生成することに重点を置いてきた。 本稿では,野生の音声から画像を生成する新しい手法を提案する。 まず,音声キャプションを用いて音声をテキストに変換する。 第2に,音声の豊かな特性を表現し,音声を可視化するために,音声の注意と文の注意を提案する。 最後に,CLIPscoreとAudioCLIPを用いた直接音響最適化を提案し,拡散モデルを用いて画像を生成する。 実験の結果,本モデルでは,野生の音から高品質な画像を生成することができ,野生の音声データセットの定量的および定性的な評価において,ベースラインに優れることがわかった。

Representing wild sounds as images is an important but challenging task due to the lack of paired datasets between sound and images and the significant differences in the characteristics of these two modalities. Previous studies have focused on generating images from sound in limited categories or music. In this paper, we propose a novel approach to generate images from in-the-wild sounds. First, we convert sound into text using audio captioning. Second, we propose audio attention and sentence attention to represent the rich characteristics of sound and visualize the sound. Lastly, we propose a direct sound optimization with CLIPscore and AudioCLIP and generate images with a diffusion-based model. In experiments, it shows that our model is able to generate high quality images from wild sounds and outperforms baselines in both quantitative and qualitative evaluations on wild audio datasets.
翻訳日:2023-09-06 13:42:46 公開日:2023-09-05
# 音声モーフィング:1声で2つのアイデンティティ

Voice Morphing: Two Identities in One Voice ( http://arxiv.org/abs/2309.02404v1 )

ライセンス: Link先を確認
Sushanta K. Pani, Anurag Chowdhury, Morgan Sandler, Arun Ross(参考訳) 生体認証システムでは、各生体認証サンプルまたはテンプレートは、典型的には単一のアイデンティティに関連付けられる。 しかし、近年の研究では、1つ以上のアイデンティティに適合する「形態」バイオメトリックなサンプルを生成する可能性を実証している。 morph攻撃は現在、生体認証システムの潜在的なセキュリティ脅威として認識されている。 しかし、ほとんどの形態攻撃は、顔、指紋、虹彩などの画像領域で作用する生体計測のモダリティについて研究されている。 本研究では,音声の個人的特徴を模倣した音声サンプルを合成する音声ベースのモーフィックアタックであるvoice identity morphing (vim)を提案する。 実験では,ECAPA-TDNN と x-vector の2つの話者認識システムの脆弱性を,Lbrispeech データセットで 1% の偽一致率で 80% 以上の成功率 (MMPMR) でVIM に評価した。

In a biometric system, each biometric sample or template is typically associated with a single identity. However, recent research has demonstrated the possibility of generating "morph" biometric samples that can successfully match more than a single identity. Morph attacks are now recognized as a potential security threat to biometric systems. However, most morph attacks have been studied on biometric modalities operating in the image domain, such as face, fingerprint, and iris. In this preliminary work, we introduce Voice Identity Morphing (VIM) - a voice-based morph attack that can synthesize speech samples that impersonate the voice characteristics of a pair of individuals. Our experiments evaluate the vulnerabilities of two popular speaker recognition systems, ECAPA-TDNN and x-vector, to VIM, with a success rate (MMPMR) of over 80% at a false match rate of 1% on the Librispeech dataset.
翻訳日:2023-09-06 13:42:31 公開日:2023-09-05
# 文脈埋め込みを用いた置換に基づく意味変化検出

Substitution-based Semantic Change Detection using Contextual Embeddings ( http://arxiv.org/abs/2309.02403v1 )

ライセンス: Link先を確認
Dallas Card(参考訳) セマンティックな変化の測定は、静的な単語ベクトルのみに依存する単純な手法によって、コンテキスト埋め込みを用いた手法の改善に苦慮している。 さらに、以前に提案されたアプローチの多くは、スケーラビリティと解釈の容易さに関するマイナス面に苦しめられている。 本稿では,文脈埋め込みを用いた意味的変化を測定するための簡易な手法を提案する。 このアプローチは直接解釈可能であるだけでなく、ストレージの観点からもはるかに効率的であり、このタスクで最も頻繁に引用されるデータセット全体で優れた平均性能を達成し、静的ワードベクターよりも変更の微妙な調査を可能にする。

Measuring semantic change has thus far remained a task where methods using contextual embeddings have struggled to improve upon simpler techniques relying only on static word vectors. Moreover, many of the previously proposed approaches suffer from downsides related to scalability and ease of interpretation. We present a simplified approach to measuring semantic change using contextual embeddings, relying only on the most probable substitutes for masked terms. Not only is this approach directly interpretable, it is also far more efficient in terms of storage, achieves superior average performance across the most frequently cited datasets for this task, and allows for more nuanced investigation of change than is possible with static word vectors.
翻訳日:2023-09-06 13:42:12 公開日:2023-09-05
# プロトタイプベースデータセットの比較

Prototype-based Dataset Comparison ( http://arxiv.org/abs/2309.02401v1 )

ライセンス: Link先を確認
Nanne van Noord(参考訳) データセットの要約は、データセットインスペクションに対する実りあるアプローチです。 しかし、単一のデータセットに適用すると、視覚概念の発見は最も顕著なものに限られる。 比較アプローチは、このパラダイムを拡張して、最も顕著な概念を越えて、よりリッチなデータセットインスペクションを可能にします。 データセットの比較を可能にするために、データセット間で概念レベルのプロトタイプを学ぶモジュールを提案する。 自己教師付き学習を活用して,これらのプロトタイプを無監督で発見し,このアプローチの利点を2つのケーススタディで実証した。 以上の結果から,データセット比較はデータセット検査を延長し,さらなる作業の促進を期待できる。 コードと使用手順はhttps://github.com/nanne/protosimで利用可能

Dataset summarisation is a fruitful approach to dataset inspection. However, when applied to a single dataset the discovery of visual concepts is restricted to those most prominent. We argue that a comparative approach can expand upon this paradigm to enable richer forms of dataset inspection that go beyond the most prominent concepts. To enable dataset comparison we present a module that learns concept-level prototypes across datasets. We leverage self-supervised learning to discover these prototypes without supervision, and we demonstrate the benefits of our approach in two case-studies. Our findings show that dataset comparison extends dataset inspection and we hope to encourage more works in this direction. Code and usage instructions available at https://github.com/Nanne/ProtoSim
翻訳日:2023-09-06 13:41:59 公開日:2023-09-05
# In-Ear-Voice:In-Ear Sensing Platformのための骨導マイクロホンによるミリワットオーディオ改善に向けて

In-Ear-Voice: Towards Milli-Watt Audio Enhancement With Bone-Conduction Microphones for In-Ear Sensing Platforms ( http://arxiv.org/abs/2309.02393v1 )

ライセンス: Link先を確認
Philipp Schilk, Niccol\`o Polvani, Andrea Ronco, Milos Cernak, Michele Magno(参考訳) 近年の遠隔会議の普及には,ゆがみや不明瞭な音声通信によるフラストレーションが伴っている。 音声強調は、例えば小さな真のワイヤレスイヤホンからの低品質入力信号をノイズ抑圧技術を適用して補償することができる。 このような処理は、低レイテンシの音声アクティビティ検出(vad)と、着用者の声を他人と区別する機能を追加する能力に依存する。 しかし、現代のイヤホンほど小型のデバイスのエネルギー予算は厳しいが、ユーザビリティの懸念からスピーカー固有の音声サンプルやトレーニングに頼らず、最小の電力と処理オーバーヘッドでこの問題に対処しようとするあらゆるシステムが必要となる。 本稿では,新しいMEMS骨伝導マイクロホンをベースとした低消費電力ワイヤレスイヤホン用カスタム研究プラットフォームの設計と実装について述べる。 このようなマイクは、装着者の音声をはるかに分離して記録することができ、パーソナライズされた音声活動の検出とさらなる音声強調アプリケーションを可能にする。 さらに,骨伝導データと,実装された研究プラットフォーム上での繰り返しニューラルネットワークに基づいて,提案する低消費電力音声検出アルゴリズムを精度良く評価する。 このアルゴリズムは従来のマイクロホン入力に基づくアプローチと比較される。 95\%の精度で12.8ms以内の音声検出を実現する骨伝導システムの性能を評価する。 異なるSoC選択は対照的であり、最後の実装は最先端のAmbiq Apollo 4 Blue SoCに基づいており、平均消費電力は14uJあたり2.64mWで、小型の32mAhリイオンセルで43hに達する。

The recent ubiquitous adoption of remote conferencing has been accompanied by omnipresent frustration with distorted or otherwise unclear voice communication. Audio enhancement can compensate for low-quality input signals from, for example, small true wireless earbuds, by applying noise suppression techniques. Such processing relies on voice activity detection (VAD) with low latency and the added capability of discriminating the wearer's voice from others - a task of significant computational complexity. The tight energy budget of devices as small as modern earphones, however, requires any system attempting to tackle this problem to do so with minimal power and processing overhead, while not relying on speaker-specific voice samples and training due to usability concerns. This paper presents the design and implementation of a custom research platform for low-power wireless earbuds based on novel, commercial, MEMS bone-conduction microphones. Such microphones can record the wearer's speech with much greater isolation, enabling personalized voice activity detection and further audio enhancement applications. Furthermore, the paper accurately evaluates a proposed low-power personalized speech detection algorithm based on bone conduction data and a recurrent neural network running on the implemented research platform. This algorithm is compared to an approach based on traditional microphone input. The performance of the bone conduction system, achieving detection of speech within 12.8ms at an accuracy of 95\% is evaluated. Different SoC choices are contrasted, with the final implementation based on the cutting-edge Ambiq Apollo 4 Blue SoC achieving 2.64mW average power consumption at 14uJ per inference, reaching 43h of battery life on a miniature 32mAh li-ion cell and without duty cycling.
翻訳日:2023-09-06 13:41:49 公開日:2023-09-05
# 回路効率によるグロッキングの説明

Explaining grokking through circuit efficiency ( http://arxiv.org/abs/2309.02390v1 )

ライセンス: Link先を確認
Vikrant Varma, Rohin Shah, Zachary Kenton, J\'anos Kram\'ar, Ramana Kumar(参考訳) ニューラルネットワークの一般化における最も驚くべきパズルの1つは、完全なトレーニング精度を持つが、さらにトレーニングが進むと、完全な一般化へと移行するネットワークだ。 一般化解と記憶解をタスクが認めるとグロッキングが起こり、一般化解は学習が遅いが効率が良くなり、同じパラメータのノルムを持つ大きなロジットを生成する。 我々は、記憶回路がより大きなトレーニングデータセットで非効率になる一方、一般化回路はそうではないと仮定し、記憶と一般化が等しく効率的である重要なデータセットサイズが存在することを示唆する。 我々は,グルーキングに関する4つの新しい予測を立証し,その説明に有利な証拠を提示する。 ネットワークが完全なテスト精度から低いテスト精度に回帰するアングロキング(ungrokking)と、ネットワークが完全なテスト精度ではなく部分的な一般化に遅れたことを示すセミグロキング( semi-grokking)である。

One of the most surprising puzzles in neural network generalisation is grokking: a network with perfect training accuracy but poor generalisation will, upon further training, transition to perfect generalisation. We propose that grokking occurs when the task admits a generalising solution and a memorising solution, where the generalising solution is slower to learn but more efficient, producing larger logits with the same parameter norm. We hypothesise that memorising circuits become more inefficient with larger training datasets while generalising circuits do not, suggesting there is a critical dataset size at which memorisation and generalisation are equally efficient. We make and confirm four novel predictions about grokking, providing significant evidence in favour of our explanation. Most strikingly, we demonstrate two novel and surprising behaviours: ungrokking, in which a network regresses from perfect to low test accuracy, and semi-grokking, in which a network shows delayed generalisation to partial rather than perfect test accuracy.
翻訳日:2023-09-06 13:41:18 公開日:2023-09-05
# go-slam:一貫性のある3次元インスタントリコンストラクションのためのグローバル最適化

GO-SLAM: Global Optimization for Consistent 3D Instant Reconstruction ( http://arxiv.org/abs/2309.02436v1 )

ライセンス: Link先を確認
Youmin Zhang, Fabio Tosi, Stefano Mattoccia, Matteo Poggi(参考訳) ニューラルな暗黙表現は近年、高密度な局所化とマッピング(SLAM)において魅力的な結果を示しているが、カメラ追跡における誤差の蓄積と再構成における歪みに悩まされている。 目的〕GO-SLAMは,リアルタイムにポーズと3D再構成をグローバルに最適化するディープラーニングベースの高密度視覚SLAMフレームワークである。 ロバストポーズ推定は、効率的なループ閉包とオンラインフルバンドル調整によって支援され、入力フレームの完全な履歴の学習された大域的幾何を利用して、フレームごとの最適化を行う。 同時に, 暗黙的かつ連続的な表面表現をオンザフライで更新し, 全体的な3次元再構成の一貫性を確保する。 様々な合成データと実世界のデータセットの結果から、go-slamは堅牢性と再構成精度を追跡する最先端のアプローチよりも優れていることが示されている。 さらにGO-SLAMは汎用的で、単分子、ステレオ、RGB-D入力で動作可能である。

Neural implicit representations have recently demonstrated compelling results on dense Simultaneous Localization And Mapping (SLAM) but suffer from the accumulation of errors in camera tracking and distortion in the reconstruction. Purposely, we present GO-SLAM, a deep-learning-based dense visual SLAM framework globally optimizing poses and 3D reconstruction in real-time. Robust pose estimation is at its core, supported by efficient loop closing and online full bundle adjustment, which optimize per frame by utilizing the learned global geometry of the complete history of input frames. Simultaneously, we update the implicit and continuous surface representation on-the-fly to ensure global consistency of 3D reconstruction. Results on various synthetic and real-world datasets demonstrate that GO-SLAM outperforms state-of-the-art approaches at tracking robustness and reconstruction accuracy. Furthermore, GO-SLAM is versatile and can run with monocular, stereo, and RGB-D input.
翻訳日:2023-09-06 13:35:50 公開日:2023-09-05
# 分散環境とエージェント表現による効率的なRL

Efficient RL via Disentangled Environment and Agent Representations ( http://arxiv.org/abs/2309.02435v1 )

ライセンス: Link先を確認
Kevin Gmelin, Shikhar Bahl, Russell Mendonca, Deepak Pathak(参考訳) 自己と環境の分離を認識しているエージェントは、この理解を利用して視覚入力の効果的な表現を形成することができる。 本稿では,RLアルゴリズムにおけるそのような構造化表現を,形状やマスクなどのエージェントの視覚的知識を用いて学習する手法を提案する。 これは単純な補助損失を用いてRL目標に組み込まれる。 提案手法は,5つのロボットにまたがる18種類の難解な視覚シミュレーション環境に対して,最先端のモデルフリーアプローチより優れることを示す。 https://sear-rl.github.io/

Agents that are aware of the separation between themselves and their environments can leverage this understanding to form effective representations of visual input. We propose an approach for learning such structured representations for RL algorithms, using visual knowledge of the agent, such as its shape or mask, which is often inexpensive to obtain. This is incorporated into the RL objective using a simple auxiliary loss. We show that our method, Structured Environment-Agent Representations, outperforms state-of-the-art model-free approaches over 18 different challenging visual simulation environments spanning 5 different robots. Website at https://sear-rl.github.io/
翻訳日:2023-09-06 13:35:33 公開日:2023-09-05
# ReliTalk: 単一のビデオから楽しい講演のポートレート生成

ReliTalk: Relightable Talking Portrait Generation from a Single Video ( http://arxiv.org/abs/2309.02434v1 )

ライセンス: Link先を確認
Haonan Qiu, Zhaoxi Chen, Yuming Jiang, Hang Zhou, Xiangyu Fan, Lei Yang, Wayne Wu and Ziwei Liu(参考訳) 近年、モノクラービデオから鮮明なオーディオ駆動の肖像画を作成する大きな進歩が見られた。 しかし、作成したビデオアバターを背景や照明条件の異なる他のシナリオにシームレスに適応させる方法はまだ未解決である。 一方、既存のライティング研究は主に動的に照らされたデータやマルチビューデータに依存しており、映像のポートレートを作成するには高すぎる。 そこで本稿では,このギャップを埋めるために,単眼映像からの音声駆動型発話ポートレート生成のための新しいフレームワークであるrelitalkを提案する。 我々の重要な洞察は、ポートレートの反射を暗黙的に学習された音声駆動の顔の正常と画像から分解することである。 具体的には,音声特徴から派生した3次元顔先行画像を用いて,暗黙的機能による繊細な正規地図の予測を行う。 これらの予測正常は、与えられた映像の照明条件を動的に推定することにより、反射率分解において重要な役割を果たす。 さらに、複数の照明条件をシミュレートした条件下での恒等性損失を用いて立体視表現を洗練し、単一のモノクロビデオから利用可能な限られたビューによって生じる問題に対処する。 実データと合成データの両方において,提案フレームワークの優越性を検証する広範な実験を行った。 私たちのコードはhttps://github.com/arthur-qiu/ReliTalkで公開されています。

Recent years have witnessed great progress in creating vivid audio-driven portraits from monocular videos. However, how to seamlessly adapt the created video avatars to other scenarios with different backgrounds and lighting conditions remains unsolved. On the other hand, existing relighting studies mostly rely on dynamically lighted or multi-view data, which are too expensive for creating video portraits. To bridge this gap, we propose ReliTalk, a novel framework for relightable audio-driven talking portrait generation from monocular videos. Our key insight is to decompose the portrait's reflectance from implicitly learned audio-driven facial normals and images. Specifically, we involve 3D facial priors derived from audio features to predict delicate normal maps through implicit functions. These initially predicted normals then take a crucial part in reflectance decomposition by dynamically estimating the lighting condition of the given video. Moreover, the stereoscopic face representation is refined using the identity-consistent loss under simulated multiple lighting conditions, addressing the ill-posed problem caused by limited views available from a single monocular video. Extensive experiments validate the superiority of our proposed framework on both real and synthetic datasets. Our code is released in https://github.com/arthur-qiu/ReliTalk.
翻訳日:2023-09-06 13:35:22 公開日:2023-09-05
# 勝利チームの構築:サブモジュラー転送可能性推定手法を用いたソースモデルアンサンブルの選択

Building a Winning Team: Selecting Source Model Ensembles using a Submodular Transferability Estimation Approach ( http://arxiv.org/abs/2309.02429v1 )

ライセンス: Link先を確認
Vimal K B, Saketh Bachu, Tanmay Garg, Niveditha Lakshmi Narasimhan, Raghavan Konuru and Vineeth N Balasubramanian(参考訳) 対象タスクへの公開事前学習モデルの転送可能性の推定は,近年,学習タスクの転送に重要な役割を担っている。 既存の取り組みでは、各モデルを個別に微調整することなく、ユーザが事前訓練されたモデルのプールから1つのモデルを選択できるメトリクスを提案している。 利用可能な事前学習モデルの数の増加とモデルアンサンブルの人気により、与えられた目標タスクに対する複数のソースモデルの転送可能性の研究も必要となる。 既存の取り組みでは、分類層の出力のみを使用してマルチソースアンサンブルの設定で転送可能性を研究し、可能なドメインやタスクのミスマッチを無視する。 さらに、ソースモデル、すなわちそれらの間の結合性因子を選択する際に最も重要な要素を見落とし、アンサンブルの予測におけるパフォーマンスと信頼性に影響を与える可能性がある。 これらのギャップに対処するために, モデル集合の下流タスクへの転送可能性を評価するために, 最適tranSportベースの suBmOdular tRaNsferability metric (OSBORN) を提案する。 OSBORNは、画像領域の違い、タスクの違い、アンサンブル内のモデルの凝集度を総合的に説明し、転送可能性の信頼性を推定する。 画像分類と意味セグメンテーションタスクの両方においてosbornの性能を評価する。 セットアップには28のソースデータセット、11のターゲットデータセット、5つのモデルアーキテクチャ、2つの事前トレーニングメソッドが含まれています。 提案手法を現状の指標であるMS-LEEPとE-LEEPに対してベンチマークし,提案手法を用いて一貫した性能を示す。

Estimating the transferability of publicly available pretrained models to a target task has assumed an important place for transfer learning tasks in recent years. Existing efforts propose metrics that allow a user to choose one model from a pool of pre-trained models without having to fine-tune each model individually and identify one explicitly. With the growth in the number of available pre-trained models and the popularity of model ensembles, it also becomes essential to study the transferability of multiple-source models for a given target task. The few existing efforts study transferability in such multi-source ensemble settings using just the outputs of the classification layer and neglect possible domain or task mismatch. Moreover, they overlook the most important factor while selecting the source models, viz., the cohesiveness factor between them, which can impact the performance and confidence in the prediction of the ensemble. To address these gaps, we propose a novel Optimal tranSport-based suBmOdular tRaNsferability metric (OSBORN) to estimate the transferability of an ensemble of models to a downstream task. OSBORN collectively accounts for image domain difference, task difference, and cohesiveness of models in the ensemble to provide reliable estimates of transferability. We gauge the performance of OSBORN on both image classification and semantic segmentation tasks. Our setup includes 28 source datasets, 11 target datasets, 5 model architectures, and 2 pre-training methods. We benchmark our method against current state-of-the-art metrics MS-LEEP and E-LEEP, and outperform them consistently using the proposed approach.
翻訳日:2023-09-06 13:35:00 公開日:2023-09-05
# テンソル化: マルチウェイ分析とテンソル化ディープニューラルネットワークのための多次元データセットの作成と利用 -- Pythonチュートリアルとサーベイ

Tensorization: Creating and Utilising Multidimensional Datasets for Multiway Analysis and Tensorised Deep Neural Networks -- Python Tutorial and Survey ( http://arxiv.org/abs/2309.02428v1 )

ライセンス: Link先を確認
Manal Helal(参考訳) データのサイズと複雑さが増大し続ければ、効率的かつ効率的な分析方法の必要性はますます重要になる。 2次元データセットを多次元構造に変換するプロセスであるテンソル化は、マルチウェイ解析手法の有望なアプローチとして登場した。 本稿では, テンソル化, 多次元データソース, 様々な多方向解析手法, およびこれらの手法の利点について考察する。 2次元アルゴリズムとPythonのマルチウェイアルゴリズムを比較したBlind Source separation(BSS)の小さな例を示す。 その結果,多方向解析の方が表現力が高いことがわかった。 さらにテンソル化技術は、必要なパラメータの数を減らしながら、次元間の関係性を表現することによって、ディープラーニングモデルを圧縮するのに役立つ。 異なる領域のケーススタディを用いて,多元的解析手法と様々な深層ニューラルネットワークモデルとの統合に関する調査を行った。

As the size and complexity of data continue to increase, the need for efficient and effective analysis methods becomes ever more crucial. Tensorization, the process of converting 2-dimensional datasets into multidimensional structures, has emerged as a promising approach for multiway analysis methods. This paper explores the steps involved in tensorization, multidimensional data sources, various multiway analysis methods employed, and the benefits of these approaches. A small example of Blind Source Separation (BSS) is presented comparing 2-dimensional algorithms and a multiway algorithm in Python. Results indicate that multiway analysis is more expressive. Additionally, tensorization techniques aid in compressing deep learning models by reducing the number of required parameters while enhancing the expression of relationships across dimensions. A survey of the multi-away analysis methods and integration with various Deep Neural Networks models is presented using case studies in different domains.
翻訳日:2023-09-06 13:34:31 公開日:2023-09-05
# 言語エージェントのための認知アーキテクチャ

Cognitive Architectures for Language Agents ( http://arxiv.org/abs/2309.02427v1 )

ライセンス: Link先を確認
Theodore Sumers, Shunyu Yao, Karthik Narasimhan, Thomas L. Griffiths(参考訳) 近年、大規模な言語モデル(llm)や外部リソース(インターネットなど)や内部制御フロー(例えば、プロンプトチェーン)が、接地や推論を必要とするタスクに組み込まれている。 しかし、これらの取り組みは主に断片的であり、完全な言語エージェントを構築するための体系的な枠組みが欠けている。 この課題に対処するために,我々は,シンボリック人工知能におけるエージェント設計の豊富な歴史を描き,新しい認知言語エージェントの波の青写真を作成する。 まず,LLMが生産システムと同等の性質を持つことを示すとともに,生産システムを中心に構築された認知アーキテクチャの発展を反映した基礎化や推論の改善に向けた最近の取り組みを示す。 次に,言語エージェントのための認知アーキテクチャ (CoALA) を提案する。このフレームワークでは,言語エージェントのインスタンス化として,LLMに基づく推論,基礎化,学習,意思決定の多様な手法を体系化する。 最後に、CoALAフレームワークを使用してギャップを強調し、将来より有能な言語エージェントに向けた実行可能な方向性を提案する。

Recent efforts have incorporated large language models (LLMs) with external resources (e.g., the Internet) or internal control flows (e.g., prompt chaining) for tasks requiring grounding or reasoning. However, these efforts have largely been piecemeal, lacking a systematic framework for constructing a fully-fledged language agent. To address this challenge, we draw on the rich history of agent design in symbolic artificial intelligence to develop a blueprint for a new wave of cognitive language agents. We first show that LLMs have many of the same properties as production systems, and recent efforts to improve their grounding or reasoning mirror the development of cognitive architectures built around production systems. We then propose Cognitive Architectures for Language Agents (CoALA), a conceptual framework to systematize diverse methods for LLM-based reasoning, grounding, learning, and decision making as instantiations of language agents in the framework. Finally, we use the CoALA framework to highlight gaps and propose actionable directions toward more capable language agents in the future.
翻訳日:2023-09-06 13:34:15 公開日:2023-09-05
# XGBoost 適応による単調木に基づくGAMIモデル

Monotone Tree-Based GAMI Models by Adapting XGBoost ( http://arxiv.org/abs/2309.02426v1 )

ライセンス: Link先を確認
Linwei Hu, Soroush Aramideh, Jie Chen, Vijayan N. Nair(参考訳) 近年の研究では、機械学習アーキテクチャを用いて、低階関数型ANOVAモデルに主効果と二階相互作用を適合させる。 これらのGAM(GAM + Interaction)モデルは、機能的な主要な効果として直接解釈可能であり、相互作用を簡単にプロットして視覚化することができる。 残念なことに、ESM(Lou et al. 2013)やGAMI-Lin-T(Hu et al. 2022)のような強化木に基づく既存のGAMIモデルにモノトニック性要件を組み込むのは容易ではない。 本稿では,f(x)=\sum_{j,k}f_{j,k}(x_j,x_k) という形式のモデルを検討し,xgboost アルゴリズムを適用し,単調木ベースの gami モデルを開発した。 XGBoostのオプションを使って、モノトーンモデルを$f(x)$に適合させることは簡単である。 しかし、このモデルはまだブラックボックスである。 異なるアプローチをとります 一 フィルター技術を用いて重要な相互作用を決定すること。 二 モノトーンXGBoostアルゴリズムを選択された相互作用に適合させ、最後に 三 モノトーンGAMIモデルを得るために結果を解析し、浄化すること。 シミュレーションされたデータセットは、mono-gami-treeとebmの振る舞いを示すために使われます。 単調性要件はモデル全体に対するものであることに注意。 特定の状況下では、主な効果は単調である。 しかし、例に示すように、相互作用は単調ではない。

Recent papers have used machine learning architecture to fit low-order functional ANOVA models with main effects and second-order interactions. These GAMI (GAM + Interaction) models are directly interpretable as the functional main effects and interactions can be easily plotted and visualized. Unfortunately, it is not easy to incorporate the monotonicity requirement into the existing GAMI models based on boosted trees, such as EBM (Lou et al. 2013) and GAMI-Lin-T (Hu et al. 2022). This paper considers models of the form $f(x)=\sum_{j,k}f_{j,k}(x_j, x_k)$ and develops monotone tree-based GAMI models, called monotone GAMI-Tree, by adapting the XGBoost algorithm. It is straightforward to fit a monotone model to $f(x)$ using the options in XGBoost. However, the fitted model is still a black box. We take a different approach: i) use a filtering technique to determine the important interactions, ii) fit a monotone XGBoost algorithm with the selected interactions, and finally iii) parse and purify the results to get a monotone GAMI model. Simulated datasets are used to demonstrate the behaviors of mono-GAMI-Tree and EBM, both of which use piecewise constant fits. Note that the monotonicity requirement is for the full model. Under certain situations, the main effects will also be monotone. But, as seen in the examples, the interactions will not be monotone.
翻訳日:2023-09-06 13:33:56 公開日:2023-09-05
# トップkフィードバックによるオンラインランキングにおけるMinimaxレグレクトについて

On the Minimax Regret in Online Ranking with Top-k Feedback ( http://arxiv.org/abs/2309.02425v1 )

ライセンス: Link先を確認
Mingyuan Zhang, Ambuj Tewari(参考訳) オンラインランキングでは、学習アルゴリズムが一連のアイテムを順次ランク付けし、関連するスコアの形式でランキングに対するフィードバックを受け取る。 関連スコアを得るには、一般的に人間のアノテーションが関係するので、フィードバックがランキングの上位kドルアイテムに制限される部分的なフィードバック設定を考えることが非常に興味深い。 chaudhuri氏とtewari氏[2017]は、最高$k$のフィードバックでオンラインランキングアルゴリズムを分析するフレームワークを開発した。 彼らの仕事における重要な要素は、部分的監視からのテクニックの使用だった。 本稿では,オンラインランキングをk$フィードバックのトップで調査し,chaudhuri と tewari [2017] が提起したオープンな問題を解決する。 Pairwise Loss, Discounted Cumulative Gain, Precision@n という,すべての$k$に対する最上位の$k$のフィードバックモデルで,ミニマックスの後悔率をフルに評価する。 さらに、precision@nでminimaxの後悔率を達成する効率的なアルゴリズムを与える。

In online ranking, a learning algorithm sequentially ranks a set of items and receives feedback on its ranking in the form of relevance scores. Since obtaining relevance scores typically involves human annotation, it is of great interest to consider a partial feedback setting where feedback is restricted to the top-$k$ items in the rankings. Chaudhuri and Tewari [2017] developed a framework to analyze online ranking algorithms with top $k$ feedback. A key element in their work was the use of techniques from partial monitoring. In this paper, we further investigate online ranking with top $k$ feedback and solve some open problems posed by Chaudhuri and Tewari [2017]. We provide a full characterization of minimax regret rates with the top $k$ feedback model for all $k$ and for the following ranking performance measures: Pairwise Loss, Discounted Cumulative Gain, and Precision@n. In addition, we give an efficient algorithm that achieves the minimax regret rate for Precision@n.
翻訳日:2023-09-06 13:33:30 公開日:2023-09-05
# EgoPCA: Egocentric Hand-Object Interaction Understandingの新しいフレームワーク

EgoPCA: A New Framework for Egocentric Hand-Object Interaction Understanding ( http://arxiv.org/abs/2309.02423v1 )

ライセンス: Link先を確認
Yue Xu, Yong-Lu Li, Zhemin Huang, Michael Xu Liu, Cewu Lu, Yu-Wing Tai, Chi-Keung Tang(参考訳) ego-hoiへの注目が高まり、ego4dやepic-kitchensといった大規模データセットが提案されている。 しかし、現在の研究のほとんどは、第三者の映像行動認識から得られたリソースに基づいている。 この一対一のアクションビデオと三対一のアクションビデオのドメインギャップは、これまで適切に対処されていなかったが、現在のEgo-HOIは準最適である。 本稿では,EgoPCA(Probing, Curation and Adaption)によるEgo-HOI認識を促進するための基盤として,新たなフレームワークを提案する。 総合的な事前トレーニングセット,バランスの取れたテストセット,新たなベースラインを,トレーニング調整戦略によって提供します。 新しいフレームワークでは、ego-hoiベンチマークで最先端のパフォーマンスを実現するだけでなく、さらなる研究を進めるために、新しく効果的なメカニズムと設定をいくつか構築します。 われわれのデータと発見は、Ego-HOIの理解に新たな道を開くだろう。 コードとデータはhttps://mvig-rhos.com/ego_pcaで入手できる。

With the surge in attention to Egocentric Hand-Object Interaction (Ego-HOI), large-scale datasets such as Ego4D and EPIC-KITCHENS have been proposed. However, most current research is built on resources derived from third-person video action recognition. This inherent domain gap between first- and third-person action videos, which have not been adequately addressed before, makes current Ego-HOI suboptimal. This paper rethinks and proposes a new framework as an infrastructure to advance Ego-HOI recognition by Probing, Curation and Adaption (EgoPCA). We contribute comprehensive pre-train sets, balanced test sets and a new baseline, which are complete with a training-finetuning strategy. With our new framework, we not only achieve state-of-the-art performance on Ego-HOI benchmarks but also build several new and effective mechanisms and settings to advance further research. We believe our data and the findings will pave a new way for Ego-HOI understanding. Code and data are available at https://mvig-rhos.com/ego_pca
翻訳日:2023-09-06 13:33:12 公開日:2023-09-05
# ニューラルネットワークの最大の違い - Radon-Kolmogorov-Smirnovテスト

Maximum Mean Discrepancy Meets Neural Networks: The Radon-Kolmogorov-Smirnov Test ( http://arxiv.org/abs/2309.02422v1 )

ライセンス: Link先を確認
Seunghoon Paik, Michael Celentano, Alden Green, Ryan J. Tibshirani(参考訳) 最大平均差分法(英: Maximum mean discrepancy, MMD)とは、ある関数空間に生きるデータ変換のすべての選択に対して$P$と他の$Q$との平均差を最大化することに基づく、非パラメトリックな2サンプルテストの一般的なクラスを指す。 我々は,$\textit{radon bounded variation}$ (rbv) とニューラルネットワーク (parhi and nowak, 2021, 2023) の関数をつなぐ最近の研究に触発されて,与えられた滑らかな順序 $k \geq 0$ の rbv 空間における単位球として $\mathcal{f}$ を取ることで定義される mmd について検討した。 このテストは$\textit{radon-kolmogorov-smirnov}$ (rks) テストと呼ばれ、よく知られた古典的なkolmogorov-smirnov (ks) テストの多次元および高次な滑らかさへの一般化と見なすことができる。 RKSテストの目撃者 – 最大平均差を達成する関数$f$ – は常に、ニューラルネットワーク内の1つのニューロンのリッジスプラインである、ということを証明します。 これにより、現代のディープラーニングツールキットのパワーを活用して、RKSテストの基盤となる基準を最適化できます。 我々は、RKSテストが任意の異なるペア$P \not=Q$の分布を区別し、その漸近的なヌル分布を導出し、RKSテストの強度と弱みを従来のカーネルMDテストと比較する広範な実験を行うことを証明した。

Maximum mean discrepancy (MMD) refers to a general class of nonparametric two-sample tests that are based on maximizing the mean difference over samples from one distribution $P$ versus another $Q$, over all choices of data transformations $f$ living in some function space $\mathcal{F}$. Inspired by recent work that connects what are known as functions of $\textit{Radon bounded variation}$ (RBV) and neural networks (Parhi and Nowak, 2021, 2023), we study the MMD defined by taking $\mathcal{F}$ to be the unit ball in the RBV space of a given smoothness order $k \geq 0$. This test, which we refer to as the $\textit{Radon-Kolmogorov-Smirnov}$ (RKS) test, can be viewed as a generalization of the well-known and classical Kolmogorov-Smirnov (KS) test to multiple dimensions and higher orders of smoothness. It is also intimately connected to neural networks: we prove that the witness in the RKS test -- the function $f$ achieving the maximum mean difference -- is always a ridge spline of degree $k$, i.e., a single neuron in a neural network. This allows us to leverage the power of modern deep learning toolkits to (approximately) optimize the criterion that underlies the RKS test. We prove that the RKS test has asymptotically full power at distinguishing any distinct pair $P \not= Q$ of distributions, derive its asymptotic null distribution, and carry out extensive experiments to elucidate the strengths and weakenesses of the RKS test versus the more traditional kernel MMD test.
翻訳日:2023-09-06 13:32:53 公開日:2023-09-05
# データ保護のための透明性情報のクロスプロファイラ解析に向けて

Towards Cross-Provider Analysis of Transparency Information for Data Protection ( http://arxiv.org/abs/2309.00382v2 )

ライセンス: Link先を確認
Elias Gr\"unewald, Johannes M. Halkenh\"au{\ss}er, Nicola Leschke, Frank Pallas(参考訳) 透明性と説明責任は、法的および技術的な観点から、現代のデータ保護にとって必須の原則である。 したがってGDPRのような規制は、例えば、目的仕様、保管期間、または個人データ処理の法的基盤を含む特定の透明性情報を提供する必要がある。 しかし、あまりにも頻繁に、この情報は事実上法的プライバシーポリシーに隠されており、データの対象が権利を行使することを妨げることが示されている。 本稿では,機械可読フォーマットとグラフデータサイエンス手法を活用し,サービスプロバイダ間の大規模透明性情報分析を可能にする新しい手法を提案する。 具体的には,データ転送を実証的に識別するための透過分析プラットフォーム(TAP)の構築,70以上の実世界のデータコントローラのクラスタ共有のエビデンスに基づく分析,さらには大規模データ共有シナリオのための合成透明性情報を用いたネットワークダイナミクスのシミュレーションなどを提案する。 我々は、高度な透明性情報分析のための一般的なアプローチ、クエリ可能な分析プラットフォームという形でのオープンソースアーキテクチャと実装、多彩な分析例を提供する。 これらの貢献は、データ主題に対するより透明なデータ処理、およびデータ保護当局に対するエビデンスベースの執行プロセスの道を開く。 今後の作業は、私たちの貢献に基づいて、隠れたデータ共有プラクティスに関するさらなる洞察を得ることができます。

Transparency and accountability are indispensable principles for modern data protection, from both, legal and technical viewpoints. Regulations such as the GDPR, therefore, require specific transparency information to be provided including, e.g., purpose specifications, storage periods, or legal bases for personal data processing. However, it has repeatedly been shown that all too often, this information is practically hidden in legalese privacy policies, hindering data subjects from exercising their rights. This paper presents a novel approach to enable large-scale transparency information analysis across service providers, leveraging machine-readable formats and graph data science methods. More specifically, we propose a general approach for building a transparency analysis platform (TAP) that is used to identify data transfers empirically, provide evidence-based analyses of sharing clusters of more than 70 real-world data controllers, or even to simulate network dynamics using synthetic transparency information for large-scale data-sharing scenarios. We provide the general approach for advanced transparency information analysis, an open source architecture and implementation in the form of a queryable analysis platform, and versatile analysis examples. These contributions pave the way for more transparent data processing for data subjects, and evidence-based enforcement processes for data protection authorities. Future work can build upon our contributions to gain more insights into so-far hidden data-sharing practices.
翻訳日:2023-09-06 11:49:00 公開日:2023-09-05
# ギャップはどこへ行ったのか? Long-Range Graphベンチマークの再評価

Where Did the Gap Go? Reassessing the Long-Range Graph Benchmark ( http://arxiv.org/abs/2309.00367v2 )

ライセンス: Link先を確認
Jan T\"onshoff, Martin Ritzert, Eran Rosenbluth, Martin Grohe(参考訳) 最近のLong-Range Graph Benchmark (LRGB, Dwivedi et al. 2022)では、頂点間の長距離相互作用に強く依存するグラフ学習タスクが導入された。 これらのタスクにおいて、Graph TransformerはMessage Passing GNN(MPGNN)を大幅に上回っている。 本稿では、LRGB上で複数のMPGNNベースラインとグラフトランスフォーマーGPS(Ramp\'a\v{s}ek et al. 2022)を再評価する。 厳密な実証分析により,サブオプティカルハイパーパラメータの選択により,報告される性能ギャップが過大評価されていることを実証した。 複数のデータセットにまたがるパフォーマンスギャップは、基本的なハイパーパラメータ最適化後に完全に消える。 さらに、LRGBの視覚データセットの機能正規化の欠如の影響を論じ、LRGBのリンク予測指標の急激な実装を強調した。 本論文の目的は,グラフ機械学習コミュニティにおける経験的厳密さのより高い基準を確立することである。

The recent Long-Range Graph Benchmark (LRGB, Dwivedi et al. 2022) introduced a set of graph learning tasks strongly dependent on long-range interaction between vertices. Empirical evidence suggests that on these tasks Graph Transformers significantly outperform Message Passing GNNs (MPGNNs). In this paper, we carefully reevaluate multiple MPGNN baselines as well as the Graph Transformer GPS (Ramp\'a\v{s}ek et al. 2022) on LRGB. Through a rigorous empirical analysis, we demonstrate that the reported performance gap is overestimated due to suboptimal hyperparameter choices. It is noteworthy that across multiple datasets the performance gap completely vanishes after basic hyperparameter optimization. In addition, we discuss the impact of lacking feature normalization for LRGB's vision datasets and highlight a spurious implementation of LRGB's link prediction metric. The principal aim of our paper is to establish a higher standard of empirical rigor within the graph machine learning community.
翻訳日:2023-09-06 11:48:37 公開日:2023-09-05
# Gorini-Kossakowski-Sudarshan-Lindblad方程式の定常状態の特異性:簡単な証明

Uniqueness of steady states of Gorini-Kossakowski-Sudarshan-Lindblad equations: a simple proof ( http://arxiv.org/abs/2309.00335v2 )

ライセンス: Link先を確認
Hironobu Yoshida(参考訳) 我々はgorini-kossakowski-sudarshan-lindblad方程式の非平衡定常状態の一意性に対する十分条件の簡単な証明を示す。 本稿では,横場イジングモデル,xyzモデル,強結合モデルの例を用いて,十分条件の適用例を示す。

We present a simple proof of a sufficient condition for the uniqueness of non-equilibrium steady states of Gorini-Kossakowski-Sudarshan-Lindblad equations. We demonstrate the applications of the sufficient condition using examples of the transverse-field Ising model, the XYZ model, and the tight-binding model with dephasing.
翻訳日:2023-09-06 11:48:20 公開日:2023-09-05
# メラノーマ検出における機械学習の応用と「Ugly Duckling」と「Suspicious Naevi」の同定

Application of Machine Learning in Melanoma Detection and the Identification of 'Ugly Duckling' and Suspicious Naevi: A Review ( http://arxiv.org/abs/2309.00265v2 )

ライセンス: Link先を確認
Fatima Al Zegair, Nathasha Naranpanawa, Brigid Betz-Stablein, Monika Janda, H. Peter Soyer, Shekhar S. Chandra(参考訳) naeviとして知られる皮膚病変は、サイズ、形状、色など様々な特徴を有する。 悪性黒色腫(英語版)のモニタリングにおいて、"ugly duckling naevus"という概念は、近縁の他の病変と区別される特徴的な特徴を持つ病変を指す。 同一個体内の病変は、通常類似性を共有し、予測可能なパターンに従うため、アヒルのうなずきは異常で、癌性黒色腫の存在を示す可能性がある。 コンピュータ支援診断(CAD)は、機械学習技術と様々な患者分析手法を組み合わせることにより、研究開発分野において重要な役割を担っている。 専門職の不足に対応しながら、正確性を高め、意思決定を簡素化することを目的としている。 これらの自動システムは、専門知識が限られている皮膚がんの診断において特に重要である。 結果として、それらの使用は、医療における省エネ効果とコスト削減につながる可能性がある。 早期黒色腫と後期黒色腫を比較した際の生存率の急激な変化を考えると,早期発見は有効治療と患者の予後に不可欠である。 機械学習(ML)とディープラーニング(DL)技術は、皮膚がんの分類において人気を集め、課題に効果的に対処し、専門家と同等の結果を提供している。 この記事では、メラノーマと疑わしいnaeviを検出する現代の機械学習とディープラーニングアルゴリズムを広く取り上げる。 皮膚がんとさまざまなnaeviに関する一般的な情報から始まり、ai、ml、dl、cadを紹介する。 論文では、皮膚科医のパフォーマンスと比較してメラノーマの検出に畳み込みニューラルネットワーク(CNN)のような様々なML技術が成功したことを論じる。 最後に、UDnaevusの検出と疑わしいnaeviの同定のためのML手法を検討する。

Skin lesions known as naevi exhibit diverse characteristics such as size, shape, and colouration. The concept of an "Ugly Duckling Naevus" comes into play when monitoring for melanoma, referring to a lesion with distinctive features that sets it apart from other lesions in the vicinity. As lesions within the same individual typically share similarities and follow a predictable pattern, an ugly duckling naevus stands out as unusual and may indicate the presence of a cancerous melanoma. Computer-aided diagnosis (CAD) has become a significant player in the research and development field, as it combines machine learning techniques with a variety of patient analysis methods. Its aim is to increase accuracy and simplify decision-making, all while responding to the shortage of specialized professionals. These automated systems are especially important in skin cancer diagnosis where specialist availability is limited. As a result, their use could lead to life-saving benefits and cost reductions within healthcare. Given the drastic change in survival when comparing early stage to late-stage melanoma, early detection is vital for effective treatment and patient outcomes. Machine learning (ML) and deep learning (DL) techniques have gained popularity in skin cancer classification, effectively addressing challenges, and providing results equivalent to that of specialists. This article extensively covers modern Machine Learning and Deep Learning algorithms for detecting melanoma and suspicious naevi. It begins with general information on skin cancer and different types of naevi, then introduces AI, ML, DL, and CAD. The article then discusses the successful applications of various ML techniques like convolutional neural networks (CNN) for melanoma detection compared to dermatologists' performance. Lastly, it examines ML methods for UD naevus detection and identifying suspicious naevi.
翻訳日:2023-09-06 11:48:12 公開日:2023-09-05
# オブジェクト中心多重物体追跡

Object-Centric Multiple Object Tracking ( http://arxiv.org/abs/2309.00233v2 )

ライセンス: Link先を確認
Zixu Zhao, Jiaze Wang, Max Horn, Yizhuo Ding, Tong He, Zechen Bai, Dominik Zietlow, Carl-Johann Simon-Gabriel, Bing Shuai, Zhuowen Tu, Thomas Brox, Bernt Schiele, Yanwei Fu, Francesco Locatello, Zheng Zhang, Tianjun Xiao(参考訳) 教師なしオブジェクト中心の学習方法は、追加のローカライズ情報なしでシーンをエンティティに分割することを可能にし、マルチオブジェクトトラッキング(mot)パイプラインのアノテーション負担を軽減する優れた候補である。 オブジェクトは多くの場合、部分に分割され、時間とともに常に追跡されない。 実際、最先端モデルは、時間を通して関連付けのための追加のIDラベルを持つ教師付きオブジェクト検出に依存することにより、ピクセルレベルの精度と時間的一貫性を達成する。 本稿ではMOTのためのビデオオブジェクト中心モデルを提案する。 オブジェクト中心のスロットを検出出力に適合させるインデックスマージモジュールと、オクルージョンを処理するために完全なオブジェクトプロトタイプを構築するオブジェクトメモリモジュールで構成される。 オブジェクト中心学習に特化して、オブジェクトのローカライゼーションと機能バインディングにはスパース検出ラベル(0%-6.25%)しか必要としない。 自己監督型期待最大化に基づくオブジェクトアソシエーションの損失を考慮し,IDラベルは不要である。 私たちの実験では、既存のオブジェクト中心モデルと完全に監視された最先端モデルとのギャップを大幅に狭め、教師なしのトラッカーを上回っています。

Unsupervised object-centric learning methods allow the partitioning of scenes into entities without additional localization information and are excellent candidates for reducing the annotation burden of multiple-object tracking (MOT) pipelines. Unfortunately, they lack two key properties: objects are often split into parts and are not consistently tracked over time. In fact, state-of-the-art models achieve pixel-level accuracy and temporal consistency by relying on supervised object detection with additional ID labels for the association through time. This paper proposes a video object-centric model for MOT. It consists of an index-merge module that adapts the object-centric slots into detection outputs and an object memory module that builds complete object prototypes to handle occlusions. Benefited from object-centric learning, we only require sparse detection labels (0%-6.25%) for object localization and feature binding. Relying on our self-supervised Expectation-Maximization-inspired loss for object association, our approach requires no ID labels. Our experiments significantly narrow the gap between the existing object-centric model and the fully supervised state-of-the-art and outperform several unsupervised trackers.
翻訳日:2023-09-06 11:47:46 公開日:2023-09-05