このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230919となっている論文です。

PDF登録状況(公開日: 20230919)

TitleAuthorsAbstract論文公表日・翻訳日
# DP-フォワード:フォワードパスにおける差分プライバシーを持つ言語モデルの微調整と推論

DP-Forward: Fine-tuning and Inference on Language Models with Differential Privacy in Forward Pass ( http://arxiv.org/abs/2309.06746v2 )

ライセンス: Link先を確認
Minxin Du, Xiang Yue, Sherman S. M. Chow, Tianhao Wang, Chenyu Huang, Huan Sun, (参考訳) 個人確率勾配勾配(DP-SGD)は、バックプロパゲーションの勾配にノイズを加え、プライバシー漏洩、特にメンバーシップ推論からトレーニングデータを保護している。 インバージョンやセンシティブな属性推論のような(推論時の)脅威をカバーできない。 また、大規模な訓練済み言語モデル(LM)を微調整する際には、ストレージや計算に費用がかかる。 本稿では,LMの前方通過に行列を埋め込んで直接摂動するDP-フォワードを提案する。 トレーニングと推論データに対する厳格なローカルDP要件を満たす。 最小の行列値ノイズを用いてこれをインスタンス化するために、行列ガウス分布から非二項ノイズを引いて解析行列ガウス—力学(aMGM)を考案する。 次に、AMGMノイズを有するLMの異なる隠れ(サブ)層からの摂動出力について検討する。 典型的な3つのタスクのユーティリティは、ほとんどプライベートでないベースラインに到達し、プライバシーレベルではDP-SGDを7.7ppまで上回っている。 最新の高速ライブラリであるDP-SGDと比較して,3$\timesの時間とメモリコストを節約できる。 また、DP-SGDは失敗するのに対し、埋め込み反転と感度特性推定の平均成功率を最大88ppと41ppに下げる。

Differentially private stochastic gradient descent (DP-SGD) adds noise to gradients in back-propagation, safeguarding training data from privacy leakage, particularly membership inference. It fails to cover (inference-time) threats like embedding inversion and sensitive attribute inference. It is also costly in storage and computation when used to fine-tune large pre-trained language models (LMs). We propose DP-Forward, which directly perturbs embedding matrices in the forward pass of LMs. It satisfies stringent local DP requirements for training and inference data. To instantiate it using the smallest matrix-valued noise, we devise an analytic matrix Gaussian~mechanism (aMGM) by drawing possibly non-i.i.d. noise from a matrix Gaussian distribution. We then investigate perturbing outputs from different hidden (sub-)layers of LMs with aMGM noises. Its utility on three typical tasks almost hits the non-private baseline and outperforms DP-SGD by up to 7.7pp at a moderate privacy level. It saves 3$\times$ time and memory costs compared to DP-SGD with the latest high-speed library. It also reduces the average success rates of embedding inversion and sensitive attribute inference by up to 88pp and 41pp, respectively, whereas DP-SGD fails.
翻訳日:2024-03-19 06:43:22 公開日:2023-09-19
# Chained-DP:プライバシ予算のリサイクルは可能か?

Chained-DP: Can We Recycle Privacy Budget? ( http://arxiv.org/abs/2309.07075v3 )

ライセンス: Link先を確認
Jingyi Li, Guangjing Huang, Liekang Zeng, Lin Chen, Xu Chen, (参考訳) プライバシー保護ベクター平均推定は、フェデレーション分析において重要なプリミティブである。 既存のプラクティスは、通常、ユーザと中央サーバと通信する際に、ユーザのベクトルにランダムノイズを注入するローカル微分プライバシ(LDP)メカニズムを利用する。 プライバシとユーティリティのトレードオフのため、プライバシー予算は十分に計画を必要とするボトルネックリソースとして広く認識されている。 本稿では,プライバシ予算のリサイクルの可能性を検討するとともに,ユーザが順次データアグリゲーションを実行して,プライバシ予算のリサイクルを可能にする新しいチェインドDPフレームワークを提案する。 当社のフレームワークにおけるユーザインタラクションをモデル化するためのシーケンシャルなゲームを構築します。 理論的には、シーケンシャルゲームの数学的性質を示し、ナッシュ平衡を解き、証明可能な経済特性を持つインセンティブメカニズムを設計する。 さらに、プライバシー保証プロトコルにより、プライバシー侵害の可能性を軽減し、全体的な暴露を避ける。 提案手法の有効性を数値シミュレーションにより検証し,従来のLPP機構と比較して,プライバシ予算の大幅な削減と推定誤差の低減を図った。

Privacy-preserving vector mean estimation is a crucial primitive in federated analytics. Existing practices usually resort to Local Differentiated Privacy (LDP) mechanisms that inject random noise into users' vectors when communicating with users and the central server. Due to the privacy-utility trade-off, the privacy budget has been widely recognized as the bottleneck resource that requires well-provisioning. In this paper, we explore the possibility of privacy budget recycling and propose a novel Chained-DP framework enabling users to carry out data aggregation sequentially to recycle the privacy budget. We establish a sequential game to model the user interactions in our framework. We theoretically show the mathematical nature of the sequential game, solve its Nash Equilibrium, and design an incentive mechanism with provable economic properties. We further derive a differentially privacy-guaranteed protocol to alleviate potential privacy collusion attacks to avoid holistic exposure. Our numerical simulation validates the effectiveness of Chained-DP, showing that it can significantly save privacy budget and lower estimation error compared to the traditional LDP mechanism.
翻訳日:2024-03-19 04:50:57 公開日:2023-09-19
# 画像伝送のためのプライバシ保護型JSCCを案内するアンタングル情報ボトルネック

Disentangled Information Bottleneck guided Privacy-Protective JSCC for Image Transmission ( http://arxiv.org/abs/2309.10263v1 )

ライセンス: Link先を確認
Lunan Sun, Yang Yang, Mingzhe Chen, Caili Guo, (参考訳) ジョイントソースとチャネルコーディング(JSCC)は、その堅牢性と高い効率性から注目を集めている。 しかし、JSCCは、ソースイメージとチャネル入力の関連性が高いため、プライバシリークに弱い。 本稿では,プライバシ保護型 JSCC (DIB-PPJSCC) による画像伝送のためのアンタングル情報ボトルネックを導出する手法を提案する。 特に,私的・公的な情報を解き放つためのDIB目的を提案する。 目的は、公開サブコードワード内のプライベート情報を圧縮し、プライベートサブコードワード内のプライベート情報を保存し、同時に再構築品質を向上させることである。 DIB目標を用いてJSCCニューラルネットワークを最適化するために、変動近似と密度比のトリックに基づいて、DIB目標の微分可能な推定を導出する。 さらに,パスワードに基づくプライバシ保護(PP)アルゴリズムを設計し,JSCCニューラルネットワークと共同で最適化し,プライベートサブコードワードを暗号化する。 具体的には、送信前のプライベートサブコードワードを暗号化する秘密情報暗号化装置と、対応する復号器を用いて、正統な受信者のプライベート情報を復元する。 盗聴の不確実性を最大化し、復元品質を向上させることを目的とした最大エントロピー原理に基づいて、暗号化器、復号器、JSCC復号器を共同で訓練する損失関数を導出する。 実験結果から,DIB-PPJSCCは,従来のプライバシ保護JSCCや従来の分離手法と比較して,プライベート情報の盗聴精度を最大15\%まで低減し,推測時間10\%を削減できることがわかった。

Joint source and channel coding (JSCC) has attracted increasing attention due to its robustness and high efficiency. However, JSCC is vulnerable to privacy leakage due to the high relevance between the source image and channel input. In this paper, we propose a disentangled information bottleneck guided privacy-protective JSCC (DIB-PPJSCC) for image transmission, which aims at protecting private information as well as achieving superior communication performance at the legitimate receiver. In particular, we propose a DIB objective to disentangle private and public information. The goal is to compress the private information in the public subcodewords, preserve the private information in the private subcodewords and improve the reconstruction quality simultaneously. In order to optimize JSCC neural networks using the DIB objective, we derive a differentiable estimation of the DIB objective based on the variational approximation and the density-ratio trick. Additionally, we design a password-based privacy-protective (PP) algorithm which can be jointly optimized with JSCC neural networks to encrypt the private subcodewords. Specifically, we employ a private information encryptor to encrypt the private subcodewords before transmission, and a corresponding decryptor to recover the private information at the legitimate receiver. A loss function for jointly training the encryptor, decryptor and JSCC decoder is derived based on the maximum entropy principle, which aims at maximizing the eavesdropping uncertainty as well as improving the reconstruction quality. Experimental results show that DIB-PPJSCC can reduce the eavesdropping accuracy on private information up to $15\%$ and reduce $10\%$ inference time compared to existing privacy-protective JSCC and traditional separate methods.
翻訳日:2024-03-19 04:20:31 公開日:2023-09-19
# 投票システムにおける信頼前提

Trust assumptions in voting systems ( http://arxiv.org/abs/2309.10391v1 )

ライセンス: Link先を確認
Kristjan Krips, Nikita Snetkov, Jelizaveta Vakarjuk, Jan Willemson, (参考訳) 異なる投票システムのセキュリティレベルを評価し比較することは、技術的手段が提供され、様々なシステムに関する社会的仮定が著しく異なるため、簡単ではない。 しかしながら、関係者に関する信頼前提は全ての投票システムに存在し、比較の基盤として利用することができる。 本稿では,異なる特性を持つ8つの具体的な投票システム,関係する12種類の政党,投票のための7つの一般的なセキュリティ目標について論じる。 新たな信頼関係は、その批判性から評価され、その結果は、考慮されたシステムの比較に使用される。

Assessing and comparing the security level of different voting systems is non-trivial as the technical means provided for and societal assumptions made about various systems differ significantly. However, trust assumptions concerning the involved parties are present for all voting systems and can be used as a basis for comparison. This paper discusses eight concrete voting systems with different properties, 12 types of parties involved, and seven general security goals set for voting. The emerging trust relations are assessed for their criticality, and the result is used for comparison of the considered systems.
翻訳日:2024-03-19 04:20:31 公開日:2023-09-19
# バックドアによるニューラルラジアンスフィールドのステガノグラフィ

Steganography for Neural Radiance Fields by Backdooring ( http://arxiv.org/abs/2309.10503v1 )

ライセンス: Link先を確認
Weina Dong, Jia Liu, Yan Ke, Lifeng Chen, Wenquan Sun, Xiaozhong Pan, (参考訳) 近年,視覚情報(画像,ビデオ,3Dモデルなど)に対する暗黙の表現の利用がコンピュータビジョン研究において注目されている。 本稿では,暗黙的ニューラル表現を用いた新しいモデルステガノグラフィー手法を提案する。 メッセージ送信者は、視点をキーとして導入することにより、NeRF(Neural Radiance Fields)とその視点合成機能を活用する。 NeRFモデルは、バックドアとして機能する秘密の視点画像を生成する。 その後、オーバーフィッティングを用いてメッセージ抽出器を訓練し、秘密メッセージと秘密視点画像との1対1のマッピングを確立する。 送信者は、訓練されたNeRFモデルとメッセージ抽出装置をオープンチャネルを介して受信者に配信し、受信者は、双方が共有する鍵を利用して、NeRFモデルから秘密ビューのレンダリング画像を取得し、メッセージ抽出装置を介して秘密メッセージを取得する。 視点情報の固有の複雑さは、攻撃者が秘密のメッセージを正確に盗むのを防ぐ。 実験結果から, この文字で訓練したメッセージ抽出器は, 高容量のステガノグラフィーを高速に実現し, メッセージ抽出の精度を100%向上することがわかった。 さらに、NeRFの広い視点鍵空間は、ステガノグラフィースキームの安全性を保証する。

The utilization of implicit representation for visual data (such as images, videos, and 3D models) has recently gained significant attention in computer vision research. In this letter, we propose a novel model steganography scheme with implicit neural representation. The message sender leverages Neural Radiance Fields (NeRF) and its viewpoint synthesis capabilities by introducing a viewpoint as a key. The NeRF model generates a secret viewpoint image, which serves as a backdoor. Subsequently, we train a message extractor using overfitting to establish a one-to-one mapping between the secret message and the secret viewpoint image. The sender delivers the trained NeRF model and the message extractor to the receiver over the open channel, and the receiver utilizes the key shared by both parties to obtain the rendered image in the secret view from the NeRF model, and then obtains the secret message through the message extractor. The inherent complexity of the viewpoint information prevents attackers from stealing the secret message accurately. Experimental results demonstrate that the message extractor trained in this letter achieves high-capacity steganography with fast performance, achieving a 100\% accuracy in message extraction. Furthermore, the extensive viewpoint key space of NeRF ensures the security of the steganography scheme.
翻訳日:2024-03-19 04:20:31 公開日:2023-09-19
# SPFL: 攻撃に対する自己浄化型フェデレーション学習手法

SPFL: A Self-purified Federated Learning Method Against Poisoning Attacks ( http://arxiv.org/abs/2309.10607v1 )

ライセンス: Link先を確認
Zizhen Liu, Weiyang He, Chip-Hong Chang, Jing Ye, Huawei Li, Xiaowei Li, (参考訳) フェデレーテッド・ラーニング(FL)は、プライバシを保存する分散トレーニングデータを引き出すのに魅力的なものだが、参加するクライアントと非インスペクタブルなデータの信頼性は、新たなセキュリティ脅威をもたらす。 この問題に対処するために, ベニグナークライアントが局所浄化モデルの信頼性のある歴史的特徴を利用して, 各イテレーションにおける集約モデルのトレーニングを監督する自己浄化FL (SPFL) 手法を提案する。 教師と生徒のモデルがタスク損失、蒸留損失、注意に基づく損失を同時に局所的に最適化された注意誘導型自己知識蒸留により浄化を行う。 SPFLは、サーバにおける通信プロトコルとアグリゲータに制限を課しません。 既存のセキュアなアグリゲーションアルゴリズムやプロトコルと連動して、セキュリティとプライバシの保証を強化することができる。 実験により,SPFLは様々な毒殺攻撃に対して,最先端のFL防御に優れることを示した。 SPFL訓練モデルの攻撃成功率は、たとえシステム内の悪意ある1つのクライアントを除くすべてのイテレーションで毒攻撃が起動されたとしても、少なくともクリーンモデルの攻撃成功率は3$\%以上である。 平均すると、通常の入力に対するFedAvgよりもモデル品質が向上する。

While Federated learning (FL) is attractive for pulling privacy-preserving distributed training data, the credibility of participating clients and non-inspectable data pose new security threats, of which poisoning attacks are particularly rampant and hard to defend without compromising privacy, performance or other desirable properties of FL. To tackle this problem, we propose a self-purified FL (SPFL) method that enables benign clients to exploit trusted historical features of locally purified model to supervise the training of aggregated model in each iteration. The purification is performed by an attention-guided self-knowledge distillation where the teacher and student models are optimized locally for task loss, distillation loss and attention-based loss simultaneously. SPFL imposes no restriction on the communication protocol and aggregator at the server. It can work in tandem with any existing secure aggregation algorithms and protocols for augmented security and privacy guarantee. We experimentally demonstrate that SPFL outperforms state-of-the-art FL defenses against various poisoning attacks. The attack success rate of SPFL trained model is at most 3$\%$ above that of a clean model, even if the poisoning attack is launched in every iteration with all but one malicious clients in the system. Meantime, it improves the model quality on normal inputs compared to FedAvg, either under attack or in the absence of an attack.
翻訳日:2024-03-19 04:20:31 公開日:2023-09-19
# スタブルコインに対するインセンティブ付きサードパーティのコラテラライゼーション

Incentivized Third Party Collateralization for Stablecoins ( http://arxiv.org/abs/2309.11521v1 )

ライセンス: Link先を確認
Souradeep Das, Dr. Revathi Venkataraman, (参考訳) 主に世界的な価値の保護区として機能することを意図したスタブルコインは、設計において不安定であり、多くの障害点を提示している。 これらのコインを固定値に保持するための主要なメカニズムは、それらのコインを担保で支えることである。 中央集権的エンティティを信頼する必要があるが、これは分散化の全体概念を破るものである。 暗号のコラテラライズされたステンコインには高いコラテラル要求が伴う問題があり、自己液化のリスクが伴う。 本稿では,機能的かつセキュアな安定コイル構築のための代替アーキテクチャを提案する。

Stablecoins, which are primarily intended to function as a global reserve of value are insubstantial in their design and present many failure points. The primary mechanism to enable these coins to hold on to a fixed value is by backing them with collateral. Fiat collateralized stablecoins require users to trust a centralized entity, which breaks the total concept of decentralization. Crypto collateralized stablecoins have issues involving high collateral requirements and introduces risks of auto-liquidation. In this paper we aim to propose an alternative architecture for the creation of a functional and secure stablecoin.
翻訳日:2024-03-19 04:10:47 公開日:2023-09-19
# OpenCog Hyperon: AGIの人間レベルでのフレームワーク

OpenCog Hyperon: A Framework for AGI at the Human Level and Beyond ( http://arxiv.org/abs/2310.18318v1 )

ライセンス: Link先を確認
Ben Goertzel, Vitaly Bogdanov, Michael Duncan, Deborah Duong, Zarathustra Goertzel, Jan Horlings, Matthew Ikle', Lucius Greg Meredith, Alexey Potapov, Andre' Luiz de Senna, Hedra Seid Andres Suarez, Adam Vandervorst, Robert Werko(参考訳) Artificiai General IntelligenceのためのOpenCog Hyperonフレームワークの紹介を紹介する。 Hyperon は OpenCog AGI フレームワークの新たな書き直し/再設計であり、以前の OpenCog バージョンと同様の概念的および認知的原則に基づいているが、数学的、ソフトウェアアーキテクチャ、AI-アルゴリズムレベルで様々な新しいアイデアを取り入れている。 このレビューは簡潔に要約します 1) OpenCogとHyperonの背景にある歴史のいくつか。 2)ソフトウェアシステムとしてのHyperonを支えるコア構造とプロセス。 3)このソフトウェアシステムとsingularitynetエコシステムの分散インフラストラクチャの統合。 4)advanced agiへの希望経路のハイパーオン内で実験的に追求される認知モデル(s) 5) 反映的な自己修正やコードベースの自己改善といった先進的な側面の見通し。 6)暫定的な開発ロードマップと直面するであろう様々な課題 7) Hyperonチームによる、このような仕事を有益な方向に導く方法についての考え方...そして、これらの側面をさらに掘り下げたい読者にリンクと参照を提供する。

An introduction to the OpenCog Hyperon framework for Artificiai General Intelligence is presented. Hyperon is a new, mostly from-the-ground-up rewrite/redesign of the OpenCog AGI framework, based on similar conceptual and cognitive principles to the previous OpenCog version, but incorporating a variety of new ideas at the mathematical, software architecture and AI-algorithm level. This review lightly summarizes: 1) some of the history behind OpenCog and Hyperon, 2) the core structures and processes underlying Hyperon as a software system, 3) the integration of this software system with the SingularityNET ecosystem's decentralized infrastructure, 4) the cognitive model(s) being experimentally pursued within Hyperon on the hopeful path to advanced AGI, 5) the prospects seen for advanced aspects like reflective self-modification and self-improvement of the codebase, 6) the tentative development roadmap and various challenges expected to be faced, 7) the thinking of the Hyperon team regarding how to guide this sort of work in a beneficial direction ... and gives links and references for readers who wish to delve further into any of these aspects.
翻訳日:2024-01-15 16:44:26 公開日:2023-09-19
# 大規模言語モデルによる健康データ相互運用の促進:FHIRによる研究

Enhancing Health Data Interoperability with Large Language Models: A FHIR Study ( http://arxiv.org/abs/2310.12989v1 )

ライセンス: Link先を確認
Yikuan Li, Hanyin Wang, Halid Yerebakan, Yoshihisa Shinagawa and Yuan Luo(参考訳) 本研究では,大規模言語モデル(LLM)の医療データの相互運用性を高める能力について検討した。 我々はLSMを利用して臨床テキストを対応するFHIRリソースに変換する。 臨床テキストの3,671個のスニペットを用いて, LLMは多段階の自然言語処理と人間のキャリブレーション処理を合理化するだけでなく, 人間のアノテーションと比較した場合の精度を90%以上向上することを示した。

In this study, we investigated the ability of the large language model (LLM) to enhance healthcare data interoperability. We leveraged the LLM to convert clinical texts into their corresponding FHIR resources. Our experiments, conducted on 3,671 snippets of clinical text, demonstrated that the LLM not only streamlines the multi-step natural language processing and human calibration processes but also achieves an exceptional accuracy rate of over 90% in exact matches when compared to human annotations.
翻訳日:2024-01-15 16:43:08 公開日:2023-09-19
# risc-v cpu用opencvアルゴリズムのベクトル化改善

Improved vectorization of OpenCV algorithms for RISC-V CPUs ( http://arxiv.org/abs/2311.12808v1 )

ライセンス: Link先を確認
V. D. Volokitin, E. P. Vasiliev, E. A. Kozinov, V. D. Kustikova, A. V. Liniov, Y. A. Rodimkov, A. V. Sysoyev, and I. B. Meyerov(参考訳) オープンで自由なRISC-Vアーキテクチャの開発は、数学、物理学、化学、その他の問題領域における高性能計算や数値シミュレーションなど、幅広い分野において大きな関心を集めている。 本稿では、利用可能なRISC-Vプロセッサ上での計算を高速化する可能性について、広く使われているOpenCVライブラリにおいて、コンピュータビジョンと機械学習アルゴリズムのベクトル化を改善することで論じる。 ベクター化の改善により、RISC-Vデバイスの既存のプロトタイプの計算速度が数千パーセント向上することが示されている。

The development of an open and free RISC-V architecture is of great interest for a wide range of areas, including high-performance computing and numerical simulation in mathematics, physics, chemistry and other problem domains. In this paper, we discuss the possibilities of accelerating computations on available RISC-V processors by improving the vectorization of several computer vision and machine learning algorithms in the widely used OpenCV library. It is shown that improved vectorization speeds up computations on existing prototypes of RISC-V devices by tens of percent.
翻訳日:2024-01-15 15:46:58 公開日:2023-09-19
# 確率的機械学習による無線通信の環境影響の低減

Reducing the Environmental Impact of Wireless Communication via Probabilistic Machine Learning ( http://arxiv.org/abs/2311.12807v1 )

ライセンス: Link先を確認
A. Ryo Koblitz and Lorenzo Maggi and Matthew Andrews(参考訳) 機械学習手法は通信問題、特に次世代無線環境で発生する問題にますます採用されている。 温暖化と社会適応の実現の鍵と見なされているが、通信関連エネルギー消費量は高く、指数関数的な通信トラフィックの増加による6gの効率向上が期待されているものの、将来のネットワークでは増加すると予想されている。 通信セクターにおいて有意義な気候緩和を実現するためには、あらゆるコストでスループットを最大化し、エネルギー効率を優先する考え方が必要とされる。 さらに、これは、モバイル世代が長い開発期間を経た今、既存の(機器交換によるさらなる実施済み炭素コストを伴わない)と将来のネットワークインフラの両方で採用されなければならない。 To that end, we present summaries of two such problems, from both current and next generation network specifications, where probabilistic inference methods were used to great effect: using Bayesian parameter tuning we are able to safely reduce the energy consumption of existing hardware on a live communications network by $11\%$ whilst maintaining operator specified performance envelopes; through spatiotemporal Gaussian process surrogate modeling we reduce the overhead in a next generation hybrid beamforming system by over $60\%$, greatly improving the networks' ability to target highly mobile users such as autonomous vehicles. ベイズ最適化モデルのトレーニングは、例えばディープニューラルネットワークのトレーニングよりもはるかに少ない計算を必要とするため、ベイズパラダイムはエネルギー利用の観点からも有用である。

Machine learning methods are increasingly adopted in communications problems, particularly those arising in next generation wireless settings. Though seen as a key climate mitigation and societal adaptation enabler, communications related energy consumption is high and is expected to grow in future networks in spite of anticipated efficiency gains in 6G due to exponential communications traffic growth. To make meaningful climate mitigation impact in the communications sector, a mindset shift away from maximizing throughput at all cost and towards prioritizing energy efficiency is needed. Moreover, this must be adopted in both existing (without incurring further embodied carbon costs through equipment replacement) and future network infrastructure, given the long development time of mobile generations. To that end, we present summaries of two such problems, from both current and next generation network specifications, where probabilistic inference methods were used to great effect: using Bayesian parameter tuning we are able to safely reduce the energy consumption of existing hardware on a live communications network by $11\%$ whilst maintaining operator specified performance envelopes; through spatiotemporal Gaussian process surrogate modeling we reduce the overhead in a next generation hybrid beamforming system by over $60\%$, greatly improving the networks' ability to target highly mobile users such as autonomous vehicles. The Bayesian paradigm is itself helpful in terms of energy usage, since training a Bayesian optimization model can require much less computation than, say, training a deep neural network.
翻訳日:2024-01-15 15:46:48 公開日:2023-09-19
# MatGD: マテリアルグラフディジタイザ

MatGD: Materials Graph Digitizer ( http://arxiv.org/abs/2311.12806v1 )

ライセンス: Link先を確認
Jaewoong Lee, Wonseok Lee, Jihan Kim(参考訳) 我々は科学グラフからデータ線をデジタル化するツールであるMatGD(Material Graph Digitizer)を開発した。 ツールの背後にあるアルゴリズムは,(1)サブフィギュア内のグラフの識別,(2)軸とデータセクションの分離,(3)無関係なグラフオブジェクトの排除と伝説とのマッチングによるデータ行の識別,(4)データの抽出と保存,の4段階からなる。 バッテリー、触媒、mofの領域で62,534件の論文から501,045件の数字が採掘された。 また,レジェンドマーカーとテキスト検出では,99%以上の精度で性能を実証した。 さらに、データ線を分離する能力は66%で、他のフィギュアマイニングツールよりもはるかに高い。 我々は、このツールが出版物から過去と将来のデータを集めるのに不可欠であると信じており、これらのデータは、材料予測と新しい材料発見を強化する様々な機械学習モデルのトレーニングに使用できる。

We have developed MatGD (Material Graph Digitizer), which is a tool for digitizing a data line from scientific graphs. The algorithm behind the tool consists of four steps: (1) identifying graphs within subfigures, (2) separating axes and data sections, (3) discerning the data lines by eliminating irrelevant graph objects and matching with the legend, and (4) data extraction and saving. From the 62,534 papers in the areas of batteries, catalysis, and MOFs, 501,045 figures were mined. Remarkably, our tool showcased performance with over 99% accuracy in legend marker and text detection. Moreover, its capability for data line separation stood at 66%, which is much higher compared to other existing figure mining tools. We believe that this tool will be integral to collecting both past and future data from publications, and these data can be used to train various machine learning models that can enhance material predictions and new materials discovery.
翻訳日:2024-01-15 15:46:25 公開日:2023-09-19
# fork entropy: オープンソースソフトウェアのフォークの多様性を評価する

Fork Entropy: Assessing the Diversity of Open Source Software Projects' Forks ( http://arxiv.org/abs/2205.09931v2 )

ライセンス: Link先を確認
Liang Wang, Zhiwen Zheng, Xiangchen Wu, Baihui Sang, Jierui Zhang, Xianping Tao(参考訳) githubのようなオープンソースソフトウェア(oss)プラットフォーム上では、プルリクエストのフォークと受け付けは、ossプロジェクトにとって、特に、ソースリポジトリに直接コミットできない外部コントリビュータから、コントリビューションを受け取るための重要なアプローチである。 多数のフォークを持つことは、しばしば、プロジェクトが人気になっていることの指標と見なされる。 フォークの理由、フォーク間のコミュニケーション、フォークの特徴、影響を理解するために広範囲にわたる研究が行われてきたが、OSSプロジェクトのフォークに関する洞察を得るための、単純かつ情報的な方法を提供する定量的な尺度は、数量以外にも少ない。 本稿では,生物多様性とOSSチームの多様性の研究から着想を得て,OSSプロジェクトのフォーク(フォーク人口)の多様性を測定するアプローチを提案する。 我々は,raoの二次エントロピーに基づく新たなフォークエントロピーメトリックを考案し,フォークのプロジェクトファイルへの修正による多様性を測定する。 対称性、連続性、単調性などの特性により、提案されたフォークエントロピー計量は、プロジェクトのフォーク人口の多様性を定量化するのに有効である。 提案手法の有用性をさらに検証するため,github上の50プロジェクトから得られたデータを用いて実証実験を行った。 プロジェクトのフォークエントロピーと、外部コントリビュータのコミット数、外部コントリビュータのプルリクエストの受け入れ率、報告されたバグの数によるプロジェクトの外部生産性など、さまざまな結果変数との間に有意な相関が観察される。 また,フォークエントロピーとフォーク数などの他の因子との有意な相互作用も観察した。 結果として、フォークエントロピーは、単純なフォークの数を超えたOSSプロジェクトのフォークの理解を効果的に強化し、さらなる研究やアプリケーションを支援する可能性があることが示唆された。

On open source software (OSS) platforms such as GitHub, forking and accepting pull-requests is an important approach for OSS projects to receive contributions, especially from external contributors who cannot directly commit into the source repositories. Having a large number of forks is often considered as an indicator of a project being popular. While extensive studies have been conducted to understand the reasons of forking, communications between forks, features and impacts of forks, there are few quantitative measures that can provide a simple yet informative way to gain insights about an OSS project's forks besides their count. Inspired by studies on biodiversity and OSS team diversity, in this paper, we propose an approach to measure the diversity of an OSS project's forks (i.e., its fork population). We devise a novel fork entropy metric based on Rao's quadratic entropy to measure such diversity according to the forks' modifications to project files. With properties including symmetry, continuity, and monotonicity, the proposed fork entropy metric is effective in quantifying the diversity of a project's fork population. To further examine the usefulness of the proposed metric, we conduct empirical studies with data retrieved from fifty projects on GitHub. We observe significant correlations between a project's fork entropy and different outcome variables including the project's external productivity measured by the number of external contributors' commits, acceptance rate of external contributors' pull-requests, and the number of reported bugs. We also observe significant interactions between fork entropy and other factors such as the number of forks. The results suggest that fork entropy effectively enriches our understanding of OSS projects' forks beyond the simple number of forks, and can potentially support further research and applications.
翻訳日:2023-10-24 15:25:59 公開日:2023-09-19
# Robin: ディープラーニングベースのコード分類器のためのロバスト解釈生成法

Robin: A Novel Method to Produce Robust Interpreters for Deep Learning-Based Code Classifiers ( http://arxiv.org/abs/2309.10644v1 )

ライセンス: Link先を確認
Zhen Li, Ruqian Zhang, Deqing Zou, Ning Wang, Yating Li, Shouhuai Xu, Chen Chen, and Hai Jin(参考訳) ディープラーニングはソースコードの分類タスクで広く使われており、機能に応じたコード分類、コードオーサシップの帰属、脆弱性検出などが行われている。 残念ながら、ディープラーニングのブラックボックスの性質は、なぜ分類器(すなわち分類モデル)が特定の例に対して特定の予測を行うのかを解釈し理解しにくくする。 この解釈可能性の欠如(あるいは説明可能性の欠如)は、分類器の予測を信頼すべきかどうかが明確でないため、実践者による採用を妨げる可能性がある。 解釈可能性の欠如は近年多くの研究の動機となっている。 しかし、既存のメソッドはロバストでなく、分散の例に対処できない。 本稿では,与えられた深層学習に基づくコード分類器に対して,underline{rob}ust \underline{in}terpreters を生成する新しい手法を提案する。 Robinの背景にある重要なアイデアは、インタプリタと2つの近似器を組み合わせた新しいハイブリッド構造であり、敵対的なトレーニングとデータ拡張のアイデアを活用している。 実験の結果,robinが生成したインタプリタは,平均で6.11\%高い忠実度(分類器で評価),67.22\%高い忠実度(近似器で評価),15.87倍の堅牢性が得られることがわかった。 さらに、インタプリタは、レムナのものよりも分配外例の影響を受けない47.31\%である。

Deep learning has been widely used in source code classification tasks, such as code classification according to their functionalities, code authorship attribution, and vulnerability detection. Unfortunately, the black-box nature of deep learning makes it hard to interpret and understand why a classifier (i.e., classification model) makes a particular prediction on a given example. This lack of interpretability (or explainability) might have hindered their adoption by practitioners because it is not clear when they should or should not trust a classifier's prediction. The lack of interpretability has motivated a number of studies in recent years. However, existing methods are neither robust nor able to cope with out-of-distribution examples. In this paper, we propose a novel method to produce \underline{Rob}ust \underline{in}terpreters for a given deep learning-based code classifier; the method is dubbed Robin. The key idea behind Robin is a novel hybrid structure combining an interpreter and two approximators, while leveraging the ideas of adversarial training and data augmentation. Experimental results show that on average the interpreter produced by Robin achieves a 6.11\% higher fidelity (evaluated on the classifier), 67.22\% higher fidelity (evaluated on the approximator), and 15.87x higher robustness than that of the three existing interpreters we evaluated. Moreover, the interpreter is 47.31\% less affected by out-of-distribution examples than that of LEMNA.
翻訳日:2023-10-23 07:09:00 公開日:2023-09-19
# 要求品質研究:調和した理論、評価、ロードマップ

Requirements Quality Research: a harmonized Theory, Evaluation, and Roadmap ( http://arxiv.org/abs/2309.10355v1 )

ライセンス: Link先を確認
Julian Frattini, Lloyd Montgomery, Jannik Fischbach, Daniel Mendez, Davide Fucci, Michael Unterkalmsteiner(参考訳) 高品質な要件は、欠陥をソフトウェア開発ライフサイクルの後期に伝播するリスクを最小限にします。 十分なレベルの品質を達成することが、要件エンジニアリングの大きな目標です。 これには明確な定義と要求品質の理解が必要です。 最近の出版物は、品質の複雑な概念を否定する努力をしているが、要求品質研究コミュニティには、進歩を導くアイデンティティと明確な構造が欠けている。 本研究コメンタリーでは,(1)中核となる概念を整理する調和した要求品質理論,(2)要求品質研究の現状の評価,(3)分野の進歩を導くための研究ロードマップについて論じる。 要求品質研究は規範的ルールに重点を置いており、要求品質とその後のソフトウェア開発活動への影響を結びつけることに失敗し、研究の関連性を阻害していることを示す。 提案された要求品質理論の順守と概要のロードマップに従うことは、このギャップを修正するためのステップとなるでしょう。

High-quality requirements minimize the risk of propagating defects to later stages of the software development life cycle. Achieving a sufficient level of quality is a major goal of requirements engineering. This requires a clear definition and understanding of requirements quality. Though recent publications make an effort at disentangling the complex concept of quality, the requirements quality research community lacks identity and clear structure which guides advances and puts new findings into an holistic perspective. In this research commentary we contribute (1) a harmonized requirements quality theory organizing its core concepts, (2) an evaluation of the current state of requirements quality research, and (3) a research roadmap to guide advancements in the field. We show that requirements quality research focuses on normative rules and mostly fails to connect requirements quality to its impact on subsequent software development activities, impeding the relevance of the research. Adherence to the proposed requirements quality theory and following the outlined roadmap will be a step towards amending this gap.
翻訳日:2023-10-23 07:08:31 公開日:2023-09-19
# 検索型深部沈降生成の再検討と改善

Revisiting and Improving Retrieval-Augmented Deep Assertion Generation ( http://arxiv.org/abs/2309.10264v1 )

ライセンス: Link先を確認
Weifeng Sun, Hongyan Li, Meng Yan, Yan Lei, Hongyu Zhang(参考訳) 単体テストは、テスト中のユニットの正しさを検証し、ソフトウェア開発プロセスにおいて不可欠な活動となっている。 ユニットテストは、テスト対象のユニットを特定の状態に駆動するテストプレフィックスと、その状態の振る舞いを特定するテストオラクル(例:アサーション)で構成される。 単体テストの実施における手作業を減らすため、Yuらは情報検索(IR)と深層学習に基づくアプローチを組み合わせて、単体テストのアサーションを生成する統合的アプローチ(短期的な統合)を提案した。 将来性はありますが,統合が機能するのか,あるいは機能しないのか,というナレッジギャップは依然としてあります。 本稿では,統合の有効性に関する詳細な分析を行う。 私たちの分析では、 1) 統合の全体的なパフォーマンスは、主にアサーションの回収に成功したためです。 2) 検索された焦点テスト(焦点テストはテスト対象のプレフィックスとテスト対象のユニットを含む。)と入力焦点テストとの意味的差異を理解するのに苦労している。 3) 統合は特定のタイプの編集操作に限定され、トークンの追加や削除は処理できない。 本稿では,アサーション生成の有効性を向上させるために,EditASという新しい検索・編集手法を提案する。 具体的には、EditASは事前に定義されたコーパスから同様のフォーカステストを取得し、そのアサーションをプロトタイプとして扱う。 そして、EditASはプロトタイプの情報を再利用し、自動的にプロトタイプを編集する。 EditASは統合よりも一般化できる。 2つの大規模データセットを実験した結果、editasは最先端のアプローチよりも優れており、それぞれ10.00%-87.48%と3.30%-42.65%の精度とbleuスコアが向上した。

Unit testing validates the correctness of the unit under test and has become an essential activity in software development process. A unit test consists of a test prefix that drives the unit under test into a particular state, and a test oracle (e.g., assertion), which specifies the behavior in that state. To reduce manual efforts in conducting unit testing, Yu et al. proposed an integrated approach (integration for short), combining information retrieval (IR) with a deep learning-based approach, to generate assertions for a unit test. Despite promising, there is still a knowledge gap as to why or where integration works or does not work. In this paper, we describe an in-depth analysis of the effectiveness of integration. Our analysis shows that: 1) The overall performance of integration is mainly due to its success in retrieving assertions. 2) integration struggles to understand the semantic differences between the retrieved focal-test (focal-test includes a test prefix and a unit under test) and the input focal-test; 3) integration is limited to specific types of edit operations and cannot handle token addition or deletion. To improve the effectiveness of assertion generation, this paper proposes a novel retrieve-and-edit approach named EditAS. Specifically, EditAS first retrieves a similar focal-test from a pre-defined corpus and treats its assertion as a prototype. Then, EditAS reuses the information in the prototype and edits the prototype automatically. EditAS is more generalizable than integration. We conduct experiments on two large-scale datasets and experimental results demonstrate that EditAS outperforms the state-of-the-art approaches, with an average improvement of 10.00%-87.48% and 3.30%-42.65% in accuracy and BLEU score, respectively.
翻訳日:2023-10-23 07:08:15 公開日:2023-09-19
# 人工知能と拡張現実(AI-XR)メタバースにおけるプライバシ保護

Privacy Preservation in Artificial Intelligence and Extended Reality (AI-XR) Metaverses: A Survey ( http://arxiv.org/abs/2310.10665v1 )

ライセンス: Link先を確認
Mahdi Alkaeed, Adnan Qayyum, and Junaid Qadir(参考訳) metaverseは、個人がさまざまなアクティビティを対話し、創造し、参加できるような、仮想的な宇宙を想定した、生まれたばかりの概念だ。 概念が進化し、没入型仮想体験がより普及するにつれて、メタバースにおけるプライバシは重要な関心事である。 メタバースプライバシー問題は、共有VR空間の概念がよりアクセスしやすくなるにつれて、個人情報とVR(Virtual Reality)環境内のデータのプライバシーに関する問題と懸念を指す。 Metaverseは、AI(AI)、拡張現実(XR)、MR(Mixed Reality)、および5G/6Gベースのコミュニケーションなど、さまざまな技術の進歩を活用して、ユーザに対してパーソナライズされた没入型サービスを提供する。 さらに、よりパーソナライズされたエクスペリエンスを実現するために、metaverseは様々なプライバシー問題につながるきめ細かいユーザーデータの収集に依存している。 したがって、メタバースの可能性を完全に実現する前に、個人情報やVR環境内のデータに関するプライバシー上の懸念に対処する必要がある。 これには、ユーザのデータのコントロールの保護、個人情報のセキュリティの確保、現実世界でのアクションやインタラクションの保護などが含まれる。 本稿では,ユーザ追跡のためのaiへの依存,xrおよびmrエクスペリエンスの作成,インタラクションの促進など,将来的なメタバースが直面するであろう,さまざまなプライバシ上の課題について検討する。 さらに,微分プライバシーや準同型暗号(he),連合学習(fl)といった技術ソリューションを徹底的に分析し,関連するプライバシーに関する社会学的問題について論じる。

The metaverse is a nascent concept that envisions a virtual universe, a collaborative space where individuals can interact, create, and participate in a wide range of activities. Privacy in the metaverse is a critical concern as the concept evolves and immersive virtual experiences become more prevalent. The metaverse privacy problem refers to the challenges and concerns surrounding the privacy of personal information and data within Virtual Reality (VR) environments as the concept of a shared VR space becomes more accessible. Metaverse will harness advancements from various technologies such as Artificial Intelligence (AI), Extended Reality (XR), Mixed Reality (MR), and 5G/6G-based communication to provide personalized and immersive services to its users. Moreover, to enable more personalized experiences, the metaverse relies on the collection of fine-grained user data that leads to various privacy issues. Therefore, before the potential of the metaverse can be fully realized, privacy concerns related to personal information and data within VR environments must be addressed. This includes safeguarding users' control over their data, ensuring the security of their personal information, and protecting in-world actions and interactions from unauthorized sharing. In this paper, we explore various privacy challenges that future metaverses are expected to face, given their reliance on AI for tracking users, creating XR and MR experiences, and facilitating interactions. Moreover, we thoroughly analyze technical solutions such as differential privacy, Homomorphic Encryption (HE), and Federated Learning (FL) and discuss related sociotechnical issues regarding privacy.
翻訳日:2023-10-23 02:35:27 公開日:2023-09-19
# Nebula: 動的マルウェア分析のための自己注意

Nebula: Self-Attention for Dynamic Malware Analysis ( http://arxiv.org/abs/2310.10664v1 )

ライセンス: Link先を確認
Dmitrijs Trizna, Luca Demetrio, Battista Biggio, Fabio Roli(参考訳) 動的解析により、制御された環境でプログラムを実行し、その動作をログレポートに格納することで、Windowsのマルウェアを検出することができる。 これまでの研究は、マルウェア検出やマルウェアの分類を行うために、そのようなレポートで機械学習モデルを訓練してきた。 しかし、ほとんどのアプローチは、 i) 畳み込みと長短の長期記憶ネットワークのみを考慮した。 (ii) ネットワークやファイル操作などの異質な情報ソースを考慮せずに、実行時に呼び出されるAPIのみに焦点を当てて構築されている。 (iii)本研究分野での結果の再現性を妨げるため、コードや事前学習されたモデルはほとんど利用できない。 本稿では,様々な動作表現とフォーマットを一般化し,動的ログレポートからの異種情報を組み合わせた汎用的自己対応型トランスフォーマーアーキテクチャであるnebulaを提案することで,これらの制約を克服する。 異なる動的解析プラットフォームからの3つの異なるデータ収集に対するNebulaの有効性を示し、その性能をマルウェア検出および分類タスクのために開発された過去の最先端モデルと比較した。 我々は、ネビュラの成分が予測性能にどのように影響するかを示しながら、非常に低い偽陽性率で競合するアプローチを上回りながら、広範囲にわたるアブレーション研究を行った。 我々は、説明可能性法の適用により星雲の挙動を検査することで、星雲が悪意のある活動を含む報告の一部に正しく焦点を合わせていることを結論づけた。 コードとモデルはgithub.com/dtrizna/nebulaでリリースしています。

Dynamic analysis enables detecting Windows malware by executing programs in a controlled environment, and storing their actions in log reports. Previous work has started training machine learning models on such reports to perform either malware detection or malware classification. However, most of the approaches (i) have only considered convolutional and long-short term memory networks, (ii) they have been built focusing only on APIs called at runtime, without considering other relevant though heterogeneous sources of information like network and file operations, and (iii) the code and pretrained models are hardly available, hindering reproducibility of results in this research area. In this work, we overcome these limitations by presenting Nebula, a versatile, self-attention transformer-based neural architecture that can generalize across different behavior representations and formats, combining heterogeneous information from dynamic log reports. We show the efficacy of Nebula on three distinct data collections from different dynamic analysis platforms, comparing its performance with previous state-of-the-art models developed for malware detection and classification tasks. We produce an extensive ablation study that showcases how the components of Nebula influence its predictive performance, while enabling it to outperform some competing approaches at very low false positive rates. We conclude our work by inspecting the behavior of Nebula through the application of explainability methods, which highlight that Nebula correctly focuses more on portions of reports that contain malicious activities. We release our code and models at github.com/dtrizna/nebula.
翻訳日:2023-10-23 02:34:56 公開日:2023-09-19
# 建設業におけるジェネレーティブAI : 機会と課題

Generative AI in the Construction Industry: Opportunities & Challenges ( http://arxiv.org/abs/2310.04427v1 )

ライセンス: Link先を確認
Prashnna Ghimire, Kyungki Kim, Manoj Acharya(参考訳) 過去10年間で、人工知能(AI)が急速に進歩し、多くの業界プラクティスが変化したが、建設は採用が遅れた。 最近、OpenAIのGPT、GoogleのPaLM、MetaのLlamaといった先進的な大規模言語モデル(LLM)の出現と急速な採用が大きな可能性を示し、世界的な注目を集めている。 しかし、現在の急増は建設セクターにおけるジェネレーティブAI(GenAI)導入の機会と課題を調査する研究が欠如しており、研究者や実践者にとって重要な知識ギャップを形成している。 このことは、GenAI統合の展望と複雑さを探求する必要性を浮き彫りにする。 このギャップを埋めることは、建設セクターにおけるGenAIのアーリーステージ採用を最適化するための基本となる。 GenAIが既存のコンテンツから学習した人間的なコンテンツを生成するという前例のない能力を考えると、建設業界におけるGenAIの将来はどうなるのか? 建設業界におけるジェナイ導入の潜在的な機会と課題は何でしょう? 本研究は,文献の認識を反映し,プログラムベースの単語クラウドと周波数分析を用いて産業の知覚を分析し,著者の意見を統合し,これらの疑問に答える。 本稿では,GenAIの実践的な実装フレームワークを推奨し,今後の研究課題を要約し,その構築と関連するアーキテクチャ・エンジニアリング領域におけるGenAIの今後の研究展開を促進するための基礎文献を構築する。

In the last decade, despite rapid advancements in artificial intelligence (AI) transforming many industry practices, construction largely lags in adoption. Recently, the emergence and rapid adoption of advanced large language models (LLM) like OpenAI's GPT, Google's PaLM, and Meta's Llama have shown great potential and sparked considerable global interest. However, the current surge lacks a study investigating the opportunities and challenges of implementing Generative AI (GenAI) in the construction sector, creating a critical knowledge gap for researchers and practitioners. This underlines the necessity to explore the prospects and complexities of GenAI integration. Bridging this gap is fundamental to optimizing GenAI's early-stage adoption within the construction sector. Given GenAI's unprecedented capabilities to generate human-like content based on learning from existing content, we reflect on two guiding questions: What will the future bring for GenAI in the construction industry? What are the potential opportunities and challenges in implementing GenAI in the construction industry? This study delves into reflected perception in literature, analyzes the industry perception using programming-based word cloud and frequency analysis, and integrates authors' opinions to answer these questions. This paper recommends a conceptual GenAI implementation framework, provides practical recommendations, summarizes future research questions, and builds foundational literature to foster subsequent research expansion in GenAI within the construction and its allied architecture & engineering domains.
翻訳日:2023-10-15 14:48:03 公開日:2023-09-19
# 頑健な潜在オブジェクト表現を実現する極端画像変換

Extreme Image Transformations Facilitate Robust Latent Object Representations ( http://arxiv.org/abs/2310.07725v1 )

ライセンス: Link先を確認
Girik Malik and Dakarai Crowder and Ennio Mingolla(参考訳) 敵攻撃は、野生の機械の物体認識能力に影響を与える可能性がある。 これらはしばしば入力ラベルとクラスラベルの間に急激な相関関係があり、大きなネットワークで記憶される傾向がある。 ネットワークは自動的な特徴選択を行うと予想されるが、オブジェクトのスケールでは有効ではない。 しかし、人間はオブジェクトの堅牢な表現を形成するために必要な最小限の機能セットを選択することができる。 本研究は, 既訓練オフザシェルフネットワークをエクストリーム・イメージ・トランスフォーメーション(EIT)で微調整することで, 頑健な潜在表現を学習するだけでなく, 様々な強度の共通の敵攻撃に対して, これらのネットワークの性能を向上させることを示す。 EITトレーニングネットワークは、より強いノイズでテストしても、対象領域で強い活性化を示し、様々な種類の敵攻撃に対して有望な一般化を示す。

Adversarial attacks can affect the object recognition capabilities of machines in wild. These can often result from spurious correlations between input and class labels, and are prone to memorization in large networks. While networks are expected to do automated feature selection, it is not effective at the scale of the object. Humans, however, are able to select the minimum set of features required to form a robust representation of an object. In this work, we show that finetuning any pretrained off-the-shelf network with Extreme Image Transformations (EIT) not only helps in learning a robust latent representation, it also improves the performance of these networks against common adversarial attacks of various intensities. Our EIT trained networks show strong activations in the object regions even when tested with more intense noise, showing promising generalizations across different kinds of adversarial attacks.
翻訳日:2023-10-15 14:17:16 公開日:2023-09-19
# ニューロシンボリックアプローチによる弱教師付き推論

Weakly Supervised Reasoning by Neuro-Symbolic Approaches ( http://arxiv.org/abs/2309.13072v1 )

ライセンス: Link先を確認
Xianggen Liu, Zhengdong Lu, Lili Mou(参考訳) ディープラーニングは、様々な自然言語処理(NLP)タスクのパフォーマンスを大幅に改善した。 しかし、ほとんどのディープラーニングモデルはブラックボックス機械であり、明確な解釈がない。 この章では、AIの異なる流派、すなわち記号主義と接続主義を組み合わせた、NLPに対するニューロシンボリックアプローチの最近の進歩を紹介します。 典型的には、NLPタスクのための記号付き潜在構造を持つニューラルネットワークを設計し、下流タスクにおいて弱い教師付き推論を行うために強化学習や緩和を適用する。 このフレームワークは,テーブルクエリ推論,構文構造推論,情報抽出推論,ルール推論など,さまざまなタスクにうまく適用されている。 それぞれのアプリケーションについて、背景、アプローチ、実験結果を紹介します。

Deep learning has largely improved the performance of various natural language processing (NLP) tasks. However, most deep learning models are black-box machinery, and lack explicit interpretation. In this chapter, we will introduce our recent progress on neuro-symbolic approaches to NLP, which combines different schools of AI, namely, symbolism and connectionism. Generally, we will design a neural system with symbolic latent structures for an NLP task, and apply reinforcement learning or its relaxation to perform weakly supervised reasoning in the downstream task. Our framework has been successfully applied to various tasks, including table query reasoning, syntactic structure reasoning, information extraction reasoning, and rule reasoning. For each application, we will introduce the background, our approach, and experimental results.
翻訳日:2023-10-01 12:13:38 公開日:2023-09-19
# シミュレーションデータを用いた衛星高度計のニューラルマッピング手法の訓練

Training neural mapping schemes for satellite altimetry with simulation data ( http://arxiv.org/abs/2309.14350v1 )

ライセンス: Link先を確認
Quentin Febvre, Julien Le Sommer, Cl\'ement Ubelmann, Ronan Fablet(参考訳) 衛星高度計とデータ同化と最適補間法を組み合わせることで、海面のダイナミクスをモニターする能力を深く更新した。 近年,時空補間問題に対処する手段として,ディープラーニング(DL)方式が注目されている。 しかし、海面の時空間カバレッジの観点からは、実際の高度データセットの不足は、実際のケーススタディにおける最先端のニューラルネットワークスキームのトレーニングを妨げる。 本研究では,海洋力学シミュレーションと衛星高度計を併用し,海面高度のシミュレーションに基づくニューラルマッピングスキームを訓練し,実時間データセットでの性能を実証する。 トレーニングフェーズで使用する海洋シミュレーションデータセットが、このパフォーマンスに与える影響をさらに分析する。 この実験解析は, 渦流分布から渦のリッチな形状への分解能, 強制シミュレーションとデータ同化と潮流のない対潮解シミュレーションによる再解析の両方をカバーする。 ベンチマークフレームワークは,nemo海洋シミュレーションと4dvarnetマッピングスキームを用いた,現実的な5時間星座のガルフストリーム領域に焦点を当てている。 全てのシミュレーションベースの4DVarNetは、DUACSやGLORYSといった運用上の観察駆動および再分析製品より優れている。 訓練フェーズで使用する海洋シミュレーションデータセットをよりリアルにすれば、マッピングがより良くなります。 最高の4DVarNetマッピングは、エディリッチでタイトフリーなシミュレーションデータセットからトレーニングされた。 分解された経年スケールは、DUACS 151km、GLORYS 241kmから98kmに改善され、根平均二乗誤差(RMSE)を23%と61%削減する。 これらの結果は、学習に基づくアプローチを用いた海洋モデリングと海洋観測の新たな相乗効果の研究の道を開く。

Satellite altimetry combined with data assimilation and optimal interpolation schemes have deeply renewed our ability to monitor sea surface dynamics. Recently, deep learning (DL) schemes have emerged as appealing solutions to address space-time interpolation problems. The scarcity of real altimetry dataset, in terms of space-time coverage of the sea surface, however impedes the training of state-of-the-art neural schemes on real-world case-studies. Here, we leverage both simulations of ocean dynamics and satellite altimeters to train simulation-based neural mapping schemes for the sea surface height and demonstrate their performance for real altimetry datasets. We analyze further how the ocean simulation dataset used during the training phase impacts this performance. This experimental analysis covers both the resolution from eddy-present configurations to eddy-rich ones, forced simulations vs. reanalyses using data assimilation and tide-free vs. tide-resolving simulations. Our benchmarking framework focuses on a Gulf Stream region for a realistic 5-altimeter constellation using NEMO ocean simulations and 4DVarNet mapping schemes. All simulation-based 4DVarNets outperform the operational observation-driven and reanalysis products, namely DUACS and GLORYS. The more realistic the ocean simulation dataset used during the training phase, the better the mapping. The best 4DVarNet mapping was trained from an eddy-rich and tide-free simulation datasets. It improves the resolved longitudinal scale from 151 kilometers for DUACS and 241 kilometers for GLORYS to 98 kilometers and reduces the root mean squared error (RMSE) by 23% and 61%. These results open research avenues for new synergies between ocean modelling and ocean observation using learning-based approaches.
翻訳日:2023-10-01 12:03:41 公開日:2023-09-19
# 企業クレジットレーティング:調査

Corporate Credit Rating: A Survey ( http://arxiv.org/abs/2309.14349v1 )

ライセンス: Link先を確認
Bojing Feng, Xi Cheng, Dan Li, Zeyu Liu, Wenfang Xue(参考訳) 企業信用格付け(CCR)は、現代経済と社会発展の過程において非常に重要な役割を果たす。 企業に対する信用格付けの方法の使用は、常に議論に値する問題でした。 本論文は,国内外の文献を読んだり,研究したりすることで,CCRを体系的に調査する。 本稿では、統計的モデル、機械学習モデル、ニューラルネットワークモデルという3つのレベルからccr手法の開発の文脈を説明し、ccrの一般的なデータベースを要約し、モデルの利点と欠点を深く比較する。 最後に,現在の研究における問題点と今後の展望について概説する。 CCRの既存のレビューと比較すると、近年のこの分野におけるニューラルネットワークモデルの進歩を概説し分析している。

Corporate credit rating (CCR) plays a very important role in the process of contemporary economic and social development. How to use credit rating methods for enterprises has always been a problem worthy of discussion. Through reading and studying the relevant literature at home and abroad, this paper makes a systematic survey of CCR. This paper combs the context of the development of CCR methods from the three levels: statistical models, machine learning models and neural network models, summarizes the common databases of CCR, and deeply compares the advantages and disadvantages of the models. Finally, this paper summarizes the problems existing in the current research and prospects the future of CCR. Compared with the existing review of CCR, this paper expounds and analyzes the progress of neural network model in this field in recent years.
翻訳日:2023-10-01 12:03:09 公開日:2023-09-19
# コンテンツ市場におけるオフポリシー学習による広告ロードバランシング

Ad-load Balancing via Off-policy Learning in a Content Marketplace ( http://arxiv.org/abs/2309.11518v1 )

ライセンス: Link先を確認
Hitesh Sagtani, Madan Jhawar, Rishabh Mehrotra, Olivier Jeunen(参考訳) 広告ロードバランシングは、オンライン広告システム、特にソーシャルメディアプラットフォームにおいて、満足のいくユーザーエクスペリエンスを維持しつつ、ユーザのエンゲージメントと収益を最大化することが目的である。 これはユーザーの満足度や広告収入といった相反する目的の最適化を必要とする。 従来のアドロードバランシングアプローチは静的アロケーションポリシに依存しており、ユーザの好みやコンテキスト要因の変更に適応できない。 本稿では,ログ付きバンディットフィードバックによるオフポリシー学習と評価を活用したアプローチを提案する。 まず,広告負荷分散問題に対する動機づけのある分析を行い,ユーザの満足度と広告収入の相反する目標を強調する。 我々は,ユーザの不均一性とセッション内のユーザ位置への依存に起因するニュアンスを強調した。 この分析に基づいて、この問題を特定のフィードフェッチに対して最適な広告負荷を決定するものとして定義する。 そこで本研究では,ips (inverse propensity scoring) やdr (doubly robust) といった偏りのない推定値を用いて,オフラインで収集した確率データを用いて,政策値の学習と推定を行うオフポリシー学習フレームワークを提案する。 2億以上のセッションを生成する8千万以上のユーザを対象に,大規模にデプロイされたオンラインa/b実験から得た知見を紹介する。

Ad-load balancing is a critical challenge in online advertising systems, particularly in the context of social media platforms, where the goal is to maximize user engagement and revenue while maintaining a satisfactory user experience. This requires the optimization of conflicting objectives, such as user satisfaction and ads revenue. Traditional approaches to ad-load balancing rely on static allocation policies, which fail to adapt to changing user preferences and contextual factors. In this paper, we present an approach that leverages off-policy learning and evaluation from logged bandit feedback. We start by presenting a motivating analysis of the ad-load balancing problem, highlighting the conflicting objectives between user satisfaction and ads revenue. We emphasize the nuances that arise due to user heterogeneity and the dependence on the user's position within a session. Based on this analysis, we define the problem as determining the optimal ad-load for a particular feed fetch. To tackle this problem, we propose an off-policy learning framework that leverages unbiased estimators such as Inverse Propensity Scoring (IPS) and Doubly Robust (DR) to learn and estimate the policy values using offline collected stochastic data. We present insights from online A/B experiments deployed at scale across over 80 million users generating over 200 million sessions, where we find statistically significant improvements in both user satisfaction metrics and ads revenue for the platform.
翻訳日:2023-09-22 18:24:20 公開日:2023-09-19
# 屋内定位のための変分オートエンコーダによるマルチバンドチャネル予測方式

A Variational Auto-Encoder Enabled Multi-Band Channel Prediction Scheme for Indoor Localization ( http://arxiv.org/abs/2309.12200v1 )

ライセンス: Link先を確認
Ruihao Yuan, Kaixuan Huang, Pan Yang, and Shunqing Zhang(参考訳) 仮想現実(virtual/augmented reality)やスマートホームなど、さまざまな最先端技術に対する需要が高まっている。 従来のモデルベースのローカライズでは計算のオーバーヘッドが大きく、指紋のローカライズに注目が集まっているため、指紋データベースの構築後、計算コストの低減が求められている。 しかし,マルチパス信号の屈折をもたらす複雑な屋内環境によって,屋内局在の精度は限られている。 本稿では,他の伝送路からのチャネル状態情報(CSI)値を予測し,より正確な位置推定結果を得るために複数の帯域情報をスプリシングすることで,周波数領域からの屋内指紋位置推定の精度を向上させる手法を提案する。 オフィスシナリオから収集したCOST 2100シミュレーションデータと実時間直交周波数分割多重化(OFDM)WiFiデータに基づいて提案手法を検証した。

Indoor localization is getting increasing demands for various cutting-edged technologies, like Virtual/Augmented reality and smart home. Traditional model-based localization suffers from significant computational overhead, so fingerprint localization is getting increasing attention, which needs lower computation cost after the fingerprint database is built. However, the accuracy of indoor localization is limited by the complicated indoor environment which brings the multipath signal refraction. In this paper, we provided a scheme to improve the accuracy of indoor fingerprint localization from the frequency domain by predicting the channel state information (CSI) values from another transmitting channel and spliced the multi-band information together to get more precise localization results. We tested our proposed scheme on COST 2100 simulation data and real time orthogonal frequency division multiplexing (OFDM) WiFi data collected from an office scenario.
翻訳日:2023-09-22 14:29:02 公開日:2023-09-19
# 確率的バッチ獲得:深層アクティブ学習のためのシンプルなベースライン

Stochastic Batch Acquisition: A Simple Baseline for Deep Active Learning ( http://arxiv.org/abs/2106.12059v3 )

ライセンス: Link先を確認
Andreas Kirsch, Sebastian Farquhar, Parmida Atighehchian, Andrew Jesson, Frederic Branchaud-Charron, Yarin Gal(参考訳) 本稿では,よく知られた単一点獲得関数を適用してバッチアクティブ学習を実現するための簡単な確率的戦略を検討する。 プールセットからトップKポイントを取得するのとは異なり、スコアベースのサンプリングは、新しいデータが取得されると、取得スコアが変化することを考慮に入れている。 標準的な単一サンプル取得戦略を適用するためのこの単純な戦略は、BatchBALDやBADGEのような計算集約型バッチ取得関数と同様に、桁違いに少ない計算量を使用することができる。 機械学習の実践者に実用的な選択肢を提供するのに加えて、幅広い実験環境で提案手法が驚くほど成功したことは、この分野において難しい疑問を提起する。

We examine a simple stochastic strategy for adapting well-known single-point acquisition functions to allow batch active learning. Unlike acquiring the top-K points from the pool set, score- or rank-based sampling takes into account that acquisition scores change as new data are acquired. This simple strategy for adapting standard single-sample acquisition strategies can even perform just as well as compute-intensive state-of-the-art batch acquisition functions, like BatchBALD or BADGE, while using orders of magnitude less compute. In addition to providing a practical option for machine learning practitioners, the surprising success of the proposed method in a wide range of experimental settings raises a difficult question for the field: when are these expensive batch acquisition methods pulling their weight?
翻訳日:2023-09-22 02:56:57 公開日:2023-09-19
# ランクに基づくエンティティアライメントやリンク予測手法の評価の曖昧性について

On the Ambiguity of Rank-Based Evaluation of Entity Alignment or Link Prediction Methods ( http://arxiv.org/abs/2002.06914v5 )

ライセンス: Link先を確認
Max Berrendorf and Evgeniy Faerman and Laurent Vermue and Volker Tresp(参考訳) 本稿では,知識グラフから情報を得る方法として,リンク予測とエンティティアライメントの2つのファミリについて,より詳しく検討する。 現在の実験では、モデル性能の異なる側面を評価するために複数の異なるスコアが用いられる。 本研究は,これらの評価尺度の妥当性を分析し,いくつかの問題点を同定する。 特に、既存のスコアは、異なるデータセットで結果を比較するのにほとんど使えないことを実証する。 さらに、テストサイズが変化すると、エンティティアライメントタスクでよく使われるメトリクスに基づいて、同じモデルのパフォーマンスに自動的に影響を与えることを実証する。 結果の解釈には様々な問題があり,誤解を招く結論に支障をきたす可能性がある。 そこで本研究では,評価に対する調整を提案するとともに,モデル性能の公平で比較可能な評価法を実証的に示す。 私たちのコードはhttps://github.com/mberr/rank-based-evaluationで利用可能です。

In this work, we take a closer look at the evaluation of two families of methods for enriching information from knowledge graphs: Link Prediction and Entity Alignment. In the current experimental setting, multiple different scores are employed to assess different aspects of model performance. We analyze the informativeness of these evaluation measures and identify several shortcomings. In particular, we demonstrate that all existing scores can hardly be used to compare results across different datasets. Moreover, we demonstrate that varying size of the test size automatically has impact on the performance of the same model based on commonly used metrics for the Entity Alignment task. We show that this leads to various problems in the interpretation of results, which may support misleading conclusions. Therefore, we propose adjustments to the evaluation and demonstrate empirically how this supports a fair, comparable, and interpretable assessment of model performance. Our code is available at https://github.com/mberr/rank-based-evaluation.
翻訳日:2023-09-22 02:55:17 公開日:2023-09-19
# read the room: ロボットの声を環境や社会的文脈に適応させる

Read the Room: Adapting a Robot's Voice to Ambient and Social Contexts ( http://arxiv.org/abs/2205.04952v2 )

ライセンス: Link先を確認
Paige Tuttosi, Emma Hughson, Akihiro Matsufuji, Angelica Lim(参考訳) ロボットはどのように、形式的、静か、暗く、あるいは明るく、活発で、騒がしい環境で話すべきか? ロボットがより社会的で環境に合った方法で話すように設計することで、エージェントに対する認識と知性を改善することができる。 社会的適切さと環境意識を認識するロボット音声スタイルの選択に向けたプロセスと結果について述べる。 人間の声を異なる音環境に適応させる方法を理解することは、野生の音声キャプチャーの難しさのために難しい場合がある。 私たちのアプローチには3つのステップがあります。 (a)仮想ズームアンバイアンスにおける音声データの相互作用の収集と検証 (b)第一声のスタイルを識別するために、人間の声の発話を探索し、クラスタリングすること。 (c)プロジェクション,照明,音を用いて再現環境下でロボット音声のスタイルをテストする。 私たちは概念実証として、食品サービスのシナリオに注目します。 我々は,Pepperロボットの声を異なるスタイルで使用して,文脈的に適切かつ適応的に話すロボットに結果を提示する。 n=120の参加者による結果から,音声スタイルの選択は,ロボットの知覚知性に,社会的適合性,快適性,意識性,人間的類似性,能力性など,いくつかの要因に影響を与えていることが示唆された。

How should a robot speak in a formal, quiet and dark, or a bright, lively and noisy environment? By designing robots to speak in a more social and ambient-appropriate manner we can improve perceived awareness and intelligence for these agents. We describe a process and results toward selecting robot voice styles for perceived social appropriateness and ambiance awareness. Understanding how humans adapt their voices in different acoustic settings can be challenging due to difficulties in voice capture in the wild. Our approach includes 3 steps: (a) Collecting and validating voice data interactions in virtual Zoom ambiances, (b) Exploration and clustering human vocal utterances to identify primary voice styles, and (c) Testing robot voice styles in recreated ambiances using projections, lighting and sound. We focus on food service scenarios as a proof-of-concept setting. We provide results using the Pepper robot's voice with different styles, towards robots that speak in a contextually appropriate and adaptive manner. Our results with N=120 participants provide evidence that the choice of voice style in different ambiances impacted a robot's perceived intelligence in several factors including: social appropriateness, comfort, awareness, human-likeness and competency.
翻訳日:2023-09-22 01:07:40 公開日:2023-09-19
# スパースグラフトラッカを用いたオンラインマルチオブジェクトトラッキングにおける検出回復

Detection Recovery in Online Multi-Object Tracking with Sparse Graph Tracker ( http://arxiv.org/abs/2205.00968v3 )

ライセンス: Link先を確認
Jeongseok Hyun, Myunggu Kang, Dongyoon Wee, Dit-Yan Yeung(参考訳) 既存の共同検出・追跡手法では、従来のトラックレットと現在の検出とをペアでマッチングする。 しかし、この特徴はトラッカーが多数の検出からターゲットを特定するのに十分ではないかもしれない。 追跡のための高感度検出のみを選択すると、信頼度スコアが低い検出を見逃してしまう可能性がある。 その結果、オンライン環境では、回復できないトラックレットが切断される。 本稿では,隣接検出の特徴とその関係を集約することで,より識別性の高い高階関係機能を用いた,新しいオンライングラフトラッカであるsparse graph tracker(sgt)を提案する。 SGTは、ビデオデータをグラフに変換し、検出、接続、および2つの接続ノードのリレーショナル特徴をそれぞれノード、エッジ、エッジ特徴で表現する。 強エッジ機能により、sgtは、top-kスコア検出により選択された追跡候補を大きなkで追跡することが可能となり、その結果、低scored検出であっても追跡可能となり、ミス検出も回収される。 k値のロバスト性は広範な実験によって示される。 MOT16/17/20とHiEve Challengeでは、SGTはリアルタイムの推論速度で最先端のトラッカーを上回っている。 特にMOTAの大幅な改善がMOT20とHiEve Challengeに示されている。 コードはhttps://github.com/hyunjs/sgtで入手できる。

In existing joint detection and tracking methods, pairwise relational features are used to match previous tracklets to current detections. However, the features may not be discriminative enough for a tracker to identify a target from a large number of detections. Selecting only high-scored detections for tracking may lead to missed detections whose confidence score is low. Consequently, in the online setting, this results in disconnections of tracklets which cannot be recovered. In this regard, we present Sparse Graph Tracker (SGT), a novel online graph tracker using higher-order relational features which are more discriminative by aggregating the features of neighboring detections and their relations. SGT converts video data into a graph where detections, their connections, and the relational features of two connected nodes are represented by nodes, edges, and edge features, respectively. The strong edge features allow SGT to track targets with tracking candidates selected by top-K scored detections with large K. As a result, even low-scored detections can be tracked, and the missed detections are also recovered. The robustness of K value is shown through the extensive experiments. In the MOT16/17/20 and HiEve Challenge, SGT outperforms the state-of-the-art trackers with real-time inference speed. Especially, a large improvement in MOTA is shown in the MOT20 and HiEve Challenge. Code is available at https://github.com/HYUNJS/SGT.
翻訳日:2023-09-22 01:07:20 公開日:2023-09-19
# 誤情報注入によるオープンドメイン質問応答の攻撃

Attacking Open-domain Question Answering by Injecting Misinformation ( http://arxiv.org/abs/2110.07803v3 )

ライセンス: Link先を確認
Liangming Pan, Wenhu Chen, Min-Yen Kan, William Yang Wang(参考訳) プロパガンダ、ニュース、ソーシャルメディアにおける偽情報、不正確な情報の増加に伴い、現実世界の質問回答(QA)システムは、誤った情報に汚染されたコンテキストを合成し、推論することで正しい回答を導き出すという課題に直面している。 この緊急性によって、QAシステムを誤った情報に対して堅牢にする必要がある。 本研究では,QAモデルに対する誤報のリスクについて,誤報文書による汚染をコーパスするためのオープンドメインQAモデルの感度について検討する。 我々は、QAモデルのエビデンスコーパスに注入する人書きとモデル生成の両方の偽文書をキュレートし、これらのシステムの性能に与える影響を評価する。 実験により、QAモデルは誤情報による少量の証拠汚染に対して脆弱であり、全てのモデルに絶対的な性能低下があることが示された。 偽のドキュメントがニューラルネットワークによって大規模に生成される場合や、攻撃者が特定の質問をハッキングする場合には、誤った情報攻撃はより脅威をもたらす。 このような脅威に対して,質問応答と誤情報検出を連立で統合する誤情報認識型QAシステムの構築の必要性を論じる。

With a rise in false, inaccurate, and misleading information in propaganda, news, and social media, real-world Question Answering (QA) systems face the challenges of synthesizing and reasoning over misinformation-polluted contexts to derive correct answers. This urgency gives rise to the need to make QA systems robust to misinformation, a topic previously unexplored. We study the risk of misinformation to QA models by investigating the sensitivity of open-domain QA models to corpus pollution with misinformation documents. We curate both human-written and model-generated false documents that we inject into the evidence corpus of QA models and assess the impact on the performance of these systems. Experiments show that QA models are vulnerable to even small amounts of evidence contamination brought by misinformation, with large absolute performance drops on all models. Misinformation attack brings more threat when fake documents are produced at scale by neural models or the attacker targets hacking specific questions of interest. To defend against such a threat, we discuss the necessity of building a misinformation-aware QA system that integrates question-answering and misinformation detection in a joint fashion.
翻訳日:2023-09-22 01:05:31 公開日:2023-09-19
# 分散ラベル雑音に対するコンフォーマル予測のロバスト性

Conformal Prediction is Robust to Dispersive Label Noise ( http://arxiv.org/abs/2209.14295v2 )

ライセンス: Link先を確認
Shai Feldman, Bat-Sheva Einbinder, Stephen Bates, Anastasios N. Angelopoulos, Asaf Gendler, Yaniv Romano(参考訳) 不確実性定量化のための強力なツールである共形予測のロバスト性について検討した。 我々の分析は回帰問題と分類問題の両方に取り組み、観測されないノイズのない基底真理ラベルを正しくカバーする不確実性集合をいつ、どのように構築できるかを特徴付ける。 さらに我々の理論を拡張し、偽負の比例のような一般損失関数をノイズラベルで正しく制御するための要件を定式化する。 提案する理論と実験は,雑音ラベルを用いた共形予測とリスク制御手法が,逆の場合を除き,クリーンな根拠ラベルよりも保守的なリスクをもたらすことを示唆する。 このような場合、スコアやデータの規則性なしに、基底真理ラベルの正しいリスクを達成するために、共形予測アルゴリズムにおける境界サイズのノイズを補正することもできる。

We study the robustness of conformal prediction, a powerful tool for uncertainty quantification, to label noise. Our analysis tackles both regression and classification problems, characterizing when and how it is possible to construct uncertainty sets that correctly cover the unobserved noiseless ground truth labels. We further extend our theory and formulate the requirements for correctly controlling a general loss function, such as the false negative proportion, with noisy labels. Our theory and experiments suggest that conformal prediction and risk-controlling techniques with noisy labels attain conservative risk over the clean ground truth labels except in adversarial cases. In such cases, we can also correct for noise of bounded size in the conformal prediction algorithm in order to ensure achieving the correct risk of the ground truth labels without score or data regularity.
翻訳日:2023-09-22 00:58:35 公開日:2023-09-19
# Edge Video Analytics: アプリケーション、システム、実装技術に関する調査

Edge Video Analytics: A Survey on Applications, Systems and Enabling Techniques ( http://arxiv.org/abs/2211.15751v2 )

ライセンス: Link先を確認
Renjie Xu, Saiedeh Razavi and Rong Zheng(参考訳) ビデオは、デジタル情報のグローバルな爆発の鍵を握る存在であり、人間社会に多大な利益をもたらす。 政府や企業は、例えば、警察、緊急管理、交通制御、セキュリティ監視など、様々な用途に無数のカメラを配備しており、いずれもビデオ分析(VA)によって促進されている。 この傾向は、オブジェクト分類、検出、追跡のためのより正確なモデルを可能にするディープラーニング(DL)の急速な進歩によって引き起こされる。 一方、インターネットに接続されたデバイスの普及に伴い、大量のデータが毎日生成され、クラウドを圧倒する。 ワークロードとサービスをネットワークコアからネットワークエッジに移行する、新たなパラダイムであるエッジコンピューティングは、有望なソリューションとして広く認識されている。 新たな交差点であるedge video analytics(eva)は、広く注目を集め始めている。 それにもかかわらず、この話題に関する調査はごくわずかである。 EVAの基本概念(定義、アーキテクチャなど)はこの領域の急速な発展のために完全には解明されなかった。 これらのギャップを埋めるために、EVAに関する最近の取り組みを包括的に調査する。 本稿では,まずエッジコンピューティングの基礎を概観し,続いてvaの概要について述べる。 次にEVAシステムとその実現技術について述べる。 さらに,EVAシステムの開発において,今後の研究者を支援するためのフレームワークやデータセットも紹介する。 最後に,既存の課題と今後の研究方向性について考察する。 この調査は、読者がVAとエッジコンピューティングの関係を理解し、EVAに関する新しいアイデアを喚起するのに役立ちます。

Video, as a key driver in the global explosion of digital information, can create tremendous benefits for human society. Governments and enterprises are deploying innumerable cameras for a variety of applications, e.g., law enforcement, emergency management, traffic control, and security surveillance, all facilitated by video analytics (VA). This trend is spurred by the rapid advancement of deep learning (DL), which enables more precise models for object classification, detection, and tracking. Meanwhile, with the proliferation of Internet-connected devices, massive amounts of data are generated daily, overwhelming the cloud. Edge computing, an emerging paradigm that moves workloads and services from the network core to the network edge, has been widely recognized as a promising solution. The resulting new intersection, edge video analytics (EVA), begins to attract widespread attention. Nevertheless, only a few loosely-related surveys exist on this topic. The basic concepts of EVA (e.g., definition, architectures) were not fully elucidated due to the rapid development of this domain. To fill these gaps, we provide a comprehensive survey of the recent efforts on EVA. In this paper, we first review the fundamentals of edge computing, followed by an overview of VA. The EVA system and its enabling techniques are discussed next. In addition, we introduce prevalent frameworks and datasets to aid future researchers in the development of EVA systems. Finally, we discuss existing challenges and foresee future research directions. We believe this survey will help readers comprehend the relationship between VA and edge computing, and spark new ideas on EVA.
翻訳日:2023-09-22 00:47:51 公開日:2023-09-19
# DyG2Vec:自己スーパービジョンによる動的グラフの表現学習

DyG2Vec: Representation Learning for Dynamic Graphs with Self-Supervision ( http://arxiv.org/abs/2210.16906v2 )

ライセンス: Link先を確認
Mohammad Ali Alomrani, Mahdi Biparva, Yingxue Zhang, Mark Coates(参考訳) 時間グラフニューラルネットワークは、時間的パターンを自動的に抽出することで、帰納的表現を学習する有望な結果を示している。 しかし、以前の作品は時相表現を構築するために複雑なメモリモジュールや非効率的なランダムウォークメソッドに依存することが多い。 さらに、既存の動的グラフエンコーダは、自己教師付きパラダイムに適応することが簡単ではないため、ラベルなしデータの利用を妨げている。 これらの制約に対処するために、時間的エッジエンコーディングとウィンドウベースのサブグラフサンプリングを利用してタスク非依存の埋め込みを生成する、効率的で効果的な注意ベースエンコーダを提案する。 さらに,非contrastive sslを用いてラベル無しでリッチな時空間埋め込みを学ぶジョイントエンベディングアーキテクチャを提案する。 7つのベンチマークデータセットにおける実験結果から,本モデルでは,平均的に,将来のリンク予測タスクにおけるsotaベースラインを,トランスダクティブ設定では4.23%,インダクティブ設定では3.30%上回る。 さらに、言語と視覚のモダリティで一般的に使用される2つのプローブによるSSL事前トレーニングの意義を実証的に検証する。 最後に,提案フレームワークの異なる側面を実験的解析およびアブレーション研究により検討した。

Temporal graph neural networks have shown promising results in learning inductive representations by automatically extracting temporal patterns. However, previous works often rely on complex memory modules or inefficient random walk methods to construct temporal representations. In addition, the existing dynamic graph encoders are non-trivial to adapt to self-supervised paradigms, which prevents them from utilizing unlabeled data. To address these limitations, we present an efficient yet effective attention-based encoder that leverages temporal edge encodings and window-based subgraph sampling to generate task-agnostic embeddings. Moreover, we propose a joint-embedding architecture using non-contrastive SSL to learn rich temporal embeddings without labels. Experimental results on 7 benchmark datasets indicate that on average, our model outperforms SoTA baselines on the future link prediction task by 4.23% for the transductive setting and 3.30% for the inductive setting while only requiring 5-10x less training/inference time. Additionally, we empirically validate the SSL pre-training significance under two probings commonly used in language and vision modalities. Lastly, different aspects of the proposed framework are investigated through experimental analysis and ablation studies.
翻訳日:2023-09-22 00:46:35 公開日:2023-09-19
# 影響診断のための統計的・計算的保証

Statistical and Computational Guarantees for Influence Diagnostics ( http://arxiv.org/abs/2212.04014v2 )

ライセンス: Link先を確認
Jillian Fisher, Lang Liu, Krishna Pillutla, Yejin Choi, Zaid Harchaoui(参考訳) 影響関数や近似最大影響摂動などの影響診断は、機械学習やAIドメインアプリケーションで人気がある。 影響診断は、影響のあるデータポイントまたはデータポイントのサブセットを特定する強力な統計ツールである。 我々は、効率的な逆複素ベクトル積実装を用いた影響関数と近似最大影響摂動に対して、有限サンプル統計境界と計算複雑性境界を確立する。 本稿では,合成データと実データに基づく一般化線形モデルと注目モデルを用いて,この結果について述べる。

Influence diagnostics such as influence functions and approximate maximum influence perturbations are popular in machine learning and in AI domain applications. Influence diagnostics are powerful statistical tools to identify influential datapoints or subsets of datapoints. We establish finite-sample statistical bounds, as well as computational complexity bounds, for influence functions and approximate maximum influence perturbations using efficient inverse-Hessian-vector product implementations. We illustrate our results with generalized linear models and large attention based models on synthetic and real data.
翻訳日:2023-09-22 00:35:57 公開日:2023-09-19
# 微分方程式問題に対するデータプロンプトを用いたインコンテキスト演算子学習

In-Context Operator Learning with Data Prompts for Differential Equation Problems ( http://arxiv.org/abs/2304.07993v3 )

ライセンス: Link先を確認
Liu Yang, Siting Liu, Tingwei Meng, Stanley J. Osher(参考訳) 本稿では,In-Context Operator Networks (ICON) と呼ばれるニューラルネットワークに基づく新しいアプローチを提案する。 既存の方法は、ニューラルネットワークを使用して特定の方程式解や特定の演算子を近似することに限定され、異なる方程式を持つ新しい問題に切り替える際には、再訓練を必要とする。 オペレータ学習者として単一のニューラルネットワークをトレーニングすることで、新たな問題に対するニューラルネットワークの再トレーニング(微調整でさえも)を排除するだけでなく、オペレータ間で共有される共通性を活用することで、新しいオペレータの学習にはプロンプトのデモがほんの数回必要となる。 数値計算の結果,一般微分方程式(ODE)の前方・逆問題,偏微分方程式(PDE),平均場制御(MFC)問題など,多種多様な微分方程式問題に対する数発の演算子としてのニューラルネットワーク能力を示し,学習能力を訓練分布を超えた演算子に一般化できることを示した。

This paper introduces a new neural-network-based approach, namely In-Context Operator Networks (ICON), to simultaneously learn operators from the prompted data and apply it to new questions during the inference stage, without any weight update. Existing methods are limited to using a neural network to approximate a specific equation solution or a specific operator, requiring retraining when switching to a new problem with different equations. By training a single neural network as an operator learner, we can not only get rid of retraining (even fine-tuning) the neural network for new problems, but also leverage the commonalities shared across operators so that only a few demos in the prompt are needed when learning a new operator. Our numerical results show the neural network's capability as a few-shot operator learner for a diversified type of differential equation problems, including forward and inverse problems of ordinary differential equations (ODEs), partial differential equations (PDEs), and mean-field control (MFC) problems, and also show that it can generalize its learning capability to operators beyond the training distribution.
翻訳日:2023-09-22 00:29:43 公開日:2023-09-19
# 結合古典振動子シミュレーションにおける指数量子スピードアップ

Exponential quantum speedup in simulating coupled classical oscillators ( http://arxiv.org/abs/2303.13012v3 )

ライセンス: Link先を確認
Ryan Babbush, Dominic W. Berry, Robin Kothari, Rolando D. Somma and Nathan Wiebe(参考訳) 2^n$結合振動子の古典力学をシミュレートする量子アルゴリズム(例えば、バネに結合された2^n$質量)を提案する。 我々のアプローチは、進化した量子状態の振幅が古典振動子のモータと変位を符号化するような調和ポテンシャルに対するシュリンガー方程式とニュートン方程式の間の写像を利用する。 個々の質量とばね定数を効率的に問合せすることができ、初期状態が効率的に作成できるとき、量子アルゴリズムの複雑性は多項式 n$ であり、進化時間はほぼ線形であり、スパーシティにおける部分線型である。 例として,振動子の運動エネルギーを常に効率的に推定するために,量子アルゴリズムを適用した。 同じ問題を解決する古典的アルゴリズムは非効率であり、oracleに対して2^{\omega(n)$のクエリを行なわなければならず、oracleが効率的な量子回路によってインスタンス化される場合、問題はbqp完全である。 そこで本手法は,古典的コンピュータ上での指数的高速化によって,潜在的に実用的な応用を解く。 最後に、同様の条件下では、2^n$モードでより一般的な古典調和系を効率的にシミュレートできることを示す。

We present a quantum algorithm for simulating the classical dynamics of $2^n$ coupled oscillators (e.g., $2^n$ masses coupled by springs). Our approach leverages a mapping between the Schr\"odinger equation and Newton's equation for harmonic potentials such that the amplitudes of the evolved quantum state encode the momenta and displacements of the classical oscillators. When individual masses and spring constants can be efficiently queried, and when the initial state can be efficiently prepared, the complexity of our quantum algorithm is polynomial in $n$, almost linear in the evolution time, and sublinear in the sparsity. As an example application, we apply our quantum algorithm to efficiently estimate the kinetic energy of an oscillator at any time. We show that any classical algorithm solving this same problem is inefficient and must make $2^{\Omega(n)}$ queries to the oracle and, when the oracles are instantiated by efficient quantum circuits, the problem is BQP-complete. Thus, our approach solves a potentially practical application with an exponential speedup over classical computers. Finally, we show that under similar conditions our approach can efficiently simulate more general classical harmonic systems with $2^n$ modes.
翻訳日:2023-09-22 00:28:42 公開日:2023-09-19
# ラベルノイズの存在下での深層能動的学習 : 調査

Deep Active Learning in the Presence of Label Noise: A Survey ( http://arxiv.org/abs/2302.11075v2 )

ライセンス: Link先を確認
Moseli Mots'oehli, Kyungim Baek(参考訳) deep active learningは、事前に定義されたラベル付け予算内でディープラーニングモデルをトレーニングするための強力なツールとして登場した。 これらのモデルは、オフライン環境でトレーニングされたモデルに匹敵するパフォーマンスを達成した。 しかし、深層アクティブラーニングはノイズラベルを含む分類データセットを扱う際に重大な問題に直面している。 本稿では,ラベル雑音の存在下での深層アクティブ学習の現状について考察し,特異なアプローチ,強み,弱みについて述べる。 画像分類タスクにおける視覚トランスフォーマーの最近の成功により、この変換器層とアテンション機構がどのようにして多様性、重要性、不確実性に基づくクエリの選択をラベル付けのためにオラクルに送信できるかを概説する。 さらに,能動的学習環境におけるラベル付けのための高値サンプル選択を支援する良質な画像表現を導出するためのコントラスト学習法を提案する。 また,画像分類のためのラベルノイズの存在下での深層アクティブラーニングのための統合ベンチマークと標準化データセットの作成の必要性を強調する。 レビューは、この分野における今後の研究の道筋を提案することで締めくくっている。

Deep active learning has emerged as a powerful tool for training deep learning models within a predefined labeling budget. These models have achieved performances comparable to those trained in an offline setting. However, deep active learning faces substantial issues when dealing with classification datasets containing noisy labels. In this literature review, we discuss the current state of deep active learning in the presence of label noise, highlighting unique approaches, their strengths, and weaknesses. With the recent success of vision transformers in image classification tasks, we provide a brief overview and consider how the transformer layers and attention mechanisms can be used to enhance diversity, importance, and uncertainty-based selection in queries sent to an oracle for labeling. We further propose exploring contrastive learning methods to derive good image representations that can aid in selecting high-value samples for labeling in an active learning setting. We also highlight the need for creating unified benchmarks and standardized datasets for deep active learning in the presence of label noise for image classification to promote the reproducibility of research. The review concludes by suggesting avenues for future research in this area.
翻訳日:2023-09-22 00:25:28 公開日:2023-09-19
# マルチキャリブレーションの統一的視点:多目的学習のためのゲームダイナミクス

A Unifying Perspective on Multi-Calibration: Game Dynamics for Multi-Objective Learning ( http://arxiv.org/abs/2302.10863v2 )

ライセンス: Link先を確認
Nika Haghtalab, Michael I. Jordan, and Eric Zhao(参考訳) 我々は,マルチキャリブテッド予測器の設計と解析のための統一フレームワークを提供する。 マルチキャリブレーション問題を,多目的学習の一般的な設定 – 学習保証が分散と損失関数の集合上で同時に保持されなければならない – に配置することにより,ゲームダイナミクスとの接続を利用して,多目的学習問題に対する最先端の保証を実現する。 既存のマルチキャリブレーション保証や解析の大幅な単純化に加えて,グループサイズの平方根にスケールする強固なマルチキャリブレーション条件の取得や,k$クラスのマルチキャリブレーションの複雑さを指数係数$k$で改善するなど,新たな保証も実現している。 マルチキャリブレーションを超えて,これらのゲームダイナミクスを用いて,グループフェアネスとマルチ分散学習の研究における新たな考察を行う。

We provide a unifying framework for the design and analysis of multicalibrated predictors. By placing the multicalibration problem in the general setting of multi-objective learning -- where learning guarantees must hold simultaneously over a set of distributions and loss functions -- we exploit connections to game dynamics to achieve state-of-the-art guarantees for a diverse set of multicalibration learning problems. In addition to shedding light on existing multicalibration guarantees and greatly simplifying their analysis, our approach also yields improved guarantees, such as obtaining stronger multicalibration conditions that scale with the square-root of group size and improving the complexity of $k$-class multicalibration by an exponential factor of $k$. Beyond multicalibration, we use these game dynamics to address emerging considerations in the study of group fairness and multi-distribution learning.
翻訳日:2023-09-22 00:25:08 公開日:2023-09-19
# 一般神経ゲージ場

General Neural Gauge Fields ( http://arxiv.org/abs/2305.03462v2 )

ライセンス: Link先を確認
Fangneng Zhan, Lingjie Liu, Adam Kortylewski, Christian Theobalt(参考訳) 近年のニューラル・ラディアンス・フィールドのようなニューラル・フィールドの進歩は、シーン表現学習の境界を大きく押し上げている。 3Dシーンの計算効率とレンダリング品質を高めるために、人気のある研究のラインは、3D座標系を別の測定系、例えば2次元多様体とハッシュテーブルにマッピングして、ニューラルネットワークをモデル化する。 座標系の変換は一般に \emph{gauge transformation} と呼ばれ、通常は直交射影や空間ハッシュ関数といった事前定義された写像関数である。 エンドツーエンドでニューラルネットワークとともに、望ましいゲージ変換を直接学べるのか? 本研究では,この問題を離散的0&連続ケースの分類法を用いて一般パラダイムに拡張し,ゲージ変換とニューラルネットワークを共同で最適化する学習フレームワークを開発した。 ゲージ変換の学習が容易に崩壊する問題に対処するために、ゲージ変換中の情報保存の原理から一般的な正規化機構を導出する。 正規化によるゲージ学習における高い計算コストを回避するために,シーン情報を本質的に保存し,優れた性能が得られる情報不変ゲージ変換を直接導出する。 プロジェクト: https://fnzhan.com/neural-gauge-fields

The recent advance of neural fields, such as neural radiance fields, has significantly pushed the boundary of scene representation learning. Aiming to boost the computation efficiency and rendering quality of 3D scenes, a popular line of research maps the 3D coordinate system to another measuring system, e.g., 2D manifolds and hash tables, for modeling neural fields. The conversion of coordinate systems can be typically dubbed as \emph{gauge transformation}, which is usually a pre-defined mapping function, e.g., orthogonal projection or spatial hash function. This begs a question: can we directly learn a desired gauge transformation along with the neural field in an end-to-end manner? In this work, we extend this problem to a general paradigm with a taxonomy of discrete \& continuous cases, and develop a learning framework to jointly optimize gauge transformations and neural fields. To counter the problem that the learning of gauge transformations can collapse easily, we derive a general regularization mechanism from the principle of information conservation during the gauge transformation. To circumvent the high computation cost in gauge learning with regularization, we directly derive an information-invariant gauge transformation which allows to preserve scene information inherently and yield superior performance. Project: https://fnzhan.com/Neural-Gauge-Fields
翻訳日:2023-09-21 22:32:57 公開日:2023-09-19
# 多状態合成のための数値回路合成とコンパイル

Numerical circuit synthesis and compilation for multi-state preparation ( http://arxiv.org/abs/2305.01816v3 )

ライセンス: Link先を確認
Aaron Szasz, Ed Younis, Wibe de Jong(参考訳) 短期量子コンピュータは大きなエラー率と短いコヒーレンス時間を持っているため、回路のコンパイルは可能な限り短いことが不可欠である。 一般に2種類のコンパイル問題が考慮される:「状態準備」と呼ばれる固定入力状態から所定の状態を準備する回路と、例えば「ユニタリ合成」によって与えられたユニタリ操作を実装する回路である。 本稿では、より一般的な問題、すなわち、$m$状態のセットから$m$状態の別のセットへの変換を解決します。 状態準備とユニタリ合成は特別な場合であり、状態準備では$m=1$、ユニタリ合成では$m$はヒルベルト空間全体の次元である。 複数状態準備のための回路を数値的に生成・最適化する。 行列分解に基づくトップダウンアプローチも可能である場合には、実質的に(最大40%)少ない2量子ビットゲートを持つ回路を見つける。 我々は、マクロな重ね合わせ(cat)状態の効率的な調製や量子チャネルの合成など、応用の可能性について議論する。

Near-term quantum computers have significant error rates and short coherence times, so compilation of circuits to be as short as possible is essential. Two types of compilation problems are typically considered: circuits to prepare a given state from a fixed input state, called "state preparation"; and circuits to implement a given unitary operation, for example by "unitary synthesis". In this paper we solve a more general problem: the transformation of a set of $m$ states to another set of $m$ states, which we call "multi-state preparation". State preparation and unitary synthesis are special cases; for state preparation, $m=1$, while for unitary synthesis, $m$ is the dimension of the full Hilbert space. We generate and optimize circuits for multi-state preparation numerically. In cases where a top-down approach based on matrix decompositions is also possible, our method finds circuits with substantially (up to 40%) fewer two-qubit gates. We discuss possible applications, including efficient preparation of macroscopic superposition ("cat") states and synthesis of quantum channels.
翻訳日:2023-09-21 22:32:17 公開日:2023-09-19
# Floquet (複数形 Floquets)

Floquet codes with a twist ( http://arxiv.org/abs/2306.08027v3 )

ライセンス: Link先を確認
Tyler D. Ellison, Joseph Sullivan, Arpit Dua(参考訳) 本稿ではhastingsとhaahのhoneycomb floquetコードでツイスト欠陥を生成する手法について述べる。 特に,一次元経路に沿って創発的フェルミオンを凝縮することによって構築される凝縮欠陥の先端にねじれ欠陥を構築する。 我々は、ツイスト欠陥は量子情報のフォールトトレラントな保存と処理に利用することができ、境界を持つシステム上でツイスト欠陥を作成することにより、$\mathbb{z}_2$ floquet符号の平面型が得られることを証明している。 重要な点として, ツイスト欠陥の構成は, 六角格子の連結性を維持し, 2体測定のみを要し, 測定スケジュールの3回周期を保っている。 さらに、ツイスト欠陥を$n$-次元qudits上で定義される$\mathbb{z}_n$ floquet符号に一般化する。 ちなみに、$\mathbb{Z}_N$ フロケ符号と縮合欠陥を用いて、瞬時安定化群が特定のアベリアツイスト量子二重群の位相順序によって特徴づけられるフロケ符号を定義する。

We describe a method for creating twist defects in the honeycomb Floquet code of Hastings and Haah. In particular, we construct twist defects at the endpoints of condensation defects, which are built by condensing emergent fermions along one-dimensional paths. We argue that the twist defects can be used to store and process quantum information fault tolerantly, and demonstrate that, by preparing twist defects on a system with a boundary, we obtain a planar variant of the $\mathbb{Z}_2$ Floquet code. Importantly, our construction of twist defects maintains the connectivity of the hexagonal lattice, requires only 2-body measurements, and preserves the three-round period of the measurement schedule. We furthermore generalize the twist defects to $\mathbb{Z}_N$ Floquet codes defined on $N$-dimensional qudits. As an aside, we use the $\mathbb{Z}_N$ Floquet codes and condensation defects to define Floquet codes whose instantaneous stabilizer groups are characterized by the topological order of certain Abelian twisted quantum doubles.
翻訳日:2023-09-21 20:38:42 公開日:2023-09-19
# GPT-3.5、GPT-4、BARD? ゼロショット設定におけるLDM推論能力の評価とプロンプトによる性能向上

GPT-3.5, GPT-4, or BARD? Evaluating LLMs Reasoning Ability in Zero-Shot Setting and Performance Boosting Through Prompts ( http://arxiv.org/abs/2305.12477v2 )

ライセンス: Link先を確認
Jessica L\'opez Espejel, El Hassane Ettifouri, Mahaman Sanoussi Yahaya Alassan, El Mehdi Chouham, Walid Dahhane(参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて顕著な性能を示した。 しかし、現在ではその推論能力に関する議論が盛んである。 本稿では,GPT-3.5,GPT-4,BARDモデルの性能を,11個の異なるデータセットに対して異なる推論タスクを徹底的に評価することにより検討する。 本稿では,ChatGPT-3.5とBARDをほぼすべての評価課題においてゼロショット設定した場合と比較して,ChatGPT-4の優れた性能を示す実証的証拠を提供する。 GPT-4 は GPT-3.5 に比べて大きなサイズと NLP 効率で説明できるが,BARD では明らかではない。 また、3つのモデルが帰納的,数理的,マルチホップ推論タスクの習熟度に限界があることを示す。 そこで本研究では,これら3つのモデルから得られた結果について,詳細に包括的な分析を行う。 さらに,3つのモデルのゼロショット設定性能を向上させるためのプロンプトセットを提案する。

Large Language Models (LLMs) have exhibited remarkable performance on various Natural Language Processing (NLP) tasks. However, there is a current hot debate regarding their reasoning capacity. In this paper, we examine the performance of GPT-3.5, GPT-4, and BARD models, by performing a thorough technical evaluation on different reasoning tasks across eleven distinct datasets. Our paper provides empirical evidence showcasing the superior performance of ChatGPT-4 in comparison to both ChatGPT-3.5 and BARD in zero-shot setting throughout almost all evaluated tasks. While the superiority of GPT-4 compared to GPT-3.5 might be explained by its larger size and NLP efficiency, this was not evident for BARD. We also demonstrate that the three models show limited proficiency in Inductive, Mathematical, and Multi-hop Reasoning Tasks. To bolster our findings, we present a detailed and comprehensive analysis of the results from these three models. Furthermore, we propose a set of engineered prompts that enhances the zero-shot setting performance of all three models.
翻訳日:2023-09-21 20:34:48 公開日:2023-09-19
# padding-and-permuting fingerprinting codesによる微分プライベートアルゴリズムの滑らかな下限

Smooth Lower Bounds for Differentially Private Algorithms via Padding-and-Permuting Fingerprinting Codes ( http://arxiv.org/abs/2307.07604v2 )

ライセンス: Link先を確認
Naty Peter, Eliad Tsfadia, Jonathan Ullman(参考訳) Bun, Ullman, Vadhan (STOC 2014) が最初に導入したフィンガープリンティング引数は、サンプルの複雑さや約微分プライベート(DP)アルゴリズムの誤差を低くする最も広く使われている手法である。 しかし、差分プライバシーには、適切な下位境界が分かっていない問題が多く、私たちがしている問題においても、下位境界は滑らかではなく、エラーがしきい値より大きい場合は通常空白になる。 本研究では,フィンガープリントコードにパディング・アンド・パータスク変換を適用することで,ハードインスタンスを生成する簡単な方法を提案する。 1)低精度政権におけるDP平均化の厳密な下限は、特にNissim, Stemmer, Vadhan (PODS 2016)によって導入されたプライベート1クラスタ問題に対する新しい下限を意味する。 2) 近似k平均クラスタリングのためのDPアルゴリズムの加算誤差に対する下限は, 一定の乗算誤差に対して厳密な乗算誤差の関数である。 3) 低精度な状態における行列の上特異ベクトルをDPの下で推定する下界は、シンガルとシュタインケ(NeurIPS 2021)によって研究されたDP部分空間推定の特別な場合である。 我々の主な技術は、指紋コードにパディング・アンド・パーミュート変換を適用することである。 しかし、既存の指紋認証コード(例えばTardosのコード)へのブラックボックスアクセスを使って結果を証明する代わりに、Dwork et al. (FOCS 2015) や Bun et al. (SODA 2017) よりも強い新しい指紋認証補題を開発し、その下位境界を補題から直接証明する。 特に我々の補題は、独立した関心を持つ最適な率(多対数因子まで)で、より単純なフィンガープリントコード構成を与えます。

Fingerprinting arguments, first introduced by Bun, Ullman, and Vadhan (STOC 2014), are the most widely used method for establishing lower bounds on the sample complexity or error of approximately differentially private (DP) algorithms. Still, there are many problems in differential privacy for which we don't know suitable lower bounds, and even for problems that we do, the lower bounds are not smooth, and usually become vacuous when the error is larger than some threshold. In this work, we present a simple method to generate hard instances by applying a padding-and-permuting transformation to a fingerprinting code. We illustrate the applicability of this method by providing new lower bounds in various settings: 1. A tight lower bound for DP averaging in the low-accuracy regime, which in particular implies a new lower bound for the private 1-cluster problem introduced by Nissim, Stemmer, and Vadhan (PODS 2016). 2. A lower bound on the additive error of DP algorithms for approximate k-means clustering, as a function of the multiplicative error, which is tight for a constant multiplication error. 3. A lower bound for estimating the top singular vector of a matrix under DP in low-accuracy regimes, which is a special case of DP subspace estimation studied by Singhal and Steinke (NeurIPS 2021). Our main technique is to apply a padding-and-permuting transformation to a fingerprinting code. However, rather than proving our results using a black-box access to an existing fingerprinting code (e.g., Tardos' code), we develop a new fingerprinting lemma that is stronger than those of Dwork et al. (FOCS 2015) and Bun et al. (SODA 2017), and prove our lower bounds directly from the lemma. Our lemma, in particular, gives a simpler fingerprinting code construction with optimal rate (up to polylogarithmic factors) that is of independent interest.
翻訳日:2023-09-21 18:44:40 公開日:2023-09-19
# ディープアンサンブルニューラルネットワークを用いたエンドポイントデバイス上の微小分子可溶性予測

Predicting small molecules solubilities on endpoint devices using deep ensemble neural networks ( http://arxiv.org/abs/2307.05318v2 )

ライセンス: Link先を確認
Mayk Caldas Ramos and Andrew D. White(参考訳) 水溶性は、予測する価値のあるが難しい性質である。 第一原理法による溶解度計算はエントロピーとエンタルピーの競合する効果を考慮しなければならず、結果として長い計算が比較的精度が低い。 ディープラーニングのようなデータ駆動アプローチは、精度と計算効率が向上するが、一般的に不確かさの定量化が欠如している。 さらに、使いやすさはいかなる計算手法にも懸念され続けており、グループベースのコントリビューション手法が持続的に普及している。 本研究では,静的Webサイト上で(サーバなしで)実行される予測の不確実性のあるディープラーニングモデルを用いて,これらの問題に対処する。 このアプローチは、コンピューティングニーズをインストールを必要とせずにwebサイト訪問者に移し、サーバの支払いとメンテナンスを不要にする。 このモデルは溶解度予測に十分な結果が得られる。 さらに,不確実性と使いやすさのバランスをとる分子特性予測モデルの作成方法を示す。 コードは \url{https://github.com/ur-whitelab/mol.dev} で、モデルは \url{https://mol.dev} で利用できる。

Aqueous solubility is a valuable yet challenging property to predict. Computing solubility using first-principles methods requires accounting for the competing effects of entropy and enthalpy, resulting in long computations for relatively poor accuracy. Data-driven approaches, such as deep learning, offer improved accuracy and computational efficiency but typically lack uncertainty quantification. Additionally, ease of use remains a concern for any computational technique, resulting in the sustained popularity of group-based contribution methods. In this work, we addressed these problems with a deep learning model with predictive uncertainty that runs on a static website (without a server). This approach moves computing needs onto the website visitor without requiring installation, removing the need to pay for and maintain servers. Our model achieves satisfactory results in solubility prediction. Furthermore, we demonstrate how to create molecular property prediction models that balance uncertainty and ease of use. The code is available at \url{https://github.com/ur-whitelab/mol.dev}, and the model is usable at \url{https://mol.dev}.
翻訳日:2023-09-21 18:44:03 公開日:2023-09-19
# 大規模言語モデルを用いた概念指向ディープラーニング

Concept-Oriented Deep Learning with Large Language Models ( http://arxiv.org/abs/2306.17089v2 )

ライセンス: Link先を確認
Daniel T. Chang(参考訳) 大規模言語モデル(LLM)は、テキスト生成やAIチャットボットを含む多くの自然言語タスクやアプリケーションで成功している。 また、概念指向ディープラーニング(CODL)のための有望な新技術である。 しかし、LLMは概念を理解し、概念整合性を確保することが必須である。 本稿では,テキストからの概念抽出,テキストからの概念グラフ抽出,概念学習など,CODLにおけるLLMの活用について論じる。 人間の知識は象徴的(概念的)知識と具体的(感覚的)知識の両方から成り立っている。 しかし、テキストのみのLLMはシンボリックな(概念的な)知識のみを表現することができる。 一方、マルチモーダルLLMは人間の知識の完全な範囲(概念と感覚)を表現できる。 画像からの概念抽出、画像からの概念グラフ抽出、概念学習など、CODLにおける視覚言語LLMの概念的理解、最も重要なマルチモーダルLLMの活用について論じる。 CODLにLLMを使うことは、スタンドアローンで有用であるが、AIチャットボットのようなLLMアプリケーションの一部として特に有用である。

Large Language Models (LLMs) have been successfully used in many natural-language tasks and applications including text generation and AI chatbots. They also are a promising new technology for concept-oriented deep learning (CODL). However, the prerequisite is that LLMs understand concepts and ensure conceptual consistency. We discuss these in this paper, as well as major uses of LLMs for CODL including concept extraction from text, concept graph extraction from text, and concept learning. Human knowledge consists of both symbolic (conceptual) knowledge and embodied (sensory) knowledge. Text-only LLMs, however, can represent only symbolic (conceptual) knowledge. Multimodal LLMs, on the other hand, are capable of representing the full range (conceptual and sensory) of human knowledge. We discuss conceptual understanding in visual-language LLMs, the most important multimodal LLMs, and major uses of them for CODL including concept extraction from image, concept graph extraction from image, and concept learning. While uses of LLMs for CODL are valuable standalone, they are particularly valuable as part of LLM applications such as AI chatbots.
翻訳日:2023-09-21 18:43:43 公開日:2023-09-19
# ソーシャルロボットナビゲーションアルゴリズムの評価のための原則とガイドライン

Principles and Guidelines for Evaluating Social Robot Navigation Algorithms ( http://arxiv.org/abs/2306.16740v4 )

ライセンス: Link先を確認
Anthony Francis (1), Claudia P\'erez-D'Arpino (2), Chengshu Li (3), Fei Xia (4), Alexandre Alahi (5), Rachid Alami (15), Aniket Bera (6), Abhijat Biswas (7), Joydeep Biswas (8), Rohan Chandra (8), Hao-Tien Lewis Chiang (4), Michael Everett (10), Sehoon Ha (11), Justin Hart (8), Jonathan P. How (9), Haresh Karnan (8), Tsang-Wei Edward Lee (4), Luis J. Manso (12), Reuth Mirksy (13), S\"oren Pirk (14), Phani Teja Singamaneni (15), Peter Stone (8,16), Ada V. Taylor (7), Peter Trautman (17), Nathan Tsoi (18), Marynel V\'azquez (18), Xuesu Xiao (19), Peng Xu (4), Naoki Yokoyama (11), Alexander Toshev (20), Roberto Mart\'in-Mart\'in (8) ((1) Logical Robotics, (2) NVIDIA, (3) Stanford, (4) Google, (5) EPFL, (6) Purdue, (7) CMU, (8) UT Austin, (9) MIT, (10) Northeastern, (11) Georgia Tech, (12) Aston, (13) Bar Ilan, (14) Adobe, (15) LAAS-CNRS, Universite de Toulouse, (16) Sony AI, (17) Honda, (18) Yale, (19) GMU, (20) Apple)(参考訳) ロボットを広く展開する上での最大の課題は、人間の居住環境におけるナビゲーションである。 社会ナビゲーションの分野は近年飛躍的に進歩しているが、静的な環境で動くロボットエージェントだけでなく、ダイナミックな人間エージェントや、ロボットの行動の適切性に対する認識を含むため、社会ナビゲーションに取り組むアルゴリズムの公正な評価は依然として難しいままである。 対照的に、明確で繰り返し可能なベンチマークは、コンピュータビジョン、自然言語処理、従来のロボットナビゲーションといった分野の進歩を加速し、研究者はアルゴリズムを公平に比較し、既存のソリューションの限界を明らかにし、将来有望な新しい方向性を示す。 同じアプローチがソーシャルナビゲーションに有効だと信じています。 本稿では,ソーシャルロボットのナビゲーションを評価するために,共通で広くアクセス可能な,反復可能なベンチマーク基準への道を開く。 私たちの貢献には (a)安全、快適、適性、礼儀正しさ、社会的能力、エージェントの理解、活動性、文脈に対する応答性の原則を尊重するものとしての社会的ナビゲーティングロボットの定義 (b)ソーシャルナビゲーションを評価するためのメトリクスの使用、シナリオの開発、ベンチマーク、データセット、シミュレータに関するガイドライン (c) 異なるシミュレータ、ロボット、データセットの結果の比較を容易にするソーシャルナビゲーションメトリクスフレームワークの設計。

A major challenge to deploying robots widely is navigation in human-populated environments, commonly referred to as social robot navigation. While the field of social navigation has advanced tremendously in recent years, the fair evaluation of algorithms that tackle social navigation remains hard because it involves not just robotic agents moving in static environments but also dynamic human agents and their perceptions of the appropriateness of robot behavior. In contrast, clear, repeatable, and accessible benchmarks have accelerated progress in fields like computer vision, natural language processing and traditional robot navigation by enabling researchers to fairly compare algorithms, revealing limitations of existing solutions and illuminating promising new directions. We believe the same approach can benefit social navigation. In this paper, we pave the road towards common, widely accessible, and repeatable benchmarking criteria to evaluate social robot navigation. Our contributions include (a) a definition of a socially navigating robot as one that respects the principles of safety, comfort, legibility, politeness, social competency, agent understanding, proactivity, and responsiveness to context, (b) guidelines for the use of metrics, development of scenarios, benchmarks, datasets, and simulators to evaluate social navigation, and (c) a design of a social navigation metrics framework to make it easier to compare results from different simulators, robots and datasets.
翻訳日:2023-09-21 18:43:28 公開日:2023-09-19
# ベイジアン探査網

Bayesian Exploration Networks ( http://arxiv.org/abs/2308.13049v2 )

ライセンス: Link先を確認
Mattie Fellows, Brandon Kaplowitz, Christian Schroeder de Witt and Shimon Whiteson(参考訳) ベイズ強化学習(RL)は、不確実性の下でのシーケンシャルな意思決定に原則的でエレガントなアプローチを提供する。 特に、ベイズエージェントは、頻繁な方法の主要な病理である探索/探索ジレンマに直面しない。 ベイズ RL の鍵となる課題は、おもちゃの領域でしか扱えないベイズ最適化ポリシーを学習する計算複雑性である。 本稿では,この課題に対処する新しいモデルフリーアプローチを提案する。 高次元状態遷移分布における不確かさをモデルベースアプローチのようにモデル化するのではなく、一次元ベルマン作用素における不確かさをモデル化する。 理論的分析により,既存のモデルフリーアプローチは,mdpを通じて認識論的不確実性が伝播しないか,あるいはすべての履歴条件付きポリシではなく,一連の文脈的ポリシを最適化しないことが明らかとなった。 どちらの近似も任意にベイズ準最適となるような方針を与える。 これらの問題を克服するために,ベルマン作用素のアレタリック不確実性(密度推定)とエピステミック不確実性(変動推論)の両方をモデル化するために,正規化フローを用いたベイズ探索ネットワーク(BEN)を導入する。 完全最適化の限界において、BENは真のベイズ最適化ポリシーを学習するが、変分期待最大化と同様に、部分最適化は我々のアプローチを引き付けることができる。 実証的な結果は、BENが既存のモデルフリーアプローチが失敗するタスクにおいて、真のベイズ最適化ポリシーを学習できることを示しています。

Bayesian reinforcement learning (RL) offers a principled and elegant approach for sequential decision making under uncertainty. Most notably, Bayesian agents do not face an exploration/exploitation dilemma, a major pathology of frequentist methods. A key challenge for Bayesian RL is the computational complexity of learning Bayes-optimal policies, which is only tractable in toy domains. In this paper we propose a novel model-free approach to address this challenge. Rather than modelling uncertainty in high-dimensional state transition distributions as model-based approaches do, we model uncertainty in a one-dimensional Bellman operator. Our theoretical analysis reveals that existing model-free approaches either do not propagate epistemic uncertainty through the MDP or optimise over a set of contextual policies instead of all history-conditioned policies. Both approximations yield policies that can be arbitrarily Bayes-suboptimal. To overcome these issues, we introduce the Bayesian exploration network (BEN) which uses normalising flows to model both the aleatoric uncertainty (via density estimation) and epistemic uncertainty (via variational inference) in the Bellman operator. In the limit of complete optimisation, BEN learns true Bayes-optimal policies, but like in variational expectation-maximisation, partial optimisation renders our approach tractable. Empirical results demonstrate that BEN can learn true Bayes-optimal policies in tasks where existing model-free approaches fail.
翻訳日:2023-09-21 18:36:32 公開日:2023-09-19
# REFORMS: 機械学習に基づく科学のレポート標準

REFORMS: Reporting Standards for Machine Learning Based Science ( http://arxiv.org/abs/2308.07832v2 )

ライセンス: Link先を確認
Sayash Kapoor, Emily Cantrell, Kenny Peng, Thanh Hien Pham, Christopher A. Bail, Odd Erik Gundersen, Jake M. Hofman, Jessica Hullman, Michael A. Lones, Momin M. Malik, Priyanka Nanayakkara, Russell A. Poldrack, Inioluwa Deborah Raji, Michael Roberts, Matthew J. Salganik, Marta Serra-Garcia, Brandon M. Stewart, Gilles Vandewiele, Arvind Narayanan(参考訳) 機械学習(ml)の手法は科学研究で普及している。 しかし、これらの手法の採用には、妥当性、再現性、一般化性の失敗が伴う。 これらの失敗は科学的進歩を阻害し、不正な主張に関する誤った合意を導き、MLベースの科学の信頼性を損なう。 MLメソッドは、しばしば適用され、規律を越えて同様の方法で失敗する。 この観察に動機づけられた私たちの目標は、MLベースの科学の明確な報告標準を提供することです。 過去の文献の広範なレビューから引用して、REFORMSチェックリスト($\textbf{Re}$porting Standards $\textbf{For}$ $\textbf{M}$achine Learning Based $\textbf{S}$cience)を提示する。 32の質問と一組のガイドラインからなる。 REFORMSはコンピュータ科学、データサイエンス、数学、社会科学、生物医学の19人の研究者の合意に基づいて開発された。 研究を設計・実施する研究者、論文をレビューするレビュアー、透明性と再現性に関する基準を施行するジャーナルのリソースとして、改革は役に立ちます。

Machine learning (ML) methods are proliferating in scientific research. However, the adoption of these methods has been accompanied by failures of validity, reproducibility, and generalizability. These failures can hinder scientific progress, lead to false consensus around invalid claims, and undermine the credibility of ML-based science. ML methods are often applied and fail in similar ways across disciplines. Motivated by this observation, our goal is to provide clear reporting standards for ML-based science. Drawing from an extensive review of past literature, we present the REFORMS checklist ($\textbf{Re}$porting Standards $\textbf{For}$ $\textbf{M}$achine Learning Based $\textbf{S}$cience). It consists of 32 questions and a paired set of guidelines. REFORMS was developed based on a consensus of 19 researchers across computer science, data science, mathematics, social sciences, and biomedical sciences. REFORMS can serve as a resource for researchers when designing and implementing a study, for referees when reviewing papers, and for journals when enforcing standards for transparency and reproducibility.
翻訳日:2023-09-21 18:35:28 公開日:2023-09-19
# 株価トレンド予測のためのLOBに基づくディープラーニングモデル:ベンチマーク研究

LOB-Based Deep Learning Models for Stock Price Trend Prediction: A Benchmark Study ( http://arxiv.org/abs/2308.01915v2 )

ライセンス: Link先を確認
Matteo Prata, Giuseppe Masi, Leonardo Berti, Viviana Arrigoni, Andrea Coletta, Irene Cannistraci, Svitlana Vyetrenko, Paola Velardi, Novella Bartolini(参考訳) 近年のディープラーニング(DL)研究の進展は金融セクターに顕著に影響を与えている。 制限順序帳(LOB)データに基づく株価予測(SPTP)に着目した15の最先端DLモデルの堅牢性と一般化性を検討した。 本研究では,データ前処理,DLモデルトレーニング,評価,利益分析を組み込んだオープンソースのフレームワークであるLOBCASTを開発した。 我々の大規模な実験では、すべてのモデルが新しいデータに晒されると大幅な性能低下を示し、それによって実際の市場適用性に関する疑問が提起される。 私たちの仕事はベンチマークとして機能し、現在のアプローチの可能性と限界を照らし出し、革新的なソリューションに対する洞察を提供します。

The recent advancements in Deep Learning (DL) research have notably influenced the finance sector. We examine the robustness and generalizability of fifteen state-of-the-art DL models focusing on Stock Price Trend Prediction (SPTP) based on Limit Order Book (LOB) data. To carry out this study, we developed LOBCAST, an open-source framework that incorporates data preprocessing, DL model training, evaluation and profit analysis. Our extensive experiments reveal that all models exhibit a significant performance drop when exposed to new data, thereby raising questions about their real-world market applicability. Our work serves as a benchmark, illuminating the potential and the limitations of current approaches and providing insight for innovative solutions.
翻訳日:2023-09-21 18:33:45 公開日:2023-09-19
# VAPOR:オフライン強化学習を用いた屋外植生におけるロボットナビゲーション

VAPOR: Legged Robot Navigation in Outdoor Vegetation Using Offline Reinforcement Learning ( http://arxiv.org/abs/2309.07832v2 )

ライセンス: Link先を確認
Kasun Weerakoon, Adarsh Jagan Sathyamoorthy, Mohamed Elnoor, Dinesh Manocha(参考訳) オフライン強化学習(RL)を用いた非構造・密植屋外環境における自律脚ロボットナビゲーションの新しい手法であるVAPORを提案する。 本手法は,アクター・クリティカル・ネットワークと実際の屋外植生で収集された任意のデータを用いて,新しいRLポリシーを訓練する。 本ポリシーでは,3次元LiDAR点雲,目標コストマップ,処理されたプロプレセプションデータを状態入力として利用し,高さ・密度・剛性・剛性などの周囲障害物の物理的・幾何学的性質を学習する。 フルトレーニングされたポリシーの批判ネットワークは、新しいコンテキスト対応プランナから生成された動的に実現可能な速度の品質を評価するために使用される。 我々のプランナーは、密集環境における植生の侵入や狭い通路の存在に基づいて、ロボットの速度空間に適応する。 本手法は,密集した植生を含む複雑な実世界の屋外シーンにおけるスポットロボットの能力を示す。 VAPORの動作は成功率を最大40%向上し、平均電流消費量を最大2.9%削減し、従来のオフラインRLや他の屋外ナビゲーション手法と比較して正常化軌道長を最大11.2%削減する。

We present VAPOR, a novel method for autonomous legged robot navigation in unstructured, densely vegetated outdoor environments using offline Reinforcement Learning (RL). Our method trains a novel RL policy using an actor-critic network and arbitrary data collected in real outdoor vegetation. Our policy uses height and intensity-based cost maps derived from 3D LiDAR point clouds, a goal cost map, and processed proprioception data as state inputs, and learns the physical and geometric properties of the surrounding obstacles such as height, density, and solidity/stiffness. The fully-trained policy's critic network is then used to evaluate the quality of dynamically feasible velocities generated from a novel context-aware planner. Our planner adapts the robot's velocity space based on the presence of entrapment inducing vegetation, and narrow passages in dense environments. We demonstrate our method's capabilities on a Spot robot in complex real-world outdoor scenes, including dense vegetation. We observe that VAPOR's actions improve success rates by up to 40%, decrease the average current consumption by up to 2.9%, and decrease the normalized trajectory length by up to 11.2% compared to existing end-to-end offline RL and other outdoor navigation methods.
翻訳日:2023-09-21 18:24:26 公開日:2023-09-19
# オンデバイスリアルタイムカスタムハンドジェスチャ認識

On-device Real-time Custom Hand Gesture Recognition ( http://arxiv.org/abs/2309.10858v1 )

ライセンス: Link先を確認
Esha Uboweja, David Tian, Qifei Wang, Yi-Chun Kuo, Joe Zou, Lu Wang, George Sung, Matthias Grundmann(参考訳) 既存のハンドジェスチャ認識(hgr)システムのほとんどは、予め定義されたジェスチャセットに限定されている。 しかし、ユーザーやデベロッパーは目立たない新しいジェスチャーを認識したがることが多い。 例えば、開発者が事前に定義されたリストにすべての手の動きを含めることは不可能である。 本稿では,ユーザが自身のジェスチャー認識パイプラインを簡単にカスタマイズし,デプロイできる,ユーザフレンドリーなフレームワークを提案する。 我々のフレームワークは、カスタムジェスチャー認識のための微調整が可能な、トレーニング済みのシングルハンド埋め込みモデルを提供する。 ユーザはWebカメラの前でジェスチャーを実行して、ジェスチャー毎に少量の画像を集めることができる。 また、カスタムジェスチャー認識モデルのトレーニングとデプロイのためのローコードソリューションも提供しています。 これにより、MLの専門知識が限られているユーザでも簡単にフレームワークを使えるようになります。 さらに、MLの専門知識がなくても、ユーザにノーコードWebフロントエンドを提供しています。 これにより、エンドツーエンドパイプラインの構築とテストがさらに簡単になります。 結果のカスタムHGRは、リアルタイムシナリオのためにデバイス上で実行される準備ができている。 これは、オープンソースのモデル推論APIであるMediaPipe Tasksで単純な関数を呼び出すことで実現できます。 このプロセス全体では数分しかかからない。

Most existing hand gesture recognition (HGR) systems are limited to a predefined set of gestures. However, users and developers often want to recognize new, unseen gestures. This is challenging due to the vast diversity of all plausible hand shapes, e.g. it is impossible for developers to include all hand gestures in a predefined list. In this paper, we present a user-friendly framework that lets users easily customize and deploy their own gesture recognition pipeline. Our framework provides a pre-trained single-hand embedding model that can be fine-tuned for custom gesture recognition. Users can perform gestures in front of a webcam to collect a small amount of images per gesture. We also offer a low-code solution to train and deploy the custom gesture recognition model. This makes it easy for users with limited ML expertise to use our framework. We further provide a no-code web front-end for users without any ML expertise. This makes it even easier to build and test the end-to-end pipeline. The resulting custom HGR is then ready to be run on-device for real-time scenarios. This can be done by calling a simple function in our open-sourced model inference API, MediaPipe Tasks. This entire process only takes a few minutes.
翻訳日:2023-09-21 18:16:29 公開日:2023-09-19
# 量子シミュレータにおける非平衡臨界スケーリングと普遍性

Non-equilibrium critical scaling and universality in a quantum simulator ( http://arxiv.org/abs/2309.10856v1 )

ライセンス: Link先を確認
A. De, P. Cook, K. Collins, W. Morong, D. Paz, P. Titum, G. Pagano, A. V. Gorshkov, M. Maghrebi, C. Monroe(参考訳) 普遍性とスケーリング則は平衡相転移と臨界現象の指標である。 しかし、これらの概念を非平衡系に拡張することは顕著な課題である。 動的位相の研究の最近の進展にもかかわらず、非平衡現象の普遍性クラスとスケーリング則は平衡状態のものとははるかに理解されていない。 本研究では,単一イオン分解能の閉じ込め型量子シミュレータを用いて,臨界点に量子クエンチを追従する臨界揺らぎの非平衡性について検討する。 我々は、一連のクエンチ後のスピンゆらぎのスケーリングを長距離イジングモデルの臨界ハミルトニアンに調査する。 最大50スピンの系では, クエンチ後変動の振幅と時間スケールが, 普遍臨界指数の異なる系の大きさでスケールすることを示した。 一般的なクエンチは熱的臨界挙動を引き起こす可能性があるが、ある臨界状態から別の臨界状態(すなわち二重クエンチ)への第2のクエンチは、平衡状態を持たない臨界挙動をもたらす。 以上より,量子シミュレータが均衡パラダイムを超えて普遍的スケーリングを探索する能力を示す。

Universality and scaling laws are hallmarks of equilibrium phase transitions and critical phenomena. However, extending these concepts to non-equilibrium systems is an outstanding challenge. Despite recent progress in the study of dynamical phases, the universality classes and scaling laws for non-equilibrium phenomena are far less understood than those in equilibrium. In this work, using a trapped-ion quantum simulator with single-ion resolution, we investigate the non-equilibrium nature of critical fluctuations following a quantum quench to the critical point. We probe the scaling of spin fluctuations after a series of quenches to the critical Hamiltonian of a long-range Ising model. With systems of up to 50 spins, we show that the amplitude and timescale of the post-quench fluctuations scale with system size with distinct universal critical exponents. While a generic quench can lead to thermal critical behaviour, we find that a second quench from one critical state to another (i.e. a double quench) results in critical behaviour that does not have an equilibrium counterpart. Our results demonstrate the ability of quantum simulators to explore universal scaling beyond the equilibrium paradigm.
翻訳日:2023-09-21 18:16:14 公開日:2023-09-19
# 人間の意思決定を改善するAI不確かさの定量化

Using AI Uncertainty Quantification to Improve Human Decision-Making ( http://arxiv.org/abs/2309.10852v1 )

ライセンス: Link先を確認
Laura R. Marusich, Jonathan Z. Bakdash, Yan Zhou, Murat Kantarcioglu(参考訳) AI不確実性定量化(UQ)は、AI予測以外の人間の意思決定を改善する可能性がある。 AIと人間の意思決定に関する過去の研究の大部分は、モデル説明可能性と解釈可能性に集中してきた。 3つの実データセットに対してインスタンスベースのUQを実装した。 これを達成するために、各データセットの分類のための異なるAIモデルをトレーニングし、与えられたインスタンスの近傍で生成されたランダムサンプルを使用して、UQの信頼区間を作成しました。 計算されたUQは、UQの品質保証の一形態として厳密に適切なスコアリングルールを用いて校正された。 次に、uqを含む異なるai情報条件下で客観的な意思決定性能を比較する2つの事前登録されたオンライン行動実験を行った。 実験1では、AI(コントロール)なしの意思決定、AI予測単独、AI予測とUQの可視化を比較した。 UQは、他の2つの条件を超えて意思決定を大幅に改善した。 実験2では、異なるUQ情報の表現の比較に焦点をあてた:不確実性の分布と可視化のタイプ(ニードル対ドットプロット)。 uqの異なる表現間で,意思決定性能に有意な差は認められなかった。 全体としては、AI予測と共にUQ情報を提供することで、人間の意思決定を改善することができ、それによって様々なUQの表現を一般化できることを示す。

AI Uncertainty Quantification (UQ) has the potential to improve human decision-making beyond AI predictions alone by providing additional useful probabilistic information to users. The majority of past research on AI and human decision-making has concentrated on model explainability and interpretability. We implemented instance-based UQ for three real datasets. To achieve this, we trained different AI models for classification for each dataset, and used random samples generated around the neighborhood of the given instance to create confidence intervals for UQ. The computed UQ was calibrated using a strictly proper scoring rule as a form of quality assurance for UQ. We then conducted two preregistered online behavioral experiments that compared objective human decision-making performance under different AI information conditions, including UQ. In Experiment 1, we compared decision-making for no AI (control), AI prediction alone, and AI prediction with a visualization of UQ. We found UQ significantly improved decision-making beyond the other two conditions. In Experiment 2, we focused on comparing different representations of UQ information: Point vs. distribution of uncertainty and visualization type (needle vs. dotplot). We did not find meaningful differences in decision-making performance among these different representations of UQ. Overall, our results indicate that human decision-making can be improved by providing UQ information along with AI predictions, and that this benefit generalizes across a variety of representations of UQ.
翻訳日:2023-09-21 18:15:56 公開日:2023-09-19
# 偏光噴流破砕関数による3次元イメージングとQCD位相図の量子シミュレーション

3D Imaging via Polarized Jet Fragmentation Functions and Quantum Simulation of the QCD Phase Diagram ( http://arxiv.org/abs/2309.10838v1 )

ライセンス: Link先を確認
Fanyi Zhao(参考訳) 素粒子間の相互作用を理解し、ハドロンの内部構造をマッピングすることは、高エネルギー核と粒子物理学において基本的な重要性である。 この論文は量子クロモダイナミックス(QCD)によって記述された強い相互作用に集中している。 偏極ジェットフラグメンテーション関数」と呼ばれる新しい概念を導入し、ジェットサブ構造を利用してハドロン、特にヌクレオンの3次元イメージングのスピンダイナミクスを探索するQCD分解と呼ばれる関連する理論フレームワークを開発する。 さらに、特にQCD相図の非摂動QCD研究は、ハドロンの性質を理解する上で重要である。 量子コンピューティングとシミュレータの開発により、有限温度シミュレーションの精度が向上し、研究者は極低温や密度をより詳細に探ることができる。 本稿では,(1)偏極ジェットフラグメンテーション関数を用いた核子構造の研究,(2)低エネルギーQCDモデルの位相図研究に量子コンピューティング技術を適用する方法について述べる。 第1のカテゴリはジェット内におけるハドロン生成やスピン非対称性などの現象を調査し、ハドロン中のクォークやグルーオンの挙動に関する貴重な洞察を提供する。 第2のカテゴリは、QCDにおける量子コンピューティングの潜在的な応用を提供し、QCDの非摂動的性質を探求する。

Understanding the interactions between elementary particles and mapping out the internal structure of the hadrons are of fundamental importance in high energy nuclear and particle physics. This thesis concentrates on the strong interaction, described by Quantum Chromodynamics (QCD). We introduce a novel concept called "polarized jet fragmentation functions" and develop the associated theory framework known as QCD factorization which allows us to utilize jet substructure to probe spin dynamics of hadrons, especially nucleon's three-dimensional imaging. Furthermore, non-perturbative QCD studies, particularly of the QCD phase diagram, are important for understanding the properties of hadrons. The development of quantum computing and simulators can potentially improve the accuracy of finite-temperature simulations and allow researchers to explore extreme temperatures and densities in more detail. In this thesis, I present my work in two aspects of QCD studies: (1) investigating the nucleon structure using polarized jet fragmentation functions and (2) illustrating how to apply quantum computing techniques for studying phase diagram of a low energy QCD model. The first category investigates phenomena such as hadron production inside jets, spin asymmetries, etc., providing valuable insight into the behavior of quarks and gluons in hadrons. The second category provides potential applications of quantum computing in QCD and explores the non-perturbative nature of QCD.
翻訳日:2023-09-21 18:15:36 公開日:2023-09-19
# 行動・遺伝的特徴統合によるオピオイド使用障害リスクモデリングの改善

Improving Opioid Use Disorder Risk Modelling through Behavioral and Genetic Feature Integration ( http://arxiv.org/abs/2309.10837v1 )

ライセンス: Link先を確認
Sybille L\'egitime, Kaustubh Prabhu, Devin McConnell, Bing Wang, Dipak K. Dey, and Derek Aguiar(参考訳) オピオイドは急性および慢性の痛みに対して効果的な鎮痛薬であるが、アメリカでは毎年数百万のオピオイド使用障害(OUD)と数万の早死にに至る依存症のリスクもかなり高い。 処方前のOUDリスクを見積もると、治療体制、監視プログラム、介入戦略の有効性が向上するが、リスク推定は通常、自己申告データやアンケートに基づいて行われる。 我々は、OUDに関連する遺伝的変異とGPSとWi-Fiの時空間座標から抽出した行動特徴を組み合わせて、OUDリスクを評価する実験設計および計算方法を開発した。 OUDモビリティと遺伝的データは同一のコホートには存在しないため、(1)経験的分布からモビリティ特徴を生成するアルゴリズムを開発し、(2)協調性と相対リスクのレベルを仮定したモビリティと遺伝的サンプルを合成する。 遺伝的モビリティとモビリティの融合は,分類精度,高精度リコールおよびレシーバ演算子特性曲線の面積,F_1$スコアによるリスクモデリングを改善する。 適合モデルの解釈は、特に線形モデルにおいて遺伝的寄与が重要であるにもかかわらず、モビリティの特徴がOUDリスクに影響を及ぼすことを示している。 本枠組みでは, プライバシ, セキュリティ, バイアス, 一般性に関して, 実施前に臨床試験で評価しなければならない懸念があるが, 行動学的, 遺伝的特徴がOUDリスク推定を改善し, 個別の臨床意思決定を支援することの予備的証拠を提供する。

Opioids are an effective analgesic for acute and chronic pain, but also carry a considerable risk of addiction leading to millions of opioid use disorder (OUD) cases and tens of thousands of premature deaths in the United States yearly. Estimating OUD risk prior to prescription could improve the efficacy of treatment regimens, monitoring programs, and intervention strategies, but risk estimation is typically based on self-reported data or questionnaires. We develop an experimental design and computational methods that combines genetic variants associated with OUD with behavioral features extracted from GPS and Wi-Fi spatiotemporal coordinates to assess OUD risk. Since both OUD mobility and genetic data do not exist for the same cohort, we develop algorithms to (1) generate mobility features from empirical distributions and (2) synthesize mobility and genetic samples assuming a level of comorbidity and relative risks. We show that integrating genetic and mobility modalities improves risk modelling using classification accuracy, area under the precision-recall and receiver operator characteristic curves, and $F_1$ score. Interpreting the fitted models suggests that mobility features have more influence on OUD risk, although the genetic contribution was significant, particularly in linear models. While there exists concerns with respect to privacy, security, bias, and generalizability that must be evaluated in clinical trials before being implemented in practice, our framework provides preliminary evidence that behavioral and genetic features may improve OUD risk estimation to assist with personalized clinical decision-making.
翻訳日:2023-09-21 18:15:12 公開日:2023-09-19
# CMRxRecon:加速画像再構成競争のためのオープン心MRIデータセット

CMRxRecon: An open cardiac MRI dataset for the competition of accelerated image reconstruction ( http://arxiv.org/abs/2309.10836v1 )

ライセンス: Link先を確認
Chengyan Wang, Jun Lyu, Shuo Wang, Chen Qin, Kunyuan Guo, Xinyu Zhang, Xiaotong Yu, Yan Li, Fanwen Wang, Jianhua Jin, Zhang Shi, Ziqiang Xu, Yapeng Tian, Sha Hua, Zhensen Chen, Meng Liu, Mengting Sun, Xutong Kuang, Kang Wang, Haoran Wang, Hao Li, Yinghua Chu, Guang Yang, Wenjia Bai, Xiahai Zhuang, He Wang, Jing Qin, Xiaobo Qu(参考訳) 心臓磁気共鳴画像(CMR)は、心臓疾患の診断ツールとして有用である。 しかし、cmrの限界は低速な撮像速度であり、患者を不快にさせ、画像にアーティファクトを導入する。 高度にサンプル化されたk空間データから高品質な画像を再構成できるディープラーニングベースのCMRイメージングアルゴリズムへの関心が高まっている。 しかし、ディープラーニング手法の開発には、CMRでは公開されていない大規模なトレーニングデータセットが必要である。 このギャップに対処するために,300名の被験者のマルチコントラスト,マルチビュー,マルチスライス,マルチコイルcmr画像データを含むデータセットをリリースした。 イメージング研究には心臓血管とマッピングシーケンスが含まれる。 全ての被験者の心筋と室のマニュアルセグメンテーションもデータセット内に提供される。 最先端の復元アルゴリズムのスクリプトも参照ポイントとして提供された。 本研究の目的は、標準化された評価基準を導入し、データセットを研究コミュニティに自由にアクセスできるようにすることにより、最先端cmr画像再構成の促進を図ることである。 研究者はデータセットをhttps://www.synapse.org/#! シナプス:syn51471091/wiki/。

Cardiac magnetic resonance imaging (CMR) has emerged as a valuable diagnostic tool for cardiac diseases. However, a limitation of CMR is its slow imaging speed, which causes patient discomfort and introduces artifacts in the images. There has been growing interest in deep learning-based CMR imaging algorithms that can reconstruct high-quality images from highly under-sampled k-space data. However, the development of deep learning methods requires large training datasets, which have not been publicly available for CMR. To address this gap, we released a dataset that includes multi-contrast, multi-view, multi-slice and multi-coil CMR imaging data from 300 subjects. Imaging studies include cardiac cine and mapping sequences. Manual segmentations of the myocardium and chambers of all the subjects are also provided within the dataset. Scripts of state-of-the-art reconstruction algorithms were also provided as a point of reference. Our aim is to facilitate the advancement of state-of-the-art CMR image reconstruction by introducing standardized evaluation criteria and making the dataset freely accessible to the research community. Researchers can access the dataset at https://www.synapse.org/#!Synapse:syn51471091/wiki/.
翻訳日:2023-09-21 18:14:41 公開日:2023-09-19
# 脳年齢予測における人種と性バイアスの分析

Analysing race and sex bias in brain age prediction ( http://arxiv.org/abs/2309.10835v1 )

ライセンス: Link先を確認
Carolina Pi\c{c}arra and Ben Glocker(参考訳) MRIによる脳年齢予測は、幅広い神経病理に関連する画像バイオマーカーとして人気がある。 しかし、トレーニングに使用されるデータセットは、しばしば人口統計に関して歪んで不均衡であり、脳年齢予測モデルがバイアスの影響を受けやすい可能性がある。 我々は,一般的なresnet-34モデルを総合的なサブグループパフォーマンス分析と機能インスペクションによって分析する。 このモデルは、Cam-CANとIXIの1215T1強調MRIスキャンで訓練され、UK Biobank (n=42,786)で試験され、6つの人種および生物学的セックスサブグループに分けられる。 絶対予測誤差によって測定されたサブグループ間でのパフォーマンスを比較することを目的として,Kruskal-WallisテストとCorover-Imanテストの2つを用いて,人種および生物学的性間の偏見を検査した。 生成した特徴のバイアスを調べるために,PCAを用いて次元の低減を行い,2サンプルのコルモゴロフ・スミルノフ試験を用いて部分群間の分布シフトを同定する。 その結果、黒と白、黒とアジア、男女の予測性能は統計的に有意な差が認められた。 12対中7対が特徴分布に統計的に有意な差を示した。 以上の結果から,脳年齢予測モデルのさらなる分析が求められた。

Brain age prediction from MRI has become a popular imaging biomarker associated with a wide range of neuropathologies. The datasets used for training, however, are often skewed and imbalanced regarding demographics, potentially making brain age prediction models susceptible to bias. We analyse the commonly used ResNet-34 model by conducting a comprehensive subgroup performance analysis and feature inspection. The model is trained on 1,215 T1-weighted MRI scans from Cam-CAN and IXI, and tested on UK Biobank (n=42,786), split into six racial and biological sex subgroups. With the objective of comparing the performance between subgroups, measured by the absolute prediction error, we use a Kruskal-Wallis test followed by two post-hoc Conover-Iman tests to inspect bias across race and biological sex. To examine biases in the generated features, we use PCA for dimensionality reduction and employ two-sample Kolmogorov-Smirnov tests to identify distribution shifts among subgroups. Our results reveal statistically significant differences in predictive performance between Black and White, Black and Asian, and male and female subjects. Seven out of twelve pairwise comparisons show statistically significant differences in the feature distributions. Our findings call for further analysis of brain age prediction models.
翻訳日:2023-09-21 18:14:23 公開日:2023-09-19
# Sparser Random Networks: 正規化によるコミュニケーション効率の高いフェデレーション学習の実現

Sparser Random Networks Exist: Enforcing Communication-Efficient Federated Learning via Regularization ( http://arxiv.org/abs/2309.10834v1 )

ライセンス: Link先を確認
Mohamad Mestoukirdi, Omid Esrafilian, David Gesbert, Qianrui Li, Nicolas Gresset(参考訳) 本研究では,確率的フェデレート学習における通信効率向上のための新しい手法を提案する。 この設定では、二項マスクはモデル重みの代わりに最適化され、固定される。 マスクは、より小さなターゲットネットワークと同等に一般化できるスパースサブネットワークを特徴付ける。 重要なことは、従来のフェデレート学習では浮動小数点の重みではなく、疎二乗マスクを交換することで、通信コストをパラメータあたり1ビット以上削減することである。 従来の手法では,一貫した損失目標を用いて通信とストレージのオーバーヘッドを低減できるスパースネットワークが見つからなかった。 これに対処するために,サブネットワーク間の冗長な機能を排除してスパーザーソリューションを奨励する,局所目的に正規化項を追加することを提案する。 広範な実験により、文献と比較して通信とメモリ効率が最大5桁向上し、検証精度の低下を最小限に抑えることが示されている。

This work presents a new method for enhancing communication efficiency in stochastic Federated Learning that trains over-parameterized random networks. In this setting, a binary mask is optimized instead of the model weights, which are kept fixed. The mask characterizes a sparse sub-network that is able to generalize as good as a smaller target network. Importantly, sparse binary masks are exchanged rather than the floating point weights in traditional federated learning, reducing communication cost to at most 1 bit per parameter. We show that previous state of the art stochastic methods fail to find the sparse networks that can reduce the communication and storage overhead using consistent loss objectives. To address this, we propose adding a regularization term to local objectives that encourages sparser solutions by eliminating redundant features across sub-networks. Extensive experiments demonstrate significant improvements in communication and memory efficiency of up to five magnitudes compared to the literature, with minimal performance degradation in validation accuracy in some instances.
翻訳日:2023-09-21 18:14:00 公開日:2023-09-19
# 高度教育におけるパーソナライズと適応学習のための人工知能による知的アシスタント

Artificial Intelligence-Enabled Intelligent Assistant for Personalized and Adaptive Learning in Higher Education ( http://arxiv.org/abs/2309.10892v1 )

ライセンス: Link先を確認
Ramteja Sajja, Yusuf Sermet, Muhammed Cikmaz, David Cwiertny, Ibrahim Demir(参考訳) 本稿では,AIIA(Artificial Intelligence-Enabled Intelligent Assistant)という,高等教育におけるパーソナライズおよび適応学習のための新しいフレームワークを提案する。 AIIAシステムは、高度なAIと自然言語処理(NLP)技術を活用して、対話的で魅力的な学習プラットフォームを構築する。 このプラットフォームは、情報へのアクセスを容易にし、知識アセスメントを容易にし、個々のニーズや学習スタイルに合わせてパーソナライズされた学習支援を提供することによって、学習者の認知負荷を軽減するために設計された。 AIIAの能力には、学生の質問に対する理解と応答、クイズとフラッシュカードの生成、パーソナライズされた学習経路の提供が含まれる。 この研究結果は、高等教育におけるAI対応バーチャル指導アシスタント(VTA)の設計、実装、評価に大きな影響を与える可能性があり、学生の学習成果、エンゲージメント、満足度を高める革新的な教育ツールの開発を通知する。 本稿では,教育におけるAIを活用したインテリジェントアシスタント開発における課題,限界,今後の方向性について議論しながら,方法論,システムアーキテクチャ,インテリジェントサービス,LMS(Learning Management Systems)との統合について述べる。

This paper presents a novel framework, Artificial Intelligence-Enabled Intelligent Assistant (AIIA), for personalized and adaptive learning in higher education. The AIIA system leverages advanced AI and Natural Language Processing (NLP) techniques to create an interactive and engaging learning platform. This platform is engineered to reduce cognitive load on learners by providing easy access to information, facilitating knowledge assessment, and delivering personalized learning support tailored to individual needs and learning styles. The AIIA's capabilities include understanding and responding to student inquiries, generating quizzes and flashcards, and offering personalized learning pathways. The research findings have the potential to significantly impact the design, implementation, and evaluation of AI-enabled Virtual Teaching Assistants (VTAs) in higher education, informing the development of innovative educational tools that can enhance student learning outcomes, engagement, and satisfaction. The paper presents the methodology, system architecture, intelligent services, and integration with Learning Management Systems (LMSs) while discussing the challenges, limitations, and future directions for the development of AI-enabled intelligent assistants in education.
翻訳日:2023-09-21 18:06:02 公開日:2023-09-19
# Crypto'Graph:ロバストグラフ学習のためのプライバシ保護分散リンク予測を活用する

Crypto'Graph: Leveraging Privacy-Preserving Distributed Link Prediction for Robust Graph Learning ( http://arxiv.org/abs/2309.10890v1 )

ライセンス: Link先を確認
Sofiane Azogagh, Zelma Aubin Birba, S\'ebastien Gambs and Marc-Olivier Killijian(参考訳) グラフは関係データの収集と解析に広く使われているデータ構造である。 しかしながら、グラフ構造が複数のパーティに分散している場合、その分析は特に困難である。 特に、各パーティがグラフに関する部分的な知識をプライベートに保持したい場合、データのキュレーションや汚染されたデータの削除といった相互利益のタスクのために、他のパーティと協力する意思がある場合があります。 この課題に対処するために,分散グラフ上でのプライバシ保護リンク予測のための効率的なプロトコルであるCrypto'Graphを提案する。 より正確には、パーティが分散リンクのあるグラフを部分的に共有することで、将来新しいリンクの形成の可能性を予測することができる。 暗号プリミティブを使用することで、crypto'graphは、同一のグラフを共有しているが同一のリンクではないため、個々のノードの数を知っていても、それぞれの個人のグラフの構造を明らかにすることなく、ジョイントネットワーク上でこれらの新しいリンクの可能性を計算できる。 Crypto'Graphは、追加のコストなしで特定の類似度メトリクスの計算を可能にすることで、以前の作業を改善する。 Crypto'Graphの使用は、グラフ中毒攻撃に対する防御のために説明されており、個々のパーティのグラフのプライバシーを損なうことなく、潜在的な敵リンクを特定することができる。 グラフニューラルネットワークノード分類タスクにおいて、グラフ中毒の軽減と高い予測精度を達成するためのCrypto'Graphの有効性を、実世界のデータセットで広範な実験を通して示す。

Graphs are a widely used data structure for collecting and analyzing relational data. However, when the graph structure is distributed across several parties, its analysis is particularly challenging. In particular, due to the sensitivity of the data each party might want to keep their partial knowledge of the graph private, while still willing to collaborate with the other parties for tasks of mutual benefit, such as data curation or the removal of poisoned data. To address this challenge, we propose Crypto'Graph, an efficient protocol for privacy-preserving link prediction on distributed graphs. More precisely, it allows parties partially sharing a graph with distributed links to infer the likelihood of formation of new links in the future. Through the use of cryptographic primitives, Crypto'Graph is able to compute the likelihood of these new links on the joint network without revealing the structure of the private individual graph of each party, even though they know the number of nodes they have, since they share the same graph but not the same links. Crypto'Graph improves on previous works by enabling the computation of a certain number of similarity metrics without any additional cost. The use of Crypto'Graph is illustrated for defense against graph poisoning attacks, in which it is possible to identify potential adversarial links without compromising the privacy of the graphs of individual parties. The effectiveness of Crypto'Graph in mitigating graph poisoning attacks and achieving high prediction accuracy on a graph neural network node classification task is demonstrated through extensive experimentation on a real-world dataset.
翻訳日:2023-09-21 18:05:41 公開日:2023-09-19
# 量子PAC学習における確率的アドバンテージ

Provable Advantage in Quantum PAC Learning ( http://arxiv.org/abs/2309.10887v1 )

ライセンス: Link先を確認
Wilfred Salmon, Sergii Strelchuk, Tom Gur(参考訳) 我々は、Bshouty と Jackson (SIAM J. Comput. 1998, 28 1136-1153) によって導入された量子PAC学習の複雑さを特徴づける問題を再考する。 それらは特定の概念クラスに適用され、典型的にはデータを生成する分布が知られている場合にのみ機能する。 一般の場合、Arunachalam と de Wolf [JMLR, 19 (2018) 1-36] により、量子PAC学習者は古典的なPAC学習者よりも定数係数の利点しか得られないことを示した。 Arunachalam と de Wolf が用いた量子PAC学習の定義を自然に拡張することで、量子学習における汎用的な優位性を実現できることを示す。 正確には、VC 次元 $d$ の任意の概念クラス $\mathcal{C}$ に対して、サンプル複雑性 \[O\left(\frac{1}{\sqrt{\epsilon}}\left[d+ \log(\frac{1}{\delta})\right]\log^9(1/\epsilon)\right を持つ$(\epsilon, \delta)$-quantum PAC 学習者が存在することを示す。 ]多対数因子を考えると、これは古典的学習サンプルの複雑さよりも二乗根の改善である。 この結果の厳密性は、上界を多対数因子に一致する$\Omega(d/\sqrt{\epsilon})$下界を証明することによって示される。

We revisit the problem of characterising the complexity of Quantum PAC learning, as introduced by Bshouty and Jackson [SIAM J. Comput. 1998, 28, 1136-1153]. Several quantum advantages have been demonstrated in this setting, however, none are generic: they apply to particular concept classes and typically only work when the distribution that generates the data is known. In the general case, it was recently shown by Arunachalam and de Wolf [JMLR, 19 (2018) 1-36] that quantum PAC learners can only achieve constant factor advantages over classical PAC learners. We show that with a natural extension of the definition of quantum PAC learning used by Arunachalam and de Wolf, we can achieve a generic advantage in quantum learning. To be precise, for any concept class $\mathcal{C}$ of VC dimension $d$, we show there is an $(\epsilon, \delta)$-quantum PAC learner with sample complexity \[ O\left(\frac{1}{\sqrt{\epsilon}}\left[d+ \log(\frac{1}{\delta})\right]\log^9(1/\epsilon)\right). \] Up to polylogarithmic factors, this is a square root improvement over the classical learning sample complexity. We show the tightness of our result by proving an $\Omega(d/\sqrt{\epsilon})$ lower bound that matches our upper bound up to polylogarithmic factors.
翻訳日:2023-09-21 18:05:15 公開日:2023-09-19
# GelSight Svelte:人間の指の形をした単一カメラの触覚ロボット

GelSight Svelte: A Human Finger-shaped Single-camera Tactile Robot Finger with Large Sensing Coverage and Proprioceptive Sensing ( http://arxiv.org/abs/2309.10885v1 )

ライセンス: Link先を確認
Jialiang Zhao and Edward H. Adelson(参考訳) カメラベースの触覚センシングは、高度に詳細な接触形状情報を得るための低コストで一般的なアプローチである。 しかし、既存のカメラベースの触覚センサーのほとんどは指先センサーであり、長い指は人間の指の長さに類似した広義のセンシング領域を得るためには、しばしば余分な要素を必要とする。 また, 接触形状が複雑である場合には, カメラによる触覚センサから指に作用する総力やトルクなどの受容情報を推定する方法は有効ではない。 gelsight svelteは、人間の指の大きさ、単眼触覚センサーで、広い範囲にわたって触覚と固有感覚の両方を感知できる。 GelSight Svelteは、望まれる形状と感知範囲を達成するために曲面ミラーを使用する。 カメラが捉えたGelSight Svelteのフレキシブルバックボーンの変形として、指に適用される全屈曲トルクやねじりトルクなどの受動的情報を反映する。 畳み込みニューラルネットワークを訓練し、撮影した画像から曲げトルクとねじりトルクを推定する。 指の様々な部位でゲル変形実験を行い,触感能力と固有感覚の精度を評価した。 指の異なる領域を利用する3つの異なる把持モードを持つ物体保持タスクを,gelsight svelteの能力と可能性を示す。 詳細は私たちのWebサイトにある。

Camera-based tactile sensing is a low-cost, popular approach to obtain highly detailed contact geometry information. However, most existing camera-based tactile sensors are fingertip sensors, and longer fingers often require extraneous elements to obtain an extended sensing area similar to the full length of a human finger. Moreover, existing methods to estimate proprioceptive information such as total forces and torques applied on the finger from camera-based tactile sensors are not effective when the contact geometry is complex. We introduce GelSight Svelte, a curved, human finger-sized, single-camera tactile sensor that is capable of both tactile and proprioceptive sensing over a large area. GelSight Svelte uses curved mirrors to achieve the desired shape and sensing coverage. Proprioceptive information, such as the total bending and twisting torques applied on the finger, is reflected as deformations on the flexible backbone of GelSight Svelte, which are also captured by the camera. We train a convolutional neural network to estimate the bending and twisting torques from the captured images. We conduct gel deformation experiments at various locations of the finger to evaluate the tactile sensing capability and proprioceptive sensing accuracy. To demonstrate the capability and potential uses of GelSight Svelte, we conduct an object holding task with three different grasping modes that utilize different areas of the finger. More information is available on our website: https://gelsight-svelte.alanz.info
翻訳日:2023-09-21 18:04:38 公開日:2023-09-19
# 自然言語処理を用いた食品システムオントロジーの分類機構

Classifying Organizations for Food System Ontologies using Natural Language Processing ( http://arxiv.org/abs/2309.10880v1 )

ライセンス: Link先を確認
Tianyu Jiang, Sonia Vinogradova, Nathan Stringham, E. Louise Earl, Allan D. Hollander, Patrick R. Huber, Ellen Riloff, R. Sandra Schillo, Giorgio A. Ubbiali, Matthew Lange(参考訳) 本研究は,ナレッジグラフの集団化と食品システムオントロジーの統合を目的としたエンティティの自動分類のための自然言語処理(NLP)手法について検討する。 我々は,NLPモデルを作成し,環境問題に関連するカテゴリや,米国政府がビジネス活動の特徴付けに使用している標準産業分類(SIC)コードに関して,組織を自動的に分類することができる。 入力として、NLPモデルは、各組織のためのGoogle検索エンジンによって検索されるテキストスニペットを備え、学習に使用される組織のテキスト記述として機能する。 実験の結果、NLPモデルはこれらの2つの分類タスクに対して合理的に優れた性能を達成でき、他の多くの分類問題にも適用可能な一般的なフレームワークに依存していることがわかった。 我々は,NLPモデルが知識グラフを自動的に収集し,共有カテゴリや概念を通じて既存のオントロジーと情報を整合させる,有望なアプローチであると信じている。

Our research explores the use of natural language processing (NLP) methods to automatically classify entities for the purpose of knowledge graph population and integration with food system ontologies. We have created NLP models that can automatically classify organizations with respect to categories associated with environmental issues as well as Standard Industrial Classification (SIC) codes, which are used by the U.S. government to characterize business activities. As input, the NLP models are provided with text snippets retrieved by the Google search engine for each organization, which serves as a textual description of the organization that is used for learning. Our experimental results show that NLP models can achieve reasonably good performance for these two classification tasks, and they rely on a general framework that could be applied to many other classification problems as well. We believe that NLP models represent a promising approach for automatically harvesting information to populate knowledge graphs and aligning the information with existing ontologies through shared categories and concepts.
翻訳日:2023-09-21 18:04:13 公開日:2023-09-19
# DeepliteRT:エッジでのコンピュータビジョン

DeepliteRT: Computer Vision at the Edge ( http://arxiv.org/abs/2309.10878v1 )

ライセンス: Link先を確認
Saad Ashfaq, Alexander Hoffman, Saptarshi Mitra, Sudhakar Sah, MohammadHossein AskariHemmat, Ehsan Saboori(参考訳) エッジデバイスの普及は、コンピュータビジョンアプリケーションにおけるディープラーニングモデル展開における前例のない機会を解放した。 しかし、これらの複雑なモデルは、エッジプラットフォームでは一般的に利用できないかなりの電力、メモリ、計算リソースを必要とする。 超低ビット量子化は、モデルウェイトとアクティベーションを32ビットから8ビット未満にスケールダウンすることでこの問題に魅力的な解決策をもたらす。 ARMベースのターゲットに対して,高度に最適化された超低ビット畳み込み演算子を実装した。 私たちのオペレータは、ARMデバイス上での超低ビットモデルのコンパイル、チューニング、推論のためのエンドツーエンドソリューションであるDeeplite Runtime(DeepliteRT)内に実装されています。 DeepliteRTのコンパイラは、偽量子化モデルを自動的に完全精度で超低ビット表現に変換することで、コモディティハードウェア上での量子化モデル展開のプロセスを緩和する。 最適化32ビット浮動小数点,8ビット整数,2ビットベースラインに対する分類と検出モデルにおけるDeepliteRTの性能を解析し,最大2.20倍,2.33倍,2.17倍の高速化を実現した。

The proliferation of edge devices has unlocked unprecedented opportunities for deep learning model deployment in computer vision applications. However, these complex models require considerable power, memory and compute resources that are typically not available on edge platforms. Ultra low-bit quantization presents an attractive solution to this problem by scaling down the model weights and activations from 32-bit to less than 8-bit. We implement highly optimized ultra low-bit convolution operators for ARM-based targets that outperform existing methods by up to 4.34x. Our operator is implemented within Deeplite Runtime (DeepliteRT), an end-to-end solution for the compilation, tuning, and inference of ultra low-bit models on ARM devices. Compiler passes in DeepliteRT automatically convert a fake-quantized model in full precision to a compact ultra low-bit representation, easing the process of quantized model deployment on commodity hardware. We analyze the performance of DeepliteRT on classification and detection models against optimized 32-bit floating-point, 8-bit integer, and 2-bit baselines, achieving significant speedups of up to 2.20x, 2.33x and 2.17x, respectively.
翻訳日:2023-09-21 18:03:56 公開日:2023-09-19
# Rydbergによるデファスティングによる連続波量子光制御

Continuous wave quantum light control via engineered Rydberg induced dephasing ( http://arxiv.org/abs/2309.10873v1 )

ライセンス: Link先を確認
Iason Tsiamis, Oleksandr Kyriienko, Anders S. S{\o}rensen(参考訳) ライドバーグ原子アンサンブルに基づく連続波単一光子スイッチ [tsiamis et al., continuous wave single photon switch] では, 連続波領域で動作する単光子光スイッチのいくつかのバリエーションを解析した。 デバイスは、ファンデルワールス相互作用を介して相互作用するライドベルク原子のアンサンブルに基づいている。 電磁誘導透過(EIT)条件下で原子雲を弱コヒーレントプローブ場で連続的に探すことにより、制御光子がない状態でのプローブの完全な反射/透過が導かれる。 単一の制御光子でライドバーグ状態の励起は、EIT条件を破り、プローブの反射率/透過率を大幅に変化させる。 光空洞や自由空間に密閉された原子アンサンブルにおける集団的リドベルグ相互作用が、2つのプローブ誘起脱離過程を誘導するかどうかを調べる。 これらのプロセスは制御光子を局所化し、プローブの反射率/透過率を変化させ、制御励起の寿命を延長し、装置の効率を高める。 デバイスの特徴は、制御光子を吸収する確率と、プローブの反射/透過率の変化によって記述される関連するゲインである。 その結果,空洞内の1次元および3次元原子アンサンブルと自由空間内の1次元原子アンサンブルの数値計算により確認された。 提案した連続波デバイスは、以前に実現された単一光子トランジスタを補完し、量子光操作回路を拡張する。

We analyze several variations of a single-photon optical switch operating in the continuous wave regime, as presented in the accompanying paper [Tsiamis et al., Continuous wave single photon switch based on a Rydberg atom ensemble]. The devices are based on ensembles of Rydberg atoms that interact through van der Waals interaction. Continuously probing the atomic cloud with a weak coherent probe field, under the conditions of electromagnetically induced transparency (EIT) leads to total reflection/transmission of the probe in the absence of control photons. Exciting a Rydberg state with a single control photon breaks the EIT conditions, drastically altering the probe's reflectance/transmittance. We examine how the collective Rydberg interaction in an atomic ensemble enclosed in an optical cavity or in free space induces two probe-induced dephasing processes. These processes localize the control photons and modify the probe's reflectance/transmittance, enhancing the lifetime of control excitations and increasing the devices' efficiency. The devices are characterized by the probability to absorb a control photon and the associated gain as described by the change in the probe's reflectance/transmittance. The results are confirmed through numerical calculations of realistic one- and three-dimensional atomic ensembles in a cavity and an one-dimensional atomic ensemble in free space. The proposed continuous wave devices complement previously realized single photon transistors and expand the possible quantum light manipulation circuitry.
翻訳日:2023-09-21 18:03:36 公開日:2023-09-19
# 分散型反復計画によるマインクラフト集落の再生

Believable Minecraft Settlements by Means of Decentralised Iterative Planning ( http://arxiv.org/abs/2309.10871v1 )

ライセンス: Link先を確認
Arthur van der Staaij, Jelmer Prins, Vincent L. Prins, Julian Poelsma, Thera Smit, Matthias M\"uller-Brockhausen, Mike Preuss(参考訳) プロシージャコンテンツ生成 (PCG) 分野において, ランダムな地形に対する信頼性と適応性に着目した手続き型都市生成は難しい課題である。 2022年のコンペティションで優勝したマインクラフト(gdmc)のジェネレーティブな決済デザインのような課題では、数十人の研究者が現実的なアプローチを競い合っている。 これは分散的で反復的な計画プロセスによって実現され、同様の生成プロセスに移行可能で、手続き的に"有機的"なコンテンツを生成することを目的としている。

Procedural city generation that focuses on believability and adaptability to random terrain is a difficult challenge in the field of Procedural Content Generation (PCG). Dozens of researchers compete for a realistic approach in challenges such as the Generative Settlement Design in Minecraft (GDMC), in which our method has won the 2022 competition. This was achieved through a decentralised, iterative planning process that is transferable to similar generation processes that aims to produce "organic" content procedurally.
翻訳日:2023-09-21 18:03:09 公開日:2023-09-19
# sos tutoria uc: 能力と性格に基づく教師推薦のための多様性対応アプリケーション

SOS TUTORIA UC: A Diversity-Aware Application for Tutor Recommendation Based on Competence and Personality ( http://arxiv.org/abs/2309.10869v1 )

ライセンス: Link先を確認
Laura Achon, Ana De Souza, Alethia Hume, Ronald Chenu-Abente, Amalia De Gotzen and Luca Cernuzzi(参考訳) sos tutoria ucは、学生間の学術的支援を促進することを目的とした学生接続アプリケーションである。 これを実現するために、レスポンシブwebアプリケーションが設計・実装され、wenetプラットフォームと統合され、ユーザ管理とユーザのレコメンデーションアルゴリズムのための様々なサービスを提供する。 本研究は,学生に授業を勧める過程において,人格特性の次元をビッグファイブモデルに則って取り入れることの重要性を評価することにより,応用経験の発達と妥当性を示す。 目的は、学生がより深い知識を持ち、特定のトピックで学術的援助を受けるための自身の好みに、'different\'、''similar\'、''indifferent\'という個性を持たせるための支援を提供することである。 WeNetプラットフォームとの統合はコンポーネントという点で成功し、レコメンデーションシステムテストの結果は肯定的なものだったが、改善の余地はあった。

SOS TUTORIA UC is a student connection application aimed at facilitating academic assistance between students through external tutoring outside of the application. To achieve this, a responsive web application was designed and implemented, integrated with the WeNet platform, which provides various services for user management and user recommendation algorithms. This study presents the development and validation of the experience in the application by evaluating the importance of incorporating the dimension of personality traits, according to the Big Five model, in the process of recommending students for academic tutoring. The goal is to provide support for students to find others with greater knowledge and with a personality that is \'different\', \'similar\' or \'indifferent\' to their own preferences for receiving academic assistance on a specific topic. The integration with the WeNet platform was successful in terms of components, and the results of the recommendation system testing were positive but have room for improvement.
翻訳日:2023-09-21 18:02:59 公開日:2023-09-19
# 深層学習天気予報モデルの動的実験

Dynamical Tests of a Deep-Learning Weather Prediction Model ( http://arxiv.org/abs/2309.10867v1 )

ライセンス: Link先を確認
Gregory J. Hakim and Sanjit Masanam(参考訳) 世界のディープラーニング天気予報モデルは、最近、運用センターで実行される物理モデルと競合する予測を生成することが示されている。 これらのモデルが大気力学をエンコードしているか、単に予測誤差が最小になるパターンマッチングなのかは不明である。 この質問に答えることは、基礎科学のツールとしてこれらのモデルの有用性を確立するのに不可欠である。 ここでは、モデルトレーニングデータに似ていない4つの古典力学実験の集合に、そのようなモデルPangu-weatherを適用する。 モデル出力と初期条件に対する局所的摂動を定常時間平均条件に付加し、局所的源から離れた信号の伝播速度と構造進化を評価する。 定常的な熱帯熱源を加えることでモデル物理学を摂動させると、暖房付近の古典的な松野ギル応答と、外熱帯に放射される惑星波が生じる。 冬平均の北太平洋ジェット流の局所的な乱れは、極低地の自発的な出現を含む、現実的な外向性サイクロンと前線を生み出す。 500hPa高原のみの摂動は、休息状態から風圧バランスの1つに約6時間にわたって調整される。 局所的な亜熱帯低気圧システムは大西洋のハリケーンを発生させ、初期振幅が約5 hpaを超え、初期湿度をゼロに設定することでハリケーンの開発をなくす。 このモデルは全ての実験で現実的な物理学をエンコードし、高価な物理モデルを使う前にアイデアを迅速にテストするためのツールとして使用できることを示唆する。

Global deep-learning weather prediction models have recently been shown to produce forecasts that rival those from physics-based models run at operational centers. It is unclear whether these models have encoded atmospheric dynamics, or simply pattern matching that produces the smallest forecast error. Answering this question is crucial to establishing the utility of these models as tools for basic science. Here we subject one such model, Pangu-weather, to a set of four classical dynamical experiments that do not resemble the model training data. Localized perturbations to the model output and the initial conditions are added to steady time-averaged conditions, to assess the propagation speed and structural evolution of signals away from the local source. Perturbing the model physics by adding a steady tropical heat source results in a classical Matsuno--Gill response near the heating, and planetary waves that radiate into the extratropics. A localized disturbance on the winter-averaged North Pacific jet stream produces realistic extratropical cyclones and fronts, including the spontaneous emergence of polar lows. Perturbing the 500hPa height field alone yields adjustment from a state of rest to one of wind--pressure balance over ~6 hours. Localized subtropical low pressure systems produce Atlantic hurricanes, provided the initial amplitude exceeds about 5 hPa, and setting the initial humidity to zero eliminates hurricane development. We conclude that the model encodes realistic physics in all experiments, and suggest it can be used as a tool for rapidly testing ideas before using expensive physics-based models.
翻訳日:2023-09-21 18:02:38 公開日:2023-09-19
# 連続空間における無限水平平均場問題に対する深部強化学習

Deep Reinforcement Learning for Infinite Horizon Mean Field Problems in Continuous Spaces ( http://arxiv.org/abs/2309.10953v1 )

ライセンス: Link先を確認
Andrea Angiuli, Jean-Pierre Fouque, Ruimeng Hu, Alan Raydan(参考訳) 連続空間平均場ゲーム(MFG)と平均場制御(MFC)問題を統一的に解くために設計された強化学習(RL)アルゴリズムの開発と解析を行う。 提案手法は,オンライン形式で効率的に更新可能なパラメータ化スコア関数による平均場分布の表現とアクタ-クリティック(ac)パラダイムを組み合わせることで,ランジュバンダイナミクスを用いてその分布からサンプルを得る。 ACエージェントとスコア関数は、学習率の選択に応じて、所定の平均場問題に対してMFG平衡またはMFC最適化のいずれかに収束するように反復的に更新される。 アルゴリズムの簡単な修正により、混合平均場制御ゲーム(MFCG)を解くことができる。 このアルゴリズムの性能は漸近無限地平線フレームワークにおける線形四次ベンチマークを用いて評価する。

We present the development and analysis of a reinforcement learning (RL) algorithm designed to solve continuous-space mean field game (MFG) and mean field control (MFC) problems in a unified manner. The proposed approach pairs the actor-critic (AC) paradigm with a representation of the mean field distribution via a parameterized score function, which can be efficiently updated in an online fashion, and uses Langevin dynamics to obtain samples from the resulting distribution. The AC agent and the score function are updated iteratively to converge, either to the MFG equilibrium or the MFC optimum for a given mean field problem, depending on the choice of learning rates. A straightforward modification of the algorithm allows us to solve mixed mean field control games (MFCGs). The performance of our algorithm is evaluated using linear-quadratic benchmarks in the asymptotic infinite horizon framework.
翻訳日:2023-09-21 17:57:48 公開日:2023-09-19
# 不均質な強度と欠落境界を持つ画像のセグメンテーションに対する幾何学的フローアプローチ

A Geometric Flow Approach for Segmentation of Images with Inhomongeneous Intensity and Missing Boundaries ( http://arxiv.org/abs/2309.10935v1 )

ライセンス: Link先を確認
Paramjyoti Mohapatra, Richard Lartey, Weihong Guo, Michael Judkovich, and Xiaojuan Li(参考訳) 画像分割は複雑な数学的問題であり、特に強度の不均質性を含む画像と、その間に境界が欠けている密集した物体についてである。 例えば、磁気共鳴(MR)筋画像はこれらの問題の両方を含むことが多く、特に筋肉のセグメンテーションが困難である。 本稿では,新しい強度補正とセミオートマチック・アクティブ・輪郭に基づくセグメンテーション手法を提案する。 このアプローチでは、再生成核ヒルベルト空間(rkhs)エッジ検出器と、マーカーとアンチマーカーの集合からの測地距離ペナルティ項を組み込んだ幾何学的フローを用いる。 提案手法をMR筋分節法で検証し,術式との比較を行った。 このような画像の強度不均一性に対処するために, PBCFCM (Presideor Bias-Corrected Fuzzy C-means) と呼ばれる, 脂肪分画を用いたバイアス場の推定手法が導入された。 数値実験により,提案手法が比較手法よりも有意に優れた結果をもたらすことが示された。 提案法の平均サイコロは92.5%,85.3%,85.3%,四肢四頭筋,ハムストリングなどの筋群では85.3%,他のアプローチでは10%以上であった。

Image segmentation is a complex mathematical problem, especially for images that contain intensity inhomogeneity and tightly packed objects with missing boundaries in between. For instance, Magnetic Resonance (MR) muscle images often contain both of these issues, making muscle segmentation especially difficult. In this paper we propose a novel intensity correction and a semi-automatic active contour based segmentation approach. The approach uses a geometric flow that incorporates a reproducing kernel Hilbert space (RKHS) edge detector and a geodesic distance penalty term from a set of markers and anti-markers. We test the proposed scheme on MR muscle segmentation and compare with some state of the art methods. To help deal with the intensity inhomogeneity in this particular kind of image, a new approach to estimate the bias field using a fat fraction image, called Prior Bias-Corrected Fuzzy C-means (PBCFCM), is introduced. Numerical experiments show that the proposed scheme leads to significantly better results than compared ones. The average dice values of the proposed method are 92.5%, 85.3%, 85.3% for quadriceps, hamstrings and other muscle groups while other approaches are at least 10% worse.
翻訳日:2023-09-21 17:57:31 公開日:2023-09-19
# ロシア語用事前学習トランスフォーマー言語モデルの一家系

A Family of Pretrained Transformer Language Models for Russian ( http://arxiv.org/abs/2309.10931v1 )

ライセンス: Link先を確認
Dmitry Zmitrovich, Alexander Abramov, Andrey Kalmykov, Maria Tikhonova, Ekaterina Taktasheva, Danil Astafurov, Mark Baushenko, Artem Snegirev, Tatiana Shavrina, Sergey Markov, Vladislav Mikhailov, Alena Fenogenova(参考訳) 現在、トランスフォーマー言語モデル(LM)はNLP研究の方法論と応用の基礎的な構成要素となっている。 しかし、特にロシア語向けのモデルの開発は、ほとんど注目されていない。 本稿では, エンコーダ (ruBERT, ruRoBERTa, ruELECTRA) とデコーダ (ruGPT-3) , エンコーダ-デコーダ (ruT5, FRED-T5) モデルに基づく13個のロシアトランスフォーマーLMのコレクションについて述べる。 これらのモデルへのアクセスは、hughingfaceプラットフォーム経由で簡単に利用できる。 本稿では,モデルアーキテクチャの設計と事前学習,およびロシア自然言語理解と生成データセットとベンチマークの一般化能力の評価結果について報告する。 これらの特殊なトランスフォーマーLMの事前学習とリリースにより、NLP研究の方向性の範囲を広げ、ロシア語のための産業ソリューションの開発を可能にしたい。

Nowadays, Transformer language models (LMs) represent a fundamental component of the NLP research methodologies and applications. However, the development of such models specifically for the Russian language has received little attention. This paper presents a collection of 13 Russian Transformer LMs based on the encoder (ruBERT, ruRoBERTa, ruELECTRA), decoder (ruGPT-3), and encoder-decoder (ruT5, FRED-T5) models in multiple sizes. Access to these models is readily available via the HuggingFace platform. We provide a report of the model architecture design and pretraining, and the results of evaluating their generalization abilities on Russian natural language understanding and generation datasets and benchmarks. By pretraining and releasing these specialized Transformer LMs, we hope to broaden the scope of the NLP research directions and enable the development of industrial solutions for the Russian language.
翻訳日:2023-09-21 17:57:06 公開日:2023-09-19
# 音声の試験時間学習

Test-Time Training for Speech ( http://arxiv.org/abs/2309.10930v1 )

ライセンス: Link先を確認
Sri Harsha Dumpala and Chandramouli Sastry and Sageev Oore(参考訳) 本稿では,TTT(Test-Time Training)の音声応用における分散シフト処理への応用について検討する。 特に、標準音声分類タスク(話者識別や感情検出など)のテストデータセットに分散シフトを導入し、テスト時間トレーニング(TTT)が分散シフトの調整にどのように役立つかを調査する。 性別や年齢などの音声の背景雑音や自然な変化による分布変化を含む実験では、ハイパーパラメータの感度(例えば、TTTに選択されたパラメータの最適化ステップ数やサブセット数)やスケーラビリティ(例えば、各例に独自のパラメータセットがあるため、TTTは拡張性がない)など、TTTのキーチェレを識別する。 最後に,テキストアプリケーションにおいてバイアスパラメータのみを考慮したパラメータ効率の良い微調整アルゴリズムであるbitfitを,上記の課題に対する解決策として提案し,モデルのすべてのパラメータを微調整するよりも一貫して安定であることを実証する。

In this paper, we study the application of Test-Time Training (TTT) as a solution to handling distribution shifts in speech applications. In particular, we introduce distribution-shifts to the test datasets of standard speech-classification tasks -- for example, speaker-identification and emotion-detection -- and explore how Test-Time Training (TTT) can help adjust to the distribution-shift. In our experiments that include distribution shifts due to background noise and natural variations in speech such as gender and age, we identify some key-challenges with TTT including sensitivity to optimization hyperparameters (e.g., number of optimization steps and subset of parameters chosen for TTT) and scalability (e.g., as each example gets its own set of parameters, TTT is not scalable). Finally, we propose using BitFit -- a parameter-efficient fine-tuning algorithm proposed for text applications that only considers the bias parameters for fine-tuning -- as a solution to the aforementioned challenges and demonstrate that it is consistently more stable than fine-tuning all the parameters of the model.
翻訳日:2023-09-21 17:56:48 公開日:2023-09-19
# 潜在属性事前学習による複雑なスタイル伝達への小言語モデルの特化

Specializing Small Language Models towards Complex Style Transfer via Latent Attribute Pre-Training ( http://arxiv.org/abs/2309.10929v1 )

ライセンス: Link先を確認
Ruiqi Xu, Yongfeng Huang, Xin Chen, Lin Zhang(参考訳) 本稿では,複雑なテキストスタイル転送タスクの概念を紹介し,その2つのシナリオに基づいて複雑なテキストデータセットを構築した。 我々のデータセットは、ゲームGenshin Impactの700文と1000文からなる、この種の最初の大規模データセットである。 大きな言語モデル(LLM)は複雑なテキストスタイルの転送を約束しているが、データプライバシの懸念、ネットワークの不安定性、デプロイメントコストなどの欠点がある。 これらの問題に対処するために、対照的な学習を通して暗黙的なスタイルの事前学習を行う小型モデル(T5-3B未満)の有効性を検討する。 また,チャットgptを用いた人間評価と整合したテキスト生成品質の自動評価手法を提案する。 最後に,本手法を既存手法と比較し,本モデルがテキスト転送モデルの最先端性能を実現することを示す。

In this work, we introduce the concept of complex text style transfer tasks, and constructed complex text datasets based on two widely applicable scenarios. Our dataset is the first large-scale data set of its kind, with 700 rephrased sentences and 1,000 sentences from the game Genshin Impact. While large language models (LLM) have shown promise in complex text style transfer, they have drawbacks such as data privacy concerns, network instability, and high deployment costs. To address these issues, we explore the effectiveness of small models (less than T5-3B) with implicit style pre-training through contrastive learning. We also propose a method for automated evaluation of text generation quality based on alignment with human evaluations using ChatGPT. Finally, we compare our approach with existing methods and show that our model achieves state-of-art performances of few-shot text style transfer models.
翻訳日:2023-09-21 17:56:29 公開日:2023-09-19
# ラベルコンテキストを用いたセミリグレッシブストリーミングasr

Semi-Autoregressive Streaming ASR With Label Context ( http://arxiv.org/abs/2309.10926v1 )

ライセンス: Link先を確認
Siddhant Arora, George Saon, Shinji Watanabe, Brian Kingsbury(参考訳) 非自己回帰(NAR)モデリングは、これらのモデルが自己回帰(AR)モデルよりも劇的に低い推論時間を達成すると同時に、良好な転写精度を達成するため、音声処理において大きな関心を集めている。 NAR自動音声認識(ASR)モデルは処理前に全発話が完了するのを待たなければならないため、低遅延アプリケーションに対するブロックワイズに基づくNARモデルのストリーミングを検討する研究もある。 しかし、ストリーミングのNARモデルは、ストリーミングのARや非ストリーミングのNARモデルと比較して、精度が大幅に低下した。 そこで本稿では,従来のブロックで出力されたラベルをLanguage Model (LM) サブネットワークを用いて追加コンテキストとして組み込んだストリーミング自動回帰型ASRモデルを提案する。 また,ブロック境界付近の挿入と削除の誤りに対処し,推論時間を大幅に増加させない新しいグリーディ復号アルゴリズムを導入する。 実験の結果,既存のストリーミングNARモデルではTedlium2が19%,Librispeech-100が16%/8%,Switchboard(SWB)/Callhome(CH)テストセットが19%/8%であった。 さらに、ストリーミングarと非ストリーミングnarモデルとの精度ギャップを低減し、レイテンシを2.5倍に削減した。 また,本手法では,外部テキストデータを用いてlmサブネットワークの事前学習を行い,asrのストリーミング精度をさらに向上できることを実証する。

Non-autoregressive (NAR) modeling has gained significant interest in speech processing since these models achieve dramatically lower inference time than autoregressive (AR) models while also achieving good transcription accuracy. Since NAR automatic speech recognition (ASR) models must wait for the completion of the entire utterance before processing, some works explore streaming NAR models based on blockwise attention for low-latency applications. However, streaming NAR models significantly lag in accuracy compared to streaming AR and non-streaming NAR models. To address this, we propose a streaming "semi-autoregressive" ASR model that incorporates the labels emitted in previous blocks as additional context using a Language Model (LM) subnetwork. We also introduce a novel greedy decoding algorithm that addresses insertion and deletion errors near block boundaries while not significantly increasing the inference time. Experiments show that our method outperforms the existing streaming NAR model by 19% relative on Tedlium2, 16%/8% on Librispeech-100 clean/other test sets, and 19%/8% on the Switchboard(SWB) / Callhome(CH) test sets. It also reduced the accuracy gap with streaming AR and non-streaming NAR models while achieving 2.5x lower latency. We also demonstrate that our approach can effectively utilize external text data to pre-train the LM subnetwork to further improve streaming ASR accuracy.
翻訳日:2023-09-21 17:56:13 公開日:2023-09-19
# マルチコピー強化学習エージェント

Multicopy Reinforcement Learning Agents ( http://arxiv.org/abs/2309.10908v1 )

ライセンス: Link先を確認
Alicia P. Wolfe, Oliver Diamond, Remi Feuerman, Magdalena Kisielinska, Brigitte Goeler-Slough, Victoria Manfredi(参考訳) 本稿では,エージェントが同一のコピーを複数作成して,エージェントのタスクをより効率的に行うという,新しいタイプのマルチエージェント問題について検討する。 この戦略は、環境が騒がしく、タスクが1つのエージェントコピーで達成できない場合、パフォーマンスを改善する。 本稿では,値関数の構造を活かしたマルチコピー問題の学習アルゴリズムを提案し,コピーを追加する際の利点とコストのバランスを効果的に学習する。

This paper examines a novel type of multi-agent problem, in which an agent makes multiple identical copies of itself in order to achieve a single agent task better or more efficiently. This strategy improves performance if the environment is noisy and the task is sometimes unachievable by a single agent copy. We propose a learning algorithm for this multicopy problem which takes advantage of the structure of the value function to efficiently learn how to balance the advantages and costs of adding additional copies.
翻訳日:2023-09-21 17:55:30 公開日:2023-09-19
# 自己組織型ガウス混合モデルによる増分多モード表面マッピング

Incremental Multimodal Surface Mapping via Self-Organizing Gaussian Mixture Models ( http://arxiv.org/abs/2309.10900v1 )

ライセンス: Link先を確認
Kshitij Goel, Wennie Tabib(参考訳) 本文では,環境を連続確率モデルとして表わすインクリメンタルなマルチモーダル表面マッピング手法について述べる。 このモデルは空間および強度点雲データを同時に圧縮しながら高分解能再構成を可能にする。 この研究で使用される戦略は環境を表現するためにガウス混合モデル(GMM)を用いる。 従来のGMMマッピングでは、情報理論技術を用いて混合成分の個数を決定する手法が開発されているが、これらの手法は個々のセンサ観測で動作し、インクリメンタルマッピングには適さないか、特に高忠実度モデリングが必要なアプリケーションではリアルタイムに実行できない。 このギャップを埋めるために、このレターは、高速gmmサブマップ抽出のための空間ハッシュマップと、ポイントクラウドにおける関連データおよび冗長データを決定するためのアプローチを導入している。 これらの寄与は、最先端のインクリメンタルGMMベースのマッピングと比較して、計算速度を桁違いに向上させる。 さらに,提案手法は,現状の地図手法(GMMベースではなく,GMMベース)と比較して,地図の精度と大きさのトレードオフが優れている。 シミュレーションデータと実世界データの両方を用いて評価を行う。 このソフトウェアは、ロボティクスコミュニティに利益をもたらすためにオープンソースとしてリリースされた。

This letter describes an incremental multimodal surface mapping methodology, which represents the environment as a continuous probabilistic model. This model enables high-resolution reconstruction while simultaneously compressing spatial and intensity point cloud data. The strategy employed in this work utilizes Gaussian mixture models (GMMs) to represent the environment. While prior GMM-based mapping works have developed methodologies to determine the number of mixture components using information-theoretic techniques, these approaches either operate on individual sensor observations, making them unsuitable for incremental mapping, or are not real-time viable, especially for applications where high-fidelity modeling is required. To bridge this gap, this letter introduces a spatial hash map for rapid GMM submap extraction combined with an approach to determine relevant and redundant data in a point cloud. These contributions increase computational speed by an order of magnitude compared to state-of-the-art incremental GMM-based mapping. In addition, the proposed approach yields a superior tradeoff in map accuracy and size when compared to state-of-the-art mapping methodologies (both GMM- and not GMM-based). Evaluations are conducted using both simulated and real-world data. The software is released open-source to benefit the robotics community.
翻訳日:2023-09-21 17:55:16 公開日:2023-09-19
# 文法的誤り訂正のためのRedPenNet:Tokens、Atentions to Spans

RedPenNet for Grammatical Error Correction: Outputs to Tokens, Attentions to Spans ( http://arxiv.org/abs/2309.10898v1 )

ライセンス: Link先を確認
Bohdan Didenko (1), Andrii Sameliuk (1) ((1) WebSpellChecker LLC / Ukraine)(参考訳) 文の融合、文の分割と再構成、テキストの単純化、文法的誤り訂正(gec)を含むテキスト編集タスクは、非常に類似した入力および出力シーケンスを扱う共通の特徴を共有している。 この研究領域は2つの確立された分野の交差点にある。 (i)ニューラルマシン翻訳(NMT)やタスクでよく使われる完全自己回帰的シーケンス・ツー・シーケンスアプローチ (ii)パート・オブ・スパイチ・タギング、名前付きエンティティ認識(ner)等のタスクに対処するために一般的に用いられるシーケンスタギング技術。 バランスのとれたアーキテクチャを追求する中で、研究者たちは、関係する作業のセクションで議論している、想像力と非伝統的なソリューションを数多く思いついた。 テキスト編集タスクに対処するアプローチはredpennetと呼ばれ、特定のシーケンシャル・トゥ・エディットモデルで提示されるアーキテクチャ的およびパラメトリックな冗長性を低減し、セミ自己回帰的な利点を保ちます。 我々のモデルはBEA-2019(テスト)で77.60ドルのF_{0.5}$スコアを獲得し、UAGEC+Fluency(テスト)ベンチマークで67.71のシステム組み合わせの唯一の例外とみなすことができる。 この研究はUNLP 2023ワークショップの文脈で行われており、ウクライナ語における文法的誤り訂正における共有タスク(GEC)の論文として論文として提示された。 本研究の目的は、ウクライナ語におけるGEC問題に対処するためにRedPenNetアプローチを適用することである。

The text editing tasks, including sentence fusion, sentence splitting and rephrasing, text simplification, and Grammatical Error Correction (GEC), share a common trait of dealing with highly similar input and output sequences. This area of research lies at the intersection of two well-established fields: (i) fully autoregressive sequence-to-sequence approaches commonly used in tasks like Neural Machine Translation (NMT) and (ii) sequence tagging techniques commonly used to address tasks such as Part-of-speech tagging, Named-entity recognition (NER), and similar. In the pursuit of a balanced architecture, researchers have come up with numerous imaginative and unconventional solutions, which we're discussing in the Related Works section. Our approach to addressing text editing tasks is called RedPenNet and is aimed at reducing architectural and parametric redundancies presented in specific Sequence-To-Edits models, preserving their semi-autoregressive advantages. Our models achieve $F_{0.5}$ scores of 77.60 on the BEA-2019 (test), which can be considered as state-of-the-art the only exception for system combination and 67.71 on the UAGEC+Fluency (test) benchmarks. This research is being conducted in the context of the UNLP 2023 workshop, where it was presented as a paper as a paper for the Shared Task in Grammatical Error Correction (GEC) for Ukrainian. This study aims to apply the RedPenNet approach to address the GEC problem in the Ukrainian language.
翻訳日:2023-09-21 17:54:39 公開日:2023-09-19
# PLVS:ポイント,ライン,ボリュームマッピング,3次元インクリメンタルセグメンテーションを備えたSLAMシステム

PLVS: A SLAM System with Points, Lines, Volumetric Mapping, and 3D Incremental Segmentation ( http://arxiv.org/abs/2309.10896v1 )

ライセンス: Link先を確認
Luigi Freda(参考訳) 本論文では,スパースSLAM,ボリュームマッピング,非教師なしインクリメンタルセグメンテーションを利用したリアルタイムシステムPLVSについて述べる。 PLVS は Points, Lines, Volumetric Mapping, Segmentation の略である。 RGB-Dとステレオカメラをサポートしており、オプションでIMUを搭載している。 SLAMモジュールはキーフレームベースで、スパースポイントとラインセグメントを機能として抽出し追跡する。 ボリュームマッピングはSLAMフロントエンドに対して並列に実行され、キーフレームからバックプロジェクションされた点雲を融合することにより、探索された環境の3次元再構築を生成する。 PLVSには様々なボリュームマッピング方法がサポートされている。 バンドル調整ラインセグメントに新しい再投影エラーを用いる。 この誤差は利用可能な深度情報を利用して線分エンドポイントの位置推定を安定化する。 PLVSフレームワークのRGB-Dカメラにインクリメンタルで幾何学的なセグメンテーション手法を実装し,統合する。 PLVSフレームワークの質的,定量的な評価を公開データセット上で行う。 付録では、採用されたステレオ線三角法を詳述し、線誤差項に使用したヤコビアンを導出する。 ソフトウェアはオープンソースとして利用可能である。

This document presents PLVS: a real-time system that leverages sparse SLAM, volumetric mapping, and 3D unsupervised incremental segmentation. PLVS stands for Points, Lines, Volumetric mapping, and Segmentation. It supports RGB-D and Stereo cameras, which may be optionally equipped with IMUs. The SLAM module is keyframe-based, and extracts and tracks sparse points and line segments as features. Volumetric mapping runs in parallel with respect to the SLAM front-end and generates a 3D reconstruction of the explored environment by fusing point clouds backprojected from keyframes. Different volumetric mapping methods are supported and integrated in PLVS. We use a novel reprojection error to bundle-adjust line segments. This error exploits available depth information to stabilize the position estimates of line segment endpoints. An incremental and geometric-based segmentation method is implemented and integrated for RGB-D cameras in the PLVS framework. We present qualitative and quantitative evaluations of the PLVS framework on some publicly available datasets. The appendix details the adopted stereo line triangulation method and provides a derivation of the Jacobians we used for line error terms. The software is available as open-source.
翻訳日:2023-09-21 17:53:42 公開日:2023-09-19
# 選択アーティファクトとしてのベル相関

Bell Correlations as Selection Artefacts ( http://arxiv.org/abs/2309.10969v1 )

ライセンス: Link先を確認
Huw Price and Ken Wharton(参考訳) 本稿では,ベル実験の相関特性について説明し,それらが特別な選択アーティファクトとしてどのように生じるかを示す。 この説明は、直接的な空間的な因果関係や影響に言及することなく、非局所性を示唆する現象を説明する。 正しければ、この提案は非局所性を相対性理論と整合させる新しい方法を提供する。 本稿では,提案の先行バージョン(arXiv:2101.05370v4[quant-ph],arXiv:2212.06986[quant-ph])を2つの主要な点で更新する。 (i)実際のベル実験でその応用を示すこと、及び (ii) 後天性の明示的な仮定の必要性を回避すること。

We propose an explanation of the correlations characteristic of Bell experiments, showing how they may arise as a special sort of selection artefact. This explanation accounts for the phenomena that have been taken to imply nonlocality, without recourse to any direct spacelike causality or influence. If correct, the proposal offers a novel way to reconcile nonlocality with relativity. The present paper updates an earlier version of the proposal (arXiv:2101.05370v4 [quant-ph], arXiv:2212.06986 [quant-ph]) in two main respects: (i) in demonstrating its application in a real Bell experiment; and (ii) in avoiding the need for an explicit postulate of retrocausality.
翻訳日:2023-09-21 17:42:51 公開日:2023-09-19
# MBRとQEファインタニング:最良かつ最も高価な復号法の訓練時間蒸留

MBR and QE Finetuning: Training-time Distillation of the Best and Most Expensive Decoding Methods ( http://arxiv.org/abs/2309.10966v1 )

ライセンス: Link先を確認
Mara Finkelstein and Markus Freitag(参考訳) 自然言語生成(NLG)タスクの復号法に関する最近の研究は、従来のビーム探索とグレディ復号アルゴリズムが必ずしも人間の好みと一致しないため、最適ではないことを示している。 QE(Quality Estimation)やMBR(Minimum Bayes' Risk)といったより強力な復号法が提案され、モデルパープレキシティとvs品質のミスマッチが軽減された。 これらの復号法は最先端の性能を実現するが、計算コストは極めて高い。 本研究では,これらの復号法から得られた品質向上を,推定時に効率的な復号アルゴリズムを用いて蒸留するmbr微調整とqe微調整を提案する。 ニューラルネットワーク翻訳(nmt)の標準的nlgタスクを用いて,自己学習においても,これらの微調整手法がベースモデルを大幅に上回っていることを示す。 さらに、外部LLMを教師モデルとして使用する場合、これらの微調整法は人為的な参照に基づいて微調整を行う。 これらの知見は, 復号時の最大効率を維持しつつ, 人間が収集したデータと同等かそれ以上か, モデル品質の改善を達成するために, 単言語データを活用する新しい方法を提案する。

Recent research in decoding methods for Natural Language Generation (NLG) tasks has shown that the traditional beam search and greedy decoding algorithms are not optimal, because model probabilities do not always align with human preferences. Stronger decoding methods, including Quality Estimation (QE) reranking and Minimum Bayes' Risk (MBR) decoding, have since been proposed to mitigate the model-perplexity-vs-quality mismatch. While these decoding methods achieve state-of-the-art performance, they are prohibitively expensive to compute. In this work, we propose MBR finetuning and QE finetuning which distill the quality gains from these decoding methods at training time, while using an efficient decoding algorithm at inference time. Using the canonical NLG task of Neural Machine Translation (NMT), we show that even with self-training, these finetuning methods significantly outperform the base model. Moreover, when using an external LLM as a teacher model, these finetuning methods outperform finetuning on human-generated references. These findings suggest new ways to leverage monolingual data to achieve improvements in model quality that are on par with, or even exceed, improvements from human-curated data, while maintaining maximum efficiency during decoding.
翻訳日:2023-09-21 17:42:39 公開日:2023-09-19
# 核融合スピン鎖上の量子セルオートマトンの一指標

An index for quantum cellular automata on fusion spin chains ( http://arxiv.org/abs/2309.10961v1 )

ライセンス: Link先を確認
Corey Jones, Junhwi Lim(参考訳) 1次元量子セルオートマトン(QCA)のGNVW指数を部分因子のジョーンズ指数で解釈すると、より一般的な抽象スピン鎖上のQCAに定義された指数の一般化につながる。 融合スピン鎖は局所作用素として大域(カテゴリー/MPO)対称性の下で不変であり、2次元位相的に順序付けられたスピン系の境界作用素として生じる。 融合圏 $\mathbf{Fib}$ から構築された融合スピン鎖に対して、指数はQCA変調有限深さ回路群に対する完全不変量であることを示す。

Interpreting the GNVW index for 1D quantum cellular automata (QCA) in terms of the Jones index for subfactors leads to a generalization of the index defined for QCA on more general abstract spin chains. These include fusion spin chains, which arise as the local operators invariant under a global (categorical/MPO) symmetry, as the boundary operators on 2D topologically ordered spin systems. We show that for the fusion spin chains built from the fusion category $\mathbf{Fib}$, the index is a complete invariant for the group of QCA modulo finite depth circuits.
翻訳日:2023-09-21 17:42:16 公開日:2023-09-19
# 量子熱エンジンの動作物質としてのInAs3量子ドット

InAs three quantum dots as working substance for quantum heat engine ( http://arxiv.org/abs/2309.10958v1 )

ライセンス: Link先を確認
H. Ait Mansour, F. El Ayachi, M. Faqir and M. Elbaz(参考訳) 熱機関は現代社会にとって貴重な資源だと考えられている。 これらのシステムの開発は、量子熱エンジンと呼ばれる小型にもかかわらず、高い効率で熱エンジンを製造することにつながる。 この中で、古典的熱エンジンの基本的な熱力学サイクルと考えられている量子オットーサイクルは、量子熱エンジンの分野でも応用されている。 本稿では,3つのInAs量子ドットを動作物質とみなし,電場の存在下でエンジンを非常に小さなスケールで動作させることができることと,量子ドット間のエネルギー移動を記述し,エンジンの挙動に影響を与えるForster機構について考察する。 本研究では, エンジンによる作業の挙動と, フォースターパラメータの変動によるシステムの絡み合いについて検討する。 エンジンが行う作業は、フォスター相互作用と電界の影響を受けており、フォスターパラメータが変化するにつれて、システム内の絡み合いも変化することがわかった。 最後に,エンジンの作業に対する絡み合いの影響について検討した。 エンジンの絡み合いと性能の複雑な関係を見つけ,議論する。

Heat engines are considered a valuable resource for modern society. The development of these systems leads to the production of heat engines with high efficiency despite their small size, called quantum heat engines. Among these, the quantum Otto cycle which is considered a fundamental thermodynamic cycle in classical heat engines, has also found applications in the realm of quantum heat engines. In this paper, we consider three InAs quantum dots as a working substance, which allows the engine to operate at very small scales, in the presence of an electric field, and the Forster mechanism, which describes the transfer of energy between quantum dots and affects thus the engine's behavior. In this regard, we study the behavior of the work performed by the engine and the entanglement in the system as the Forster parameter is varied. We find that the work performed by the engine is affected by the Forster interaction and the electric field and that the entanglement in the system also changed as the Forster parameter was changed. Finally, we study the influence of entanglement on the work performed by the engine. We find and discuss the intricate relation between the entanglement and the performance of the engine.
翻訳日:2023-09-21 17:42:06 公開日:2023-09-19
# 量子Max-$d$-Cutの近似アルゴリズム

Approximation Algorithms for Quantum Max-$d$-Cut ( http://arxiv.org/abs/2309.10957v1 )

ライセンス: Link先を確認
Charlie Carlson, Zackary Jorquera, Alexandra Kolla, Steven Kordonowy, Stuart Wayland(参考訳) 我々は、よく知られたMax-$d$-Cut問題の量子一般化であるQuantum Max-$d$-Cut問題のアルゴリズム研究を開始する。 量子max-$d$-cut問題には、プロジェクターに付随する期待エネルギーを全ての局所相互作用上の2, $d$-dimensional quditsの反対称部分空間に最大化する量子状態を見つけることが含まれる。 同様に、この問題はクォーディット上でよく知られたハイゼンベルクモデルを一般化したスピングラスモデルである$SU(d)$-Heisenbergモデルによって物理的に動機付けられている。 非自明な性能保証を実現する有界純度を持つ混合状態の積状態解を求める多項式時間ランダム近似アルゴリズムを開発した。 さらに, 量子最大dカット問題に対するアルゴリズム的ギャップインスタンスを $d \geq 3$ で提示することにより, 解析の厳密性を証明する。

We initiate the algorithmic study of the Quantum Max-$d$-Cut problem, a quantum generalization of the well-known Max-$d$-Cut problem. The Quantum Max-$d$-Cut problem involves finding a quantum state that maximizes the expected energy associated with the projector onto the antisymmetric subspace of two, $d$-dimensional qudits over all local interactions. Equivalently, this problem is physically motivated by the $SU(d)$-Heisenberg model, a spin glass model that generalized the well-known Heisenberg model over qudits. We develop a polynomial-time randomized approximation algorithm that finds product-state solutions of mixed states with bounded purity that achieve non-trivial performance guarantees. Moreover, we prove the tightness of our analysis by presenting an algorithmic gap instance for Quantum Max-d-Cut problem with $d \geq 3$.
翻訳日:2023-09-21 17:41:50 公開日:2023-09-19
# クロスデータセット転送学習による脳波信号経路の病態検出の増幅

Amplifying Pathological Detection in EEG Signaling Pathways through Cross-Dataset Transfer Learning ( http://arxiv.org/abs/2309.10910v1 )

ライセンス: Link先を確認
Mohammad-Javad Darvishi-Bayazi, Mohammad Sajjad Ghaemi, Timothee Lesort, Md Rifat Arefin, Jocelyn Faubert, Irina Rish(参考訳) 脳波信号に基づく病理診断と脳活動の復号は神経疾患の理解において極めて重要である。 人工知能手法と機械学習技術の進歩により、正確なデータ駆動診断と効果的な治療の可能性は大きく向上した。 しかし、機械学習アルゴリズムを実世界のデータセットに適用すると、複数のレベルで様々な課題が生じる。 ラベル付きデータの不足、特に採用コストの高騰による実際の患者コホートの使用が制限された低レギュラーシナリオは、スケーリングとトランスファー学習技術の不可欠な展開を裏付けている。 本研究では,データとモデルのスケーリングとデータセット間の知識伝達の有効性を強調するために,実世界の病理分類タスクを検討する。 したがって、データスケーリングによる様々なパフォーマンス改善を観察し、注意深い評価とラベル付けの必要性を示唆する。 さらに, 負の伝達の課題を特定し, 分布シフトや潜在的スプリアス相関を克服し, 正の伝達を達成するための重要な要素の重要性を強調する。 我々は,低量のラベル付きデータが利用可能であった場合,ソースデータセット(TUAB)からの知識を利用することで,ターゲットモデル(NMT)データセットの性能の向上を見出した。 以上の結果から,小規模で汎用的なモデル(ShallowNetなど)は単一データセット上では良好に動作するが,大規模なモデル(TCNなど)では,大規模かつ多様なデータセットからの転送や学習がより優れていることが示唆された。

Pathology diagnosis based on EEG signals and decoding brain activity holds immense importance in understanding neurological disorders. With the advancement of artificial intelligence methods and machine learning techniques, the potential for accurate data-driven diagnoses and effective treatments has grown significantly. However, applying machine learning algorithms to real-world datasets presents diverse challenges at multiple levels. The scarcity of labelled data, especially in low regime scenarios with limited availability of real patient cohorts due to high costs of recruitment, underscores the vital deployment of scaling and transfer learning techniques. In this study, we explore a real-world pathology classification task to highlight the effectiveness of data and model scaling and cross-dataset knowledge transfer. As such, we observe varying performance improvements through data scaling, indicating the need for careful evaluation and labelling. Additionally, we identify the challenges of possible negative transfer and emphasize the significance of some key components to overcome distribution shifts and potential spurious correlations and achieve positive transfer. We see improvement in the performance of the target model on the target (NMT) datasets by using the knowledge from the source dataset (TUAB) when a low amount of labelled data was available. Our findings indicate a small and generic model (e.g. ShallowNet) performs well on a single dataset, however, a larger model (e.g. TCN) performs better on transfer and learning from a larger and diverse dataset.
翻訳日:2023-09-21 15:24:02 公開日:2023-09-19
# ゼロショット言語間伝達を改善する自己誘導法

Self-Augmentation Improves Zero-Shot Cross-Lingual Transfer ( http://arxiv.org/abs/2309.10891v1 )

ライセンス: Link先を確認
Fei Wang, Kuan-Hao Huang, Kai-Wei Chang, Muhao Chen(参考訳) ゼロショットクロスリンガル転送は多言語NLPにおいて中心的なタスクであり、他の低リソース言語に一般化するのに十分なトレーニングリソースを持つ言語で訓練されたモデルを可能にする。 このタスクの以前の取り組みでは、パラレルコーパス、バイリンガル辞書、または他の注釈付きアライメントデータを使用して、典型的には入手にコストがかかる言語間転送性を改善する。 本稿では,外部データの助けを借りずに,多言語事前学習言語モデルのゼロショット言語間移動を改善するための,シンプルで効果的なSALTを提案する。 コードスイッチングと埋め込みミキアップと自己拡張を組み合わせることで、SALTは多言語 PLM から言語間知識を効果的に蒸留し、下流タスクにおける伝達性を高める。 XNLIとPAWS-Xの実験結果から,外部データなしでゼロショットの言語間転送性を向上できることが示された。 私たちのコードはhttps://github.com/luka-group/saltで利用可能です。

Zero-shot cross-lingual transfer is a central task in multilingual NLP, allowing models trained in languages with more sufficient training resources to generalize to other low-resource languages. Earlier efforts on this task use parallel corpora, bilingual dictionaries, or other annotated alignment data to improve cross-lingual transferability, which are typically expensive to obtain. In this paper, we propose a simple yet effective method, SALT, to improve the zero-shot cross-lingual transfer of the multilingual pretrained language models without the help of such external data. By incorporating code-switching and embedding mixup with self-augmentation, SALT effectively distills cross-lingual knowledge from the multilingual PLM and enhances its transferability on downstream tasks. Experimental results on XNLI and PAWS-X show that our method is able to improve zero-shot cross-lingual transferability without external data. Our code is available at https://github.com/luka-group/SALT.
翻訳日:2023-09-21 15:23:38 公開日:2023-09-19
# dppack: 差分プライベートな統計分析と機械学習のためのrパッケージ

DPpack: An R Package for Differentially Private Statistical Analysis and Machine Learning ( http://arxiv.org/abs/2309.10965v1 )

ライセンス: Link先を確認
Spencer Giddens and Fang Liu(参考訳) 差分プライバシー(DP)は、統計データを公開したり、統計・機械学習モデルをデータから構築する際に個人のプライバシーを保証する最先端のフレームワークである。 我々は、微分プライベート分析の大規模なツールキットを提供するオープンソースのRパッケージDPpackを開発した。 DPpackの現行バージョンでは、ラプラス、ガウス、指数の3つの人気のあるメカニズムを実装している。 さらにDPpackは、簡単にアクセス可能なプライバシー保護記述統計関数のツールキットを提供する。 これらは平均、分散、共分散、量子化、およびヒストグラムと共分散表を含む。 最後に、DPpackは、ロジスティック回帰、SVM、線形回帰のプライバシー保護バージョンをユーザフレンドリに実装し、これらのモデルごとに異なるプライベートハイパーパラメータチューニングを提供する。 この実装された微分プライベート統計とモデルによる広範な収集は、一般的に実行される統計分析において微分プライバシ原則の面倒な利用を可能にする。 今後もdppackの開発を継続し、より微分的にプライベートな機械学習技術、統計モデリング、推論を含め、より包括的にしていく予定です。

Differential privacy (DP) is the state-of-the-art framework for guaranteeing privacy for individuals when releasing aggregated statistics or building statistical/machine learning models from data. We develop the open-source R package DPpack that provides a large toolkit of differentially private analysis. The current version of DPpack implements three popular mechanisms for ensuring DP: Laplace, Gaussian, and exponential. Beyond that, DPpack provides a large toolkit of easily accessible privacy-preserving descriptive statistics functions. These include mean, variance, covariance, and quantiles, as well as histograms and contingency tables. Finally, DPpack provides user-friendly implementation of privacy-preserving versions of logistic regression, SVM, and linear regression, as well as differentially private hyperparameter tuning for each of these models. This extensive collection of implemented differentially private statistics and models permits hassle-free utilization of differential privacy principles in commonly performed statistical analysis. We plan to continue developing DPpack and make it more comprehensive by including more differentially private machine learning techniques, statistical modeling and inference in the future.
翻訳日:2023-09-21 13:28:26 公開日:2023-09-19
# 多数のラベルを用いたテキスト分類のための文脈内学習

In-Context Learning for Text Classification with Many Labels ( http://arxiv.org/abs/2309.10954v1 )

ライセンス: Link先を確認
Aristides Milios, Siva Reddy, Dzmitry Bahdanau(参考訳) 多くのラベルを持つタスクに対して大きな言語モデルを用いたインコンテキスト学習(ICL)は、コンテキストウィンドウが限られており、プロンプトに十分な数のサンプルを適合させることが困難である。 本稿では,事前学習された高密度検索モデルを用いて,この制限を回避し,各推論呼出の完全なラベル空間の部分的なビューのみを与える。 近年のオープンソースLLM (OPT, LLaMA) を用いて, 3つの共通の意図分類データセットに対して, ファインタニングを伴わずに, 数ショット設定でアートパフォーマンスの新たな状態を設定した。 また,特定の場合において,細粒度感情分類の微調整性能を上回った。 我々は,複数のインコンテキストサンプルと異なるモデルスケールのパフォーマンスを分析し,大規模モデルがiclのより大きなコンテキスト長を効果的かつ一貫して利用する必要があることを示した。 いくつかのアブレーションを実行することで、モデルの使い方を分析します。 a) インコンテキストの例と現在の入力との類似性 b) クラス名の意味的内容,及び c) 例とラベルの正確な対応 最近の研究とは対照的に、3つ全てがドメインによって異なる次数を必要とすることを実証する。

In-context learning (ICL) using large language models for tasks with many labels is challenging due to the limited context window, which makes it difficult to fit a sufficient number of examples in the prompt. In this paper, we use a pre-trained dense retrieval model to bypass this limitation, giving the model only a partial view of the full label space for each inference call. Testing with recent open-source LLMs (OPT, LLaMA), we set new state of the art performance in few-shot settings for three common intent classification datasets, with no finetuning. We also surpass fine-tuned performance on fine-grained sentiment classification in certain cases. We analyze the performance across number of in-context examples and different model scales, showing that larger models are necessary to effectively and consistently make use of larger context lengths for ICL. By running several ablations, we analyze the model's use of: a) the similarity of the in-context examples to the current input, b) the semantic content of the class names, and c) the correct correspondence between examples and labels. We demonstrate that all three are needed to varying degrees depending on the domain, contrary to certain recent works.
翻訳日:2023-09-21 13:28:07 公開日:2023-09-19
# LMDX:言語モデルに基づく文書情報抽出とローカライゼーション

LMDX: Language Model-based Document Information Extraction and Localization ( http://arxiv.org/abs/2309.10952v1 )

ライセンス: Link先を確認
Vincent Perot, Kai Kang, Florian Luisier, Guolong Su, Xiaoyu Sun, Ramya Sree Boppana, Zilong Wang, Jiaqi Mu, Hao Zhang, Nan Hua(参考訳) 大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらし、多くの既存のタスクの最先端を改善し、創発的な能力を示した。 しかし、LLMは、多くのドキュメント処理ワークフローの中核であり、予め定義されたターゲットスキーマが与えられた視覚的にリッチなドキュメント(VRD)からキーエンティティを抽出する半構造化文書情報抽出にはまだ成功していない。 このタスクでllmを採用する主な障害は、llm内のレイアウトエンコーディングが欠如し、高品質な抽出に不可欠であることと、答えが幻覚的でないことを保証する接地機構が欠如していることである。 本稿では,任意のllmを文書情報抽出に適用する手法であるlmdx(language model-based document information extraction and localization)を提案する。 LMDXは、トレーニングデータと非トレーニングデータの両方で特異、繰り返し、階層的なエンティティの抽出が可能であり、ドキュメント内のエンティティの保証とローカライズを提供する。 特に, LMDX を PaLM 2-S LLM に適用し,VRDU と CORD のベンチマークで評価し, 新たな最先端技術の設定と, LMDX が高品質でデータ効率のよいパーサの作成を可能にしていることを示す。

Large Language Models (LLM) have revolutionized Natural Language Processing (NLP), improving state-of-the-art on many existing tasks and exhibiting emergent capabilities. However, LLMs have not yet been successfully applied on semi-structured document information extraction, which is at the core of many document processing workflows and consists of extracting key entities from a visually rich document (VRD) given a predefined target schema. The main obstacles to LLM adoption in that task have been the absence of layout encoding within LLMs, critical for a high quality extraction, and the lack of a grounding mechanism ensuring the answer is not hallucinated. In this paper, we introduce Language Model-based Document Information Extraction and Localization (LMDX), a methodology to adapt arbitrary LLMs for document information extraction. LMDX can do extraction of singular, repeated, and hierarchical entities, both with and without training data, while providing grounding guarantees and localizing the entities within the document. In particular, we apply LMDX to the PaLM 2-S LLM and evaluate it on VRDU and CORD benchmarks, setting a new state-of-the-art and showing how LMDX enables the creation of high quality, data-efficient parsers.
翻訳日:2023-09-21 13:27:51 公開日:2023-09-19
# 速度ベクトル場を用いた自動車の軌道予測のための新しいディープニューラルネットワーク

A Novel Deep Neural Network for Trajectory Prediction in Automated Vehicles Using Velocity Vector Field ( http://arxiv.org/abs/2309.10948v1 )

ライセンス: Link先を確認
MReza Alipour Sormoli, Amir Samadi, Sajjad Mozaffari, Konstantinos Koufos, Mehrdad Dianati and Roger Woodman(参考訳) 他の道路利用者の行動を予測することは、安全でインフォームドな下流意思決定と行動計画を可能にするため、自動運転システム(ads)にとって不可欠である。 残念なことに、現代の学習に基づく動き予測のアプローチは、予測水平線が増加するか観測窓が減少するにつれて顕著な性能劣化を示す。 本稿では,データ駆動学習に基づく手法と,自然に着想を得た概念である流体力学から発生する速度ベクトル場(VVF)を組み合わせた軌道予測手法を提案する。 この研究において、ベクトル場は畳み込みを繰り返す深層ニューラルネットワークへの追加入力として組み込まれ、鳥の視線シーンのシーケンスが与えられたときの最も可能性の高い将来の軌跡を予測するのに役立つ。 提案モデルの性能は,vvf包含が短期的および長期的(5~sec)の時間軸の予測精度を向上させることを示すハイドデータセットの最先端手法と比較した。 また, 正確な軌道予測のために過去の観測履歴の長期的要求を緩和する観測窓の減少と精度が一致していることが示されている。 ソースコードはhttps://github.com/Amir-Samadi/VVF-TPで入手できる。

Anticipating the motion of other road users is crucial for automated driving systems (ADS), as it enables safe and informed downstream decision-making and motion planning. Unfortunately, contemporary learning-based approaches for motion prediction exhibit significant performance degradation as the prediction horizon increases or the observation window decreases. This paper proposes a novel technique for trajectory prediction that combines a data-driven learning-based method with a velocity vector field (VVF) generated from a nature-inspired concept, i.e., fluid flow dynamics. In this work, the vector field is incorporated as an additional input to a convolutional-recurrent deep neural network to help predict the most likely future trajectories given a sequence of bird's eye view scene representations. The performance of the proposed model is compared with state-of-the-art methods on the HighD dataset demonstrating that the VVF inclusion improves the prediction accuracy for both short and long-term (5~sec) time horizons. It is also shown that the accuracy remains consistent with decreasing observation windows which alleviates the requirement of a long history of past observations for accurate trajectory prediction. Source codes are available at: https://github.com/Amir-Samadi/VVF-TP.
翻訳日:2023-09-21 13:27:27 公開日:2023-09-19
# Pir\'a 2.0のベンチマーク - 海洋、ブラジル沿岸、気候変動に関する総括的データセット

Benchmarks for Pir\'a 2.0, a Reading Comprehension Dataset about the Ocean, the Brazilian Coast, and Climate Change ( http://arxiv.org/abs/2309.10945v1 )

ライセンス: Link先を確認
Paulo Pirozelli, Marcos M. Jos\'e, Igor Silveira, Fl\'avio Nakasato, Sarajane M. Peres, Anarosa A. F. Brand\~ao, Anna H. R. Costa, Fabio G. Cozman(参考訳) pir\'aは、海洋、ブラジル海岸、気候変動に焦点を当てた読書理解データセットであり、科学的な抽象の収集とこれらのトピックに関するレポートから構築されている。 このデータセットは汎用言語リソースであり、現在の機械学習モデルが専門家の科学的知識を取得する能力をテストするのに特に有用である。 その可能性にもかかわらず、Pir\'aの詳細なベースラインはまだ開発されていない。 これらのベースラインを作成することで、研究者はより簡単にPir\'aを、幅広い質問応答タスクにわたる機械学習モデルをテストするためのリソースとして利用できる。 本稿では,pir\'aデータセット上の6つのベンチマークを定義し,クローズド生成型質問応答,機械読解,情報検索,オープン質問応答,回答トリガ,複数選択質問応答について述べる。 この取り組みの一環として、私たちはオリジナルのデータセットをキュレートしたバージョンも作成しました。 さらにデータセットは、上記のベンチマークに直面するために、英語からポルトガル語へのサポートテキストの翻訳、回答可能性の分類ラベル、質問と回答の自動パラフレーズ、複数の選択候補など、いくつかの新しい方向に拡張されている。 本稿では,Pir\'aデータセットの課題を探究する研究者に対して,いくつかの参考点を提供する。

Pir\'a is a reading comprehension dataset focused on the ocean, the Brazilian coast, and climate change, built from a collection of scientific abstracts and reports on these topics. This dataset represents a versatile language resource, particularly useful for testing the ability of current machine learning models to acquire expert scientific knowledge. Despite its potential, a detailed set of baselines has not yet been developed for Pir\'a. By creating these baselines, researchers can more easily utilize Pir\'a as a resource for testing machine learning models across a wide range of question answering tasks. In this paper, we define six benchmarks over the Pir\'a dataset, covering closed generative question answering, machine reading comprehension, information retrieval, open question answering, answer triggering, and multiple choice question answering. As part of this effort, we have also produced a curated version of the original dataset, where we fixed a number of grammar issues, repetitions, and other shortcomings. Furthermore, the dataset has been extended in several new directions, so as to face the aforementioned benchmarks: translation of supporting texts from English into Portuguese, classification labels for answerability, automatic paraphrases of questions and answers, and multiple choice candidates. The results described in this paper provide several points of reference for researchers interested in exploring the challenges provided by the Pir\'a dataset.
翻訳日:2023-09-21 13:27:06 公開日:2023-09-19
# 科学文献からの高品質構造化データ抽出のための半自動ステージング領域

Semi-automatic staging area for high-quality structured data extraction from scientific literature ( http://arxiv.org/abs/2309.10923v1 )

ライセンス: Link先を確認
Luca Foppiano, Tomoya Mato, Kensei Terashima, Pedro Ortiz Suarez, Taku Tou, Chikako Sakai, Wei-Sheng Wang, Toshiyuki Amagasa, Yoshihiko Takano, Masashi Ishii(参考訳) 本研究では,新しい超伝導体の実験データをスーパーコンに取り込み,科学論文から機械的に収集するステージング領域を提案する。 我々の目標は、データ品質を維持したり、向上させたりしながら、SuperConの更新効率を向上させることです。 抽出したデータベース上で,自動処理と手動処理を組み合わせたワークフローによって駆動される半自動ステージング領域を提案する。 異常検出自動プロセスは、収集したデータを事前スクリーニングすることを目的としている。 ユーザーは、元のPDF文書のデータ検証を簡単にするためにカスタマイズされたユーザーインターフェイスを通じて、手動でエラーを修正することができる。 さらに、レコードが修正されると、その生データは収集され、トレーニングデータとして機械学習モデルを改善するために利用される。 評価実験により、ステージング領域はキュレーション品質を著しく改善することが示された。 このインターフェースを従来のpdf文書の読み出しとexcel文書への情報記録という手作業によるアプローチと比較する。 インターフェースを使用することで、精度が6%、リコールが50%向上し、f1-scoreでは平均40%向上する。

In this study, we propose a staging area for ingesting new superconductors' experimental data in SuperCon that is machine-collected from scientific articles. Our objective is to enhance the efficiency of updating SuperCon while maintaining or enhancing the data quality. We present a semi-automatic staging area driven by a workflow combining automatic and manual processes on the extracted database. An anomaly detection automatic process aims to pre-screen the collected data. Users can then manually correct any errors through a user interface tailored to simplify the data verification on the original PDF documents. Additionally, when a record is corrected, its raw data is collected and utilised to improve machine learning models as training data. Evaluation experiments demonstrate that our staging area significantly improves curation quality. We compare the interface with the traditional manual approach of reading PDF documents and recording information in an Excel document. Using the interface boosts the precision and recall by 6% and 50%, respectively to an average increase of 40% in F1-score.
翻訳日:2023-09-21 13:26:42 公開日:2023-09-19
# リーマン多様体上のMat\'ern Gaussian過程の後方収縮速度

Posterior Contraction Rates for Mat\'ern Gaussian Processes on Riemannian Manifolds ( http://arxiv.org/abs/2309.10918v1 )

ライセンス: Link先を確認
Paul Rosa and Viacheslav Borovitskiy and Alexander Terenin and Judith Rousseau(参考訳) ガウス過程は不確実性定量化に依存する多くの機械学習アプリケーションで使われている。 近年、リーマン多様体上の入力のような幾何学的設定でこれらのモデルを扱うための計算ツールが開発されている。 これらの内在的なモデルは、単にすべての関連する量を$\mathbb{r}^d$に埋め込み、通常のユークリッドガウス過程の制限を用いるよりも、理論的により良いパフォーマンスをもたらすことができるか? これを調べるために、コンパクトリーマン多様体上で定義される内在的マト・エルン・ガウス過程の最適収縮率を証明できる。 また、多様体と周囲のソボレフ空間の間のトレースおよび拡張定理を用いて、外部過程の類似の速度を証明した: 幾分驚くべきことに、それらの滑らかさパラメータが適切に一致していることから、本質的過程のそれと一致することが判明した。 先行研究の反映として,本質的プロセスが実際によりよいパフォーマンスを達成できることを示す,いくつかの例を実証的に示す。 そこで本研究では,幾何学的ガウス過程の異なるレベルのデータ効率を,特に小さなデータセットのサイズと非漸近的振る舞いを含む設定で区別するために,よりきめ細かい解析が必要であることを示す。

Gaussian processes are used in many machine learning applications that rely on uncertainty quantification. Recently, computational tools for working with these models in geometric settings, such as when inputs lie on a Riemannian manifold, have been developed. This raises the question: can these intrinsic models be shown theoretically to lead to better performance, compared to simply embedding all relevant quantities into $\mathbb{R}^d$ and using the restriction of an ordinary Euclidean Gaussian process? To study this, we prove optimal contraction rates for intrinsic Mat\'ern Gaussian processes defined on compact Riemannian manifolds. We also prove analogous rates for extrinsic processes using trace and extension theorems between manifold and ambient Sobolev spaces: somewhat surprisingly, the rates obtained turn out to coincide with those of the intrinsic processes, provided that their smoothness parameters are matched appropriately. We illustrate these rates empirically on a number of examples, which, mirroring prior work, show that intrinsic processes can achieve better performance in practice. Therefore, our work shows that finer-grained analyses are needed to distinguish between different levels of data-efficiency of geometric Gaussian processes, particularly in settings which involve small data set sizes and non-asymptotic behavior.
翻訳日:2023-09-21 13:26:28 公開日:2023-09-19
# 大規模言語モデルを用いたエンドツーエンド音声認識コンテキスト化

End-to-End Speech Recognition Contextualization with Large Language Models ( http://arxiv.org/abs/2309.10917v1 )

ライセンス: Link先を確認
Egor Lakomkin, Chunyang Wu, Yassir Fathullah, Ozlem Kalinli, Michael L. Seltzer, Christian Fuegen(参考訳) 近年,Large Language Models (LLMs) は,その優れた性能と一般化能力から,研究コミュニティから大きな注目を集めている。 本稿では,LLMを取り入れた音声認識モデルのコンテキスト化手法を提案する。 本手法では,事前学習したllmに基づく混合モーダル言語モデリングタスクとして音声認識を行う。 我々は、音声機能と文脈の任意のテキストトークンを提供し、デコーダのみの方法でシステムの書き起こしを訓練する。 結果としてシステムは、トレーニング中に非構造化コンテキスト情報を活用する方法を学ぶために暗黙的にインセンティブを与えます。 実験の結果,追加のテキストコンテキストが提供されると,WERが6%削減され,性能が大幅に向上した。 さらに,本手法は,20倍以上の音声データセットをトレーニングしたベースライン文脈化RNN-Tシステムに対して,レアワードに対して7.5%のWER,17%のWERで競争力と改善を行う。 全体としては、アダプタ経由で少数のトレーニング可能なパラメータを追加するだけで、同じテキストのみの入力機能を維持しながら、事前トレーニングされたllmのコンテクスト化音声認識機能をアンロックできることを実証する。

In recent years, Large Language Models (LLMs) have garnered significant attention from the research community due to their exceptional performance and generalization capabilities. In this paper, we introduce a novel method for contextualizing speech recognition models incorporating LLMs. Our approach casts speech recognition as a mixed-modal language modeling task based on a pretrained LLM. We provide audio features, along with optional text tokens for context, to train the system to complete transcriptions in a decoder-only fashion. As a result, the system is implicitly incentivized to learn how to leverage unstructured contextual information during training. Our empirical results demonstrate a significant improvement in performance, with a 6% WER reduction when additional textual context is provided. Moreover, we find that our method performs competitively and improve by 7.5% WER overall and 17% WER on rare words against a baseline contextualized RNN-T system that has been trained on more than twenty five times larger speech dataset. Overall, we demonstrate that by only adding a handful number of trainable parameters via adapters, we can unlock contextualized speech recognition capability for the pretrained LLM while keeping the same text-only input functionality.
翻訳日:2023-09-21 13:26:03 公開日:2023-09-19
# 学習した表現と影響関数が相手の例を教えてくれるもの

What Learned Representations and Influence Functions Can Tell Us About Adversarial Examples ( http://arxiv.org/abs/2309.10916v1 )

ライセンス: Link先を確認
Shakila Mahjabin Tonni and Mark Dras(参考訳) 深いニューラルネットワークを騙すために小さな摂動を用いて意図的に構築された敵対的な例は、最初に画像処理で、最近ではNLPで研究された。 NLPにおける敵の例を検出するアプローチは、入力摂動の探索に大きく依存しているが、画像処理では、学習された表現上の敵のサブ空間を特徴付けるための様々な技術が見られた。 本稿では,NLPに2つのアプローチを適用する。1つは近接する近傍と影響関数に基づくもので,もう1つはマハラノビス距離に関するものである。 影響関数の新規利用は、NLPの逆例部分空間の性質が画像処理におけるそれとどのように関係しているか、また、NLPタスクの種類によってどのように異なるのかを洞察する。

Adversarial examples, deliberately crafted using small perturbations to fool deep neural networks, were first studied in image processing and more recently in NLP. While approaches to detecting adversarial examples in NLP have largely relied on search over input perturbations, image processing has seen a range of techniques that aim to characterise adversarial subspaces over the learned representations. In this paper, we adapt two such approaches to NLP, one based on nearest neighbors and influence functions and one on Mahalanobis distances. The former in particular produces a state-of-the-art detector when compared against several strong baselines; moreover, the novel use of influence functions provides insight into how the nature of adversarial example subspaces in NLP relate to those in image processing, and also how they differ depending on the kind of NLP task.
翻訳日:2023-09-21 13:25:44 公開日:2023-09-19
# 奥行き分離可能な畳み込みを用いたカプセルネットワークの改良

An Improvement for Capsule Networks using Depthwise Separable Convolution ( http://arxiv.org/abs/2007.15167v2 )

ライセンス: Link先を確認
Nguyen Huu Phong, Bernardete Ribeiro(参考訳) Capsule Networksは、画像の背景がそのパフォーマンスに挑戦できるという意味で、コンピュータビジョンにおいて重要な問題に直面している。 本稿では,標準畳み込みをDepthwise Separable Convolutionに置き換えることで,カプセルネットワークのアーキテクチャを改善することを提案する。 この新しい設計はモデル全体のパラメータを大幅に削減し、安定性を高め、競合精度も向上する。 さらに、提案された64\times64$のモデルが32\times32$と64\times64$の標準モデルを上回る。 さらに,インセプションV3やMobileNet V1といった最先端のトランスファー学習ネットワークを用いて,これらのモデルをディープラーニングアーキテクチャを用いて実証的に評価する。 その結果,Capsule NetworksはDeep Learningモデルと相容れない性能を持つことがわかった。 私たちの知る限りでは、これはDepthwise Separable ConvolutionをCapsule Networksに統合する最初の作業であると考えています。

Capsule Networks face a critical problem in computer vision in the sense that the image background can challenge its performance, although they learn very well on training data. In this work, we propose to improve Capsule Networks' architecture by replacing the Standard Convolution with a Depthwise Separable Convolution. This new design significantly reduces the model's total parameters while increases stability and offers competitive accuracy. In addition, the proposed model on $64\times64$ pixel images outperforms standard models on $32\times32$ and $64\times64$ pixel images. Moreover, we empirically evaluate these models with Deep Learning architectures using state-of-the-art Transfer Learning networks such as Inception V3 and MobileNet V1. The results show that Capsule Networks can perform comparably against Deep Learning models. To the best of our knowledge, we believe that this is the first work on the integration of Depthwise Separable Convolution into Capsule Networks.
翻訳日:2023-09-20 21:13:39 公開日:2023-09-19
# 一般ガウス設計のラッソと仮説テストへの応用

The Lasso with general Gaussian designs with applications to hypothesis testing ( http://arxiv.org/abs/2007.13716v3 )

ライセンス: Link先を確認
Michael Celentano, Andrea Montanari, Yuting Wei(参考訳) ラッソ(lasso)は、高次元回帰(high-dimensional regression)の方法であり、現在、共変量 $p$ が観測値 $n$ または観測値 $n$ よりも大きい場合に用いられる。 古典漸近正規性理論はこのモデルには適用されない: $(1)$ the regularized risk is non-smooth; $(2)$ the distance between the estimator $\widehat{\boldsymbol{\theta}}$ and the true parameters vector $\boldsymbol{\theta}^*$ は無視できない。 その結果、漸近正規性の伝統的な基礎である標準摂動論は失敗する。 一方、ラッソ推定器は、$n$ と $p$ の両方が大きく、$n/p$ が順序 1 であるような方法で正確に特徴付けられる。 このキャラクタリゼーションは、つまり共変量を持つガウス設計において初めて得られ、ここでは非特異共分散構造を持つガウス相関設計に一般化する。 これはより単純な ``fixed-design'' モデルで表現される。 この2つのモデルにおける様々な量の分布の間の距離の非漸近的境界を定式化パラメータの値と適切なスパシティクラスにおける信号$\boldsymbol{\theta}^*$に均一に保持する。 応用として、偏りのないラッソの分布を調査し、有効信頼区間を計算するためには自由度補正が必要であることを示す。

The Lasso is a method for high-dimensional regression, which is now commonly used when the number of covariates $p$ is of the same order or larger than the number of observations $n$. Classical asymptotic normality theory does not apply to this model due to two fundamental reasons: $(1)$ The regularized risk is non-smooth; $(2)$ The distance between the estimator $\widehat{\boldsymbol{\theta}}$ and the true parameters vector $\boldsymbol{\theta}^*$ cannot be neglected. As a consequence, standard perturbative arguments that are the traditional basis for asymptotic normality fail. On the other hand, the Lasso estimator can be precisely characterized in the regime in which both $n$ and $p$ are large and $n/p$ is of order one. This characterization was first obtained in the case of Gaussian designs with i.i.d. covariates: here we generalize it to Gaussian correlated designs with non-singular covariance structure. This is expressed in terms of a simpler ``fixed-design'' model. We establish non-asymptotic bounds on the distance between the distribution of various quantities in the two models, which hold uniformly over signals $\boldsymbol{\theta}^*$ in a suitable sparsity class and over values of the regularization parameter. As an application, we study the distribution of the debiased Lasso and show that a degrees-of-freedom correction is necessary for computing valid confidence intervals.
翻訳日:2023-09-20 21:13:11 公開日:2023-09-19
# テキスト変換器の統一化による移動学習限界の探索

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer ( http://arxiv.org/abs/1910.10683v4 )

ライセンス: Link先を確認
Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li and Peter J. Liu(参考訳) 下流タスクで微調整される前に、データリッチタスクでモデルを事前訓練するトランスファーラーニングは、自然言語処理(NLP)において強力な技術として登場した。 伝達学習の有効性は、様々なアプローチ、方法論、実践を生み出している。 本稿では,すべてのテキストベースの言語問題をテキストからテキストへ変換する統一フレームワークを導入することにより,NLPにおける転写学習技術の展望を考察する。 本研究は,事前学習目標,アーキテクチャ,ラベル付きデータセット,転送アプローチ,その他数十の言語理解タスクにおける要素を比較した。 調査から得られた知見と,新たな ‘Colossal Clean Crawled Corpus'' を組み合わせることで,要約や質問応答,テキスト分類などを含む多くのベンチマークにおいて,最先端の成果が得られる。 NLPにおける転送学習の今後の取り組みを容易にするため、我々はデータセット、事前訓練されたモデル、コードをリリースする。

Transfer learning, where a model is first pre-trained on a data-rich task before being fine-tuned on a downstream task, has emerged as a powerful technique in natural language processing (NLP). The effectiveness of transfer learning has given rise to a diversity of approaches, methodology, and practice. In this paper, we explore the landscape of transfer learning techniques for NLP by introducing a unified framework that converts all text-based language problems into a text-to-text format. Our systematic study compares pre-training objectives, architectures, unlabeled data sets, transfer approaches, and other factors on dozens of language understanding tasks. By combining the insights from our exploration with scale and our new ``Colossal Clean Crawled Corpus'', we achieve state-of-the-art results on many benchmarks covering summarization, question answering, text classification, and more. To facilitate future work on transfer learning for NLP, we release our data set, pre-trained models, and code.
翻訳日:2023-09-20 21:12:39 公開日:2023-09-19
# Mapper on Graphs を用いたホモロジー保存マルチスケールグラフスケトン化

Homology-Preserving Multi-Scale Graph Skeletonization Using Mapper on Graphs ( http://arxiv.org/abs/1804.11242v5 )

ライセンス: Link先を確認
Paul Rosen, Mustafa Hajij, Bei Wang(参考訳) ノードリンクダイアグラムは、個人、ビジネス、タンパク質、通信エンドポイント間の関係をキャプチャするグラフを表現する一般的な方法である。 しかし、ノードリンクダイアグラムは、視覚的なクラッターのため、数百のノードの適度なサイズデータであっても、グラフ構造に関する洞察を伝達できない可能性がある。 本稿では、トポロジカルデータ解析の一般的なツールであるmapper構築をグラフ視覚化に適用し、コア構造を保存しながらデータを要約する強力な理論的基盤を提供する。 我々は, グラフのホモロジー保存骨格を生成する, {\mog} と呼ばれる重み付き無向グラフを対象とするマッパー構成のバリエーションを開発する。 さらに,単一パラメータの調整によって入力グラフのマルチスケールスケルトン化が可能となることを示す。 このような骨格のインタラクティブな探索を可能にし、合成データや実世界データに対する手法の有効性を実証するソフトウェアツールを提供する。

Node-link diagrams are a popular method for representing graphs that capture relationships between individuals, businesses, proteins, and telecommunication endpoints. However, node-link diagrams may fail to convey insights regarding graph structures, even for moderately sized data of a few hundred nodes, due to visual clutter. We propose to apply the mapper construction -- a popular tool in topological data analysis -- to graph visualization, which provides a strong theoretical basis for summarizing the data while preserving their core structures. We develop a variation of the mapper construction targeting weighted, undirected graphs, called {\mog}, which generates homology-preserving skeletons of graphs. We further show how the adjustment of a single parameter enables multi-scale skeletonization of the input graph. We provide a software tool that enables interactive explorations of such skeletons and demonstrate the effectiveness of our method for synthetic and real-world data.
翻訳日:2023-09-20 21:12:22 公開日:2023-09-19
# e$、a$、dirac方程式およびプロパゲータ

The $E$, the $A$, the Dirac equation and the propagator ( http://arxiv.org/abs/1801.08393v8 )

ライセンス: Link先を確認
Navin Khaneja(参考訳) M\o{}ller 散乱を考える。 光子の交換による運動量$p$と$-p$散乱を持つ電子は、$z$方向に$p+q$と$-(p+q)$に等しい。 散乱振幅はよく知られており、Feynmann propogator $ M = \frac{(e \hbar c)^2}{\epsilon_0 V} \frac {\bar{u}(p+q) \gamma^{\mu} u(p) \ \bar{u}(-(p+q)) \gamma_{\mu} u(-p)}{q^2}$である。 しかし、これは完全には正しくない。 z$方向に光子モーメントを交換するため、2つの光子分極$x,y$を持つので、真の散乱振幅は$$M_1 = \frac{(e \hbar c)^2}{\epsilon_0 V} \frac{ \bar{u}(p+q) \gamma^{x} u(p) \bar{u}(-(p+q)) \gamma_{x} u(-p)\ \ + \bar{u}(p+q) \gamma^{y} u(p) \bar{u}(-(p+q)) \gamma_{y} u(p) \gamma_{y} u(-p) \}{q^2} となる。 しかし、電子が非相対論的であれば、$M_1 \sim 0$である。 ここでは$M \sim \frac{(e \hbar c)^2}{\epsilon_0 V q^2}$である。 どこが問題なの? 問題はディラック方程式であり、電磁場の存在下では必ずしも正しいわけではない。 電磁場の存在下でのディラック方程式はディラックスピノル、$\psi$の方程式であり、$i\hbar \frac {\partial \psi}{\partial t} = H \psi$, where, $$H = (-i\hbar c \partial_j - e A_j)\alpha_j + e A_0 + mc^2 \beta, $$$\alpha_j, \beta$はディラック行列、$A$ベクトルポテンシャルを満たす。 しかし、他にもある。 真の$H = (-i\hbar c \partial_j - e A_j)\alpha_j + e A_0 + e E \cdot x + mc^2 \beta, $$E$は電場である。 ノンバニッシュプロパゲーター(non-vanishing propagator)を提供するのはこの$e$の用語です。 この新しいディラック方程式を導出し、$E$と$A$の両方を持ち、これを用いてプロパゲータを計算し、すべて真であることを示す。

Consider M\o{}ller scattering. Electrons with momentum $p$ and $-p$ scatter by exchange of photon say in $z$ direction to $p+q$ and $-(p+q)$. The scattering amplitude is well known, given as Feynmann propogator $ M = \frac{(e \hbar c)^2}{\epsilon_0 V} \frac{\bar{u}(p+q) \gamma^{\mu} u(p) \ \bar{u}(-(p+q)) \gamma_{\mu} u(-p)}{q^2}$, where $V$ is the volume of the scattering electrons, $e$ elementary charge and $\epsilon_0$ permitivity of vacuum. But this is not completely correct. Since we exchange photon momentum in $z$ direction, we have two photon polarization $x,y$ and hence the true scattering amplitude should be $$ M_1 = \frac{(e \hbar c)^2}{\epsilon_0 V} \frac{ \bar{u}(p+q) \gamma^{x} u(p) \ \bar{u}(-(p+q)) \gamma_{x} u(-p)\ \ + \bar{u}(p+q) \gamma^{y} u(p) \ \bar{u}(-(p+q)) \gamma_{y} u(-p) \ }{q^2}. $$ But when electrons are nonrelativistic, $M_1 \sim 0$. This is disturbing, how will we ever get the coulomb potential, where $M \sim \frac{(e \hbar c)^2}{\epsilon_0 V q^2}$. Where is the problem ? The problem is with the Dirac equation, it is not all correct in presence of electromagnetic field. We say that Dirac equation in the presence of electromagnetic field is equation of Dirac spinor, $\psi$, satisfying $i\hbar \frac{\partial \psi}{\partial t} = H \psi$, where, $$H = (-i\hbar c \partial_j - e A_j)\alpha_j + e A_0 + mc^2 \beta, $$ where $\alpha_j , \beta$ are Dirac matrices and $A$ vector potential. But there is more to it. The true $$H = (-i\hbar c \partial_j - e A_j)\alpha_j + e A_0 + e E \cdot x + mc^2 \beta, $$ where $E$ is electric field. It is this $E$ term that gives non-vanishing propagator. We derive this new Dirac equation and show it has both $E$ and $A$ and using this calculate the propagator and show it is all true.
翻訳日:2023-09-20 21:12:05 公開日:2023-09-19
# 電子散乱・弾性・非弾性の諸相

Aspects of electron scattering, the elastic, and the inelastic ( http://arxiv.org/abs/1712.09868v3 )

ライセンス: Link先を確認
Navin Khaneja(参考訳) 質量$m$の電子は、電気的に原子核が散乱し、質量$M$の電子は運動量$q$を核に転送する。 電子によって失われるエネルギーは、核によって得られるエネルギーよりも大きい。 結果として得られるエネルギーは、フランク・ヘルツの実験やナトリウム、ネオン、水銀蒸気ランプ、または泡や雲室の実験のような原子のイオン化、あるいはブレムスシュトラルングのようなX線の生成のような高エネルギー状態へと励起される。 本稿では,これらの現象について考察する。 これらの実験は非弾性散乱実験である。 ニュートリノが散乱せず、地球を貫通する理由、なぜミューオンが物質中の電子よりも遠くを移動し、なぜ鉛板のような物質が電子や陽電子を効率的に減速させるのか。 電子回折や電子顕微鏡のように、電子の弾性散乱を見る。 凝縮物質中の電子の散乱を調べたところ、これらの現象は周期ポテンシャルの電子の散乱からブロッホ波の散乱、フォノンと不純物の電子の散乱、抵抗を与えるための格子の電子の散乱、協力対と超伝導を与えるための格子の散乱まで様々である。 フェルミ液体理論のように交換ポテンシャルからの電子散乱を研究し、低温で$t^2$耐性を得る。 化学反応を引き起こす交換ポテンシャルの電子散乱。 深い非弾性散乱実験のように、電子-陽子散乱と非弾性散乱の両方に注意を向け、移動運動量に関する慣性断面積の独立性を理解する。 弾力的な断面から陽子に3つのクォークが存在するとしか言い切れない理由が分かる。 この記事における私たちの大きな貢献は、我々は、ある場所で詳細に述べ、文学は、見苦しいと感じていることです。

A electron of mass $m$, when electrically scatters of nucleus, of mass $M$, transfers momentum $q$ to the nucleus. The energy lost by electron is more than the energy gained by the nucleus. The resulting energy goes in exciting the atom to a higher energy state as in Frank Hertz experiment and sodium, neon, mercury vapor lamps, or ionization of atom as in bubble and cloud chamber experiments, or just production of X-rays as in Bremsstraulung. In this paper, we study these phenomenon. These experiments are inelastic scattering experiments. We remark, why neutrinos donot scatter and can penetrate earth, why muons travel further than electrons in materials and why a material like lead plate can slow down electrons and positrons efficiently. We look at the elastic scattering of electrons as in electron diffraction and electron microscopes. We look at scattering of electrons in the condensed matter, these phenomenon range from scattering of electrons of periodic potential, to give Bloch waves, scattering of electrons of phonons and impurities to give resistance, scattering of electrons of lattice to give cooper pairs and superconductivity. We study electron scattering from exchange potential as in Fermi liquid theory and resulting $T^2$ resistance at low temperatures. Electron scattering of exchange potential resulting in chemical reactions. We turn our attention to electron-proton scattering both eleastic and inelastic, as in deep inelastic scattering experiments and understand the independence of ineleastic cross-section of with respect to transferred momentum. We see, why we can just say that there are three quarks in proton from elastic cross-section. Our main contribution in this article is we are detailed at places, we find literature terse.
翻訳日:2023-09-20 21:10:28 公開日:2023-09-19
# 低回路深さでゴーマンス・ウィリアムソンのマックスカットに収束し、計算的に打ち負かされるカスタムミキサー付きウォームスタートQAOA

Warm-Started QAOA with Custom Mixers Provably Converges and Computationally Beats Goemans-Williamson's Max-Cut at Low Circuit Depths ( http://arxiv.org/abs/2112.11354v4 )

ライセンス: Link先を確認
Reuben Tate and Jai Moondra and Bryan Gard and Greg Mohler and Swati Gupta(参考訳) 我々は、Farhi et al. (2014) の量子近似最適化アルゴリズム (QAOA) を一般化し、任意の分離可能な初期状態をミキサーと組み合わせることで、開始状態がミキシングハミルトンの最も励起状態となるようにする。 重み付きグラフ上でMax-Cutをシミュレートすることで、QAOA-warmestと呼ぶQAOAのこのバージョンを実証する。 max-cut's semi-definiteプログラムに対する解のランダム投射を用いて得られる2ドルと3ドルの近似を用いて、開始状態をウォームスタートとして初期化し、ウォームスタート依存のカスタムミキサーを定義する。 これらのウォームスタートは、カオア回路を一定値の近似値である$0.658$、非負のエッジ重みを持つグラフの$0.585$で初期化し、既知の自明(つまり標準初期化に$0.5$)の最悪のケース境界を$p=0$で改善することを示している。 さらに, 分離可能な初期状態を持つqaoa-warmestは, 断熱限界の下では$p\rightarrow \infty$としてmax-cutに収束することを示した。 しかし、ウォームスタートの選択はマックス・カットへの収束率に大きな影響を与え、我々のウォームスタートが既存のアプローチに比べて早く収束できることを実証的に示す。 さらに,従来のQAOA,古典的なGoemans-Williamsonアルゴリズム,および1148ドルのグラフ(最大111ドルノード)と深さ$p=8$のインスタンスライブラリに対して,カスタムミキサーを含まないウォームスタートしたQAOAよりも高い品質低下を示した。 さらに、現在のIBM-QおよびQuantinuumハードウェアの実験において、QAOA-warmestがFarhiらの標準QAOAよりも優れていることを示す。

We generalize the Quantum Approximate Optimization Algorithm (QAOA) of Farhi et al. (2014) to allow for arbitrary separable initial states with corresponding mixers such that the starting state is the most excited state of the mixing Hamiltonian. We demonstrate this version of QAOA, which we call QAOA-warmest, by simulating Max-Cut on weighted graphs. We initialize the starting state as a warm-start using $2$ and $3$-dimensional approximations obtained using randomized projections of solutions to Max-Cut's semi-definite program, and define a warm-start dependent custom mixer. We show that these warm-starts initialize the QAOA circuit with constant-factor approximations of $0.658$ for $2$-dimensional and $0.585$ for $3$-dimensional warm-starts for graphs with non-negative edge weights, improving upon previously known trivial (i.e., $0.5$ for standard initialization) worst-case bounds at $p=0$. These factors in fact lower bound the approximation achieved for Max-Cut at higher circuit depths, since we also show that QAOA-warmest with any separable initial state converges to Max-Cut under the adiabatic limit as $p\rightarrow \infty$. However, the choice of warm-starts significantly impacts the rate of convergence to Max-Cut, and we show empirically that our warm-starts achieve a faster convergence compared to existing approaches. Additionally, our numerical simulations show higher quality cuts compared to standard QAOA, the classical Goemans-Williamson algorithm, and a warm-started QAOA without custom mixers for an instance library of $1148$ graphs (upto $11$ nodes) and depth $p=8$. We further show that QAOA-warmest outperforms the standard QAOA of Farhi et al. in experiments on current IBM-Q and Quantinuum hardware.
翻訳日:2023-09-20 21:03:44 公開日:2023-09-19
# D-HAN:階層型アテンションネットワークを用いた動的ニュースレコメンデーション

D-HAN: Dynamic News Recommendation with Hierarchical Attention Network ( http://arxiv.org/abs/2112.10085v2 )

ライセンス: Link先を確認
Qinghua Zhao(参考訳) ニュースレコメンデーションモデルは、ユーザと新規のインタラクションに対する静的アプローチのため、ユーザの好みを捉えないことが多い。 この制限に対処するために,文,要素,シーケンスレベルでのニュース情報を効果的に表現する階層型アテンションネットワークに,連続時間情報をシームレスに統合する新しい動的ニュースレコメンデータモデルを提案する。 さらに,ユーザの暗黙的なフィードバックを最適化する動的ネガティブサンプリング手法を提案する。 モデルの有効性を検証するため、3つの実世界のデータセットを広範囲に実験した。 その結果,提案手法の有効性が示された。

News recommendation models often fall short in capturing users' preferences due to their static approach to user-news interactions. To address this limitation, we present a novel dynamic news recommender model that seamlessly integrates continuous time information to a hierarchical attention network that effectively represents news information at the sentence, element, and sequence levels. Moreover, we introduce a dynamic negative sampling method to optimize users' implicit feedback. To validate our model's effectiveness, we conduct extensive experiments on three real-world datasets. The results demonstrate the effectiveness of our proposed approach.
翻訳日:2023-09-20 21:02:57 公開日:2023-09-19
# RobustBench/AutoAttackは対向ロバストネスに適したベンチマークか?

Is RobustBench/AutoAttack a suitable Benchmark for Adversarial Robustness? ( http://arxiv.org/abs/2112.01601v3 )

ライセンス: Link先を確認
Peter Lorenz, Dominik Strassel, Margret Keuper and Janis Keuper(参考訳) 近年,RobostBench (Croce et al. 2020) は画像分類ネットワークの対角的堅牢性のベンチマークとして広く認知されている。 最も一般的に報告されているサブタスクでは、ロバストベンチは、オートアタック(croce and hein 2020b)の下でcifar10上のトレーニングされたニューラルネットワークの、eps = 8/255に限定されたl-inf摂動を評価し、分類する。 ベースラインの約60%で現在最高のパフォーマンスモデルのトップスコアを掲げているため、このベンチマークを非常に難しいと特徴づけるのは公平である。 最近の文献で広く受け入れられているにもかかわらず、我々はロバストベンチが実用応用に一般化できるロバスト性を示す重要な指標であるかどうかの議論を促進することを目的としている。 i) l-inf、eps = 8/255によるオートアタックによるデータの交替は非現実的に強く、単純な検出アルゴリズムと人間の観察者によってさえ、敵のサンプルの完全な検出率に近いものとなる。 また,同様の成功率を達成しつつ,他の攻撃手法の検出がはるかに困難であることを示す。 II) CIFAR10のような低解像度データセットでは、勾配に基づく攻撃が高解像度化とともにさらに検出されるため、高解像度画像にはあまり一般化されない。

Recently, RobustBench (Croce et al. 2020) has become a widely recognized benchmark for the adversarial robustness of image classification networks. In its most commonly reported sub-task, RobustBench evaluates and ranks the adversarial robustness of trained neural networks on CIFAR10 under AutoAttack (Croce and Hein 2020b) with l-inf perturbations limited to eps = 8/255. With leading scores of the currently best performing models of around 60% of the baseline, it is fair to characterize this benchmark to be quite challenging. Despite its general acceptance in recent literature, we aim to foster discussion about the suitability of RobustBench as a key indicator for robustness which could be generalized to practical applications. Our line of argumentation against this is two-fold and supported by excessive experiments presented in this paper: We argue that I) the alternation of data by AutoAttack with l-inf, eps = 8/255 is unrealistically strong, resulting in close to perfect detection rates of adversarial samples even by simple detection algorithms and human observers. We also show that other attack methods are much harder to detect while achieving similar success rates. II) That results on low-resolution data sets like CIFAR10 do not generalize well to higher resolution images as gradient-based attacks appear to become even more detectable with increasing resolutions.
翻訳日:2023-09-20 21:02:40 公開日:2023-09-19
# 非線形作用素の一般化反転

Generalized Inversion of Nonlinear Operators ( http://arxiv.org/abs/2111.10755v3 )

ライセンス: Link先を確認
Eyal Gofer and Guy Gilboa(参考訳) 演算子の反転はデータ処理の基本的な概念である。 線型作用素の反転は確立された理論によって支持され、よく研究されている。 逆が存在しないか一意でないとき、一般化された逆が用いられる。 最も注目すべきはムーア=ペンローズ逆数であり、物理学、統計学、工学の様々な分野に広く使われている。 本研究は非線形作用素の一般化反転を研究する。 まず、ムーア・ペンローズ公理に導かれる一般化された逆数の所望の性質を広く扱う。 一般集合の概念を定義し、次にノルム空間に対する洗練された擬逆函数を定義する。 擬似逆数の存在条件と一意性を示し,その性質,すなわち連続性,作用素合成と射影作用素に対する値などについて理論的に考察する。 解析式は、ハードスレッディングやソフトスレッディングやReLUのようなよく知られた非可逆な非線形作用素の擬逆数に対して与えられる。 神経層を分析し,ウェーブレット閾値との関係について考察する。 次に、等しい領域と範囲を持つ作用素に対して、逆ドラジンと緩和について研究する。 演算子の前方応用の線形結合として逆変換が表現可能なシナリオを示す。 そのようなシナリオは、行列の最小多項式や特徴多項式と同様に、消滅する多項式を持つ非線形作用素のクラスに対して生じる。 フォワード応用を用いたインバージョンは、複素非線形作用素の一般化インバージョンを近似する新しい効率的なアルゴリズムの開発を促進することができる。

Inversion of operators is a fundamental concept in data processing. Inversion of linear operators is well studied, supported by established theory. When an inverse either does not exist or is not unique, generalized inverses are used. Most notable is the Moore-Penrose inverse, widely used in physics, statistics, and various fields of engineering. This work investigates generalized inversion of nonlinear operators. We first address broadly the desired properties of generalized inverses, guided by the Moore-Penrose axioms. We define the notion for general sets, and then a refinement, termed pseudo-inverse, for normed spaces. We present conditions for existence and uniqueness of a pseudo-inverse and establish theoretical results investigating its properties, such as continuity, its value for operator compositions and projection operators, and others. Analytic expressions are given for the pseudo-inverse of some well-known, non-invertible, nonlinear operators, such as hard- or soft-thresholding and ReLU. We analyze a neural layer and discuss relations to wavelet thresholding. Next, the Drazin inverse, and a relaxation, are investigated for operators with equal domain and range. We present scenarios where inversion is expressible as a linear combination of forward applications of the operator. Such scenarios arise for classes of nonlinear operators with vanishing polynomials, similar to the minimal or characteristic polynomials for matrices. Inversion using forward applications may facilitate the development of new efficient algorithms for approximating generalized inversion of complex nonlinear operators.
翻訳日:2023-09-20 21:02:12 公開日:2023-09-19
# 周波数領域におけるオートアタック摂動の検出

Detecting AutoAttack Perturbations in the Frequency Domain ( http://arxiv.org/abs/2111.08785v2 )

ライセンス: Link先を確認
Peter Lorenz, Paula Harder, Dominik Strassel, Margret Keuper and Janis Keuper(参考訳) 近年,AutoAttack(Croce and Hein, 2020b)フレームワークによる画像分類ネットワークに対する敵対攻撃が注目されている。 オートアタックは攻撃成功率が非常に高いが、ほとんどの防衛アプローチは、敵の訓練のようなネットワーク強化と堅牢性強化に焦点を当てている。 これにより、現在最も報告されている手法は、CIFAR10の敵例の約66%に耐えることができる。 本稿では,オートアタックの空間的および周波数領域特性を調査し,代替防御を提案する。 ネットワークを強固にする代わりに、推論中の敵攻撃を検出し、操作された入力を拒否する。 周波数領域における比較的単純かつ高速な解析に基づいて、2つの異なる検出アルゴリズムを導入する。 まず、入力画像上でのみ動作し、オートアタックcifar10ベンチマークで100%、imagenetで99.3%、両方のケースでepsilon = 8/255の検出精度を達成するブラックボックス検出器。 第2に、CNNの特徴マップの分析を用いたホワイトボックス検出器が、同じベンチマークで100%と98.7%の検出率をもたらす。

Recently, adversarial attacks on image classification networks by the AutoAttack (Croce and Hein, 2020b) framework have drawn a lot of attention. While AutoAttack has shown a very high attack success rate, most defense approaches are focusing on network hardening and robustness enhancements, like adversarial training. This way, the currently best-reported method can withstand about 66% of adversarial examples on CIFAR10. In this paper, we investigate the spatial and frequency domain properties of AutoAttack and propose an alternative defense. Instead of hardening a network, we detect adversarial attacks during inference, rejecting manipulated inputs. Based on a rather simple and fast analysis in the frequency domain, we introduce two different detection algorithms. First, a black box detector that only operates on the input images and achieves a detection accuracy of 100% on the AutoAttack CIFAR10 benchmark and 99.3% on ImageNet, for epsilon = 8/255 in both cases. Second, a whitebox detector using an analysis of CNN feature maps, leading to a detection rate of also 100% and 98.7% on the same benchmarks.
翻訳日:2023-09-20 21:01:51 公開日:2023-09-19
# 最適部分群選択

Optimal subgroup selection ( http://arxiv.org/abs/2109.01077v2 )

ライセンス: Link先を確認
Henry W. J. Reeve, Timothy I. Cannings, Richard J. Samworth(参考訳) 臨床試験やその他の応用では、興味深い行動を示す特徴空間の領域がしばしば見られるが、これらの現象が集団レベルで反映されているかどうかは不明である。 回帰設定に着目し,回帰関数が予め決定された閾値を超える特徴空間の領域を識別する部分群選択課題を考える。 我々は、この問題を制約付き最適化の1つとして定式化し、そこでは低複雑さでデータ依存の選択セットを求め、その確率が保証された場合、回帰関数はしきい値の少なくとも一様大となる。 これは自然に後悔の念をもたらすものであり、我々の主な貢献は、サンプルサイズとタイプIエラー確率の両方において、この後悔に対する最小値の最適率を決定することである。 このレートは、回帰関数の滑らかさを制御するパラメータ間の微妙な相互作用と、集団レベルでの最適選択セットが十分に整備された部分集合の族によって近似できる程度を定量化する指数を含んでいる。 最後に, 治療・制御環境への一般化を図示し, これまでの結果の範囲を拡大し, 異種処理効果の利害関係を明らかにした。

In clinical trials and other applications, we often see regions of the feature space that appear to exhibit interesting behaviour, but it is unclear whether these observed phenomena are reflected at the population level. Focusing on a regression setting, we consider the subgroup selection challenge of identifying a region of the feature space on which the regression function exceeds a pre-determined threshold. We formulate the problem as one of constrained optimisation, where we seek a low-complexity, data-dependent selection set on which, with a guaranteed probability, the regression function is uniformly at least as large as the threshold; subject to this constraint, we would like the region to contain as much mass under the marginal feature distribution as possible. This leads to a natural notion of regret, and our main contribution is to determine the minimax optimal rate for this regret in both the sample size and the Type I error probability. The rate involves a delicate interplay between parameters that control the smoothness of the regression function, as well as exponents that quantify the extent to which the optimal selection set at the population level can be approximated by families of well-behaved subsets. Finally, we expand the scope of our previous results by illustrating how they may be generalised to a treatment and control setting, where interest lies in the heterogeneous treatment effect.
翻訳日:2023-09-20 21:01:33 公開日:2023-09-19
# 報道の自由の再評価

Reassessing Measures for Press Freedom ( http://arxiv.org/abs/2106.10427v2 )

ライセンス: Link先を確認
Jukka Ruohonen(参考訳) 様々な世界的なスキャンダル、メディアの変革、技術的変化、審議的民主主義への障害などに直面して、報道の自由に対する関心が高まっている。 プレスの自由はしばしば、比較経験研究における説明的要因としても用いられる。 しかし, 既存の測定機器のプレス自由度に関する検証は, ほとんど行われていない。 これらの点を踏まえて,2001年から2020年にかけて146か国で報道の自由に関する8つのクロスカントリー・インスツルメンツを評価し,比較研究施設を用いて先行研究を再現した。 この手法は主成分分析と多段階回帰モデリングに基づいている。 その結果, 楽器の構成(コンバージェンス)妥当性は良好であり, 紙に詳述されたプレス自由のための半ナロー定義と同値であることがわかった。 さらに、これらの指標は、実験的な研究で交換性を使用するのに適していると思われる。 限界と今後の研究方向性についてさらに議論する。

There has been an increasing interest in press freedom in the face of various global scandals, transformation of media, technological change, obstacles to deliberative democracy, and other factors. Press freedom is frequently used also as an explanatory factor in comparative empirical research. However, validations of existing measurement instruments on press freedom have been far and few between. Given these points, this paper evaluates eight cross-country instruments on press freedom in 146 countries between 2001 and 2020, replicating an earlier study with a comparable research setup. The methodology is based on principal component analysis and multi-level regression modeling. According to the results, the construct (convergence) validity of the instruments is good; they all measure the same underlying semi-narrow definition for press freedom elaborated in the paper. In addition, any of the indices seems suitable to be used interchangeability in empirical research. Limitations and future research directions are further discussed.
翻訳日:2023-09-20 21:00:42 公開日:2023-09-19
# ディープニューラルネットワークによるノイズデータからの多次元複素ODEの校正

Calibrating multi-dimensional complex ODE from noisy data via deep neural networks ( http://arxiv.org/abs/2106.03591v2 )

ライセンス: Link先を確認
Kexuan Li, Fangfang Wang, Ruiqi Liu, Fan Yang, Zuofeng Shang(参考訳) 通常微分方程式(ODE)は、生物学、化学、工学、金融、物理学などにおいて生じる複雑な力学をモデル化するために広く用いられている。 ノイズの多いデータを用いた複雑なODEシステムの校正は非常に困難である。 本研究では,この問題に対する二段階非パラメトリックアプローチを提案する。 まず,境界カーネル法を用いて非有線データとその高次導関数を抽出し,reluアクティベーション関数を持つ疎結合深層ニューラルネットワークに供給する。 本手法は,次元と複雑なODE構造の呪いを伴わずに,ODEシステムを復元することができる。 ODEが汎用的なモジュール構造を持ち,各モジュールコンポーネントが少数の入力変数のみを含み,ネットワークアーキテクチャが適切に選択されている場合,本手法は一貫性があることが証明された。 理論特性は,提案手法の有効性と有効性を示す広範なシミュレーション研究によって裏付けられる。 最後に,米国50州におけるcovid-19の感染拡大率を同時に把握するために,本手法を用いた。

Ordinary differential equations (ODEs) are widely used to model complex dynamics that arises in biology, chemistry, engineering, finance, physics, etc. Calibration of a complicated ODE system using noisy data is generally very difficult. In this work, we propose a two-stage nonparametric approach to address this problem. We first extract the de-noised data and their higher order derivatives using boundary kernel method, and then feed them into a sparsely connected deep neural network with ReLU activation function. Our method is able to recover the ODE system without being subject to the curse of dimensionality and complicated ODE structure. When the ODE possesses a general modular structure, with each modular component involving only a few input variables, and the network architecture is properly chosen, our method is proven to be consistent. Theoretical properties are corroborated by an extensive simulation study that demonstrates the validity and effectiveness of the proposed method. Finally, we use our method to simultaneously characterize the growth rate of Covid-19 infection cases from 50 states of the USA.
翻訳日:2023-09-20 21:00:28 公開日:2023-09-19
# 医用画像分類における説明可能な深層学習法の検討

Explainable Deep Learning Methods in Medical Image Classification: A Survey ( http://arxiv.org/abs/2205.04766v3 )

ライセンス: Link先を確認
Cristiano Patr\'icio, Jo\~ao C. Neves, Lu\'is F. Teixeira(参考訳) 深層学習の顕著な成功は、その医療画像診断への応用への興味を惹きつけている。 最先端のディープラーニングモデルは、異なるタイプの医療データの分類において人間レベルの精度を達成したが、これらのモデルは、主に解釈可能性の欠如のために、臨床ワークフローではほとんど採用されていない。 ディープラーニングモデルのブラックボックス性は、これらのモデルの意思決定プロセスを説明するための戦略開発の必要性を高め、eXplainable Artificial Intelligence(XAI)というトピックが生み出された。 本稿では, 医用画像診断に応用されるXAIについて, 視覚的, テキスト的, 例ベース, 概念的説明法など, 徹底的に調査する。 さらに,本研究は,既存の医用画像データセットと,その説明の質を評価するための既存の指標をレビューする。 また,レポート生成手法の集合間の性能比較も含んでいる。 最後に,XAIを医用画像に適用する上での大きな課題と今後の研究方向性についても論じる。

The remarkable success of deep learning has prompted interest in its application to medical imaging diagnosis. Even though state-of-the-art deep learning models have achieved human-level accuracy on the classification of different types of medical data, these models are hardly adopted in clinical workflows, mainly due to their lack of interpretability. The black-box-ness of deep learning models has raised the need for devising strategies to explain the decision process of these models, leading to the creation of the topic of eXplainable Artificial Intelligence (XAI). In this context, we provide a thorough survey of XAI applied to medical imaging diagnosis, including visual, textual, example-based and concept-based explanation methods. Moreover, this work reviews the existing medical imaging datasets and the existing metrics for evaluating the quality of the explanations. In addition, we include a performance comparison among a set of report generation-based methods. Finally, the major challenges in applying XAI to medical imaging and the future research directions on the topic are also discussed.
翻訳日:2023-09-20 20:54:04 公開日:2023-09-19
# オープンブック試験としての関係抽出:検索型プロンプトチューニング

Relation Extraction as Open-book Examination: Retrieval-enhanced Prompt Tuning ( http://arxiv.org/abs/2205.02355v2 )

ライセンス: Link先を確認
Xiang Chen, Lei Li, Ningyu Zhang, Chuanqi Tan, Fei Huang, Luo Si, Huajun Chen(参考訳) 事前訓練された言語モデルは、驚くべき数発の学習能力を示すことによって関係抽出に大きく貢献している。 しかし、関係抽出のための迅速なチューニング手法は、これらの稀なパターンや難しいパターンに一般化できない可能性がある。 従来のパラメトリック学習パラダイムは、トレーニングデータを書籍として記憶し、推論をクローズブックテストとして捉えることができる。 ロングテールやハードパターンは、限られたインスタンスでしか記憶できない。 そこで本研究では,reをオープンブック検証として,関係抽出のための検索強調プロンプトチューニングの新しい半パラメトリックパラダイムを提案する。 記憶されたキー値ペアとして,プロンプトベースのインスタンス表現と対応する関係ラベルを検索するためのオープンブックデータストアを構築する。 データストア上の非パラメトリック近傍分布と PLM の基底出力を線形に補間することにより、推論時に関係を推測することができる。 このように、トレーニング中に重み付けに格納された知識を通じて関係を推測するだけでなく、オープンブックデータストアで例を解き、クエリすることで意思決定を支援する。 ベンチマークデータセットに関する広範囲な実験により,本手法は標準教師付き設定と少数ショット設定の両方において最先端の手法を実現できることが示された。 コードはhttps://github.com/zjunlp/promptkg/tree/main/research/retrievalreで入手できる。

Pre-trained language models have contributed significantly to relation extraction by demonstrating remarkable few-shot learning abilities. However, prompt tuning methods for relation extraction may still fail to generalize to those rare or hard patterns. Note that the previous parametric learning paradigm can be viewed as memorization regarding training data as a book and inference as the close-book test. Those long-tailed or hard patterns can hardly be memorized in parameters given few-shot instances. To this end, we regard RE as an open-book examination and propose a new semiparametric paradigm of retrieval-enhanced prompt tuning for relation extraction. We construct an open-book datastore for retrieval regarding prompt-based instance representations and corresponding relation labels as memorized key-value pairs. During inference, the model can infer relations by linearly interpolating the base output of PLM with the non-parametric nearest neighbor distribution over the datastore. In this way, our model not only infers relation through knowledge stored in the weights during training but also assists decision-making by unwinding and querying examples in the open-book datastore. Extensive experiments on benchmark datasets show that our method can achieve state-of-the-art in both standard supervised and few-shot settings. Code are available in https://github.com/zjunlp/PromptKG/tree/main/research/RetrievalRE.
翻訳日:2023-09-20 20:53:48 公開日:2023-09-19
# 事前学習型言語モデルに対するコントラスト的デモチューニング

Contrastive Demonstration Tuning for Pre-trained Language Models ( http://arxiv.org/abs/2204.04392v4 )

ライセンス: Link先を確認
Xiaozhuan Liang, Ningyu Zhang, Siyuan Cheng, Zhenru Zhang, Chuanqi Tan, Huajun Chen(参考訳) 事前訓練された言語モデルは、特に低データシナリオにおいて、テキストプロンプトやデモによって効果的に刺激することができる。 最近の研究では、離散的または連続的なプロンプトや最適化された動詞化子の自動検索に焦点が当てられているが、デモのための研究はまだ限られている。 具体的には、実演例はプロンプトチューニングの優れた最終性能に不可欠である。 本稿では,実演サンプリングの不要な,新しいプラグ可能な,拡張性,効率的な手法であるコントラスト・デモ・チューニングを提案する。 さらに,提案手法は次のとおりである。 (i) 前回のプロンプト・チューニング・アプローチに差し込む。 (ii)多種多様な分類課題に拡張した。 16のデータセットに対する実験結果から,従来のLM-BFFとP-tuningを統合した手法により,性能が向上することが示された。 コードはhttps://github.com/zjunlp/PromptKG/tree/main/research/Demo-Tuningで入手できる。

Pretrained language models can be effectively stimulated by textual prompts or demonstrations, especially in low-data scenarios. Recent works have focused on automatically searching discrete or continuous prompts or optimized verbalizers, yet studies for the demonstration are still limited. Concretely, the demonstration examples are crucial for an excellent final performance of prompt-tuning. In this paper, we propose a novel pluggable, extensible, and efficient approach named contrastive demonstration tuning, which is free of demonstration sampling. Furthermore, the proposed approach can be: (i) Plugged into any previous prompt-tuning approaches; (ii) Extended to widespread classification tasks with a large number of categories. Experimental results on 16 datasets illustrate that our method integrated with previous approaches LM-BFF and P-tuning can yield better performance. Code is available in https://github.com/zjunlp/PromptKG/tree/main/research/Demo-Tuning.
翻訳日:2023-09-20 20:52:47 公開日:2023-09-19
# 全光谷スイッチと電子デフォーカスのクロック

All-optical valley switch and clock of electronic dephasing ( http://arxiv.org/abs/2204.00398v2 )

ライセンス: Link先を確認
Rui E. F. Silva, Misha Ivanov and \'Alvaro Jim\'enez-Gal\'an(参考訳) 破壊反転対称性を持つ2次元材料は、2つのエネルギー縮退結晶モーメント k または k' のうち、導電体が位置する谷擬似スピンと呼ばれる余分な自由度を持つ。 円形に偏光する光は、谷の偏光を100 %近く達成し、谷ベースのトランジスタへの道を開くことが示されている。 しかし、谷分極の切り替えは、短いコヒーレンス寿命のため、そのような装置の実践的な実装にとって依然として重要な課題である。 最近の超短レーザー技術の進歩により、位相制御されたアト秒パルスとパルス間の偏光を発生できるようになった。 このような技術を利用すると、電子的およびバレー的デコヒーレンスよりも高速に谷分極をオン・オフ・スイッチするコヒーレント制御プロトコル、すなわち超高速光谷スイッチを導入する。 第一原理から計算したhbnおよびmos$_2$単分子膜のプロトコルを理論的に実証する。 さらに,垂直偏光を持つ2つの時間遅れ線形偏光パルスを用いて,谷間ホール導電率から電子デファス化時間$T_2$を抽出できることを示す。

2D materials with broken inversion symmetry posses an extra degree of freedom, the valley pseudospin, that labels in which of the two energy-degenerate crystal momenta, K or K', the conducting carriers are located. It has been shown that shining circularly-polarized light allows to achieve close to $100\%$ of valley polarization, opening the way to valley-based transistors. Yet, switching of the valley polarization is still a key challenge for the practical implementation of such devices due to the short coherence lifetimes. Recent progress in ultrashort laser technology now allows to produce trains of attosecond pulses with controlled phase and polarization between the pulses. Taking advantage of such technology, we introduce a coherent control protocol to turn on, off and switch the valley polarization at faster timescales than electronic and valley decoherence, that is, an ultrafast optical valley switch. We theoretically demonstrate the protocol for hBN and MoS$_2$ monolayers calculated from first principles. Additionally, using two time-delayed linearly-polarized pulses with perpendicular polarization, we show that we can extract the electronic dephasing time $T_2$ from the valley Hall conductivity.
翻訳日:2023-09-20 20:52:30 公開日:2023-09-19
# Scene Graph Comprehension による複雑なシーン画像編集

Complex Scene Image Editing by Scene Graph Comprehension ( http://arxiv.org/abs/2203.12849v2 )

ライセンス: Link先を確認
Zhongping Zhang, Huiwen He, Bryan A. Plummer, Zhenyu Liao, Huayan Wang(参考訳) 条件拡散モデルは、テキスト誘導意味画像編集のような様々なタスクで印象的なパフォーマンスを示している。 以前の作業では、画像領域を人間の手動で識別するか、オブジェクト中心の操作にのみうまく機能するオブジェクト検出器を使用する必要がある。 例えば、入力画像が同じ意味を持つ複数のオブジェクト(鳥のグループなど)を含んでいる場合、オブジェクト検出器はターゲットのオブジェクトを認識して位置を特定するのに苦労するかもしれない。 これらの課題に対処するために,SGC-Net(Scene Graph Comprehension)による複雑なシーン画像編集を実現するための2段階の手法を提案する。 第1段階では、シーングラフを使用してターゲットオブジェクトの位置を予測する、関心領域(roi)予測ネットワークをトレーニングします。 対象のカテゴリのみに基づく物体検出手法とは異なり,複雑なシーン内で対象物とその意味関係を理解すれば,対象物体を正確に認識することができる。 第2段階では条件付き拡散モデルを用いて、RoI予測に基づいて画像を編集する。 我々は,CLEVRおよびVisual Genomeデータセットに対するアプローチの有効性を評価する。 我々は,CLEVRにおけるSSIMの8点改善を報告し,提案手法の有効性を検証した。 コードはgithub.com/Zhongping-Zhang/SGC_Netで入手できる。

Conditional diffusion models have demonstrated impressive performance on various tasks like text-guided semantic image editing. Prior work requires image regions to be identified manually by human users or use an object detector that only perform well for object-centric manipulations. For example, if an input image contains multiple objects with the same semantic meaning (such as a group of birds), object detectors may struggle to recognize and localize the target object, let alone accurately manipulate it. To address these challenges, we propose a two-stage method for achieving complex scene image editing by Scene Graph Comprehension (SGC-Net). In the first stage, we train a Region of Interest (RoI) prediction network that uses scene graphs and predict the locations of the target objects. Unlike object detection methods based solely on object category, our method can accurately recognize the target object by comprehending the objects and their semantic relationships within a complex scene. The second stage uses a conditional diffusion model to edit the image based on our RoI predictions. We evaluate the effectiveness of our approach on the CLEVR and Visual Genome datasets. We report an 8 point improvement in SSIM on CLEVR and our edited images were preferred by human users by 9-33% over prior work on Visual Genome, validating the effectiveness of our proposed method. Code is available at github.com/Zhongping-Zhang/SGC_Net.
翻訳日:2023-09-20 20:52:08 公開日:2023-09-19
# 人工知能と自発衝突

Artificial Intelligence and Spontaneous Collusion ( http://arxiv.org/abs/2202.05946v5 )

ライセンス: Link先を確認
Martino Banchio, Giacomo Mantegazza(参考訳) 学習アルゴリズム間の戦略的相互作用を研究するための扱いやすいモデルを開発した。 アルゴリズム的共謀の出現の原因となるメカニズムを明らかにする。 我々は,静的ナッシュ平衡よりも利益の高い行動に対して,アルゴリズムが定期的に協調するのを観察した。 この新たな畳み込みチャネルは、自然結合と呼ばれるアルゴリズムの推定における内因性統計リンクに依存している。 モデルのパラメータは、統計的な連鎖が現れるかどうかを予測し、どの市場構造がアルゴリズム的結束を促進するかを予測する。 自発的結合が価格と市場シェアの結束を持続し,文献における実験的知見を補完することを示した。 最後に、アルゴリズム市場の設計に結果を適用します。

We develop a tractable model for studying strategic interactions between learning algorithms. We uncover a mechanism responsible for the emergence of algorithmic collusion. We observe that algorithms periodically coordinate on actions that are more profitable than static Nash equilibria. This novel collusive channel relies on an endogenous statistical linkage in the algorithms' estimates which we call spontaneous coupling. The model's parameters predict whether the statistical linkage will appear, and what market structures facilitate algorithmic collusion. We show that spontaneous coupling can sustain collusion in prices and market shares, complementing experimental findings in the literature. Finally, we apply our results to design algorithmic markets.
翻訳日:2023-09-20 20:51:45 公開日:2023-09-19
# フラクタル位相符号による量子誤差補正

Quantum error correction with fractal topological codes ( http://arxiv.org/abs/2201.03568v3 )

ライセンス: Link先を確認
Arpit Dua, Tomas Jochym-O'Connor, Guanyu Zhu(参考訳) 近年、フラクタル曲面符号(英語版)(fscs)のクラスがハウスドルフ次元2+\epsilon$のフラクタル格子上に構築され、フォールトトレラントな非クリフフォードcczゲートが認められている。 このようなfscの性能をフォールトトレラント量子メモリとして検討する。 ハウスドルフ次元が 2+\epsilon$ の FSC において,ビットフリップと位相フリップの誤差に対する非ゼロしきい値を持つ復号法が存在することを証明した。 ビットフリップ誤差に対して, フラクタル格子の穴の境界に適切な修正を施すことにより, 通常の3次元表面符号の弦状症候群に対して開発されたスイープデコーダをFSCに適用する。 FSCに対するスイープデコーダの適応は、自己補正と単発性を維持している。 位相フリップ誤差に対して,ポイント様症候群に対して,最小長マッチング(MWPM)デコーダを用いる。 本研究では,スイープデコーダの現象ノイズと,ハウスドルフ次元が$D_H\approx2.966$の特定のFSCのMWPMデコーダの符号容量閾値(より低い2.95\%$)の持続的耐故障閾値(\sim 1.7\%$)を報告する。 後者はハウスドルフ次元を介して調整可能なフラクタル格子上の閉じ込めヒッグス転移の臨界点の下限に写像することができる。

Recently, a class of fractal surface codes (FSCs), has been constructed on fractal lattices with Hausdorff dimension $2+\epsilon$, which admits a fault-tolerant non-Clifford CCZ gate. We investigate the performance of such FSCs as fault-tolerant quantum memories. We prove that there exist decoding strategies with non-zero thresholds for bit-flip and phase-flip errors in the FSCs with Hausdorff dimension $2+\epsilon$. For the bit-flip errors, we adapt the sweep decoder, developed for string-like syndromes in the regular 3D surface code, to the FSCs by designing suitable modifications on the boundaries of the holes in the fractal lattice. Our adaptation of the sweep decoder for the FSCs maintains its self-correcting and single-shot nature. For the phase-flip errors, we employ the minimum-weight-perfect-matching (MWPM) decoder for the point-like syndromes. We report a sustainable fault-tolerant threshold ($\sim 1.7\%$) under phenomenological noise for the sweep decoder and the code capacity threshold (lower bounded by $2.95\%$) for the MWPM decoder for a particular FSC with Hausdorff dimension $D_H\approx2.966$. The latter can be mapped to a lower bound of the critical point of a confinement-Higgs transition on the fractal lattice, which is tunable via the Hausdorff dimension.
翻訳日:2023-09-20 20:51:16 公開日:2023-09-19
# 古典静電場の超対称量子ポテンシャルアナログ

Supersymmetric Quantum Potentials Analogs of Classical Electrostatic Fields ( http://arxiv.org/abs/2209.01248v4 )

ライセンス: Link先を確認
Juan D. Garc\'ia-Mu\~noz and A Raya(参考訳) 古典静電場とschr\"odinger-like hamiltonianの関係が証明されている。 したがって、古典静電場に類似した超対称量子ポテンシャルを構成できる。 静電ポテンシャルのアンザッツをノードレス関数の自然対数として示し、静電場が二階収束超対称変換に関連するベルヌーイ方程式を満たすことを示した。 いわゆるconfluentアルゴリズムを用いることで、電荷密度が与えられたとき、対応する静電場と超対称ポテンシャルを見つけることができる。 さらに、関連する電荷密度とSchr\\odinger様可溶電位の静電場プロファイルを決定することができる。

A relation between classical electrostatic fields and Schr\"odinger-like Hamiltonians is evidenced. Hence, supersymmetric quantum potentials analogous to classical electrostatic fields can be constructed. Proposing an ansatz for the electrostatic potential as the natural logarithm of a nodeless function, it is demonstrated that the electrostatic fields fulfil the Bernoulli equation associated to a second-order confluent supersymmetric transformation. By using the so-called confluent algorithm, it is possible, given a charge density, to find the corresponding electrostatic field as well as the supersymmetric potentials. Furthermore, the associated charge density and the electrostatic field profile of Schr\"odinger-like solvable potentials can be determined.
翻訳日:2023-09-20 20:43:55 公開日:2023-09-19
# 総合型ゲームにおける準最適$\Phi$-regret学習

Near-Optimal $\Phi$-Regret Learning in Extensive-Form Games ( http://arxiv.org/abs/2208.09747v3 )

ライセンス: Link先を確認
Ioannis Anagnostides, Gabriele Farina, Tuomas Sandholm(参考訳) 本稿では,マルチプレイヤーの完全リコール不完全情報多形式ゲームにおいて,全プレイヤーが使用した場合,各プレイヤーのトリガ後悔がt$の繰り返し後に$o(\log t)$となるように,効率的かつ非結合的な学習ダイナミクスを確立する。 これは、以前のよく知られた$O(T^{1/4})$よりも指数関数的に改善され、Bai et al. (2022) による最近の開問題に着目する。 即ち、大域的な相関平衡と粗相関平衡の組への収束を、ほぼ最適のレートである $\frac{\log t}{t}$ で保証する。 我々の構成の核心にある先行研究は、多項式次数を持つ有理関数から導出される不動点に関するより一般的な結果である。 さらに,従来の保証とは異なり,sirgkanis et al. (nips, 2015) が導入した rvu 特性を保存し,cfr 型の後悔の分解に基づく学習ダイナミクス下での最適に近い後悔を確立することに関心を持っている。

In this paper, we establish efficient and uncoupled learning dynamics so that, when employed by all players in multiplayer perfect-recall imperfect-information extensive-form games, the trigger regret of each player grows as $O(\log T)$ after $T$ repetitions of play. This improves exponentially over the prior best known trigger-regret bound of $O(T^{1/4})$, and settles a recent open question by Bai et al. (2022). As an immediate consequence, we guarantee convergence to the set of extensive-form correlated equilibria and coarse correlated equilibria at a near-optimal rate of $\frac{\log T}{T}$. Building on prior work, at the heart of our construction lies a more general result regarding fixed points deriving from rational functions with polynomial degree, a property that we establish for the fixed points of (coarse) trigger deviation functions. Moreover, our construction leverages a refined regret circuit for the convex hull, which -- unlike prior guarantees -- preserves the RVU property introduced by Syrgkanis et al. (NIPS, 2015); this observation has an independent interest in establishing near-optimal regret under learning dynamics based on a CFR-type decomposition of the regret.
翻訳日:2023-09-20 20:43:45 公開日:2023-09-19
# 分散データにおける協調因果推論

Collaborative causal inference on distributed data ( http://arxiv.org/abs/2208.07898v3 )

ライセンス: Link先を確認
Yuji Kawamata, Ryoki Motai, Yukihiko Okada, Akira Imakura, Tetsuya Sakurai(参考訳) 近年,分散データのプライバシ保護に伴う因果推論技術の発展が注目されている。 既存の分散データの方法の多くは、被験者の欠如(サンプル)を解決することに集中しており、治療効果の推定においてランダムなエラーを減らすことしかできない。 本研究では,データ協調実験(DC-QE)を提案し,被験者と共変者の両方の欠如を解消し,ランダムな誤差と推定の偏りを低減させる。 本手法は,ローカルパーティの個人データから次元的に縮小した中間表現を構築し,プライバシ保存のためにプライベートデータの代わりに中間表現を共有すること,共有中間表現からプロパシティスコアを推定すること,最後にプロパサリティスコアから治療効果を推定することを含む。 実世界の人工データと実世界のデータの両方に関する数値実験により,本手法が個人分析よりも優れた推定結果をもたらすことを確認した。 次元減少は,個人データ内の情報を失い,性能低下を引き起こすが,中間表現の共有によって被検者不足を解消し,共変量化によって性能が改善され,次元減少に起因する劣化を克服できる。 外的妥当性は必ずしも保証されていないが,本研究の結果はDC-QEが有望な方法であることを示している。 この手法を広く利用することで、中間表現をオープンデータとして公開することで、研究者が因果関係を発見し、知識ベースを蓄積するのに役立つ。

In recent years, the development of technologies for causal inference with privacy preservation of distributed data has gained considerable attention. Many existing methods for distributed data focus on resolving the lack of subjects (samples) and can only reduce random errors in estimating treatment effects. In this study, we propose a data collaboration quasi-experiment (DC-QE) that resolves the lack of both subjects and covariates, reducing random errors and biases in the estimation. Our method involves constructing dimensionality-reduced intermediate representations from private data from local parties, sharing intermediate representations instead of private data for privacy preservation, estimating propensity scores from the shared intermediate representations, and finally, estimating the treatment effects from propensity scores. Through numerical experiments on both artificial and real-world data, we confirm that our method leads to better estimation results than individual analyses. While dimensionality reduction loses some information in the private data and causes performance degradation, we observe that sharing intermediate representations with many parties to resolve the lack of subjects and covariates sufficiently improves performance to overcome the degradation caused by dimensionality reduction. Although external validity is not necessarily guaranteed, our results suggest that DC-QE is a promising method. With the widespread use of our method, intermediate representations can be published as open data to help researchers find causalities and accumulate a knowledge base.
翻訳日:2023-09-20 20:42:57 公開日:2023-09-19
# frauchiger-renner gedanken実験:その解析における欠陥 -- 量子力学における論理の働き

The Frauchiger-Renner Gedanken Experiment: Flaws in Its Analysis -- How Logic Works in Quantum Mechanics ( http://arxiv.org/abs/2208.00060v2 )

ライセンス: Link先を確認
Stuart Samuel(参考訳) 雑誌『Nature Comm』に収録。 3711, 9 (2018))、Daniela Frauchiger と Renato Renner はウィグナー/友人ゲダンケンの実験を使い、量子力学は測定エージェントを含む複雑なシステムを記述できないと主張した。 彼らは、絡み合ったスピンシステムで行った測定に関する4つのステートメントから始まる矛盾するステートメントを生成できた。 A が B を、B が C を、A が C を、しかし A が C を、Frauchiger-Renner gedanken の実験の連続的なステートメントを合成する際に、量子力学は推移性に従わず、解析を無効にすることを示す。 また、4つのステートメントの中の特定の前提のペアが論理的に非互換であること、つまりステートメントがすべて一度に使用できないことも示しています。 さらに、矛盾を生じさせるため、フラウチャーとレナーは「OK」-「OKbar」という特定のランを選択する。 しかし、この場合の制限は4つの文のうち3つを無効にする。 したがって、2018 Nature Communicationの出版物には論理学に関する3つの問題がある。 また、量子力学全般におけるある種の状況において、推移性を含む論理規則の違反を実証する。 我々はFrauchiger-Renner gedanken実験を実験室として、波動関数論理、ウィグナー/フレンド実験、波動関数の知識から数学的ステートメントの導出など、量子力学における多くのトピックを探索し、多くの興味深い結果を得る。 frauchiger と renner が使用するタイプの wigner/friend 実験は,wigner 測定を巨視的対象で行えば不可能であることを示した。 特定の顕微鏡で観測できるが、その場合ウィグナー測定は「通常」に変換される。

In a publication (Nature Comm. 3711, 9 (2018)), Daniela Frauchiger and Renato Renner used a Wigner/friend gedanken experiment to argue that quantum mechanics cannot describe complex systems involving measuring agents. They were able to produce a contradictory statement starting with four statements about measurements performed on an entangled spin system. These statements needed to be combined using the transitive property of logic: If A implies B and B implies C, then A implies C. However, in combining successive statements for the Frauchiger-Renner gedanken experiment we show that quantum mechanics does not obey transitivity and that this invalidates their analysis. We also demonstrate that certain pairs of premises among the four statements are logically incompatible, meaning that the statements cannot all be used at once. In addition, to produce the contradiction, Frauchiger and Renner choose a particular run, which they call the `OK' -- `OKbar' one. However, the restriction to this case invalidates three of the four statements. Hence, there are three separate problems with logic in the 2018 Nature Communication publication. We also demonstrate the violation of the rules of logic -- including transitivity -- in certain situations in quantum mechanics in general. We use the Frauchiger-Renner gedanken experiment as a laboratory to explore a number of topics in quantum mechanics including wavefunction logic, Wigner/friend experiments, and the deduction of mathematical statements from knowledge of a wavefunction and obtain a number of interesting results. We show that Wigner/friend experiments of the type used by Frauchiger and Renner are impossible if the Wigner measurements are performed on macroscopic objects. They are possible on certain microscopic entities but then the Wigner measurements are rendered "ordinary" in which case ...
翻訳日:2023-09-20 20:42:32 公開日:2023-09-19
# 幾何学的相対エントロピーと偏心R'enyi発散

Geometric relative entropies and barycentric R\'enyi divergences ( http://arxiv.org/abs/2207.14282v3 )

ライセンス: Link先を確認
Mil\'an Mosonyi, Gergely Bunth, P\'eter Vrana(参考訳) 単調量子相対エントロピーを定義する体系的な方法と、単調量子相対エントロピーの集合から始まる(多重変量)量子R\'enyiの発散を与える。 情報理論における中心的な重要性にもかかわらず、古典的相対エントロピーの2つの加法的および単トン量子拡張のみが知られている。 ここでは、同じ性質を持つ与えられたものから単調および加法的量子相対エントロピーを構築するための一般的な手順を与える。特に、梅垣相対エントロピーから始めると、フルランク状態において、梅垣とベラブキン・スタスツキーの間を補間する単調および加法的量子相対エントロピーの新しい1パラメータの族を与える。 異なる方向において、古典的変分公式の一般化を用いて、量子相対エントロピーの任意の有限集合に対応する多変量量子 R\'enyi 量を $(D^{q_x})_{x\in X}$ と符号付き確率測度 $P$, as $$ Q_P^{\mathrm{b},\mathbf{q}}(((\rho_x)_{x\in X}):=\sup_{\tau\ge 0}\left\{\text{Tr}\,\tau-\sum_xP(x)D^{q_x}(\tau\|\rho_x)\right\} と定義する。 P$が確率測度であるときに、単調量子相対エントロピーが単調R'enyi量を定義することを示す。 固有正規化により、上記の量の負対数により、2変数の場合 (x=\{0,1\}$, $p(0)=\alpha$) における古典 r\'enyi $\alpha$-divergence の量子拡張が得られる。 D^{q_0}$と$D^{q_1}$の両方が単調で加法的な量子相対エントロピーであり、そのうちの少なくとも一方が梅垣相対エントロピーより厳密に大きい場合、結果として生じる準中心 R\'enyi の発散は、対数ユークリッドと最大 R\'enyi の発散の間に厳密にあり、従って以前に研究された任意の量子 R'enyi の発散とは異なる。

We give systematic ways of defining monotone quantum relative entropies and (multi-variate) quantum R\'enyi divergences starting from a set of monotone quantum relative entropies. Despite its central importance in information theory, only two additive and monotone quantum extensions of the classical relative entropy have been known so far, the Umegaki and the Belavkin-Staszewski relative entropies. Here we give a general procedure to construct monotone and additive quantum relative entropies from a given one with the same properties; in particular, when starting from the Umegaki relative entropy, this gives a new one-parameter family of monotone and additive quantum relative entropies interpolating between the Umegaki and the Belavkin-Staszewski ones on full-rank states. In a different direction, we use a generalization of a classical variational formula to define multi-variate quantum R\'enyi quantities corresponding to any finite set of quantum relative entropies $(D^{q_x})_{x\in X}$ and signed probability measure $P$, as $$ Q_P^{\mathrm{b},\mathbf{q}}((\rho_x)_{x\in X}):=\sup_{\tau\ge 0}\left\{\text{Tr}\,\tau-\sum_xP(x)D^{q_x}(\tau\|\rho_x)\right\}. $$ We show that monotone quantum relative entropies define monotone R\'enyi quantities whenever $P$ is a probability measure. With the proper normalization, the negative logarithm of the above quantity gives a quantum extension of the classical R\'enyi $\alpha$-divergence in the 2-variable case ($X=\{0,1\}$, $P(0)=\alpha$). We show that if both $D^{q_0}$ and $D^{q_1}$ are monotone and additive quantum relative entropies, and at least one of them is strictly larger than the Umegaki relative entropy then the resulting barycentric R\'enyi divergences are strictly between the log-Euclidean and the maximal R\'enyi divergences, and hence they are different from any previously studied quantum R\'enyi divergence.
翻訳日:2023-09-20 20:41:56 公開日:2023-09-19
# dihedral coset問題に対する時間とクエリの複雑さのトレードオフ

Time and Query Complexity Tradeoffs for the Dihedral Coset Problem ( http://arxiv.org/abs/2206.14408v3 )

ライセンス: Link先を確認
Maxime Remaud and Andr\'e Schrottenloher and Jean-Pierre Tillich(参考訳) z_n$のディヘドラルコセット問題(英語版)(dcp)は量子コンピューティングや量子後暗号において広範囲に研究されてきた。 Ettinger-Hoyerアルゴリズムは$O(log(N))$クエリでDCPを解くことが知られているが、時間で$O(N)$で非効率に実行される。 最初の時間効率のよいアルゴリズムはkuperberg (siam j. comput. 2005) によって導入された。 これらのアルゴリズムはサブ指数的に実行され、一定の$c_{dcp}$ に対して$o{2^{\sqrt{c_{dcp}log(n)}}}$ というクエリが実行される。 シービングアルゴリズム \`a la Kuperberg は、量子時間と古典時間、メモリ、クエリ間の多くのトレードオフを認めている。 これらのトレードオフのいくつかは、特にコストがかかる場合、攻撃者がクエリの数を減らすことを可能にする。 このような最適化はすでに研究されているが、一般的には2つのカテゴリに分類される: 結果のアルゴリズムはRegevの2次クエリをサブセットサムのインスタンスに還元するアプローチと、時間とクエリが共に指数関数であるKuperbergのシーブの再最適化に基づいている。 本稿では,Ettinger-Hoyerアルゴリズムよりも線形クエリ方式を改良した最初のアルゴリズムを提案する。 次に、このアルゴリズムとクパーベルグのシーブの間に実際に補間できることを示し、後者を前処理でいくつかの量子状態を生成するために使用し、得られた状態から完全な秘密を回復するために量子サブセット-サムインスタンスを解く。 これにより、線形クエリ-指数時間複雑性ケースとサブ指数クエリと時間複雑性ケースとをスムーズに補間することができ、クエリコストを考慮した複雑性の微調整が可能になる。 また、非漸近状態における量子部分集合-sumアルゴリズムの正確な研究も行います。

The Dihedral Coset Problem (DCP) in $Z_N$ has been extensively studied in quantum computing and post-quantum cryptography, as for instance, the Learning with Errors problem reduces to it. While the Ettinger-Hoyer algorithm is known to solve the DCP in $O(log(N))$ queries, it runs inefficiently in time $O(N)$. The first time-efficient algorithm was introduced (and later improved) by Kuperberg (SIAM J. Comput. 2005). These algorithms run in a subexponential amount of time and queries $O{2^{\sqrt{c_{DCP}log(N)}}}$, for some constant $c_{DCP}$. The sieving algorithms \`a la Kuperberg admit many trade-offs between quantum and classical time, memory and queries. Some of these trade-offs allow the attacker to reduce the number of queries if they are particularly costly, which is notably the case in the post-quantum key-exchange CSIDH. Such optimizations have already been studied, but they typically fall into two categories: the resulting algorithm is either based on Regev's approach of reducing the DCP with quadratic queries to a subset-sum instance, or on a re-optimization of Kuperberg's sieve where the time and queries are both subexponential. In this paper, we introduce the first algorithm to improve in the linear queries regime over the Ettinger-Hoyer algorithm. We then show that we can in fact interpolate between this algorithm and Kuperberg's sieve, by using the latter in a pre-processing step to create several quantum states, and solving a quantum subset-sum instance to recover the full secret in one pass from the obtained states. This allows to interpolate smoothly between the linear queries-exponential time complexity case and the subexponential query and time complexity case, thus allowing a fine tuning of the complexity taking into account the query cost. We also give on our way a precise study of quantum subset-sum algorithms in the non-asymptotic regime.
翻訳日:2023-09-20 20:40:45 公開日:2023-09-19
# A*Net:知識グラフのためのスケーラブルパスベースの推論アプローチ

A*Net: A Scalable Path-based Reasoning Approach for Knowledge Graphs ( http://arxiv.org/abs/2206.04798v4 )

ライセンス: Link先を確認
Zhaocheng Zhu, Xinyu Yuan, Mikhail Galkin, Sophie Xhonneux, Ming Zhang, Maxime Gazeau, Jian Tang(参考訳) 大規模知識グラフの推論は、長い間埋め込み手法に支配されてきた。 パスベースの手法は埋め込みに欠けているインダクティブキャパシティを持っているが、そのスケーラビリティは指数的なパス数によって制限される。 本稿では,知識グラフ推論のためのスケーラブルなパスベース手法であるA*Netを紹介する。 最短経路問題に対するa*アルゴリズムにインスパイアされたa*netは、各イテレーションで重要なノードとエッジを選択し、トレーニングと推論の時間とメモリフットプリントを削減する優先関数を学習します。 選択されたノードとエッジの比率は、パフォーマンスと効率のトレードオフとして指定できる。 トランスダクティブグラフとインダクティブナレッジグラフの両方の推論ベンチマーク実験では、a*netが既存の最先端のパスベースメソッドと競合性能を達成し、各イテレーションで単に10%のノードと10%のエッジを訪問している。 A*Netは、100万スケールのデータセットogbl-wikikg2上で、新しい最先端の結果を達成するだけでなく、埋め込みメソッドよりも早く収束する。 A*Netはそのようなスケールでの知識グラフ推論のための最初のパスベースの手法である。

Reasoning on large-scale knowledge graphs has been long dominated by embedding methods. While path-based methods possess the inductive capacity that embeddings lack, their scalability is limited by the exponential number of paths. Here we present A*Net, a scalable path-based method for knowledge graph reasoning. Inspired by the A* algorithm for shortest path problems, our A*Net learns a priority function to select important nodes and edges at each iteration, to reduce time and memory footprint for both training and inference. The ratio of selected nodes and edges can be specified to trade off between performance and efficiency. Experiments on both transductive and inductive knowledge graph reasoning benchmarks show that A*Net achieves competitive performance with existing state-of-the-art path-based methods, while merely visiting 10% nodes and 10% edges at each iteration. On a million-scale dataset ogbl-wikikg2, A*Net not only achieves a new state-of-the-art result, but also converges faster than embedding methods. A*Net is the first path-based method for knowledge graph reasoning at such scale.
翻訳日:2023-09-20 20:39:59 公開日:2023-09-19
# 記憶から知識を分離する: 検索による即興学習

Decoupling Knowledge from Memorization: Retrieval-augmented Prompt Learning ( http://arxiv.org/abs/2205.14704v5 )

ライセンス: Link先を確認
Xiang Chen, Lei Li, Ningyu Zhang, Xiaozhuan Liang, Shumin Deng, Chuanqi Tan, Fei Huang, Luo Si, Huajun Chen(参考訳) 素早い学習アプローチは、パラメトリックベースの学習パラダイムに従っている間、より優れた数ショットのパフォーマンスを誘導することで、自然言語処理に波を巻き起こしている。 特に、バニラ・プロンプト・ラーニングは、完全に教師されたトレーニングや、低ショットデータによる浅層パターンの過剰適合において、ロートによる非定型インスタンスの利用に苦労する可能性がある。 このような制約を緩和するため、モデルが一般化と記憶のバランスをとるのを助けるために、記憶から知識を分離する動機を持つレトロプロンプトを開発した。 バニラの素早い学習とは対照的に、RetroPromptはトレーニングインスタンスからオープンブックの知識ストアを構築し、入力、トレーニング、推論のプロセス中に検索メカニズムを実装し、トレーニングコーパスから関連するコンテキストを抽出する機能を付加して強化の手がかりとする。 大規模な実験では、RetroPromptは、数ショットとゼロショットの両方でパフォーマンスが向上することを示した。 さらに,提案するretropromptは,新たなデータセットによって,より優れた一般化能力が得られることを示す。 メモリ化の詳細な分析により、RetroPromptはメモリ化における言語モデルへの依存を減らすことができ、下流タスクの一般化を改善することができる。 コードはhttps://github.com/zjunlp/PromptKG/tree/main/research/RetroPromptで入手できる。

Prompt learning approaches have made waves in natural language processing by inducing better few-shot performance while they still follow a parametric-based learning paradigm; the oblivion and rote memorization problems in learning may encounter unstable generalization issues. Specifically, vanilla prompt learning may struggle to utilize atypical instances by rote during fully-supervised training or overfit shallow patterns with low-shot data. To alleviate such limitations, we develop RetroPrompt with the motivation of decoupling knowledge from memorization to help the model strike a balance between generalization and memorization. In contrast with vanilla prompt learning, RetroPrompt constructs an open-book knowledge-store from training instances and implements a retrieval mechanism during the process of input, training and inference, thus equipping the model with the ability to retrieve related contexts from the training corpus as cues for enhancement. Extensive experiments demonstrate that RetroPrompt can obtain better performance in both few-shot and zero-shot settings. Besides, we further illustrate that our proposed RetroPrompt can yield better generalization abilities with new datasets. Detailed analysis of memorization indeed reveals RetroPrompt can reduce the reliance of language models on memorization; thus, improving generalization for downstream tasks. Code is available in https://github.com/zjunlp/PromptKG/tree/main/research/RetroPrompt.
翻訳日:2023-09-20 20:39:31 公開日:2023-09-19
# SoftCTC-ソフト擬似ラベルを用いたテキスト認識のための半教師付き学習

SoftCTC -- Semi-Supervised Learning for Text Recognition using Soft Pseudo-Labels ( http://arxiv.org/abs/2212.02135v3 )

ライセンス: Link先を確認
Martin Ki\v{s}\v{s}, Michal Hradi\v{s}, Karel Bene\v{s}, Petr Buchal, Michal Kula(参考訳) 本稿では,光学的文字認識や自動音声認識などのシーケンスタスクに対する半教師付きトレーニングについて検討する。 我々は、ctcの拡張である新しい損失関数$\unicode{x2013}$ softctc $\unicode{x2013}$を提案する。 これにより、半教師付き学習への擬似ラベルアプローチの重要な構成要素である信頼に基づくフィルタリングステップを省略できる。 本手法が手書き文字認識の課題に対して有効であることを示すとともに,精巧なフィルタに基づくパイプラインの性能とSoftCTCが一致することを結論する。 また、計算効率の観点からSoftCTCを評価し、複数の書き起こし変種をトレーニングするためのna\\ive CTCベースのアプローチよりもはるかに効率が良いことを結論付け、GPU実装を一般公開する。

This paper explores semi-supervised training for sequence tasks, such as Optical Character Recognition or Automatic Speech Recognition. We propose a novel loss function $\unicode{x2013}$ SoftCTC $\unicode{x2013}$ which is an extension of CTC allowing to consider multiple transcription variants at the same time. This allows to omit the confidence based filtering step which is otherwise a crucial component of pseudo-labeling approaches to semi-supervised learning. We demonstrate the effectiveness of our method on a challenging handwriting recognition task and conclude that SoftCTC matches the performance of a finely-tuned filtering based pipeline. We also evaluated SoftCTC in terms of computational efficiency, concluding that it is significantly more efficient than a na\"ive CTC-based approach for training on multiple transcription variants, and we make our GPU implementation public.
翻訳日:2023-09-20 20:33:11 公開日:2023-09-19
# 強調画像分類のための反射同変量子ニューラルネットワーク

Reflection Equivariant Quantum Neural Networks for Enhanced Image Classification ( http://arxiv.org/abs/2212.00264v3 )

ライセンス: Link先を確認
Maxwell T. West, Martin Sevior, Muhammad Usman(参考訳) 機械学習は、短期量子コンピュータの最も広く予想されているユースケースの1つであるが、そのスケールアップを妨げる重要な理論的および実装上の課題がある。 特に、一般的なデータ非依存の量子機械学習(QML)アーキテクチャは、量子ビット数で指数関数的に変化する典型的な変分パラメータの勾配によって、厳しいトレーニング容易性の問題に悩まされる可能性があることを示唆する、新たな研究団体がある。 さらに、qmlモデルの高表現性は、トレーニングデータへの過剰フィットと一般化性能の低下につながる可能性がある。 これらの困難に対処するための有望な戦略は、データに固有の対称性を明示的に尊重するモデルを構築することであり、いわゆる幾何量子機械学習(GQML)である。 本研究では,GQMLの手法を画像分類のタスクに応用し,画像のリフレクションに対して等価な新しいQMLモデルを構築する。 これらのネットワークは、複雑な実世界の画像データセットに対する一般的なアンサーゼを一貫して大幅に上回り、量子コンピュータによる高解像度画像分類を現実に近づけることができる。 我々の研究は、データの対称性を直接活用する強力なQMLモデルの開発と実装の潜在的な経路を強調している。

Machine learning is among the most widely anticipated use cases for near-term quantum computers, however there remain significant theoretical and implementation challenges impeding its scale up. In particular, there is an emerging body of work which suggests that generic, data agnostic quantum machine learning (QML) architectures may suffer from severe trainability issues, with the gradient of typical variational parameters vanishing exponentially in the number of qubits. Additionally, the high expressibility of QML models can lead to overfitting on training data and poor generalisation performance. A promising strategy to combat both of these difficulties is to construct models which explicitly respect the symmetries inherent in their data, so-called geometric quantum machine learning (GQML). In this work, we utilise the techniques of GQML for the task of image classification, building new QML models which are equivariant with respect to reflections of the images. We find that these networks are capable of consistently and significantly outperforming generic ansatze on complicated real-world image datasets, bringing high-resolution image classification via quantum computers closer to reality. Our work highlights a potential pathway for the future development and implementation of powerful QML models which directly exploit the symmetries of data.
翻訳日:2023-09-20 20:32:56 公開日:2023-09-19
# オートエンコーダによる概念ドリフトの教師なし学習

Unsupervised Unlearning of Concept Drift with Autoencoders ( http://arxiv.org/abs/2211.12989v2 )

ライセンス: Link先を確認
Andr\'e Artelt, Kleanthis Malialis, Christos Panayiotou, Marios Polycarpou, Barbara Hammer(参考訳) コンセプトドリフトは、将来のサンプルのデータストリームに影響を与えるデータ分散の変化を指す。 その結果、データストリーム上で動作する学習モデルは時代遅れになり、再トレーニングや適応のようなコストがかかり難しい調整が必要になる。 既存の手法では、モデルのインクリメンタルな学習や、ドリフト検出機構がアラームを起動したときにモデルが完全に再訓練されるローカルコンセプトドリフト適応スキームを実装している。 本稿では,オートエンコーダをベースとした,世界レベルでの教師なしおよびモデルに依存しないドリフト適応手法を提案する。 具体的には,データ上で動作する学習モデルの再トレーニングや適応を行うことなく,概念ドリフトの‘unlearn’を目標とする。 2つのアプリケーション領域で広範な実験的評価を行う。 我々は30以上のモデルが配置されている現実的な配水ネットワークを検討し、そこから200のシミュレーションデータセット/シナリオを作成する。 さらに,本手法の有効性を示すため,画像関連課題についても検討する。

Concept drift refers to a change in the data distribution affecting the data stream of future samples. Consequently, learning models operating on the data stream might become obsolete, and need costly and difficult adjustments such as retraining or adaptation. Existing methods usually implement a local concept drift adaptation scheme, where either incremental learning of the models is used, or the models are completely retrained when a drift detection mechanism triggers an alarm. This paper proposes an alternative approach in which an unsupervised and model-agnostic concept drift adaptation method at the global level is introduced, based on autoencoders. Specifically, the proposed method aims to ``unlearn'' the concept drift without having to retrain or adapt any of the learning models operating on the data. An extensive experimental evaluation is conducted in two application domains. We consider a realistic water distribution network with more than 30 models in-place, from which we create 200 simulated data sets / scenarios. We further consider an image-related task to demonstrate the effectiveness of our method.
翻訳日:2023-09-20 20:32:35 公開日:2023-09-19
# zigzag: 2段階推論によるユニバーサルサンプリングフリー不確実性推定

ZigZag: Universal Sampling-free Uncertainty Estimation Through Two-Step Inference ( http://arxiv.org/abs/2211.11435v2 )

ライセンス: Link先を確認
Nikita Durasov, Nik Dorndorf, Hieu Le, Pascal Fua(参考訳) 深層ネットワークが有用な予測を生成する能力は十分に実証されているが、これらの予測の信頼性を推定することは依然として困難である。 MC-DropoutやDeep Ensemblesのようなサンプリングアプローチがこの目的のために最も人気のあるアプローチとして登場した。 残念ながら、推論時に多くのフォワードパスが必要になるため、速度が低下する。 サンプリングフリーのアプローチは高速だが、不確実性推定の信頼性の低下、使用の難しさ、さまざまな種類のタスクやデータへの適用可能性の制限など、他の欠点もある。 本研究では,従来の手法と同等に信頼性の高い不確実性推定を計算コストを大幅に低減しつつ,汎用的で展開が容易なサンプリングフリーアプローチを提案する。 ネットワークのトレーニングは、それに関する追加情報なしで同じアウトプットを生成することを前提としている。 推論時には、事前情報が得られない場合、ネットワーク自身の予測を付加情報として使用する。 そして、予測と事前情報の有無の間の距離を不確実性尺度として捉えます。 我々は,いくつかの分類と回帰タスクに対するアプローチを実証する。 結果がEnsemblesと同等だが,計算コストがはるかに低いことを示す。

Whereas the ability of deep networks to produce useful predictions has been amply demonstrated, estimating the reliability of these predictions remains challenging. Sampling approaches such as MC-Dropout and Deep Ensembles have emerged as the most popular ones for this purpose. Unfortunately, they require many forward passes at inference time, which slows them down. Sampling-free approaches can be faster but suffer from other drawbacks, such as lower reliability of uncertainty estimates, difficulty of use, and limited applicability to different types of tasks and data. In this work, we introduce a sampling-free approach that is generic and easy to deploy, while producing reliable uncertainty estimates on par with state-of-the-art methods at a significantly lower computational cost. It is predicated on training the network to produce the same output with and without additional information about it. At inference time, when no prior information is given, we use the network's own prediction as the additional information. We then take the distance between the predictions with and without prior information as our uncertainty measure. We demonstrate our approach on several classification and regression tasks. We show that it delivers results on par with those of Ensembles but at a much lower computational cost.
翻訳日:2023-09-20 20:32:19 公開日:2023-09-19
# マルチモーダルデータを用いた疾患軌跡予測のための臨床インスパイアマルチエージェントトランスフォーマー

Clinically-Inspired Multi-Agent Transformers for Disease Trajectory Forecasting from Multimodal Data ( http://arxiv.org/abs/2210.13889v2 )

ライセンス: Link先を確認
Huy Hoang Nguyen, Matthew B. Blaschko, Simo Saarakkala, Aleksei Tiulpin(参考訳) ディープニューラルネットワークは医療診断の問題を自動化するためにしばしば医療画像に適用される。 しかし、実践者が通常直面するより臨床的に関連する疑問は、病気の将来の軌跡を予測する方法である。 現在の予後予測や疾患軌跡予測の方法は、しばしばドメイン知識を必要とし、適用が複雑である。 本稿では,予後予測問題を1対1の予測問題として定式化する。 放射線科医と一般開業医の2人のエージェントによる臨床意思決定プロセスに触発されて、2つのトランスフォーマーベースのコンポーネントで予後を予測し、互いに情報を共有する。 このフレームワークの第1変圧器は画像データを解析することを目的としており、第2変圧器は内部状態を入力として利用し、補助的な臨床データと融合する。 この問題の時間的性質は変圧器の状態内でモデル化され、予測問題をマルチタスクの分類として扱い、新しい損失を提案する。 本研究は,変形性膝関節症の構造変化の予測と,生のマルチモーダルデータから直接アルツハイマー病の臨床状態を予測するためのアプローチの有効性を示す。 提案手法は,実世界のアプリケーションに必要な性能とキャリブレーションに関して,複数の最先端のベースラインより優れる。 本手法のオープンソース実装は \url{https://github.com/Oulu-IMEDS/CLIMATv2} で公開されている。

Deep neural networks are often applied to medical images to automate the problem of medical diagnosis. However, a more clinically relevant question that practitioners usually face is how to predict the future trajectory of a disease. Current methods for prognosis or disease trajectory forecasting often require domain knowledge and are complicated to apply. In this paper, we formulate the prognosis prediction problem as a one-to-many prediction problem. Inspired by a clinical decision-making process with two agents -- a radiologist and a general practitioner -- we predict prognosis with two transformer-based components that share information with each other. The first transformer in this framework aims to analyze the imaging data, and the second one leverages its internal states as inputs, also fusing them with auxiliary clinical data. The temporal nature of the problem is modeled within the transformer states, allowing us to treat the forecasting problem as a multi-task classification, for which we propose a novel loss. We show the effectiveness of our approach in predicting the development of structural knee osteoarthritis changes and forecasting Alzheimer's disease clinical status directly from raw multi-modal data. The proposed method outperforms multiple state-of-the-art baselines with respect to performance and calibration, both of which are needed for real-world applications. An open-source implementation of our method is made publicly available at \url{https://github.com/Oulu-IMEDS/CLIMATv2}.
翻訳日:2023-09-20 20:31:46 公開日:2023-09-19
# 人間が機械と違う判断をする理由: 知覚機関と経験の役割

Why people judge humans differently from machines: The role of perceived agency and experience ( http://arxiv.org/abs/2210.10081v2 )

ライセンス: Link先を確認
Jingling Zhang, Jane Conway, C\'esar A. Hidalgo(参考訳) 人工知能を実用主義的道徳哲学と、知覚された意図を強調する道徳哲学を用いて判断することが知られている。 しかし、なぜ人間と機械は違うのか? 心理学は、人々は人間と機械の異なる心の知覚モデルを持っているかもしれないことを示唆している。 ここでは,人間に類似していると認識された機械を,人間に類似していると判断するかどうかを,人間の判断の仕方とよく似た方法で検証するために,機械機関(例えば計画する能力,行動する能力)と経験(例えば感じる能力)を操作したランダム化実験を行う。 機械の判断は、機械がより多くのエージェンシーを持つがより経験を積まないと認識するときに、人間の判断とよりよく似たものとなる。 本研究は,人間と機械を判断するための異なる道徳哲学の活用が,エージェントの知覚が顕著な役割を果たす心的知覚モデルの進展によって説明できることを示す。 これらの知見は、機械の判断が人間や機械の行動の判断を調節する次元に関するさらなる研究を動機付ける人間の判断と、より類似していることを示す証拠の本体に付け加える。

People are known to judge artificial intelligence using a utilitarian moral philosophy and humans using a moral philosophy emphasizing perceived intentions. But why do people judge humans and machines differently? Psychology suggests that people may have different mind perception models of humans and machines, and thus, will treat human-like robots more similarly to the way they treat humans. Here we present a randomized experiment where we manipulated people's perception of machine agency (e.g., ability to plan, act) and experience (e.g., ability to feel) to explore whether people judge machines that are perceived to be more similar to humans along these two dimensions more similarly to the way they judge humans. We find that people's judgments of machines become more similar to that of humans when they perceive machines as having more agency but not more experience. Our findings indicate that people's use of different moral philosophies to judge humans and machines can be explained by a progression of mind perception models where the perception of agency plays a prominent role. These findings add to the body of evidence suggesting that people's judgment of machines becomes more similar to that of humans motivating further work on dimensions modulating people's judgment of human and machine actions.
翻訳日:2023-09-20 20:31:23 公開日:2023-09-19
# パーソナライズされた自発音声合成のためのパウス文の言語知識を取り入れた実証的研究

Empirical Study Incorporating Linguistic Knowledge on Filled Pauses for Personalized Spontaneous Speech Synthesis ( http://arxiv.org/abs/2210.07559v2 )

ライセンス: Link先を確認
Yuta Matsunaga, Takaaki Saeki, Shinnosuke Takamichi and Hiroshi Saruwatari(参考訳) 本稿では,言語知識に基づく自発音声合成のための包括的実証研究を行う。 読み上げ型音声合成のための音声クローニングの出現に伴い, 音声合成のための新しい音声クローニングパラダイムが求められている。 そこで我々は,個人の音声音色と音声不均一性の両方をクローンできる自発的音声合成に焦点をあてた。 具体的には, 言語・心理学における音声生成・コミュニケーションにおいて重要な役割を担っていることで知られる, 音声不流動の主な原因であるポーズの充足を扱う。 パーソナライズドフィルドポーズ挿入法と非パーソナライズドフィルドポーズ予測法を比較し,マルチスピーカーコーパスで学習した非パーソナライズド外部フィルドポーズ予測器を用いた音声合成法を開発した。 本研究は, 合成音声の評価において, 自然性のための位置を正確に予測する必要性と, 個人性のための単語を正確に予測する必要性を明らかにした。

We present a comprehensive empirical study for personalized spontaneous speech synthesis on the basis of linguistic knowledge. With the advent of voice cloning for reading-style speech synthesis, a new voice cloning paradigm for human-like and spontaneous speech synthesis is required. We, therefore, focus on personalized spontaneous speech synthesis that can clone both the individual's voice timbre and speech disfluency. Specifically, we deal with filled pauses, a major source of speech disfluency, which is known to play an important role in speech generation and communication in psychology and linguistics. To comparatively evaluate personalized filled pause insertion and non-personalized filled pause prediction methods, we developed a speech synthesis method with a non-personalized external filled pause predictor trained with a multi-speaker corpus. The results clarify the position-word entanglement of filled pauses, i.e., the necessity of precisely predicting positions for naturalness and the necessity of precisely predicting words for individuality on the evaluation of synthesized speech.
翻訳日:2023-09-20 20:31:00 公開日:2023-09-19
# 小型大型モデルにおける微分プライベート最適化

Differentially Private Optimization on Large Model at Small Cost ( http://arxiv.org/abs/2210.00038v2 )

ライセンス: Link先を確認
Zhiqi Bu, Yu-Xiang Wang, Sheng Zha, George Karypis(参考訳) 差分プライベート(DP)最適化は、正確でプライバシ保護の大きいニューラルネットワークを学ぶための標準パラダイムである。 しかし、DPディープラーニングの計算コストは、サンプルごとの勾配クリッピングのため、非常に重い。 既存のDP実装は、標準(プライベートでない)トレーニングよりも時間と空間の複雑さが2-1000倍高い。 本研究では,既存のDPオプティマイザ(同じ精度を実現するため)を実装したブックキーピング(BK)技術を開発し,計算コストを大幅に改善する。 具体的には、BKは大規模モデルと高次元データのDPトレーニングを標準トレーニングと同じくらい高速でメモリ節約できるが、以前のDPアルゴリズムはメモリエラーによるトレーニングを非効率または不可能にすることができる。 BKの計算上の利点は、複雑性解析とビジョンと言語タスクに関する広範な実験によって支えられている。 GPT2とほぼ同じメモリコスト(<1%オーバーヘッド)で、BKは標準トレーニングの時間複雑さ(実際に0.83倍のトレーニング速度)と、最も効率的なDP実装の時間複雑さ(実際に1.36倍のトレーニング速度)を1.03倍にします。 我々はFastDPライブラリ(https://github.com/awslabs/fast-differential-privacy)でBKアルゴリズムのコードベースをオープンソース化しました。

Differentially private (DP) optimization is the standard paradigm to learn large neural networks that are accurate and privacy-preserving. The computational cost for DP deep learning, however, is notoriously heavy due to the per-sample gradient clipping. Existing DP implementations are 2-1000X more costly in time and space complexity than the standard (non-private) training. In this work, we develop a novel Book-Keeping (BK) technique that implements existing DP optimizers (thus achieving the same accuracy), with a substantial improvement on the computational cost. Specifically, BK enables DP training on large models and high dimensional data to be roughly as fast and memory-saving as the standard training, whereas previous DP algorithms can be inefficient or incapable of training due to memory error. The computational advantage of BK is supported by the complexity analysis as well as extensive experiments on vision and language tasks. Our implementation achieves state-of-the-art (SOTA) accuracy with very small extra cost: on GPT2 and at almost the same memory cost (<1% overhead), BK has 1.03X the time complexity of the standard training (0.83X training speed in practice), and 0.61X the time complexity of the most efficient DP implementation (1.36X training speed in practice). We open-source the codebase for the BK algorithm at the FastDP library (https://github.com/awslabs/fast-differential-privacy).
翻訳日:2023-09-20 20:30:40 公開日:2023-09-19
# 近距離ニューラルマシン翻訳のための学習分離検索表現

Learning Decoupled Retrieval Representation for Nearest Neighbour Neural Machine Translation ( http://arxiv.org/abs/2209.08738v3 )

ライセンス: Link先を確認
Qiang Wang, Rongxiang Weng, Ming Chen(参考訳) K-Nearest Neighbor Neural Machine Translation (kNN-MT)は、テスト時に単語レベルの表現を取得することで、外部コーパスをうまく組み込む。 一般的に、kNN-MTは、最後のデコーダ層の出力を検索タスクのクエリベクトルとして、翻訳タスクのオフ・ザ・シェルフコンテキスト表現を借用する。 本稿では,これら2つのタスクの表現の結合が,きめ細かい検索に最適であることを示す。 これを軽減するために,教師付きコントラスト学習を活用し,元の文脈表現から派生した特徴的検索表現を学習する。 また, 強陰性試料の迅速かつ効率的な構築法を提案する。 5領域の実験結果から,vailla knn-mtと比較して検索精度とbleuスコアが向上した。

K-Nearest Neighbor Neural Machine Translation (kNN-MT) successfully incorporates external corpus by retrieving word-level representations at test time. Generally, kNN-MT borrows the off-the-shelf context representation in the translation task, e.g., the output of the last decoder layer, as the query vector of the retrieval task. In this work, we highlight that coupling the representations of these two tasks is sub-optimal for fine-grained retrieval. To alleviate it, we leverage supervised contrastive learning to learn the distinctive retrieval representation derived from the original context representation. We also propose a fast and effective approach to constructing hard negative samples. Experimental results on five domains show that our approach improves the retrieval accuracy and BLEU score compared to vanilla kNN-MT.
翻訳日:2023-09-20 20:30:15 公開日:2023-09-19
# 2対1:拡散モデルと粗粒分子動力学のための力場

Two for One: Diffusion Models and Force Fields for Coarse-Grained Molecular Dynamics ( http://arxiv.org/abs/2302.00600v2 )

ライセンス: Link先を確認
Marloes Arts, Victor Garcia Satorras, Chin-Wei Huang, Daniel Zuegner, Marco Federici, Cecilia Clementi, Frank No\'e, Robert Pinsler, Rianne van den Berg(参考訳) 粗粒分子動力学(CG)は、時間的および空間的なスケールでの生物学的過程の研究を可能にする。 しかし,cg力場を正確に学習することは課題である。 本研究では, スコアベース生成モデル, 力場, 分子動力学の接続を利用して, トレーニング中の力入力を必要とせずにCG力場を学習する。 具体的には、分子動力学シミュレーションからタンパク質構造の拡散生成モデルを訓練し、そのスコア関数がCG分子動力学をシミュレートするために直接使用できる力場に近似することを示した。 本研究は, 従来の研究に比べて極めて簡易なトレーニング設定を持つ一方で, 小規模から中規模のタンパク質シミュレーションにおける性能向上, CG平衡分布の再現, タンパク質折り畳み現象などの全原子シミュレーションのダイナミクスの保存等を図っている。

Coarse-grained (CG) molecular dynamics enables the study of biological processes at temporal and spatial scales that would be intractable at an atomistic resolution. However, accurately learning a CG force field remains a challenge. In this work, we leverage connections between score-based generative models, force fields and molecular dynamics to learn a CG force field without requiring any force inputs during training. Specifically, we train a diffusion generative model on protein structures from molecular dynamics simulations, and we show that its score function approximates a force field that can directly be used to simulate CG molecular dynamics. While having a vastly simplified training setup compared to previous work, we demonstrate that our approach leads to improved performance across several small- to medium-sized protein simulations, reproducing the CG equilibrium distribution, and preserving dynamics of all-atom simulations such as protein folding events.
翻訳日:2023-09-20 20:21:48 公開日:2023-09-19
# STEERING: モデルに基づく強化学習のためのスタイン情報指向探索

STEERING: Stein Information Directed Exploration for Model-Based Reinforcement Learning ( http://arxiv.org/abs/2301.12038v2 )

ライセンス: Link先を確認
Souradip Chakraborty, Amrit Singh Bedi, Alec Koppel, Mengdi Wang, Furong Huang, Dinesh Manocha(参考訳) ディレクテッド・エクスプロレーション(Directed Exploration)は、特に報酬が不足している場合、強化学習(RL)において重要な課題である。 情報比を最適化する情報指向サンプリング(IDS)は,情報獲得による後悔の増大を図り,その実現を目指している。 しかし、情報ゲインの推定は計算的に難解であり、多くの実例での使用を禁止する制限的な仮定に依存している。 本研究では、遷移モデルの現在の推定値と未知の最適値との間の積分確率距離(IPM)の観点で別の探索インセンティブを仮定し、適切な条件下では、カーネル化されたスタイン差分(KSD)で閉じた形で計算することができる。 KSDに基づく新しいアルゴリズムである \algo: \textbf{STE} in information dir\textbf{E}cted exploration for model-based \textbf{R}einforcement Learn\textbf{ING} を開発した。 その導出を可能にするために, 離散条件分布に対する ksd の基本的な新しい変種を開発した。 さらに,情報提供型mbrlの事前学習率の向上により,<algo> はベイズ亜線形後悔をアーカイブすることを示す。 実験により,提案アルゴリズムは計算に手頃な価格であり,いくつかの先行手法より優れていることを示す。

Directed Exploration is a crucial challenge in reinforcement learning (RL), especially when rewards are sparse. Information-directed sampling (IDS), which optimizes the information ratio, seeks to do so by augmenting regret with information gain. However, estimating information gain is computationally intractable or relies on restrictive assumptions which prohibit its use in many practical instances. In this work, we posit an alternative exploration incentive in terms of the integral probability metric (IPM) between a current estimate of the transition model and the unknown optimal, which under suitable conditions, can be computed in closed form with the kernelized Stein discrepancy (KSD). Based on KSD, we develop a novel algorithm \algo: \textbf{STE}in information dir\textbf{E}cted exploration for model-based \textbf{R}einforcement Learn\textbf{ING}. To enable its derivation, we develop fundamentally new variants of KSD for discrete conditional distributions. {We further establish that {\algo} archives sublinear Bayesian regret, improving upon prior learning rates of information-augmented MBRL.} Experimentally, we show that the proposed algorithm is computationally affordable and outperforms several prior approaches.
翻訳日:2023-09-20 20:21:32 公開日:2023-09-19
# 多様性による一般化:教師なし環境設計の改善

Generalization through Diversity: Improving Unsupervised Environment Design ( http://arxiv.org/abs/2301.08025v2 )

ライセンス: Link先を確認
Wenjun Li, Pradeep Varakantham, Dexun Li(参考訳) 強化学習(rl)を用いたエージェント意思決定は、環境のモデルまたはシミュレータに依存している(例えば、3部屋の8x8迷路を移動し、8x8ボードでチェスをする)。 この依存により、環境の変化(迷路における障害物の位置や板の大きさなど)はエージェントが学んだポリシーの有効性に重大な影響を及ぼす可能性がある。 そのために既存の研究は、環境の適応的なカリキュラム(自動生成)でRLエージェントを訓練し、アウト・オブ・ディストリビューション(OOD)テストシナリオのパフォーマンスを改善することを提案した。 具体的には、エージェントを訓練するための次の環境を選択するための鍵となる要因として、エージェントが(一般化アドバンテージ推定(GAE)を用いて取得した)環境において学習する可能性を用いている。 しかし、このようなメカニズムは類似した環境(学習する可能性が高い)を選択することで、エージェントトレーニングをこれらの環境以外のすべてで冗長にすることができる。 そこで本研究では,環境設計に関連する新しい距離尺度に基づいて,多様な環境を適応的に識別する手法を提案する。 本研究では,本手法の汎用性と有効性を実証し,文献で用いられる3つのベンチマーク問題に対する教師なし環境設計のための複数の先行手法と比較した。

Agent decision making using Reinforcement Learning (RL) heavily relies on either a model or simulator of the environment (e.g., moving in an 8x8 maze with three rooms, playing Chess on an 8x8 board). Due to this dependence, small changes in the environment (e.g., positions of obstacles in the maze, size of the board) can severely affect the effectiveness of the policy learned by the agent. To that end, existing work has proposed training RL agents on an adaptive curriculum of environments (generated automatically) to improve performance on out-of-distribution (OOD) test scenarios. Specifically, existing research has employed the potential for the agent to learn in an environment (captured using Generalized Advantage Estimation, GAE) as the key factor to select the next environment(s) to train the agent. However, such a mechanism can select similar environments (with a high potential to learn) thereby making agent training redundant on all but one of those environments. To that end, we provide a principled approach to adaptively identify diverse environments based on a novel distance measure relevant to environment design. We empirically demonstrate the versatility and effectiveness of our method in comparison to multiple leading approaches for unsupervised environment design on three distinct benchmark problems used in literature.
翻訳日:2023-09-20 20:21:00 公開日:2023-09-19
# 自動機械翻訳を教育ビデオコースに適用する

Applying Automated Machine Translation to Educational Video Courses ( http://arxiv.org/abs/2301.03141v2 )

ライセンス: Link先を確認
Linden Wang(参考訳) オンラインビデオ教育分野における自動機械翻訳の能力について,最新の翻訳モデルを用いてkhan academyビデオの自動翻訳を行い,音声合成と音声・映像同期を適用し,対象言語で興味をそそるビデオを構築することにより検討した。 また, 翻訳品質を効率的に管理し, 人間の翻訳作業を減らすために, ラウンドトリップ翻訳に基づく2つの信頼性翻訳信頼度推定器を解析, 確立した。 最後に,エンドユーザーに翻訳映像を配信し,反復的な改善のためにユーザ修正を収集するデプロイ可能なシステムを開発した。

We studied the capability of automated machine translation in the online video education space by automatically translating Khan Academy videos with state-of-the-art translation models and applying text-to-speech synthesis and audio/video synchronization to build engaging videos in target languages. We also analyzed and established two reliable translation confidence estimators based on round-trip translations in order to efficiently manage translation quality and reduce human translation effort. Finally, we developed a deployable system to deliver translated videos to end users and collect user corrections for iterative improvement.
翻訳日:2023-09-20 20:20:38 公開日:2023-09-19
# AIを活用したクラウドソーシングを目指して

Towards AI-Empowered Crowdsourcing ( http://arxiv.org/abs/2212.14676v2 )

ライセンス: Link先を確認
Shipeng Wang, Qingzhong Li, Lizhen Cui, Zhongmin Yan, Yonghui Xu, Zhuan Shi, Xinping Min, Zhiqi Shen, and Han Yu(参考訳) ヒューマンインテリジェンスと生産性を動的に動員して自動化だけで対処するには複雑すぎるタスクに取り組むクラウドソーシングは、重要な研究トピックとなり、新しいビジネス(Uber、Airbnbなど)にインスピレーションを与えている。 ここ数年、クラウドソーシングは、労働者とタスクを手動でマッチングできるプラットフォームの提供から、ai(artificial intelligence)によるデータ駆動型アルゴリズム管理アプローチを活用したプラットフォームへと変貌を遂げた。 本稿では,AIを用いたクラウドソーシング(AIEC)が,クラウドソーシングの効率向上にどのように役立つか,という,ユニークな体系的な概要を示す。 我々はAIECを3つの主要な領域に分割する分類法を提案する。 1)タスク・デリゲーション 2)モチベーションのある労働者、そして 3) 達成すべき主な目的に焦点を当てた品質管理。 限界と洞察を議論し,これらの分野における研究の課題をキュレートし,今後の研究の方向性を強調する。

Crowdsourcing, in which human intelligence and productivity is dynamically mobilized to tackle tasks too complex for automation alone to handle, has grown to be an important research topic and inspired new businesses (e.g., Uber, Airbnb). Over the years, crowdsourcing has morphed from providing a platform where workers and tasks can be matched up manually into one which leverages data-driven algorithmic management approaches powered by artificial intelligence (AI) to achieve increasingly sophisticated optimization objectives. In this paper, we provide a survey presenting a unique systematic overview on how AI can empower crowdsourcing to improve its efficiency - which we refer to as AI-Empowered Crowdsourcing(AIEC). We propose a taxonomy which divides AIEC into three major areas: 1) task delegation, 2) motivating workers, and 3) quality control, focusing on the major objectives which need to be accomplished. We discuss the limitations and insights, and curate the challenges of doing research in each of these areas to highlight promising future research directions.
翻訳日:2023-09-20 20:20:00 公開日:2023-09-19
# マルチモダリティフェース偽造手がかりを用いた階層的偽造分類器

Hierarchical Forgery Classifier On Multi-modality Face Forgery Clues ( http://arxiv.org/abs/2212.14629v2 )

ライセンス: Link先を確認
Decheng Liu, Zeyang Zheng, Chunlei Peng, Yukai Wang, Nannan Wang, Xinbo Gao(参考訳) 顔の偽造検出は、個人のプライバシーと社会保障において重要な役割を果たす。 敵対的生成モデルの開発により、高品質な偽造画像は現実から人間への区別がますます困難になっている。 既存の方法は、常に偽造検出タスクを共通のバイナリまたはマルチラベルの分類と見なし、可視光スペクトルや近赤外線シナリオなど、多様な多モードの偽造画像の探索を無視する。 本稿では,マルチモダリティ・シナリオにおいて,ロバストなパッチベースのハイブリッドドメイン表現を効果的に学習し,偽造認証を強化するマルチモダリティ顔偽造検出(hfc-mffd)のための階層的偽造分類器を提案する。 局所空間ハイブリッドドメイン特徴モジュールは、局所的な顔領域における画像領域と周波数領域の両方において、強い識別的偽造手掛かりを探索するために設計されている。 さらに、クラス不均衡問題を緩和し、さらに検出性能を高めるために、特定の階層型顔偽造分類器を提案する。 代表的マルチモダリティフェースフォージェリーデータセットの実験結果は、最先端アルゴリズムと比較して提案するhfc-mffdの性能が優れていることを示している。 ソースコードとモデルはhttps://github.com/EdWhites/HFC-MFFDで公開されている。

Face forgery detection plays an important role in personal privacy and social security. With the development of adversarial generative models, high-quality forgery images become more and more indistinguishable from real to humans. Existing methods always regard as forgery detection task as the common binary or multi-label classification, and ignore exploring diverse multi-modality forgery image types, e.g. visible light spectrum and near-infrared scenarios. In this paper, we propose a novel Hierarchical Forgery Classifier for Multi-modality Face Forgery Detection (HFC-MFFD), which could effectively learn robust patches-based hybrid domain representation to enhance forgery authentication in multiple-modality scenarios. The local spatial hybrid domain feature module is designed to explore strong discriminative forgery clues both in the image and frequency domain in local distinct face regions. Furthermore, the specific hierarchical face forgery classifier is proposed to alleviate the class imbalance problem and further boost detection performance. Experimental results on representative multi-modality face forgery datasets demonstrate the superior performance of the proposed HFC-MFFD compared with state-of-the-art algorithms. The source code and models are publicly available at https://github.com/EdWhites/HFC-MFFD.
翻訳日:2023-09-20 20:19:43 公開日:2023-09-19
# RouteNet-Fermi:グラフニューラルネットワークを用いたネットワークモデリング

RouteNet-Fermi: Network Modeling with Graph Neural Networks ( http://arxiv.org/abs/2212.12070v2 )

ライセンス: Link先を確認
Miquel Ferriol-Galm\'es, Jordi Paillisse, Jos\'e Su\'arez-Varela, Krzysztof Rusek, Shihan Xiao, Xiang Shi, Xiangle Cheng, Pere Barlet-Ros, Albert Cabellos-Aparicio(参考訳) ネットワークモデルは現代のネットワークの重要なブロックである。 例えば、ネットワークの計画や最適化に広く使われている。 しかし、ネットワークの規模や複雑さが増加するにつれて、キューイング理論モデルにおけるマルコフトラフィックの仮定や、ネットワークシミュレータの計算コストの増大など、いくつかのモデルには限界が存在する。 グラフニューラルネットワーク(gnn)などの機械学習の最近の進歩は、データ駆動で複雑な非線形動作を学習できる新しい世代のネットワークモデルを可能にする。 本稿では、キューイング理論と同じ目標を持つカスタムGNNモデルであるRouteNet-Fermiを提案する。 提案モデルでは,ネットワークの遅延,ジッタ,パケット損失を正確に予測する。 複雑な非マルコフモデルを含むトラフィックプロファイルの混在したサンプルや、任意のルーティングとキュースケジューリングの設定を含む、サイズ(最大300ノード)のネットワークでroutenet-fermiをテストしました。 実験の結果,RouteNet-Fermiはパケットレベルシミュレータと同様の精度を達成し,大規模ネットワークに正確にスケール可能であることがわかった。 本モデルでは,1000サンプルの試験データセットに適用した場合の平均相対誤差6.24%で遅延推定を行い,ネットワークトポロジはトレーニング中に見られたものよりも1桁大きくなった。 最後に,実生活ネットワークの物理的テストベッドとパケットトレースを用いて,RouteNet-Fermiの評価を行った。

Network models are an essential block of modern networks. For example, they are widely used in network planning and optimization. However, as networks increase in scale and complexity, some models present limitations, such as the assumption of Markovian traffic in queuing theory models, or the high computational cost of network simulators. Recent advances in machine learning, such as Graph Neural Networks (GNN), are enabling a new generation of network models that are data-driven and can learn complex non-linear behaviors. In this paper, we present RouteNet-Fermi, a custom GNN model that shares the same goals as Queuing Theory, while being considerably more accurate in the presence of realistic traffic models. The proposed model predicts accurately the delay, jitter, and packet loss of a network. We have tested RouteNet-Fermi in networks of increasing size (up to 300 nodes), including samples with mixed traffic profiles -- e.g., with complex non-Markovian models -- and arbitrary routing and queue scheduling configurations. Our experimental results show that RouteNet-Fermi achieves similar accuracy as computationally-expensive packet-level simulators and scales accurately to larger networks. Our model produces delay estimates with a mean relative error of 6.24% when applied to a test dataset of 1,000 samples, including network topologies one order of magnitude larger than those seen during training. Finally, we have also evaluated RouteNet-Fermi with measurements from a physical testbed and packet traces from a real-life network.
翻訳日:2023-09-20 20:19:23 公開日:2023-09-19
# 完全逆数検出のための(ほぼ)局所的成長速度推定

Unfolding Local Growth Rate Estimates for (Almost) Perfect Adversarial Detection ( http://arxiv.org/abs/2212.06776v2 )

ライセンス: Link先を確認
Peter Lorenz, Margret Keuper and Janis Keuper(参考訳) 畳み込みニューラルネットワーク(CNN)は、多くの知覚的タスクにおける最先端のソリューションを定義する。 しかし、現在のCNNアプローチは、人間の目に準知覚できない状態でシステムを騙すために特別に作られた入力の敵の摂動に対して脆弱なままである。 近年、モデル硬化や明示的な防御機構の追加など、CNNをこのような攻撃から守るための様々なアプローチが提案されている。 これにより、ネットワークに小さな「検出器」が含まれ、真データと逆摂動を含むデータとを区別する二分分類タスクで訓練される。 本研究では,ネットワークの局所固有次元(LID)と敵攻撃の関係について,最近の知見を生かした,シンプルで軽量な検出器を提案する。 LID測度の再解釈といくつかの単純な適応に基づいて、敵検出の最先端をかなりのマージンで超越し、複数のネットワークやデータセットのF1スコアでほぼ完璧な結果を得る。 出典: https://github.com/adverML/multiLID

Convolutional neural networks (CNN) define the state-of-the-art solution on many perceptual tasks. However, current CNN approaches largely remain vulnerable against adversarial perturbations of the input that have been crafted specifically to fool the system while being quasi-imperceptible to the human eye. In recent years, various approaches have been proposed to defend CNNs against such attacks, for example by model hardening or by adding explicit defence mechanisms. Thereby, a small "detector" is included in the network and trained on the binary classification task of distinguishing genuine data from data containing adversarial perturbations. In this work, we propose a simple and light-weight detector, which leverages recent findings on the relation between networks' local intrinsic dimensionality (LID) and adversarial attacks. Based on a re-interpretation of the LID measure and several simple adaptations, we surpass the state-of-the-art on adversarial detection by a significant margin and reach almost perfect results in terms of F1-score for several networks and datasets. Sources available at: https://github.com/adverML/multiLID
翻訳日:2023-09-20 20:18:58 公開日:2023-09-19
# MUS-CDB:空中物体検出におけるアクティブアノテーションのためのクラス分散バランス付き混合不確かさサンプリング

MUS-CDB: Mixed Uncertainty Sampling with Class Distribution Balancing for Active Annotation in Aerial Object Detection ( http://arxiv.org/abs/2212.02804v4 )

ライセンス: Link先を確認
Dong Liang and Jing-Wei Zhang and Ying-Peng Tang and Sheng-Jun Huang(参考訳) 最近の航空物体検出モデルは、大量のラベル付き訓練データに依存しており、密集した物体を持つ大きな空中シーンでは、望ましくない手動ラベリングコストを必要とする。 アクティブラーニングは、情報および代表的未ラベルサンプルを選択的にクエリすることで、データラベリングコストを効果的に削減する。 しかし,既存のアクティブラーニング手法は,主にクラスバランスの設定と画像に基づく汎用オブジェクト検出のクエリが特徴であり,空域における長い尾のクラス分布や密集した小物体による空中物体検出のシナリオには適用できない。 本稿では,コスト効率の高い空中物体検出のための新しい能動学習手法を提案する。 具体的には、冗長で近視的なクエリを控えるために、オブジェクトの選択において、オブジェクトレベルとイメージレベルのインフォメーションの両方が考慮される。 また、モデルトレーニングにおけるロングテールクラス分散問題を軽減するためにマイノリティオブジェクトを好むために、使いやすいクラスバランス基準が組み込まれている。 さらに、ラベルのない画像領域に潜在知識をマイニングするためのトレーニング損失を考案する。 提案手法の有効性を検証するため,DOTA-v1.0およびDOTA-v2.0ベンチマークを用いて実験を行った。 DOTA-v2.0データセット上のReDet,KLD,SASM検出器について,提案したMUS-CDB法は,mAP.Codeの他のアクティブラーニング手法に匹敵する性能を保ちながら,ラベリングコストの75%近くを節約できることを示す(https://github.com/ZJW700/MUS-CDB)。

Recent aerial object detection models rely on a large amount of labeled training data, which requires unaffordable manual labeling costs in large aerial scenes with dense objects. Active learning effectively reduces the data labeling cost by selectively querying the informative and representative unlabelled samples. However, existing active learning methods are mainly with class-balanced settings and image-based querying for generic object detection tasks, which are less applicable to aerial object detection scenarios due to the long-tailed class distribution and dense small objects in aerial scenes. In this paper, we propose a novel active learning method for cost-effective aerial object detection. Specifically, both object-level and image-level informativeness are considered in the object selection to refrain from redundant and myopic querying. Besides, an easy-to-use class-balancing criterion is incorporated to favor the minority objects to alleviate the long-tailed class distribution problem in model training. We further devise a training loss to mine the latent knowledge in the unlabeled image regions. Extensive experiments are conducted on the DOTA-v1.0 and DOTA-v2.0 benchmarks to validate the effectiveness of the proposed method. For the ReDet, KLD, and SASM detectors on the DOTA-v2.0 dataset, the results show that our proposed MUS-CDB method can save nearly 75\% of the labeling cost while achieving comparable performance to other active learning methods in terms of mAP.Code is publicly online (https://github.com/ZJW700/MUS-CDB).
翻訳日:2023-09-20 20:18:40 公開日:2023-09-19
# deep kernelメソッドはより良く学習する: カードからプロセス最適化へ

Deep Kernel Methods Learn Better: From Cards to Process Optimization ( http://arxiv.org/abs/2303.14554v2 )

ライセンス: Link先を確認
Mani Valleti, Rama K. Vasudevan, Maxim A. Ziatdinov, Sergei V. Kalinin(参考訳) 分類および回帰タスクを実行するディープラーニングの能力は、高次元データ空間内の多様体を探索し、低次元表現空間に投影する能力に大きく依存する。 本研究では,古典的変分オートエンコーダ(VAE)と深層カーネル学習(DKL)によって生成される多様体の構造と特性について検討する。 前者の場合、潜在空間の構造は入力データの性質だけで決定されるが、後者の場合、潜在多様体はデータ分布と対象機能とのバランスをとるアクティブラーニングプロセスの結果として形成される。 アクティブ・ラーニングを用いたdklは,以前報告されたvaeのような手法に比べて,よりコンパクトでスムースな潜在空間を生成できることを示した。 簡単なカードデータセットを用いてこの挙動を実証し、物理系におけるドメイン生成軌道の最適化に拡張する。 本研究は, 物質合成, エネルギー貯蔵, 分子発見などの領域科学に共通する特徴量の多いターゲット・プアーシナリオにおいて, 能動的学習により構築された潜在多様体の方が, 最適化問題に有利な構造を持つことを示唆する。 完全な分析をカプセル化したジュピターノートはその記事に付随する。

The ability of deep learning methods to perform classification and regression tasks relies heavily on their capacity to uncover manifolds in high-dimensional data spaces and project them into low-dimensional representation spaces. In this study, we investigate the structure and character of the manifolds generated by classical variational autoencoder (VAE) approaches and deep kernel learning (DKL). In the former case, the structure of the latent space is determined by the properties of the input data alone, while in the latter, the latent manifold forms as a result of an active learning process that balances the data distribution and target functionalities. We show that DKL with active learning can produce a more compact and smooth latent space which is more conducive to optimization compared to previously reported methods, such as the VAE. We demonstrate this behavior using a simple cards data set and extend it to the optimization of domain-generated trajectories in physical systems. Our findings suggest that latent manifolds constructed through active learning have a more beneficial structure for optimization problems, especially in feature-rich target-poor scenarios that are common in domain sciences, such as materials synthesis, energy storage, and molecular discovery. The jupyter notebooks that encapsulate the complete analysis accompany the article.
翻訳日:2023-09-20 20:12:54 公開日:2023-09-19
# MultiTalent:医療画像セグメンテーションのためのマルチデータセットアプローチ

MultiTalent: A Multi-Dataset Approach to Medical Image Segmentation ( http://arxiv.org/abs/2303.14444v2 )

ライセンス: Link先を確認
Constantin Ulrich, Fabian Isensee, Tassilo Wald, Maximilian Zenk, Michael Baumgartner and Klaus H. Maier-Hein(参考訳) 医療画像コミュニティは豊富なデータセットを生成しており、その多くはオープンにアクセスでき、特定の疾患や多臓器や病変の分断などのタスクに注釈を付けている。 現在のプラクティスはモデルトレーニングを制限し続け、1つまたはいくつかの類似したデータセットに事前トレーニングを監督し、他の利用可能なアノテーション付きデータの相乗的ポテンシャルを無視している。 我々は,多種多様なクラス定義を持つ複数のCTデータセットを活用する手法であるMultiTalentを提案し,包括的構造セグメンテーションのための単一モデルを訓練する。 以上の結果から, 従来手法に比べてセグメント化性能が向上し, 特に病変セグメント化や他の難易度の高い構造について, 単一データセットトレーニングと比較した。 また,MultiTalentは,教師付きベースラインや教師なしベースラインに比べて,様々なセグメンテーションタスクに対して優れた事前トレーニングを提供する強力な基盤モデルであることを示す。 本研究は, 医療画像コミュニティにとって, 十分なデータを効果的に活用し, セグメンテーション性能を向上させるための新たな方向性を提供する。 コードとモデルの重み付けはここで公開されます。

The medical imaging community generates a wealth of datasets, many of which are openly accessible and annotated for specific diseases and tasks such as multi-organ or lesion segmentation. Current practices continue to limit model training and supervised pre-training to one or a few similar datasets, neglecting the synergistic potential of other available annotated data. We propose MultiTalent, a method that leverages multiple CT datasets with diverse and conflicting class definitions to train a single model for a comprehensive structure segmentation. Our results demonstrate improved segmentation performance compared to previous related approaches, systematically, also compared to single dataset training using state-of-the-art methods, especially for lesion segmentation and other challenging structures. We show that MultiTalent also represents a powerful foundation model that offers a superior pre-training for various segmentation tasks compared to commonly used supervised or unsupervised pre-training baselines. Our findings offer a new direction for the medical imaging community to effectively utilize the wealth of available data for improved segmentation performance. The code and model weights will be published here: [tba]
翻訳日:2023-09-20 20:12:32 公開日:2023-09-19
# Vox-E:3DオブジェクトのテキストガイドによるVoxel編集

Vox-E: Text-guided Voxel Editing of 3D Objects ( http://arxiv.org/abs/2303.12048v3 )

ライセンス: Link先を確認
Etai Sella, Gal Fiebelman, Peter Hedman, Hadar Averbuch-Elor(参考訳) 複雑な視覚概念を伝達する多様な画像を合成する能力から,大規模テキスト誘導拡散モデルが注目されている。 この生成能力は近年、テキストから3d合成に活用されている。 本研究では,既存の3次元オブジェクトの編集に潜時拡散モデルのパワーを利用する手法を提案する。 提案手法は,3次元オブジェクトの2次元画像を入力として用いて,グリッドベースのボリューム表現を学習する。 目的のテキストプロンプトに適合するように容積表現を導くため、無条件のテキストから3D手法に従い、スコア蒸留サンプリング(SDS)損失を最適化する。 しかし,この拡散誘導損失と,入力対象から過度に逸脱しない表現を奨励するイメージベース正規化損失の組み合わせは,構造と外観を結合した2次元投影のみを見ながら2つの相反する目標を達成する必要があるため,困難である。 そこで本研究では,3次元表現の明示的な性質を活かし,直接3次元空間で操作する新たな体積正規化損失を導入することにより,オリジナルオブジェクトと編集オブジェクトの全体構造との相関性を実現する。 さらに,編集の空間的範囲を改良するために,クロスアテンションボリュームグリッドを最適化する手法を提案する。 広範な実験と比較は,先行作品では達成できない無数の編集を作成するためのアプローチの有効性を示している。

Large scale text-guided diffusion models have garnered significant attention due to their ability to synthesize diverse images that convey complex visual concepts. This generative power has more recently been leveraged to perform text-to-3D synthesis. In this work, we present a technique that harnesses the power of latent diffusion models for editing existing 3D objects. Our method takes oriented 2D images of a 3D object as input and learns a grid-based volumetric representation of it. To guide the volumetric representation to conform to a target text prompt, we follow unconditional text-to-3D methods and optimize a Score Distillation Sampling (SDS) loss. However, we observe that combining this diffusion-guided loss with an image-based regularization loss that encourages the representation not to deviate too strongly from the input object is challenging, as it requires achieving two conflicting goals while viewing only structure-and-appearance coupled 2D projections. Thus, we introduce a novel volumetric regularization loss that operates directly in 3D space, utilizing the explicit nature of our 3D representation to enforce correlation between the global structure of the original and edited object. Furthermore, we present a technique that optimizes cross-attention volumetric grids to refine the spatial extent of the edits. Extensive experiments and comparisons demonstrate the effectiveness of our approach in creating a myriad of edits which cannot be achieved by prior works.
翻訳日:2023-09-20 20:12:13 公開日:2023-09-19
# 合成結晶を用いたニューラルネットワークによるICSD粉末X線回折法による構造情報の抽出

Neural networks trained on synthetically generated crystals can extract structural information from ICSD powder X-ray diffractograms ( http://arxiv.org/abs/2303.11699v3 )

ライセンス: Link先を確認
Henrik Schopmans, Patrick Reiser, Pascal Friederich(参考訳) 機械学習技術は粉末x線回折から結晶空間群などの構造情報を抽出するのに成功している。 しかし、ICSDのようなデータベースからシミュレーションされたディフラクトグラムを直接トレーニングすることは、そのサイズ、クラス不均一性、特定の構造タイプに対するバイアスのために困難である。 本稿では,各空間群の対称性演算を用いてランダム座標を持つ合成結晶を生成する方法を提案する。 このアプローチに基づいて,1時間に数百万のオンザフライ生成された合成ディフラクトグラムに対して,Deep ResNetライクなモデルのオンライントレーニングを実演する。 選択した空間群分類のタスクに対して、ほとんどの空間群からの未確認ICSD構造タイプに対して、79.9%の精度を達成した。 これはICSD結晶のトレーニングにおける現在の最先端のアプローチの56.1%を超える。 その結果, 合成した結晶は, icd粉体回折から構造情報を抽出でき, 粉体x線回折の領域において, 最先端の機械学習モデルを適用することが可能となった。 また、特に高スループット環境では、自動XRDデータ分析が不可欠である実験データに適用するための第一歩を示す。 宇宙群の予測に焦点をあてる一方で、我々のアプローチは将来、関連するタスクにまで拡張される可能性がある。

Machine learning techniques have successfully been used to extract structural information such as the crystal space group from powder X-ray diffractograms. However, training directly on simulated diffractograms from databases such as the ICSD is challenging due to its limited size, class-inhomogeneity, and bias toward certain structure types. We propose an alternative approach of generating synthetic crystals with random coordinates by using the symmetry operations of each space group. Based on this approach, we demonstrate online training of deep ResNet-like models on up to a few million unique on-the-fly generated synthetic diffractograms per hour. For our chosen task of space group classification, we achieved a test accuracy of 79.9% on unseen ICSD structure types from most space groups. This surpasses the 56.1% accuracy of the current state-of-the-art approach of training on ICSD crystals directly. Our results demonstrate that synthetically generated crystals can be used to extract structural information from ICSD powder diffractograms, which makes it possible to apply very large state-of-the-art machine learning models in the area of powder X-ray diffraction. We further show first steps toward applying our methodology to experimental data, where automated XRD data analysis is crucial, especially in high-throughput settings. While we focused on the prediction of the space group, our approach has the potential to be extended to related tasks in the future.
翻訳日:2023-09-20 20:11:46 公開日:2023-09-19
# Consistency-Aware Meta-Learning を用いた信頼性ニューラルマシン翻訳

Towards Reliable Neural Machine Translation with Consistency-Aware Meta-Learning ( http://arxiv.org/abs/2303.10966v2 )

ライセンス: Link先を確認
Rongxiang Weng, Qiang Wang, Wensen Cheng, Changfeng Zhu, Min Zhang(参考訳) ニューラルマシン翻訳(NMT)は、高品質な翻訳を製作することに成功した。 しかし、現在のnmtシステムは、入力の語彙的または構文的変化によってしばしば影響を受ける出力が品質のばらつきをもたらすため、信頼性の欠如に悩まされている。 この制限はNMTの実用性と信頼性を妨げる。 この問題に寄与する要因は、1対1のパラダイムで訓練されたnmtモデルがソース多様性現象を扱うのに苦労していることである。 本研究では,この問題を二段階最適化問題として扱い,モデルに依存しないメタラーニング(MAML)アルゴリズムから得られた一貫性を考慮したメタラーニング(CAML)フレームワークを提案する。 特に、CAML(CoNMT)を用いたNMTモデルは、まず外側ループで意味的に等価な文の一貫したメタ表現を学習する。 その後、メタ表現から出力文へのマッピングが内部ループで学習され、NMTモデルは意味論的に等価な文を同じターゲット文に変換する。 我々は、NIST中国語から英語へのタスク、3つのWMT翻訳タスク、TED M2Oタスクについて実験を行った。 その結果,CoNMTは翻訳品質を効果的に向上し,多様な入力を確実に処理できることがわかった。

Neural machine translation (NMT) has achieved remarkable success in producing high-quality translations. However, current NMT systems suffer from a lack of reliability, as their outputs that are often affected by lexical or syntactic changes in inputs, resulting in large variations in quality. This limitation hinders the practicality and trustworthiness of NMT. A contributing factor to this problem is that NMT models trained with the one-to-one paradigm struggle to handle the source diversity phenomenon, where inputs with the same meaning can be expressed differently. In this work, we treat this problem as a bilevel optimization problem and present a consistency-aware meta-learning (CAML) framework derived from the model-agnostic meta-learning (MAML) algorithm to address it. Specifically, the NMT model with CAML (named CoNMT) first learns a consistent meta representation of semantically equivalent sentences in the outer loop. Subsequently, a mapping from the meta representation to the output sentence is learned in the inner loop, allowing the NMT model to translate semantically equivalent sentences to the same target sentence. We conduct experiments on the NIST Chinese to English task, three WMT translation tasks, and the TED M2O task. The results demonstrate that CoNMT effectively improves overall translation quality and reliably handles diverse inputs.
翻訳日:2023-09-20 20:11:25 公開日:2023-09-19
# 楕円型PDE学習はデータ効率が高い

Elliptic PDE learning is provably data-efficient ( http://arxiv.org/abs/2302.12888v2 )

ライセンス: Link先を確認
Nicolas Boull\'e, Diana Halikias, Alex Townsend(参考訳) PDE学習は、物理と機械学習を組み合わせて未知の物理システムを実験データから復元する新興分野である。 ディープラーニングモデルは伝統的に大量のトレーニングデータを必要とするが、最近のPDE学習技術はデータ可用性に制限のある素晴らしい結果が得られる。 しかし、この結果は実証的だ。 本研究はpde学習に必要な入出力訓練ペア数に関する理論的保証を提供する。 具体的には、ランダム化された数値線形代数とPDE理論を用いて、入力出力データから3次元楕円型PDEの解演算子を復元し、例外的に高い確率でトレーニングデータセットのサイズに対する誤差の指数収束率を達成する、証明可能なデータ効率のアルゴリズムを導出する。

PDE learning is an emerging field that combines physics and machine learning to recover unknown physical systems from experimental data. While deep learning models traditionally require copious amounts of training data, recent PDE learning techniques achieve spectacular results with limited data availability. Still, these results are empirical. Our work provides theoretical guarantees on the number of input-output training pairs required in PDE learning. Specifically, we exploit randomized numerical linear algebra and PDE theory to derive a provably data-efficient algorithm that recovers solution operators of 3D uniformly elliptic PDEs from input-output data and achieves an exponential convergence rate of the error with respect to the size of the training dataset with an exceptionally high probability of success.
翻訳日:2023-09-20 20:10:15 公開日:2023-09-19
# GKP誤差補正における雑音伝搬のロバスト抑制

Robust suppression of noise propagation in GKP error-correction ( http://arxiv.org/abs/2302.12088v3 )

ライセンス: Link先を確認
Christian Siegele and Philippe Campagne-Ibarcq(参考訳) 複雑な状態の準備と対照的な直線方向論理演算は、ゴッテマン、キータエフ、プレスキル(GKP)によって提案されたボソニック符号化の目印である。 最近報告されたイオンと超伝導回路におけるGKP量子ビットの生成と誤り訂正は、そのような符号化量子ビットに基づく量子コンピューティングアーキテクチャの将来を大いに約束する。 しかし、これらの実験は補助的な物理量子ビットによる誤りシンドローム検出に依存しており、ノイズは符号化されたGKP量子ビットを伝播して破壊する可能性がある。 2つの発振器と物理キュービットからなる単純なモジュールを2つの実験的アクセス可能な量子ゲートと基本フィードバック制御で操作し,そのような伝播エラーから保護された誤り訂正gkpキュービットを実装する。 周期gkp状態の理想化において、プロトコルパラメータを最適化する効率的な数値手法を開発し、物理キュービットのフリップから生じる符号化量子ビットの誤差と位相空間における振動子状態の拡散が、個々の演算に対するノイズ強度が減少するにつれて指数関数的に抑制されることを示す。 提案手法は,GKP量子ビットを用いたフォールトトレラント量子計算への主な障害を回避している。

Straightforward logical operations contrasting with complex state preparation are the hallmarks of the bosonic encoding proposed by Gottesman, Kitaev and Preskill (GKP). The recently reported generation and error-correction of GKP qubits in trapped ions and superconducting circuits thus holds great promise for the future of quantum computing architectures based on such encoded qubits. However, these experiments rely on error-syndrome detection via an auxiliary physical qubit, whose noise may propagate and corrupt the encoded GKP qubit. We propose a simple module composed of two oscillators and a physical qubit, operated with two experimentally accessible quantum gates and elementary feedback controls to implement an error-corrected GKP qubit protected from such propagating errors. In the idealized setting of periodic GKP states, we develop efficient numerical methods to optimize our protocol parameters and show that errors of the encoded qubit stemming from flips of the physical qubit and diffusion of the oscillators state in phase-space may be exponentially suppressed as the noise strength over individual operations is decreased. Our approach circumvents the main roadblock towards fault-tolerant quantum computation with GKP qubits.
翻訳日:2023-09-20 20:10:01 公開日:2023-09-19
# 3dセマンティックセグメンテーションのためのアクティブラーニングのシード

You Never Get a Second Chance To Make a Good First Impression: Seeding Active Learning for 3D Semantic Segmentation ( http://arxiv.org/abs/2304.11762v2 )

ライセンス: Link先を確認
Nermin Samet, Oriane Sim\'eoni, Gilles Puy, Georgy Ponimatkin, Renaud Marlet, Vincent Lepetit(参考訳) セマンティックセグメンテーションのための3次元点雲の効率的なアノテーションのためのアクティブ学習手法であるSeedALを提案する。 アクティブラーニング(al)は、所定の予算内で注釈を付けるための関連するデータ分数を反復的に選択するが、他のデータ分数に注釈をつける利点を見積もるために、データセット('シード')の最初の分数を既に注釈付けする必要がある。 まず,種の選択が多くのAL法の性能に大きく影響を与えることを示す。 次に,ALの性能が向上する種を自動的に構築する手法を提案する。 点雲の画像が利用可能であると仮定すると、この手法は点雲の多様性を測定するために強力な教師なし画像特徴に依存する。 アノテーション予算の下で多様性を最適化することで、シードの点雲を選択し、線形最適化問題を解くことで実現できる。 本実験は,S3DISとSemanticKittiの両方のデータセット上で,ランダムシードと既存手法と比較して,本手法の有効性を示す。 コードはhttps://github.com/nerminsamet/seedalで入手できる。

We propose SeedAL, a method to seed active learning for efficient annotation of 3D point clouds for semantic segmentation. Active Learning (AL) iteratively selects relevant data fractions to annotate within a given budget, but requires a first fraction of the dataset (a 'seed') to be already annotated to estimate the benefit of annotating other data fractions. We first show that the choice of the seed can significantly affect the performance of many AL methods. We then propose a method for automatically constructing a seed that will ensure good performance for AL. Assuming that images of the point clouds are available, which is common, our method relies on powerful unsupervised image features to measure the diversity of the point clouds. It selects the point clouds for the seed by optimizing the diversity under an annotation budget, which can be done by solving a linear optimization problem. Our experiments demonstrate the effectiveness of our approach compared to random seeding and existing methods on both the S3DIS and SemanticKitti datasets. Code is available at https://github.com/nerminsamet/seedal.
翻訳日:2023-09-20 20:01:07 公開日:2023-09-19
# Articulated SE(3) Equivarianceを用いたニューラル・ヒューマン・フィッティングの発見

Generalizing Neural Human Fitting to Unseen Poses With Articulated SE(3) Equivariance ( http://arxiv.org/abs/2304.10528v2 )

ライセンス: Link先を確認
Haiwen Feng, Peter Kulits, Shichen Liu, Michael J. Black, and Victoria Abrevaya(参考訳) 我々は, 雲データにパラメトリック人体モデル(smpl)を適合させる問題に対処する。 最適化に基づく手法では注意深い初期化が必要であり、局所的なオプティマに閉じ込められやすい。 学習ベースの手法はこれに対処するが、入力ポーズがトレーニング中に見られるものから遠く離れている場合、うまく一般化しない。 厳密な点雲に対しては、SE(3)-同変ネットワークを利用することで顕著な一般化が達成されているが、これらの手法は明瞭な対象に作用しない。 本研究では、このアイデアを人体に拡張し、点雲からのSMPLモデル推定のための新しい部分ベースSE(3)等価ニューラルネットワークArtEqを提案する。 具体的には,局所so(3)不変性を利用して部分検出ネットワークを学習し,articulated se(3) shape-invariant と pose-equivariant を用いて回帰形状とポーズを訓練した。 新規なポーズ回帰モジュールは自己アテンション層の置換同変特性を利用して回転同値を保存する。 実験の結果,ArtEqはトレーニング中に見えない動作を一般化し,身体再構成の精度は44%程度向上した。 さらに、ArtEqは事前の作業よりも3桁高速で、パラメータは97.3%少ない。 コードとモデルは、https://arteq.is.tue.mpg.deで研究目的に利用できる。

We address the problem of fitting a parametric human body model (SMPL) to point cloud data. Optimization-based methods require careful initialization and are prone to becoming trapped in local optima. Learning-based methods address this but do not generalize well when the input pose is far from those seen during training. For rigid point clouds, remarkable generalization has been achieved by leveraging SE(3)-equivariant networks, but these methods do not work on articulated objects. In this work we extend this idea to human bodies and propose ArtEq, a novel part-based SE(3)-equivariant neural architecture for SMPL model estimation from point clouds. Specifically, we learn a part detection network by leveraging local SO(3) invariance, and regress shape and pose using articulated SE(3) shape-invariant and pose-equivariant networks, all trained end-to-end. Our novel pose regression module leverages the permutation-equivariant property of self-attention layers to preserve rotational equivariance. Experimental results show that ArtEq generalizes to poses not seen during training, outperforming state-of-the-art methods by ~44% in terms of body reconstruction accuracy, without requiring an optimization refinement step. Furthermore, ArtEq is three orders of magnitude faster during inference than prior work and has 97.3% fewer parameters. The code and model are available for research purposes at https://arteq.is.tue.mpg.de.
翻訳日:2023-09-20 20:00:44 公開日:2023-09-19
# KNNに基づく修正メドイドシフトを用いたコミュニティ検出

Community Detection Using Revised Medoid-Shift Based on KNN ( http://arxiv.org/abs/2304.09512v2 )

ライセンス: Link先を確認
Jie Hou, Jiakang Li, Xiaokang Peng, Wei Ke, Yonggang Lu(参考訳) コミュニティ検出は、ソーシャルネットワークのブームにおいて重要な問題となる。 Medoid-Shiftアルゴリズムは平均シフトの利点を保ち、コミュニティ検出のような距離行列に基づく問題に適用できる。 メドイドシフトアルゴリズムの欠点の1つは、距離パラメータによって定義される近傍領域にデータポイントが存在しないことである。 そこで本研究では, コミュニティ検出問題をよりよく扱うために, 改良型メドロイドシフト (rms) と呼ばれる新しいアルゴリズムを提案する。 次のメドイドを見つける過程において、RMSアルゴリズムはKNNで定義された近傍に基づいており、元のメドイドシフトは距離パラメータで定義された近傍に基づいている。 knnによって定義される近傍は、近傍内のデータポイント数の観点から距離パラメータによって定義される近傍よりも安定であるため、rmsアルゴリズムはよりスムーズに収束することができる。 RMS法では、各データポイントは、KNNで定義された近傍のメドロイドに移動される。 反復的なシフト処理の後、各データポイントがクラスタセンタに収束し、同じセンタに集約されたデータポイントが同じクラスタにグループ化される。 RMSアルゴリズムは、既知の真理分割を持つコミュニティデータセットと、真理分割を持たないコミュニティデータセットの2種類のデータセットで試験される。 実験の結果,提案したRMSアルゴリズムは概ねメドイドシフトよりもベスタ結果が得られ,また,コミュニティ検出データセットの古典的コミュニティ検出アルゴリズムと組み合わせて最先端の手法が得られた。

Community detection becomes an important problem with the booming of social networks. The Medoid-Shift algorithm preserves the benefits of Mean-Shift and can be applied to problems based on distance matrix, such as community detection. One drawback of the Medoid-Shift algorithm is that there may be no data points within the neighborhood region defined by a distance parameter. To deal with the community detection problem better, a new algorithm called Revised Medoid-Shift (RMS) in this work is thus proposed. During the process of finding the next medoid, the RMS algorithm is based on a neighborhood defined by KNN, while the original Medoid-Shift is based on a neighborhood defined by a distance parameter. Since the neighborhood defined by KNN is more stable than the one defined by the distance parameter in terms of the number of data points within the neighborhood, the RMS algorithm may converge more smoothly. In the RMS method, each of the data points is shifted towards a medoid within the neighborhood defined by KNN. After the iterative process of shifting, each of the data point converges into a cluster center, and the data points converging into the same center are grouped into the same cluster. The RMS algorithm is tested on two kinds of datasets including community datasets with known ground truth partition and community datasets without ground truth partition respectively. The experiment results show sthat the proposed RMS algorithm generally produces betster results than Medoid-Shift and some state-of-the-art together with most classic community detection algorithms on different kinds of community detection datasets.
翻訳日:2023-09-20 20:00:18 公開日:2023-09-19
# 効果的な知識管理の落とし穴:国際情報技術機関からの洞察

Pitfalls in Effective Knowledge Management: Insights from an International Information Technology Organization ( http://arxiv.org/abs/2304.07737v2 )

ライセンス: Link先を確認
Kalle Koivisto, Toni Taipalus(参考訳) 知識は組織にとって不可欠なリソースだと考えられている。 組織が所有する知識から利益を得るためには、知識を効果的に管理する必要がある。 知識の共有とマネジメントは実践者にとって重要であると見なされているが、組織は知識の恩恵を受けることができず、協力の問題や従業員の離脱に伴う貴重な知識の喪失につながる。 本研究の目的は、個人が知識を効果的に共有し管理することを妨げる障害要因を特定し、これらの要因を取り除く方法を理解することである。 国際規模のIT組織で働く50人の個人による半構造化グループインタビューを通じて、実証データを収集した。 本研究は,知識管理の重要性が認識されていることと,その重要性が実際にどのように反映されているかというギャップの存在を確認する。 いくつかの障害要因が特定され、個人的社会的トピック、組織的社会トピック、技術的トピック、環境トピック、および相互関連社会的および技術的トピックに分類された。 これらの障害を緩和するための推奨事項は、トレーニングやガイドラインなど、従業員の行動を改善することに焦点を当てている。 本研究は,知識共有と経営戦略の創出にこの知識を活用することにより,知識集約的な分野の組織に影響を及ぼすものである。

Knowledge is considered an essential resource for organizations. For organizations to benefit from their possessed knowledge, knowledge needs to be managed effectively. Despite knowledge sharing and management being viewed as important by practitioners, organizations fail to benefit from their knowledge, leading to issues in cooperation and the loss of valuable knowledge with departing employees. This study aims to identify hindering factors that prevent individuals from effectively sharing and managing knowledge and understand how to eliminate these factors. Empirical data were collected through semi-structured group interviews from 50 individuals working in an international large IT organization. This study confirms the existence of a gap between the perceived importance of knowledge management and how little this importance is reflected in practice. Several hindering factors were identified, grouped into personal social topics, organizational social topics, technical topics, environmental topics, and interrelated social and technical topics. The presented recommendations for mitigating these hindering factors are focused on improving employees' actions, such as offering training and guidelines to follow. The findings of this study have implications for organizations in knowledge-intensive fields, as they can use this knowledge to create knowledge sharing and management strategies to improve their overall performance.
翻訳日:2023-09-20 19:59:53 公開日:2023-09-19
# 幾何学的視覚における総合的最適コンセンサス最大化の促進

Accelerating Globally Optimal Consensus Maximization in Geometric Vision ( http://arxiv.org/abs/2304.05156v2 )

ライセンス: Link先を確認
Xinyue Zhang, Liangzu Peng, Wanting Xu, Laurent Kneip(参考訳) ブランチ・アンド・バウンドベースのコンセンサス最大化は、異常な幾何学的問題に対するグローバル最適解を検索する重要な能力のために際立っている。 しかし、そのような解の発見は科学的価値を損なうが、実際のシナリオにおけるその応用は、目の前の問題の次元の関数として指数関数的に増加する計算複雑性によってしばしば禁止される。 本研究では,n次元問題に対してn-1次元空間上の分岐を可能にする,新しい一般手法を提案する。 残余自由度は、効率的な間隔スタビング手法を適用して、各境界計算内でグローバルに解くことができる。 個々の境界導出は、ソート問題を解決する追加の必要により計算が困難であるが、実際の間隔の削減とより厳密な境界は、必要なイテレーションの総数を大幅に減少させる。 このアプローチの抽象的導入の他に,4つの基本的な幾何学的コンピュータビジョン問題(カメラの切除,相対カメラのポーズ推定,ポイントセットの登録,回転と焦点距離推定)に適用する。 網羅的なテストを通じて、2桁を超える場合の大幅なスピードアップを実証し、オンラインアプリケーションシナリオにおけるグローバルな最適コンセンサス最大化の実現可能性を高める。

Branch-and-bound-based consensus maximization stands out due to its important ability of retrieving the globally optimal solution to outlier-affected geometric problems. However, while the discovery of such solutions caries high scientific value, its application in practical scenarios is often prohibited by its computational complexity growing exponentially as a function of the dimensionality of the problem at hand. In this work, we convey a novel, general technique that allows us to branch over an n-1 dimensional space for an n-dimensional problem. The remaining degree of freedom can be solved globally optimally within each bound calculation by applying the efficient interval stabbing technique. While each individual bound derivation is harder to compute owing to the additional need for solving a sorting problem, the reduced number of intervals and tighter bounds in practice lead to a significant reduction in the overall number of required iterations. Besides an abstract introduction of the approach, we present applications to four fundamental geometric computer vision problems: camera resectioning, relative camera pose estimation, point set registration, and rotation and focal length estimation. Through our exhaustive tests, we demonstrate significant speed-up factors at times exceeding two orders of magnitude, thereby increasing the viability of globally optimal consensus maximizers in online application scenarios.
翻訳日:2023-09-20 19:59:33 公開日:2023-09-19
# 散逸性量子ギブズサンプリング

Dissipative Quantum Gibbs Sampling ( http://arxiv.org/abs/2304.04526v3 )

ライセンス: Link先を確認
Daniel Zhang, Jan Lukas Bosse, Toby Cubitt(参考訳) 非零温度の熱平衡系はギブス状態によって記述される。 古典的な多体系では、メトロポリス・ハstingsアルゴリズムは、ギブス分布からサンプリングされる局所更新規則を持つマルコフ過程を与える。 量子系では、ギブス状態からのサンプリングははるかに困難である。 多くのアルゴリズムが提案されているが、これは従来のメトロポリスサンプリングの単純な局所的な更新規則よりも複雑であり、位相推定のような非自明な量子アルゴリズムを必要とする。 ここでは、単純で局所的な更新規則を持つ散逸的量子アルゴリズムが、量子ギブス状態からサンプリング可能であることを示す。 古典的な場合とは対照的に、量子ギブス状態はマルコフ過程の不動点に収束することで生成されるのではなく、条件付き停止過程の停止時に生成される状態によって生成される。 これはメトロポリスサンプリングの長い後続の量子アナログに対する新しい答えを与える。 従来の量子ギブスサンプリングアルゴリズムと比較して、プロセスの局所更新ルールは単純な実装であり、適切な量子ハードウェア上での短期的実装に適している可能性がある。 この散逸的なギブスサンプルは、その性質の仮定や知識なしに任意の量子ハミルトニアンに対して作用し、証明可能な精度と実行時境界を持つ。 また,このアルゴリズムは,障害やエラーに対するレジリエンス(`fault resilience'')を組み込んだ尺度によってもメリットがあることを示す。 最後に, 分配関数を推定するために, 散逸型ギブスサンプリング器のアンサンブルの停止統計値を利用する方法を示す。

Systems in thermal equilibrium at non-zero temperature are described by their Gibbs state. For classical many-body systems, the Metropolis-Hastings algorithm gives a Markov process with a local update rule that samples from the Gibbs distribution. For quantum systems, sampling from the Gibbs state is significantly more challenging. Many algorithms have been proposed, but these are more complex than the simple local update rule of classical Metropolis sampling, requiring non-trivial quantum algorithms such as phase estimation as a subroutine. Here, we show that a dissipative quantum algorithm with a simple, local update rule is able to sample from the quantum Gibbs state. In contrast to the classical case, the quantum Gibbs state is not generated by converging to the fixed point of a Markov process, but by the states generated at the stopping time of a conditionally stopped process. This gives a new answer to the long-sought-after quantum analogue of Metropolis sampling. Compared to previous quantum Gibbs sampling algorithms, the local update rule of the process has a simple implementation, which may make it more amenable to near-term implementation on suitable quantum hardware. This dissipative Gibbs sampler works for arbitrary quantum Hamiltonians, without any assumptions on or knowledge of its properties, and comes with certifiable precision and run-time bounds. We also show that the algorithm benefits from some measure of built-in resilience to faults and errors (``fault resilience''). Finally, we also demonstrate how the stopping statistics of an ensemble of runs of the dissipative Gibbs sampler can be used to estimate the partition function.
翻訳日:2023-09-20 19:59:11 公開日:2023-09-19
# マルコフ決定過程におけるコンフォーマルオフポリシィ評価

Conformal Off-Policy Evaluation in Markov Decision Processes ( http://arxiv.org/abs/2304.02574v2 )

ライセンス: Link先を確認
Daniele Foffano, Alessio Russo, Alexandre Proutiere(参考訳) 強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。 多くの現実世界のアプリケーションでは、学習者は実験を許されず、オンラインの方法でデータを集めることができない(これは実験が高価で、リスクがあり、非倫理的である場合である)。 このような適用の場合、ある政策(対象政策)の報酬は、異なる政策(行動政策)の下で収集された歴史的データを用いて見積もる必要がある。 この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確性と確実性を保証するものではない。 本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。 OPEの主な課題は、目標と行動方針の相違による分布シフトにある。 この変化に対処するさまざまな方法を提案し,実証的に評価する。 これらの方法のいくつかは、同じ確実性レベルを維持しつつ、既存のアプローチに比べて長さの少ない共形区間を与える。

Reinforcement Learning aims at identifying and evaluating efficient control policies from data. In many real-world applications, the learner is not allowed to experiment and cannot gather data in an online manner (this is the case when experimenting is expensive, risky or unethical). For such applications, the reward of a given policy (the target policy) must be estimated using historical data gathered under a different policy (the behavior policy). Most methods for this learning task, referred to as Off-Policy Evaluation (OPE), do not come with accuracy and certainty guarantees. We present a novel OPE method based on Conformal Prediction that outputs an interval containing the true reward of the target policy with a prescribed level of certainty. The main challenge in OPE stems from the distribution shift due to the discrepancies between the target and the behavior policies. We propose and empirically evaluate different ways to deal with this shift. Some of these methods yield conformalized intervals with reduced length compared to existing approaches, while maintaining the same certainty level.
翻訳日:2023-09-20 19:58:49 公開日:2023-09-19
# 大言語モデルは要約評価のための多言語ロールプレーヤである

Large Language Models are Diverse Role-Players for Summarization Evaluation ( http://arxiv.org/abs/2303.15078v3 )

ライセンス: Link先を確認
Ning Wu, Ming Gong, Linjun Shou, Shining Liang, Daxin Jiang(参考訳) テキスト要約は多くのシナリオにおいて幅広い応用がある。 生成されたテキストの品質評価は複雑な問題である。 言語評価に対する大きな課題は、既存のメトリクスと人的評価の間に明確な相違があることである。 文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。 BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。 本稿では,目的と主観の両方から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するllmsに基づく新しい評価フレームワークを提案する。 まず,ロールプレイヤのプロンプト機構に基づいて,生成したテキストの客観的次元と主観次元をモデル化する。 さらに、入力コンテキストに基づいて動的ロールプレイヤプロファイルを生成することができるコンテキストベースのプロンプト機構を導入する。 最後に,バッチプロンプトに基づくマルチロールプレーヤを設計し,最終的な評価結果に複数の出力を統合する。 要約のための3つの実データセットの実験結果から,本モデルは非常に競争力が高く,アノテータとの整合性が高いことが示された。

Text summarization has a wide range of applications in many scenarios. The evaluation of the quality of the generated text is a complex problem. A big challenge to language evaluation is that there is a clear divergence between existing metrics and human evaluation. A document summary's quality can be assessed by human annotators on various criteria, both objective ones like grammar and correctness, and subjective ones like informativeness, succinctness, and appeal. Most of the automatic evaluation methods like BLUE/ROUGE may be not able to adequately capture the above dimensions. In this paper, we propose a new evaluation framework based on LLMs, which provides a comprehensive evaluation framework by comparing generated text and reference text from both objective and subjective aspects. First, we propose to model objective and subjective dimensions of generated text based on roleplayers prompting mechanism. Furthermore, we introduce a context-based prompting mechanism that is able to generate dynamic roleplayer profiles based on input context. Finally, we design a multi-roleplayer prompting technology based on batch prompting and integrate multiple outputs into the final evaluation results. Experimental results on three real datasets for summarization show that our model is highly competitive and has a very high consistency with human annotators.
翻訳日:2023-09-20 19:58:15 公開日:2023-09-19
# 顔操作検出・位置検出のためのマルチスペクトルクラスセンターネットワーク

Multi-spectral Class Center Network for Face Manipulation Detection and Localization ( http://arxiv.org/abs/2305.10794v2 )

ライセンス: Link先を確認
Changtao Miao, Qi Chu, Zhentao Tan, Zhenchao Jin, Wanyi Zhuang, Yue Wu, Bin Liu, Honggang Hu, Nenghai Yu(参考訳) ディープフェイクのコンテンツはインターネット上で増え続けており、顔操作の法医学の進歩が迫っている。 この新たな脅威に対処するために、従来の手法は主に、本物で操作された顔画像の識別方法の研究に重点を置いている。 印象的ではあるが、イメージレベルの分類には説明性がなく、特定のアプリケーションシナリオに限定されている。 既存の偽造ローカライズ手法は不正確で一貫性のないピクセルレベルのアノテーションに苦しむ。 これらの問題を緩和するため,本稿ではまず,ピクセルレベルのアノテーションを導入することでfaceforensics++データセットを再構成し,その後,改ざんされた領域をローカライズするための広範なベンチマークを構築した。 次に, 顔操作検出と局所化のために, 新たなマルチスペクトルクラスセンタネットワーク (msccnet) を提案する。 具体的には、周波数関連フォージェリートレースのパワーに触発されて、より汎用的で意味不明な特徴を学習するためのマルチスペクトルクラスセンター(MSCC)モジュールを設計する。 周波数帯域の異なる特徴に基づき、MSCCモジュールはマルチスペクトルクラスセンターを収集し、ピクセル対クラス関係を計算する。 マルチスペクトルクラスレベルの表現の適用は、操作に敏感な視覚概念の意味情報を抑圧する。 さらに,より低レベルの偽造品や構造テクスチャを利用するマルチレベル特徴集合(MFA)モジュールを提案する。 実験結果は,MSCCNetの総合的局所化ベンチマークにおける有効性と優位性を示す。 この研究が、ピクセルレベルの顔操作のローカライゼーションの研究を刺激することを期待している。 アノテーションとコードは利用可能である。

As Deepfake contents continue to proliferate on the internet, advancing face manipulation forensics has become a pressing issue. To combat this emerging threat, previous methods mainly focus on studying how to distinguish authentic and manipulated face images. Despite impressive, image-level classification lacks explainability and is limited to some specific application scenarios. Existing forgery localization methods suffer from imprecise and inconsistent pixel-level annotations. To alleviate these problems, this paper first re-constructs the FaceForensics++ dataset by introducing pixel-level annotations, then builds an extensive benchmark for localizing tampered regions. Next, a novel Multi-Spectral Class Center Network (MSCCNet) is proposed for face manipulation detection and localization. Specifically, inspired by the power of frequency-related forgery traces, we design Multi-Spectral Class Center (MSCC) module to learn more generalizable and semantic-agnostic features. Based on the features of different frequency bands, the MSCC module collects multispectral class centers and computes pixel-to-class relations. Applying multi-spectral class-level representations suppresses the semantic information of the visual concepts, which is insensitive to manipulations. Furthermore, we propose a Multi-level Features Aggregation (MFA) module to employ more low-level forgery artifacts and structure textures. Experimental results quantitatively and qualitatively indicate the effectiveness and superiority of the proposed MSCCNet on comprehensive localization benchmarks. We expect this work to inspire more studies on pixel-level face manipulation localization. The annotations and codes are available.
翻訳日:2023-09-20 19:51:44 公開日:2023-09-19
# 大型言語モデルを用いた制御可能な発話スタイル

Controllable Speaking Styles Using a Large Language Model ( http://arxiv.org/abs/2305.10321v2 )

ライセンス: Link先を確認
Atli Thor Sigurgeirsson, Simon King(参考訳) 参照ベースのText-to-Speech(TTS)モデルは、同じターゲットテキストの複数の、韻律的に異なる再帰を生成することができる。 このようなモデルは、トレーニング中に潜在音響空間を共同で学習し、推論中にサンプリングすることができる。 推論中にこれらのモデルを制御するには、通常、適切な参照発話を見つける必要がある。 大規模生成言語モデル(LLM)は様々な言語関連タスクにおいて優れた性能を示した。 自然言語クエリテキスト(プロンプト)のみを考えると、そのようなモデルは特定のコンテキスト依存のタスクを解決できる。 TTSにおける最近の研究は、新しい話し方生成の即興制御を試みている。 これらの手法は参照発話を必要とせず、理想的な条件下では、プロンプトのみで制御できる。 しかし、既存の方法は通常、プロンプト条件エンコーダを共同でトレーニングするために、プロンプトラベル音声コーパスを必要とする。 対照的に、プロンプトで提供されるコンテキスト情報を使用して、制御可能なttsモデルの韻律修正を直接提案するためにllmを用いる。 プロンプトは、さまざまなタスクのために設計できます。 ここでは、話し方の制御と、ある対話文脈に適した韻律の2つの実演を行う。 提案手法は,50%のケースにおいて,ベースラインモデルの31%に対して最も適している。

Reference-based Text-to-Speech (TTS) models can generate multiple, prosodically-different renditions of the same target text. Such models jointly learn a latent acoustic space during training, which can be sampled from during inference. Controlling these models during inference typically requires finding an appropriate reference utterance, which is non-trivial. Large generative language models (LLMs) have shown excellent performance in various language-related tasks. Given only a natural language query text (the prompt), such models can be used to solve specific, context-dependent tasks. Recent work in TTS has attempted similar prompt-based control of novel speaking style generation. Those methods do not require a reference utterance and can, under ideal conditions, be controlled with only a prompt. But existing methods typically require a prompt-labelled speech corpus for jointly training a prompt-conditioned encoder. In contrast, we instead employ an LLM to directly suggest prosodic modifications for a controllable TTS model, using contextual information provided in the prompt. The prompt can be designed for a multitude of tasks. Here, we give two demonstrations: control of speaking style; prosody appropriate for a given dialogue context. The proposed method is rated most appropriate in 50% of cases vs. 31% for a baseline model.
翻訳日:2023-09-20 19:51:19 公開日:2023-09-19
# タグ付き多要素モデルにおけるリードラグ関係のロバスト検出

Robust Detection of Lead-Lag Relationships in Lagged Multi-Factor Models ( http://arxiv.org/abs/2305.06704v3 )

ライセンス: Link先を確認
Yichi Zhang, Mihai Cucuringu, Alexander Y. Shestopaloff, Stefan Zohren(参考訳) 多変量時系列システムでは、データに固有のリードラグ関係を発見し、2つの時系列間の依存性を相対的に変化させ、制御、予測、クラスタリングの目的で利用することができる。 階層化多要素モデルにおけるリードラグ関係のロバスト検出のためのクラスタリング駆動手法を開発した。 フレームワーク内では、想定されたパイプラインが一連の時系列の入力として取り込まれ、スライディングウインドウアプローチにより、各入力時系列から抽出されたサブシーケンス時系列の拡大宇宙を生成する。 その後、様々なクラスタリング技術(k-means++やspectral clusteringなど)が応用され、非線形のものを含む様々なペアワイズ類似性測度が用いられる。 クラスタが抽出されると、クラスタ間のリードラグ推定が頑健に集約され、元の宇宙における一貫した関係の同定が強化される。 我々は、同種および異種両方の設定に対する多重参照アライメント問題への接続を確立する。 多変量時系列は幅広い領域に分布しているため、我々の手法は金融市場でのリードラグ関係を堅牢に検出できるだけでなく、環境データセットに適用した場合にも洞察力のある結果が得られることを示す。

In multivariate time series systems, key insights can be obtained by discovering lead-lag relationships inherent in the data, which refer to the dependence between two time series shifted in time relative to one another, and which can be leveraged for the purposes of control, forecasting or clustering. We develop a clustering-driven methodology for robust detection of lead-lag relationships in lagged multi-factor models. Within our framework, the envisioned pipeline takes as input a set of time series, and creates an enlarged universe of extracted subsequence time series from each input time series, via a sliding window approach. This is then followed by an application of various clustering techniques, (such as k-means++ and spectral clustering), employing a variety of pairwise similarity measures, including nonlinear ones. Once the clusters have been extracted, lead-lag estimates across clusters are robustly aggregated to enhance the identification of the consistent relationships in the original universe. We establish connections to the multireference alignment problem for both the homogeneous and heterogeneous settings. Since multivariate time series are ubiquitous in a wide range of domains, we demonstrate that our method is not only able to robustly detect lead-lag relationships in financial markets, but can also yield insightful results when applied to an environmental data set.
翻訳日:2023-09-20 19:50:45 公開日:2023-09-19
# 最小不確かさ状態からの原始重力の騒音とデコヒーレンス

Noise and Decoherence of Primordial Graviton From Minimum Uncertainty States ( http://arxiv.org/abs/2305.06534v2 )

ライセンス: Link先を確認
Anom Trenggana, Freddy P. Zen, and Getbogi Hikmawan(参考訳) 最小不確実な初期状態を持つ原始重力による量子ノイズとデコヒーレンスについて検討した。 この条件は初期状態が絡み合い状態または重ね合わせ状態の形で存在することを許す。 エンタングルメントの初期状態における重力の増大は、量子ノイズに対応する有効ひずみを増加させ、実験的なセットアップシステムの寸法を減少させることができることがわかった。 初期重ね合わせ状態における非対角要素の存在により、量子ノイズの分布は非ガウス的となる。 さらに、これらの非対角的な用語は、バンチ・ダヴィエ真空の形の初期状態と比較して、非常に長い時間量子ノイズを引き起こす。

We have investigated quantum noise and decoherence due to primordial gravitons with minimum uncertainty initial states. This condition allows the initial state to be in the form of an entanglement or a superposition state. We got that the increasing number of gravitons in the initial state of entanglement can increase the effective strain corresponding to the quantum noise and can reduce the dimensions of the experimental setup system. The existence of non-diagonal elements in the initial superposition state allows the distribution of the quantum noise to be non-Gaussian. In addition, these non-diagonal terms also cause the quantum noise to occur for a very long time compared to the initial state in the form of a Bunch-Davies vacuum.
翻訳日:2023-09-20 19:50:23 公開日:2023-09-19
# 非可換ゲージ理論におけるハミルトン格子yang-mills理論の弦ネット定式化と量子多体傷

String-net formulation of Hamiltonian lattice Yang-Mills theories and quantum many-body scars in a nonabelian gauge theory ( http://arxiv.org/abs/2305.05950v2 )

ライセンス: Link先を確認
Tomoya Hayata, Yoshimasa Hidaka(参考訳) 我々は、ガウス法則を満たす物理状態を表現するのに有用な基礎を提供するスピンネットワークに基づくハミルトン格子ヤン・ミルズ理論を研究する。 我々は、$(2+1)$次元における$\mathrm{SU}(2)$ Yang-Mills理論に焦点を当てる。 弦-ネットモデルに続いて、(離散化された)$\mathrm{SU}(2)$ゲージ対称性を量子群、すなわち$\mathrm{SU}(2)_k$として尊重する$q$変形に基づく格子ヤン・ミルズ理論のコグト・ススキンド・ハミルトン理論の正規化を導入し、弦-ネットモデルのモデルを参照して格子ヤン・ミルズ理論の実装を可能にする。 正規化ハミルトニアンを用いて、非アーベルゲージ理論における量子スカーを研究する。 量子スカー(quantum scars)は、制約された量子多体系で生じる非熱エネルギー固有状態である。 非アーベルゲージ理論においても、アーベルゲージ理論で発見されているゼロモードからの量子的傷が生じる。 また, SU(2)$_k$ と SU(3)$_k$ の1-プラケットモデルのスペクトルも示し, 定式化のカットオフ依存性を議論するための$q$-deformation に基づく。

We study the Hamiltonian lattice Yang-Mills theory based on spin networks that provide a useful basis to represent the physical states satisfying the Gauss law constraints. We focus on $\mathrm{SU}(2)$ Yang-Mills theory in $(2+1)$ dimensions. Following the string-net model, we introduce a regularization of the Kogut-Susskind Hamiltonian of lattice Yang-Mills theory based on the $q$ deformation, which respects the (discretized) $\mathrm{SU}(2)$ gauge symmetry as quantum group, i.e., $\mathrm{SU}(2)_k$, and enables implementation of the lattice Yang-Mills theory both in classical and quantum algorithms by referring to those of the string-net model. Using the regularized Hamiltonian, we study quantum scars in a nonabelian gauge theory. Quantum scars are nonthermal energy eigenstates arising in the constrained quantum many-body systems. We find that quantum scars from zero modes, which have been found in abelian gauge theories arise even in a nonabelian gauge theory. We also show the spectrum of a single-plaquette model for SU(2)$_k$ and SU(3)$_k$ with naive cutoff and that based on the $q$-deformation to discuss cutoff dependence of the formulation.
翻訳日:2023-09-20 19:50:13 公開日:2023-09-19
# 絡み合ったコヒーレント状態とベル-CHSH不等式違反

Entangled coherent states and violations of Bell-CHSH inequalities ( http://arxiv.org/abs/2305.04674v2 )

ライセンス: Link先を確認
Philipe De Fabritiis, Fillipe M. Guedes, Giovani Peruzzo, Silvio P. Sorella(参考訳) 絡み合ったコヒーレント状態の3つのクラスがベル-CHSH不等式の研究に使用される。 無限次元ヒルベルト空間における擬スピン作用素を用いることにより、不等式への4つの双調作用素 $(a,a',b,b')$ が構成される。 各コヒーレント状態のクラスについて、コリレータ $\langle \psi \vert a b + a' b + a b' - a' b' \vert \psi \rangle$ を計算し、ベル=チェシュの不等式違反につながるパラメータの集合を分析し、特にツィレルソンの束縛の飽和に寄与する。

Three classes of entangled coherent states are employed to study the Bell-CHSH inequality. By using pseudospin operators in infinite dimensional Hilbert spaces, four dichotomic operators $(A,A',B,B')$ entering the inequality are constructed. For each class of coherent states, we compute the correlator $\langle \psi \vert A B + A' B + A B' - A' B' \vert \psi \rangle$, analyzing the set of parameters that leads to a Bell-CHSH inequality violation and, particularly, to the saturation of Tsirelson's bound.
翻訳日:2023-09-20 19:49:44 公開日:2023-09-19
# ChatGraph: ChatGPT知識をグラフに変換することで解釈可能なテキスト分類

ChatGraph: Interpretable Text Classification by Converting ChatGPT Knowledge to Graphs ( http://arxiv.org/abs/2305.03513v2 )

ライセンス: Link先を確認
Yucheng Shi, Hehuan Ma, Wenliang Zhong, Qiaoyu Tan, Gengchen Mai, Xiang Li, Tianming Liu, Junzhou Huang(参考訳) 最近ローンチした大型言語モデル(LLM)であるChatGPTは、様々な自然言語処理(NLP)タスクにおいて優れたパフォーマンスを示している。 しかし,(1)下流タスクの微調整の柔軟性の欠如,(2)意思決定過程における解釈可能性の欠如,という2つの大きな制約が考えられる。 これらの制約に対処するために,テキスト分類などの特定のタスクにchatgptのパワーを活用し,その解釈性を向上させる新しいフレームワークを提案する。 提案フレームワークは,ChatGPTを用いて生データから精巧で構造的な知識を抽出する知識グラフ抽出タスクを実行する。 豊かな知識はグラフに変換され、さらに解釈可能な線形分類器を訓練して予測を行う。 提案手法の有効性を評価するため,4つのデータセットを用いた実験を行った。 その結果,テキスト分類タスクにchatgptを直接利用するのに比べ,性能が著しく向上することがわかった。 また,従来のテキスト分類法と比較して,より透過的な意思決定プロセスを提供する。

ChatGPT, as a recently launched large language model (LLM), has shown superior performance in various natural language processing (NLP) tasks. However, two major limitations hinder its potential applications: (1) the inflexibility of finetuning on downstream tasks and (2) the lack of interpretability in the decision-making process. To tackle these limitations, we propose a novel framework that leverages the power of ChatGPT for specific tasks, such as text classification, while improving its interpretability. The proposed framework conducts a knowledge graph extraction task to extract refined and structural knowledge from the raw data using ChatGPT. The rich knowledge is then converted into a graph, which is further used to train an interpretable linear classifier to make predictions. To evaluate the effectiveness of our proposed method, we conduct experiments on four datasets. The result shows that our method can significantly improve the performance compared to directly utilizing ChatGPT for text classification tasks. And our method provides a more transparent decision-making process compared with previous text classification methods.
翻訳日:2023-09-20 19:49:28 公開日:2023-09-19
# センサ設計によるほぼハイゼンベルク制限雑音非バイアス周波数推定

Nearly Heisenberg-limited noise-unbiased frequency estimation by tailored sensor design ( http://arxiv.org/abs/2305.00954v2 )

ライセンス: Link先を確認
Francisco Riberi, Gerardo Paz-Silva and Lorenza Viola(参考訳) 時空間相関環境からノイズを強調する存在下では,ラムゼイ干渉計によるエンタングルメント支援周波数推定について検討し,広く採用されている局所推定手法を用いて,無限の計測統計においても,標準推定器の偏りや不定義をノイズが反映することを示す。 我々は,必要な資源を2倍にすることで,騒音に敏感な比推定器を導入し,標準資源の漸近的精密スケーリングを保った。 比推定器はマルコフ雑音の極限にも適用できるが、ボソニックバスからの非マルコフ劣化に着目し、センサの幾何を調整することによって、ノイズスペクトルに関する知識が気象学的優位性を最大化するためにどのように使われるかを示す。 特にハイゼンベルクのスケーリングは、最大絡み合った状態によって対数的プレファクタに達する。

We consider entanglement-assisted frequency estimation by Ramsey interferometry, in the presence of dephasing noise from spatiotemporally correlated environments.By working in the widely employed local estimation regime, we show that even for infinite measurement statistics, noise renders standard estimators biased or ill-defined. We introduce ratio estimators which, at the cost of doubling the required resources, are insensitive to noise and retain the asymptotic precision scaling of standard ones. While ratio estimators are applicable also in the limit of Markovian noise, we focus on non-Markovian dephasing from a bosonic bath and show how knowledge about the noise spectrum may be used to maximize metrological advantage, by tailoring the sensor's geometry. Notably, Heisenberg scaling is attained up to a logarithmic prefactor by maximally entangled states.
翻訳日:2023-09-20 19:49:10 公開日:2023-09-19
# 典型性をもつ条件論理における多層パーセプトロンの優先的解釈

A preferential interpretation of MultiLayer Perceptrons in a conditional logic with typicality ( http://arxiv.org/abs/2305.00304v3 )

ライセンス: Link先を確認
Mario Alviano, Francesco Bartoli, Marco Botta, Roberto Esposito, Laura Giordano, Daniele Theseider Dupr\'e(参考訳) 本稿では,知識表現におけるデファシブル推論のための多項述語セマンティクスと多層ニューラルネットワークモデルとの関係について検討する。 典型的な単純な記述論理に対する重み付き知識ベースは、(多値) ``concept-wise" 多重参照セマンティクスの下で考慮される。 セマンティクスは、MultiLayer Perceptrons(MLP)の優先的な解釈を提供するために使用される。 MLPの条件特性の検証には,モデルチェックとエンテーメントに基づくアプローチが有効である。

In this paper we investigate the relationships between a multipreferential semantics for defeasible reasoning in knowledge representation and a multilayer neural network model. Weighted knowledge bases for a simple description logic with typicality are considered under a (many-valued) ``concept-wise" multipreference semantics. The semantics is used to provide a preferential interpretation of MultiLayer Perceptrons (MLPs). A model checking and an entailment based approach are exploited in the verification of conditional properties of MLPs.
翻訳日:2023-09-20 19:48:54 公開日:2023-09-19
# 拡張Bose-HubbardモデルにおけるSuper-Tonks-Girardeau Quench

Super-Tonks-Girardeau Quench in the Extended Bose-Hubbard Model ( http://arxiv.org/abs/2306.10910v3 )

ライセンス: Link先を確認
Maciej Marciniak, Maciej {\L}ebek, Jakub Kopyci\'nski, Wojciech G\'orecki, Rafa{\l} O{\l}dziejewski, Krzysztof Paw{\l}owski(参考訳) 本研究では, 強い局所相互作用を持つ一次元気体からのクエンチが, 超トンク・ジラルドー効果として知られる強誘電性ガスへ及ぼす影響について検討する。 光学格子と非局所相互作用(特に近傍の相互作用)の両方を組み込むことで、未発見の現象、すなわちクエンチ中の状態の破壊を、特定の範囲の相互作用で発見する。 本研究は, 2つの原子の分析結果から始まり, 正確な対角化法, DMRG法, TDVP法を応用した少数体系まで, 様々なシステムサイズに拡張されたボース・ハッバードモデルを用いている。 最後に、局所密度近似の数値的な実装を用いて、原子のマクロな数を求める。 一貫して, スーパートンクス・ジラルドー・クエンチにより, 初期自己結合構造が拡大する領域が明らかとなった。 高速蒸発は、拡張ボース・ハバード模型の物理学を探求する最先端の実験で位相図を特徴づけるツールを提供する。

We investigate the effect of a quench from a one-dimensional gas with strong and repulsive local interactions to a strongly attractive one, known as the super-Tonks-Girardeau effect. By incorporating both an optical lattice and non-local interactions (specifically nearest-neighbor), we discover a previously unexplored phenomenon: the disruption of the state during the quench, but within a specific range of interactions. Our study employs the extended Bose-Hubbard model across various system sizes, starting with analytical results for two atoms and progressing to few-body systems using exact diagonalization, DMRG and TDVP methods. Finally, we use a numerical implementation of the local density approximation for a macroscopic number of atoms. Consistently, our findings unveil a region where the initially self-bound structure expands due to the super-Tonks-Girardeau quench. The fast evaporation provides a tool to characterize the phase diagram in state-of-art experiments exploring the physics of the extended Bose-Hubbard model.
翻訳日:2023-09-20 19:40:59 公開日:2023-09-19
# NISQプロセッサ上の車両ルーティング問題に対する量子量子ビットアルゴリズム

Qubit efficient quantum algorithms for the vehicle routing problem on NISQ processors ( http://arxiv.org/abs/2306.08507v2 )

ライセンス: Link先を確認
Ioannis D. Leonidas, Alexander Dukakis, Benjamin Tan, Dimitris G. Angelakis(参考訳) 時間窓付き車両ルーティング問題(VRPTW)は、物流業界で直面する一般的な最適化問題である。 本研究では,従来導入されていた量子ビット符号化方式を用いてバイナリ変数数を削減し,業界関連の最適化問題に適用した場合のNISQデバイスの有効性を評価する。 我々は、11から3964ルートの複数のVRPTWインスタンスのテストベッドに量子変分法を適用した。 これらの命令は、現実的な出荷シナリオに基づいた2次非制約バイナリ最適化(QUBO)問題として定式化された。 ibmq、aws(rigetti)、ionqなど様々な量子ハードウェアプラットフォームに加えて、シミュレータ上で実行した後の標準的なバイナリ-量子ビットマッピングと比較した。 これらの結果は古典的な解法であるグロビに対してベンチマークされる。 本手法は、量子ビットの削減に拘わらず、全エンコーディングを用いて量子アルゴリズムから得られるものに匹敵するvrptwの近似解を求めることができる。 これらの結果から,より大規模な問題サイズを少ないキュービットに適合させるエンコーディング方式は,NISQデバイスを用いて産業最適化問題の近似解を求める上で有望なステップであることが示された。

The vehicle routing problem with time windows (VRPTW) is a common optimization problem faced within the logistics industry. In this work, we explore the use of a previously-introduced qubit encoding scheme to reduce the number of binary variables, to evaluate the effectiveness of NISQ devices when applied to industry relevant optimization problems. We apply a quantum variational approach to a testbed of multiple VRPTW instances ranging from 11 to 3964 routes. These intances were formulated as quadratic unconstrained binary optimization (QUBO) problems based on realistic shipping scenarios. We compare our results with standard binary-to-qubit mappings after executing on simulators as well as various quantum hardware platforms, including IBMQ, AWS (Rigetti), and IonQ. These results are benchmarked against the classical solver, Gurobi. Our approach can find approximate solutions to the VRPTW comparable to those obtained from quantum algorithms using the full encoding, despite the reduction in qubits required. These results suggest that using the encoding scheme to fit larger problem sizes into fewer qubits is a promising step in using NISQ devices to find approximate solutions for industry-based optimization problems, although additional resources are still required to eke out the performance from larger problem sizes.
翻訳日:2023-09-20 19:40:24 公開日:2023-09-19
# 遺伝子発現値を用いた癌予後予測のためのコントラスト学習

Contrastive Learning for Predicting Cancer Prognosis Using Gene Expression Values ( http://arxiv.org/abs/2306.06276v2 )

ライセンス: Link先を確認
Anchen Sun, Zhibin Chen, Xiaodong Cai(参考訳) いくつかの人工神経回路網 (ANN) が, 腫瘍トランスクリプトームに基づく様々な種類の癌の予後を予測するために最近開発された。 しかし、正則化されたCox比例ハザード回帰モデルよりも性能が著しく向上していない。 ANNのトレーニングは、限られたデータサンプルと高次元の機能空間で難しい。 画像分類の最近の進歩は、限られた数のデータサンプルから良い特徴表現を学習することで、コントラスト学習(cl)によりさらなる学習タスクが促進されることを示している。 本稿では,腫瘍遺伝子の発現と臨床データにCLを応用し,低次元空間における特徴表現を学習する。 次にこれらの学習機能を用いて,癌予後予測のためのcoxモデルをトレーニングした。 The Cancer Genome Atlas (TCGA) のデータを用いて, CL-based Cox model (CLCox) は, 19種類のがんの予後を予測する上で, 既存の手法よりも有意に優れていることを示した。 また,腫瘍を異なるリスクグループに分類するCLベースの分類器を開発し,CLが分類精度を大幅に向上できることを示した。 具体的には,14種類の癌に対して受信器動作特性曲線 (auc) が0.8以上, 2種類の癌に対して0.9以上のaucが達成された。 TCGA肺癌および前立腺癌データを訓練したCLCoxモデルとCLベース分類器を,2つの独立したコホートを用いて検証した。

Several artificial neural networks (ANNs) have been developed recently to predict the prognosis of different types of cancer based on the tumor transcriptome. However, they have not demonstrated significantly better performance than the regularized Cox proportional hazards regression model. Training an ANN is challenging with a limited number of data samples and a high-dimensional feature space. Recent advancements in image classification have shown that contrastive learning (CL) can facilitate further learning tasks by learning good feature representation from a limited number of data samples. In this paper, we applied supervised CL to tumor gene expression and clinical data to learn feature representations in a low-dimensional space. We then used these learned features to train a Cox model for predicting cancer prognosis. Using data from The Cancer Genome Atlas (TCGA), we demonstrated that our CL-based Cox model (CLCox) significantly outperformed existing methods in predicting the prognosis of 19 types of cancer considered. We also developed CL-based classifiers to classify tumors into different risk groups and showed that CL can significantly improve classification accuracy. Specifically, our CL-based classifiers achieved an area under the receiver operating characteristic curve (AUC) of greater than 0.8 for 14 types of cancer and and an AUC of greater than 0.9 for 2 types of cancer. CLCox models and CL-based classifiers trained with TCGA lung cancer and prostate cancer data were validated with the data of two independent cohorts.
翻訳日:2023-09-20 19:40:04 公開日:2023-09-19
# ElectroCardioGuard: ニューラルネットを用いた心電図データベースにおける患者の誤診防止

ElectroCardioGuard: Preventing Patient Misidentification in Electrocardiogram Databases through Neural Networks ( http://arxiv.org/abs/2306.06196v2 )

ライセンス: Link先を確認
Michal Sej\'ak, Jakub Sido, David \v{Z}ahour(参考訳) 心電図(Electrocardiograms, ECGs)は、心疾患の診断に用いられる。 信頼性の高い心電図の収集は正確な診断に不可欠である。 しかし, 臨床では不適切な患者に対する心電図記録の割り当てが不注意に発生することがある。 そこで本研究では, この課題を認識し, 当院に接触した臨床研究機関と共同で, この問題に対処した研究を紹介する。 本研究では,2つの心電図が同一患者に由来するかどうかを判定する,小型で効率的な神経ネットワークモデルを提案する。 本モデルは, PTB-XL 上でのギャラリープローブによる患者識別において, 760 倍少ないパラメータを用いて, 高い一般化能力を示し, 最先端の性能を実現する。 さらに,本モデルを用いて記録符号誤りの検出を行い,現実的シナリオにおけるその適用可能性を示す手法を提案する。 最後に,本研究用に新たに収集したECGデータセットを用いて,本モデルを評価し,研究コミュニティに公開する。

Electrocardiograms (ECGs) are commonly used by cardiologists to detect heart-related pathological conditions. Reliable collections of ECGs are crucial for precise diagnosis. However, in clinical practice, the assignment of captured ECG recordings to incorrect patients can occur inadvertently. In collaboration with a clinical and research facility which recognized this challenge and reached out to us, we present a study that addresses this issue. In this work, we propose a small and efficient neural-network based model for determining whether two ECGs originate from the same patient. Our model demonstrates great generalization capabilities and achieves state-of-the-art performance in gallery-probe patient identification on PTB-XL while utilizing 760x fewer parameters. Furthermore, we present a technique leveraging our model for detection of recording-assignment mistakes, showcasing its applicability in a realistic scenario. Finally, we evaluate our model on a newly collected ECG dataset specifically curated for this study, and make it public for the research community.
翻訳日:2023-09-20 19:39:39 公開日:2023-09-19
# 多部系における部分的絡み合い

Partial disentanglement in a multipartite system ( http://arxiv.org/abs/2306.05853v2 )

ライセンス: Link先を確認
Eyal Buks(参考訳) 量子論への非線形拡張を探究し、粒子対間の決定論的部分的絡み合いを生じさせる。 この拡張は、追加の非線形項を持つ修正Schr\"{o}dinger方程式に基づいている。 因果性と分離性の原理との矛盾を避けるため、粒子が相互作用する時間にのみ、絡み合いが活発であると仮定する。 蝶のような効果は、高度に絡み合った多部ベクトル状態の近くで見られる。

We explore a nonlinear extension to quantum theory giving rise to deterministic partial disentanglement between pairs of particles. The extension is based on a modified Schr\"{o}dinger equation having an added nonlinear term. To avoid conflicts with the principles of causality and separability, it is postulated that disentanglement is active only during the time when particles interact. A butterfly-like effect is found near highly entangled multipartite vector states.
翻訳日:2023-09-20 19:39:25 公開日:2023-09-19
# 構造MRIを用いたパーキンソン病患者の脳ネットワーク識別数

Unique Brain Network Identification Number for Parkinson's Individuals Using Structural MRI ( http://arxiv.org/abs/2306.01689v2 )

ライセンス: Link先を確認
Tanmayee Samantaray, Utsav Gupta, Jitender Saini, and Cota Navin Gupta(参考訳) 本稿では,個々の被験者の脳ネットワークを符号化する新しいアルゴリズム,Unique Brain Network Identification Number, UBNINを提案する。 この目的を達成するため,インド国立精神保健神経科学研究所から180名のパーキンソン病PD患者と70名の健康管理HCに構造MRIを用いた。 各被験者の脳容積を分節し,各領域の灰白質容積の相関関係を用いて個々の隣接行列を構築した。 ユニークなコードは、各ノード i の接続を表す値から派生し、2^1-i の係数で重み付けされる。 数値表現ubninは個々の脳ネットワークで異なることが観察され、他の神経画像のモダリティにも応用できる。 このモデルは、人固有の脳接続のニューラルシグネチャとして実装され、脳プリントアプリケーションに有用である。 さらに、上記のデータセットを5つの年齢コホートに分離し、ネットワークトポロジの年齢変化を研究する。 各年齢別相関行列を二項化するための閾値推定値としてスペーサ性を採用した。 各年齢コホートでは,平均クラスタリング係数が減少傾向を示し,スパーシティが増大した。 PDでは年齢コホートB,C,C,E,HCではE,E,C,E,D,C,Dに有意差がみられ,ネットワーク接続パターンは年齢とともに変化し,ネットワークの破壊は神経病理に起因している可能性が示唆された。 異なるコホートに対するばらつきクラスタリング係数は、近隣ノード間の情報伝達が年齢とともに変化することを示す。 これは加齢に伴う脳収縮とネットワーク変性の証拠となる。 制限についても議論し、ソフトウェアコードへのオープンアクセスリンクと研究全体のヘルプファイルを提供する。

We propose a novel algorithm called Unique Brain Network Identification Number, UBNIN for encoding the brain networks of individual subjects. To realize this objective, we employed structural MRI on 180 Parkinsons disease PD patients and 70 healthy controls HC from the National Institute of Mental Health and Neurosciences, India. We parcellated each subjects brain volume and constructed an individual adjacency matrix using the correlation between the gray matter volumes of every pair of regions. The unique code is derived from values representing connections for every node i, weighted by a factor of 2^1-i. The numerical representation UBNIN was observed to be distinct for each individual brain network, which may also be applied to other neuroimaging modalities. This model may be implemented as a neural signature of a persons unique brain connectivity, thereby making it useful for brainprinting applications. Additionally, we segregated the above datasets into five age cohorts to study the variation in network topology over age. Sparsity was adopted as the threshold estimate to binarize each age-based correlation matrix. For each age cohort, a decreasing trend was observed in the mean clustering coefficient with increasing sparsity. Significantly different clustering coefficients were noted in PD between age cohort B and C, C and E, and in HC between E and B, E and C, E and D, and C and D. Our findings suggest network connectivity patterns change with age, indicating network disruption may be due to the underlying neuropathology. Varying clustering coefficients for different cohorts indicate that information transfer between neighboring nodes changes with age. This provides evidence of age related brain shrinkage and network degeneration. We also discuss limitations and provide an open-access link to software codes and a help file for the entire study.
翻訳日:2023-09-20 19:39:00 公開日:2023-09-19
# RAPHAEL: 大きな拡散経路によるテキスト・画像生成

RAPHAEL: Text-to-Image Generation via Large Mixture of Diffusion Paths ( http://arxiv.org/abs/2305.18295v3 )

ライセンス: Link先を確認
Zeyue Xue, Guanglu Song, Qiushan Guo, Boxiao Liu, Zhuofan Zong, Yu Liu, Ping Luo(参考訳) テキストから画像への生成は、最近目覚ましい成果を上げている。 我々は,複数の名詞,形容詞,動詞を含む文のプロンプトを正確に表現し,高度に芸術的な画像を生成するために,RAPHAELと呼ばれるテキスト条件画像拡散モデルを導入する。 これは、ネットワーク入力から出力への数十億の拡散経路(ルート)を可能にする、空間-MoE層と時間-MoE層を積み重ねることによって達成される。 各パスは、拡散時間ステップで特定の画像領域に特定のテキスト概念を記述するための「ページ」として直感的に機能する。 総合的な実験により、RAPHAELは画像の品質と美的魅力の両方の観点から、最近の最先端モデル、例えばStable Diffusion、ERNIE-ViLG 2.0、DeepFloyd、DALL-E 2を上回っていることが明らかになった。 第一に、RAPHAELは日本の漫画、リアリズム、サイバーパンク、インクイラストのような様々なスタイルの画像を切り替える際の優れたパフォーマンスを示す。 第二に、30億のパラメータを持つ単一のモデルで、2ヶ月間1,000A100 GPUでトレーニングされ、COCOデータセットで最先端のゼロショットFIDスコア6.61を達成する。 さらに、RAPHAELはViLG-300ベンチマークの人間による評価において、その性能を大幅に上回っている。 我々は、ラファエルが学界と産業の両方における画像生成研究のフロンティアを促進する可能性を秘めており、この急速に発展する分野における将来のブレークスルーへの道を開くと信じている。 詳細はwebページにある。 https://raphael-painter.github.io/。

Text-to-image generation has recently witnessed remarkable achievements. We introduce a text-conditional image diffusion model, termed RAPHAEL, to generate highly artistic images, which accurately portray the text prompts, encompassing multiple nouns, adjectives, and verbs. This is achieved by stacking tens of mixture-of-experts (MoEs) layers, i.e., space-MoE and time-MoE layers, enabling billions of diffusion paths (routes) from the network input to the output. Each path intuitively functions as a "painter" for depicting a particular textual concept onto a specified image region at a diffusion timestep. Comprehensive experiments reveal that RAPHAEL outperforms recent cutting-edge models, such as Stable Diffusion, ERNIE-ViLG 2.0, DeepFloyd, and DALL-E 2, in terms of both image quality and aesthetic appeal. Firstly, RAPHAEL exhibits superior performance in switching images across diverse styles, such as Japanese comics, realism, cyberpunk, and ink illustration. Secondly, a single model with three billion parameters, trained on 1,000 A100 GPUs for two months, achieves a state-of-the-art zero-shot FID score of 6.61 on the COCO dataset. Furthermore, RAPHAEL significantly surpasses its counterparts in human evaluation on the ViLG-300 benchmark. We believe that RAPHAEL holds the potential to propel the frontiers of image generation research in both academia and industry, paving the way for future breakthroughs in this rapidly evolving field. More details can be found on a webpage: https://raphael-painter.github.io/.
翻訳日:2023-09-20 19:38:29 公開日:2023-09-19
# 一般化p-ラプラシアン正則フレームレットgcnsの再検討:収束、エネルギー動的および非線形拡散によるトレーニング

Revisiting Generalized p-Laplacian Regularized Framelet GCNs: Convergence, Energy Dynamic and Training with Non-Linear Diffusion ( http://arxiv.org/abs/2305.15639v4 )

ライセンス: Link先を確認
Dai Shi, Zhiqi Shao, Yi Guo, Qibin Zhao, Junbin Gao(参考訳) 本稿では,グラフp-laplacian regularized framelet network (pl-ufg) の包括的理論的解析を行い,その特性の理解を深める。 pL-UFGの収束解析を行い、その漸近的挙動の理解のギャップに対処する。 さらに、pL-UFGの一般化されたディリクレエネルギーについて調べることで、収束を通してディリクレエネルギーがゼロではないことを示す。 さらに,pl-ufgにおける暗黙的層とグラフフレームレットの相乗的関係に着目し,エネルギー動的観点を明らかにする。 このシナジーは、ホモフィルデータとヘテロフィルデータの両方に対するモデルの適合性を高める。 特に, pL-UFG を一般化された非線形拡散過程として解釈し, pL-UFG とグラフ上の微分方程式とのギャップを埋めることを明らかにする。 これらの多面的分析は、pL-UFGの理解と実装のための新しい洞察を提供する統一的な結論と、他のグラフニューラルネットワーク(GNN)モデルをもたらす。 最後に、我々の動的解析に基づいて、手動制御エネルギー力学を用いた2つの新しいpL-UFGモデルを提案する。 提案モデルがpl-ufgの利点を継承するだけでなく,大規模グラフデータセットのトレーニングに要する計算コストを大幅に削減できることを示す。

This paper presents a comprehensive theoretical analysis of the graph p-Laplacian regularized framelet network (pL-UFG) to establish a solid understanding of its properties. We conduct a convergence analysis on pL-UFG, addressing the gap in the understanding of its asymptotic behaviors. Further by investigating the generalized Dirichlet energy of pL-UFG, we demonstrate that the Dirichlet energy remains non-zero throughout convergence, ensuring the avoidance of over-smoothing issues. Additionally, we elucidate the energy dynamic perspective, highlighting the synergistic relationship between the implicit layer in pL-UFG and graph framelets. This synergy enhances the model's adaptability to both homophilic and heterophilic data. Notably, we reveal that pL-UFG can be interpreted as a generalized non-linear diffusion process, thereby bridging the gap between pL-UFG and differential equations on the graph. Importantly, these multifaceted analyses lead to unified conclusions that offer novel insights for understanding and implementing pL-UFG, as well as other graph neural network (GNN) models. Finally, based on our dynamic analysis, we propose two novel pL-UFG models with manually controlled energy dynamics. We demonstrate empirically and theoretically that our proposed models not only inherit the advantages of pL-UFG but also significantly reduce computational costs for training on large-scale graph datasets.
翻訳日:2023-09-20 19:37:58 公開日:2023-09-19
# 弱教師付き位置コントラスト学習 : 硬変分類への応用

Weakly-supervised positional contrastive learning: application to cirrhosis classification ( http://arxiv.org/abs/2307.04617v3 )

ライセンス: Link先を確認
Emma Sarfati and Alexandre B\^one and Marc-Michel Roh\'e and Pietro Gori and Isabelle Bloch(参考訳) 大規模な医療画像データセットは、低信頼で弱いラベル(例えば、放射能スコア)で安価かつ迅速に注釈付けできる。 組織学に基づく診断のような高信頼なラベルへのアクセスは稀で費用がかかる。 コントラスト学習(cl)法のような事前学習戦略は、ラベル付きまたは弱い注釈付きデータセットを活用できる。 これらの手法は通常、大きなバッチサイズを必要とするが、GPUメモリが限られているため、大規模な3D画像のフル解像度化が難しい。 それでも、2次元スライスの空間的文脈に関する体積的位置情報は、医療応用において非常に重要である。 本研究では,2次元スライスの空間的文脈と弱ラベルを汎用的なカーネルベース損失関数で統合する,wsp(weak-supervised positional)コントラスト学習戦略を提案する。 本手法は,多数の弱いラベル付き画像,すなわちラジオロジカル低信頼アノテーション,および小さな強いラベル付き(すなわち高信頼)データセットを用いて肝硬変の予測を行う。 提案モデルでは,内部データセットのベースラインモデルに対してAUCの分類を5%改善し,がんゲノムアトラスのLIHCデータセットでは26%改善した。 コードは、https://github.com/Guerbet-AI/wsp-contrastive.comで入手できる。

Large medical imaging datasets can be cheaply and quickly annotated with low-confidence, weak labels (e.g., radiological scores). Access to high-confidence labels, such as histology-based diagnoses, is rare and costly. Pretraining strategies, like contrastive learning (CL) methods, can leverage unlabeled or weakly-annotated datasets. These methods typically require large batch sizes, which poses a difficulty in the case of large 3D images at full resolution, due to limited GPU memory. Nevertheless, volumetric positional information about the spatial context of each 2D slice can be very important for some medical applications. In this work, we propose an efficient weakly-supervised positional (WSP) contrastive learning strategy where we integrate both the spatial context of each 2D slice and a weak label via a generic kernel-based loss function. We illustrate our method on cirrhosis prediction using a large volume of weakly-labeled images, namely radiological low-confidence annotations, and small strongly-labeled (i.e., high-confidence) datasets. The proposed model improves the classification AUC by 5% with respect to a baseline model on our internal dataset, and by 26% on the public LIHC dataset from the Cancer Genome Atlas. The code is available at: https://github.com/Guerbet-AI/wsp-contrastive.
翻訳日:2023-09-20 19:32:06 公開日:2023-09-19
# ディープラーニングを用いたエンドツーエンド自動運転の最近の進歩

Recent Advancements in End-to-End Autonomous Driving using Deep Learning: A Survey ( http://arxiv.org/abs/2307.04370v2 )

ライセンス: Link先を確認
Pranav Singh Chib, Pravendra Singh(参考訳) エンド・ツー・エンドの運転は、過大な複雑さやエラーの伝播の確率といったモジュラーシステムに関連する欠点を回避するため、有望なパラダイムである。 自動運転は、乗客の安全を保証し、特に高度に確率的かつ可変的な交通状況において快適な交通手段を提供することによって、従来の交通パターンを超越する。 本稿では,エンド・ツー・エンド自動運転スタックについて概観する。 ニューラルネットワークがエンドツーエンドで採用されている自動運転タスクの分類を提供し、現実のアプリケーションで発生する重要な課題に対処すると同時に、知覚から制御までの運転プロセス全体を包含する。 エンド・ツー・エンド自動運転の最近の進歩は分析され、基礎となる原理、方法論、コア機能に基づいて研究が分類される。 これらのカテゴリは、感覚入力、主出力と補助出力、模倣から強化学習までの学習アプローチ、モデル評価技術を含む。 この調査には、説明可能性と安全性に関する詳細な議論が含まれている。 さらに、最先端の評価、課題の特定、将来の可能性を探求する。 我々は最新の進歩とそれに対応するオープンソース実装をhttps://github.com/Pranav-chib/Recent-Advancements-in-End-to-End-Autonomous-Driving-using-Deep-Learn ingで維持した。

End-to-End driving is a promising paradigm as it circumvents the drawbacks associated with modular systems, such as their overwhelming complexity and propensity for error propagation. Autonomous driving transcends conventional traffic patterns by proactively recognizing critical events in advance, ensuring passengers' safety and providing them with comfortable transportation, particularly in highly stochastic and variable traffic settings. This paper presents a comprehensive review of the End-to-End autonomous driving stack. It provides a taxonomy of automated driving tasks wherein neural networks have been employed in an End-to-End manner, encompassing the entire driving process from perception to control, while addressing key challenges encountered in real-world applications. Recent developments in End-to-End autonomous driving are analyzed, and research is categorized based on underlying principles, methodologies, and core functionality. These categories encompass sensorial input, main and auxiliary output, learning approaches ranging from imitation to reinforcement learning, and model evaluation techniques. The survey incorporates a detailed discussion of the explainability and safety aspects. Furthermore, it assesses the state-of-the-art, identifies challenges, and explores future possibilities. We maintained the latest advancements and their corresponding open-source implementations at https://github.com/Pranav-chib/Recent-Advancements-in-End-to-End-Autonomous-Driving-using-Deep-Learn ing.
翻訳日:2023-09-20 19:31:46 公開日:2023-09-19
# Kibble-Zurek メカニズムを超える大きな逸脱

Large Deviations Beyond the Kibble-Zurek Mechanism ( http://arxiv.org/abs/2307.02524v2 )

ライセンス: Link先を確認
Federico Balducci, Mathieu Beau, Jing Yang, Andrea Gambassi, Adolfo del Campo(参考訳) kibble-zurek機構 (kzm) は、連続的あるいは量子的相転移を横切る際に発生する位相的欠陥の平均数は、クエンチ時間を伴う普遍的スケーリング則に従うと予測する。 平衡付近の欠陥数のゆらぎは、中心極限定理と一致して、およそガウス形式である。 大規模な偏差理論を用いて、KZMを超える変動の普遍性を特徴づけ、横場量子イジングモデルにおける速度関数の正確な形を報告する。 さらに, 欠陥数分布の普遍性を確立する最近のエビデンスに基づいて, 任意の連続相転移における大きな偏差のスケーリングを特徴付ける。

The Kibble-Zurek mechanism (KZM) predicts that the average number of topological defects generated upon crossing a continuous or quantum phase transition obeys a universal scaling law with the quench time. Fluctuations in the defect number near equilibrium are approximately of Gaussian form, in agreement with the central limit theorem. Using large deviations theory, we characterize the universality of fluctuations beyond the KZM and report the exact form of the rate function in the transverse-field quantum Ising model. In addition, we characterize the scaling of large deviations in an arbitrary continuous phase transition, building on recent evidence establishing the universality of the defect number distribution.
翻訳日:2023-09-20 19:31:23 公開日:2023-09-19
# 局所固有次元を用いた深部拡散モデルによる画像の検出

Detecting Images Generated by Deep Diffusion Models using their Local Intrinsic Dimensionality ( http://arxiv.org/abs/2307.02347v6 )

ライセンス: Link先を確認
Peter Lorenz, Ricard Durall and Janis Keuper(参考訳) 近年,非常にリアルな画像の視覚的合成に拡散モデルが適用されている。 これにより、悪質な目的に対する潜在的な懸念が高まる。 本稿では,合成画像の自動検出とそれに基づく生成ネットワークの同定のために,元来,敵対例の検出の文脈で開発された軽量なマルチローカル固有次元(multiLID)を提案する。 GAN生成画像に対してのみ動作する多くの既存の検出手法とは対照的に,提案手法は現実的なユースケースの多くにおいて,ほぼ完璧な検出結果を提供する。 既知のデータセットと新たに作成されたデータセットに関する広範な実験は、提案手法が拡散検出とモデル同定において優れていることを示している。 生成画像の検出に関する最近の出版物の実証的評価は、主に「lsun-bedroom」データセットに焦点を当てているため、画像サイズが異なる複数の拡散モデルからのサンプルを含む拡散生成画像の検出に関する包括的なベンチマークを確立する。

Diffusion models recently have been successfully applied for the visual synthesis of strikingly realistic appearing images. This raises strong concerns about their potential for malicious purposes. In this paper, we propose using the lightweight multi Local Intrinsic Dimensionality (multiLID), which has been originally developed in context of the detection of adversarial examples, for the automatic detection of synthetic images and the identification of the according generator networks. In contrast to many existing detection approaches, which often only work for GAN-generated images, the proposed method provides close to perfect detection results in many realistic use cases. Extensive experiments on known and newly created datasets demonstrate that the proposed multiLID approach exhibits superiority in diffusion detection and model identification. Since the empirical evaluations of recent publications on the detection of generated images are often mainly focused on the "LSUN-Bedroom" dataset, we further establish a comprehensive benchmark for the detection of diffusion-generated images, including samples from several diffusion models with different image sizes.
翻訳日:2023-09-20 19:31:10 公開日:2023-09-19
# 実用的なコラボレーティブ知覚:非同期およびマルチエージェント3dオブジェクト検出のためのフレームワーク

Practical Collaborative Perception: A Framework for Asynchronous and Multi-Agent 3D Object Detection ( http://arxiv.org/abs/2307.01462v3 )

ライセンス: Link先を確認
Minh-Quan Dao, Julie Stephany Berrio, Vincent Fr\'emont, Mao Shan, Elwan H\'ery, and Stewart Worrall(参考訳) 咬合は、LiDARベースのオブジェクト検出方法において大きな課題である。 この課題は、多数の道路利用者による障害により視野が著しく低下する一方、衝突を避けるため、エゴ車両が信頼性の高い物体検出を行う必要がある都市交通において、安全上重要となる。 車間コミュニケーション(V2X)による協調的知覚は、接続されたエージェントが複数存在することで様々な視点を生かし、完全なシーン表現を形成することで、魅力的な解決法である。 最先端のV2X方式では,早期の協調作業において,点雲のバードアイビューイメージを交換し,通信点雲よりも通信点雲の帯域消費が低く,また,接続エージェント間の深い相互作用によりエージェントの出力を融合させる遅延協調よりも検出性能が高いという,中間協調方式を用いて,性能帯域幅のトレードオフを解消する。 強力なパフォーマンスを実現する一方で、ほとんどの中途半端なアプローチの実際の展開は、学習可能なコラボレーショングラフやオートエンコーダベースの圧縮/圧縮機、エージェント間の同期に関する非現実的な仮定など、非常に複雑なアーキテクチャによって妨げられている。 本研究では,単一車両検出モデルの変更を最小限に抑えつつ,エージェント間同期における非現実的な仮定を緩和しつつ,従来手法よりも優れた帯域幅性能のトレードオフを実現する,シンプルかつ効果的な協調手法を提案する。 v2x-simデータセットを用いた実験により,提案手法は,遅延コラボレーション法と同等の帯域幅のみを消費しながら,早期コラボレーション法の性能の98\%を達成した。

Occlusion is a major challenge for LiDAR-based object detection methods. This challenge becomes safety-critical in urban traffic where the ego vehicle must have reliable object detection to avoid collision while its field of view is severely reduced due to the obstruction posed by a large number of road users. Collaborative perception via Vehicle-to-Everything (V2X) communication, which leverages the diverse perspective thanks to the presence at multiple locations of connected agents to form a complete scene representation, is an appealing solution. State-of-the-art V2X methods resolve the performance-bandwidth tradeoff using a mid-collaboration approach where the Bird-Eye View images of point clouds are exchanged so that the bandwidth consumption is lower than communicating point clouds as in early collaboration, and the detection performance is higher than late collaboration, which fuses agents' output, thanks to a deeper interaction among connected agents. While achieving strong performance, the real-world deployment of most mid-collaboration approaches is hindered by their overly complicated architectures, involving learnable collaboration graphs and autoencoder-based compressor/ decompressor, and unrealistic assumptions about inter-agent synchronization. In this work, we devise a simple yet effective collaboration method that achieves a better bandwidth-performance tradeoff than prior state-of-the-art methods while minimizing changes made to the single-vehicle detection models and relaxing unrealistic assumptions on inter-agent synchronization. Experiments on the V2X-Sim dataset show that our collaboration method achieves 98\% of the performance of an early-collaboration method, while only consuming the equivalent bandwidth of a late-collaboration method.
翻訳日:2023-09-20 19:30:53 公開日:2023-09-19
# ツイスト光場誘起光遷移による工学的量子制御

Engineering quantum control with twisted-light fields induced optical transitions ( http://arxiv.org/abs/2306.17620v2 )

ライセンス: Link先を確認
T. Zanon-Willette, F. Impens, E. Arimondo, D. Wilkowski, A.V. Taichenachev and V.I. Yudin(参考訳) 光渦ビームとしても知られるツイスト光を用いて、中性Ca, Mg, Yb, Sr, Hg, Cdボソニック同位体中の超狭い原子遷移を駆動する新しい量子制御法を提案する。 この革新的な全光学分光手法は、空間的に調整された電場と磁場を導入し、プローブ誘起周波数シフトと外部交流および直流磁界歪みの付加作用を同時に低減する原子選択規則を完全に書き換える。 ツイスト光集光プローブビームは、高E1M12光子励起速度で1S0-3P0の2倍のクロック遷移を開放するレーザ伝播軸に沿って強い縦方向の電場及び磁場を生成する。 この長寿命の時計転移は非スカラー電磁摂動に免疫を持つ。 量子計算とシミュレーションのために考慮されたm2磁気四極子1s0-3p2遷移のゼーマン成分は、電界が消滅した横または縦の磁場勾配によって選択的に駆動される。 これらの場勾配は光ビームの軌道角運動量とスピン角運動量の相互作用によって操作され、可変ベクトルとテンソル偏光率の存在下で用いられる。 これら2つの異なるねじれ光誘起クロック遷移の組み合わせは、同じ魔法の波長で、共通の熱環境が存在する場合、不確実性を著しく減少させる。 さらに、ブラックボディの放射シフトとその室温での変動を効率的に制限する光学合成周波数を生成する。 光渦による工学的な光-物質相互作用は、量子状態の最適コヒーレントな制御、依存量子シミュレーション、原子干渉計への新しいアプローチ、物理学および高精度光メトロジーの基礎理論の精密テストをターゲットにした実験原子および分子プラットフォームに恩恵をもたらす。

A novel form of quantum control is proposed by applying twisted-light also known as optical vortex beams to drive ultra-narrow atomic transitions in neutral Ca, Mg, Yb, Sr, Hg and Cd bosonic isotopes. This innovative all-optical spectroscopic method introduces spatially tailored electric and magnetic fields to fully rewrite atomic selection rules reducing simultaneously probe-induced frequency-shifts and additional action of external ac and dc field distortions. A twisted-light focused probe beam produces strong longitudinal electric and magnetic fields along the laser propagation axis which opens the 1S0-3P0 doubly forbidden clock transition with a high E1M1 two-photon excitation rate. This long-lived clock transition is thus immune to nonscalar electromagnetic perturbations. Zeeman components of the M2 magnetic quadrupole 1S0-3P2 transition considered for quantum computation and simulation are now selectively driven by transverse or longitudinal field gradients with vanishing electric fields. These field gradients are manipulated by the mutual action of orbital and spin angular momentum of the light beam and are used in presence of tunable vector and tensor polarizabilities. A combination of these two different twisted-light induced clock transitions within a single quantum system, at the same magic wavelength and in presence of a common thermal environment significantly reduces systematic uncertainties. Furthermore, it generates an optical synthetic frequency which efficiently limits the blackbody radiation shift and its variations at room temperature. Engineering light-matter interaction by optical vortices will benefit to experimental atomic and molecular platforms targeting an optimal coherent control of quantum states, reliant quantum simulation, novel approach to atomic interferometry and precision tests of fundamental theories in physics and high-accuracy optical metrology.
翻訳日:2023-09-20 19:30:20 公開日:2023-09-19
# ミリグラムスケールイットリウム鉄ガーネット球の強磁性浮上と高調波トラップ

Ferromagnetic levitation and harmonic trapping of a milligram-scale Yttrium Iron Garnet sphere ( http://arxiv.org/abs/2306.13917v2 )

ライセンス: Link先を確認
Maria Fuwa, Ryosuke Sakagami, and Tsuyoshi Tamegai(参考訳) 4kで0.3ミリグラム,0.5ミリメートルのイットリウム鉄ガーネット球体の受動磁気浮上と3次元高調波トラッピングを報告した。 浮揚球の動力学は、最大600 hz のトラッピング周波数と機械式$q$-factors ($q \sim 10^3$) の順に光学的に測定された。 これらの結果は3次元有限要素法シミュレーションにより定量的に再現された。 我々の結果は、磁気、剛体運動、マイクロ波、光学が相互作用する新しいシステムを提供することができる。

We report passive magnetic levitation and three-dimensional harmonic trapping of a 0.3 milligram, 0.5 millimeter diameter Yttrium Iron Garnet sphere at 4 K. The gradient of an external magnetic field is used for vertical trapping, while the finite size effect of the diamagnetic effect is used for horizontal trapping. The dynamics of the levitated sphere was optically measured to have trapping frequencies of up to around 600 Hz and mechanical $Q$-factors in the order of $Q \sim 10^3$. These results were quantitatively reproduced by three-dimensional finite element method simulations. Our results can provide a novel system where magnetism, rigid body motions, microwaves, and optics interact.
翻訳日:2023-09-20 19:29:47 公開日:2023-09-19
# 伝送線路形状における高インピーダンスジョセフソン接合共振器

High Impedance Josephson Junction Resonators in the Transmission Line Geometry ( http://arxiv.org/abs/2306.12701v2 )

ライセンス: Link先を確認
Antti Ranni, Harald Havir, Subhomoy Haldar, Ville F. Maisi(参考訳) 本稿では,ジョセフソン接合を用いたマイクロ波共振器の実験的検討を行う。 接合部は伝送線路形状に埋め込まれており、線路の長さごとのインダクタンスを増加させる。 入力/出力結合強度が異なる2つのデバイスを比較することで、結合コンデンサは共振器の総容量にかなりの量を加えることを示す。 これにより、結合容量の高い共振器は、接合部からのインダクタンスと端部からのキャパシタンスとの共振器として機能する。 回路解析により、共振器の入出力結合は、共振周波数が$\omega_r$、入出力線路と共振器の特性インピーダンスが$z_0$、$z_r$である場合の最大値$\omega_r z_0/4z_r$に制限されることを示す。

In this article we present an experimental study of microwave resonators made out of Josephson junctions. The junctions are embedded in a transmission line geometry so that they increase the inductance per length for the line. By comparing two devices with different input/output coupling strengths, we show that the coupling capacitors, however, add a significant amount to the total capacitance of the resonator. This makes the resonators with high coupling capacitance to act rather as lumped element resonators with inductance from the junctions and capacitance from the end sections. Based on a circuit analysis, we show that the input and output couplings of the resonator are limited to a maximum value of $\omega_r Z_0 /4 Z_r$ where $\omega_r$ is the resonance frequency and $Z_0$ and $Z_r$ are the characteristic impedances of the input/output lines and the resonator respectively.
翻訳日:2023-09-20 19:29:35 公開日:2023-09-19
# q$変形したハミルトンsu(3)ヤンミルズ理論の定式化

$q$ deformed formulation of Hamiltonian SU(3) Yang-Mills theory ( http://arxiv.org/abs/2306.12324v2 )

ライセンス: Link先を確認
Tomoya Hayata, Yoshimasa Hidaka(参考訳) 我々はウィルソン線のネットワークに基づく$(2+1)$次元で$\mathrm{SU}(3)$ Yang-Mills理論を研究する。 q$変形の助けを借りて、ネットワークは量子群として(離散化)$\mathrm{SU}(3)$ゲージ対称性、すなわち$\mathrm{SU}(3)_k$を尊重し、量子および古典的アルゴリズムにおける$\mathrm{SU}(3)$ヤン・ミルズ理論の実装を可能にすることができる。 実演として、従来のモンテカルロシミュレーションと十分大きな k$ を取ることでよく一致する $\mathrm{su}(3)_k$ yang-mills 理論の基底状態の平均場計算を行う。 平均場計算の変分アンサッツは無限射影絡み状態と呼ばれるテンソルネットワークによって表現できる。 平均場計算の成功は、yang-mills理論の本質的な特徴がテンソルネットワークによってよく説明され、yang-mills理論の数値シミュレーションに有用であることを示している。

We study $\mathrm{SU}(3)$ Yang-Mills theory in $(2+1)$ dimensions based on networks of Wilson lines. With the help of the $q$ deformation, networks respect the (discretized) $\mathrm{SU}(3)$ gauge symmetry as a quantum group, i.e., $\mathrm{SU}(3)_k$, and may enable implementations of $\mathrm{SU}(3)$ Yang-Mills theory in quantum and classical algorithms by referring to those of the stringnet model. As a demonstration, we perform a mean-field computation of the groundstate of $\mathrm{SU}(3)_k$ Yang-Mills theory, which is in good agreement with the conventional Monte Carlo simulation by taking sufficiently large $k$. The variational ansatz of the mean-field computation can be represented by the tensor networks called infinite projected entangled pair states. The success of the mean-field computation indicates that the essential features of Yang-Mills theory are well described by tensor networks, so that they may be useful in numerical simulations of Yang-Mills theory.
翻訳日:2023-09-20 19:29:16 公開日:2023-09-19
# 微分方程式の高速量子アルゴリズム

Fast quantum algorithm for differential equations ( http://arxiv.org/abs/2306.11802v2 )

ライセンス: Link先を確認
Mohsen Bagherimehrab, Kouhei Nakaji, Nathan Wiebe, Al\'an Aspuru-Guzik(参考訳) 偏微分方程式 (pdes) は科学や工学においてユビキタスである。 PDEの離散化から得られる線形代数方程式の系を解くための以前の量子アルゴリズムは、計算に関わる行列の条件数$\kappa$と少なくとも線形にスケールする計算複雑性を持つ。 多くの実用的な応用において、$\kappa$ は多項式的に行列のサイズ $n$ でスケールし、これらのアルゴリズムの多項式-in-$n$ の複雑さをもたらす。 ここでは、PDE の大きなクラスに対して、N$ の多元対数であるが $\kappa$ とは独立な複雑性を持つ量子アルゴリズムを提案する。 我々のアルゴリズムは、解の特徴を抽出できる量子状態を生成する。 我々の方法論の中心はウェーブレット基底を座標の補助系として使い、関連する行列の条件番号が単純な対角前処理器によって$N$とは独立である。 いくつかの微分方程式に対するウェーブレットプレコンディショナーの効果を示す数値シミュレーションを提案する。 我々の研究は、標準手法が離散化に使用される量子シミュレーションアルゴリズムの性能を向上させる実用的な方法を提供するかもしれない。

Partial differential equations (PDEs) are ubiquitous in science and engineering. Prior quantum algorithms for solving the system of linear algebraic equations obtained from discretizing a PDE have a computational complexity that scales at least linearly with the condition number $\kappa$ of the matrices involved in the computation. For many practical applications, $\kappa$ scales polynomially with the size $N$ of the matrices, rendering a polynomial-in-$N$ complexity for these algorithms. Here we present a quantum algorithm with a complexity that is polylogarithmic in $N$ but is independent of $\kappa$ for a large class of PDEs. Our algorithm generates a quantum state that enables extracting features of the solution. Central to our methodology is using a wavelet basis as an auxiliary system of coordinates in which the condition number of associated matrices is independent of $N$ by a simple diagonal preconditioner. We present numerical simulations showing the effect of the wavelet preconditioner for several differential equations. Our work could provide a practical way to boost the performance of quantum-simulation algorithms where standard methods are used for discretization.
翻訳日:2023-09-20 19:28:49 公開日:2023-09-19
# グラフニューラルネットワークを用いた表面メッシュからの体脂肪推定

Body Fat Estimation from Surface Meshes using Graph Neural Networks ( http://arxiv.org/abs/2308.02493v2 )

ライセンス: Link先を確認
Tamara T. Mueller, Siyu Zhou, Sophie Starck, Friederike Jungmann, Alexander Ziller, Orhun Aksoy, Danylo Movchan, Rickmer Braren, Georgios Kaissis, Daniel Rueckert(参考訳) 体脂肪の量と分布は、患者の健康状態および2型糖尿病や心血管疾患などの疾患の発症リスクの強い兆候である。 脂肪推定によく用いられる指標は、BMI(Body mass index)、腰周囲、腰ヒップ比である。 しかし、これらはむしろ不正確な手段であり、異なる種類の脂肪と脂肪と筋肉組織の区別を許さない。 腹腔内(vat)および腹部皮下(asat)脂肪組織量の推定は,より正確な危険因子の指標であることが示された。 本研究では, グラフニューラルネットワークを用いて, VATおよびASATボリュームを正確に予測するために, 三角体表面メッシュを使用できることを示す。 本手法は,この領域の最先端畳み込みニューラルネットワークと比較して,トレーニング時間と必要なリソースを削減しつつ高い性能を実現する。 さらに,この手法は高価な医用画像ではなく,安価で手軽にアクセスできる医用表面スキャンに適用できると考えられる。

Body fat volume and distribution can be a strong indication for a person's overall health and the risk for developing diseases like type 2 diabetes and cardiovascular diseases. Frequently used measures for fat estimation are the body mass index (BMI), waist circumference, or the waist-hip-ratio. However, those are rather imprecise measures that do not allow for a discrimination between different types of fat or between fat and muscle tissue. The estimation of visceral (VAT) and abdominal subcutaneous (ASAT) adipose tissue volume has shown to be a more accurate measure for named risk factors. In this work, we show that triangulated body surface meshes can be used to accurately predict VAT and ASAT volumes using graph neural networks. Our methods achieve high performance while reducing training time and required resources compared to state-of-the-art convolutional neural networks in this area. We furthermore envision this method to be applicable to cheaper and easily accessible medical surface scans instead of expensive medical images.
翻訳日:2023-09-20 19:20:51 公開日:2023-09-19
# オンラインスキルレーティングにおけるモデリングと推論に関する状態空間的視点

A State-Space Perspective on Modelling and Inference for Online Skill Rating ( http://arxiv.org/abs/2308.02414v2 )

ライセンス: Link先を確認
Samuel Duffield, Samuel Power, Lorenzo Rimella(参考訳) 本稿では,競技競技における技能評価における主手法について概観する。 我々は,選手のスキルを時間変動として表現し,マッチ結果が唯一の観測量となる状態空間モデル視点を提唱する。 状態空間モデルの観点はモデリングと推論の分離を促進し、モデルの仮定を強調するより焦点を絞ったアプローチを可能にし、汎用推論ツールの開発を促進する。 本稿では,3段階の推論(フィルタリング,平滑化,パラメータ推定)で議論を始める前に,スキル評価のための状態空間モデルを構築するための重要なステップを検討する。 全体として,多数の選手とマッチを含む高次元シナリオまでスケールアップする計算上の課題について検討し,これらの課題を効果的に解決するために使用される近似と縮小を強調する。 文献に記録されている一般的な手法の簡潔な要約と推論パラダイムを提供し、連続モンテカルロおよび有限状態空間に基づくスキル評価推論の新しいアプローチを提案する。 様々なスポーツにおける実データに対する実用的なワークフローを実証する数値実験を締めくくった。

This paper offers a comprehensive review of the main methodologies used for skill rating in competitive sports. We advocate for a state-space model perspective, wherein players' skills are represented as time-varying, and match results serve as the sole observed quantities. The state-space model perspective facilitates the decoupling of modeling and inference, enabling a more focused approach highlighting model assumptions, while also fostering the development of general-purpose inference tools. We explore the essential steps involved in constructing a state-space model for skill rating before turning to a discussion on the three stages of inference: filtering, smoothing and parameter estimation. Throughout, we examine the computational challenges of scaling up to high-dimensional scenarios involving numerous players and matches, highlighting approximations and reductions used to address these challenges effectively. We provide concise summaries of popular methods documented in the literature, along with their inferential paradigms and introduce new approaches to skill rating inference based on sequential Monte Carlo and finite state-spaces. We close with numerical experiments demonstrating a practical workflow on real data across different sports.
翻訳日:2023-09-20 19:20:33 公開日:2023-09-19
# VQGraph: GNNとMLPをブリッジするグラフ表現空間の再考

VQGraph: Rethinking Graph Representation Space for Bridging GNNs and MLPs ( http://arxiv.org/abs/2308.02117v2 )

ライセンス: Link先を確認
Ling Yang, Ye Tian, Minkai Xu, Zhongyi Liu, Shenda Hong, Wei Qu, Wentao Zhang, Bin Cui, Muhan Zhang, Jure Leskovec(参考訳) GNN-to-MLP蒸留は,教師GNNの出力表現を模倣することにより,知識蒸留(KD)を用いて,グラフデータ上で計算効率の高い多層パーセプトロン(Student MLP)を学習することを目的とする。 既存の手法により、MLPはいくつかのクラスラベルでGNN予測を模倣する。 しかし、クラス空間は様々な局所グラフ構造をカバーするのに十分表現できないため、GNN から MLP への知識伝達の性能が制限される。 この問題に対処するために,GNN-to-MLP蒸留のためのノードの多様な局所構造を直接ラベル付けすることで,新しい強力なグラフ表現空間を学習することを提案する。 具体的には,各ノードの局所部分構造を離散コードとしてエンコード可能なグラフデータ上の構造認識トークン化器を学習するために,VQ-VAEの変種を提案する。 離散符号は、対応する符号インデックスを持つノードの異なる局所グラフ構造を識別できる新しいグラフ表現空間としてコードブックを構成する。 そして,学習したコードブックに基づいて,各ノードの構造的知識を直接GNNからMPPに転送する新しい蒸留ターゲット,すなわちソフトコード代入を提案する。 結果として得られるフレームワークであるVQGraphは、7つのグラフデータセットにまたがるトランスダクティブおよびインダクティブな設定において、GNN-to-MLP蒸留における最先端のパフォーマンスを実現する。 その結果、性能が良くなるvqgraphはgnnより828倍速く、gnnやスタンドアローンmlpと比べて平均で3.90%、28.05%の精度向上を達成していることがわかった。 コード:https://github.com/YangLing0818/VQGraph。

GNN-to-MLP distillation aims to utilize knowledge distillation (KD) to learn computationally-efficient multi-layer perceptron (student MLP) on graph data by mimicking the output representations of teacher GNN. Existing methods mainly make the MLP to mimic the GNN predictions over a few class labels. However, the class space may not be expressive enough for covering numerous diverse local graph structures, thus limiting the performance of knowledge transfer from GNN to MLP. To address this issue, we propose to learn a new powerful graph representation space by directly labeling nodes' diverse local structures for GNN-to-MLP distillation. Specifically, we propose a variant of VQ-VAE to learn a structure-aware tokenizer on graph data that can encode each node's local substructure as a discrete code. The discrete codes constitute a codebook as a new graph representation space that is able to identify different local graph structures of nodes with the corresponding code indices. Then, based on the learned codebook, we propose a new distillation target, namely soft code assignments, to directly transfer the structural knowledge of each node from GNN to MLP. The resulting framework VQGraph achieves new state-of-the-art performance on GNN-to-MLP distillation in both transductive and inductive settings across seven graph datasets. We show that VQGraph with better performance infers faster than GNNs by 828x, and also achieves accuracy improvement over GNNs and stand-alone MLPs by 3.90% and 28.05% on average, respectively. Code: https://github.com/YangLing0818/VQGraph.
翻訳日:2023-09-20 19:20:14 公開日:2023-09-19
# グラフニューラルネットワークのための拡張グラフ評価指標

Extended Graph Assessment Metrics for Graph Neural Networks ( http://arxiv.org/abs/2307.10112v2 )

ライセンス: Link先を確認
Tamara T. Mueller, Sophie Starck, Leonhard F. Feiner, Kyriaki-Margarita Bintsi, Daniel Rueckert, Georgios Kaissis(参考訳) 患者コホートをいわゆる人口グラフに再構成する場合、最初に独立したデータポイントを1つの相互接続グラフ構造に組み込むことができる。 この人口グラフは、グラフニューラルネットワーク(gnns)を使用して医療下流タスクに使用できる。 適切なグラフ構造の構築は、モデルパフォーマンスに深刻な影響を与える可能性のある学習パイプラインの難しいステップである。 この目的のために、グラフ構造を評価するために異なるグラフアセスメント指標が導入された。 しかし、これらのメトリクスは分類タスクと離散隣接行列に限定され、実世界のアプリケーションの小さなサブセットのみをカバーする。 本稿では,回帰タスクと連続隣接行列に対する拡張グラフアセスメント指標(GAM)を紹介する。 我々は2つのGAMに特化して焦点を当てる: \textit{homophily} と \textit{cross-class neighborhoodhood similarity} (CCNS)。 我々は、GAMの概念を1つ以上のホップに拡張し、回帰タスクと連続隣接行列をホモフィリーに定義し、離散および連続隣接行列に対する軽量CCNS距離を提案する。 これらの測定値とモデルパフォーマンスの関係を,異なる医療人口グラフと異なる学習環境において示す。

When re-structuring patient cohorts into so-called population graphs, initially independent data points can be incorporated into one interconnected graph structure. This population graph can then be used for medical downstream tasks using graph neural networks (GNNs). The construction of a suitable graph structure is a challenging step in the learning pipeline that can have severe impact on model performance. To this end, different graph assessment metrics have been introduced to evaluate graph structures. However, these metrics are limited to classification tasks and discrete adjacency matrices, only covering a small subset of real-world applications. In this work, we introduce extended graph assessment metrics (GAMs) for regression tasks and continuous adjacency matrices. We focus on two GAMs in specific: \textit{homophily} and \textit{cross-class neighbourhood similarity} (CCNS). We extend the notion of GAMs to more than one hop, define homophily for regression tasks, as well as continuous adjacency matrices, and propose a light-weight CCNS distance for discrete and continuous adjacency matrices. We show the correlation of these metrics with model performance on different medical population graphs and under different learning settings.
翻訳日:2023-09-20 19:19:44 公開日:2023-09-19
# think-on-graph:知識グラフを用いた大規模言語モデルの深く責任ある推論

Think-on-Graph: Deep and Responsible Reasoning of Large Language Model with Knowledge Graph ( http://arxiv.org/abs/2307.07697v2 )

ライセンス: Link先を確認
Jiashuo Sun, Chengjin Xu, Lumingyuan Tang, Saizhuo Wang, Chen Lin, Yeyun Gong, Heung-Yeung Shum, Jian Guo(参考訳) 大規模言語モデル(llm)は様々なタスクにおいて大きな進歩を遂げているが、複雑な推論に苦しめられ、知識のトレーサビリティ、タイムライン、正確性が重要なシナリオでは性能が低下している。 このような制約に対処するため,知識グラフを活用したLLMの深層かつ責任ある推論能力を高める新しいフレームワークであるThink-on-Graph(ToG)を提案する。 ToGを利用することで、与えられた質問に関連するエンティティを識別し、探索と推論を行い、外部知識データベースから関連するトリプルを検索することができる。 逐次接続された三重項からなる複数の推論経路を、質問に答えるのに十分な情報を集めるか、最大深さに達するまで生成する。 複雑なマルチホップ推論課題の実験を通じて, tog が既存の手法よりも優れており,追加のトレーニングコストを伴わずに llm の限界を効果的に解決できることを実証する。

Large language models (LLMs) have made significant strides in various tasks, yet they often struggle with complex reasoning and exhibit poor performance in scenarios where knowledge traceability, timeliness, and accuracy are crucial. To address these limitations, we present Think-on-Graph (ToG), a novel framework that leverages knowledge graphs to enhance LLMs' ability for deep and responsible reasoning. By employing ToG, we can identify entities relevant to a given question and conduct exploration and reasoning to retrieve related triples from an external knowledge database. This iterative procedure generates multiple reasoning pathways consisting of sequentially connected triplets until sufficient information is gathered to answer the question or the maximum depth is reached. Through experiments on complex multi-hop reasoning question-answering tasks, we demonstrate that ToG outperforms existing methods, effectively addressing the aforementioned limitations of LLMs without incurring additional training costs.
翻訳日:2023-09-20 19:19:28 公開日:2023-09-19
# Uni-NLX:視覚・視覚言語タスクのためのテキスト記述の統合

Uni-NLX: Unifying Textual Explanations for Vision and Vision-Language Tasks ( http://arxiv.org/abs/2308.09033v2 )

ライセンス: Link先を確認
Fawaz Sammani, Nikos Deligiannis(参考訳) 自然言語説明(NLE)は、人間に優しい自然文によるモデルの予測を補うことを目的としている。 既存のNLEアプローチでは、ダウンストリームタスク毎に別々のモデルをトレーニングする。 本研究では,テキスト生成の統一的学習目標を用いて,すべてのNLEタスクを単一かつコンパクトなマルチタスクモデルに統合する統一フレームワークUni-NLXを提案する。 さらに、2つの新しいNLEデータセットを紹介します。 1)imagenetx、imagenetのカテゴリを説明するための144kサンプルのデータセット、 2) VQA-ParaXは,視覚質問応答(VQA)の課題を説明するための123Kサンプルのデータセットである。 両方のデータセットは、大きな言語モデル(LLM)を利用する。 1M組み合わせのNLEサンプルをトレーニングすることにより、VQA、視覚認識、視覚推論タスクを含む7つのNLEタスクを7倍のパラメータで同時に実行し、従来の手法で独立したタスク固有モデルに匹敵する性能を示し、特定のタスクでさらに優れています。 コードはhttps://github.com/fawazsammani/uni-nlxにある。

Natural Language Explanations (NLE) aim at supplementing the prediction of a model with human-friendly natural text. Existing NLE approaches involve training separate models for each downstream task. In this work, we propose Uni-NLX, a unified framework that consolidates all NLE tasks into a single and compact multi-task model using a unified training objective of text generation. Additionally, we introduce two new NLE datasets: 1) ImageNetX, a dataset of 144K samples for explaining ImageNet categories, and 2) VQA-ParaX, a dataset of 123K samples for explaining the task of Visual Question Answering (VQA). Both datasets are derived leveraging large language models (LLMs). By training on the 1M combined NLE samples, our single unified framework is capable of simultaneously performing seven NLE tasks including VQA, visual recognition and visual reasoning tasks with 7X fewer parameters, demonstrating comparable performance to the independent task-specific models in previous approaches, and in certain tasks even outperforming them. Code is at https://github.com/fawazsammani/uni-nlx
翻訳日:2023-09-20 19:11:23 公開日:2023-09-19
# 関係量子力学と文脈性

Relational Quantum Mechanics and Contextuality ( http://arxiv.org/abs/2308.08922v2 )

ライセンス: Link先を確認
Calum J. Robson(参考訳) 本稿では,関係量子力学に関する諸問題について論じる。 まず、RQMが測定の文脈性から従うという仮説に固執する前に、その解釈の根底にある可能性のあるオントロジーについて議論する。 次に、一貫性のあるヒストリー形式における量子論理へのアプローチを用いて、システムのどの情報を異なる観測者間で共有できるかを明らかにする。 最後に、特殊相対性理論とRQMの類似性と相違について論じる。

This paper discusses several issues around Relational Quantum Mechanics. First, I discuss possible ontologies underlying the interpretation, before settling on the hypothesis that RQM follows from contextuality of measurements, due to quantum measurements changing the system measured. I then examine how the approach to quantum logic in the consistent histories formalism can be used to clarify which information about a system can be shared between different observers. Finally I discuss the similarities and differences between special relativity and RQM.
翻訳日:2023-09-20 19:11:03 公開日:2023-09-19
# 容量付き車両経路問題に対する実現可能性保存量子近似解法

A Feasibility-Preserved Quantum Approximate Solver for the Capacitated Vehicle Routing Problem ( http://arxiv.org/abs/2308.08785v2 )

ライセンス: Link先を確認
Ningyi Xie, Xinwei Lee, Dongsheng Cai, Yoshiyuki Saito, Nobuyoshi Asai, Hoong Chuin Lau(参考訳) capacitated vehicle routing problem (cvrp) はnp最適化問題(npo)であり、輸送や物流など様々な分野で発生する。 CVRPは、各車両の輸送能力の制限を受けながら、車両群が顧客に商品を届ける最も効率的な計画を決定することを目的として、車両ルーティング問題(VRP)から拡張されている。 顧客数が増加すると可能なソリューションの数は急増するので、最適なソリューションを見つけることは依然として大きな課題である。 近年、量子近似最適化アルゴリズム (QAOA) と呼ばれる量子古典ハイブリッドアルゴリズムは、古典的ヒューリスティックスと比較して組合せ最適化問題のより良い解を提供することができる。 しかし、qaoaはcvrpを含むいくつかの制約付き最適化問題に対して、高品質なソリューションを作る能力が低下している。 改善の1つの潜在的アプローチは、Grover-Mixer Quantum Alternating Operator Ansatz (GM-QAOA)として知られるQAOAのバリエーションである。 本研究では,GM-QAOAを用いてCVRPを解く。 本稿では,CVRPの車載容量制約を回避できる最短経路を最小化する目的関数として,CVRPの新しいバイナリエンコーディングを提案する。 検索空間はGrover-Mixerによってさらに制限されている。 提案手法の有効性を,いくつかの実例に応用して検討し,検討した。

The Capacitated Vehicle Routing Problem (CVRP) is an NP-optimization problem (NPO) that arises in various fields including transportation and logistics. The CVRP extends from the Vehicle Routing Problem (VRP), aiming to determine the most efficient plan for a fleet of vehicles to deliver goods to a set of customers, subject to the limited carrying capacity of each vehicle. As the number of possible solutions skyrockets when the number of customers increases, finding the optimal solution remains a significant challenge. Recently, a quantum-classical hybrid algorithm known as Quantum Approximate Optimization Algorithm (QAOA) can provide better solutions in some cases of combinatorial optimization problems, compared to classical heuristics. However, the QAOA exhibits a diminished ability to produce high-quality solutions for some constrained optimization problems including the CVRP. One potential approach for improvement involves a variation of the QAOA known as the Grover-Mixer Quantum Alternating Operator Ansatz (GM-QAOA). In this work, we attempt to use GM-QAOA to solve the CVRP. We present a new binary encoding for the CVRP, with an alternative objective function of minimizing the shortest path that bypasses the vehicle capacity constraint of the CVRP. The search space is further restricted by the Grover-Mixer. We examine and discuss the effectiveness of the proposed solver through its application to several illustrative examples.
翻訳日:2023-09-20 19:10:55 公開日:2023-09-19
# 注意はこれ以上必要なものではない

Attention Is Not All You Need Anymore ( http://arxiv.org/abs/2308.07661v2 )

ライセンス: Link先を確認
Zhe Chen(参考訳) 近年,自然言語処理やコンピュータビジョンなど,多くの応用分野において人気のTransformerアーキテクチャが大きな成功を収めている。 既存の多くの作品は、性能のトレードオフによって変圧器の自己着脱機構の計算とメモリの複雑さを減らすことを目的としている。 しかし、Transformerの継続的な成功の鍵はパフォーマンスにある。 本稿では, 変圧器の自己保持機構であるエクストラクタ(Extractors)と呼ばれる, ドロップイン置換器のファミリーを提案する。 超高性能エクストラクタ(SHE)、高性能エクストラクタ(HE)、価値のあるエクストラクタ(WE)、ミニマリストエクストラクタ(ME)の4種類のエクストラクタがその一例として提案されている。 実験の結果,自己保持機構をSHEに置き換えることでトランスフォーマーの性能が向上するのに対して,SHEの簡易版であるHE,WE,MEは計算量やメモリの複雑さを小さくして自己保持機構に近い程度に動作することがわかった。 さらに,提案したエクストラクタは,計算のクリティカルパスがはるかに短いため,自己認識機構よりも高速に動作することができる。 さらに,テキスト生成の文脈におけるシーケンス予測問題を可変長離散時間マルコフ連鎖を用いて定式化し,その理解に基づいてトランスフォーマーについて検討する。

In recent years, the popular Transformer architecture has achieved great success in many application areas, including natural language processing and computer vision. Many existing works aim to reduce the computational and memory complexity of the self-attention mechanism in the Transformer by trading off performance. However, performance is key for the continuing success of the Transformer. In this paper, a family of drop-in replacements for the self-attention mechanism in the Transformer, called the Extractors, is proposed. Four types of the Extractors, namely the super high-performance Extractor (SHE), the higher-performance Extractor (HE), the worthwhile Extractor (WE), and the minimalist Extractor (ME), are proposed as examples. Experimental results show that replacing the self-attention mechanism with the SHE evidently improves the performance of the Transformer, whereas the simplified versions of the SHE, i.e., the HE, the WE, and the ME, perform close to or better than the self-attention mechanism with less computational and memory complexity. Furthermore, the proposed Extractors have the potential or are able to run faster than the self-attention mechanism since their critical paths of computation are much shorter. Additionally, the sequence prediction problem in the context of text generation is formulated using variable-length discrete-time Markov chains, and the Transformer is reviewed based on our understanding.
翻訳日:2023-09-20 19:10:33 公開日:2023-09-19
# 胸部X線画像と胸部臨床情報を組み合わせた二重生成モデルを用いた合成データ生成法

Method for Generating Synthetic Data Combining Chest Radiography Images with Tabular Clinical Information Using Dual Generative Models ( http://arxiv.org/abs/2308.07573v2 )

ライセンス: Link先を確認
Tomohiro Kikuchi, Shouhei Hanaoka, Takahiro Nakao, Tomomi Takenaga, Yukihiro Nomura, Harushi Mori, Takeharu Yoshikawa(参考訳) GAN(Generative Adversarial Networks)を用いた合成医療記録の生成は,プライバシの懸念に対処し,医療領域におけるデータ共有を促進する上で重要である。 本稿では,画像データと非画像データを組み合わせた合成ハイブリッド医療記録を作成する手法について,自動符号化GAN(alphaGAN)と条件付き表状GAN(CTGAN)を用いて紹介する。 Our methodology encompasses three primary steps: I) Dimensional reduction of images in a private dataset (pDS) using the pretrained encoder of the {\alpha}GAN, followed by integration with the remaining non-image clinical data to form tabular representations; II) Training the CTGAN on the encoded pDS to produce a synthetic dataset (sDS) which amalgamates encoded image features with non-image clinical data; and III) Reconstructing synthetic images from the image features using the alphaGAN's pretrained decoder. 胸部x線 (cxrs) と非画像臨床変数 (7つのカテゴリと6つの数値変数) を併用した合成記録の作成に成功した。 sDSの有効性を評価するため,分類および回帰タスクを設計し,pDSおよびsDSで訓練されたモデルの性能をpDSテストセットと比較した。 また,SDSの5倍のボリュームをトレーニングに利用することにより,ネイティブpDSに比べてわずかに劣る分類と回帰結果を得た。 本手法は,セカンダリデータ利用の可能性を損なうことなく,人工データセットの公開を約束する。

The generation of synthetic medical records using Generative Adversarial Networks (GANs) is becoming crucial for addressing privacy concerns and facilitating data sharing in the medical domain. In this paper, we introduce a novel method to create synthetic hybrid medical records that combine both image and non-image data, utilizing an auto-encoding GAN (alphaGAN) and a conditional tabular GAN (CTGAN). Our methodology encompasses three primary steps: I) Dimensional reduction of images in a private dataset (pDS) using the pretrained encoder of the {\alpha}GAN, followed by integration with the remaining non-image clinical data to form tabular representations; II) Training the CTGAN on the encoded pDS to produce a synthetic dataset (sDS) which amalgamates encoded image features with non-image clinical data; and III) Reconstructing synthetic images from the image features using the alphaGAN's pretrained decoder. We successfully generated synthetic records incorporating both Chest X-Rays (CXRs) and thirteen non-image clinical variables (comprising seven categorical and six numeric variables). To evaluate the efficacy of the sDS, we designed classification and regression tasks and compared the performance of models trained on pDS and sDS against the pDS test set. Remarkably, by leveraging five times the volume of sDS for training, we achieved classification and regression results that were comparable, if slightly inferior, to those obtained using the native pDS. Our method holds promise for publicly releasing synthetic datasets without undermining the potential for secondary data usage.
翻訳日:2023-09-20 19:10:09 公開日:2023-09-19
# fusionplanner:マルチセンサー融合法を用いたトラックマイニング用マルチタスクモーションプランナー

FusionPlanner: A Multi-task Motion Planner for Mining Trucks using Multi-sensor Fusion Method ( http://arxiv.org/abs/2308.06931v2 )

ライセンス: Link先を確認
Siyu Teng, Luxi Li, Yuchen Li, Xuemin Hu, Lingxi Li, Yunfeng Ai, Long Chen(参考訳) 近年、インテリジェントな車両の動作計画において大きな成果が得られている。 しかし、典型的な非構造環境として、複雑な運用条件と環境要因により、露天掘りは限られた注意を惹きつける。 本研究では, シミュレーションプラットフォーム, テストベンチマーク, 信頼性, 堅牢な移動プランナなど, オープンピット鉱山における無人輸送の包括的パラダイムを提案する。 まず,マルチセンサフュージョン法による自律走行走行車用マルチタスク運動計画アルゴリズムFusionPlannerを提案し,横方向および縦方向の制御タスクを無人輸送に適用する。 そこで我々は,オープンピット鉱山の交通路におけるアルゴリズムの信頼性とロバスト性を評価するための3つの検証手法であるminingnavを開発した。 最後に,オープンピットマイニングを想定した新しい高忠実度シミュレータであるparallel mining simulator (pms)について紹介する。 PMSにより、ユーザーはシングルトラック制御とマルチトラックスケジューリングの両方の観点からオープンピットの鉱山輸送を管理し制御できる。 fusion planner の性能は pms において miningnav によってテストされ、実験結果から我々のプランナーの衝突や乗っ取りの回数が大幅に減少することが示された。 我々は、我々の無人輸送パラダイムが、マイニングトラックの信頼性と堅牢性に一歩近づくことを期待している。

In recent years, significant achievements have been made in motion planning for intelligent vehicles. However, as a typical unstructured environment, open-pit mining attracts limited attention due to its complex operational conditions and adverse environmental factors. A comprehensive paradigm for unmanned transportation in open-pit mines is proposed in this research, including a simulation platform, a testing benchmark, and a trustworthy and robust motion planner. Firstly, we propose a multi-task motion planning algorithm, called FusionPlanner, for autonomous mining trucks by the Multi-sensor fusion method to adapt both lateral and longitudinal control tasks for unmanned transportation. Then, we develop a novel benchmark called MiningNav, which offers three validation approaches to evaluate the trustworthiness and robustness of well-trained algorithms in transportation roads of open-pit mines. Finally, we introduce the Parallel Mining Simulator (PMS), a new high-fidelity simulator specifically designed for open-pit mining scenarios. PMS enables the users to manage and control open-pit mine transportation from both the single-truck control and multi-truck scheduling perspectives. The performance of FusionPlanner is tested by MiningNav in PMS, and the empirical results demonstrate a significant reduction in the number of collisions and takeovers of our planner. We anticipate our unmanned transportation paradigm will bring mining trucks one step closer to trustworthiness and robustness in continuous round-the-clock unmanned transportation.
翻訳日:2023-09-20 19:09:43 公開日:2023-09-19
# 数保存散逸ダイナミクス下における2バンドフェルミオンの拡散モード

Diffusive modes of two-band fermions under number-conserving dissipative dynamics ( http://arxiv.org/abs/2308.06553v3 )

ライセンス: Link先を確認
A.A. Lyublinskaya and I.S. Burmistrov(参考訳) 駆動散逸性プロトコルは、非自明な量子多体相関状態の制御と生成のために提案される。 粒子数を保持するプロトコルは分離される。 ユニタリ力学を持つ量子系において、粒子数保存とランダム散乱は2粒子励起(拡散子と共役子)の拡散挙動をもたらす。 粒子数保存散逸ダイナミクスにおける拡散モードの存在は、まだよく研究されていない。 1つのフェルミオンバンドを空にし、もう1つのバンドを投入することを目的とした散逸ダイナミクスを用いて、2バンドシステムのパラダイムモデルにおけるディフューションの存在を明示的に示す。 研究モデルは、F. Tonielli, J. C. Budich, A. Altland, S. Diehl, Physで導入されたモデルの一般化である。 Rev. Lett. 124, 240404 (2020). 拡散係数はモデルの詳細と散逸率に依存する。 微分モードの存在がマクロ多体相関状態の工学をいかに複雑化するかについて議論する。

Driven-dissipative protocols are proposed to control and create nontrivial quantum many-body correlated states. Protocols conserving the number of particles stand apart. As well-known, in quantum systems with the unitary dynamics the particle number conservation and random scattering yield diffusive behavior of two-particle excitations (diffusons and cooperons). Existence of diffusive modes in the particle-number-conserving dissipative dynamics is not well studied yet. We explicitly demonstrate the existence of diffusons in a paradigmatic model of a two-band system, with dissipative dynamics aiming to empty one fermion band and to populate the other one. The studied model is generalization of the model introduced in F. Tonielli, J. C. Budich, A. Altland, and S. Diehl, Phys. Rev. Lett. 124, 240404 (2020). We find how the diffusion coefficient depends on details of a model and the rate of dissipation. We discuss how the existence of diffusive modes complicates engineering of macroscopic many-body correlated states.
翻訳日:2023-09-20 19:09:19 公開日:2023-09-19
# メタファー検出のためのディープラーニングに基づく知識注入:包括的レビュー

Deep Learning-Based Knowledge Injection for Metaphor Detection: A Comprehensive Review ( http://arxiv.org/abs/2308.04306v3 )

ライセンス: Link先を確認
Cheng Yang, Wenye Zhao, Zhiyue Liu, Qingbao Huang(参考訳) 比喩研究の歴史は知識注入研究の進化を象徴している。 近年のディープラーニング技術の進歩により、自然言語処理コミュニティはメタファ認識タスクの成果に知識を適用することに大きな関心を示している。 メタファ認識の分野では,知識注入に関するアプローチが徐々に増えてきたが,知識注入に基づくアプローチに関する完全なレビュー記事が不足している。 そこで本稿の目的は,メタファ認識タスクにおける知識注入へのディープラーニングの適用における研究の進歩を包括的にレビューすることである。 本稿では,主要な知識と知識の注入原則を体系的に要約し,一般化するとともに,メタファ認識タスクで使用されるデータセット,評価指標,ベンチマークモデルをレビューする。 最後に,ナレッジインジェクション手法が直面する課題を探究し,今後の研究の方向性を展望する。

The history of metaphor research also marks the evolution of knowledge infusion research. With the continued advancement of deep learning techniques in recent years, the natural language processing community has shown great interest in applying knowledge to successful results in metaphor recognition tasks. Although there has been a gradual increase in the number of approaches involving knowledge injection in the field of metaphor recognition, there is a lack of a complete review article on knowledge injection based approaches. Therefore, the goal of this paper is to provide a comprehensive review of research advances in the application of deep learning for knowledge injection in metaphor recognition tasks. In this paper, we systematically summarize and generalize the mainstream knowledge and knowledge injection principles, as well as review the datasets, evaluation metrics, and benchmark models used in metaphor recognition tasks. Finally, we explore the current issues facing knowledge injection methods and provide an outlook on future research directions.
翻訳日:2023-09-20 19:09:01 公開日:2023-09-19
# AGIをまだ持っていない理由

Why We Don't Have AGI Yet ( http://arxiv.org/abs/2308.03598v4 )

ライセンス: Link先を確認
Peter Voss and Mladjan Jovanovic(参考訳) 当初のAIのビジョンは、2002年に"Artificial General Intelligence" (AGI) という用語で再認識された。 このビジョンは、人間と同じように、学習し、推論し、問題を解決することができる「シンキングマシン」コンピュータシステムを構築することである。これは、何十年もの間、この分野のほぼすべての人が実践してきた「ナローAI」アプローチとは対照的である。 いくつかの大規模取り組みが名目上AGI(特にDeepMind)に取り組んできたが、純粋に焦点を絞ったAGI開発分野は資金不足や宣伝が進んでいない。 真のAGIが人類に与えうる素晴らしい価値を考えると、これは驚きです。 この分野での努力の重大さに加えて、進歩を妨げる理論的および方法論的なミスステップもいくつかある。 我々は、純粋に統計的アプローチがAGIに結びつく可能性が低い理由を強調し、人間のような適応性と自律学習を達成するために必要ないくつかの重要な認知能力を特定する。 我々は、AGIの進展を確実に遅らせた社会技術的要因の調査を締めくくった。

The original vision of AI was re-articulated in 2002 via the term 'Artificial General Intelligence' or AGI. This vision is to build 'Thinking Machines' - computer systems that can learn, reason, and solve problems similar to the way humans do. This is in stark contrast to the 'Narrow AI' approach practiced by almost everyone in the field over the many decades. While several large-scale efforts have nominally been working on AGI (most notably DeepMind), the field of pure focused AGI development has not been well funded or promoted. This is surprising given the fantastic value that true AGI can bestow on humanity. In addition to the dearth of effort in this field, there are also several theoretical and methodical missteps that are hampering progress. We highlight why purely statistical approaches are unlikely to lead to AGI, and identify several crucial cognitive abilities required to achieve human-like adaptability and autonomous learning. We conclude with a survey of socio-technical factors that have undoubtedly slowed progress towards AGI.
翻訳日:2023-09-20 19:08:47 公開日:2023-09-19
# GNNにおけるフェアネスの促進:安定性の評価

Promoting Fairness in GNNs: A Characterization of Stability ( http://arxiv.org/abs/2309.03648v2 )

ライセンス: Link先を確認
Yaning Jia, Chunhui Zhang(参考訳) 頑健な統計学の手法であるリプシッツ境界は、関連する無関係なバイアス要因を考慮して、入力に関する出力の最大変化を制限することができる。 追加の計算コストを発生させることなく、機械学習モデルの出力安定性を効率よく検証できる手法である。 近年,非ユークリッドデータを扱うグラフニューラルネットワーク (GNN) が注目されている。 しかしながら、gnnリプシッツ境界がモデル出力の安定化に光を当てるかどうか、特に固有のバイアスを持つ非ユークリッドデータを扱う場合の以前の研究は行われていない。 GNNトレーニングに使用される共通グラフデータの固有のバイアスを考えると、入力バイアスによって引き起こされるGNN出力の摂動を制限し、トレーニング中の公正性を保護することが深刻な課題となる。 近年、リプシッツ定数がユークリッド神経回路網の安定性を制御するのに使われているにもかかわらず、正確なリプシッツ定数の計算はGNNのような非ユークリッド神経回路網、特にフェアネスの文脈において解明されている。 このギャップを狭めるために、私たちは、帰属グラフで動作する一般的なgnnから始め、入力に関連するバイアスに関する出力の変化を制限するために束縛されたリプシッツを定式化する。 さらに,gnnモデルのリプシッツ定数が,公平なトレーニングのためにデータから学習したバイアスによって引き起こされる出力摂動をいかに制約するかを理論的に解析した。 モデル出力のバイアスを制限するリプシッツ境界の有効性を実験的に検証した。 最後に、学習力学の観点から、なぜ理論上のリプシッツ境界がGNNトレーニングを効果的にガイドし、精度と公正性のトレードオフを改善することができるのかを示す。

The Lipschitz bound, a technique from robust statistics, can limit the maximum changes in the output concerning the input, taking into account associated irrelevant biased factors. It is an efficient and provable method for examining the output stability of machine learning models without incurring additional computation costs. Recently, Graph Neural Networks (GNNs), which operate on non-Euclidean data, have gained significant attention. However, no previous research has investigated the GNN Lipschitz bounds to shed light on stabilizing model outputs, especially when working on non-Euclidean data with inherent biases. Given the inherent biases in common graph data used for GNN training, it poses a serious challenge to constraining the GNN output perturbations induced by input biases, thereby safeguarding fairness during training. Recently, despite the Lipschitz constant's use in controlling the stability of Euclideanneural networks, the calculation of the precise Lipschitz constant remains elusive for non-Euclidean neural networks like GNNs, especially within fairness contexts. To narrow this gap, we begin with the general GNNs operating on an attributed graph, and formulate a Lipschitz bound to limit the changes in the output regarding biases associated with the input. Additionally, we theoretically analyze how the Lipschitz constant of a GNN model could constrain the output perturbations induced by biases learned from data for fairness training. We experimentally validate the Lipschitz bound's effectiveness in limiting biases of the model output. Finally, from a training dynamics perspective, we demonstrate why the theoretical Lipschitz bound can effectively guide the GNN training to better trade-off between accuracy and fairness.
翻訳日:2023-09-20 19:01:06 公開日:2023-09-19
# マルチエージェント非線形フィルタリングと学習のダイナミクスについて

On the dynamics of multi agent nonlinear filtering and learning ( http://arxiv.org/abs/2309.03557v2 )

ライセンス: Link先を確認
Sayed Pouria Talebi and Danilo Mandic(参考訳) マルチエージェントシステムは、ダイナミクスを求める分散コンセンサスを通じて高度に複雑な学習課題を達成することを目的としており、その利用は信号処理や計算知能社会において大きな注目を集めている。 本稿では非線形フィルタリング/学習力学を用いたマルチエージェントネットワークシステムの挙動について検討する。 この目的のために、マルチエージェントネットワークシステムにおけるエージェントの動作に関する一般的な定式化を行い、結束学習行動を達成するための条件を与える。 重要なのは、分散および連合学習シナリオにおけるso派生フレームワークの適用である。

Multiagent systems aim to accomplish highly complex learning tasks through decentralised consensus seeking dynamics and their use has garnered a great deal of attention in the signal processing and computational intelligence societies. This article examines the behaviour of multiagent networked systems with nonlinear filtering/learning dynamics. To this end, a general formulation for the actions of an agent in multiagent networked systems is presented and conditions for achieving a cohesive learning behaviour is given. Importantly, application of the so derived framework in distributed and federated learning scenarios are presented.
翻訳日:2023-09-20 19:00:36 公開日:2023-09-19
# FishMOT:IoUマッチングに基づく魚追跡の簡便かつ効果的な方法

FishMOT: A Simple and Effective Method for Fish Tracking Based on IoU Matching ( http://arxiv.org/abs/2309.02975v2 )

ライセンス: Link先を確認
Shuo Liu, Lulu Han, Xiaoyang Liu, Junli Ren, Fang Wang, Yuanshan Lin(参考訳) 魚類追跡は魚類の行動や生態を理解する上で重要な役割を果たす。 しかし, 魚の形態変化, 咬合, 複雑な環境により, 既存の追跡手法では精度や頑健性が課題となっている。 本報告では, 基本モジュール, 相互作用モジュール, 精製モジュールを含む, 物体検出とIoUマッチングを組み合わせた新しい魚追跡手法であるフィッシュモット(Multiple Object Tracking for Fish)を提案する。 一方、基本モジュールは、連続するフレーム間の検出ボックスのIoUに基づいて目標アソシエーションを行い、相互作用モジュールは、検出ボックスのIoUと魚の実体のIoUを結合して閉塞を処理する。 FishMOTは、複雑な特徴抽出や魚毎のアイデンティティ割り当てを必要とせず、連続するフレームの検出ボックスを予測するためにカルマンフィルタを必要としないため、計算の複雑さとメモリ消費を減らす。 実験結果は,MOTA,正確性,計算時間,メモリ消費などの観点から,最先端のマルチオブジェクトトラッカーや魚追跡ツールよりも優れていることを示す。 さらに, 各種環境および魚類数に対して優れたロバスト性および汎用性を示す。 単純化されたワークフローと強力なパフォーマンスは、魚の追跡に非常に効果的なアプローチである。 ソースコードと事前訓練されたモデルは以下の通りである。

Fish tracking plays a vital role in understanding fish behavior and ecology. However, existing tracking methods face challenges in accuracy and robustness dues to morphological change of fish, occlusion and complex environment. This paper proposes FishMOT(Multiple Object Tracking for Fish), a novel fish tracking approach combining object detection and IoU matching, including basic module, interaction module and refind module. Wherein, a basic module performs target association based on IoU of detection boxes between successive frames to deal with morphological change of fish; an interaction module combines IoU of detection boxes and IoU of fish entity to handle occlusions; a refind module use spatio-temporal information uses spatio-temporal information to overcome the tracking failure resulting from the missed detection by the detector under complex environment. FishMOT reduces the computational complexity and memory consumption since it does not require complex feature extraction or identity assignment per fish, and does not need Kalman filter to predict the detection boxes of successive frame. Experimental results demonstrate FishMOT outperforms state-of-the-art multi-object trackers and specialized fish tracking tools in terms of MOTA, accuracy, computation time, memory consumption, etc.. Furthermore, the method exhibits excellent robustness and generalizability for varying environments and fish numbers. The simplified workflow and strong performance make FishMOT as a highly effective fish tracking approach. The source codes and pre-trained models are available at: https://github.com/gakkistar/FishMOT
翻訳日:2023-09-20 19:00:28 公開日:2023-09-19
# グラフニューラルネットワークにおけるプライバシに関する調査--攻撃・保存・応用

A Survey on Privacy in Graph Neural Networks: Attacks, Preservation, and Applications ( http://arxiv.org/abs/2308.16375v3 )

ライセンス: Link先を確認
Yi Zhang, Yuying Zhao, Zhaoqing Li, Xueqi Cheng, Yu Wang, Olivera Kotevska, Philip S. Yu, Tyler Derr(参考訳) グラフニューラルネットワーク(gnns)は,グラフ構造化データの処理能力と実用的応用性の向上により,注目を集めている。 しかし、これらのモデルの多くは、プライバシへの配慮が欠如しているため、プライバシ攻撃が盛んである現代社会において、高いユーティリティパフォーマンスを優先している。 この問題に対処するため、研究者らはプライバシー保護のGNNの開発を開始した。 この進歩にもかかわらず、攻撃の包括的概要と、グラフドメインのプライバシを保存するためのテクニックが欠如している。 本調査では,対象情報に基づいてグラフデータに対する攻撃を要約し,GNNにおけるプライバシ保護手法を分類し,GNNにおけるプライバシ問題の分析・解決に使用できるデータセットやアプリケーションのレビューを行うことにより,このギャップに対処することを目的とする。 また、プライバシー保護のためのGNNを構築するための今後の研究の方向性についても概説する。

Graph Neural Networks (GNNs) have gained significant attention owing to their ability to handle graph-structured data and the improvement in practical applications. However, many of these models prioritize high utility performance, such as accuracy, with a lack of privacy consideration, which is a major concern in modern society where privacy attacks are rampant. To address this issue, researchers have started to develop privacy-preserving GNNs. Despite this progress, there is a lack of a comprehensive overview of the attacks and the techniques for preserving privacy in the graph domain. In this survey, we aim to address this gap by summarizing the attacks on graph data according to the targeted information, categorizing the privacy preservation techniques in GNNs, and reviewing the datasets and applications that could be used for analyzing/solving privacy issues in GNNs. We also outline potential directions for future research in order to build better privacy-preserving GNNs.
翻訳日:2023-09-20 19:00:04 公開日:2023-09-19
# 衛星マップによる搭載センサの補完:hdマップ構築のための新しい展望

Complementing Onboard Sensors with Satellite Map: A New Perspective for HD Map Construction ( http://arxiv.org/abs/2308.15427v2 )

ライセンス: Link先を確認
Wenjie Gao, Jiawei Fu, Yanqing Shen, Haodong Jing, Shitao Chen, Nanning Zheng(参考訳) 高精細(HD)マップは自動運転システムにおいて重要な役割を担っている。 近年,車載センサを用いたhdマップの構築が試みられている。 検出範囲に対する感度や近くの車両による閉塞に対する感受性など、車載センサの固有の制限のため、複雑なシナリオや長距離検出タスクにおいて、これらの手法の性能は著しく低下する。 本稿では,搭載センサを補完する衛星地図を用いて,HDマップ構築を促進する新しい視点について検討する。 まず,各サンプルのサテライトマップタイルをnuscenesで生成し,さらなる研究のために補足データセットを公開する。 衛星地図と既存の手法をよりよく統合するために,特徴レベルの融合とBEVレベルの融合を含む階層型融合モジュールを提案する。 マスクジェネレータとマスク付きクロスアテンション機構で構成された機能レベルの融合は、搭載センサーの機能を洗練するために使用される。 BEVレベルの融合は、搭載センサーから得られた特徴とアライメントモジュールによる衛星マップの座標差を緩和する。 拡張したnuScenesの実験結果は,既存の3つのHDマップ構築手法へのモジュールのシームレスな統合を示している。 衛星地図と提案モジュールは,HDマップセマンティックセグメンテーションとインスタンス検出タスクの両方において,その性能を著しく向上させる。

High-definition (HD) maps play a crucial role in autonomous driving systems. Recent methods have attempted to construct HD maps in real-time using vehicle onboard sensors. Due to the inherent limitations of onboard sensors, which include sensitivity to detection range and susceptibility to occlusion by nearby vehicles, the performance of these methods significantly declines in complex scenarios and long-range detection tasks. In this paper, we explore a new perspective that boosts HD map construction through the use of satellite maps to complement onboard sensors. We initially generate the satellite map tiles for each sample in nuScenes and release a complementary dataset for further research. To enable better integration of satellite maps with existing methods, we propose a hierarchical fusion module, which includes feature-level fusion and BEV-level fusion. The feature-level fusion, composed of a mask generator and a masked cross-attention mechanism, is used to refine the features from onboard sensors. The BEV-level fusion mitigates the coordinate differences between features obtained from onboard sensors and satellite maps through an alignment module. The experimental results on the augmented nuScenes showcase the seamless integration of our module into three existing HD map construction methods. The satellite maps and our proposed module notably enhance their performance in both HD map semantic segmentation and instance detection tasks.
翻訳日:2023-09-20 18:59:47 公開日:2023-09-19
# 大規模視覚言語モデルにおける幻覚の評価と分析

Evaluation and Analysis of Hallucination in Large Vision-Language Models ( http://arxiv.org/abs/2308.15126v2 )

ライセンス: Link先を確認
Junyang Wang, Yiyang Zhou, Guohai Xu, Pengcheng Shi, Chenlin Zhao, Haiyang Xu, Qinghao Ye, Ming Yan, Ji Zhang, Jihua Zhu, Jitao Sang, Haoyu Tang(参考訳) LVLM(Large Vision-Language Models)は近年大きな成功を収めている。 しかし、LVLMは、多くのシナリオにおける実用性を制限する幻覚の問題に悩まされている。 幻覚とは、視覚入力に存在しないLVLMの反応の情報であり、実質的な結果の潜在的なリスクを引き起こす。 LVLMにおける幻覚評価の研究は限られている。 本稿では,LLMに基づく幻覚評価フレームワークである大規模言語モデル(HaELM)に基づく幻覚評価を提案する。 HaELMはChatGPTに匹敵するおよそ95%のパフォーマンスを実現し、低コスト、再現性、プライバシー保護、ローカルデプロイメントなど、さらなる利点がある。 HELMを応用し,現在のLVLMにおける幻覚の評価を行った。 さらに,lvlmsの幻覚に寄与する因子を分析し,幻覚問題を緩和するための有用な提案を行う。 私たちのトレーニングデータと人間のアノテーション幻覚データは、まもなく公開される予定だ。

Large Vision-Language Models (LVLMs) have recently achieved remarkable success. However, LVLMs are still plagued by the hallucination problem, which limits the practicality in many scenarios. Hallucination refers to the information of LVLMs' responses that does not exist in the visual input, which poses potential risks of substantial consequences. There has been limited work studying hallucination evaluation in LVLMs. In this paper, we propose Hallucination Evaluation based on Large Language Models (HaELM), an LLM-based hallucination evaluation framework. HaELM achieves an approximate 95% performance comparable to ChatGPT and has additional advantages including low cost, reproducibility, privacy preservation and local deployment. Leveraging the HaELM, we evaluate the hallucination in current LVLMs. Furthermore, we analyze the factors contributing to hallucination in LVLMs and offer helpful suggestions to mitigate the hallucination problem. Our training data and human annotation hallucination data will be made public soon.
翻訳日:2023-09-20 18:59:27 公開日:2023-09-19
# BayotIDE: 機能分解を伴うBayesian Online Multivariate Time Series Imputation

BayOTIDE: Bayesian Online Multivariate Time series Imputation with functional decomposition ( http://arxiv.org/abs/2308.14906v2 )

ライセンス: Link先を確認
Shikai Fang, Qingsong Wen, Yingtao Luo, Shandian Zhe, Liang Sun(参考訳) 交通やエネルギーといった現実のシナリオでは、値やノイズが欠けている巨大な時系列データが広く観測され、不規則にサンプリングされる。 多くのインプテーション手法が提案されているが、その多くは局所的な水平線で動作し、モデルが長い列をフィットサイズのパッチのバッチに分割することで訓練される。 この局所的な地平線は、モデルにグローバルなトレンドや周期的なパターンを無視させる。 さらに重要なことは、ほとんどの方法では、観測は通常のタイムスタンプでサンプリングされ、異なるアプリケーションから生じる複雑な不規則なサンプル時系列を扱うことができないと仮定している。 第3に、既存のほとんどのメソッドはオフラインで学習される。 したがって、高速ストリーミングデータを持つ多くのアプリケーションには適していない。 これらの制限を克服するために、ベイズオンライン多変量時系列インプチューションと関数分解を提案する。 多変量時系列を低ランク時間因子群と異なるパターンの重み付けの組み合わせとして扱う。 異なるカーネルを持つガウス過程(GP)の群を機能的先行として適用し,その因子に適合する。 計算効率を向上させるため、等価確率微分方程式(SDE)を構築し、オンライン推論のためのスケーラブルなアルゴリズムを開発することにより、GPを状態空間に変換する。 提案手法は任意のタイムスタンプ上での計算だけでなく,下流アプリケーションに対して不確実な定量化と解釈性を提供する。 本手法を合成データと実世界データの両方で評価する。

In real-world scenarios like traffic and energy, massive time-series data with missing values and noises are widely observed, even sampled irregularly. While many imputation methods have been proposed, most of them work with a local horizon, which means models are trained by splitting the long sequence into batches of fit-sized patches. This local horizon can make models ignore global trends or periodic patterns. More importantly, almost all methods assume the observations are sampled at regular time stamps, and fail to handle complex irregular sampled time series arising from different applications. Thirdly, most existing methods are learned in an offline manner. Thus, it is not suitable for many applications with fast-arriving streaming data. To overcome these limitations, we propose BayOTIDE: Bayesian Online Multivariate Time series Imputation with functional decomposition. We treat the multivariate time series as the weighted combination of groups of low-rank temporal factors with different patterns. We apply a group of Gaussian Processes (GPs) with different kernels as functional priors to fit the factors. For computational efficiency, we further convert the GPs into a state-space prior by constructing an equivalent stochastic differential equation (SDE), and developing a scalable algorithm for online inference. The proposed method can not only handle imputation over arbitrary time stamps, but also offer uncertainty quantification and interpretability for the downstream application. We evaluate our method on both synthetic and real-world datasets.
翻訳日:2023-09-20 18:59:12 公開日:2023-09-19
# ディープニューラルネットワークの正規化経路計算のための多目的継続法

A multiobjective continuation method to compute the regularization path of deep neural networks ( http://arxiv.org/abs/2308.12044v3 )

ライセンス: Link先を確認
Augustina C. Amakor, Konstantin Sonntag and Sebastian Peitz(参考訳) 深層ニューラルネットワーク(dnn)では、数値効率の確保、モデルの解釈性の向上(関連する特徴の数が少ないことによる)、堅牢性が期待できる機能である。 線形モデルに基づく機械学習のアプローチでは、$\ell^1$ ノルム(すなわちゼロウェイト)と正規化パスと呼ばれる非正規化解という観点から、最もスパース解の間に接続経路が存在することがよく知られている。 ごく最近になって、経験的損失とスパーシリティ($\ell^1$ norm)を2つの矛盾する基準として扱い、結果として生じる多目的最適化問題を解くことによって、正規化パスをDNNに拡張する最初の試みがあった。 しかし、$\ell^1$ のノルムの非滑らかさとパラメータの多さのため、このアプローチは計算の観点からはあまり効率的ではない。 この限界を克服するために,上述の目的に対してパレートフロント全体を非常に効率的な方法で近似できるアルゴリズムを提案する。 決定論的勾配と確率的勾配の両方を用いて数値例を示す。 さらに,正規化経路の知識がネットワークパラメトリゼーションを十分に一般化することを示す。

Sparsity is a highly desired feature in deep neural networks (DNNs) since it ensures numerical efficiency, improves the interpretability of models (due to the smaller number of relevant features), and robustness. In machine learning approaches based on linear models, it is well known that there exists a connecting path between the sparsest solution in terms of the $\ell^1$ norm (i.e., zero weights) and the non-regularized solution, which is called the regularization path. Very recently, there was a first attempt to extend the concept of regularization paths to DNNs by means of treating the empirical loss and sparsity ($\ell^1$ norm) as two conflicting criteria and solving the resulting multiobjective optimization problem. However, due to the non-smoothness of the $\ell^1$ norm and the high number of parameters, this approach is not very efficient from a computational perspective. To overcome this limitation, we present an algorithm that allows for the approximation of the entire Pareto front for the above-mentioned objectives in a very efficient manner. We present numerical examples using both deterministic and stochastic gradients. We furthermore demonstrate that knowledge of the regularization path allows for a well-generalizing network parametrization.
翻訳日:2023-09-20 18:58:48 公開日:2023-09-19
# 意味的RGB-D画像合成

Semantic RGB-D Image Synthesis ( http://arxiv.org/abs/2308.11356v2 )

ライセンス: Link先を確認
Shijie Li, Rong Li, Juergen Gall(参考訳) RGB-Dセマンティックイメージセグメンテーションのための多様なトレーニングイメージを収集することは必ずしも不可能である。 特に、ロボットが家のようなプライバシーに敏感な場所で操作する必要がある場合、収集は小さな場所に限定されることが多い。 その結果、注釈付き画像は外観の多様性を欠き、RGB-Dセマンティックイメージセグメンテーションのアプローチはトレーニングデータに過度に適合する傾向にある。 本稿では,この問題に対処する意味的RGB-D画像合成を提案する。 与えられたセマンティックラベルマップのために、現実的なRGB-D画像を合成する必要がある。 しかし、現在のアプローチはユニモーダルであり、マルチモーダルデータに対応できない。 実際、マルチモーダルデータへのユニモーダルアプローチの拡張はうまく機能しないことを示している。 そこで本稿では,RGBと深度画像を生成するために必要なモーダル依存情報から,意味的レイアウトのモーダル非依存情報を分離するマルチモーダルデータ生成器を提案する。 さらに,ラベルマップと生成画像間の意味的一貫性と,実画像と生成画像との知覚的類似性を保証する判別器を提案する。 提案手法は,実画像と生成画像とを混合することにより,従来のユニモーダル法を大きく上回り,rgb-d意味セグメンテーションへのアプローチの精度が大幅に向上することを示す。

Collecting diverse sets of training images for RGB-D semantic image segmentation is not always possible. In particular, when robots need to operate in privacy-sensitive areas like homes, the collection is often limited to a small set of locations. As a consequence, the annotated images lack diversity in appearance and approaches for RGB-D semantic image segmentation tend to overfit the training data. In this paper, we thus introduce semantic RGB-D image synthesis to address this problem. It requires synthesising a realistic-looking RGB-D image for a given semantic label map. Current approaches, however, are uni-modal and cannot cope with multi-modal data. Indeed, we show that extending uni-modal approaches to multi-modal data does not perform well. In this paper, we therefore propose a generator for multi-modal data that separates modal-independent information of the semantic layout from the modal-dependent information that is needed to generate an RGB and a depth image, respectively. Furthermore, we propose a discriminator that ensures semantic consistency between the label maps and the generated images and perceptual similarity between the real and generated images. Our comprehensive experiments demonstrate that the proposed method outperforms previous uni-modal methods by a large margin and that the accuracy of an approach for RGB-D semantic segmentation can be significantly improved by mixing real and generated images during training.
翻訳日:2023-09-20 18:58:24 公開日:2023-09-19
# 地球観測画像のセマンティクスセグメンテーションのためのニューラルネットワーク設計における考慮すべき技術的要因の検討

A review of technical factors to consider when designing neural networks for semantic segmentation of Earth Observation imagery ( http://arxiv.org/abs/2308.09221v2 )

ライセンス: Link先を確認
Sam Khallaghi, J. Ronald Eastman, Lyndon D. Estes(参考訳) リモートセンシングでは,地球観測画像の意味セグメンテーション(分類)が重要な課題である。 本稿では,ニューラルネットワークの設計において考慮すべき技術的要因について概説する。 本レビューでは,畳み込みニューラルネットワーク(cnns),recurrent neural networks(rnns),generative adversarial networks(gans),transformerモデルに注目し,これらのannファミリーの設計パターンと意味セグメンテーションとの関連について論じた。 最適なデータ準備を確保するための一般的な前処理技術についても紹介する。 これには、画像の正規化とチッピングの方法、トレーニングサンプルにおけるデータの不均衡に対処する戦略、拡張技術、転送学習、ドメイン適応など制限されたデータを克服するテクニックが含まれる。 このレビューは、ニューラルネットワーク設計の技術的な側面とデータに関する考察の両方を包含することにより、地球観測画像のセマンティックセグメンテーションに有効なニューラルネットワークを設計する際の要因を包括的かつ最新の理解を提供する。

Semantic segmentation (classification) of Earth Observation imagery is a crucial task in remote sensing. This paper presents a comprehensive review of technical factors to consider when designing neural networks for this purpose. The review focuses on Convolutional Neural Networks (CNNs), Recurrent Neural Networks (RNNs), Generative Adversarial Networks (GANs), and transformer models, discussing prominent design patterns for these ANN families and their implications for semantic segmentation. Common pre-processing techniques for ensuring optimal data preparation are also covered. These include methods for image normalization and chipping, as well as strategies for addressing data imbalance in training samples, and techniques for overcoming limited data, including augmentation techniques, transfer learning, and domain adaptation. By encompassing both the technical aspects of neural network design and the data-related considerations, this review provides researchers and practitioners with a comprehensive and up-to-date understanding of the factors involved in designing effective neural networks for semantic segmentation of Earth Observation imagery.
翻訳日:2023-09-20 18:58:01 公開日:2023-09-19
# 二重再生干渉に基づく弱値メトロロジー

Dual-recycled interference-based weak value metrology ( http://arxiv.org/abs/2309.06832v2 )

ライセンス: Link先を確認
Zi-Rui Zhong and Wei-Jun Tan and Yue Chen and Qing-Lin Wu(参考訳) 弱い値増幅は、選択後の権力を犠牲にして、小さな効果を観測可能な変化として測定することを可能にする。 電力リサイクル方式は, 稀な選択後の非効率性を排除し, ショットノイズの限界を越え, 測定精度を向上させることが実証されている。 しかし、改善はシステム設定、特にシステム損失によって厳密に制限されている。 本稿では, 干渉型弱値に基づく偏向計測に基づく2重リサイクルモデルを提案する。 干渉計の明暗ポートにそれぞれパワーリサイクリングミラーと信号リサイクリングミラーの2つのミラーを設置し、複合共振器を形成する。 その結果, 電力と信号対雑音比(snr)は, 電力再循環方式と比較して, 幅広い実験パラメータで大幅に向上した。 この作業はシステム設定の制約を大幅に緩和し、従来のスキームよりも弱い測定の本当の利点を探求する。

Weak-value-amplification permits small effects to be measured as observable changes at the sacrifice of power due to post-selection. The power recycling scheme has been proven to eliminate this inefficiency of the rare post-selection, thus surpassing the limit of the shot noise and improving the precision of the measurement. However, the improvement is strictly limited by the system setup, especially the system loss. Here we introduce a dual recycling model based on the interferometric weak-value-based deflection measurement. Two mirrors, the power-recycling mirror and signal-recycling mirror, are placed at the bright and dark port of the interferometer respectively, creating a composite resonator. The results show that both the power and the signal-to-noise ratio (SNR) are greatly enhanced in a wider range of experimental parameters compared to the power-recycling scheme. This work considerably loosens the constraint of the system setup and further explores the real advantage of weak measurement over traditional schemes.
翻訳日:2023-09-20 18:52:12 公開日:2023-09-19
# 2次元スケルトンヒートマップを用いたアクションセグメンテーション

Action Segmentation Using 2D Skeleton Heatmaps ( http://arxiv.org/abs/2309.06462v2 )

ライセンス: Link先を確認
Syed Waleed Hyder, Muhammad Usama, Anas Zafar, Muhammad Naufil, Fawad Javed Fateh, Andrey Konin, M. Zeeshan Zia, Quoc-Huy Tran(参考訳) 本稿では,人間の活動認識における2次元スケルトンに基づく行動分割法を提案する。 時空間特徴学習において3次元骨格座標のシーケンスを直接入力として取り込んでグラフ畳み込みネットワーク(GCN)を適用する最先端の手法とは対照的に,我々は2次元骨格熱マップのシーケンスを入力として使用し,時空間畳み込みネットワーク(TCN)を用いて時空間特徴を抽出する。 3d情報の欠如にもかかわらず、従来のアクションセグメンテーションデータセットの手法よりも、同等/上位のパフォーマンスと欠落したキーポイントに対するロバスト性が向上している。 さらに、2DスケルトンヒートマップとRGBビデオの両方を入力として使用することで、パフォーマンスをさらに向上する。 我々の知る限り、これは2Dスケルトン熱マップ入力を利用する最初の研究であり、アクションセグメンテーションのために2Dスケルトン+RGB融合を探索する最初の研究である。

This paper presents a 2D skeleton-based action segmentation method with applications in fine-grained human activity recognition. In contrast with state-of-the-art methods which directly take sequences of 3D skeleton coordinates as inputs and apply Graph Convolutional Networks (GCNs) for spatiotemporal feature learning, our main idea is to use sequences of 2D skeleton heatmaps as inputs and employ Temporal Convolutional Networks (TCNs) to extract spatiotemporal features. Despite lacking 3D information, our approach yields comparable/superior performances and better robustness against missing keypoints than previous methods on action segmentation datasets. Moreover, we improve the performances further by using both 2D skeleton heatmaps and RGB videos as inputs. To our best knowledge, this is the first work to utilize 2D skeleton heatmap inputs and the first work to explore 2D skeleton+RGB fusion for action segmentation.
翻訳日:2023-09-20 18:51:57 公開日:2023-09-19
# 地理空間気象データに基づく深層ニューラルネットワークによる長期干ばつ予測

Long-term drought prediction using deep neural networks based on geospatial weather data ( http://arxiv.org/abs/2309.06212v2 )

ライセンス: Link先を確認
Vsevolod Grabar, Alexander Marusov, Yury Maximov, Nazar Sotiriadi, Alexander Bulkin, Alexey Zaytsev(参考訳) 特定の地域における干ばつ確率の正確な予測は,農業実践におけるインフォームド意思決定に不可欠である。 予測を1年先、特に長期的決定のために行うことが重要である。 しかし、この確率を予測することは、関心領域や近隣地域の様々な要因の複雑な相互作用による課題である。 本研究では,様々な時空間ニューラルネットワークに基づくエンドツーエンドソリューションを提案する。 これらのモデルは、パーマー干ばつ重症度指数(PDSI)に基づく干ばつ強度予測に焦点をあて、固有の要因と気候モデルからの洞察を活用して干ばつ予測を強化する。 コンボリューショナルLSTM(ConvLSTM)とトランスフォーマーモデルの精度は,ベースライン勾配向上とロジスティック回帰解と比較して優れている。 以前の2つのモデルは、予測地平線が1ヶ月から6ヶ月で0.90から0.70という印象的なROC AUCスコアを達成し、ベースラインモデルを上回った。 トランスは短い水平線に対して優れ、ConvLSTMは長い水平線に対して優れていた。 したがって,長期干ばつ予測にしたがってモデルを選択することを推奨する。 検討したモデルの広範な適用性を確保するため,様々な環境条件を考慮し,世界中にまたがる広範囲な検証を行う。 いくつかのアブレーションと感度の研究も行っており、この問題の解決方法に関する追加情報を提供しています。

The accurate prediction of drought probability in specific regions is crucial for informed decision-making in agricultural practices. It is important to make predictions one year in advance, particularly for long-term decisions. However, forecasting this probability presents challenges due to the complex interplay of various factors within the region of interest and neighboring areas. In this study, we propose an end-to-end solution to address this issue based on various spatiotemporal neural networks. The models considered focus on predicting the drought intensity based on the Palmer Drought Severity Index (PDSI) for subregions of interest, leveraging intrinsic factors and insights from climate models to enhance drought predictions. Comparative evaluations demonstrate the superior accuracy of Convolutional LSTM (ConvLSTM) and transformer models compared to baseline gradient boosting and logistic regression solutions. The two former models achieved impressive ROC AUC scores from 0.90 to 0.70 for forecast horizons from one to six months, outperforming baseline models. The transformer showed superiority for shorter horizons, while ConvLSTM did so for longer horizons. Thus, we recommend selecting the models accordingly for long-term drought forecasting. To ensure the broad applicability of the considered models, we conduct extensive validation across regions worldwide, considering different environmental conditions. We also run several ablation and sensitivity studies to challenge our findings and provide additional information on how to solve the problem.
翻訳日:2023-09-20 18:51:36 公開日:2023-09-19
# bhasa:大規模言語モデルのための総合的東南アジア言語・文化評価スイート

BHASA: A Holistic Southeast Asian Linguistic and Cultural Evaluation Suite for Large Language Models ( http://arxiv.org/abs/2309.06085v2 )

ライセンス: Link先を確認
Wei Qi Leong, Jian Gang Ngui, Yosephine Susanto, Hamsawardhini Rengarajan, Kengatharaiyer Sarveswaran, William Chandra Tjhi(参考訳) 大規模言語モデル(LLM)の急速な発展とスケールによる新しい能力の出現は、HELMやBIG-benchといった総合的で多様で困難なベンチマークの構築を必要としている。 しかし現時点では、これらのベンチマークのほとんどは英語のパフォーマンスのみに焦点を当てており、東南アジア(SEA)言語を含む評価は少ない。 そこで我々は,SEA言語におけるLLMの総合的言語的・文化的評価スイートであるBHASAを提案する。 1)自然言語理解(NLU)、生成(NLG)、推論(NLR)の8つのタスクをカバーするNLPベンチマーク,(2)LINDSEA, 構文, 意味学, 実用学などの言語現象を網羅する言語診断ツールキット, (3) 文化的表現と感受性の両方を探索する文化的診断データセットである。 この予備的な取り組みのために、インドネシア、ベトナム、タイ、タミルでのみNLPベンチマークを実装し、LINDSEAと文化的診断データセットのためにインドネシアとタミルのみを含む。 GPT-4は、現時点で最も優れた多言語LLMの1つであり、SEA言語の文脈におけるLLMの能力を評価するためにヤードスティックとして使用しています。 GPT-4とBHASAの初期実験では,言語能力,文化的表現,センシティブなSEA言語が欠如していることが判明した。 BHASAは現在開発中で、今後も改善と拡張が続けられる予定である。 本論文のレポジトリは、https://github.com/aisingapore/bhasaにある。

The rapid development of Large Language Models (LLMs) and the emergence of novel abilities with scale have necessitated the construction of holistic, diverse and challenging benchmarks such as HELM and BIG-bench. However, at the moment, most of these benchmarks focus only on performance in English and evaluations that include Southeast Asian (SEA) languages are few in number. We therefore propose BHASA, a holistic linguistic and cultural evaluation suite for LLMs in SEA languages. It comprises three components: (1) a NLP benchmark covering eight tasks across Natural Language Understanding (NLU), Generation (NLG) and Reasoning (NLR) tasks, (2) LINDSEA, a linguistic diagnostic toolkit that spans the gamut of linguistic phenomena including syntax, semantics and pragmatics, and (3) a cultural diagnostics dataset that probes for both cultural representation and sensitivity. For this preliminary effort, we implement the NLP benchmark only for Indonesian, Vietnamese, Thai and Tamil, and we only include Indonesian and Tamil for LINDSEA and the cultural diagnostics dataset. As GPT-4 is purportedly one of the best-performing multilingual LLMs at the moment, we use it as a yardstick to gauge the capabilities of LLMs in the context of SEA languages. Our initial experiments on GPT-4 with BHASA find it lacking in various aspects of linguistic capabilities, cultural representation and sensitivity in the targeted SEA languages. BHASA is a work in progress and will continue to be improved and expanded in the future. The repository for this paper can be found at: https://github.com/aisingapore/BHASA
翻訳日:2023-09-20 18:51:14 公開日:2023-09-19
# 予測モデルの定量的分析:オンライン政治バイアスの観点から

Quantitative Analysis of Forecasting Models:In the Aspect of Online Political Bias ( http://arxiv.org/abs/2309.05589v2 )

ライセンス: Link先を確認
Srinath Sai Tripuraneni, Sadia Kamal, Arunkumar Bagavathi(参考訳) オンラインソーシャルメディアプラットフォームにおける政治的偏見の理解と緩和は、誤報やエコーチャンバー効果に対処するための重要なタスクである。 しかし,ソーシャルメディアデータセットのノイズ頻度が高いため,政治的バイアスを時間的に特徴付けることが課題となっている。 既存の研究は、政治的偏見の特徴づけに対する様々なアプローチを探求してきたが、政治的偏見を予測し、政治的会話が近い将来どのように進化するかを予測する能力は、広く研究されていない。 本稿では,ソーシャルメディア投稿を5つの異なる政治傾向カテゴリーに分類するヒューリスティックアプローチを提案する。 政治的バイアスを予測するための事前の作業が不足しているため、既存のベースラインモデルの詳細な分析を行い、政治的傾向の時系列を予測するのに最適なモデルを特定する。 このアプローチでは、既存の時系列予測モデルを、政治的イデオロギーの異なる2つのソーシャルメディアデータセット、特にTwitterとGabで活用する。 実験と分析を通じて,ソーシャルメディアプラットフォームにおける政治的バイアスを予測する上での課題と機会を明らかにしたい。 最終的に、私たちの研究は、デジタル領域における政治的偏見の負の影響を軽減するために、より効果的な戦略を開発するための道を開くことを目的としています。

Understanding and mitigating political bias in online social media platforms are crucial tasks to combat misinformation and echo chamber effects. However, characterizing political bias temporally using computational methods presents challenges due to the high frequency of noise in social media datasets. While existing research has explored various approaches to political bias characterization, the ability to forecast political bias and anticipate how political conversations might evolve in the near future has not been extensively studied. In this paper, we propose a heuristic approach to classify social media posts into five distinct political leaning categories. Since there is a lack of prior work on forecasting political bias, we conduct an in-depth analysis of existing baseline models to identify which model best fits to forecast political leaning time series. Our approach involves utilizing existing time series forecasting models on two social media datasets with different political ideologies, specifically Twitter and Gab. Through our experiments and analyses, we seek to shed light on the challenges and opportunities in forecasting political bias in social media platforms. Ultimately, our work aims to pave the way for developing more effective strategies to mitigate the negative impact of political bias in the digital realm.
翻訳日:2023-09-20 18:50:44 公開日:2023-09-19
# 事前学習型大言語モデルのネットOps能力に関する実証的研究

An Empirical Study of NetOps Capability of Pre-Trained Large Language Models ( http://arxiv.org/abs/2309.05557v3 )

ライセンス: Link先を確認
Yukai Miao, Yu Bai, Li Chen, Dan Li, Haifeng Sun, Xizheng Wang, Ziqiu Luo, Yanyu Ren, Dapeng Sun, Xiuting Xu, Qi Zhang, Chao Xiang, Xinchi Li(参考訳) 現在、LLM(Pre-trained Large Language Models)の多機能性は業界から多くの注目を集めている。 しかし、いくつかの垂直領域はLLMのドメイン内機能にもっと興味を持っている。 ネットワークオペレーション(NetOps)におけるLLMの包括的能力を評価するための評価セットであるNetEvalを提案する。 NetEvalは、マルチ言語コンテキストでNetOpsの常識知識と推論能力を評価するように設計されている。 NetEvalはNetOpsに関する5,732の質問で構成され、NetOpsの5つのサブドメインをカバーする。 NetEvalでは,公開LLM26のNetOps機能を体系的に評価する。 その結果,GPT-4のみが人間に競争力を持たせることができた。 しかし、LLaMA 2のようないくつかのオープンモデルは大きな可能性を示している。

Nowadays, the versatile capabilities of Pre-trained Large Language Models (LLMs) have attracted much attention from the industry. However, some vertical domains are more interested in the in-domain capabilities of LLMs. For the Networks domain, we present NetEval, an evaluation set for measuring the comprehensive capabilities of LLMs in Network Operations (NetOps). NetEval is designed for evaluating the commonsense knowledge and inference ability in NetOps in a multi-lingual context. NetEval consists of 5,732 questions about NetOps, covering five different sub-domains of NetOps. With NetEval, we systematically evaluate the NetOps capability of 26 publicly available LLMs. The results show that only GPT-4 can achieve a performance competitive to humans. However, some open models like LLaMA 2 demonstrate significant potential.
翻訳日:2023-09-20 18:50:23 公開日:2023-09-19
# 6gによるフェデレーション学習の進展 - グラフベース分析による信頼型アーキテクチャ

Advancing Federated Learning in 6G: A Trusted Architecture with Graph-based Analysis ( http://arxiv.org/abs/2309.05525v2 )

ライセンス: Link先を確認
Wenxuan Ye, Chendi Qian, Xueli An, Xueqiang Yan, Georg Carle(参考訳) ネットワークアーキテクチャにネイティブAIサポートを統合することが6Gの重要な目的である。 フェデレートラーニング(FL)は潜在的なパラダイムとして登場し、中央サーバの調整の下でさまざまなデバイスにわたる分散AIモデルトレーニングを促進する。 しかし、悪意のある攻撃や、ローカルモデルの更新をスヌーピングするプライバシスヌープ、集中化の落とし穴など、いくつかの課題が6Gコンテキストでの幅広い応用を妨げる。 本研究は,DLT(Distributed Ledger Technology)とGNN(Graph Neural Network)を利用したFLをサポートするための信頼性の高いアーキテクチャを提案する。 まず,準同型暗号を用いた前処理層を組み込んで局所モデルをセキュアに集約し,個々のモデルのプライバシを保持する。 第二に、前処理層におけるクライアントとノード間の分散特性とグラフ構造を考えると、GNNは異常なローカルモデルを特定するために利用され、システムのセキュリティが向上する。 第3に、DLTは中央サーバの機能を実行する候補の1つを選択することにより、システムを分散化する。 さらに、DLTは不変かつ透明な台帳にデータ交換を記録することにより、信頼性の高いデータ管理を保証する。 新たなアーキテクチャの実現性はシミュレーションによって検証され、関連するベースラインと比較して異常なモデル検出とグローバルモデルの精度の向上が示されている。

Integrating native AI support into the network architecture is an essential objective of 6G. Federated Learning (FL) emerges as a potential paradigm, facilitating decentralized AI model training across a diverse range of devices under the coordination of a central server. However, several challenges hinder its wide application in the 6G context, such as malicious attacks and privacy snooping on local model updates, and centralization pitfalls. This work proposes a trusted architecture for supporting FL, which utilizes Distributed Ledger Technology (DLT) and Graph Neural Network (GNN), including three key features. First, a pre-processing layer employing homomorphic encryption is incorporated to securely aggregate local models, preserving the privacy of individual models. Second, given the distributed nature and graph structure between clients and nodes in the pre-processing layer, GNN is leveraged to identify abnormal local models, enhancing system security. Third, DLT is utilized to decentralize the system by selecting one of the candidates to perform the central server's functions. Additionally, DLT ensures reliable data management by recording data exchanges in an immutable and transparent ledger. The feasibility of the novel architecture is validated through simulations, demonstrating improved performance in anomalous model detection and global model accuracy compared to relevant baselines.
翻訳日:2023-09-20 18:50:14 公開日:2023-09-19
# FOLLOWUPQG:情報探索型フォローアップ質問生成に向けて

FOLLOWUPQG: Towards Information-Seeking Follow-up Question Generation ( http://arxiv.org/abs/2309.05007v2 )

ライセンス: Link先を確認
Yan Meng, Liangming Pan, Yixin Cao, Min-Yen Kan(参考訳) 人間は、創造的な人間の認知過程を反映した好奇心によって駆動されるフォローアップ質問を問う。 本稿では,初期質問と回答のより深い理解を求めるフォローアップ質問を生成することを目的とした,実世界の情報検索フォローアップ質問生成(FQG)の課題を紹介する。 FOLLOWUPQGは3K以上の実世界のデータセット(初期質問、回答、フォローアップ質問)をRedditのフォーラムから収集し、オープンエンドの質問に対してレイマンフレンドリーな説明を提供する。 既存のデータセットとは対照的に、FOLLOWUPQGの質問は情報を求めるためにより多様な実用的戦略を使用し、より高次の認知能力(適用や関連性など)を示す。 フォローアップ質問の生成に有効な質問生成モデルを評価し,ステップバイステップのデモンストレーションに基づいて,フォローアップ質問の特定のタイプを生成する方法について検討する。 結果,FOLLOWUPQGはモデル生成質問が適切であるが,情報量や複雑性の観点からは人為的な質問には程遠いため,評価が難しい。

Humans ask follow-up questions driven by curiosity, which reflects a creative human cognitive process. We introduce the task of real-world information-seeking follow-up question generation (FQG), which aims to generate follow-up questions seeking a more in-depth understanding of an initial question and answer. We construct FOLLOWUPQG, a dataset of over 3K real-world (initial question, answer, follow-up question) tuples collected from a Reddit forum providing layman-friendly explanations for open-ended questions. In contrast to existing datasets, questions in FOLLOWUPQG use more diverse pragmatic strategies to seek information, and they also show higher-order cognitive skills (such as applying and relating). We evaluate current question generation models on their efficacy for generating follow-up questions, exploring how to generate specific types of follow-up questions based on step-by-step demonstrations. Our results validate FOLLOWUPQG as a challenging benchmark, as model-generated questions are adequate but far from human-raised questions in terms of informativeness and complexity.
翻訳日:2023-09-20 18:49:50 公開日:2023-09-19
# 確率的ダイアグラム指導による実証から学ぶ

Learning from Demonstration via Probabilistic Diagrammatic Teaching ( http://arxiv.org/abs/2309.03835v2 )

ライセンス: Link先を確認
Weiming Zhi and Tianyi Zhang and Matthew Johnson-Roberson(参考訳) Learning for Demonstration (LfD)は、ロボットが専門家によるデモンストレーションを模倣することで新しいスキルを習得し、ユーザーが直感的に指示を伝えることを可能にする。 近年のLfDの進歩は、ユーザがデモを指定するための媒体として、審美教育や遠隔操作に依存していることが多い。 体操教育はロボットの物理的操作を必要とし、遠隔操作は追加のハードウェアで熟練を必要とする。 本稿では,LfDの代替パラダイムであるダイアグラム教育を紹介する。 図式指導は,シーンの2次元画像上でのデモンストレーショントラジェクタのスケッチをユーザに促すことで,ロボットに新たなスキルを教えることを目的としており,これらを3次元タスク空間における運動トラジェクタ生成モデルとして合成する。 さらに,言語教育のためのレイトレーシング確率軌道学習(RPTL)フレームワークを提案する。 RPTLは2次元スケッチから時間変化確率密度を抽出し、3次元カルト空間の対応する領域を見つけるためにレイトレーシングを適用し、これらの領域に運動軌跡の確率モデルを適用する。 ユーザがスケッチしたものを模倣した新しいモーショントラジェクトリを確率モデルから生成することができる。 我々は,固定ベースマニピュレータと四足歩行マニピュレータを含む実ロボットのシミュレーションとシミュレーションの両方において,経験的検証を行った。

Learning for Demonstration (LfD) enables robots to acquire new skills by imitating expert demonstrations, allowing users to communicate their instructions in an intuitive manner. Recent progress in LfD often relies on kinesthetic teaching or teleoperation as the medium for users to specify the demonstrations. Kinesthetic teaching requires physical handling of the robot, while teleoperation demands proficiency with additional hardware. This paper introduces an alternative paradigm for LfD called Diagrammatic Teaching. Diagrammatic Teaching aims to teach robots novel skills by prompting the user to sketch out demonstration trajectories on 2D images of the scene, these are then synthesised as a generative model of motion trajectories in 3D task space. Additionally, we present the Ray-tracing Probabilistic Trajectory Learning (RPTL) framework for Diagrammatic Teaching. RPTL extracts time-varying probability densities from the 2D sketches, applies ray-tracing to find corresponding regions in 3D Cartesian space, and fits a probabilistic model of motion trajectories to these regions. New motion trajectories, which mimic those sketched by the user, can then be generated from the probabilistic model. We empirically validate our framework both in simulation and on real robots, which include a fixed-base manipulator and a quadruped-mounted manipulator.
翻訳日:2023-09-20 18:49:30 公開日:2023-09-19
# パーティクルスウォーム最適化マルチヘッドアテンション強化CNN-LSTMネットワークによる短期負荷予測

Short-Term Load Forecasting Using A Particle-Swarm Optimized Multi-Head Attention-Augmented CNN-LSTM Network ( http://arxiv.org/abs/2309.03694v2 )

ライセンス: Link先を確認
Paapa Kwesi Quansah and Edwin Kwesi Ansah Tenkorang(参考訳) 短期負荷予測は電力系統の効率的な運転と計画において最重要であり、本質的に非線形かつ動的性質を考慮に入れている。 ディープラーニングの最近の進歩は、この課題に取り組む上での有望さを示している。 しかし、これらの手法は、しばしばハイパーパラメータ感度、解釈容易性の不透明さ、そしてリアルタイムデプロイメントのための高い計算オーバーヘッドに悩まされる。 本稿では,これらの障害を克服する新しい解を提案する。 提案手法は,超パラメータを自律的に探索し最適化するパーティクル・スワーム最適化アルゴリズムのパワー,正確な予測に不可欠な特徴を識別するマルチヘッドアテンション機構,計算効率の合理化フレームワークを活用する。 本手法は真の電力需要データセットを用いて厳密な評価を行う。 この結果は、精度、堅牢性、計算効率の点でその優位性を示している。 特に、我々の平均絶対パーセンテージ誤差 1.9376 は、既存の最先端のアプローチを大きく進歩させ、短期的な負荷予測の新しい時代を告げている。

Short-term load forecasting is of paramount importance in the efficient operation and planning of power systems, given its inherent non-linear and dynamic nature. Recent strides in deep learning have shown promise in addressing this challenge. However, these methods often grapple with hyperparameter sensitivity, opaqueness in interpretability, and high computational overhead for real-time deployment. In this paper, I propose a novel solution that surmounts these obstacles. Our approach harnesses the power of the Particle-Swarm Optimization algorithm to autonomously explore and optimize hyperparameters, a Multi-Head Attention mechanism to discern the salient features crucial for accurate forecasting, and a streamlined framework for computational efficiency. Our method undergoes rigorous evaluation using a genuine electricity demand dataset. The results underscore its superiority in terms of accuracy, robustness, and computational efficiency. Notably, our Mean Absolute Percentage Error of 1.9376 marks a significant advancement over existing state-of-the-art approaches, heralding a new era in short-term load forecasting.
翻訳日:2023-09-20 18:49:07 公開日:2023-09-19
# TextBind: 野生のマルチターンインターリーブマルチモーダルインストラクションフォロー

TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild ( http://arxiv.org/abs/2309.08637v2 )

ライセンス: Link先を確認
Huayang Li and Siheng Li and Deng Cai and Longyue Wang and Lemao Liu and Taro Watanabe and Yujiu Yang and Shuming Shi(参考訳) 命令追従能力を持つ大規模言語モデルは、人工知能の分野に革命をもたらした。 これらのモデルは、自然言語インターフェイスを通じて様々な現実世界のタスクに取り組むための例外的な一般化性を示している。 しかし、その性能は高品質な模範データに大きく依存しており、入手が難しいことが多い。 この課題は、マルチモーダル命令のフォローに関してさらに悪化する。 マルチターンインターリーブ型マルチモーダル命令追従機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。 本手法では,画像キャプチャペアのみを必要とし,言語モデルからマルチターンマルチモーダル命令応答会話を生成する。 そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。 我々は,マルチモーダルインストラクションの分野における今後の研究を促進するために,データセット,モデル,デモをリリースする。

Large language models with instruction-following abilities have revolutionized the field of artificial intelligence. These models show exceptional generalizability to tackle various real-world tasks through their natural language interfaces. However, their performance heavily relies on high-quality exemplar data, which is often difficult to obtain. This challenge is further exacerbated when it comes to multimodal instruction following. We introduce TextBind, an almost annotation-free framework for empowering larger language models with the multi-turn interleaved multimodal instruction-following capabilities. Our approach requires only image-caption pairs and generates multi-turn multimodal instruction-response conversations from a language model. To accommodate interleaved image-text inputs and outputs, we devise MIM, a language model-centric architecture that seamlessly integrates image encoder and decoder models. We release our dataset, model, and demo to foster future research in the area of multimodal instruction following.
翻訳日:2023-09-20 18:40:46 公開日:2023-09-19
# 低ランクスレート型レコメンダシステムにおける表現学習

Representation Learning in Low-rank Slate-based Recommender Systems ( http://arxiv.org/abs/2309.08622v2 )

ライセンス: Link先を確認
Yijia Dai, Wen Sun(参考訳) 推薦システムにおける強化学習(RL)は、長期的なユーザエンゲージメントのための推奨を最適化する能力を提供する。 しかし、環境はしばしば大きな状態と行動空間を伴い、効率的に学び、探索することは困難である。 本研究では,標準スレートレコメンデーション設定を用いて,これを低ランクマルコフ決定プロセス(MDP)を用いたオンラインRL問題として扱うために,サンプル効率のよい表現学習アルゴリズムを提案する。 また,提案手法を用いて,提案手法を用いて推薦者シミュレーション環境を構築する。

Reinforcement learning (RL) in recommendation systems offers the potential to optimize recommendations for long-term user engagement. However, the environment often involves large state and action spaces, which makes it hard to efficiently learn and explore. In this work, we propose a sample-efficient representation learning algorithm, using the standard slate recommendation setup, to treat this as an online RL problem with low-rank Markov decision processes (MDPs). We also construct the recommender simulation environment with the proposed setup and sampling method.
翻訳日:2023-09-20 18:40:29 公開日:2023-09-19
# ラングのメディア

Media of Langue ( http://arxiv.org/abs/2309.08609v2 )

ライセンス: Link先を確認
Goki Muramoto, Atsuki Sato, Takayoshi Koyama(参考訳) 本稿では,村本五樹らによる『ラングのメディア』の資料をアーカイブすることを目的とする。 メディア・オブ・ラング(英語版)は「この単語が同語に翻訳された」という広大な出来事と、同じ言語のすべての単語と異なる言語の翻訳された単語の間の魅力の間の反発」という2つの力から、言語の境界線の地図を描いている。 まず、言語間マップ/辞書、言語間空間、そして言語間ネットワークという3つの新しい概念を紹介し、これらを辞書、意味空間、意味ネットワークの3つの領域と比較する。 作業で実装された特定のアルゴリズムと設計について説明する。

This paper aims to archive the materials behind "Media of Langue" by Goki Muramoto et al. Media of Langue is a new dictionary and public sculpture that depicts the map of meaning on the boundary between languages solely from the vast events of "this word was translated into that word" and two forces: repulsion between all words in the same language and attraction between translated words in different languages. First, the three new concepts proposed, Inter-Langue Map/Dictionary, Inter-Langue Space, and then Inter-Langue Network, are introduced, comparing them to the three domains of dictionary, semantic space, and semantic network. The specific algorithms and designs implemented in the work are then described.
翻訳日:2023-09-20 18:40:19 公開日:2023-09-19
# BEA:Budding Ensemble Architectureを用いたアンカーベースのオブジェクト検出DNNの再検討

BEA: Revisiting anchor-based object detection DNN using Budding Ensemble Architecture ( http://arxiv.org/abs/2309.08036v2 )

ライセンス: Link先を確認
Syed Sha Qutub and Neslihan Kose and Rafael Rosales and Michael Paulitsch and Korbinian Hagn and Florian Geissler and Yang Peng and Gereon Hinz and Alois Knoll(参考訳) 本稿では,アンカーベースオブジェクト検出モデルのための新しいアンサンブルアーキテクチャであるBudding Ensemble Architecture (BEA)を紹介する。 物体検出モデルは視覚に基づくタスク、特に自律システムにおいて重要である。 正確なバウンディングボックス検出を提供すると同時に、予測された信頼度スコアを調整し、高品質の不確実性推定につながるはずだ。 しかし、現在のモデルは、高いスコアを受けた偽陽性や低いスコアで捨てられた真陽性のために誤った判断を下す可能性がある。 BEAはこれらの問題に対処することを目指している。 提案する損失関数は信頼度スコア校正を改善し,不確実性誤差を低減し,真正と偽陽性の区別が向上し,オブジェクト検出モデルの精度が向上する。 Base-YOLOv3 と SSD はBEA 法と損失関数を用いて拡張された。 KITTIデータセットでトレーニングされたBase-YOLOv3上のBEAは、それぞれmAPとAP50の6%と3.7%増加している。 バランスの取れた不確実性推定しきい値を利用してサンプルをリアルタイムに破棄することは、ベースモデルよりも9.6%高いap50となる。 これは、信頼性スコアのキャリブレーションの質を測定するために使用されるAP50ベースの保持曲線の下で、面積が40%増加したためである。 さらに、KITTIでトレーニングされたBEA-YOLOV3は、YOLOv3とGaussian-YOLOv3のアンサンブルやバニラモデルと比較して、Citypersons、BDD100K、COCOデータセットに優れたアウトオブディストリビューション検出を提供する。

This paper introduces the Budding Ensemble Architecture (BEA), a novel reduced ensemble architecture for anchor-based object detection models. Object detection models are crucial in vision-based tasks, particularly in autonomous systems. They should provide precise bounding box detections while also calibrating their predicted confidence scores, leading to higher-quality uncertainty estimates. However, current models may make erroneous decisions due to false positives receiving high scores or true positives being discarded due to low scores. BEA aims to address these issues. The proposed loss functions in BEA improve the confidence score calibration and lower the uncertainty error, which results in a better distinction of true and false positives and, eventually, higher accuracy of the object detection models. Both Base-YOLOv3 and SSD models were enhanced using the BEA method and its proposed loss functions. The BEA on Base-YOLOv3 trained on the KITTI dataset results in a 6% and 3.7% increase in mAP and AP50, respectively. Utilizing a well-balanced uncertainty estimation threshold to discard samples in real-time even leads to a 9.6% higher AP50 than its base model. This is attributed to a 40% increase in the area under the AP50-based retention curve used to measure the quality of calibration of confidence scores. Furthermore, BEA-YOLOV3 trained on KITTI provides superior out-of-distribution detection on Citypersons, BDD100K, and COCO datasets compared to the ensembles and vanilla models of YOLOv3 and Gaussian-YOLOv3.
翻訳日:2023-09-20 18:40:04 公開日:2023-09-19
# 単純で高次なネットワークの質量

The mass of simple and higher-order networks ( http://arxiv.org/abs/2309.07851v2 )

ライセンス: Link先を確認
Ginestra Bianconi(参考訳) 本稿では,単純かつ高次ネットワークの質量がトポロジーや幾何学からどのように出現するかを説明する理論的枠組みを提案する。 離散位相ディラック作用素を用いて、ナムブ・ジョナ・ラシニオモデルに触発された無質量自己相互作用位相ディラック場に対する作用を定義する。 ネットワークの質量は、ネットワーク上で定義されたこの位相ディラック場の質量を厳密に話している;それはモデルのカイラル対称性の破れの結果であり、自己整合ギャップ方程式を満たす。 興味深いことに、ネットワークの質量はそのスペクトル特性、トポロジー、幾何学に依存することが示されている。 離散位相ディラック作用素の調和モードで観測される物質-反物質対称性の破れにより、ネットワーク質量の2つの可能な定義が与えられる。 両方の可能な定義について、ネットワークの質量は、ベア質量の値にエンコードされる2つの定義の差を持つギャップ方程式から得られる。 実際、素質量はベッチ数$\beta_0$またはネットワークのベッチ数$\beta_1$で決定できる。 ランダムグラフ,スケールフリー,実重み付き協調ネットワークなど,異なるネットワークの質量に関する数値的な結果を提供する。 また、これらの結果を高階ネットワークに一般化し、単純複素数の質量を定義する。 ネットワークのトポロジーと幾何による位相的ディラック場の質量の観測された依存は、ディラック場が基盤となるネットワーク構造の動的進化と結合するシナリオにおいて興味深い物理学をもたらす可能性がある。

We propose a theoretical framework that explains how the mass of simple and higher-order networks emerges from their topology and geometry. We use the discrete topological Dirac operator to define an action for a massless self-interacting topological Dirac field inspired by the Nambu-Jona Lasinio model. The mass of the network is strictly speaking the mass of this topological Dirac field defined on the network; it results from the chiral symmetry breaking of the model and satisfies a self-consistent gap equation. Interestingly, it is shown that the mass of a network depends on its spectral properties, topology, and geometry. Due to the breaking of the matter-antimatter symmetry observed for the harmonic modes of the discrete topological Dirac operator, two possible definitions of the network mass can be given. For both possible definitions, the mass of the network comes from a gap equation with the difference among the two definitions encoded in the value of the bare mass. Indeed, the bare mass can be determined either by the Betti number $\beta_0$ or by the Betti number $\beta_1$ of the network. We provide numerical results on the mass of different networks, including random graphs, scale-free, and real weighted collaboration networks. We also discuss the generalization of these results to higher-order networks, defining the mass of simplicial complexes. The observed dependence of the mass of the considered topological Dirac field with the topology and geometry of the network could lead to interesting physics in the scenario in which the considered Dirac field is coupled with a dynamical evolution of the underlying network structure.
翻訳日:2023-09-20 18:39:19 公開日:2023-09-19
# 移動語:トランスフォーマーの幾何学的解釈

Traveling Words: A Geometric Interpretation of Transformers ( http://arxiv.org/abs/2309.07315v2 )

ライセンス: Link先を確認
Raul Molina(参考訳) トランスフォーマーは自然言語処理の分野を著しく進歩させたが、内部機構の解明は依然として課題である。 本稿では,変圧器操作の内部機構を解明する新しい幾何学的視点を提案する。 我々の主な貢献は、層正規化が潜在特徴を超球面に閉じ込める方法を示し、その後、この表面における単語の意味表現に注意を向けることである。 この幾何学的視点は、反復的洗練や文脈埋め込みのような確立された性質をシームレスに結合する。 我々は,事前学習した114mパラメータgpt-2モデルを用いて知見を検証する。 本研究は,初期層における問合せキーの注意パターンを明らかにし,より深い層における注目の主観的特徴に関する先行観測に基づいて構築した。 これらの幾何学的洞察を生かし、超球面に沿った単語粒子の軌跡をモデル化する過程として、トランスフォーマーの直感的な理解を示す。

Transformers have significantly advanced the field of natural language processing, but comprehending their internal mechanisms remains a challenge. In this paper, we introduce a novel geometric perspective that elucidates the inner mechanisms of transformer operations. Our primary contribution is illustrating how layer normalization confines the latent features to a hyper-sphere, subsequently enabling attention to mold the semantic representation of words on this surface. This geometric viewpoint seamlessly connects established properties such as iterative refinement and contextual embeddings. We validate our insights by probing a pre-trained 124M parameter GPT-2 model. Our findings reveal clear query-key attention patterns in early layers and build upon prior observations regarding the subject-specific nature of attention heads at deeper layers. Harnessing these geometric insights, we present an intuitive understanding of transformers, depicting them as processes that model the trajectory of word particles along the hyper-sphere.
翻訳日:2023-09-20 18:37:56 公開日:2023-09-19
# 先住民データの良性を考える:植民地的実践としてのデータマイニング

In Consideration of Indigenous Data Sovereignty: Data Mining as a Colonial Practice ( http://arxiv.org/abs/2309.10215v1 )

ライセンス: Link先を確認
Jennafer Shae Roberts and Laura N Montoya(参考訳) データマイニングは植民地主義を再現し、先住民の声は人工知能のようなデータに依存する技術開発から遠ざかっている。 この研究は、独自のデータに対する先住民の権利の重要性に焦点をあてた、先住民のデータの主権と中心の必要性を強調している。 データ依存技術の設計、開発、実装に固有の知識を統合するためには、包括性が必要である。 この仮説を支持し、この問題に対処するために、CARE Principles for Indigenous Data Governance (Collective Benefit, Authority to Control, Responsibility, and Ethics)が適用される。 データマイニングの植民地的慣行が、先住民の信念とどのように一致しないかを説明する。 このケーススタディでは、データと環境生態系の保護に関する先住民の権利とのつながりを強調し、データガバナンスが人々と地球の両方にどのように役立つかを確立した。 データマイニングや新植民地主義から生じる問題にCARE原則を適用することで、私たちの目標は、技術開発に使用できるフレームワークを提供することです。 この理論は、データ主権を全般的に促進し、スピードと利益によって駆動されるのとは対照的に倫理的な人々とデータの間に新たな関係を生み出すための外向きを反映している。

Data mining reproduces colonialism, and Indigenous voices are being left out of the development of technology that relies on data, such as artificial intelligence. This research stresses the need for the inclusion of Indigenous Data Sovereignty and centers on the importance of Indigenous rights over their own data. Inclusion is necessary in order to integrate Indigenous knowledge into the design, development, and implementation of data-reliant technology. To support this hypothesis and address the problem, the CARE Principles for Indigenous Data Governance (Collective Benefit, Authority to Control, Responsibility, and Ethics) are applied. We cover how the colonial practices of data mining do not align with Indigenous convictions. The included case studies highlight connections to Indigenous rights in relation to the protection of data and environmental ecosystems, thus establishing how data governance can serve both the people and the Earth. By applying the CARE Principles to the issues that arise from data mining and neocolonialism, our goal is to provide a framework that can be used in technological development. The theory is that this could reflect outwards to promote data sovereignty generally and create new relationships between people and data that are ethical as opposed to driven by speed and profit.
翻訳日:2023-09-20 17:09:26 公開日:2023-09-19
# policygpt: 大きな言語モデルによるプライバシーポリシーの自動分析

PolicyGPT: Automated Analysis of Privacy Policies with Large Language Models ( http://arxiv.org/abs/2309.10238v1 )

ライセンス: Link先を確認
Chenhao Tang, Zhengliang Liu, Chong Ma, Zihao Wu, Yiwei Li, Wei Liu, Dajiang Zhu, Quanzheng Li, Xiang Li, Tianming Liu, Lei Fan(参考訳) プライバシーポリシーは、オンラインサービスプロバイダがユーザーのデータ収集と利用手順をユーザーに知らせる主要な手段である。 しかし、包括的かつ法的リスクを軽減するために、これらの政策文書は、しばしば非常に冗長である。 実際に使う場合、ユーザーは慎重に読むのではなく、Agreeボタンを直接クリックする傾向がある。 このプラクティスは、プライバシーの漏洩や法的問題のリスクにユーザをさらけ出す。 近年,ChatGPT や GPT-4 などの大規模言語モデル (LLM) の出現により,特にプライバシポリシなどの長文ドキュメントにおいて,テキスト解析の新たな可能性が高まっている。 本研究では,llmに基づくプライバシーポリシーテキスト分析フレームワークpolicygptについて検討する。 このフレームワークは2つのデータセットを使ってテストされた。 最初のデータセットは、115のウェブサイトからのプライバシーポリシーで構成されており、法律の専門家によって慎重に注釈付けされ、各セグメントを10のクラスに分類した。 第2のデータセットは,304のモバイルアプリケーションからのプライバシポリシで構成されており,各文を手作業で注釈付けし,他の10のカテゴリに分類している。 ゼロショット学習条件下では、PolicyGPTは堅牢な性能を示した。 第1データセットの精度は97%、第2データセットの精度は87%に達し、ベースライン機械学習とニューラルネットワークモデルの精度を上回った。

Privacy policies serve as the primary conduit through which online service providers inform users about their data collection and usage procedures. However, in a bid to be comprehensive and mitigate legal risks, these policy documents are often quite verbose. In practical use, users tend to click the Agree button directly rather than reading them carefully. This practice exposes users to risks of privacy leakage and legal issues. Recently, the advent of Large Language Models (LLM) such as ChatGPT and GPT-4 has opened new possibilities for text analysis, especially for lengthy documents like privacy policies. In this study, we investigate a privacy policy text analysis framework PolicyGPT based on the LLM. This framework was tested using two datasets. The first dataset comprises of privacy policies from 115 websites, which were meticulously annotated by legal experts, categorizing each segment into one of 10 classes. The second dataset consists of privacy policies from 304 popular mobile applications, with each sentence manually annotated and classified into one of another 10 categories. Under zero-shot learning conditions, PolicyGPT demonstrated robust performance. For the first dataset, it achieved an accuracy rate of 97%, while for the second dataset, it attained an 87% accuracy rate, surpassing that of the baseline machine learning and neural network models.
翻訳日:2023-09-20 16:58:55 公開日:2023-09-19
# 深部生成モデルにおける明示的曲率正規化について

On Explicit Curvature Regularization in Deep Generative Models ( http://arxiv.org/abs/2309.10237v1 )

ライセンス: Link先を確認
Yonghyeon Lee and Frank Chongwoo Park(参考訳) 深層生成モデル学習のための曲率に基づく正規化用語群を提案する。 高次元ユークリッド空間に埋め込まれた任意のデータ多様体の場合、内在的および外在的曲率測度の明示的な座標不変式が導かれる。 曲率の計算は二階導関数の評価を含む計算集約的なプロセスであるため、本質曲率と余剰曲率を概ね評価するための効率的な公式が導出される。 内在的および外在的曲率に基づく正規化尺度の相対的有効性の比較および既存の自己エンコーダ訓練法との比較を行った。 ノイズのあるモーションキャプチャーデータを含む実験により、既存のオートエンコーダ正規化法よりも曲率に基づく手法が優れていることを確認した。

We propose a family of curvature-based regularization terms for deep generative model learning. Explicit coordinate-invariant formulas for both intrinsic and extrinsic curvature measures are derived for the case of arbitrary data manifolds embedded in higher-dimensional Euclidean space. Because computing the curvature is a highly computation-intensive process involving the evaluation of second-order derivatives, efficient formulas are derived for approximately evaluating intrinsic and extrinsic curvatures. Comparative studies are conducted that compare the relative efficacy of intrinsic versus extrinsic curvature-based regularization measures, as well as performance comparisons against existing autoencoder training methods. Experiments involving noisy motion capture data confirm that curvature-based methods outperform existing autoencoder regularization methods, with intrinsic curvature measures slightly more effective than extrinsic curvature measures.
翻訳日:2023-09-20 16:58:31 公開日:2023-09-19
# より良い一般化と外挿のための多要素気候モデルパラメータ化

Multi-fidelity climate model parameterization for better generalization and extrapolation ( http://arxiv.org/abs/2309.10231v1 )

ライセンス: Link先を確認
Mohamed Aziz Bhouri, Liran Peng, Michael S. Pritchard, Pierre Gentine(参考訳) 地球温暖化モデルや乱流シミュレーションの機械学習に基づくパラメータ化(サブグリッドプロセスの表現)は、最近、物理的だが経験的な表現の強力な代替として提案され、計算コストが低く、精度も高い。 しかし、これらのアプローチは依然として、トレーニングデータを超えた一般化と外挿の欠如に苦しんでいる。 ここでは,異なる精度と豊富なデータセットを統合するマルチ忠実性アプローチが,物理的パラメータ化の活用を外挿する能力と,機械学習に基づくパラメータ化による精度の向上という,両世界のベストを提供することができることを示す。 気候モデリングへの応用において、マルチ忠実度フレームワークは計算資源の大幅な増加を必要とせず、より正確な気候予測をもたらす。 我々のMF-RPN(Multi-fidelity randomized prior network)は、物理パラメータ化データを低忠実、ストームリゾルディング履歴データの高忠実化と組み合わせている。 トレーニングデータを超えるために、MF-RPNは4Kドル以上の高密度の温暖化シナリオでテストされる。 我々は、MF-RPNの能力が、複数のシナリオで信頼できる不確実性定量化を提供しながら、1つのシステマでのみ訓練された低・高忠実(歴史データ)シミュレーションと比較して、はるかに高度な予測を返すことを示す。 われわれの手法は、歴史的観測や高忠実度シミュレーションを最適に活用し、気候変動のような目に見えない状況に外挿できる機械学習ベースの手法の活用の道を開くものである。

Machine-learning-based parameterizations (i.e. representation of sub-grid processes) of global climate models or turbulent simulations have recently been proposed as a powerful alternative to physical, but empirical, representations, offering a lower computational cost and higher accuracy. Yet, those approaches still suffer from a lack of generalization and extrapolation beyond the training data, which is however critical to projecting climate change or unobserved regimes of turbulence. Here we show that a multi-fidelity approach, which integrates datasets of different accuracy and abundance, can provide the best of both worlds: the capacity to extrapolate leveraging the physically-based parameterization and a higher accuracy using the machine-learning-based parameterizations. In an application to climate modeling, the multi-fidelity framework yields more accurate climate projections without requiring major increase in computational resources. Our multi-fidelity randomized prior networks (MF-RPNs) combine physical parameterization data as low-fidelity and storm-resolving historical run's data as high-fidelity. To extrapolate beyond the training data, the MF-RPNs are tested on high-fidelity warming scenarios, $+4K$, data. We show the MF-RPN's capacity to return much more skillful predictions compared to either low- or high-fidelity (historical data) simulations trained only on one regime while providing trustworthy uncertainty quantification across a wide range of scenarios. Our approach paves the way for the use of machine-learning based methods that can optimally leverage historical observations or high-fidelity simulations and extrapolate to unseen regimes such as climate change.
翻訳日:2023-09-20 16:58:14 公開日:2023-09-19
# 点雲異常検出のための点収差の学習

Learning Point-wise Abstaining Penalty for Point Cloud Anomaly Detection ( http://arxiv.org/abs/2309.10230v1 )

ライセンス: Link先を確認
Shaocong Xu, Pengfei Li, Xinyu Liu, Qianpu Sun, Yang Li, Shihui Guo, Zhen Wang, Bo Jiang, Rui Wang, Kehua Sheng, Bo Zhang, and Hao Zhao(参考訳) LiDARに基づくセマンティックシーン理解は、現代の自律運転認識スタックにおいて重要なモジュールである。 しかし、LiDARポイントクラウドにおけるout-Of-Distribution(OOD)ポイントの特定は、RGBイメージと比較して意味的にリッチな特徴が欠けているため、難しい。 この問題を,標準閉集合分類設定に選択的関数を導入する選択的分類の観点から再検討する。 私たちのソリューションは、既知のカテゴリの選択を控えるという基本的な考え方に基づいていますが、マージンベースの損失を伴うポイントワイドなペナルティを学習します。 そこで我々は,非現実的な対象のカテゴリ,サンプリングパターン,サイズなど,さまざまな要因から生じる異常値を生成する強力な合成パイプラインを提案する。 我々は,異なる種類の(合成された)アウトレイアに対して,ポイントワイドペナルティ以外の異なる禁罰を学習することが,パフォーマンスをさらに向上させることを示した。 提案手法をSemanticKITTIとnuScenesでベンチマークし,最先端の結果を得た。 リスクカバレッジ分析は、異なる方法の本質的特性をさらに明らかにする。 コードとモデルは公開されます。

LiDAR-based semantic scene understanding is an important module in the modern autonomous driving perception stack. However, identifying Out-Of-Distribution (OOD) points in a LiDAR point cloud is challenging as point clouds lack semantically rich features when compared with RGB images. We revisit this problem from the perspective of selective classification, which introduces a selective function into the standard closed-set classification setup. Our solution is built upon the basic idea of abstaining from choosing any known categories but learns a point-wise abstaining penalty with a marginbased loss. Synthesizing outliers to approximate unlimited OOD samples is also critical to this idea, so we propose a strong synthesis pipeline that generates outliers originated from various factors: unrealistic object categories, sampling patterns and sizes. We demonstrate that learning different abstaining penalties, apart from point-wise penalty, for different types of (synthesized) outliers can further improve the performance. We benchmark our method on SemanticKITTI and nuScenes and achieve state-of-the-art results. Risk-coverage analysis further reveals intrinsic properties of different methods. Codes and models will be publicly available.
翻訳日:2023-09-20 16:57:43 公開日:2023-09-19
# drive as you speak: 自動運転車における大型言語モデルとのヒューマンライクなインタラクションの実現

Drive as You Speak: Enabling Human-Like Interaction with Large Language Models in Autonomous Vehicles ( http://arxiv.org/abs/2309.10228v1 )

ライセンス: Link先を確認
Can Cui, Yunsheng Ma, Xu Cao, Wenqian Ye and Ziran Wang(参考訳) 自動運転車の未来は、人間中心の設計と高度なAI能力の融合にある。 未来の自動運転車は乗客を輸送するだけでなく、乗客の欲望に適応し、旅行を快適に、効率的かつ快適にする。 本稿では,大型言語モデル(llms)を活用して自動運転車の意思決定プロセスを強化する新しい枠組みを提案する。 LLMの自然言語能力と文脈理解、特殊ツールの使用、推論の相乗化、および自律走行車における様々なモジュールとの動作によって、このフレームワークはLLMの高度な言語と推論能力を自律走行車にシームレスに統合することを目的としている。 提案されたフレームワークは、自動運転車の運転方法に革命をもたらす可能性を持ち、パーソナライズされた支援、継続的学習、透明性のある意思決定を提供し、最終的にはより安全で効率的な自動運転技術に寄与する。

The future of autonomous vehicles lies in the convergence of human-centric design and advanced AI capabilities. Autonomous vehicles of the future will not only transport passengers but also interact and adapt to their desires, making the journey comfortable, efficient, and pleasant. In this paper, we present a novel framework that leverages Large Language Models (LLMs) to enhance autonomous vehicles' decision-making processes. By integrating LLMs' natural language capabilities and contextual understanding, specialized tools usage, synergizing reasoning, and acting with various modules on autonomous vehicles, this framework aims to seamlessly integrate the advanced language and reasoning capabilities of LLMs into autonomous vehicles. The proposed framework holds the potential to revolutionize the way autonomous vehicles operate, offering personalized assistance, continuous learning, and transparent decision-making, ultimately contributing to safer and more efficient autonomous driving technologies.
翻訳日:2023-09-20 16:57:25 公開日:2023-09-19
# Convolutional Network Assisted Reconstruction Swin Transformer を用いた動的MRI再構成の学習

Learning Dynamic MRI Reconstruction with Convolutional Network Assisted Reconstruction Swin Transformer ( http://arxiv.org/abs/2309.10227v1 )

ライセンス: Link先を確認
Di Xu, Hengjie Liu, Dan Ruan and Ke Sheng(参考訳) ダイナミック磁気共鳴イメージング(DMRI)は、特定の解剖の運動追跡を必要とする診断タスクに有効なイメージングツールである。 dmriの獲得をスピードアップするために、k空間の測定は一般に空間領域や時空間領域に沿ってアンサンプリングされる。 有用情報の回収の難しさは,アンダーサンプリング比の増加とともに増大する。 この目的のために圧縮センシングが発明され、過去10年間に深層学習(DL)に基づくDMRI再構成法が出現するまで、最も一般的な方法となった。 それでも、既存のDLネットワークは、長い範囲のシーケンシャルな依存性の理解と計算効率に制限があり、完全に自動化されていない。 視覚コミュニティ、特に自然映像理解におけるトランスフォーマーの位置埋め込みと「スウィンウインドウ」自己照準機構の成功を考慮し、4次元mriのための新しいアーキテクチャであるrestruction swin transformer (rst)を提案する。 RSTはビデオスウィントランスのバックボーン設計を継承し、画素の強度を回復するために新しい再構成ヘッドを導入した。 SADXNetと呼ばれる畳み込みネットワークは、RTT学習の前に2次元MRフレームの迅速な初期化に使用され、モデルの複雑さ、GPUハードウェア要求、トレーニング時間を効果的に削減する。 心臓の4D MRデータセットは、RSTの優位性をさらに裏付け、最低RMSEは0.0286 +/- 0.0199で、1SSIMは0.0872 +/- 0.0783である。

Dynamic magnetic resonance imaging (DMRI) is an effective imaging tool for diagnosis tasks that require motion tracking of a certain anatomy. To speed up DMRI acquisition, k-space measurements are commonly undersampled along spatial or spatial-temporal domains. The difficulty of recovering useful information increases with increasing undersampling ratios. Compress sensing was invented for this purpose and has become the most popular method until deep learning (DL) based DMRI reconstruction methods emerged in the past decade. Nevertheless, existing DL networks are still limited in long-range sequential dependency understanding and computational efficiency and are not fully automated. Considering the success of Transformers positional embedding and "swin window" self-attention mechanism in the vision community, especially natural video understanding, we hereby propose a novel architecture named Reconstruction Swin Transformer (RST) for 4D MRI. RST inherits the backbone design of the Video Swin Transformer with a novel reconstruction head introduced to restore pixel-wise intensity. A convolution network called SADXNet is used for rapid initialization of 2D MR frames before RST learning to effectively reduce the model complexity, GPU hardware demand, and training time. Experimental results in the cardiac 4D MR dataset further substantiate the superiority of RST, achieving the lowest RMSE of 0.0286 +/- 0.0199 and 1 - SSIM of 0.0872 +/- 0.0783 on 9 times accelerated validation sequences.
翻訳日:2023-09-20 16:57:09 公開日:2023-09-19
# ポリプセグメンテーションのための注意機構を組み合わせた多層機能融合ネットワーク

Multi-level feature fusion network combining attention mechanisms for polyp segmentation ( http://arxiv.org/abs/2309.10219v1 )

ライセンス: Link先を確認
Junzhuo Liu, Qiaosong Chen, Ye Zhang, Zhixiang Wang, Deng Xin, Jin Wang(参考訳) 臨床的には、自動ポリープセグメンテーション技術は、医療診断の効率と精度を大幅に改善し、患者の大腸癌のリスクを低減する可能性がある。 残念ながら、既存の手法はセグメンテーションの精度に影響を与える2つの重大な弱点に悩まされている。 まず、エンコーダによって抽出された特徴を適切にフィルタリングして利用しない。 第二に、特徴融合による意味的対立や情報冗長性は関与しない。 これらの制約を克服するために,多レベル特徴融合とアテンション機構を利用するMLFF-Netという,ポリプセグメンテーションの新しい手法を提案する。 具体的には,マルチスケールアテンションモジュール(MAM),ハイレベル機能拡張モジュール(HFEM),グローバルアテンションモジュール(GAM)の3つのモジュールで構成される。 これらのうち、MAMはエンコーダの浅い出力からマルチスケール情報やポリプの詳細を抽出するために用いられる。 HFEMでは、エンコーダの深い特徴はアグリゲーションによって相互に補完される。 一方、注目機構は、集約された特徴の重みを再分割し、矛盾する冗長部分を弱め、タスクに有用な情報を強調する。 GAMは、エンコーダとデコーダの機能と、グローバルな依存関係を計算して、受容的なフィールドローカリティを防ぐ。 5つの公開データセットによる実験結果から,提案手法は複数種類のポリープを分割できるだけでなく,精度と一般化能力の両面で現在の最先端手法よりも有利であることがわかった。

Clinically, automated polyp segmentation techniques have the potential to significantly improve the efficiency and accuracy of medical diagnosis, thereby reducing the risk of colorectal cancer in patients. Unfortunately, existing methods suffer from two significant weaknesses that can impact the accuracy of segmentation. Firstly, features extracted by encoders are not adequately filtered and utilized. Secondly, semantic conflicts and information redundancy caused by feature fusion are not attended to. To overcome these limitations, we propose a novel approach for polyp segmentation, named MLFF-Net, which leverages multi-level feature fusion and attention mechanisms. Specifically, MLFF-Net comprises three modules: Multi-scale Attention Module (MAM), High-level Feature Enhancement Module (HFEM), and Global Attention Module (GAM). Among these, MAM is used to extract multi-scale information and polyp details from the shallow output of the encoder. In HFEM, the deep features of the encoders complement each other by aggregation. Meanwhile, the attention mechanism redistributes the weight of the aggregated features, weakening the conflicting redundant parts and highlighting the information useful to the task. GAM combines features from the encoder and decoder features, as well as computes global dependencies to prevent receptive field locality. Experimental results on five public datasets show that the proposed method not only can segment multiple types of polyps but also has advantages over current state-of-the-art methods in both accuracy and generalization ability.
翻訳日:2023-09-20 16:56:43 公開日:2023-09-19
# ブレンド学習のための階層ベース分析手法--中国人学生を事例として

A Hierarchy-based Analysis Approach for Blended Learning: A Case Study with Chinese Students ( http://arxiv.org/abs/2309.10218v1 )

ライセンス: Link先を確認
Yu Ye and Gongjin Zhang and Hongbiao Si and Liang Xu and Shenghua Hu and Yong Li and Xulong Zhang and Kaiyu Hu and Fangzhou Ye(参考訳) ブレンド学習は一般的に、従来の対面学習とオンライン学習の組み合わせとして定義される。 この学習モードは、新型コロナウイルス(covid-19)パンデミックによる社会的距離制限や技術の発展により、世界中の先進教育で広く使われている。 オンライン学習はブレンド学習において重要な役割を担っており、さらに学生の自律性を必要としているため、先進教育におけるブレンド学習の質が常に懸念されている。 既存の文献はブレンド学習の質を評価するためのいくつかの要素とフレームワークを提供している。 しかし、それらの多くは、評価の観点で異なるか、単に評価のための一般的なガイダンスを提供し、関連する作品の完全性、客観性、実用性を減らすかのどちらかである。 本稿では,より直感的で包括的な評価フレームワークを実現するために,階層ベースの分析手法を提案する。 グラデーション・ブースティング・モデルと特徴重要度評価法を用いて,学生の参加度とその3次元(行動的関与,感情的関与,認知的関与)を分析し,ブレンド学習評価において既存の頑固な問題を解消する。 その結果,認知的エンゲージメントと情緒的エンゲージメントが混合学習評価においてより重要な役割を担い,これらの2つが学習の質の向上だけでなく,学習の質向上にも寄与することが示唆された。

Blended learning is generally defined as the combination of traditional face-to-face learning and online learning. This learning mode has been widely used in advanced education across the globe due to the COVID-19 pandemic's social distance restriction as well as the development of technology. Online learning plays an important role in blended learning, and as it requires more student autonomy, the quality of blended learning in advanced education has been a persistent concern. Existing literature offers several elements and frameworks regarding evaluating the quality of blended learning. However, most of them either have different favours for evaluation perspectives or simply offer general guidance for evaluation, reducing the completeness, objectivity and practicalness of related works. In order to carry out a more intuitive and comprehensive evaluation framework, this paper proposes a hierarchy-based analysis approach. Applying gradient boosting model and feature importance evaluation method, this approach mainly analyses student engagement and its three identified dimensions (behavioral engagement, emotional engagement, cognitive engagement) to eliminate some existing stubborn problems when it comes to blended learning evaluation. The results show that cognitive engagement and emotional engagement play a more important role in blended learning evaluation, implying that these two should be considered to improve for better learning as well as teaching quality.
翻訳日:2023-09-20 16:56:01 公開日:2023-09-19
# セマンティックセグメンテーションのための注意ネットワークの実証的研究

An Empirical Study of Attention Networks for Semantic Segmentation ( http://arxiv.org/abs/2309.10217v1 )

ライセンス: Link先を確認
Hao Guo, Hongbiao Si, Guilin Jiang, Wei Zhang, Zhiyan Liu, Xuanyi Zhu, Xulong Zhang, Yang Liu(参考訳) セマンティックセグメンテーションはコンピュータビジョンにおいて重要な問題である。 近年、セマンティクスセグメンテーションに対する一般的な解決策は、エンドツーエンド畳み込みニューラルネットワークであり、従来の手法よりもはるかに正確であり、注意に基づくデコーダは、様々なデータセットで最先端(sota)性能を達成する。 しかし、これらのネットワークは常に従来のSOTAネットワークのmIoUと比較され、その優位性を証明し、様々なカテゴリの計算複雑性や精度を考慮せずに特性を無視する。 また、フロップとメモリを分析する手法は、異なるネットワーク間で一貫性がないため、比較の活用が困難である。 さらに、セマンティックセグメンテーションにおいて様々な手法が注目されているが、これらの手法の結論は乏しい。 本稿ではまず,計算の複雑さを分析し,性能を比較する実験を行う。 そして、これらのネットワークに適したシーンを要約し、注意ネットワークを構築する際に考慮すべき重要なポイントを結論付ける。 最後に、注意ネットワークの今後の方向性を指摘する。

Semantic segmentation is a vital problem in computer vision. Recently, a common solution to semantic segmentation is the end-to-end convolution neural network, which is much more accurate than traditional methods.Recently, the decoders based on attention achieve state-of-the-art (SOTA) performance on various datasets. But these networks always are compared with the mIoU of previous SOTA networks to prove their superiority and ignore their characteristics without considering the computation complexity and precision in various categories, which is essential for engineering applications. Besides, the methods to analyze the FLOPs and memory are not consistent between different networks, which makes the comparison hard to be utilized. What's more, various methods utilize attention in semantic segmentation, but the conclusion of these methods is lacking. This paper first conducts experiments to analyze their computation complexity and compare their performance. Then it summarizes suitable scenes for these networks and concludes key points that should be concerned when constructing an attention network. Last it points out some future directions of the attention network.
翻訳日:2023-09-20 16:54:54 公開日:2023-09-19
# シールドによる安全なPOMDPオンラインプランニング

Safe POMDP Online Planning via Shielding ( http://arxiv.org/abs/2309.10216v1 )

ライセンス: Link先を確認
Shili Sheng, David Parker and Lu Feng(参考訳) 部分的に観測可能なマルコフ決定プロセス(POMDP)は、不確実性の下でのシーケンシャルな意思決定のために多くのロボットアプリケーションで広く利用されている。 部分的に観測可能なモンテカルロ計画(POMCP)のようなPOMDPオンライン計画アルゴリズムは、期待されるリターンを最大化することを目的として、非常に大きなPOMDPを解決することができる。 しかし、結果として生じる政策は、現実世界の安全クリティカルなタスク(例えば自動運転)に欠かせない安全保証を提供することはできない。 本研究では,安全要件をほぼ確実な到達回避仕様として考える(すなわち,目標状態のセットに到達する確率は1であり,安全でない状態のセットに到達する確率は0である)。 ほぼ確実に到達可能な仕様に違反する安全でない動作を制限するシールドを計算します。 そして、これらのシールドをPOMCPアルゴリズムに統合し、安全なPOMDPオンラインプランニングを行う。 我々は,拡張性を改善するために設計されたファクタ付き変種を含む,シールドの計算と統合方法が異なる4つの異なる遮蔽方法を提案する。 一連のベンチマーク領域の実験結果から,提案手法は大規模なPOMDP上での安全(シールドなしのベースラインPOMCPとは異なり)の確保に成功し,オンラインプランニングのランタイムへの影響は無視できることがわかった。

Partially observable Markov decision processes (POMDPs) have been widely used in many robotic applications for sequential decision-making under uncertainty. POMDP online planning algorithms such as Partially Observable Monte-Carlo Planning (POMCP) can solve very large POMDPs with the goal of maximizing the expected return. But the resulting policies cannot provide safety guarantees that are imperative for real-world safety-critical tasks (e.g., autonomous driving). In this work, we consider safety requirements represented as almost-sure reach-avoid specifications (i.e., the probability to reach a set of goal states is one and the probability to reach a set of unsafe states is zero). We compute shields that restrict unsafe actions violating almost-sure reach-avoid specifications. We then integrate these shields into the POMCP algorithm for safe POMDP online planning. We propose four distinct shielding methods, differing in how the shields are computed and integrated, including factored variants designed to improve scalability. Experimental results on a set of benchmark domains demonstrate that the proposed shielding methods successfully guarantee safety (unlike the baseline POMCP without shielding) on large POMDPs, with negligible impact on the runtime for online planning.
翻訳日:2023-09-20 16:54:33 公開日:2023-09-19
# Mixed-Distil-BERT: バングラ語、英語、ヒンディー語のためのコード混合言語モデリング

Mixed-Distil-BERT: Code-mixed Language Modeling for Bangla, English, and Hindi ( http://arxiv.org/abs/2309.10272v1 )

ライセンス: Link先を確認
Md Nishat Raihan, Dhiman Goswami, Antara Mahmud(参考訳) 自然言語処理の分野で最も人気のある下流タスクの1つは、テキスト分類である。 テキストがコード混合されていると、テキスト分類のタスクが難しくなります。 事前トレーニング中のテキストには公開されていないが、異なるbertモデルは、コード混合nlpチャレンジに取り組むことに成功している。 また、パフォーマンスを向上させるため、コード混合nlpモデルは合成データと現実世界のデータの組み合わせに依存している。 BERTモデルのパフォーマンスが、対応するコードミックス言語を使用して事前トレーニングされている場合、どのように影響するかを理解することが不可欠である。 本稿では、バングラ語、英語、ヒンディー語で事前訓練された多言語モデルTri-Distil-BERTと、コードミックスデータに微調整されたMixed-Distil-BERTを紹介する。 どちらのモデルも複数のNLPタスクで評価され、mBERTやXLM-Rのようなより大きなモデルと競合する性能を示す。 我々の2層事前学習アプローチは、多言語およびコード混合言語理解のための効率的な代替手段を提供し、この分野の進歩に寄与する。

One of the most popular downstream tasks in the field of Natural Language Processing is text classification. Text classification tasks have become more daunting when the texts are code-mixed. Though they are not exposed to such text during pre-training, different BERT models have demonstrated success in tackling Code-Mixed NLP challenges. Again, in order to enhance their performance, Code-Mixed NLP models have depended on combining synthetic data with real-world data. It is crucial to understand how the BERT models' performance is impacted when they are pretrained using corresponding code-mixed languages. In this paper, we introduce Tri-Distil-BERT, a multilingual model pre-trained on Bangla, English, and Hindi, and Mixed-Distil-BERT, a model fine-tuned on code-mixed data. Both models are evaluated across multiple NLP tasks and demonstrate competitive performance against larger models like mBERT and XLM-R. Our two-tiered pre-training approach offers efficient alternatives for multilingual and code-mixed language understanding, contributing to advancements in the field.
翻訳日:2023-09-20 16:48:34 公開日:2023-09-19
# 無人表面車両による航行不能河川およびその他の浅瀬水域の体積モデルの作成

Using an Uncrewed Surface Vehicle to Create a Volumetric Model of Non-Navigable Rivers and Other Shallow Bodies of Water ( http://arxiv.org/abs/2309.10269v1 )

ライセンス: Link先を確認
Jayesh Tripathi and Robin Murphy(参考訳) 航行不可能な河川や貯水池は、洪水から地域社会を緩衝する上で重要な役割を担っているが、緊急プランナーは、周囲を浸水する前に輸送できる水量に関するデータを持っていないことが多い。 本稿では,水深の浅い水域の底面のディジタル表面地図と水深分布図を統合容積モデルにまとめ,水深分布図(usv)の収集とマージを行うための実用的アプローチについて述べる。 底面の粗いソナー深度読み出しにポアソン面再構成アルゴリズムを適用することにより, 以下の水面メッシュを開発した。 移動(SfM)パッケージの商業構造を用いて、銀行の高密度な水面メッシュを作成する。 マージは多くの理由から難しいが、最も重要なのはセンサカバレッジのギャップである。すなわち、usvはソナー深度データを収集できないし、バンクにつながる砂浜を視覚的に見ることができるため、2つのメッシュが交差することはない。 このアプローチは、テキサスA&Mエンジニアリング拡張サービス災害都市複合施設のESTI湖で、ハミンバード単ビームエコーとテレダインFLIRカメラを備えたハイドロナリックスEMILY USVで実証されている。

Non-navigable rivers and retention ponds play important roles in buffering communities from flooding, yet emergency planners often have no data as to the volume of water that they can carry before flooding the surrounding. This paper describes a practical approach for using an uncrewed marine surface vehicle (USV) to collect and merge bathymetric maps with digital surface maps of the banks of shallow bodies of water into a unified volumetric model. The below-waterline mesh is developed by applying the Poisson surface reconstruction algorithm to the sparse sonar depth readings of the underwater surface. Dense above-waterline meshes of the banks are created using commercial structure from motion (SfM) packages. Merging is challenging for many reasons, the most significant is gaps in sensor coverage, i.e., the USV cannot collect sonar depth data or visually see sandy beaches leading to a bank thus the two meshes may not intersect. The approach is demonstrated on a Hydronalix EMILY USV with a Humminbird single beam echosounder and Teledyne FLIR camera at Lake ESTI at the Texas A&M Engineering Extension Service Disaster City complex.
翻訳日:2023-09-20 16:48:16 公開日:2023-09-19
# 説明可能な人工知能の解釈による水しぶき落下の形態変化と衝撃力の関係

Correlation between morphological evolution of splashing drop and exerted impact force revealed by interpretation of explainable artificial intelligence ( http://arxiv.org/abs/2309.10266v1 )

ライセンス: Link先を確認
Jingzu Yee, Daichi Igarashi, Pradipto, Akinori Yamanaka, Yoshiyuki Tagawa(参考訳) 本研究は, 着水形態と固体表面の衝突落下による正規化衝撃力との相関関係を明らかにする。 この発見は、新たに提案された特徴抽出法と、説明可能な人工知能(XAI)ビデオ分類器によって実行されるスプラッシュおよび非スラッシュドロップの分類のその後の解釈から得られる。 特に, 抽出した特徴に対応するXAIの重み行列要素の値は, 落下形態の時間的変化とともに変化することがわかった。 ビデオの分類値に対する各フレームの貢献度の変化率を重要な指標として算出し、xaiモデルの分類に異なるインパクト時間で抽出されたスプラッシュと非スプラッシュの特徴の寄与度を定量化する。 驚くべきことに, 抽出されたスプラッシュ特性に対する計算速度は, スプラッシュ特性が最大値に達した直後に最も発音される正規化衝撃力のプロファイルと密接に一致することがわかった。 本研究は,XAIビデオ分類器の分類を解釈することにより,発散滴の複雑な形態的進化と物理パラメータの関係を明らかにする。

This study reveals a possible correlation between splashing morphology and the normalized impact force exerted by an impacting drop on a solid surface. This finding is obtained from a newly proposed feature extraction method and a subsequent interpretation of the classification of splashing and non-splashing drops performed by an explainable artificial intelligence (XAI) video classifier. Notably, the values of the weight matrix elements of the XAI that correspond to the extracted features are found to change with the temporal evolution of the drop morphology. We compute the rate of change of the contributions of each frame with respect to the classification value of a video as an important index to quantify the contributions of the extracted splashing and non-splashing features at different impact times to the classification of the XAI model. Remarkably, the rate computed for the extracted splashing features is found to closely match the profile of the normalized impact force, where the splashing features are most pronounced immediately after the normalized impact force reaches its peak value. This study has provided an example that clarifies the relationship between the complex morphological evolution of a splashing drop and physical parameters by interpreting the classification of an XAI video classifier.
翻訳日:2023-09-20 16:47:54 公開日:2023-09-19
# 強相関量子気体における普遍散逸ダイナミクスの観測

Observation of universal dissipative dynamics in strongly correlated quantum gas ( http://arxiv.org/abs/2309.10257v1 )

ライセンス: Link先を確認
Yajuan Zhao, Ye Tian, Jilai Ye, Yue Wu, Zihan Zhao, Zhihao Chi, Tian Tian, Hepeng Yao, Jiazhong Hu, Yu Chen and Wenlan Chen(参考訳) 量子系では散逸は避けられない。 通常はデコヒーレンスを誘導し、量子相関を変化させる。 強い相関を持つ量子物質の情報にアクセスするには、量子現象を抽出するために散逸を克服または抑制する必要がある。 しかし、ここでは散逸が量子多体系の固有相関を調べるための強力なツールとして利用できるという逆の効果を見出す。 超低温原子系における高制御可能な散逸を応用し、強相関1次元量子気体における普遍散逸ダイナミクスを観察する。 この系の総粒子数は、普遍的な伸張指数崩壊に従っており、伸張指数はスペクトル関数の異常次元を測定し、この系の強い量子揺らぎを特徴づける臨界指数である。 この方法は、量子物質のスピンチャージ分離やフェルミアークなど、強い相関を持つ特徴の検出に広く応用することができる。

Dissipation is unavoidable in quantum systems. It usually induces decoherences and changes quantum correlations. To access the information of strongly correlated quantum matters, one has to overcome or suppress dissipation to extract out the underlying quantum phenomena. However, here we find an opposite effect that dissipation can be utilized as a powerful tool to probe the intrinsic correlations of quantum many-body systems. Applying highly-controllable dissipation in ultracold atomic systems, we observe a universal dissipative dynamics in strongly correlated one-dimensional quantum gases. The total particle number of this system follows a universal stretched-exponential decay, and the stretched exponent measures the anomalous dimension of the spectral function, a critical exponent characterizing strong quantum fluctuations of this system. This method could have broad applications in detecting strongly correlated features, including spin-charge separations and Fermi arcs in quantum materials.
翻訳日:2023-09-20 16:47:36 公開日:2023-09-19
# デカップリングメトリックスケールリカバリによるrgbに基づくカテゴリレベルのオブジェクトポーズ推定

RGB-based Category-level Object Pose Estimation via Decoupled Metric Scale Recovery ( http://arxiv.org/abs/2309.10255v1 )

ライセンス: Link先を確認
Jiaxin Wei, Xibin Song, Weizhe Liu, Laurent Kneip, Hongdong Li and Pan Ji(参考訳) 近年のRGB-Dカメラを用いたカテゴリーレベルのオブジェクトポーズ推定法では,深度センサへの依存度が高いため,適用が制限されている。 rgbのみの手法は、この問題の代替を提供するが、単眼的な観察から生じる固有のスケールの曖昧さに苦しむ。 本稿では,不完全スケールが剛体変換に与える影響を緩和するために,6次元ポーズとサイズ推定を分離する新しいパイプラインを提案する。 具体的には,事前学習した単眼推定器を用いて局所幾何情報を抽出し,不規則な2d-3d対応の探索を容易にする。 一方、別個のブランチは、カテゴリレベルの統計に基づいてオブジェクトのメートル法スケールを直接復元するように設計されている。 最後に,RANSAC-P$n$Pアルゴリズムを用いて6次元オブジェクトポーズを頑健に解くことを提案する。 合成データと実データの両方で広範な実験が行われ、従来のrgbベースのアプローチ、特に回転精度の点でより優れた性能を示している。

While showing promising results, recent RGB-D camera-based category-level object pose estimation methods have restricted applications due to the heavy reliance on depth sensors. RGB-only methods provide an alternative to this problem yet suffer from inherent scale ambiguity stemming from monocular observations. In this paper, we propose a novel pipeline that decouples the 6D pose and size estimation to mitigate the influence of imperfect scales on rigid transformations. Specifically, we leverage a pre-trained monocular estimator to extract local geometric information, mainly facilitating the search for inlier 2D-3D correspondence. Meanwhile, a separate branch is designed to directly recover the metric scale of the object based on category-level statistics. Finally, we advocate using the RANSAC-P$n$P algorithm to robustly solve for 6D object pose. Extensive experiments have been conducted on both synthetic and real datasets, demonstrating the superior performance of our method over previous state-of-the-art RGB-based approaches, especially in terms of rotation accuracy.
翻訳日:2023-09-20 16:47:21 公開日:2023-09-19
# LLM Platform Security: OpenAIのChatGPTプラグインにシステム評価フレームワークを適用する

LLM Platform Security: Applying a Systematic Evaluation Framework to OpenAI's ChatGPT Plugins ( http://arxiv.org/abs/2309.10254v1 )

ライセンス: Link先を確認
Umar Iqbal, Tadayoshi Kohno, Franziska Roesner(参考訳) ChatGPTのような大規模言語モデル(LLM)プラットフォームは最近、インターネット上のサードパーティサービスと対話するためのプラグインエコシステムの提供を開始した。 これらのプラグインはLLMプラットフォームの機能を拡張しているが、任意のサードパーティによって開発されており、暗黙的に信頼できない。 プラグインは自然言語を使用したllmプラットフォームやユーザとのインターフェースも備えている。 本稿では,LLMプラットフォーム設計者のための基盤を築き,現在および将来のプラグイン統合LLMプラットフォームのセキュリティ,プライバシ,安全性を解析・改善するフレームワークを提案する。 我々の枠組みは、LLMプラットフォームステークホルダーが互いの能力と責任を利用して攻撃をマウントする方法を反復的に探求することによって開発された攻撃分類の定式化である。 反復的なプロセスの一環として、OpenAIのプラグインエコシステムのコンテキストに私たちのフレームワークを適用します。 攻撃分類学で概説するタイプの問題の可能性を具体的に示すプラグインを明らかにする。 我々は、新しい課題について議論し、現在および将来のllmベースのコンピューティングプラットフォームのセキュリティ、プライバシ、安全性を改善するための勧告を提供することで締めくくった。

Large language model (LLM) platforms, such as ChatGPT, have recently begun offering a plugin ecosystem to interface with third-party services on the internet. While these plugins extend the capabilities of LLM platforms, they are developed by arbitrary third parties and thus cannot be implicitly trusted. Plugins also interface with LLM platforms and users using natural language, which can have imprecise interpretations. In this paper, we propose a framework that lays a foundation for LLM platform designers to analyze and improve the security, privacy, and safety of current and future plugin-integrated LLM platforms. Our framework is a formulation of an attack taxonomy that is developed by iteratively exploring how LLM platform stakeholders could leverage their capabilities and responsibilities to mount attacks against each other. As part of our iterative process, we apply our framework in the context of OpenAI's plugin ecosystem. We uncover plugins that concretely demonstrate the potential for the types of issues that we outline in our attack taxonomy. We conclude by discussing novel challenges and by providing recommendations to improve the security, privacy, and safety of present and future LLM-based computing platforms.
翻訳日:2023-09-20 16:47:06 公開日:2023-09-19
# GPTFUZER : 自動生成ジェイルブレイクプロンプトを用いた大規模言語モデルのレッドチーム化

GPTFUZZER : Red Teaming Large Language Models with Auto-Generated Jailbreak Prompts ( http://arxiv.org/abs/2309.10253v1 )

ライセンス: Link先を確認
Jiahao Yu, Xingwei Lin, Xinyu Xing(参考訳) 大規模言語モデル(LLM)は最近非常に人気があり、カジュアルな会話からAI駆動プログラミングまで広く使われている。 しかし、その大きな成功にもかかわらず、LSMは完全に信頼されておらず、有害または違法な活動の実施方法について詳細なガイダンスを与えることができる。 安全対策はそのようなアウトプットのリスクを減らすことができるが、敵の「ジェイルブレイク」攻撃はLLMを悪用して有害なコンテンツを生成することができる。 これらのジェイルブレイクテンプレートは通常手動で作成されるため、大規模なテストは難しい。 本稿では,AFLファジィフレームワークに触発された新しいブラックボックスジェイルブレイクファジィフレームワークである \fuzzer を紹介する。 手動のエンジニアリングの代わりに、 \fuzzer は llm をレッドチームするためのジェイルブレイクテンプレートの生成を自動化する。 中心となるのは、人間が書いたテンプレートを種として使うことから始まり、ミュート演算子を使って変更して新しいテンプレートを生成する。 効率と可変性のバランスをとるためのシード選択戦略,意味的に等価あるいは類似した文を作成するためのメタモルフィックリレーション,脱獄攻撃の成功を評価する判断モデルという3つの重要なコンポーネントを詳述した。 さまざまな攻撃シナリオ下で,ChatGPT,LLaMa-2,Claude2などの商用およびオープンソースLLM上で \fuzzer をテストした。 以上の結果から,すべての人造テンプレートが故障した場合でも,常に高い成功率でジェイルブレイクテンプレートを生成できることがわかった。 特に、最適化されたシードテンプレートから始めると、ChatGPTおよびLlama-2モデルに対する攻撃成功率は90%以上である。 われわれは、研究者や実践者がLLMの堅牢性を評価するのに役立つと信じており、LLMの安全性に関するさらなる研究を促すだろう。

Large language models (LLMs) have recently experienced tremendous popularity and are widely used from casual conversations to AI-driven programming. However, despite their considerable success, LLMs are not entirely reliable and can give detailed guidance on how to conduct harmful or illegal activities. While safety measures can reduce the risk of such outputs, adversarial "jailbreak" attacks can still exploit LLMs to produce harmful content. These jailbreak templates are typically manually crafted, making large-scale testing challenging. In this paper, we introduce \fuzzer, a novel black-box jailbreak fuzzing framework inspired by AFL fuzzing framework. Instead of manual engineering, \fuzzer automates the generation of jailbreak templates for red-teaming LLMs. At its core, \fuzzer starts with human-written templates as seeds, then mutates them using mutate operators to produce new templates. We detail three key components of \fuzzer: a seed selection strategy for balancing efficiency and variability, metamorphic relations for creating semantically equivalent or similar sentences, and a judgment model to assess the success of a jailbreak attack. We tested \fuzzer on various commercial and open-source LLMs, such as ChatGPT, LLaMa-2, and Claude2, under diverse attack scenarios. Our results indicate that \fuzzer consistently produces jailbreak templates with a high success rate, even in settings where all human-crafted templates fail. Notably, even starting with suboptimal seed templates, \fuzzer maintains over 90\% attack success rate against ChatGPT and Llama-2 models. We believe \fuzzer will aid researchers and practitioners in assessing LLM robustness and will spur further research into LLM safety.
翻訳日:2023-09-20 16:46:48 公開日:2023-09-19
# テキストからモーション生成に最適な自動計測基準は何か?

What is the Best Automated Metric for Text to Motion Generation? ( http://arxiv.org/abs/2309.10248v1 )

ライセンス: Link先を確認
Jordan Voas, Yili Wang, Qixing Huang, and Raymond Mooney(参考訳) 自然言語記述から骨格に基づく人間の動きを生成することへの関心が高まっている。 ほとんどの取り組みは、このタスクのためのより良いニューラルアーキテクチャの開発に焦点を当てているが、適切な評価基準を決定するための重要な作業は行われていない。 人間の評価は、このタスクの究極の精度測定であり、自動化されたメトリクスは、人間の品質判断とよく相関するべきである。 記述は多くの動きと互換性があるため、適切な計量を決定することは効果的な生成モデルの評価と設計に不可欠である。 本稿では,どの指標が人間の評価に最も適しているかを体系的に検討し,さらに適合する新しい指標を提案する。 以上の結果から,現在この課題に使用されている指標のいずれも,サンプルレベルでの人的判断と適度な相関を示さないことが明らかとなった。 しかしながら、平均モデル性能を評価するために、r-precisionやless-useed coordinate errorのような一般的なメトリクスは強い相関を示す。 さらに、最近開発されたいくつかの指標は、代替手法と比較して相関が低いため推奨されない。 また,マルチモーダルなBERTライクなモデルであるMoBERTを用いて,ほぼ完全なモデルレベルの相関を維持しつつ,強い人間関連サンプルレベルの評価を行う手法を提案する。 我々の結果は、この新しい指標が現在の全ての選択肢に対して大きな利点を示すことを示している。

There is growing interest in generating skeleton-based human motions from natural language descriptions. While most efforts have focused on developing better neural architectures for this task, there has been no significant work on determining the proper evaluation metric. Human evaluation is the ultimate accuracy measure for this task, and automated metrics should correlate well with human quality judgments. Since descriptions are compatible with many motions, determining the right metric is critical for evaluating and designing effective generative models. This paper systematically studies which metrics best align with human evaluations and proposes new metrics that align even better. Our findings indicate that none of the metrics currently used for this task show even a moderate correlation with human judgments on a sample level. However, for assessing average model performance, commonly used metrics such as R-Precision and less-used coordinate errors show strong correlations. Additionally, several recently developed metrics are not recommended due to their low correlation compared to alternatives. We also introduce a novel metric based on a multimodal BERT-like model, MoBERT, which offers strongly human-correlated sample-level evaluations while maintaining near-perfect model-level correlation. Our results demonstrate that this new metric exhibits extensive benefits over all current alternatives.
翻訳日:2023-09-20 16:46:14 公開日:2023-09-19
# upl-sfda: 医用画像セグメンテーションのための不確実性認識擬似ラベルガイドドソースフリードメイン適応

UPL-SFDA: Uncertainty-aware Pseudo Label Guided Source-Free Domain Adaptation for Medical Image Segmentation ( http://arxiv.org/abs/2309.10244v1 )

ライセンス: Link先を確認
Jianghao Wu, Guotai Wang, Ran Gu, Tao Lu, Yinan Chen, Wentao Zhu, Tom Vercauteren, S\'ebastien Ourselin, Shaoting Zhang(参考訳) ドメイン適応(da)は、新しいターゲットドメインからのイメージをテストするために、ディープラーニングベースの医療画像セグメンテーションモデルにとって重要である。 トレーニングされたモデルを新しいセンタにデプロイする場合、ソースドメインのデータは通常利用できないため、Source-Free Domain Adaptation (SFDA)は、ターゲットドメインへのデータとアノテーション非効率な適応をアピールする。 しかし、既存のsfdaメソッドは、ソースドメインイメージが使用できない、ターゲットドメインイメージがラベルされていない、十分な監督が欠如しているため、性能が制限されている。 医用画像セグメンテーションのための新しいuncertainty-aware Pseudo Label guided (UPL) SFDA法を提案する。 具体的には、トレーニング済みモデルの予測ヘッドを摂動で複数回複製することにより、ターゲット領域における予測の多様性を高めるターゲットドメイン成長(TDG)を提案する。 これらの重複ヘッドの異なる予測は、ラベルなしのターゲットドメイン画像の擬似ラベルと、信頼できる擬似ラベルを識別する不確実性を得るために使用される。 また,ある前方パスで得られた疑似ラベルを用いて,次の前方パスで予測を監督するTwice Forward Pass Supervision(TFS)戦略を提案する。 適応は平均予測に基づくエントロピー最小化項によってさらに規則化され、異なる予測ヘッドにおける自信と一貫性のある結果を促進する。 UPL-SFDAは、多部位の心臓MRIセグメンテーションデータセット、交叉性胎児脳セグメンテーションデータセット、および3D胎児組織セグメンテーションデータセットを用いて検証された。 3つのタスクの平均diceは、それぞれベースラインと比較して5.54, 5.01, 6.89ポイント向上し、いくつかの最先端sfda法を上回った。

Domain Adaptation (DA) is important for deep learning-based medical image segmentation models to deal with testing images from a new target domain. As the source-domain data are usually unavailable when a trained model is deployed at a new center, Source-Free Domain Adaptation (SFDA) is appealing for data and annotation-efficient adaptation to the target domain. However, existing SFDA methods have a limited performance due to lack of sufficient supervision with source-domain images unavailable and target-domain images unlabeled. We propose a novel Uncertainty-aware Pseudo Label guided (UPL) SFDA method for medical image segmentation. Specifically, we propose Target Domain Growing (TDG) to enhance the diversity of predictions in the target domain by duplicating the pre-trained model's prediction head multiple times with perturbations. The different predictions in these duplicated heads are used to obtain pseudo labels for unlabeled target-domain images and their uncertainty to identify reliable pseudo labels. We also propose a Twice Forward pass Supervision (TFS) strategy that uses reliable pseudo labels obtained in one forward pass to supervise predictions in the next forward pass. The adaptation is further regularized by a mean prediction-based entropy minimization term that encourages confident and consistent results in different prediction heads. UPL-SFDA was validated with a multi-site heart MRI segmentation dataset, a cross-modality fetal brain segmentation dataset, and a 3D fetal tissue segmentation dataset. It improved the average Dice by 5.54, 5.01 and 6.89 percentage points for the three tasks compared with the baseline, respectively, and outperformed several state-of-the-art SFDA methods.
翻訳日:2023-09-20 16:45:57 公開日:2023-09-19
# 画像改ざんにおけるトランスファー可能な逆攻撃

Transferable Adversarial Attack on Image Tampering Localization ( http://arxiv.org/abs/2309.10243v1 )

ライセンス: Link先を確認
Yuqi Wang, Gang Cao, Zijie Lou, Haochen Zhu(参考訳) 実世界のアプリケーションにおける既存のデジタル画像改ざんアルゴリズムの安全性を評価することは重要である。 本稿では,このような改ざんするローカライザの信頼性を明らかにするための逆攻撃方式を提案する。 具体的には、ホワイト/ブラックボックス攻撃に対する最適化と勾配に基づく逆例を実装した。 それに対応して、逆勾配伝播により逆勾配の例が最適化され、摂動は勾配上昇方向に適応的に加算される。 ブラックボックス攻撃は、そのような敵の例を異なるローカライザーに移すことで達成される。 広範な評価により,攻撃画像の高画質を維持しつつ,局所化精度を著しく低下させることが確認された。

It is significant to evaluate the security of existing digital image tampering localization algorithms in real-world applications. In this paper, we propose an adversarial attack scheme to reveal the reliability of such tampering localizers, which would be fooled and fail to predict altered regions correctly. Specifically, the adversarial examples based on optimization and gradient are implemented for white/black-box attacks. Correspondingly, the adversarial example is optimized via reverse gradient propagation, and the perturbation is added adaptively in the direction of gradient rising. The black-box attack is achieved by relying on the transferability of such adversarial examples to different localizers. Extensive evaluations verify that the proposed attack sharply reduces the localization accuracy while preserving high visual quality of the attacked images.
翻訳日:2023-09-20 16:45:25 公開日:2023-09-19
# 音声感情認識のための音声ptm, テキストllm, 感情ttの活用

Leveraging Speech PTM, Text LLM, and Emotional TTS for Speech Emotion Recognition ( http://arxiv.org/abs/2309.10294v1 )

ライセンス: Link先を確認
Ziyang Ma, Wen Wu, Zhisheng Zheng, Yiwei Guo, Qian Chen, Shiliang Zhang, Xie Chen(参考訳) 本稿では,最先端音声事前学習モデル (ptm), data2vec, text generation technique, gpt-4, and speech synthesis technique, azure ttsを用いて,音声感情認識 (ser) の高速化について検討した。 まず、異なる音声教師付き事前学習モデルの表現能力について検討し、SERタスクにデータ2vecが優れた表現能力を持つことを示した。 第2に,感情的に一致したテキストと音声を生成するために,強力な大言語モデル (LLM), GPT-4, 感情的テキスト音声モデル (TTS) を用いた。 テキストプロンプトとデータセット構築を慎重に設計し,高品質な合成感情音声データを得た。 第3に,ランダムミキシング,敵対的トレーニング,転校学習,カリキュラム学習など,合成音声を用いたサータスクの促進を目的としたデータ拡張法の検討を行った。 iemocapデータセットに関する実験とアブレーションの研究は、他のデータ拡張法との比較、および他の合成データによるデータ拡張法の有効性を示している。

In this paper, we explored how to boost speech emotion recognition (SER) with the state-of-the-art speech pre-trained model (PTM), data2vec, text generation technique, GPT-4, and speech synthesis technique, Azure TTS. First, we investigated the representation ability of different speech self-supervised pre-trained models, and we found that data2vec has a good representation ability on the SER task. Second, we employed a powerful large language model (LLM), GPT-4, and emotional text-to-speech (TTS) model, Azure TTS, to generate emotionally congruent text and speech. We carefully designed the text prompt and dataset construction, to obtain the synthetic emotional speech data with high quality. Third, we studied different ways of data augmentation to promote the SER task with synthetic speech, including random mixing, adversarial training, transfer learning, and curriculum learning. Experiments and ablation studies on the IEMOCAP dataset demonstrate the effectiveness of our method, compared with other data augmentation methods, and data augmentation with other synthetic data.
翻訳日:2023-09-20 16:37:11 公開日:2023-09-19
# QXAI: 患者モニタリングシステムにおける定量的分析のための説明可能なAIフレームワーク

QXAI: Explainable AI Framework for Quantitative Analysis in Patient Monitoring Systems ( http://arxiv.org/abs/2309.10293v1 )

ライセンス: Link先を確認
Thanveer Shaik, Xiaohui Tao, Haoran Xie, Lin Li, Juan D. Velasquez, Niall Higgins(参考訳) 人工知能技術は、患者の身体活動の分類や、遠隔患者の監視に不可欠な兆候を予測するのに使うことができる。 ディープラーニングモデルのような非線形モデルに基づく回帰分析は、ブラックボックスの性質のため説明可能性に制限がある。 これは、意思決定者が、特に医療アプリケーションにおいて、非線形モデルの結果に基づいて盲目な飛躍を行う必要がある。 非侵襲的なモニタリングでは、追跡センサーからの患者データとその臨床属性が将来のバイタルサインを予測するための入力機能として機能する。 モニタリングアプリケーション全体のアウトプットに対する様々な機能の貢献を説明することは、臨床医の意思決定に不可欠である。 本研究では,定量的分析のための説明可能なAI(QXAI)フレームワークを,教師付き学習手法における回帰・分類タスクのポストホックモデル説明可能性と本質的説明性を用いて提案する。 これはshapley valuesの概念を利用し、ディープラーニングモデルに注意の仕組みを組み込むことで達成された。 我々は,センサデータに基づく心拍数予測と身体活動の分類のために,人工ニューラルネットワーク(ANN)と注目に基づく双方向LSTM(BiLSTM)モデルを採用した。 ディープラーニングモデルは、予測と分類の両方のタスクで最先端の結果を得た。 様々な患者データの特徴的寄与を理解するため,入力データに対してグローバル説明と局所的説明を行った。 提案したQXAIフレームワークは,PPG-DaLiAデータを用いて心拍数とモバイルヘルス(MHEALTH)データを予測し,センサデータに基づいて身体活動の分類を行う。 モンテカルロ近似は、Shapley値計算に必要な時間複雑性と高い計算パワー要求を克服するためにフレームワークに適用された。

Artificial Intelligence techniques can be used to classify a patient's physical activities and predict vital signs for remote patient monitoring. Regression analysis based on non-linear models like deep learning models has limited explainability due to its black-box nature. This can require decision-makers to make blind leaps of faith based on non-linear model results, especially in healthcare applications. In non-invasive monitoring, patient data from tracking sensors and their predisposing clinical attributes act as input features for predicting future vital signs. Explaining the contributions of various features to the overall output of the monitoring application is critical for a clinician's decision-making. In this study, an Explainable AI for Quantitative analysis (QXAI) framework is proposed with post-hoc model explainability and intrinsic explainability for regression and classification tasks in a supervised learning approach. This was achieved by utilizing the Shapley values concept and incorporating attention mechanisms in deep learning models. We adopted the artificial neural networks (ANN) and attention-based Bidirectional LSTM (BiLSTM) models for the prediction of heart rate and classification of physical activities based on sensor data. The deep learning models achieved state-of-the-art results in both prediction and classification tasks. Global explanation and local explanation were conducted on input data to understand the feature contribution of various patient data. The proposed QXAI framework was evaluated using PPG-DaLiA data to predict heart rate and mobile health (MHEALTH) data to classify physical activities based on sensor data. Monte Carlo approximation was applied to the framework to overcome the time complexity and high computation power requirements required for Shapley value calculations.
翻訳日:2023-09-20 16:36:50 公開日:2023-09-19
# Koopman Invertible Autoencoder:時間モデリングのための前方・後方ダイナミクスの活用

Koopman Invertible Autoencoder: Leveraging Forward and Backward Dynamics for Temporal Modeling ( http://arxiv.org/abs/2309.10291v1 )

ライセンス: Link先を確認
Kshitij Tayal, Arvind Renganathan, Rahul Ghosh, Xiaowei Jia, Vipin Kumar(参考訳) 正確な長期予測は、多くの機械学習アプリケーションと意思決定プロセスの基礎である。 しかしながら、リカレントニューラルネットワーク(RNN)のような既存の時間モデルに制限があるため、正確な長期予測モデルの構築は依然として困難であり、トレーニングデータの統計的接続のみをキャプチャし、ターゲットシステムの基盤となるダイナミクスを学習できない可能性がある。 この課題に取り組むために,我々は,無限次元ヒルベルト空間における前方と後方のダイナミクスをモデル化し,システムの固有特性を捉えたkoopman invertible autoencoders (kia) と呼ぶkoopman operator theoryに基づく新しい機械学習モデルを提案する。 これにより,低次元表現を効率よく学習し,長期システムの挙動をより正確に予測することができる。 さらに,本手法の可逆性設計は,前方操作と逆操作の両方において可逆性と整合性を保証する。 我々は, 振り子の長期予測能力を300%向上し, 騒音に対する頑健性を維持しつつ, 振り子と気候データセットに対するKIAの有用性について述べる。 さらに,本手法は長期の気象予報に優れ,その効果を検証している。

Accurate long-term predictions are the foundations for many machine learning applications and decision-making processes. However, building accurate long-term prediction models remains challenging due to the limitations of existing temporal models like recurrent neural networks (RNNs), as they capture only the statistical connections in the training data and may fail to learn the underlying dynamics of the target system. To tackle this challenge, we propose a novel machine learning model based on Koopman operator theory, which we call Koopman Invertible Autoencoders (KIA), that captures the inherent characteristic of the system by modeling both forward and backward dynamics in the infinite-dimensional Hilbert space. This enables us to efficiently learn low-dimensional representations, resulting in more accurate predictions of long-term system behavior. Moreover, our method's invertibility design guarantees reversibility and consistency in both forward and inverse operations. We illustrate the utility of KIA on pendulum and climate datasets, demonstrating 300% improvements in long-term prediction capability for pendulum while maintaining robustness against noise. Additionally, our method excels in long-term climate prediction, further validating our method's effectiveness.
翻訳日:2023-09-20 16:36:20 公開日:2023-09-19
# AstroPortal:天文学、宇宙飛行士、その他の宇宙トピックのためのオントロジーリポジトリの概念

AstroPortal: An ontology repository concept for astronomy, astronautics and other space topics ( http://arxiv.org/abs/2309.10288v1 )

ライセンス: Link先を確認
Robert J. Rovetto(参考訳) 本稿では、天文学、宇宙科学、その他の宇宙関連トピックのオントロジーのリポジトリについて述べる。 AstroPortal(またはSpacePortal)、AstroHub(またはSpaceHub)などとも呼ばれる。 このリポジトリの作成は、学術、研究、その他のデータ集約分野に適用できる。 宇宙科学(天文学を含む)、地球科学、宇宙科学(宇宙飛行)、その他のデータ集約的な分野に関係している。 リポジトリは、astro関連のトピックのオントロジーを検索、レビュー、作成するための集中型プラットフォームを提供する必要がある。 これにより、研究時間を短縮できると同時に、対象ドメインの知識組織システムやセマンティックリソースを研究・比較するためのユーザフレンドリーな手段を提供する。 対象ドメインに明らかなリポジトリがないため,本論文は新たな概念も表現している。

This paper describes a repository for ontologies of astronomy, astronautics, and other space-related topics. It may be called AstroPortal (or SpacePortal), AstroHub (or SpaceHub), etc. The creation of this repository will be applicable to academic, research and other data-intensive sectors. It is relevant for space sciences (including astronomy), Earth science, and astronautics (spaceflight), among other data-intensive disciplines. The repository should provide a centralized platform to search, review and create ontologies for astro-related topics. It thereby can decrease research time, while also providing a user-friendly means to study and compare knowledge organization systems or semantic resources of the target domains. With no apparent repository available on the target domain, this paper also expresses a novel concept.
翻訳日:2023-09-20 16:36:02 公開日:2023-09-19
# Flash-LLM: コスト効果と高効率な大規模生成モデル推論の実現

Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative Model Inference with Unstructured Sparsity ( http://arxiv.org/abs/2309.10285v1 )

ライセンス: Link先を確認
Haojun Xia, Zhen Zheng, Yuchao Li, Donglin Zhuang, Zhongzhu Zhou, Xiafei Qiu, Yong Li, Wei Lin, Shuaiwen Leon Song(参考訳) パラメータサイズの急速な成長に伴い、大規模な生成モデルのデプロイは、gpuのメモリ消費と大規模な計算を必要とするため、ますます難しくなっている。 非構造化モデルプルーニングは、優れたモデル精度を維持しながら、GPUメモリフットプリントと全体計算の両方を削減するための一般的なアプローチである。 しかし、現在のgpu、特に高構造テンソルコアハードウェアで非構造化スパーシティを処理するための、既存のソリューションは、高度に効率的なサポートを提供していない。 そこで本研究では,高速かつ高効率なテンソルコア上での非構造空間の高度なサポートにより,低コストかつ高効率な大規模生成モデル推論を可能にするFlash-LLMを提案する。 生成モデル推論の主なボトルネックは、計算強度が低いため、テンソルコアが著しく過小評価されるであろういくつかのスキニー行列の乗算であり、非構造化スパース行列乗算のための一般的な負荷・アスパース・計算・アズ・デンス手法を提案する。 基本的な洞察は、Tensor Core上でのエンドツーエンドのパフォーマンスには重要でない冗長な計算を許容しながら、メモリ帯域幅のボトルネックに対処することである。 そこで我々は,Tensor Coreベースの非構造化SpMMのための効率的なソフトウェアフレームワークを設計し,効率的なスパースデータ抽出と計算/メモリアクセスオーバラップにオンチップリソースを活用する。 SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。 OPT-30B/66B/175Bモデルのエンドツーエンドのフレームワークレベルでは、GPU秒あたりのトークンに対して、Flash-LLMはDeepSpeedとFasterTransformerよりも最大3.8倍と3.6倍の改善を実現し、推論コストを大幅に削減した。

With the fast growth of parameter size, it becomes increasingly challenging to deploy large generative models as they typically require large GPU memory consumption and massive computation. Unstructured model pruning has been a common approach to reduce both GPU memory footprint and the overall computation while retaining good model accuracy. However, the existing solutions do not provide a highly-efficient support for handling unstructured sparsity on modern GPUs, especially on the highly-structured Tensor Core hardware. Therefore, we propose Flash-LLM for enabling low-cost and highly-efficient large generative model inference with the sophisticated support of unstructured sparsity on high-performance but highly restrictive Tensor Cores. Based on our key observation that the main bottleneck of generative model inference is the several skinny matrix multiplications for which Tensor Cores would be significantly under-utilized due to low computational intensity, we propose a general Load-as-Sparse and Compute-as-Dense methodology for unstructured sparse matrix multiplication. The basic insight is to address the significant memory bandwidth bottleneck while tolerating redundant computations that are not critical for end-to-end performance on Tensor Cores. Based on this, we design an effective software framework for Tensor Core based unstructured SpMM, leveraging on-chip resources for efficient sparse data extraction and computation/memory-access overlapping. At SpMM kernel level, Flash-LLM significantly outperforms the state-of-the-art library, i.e., Sputnik and SparTA by an average of 2.9x and 1.5x, respectively. At end-to-end framework level on OPT-30B/66B/175B models, for tokens per GPU-second, Flash-LLM achieves up to 3.8x and 3.6x improvement over DeepSpeed and FasterTransformer, respectively, with significantly lower inference cost.
翻訳日:2023-09-20 16:35:50 公開日:2023-09-19
# FRAMU:フェデレーション強化学習を用いた注意に基づく機械学習

FRAMU: Attention-based Machine Unlearning using Federated Reinforcement Learning ( http://arxiv.org/abs/2309.10283v1 )

ライセンス: Link先を確認
Thanveer Shaik, Xiaohui Tao, Lin Li, Haoran Xie, Taotao Cai, Xiaofeng Zhu, and Qing Li(参考訳) Machine Unlearningは、マシンラーニングプロセスからプライベートまたは無関係なデータを削除可能にすることで、データのプライバシ問題に対処する新興分野である。 プライバシとモデル効率に関する課題は、時代遅れ、プライベート、無関係なデータを使用することによって生じる。 これらの問題は、機械学習とアンラーニングの両方におけるモデルの精度と計算効率の両方を損なう。 これらの課題を軽減するために,FRAMU(Federated Reinforcement Learning)を用いたアテンションベースの機械学習フレームワークを導入する。 このフレームワークは適応学習機構、プライバシ保護技術、最適化戦略を取り入れており、正確性とプライバシを維持しながら、シングルモダリティまたはマルチモダリティといったさまざまなデータソースを処理するための、周到なソリューションとなっている。 FRAMUの強みは、変動するデータランドスケープへの適応性、時代遅れ、プライベート、あるいは無関係なデータを解き放つ能力、プライバシーを損なうことなく継続的なモデル進化をサポートすることにある。 シングルモダリティデータセットとマルチモダリティデータセットの両方で行った実験により、framuがベースラインモデルを大幅に上回っていることが明らかとなった。 収束行動と最適化戦略のさらなる評価は、連合学習アプリケーションにおけるフレームワークの有用性をさらに検証する。 全体としてFRAMUは、動的データ環境における重要な課題にも対処しながら、モデルパフォーマンスを最適化する堅牢でプライバシ保護ソリューションを提供することで、Machine Unlearningを推進している。

Machine Unlearning is an emerging field that addresses data privacy issues by enabling the removal of private or irrelevant data from the Machine Learning process. Challenges related to privacy and model efficiency arise from the use of outdated, private, and irrelevant data. These issues compromise both the accuracy and the computational efficiency of models in both Machine Learning and Unlearning. To mitigate these challenges, we introduce a novel framework, Attention-based Machine Unlearning using Federated Reinforcement Learning (FRAMU). This framework incorporates adaptive learning mechanisms, privacy preservation techniques, and optimization strategies, making it a well-rounded solution for handling various data sources, either single-modality or multi-modality, while maintaining accuracy and privacy. FRAMU's strength lies in its adaptability to fluctuating data landscapes, its ability to unlearn outdated, private, or irrelevant data, and its support for continual model evolution without compromising privacy. Our experiments, conducted on both single-modality and multi-modality datasets, revealed that FRAMU significantly outperformed baseline models. Additional assessments of convergence behavior and optimization strategies further validate the framework's utility in federated learning applications. Overall, FRAMU advances Machine Unlearning by offering a robust, privacy-preserving solution that optimizes model performance while also addressing key challenges in dynamic data environments.
翻訳日:2023-09-20 16:35:14 公開日:2023-09-19
# 非音声・差分プライバシーを有する病院待合室におけるトランスフォーマーによる職業推定

Crowdotic: Transformer-based Occupancy Estimation for Hospital Waiting Rooms with Non-speech Audio and Differential Privacy ( http://arxiv.org/abs/2309.10280v1 )

ライセンス: Link先を確認
Forsad Al Hossain, Tanjid Hasan Tonmoy, Andrew A. Lover, George A. Corey, Mohammad Arif Ul Alam, Tauhidur Rahman(参考訳) プライバシを保存する群衆密度分析は、さまざまなシナリオにまたがるアプリケーションを見つけ、さまざまな領域におけるプライバシーの期待を保ちながら、スマートなビルディング操作と管理を大幅に強化する。 本稿では,トランスフォーマーモデルを利用した非音声音声によるクラウド分析手法を提案する。 以上の結果から,非音声のみを高精度に解析できることを示した。 我々の知る限りでは、非音声音声信号が占有率を予測するために提案されるのはこれが初めてである。 われわれが知る限り、この種のアプローチはこれ以前には他に類を見ない。 これを実現するために,我々はセンサベースのプラットフォームを大規模病院の待合室に配置し,数ヶ月間にわたりirbの承認を得て,モデルのトレーニングと評価のための非音声とサーマルイメージをキャプチャした。 提案手法はサーマルカメラベースモデルや他のベースラインよりも優れていた。 音声を使わずに優れた性能を示すことに加えて、差分プライバシー技術を用いてさらなる分析を行い、さらなるプライバシー保証を提供する。 全体として本研究は,非音声データを正確な占有率推定に活用し,音声関連コンテンツの排除と,差分プライバシー保証による堅牢なプライバシー保護を提供することを実証する。

Privacy-preserving crowd density analysis finds application across a wide range of scenarios, substantially enhancing smart building operation and management while upholding privacy expectations in various spaces. We propose a non-speech audio-based approach for crowd analytics, leveraging a transformer-based model. Our results demonstrate that non-speech audio alone can be used to conduct such analysis with remarkable accuracy. To the best of our knowledge, this is the first time when non-speech audio signals are proposed for predicting occupancy. As far as we know, there has been no other similar approach of its kind prior to this. To accomplish this, we deployed our sensor-based platform in the waiting room of a large hospital with IRB approval over a period of several months to capture non-speech audio and thermal images for the training and evaluation of our models. The proposed non-speech-based approach outperformed the thermal camera-based model and all other baselines. In addition to demonstrating superior performance without utilizing speech audio, we conduct further analysis using differential privacy techniques to provide additional privacy guarantees. Overall, our work demonstrates the viability of employing non-speech audio data for accurate occupancy estimation, while also ensuring the exclusion of speech-related content and providing robust privacy protections through differential privacy guarantees.
翻訳日:2023-09-20 16:34:49 公開日:2023-09-19
# 360$^\circ$の空間展開による単一画像からの再構成

360$^\circ$ Reconstruction From a Single Image Using Space Carved Outpainting ( http://arxiv.org/abs/2309.10279v1 )

ライセンス: Link先を確認
Nuri Ryu, Minsu Gong, Geonung Kim, Joo-Haeng Lee, Sunghyun Cho(参考訳) 1枚の画像から360^\circ$-view 3Dモデルを作成する新しいフレームワークであるPOP3Dを紹介する。 pop3dは、シングルビューの再構築を制限する2つの大きな問題を解決する。 第一に、POP3Dは任意のカテゴリに対して実質的な一般化性を提供する。 第2に、POP3Dは、コンカレントワークが不足する重要な側面である、再構築の忠実さと自然性をさらに改善する。 Our approach marries the strengths of four primary components: (1) a monocular depth and normal predictor that serves to predict crucial geometric cues, (2) a space carving method capable of demarcating the potentially unseen portions of the target object, (3) a generative model pre-trained on a large-scale image dataset that can complete unseen regions of the target, and (4) a neural implicit surface reconstruction method tailored in reconstructing objects using RGB images along with monocular geometric cues. これらのコンポーネントの組み合わせにより、POP3Dは様々な内部画像を容易に一般化し、最先端の再構築を生成することができ、類似の作品をかなりのマージンで上回る。 プロジェクトページ: \url{http://cg.postech.ac.kr/research/POP3D}

We introduce POP3D, a novel framework that creates a full $360^\circ$-view 3D model from a single image. POP3D resolves two prominent issues that limit the single-view reconstruction. Firstly, POP3D offers substantial generalizability to arbitrary categories, a trait that previous methods struggle to achieve. Secondly, POP3D further improves reconstruction fidelity and naturalness, a crucial aspect that concurrent works fall short of. Our approach marries the strengths of four primary components: (1) a monocular depth and normal predictor that serves to predict crucial geometric cues, (2) a space carving method capable of demarcating the potentially unseen portions of the target object, (3) a generative model pre-trained on a large-scale image dataset that can complete unseen regions of the target, and (4) a neural implicit surface reconstruction method tailored in reconstructing objects using RGB images along with monocular geometric cues. The combination of these components enables POP3D to readily generalize across various in-the-wild images and generate state-of-the-art reconstructions, outperforming similar works by a significant margin. Project page: \url{http://cg.postech.ac.kr/research/POP3D}
翻訳日:2023-09-20 16:34:27 公開日:2023-09-19
# 遷移経路生成のための拡散法

Diffusion Methods for Generating Transition Paths ( http://arxiv.org/abs/2309.10276v1 )

ライセンス: Link先を確認
Luke Triplett and Jianfeng Lu(参考訳) 本研究では,スコアベース生成モデルを用いて準安定状態間の稀な遷移をシミュレートする。 高い品質の遷移経路を生成する効率的な方法は、しばしばデータを得るのが困難であるため、分子システムの研究に有用である。 本稿では,チェーンベースアプローチとミッドポイントベースアプローチの2つの新しい経路生成手法を提案する。 1つ目は遷移を促進するために元のダイナミクスに偏り、もう1つは分割技法を映し出し、元の遷移をより小さな遷移に分解する。 M\"uller電位とアラニンジペプチドの遷移経路の数値的な結果は、これらのアプローチがデータリッチとデータスカースの両方で有効であることを示す。

In this work, we seek to simulate rare transitions between metastable states using score-based generative models. An efficient method for generating high-quality transition paths is valuable for the study of molecular systems since data is often difficult to obtain. We develop two novel methods for path generation in this paper: a chain-based approach and a midpoint-based approach. The first biases the original dynamics to facilitate transitions, while the second mirrors splitting techniques and breaks down the original transition into smaller transitions. Numerical results of generated transition paths for the M\"uller potential and for Alanine dipeptide demonstrate the effectiveness of these approaches in both the data-rich and data-scarce regimes.
翻訳日:2023-09-20 16:34:12 公開日:2023-09-19
# 強化カリキュラム強化学習によるクラウドアウェアマルチエージェントパスファインディング

Crowd-Aware Multi-Agent Pathfinding With Boosted Curriculum Reinforcement Learning ( http://arxiv.org/abs/2309.10275v1 )

ライセンス: Link先を確認
Phu Pham, Aniket Bera(参考訳) 混在環境におけるマルチエージェント経路探索(MAPF)は,システム内のすべてのエージェントに対して衝突のない経路を見つけることを目的として,動作計画において困難な問題を示す。 MAPFは、航空群、自律倉庫ロボット、自動運転車など、さまざまな分野の幅広い応用を見出している。 MAPFの現在のアプローチは、中央集権計画と分散計画の2つの主要なカテゴリに大別できる。 集中型計画では、次元の呪いに苦しむため、大規模で複雑な環境ではうまくスケールできない。 一方、分散計画では、エージェントが部分的に観測可能な環境下でリアルタイムの経路計画に従事し、暗黙の協調を示すことができる。 しかし、密集した環境では収束が遅く、性能が低下する。 本稿では,増進カリキュラムベースの学習戦略によって指導された強化学習を活用することで,この問題に対処するクラウドアウェアな分散型アプローチであるCRAMPを紹介する。 シミュレーション環境でCRAMPを試験し,MAPFの最先端の分散化手法よりも優れた性能を示す。 CRAMPは, メースパンおよび衝突数で測定された溶液品質を最大58%改善し, 従来の方法と比較して5%の成功率を示した。

Multi-Agent Path Finding (MAPF) in crowded environments presents a challenging problem in motion planning, aiming to find collision-free paths for all agents in the system. MAPF finds a wide range of applications in various domains, including aerial swarms, autonomous warehouse robotics, and self-driving vehicles. The current approaches for MAPF can be broadly categorized into two main categories: centralized and decentralized planning. Centralized planning suffers from the curse of dimensionality and thus does not scale well in large and complex environments. On the other hand, decentralized planning enables agents to engage in real-time path planning within a partially observable environment, demonstrating implicit coordination. However, they suffer from slow convergence and performance degradation in dense environments. In this paper, we introduce CRAMP, a crowd-aware decentralized approach to address this problem by leveraging reinforcement learning guided by a boosted curriculum-based training strategy. We test CRAMP on simulated environments and demonstrate that our method outperforms the state-of-the-art decentralized methods for MAPF on various metrics. CRAMP improves the solution quality up to 58% measured in makespan and collision count, and up to 5% in success rate in comparison to previous methods.
翻訳日:2023-09-20 16:34:01 公開日:2023-09-19
# ステレオカメラオンライン自己診断のための修正ホモグラフィについて

Dive Deeper into Rectifying Homography for Stereo Camera Online Self-Calibration ( http://arxiv.org/abs/2309.10314v1 )

ライセンス: Link先を確認
Hongbo Zhao, Yikang Zhang, Qijun Chen, Rui Fan(参考訳) ステレオカメラの外部パラメータの正確な推定がステレオマッチングアルゴリズムの性能を保証する鍵となる。 先行技術では、ステレオカメラのオンライン自己校正は、ステレオ整流の原理を考慮せずに、特殊な視覚オドメトリー問題として定式化されている。 本稿では,1対のイメージしか利用できない場合において,新しいステレオカメラオンライン自己校正アルゴリズムの開発の基礎となる,ホモグラフィの整流化という概念を初めて深く掘り下げた。 さらに,ステレオ映像列が存在する場合,グローバルに最適なextrinsicパラメータ推定のための簡易かつ効果的な解法を提案する。 さらに,3つのオイラー角と3つの変換ベクトルを用いた性能定量化の非現実性を強調した。 そこで本研究では,外因性パラメータ推定のロバスト性と精度を定量化する4つの新しい評価指標を提案する。 提案手法の有効性を検証するため,各種実験装置を用いた室内および屋外の広範囲な実験を行った。 総合評価結果は,ベースラインアルゴリズムと比較して優れた性能を示した。 ソースコード、デモビデオ、サプリメントはmias.group/stereocalibratorで公開されている。

Accurate estimation of stereo camera extrinsic parameters is the key to guarantee the performance of stereo matching algorithms. In prior arts, the online self-calibration of stereo cameras has commonly been formulated as a specialized visual odometry problem, without taking into account the principles of stereo rectification. In this paper, we first delve deeply into the concept of rectifying homography, which serves as the cornerstone for the development of our novel stereo camera online self-calibration algorithm, for cases where only a single pair of images is available. Furthermore, we introduce a simple yet effective solution for globally optimum extrinsic parameter estimation in the presence of stereo video sequences. Additionally, we emphasize the impracticality of using three Euler angles and three components in the translation vectors for performance quantification. Instead, we introduce four new evaluation metrics to quantify the robustness and accuracy of extrinsic parameter estimation, applicable to both single-pair and multi-pair cases. Extensive experiments conducted across indoor and outdoor environments using various experimental setups validate the effectiveness of our proposed algorithm. The comprehensive evaluation results demonstrate its superior performance in comparison to the baseline algorithm. Our source code, demo video, and supplement are publicly available at mias.group/StereoCalibrator.
翻訳日:2023-09-20 16:28:07 公開日:2023-09-19
# マルチモーダル大言語モデルにおけるカタストロフィック・フォーミングの検討

Investigating the Catastrophic Forgetting in Multimodal Large Language Models ( http://arxiv.org/abs/2309.10313v1 )

ライセンス: Link先を確認
Yuexiang Zhai, Shengbang Tong, Xiao Li, Mu Cai, Qing Qu, Yong Jae Lee, Yi Ma(参考訳) GPT4の成功を受けて、マルチモーダル大言語モデル(MLLM)研究への関心が高まっている。 この一連の研究は、微調整済みのLLMと視覚モデルによる汎用LLMの開発に焦点を当てている。 しかし、微調整モデルが事前訓練モデルと同じような性能を保たないという悪名高い破滅的な忘れ込みは、マルチモーダルLLM(MLLM)に固有の問題として残っている。 本稿では,各MLLMを画像分類器として扱うことにより,MLLMの破滅的忘れを評価するためのMulTimodalityの評価を行う。 我々はまず,オープンソースの細調整MLLMの評価にEMTを適用し,ほぼすべての評価されたMLLMが,標準的な画像分類タスクにおける視覚エンコーダと同じ性能を維持することができないことを発見した。 さらに、MLLMであるLLaVAの微調整を継続し、EMTを用いて微調整を通して性能を評価する。 興味深いことに、画像データセットの初期段階の微調整により、テキストとビジュアル機能のアライメントが向上し、他の画像データセットのパフォーマンスが向上することが示唆される。 しかし、微調整が進むにつれてMLLMは幻覚し始め、イメージエンコーダが凍結したままでも、一般化性が著しく低下する。 以上の結果から,MLLMは標準的な画像分類作業におけるビジョンモデルと同等の性能を示していないことが示唆された。

Following the success of GPT4, there has been a surge in interest in multimodal large language model (MLLM) research. This line of research focuses on developing general-purpose LLMs through fine-tuning pre-trained LLMs and vision models. However, catastrophic forgetting, a notorious phenomenon where the fine-tuned model fails to retain similar performance compared to the pre-trained model, still remains an inherent problem in multimodal LLMs (MLLM). In this paper, we introduce EMT: Evaluating MulTimodality for evaluating the catastrophic forgetting in MLLMs, by treating each MLLM as an image classifier. We first apply EMT to evaluate several open-source fine-tuned MLLMs and we discover that almost all evaluated MLLMs fail to retain the same performance levels as their vision encoders on standard image classification tasks. Moreover, we continue fine-tuning LLaVA, an MLLM and utilize EMT to assess performance throughout the fine-tuning. Interestingly, our results suggest that early-stage fine-tuning on an image dataset improves performance across other image datasets, by enhancing the alignment of text and visual features. However, as fine-tuning proceeds, the MLLMs begin to hallucinate, resulting in a significant loss of generalizability, even when the image encoder remains frozen. Our results suggest that MLLMs have yet to demonstrate performance on par with their vision models on standard image classification tasks and the current MLLM fine-tuning procedure still has room for improvement.
翻訳日:2023-09-20 16:27:48 公開日:2023-09-19
# ニューロンの自然言語説明を厳格に評価する

Rigorously Assessing Natural Language Explanations of Neurons ( http://arxiv.org/abs/2309.10312v1 )

ライセンス: Link先を確認
Jing Huang, Atticus Geiger, Karel D'Oosterlinck, Zhengxuan Wu, Christopher Potts(参考訳) 自然言語は、大規模言語モデルがどのように情報を処理し保存するかを説明する魅力的な媒体であるが、そのような説明の忠実性を評価することは困難である。 そこで本研究では,個々のニューロンがテキスト入力における概念を表すと主張する自然言語説明に対する2つの評価方法を開発した。 観察モードでは、ニューロン$a$が全ての入力文字列で活性化され、提案された説明によって選択された概念を参照する。 介入モードでは、ニューロン $a$ が $e$ で表される概念の因果的仲介者であるという主張として $e$ を仮定する。 我々は,GPT-4によるBillsら(2023)のGPT-2 XLニューロンの説明に適用し,最も自信のある説明でも高い誤り率と因果効果はほとんどないことを示す。 我々は、自然言語が説明に良い選択であるかどうか、ニューロンが分析の最高のレベルであるかどうかを批判的に評価することで、論文を閉じる。

Natural language is an appealing medium for explaining how large language models process and store information, but evaluating the faithfulness of such explanations is challenging. To help address this, we develop two modes of evaluation for natural language explanations that claim individual neurons represent a concept in a text input. In the observational mode, we evaluate claims that a neuron $a$ activates on all and only input strings that refer to a concept picked out by the proposed explanation $E$. In the intervention mode, we construe $E$ as a claim that the neuron $a$ is a causal mediator of the concept denoted by $E$. We apply our framework to the GPT-4-generated explanations of GPT-2 XL neurons of Bills et al. (2023) and show that even the most confident explanations have high error rates and little to no causal efficacy. We close the paper by critically assessing whether natural language is a good choice for explanations and whether neurons are the best level of analysis.
翻訳日:2023-09-20 16:27:21 公開日:2023-09-19
# TensorCodec: 強いデータ消費を伴わないテンソルのコンパクトな損失圧縮

TensorCodec: Compact Lossy Compression of Tensors without Strong Data Assumptions ( http://arxiv.org/abs/2309.10310v1 )

ライセンス: Link先を確認
Taehyung Kwon, Jihoon Ko, Jinhong Jung, and Kijung Shin(参考訳) 多くの実世界のデータセットはテンソル、すなわち数値の多次元配列として表現される。 圧縮なしで保存するには、しばしばかなりの空間を必要とする。 多くのテンソル圧縮アルゴリズムが利用可能であるが、その多くがその順序、空間性、ランク、滑らかさに関する強いデータ仮定に依存している。 本研究では,強い入力データに必ずしも従わない一般のテンソルに対する損失圧縮アルゴリズムであるtensorcodecを提案する。 TENSORCODECには3つの重要なアイデアが含まれている。 最初のアイデアは、ニューラルネットワークをテンソル・トレイン分解に統合し、その表現力を高め、低ランクな仮定によって課される制限を緩和する、NTTD(Neural Tensor-Train Decomposition)である。 もう1つのアイデアは、入力テンソルを高階テンソルに折り畳み、NTTDが必要とする空間を小さくすることである。 最後に、入力テンソルのモード指標を並べ替えて、NTTDによって近似の改善に活用できるパターンを明らかにする。 8つの実世界のデータセットの解析と実験は、テンソルコーデックが (a)簡潔さ:類似の復元誤差を持つ最高の競合機より最大7.38倍コンパクトな圧縮を与える。 (b)正確:圧縮サイズの予算が同じであれば、最高のコンペティタよりも3.33倍精度が向上する。 (c)スケーラブル:その経験的圧縮時間はテンソルのエントリ数で線形であり、対数時間で各エントリを再構成する。 私たちのコードとデータセットはhttps://github.com/kbrother/TensorCodec.orgで公開されています。

Many real-world datasets are represented as tensors, i.e., multi-dimensional arrays of numerical values. Storing them without compression often requires substantial space, which grows exponentially with the order. While many tensor compression algorithms are available, many of them rely on strong data assumptions regarding its order, sparsity, rank, and smoothness. In this work, we propose TENSORCODEC, a lossy compression algorithm for general tensors that do not necessarily adhere to strong input data assumptions. TENSORCODEC incorporates three key ideas. The first idea is Neural Tensor-Train Decomposition (NTTD) where we integrate a recurrent neural network into Tensor-Train Decomposition to enhance its expressive power and alleviate the limitations imposed by the low-rank assumption. Another idea is to fold the input tensor into a higher-order tensor to reduce the space required by NTTD. Finally, the mode indices of the input tensor are reordered to reveal patterns that can be exploited by NTTD for improved approximation. Our analysis and experiments on 8 real-world datasets demonstrate that TENSORCODEC is (a) Concise: it gives up to 7.38x more compact compression than the best competitor with similar reconstruction error, (b) Accurate: given the same budget for compressed size, it yields up to 3.33x more accurate reconstruction than the best competitor, (c) Scalable: its empirical compression time is linear in the number of tensor entries, and it reconstructs each entry in logarithmic time. Our code and datasets are available at https://github.com/kbrother/TensorCodec.
翻訳日:2023-09-20 16:27:02 公開日:2023-09-19
# オープンシステムのタイトで到達可能な量子速度制限

Tight and attainable quantum speed limit for open systems ( http://arxiv.org/abs/2309.10308v1 )

ライセンス: Link先を確認
Zi-yi Mai, Chang-shui Yu(参考訳) 量子状態の直観的な幾何学的図を作成し、特定の状態距離を定義し、開システムに対する量子速度限界(qsl)を導出する。 我々のQSLは、任意の初期状態が測地線に沿った特定のダイナミクスによって最終状態に駆動できるため、達成可能である。 我々は, qsl の測地線に沿った動力学の一般的な条件を示す。 その結果, 一般化振幅減衰ダイナミクスとデファッショニングダイナミクスを考慮し, 到達可能性を示す。 さらに, 厳密な解析プロセスと数値シミュレーションにより, qsl を他と比較し, 多くの場合, qsl が密であることを示す。 これは、我々の研究が進化の時間の境界を締めくくる上で重要であることを示している。

We develop an intuitive geometric picture of quantum states, define a particular state distance, and derive a quantum speed limit (QSL) for open systems. Our QSL is attainable because any initial state can be driven to a final state by the particular dynamics along the geodesic. We present the general condition for dynamics along the geodesic for our QSL. As evidence, we consider the generalized amplitude damping dynamics and the dephasing dynamics to demonstrate the attainability. In addition, we also compare our QSL with others by strict analytic processes as well as numerical illustrations, and show our QSL is tight in many cases. It indicates that our work is significant in tightening the bound of evolution time.
翻訳日:2023-09-20 16:26:37 公開日:2023-09-19
# baichuan 2: オープンな大規模言語モデル

Baichuan 2: Open Large-scale Language Models ( http://arxiv.org/abs/2309.10305v1 )

ライセンス: Link先を確認
Aiyuan Yang, Bin Xiao, Bingning Wang, Borong Zhang, Chao Yin, Chenxu Lv, Da Pan, Dian Wang, Dong Yan, Fan Yang, Fei Deng, Feng Wang, Feng Liu, Guangwei Ai, Guosheng Dong Haizhou Zhao, Hang Xu, Haoze Sun, Hongda Zhang, Hui Liu, Jiaming Ji, Jian Xie, Juntao Dai, Kun Fang, Lei Su Liang Song, Lifeng Liu, Liyun Ru, Luyao Ma, Mang Wang, Mickel Liu, MingAn Lin, Nuolan Nie, Peidong Guo, Ruiyang Sun, Tao Zhang, Tianpeng Li, Tianyu Li, Wei Cheng, Weipeng Chen, Xiangrong Zeng, Xiaochuan Wang, Xiaoxi Chen, Xin Men, Xin Yu, Xuehai Pan, Yanjun Shen, Yiding Wang, Yiyu Li, Youxin Jiang, Yuchen Gao, Yupeng Zhang, Zenan Zhou, Zhiying Wu(参考訳) 大規模言語モデル(LLM)は、自然言語命令のわずかな例に基づいて、様々な自然言語タスクにおいて顕著な性能を示し、広範な機能工学の必要性を減らした。 しかし、ほとんどの強力なLLMはクローズドソースであり、英語以外の言語に限られている。 本報告では,70億パラメータと130億パラメータを含む大規模多言語モデルであるbaichuan 2について,約2.6兆トークンを用いてスクラッチから学習した。 baichuan 2は、mmlu、cmmlu、gsm8k、humanevalといった公開ベンチマークで同様の大きさの他のオープンソースモデルに匹敵する。 また、バイチュアン2は医学や法律などの垂直領域に優れる。 ベイチュアン2号の訓練力学をより深く理解するために、すべての事前学習モデルチェックポイントをリリースする。

Large language models (LLMs) have demonstrated remarkable performance on a variety of natural language tasks based on just a few examples of natural language instructions, reducing the need for extensive feature engineering. However, most powerful LLMs are closed-source or limited in their capability for languages other than English. In this technical report, we present Baichuan 2, a series of large-scale multilingual language models containing 7 billion and 13 billion parameters, trained from scratch, on 2.6 trillion tokens. Baichuan 2 matches or outperforms other open-source models of similar size on public benchmarks like MMLU, CMMLU, GSM8K, and HumanEval. Furthermore, Baichuan 2 excels in vertical domains such as medicine and law. We will release all pre-training model checkpoints to benefit the research community in better understanding the training dynamics of Baichuan 2.
翻訳日:2023-09-20 16:26:24 公開日:2023-09-19
# Decoupled Training: フラストレーションに易しいマルチドメイン学習の復活

Decoupled Training: Return of Frustratingly Easy Multi-Domain Learning ( http://arxiv.org/abs/2309.10302v1 )

ライセンス: Link先を確認
Ximei Wang, Junwei Pan, Xingzhuo Guo, Dapeng Liu, Jie Jiang(参考訳) マルチドメイン学習(mdl)は、重複する複数のドメインに対して、最小平均リスクでモデルをトレーニングすることを目的としている。 データセットバイアスとドメイン支配の課題に対処するために、分布を整列してドメインギャップを減らしたり、ドメイン固有のタワーやゲート、さらには専門家による差異を保ったりすることで共通性を求める多くのMDLアプローチが提案されている。 MDLモデルは、高度なネットワークアーキテクチャや損失関数によってますます複雑になり、余分なパラメータを導入し、計算コストを増大させています。 本稿では,Decoupled Training (D-Train) という名前のマルチドメイン学習手法を提案する。 d-trainは、まずすべてのドメインを事前トレーニングしてルートモデルをウォームアップし、次に複数のヘッドに分割して各ドメインをポストトレーニングし、最終的にバックボーンを固定することで頭を微調整し、ドメイン独立を達成する3段階のトレーニング戦略である。 d-trainは単純さと効率性にも拘わらず、標準的なベンチマークから衛星画像やレコメンデーションシステムの応用に至るまで、さまざまなデータセットの広範な評価において非常に優れた性能を発揮している。

Multi-domain learning (MDL) aims to train a model with minimal average risk across multiple overlapping but non-identical domains. To tackle the challenges of dataset bias and domain domination, numerous MDL approaches have been proposed from the perspectives of seeking commonalities by aligning distributions to reduce domain gap or reserving differences by implementing domain-specific towers, gates, and even experts. MDL models are becoming more and more complex with sophisticated network architectures or loss functions, introducing extra parameters and enlarging computation costs. In this paper, we propose a frustratingly easy and hyperparameter-free multi-domain learning method named Decoupled Training(D-Train). D-Train is a tri-phase general-to-specific training strategy that first pre-trains on all domains to warm up a root model, then post-trains on each domain by splitting into multi heads, and finally fine-tunes the heads by fixing the backbone, enabling decouple training to achieve domain independence. Despite its extraordinary simplicity and efficiency, D-Train performs remarkably well in extensive evaluations of various datasets from standard benchmarks to applications of satellite imagery and recommender systems.
翻訳日:2023-09-20 16:26:11 公開日:2023-09-19
# ドメイン適応における条件付き不変成分の役割--理論とアルゴリズム

Prominent Roles of Conditionally Invariant Components in Domain Adaptation: Theory and Algorithms ( http://arxiv.org/abs/2309.10301v1 )

ライセンス: Link先を確認
Keru Wu, Yuansi Chen, Wooseok Ha, Bin Yu(参考訳) ドメイン適応 (da) は、モデルを訓練するために使用されるソースデータの分布が、モデルを評価するために使用されるターゲットデータと異なる場合に生じる統計的学習問題である。 多くのDAアルゴリズムは経験的な成功を示しているが、これらのアルゴリズムを盲目的に適用することは、しばしば新しいデータセットのパフォーマンスを悪化させる。 これを解決するためには,DAアルゴリズムが目標性能に優れた仮定を明らかにすることが重要である。 本研究では, 予測に関係し, ソースデータとターゲットデータの間で条件付き不変な条件付き不変成分(cics)の存在を仮定する。 我々は,条件不変ペナルティ(CIP)によって推定できるCICが,DAの目標リスク保証に3つの重要な役割を果たすことを示した。 まず,共変量シフトやラベルシフトといった単純な設定以上のリスクを目標とする,重要度重み付き条件付き不変ペナルティ(iw-cip)に基づく新しいアルゴリズムを提案する。 第2に、CICは、他のDAアルゴリズムのソースとターゲットのリスクの大規模な相違を識別するのに役立つことを示す。 最後に、CICをドメイン不変射影(DIP)アルゴリズムに組み込むことで、ラベルフリップ機能による障害シナリオに対処できることを実証する。 我々は、合成データ、MNIST、CelebA、Camelyon17データセットに関する数値実験を通じて、新しいアルゴリズムと理論的発見をサポートする。

Domain adaptation (DA) is a statistical learning problem that arises when the distribution of the source data used to train a model differs from that of the target data used to evaluate the model. While many DA algorithms have demonstrated considerable empirical success, blindly applying these algorithms can often lead to worse performance on new datasets. To address this, it is crucial to clarify the assumptions under which a DA algorithm has good target performance. In this work, we focus on the assumption of the presence of conditionally invariant components (CICs), which are relevant for prediction and remain conditionally invariant across the source and target data. We demonstrate that CICs, which can be estimated through conditional invariant penalty (CIP), play three prominent roles in providing target risk guarantees in DA. First, we propose a new algorithm based on CICs, importance-weighted conditional invariant penalty (IW-CIP), which has target risk guarantees beyond simple settings such as covariate shift and label shift. Second, we show that CICs help identify large discrepancies between source and target risks of other DA algorithms. Finally, we demonstrate that incorporating CICs into the domain invariant projection (DIP) algorithm can address its failure scenario caused by label-flipping features. We support our new algorithms and theoretical findings via numerical experiments on synthetic data, MNIST, CelebA, and Camelyon17 datasets.
翻訳日:2023-09-20 16:25:49 公開日:2023-09-19
# 微調整とミンルックアヘッドビームサーチによるWhisperの改良

Using fine-tuning and min lookahead beam search to improve Whisper ( http://arxiv.org/abs/2309.10299v1 )

ライセンス: Link先を確認
Andrea Do, Oscar Brown, Zhengjie Wang, Nikhil Mathew, Zixin Liu, Jawwad Ahmed, Cheng Yu(参考訳) 低リソース言語におけるWhisperのパフォーマンスはまだ完璧には程遠い。 低リソース言語でのトレーニングデータの欠如に加えて、whisperで使用されているビーム探索アルゴリズムの制限も特定した。 これらの問題に対処するために,追加データについてささやきを微調整し,改良した復号アルゴリズムを提案する。 ベトナム語では、LoRAで微調整されたWhisper-Tinyは、フルパラメータの微調整に比べてさらに1.45の縮小であるゼロショットのWhisper-TinyよりもWERで38.49の改善をもたらす。 さらに、Filter-EndsとMin Lookaheadデコードアルゴリズムを使用することで、WERは標準的なビームサーチと比較して、様々な言語で平均2.26削減される。 これらの結果はより大きなwhisperモデルサイズに一般化される。 また、Min LookaheadがWhisperで使われる標準ビーム探索アルゴリズムより優れているという定理も証明する。

The performance of Whisper in low-resource languages is still far from perfect. In addition to a lack of training data on low-resource languages, we identify some limitations in the beam search algorithm used in Whisper. To address these issues, we fine-tune Whisper on additional data and propose an improved decoding algorithm. On the Vietnamese language, fine-tuning Whisper-Tiny with LoRA leads to an improvement of 38.49 in WER over the zero-shot Whisper-Tiny setting which is a further reduction of 1.45 compared to full-parameter fine-tuning. Additionally, by using Filter-Ends and Min Lookahead decoding algorithms, the WER reduces by 2.26 on average over a range of languages compared to standard beam search. These results generalise to larger Whisper model sizes. We also prove a theorem that Min Lookahead outperforms the standard beam search algorithm used in Whisper.
翻訳日:2023-09-20 16:25:25 公開日:2023-09-19
# 言語教育のための軌道安定学習システム

Learning Orbitally Stable Systems for Diagrammatically Teaching ( http://arxiv.org/abs/2309.10298v1 )

ライセンス: Link先を確認
Weiming Zhi, Kangni Liu, Tianyi Zhang, Matthew Johnson-Roberson(参考訳) ダイアグラム教育はロボットが新しいスキルを身につけるためのパラダイムであり、ユーザーはロボットの動きを形作るシーンの画像に2Dスケッチを提供する。 本研究では,ロボットに表面への接近を指示し,その上でサイクリック動作を追従する問題に取り組む。ロボットのカメラからの画像に対して,ユーザが提供する1つのスケッチによって,動きのサイクルを任意に指定することができる。 そこで我々は,<emph{Stable Diffeomorphic Diagrammatic Teaching} (SDDT) フレームワークを紹介した。 SDDTは、ロボットの動きを、ユーザが指定したスケッチに従うことを学習する「emph{Orbitally Asymptotically Stable} (O.A.S.)」力学系としてモデル化する。 これは、既知の O.A.S. 系に微分可能かつ可微分的関数である \emph{diffeomorphism} を適用することによって達成される。 パラメータ化された微分同相は、モデル化されたシステムの極限サイクルとスケッチの間のハウスドルフ距離に対して最適化され、所望のロボット運動を生成する。 我々は最適化システムの挙動に関する理論的知見を提供し、シミュレーションと6-DOFマニピュレータを装着した四重極上でSDDTを実験的に評価する。 その結果, 複雑な周期的運動パターンを高い精度で図式的に教えることができた。

Diagrammatic Teaching is a paradigm for robots to acquire novel skills, whereby the user provides 2D sketches over images of the scene to shape the robot's motion. In this work, we tackle the problem of teaching a robot to approach a surface and then follow cyclic motion on it, where the cycle of the motion can be arbitrarily specified by a single user-provided sketch over an image from the robot's camera. Accordingly, we introduce the \emph{Stable Diffeomorphic Diagrammatic Teaching} (SDDT) framework. SDDT models the robot's motion as an \emph{Orbitally Asymptotically Stable} (O.A.S.) dynamical system that learns to follow the user-specified sketch. This is achieved by applying a \emph{diffeomorphism}, i.e. a differentiable and invertible function, to morph a known O.A.S. system. The parameterised diffeomorphism is then optimised with respect to the Hausdorff distance between the limit cycle of our modelled system and the sketch, to produce the desired robot motion. We provide theoretical insight into the behaviour of the optimised system and also empirically evaluate SDDT, both in simulation and on a quadruped with a mounted 6-DOF manipulator. Results show that we can diagrammatically teach complex cyclic motion patterns with a high degree of accuracy.
翻訳日:2023-09-20 16:25:06 公開日:2023-09-19
# 一般化学反応ネットワーク上の情報幾何結合

Information geometric bound on general chemical reaction networks ( http://arxiv.org/abs/2309.10334v1 )

ライセンス: Link先を確認
Tsuyoshi Mizohata, Tetsuya J. Kobayashi, Louis-S. Bouchard, Hideyuki Miyahara(参考訳) 本研究では,反応速度の上限を導出することを目的として,反応ネットワーク(crns)のダイナミクスについて検討する。 この課題は、CRNに固有の非線形性質と離散構造のために困難である。 これに対処するために,自然勾配を用いた情報幾何学的手法を用いて,crnダイナミクスの上限となる非線形システムを開発する。 我々は,CRNの特定のクラスにおいて,より高速な収束を示す数値シミュレーションによるアプローチを検証する。 このクラスは化学反応の数、化学反応の化学量係数の最大値、反応の数によって特徴づけられる。 また,本手法を従来の手法と比較し,CRNの反応速度に上限を与えることができないことを示した。 本研究はCRNに焦点をあてる一方で,自然科学から工学に至るまでの分野におけるハイパーグラフの多用性は,情報科学を含む幅広い応用を見出すことを示唆している。

We investigate the dynamics of chemical reaction networks (CRNs) with the goal of deriving an upper bound on their reaction rates. This task is challenging due to the nonlinear nature and discrete structure inherent in CRNs. To address this, we employ an information geometric approach, using the natural gradient, to develop a nonlinear system that yields an upper bound for CRN dynamics. We validate our approach through numerical simulations, demonstrating faster convergence in a specific class of CRNs. This class is characterized by the number of chemicals, the maximum value of stoichiometric coefficients of the chemical reactions, and the number of reactions. We also compare our method to a conventional approach, showing that the latter cannot provide an upper bound on reaction rates of CRNs. While our study focuses on CRNs, the ubiquity of hypergraphs in fields from natural sciences to engineering suggests that our method may find broader applications, including in information science.
翻訳日:2023-09-20 16:17:11 公開日:2023-09-19
# QubiC 2.0: 中間回路計測とフィードフォワードが可能な拡張可能なオープンソースクビット制御システム

QubiC 2.0: An Extensible Open-Source Qubit Control System Capable of Mid-Circuit Measurement and Feed-Forward ( http://arxiv.org/abs/2309.10333v1 )

ライセンス: Link先を確認
Yilun Xu, Gang Huang, Neelay Fruitwala, Abhi Rajagopala, Ravi K. Naik, Kasra Nowrouzi, David I. Santiago, Irfan Siddiqi(参考訳) 研究者は古典的電子制御システムを介して量子処理ユニットを操作し測定する。 超伝導量子ビットのためのオープンソースのfpgaベースの量子ビット制御システムqubicを開発した。 数年に渡りQubiC 1.0の量子ビットキャリブレーションとテスト経験を経て、我々は高度な量子アルゴリズムを効果的に実装するための中間回路計測とフィードフォワード機能の必要性を認識した。 さらに,rfsoc技術の開発により,xilinx zcu216評価ボード上でqubic 2.0にアップグレードし,これらの機能をすべて実装した。 このシステムは、簡単なプロセッサを備えたポータブルfpgaゲートウェアを使用してコマンドをオンザフライで処理する。 設計の単純さと簡単なスケーリングのために、マルチコアの分散アーキテクチャを採用しました。 実際のパルスは、コマンドで指定されたユニークなパルスエンベロープとキャリア情報を組み合わせる。 各パルスエンベロープはFPGAのブロックRAMにプリストアされ、回路全体の速度と再利用性を保証する。 振幅、位相、周波数を含むパルスパラメータをパルスからパルスに更新することができる。 ソフトウェアスタックはPythonで開発され、FPGAのARMコアとXML-RPC経由でホストコンピュータで動作する。 量子回路は、パルスレベルとネイティブゲートレベルのプログラミングをサポートし、高レベルの制御フロー構造を含む高レベル言語で記述することができる。 QubiCソフトウェアスタックは、これらの量子プログラムをFPGAにロード可能なバイナリコマンドにコンパイルする。 qubic 2.0ではベンチテストでマルチfpga同期を実現し,条件付き回路のフィードフォワード実験を簡略化した。 拡張qubicシステムは、量子コンピューティングにおける重要な一歩であり、研究者が高度な量子アルゴリズムとアプリケーションを調査し実装するための強力なツールを提供する。

Researchers manipulate and measure quantum processing units via the classical electronics control system. We developed an open-source FPGA-based quantum bit control system called QubiC for superconducting qubits. After a few years of qubit calibration and testing experience on QubiC 1.0, we recognized the need for mid-circuit measurements and feed-forward capabilities to implement advanced quantum algorithms effectively. Moreover, following the development of RFSoC technology, we upgraded the system to QubiC 2.0 on an Xilinx ZCU216 evaluation board and developed all these enriched features. The system uses portable FPGA gateware with a simplified processor to handle commands on-the-fly. For design simplicity and straightforward scaling, we adopted a multi-core distributed architecture, assigning one processor core per qubit. The actual pulses combine the unique pulse envelope and carrier information specified in a command. Each pulse envelope is pre-stored on FPGA's block RAMs, ensuring the speed and reusability during the whole circuit. The pulse parameters including amplitude, phase, and frequency can be updated from pulse to pulse. The software stack is developed in Python, running on both the FPGA's ARM core and host computer via XML-RPC. The quantum circuit can be described in a high-level language, which supports programming at both pulse-level and native-gate level, and includes high-level control flow constructs. The QubiC software stack compiles these quantum programs into binary commands that can be loaded into the FPGA. With Qubic 2.0, we successfully achieved multi-FPGA synchronization in bench tests and demonstrated simplified feed-forward experiments on conditional circuits. The enhanced QubiC system represents a significant step forward in quantum computing, providing researchers with powerful tools to explore and implement advanced quantum algorithms and applications.
翻訳日:2023-09-20 16:16:56 公開日:2023-09-19
# キャビティ強化原子周波数コム量子記憶における分散の役割

The Role of Dispersion in Cavity-Enhanced Atomic Frequency Comb Quantum Memories ( http://arxiv.org/abs/2309.10332v1 )

ライセンス: Link先を確認
Shahrzad Taherizadegan (1), Jacob H. Davidson (2), Sourabh Kumar (1), Daniel Oblak (1), and Christoph Simon (1) ((1) Department of Physics & Astronomy, Institute for Quantum Science and Technology, University of Calgary, 2500 University Drive NW, Calgary, Alberta T2N 1N4, Canada, (2) National Institute of Standards and Technology (NIST), Boulder, Colorado 80305, USA)(参考訳) 原子周波数コム(AFC)量子メモリは長距離量子通信において好ましいプロトコルである。 非対称光学キャビティにafcを挿入すると貯蔵効率は向上するが、コーム特性の測定は困難になる。 キャビティエンハンスドafc量子メモリの理論モデルを開発し,モデルにおける分散効果の役割について検討する。 分散効果を含むことが実験結果とモデル結果のより密接な一致に繋がることを示す。 最も重要なことに、分散を伴うモデルは、効率を推定するためのより正確な定量的な合意を提供し、デチューニングの関数として効率がどのように変化するかをよりよく記述する。 さらに、実験反射率の特定の特徴をよりよく捉える。 我々のモデルは、キャビティ内部の光学的深さなどの生成したコム特性を正確に推定し、生成したキャビティ強化AFC量子メモリの性能の正確な予測を可能にするためのステップである。

Atomic frequency comb (AFC) quantum memory is a favorable protocol in long distance quantum communication. Putting the AFC inside an asymmetric optical cavity enhances the storage efficiency but makes the measurement of the comb properties challenging. We develop a theoretical model for cavity-enhanced AFC quantum memory and investigate the role of the dispersion effect in the model. We demonstrate how including the dispersion effect leads to a closer agreement between experimental and model results. Most importantly, the model with dispersion provides a closer quantitative agreement for estimating the efficiency and a much better description of how the efficiency changes as a function of detuning. Furthermore, it better captures certain features of the experimental reflectivity. Our model is a step forward to accurately estimating the created comb properties, such as the optical depth inside the cavity, and so to being able to make precise predictions of the performance of the created cavity-enhanced AFC quantum memory.
翻訳日:2023-09-20 16:16:27 公開日:2023-09-19
# パウリ雑音による表面符号復号の硬さ結果

Hardness results for decoding the surface code with Pauli noise ( http://arxiv.org/abs/2309.10331v1 )

ライセンス: Link先を確認
Alex Fischer, Akimasa Miyake(参考訳) 実際の量子コンピュータは、全ての量子ビットに対して同じ強度を持つ非分極ノイズのような単純なノイズの代わりに、複雑な量子ビット依存ノイズを受ける。 我々の復号アルゴリズムがこの特定のノイズに関する事前情報を考慮すると、量子誤り訂正をより効果的に行うことができる。 このことは、デコード問題への入力がシンドローム測定結果であるだけでなく、各キュービットに対する単一キュービットパウリ誤差の確率の形でのノイズモデルである表面符号復号の複雑さを考える動機となっている。 この設定では、表面符号に対する最大確率誤差(mpe)と最大確率(ml)の復号がそれぞれnp-hardと#p-hardであることを示す。 MPE の SAT と ML の #SAT から直接、ブール式を qubit 依存の Pauli ノイズモデルに変換する方法と、この公式の満足度特性を符号化するシンドロームのセットを示すことで、 MPE の SAT と ML の #SAT から直接削減する。 また,MPEとMLデコーディングの近似結果の難しさも示す。 これらは、多くの効率的な表面コードデコーダが平均ケースで正しいという経験的事実と矛盾しない最悪のケースの硬さの結果である(つまり、ほとんどのシンドロームや最も合理的なノイズモデルの場合)。 これらの硬さ結果は、MPEの既知の硬さ結果と、独立な$X$および$Z$ノイズを持つ任意の安定化器符号のML復号結果とよく似ている。

Real quantum computers will be subject to complicated, qubit-dependent noise, instead of simple noise such as depolarizing noise with the same strength for all qubits. We can do quantum error correction more effectively if our decoding algorithms take into account this prior information about the specific noise present. This motivates us to consider the complexity of surface code decoding where the input to the decoding problem is not only the syndrome-measurement results, but also a noise model in the form of probabilities of single-qubit Pauli errors for every qubit. In this setting, we show that Maximum Probability Error (MPE) decoding and Maximum Likelihood (ML) decoding for the surface code are NP-hard and #P-hard, respectively. We reduce directly from SAT for MPE decoding, and from #SAT for ML decoding, by showing how to transform a boolean formula into a qubit-dependent Pauli noise model and set of syndromes that encode the satisfiability properties of the formula. We also give hardness of approximation results for MPE and ML decoding. These are worst-case hardness results that do not contradict the empirical fact that many efficient surface code decoders are correct in the average case (i.e., for most sets of syndromes and for most reasonable noise models). These hardness results are nicely analogous with the known hardness results for MPE and ML decoding of arbitrary stabilizer codes with independent $X$ and $Z$ noise.
翻訳日:2023-09-20 16:16:12 公開日:2023-09-19
# 学習に基づく2次元不規則形状パッキング

Learning based 2D Irregular Shape Packing ( http://arxiv.org/abs/2309.10329v1 )

ライセンス: Link先を確認
Zeshi Yang, Zherong Pan, Manyi Li, Kui Wu, Xifeng Gao(参考訳) 2d不規則な形状パッキングは、3dモデルのuvパッチをテクスチャアトラス内に配置するために必要なステップである。 すべてのパッチ位置と向きを含む結合的複合的決定問題であるため、この問題はよく知られたNPハード複雑性を有する。 以前のソリューションでは、ヒューリスティックなパッキング順序を仮定するか、上流メッシュカットとUVマッピングを変更して問題を単純化するか、パッキング比を制限するか、堅牢性や一般性の問題を引き起こす。 代わりに,入力から最小限の要求で高いパッキング品質を実現する学習支援型2次元不規則形状パッキング法を提案する。 提案手法では,UVパッチのサブセットを直方体近傍のスーパーパッチに反復的に選択してグループ化する。 数百のパッチを持つ大規模な問題インスタンスを効率的に処理するために、深層ニューラルネットワークポリシをトレーニングして、ほぼ矩形に近いパッチサブセットを予測し、それらの相対的なポーズを判断します。 提案手法はUVパッキングのための3つのデータセットに対して有効性を示し,提案手法は計算速度の競争力のある,広く使用されているベースラインよりも高いパッキング比を達成する。

2D irregular shape packing is a necessary step to arrange UV patches of a 3D model within a texture atlas for memory-efficient appearance rendering in computer graphics. Being a joint, combinatorial decision-making problem involving all patch positions and orientations, this problem has well-known NP-hard complexity. Prior solutions either assume a heuristic packing order or modify the upstream mesh cut and UV mapping to simplify the problem, which either limits the packing ratio or incurs robustness or generality issues. Instead, we introduce a learning-assisted 2D irregular shape packing method that achieves a high packing quality with minimal requirements from the input. Our method iteratively selects and groups subsets of UV patches into near-rectangular super patches, essentially reducing the problem to bin-packing, based on which a joint optimization is employed to further improve the packing ratio. In order to efficiently deal with large problem instances with hundreds of patches, we train deep neural policies to predict nearly rectangular patch subsets and determine their relative poses, leading to linear time scaling with the number of patches. We demonstrate the effectiveness of our method on three datasets for UV packing, where our method achieves a higher packing ratio over several widely used baselines with competitive computational speed.
翻訳日:2023-09-20 16:15:43 公開日:2023-09-19
# アプリケーション間検索とデザイン一貫性チェックのための計算手法

Computational Approaches for App-to-App Retrieval and Design Consistency Check ( http://arxiv.org/abs/2309.10328v1 )

ライセンス: Link先を確認
Seokhyeon Park, Wonjae Kim, Young-Ho Kim, Jinwook Seo(参考訳) モバイルユーザインタフェース(UI)から意味表現を抽出し,デザイナの意思決定プロセスに表現を使用することで,効率的な計算設計支援ツールの可能性を示している。 現在のアプローチでは、小さなモバイルUIデータセットに基づいてトレーニングされた機械学習モデルを使用して、セマンティックベクターを抽出し、スクリーンショットとスクリーンショットの比較を使用して、クエリのスクリーンショットを取得できる。 しかし、これらのメソッドのユーザビリティは、しばしばオープンソースではなく、実践者がフォローする複雑なトレーニングパイプラインを持ち、スクリーンショットセットからセットへの(すなわちアプリからアプリへの)検索ができないため、限られている。 この目的のために、(1)大規模なWebスケール画像で訓練された視覚モデルを用いて、ゼロショット方式でUI表現を抽出し、既存の特殊モデルより優れるかどうかを検証し、(2)アプリケーション間検索と設計整合性解析を可能にする数学的に確立された手法を用いる。 提案手法は,従来の検索モデルにより改良されるだけでなく,新たなアプリケーションも複数導入できることを示す。

Extracting semantic representations from mobile user interfaces (UI) and using the representations for designers' decision-making processes have shown the potential to be effective computational design support tools. Current approaches rely on machine learning models trained on small-sized mobile UI datasets to extract semantic vectors and use screenshot-to-screenshot comparison to retrieve similar-looking UIs given query screenshots. However, the usability of these methods is limited because they are often not open-sourced and have complex training pipelines for practitioners to follow, and are unable to perform screenshot set-to-set (i.e., app-to-app) retrieval. To this end, we (1) employ visual models trained with large web-scale images and test whether they could extract a UI representation in a zero-shot way and outperform existing specialized models, and (2) use mathematically founded methods to enable app-to-app retrieval and design consistency analysis. Our experiments show that our methods not only improve upon previous retrieval models but also enable multiple new applications.
翻訳日:2023-09-20 16:15:19 公開日:2023-09-19
# QASnowball: 高品質な質問回答データ生成のための反復型ブートストラッピングフレームワーク

QASnowball: An Iterative Bootstrapping Framework for High-Quality Question-Answering Data Generation ( http://arxiv.org/abs/2309.10326v1 )

ライセンス: Link先を確認
Xu Han, Kunlun Zhu, Shihao Liang, Zhi Zheng, Guoyang Zeng, Zhiyuan Liu, Maosong Sun(参考訳) 近年,質問応答(QA)の成功,特に多様なNLPタスクに対処するための基礎パラダイムとしての可能性が注目されている。 しかし、有効で安定したQAシステムを構築するのに十分なデータを取得することは、依然として未解決の問題である。 そこで本研究では,QAデータ拡張のための反復型ブートストラップフレームワーク(QASnowball)を提案する。 具体的には、QASnowballは、3つのモジュール、未ラベル文書の中核句を候補回答として抽出する回答抽出器、文書と候補回答に基づいて質問を生成する質問生成器、高品質QAデータをフィルタリングするQAデータフィルタからなる。 さらに、qasnowballは、シードセットを異なるイテレーションで微調整し、世代品質を継続的に改善することで、自己強調することができる。 我々は、高リソースの英語シナリオと中ソースの中国語シナリオで実験を行い、その実験結果から、QAモデルを促進することが示されている。(1) 生成されたデータに対するトレーニングモデルは、教師付きデータと同等の結果が得られること、(2) 生成されたデータに対する事前トレーニングと教師付きデータの微調整により、より良いパフォーマンスが得られること。 私たちのコードと生成されたデータは、さらなる作業を進めるためにリリースされます。

Recent years have witnessed the success of question answering (QA), especially its potential to be a foundation paradigm for tackling diverse NLP tasks. However, obtaining sufficient data to build an effective and stable QA system still remains an open problem. For this problem, we introduce an iterative bootstrapping framework for QA data augmentation (named QASnowball), which can iteratively generate large-scale high-quality QA data based on a seed set of supervised examples. Specifically, QASnowball consists of three modules, an answer extractor to extract core phrases in unlabeled documents as candidate answers, a question generator to generate questions based on documents and candidate answers, and a QA data filter to filter out high-quality QA data. Moreover, QASnowball can be self-enhanced by reseeding the seed set to fine-tune itself in different iterations, leading to continual improvements in the generation quality. We conduct experiments in the high-resource English scenario and the medium-resource Chinese scenario, and the experimental results show that the data generated by QASnowball can facilitate QA models: (1) training models on the generated data achieves comparable results to using supervised data, and (2) pre-training on the generated data and fine-tuning on supervised data can achieve better performance. Our code and generated data will be released to advance further work.
翻訳日:2023-09-20 16:14:56 公開日:2023-09-19
# 次元化アルゴリズムと分類アルゴリズムの多モード統合による転移性乳癌の予後

Metastatic Breast Cancer Prognostication Through Multimodal Integration of Dimensionality Reduction Algorithms and Classification Algorithms ( http://arxiv.org/abs/2309.10324v1 )

ライセンス: Link先を確認
Bliss Singhal, Fnu Pooja(参考訳) 機械学習(ML)は、コンピュータがデータを分析し、データのパターンを見つける人工知能(AI)の分野である。 本研究は,MLを用いた転移性癌の検出に焦点を当てた。 転移性がんは、がんが体内の他の部位に拡がっている点であり、がん関連死の約90%の原因である。 通常、病理学者は腫瘍が良性か悪性かを手動で分類するために、毎日数時間を費やしている。 この退屈な作業は、転移の60%以上を誤記することに貢献し、ヒューマンエラーや他の非効率性を認識することの重要性を強調している。 mlは、数千人の命を救う転移性がんの正確な同定を改善する良い候補であり、プロセスの速度と効率も向上し、リソースと時間を削減できる。 これまでのところ、AIの深層学習手法はがんの検出に使われてきた。 本研究は, 転移性癌検出における前処理アルゴリズムと分類アルゴリズムの併用の可能性を決定する新しいアプローチである。 この研究は、主成分分析(PCA)と遺伝的アルゴリズムの2つの前処理アルゴリズムを使用してデータセットの次元を減らし、その後、ロジスティック回帰、決定木分類、k-アネレスト近傍の3つの分類アルゴリズムを使用して、病理検査で転移性癌を検出する。 71.14%の精度は、PCA、遺伝的アルゴリズム、k-アネレスト近傍アルゴリズムからなるMLパイプラインによって作られ、前処理と分類アルゴリズムが転移性癌を検出する大きな可能性を持っていることを示唆している。

Machine learning (ML) is a branch of Artificial Intelligence (AI) where computers analyze data and find patterns in the data. The study focuses on the detection of metastatic cancer using ML. Metastatic cancer is the point where the cancer has spread to other parts of the body and is the cause of approximately 90% of cancer related deaths. Normally, pathologists spend hours each day to manually classify whether tumors are benign or malignant. This tedious task contributes to mislabeling metastasis being over 60% of time and emphasizes the importance to be aware of human error, and other inefficiencies. ML is a good candidate to improve the correct identification of metastatic cancer saving thousands of lives and can also improve the speed and efficiency of the process thereby taking less resources and time. So far, deep learning methodology of AI has been used in the research to detect cancer. This study is a novel approach to determine the potential of using preprocessing algorithms combined with classification algorithms in detecting metastatic cancer. The study used two preprocessing algorithms: principal component analysis (PCA) and the genetic algorithm to reduce the dimensionality of the dataset, and then used three classification algorithms: logistic regression, decision tree classifier, and k-nearest neighbors to detect metastatic cancer in the pathology scans. The highest accuracy of 71.14% was produced by the ML pipeline comprising of PCA, the genetic algorithm, and the k-nearest neighbors algorithm, suggesting that preprocessing and classification algorithms have great potential for detecting metastatic cancer.
翻訳日:2023-09-20 16:14:30 公開日:2023-09-19
# ステレオ画像レイニングのための多次元クェリ・相互作用ネットワーク

Multi-dimension Queried and Interacting Network for Stereo Image Deraining ( http://arxiv.org/abs/2309.10319v1 )

ライセンス: Link先を確認
Yuanbo Wen, Tao Gao, Ziqi Li, Jing Zhang, Ting Chen(参考訳) ステレオ画像における降雨劣化の除去は、デュアルビュー間の相互情報の効率的な活用を必要とする、驚くべき課題となる。 この目的のために,マルチ次元クエリと対話を用いたステレオ画像デライニング MQINet を考案した。 具体的には,文脈認識型次元問合せブロック (CDQB) を用いる。 このモジュールは入力特徴とは無関係な次元的クエリを活用し、グローバルコンテキスト認識注意(GCA)を用いて重要な特徴を捉え、冗長な情報や無関係な情報の絡み合いを避ける。 一方,降雨画像の逆物理モデルに基づく視界内物理認識注意(IPA)を導入する。 IPAは降雨の物理に敏感な浅い特徴を抽出し、早期学習時の降雨関連アーティファクトの減少を促進する。 さらに,複数次元にまたがる2つのビュー間の包括的特徴相互作用を促進するために,CMIA (cross-view multi-dimension interacting attention mechanism) を統合した。 EPRRNet と StereoIRR を比較検討した結果,PSNR では 4.18 dB と 0.45 dB の改善が得られた。 コードとモデルは \url{https://github.com/chdwyb/mqinet} で利用可能である。

Eliminating the rain degradation in stereo images poses a formidable challenge, which necessitates the efficient exploitation of mutual information present between the dual views. To this end, we devise MQINet, which employs multi-dimension queries and interactions for stereo image deraining. More specifically, our approach incorporates a context-aware dimension-wise queried block (CDQB). This module leverages dimension-wise queries that are independent of the input features and employs global context-aware attention (GCA) to capture essential features while avoiding the entanglement of redundant or irrelevant information. Meanwhile, we introduce an intra-view physics-aware attention (IPA) based on the inverse physical model of rainy images. IPA extracts shallow features that are sensitive to the physics of rain degradation, facilitating the reduction of rain-related artifacts during the early learning period. Furthermore, we integrate a cross-view multi-dimension interacting attention mechanism (CMIA) to foster comprehensive feature interaction between the two views across multiple dimensions. Extensive experimental evaluations demonstrate the superiority of our model over EPRRNet and StereoIRR, achieving respective improvements of 4.18 dB and 0.45 dB in PSNR. Code and models are available at \url{https://github.com/chdwyb/MQINet}.
翻訳日:2023-09-20 16:13:59 公開日:2023-09-19
# 信頼すべき人、どのように、なぜか:ai倫理の原則、信頼性、信頼を解き放つ

Who to Trust, How and Why: Untangling AI Ethics Principles, Trustworthiness and Trust ( http://arxiv.org/abs/2309.10318v1 )

ライセンス: Link先を確認
Andreas Duenser and David M. Douglas(参考訳) 我々は、aiとaiの信頼に関する文献の概要を述べ、これらの概念をより明確に区別し、人々のs信頼行動に寄与するものについてより実証的な証拠を集める必要性を論じる。 我々は、AIへの信頼はシステム自体への依存だけでなく、AIシステムの開発者への信頼も伴うことを議論する。 説明可能性や透明性といったaiの倫理原則は、ユーザの信頼を促進すると仮定されることが多いが、このような機能がどのようにシステムの信頼度にどのように影響するかという実証的な証拠は、その存在度ほど明確ではない。 aiシステムは、システムの設計、開発、デプロイ、使用に関わる人々が信頼に値するかどうかを決定するシステムと同じくらい重要である、社会技術的システムとして認識されるべきである。 これらのニュアンスを認識せずに、AIへの信頼と信頼できるAIのリスクは、AIシステムにとって望ましい機能にとって、誤った用語になる。

We present an overview of the literature on trust in AI and AI trustworthiness and argue for the need to distinguish these concepts more clearly and to gather more empirically evidence on what contributes to people s trusting behaviours. We discuss that trust in AI involves not only reliance on the system itself, but also trust in the developers of the AI system. AI ethics principles such as explainability and transparency are often assumed to promote user trust, but empirical evidence of how such features actually affect how users perceive the system s trustworthiness is not as abundance or not that clear. AI systems should be recognised as socio-technical systems, where the people involved in designing, developing, deploying, and using the system are as important as the system for determining whether it is trustworthy. Without recognising these nuances, trust in AI and trustworthy AI risk becoming nebulous terms for any desirable feature for AI systems.
翻訳日:2023-09-20 16:13:36 公開日:2023-09-19
# occlutrack: 複数歩行者追跡強化のための咬合意識の再検討

OccluTrack: Rethinking Awareness of Occlusion for Enhancing Multiple Pedestrian Tracking ( http://arxiv.org/abs/2309.10360v1 )

ライセンス: Link先を確認
Jianjun Gao, Yi Wang, Kim-Hui Yap, Kratika Garg, and Boon Siew Han(参考訳) 複数の歩行者追跡は、閉塞の存在下で歩行者を追跡するという課題に直面している。 既存の手法では, 閉塞による動作推定, 外観特徴抽出, 関連性に苦しむため, 不適切な識別F1スコア(IDF1), 過度IDスイッチ(IDSw), 関連精度とリコール(AssA, AssR)が不十分であった。 その結果,部分閉塞による異常検出が主な原因であることが判明した。 そこで本稿では, 閉鎖シーンにおける視覚的動きの推定, 外観の信頼性, 公正な関連性について考察する。 具体的には,アダプティブオクルージョン対応型複数歩行者トラッカーOccluTrackを提案する。 まずカルマンフィルタに異常な動作抑制機構を導入し,部分閉塞による外乱運動を適応的に検出・抑制する。 第2に,部分閉塞歩行者に対する識別部分の特徴を抽出するためのポーズ誘導型re-IDモジュールを提案する。 最後に,オクルージョン・アウェア・アソシエーション法を公正なIoUに向けて設計し,閉塞歩行者に対する外観埋め込み距離測定を行った。 OccluTrackはMOT-Challengeデータセット上で最先端の手法より優れていることを示す。 特にidf1,idsw,assa,asrの改善は,occlutrackが追跡および関連性能に与える影響を示している。

Multiple pedestrian tracking faces the challenge of tracking pedestrians in the presence of occlusion. Existing methods suffer from inaccurate motion estimation, appearance feature extraction, and association due to occlusion, leading to inadequate Identification F1-Score (IDF1), excessive ID switches (IDSw), and insufficient association accuracy and recall (AssA and AssR). We found that the main reason is abnormal detections caused by partial occlusion. In this paper, we suggest that the key insight is explicit motion estimation, reliable appearance features, and fair association in occlusion scenes. Specifically, we propose an adaptive occlusion-aware multiple pedestrian tracker, OccluTrack. We first introduce an abnormal motion suppression mechanism into the Kalman Filter to adaptively detect and suppress outlier motions caused by partial occlusion. Second, we propose a pose-guided re-ID module to extract discriminative part features for partially occluded pedestrians. Last, we design a new occlusion-aware association method towards fair IoU and appearance embedding distance measurement for occluded pedestrians. Extensive evaluation results demonstrate that our OccluTrack outperforms state-of-the-art methods on MOT-Challenge datasets. Particularly, the improvements on IDF1, IDSw, AssA, and AssR demonstrate the effectiveness of our OccluTrack on tracking and association performance.
翻訳日:2023-09-20 16:07:53 公開日:2023-09-19
# Prompt, Condition, Generate: In-Context Learningによるサポートなしクレームの分類

Prompt, Condition, and Generate: Classification of Unsupported Claims with In-Context Learning ( http://arxiv.org/abs/2309.10359v1 )

ライセンス: Link先を確認
Peter Ebert Christensen, Srishti Yadav, Serge Belongie(参考訳) 日々の生活の中で遭遇する否定的かつ不可解な主張は、私たちの世界観に影響を与えうる。 しかし、こうした主張を理にかなった特徴付け、要約、そしてより一般的には -- は困難である。 本研究は,細かな議論トピックに注目し,そのような主張から可算的な物語の集合を蒸留する新たなタスクを定式化する。 我々は12のトピックからなるクラウドソースのデータセットを提示し,120万以上の議論やクレーム,異種ソースからのコメントを,それぞれナラティブラベルで注釈付けした。 さらに,コンテキスト内学習を用いたクレーム合成にllm(large language model)がいかに役立つかについても検討する。 支援された証拠が得られたクレームは,物語分類モデルの性能向上に有効であり,さらに,いくつかのトレーニング例を用いて,同じモデルがスタンスやアスペクトを推論できることが確認された。 このようなモデルは、例えばファクトチェックのような物語に依存するアプリケーションで有用である。

Unsupported and unfalsifiable claims we encounter in our daily lives can influence our view of the world. Characterizing, summarizing, and -- more generally -- making sense of such claims, however, can be challenging. In this work, we focus on fine-grained debate topics and formulate a new task of distilling, from such claims, a countable set of narratives. We present a crowdsourced dataset of 12 controversial topics, comprising more than 120k arguments, claims, and comments from heterogeneous sources, each annotated with a narrative label. We further investigate how large language models (LLMs) can be used to synthesise claims using In-Context Learning. We find that generated claims with supported evidence can be used to improve the performance of narrative classification models and, additionally, that the same model can infer the stance and aspect using a few training examples. Such a model can be useful in applications which rely on narratives , e.g. fact-checking.
翻訳日:2023-09-20 16:07:29 公開日:2023-09-19
# roadformer:rgb正規意味的道路シーン解析のための2重変圧器

RoadFormer: Duplex Transformer for RGB-Normal Semantic Road Scene Parsing ( http://arxiv.org/abs/2309.10356v1 )

ライセンス: Link先を確認
Jiahang Li, Yikang Zhang, Peng Yun, Guangliang Zhou, Qijun Chen, Rui Fan(参考訳) 深層畳み込みニューラルネットワークの最近の進歩は、道路シーン解析の領域において大きな可能性を秘めている。 それでも、既存の研究は主に自由空間検出に焦点を当てており、運転安全性と快適性の両方を損なう危険道路の欠陥にはほとんど注意を払わなかった。 本稿では,道路シーン解析のためのトランスフォーマーベースデータ融合ネットワークであるRoadFormerを紹介する。 RoadFormerは2重エンコーダアーキテクチャを用いて、RGB画像と表面正規情報の両方から異種特徴を抽出する。 符号化された特徴はその後、効果的な特徴融合と再校正のための新しい異種特徴相乗ブロックに供給される。 ピクセルデコーダは、融合および再調整された不均一な特徴から複数スケールの長距離依存性を学習し、その後トランスフォーマーデコーダによって処理され、最終的な意味予測を生成する。 さらに,10,407RGB以上の画像,密度深度画像,および異なる形状と大きさの自由空間および道路欠陥に対応するピクセルレベルのアノテーションを含む,最初の大規模道路シーン解析データセットであるSyn-UDTIRIをリリースする。 syn-udtiriデータセットおよびkitti road、cityscapes、orfdを含む3つのパブリックデータセットで行った広範囲な実験的評価では、roadformerは他の最先端のネットワークよりも道路シーン解析に優れていることが示されている。 具体的には、RoadFormerはKITTIロードベンチマークで第1位だ。 ソースコード、データセットの作成、デモビデオは、mias.group/roadformer.comで公開されている。

The recent advancements in deep convolutional neural networks have shown significant promise in the domain of road scene parsing. Nevertheless, the existing works focus primarily on freespace detection, with little attention given to hazardous road defects that could compromise both driving safety and comfort. In this paper, we introduce RoadFormer, a novel Transformer-based data-fusion network developed for road scene parsing. RoadFormer utilizes a duplex encoder architecture to extract heterogeneous features from both RGB images and surface normal information. The encoded features are subsequently fed into a novel heterogeneous feature synergy block for effective feature fusion and recalibration. The pixel decoder then learns multi-scale long-range dependencies from the fused and recalibrated heterogeneous features, which are subsequently processed by a Transformer decoder to produce the final semantic prediction. Additionally, we release SYN-UDTIRI, the first large-scale road scene parsing dataset that contains over 10,407 RGB images, dense depth images, and the corresponding pixel-level annotations for both freespace and road defects of different shapes and sizes. Extensive experimental evaluations conducted on our SYN-UDTIRI dataset, as well as on three public datasets, including KITTI road, CityScapes, and ORFD, demonstrate that RoadFormer outperforms all other state-of-the-art networks for road scene parsing. Specifically, RoadFormer ranks first on the KITTI road benchmark. Our source code, created dataset, and demo video are publicly available at mias.group/RoadFormer.
翻訳日:2023-09-20 16:07:11 公開日:2023-09-19
# 関手を用いたフォン・ノイマンエントロピーのキャラクタリゼーション

A characterization of von Neumann entropy using functors ( http://arxiv.org/abs/2309.10353v1 )

ライセンス: Link先を確認
K. Nakahira(参考訳) Baez, Fritz, and Leinster は古典システムにおいてシャノンエントロピーを特徴づける手法を導出した。 この方法では、ある圏から非負実数のモノイドへの関手を測度保存関数から非負実数への写像とし、いくつかの簡単な条件を課すことでシャノンエントロピーを導出した。 本稿では,フォン・ノイマンエントロピーを量子系に拡張して特徴付ける手法を提案する。

Baez, Fritz, and Leinster derived a method for characterizing Shannon entropy in classical systems. In this method, they considered a functor from a certain category to the monoid of non-negative real numbers with addition as a map from measure-preserving functions to non-negative real numbers, and derived Shannon entropy by imposing several simple conditions. We propose a method for characterizing von Neumann entropy by extending their results to quantum systems.
翻訳日:2023-09-20 16:06:46 公開日:2023-09-19
# 言語ガイドによる敵意浄化

Language Guided Adversarial Purification ( http://arxiv.org/abs/2309.10348v1 )

ライセンス: Link先を確認
Himanshu Singh, A V Subramanyam(参考訳) 生成モデルを用いた対向浄化は強い対向防御性能を示す。 これらの手法は分類と攻撃非依存であり、汎用性があるが、しばしば計算集約性がある。 拡散とスコアネットワークの最近の進歩は、画像生成と、拡張により、逆境浄化を改善した。 敵対的訓練として知られる他の高度に効率的な敵防衛手法は、攻撃ベクトルの特定の知識を必要とし、敵的例に基づいて広範囲に訓練を強制する。 これらの制約を克服するため,我々は,言語誘導適応浄化(LGAP)と呼ばれる新しいフレームワークを導入し,事前学習した拡散モデルとキャプションジェネレータを用いて敵攻撃を防御する。 入力画像が与えられると、まずキャプションを生成し、そのキャプションは拡散ネットワークを介して逆浄化プロセスを導くために使用される。 提案手法は強敵攻撃に対して評価され,その有効性が実証された。 以上の結果から,LGAPはネットワーク訓練を必要とせず,既存の防御技術よりも優れていたことが示唆された。 これは、大規模なデータセットでトレーニングされたモデルの一般化可能性を強調し、さらなる研究の有望な方向性を強調している。

Adversarial purification using generative models demonstrates strong adversarial defense performance. These methods are classifier and attack-agnostic, making them versatile but often computationally intensive. Recent strides in diffusion and score networks have improved image generation and, by extension, adversarial purification. Another highly efficient class of adversarial defense methods known as adversarial training requires specific knowledge of attack vectors, forcing them to be trained extensively on adversarial examples. To overcome these limitations, we introduce a new framework, namely Language Guided Adversarial Purification (LGAP), utilizing pre-trained diffusion models and caption generators to defend against adversarial attacks. Given an input image, our method first generates a caption, which is then used to guide the adversarial purification process through a diffusion network. Our approach has been evaluated against strong adversarial attacks, proving its effectiveness in enhancing adversarial robustness. Our results indicate that LGAP outperforms most existing adversarial defense techniques without requiring specialized network training. This underscores the generalizability of models trained on large datasets, highlighting a promising direction for further research.
翻訳日:2023-09-20 16:06:36 公開日:2023-09-19
# 大規模言語モデルによるエージェントの振る舞い説明

Explaining Agent Behavior with Large Language Models ( http://arxiv.org/abs/2309.10346v1 )

ライセンス: Link先を確認
Xijia Zhang, Yue Guo, Simon Stepputtis, Katia Sycara, and Joseph Campbell(参考訳) ロボットのようなインテリジェントエージェントは、現実の安全を重要視する環境でますます展開される。 これらのエージェントは、決定の背後にある理由を人間に説明できることは不可欠であるが、その振る舞いはディープニューラルネットワークのような解釈不能なモデルによってしばしば生じる。 本稿では,エージェントの行動に対する自然言語説明を,基礎となるモデル表現とは無関係に,状態と行動の観察のみに基づいて生成する手法を提案する。 エージェントの動作のコンパクトな表現を学習し,事前学習した大規模言語モデルとのユーザインタラクションを可能にしながら,最小限の幻覚で説明可能な説明を作成できることを示す。 ユーザスタディと実証実験を通じて,提案手法は,人間のドメインエキスパートが生成する説明を,明確化や反事実クエリといった有用なインタラクションを可能にしながら生成することを示す。

Intelligent agents such as robots are increasingly deployed in real-world, safety-critical settings. It is vital that these agents are able to explain the reasoning behind their decisions to human counterparts, however, their behavior is often produced by uninterpretable models such as deep neural networks. We propose an approach to generate natural language explanations for an agent's behavior based only on observations of states and actions, agnostic to the underlying model representation. We show how a compact representation of the agent's behavior can be learned and used to produce plausible explanations with minimal hallucination while affording user interaction with a pre-trained large language model. Through user studies and empirical experiments, we show that our approach generates explanations as helpful as those generated by a human domain expert while enabling beneficial interactions such as clarification and counterfactual queries.
翻訳日:2023-09-20 16:06:16 公開日:2023-09-19
# バランシング・ア・バランス:ロジスティック回帰のための異種微分プライベートデータ取得のための最適機構設計

Striking a Balance: An Optimal Mechanism Design for Heterogenous Differentially Private Data Acquisition for Logistic Regression ( http://arxiv.org/abs/2309.10340v1 )

ライセンス: Link先を確認
Ameya Anjarlekar, Rasoul Etesami, R. Srikant(参考訳) 本研究では,プライバシに敏感な販売者から収集したデータに対してロジスティック回帰を行う問題を検討する。 データは非公開であるため、販売者は支払いを通じてインセンティブを得る必要がある。 したがって、テスト損失、売り手プライバシ、支払いの重み付けの組み合わせを最適化するメカニズムを設計すること、すなわち、複数の利害の目標間のバランスを打つことである。 我々は,ゲーム理論,統計的学習理論,微分プライバシーのアイデアを組み合わせることでこの問題を解決した。 バイヤーの目的関数は非常に非凸である。 しかし,問題パラメータの特定の条件下では,変数の変化を用いることで,問題を凸化することができることを示す。 また,販売者の数が大きくなると,購入者のテストエラーや支払いを特徴付ける漸近的な結果も提供する。 最後に、実際の医療データセットに適用することで、私たちのアイデアを実証します。

We investigate the problem of performing logistic regression on data collected from privacy-sensitive sellers. Since the data is private, sellers must be incentivized through payments to provide their data. Thus, the goal is to design a mechanism that optimizes a weighted combination of test loss, seller privacy, and payment, i.e., strikes a balance between multiple objectives of interest. We solve the problem by combining ideas from game theory, statistical learning theory, and differential privacy. The buyer's objective function can be highly non-convex. However, we show that, under certain conditions on the problem parameters, the problem can be convexified by using a change of variables. We also provide asymptotic results characterizing the buyer's test error and payments when the number of sellers becomes large. Finally, we demonstrate our ideas by applying them to a real healthcare data set.
翻訳日:2023-09-20 16:06:01 公開日:2023-09-19
# kobigbird-large: 韓国語理解のためのトランスフォーマー変換

KoBigBird-large: Transformation of Transformer for Korean Language Understanding ( http://arxiv.org/abs/2309.10339v1 )

ライセンス: Link先を確認
Kisu Yang, Yoonna Jang, Taewoo Lee, Jinwoo Seong, Hyungjin Lee, Hwanseok Jang, Heuiseok Lim(参考訳) この研究はKoBigBird-largeという韓国のBigBirdの大規模で、最先端のパフォーマンスを実現し、韓国語理解のための長いシーケンス処理を可能にする。 事前訓練がなければ、アーキテクチャを変換し、提案したTAPER(Tapered Absolute Positional Encoding Representation)を用いて位置エンコーディングを拡張するのみである。 実験では、KoBigBird-largeは、韓国語理解ベンチマークにおける最先端の全体的なパフォーマンスと、競合するベースラインモデルに対する長いシーケンスに対する文書分類と質問応答タスクにおける最高のパフォーマンスを示す。 モデルはここで公開しています。

This work presents KoBigBird-large, a large size of Korean BigBird that achieves state-of-the-art performance and allows long sequence processing for Korean language understanding. Without further pretraining, we only transform the architecture and extend the positional encoding with our proposed Tapered Absolute Positional Encoding Representations (TAPER). In experiments, KoBigBird-large shows state-of-the-art overall performance on Korean language understanding benchmarks and the best performance on document classification and question answering tasks for longer sequences against the competitive baseline models. We publicly release our model here.
翻訳日:2023-09-20 16:05:47 公開日:2023-09-19
# FedWOA:再生可能エネルギー予測のための鯨最適化アルゴリズムを用いたフェデレーション学習モデル

FedWOA: A Federated Learning Model that uses the Whale Optimization Algorithm for Renewable Energy Prediction ( http://arxiv.org/abs/2309.10337v1 )

ライセンス: Link先を確認
Viorica Chifu, Tudor Cioara, Cristian Anitiei, Cristina Pop, Ionut Anghel(参考訳) プライバシは、トレーニングに大規模なデータセットを必要とするマシンラーニングモデルにおいて、機密性の高い個人情報を扱う上で重要である。 エネルギー分野において、エネルギーグリッド管理と大規模再生可能エネルギーの導入をサポートするためにエネルギー予測には家庭内消費エネルギーデータへのアクセスが不可欠であるが、市民はしばしばクラウドベースの機械学習モデルへのアクセスを許可することをためらっている。 フェデレートラーニングは、プライバシー問題に対する解決策として提案されているが、データの不均一性、生成パターンの変化、予測精度の低下につながるパラメータの多さによるグローバル予測モデルの生成に関する問題を報告している。 本稿では、Whale Optimization Algorithmを用いたフェデレーション学習モデルであるFedWOAを導入し、プロシューマーエネルギーデータに基づいてトレーニングされたローカルLTSMニューラルネットワークモデルの重みからグローバル予測モデルを集約する。 提案手法は,局所モデルの探索空間における重みの最適ベクトルを同定し,大域的共有モデルを構築し,その後,局所ノードに送信し,非iidデータk-meansを処理しながら,推定サイトの予測品質を向上させる。 その結果,FedWOAは,FedAVGと比較してMSEの25%,MAEの16%の精度でエネルギー予測モデルの精度を効果的に向上できることがわかった。

Privacy is important when dealing with sensitive personal information in machine learning models, which require large data sets for training. In the energy field, access to household prosumer energy data is crucial for energy predictions to support energy grid management and large-scale adoption of renewables however citizens are often hesitant to grant access to cloud-based machine learning models. Federated learning has been proposed as a solution to privacy challenges however report issues in generating the global prediction model due to data heterogeneity, variations in generation patterns, and the high number of parameters leading to even lower prediction accuracy. This paper addresses these challenges by introducing FedWOA a novel federated learning model that employs the Whale Optimization Algorithm to aggregate global prediction models from the weights of local LTSM neural network models trained on prosumer energy data. The proposed solution identifies the optimal vector of weights in the search spaces of the local models to construct the global shared model and then is subsequently transmitted to the local nodes to improve the prediction quality at the prosumer site while for handling non-IID data K-Means was used for clustering prosumers with similar scale of energy data. The evaluation results on prosumers energy data have shown that FedWOA can effectively enhance the accuracy of energy prediction models accuracy by 25% for MSE and 16% for MAE compared to FedAVG while demonstrating good convergence and reduced loss.
翻訳日:2023-09-20 16:05:23 公開日:2023-09-19
# ディテールレベルを符号化した抗aliasedneural implicit surface

Anti-Aliased Neural Implicit Surfaces with Encoding Level of Detail ( http://arxiv.org/abs/2309.10336v1 )

ライセンス: Link先を確認
Yiyu Zhuang, Qi Zhang, Ying Feng, Hao Zhu, Yao Yao, Xiaoyu Li, Yan-Pei Cao, Ying Shan, Xun Cao(参考訳) 本稿では,高頻度幾何細部リカバリとアンチエイリアス化された新しいビューレンダリングのための効率的なニューラル表現であるLoD-NeuSを提案する。 詳細レベル (LoD) のボクセルに基づく表現からインスピレーションを得て, 符号付き距離関数 (SDF) と空間放射率のLoDをキャプチャ可能な, 多次元三面体に基づくシーン表現を導入する。 我々の表現は、光線に沿った円錐状のフラストラム内の多面体化から空間特徴を集約し、微分レンダリングによりLoD特徴量を最適化する。 さらに,最適化中のSDFの成長を導くために,誤り誘導型サンプリング手法を提案する。 定性的かつ定量的な評価は,本手法が最先端のアプローチに比べて優れた表面再構成と光リアルビュー合成を実現することを示す。

We present LoD-NeuS, an efficient neural representation for high-frequency geometry detail recovery and anti-aliased novel view rendering. Drawing inspiration from voxel-based representations with the level of detail (LoD), we introduce a multi-scale tri-plane-based scene representation that is capable of capturing the LoD of the signed distance function (SDF) and the space radiance. Our representation aggregates space features from a multi-convolved featurization within a conical frustum along a ray and optimizes the LoD feature volume through differentiable rendering. Additionally, we propose an error-guided sampling strategy to guide the growth of the SDF during the optimization. Both qualitative and quantitative evaluations demonstrate that our method achieves superior surface reconstruction and photorealistic view synthesis compared to state-of-the-art approaches.
翻訳日:2023-09-20 16:04:25 公開日:2023-09-19
# フェルミオンおよびボソニックガウス状態のクリロフ複雑性

Krylov Complexity of Fermionic and Bosonic Gaussian States ( http://arxiv.org/abs/2309.10382v1 )

ライセンス: Link先を確認
Kiran Adhikari, Adwait Rijal, Ashok Kumar Aryal, Mausam Ghimire, Rajeev Singh, Christian Deppe(参考訳) \emph{complexity} の概念は、量子情報を含む複数の分野において重要となり、量子状態のカオス的進化を観測するための代替の計量となる。 本稿では,量子複雑性の特殊な形式である \emph{krylov complexity} に着目し,すべての可能な直交基底上での量子状態の拡散を曖昧かつ本質的に有意義に評価する。 我々の研究はガウス量子状態の文脈にあり、ボソニック系とフェルミオン系の両方の基本であり、共分散行列によって完全に説明できる。 共分散行列は必須であるが, 相対位相情報の欠如により, クリロフ複雑性を計算するには不十分であることを示す。 以上より, 相対共分散行列はガウス量子状態のクリロフ複雑性の上限となることが示唆された。 また、熱場二重状態(TFD)とディラック場に対するクリロフ複雑性の計算によるホログラフィック双対性の候補として複雑性を提唱する理論に対するクリロフ複雑性の影響についても検討する。

The concept of \emph{complexity} has become pivotal in multiple disciplines, including quantum information, where it serves as an alternative metric for gauging the chaotic evolution of a quantum state. This paper focuses on \emph{Krylov complexity}, a specialized form of quantum complexity that offers an unambiguous and intrinsically meaningful assessment of the spread of a quantum state over all possible orthogonal bases. Our study is situated in the context of Gaussian quantum states, which are fundamental to both Bosonic and Fermionic systems and can be fully described by a covariance matrix. We show that while the covariance matrix is essential, it is insufficient alone for calculating Krylov complexity due to its lack of relative phase information. Our findings suggest that the relative covariance matrix can provide an upper bound for Krylov complexity for Gaussian quantum states. We also explore the implications of Krylov complexity for theories proposing complexity as a candidate for holographic duality by computing Krylov complexity for the thermofield double States (TFD) and Dirac field.
翻訳日:2023-09-20 15:55:51 公開日:2023-09-19
# Graph Contrastive Learningがグラフメタ学習に到達 - スナップショットノードタスクの統一手法

Graph Contrastive Learning Meets Graph Meta Learning: A Unified Method for Few-shot Node Tasks ( http://arxiv.org/abs/2309.10376v1 )

ライセンス: Link先を確認
Hao Liu, Jiarui Feng, Lecheng Kong, Dacheng Tao, Yixin Chen, Muhan Zhang(参考訳) グラフニューラルネットワーク(GNN)は、グラフ表現学習(GRL)で人気がある。 基本的な用途は、ノードの分類である。 既存の手法のほとんどはメタ学習パラダイムに従っており、わずかなタスクに素早く一般化する能力を示している。 しかし,近年の研究では,グラフコントラスト学習と微調整を組み合わせることで,メタ学習法を著しく上回ることが示されている。 経験的な成功にもかかわらず、その理由の理解は限られている。 本研究では,まず,(1)グラフノードの包括的利用,(2)グラフ拡張のパワーなど,メタ学習と比較してコントラスト学習の2つの重要な利点を明らかにする。 ノード分類タスクにおいて,コントラスト学習とメタ学習の両方の強みを統合するために,新しいパラダイムであるコントラスト・マイトショットノード分類(cola)を導入する。 特に、COLAはグラフ拡張を用いて意味的に類似したノードを識別し、ラベル情報を必要としないメタタスクの構築を可能にする。 そのため、COLAはすべてのノードを使ってメタタスクを構築することができ、オーバーフィッティングのリスクを低減できる。 広範な実験を通じて、我々は設計における各コンポーネントの本質を検証し、COLAが全てのタスクにおいて新しい最先端を達成することを示す。

Graph Neural Networks (GNNs) have become popular in Graph Representation Learning (GRL). One fundamental application is few-shot node classification. Most existing methods follow the meta learning paradigm, showing the ability of fast generalization to few-shot tasks. However, recent works indicate that graph contrastive learning combined with fine-tuning can significantly outperform meta learning methods. Despite the empirical success, there is limited understanding of the reasons behind it. In our study, we first identify two crucial advantages of contrastive learning compared to meta learning, including (1) the comprehensive utilization of graph nodes and (2) the power of graph augmentations. To integrate the strength of both contrastive learning and meta learning on the few-shot node classification tasks, we introduce a new paradigm: Contrastive Few-Shot Node Classification (COLA). Specifically, COLA employs graph augmentations to identify semantically similar nodes, which enables the construction of meta-tasks without the need for label information. Therefore, COLA can utilize all nodes to construct meta-tasks, further reducing the risk of overfitting. Through extensive experiments, we validate the essentiality of each component in our design and demonstrate that COLA achieves new state-of-the-art on all tasks.
翻訳日:2023-09-20 15:55:31 公開日:2023-09-19
# ゴール指向視覚対話における人間の答え誤りの指摘

Pointing out Human Answer Mistakes in a Goal-Oriented Visual Dialogue ( http://arxiv.org/abs/2309.10375v1 )

ライセンス: Link先を確認
Ryosuke Oshima, Seitaro Shinagawa, Hideki Tsunashima, Qi Feng, Shigeo Morishima(参考訳) 人間と知的エージェントの効果的なコミュニケーションは、複雑な問題を解決するための有望な応用である。 このようなアプローチのひとつとして,マルチモーダルコンテキストを活用した視覚対話がある。 しかし、現実のシナリオは時に人間のミスを伴い、知的エージェントが失敗する可能性がある。 多くの先行研究は人間の対話者からの完璧な回答を想定しているが、我々はエージェントが対話者にとって意図しない間違いを指摘し、現実の状況をよりよく反映する設定に焦点を当てている。 本稿では,これまで使用されていなかったヒューマンミスの収集データを解析し,質問タイプとqaが視覚対話の転換に左右されることを示す。 本研究では,単純なmlpモデルと視覚言語モデルを用いて,ポインティング・ヒューマン・ミステイクタスクにおけるモデル精度に対するこれらの因子の有効性を実証する。

Effective communication between humans and intelligent agents has promising applications for solving complex problems. One such approach is visual dialogue, which leverages multimodal context to assist humans. However, real-world scenarios occasionally involve human mistakes, which can cause intelligent agents to fail. While most prior research assumes perfect answers from human interlocutors, we focus on a setting where the agent points out unintentional mistakes for the interlocutor to review, better reflecting real-world situations. In this paper, we show that human answer mistakes depend on question type and QA turn in the visual dialogue by analyzing a previously unused data collection of human mistakes. We demonstrate the effectiveness of those factors for the model's accuracy in a pointing-human-mistake task through experiments using a simple MLP model and a Visual Language Model.
翻訳日:2023-09-20 15:55:09 公開日:2023-09-19
# ジェネレーティブAI vs. AGI:現代LLMの認知力と弱さ

Generative AI vs. AGI: The Cognitive Strengths and Weaknesses of Modern LLMs ( http://arxiv.org/abs/2309.10371v1 )

ライセンス: Link先を確認
Ben Goertzel(参考訳) 認知システムとしての対話型LLMについて、ChatGPT, GPT-4, Bard, Llamaなどの2023年中頃のLLMに着目して、適度に詳細に検討した。 これらのシステムの認知的強みをレビューし、それらがllmである認知システムと、人間が持つ認知システムとの実質的な違いに注意を払う。 これらのAIシステムの実用的弱点の多くは、これらのシステムが構築されている基本的な認知アーキテクチャの欠如に特に結びつくことができる。 このようなllmの漸進的な改善は、実現可能な量の計算資源を前提として、人間レベルのagiに取り組むための現実的なアプローチではないと論じている。 このことは、人間レベルのAGIについてLLMの研究や実験から学ぶことや、LLMが他のアイデアを取り入れた人間レベルのAGIアーキテクチャの重要な部分を形成できないことを意味するものではない。 この観点から、LLMに関する社会的・倫理的な問題は、誤った情報やその他の問題に注意を払っているべきであり、経済的な不況は、いかなる強力な影響力のある技術でも、予測不可能な進路に基づいて、独自の社会的救済が必要であることを意味するが、全体として、現代のLLMに関して必要とされる政策は、人間レベルのAGIに対するより信頼できる近似が手元にある場合とは全く異なる。

A moderately detailed consideration of interactive LLMs as cognitive systems is given, focusing on LLMs circa mid-2023 such as ChatGPT, GPT-4, Bard, Llama, etc.. Cognitive strengths of these systems are reviewed, and then careful attention is paid to the substantial differences between the sort of cognitive system these LLMs are, and the sort of cognitive systems human beings are. It is found that many of the practical weaknesses of these AI systems can be tied specifically to lacks in the basic cognitive architectures according to which these systems are built. It is argued that incremental improvement of such LLMs is not a viable approach to working toward human-level AGI, in practical terms given realizable amounts of compute resources. This does not imply there is nothing to learn about human-level AGI from studying and experimenting with LLMs, nor that LLMs cannot form significant parts of human-level AGI architectures that also incorporate other ideas. Social and ethical matters regarding LLMs are very briefly touched from this perspective, which implies that while care should be taken regarding misinformation and other issues, and economic upheavals will need their own social remedies based on their unpredictable course as with any powerfully impactful technology, overall the sort of policy needed as regards modern LLMs is quite different than would be the case if a more credible approximation to human-level AGI were at hand.
翻訳日:2023-09-20 15:54:58 公開日:2023-09-19
# 浅部ニューラルネットワークの幾何学的構造と建設的${\mathcal L}^2$コスト最小化

Geometric structure of shallow neural networks and constructive ${\mathcal L}^2$ cost minimization ( http://arxiv.org/abs/2309.10370v1 )

ライセンス: Link先を確認
Thomas Chen, Patricia Mu\~noz Ewald(参考訳) 本稿では,1つの隠れ層,ランプ活性化関数,${\mathcal l}^2$ schatten クラス(あるいは hilbert-schmidt)コスト関数,入力空間 ${\mathbb r}^m$,出力空間 ${\mathbb r}^q$ with $q\leq m$,入力サンプルサイズ $n>qm$ を特徴とする浅層ニューラルネットワークの構造を幾何学的に解釈する。 我々は、$O(\delta_P$, $\delta_P$)のコスト関数の最小値の上限を証明し、トレーニング入力のノイズ比に対する信号を測定する。 同じ出力ベクトル $y_j$, $j=1,\dots,q$ に属する入力ベクトルを訓練する平均 $\overline{x_{0,j}}$ に対応する投影を用いた近似最適化器を得る。 特別の場合、$M=Q$ では、コスト関数の正確な退化局所最小値を明示的に決定するが、そのシャープ値は、相対誤差$O(\delta_P^2)$ によって得られる上限値と異なる。 上界の証明は構成的に訓練されたネットワークとなり、入力空間の$Q$-次元部分空間を${\mathbb R}^M$に$\overline{x_{0,j}}$,$j=1,\dots,Q$で割ることを示す。 我々は、与えられた文脈におけるコスト関数のグローバル最小値の特徴についてコメントする。

In this paper, we provide a geometric interpretation of the structure of shallow neural networks characterized by one hidden layer, a ramp activation function, an ${\mathcal L}^2$ Schatten class (or Hilbert-Schmidt) cost function, input space ${\mathbb R}^M$, output space ${\mathbb R}^Q$ with $Q\leq M$, and training input sample size $N>QM$. We prove an upper bound on the minimum of the cost function of order $O(\delta_P$ where $\delta_P$ measures the signal to noise ratio of training inputs. We obtain an approximate optimizer using projections adapted to the averages $\overline{x_{0,j}}$ of training input vectors belonging to the same output vector $y_j$, $j=1,\dots,Q$. In the special case $M=Q$, we explicitly determine an exact degenerate local minimum of the cost function; the sharp value differs from the upper bound obtained for $Q\leq M$ by a relative error $O(\delta_P^2)$. The proof of the upper bound yields a constructively trained network; we show that it metrizes the $Q$-dimensional subspace in the input space ${\mathbb R}^M$ spanned by $\overline{x_{0,j}}$, $j=1,\dots,Q$. We comment on the characterization of the global minimum of the cost function in the given context.
翻訳日:2023-09-20 15:54:31 公開日:2023-09-19
# GloPro:地球規模の不確かさを意識した3D人物推定・追跡

GloPro: Globally-Consistent Uncertainty-Aware 3D Human Pose Estimation & Tracking in the Wild ( http://arxiv.org/abs/2309.10369v1 )

ライセンス: Link先を確認
Simon Schaefer, Dorian F. Henning, Stefan Leutenegger(参考訳) 正確で不確実性を意識した3D人体ポーズ推定は、真に安全だが効率的な人間とロボットの相互作用を可能にする鍵となる。 3次元姿勢推定における現在の不確実性認識法は、身体形状や根座を効果的に無視しながら、身体姿勢の不確実性を予測することに限定されている。 本稿では,3次元体メッシュの形状,ポーズ,ルートポーズなどの不確実性分布を,学習された動きモデルと視覚的手がかりを効率的に融合させることによって予測する,最初のフレームワークであるGloProを提案する。 本研究では、世界座標系における人間の軌道精度において最先端の手法を大幅に上回り、一貫した不確実性分布を生成し、リアルタイムに実行可能であることを示す。 私たちのコードはhttps://github.com/smartroboticslab/GloProで受け入れられる。

An accurate and uncertainty-aware 3D human body pose estimation is key to enabling truly safe but efficient human-robot interactions. Current uncertainty-aware methods in 3D human pose estimation are limited to predicting the uncertainty of the body posture, while effectively neglecting the body shape and root pose. In this work, we present GloPro, which to the best of our knowledge the first framework to predict an uncertainty distribution of a 3D body mesh including its shape, pose, and root pose, by efficiently fusing visual clues with a learned motion model. We demonstrate that it vastly outperforms state-of-the-art methods in terms of human trajectory accuracy in a world coordinate system (even in the presence of severe occlusions), yields consistent uncertainty distributions, and can run in real-time. Our code will be released upon acceptance at https://github.com/smartroboticslab/GloPro.
翻訳日:2023-09-20 15:53:56 公開日:2023-09-19
# 連合学習におけるエッジノードの効率的な資源利用に向けて

Toward efficient resource utilization at edge nodes in federated learning ( http://arxiv.org/abs/2309.10367v1 )

ライセンス: Link先を確認
Sadi Alawadi, Addi Ait-Mlouk, Salman Toor and Andreas Hellander(参考訳) フェデレーション学習(fl)は、エッジノードがデータを共有することなく、グローバルなモデルの構築に協力的に貢献できるようにする。 これはローカルでプライベートなモデル更新を計算し、サーバによって集約されるデバイスによって実現される。 しかし、計算資源の制約とネットワーク通信は、ディープラーニングアプリケーションで典型的なより大きなモデルサイズにおいて深刻なボトルネックとなる可能性がある。 エッジノードは、限られたハードウェアリソース(RAM、CPU)を持つ傾向があり、エッジにおけるネットワーク帯域幅と信頼性は、フェデレートされたフリートアプリケーションのスケーリングに関する問題である。 本稿では,グローバルトレーニングラウンド毎にサーバやネットワークへの負荷だけでなく,デバイスへのリソース利用を減らすために,転送学習に触発されたfl戦略を提案し,評価する。 ローカルモデルのアップデート毎に、トレーニングするレイヤをランダムに選択し、モデルの残りの部分を凍結します。 そうすることで、トレーニングされていないすべての層重みをサーバに転送しないようにすることで、ラウンド当たりのサーバ負荷と通信コストを削減できる。 本研究の目的は,デバイス上での資源利用と,提案した戦略の下でのグローバルモデル収束とのトレードオフを実証的に検討することである。 フェデレート学習フレームワークFEDnを用いて,本手法を実装した。 異なるデータセット(CIFAR-10、CASA、IMDB)で多数の実験を行い、異なるディープラーニングモデルアーキテクチャを使用して異なるタスクを実行した。 実験の結果,トレーニングの過程を部分的に加速し,デバイス上で資源を効率的に利用し,25%のトレーニングを行うと約75%,53%のデータ伝送量を削減でき,その結果のグローバルモデル精度を損なうことなく,モデル層全体の50%をトレーニングできることがわかった。

Federated learning (FL) enables edge nodes to collaboratively contribute to constructing a global model without sharing their data. This is accomplished by devices computing local, private model updates that are then aggregated by a server. However, computational resource constraints and network communication can become a severe bottleneck for larger model sizes typical for deep learning applications. Edge nodes tend to have limited hardware resources (RAM, CPU), and the network bandwidth and reliability at the edge is a concern for scaling federated fleet applications. In this paper, we propose and evaluate a FL strategy inspired by transfer learning in order to reduce resource utilization on devices, as well as the load on the server and network in each global training round. For each local model update, we randomly select layers to train, freezing the remaining part of the model. In doing so, we can reduce both server load and communication costs per round by excluding all untrained layer weights from being transferred to the server. The goal of this study is to empirically explore the potential trade-off between resource utilization on devices and global model convergence under the proposed strategy. We implement the approach using the federated learning framework FEDn. A number of experiments were carried out over different datasets (CIFAR-10, CASA, and IMDB), performing different tasks using different deep-learning model architectures. Our results show that training the model partially can accelerate the training process, efficiently utilizes resources on-device, and reduce the data transmission by around 75% and 53% when we train 25%, and 50% of the model layers, respectively, without harming the resulting global model accuracy.
翻訳日:2023-09-20 15:53:38 公開日:2023-09-19
# モデルフィットを超越したテスト可能なクオリティ

Testable Likelihoods for Beyond-the-Standard Model Fits ( http://arxiv.org/abs/2309.10365v1 )

ライセンス: Link先を確認
Anja Beck, M\'eril Reboud, Danny van Dyk(参考訳) 精密フロンティアにおける潜在的BSM効果の研究には、低エネルギーの測定から高エネルギーBSMモデルへの正確な情報伝達が必要である。 本稿では、正規化フローを用いて、この転送を実現する可能性関数を構築することを提案する。 この方法で構築された類似関数は、追加のサンプルを生成して、$\chi^2$テスト統計の形で ``trivial'' の良さを許容する手段を提供する。 そこで本研究では,特定の正規化フローの形式を研究し,マルチモーダル・非ガウシアン例に適用し,確率関数とそのテスト統計の精度を定量化する。

Studying potential BSM effects at the precision frontier requires accurate transfer of information from low-energy measurements to high-energy BSM models. We propose to use normalising flows to construct likelihood functions that achieve this transfer. Likelihood functions constructed in this way provide the means to generate additional samples and admit a ``trivial'' goodness-of-fit test in form of a $\chi^2$ test statistic. Here, we study a particular form of normalising flow, apply it to a multi-modal and non-Gaussian example, and quantify the accuracy of the likelihood function and its test statistic.
翻訳日:2023-09-20 15:53:12 公開日:2023-09-19
# 分散量子ネットワークにおける量子情報の拡散とスクランブル:Hasse/Lamport図によるアプローチ

Quantum information spreading and scrambling in a distributed quantum network: A Hasse/Lamport diagrammatic approach ( http://arxiv.org/abs/2309.10363v1 )

ライセンス: Link先を確認
Kiran Adhikari, Christian Deppe(参考訳) 量子インターネットとして知られる大規模量子ネットワークは、高度な分散量子コンピューティングと長距離量子通信を大いに約束する。 量子ネットワークの適切な理論解析を行い、そのような広範なネットワークの構築を正当化する新しいアプリケーションやプロトコルを探索することが不可欠である。 本稿では,異なるノードにおける異なる事象間の因果関係を保ちながら,量子ネットワーク内の情報フローダイナミクスを可視化する新しい図式的手法を提案する。 これにより、ネットワークノード間の同期が容易になり、エラー伝搬を研究し、貴重な量子リソースを追跡することができる。 さらに,特定のノードがネットワーク全体にわたって秘密の量子情報をスクランブルする量子情報スクランブルプロトコルを提案する。 このプロトコルは、悪意のある当事者が情報を取得するためにネットワークの重要なサブセットにアクセスする必要があることを保証します。

Large-scale quantum networks, known as quantum internet, hold great promises for advanced distributed quantum computing and long-distance quantum communication. It is essential to have a proper theoretical analysis of the quantum network and explore new applications and protocols that justify building such an extensive network. We propose a novel diagrammatic way of visualizing information flow dynamics within the quantum network, which preserves the causal relationship between different events at different nodes. This facilitates synchronization among network nodes, studies the error propagation, and allows for tracking valuable quantum resources. Additionally, We propose a quantum information scrambling protocol, where a specific node scrambles secret quantum information across the entire network. This protocol ensures that a malicious party would need access to a significant subset of the network to retrieve the information.
翻訳日:2023-09-20 15:52:59 公開日:2023-09-19
# 知識蒸留と自己学習によるCLIPロバストネスの改善

Improving CLIP Robustness with Knowledge Distillation and Self-Training ( http://arxiv.org/abs/2309.10361v1 )

ライセンス: Link先を確認
Clement Laroudie, Andrei Bursuc, Mai Lan Ha, Gianni Franchi(参考訳) 本稿では,教師なし学習におけるマルチモーダルコンピュータビジョンモデルCLIP(Contrastive Language- Image Pretraining)の堅牢性について検討する。 第一に、CLIPの堅牢性を評価することと、第二に、その堅牢性を高めるための戦略を検討することだ。 そこで我々はLP-CLIPという新しい手法を提案する。 この技術は、CLIPの特徴の蒸留を、そのコード構造上に位置する線形なプローブ層を組み込むことによって行う。 この新たに追加されたレイヤは、CLIPが作成した擬似ラベルと、自己学習戦略を併用してトレーニングされる。 LP-CLIP技術は、アノテーションを必要とせずにCLIPの堅牢性を高めるための有望なアプローチを提供する。 単純な線形プローブ層を利用することで、実世界のシナリオでよく発生する様々な不確実性と課題に耐えるモデルの能力を向上させることを目指している。 重要なことに、当社のアプローチは注釈付きデータに依存していないため、ラベル付きデータが不足したり、取得するのにコストがかかるような状況では特に価値がある。 提案手法は,様々なデータセットの教師付き手法と比較して,SOTAによるCLIPの堅牢性を向上させる。

This paper examines the robustness of a multi-modal computer vision model, CLIP (Contrastive Language-Image Pretraining), in the context of unsupervised learning. The main objective is twofold: first, to evaluate the robustness of CLIP, and second, to explore strategies for augmenting its robustness. To achieve this, we introduce a novel approach named LP-CLIP. This technique involves the distillation of CLIP features through the incorporation of a linear probing layer positioned atop its encoding structure. This newly added layer is trained utilizing pseudo-labels produced by CLIP, coupled with a self-training strategy. The LP-CLIP technique offers a promising approach to enhance the robustness of CLIP without the need for annotations. By leveraging a simple linear probing layer, we aim to improve the model's ability to withstand various uncertainties and challenges commonly encountered in real-world scenarios. Importantly, our approach does not rely on annotated data, which makes it particularly valuable in situations where labeled data might be scarce or costly to obtain. Our proposed approach increases the robustness of CLIP with SOTA results compared to supervised technique on various datasets.
翻訳日:2023-09-20 15:52:44 公開日:2023-09-19
# PICK:知識付き対話システムのための合成・インフォームド候補照合

PICK: Polished & Informed Candidate Scoring for Knowledge-Grounded Dialogue Systems ( http://arxiv.org/abs/2309.10413v1 )

ライセンス: Link先を確認
Bryan Wilie, Yan Xu, Willy Chung, Samuel Cahyawijaya, Holy Lovenia, Pascale Fung(参考訳) 外部知識に基づく対話応答生成法を提案する。 しかしながら、現在の知識基底対話(KGD)システムは、幻覚や一貫性の欠如といったいくつかの問題により、生成した応答と人間の優先的な品質を一致させることができないことが多い。 複数の言語モデル生成を解析すると、一つの復号プロセス内で、代替生成された応答の存在が観察される。 これらの代替応答はより忠実であり、復号プロセスによって優先順位付けされる最適な応答と比較して、以前の会話のターンと同等あるいは高いレベルの関係を示す。 これらの課題に対処し、これらの観測を駆使して、追加のラベル付きデータやモデルチューニングを必要とせずに、モデルに忠実で関連する応答を生成するための世代再描画フレームワークであるPolseed \& Informed Candidate Scoring (PICK)を提案する。 総合的な自動評価と人間評価を通じて,対話履歴に関連し,より忠実な応答を生成するための選択の有効性を実証する。 さらにpickは,oracleと取得したすべてのデコーディング戦略に関する知識によって,システムのパフォーマンスを一貫して向上させる。 詳細な実装はhttps://github.com/bryanwilie/pick で公開しています。

Grounding dialogue response generation on external knowledge is proposed to produce informative and engaging responses. However, current knowledge-grounded dialogue (KGD) systems often fail to align the generated responses with human-preferred qualities due to several issues like hallucination and the lack of coherence. Upon analyzing multiple language model generations, we observe the presence of alternative generated responses within a single decoding process. These alternative responses are more faithful and exhibit a comparable or higher level of relevance to prior conversational turns compared to the optimal responses prioritized by the decoding processes. To address these challenges and driven by these observations, we propose Polished \& Informed Candidate Scoring (PICK), a generation re-scoring framework that empowers models to generate faithful and relevant responses without requiring additional labeled data or model tuning. Through comprehensive automatic and human evaluations, we demonstrate the effectiveness of PICK in generating responses that are more faithful while keeping them relevant to the dialogue history. Furthermore, PICK consistently improves the system's performance with both oracle and retrieved knowledge in all decoding strategies. We provide the detailed implementation in https://github.com/bryanwilie/pick .
翻訳日:2023-09-20 15:47:30 公開日:2023-09-19
# 超薄原子層における協調光学パターン形成

Cooperative optical pattern formation in an ultrathin atomic layer ( http://arxiv.org/abs/2309.10412v1 )

ライセンス: Link先を確認
C. D. Parmee, J. Ruostekoski(参考訳) 一様状態からの自発的パターン形成は、他の科学領域における非平衡パターン形成と類似性を共有する広く研究された非線形光学現象である。 ここでは、アレイ内の原子の1つの層が非線形に揺らぎを増幅し、複雑な光学パターンを形成する方法を示す。 パターンの起源は本質的に協調的であり、鏡や空洞の必要性は排除されるが、原子の近傍に鏡を導入することで散乱プロファイルが著しく変化する。 これらの光学パターンの出現は、光カー媒体やリングキャビティの非線形シュリンガー方程式と同様に、長波長近似によって定性的に記述できる双安定な集合応答と結びついている。 これらの集合励起は特異な欠陥を形成し、波状歪みによって原子位置のゆらぎを露呈する能力を持つ。

Spontaneous pattern formation from a uniform state is a widely studied nonlinear optical phenomenon that shares similarities with non-equilibrium pattern formation in other scientific domains. Here we show how a single layer of atoms in an array can undergo nonlinear amplification of fluctuations, leading to the formation of intricate optical patterns. The origin of the patterns is intrinsically cooperative, eliminating the necessity of mirrors or cavities, although introduction of a mirror in the vicinity of the atoms significantly modifies the scattering profiles. The emergence of these optical patterns is tied to a bistable collective response, which can be qualitatively described by a long-wavelength approximation, similar to a nonlinear Schr\"odinger equation of optical Kerr media or ring cavities. These collective excitations have the ability to form singular defects and unveil atomic position fluctuations through wave-like distortions.
翻訳日:2023-09-20 15:47:09 公開日:2023-09-19
# ネットワーク認識埋め込みによる教師なし学習

Unsupervised Learning via Network-Aware Embeddings ( http://arxiv.org/abs/2309.10408v1 )

ライセンス: Link先を確認
Anne Sophie Riis Damstrup, Sofie Tosti Madsen, Michele Coscia(参考訳) データクラスタリングは、その類似性に応じて観察をグループ化するタスクであり、生物学、医学、社会科学といった様々な分野における現実世界の応用において、教師なし学習の重要な要素である。 これらの分野ではしばしば、データは分析の次元の間の複雑な相互依存、例えば、人々が複雑なソーシャルネットワークで生活できる様々な特性と意見が伴う。 ディープラーニングはこれらの依存関係を近似することができるが、分析のインプットとして明示的なマップを取ることはできない。 本稿では,教師なし学習文献におけるこの盲点の修正を目的とした。 一般化ユークリッド距離を用いて数値ノード属性間のネットワーク距離を推定することにより、ネットワークアウェア埋め込みを作成することができる。 私たちが知っている文献のすべてのメソッドとは違って、ネットワークのノードをクラスタするのではなく、そのノード属性をクラスタ化します。 実験では、これらのネットワーク埋め込みは、学習タスクに常に有用であること、大規模ネットワークにスケールすること、マーケティング、経済学、政治科学など、さまざまな分野の応用における実用的な洞察を実際に提供できること、などが示されている。 本手法は,完全オープンソースであり,論文中のすべての結果を再現するためのデータとコードである。

Data clustering, the task of grouping observations according to their similarity, is a key component of unsupervised learning -- with real world applications in diverse fields such as biology, medicine, and social science. Often in these fields the data comes with complex interdependencies between the dimensions of analysis, for instance the various characteristics and opinions people can have live on a complex social network. Current clustering methods are ill-suited to tackle this complexity: deep learning can approximate these dependencies, but not take their explicit map as the input of the analysis. In this paper, we aim at fixing this blind spot in the unsupervised learning literature. We can create network-aware embeddings by estimating the network distance between numeric node attributes via the generalized Euclidean distance. Differently from all methods in the literature that we know of, we do not cluster the nodes of the network, but rather its node attributes. In our experiments we show that having these network embeddings is always beneficial for the learning task; that our method scales to large networks; and that we can actually provide actionable insights in applications in a variety of fields such as marketing, economics, and political science. Our method is fully open source and data and code are available to reproduce all results in the paper.
翻訳日:2023-09-20 15:46:53 公開日:2023-09-19
# コンパクト領域上のreluネットワークを用いたユニバーサル近似の最小幅

Minimum width for universal approximation using ReLU networks on compact domain ( http://arxiv.org/abs/2309.10402v1 )

ライセンス: Link先を確認
Namjun Kim, Chanho Min, Sejun Park(参考訳) 幅有界ネットワークの普遍近似特性は、深さ有界ネットワークに対する古典的普遍近似定理の双対として研究されている。 普遍近似特性を許容する最小幅$w_{\min}$を特徴づけようとする試みはいくつかあったが、正確な値を発見したのはわずかであった。 本研究では、活性化関数がReLU-Likeであれば、$[0,1]^{d_x}$から$\mathbb R^{d_y}$への普遍近似の最小幅が正確に$\max\{d_x,d_y,2\}$であることを示す(例えば、ReLU, GELU, Softplus)。 既知の結果である $w_{\min}=\max\{d_x+1,d_y\}$ に対して、ドメインが ${\mathbb R^{d_x}}$ の場合、まず、コンパクトなドメインでの近似は ${\mathbb R^{d_x}}$ よりも小さい幅を必要とすることを示す。 次に、ReLUを含む一般的なアクティベーション関数を用いた一様近似に対して$w_{\min}$の低い境界を証明します。 最初の結果とともに、一般活性化関数に対する$L^p$と一様近似と入出力次元との二分法を示す。

The universal approximation property of width-bounded networks has been studied as a dual of the classical universal approximation theorem for depth-bounded ones. There were several attempts to characterize the minimum width $w_{\min}$ enabling the universal approximation property; however, only a few of them found the exact values. In this work, we show that the minimum width for the universal approximation of $L^p$ functions from $[0,1]^{d_x}$ to $\mathbb R^{d_y}$ is exactly $\max\{d_x,d_y,2\}$ if an activation function is ReLU-Like (e.g., ReLU, GELU, Softplus). Compared to the known result $w_{\min}=\max\{d_x+1,d_y\}$ when the domain is ${\mathbb R^{d_x}}$, our result first shows that approximation on a compact domain requires smaller width than on ${\mathbb R^{d_x}}$. We next prove a lower bound on $w_{\min}$ for uniform approximation using general activation functions including ReLU: $w_{\min}\ge d_y+1$ if $d_x<d_y\le2d_x$. Together with our first result, this shows a dichotomy between $L^p$ and uniform approximations for general activation functions and input/output dimensions.
翻訳日:2023-09-20 15:46:32 公開日:2023-09-19
# PoSE: 位置的スキップワイドトレーニングによるLLMの効率的なコンテキストウィンドウ拡張

PoSE: Efficient Context Window Extension of LLMs via Positional Skip-wise Training ( http://arxiv.org/abs/2309.10400v1 )

ライセンス: Link先を確認
Dawei Zhu and Nan Yang and Liang Wang and Yifan Song and Wenhao Wu and Furu Wei and Sujian Li(参考訳) 本稿では,大規模言語モデル~〜(LLM)を極めて長いコンテキストウインドウに効率的に適応するためのPoSEトレーニングを紹介する。 PoSEは、トレーニング中に位置インデックスが操作された固定されたコンテキストウィンドウを使用して長い入力をシミュレートすることで、ターゲットコンテキストウィンドウサイズから列車の長さを分離する。 具体的には、長い入力シーケンスからいくつかの短いチャンクを選択し、各チャンクの位置指標を変更するために異なるスキップバイアス項を導入する。 これらのバイアス項は、各チャンクの長さとともに、トレーニング例ごとに変更され、モデルが完全な長さの入力をトレーニングすることなく、ターゲットコンテキストウィンドウ内のすべての位置に適応することができる。 実験によると、完全な長さの微調整と比較して、PoSEはメモリと時間のオーバーヘッドを大幅に減らし、パフォーマンスに最小限の影響を与える。 この利点を利用して、LLaMAモデルを128kトークンに拡張しました。 さらに,PoSE が全ての RoPE ベースの LLM および様々な位置補間戦略と互換性があることを実証的に確認した。 特に、ターゲットのコンテキストウィンドウから微調整の長さを分離することで、PoSEは理論的にコンテキストウィンドウを無限に拡張することができる。 効率的な推論の進歩が進行中であるので、PoSEはコンテキストウィンドウをさらにスケールする大きな可能性を秘めています。

In this paper, we introduce Positional Skip-wisE (PoSE) training for efficient adaptation of large language models~(LLMs) to extremely long context windows. PoSE decouples train length from target context window size by simulating long inputs using a fixed context window with manipulated position indices during training. Concretely, we select several short chunks from a long input sequence, and introduce distinct skipping bias terms to modify the position indices of each chunk. These bias terms, along with the length of each chunk, are altered for each training example, allowing the model to adapt to all positions within the target context window without training on full length inputs. Experiments show that, compared with fine-tuning on the full length, PoSE greatly reduces memory and time overhead with minimal impact on performance. Leveraging this advantage, we have successfully extended the LLaMA model to 128k tokens. Furthermore, we empirically confirm that PoSE is compatible with all RoPE-based LLMs and various position interpolation strategies. Notably, by decoupling fine-tuning length from target context window, PoSE can theoretically extend the context window infinitely, constrained only by memory usage for inference. With ongoing advancements for efficient inference, we believe PoSE holds great promise for scaling the context window even further.
翻訳日:2023-09-20 15:46:02 公開日:2023-09-19
# 医用画像における因果性信号の爆発:実証実験による検討

Exploiting Causality Signals in Medical Images: A Pilot Study with Empirical Results ( http://arxiv.org/abs/2309.10399v1 )

ライセンス: Link先を確認
Gianluca Carloni, Sara Colantonio(参考訳) 本稿では,シーン内の弱い因果信号を用いた医用画像の自動分類法を提案する。画像の一部に特徴がある場合,画像の異なる部分における他の特徴の出現にどのように影響するかをモデル化する。 本手法は,畳み込みニューラルネットワークバックボーンと因果性因子抽出モジュールの2つの構成要素からなる。 後者は特徴マップの重みを計算し、画像のシーンにおける因果的影響に応じて各特徴マップを強化する。 2つの外部信号を用いて因果モジュールの機能を変更することで、異なる手法の変種を得ることができる。 前立腺癌診断のためのMRI画像の公開データセットについて,定量的実験,質的評価,アブレーション研究を用いて評価を行った。 本手法は,画像の関連部分に着目し,分類性能を改善し,よりロバストな予測を行うことを示す。 これは、診断や治療計画に正確で信頼性の高い分類が不可欠である医療画像において特に重要である。

We present a new method for automatically classifying medical images that uses weak causal signals in the scene to model how the presence of a feature in one part of the image affects the appearance of another feature in a different part of the image. Our method consists of two components: a convolutional neural network backbone and a causality-factors extractor module. The latter computes weights for the feature maps to enhance each feature map according to its causal influence in the image's scene. We can modify the functioning of the causality module by using two external signals, thus obtaining different variants of our method. We evaluate our method on a public dataset of prostate MRI images for prostate cancer diagnosis, using quantitative experiments, qualitative assessment, and ablation studies. Our results show that our method improves classification performance and produces more robust predictions, focusing on relevant parts of the image. That is especially important in medical imaging, where accurate and reliable classifications are essential for effective diagnosis and treatment planning.
翻訳日:2023-09-20 15:45:39 公開日:2023-09-19
# 臨床意思決定支援システムにおける患者データ入力支援のための適応的アンケート:STOPP/START v2への方法と適用

Adaptive questionnaires for facilitating patient data entry in clinical decision support systems: Methods and application to STOPP/START v2 ( http://arxiv.org/abs/2309.10398v1 )

ライセンス: Link先を確認
Jean-Baptiste Lamy, Abdelmalek Mouazer, Karima Sedki, Sophie Dubois, Hector Falcoff(参考訳) 臨床意思決定支援システムは、臨床医が医療決定を行うのを助けるソフトウェアツールである。 しかし、臨床医の受け入れは概して低い。 既知の問題は、医師が手動で多くの患者データを入力する必要があることだ。 電子健康記録からの自動データ抽出のような既存のソリューションは、データ品質と可用性が低いため、完全には満足できない。 実際には、多くのシステムはデータ入力のための長いアンケートを含んでいる。 本稿では,ユーザインタラクション中に動的に質問を呈示したり隠したりする質問紙,適応型アンケートを用いて,患者のデータ入力を簡素化する独自のソリューションを提案する。 ルールに基づく意思決定支援システムを考えると,本システムにおける臨床ルールを,アンケートで示す項目を決定する表示規則に翻訳する方法と,アンケートにおける項目間の優先順位の最適順序を決定する方法とを設計した。 STOPP/START v2を実装した意思決定支援システムに本手法を適用した。 アンケート調査の結果, 臨床症状の約3分の2減らすことができることがわかった。 フォーカスグループセッション中に臨床医に提示された適応質問紙は,「かなり使い易い」と考えられた。 将来的には、このアプローチは他のガイドラインにも適用でき、患者によるデータ入力にも適用できるだろう。

Clinical decision support systems are software tools that help clinicians to make medical decisions. However, their acceptance by clinicians is usually rather low. A known problem is that they often require clinicians to manually enter lots of patient data, which is long and tedious. Existing solutions, such as the automatic data extraction from electronic health record, are not fully satisfying, because of low data quality and availability. In practice, many systems still include long questionnaire for data entry. In this paper, we propose an original solution to simplify patient data entry, using an adaptive questionnaire, i.e. a questionnaire that evolves during user interaction, showing or hiding questions dynamically. Considering a rule-based decision support systems, we designed methods for translating the system's clinical rules into display rules that determine the items to show in the questionnaire, and methods for determining the optimal order of priority among the items in the questionnaire. We applied this approach to a decision support system implementing STOPP/START v2, a guideline for managing polypharmacy. We show that it permits reducing by about two thirds the number of clinical conditions displayed in the questionnaire. Presented to clinicians during focus group sessions, the adaptive questionnaire was found "pretty easy to use". In the future, this approach could be applied to other guidelines, and adapted for data entry by patients.
翻訳日:2023-09-20 15:45:22 公開日:2023-09-19
# 速度の弱い測定をどのように理解するか

How (Not) to Understand Weak Measurements of Velocities ( http://arxiv.org/abs/2309.10395v1 )

ライセンス: Link先を確認
Johannes Fankhauser, Patrick M. D\"urr(参考訳) これまで、隠れ変数の追加による量子力学の完備化は、de broglie-bohm (pilot wave) theory (dbbt) である。 常に一定の位置にある粒子を包含する。 彼らの進化は決定論的ダイナミクスによって制御される。 しかし、構成上、個々の粒子軌道は原則的に検出可能性に欠陥がある。 遅かれ早かれ、この伝承はいわゆる弱い測定値に照らして問題視されたようである。 測定装置と研究中のシステムとの間の特性的な結合が弱いため、量子系を本質的に乱すことなく実験的に探索することができる。 したがって、特に速度の弱い測定は、実際に粒子の軌跡を観察できると考えるのは自然である。 もしそうなら、そのような主張は量子力学の不完全性を実験的に証明するだけでなく、dBBTを標準形式としてサポートし、粒子力学に対する経験的に等価な選択肢の無限大から歌い出す。 ここではこの可能性を検証する。 我々の結果はデフレショナルであり、弱い速度測定は標準のdBBTを好んで経験的な証拠を言うまでもなく、新しい議論を構成するものではない。 弱速度測定では、素早い量子力学的解釈が認められ、粒子軌道や速度へのコミットメントとは無関係である。 これは,弱速度測定の記述が成立する物理的議論を注意深く再構成することによって明らかにされる。 弱い速度測定が信頼性を持つためには、dBBTをその標準形式として仮定する必要がある。

To-date, the most elaborated attempt to complete quantum mechanics by the addition of hidden variables is the de Broglie-Bohm (pilot wave) theory (dBBT). It endows particles with definite positions at all times. Their evolution is governed by a deterministic dynamics. By construction, however, the individual particle trajectories generically defy detectability in principle. Of late, this lore might seem to have been called into question in light of so-called weak measurements. Due to their characteristic weak coupling between the measurement device and the system under study, they permit the experimental probing of quantum systems without essentially disturbing them. It's natural therefore to think that weak measurements of velocity in particular offer to actually observe the particle trajectories. If true, such a claim would not only experimentally demonstrate the incompleteness of quantum mechanics: it would provide support of dBBT in its standard form, singling it out from an infinitude of empirically equivalent alternative choices for the particle dynamics. Here we examine this possibility. Our result is deflationary: weak velocity measurements constitute no new arguments, let alone empirical evidence, in favour of standard dBBT; One mustn't na\"ively identify weak and actual positions. Weak velocity measurements admit of a straightforward standard quantum mechanical interpretation, independent of any commitment to particle trajectories and velocities. This is revealed by a careful reconstruction of the physical arguments on which the description of weak velocity measurements rests. It turns out that for weak velocity measurements to be reliable, one must already presuppose dBBT in its standard form: in this sense, they can provide no new argument, empirical or otherwise, for dBBT and its standard guidance equation.
翻訳日:2023-09-20 15:44:58 公開日:2023-09-19
# 量子強化学習のための微分可能量子アーキテクチャ探索

Differentiable Quantum Architecture Search for Quantum Reinforcement Learning ( http://arxiv.org/abs/2309.10392v1 )

ライセンス: Link先を確認
Yize Sun, Yunpu Ma, Volker Tresp(参考訳) 微分可能量子アーキテクチャサーチ(DQAS)は、NISQ時代に自動的に量子回路を設計するための勾配ベースのフレームワークである。 量子ハードウェアの密度の低さ、回路アーキテクチャの柔軟性の低さ、回路設計コストの高さ、バレンプラトー(BP)問題、重量の周期性などによって動機付けられた。 人々は、固定データセットに基づくエラー緩和、ユニタリ分解、量子近似最適化問題に対処するためにそれを使用した。 量子強化学習(QRL)は量子機械学習の一部であり、様々なデータを持つことが多い。 QRLは通常手動設計の回路を使用する。 しかし、事前定義された回路は様々なタスクに対してより柔軟性を必要とし、大きな回路の場合、様々なデータセットに基づく回路設計は難解になる可能性がある。 DQASが様々なデータセットを用いた量子深層Q-ラーニングに適用できるかどうかという問題は未解決のままである。 この研究の主な目的は、量子深層Q-ラーニング問題を解決するDQASの能力を発見することである。 強化学習タスクに勾配に基づくフレームワークDQASを適用し,2つの異なる環境カートポールと凍結湖で評価する。 入力と出力の重み付け、プログレッシブ検索、その他の新機能が含まれている。 実験の結果、DQASは量子回路を自動かつ効率的に設計できることがわかった。 評価結果から,手動設計回路と比較して優れた性能を示した。 さらに、自動生成回路の性能は、トレーニングプロセス中に学習した超回路の性能に依存する。 この研究は、勾配に基づく量子アーキテクチャ探索がqrlタスクに適用できることを示す最初のものである。

Differentiable quantum architecture search (DQAS) is a gradient-based framework to design quantum circuits automatically in the NISQ era. It was motivated by such as low fidelity of quantum hardware, low flexibility of circuit architecture, high circuit design cost, barren plateau (BP) problem, and periodicity of weights. People used it to address error mitigation, unitary decomposition, and quantum approximation optimization problems based on fixed datasets. Quantum reinforcement learning (QRL) is a part of quantum machine learning and often has various data. QRL usually uses a manually designed circuit. However, the pre-defined circuit needs more flexibility for different tasks, and the circuit design based on various datasets could become intractable in the case of a large circuit. The problem of whether DQAS can be applied to quantum deep Q-learning with various datasets is still open. The main target of this work is to discover the capability of DQAS to solve quantum deep Q-learning problems. We apply a gradient-based framework DQAS on reinforcement learning tasks and evaluate it in two different environments - cart pole and frozen lake. It contains input- and output weights, progressive search, and other new features. The experiments conclude that DQAS can design quantum circuits automatically and efficiently. The evaluation results show significant outperformance compared to the manually designed circuit. Furthermore, the performance of the automatically created circuit depends on whether the super-circuit learned well during the training process. This work is the first to show that gradient-based quantum architecture search is applicable to QRL tasks.
翻訳日:2023-09-20 15:44:30 公開日:2023-09-19
# sidegan: サイドビュー画像合成を改善する3次元認識生成モデル

SideGAN: 3D-Aware Generative Model for Improved Side-View Image Synthesis ( http://arxiv.org/abs/2309.10388v1 )

ライセンス: Link先を確認
Kyungmin Jo, Wonjoon Jin, Jaegul Choo, Hyunjoon Lee, Sunghyun Cho(参考訳) 最近の3dウェア生成モデルでは、マルチビューの一貫性を持つフォトリアリスティックな画像合成が示されているが、合成された画像品質は、カメラのポーズ(例えば、横の視点でぼやけたノイズの多い境界を持つ顔)によって劣化する。 このような劣化は、ポーズのバランスが不均衡なデータセットからポーズの一貫性とフォトリアリズムを同時に学習することの難しさによって引き起こされる。 本稿では,カメラのポーズに関わらず,特に側視角の顔に対して,写真リアルな画像を生成する新しい3D GANトレーニング手法であるSideGANを提案する。 フォトリアリスティック・ポーズ整合画像合成の難解な課題を解消するため,課題を2つの部分問題に分割し,それぞれをより容易に解くことができるようにした。 具体的には、合成された画像が本物かどうかを識別する学習と、合成された画像がカメラのポーズに一致するかどうかを識別する学習という2つの単純な識別問題の組み合わせとして問題を定式化する。 そこで本研究では,2つの識別枝を持つ二分岐判別器を提案する。 また、3D GANのポーズ一貫性を学習するためのポーズマッチング損失を提案する。 さらに,ポーズ不均衡データセットにおいて,急な角度の学習機会を増やすためのポーズサンプリング戦略を提案する。 広範に検証することで,カメラのポーズによらず,高品質なジオメトリやフォトリアリスティックな画像を3D GANで生成できることが実証された。

While recent 3D-aware generative models have shown photo-realistic image synthesis with multi-view consistency, the synthesized image quality degrades depending on the camera pose (e.g., a face with a blurry and noisy boundary at a side viewpoint). Such degradation is mainly caused by the difficulty of learning both pose consistency and photo-realism simultaneously from a dataset with heavily imbalanced poses. In this paper, we propose SideGAN, a novel 3D GAN training method to generate photo-realistic images irrespective of the camera pose, especially for faces of side-view angles. To ease the challenging problem of learning photo-realistic and pose-consistent image synthesis, we split the problem into two subproblems, each of which can be solved more easily. Specifically, we formulate the problem as a combination of two simple discrimination problems, one of which learns to discriminate whether a synthesized image looks real or not, and the other learns to discriminate whether a synthesized image agrees with the camera pose. Based on this, we propose a dual-branched discriminator with two discrimination branches. We also propose a pose-matching loss to learn the pose consistency of 3D GANs. In addition, we present a pose sampling strategy to increase learning opportunities for steep angles in a pose-imbalanced dataset. With extensive validation, we demonstrate that our approach enables 3D GANs to generate high-quality geometries and photo-realistic images irrespective of the camera pose.
翻訳日:2023-09-20 15:44:05 公開日:2023-09-19
# シークエンシャルレコメンデーションの改革:コンテンツ強化言語モデリングによる動的ユーザ関心の学習

Reformulating Sequential Recommendation: Learning Dynamic User Interest with Content-enriched Language Modeling ( http://arxiv.org/abs/2309.10435v1 )

ライセンス: Link先を確認
Junzhe Jiang, Shang Qu, Mingyue Cheng, Qi Liu(参考訳) オンラインアプリケーションにはレコメンダシステムが不可欠であり、動的ユーザの興味を捉えた表現力によって、シーケンシャルなレコメンデーションが顕著に普及している。 しかし、従来の逐次モデリング手法には、文脈情報の取得に制限がある。 この問題の主な理由は、言語モデルがしばしばドメイン固有の知識とアイテムに関連したテキストコンテンツの理解を欠いているためである。 この問題に対処するために,新しい逐次レコメンデーションパラダイムを採用し,学習済み言語モデルのセマンティクス理解機能を活用し,パーソナライズドレコメンデーションを生成するlancerを提案する。 我々のアプローチは、言語モデルとレコメンデーションシステムの間のギャップを埋め、より人間らしいレコメンデーションをもたらす。 本手法は,いくつかのベンチマークデータセット上で実験を行い,有望な結果を示し,逐次レコメンデーションタスクに対するモデルの影響に関する貴重な知見を提供する。 さらに,実験コードも公開されている。

Recommender systems are essential for online applications, and sequential recommendation has enjoyed significant prevalence due to its expressive ability to capture dynamic user interests. However, previous sequential modeling methods still have limitations in capturing contextual information. The primary reason for this issue is that language models often lack an understanding of domain-specific knowledge and item-related textual content. To address this issue, we adopt a new sequential recommendation paradigm and propose LANCER, which leverages the semantic understanding capabilities of pre-trained language models to generate personalized recommendations. Our approach bridges the gap between language models and recommender systems, resulting in more human-like recommendations. We demonstrate the effectiveness of our approach through experiments on several benchmark datasets, showing promising results and providing valuable insights into the influence of our model on sequential recommendation tasks. Furthermore, our experimental codes are publicly available.
翻訳日:2023-09-20 15:35:29 公開日:2023-09-19
# オンデマンドフィードバック生成のための書き手AIペルソナ

Writer-Defined AI Personas for On-Demand Feedback Generation ( http://arxiv.org/abs/2309.10433v1 )

ライセンス: Link先を確認
Karim Benharrak, Tim Zindulka, Florian Lehmann, Hendrik Heuer, Daniel Buschek(参考訳) 執筆は読者向けに調整されている。 ライターは読者に共感したり、時間内にフィードバックを得たり、ターゲットグループへのアクセスを得るのに苦労するかもしれません。 著者が定義したAIペルソナを対象とする,オンデマンドのフィードバックを生成するコンセプトを提案する。 我々は,この概念を2つのユーザスタディ(N=5とN=11)のプロトタイプ(GPT-3.5)を用いて検討する。 フィードバックはテキストとペルソナの改訂に役に立ち、刺激を受けたものと見なされたが、しばしば冗長で具体的ではなかった。 オンデマンドフィードバックの影響、現代のaiシステムの表現能力の制限、aiペルソナの定義に関するさらなるアイデアについて論じる。 この研究は、AIツールデザインにおける社会技術的視点を拡張することによって、AIでライターをサポートするというビジョンに寄与する。

Compelling writing is tailored to its audience. This is challenging, as writers may struggle to empathize with readers, get feedback in time, or gain access to the target group. We propose a concept that generates on-demand feedback, based on writer-defined AI personas of any target audience. We explore this concept with a prototype (using GPT-3.5) in two user studies (N=5 and N=11): Writers appreciated the concept and strategically used personas for getting different perspectives. The feedback was seen as helpful and inspired revisions of text and personas, although it was often verbose and unspecific. We discuss the impact of on-demand feedback, the limited representativity of contemporary AI systems, and further ideas for defining AI personas. This work contributes to the vision of supporting writers with AI by expanding the socio-technical perspective in AI tool design: To empower creators, we also need to keep in mind their relationship to an audience.
翻訳日:2023-09-20 15:35:10 公開日:2023-09-19
# 実世界の腐敗に対するポイントクラウド認識のためのサンプル適応拡張

Sample-adaptive Augmentation for Point Cloud Recognition Against Real-world Corruptions ( http://arxiv.org/abs/2309.10431v1 )

ライセンス: Link先を確認
Jie Wang, Lihe Ding, Tingfa Xu, Shaocong Dong, Xinli Xu, Long Bai, Jianan Li(参考訳) 汚職下でのロバストな3D知覚は、3Dビジョンの領域にとって不可欠な課題となっている。 現在のデータ拡張技術は、通常、すべてのポイントクラウドオブジェクトに対してオフラインでランダムな変換を実行し、サンプルの構造を無視し、オーバー・オー・アンダー・エンハンスメントをもたらす。 本研究では、サンプルの構造に基づいてサンプル適応変換を行い、自動拡張フレームワークであるAdaptPointを用いて潜在的な腐敗に対処する手法を提案する。 特に,入力点雲の固有構造情報に基づいて変形パラメータを予測し,ポイント毎マスクを生成するための変形制御器とマスク制御器からなる模倣器を利用し,その上に腐敗シミュレーションを行う。 そして、判別器を用いて、元のデータ分布から逸脱する過度な腐敗の発生を防止する。 また、適切な難易度でサンプルを生成するための知覚誘導フィードバック機構が組み込まれている。 さらに, 実環境における実際のデータ, 特に先行するCADデータセットと対比した場合に, 実環境における実際のデータとの類似性を示す新しいデータセットScanObjectNN-Cを導入する。 実験の結果,ModelNet-C,ScanObjectNN-C,ShapeNet-C など,複数の汚損評価ベンチマークにおいて,最先端の結果が得られた。

Robust 3D perception under corruption has become an essential task for the realm of 3D vision. While current data augmentation techniques usually perform random transformations on all point cloud objects in an offline way and ignore the structure of the samples, resulting in over-or-under enhancement. In this work, we propose an alternative to make sample-adaptive transformations based on the structure of the sample to cope with potential corruption via an auto-augmentation framework, named as AdaptPoint. Specially, we leverage a imitator, consisting of a Deformation Controller and a Mask Controller, respectively in charge of predicting deformation parameters and producing a per-point mask, based on the intrinsic structural information of the input point cloud, and then conduct corruption simulations on top. Then a discriminator is utilized to prevent the generation of excessive corruption that deviates from the original data distribution. In addition, a perception-guidance feedback mechanism is incorporated to guide the generation of samples with appropriate difficulty level. Furthermore, to address the paucity of real-world corrupted point cloud, we also introduce a new dataset ScanObjectNN-C, that exhibits greater similarity to actual data in real-world environments, especially when contrasted with preceding CAD datasets. Experiments show that our method achieves state-of-the-art results on multiple corruption benchmarks, including ModelNet-C, our ScanObjectNN-C, and ShapeNet-C.
翻訳日:2023-09-20 15:34:53 公開日:2023-09-19
# シーングラフ生成における最適輸送損失を用いた述語分類

Predicate Classification Using Optimal Transport Loss in Scene Graph Generation ( http://arxiv.org/abs/2309.10430v1 )

ライセンス: Link先を確認
Sorachi Kurita and Satoshi Oyama and Itsuki Noda(参考訳) シーングラフ生成(sgg)では、クロスエントロピー損失を伴う学習は、データセット内の関係ラベルの分布の不均衡によるバイアス付き予測をもたらす。 そこで本研究では,2つの確率分布を比較する尺度として最適輸送を用いたシーングラフを生成する手法を提案する。 我々は,SGGの述語分類において,輸送コストの観点からラベル間の類似性を反映した最適な輸送損失を学習に適用する。 提案手法では,事前学習モデルから得られた単語の類似性を用いて,最適輸送の輸送コストを定義する。 実験により,提案手法はRecall@50および100の平均値において,既存手法よりも優れた性能を示した。 さらに、データセットで利用可能なリレーションラベルのリコールも改善される。

In scene graph generation (SGG), learning with cross-entropy loss yields biased predictions owing to the severe imbalance in the distribution of the relationship labels in the dataset. Thus, this study proposes a method to generate scene graphs using optimal transport as a measure for comparing two probability distributions. We apply learning with the optimal transport loss, which reflects the similarity between the labels in terms of transportation cost, for predicate classification in SGG. In the proposed approach, the transportation cost of the optimal transport is defined using the similarity of words obtained from the pre-trained model. The experimental evaluation of the effectiveness demonstrates that the proposed method outperforms existing methods in terms of mean Recall@50 and 100. Furthermore, it improves the recall of the relationship labels scarcely available in the dataset.
翻訳日:2023-09-20 15:34:29 公開日:2023-09-19
# 量子情報理論のカテゴリー的基礎について:カテゴリとクレイマー・ラオ不等式

On the categorical foundations of quantum information theory: Categories and the Cramer-Rao inequality ( http://arxiv.org/abs/2309.10428v1 )

ライセンス: Link先を確認
Florio M. Ciaglia, Fabio Di Cosmo, Laura Gonz\'alez-Bravo, Alberto Ibort, Giuseppe Marmo(参考訳) 古典的推論理論のカンコフのカテゴリー的記述から量子系の領域への拡張が提示されている。 古典的情報理論と量子的情報理論の両方を自然に取り入れる量子情報理論の新たな分類学的基盤を提供すると同時に、量子環境の概念を定式化することができる。 これらのアイデアの第一の応用は、統計多様体の概念を拡張して圏を包含し、この設定において可能な一パラメトリックのクレイマー・ラオ不等式を研究することである。

An extension of Cencov's categorical description of classical inference theory to the domain of quantum systems is presented. It provides a novel categorical foundation to the theory of quantum information that embraces both classical and quantum information theory in a natural way, while also allowing to formalise the notion of quantum environment. A first application of these ideas is provided by extending the notion of statistical manifold to incorporate categories, and investigating a possible, uniparametric Cramer-Rao inequality in this setting.
翻訳日:2023-09-20 15:34:16 公開日:2023-09-19
# 多目的グラフアフォーアンスネットワーク:複合オブジェクトアフォーアンスによる目標指向計画の実現

Multi-Object Graph Affordance Network: Enabling Goal-Oriented Planning through Compound Object Affordances ( http://arxiv.org/abs/2309.10426v1 )

ライセンス: Link先を確認
Tuba Girgin, Emre Ugur(参考訳) 学習対象の余裕は、ロボット学習の分野で有効なツールである。 データ駆動型モデルは、単体またはペアオブジェクトの空き地を探究する一方で、複雑な形状の任意の数のオブジェクトからなる複合オブジェクトの空き地の調査において顕著なギャップがある。 本研究では,複合オブジェクトの価格をモデル化し,既存の化合物の上に新しいオブジェクトを配置する効果を予測するマルチオブジェクトグラフアフォーダンスネットワーク(MOGAN)を提案する。 特定の高さや特性の塔を建てるなど,異なるタスクを与えられた上で,探索ベースプランニングを用いて,適切な余裕のある対象のスタックアクションのシーケンスを探索した。 我々のシステムは、積み重ねられた球体、カップ、ポール、そしてポールを囲むリングを含む非常に複雑な複合物体の可利用性を正確にモデル化できることを示した。 シミュレーション環境と実環境の両方において,本システムの適用性を実証し,その利点を強調するベースラインモデルと比較した。

Learning object affordances is an effective tool in the field of robot learning. While the data-driven models delve into the exploration of affordances of single or paired objects, there is a notable gap in the investigation of affordances of compound objects that are composed of an arbitrary number of objects with complex shapes. In this study, we propose Multi-Object Graph Affordance Network (MOGAN) that models compound object affordances and predicts the effect of placing new objects on top of the existing compound. Given different tasks, such as building towers of specific heights or properties, we used a search based planning to find the sequence of stack actions with the objects of suitable affordances. We showed that our system was able to correctly model the affordances of very complex compound objects that include stacked spheres and cups, poles, and rings that enclose the poles. We demonstrated the applicability of our system in both simulated and real-world environments, comparing our systems with a baseline model to highlight its advantages.
翻訳日:2023-09-20 15:34:06 公開日:2023-09-19
# 医療における人工知能患者に対するハームのリスク軽減のための機能要件

Functional requirements to mitigate the Risk of Harm to Patients from Artificial Intelligence in Healthcare ( http://arxiv.org/abs/2309.10424v1 )

ライセンス: Link先を確認
Juan M. Garc\'ia-G\'omez, Vicent Blanes-Selva, Jos\'e Carlos de Bartolom\'e Cenzano, Jaime Cebolla-Cornejo and Ascensi\'on Do\~nate-Mart\'inez(参考訳) 欧州議会の議会調査サービス長官は欧州議会に報告書を作成し、医療と医療における人工知能(AI)の主なリスク7つを列挙した。AIエラーによる患者被害、医療AIツールの誤用、AIのバイアス、既存の不平等の永続性、透明性の欠如、プライバシーとセキュリティの問題、説明責任の欠如、実装上の障害である。 本稿では,AIシステムが医療目的に関連するリスクを軽減するために実施する機能要件として,AIパスポート,ユーザ管理,レギュレーションチェック,アカデミック使用のみの廃止,データ品質評価,臨床医のダブルチェック,継続的パフォーマンス評価,監査トレイル,継続的ユーザビリティテスト,レトロスペクティブ/シミュレーションケースのレビュー,バイアスチェック,eXplainable AI,暗号化とフィールドテストライブラリの使用,セマンティック相互運用性を提案する。 ここでの私たちの意図は、将来のEU規制フレームワークに準拠した患者に、継続的なパフォーマンスとAIシステムの使用を保証するために、技術的なソリューションの特定のハイレベルな仕様を提供することです。

The Directorate General for Parliamentary Research Services of the European Parliament has prepared a report to the Members of the European Parliament where they enumerate seven main risks of Artificial Intelligence (AI) in medicine and healthcare: patient harm due to AI errors, misuse of medical AI tools, bias in AI and the perpetuation of existing inequities, lack of transparency, privacy and security issues, gaps in accountability, and obstacles in implementation. In this study, we propose fourteen functional requirements that AI systems may implement to reduce the risks associated with their medical purpose: AI passport, User management, Regulation check, Academic use only disclaimer, data quality assessment, Clinicians double check, Continuous performance evaluation, Audit trail, Continuous usability test, Review of retrospective/simulated cases, Bias check, eXplainable AI, Encryption and use of field-tested libraries, and Semantic interoperability. Our intention here is to provide specific high-level specifications of technical solutions to ensure continuous good performance and use of AI systems to benefit patients in compliance with the future EU regulatory framework.
翻訳日:2023-09-20 15:33:49 公開日:2023-09-19
# リモートセンシング画像におけるソーラーパネルの検出と位置推定のための異なるレベルのスーパービジョンの探索

Exploring Different Levels of Supervision for Detecting and Localizing Solar Panels on Remote Sensing Imagery ( http://arxiv.org/abs/2309.10421v1 )

ライセンス: Link先を確認
Maarten Burger (1 and 2) and Rob Wijnhoven (1) and Shaodi You (2) ((1) University of Amsterdam (UvA), (2) Spotr.ai)(参考訳) 本研究では,太陽光パネル認識に着目したリモートセンシング画像における物体の存在検出と位置推定について検討する。 我々は、完全な教師付きオブジェクト検出器、CAMに基づくローカライゼーションを備えた弱教師付きイメージ分類器、最小教師付き異常検出器の3つのモデルを評価する。 分類器はバイナリ存在検出(0.79F1スコア)を排他し、対象検出器(0.72)は正確な位置検出を行う。 anomaly detectorは、実行可能なパフォーマンスのためにより多くのデータを必要とする。 モデル結果の融合は、潜在的な精度向上を示す。 CAMは、GradCAM、GradCAM++、HiResCAMが優れた結果をもたらすため、ローカライゼーションを控えめに影響を及ぼす。 特に、分類器はオブジェクト検出器とは対照的に、少ないデータで堅牢である。

This study investigates object presence detection and localization in remote sensing imagery, focusing on solar panel recognition. We explore different levels of supervision, evaluating three models: a fully supervised object detector, a weakly supervised image classifier with CAM-based localization, and a minimally supervised anomaly detector. The classifier excels in binary presence detection (0.79 F1-score), while the object detector (0.72) offers precise localization. The anomaly detector requires more data for viable performance. Fusion of model results shows potential accuracy gains. CAM impacts localization modestly, with GradCAM, GradCAM++, and HiResCAM yielding superior results. Notably, the classifier remains robust with less data, in contrast to the object detector.
翻訳日:2023-09-20 15:33:25 公開日:2023-09-19
# サブゴールでプログラムするアシスタントから学ぶ:AI指導アシスタントの可能性を探る

Learning from Teaching Assistants to Program with Subgoals: Exploring the Potential for AI Teaching Assistants ( http://arxiv.org/abs/2309.10419v1 )

ライセンス: Link先を確認
Changyoon Lee, Junho Myung, Jieun Han, Jiho Jin and Alice Oh(参考訳) 生成AIの最近の進歩により、ChatGPTのような会話モデルがTAの候補となりつつある。 本研究では,初級学習者のTAとのインタラクションをサブゴール学習環境において検証し,生成AIをTAとして活用することの実践性を検討した。 学習者のaiと人間のtasの相互作用と知覚を比較するために,20人の初心者プログラミング学習者との対話実験を行った。 学習者はTAの指導でサブゴールとサブソリューションを生成することでプログラミングタスクを解く。 我々の研究は、AI TAで同等のスコアで学習者がタスクを素早く解けることを示した。 学習者のAI TAに対する認識は、回答のスピードと包括性、有用性、難易度、会話の満足度の観点から、人間のTAと同等である。 最後に,チャットログ分析の結果から,生成型aiをプログラミング教育のtasとしてよりよい設計と活用のためのガイドラインを提案する。

With recent advances in generative AI, conversational models like ChatGPT have become feasible candidates for TAs. We investigate the practicality of using generative AI as TAs in introductory programming education by examining novice learners' interaction with TAs in a subgoal learning environment. To compare the learners' interaction and perception of the AI and human TAs, we conducted a between-subject study with 20 novice programming learners. Learners solve programming tasks by producing subgoals and subsolutions with the guidance of a TA. Our study shows that learners can solve tasks faster with comparable scores with AI TAs. Learners' perception of the AI TA is on par with that of human TAs in terms of speed and comprehensiveness of the replies and helpfulness, difficulty, and satisfaction of the conversation. Finally, we suggest guidelines to better design and utilize generative AI as TAs in programming education from the result of our chat log analysis.
翻訳日:2023-09-20 15:33:10 公開日:2023-09-19
# ローラ軸受の動的モデリングのためのグラフニューラルネットワーク

Graph Neural Networks for Dynamic Modeling of Roller Bearing ( http://arxiv.org/abs/2309.10418v1 )

ライセンス: Link先を確認
Vinay Sharma (1), Jens Ravesloot (2), Cees Taal (2), Olga Fink (1) ((1) EPFL, Intelligent Maintenance and Operations Systems, Lausanne, Switzerland, (2) SKF, Research and Technology Development, Houten, the Netherlands)(参考訳) 本稿では, 回転要素軸受の動的特性を予測するために, グラフニューラルネットワーク(GNN)の枠組みを適用することを提案する。 このアプローチは汎用性と解釈可能性を提供し、回転機械の健康状態を監視するためにリアルタイム操作型デジタルツインシステムでスケーラブルな使用の可能性を持つ。 グラフ内の要素をノードとして表現することで、GNNはそれらの間の複雑な関係や相互作用を効果的にモデル化することができる。 我々は、GNNのトレーニングデータを生成するために、軸受の動的バネ質量減衰モデルを利用する。 このモデルでは、離散質量は転がり要素、内輪道、外輪道などの軸受成分を表し、ヘルツ接触モデルはこれらの成分間の力を計算するために用いられる。 提案するGNNフレームワークの学習と一般化の能力は,トレーニング構成から逸脱する異なる軸受構成をテストすることで評価する。 本手法により, 転がり要素軸受の力学を正確に予測するGNN法の有効性を実証し, 回転機械のリアルタイム健康モニタリングの可能性を明らかにする。

In the presented work, we propose to apply the framework of graph neural networks (GNNs) to predict the dynamics of a rolling element bearing. This approach offers generalizability and interpretability, having the potential for scalable use in real-time operational digital twin systems for monitoring the health state of rotating machines. By representing the bearing's components as nodes in a graph, the GNN can effectively model the complex relationships and interactions among them. We utilize a dynamic spring-mass-damper model of a bearing to generate the training data for the GNN. In this model, discrete masses represent bearing components such as rolling elements, inner raceways, and outer raceways, while a Hertzian contact model is employed to calculate the forces between these components. We evaluate the learning and generalization capabilities of the proposed GNN framework by testing different bearing configurations that deviate from the training configurations. Through this approach, we demonstrate the effectiveness of the GNN-based method in accurately predicting the dynamics of rolling element bearings, highlighting its potential for real-time health monitoring of rotating machinery.
翻訳日:2023-09-20 15:32:53 公開日:2023-09-19
# 重み付き生成教師付き学習損失を用いた拡散型音声強調

Diffusion-based speech enhancement with a weighted generative-supervised learning loss ( http://arxiv.org/abs/2309.10457v1 )

ライセンス: Link先を確認
Jean-Eudes Ayilo (MULTISPEECH), Mostafa Sadeghi (MULTISPEECH), Romain Serizel (MULTISPEECH)(参考訳) 拡散に基づく生成モデルは近年,従来の教師付き手法の代替として,音声強調(SE)に注目されている。 これらのモデルは、清潔な音声訓練サンプルをノイズ中心のガウス雑音に変換し、その後パラメータ化されたモデルを学び、この過程を条件付きで雑音に戻す。 教師付き手法とは異なり、生成ベースのseアプローチは通常教師なしの損失のみに依存するため、条件付きノイズ音声の効率が低下する可能性がある。 この問題に対処するため,提案手法では, 平均二乗誤差(MSE)損失による拡散訓練目標の増大を提案し, 逆工程の各繰り返しにおける推定強調音声と接地トラスクリーン音声との差を計測する。 実験の結果,提案手法の有効性が示された。

Diffusion-based generative models have recently gained attention in speech enhancement (SE), providing an alternative to conventional supervised methods. These models transform clean speech training samples into Gaussian noise centered at noisy speech, and subsequently learn a parameterized model to reverse this process, conditionally on noisy speech. Unlike supervised methods, generative-based SE approaches usually rely solely on an unsupervised loss, which may result in less efficient incorporation of conditioned noisy speech. To address this issue, we propose augmenting the original diffusion training objective with a mean squared error (MSE) loss, measuring the discrepancy between estimated enhanced speech and ground-truth clean speech at each reverse process iteration. Experimental results demonstrate the effectiveness of our proposed methodology.
翻訳日:2023-09-20 15:26:43 公開日:2023-09-19
# セマンティック情報を用いた話者ダイアリゼーションの改善:協調的制約の伝播

Improving Speaker Diarization using Semantic Information: Joint Pairwise Constraints Propagation ( http://arxiv.org/abs/2309.10456v1 )

ライセンス: Link先を確認
Luyao Cheng, Siqi Zheng, Qinglin Zhang, Hui Wang, Yafeng Chen, Qian Chen, Shiliang Zhang(参考訳) 話者ダイアリゼーションは,音声処理研究コミュニティにおいて注目されている。 主流話者ダイアリゼーションは、主に音響信号から抽出された話者の音声特性に依存し、しばしば意味情報の可能性を見落としている。 音声信号が音声の内容を効率的に伝達できることを考えると、これらの意味的手がかりを言語モデルを用いて完全に活用することに関心がある。 本研究では,クラスタリングに基づく話者ダイアリゼーションシステムにおいて,意味情報を有効に活用するための新しい手法を提案する。 まず,話者関連意味情報を抽出するための音声言語理解モジュールを導入し,これらの情報を用いてペアワイズ制約を構築する。 次に,これらの制約を話者ダイアリゼーションパイプラインに統合し,システム全体の性能を向上させるための新しい枠組みを提案する。 公開データセット上で行った広範囲な実験により,提案手法が音響のみの話者ダイアリゼーションシステムに対して一貫した優位性を示す。

Speaker diarization has gained considerable attention within speech processing research community. Mainstream speaker diarization rely primarily on speakers' voice characteristics extracted from acoustic signals and often overlook the potential of semantic information. Considering the fact that speech signals can efficiently convey the content of a speech, it is of our interest to fully exploit these semantic cues utilizing language models. In this work we propose a novel approach to effectively leverage semantic information in clustering-based speaker diarization systems. Firstly, we introduce spoken language understanding modules to extract speaker-related semantic information and utilize these information to construct pairwise constraints. Secondly, we present a novel framework to integrate these constraints into the speaker diarization pipeline, enhancing the performance of the entire system. Extensive experiments conducted on the public dataset demonstrate the consistent superiority of our proposed approach over acoustic-only speaker diarization systems.
翻訳日:2023-09-20 15:26:28 公開日:2023-09-19
# 拡散モデルを用いた教師なし音声強調

Unsupervised speech enhancement with diffusion-based generative models ( http://arxiv.org/abs/2309.10450v1 )

ライセンス: Link先を確認
Bern\'e Nortier (MULTISPEECH), Mostafa Sadeghi (MULTISPEECH), Romain Serizel (MULTISPEECH)(参考訳) 近年,教師付き音声強調の分野において,条件付スコアに基づく拡散モデルが注目されている。 しかし、これらの手法は、目に見えない条件に一般化する際に困難に直面する可能性がある。 この問題に対処するために,拡散モデルの生成力を生かし,教師なしの方法で機能する代替手法を提案する。 具体的には、学習段階において、スコアベース拡散モデルを用いて短時間フーリエ変換(STFT)領域でクリーン音声先行分布を学習し、ガウス雑音からクリーン音声を無条件に生成する。 そこで我々は,学習したクリーン音声と音声信号推論のための雑音モデルを組み合わせることで,音声強調のための後部サンプリング手法を開発した。 雑音パラメータは、反復期待最大化(em)アプローチにより、クリーンな音声推定と共に同時に学習される。 我々の知る限りでは、近年の変分自動エンコーダ(VAE)に基づく非教師付きアプローチと最先端拡散に基づく教師付き手法と比較して有望な結果を示す、教師なし音声強調のための拡散ベース生成モデルに関する最初の研究である。 これにより、教師なし音声強調の今後の研究に新たな方向性が開ける。

Recently, conditional score-based diffusion models have gained significant attention in the field of supervised speech enhancement, yielding state-of-the-art performance. However, these methods may face challenges when generalising to unseen conditions. To address this issue, we introduce an alternative approach that operates in an unsupervised manner, leveraging the generative power of diffusion models. Specifically, in a training phase, a clean speech prior distribution is learnt in the short-time Fourier transform (STFT) domain using score-based diffusion models, allowing it to unconditionally generate clean speech from Gaussian noise. Then, we develop a posterior sampling methodology for speech enhancement by combining the learnt clean speech prior with a noise model for speech signal inference. The noise parameters are simultaneously learnt along with clean speech estimation through an iterative expectationmaximisation (EM) approach. To the best of our knowledge, this is the first work exploring diffusion-based generative models for unsupervised speech enhancement, demonstrating promising results compared to a recent variational auto-encoder (VAE)-based unsupervised approach and a state-of-the-art diffusion-based supervised method. It thus opens a new direction for future research in unsupervised speech enhancement.
翻訳日:2023-09-20 15:26:13 公開日:2023-09-19
# 人間とAIの相互作用と社会的落とし穴

Human-AI Interactions and Societal Pitfalls ( http://arxiv.org/abs/2309.10448v1 )

ライセンス: Link先を確認
Francisco Castro, Jian Gao, S\'ebastien Martin(参考訳) 生成人工知能(AI)を利用すると、ユーザーは生産性が向上するかもしれないが、AI生成コンテンツは好みと正確に一致しないかもしれない。 この効果を研究するために、異種ユーザがAIと共有する情報の量を選択し、出力忠実度と通信コストのトレードオフに直面したベイズフレームワークを導入する。 これらの個人レベルの決定とAIトレーニングの相互作用が社会的な課題を引き起こす可能性があることを示す。 AIが生成したコンテンツに基づいてトレーニングされている場合、アウトプットはより均質化される。 あらゆるaiバイアスが社会バイアスになるかもしれません 均質化とバイアス問題の解決策は、生産性を犠牲にすることなく、パーソナライズされたアウトプットを可能にする、人間とAIのインタラクションを改善することである。

When working with generative artificial intelligence (AI), users may see productivity gains, but the AI-generated content may not match their preferences exactly. To study this effect, we introduce a Bayesian framework in which heterogeneous users choose how much information to share with the AI, facing a trade-off between output fidelity and communication cost. We show that the interplay between these individual-level decisions and AI training may lead to societal challenges. Outputs may become more homogenized, especially when the AI is trained on AI-generated content. And any AI bias may become societal bias. A solution to the homogenization and bias issues is to improve human-AI interactions, enabling personalized outputs without sacrificing productivity.
翻訳日:2023-09-20 15:25:52 公開日:2023-09-19
# 正規表現命令による統一制御可能なテキスト生成に向けて

Toward Unified Controllable Text Generation via Regular Expression Instruction ( http://arxiv.org/abs/2309.10447v1 )

ライセンス: Link先を確認
Xin Zheng, Hongyu Lin, Xianpei Han and Le Sun(参考訳) 制御可能なテキスト生成は自然言語生成の基本的な側面であり、様々な制約タイプに対して多くの手法が提案されている。 しかし、これらのアプローチは、しばしば重要なアーキテクチャやデコードの変更を必要とするため、追加の制約の適用や異なる制約の組み合わせの解決が困難になる。 そこで本研究では,正規表現の利点をフル活用し,多様な制約を均一にモデル化する命令ベース機構を用いた正規表現指導(REI)を提案する。 特に、REIは、正規表現スタイルの命令を通じて、語彙、位置、長さといった、一般的な粒度制御可能な生成制約をすべてサポートしています。 本手法は,中規模言語モデルの微調整や,大規模言語モデルにおけるコンテキスト内学習のみが必要であり,制約の組み合わせにも追加調整を要しない。 実験により、我々の単純なアプローチは、様々な制約に高い成功率と適応性をもたらしながら、自動メトリクスの競争力を保ち、以前のベースラインよりも優れています。

Controllable text generation is a fundamental aspect of natural language generation, with numerous methods proposed for different constraint types. However, these approaches often require significant architectural or decoding modifications, making them challenging to apply to additional constraints or resolve different constraint combinations. To address this, our paper introduces Regular Expression Instruction (REI), which utilizes an instruction-based mechanism to fully exploit regular expressions' advantages to uniformly model diverse constraints. Specifically, our REI supports all popular fine-grained controllable generation constraints, i.e., lexical, positional, and length, as well as their complex combinations, via regular expression-style instructions. Our method only requires fine-tuning on medium-scale language models or few-shot, in-context learning on large language models, and requires no further adjustment when applied to various constraint combinations. Experiments demonstrate that our straightforward approach yields high success rates and adaptability to various constraints while maintaining competitiveness in automatic metrics and outperforming most previous baselines.
翻訳日:2023-09-20 15:25:39 公開日:2023-09-19
# 大規模言語モデルを用いた学習者支援型マルチチョイス質問説明の自己強化の検討

Exploring Self-Reinforcement for Improving Learnersourced Multiple-Choice Question Explanations with Large Language Models ( http://arxiv.org/abs/2309.10444v1 )

ライセンス: Link先を確認
Qiming Bao, Juho Leinonen, Alex Yuxuan Peng, Wanjun Zhong, Tim Pistotti, Alice Huang, Paul Denny, Michael Witbrock and Jiamou Liu(参考訳) learnersourcingは、学生が仲間と学習リソースを生成、共有することです。 複数項目の質問を学習する場合、生成された質問の説明を作成することは、関連する概念をより深く理解するための重要なステップです。 しかし, 被験者の理解が限られており, 疑問の根幹, 気晴らし, 正解を単に再現する傾向があるため, 効果的な説明を学生が行うことはしばしば困難である。 そこで本研究では,説明を自動的に生成・評価することを目的として,自己強化型大規模言語モデルフレームワークを提案する。 このフレームワークは,3つのモジュールを構成し,学生による説明を生成し,これらの説明を評価し,その品質を保証し,説明を反復的に強化する。 説明の評価スコアが定義しきい値を下回ると、フレームワークは繰り返し説明を洗練し、再評価する。 重要な点として,本フレームワークは,学生が適切な学級レベルで説明を行う方法をエミュレートする。 評価のために,人間の被験者マッターの専門家に,学生が生成した説明と,オープンソースの大規模言語モデルvicuna-13b(vicuna-13bのバージョン)とgpt-4による説明を比較してもらった。 他の大きな言語モデルと比較すると、gpt-4は説明の生成において高い創造性を示した。 また, GPT-4による説明は, 他のモデルによる説明と, 学生による説明の両方よりも, 人間の専門家による評価が高かった。 本研究は,学習者の学習指導経験の充実と,大規模言語モデルの教育応用能力の向上に寄与する。

Learnersourcing involves students generating and sharing learning resources with their peers. When learnersourcing multiple-choice questions, creating explanations for the generated questions is a crucial step as it facilitates a deeper understanding of the related concepts. However, it is often difficult for students to craft effective explanations due to limited subject understanding and a tendency to merely restate the question stem, distractors, and correct answer. To help scaffold this task, in this work we propose a self-reinforcement large-language-model framework, with the goal of generating and evaluating explanations automatically. Comprising three modules, the framework generates student-aligned explanations, evaluates these explanations to ensure their quality and iteratively enhances the explanations. If an explanation's evaluation score falls below a defined threshold, the framework iteratively refines and reassesses the explanation. Importantly, our framework emulates the manner in which students compose explanations at the relevant grade level. For evaluation, we had a human subject-matter expert compare the explanations generated by students with the explanations created by the open-source large language model Vicuna-13B, a version of Vicuna-13B that had been fine-tuned using our method, and by GPT-4. We observed that, when compared to other large language models, GPT-4 exhibited a higher level of creativity in generating explanations. We also found that explanations generated by GPT-4 were ranked higher by the human expert than both those created by the other models and the original student-created explanations. Our findings represent a significant advancement in enriching the learnersourcing experience for students and enhancing the capabilities of large language models in educational applications.
翻訳日:2023-09-20 15:25:21 公開日:2023-09-19
# シミュレーションに基づく自動運転計画の再考

Rethinking Imitation-based Planner for Autonomous Driving ( http://arxiv.org/abs/2309.10443v1 )

ライセンス: Link先を確認
Jie Cheng, Yingbing Chen, Xiaodong Mei, Bowen Yang, Bo Li and Ming Liu(参考訳) 近年では、模倣ベースの運転計画立案者がかなりの成功を報告している。 しかし、標準ベンチマークがないため、様々な設計の有効性は未だ不明である。 新たにリリースされたnuplanは、大規模な実世界データセットと、等価比較のための標準化されたクローズドループベンチマークを提供することで、この問題に対処している。 このプラットフォームを利用して, 模倣型プランナーの基本かつ未熟な2つの側面, ego計画に不可欠な特徴と, 複合化エラーを低減する効果的なデータ拡張技術について包括的に検討する。 さらに,現在の学習システムでは見過ごされている模倣ギャップを浮き彫りにする。 最後に,この知見を統合し,強力なベースラインモデルPlanTFを提案する。 本研究は,手作りルールを含む最先端の手法と比較して,設計が整った純粋模倣型プランナが高い競争力を発揮することを示す。 私たちのモデルとベンチマークは公開されています。 プロジェクトサイト https://jchengai.github.io/planTF.com

In recent years, imitation-based driving planners have reported considerable success. However, due to the absence of a standardized benchmark, the effectiveness of various designs remains unclear. The newly released nuPlan addresses this issue by offering a large-scale real-world dataset and a standardized closed-loop benchmark for equitable comparisons. Utilizing this platform, we conduct a comprehensive study on two fundamental yet underexplored aspects of imitation-based planners: the essential features for ego planning and the effective data augmentation techniques to reduce compounding errors. Furthermore, we highlight an imitation gap that has been overlooked by current learning systems. Finally, integrating our findings, we propose a strong baseline model-PlanTF. Our results demonstrate that a well-designed, purely imitation-based planner can achieve highly competitive performance compared to state-of-the-art methods involving hand-crafted rules and exhibit superior generalization capabilities in long-tail cases. Our models and benchmarks are publicly available. Project website https://jchengai.github.io/planTF.
翻訳日:2023-09-20 15:24:49 公開日:2023-09-19
# coreset selectionは、証明可能な一般化による量子機械学習モデルを高速化する

Coreset selection can accelerate quantum machine learning models with provable generalization ( http://arxiv.org/abs/2309.10441v1 )

ライセンス: Link先を確認
Yiming Huang, Huiyuan Wang, Yuxuan Du, Xiao Yuan(参考訳) 量子ニューラルネットワーク(QNN)と量子カーネルは、量子機械学習の領域で目立った存在であり、短期量子コンピュータの初期段階の能力を活用して、古典的な機械学習課題を克服する。 それでも、トレーニング効率の課題はqnnと量子カーネルの両方に制限を与え、広範なデータセットに適用した場合の有効性を抑制する。 この懸念に対処するために、コアセット選択(coreset selection)という、QNNと量子カーネルのトレーニングの迅速化を目的として、元のトレーニングデータセットから偏差部分集合を蒸留する、統一的なアプローチを提案する。 さらに,そのようなコアセット上でのトレーニング時のqnnと量子カーネルの一般化誤差境界を分析し,完全なオリジナルデータセットでのトレーニングと同等の性能を示す。 体系的な数値シミュレーションにより,合成データ分類,量子相関の同定,量子コンパイルを含むタスクの迅速化におけるコアセット選択の可能性を明らかにする。 私たちの研究は、トレーニングコストを削減しつつ、理論的保証で多様な量子機械学習モデルを改善するための有用な方法を提供します。

Quantum neural networks (QNNs) and quantum kernels stand as prominent figures in the realm of quantum machine learning, poised to leverage the nascent capabilities of near-term quantum computers to surmount classical machine learning challenges. Nonetheless, the training efficiency challenge poses a limitation on both QNNs and quantum kernels, curbing their efficacy when applied to extensive datasets. To confront this concern, we present a unified approach: coreset selection, aimed at expediting the training of QNNs and quantum kernels by distilling a judicious subset from the original training dataset. Furthermore, we analyze the generalization error bounds of QNNs and quantum kernels when trained on such coresets, unveiling the comparable performance with those training on the complete original dataset. Through systematic numerical simulations, we illuminate the potential of coreset selection in expediting tasks encompassing synthetic data classification, identification of quantum correlations, and quantum compiling. Our work offers a useful way to improve diverse quantum machine learning models with a theoretical guarantee while reducing the training cost.
翻訳日:2023-09-20 15:24:32 公開日:2023-09-19
# リカレント可変オートエンコーダを用いた教師なし音声強調のための後方サンプリングアルゴリズム

Posterior sampling algorithms for unsupervised speech enhancement with recurrent variational autoencoder ( http://arxiv.org/abs/2309.10439v1 )

ライセンス: Link先を確認
Mostafa Sadeghi (MULTISPEECH), Romain Serizel (MULTISPEECH)(参考訳) 本稿では,リカレント変分オートエンコーダ(RVAE)に基づく教師なし音声強調問題に対処する。 このアプローチは有望な一般化性能を提供する。 それでも、テスト時の反復変動予測最大化(VEM)プロセスは、変分推論法に依存しており、高い計算複雑性をもたらす。 本稿では,rvaeを用いたem音声強調に適応した,ランジュバンダイナミクスとメトロポリスハスティングアルゴリズムに基づく効率的なサンプリング手法を提案する。 EMプロセス内の抽出可能な後部分布から直接サンプリングすることにより,変動推論の複雑さを回避することができる。 本研究では,提案手法をvemと比較し,拡散モデルに基づく最先端の教師付き音声強調手法を提案する。 その結果, サンプリングに基づくアルゴリズムは, 計算効率だけでなく, 全体的な性能にも優れることがわかった。 さらに,教師付きベースラインと比較した場合,ミスマッチテスト条件におけるロバストな一般化性能を示す。

In this paper, we address the unsupervised speech enhancement problem based on recurrent variational autoencoder (RVAE). This approach offers promising generalization performance over the supervised counterpart. Nevertheless, the involved iterative variational expectation-maximization (VEM) process at test time, which relies on a variational inference method, results in high computational complexity. To tackle this issue, we present efficient sampling techniques based on Langevin dynamics and Metropolis-Hasting algorithms, adapted to the EM-based speech enhancement with RVAE. By directly sampling from the intractable posterior distribution within the EM process, we circumvent the intricacies of variational inference. We conduct a series of experiments, comparing the proposed methods with VEM and a state-of-the-art supervised speech enhancement approach based on diffusion models. The results reveal that our sampling-based algorithms significantly outperform VEM, not only in terms of computational efficiency but also in overall performance. Furthermore, when compared to the supervised baseline, our methods showcase robust generalization performance in mismatched test conditions.
翻訳日:2023-09-20 15:24:13 公開日:2023-09-19
# autodiffusion: 自動拡散モデル加速のための時間ステップとアーキテクチャのトレーニングフリー最適化

AutoDiffusion: Training-Free Optimization of Time Steps and Architectures for Automated Diffusion Model Acceleration ( http://arxiv.org/abs/2309.10438v1 )

ライセンス: Link先を確認
Lijiang Li, Huixia Li, Xiawu Zheng, Jie Wu, Xuefeng Xiao, Rui Wang, Min Zheng, Xin Pan, Fei Chao, Rongrong Ji(参考訳) 拡散モデルは、単一の画像生成に大量の時間ステップ(参照ステップ)を必要とする表現的生成モデルとして出現している。 このような退屈なプロセスを加速するために、ステップを均一に削減することが拡散モデルの未解決原理であると考えられる。 このような一様仮定は、実際には最適解ではない、すなわち、異なるモデルに対して異なる最適時間ステップを見つけることができる。 そこで本研究では,拡散モデルの効率的な画像生成を実現するために,最適な時間ステップシーケンスと圧縮モデルアーキテクチャを統一されたフレームワークで探索する。 具体的には、まず、可能なすべての時間ステップと様々なアーキテクチャからなる統一検索空間を設計する。 次に,設計した探索空間における最適解を求めるために,二段階進化アルゴリズムを導入する。 さらに探索プロセスを高速化するために,生成したサンプルと実際のサンプルのfidスコアを用いて,サンプルの性能を推定した。 その結果,提案手法が得られた。 (i)。 トレーニングフリーで、トレーニングプロセスなしで最適な時間ステップとモデルアーキテクチャを得る。 (ii) 最も高度な拡散サンプリング装置に直交し、より良い試料品質を得るために統合することができる。 (iii) 一般化され、探索された時間ステップとアーキテクチャが、同じガイダンススケールで異なる拡散モデルに直接適用できる。 実験結果から,ImageNet 64$\times$64の17.86 FIDスコアとDDIMの138.66の4ステップのFIDスコアを用いた場合と比較すると,優れた性能が得られることがわかった。

Diffusion models are emerging expressive generative models, in which a large number of time steps (inference steps) are required for a single image generation. To accelerate such tedious process, reducing steps uniformly is considered as an undisputed principle of diffusion models. We consider that such a uniform assumption is not the optimal solution in practice; i.e., we can find different optimal time steps for different models. Therefore, we propose to search the optimal time steps sequence and compressed model architecture in a unified framework to achieve effective image generation for diffusion models without any further training. Specifically, we first design a unified search space that consists of all possible time steps and various architectures. Then, a two stage evolutionary algorithm is introduced to find the optimal solution in the designed search space. To further accelerate the search process, we employ FID score between generated and real samples to estimate the performance of the sampled examples. As a result, the proposed method is (i).training-free, obtaining the optimal time steps and model architecture without any training process; (ii). orthogonal to most advanced diffusion samplers and can be integrated to gain better sample quality. (iii). generalized, where the searched time steps and architectures can be directly applied on different diffusion models with the same guidance scale. Experimental results show that our method achieves excellent performance by using only a few time steps, e.g. 17.86 FID score on ImageNet 64 $\times$ 64 with only four steps, compared to 138.66 with DDIM.
翻訳日:2023-09-20 15:23:56 公開日:2023-09-19
# ETHICSデータセットにおけるGPT-4の評価

An Evaluation of GPT-4 on the ETHICS Dataset ( http://arxiv.org/abs/2309.10492v1 )

ライセンス: Link先を確認
Sergey Rodionov, Zarathustra Amadeus Goertzel, Ben Goertzel(参考訳) 本報告では,ETHICSデータセット上でのGPT-4の性能について概説する。 ETHICSデータセットは、正義、デオントロジー、ヴィチュア倫理、ユティリタリズム、コモンセンス倫理の5つのサブデータセットで構成されている。 道徳的判断は、道徳的ジレンマよりも共有された人間的価値を表現することを目的として、高い水準の一致を持つようにキュレートされた。 GPT-4のパフォーマンスは以前のモデルよりもはるかに優れており、共通の人間の価値を扱うことを学ぶことがAI倫理の難しい問題ではないことを示唆している。

This report summarizes a short study of the performance of GPT-4 on the ETHICS dataset. The ETHICS dataset consists of five sub-datasets covering different fields of ethics: Justice, Deontology, Virtue Ethics, Utilitarianism, and Commonsense Ethics. The moral judgments were curated so as to have a high degree of agreement with the aim of representing shared human values rather than moral dilemmas. GPT-4's performance is much better than that of previous models and suggests that learning to work with common human values is not the hard problem for AI ethics.
翻訳日:2023-09-20 15:16:03 公開日:2023-09-19
# DCPT:夜間UAVでのダークネスの追跡

DCPT: Darkness Clue-Prompted Tracking in Nighttime UAVs ( http://arxiv.org/abs/2309.10491v1 )

ライセンス: Link先を確認
Jiawen Zhu, Huayi Tang, Zhi-Qi Cheng, Jun-Yan He, Bin Luo, Shihao Qiu, Shengming Li, Huchuan Lu(参考訳) 既存の夜間無人航空機(UAV)トラッカーは"Enhance-then-Track"アーキテクチャに従っている。 この分離された拡張とトラッキングは、エンドツーエンドのトレーニング可能なビジョンシステムの構築に失敗します。 そこで本研究では,夜間の強靭なUAV追跡を効率よく学習し,暗黙の手がかりを生成する,Darkness Clue-Prompted Tracking (DCPT) という新しいアーキテクチャを提案する。 別個のエンハンサーがなければ、DCPTは暗黒誘導プロンプト(DCP)を使用して、アンチダーク機能を直接プロンプトにエンコードする。 具体的には、DCPは暗黒の手がかりの投影を強調し、損なうことを反復的に学習する。 そして、学習した視覚的プロンプトを、トランスフォーマー層にまたがる固定パラメータで、昼間のトラッカーに注入する。 さらに、ゲート特徴集約機構は、プロンプトとプロンプトとベースモデルとの適応的な融合を可能にする。 複数のダークシナリオベンチマークにおいて,DCPTの最先端性能を示す実験を行った。 DCPTにおける拡張と追跡の統一的なエンドツーエンド学習は、より訓練可能なシステムを実現する。 暗黒の手がかりは、余分な加群なしで効率的に反暗黒の知識を注入する。 コードとモデルはリリースされる。

Existing nighttime unmanned aerial vehicle (UAV) trackers follow an "Enhance-then-Track" architecture - first using a light enhancer to brighten the nighttime video, then employing a daytime tracker to locate the object. This separate enhancement and tracking fails to build an end-to-end trainable vision system. To address this, we propose a novel architecture called Darkness Clue-Prompted Tracking (DCPT) that achieves robust UAV tracking at night by efficiently learning to generate darkness clue prompts. Without a separate enhancer, DCPT directly encodes anti-dark capabilities into prompts using a darkness clue prompter (DCP). Specifically, DCP iteratively learns emphasizing and undermining projections for darkness clues. It then injects these learned visual prompts into a daytime tracker with fixed parameters across transformer layers. Moreover, a gated feature aggregation mechanism enables adaptive fusion between prompts and between prompts and the base model. Extensive experiments show state-of-the-art performance for DCPT on multiple dark scenario benchmarks. The unified end-to-end learning of enhancement and tracking in DCPT enables a more trainable system. The darkness clue prompting efficiently injects anti-dark knowledge without extra modules. Code and models will be released.
翻訳日:2023-09-20 15:15:51 公開日:2023-09-19
# 反射係数測定による磁束駆動kerrパラメトリック発振器の分光

Spectroscopy of flux-driven Kerr parametric oscillators by reflection coefficient measurement ( http://arxiv.org/abs/2309.10488v1 )

ライセンス: Link先を確認
Aiko Yamaguchi, Shumpei Masuda, Yuichiro Matsuzaki, Tomohiro Yamaji, Tetsuro Satoh, Ayuka Morioka, Yohei Kawakami, Yuichi Igarashi, Masayuki Shirane, Tsuyoshi Yamamoto(参考訳) フラックス変調により誘導される2光子駆動下での反射係数の測定に基づいて,Kerrパラメトリック発振器(KPO)の分光特性を報告する。 測定された反射スペクトルは、2光子駆動振幅に依存した数値シミュレーションとよく一致している。 スペクトルは系の固有エネルギー、遷移行列要素、固有状態の集団の変化と解釈できるが、共鳴構造の直線幅は十分に説明されていない。 また,ラビ分割とスタークシフトの概念を用いてスペクトルの駆動振幅依存性を解析的に説明できることを示した。 実験により得られたスペクトルと理論を比較することで、デバイスにおける2光子駆動振幅を正確に決定できることが示され、量子情報処理におけるKPOの適用において重要である。

We report the spectroscopic characterization of a Kerr parametric oscillator (KPO) based on the measurement of its reflection coefficient under a two-photon drive induced by flux modulation. The measured reflection spectra show good agreement with numerical simulations in term of their dependence on the two-photon drive amplitude. The spectra can be interpreted as changes in system's eigenenergies, transition matrix elements, and the population of the eigenstates, although the linewidth of the resonance structure is not fully explained. We also show that the drive-amplitude dependence of the spectra can be explained analytically by using the concepts of Rabi splitting and the Stark shift. By comparing the experimentally obtained spectra with theory, we show that the two-photon drive amplitude at the device can be precisely determined, which is important for the application of KPOs in quantum information processing.
翻訳日:2023-09-20 15:15:33 公開日:2023-09-19
# 正規対ロンバルド変換におけるグリッドと自然文の比較研究

A comparative study of Grid and Natural sentences effects on Normal-to-Lombard conversion ( http://arxiv.org/abs/2309.10485v1 )

ライセンス: Link先を確認
Hongyang Chen, Yuhong Yang, Qingmu Liu, Baifeng Li, Weiping Tu, Song Lin(参考訳) グリッド文は一般にロンバルド効果と通常のロンバルド変換を研究するために用いられる。 しかし、実世界のアプリケーションで自然言語理解性を改善するのに、グリッド文で訓練された通常のロンバルドモデルが十分であるかどうかは不明である。 本稿では,中国語の TIMIT から自然文を抽出する並列な Lombard コーパス (Lombard Chinese TIMIT, LCT) の記録について述べる。 次に,lctと拡張マンダリンロンバルドグリッドコーパス(emalg)を用いて,ロンバルド効果と正常からランバルドへの変換の観点から自然文とグリッド文を比較した。 ランゴバルド効果のパラメトリック解析により、雑音レベルが増加するにつれて、自然文とグリッド文の両方がパラメータに類似する変化を示すが、アルファ比の増加の観点では、グリッド文が増大する。 性別による主観的インテリジェンス評価と信号対雑音比(Signal-to-Noise Ratios)に続いて、EMALGでトレーニングされたStarGANモデルは、インテリジェンスの改善の観点からLCTでトレーニングされたモデルよりも一貫して優れている。 この優れた性能は、EMALGの正規語からロンバルド語へのアルファ比の増大に起因する可能性がある。

Grid sentence is commonly used for studying the Lombard effect and Normal-to-Lombard conversion. However, it's unclear if Normal-to-Lombard models trained on grid sentences are sufficient for improving natural speech intelligibility in real-world applications. This paper presents the recording of a parallel Lombard corpus (called Lombard Chinese TIMIT, LCT) extracting natural sentences from Chinese TIMIT. Then We compare natural and grid sentences in terms of Lombard effect and Normal-to-Lombard conversion using LCT and Enhanced MAndarin Lombard Grid corpus (EMALG). Through a parametric analysis of the Lombard effect, We find that as the noise level increases, both natural sentences and grid sentences exhibit similar changes in parameters, but in terms of the increase of the alpha ratio, grid sentences show a greater increase. Following a subjective intelligibility assessment across genders and Signal-to-Noise Ratios, the StarGAN model trained on EMALG consistently outperforms the model trained on LCT in terms of improving intelligibility. This superior performance may be attributed to EMALG's larger alpha ratio increase from normal to Lombard speech.
翻訳日:2023-09-20 15:15:10 公開日:2023-09-19
# recall+: 意味セグメンテーションにおける連続学習のためのwebベースリプレイ

RECALL+: Adversarial Web-based Replay for Continual Learning in Semantic Segmentation ( http://arxiv.org/abs/2309.10479v1 )

ライセンス: Link先を確認
Chang Liu, Giulia Rizzoli, Francesco Barbato, Umberto Michieli, Yi Niu and Pietro Zanuttigh(参考訳) 過去の知識の破滅的な忘れは、通常様々な正規化戦略によって扱われる連続学習において重要な問題である。 しかし、いくつかの段階的なステップが実行される場合、既存の手法は特に苦労する。 本稿では,従来の手法(RECALL)を拡張し,教師なしのWebクローリングデータを活用して,オンラインデータベースから古いクラスの例を検索する。 ウェブデータの評価を行なわなかった当初のアプローチとは違って、逆学習と適応しきい値に基づく2つの新しいアプローチを導入し、Webデータからのみ、もはや利用できないトレーニングデータの統計に強く類似したサンプルを選択する。 さらに,疑似ラベル方式を改善し,現在のステップで学習されるクラスも考慮した,より正確なwebデータのラベル付けを実現する。 実験結果から,この拡張アプローチは,特に複数の段階的な学習ステップを行う場合,顕著な結果が得られることがわかった。

Catastrophic forgetting of previous knowledge is a critical issue in continual learning typically handled through various regularization strategies. However, existing methods struggle especially when several incremental steps are performed. In this paper, we extend our previous approach (RECALL) and tackle forgetting by exploiting unsupervised web-crawled data to retrieve examples of old classes from online databases. Differently from the original approach that did not perform any evaluation of the web data, here we introduce two novel approaches based on adversarial learning and adaptive thresholding to select from web data only samples strongly resembling the statistics of the no longer available training ones. Furthermore, we improved the pseudo-labeling scheme to achieve a more accurate labeling of web data that also consider classes being learned in the current step. Experimental results show that this enhanced approach achieves remarkable results, especially when multiple incremental learning steps are performed.
翻訳日:2023-09-20 15:14:33 公開日:2023-09-19
# linemarknet:バレット駐車のためのラインランドマーク検出

LineMarkNet: Line Landmark Detection for Valet Parking ( http://arxiv.org/abs/2309.10475v1 )

ライセンス: Link先を確認
Zizhang Wu, Fan Wang, Yuanzhu Gan, Tianhao Xu, Weiwei Sun and Rui Tang(参考訳) 自動運転における長年の未解決問題であるvalet parkingの高精度かつ効率的なラインランドマーク検出を目指している。 そこで本研究では,軽量なモジュールを慎重に設計する深線ランドマーク検出システムを提案する。 具体的には、3つの物理的なラインと1つの新しいメンタルラインを含む4つの一般的なラインランドマークを経験的に設計する。 4路線のランドマークはバレット駐車に有効である。 We then develop a deep network (LineMarkNet) to detect line landmarks from surround-view cameras where we, via the pre-calibrated homography, fuse context from four separate cameras into the unified bird-eye-view (BEV) space, specifically we fuse the surroundview features and BEV features, then employ the multi-task decoder to detect multiple line landmarks where we apply the center-based strategy for object detection task, and design our graph transformer to enhance the vision transformer with hierarchical level graph reasoning for semantic segmentation task. 最後に、検出されたラインランドマーク(例えばインターセプト・スロープ形式)をパラメータ化し、新しいフィルタリングバックエンドは時間的・多ビュー整合性を取り入れ、スムーズで安定した検出を実現する。 さらに,提案手法を検証するために,大規模データセットにアノテートする。 実験結果から,本フレームワークは,複数のライン検出手法と比較して性能が向上し,Qualcomm 820Aプラットフォーム上でのリアルタイムラインランドマーク検出におけるマルチタスクネットワークの効率が向上し,一方,精度が向上した。

We aim for accurate and efficient line landmark detection for valet parking, which is a long-standing yet unsolved problem in autonomous driving. To this end, we present a deep line landmark detection system where we carefully design the modules to be lightweight. Specifically, we first empirically design four general line landmarks including three physical lines and one novel mental line. The four line landmarks are effective for valet parking. We then develop a deep network (LineMarkNet) to detect line landmarks from surround-view cameras where we, via the pre-calibrated homography, fuse context from four separate cameras into the unified bird-eye-view (BEV) space, specifically we fuse the surroundview features and BEV features, then employ the multi-task decoder to detect multiple line landmarks where we apply the center-based strategy for object detection task, and design our graph transformer to enhance the vision transformer with hierarchical level graph reasoning for semantic segmentation task. At last, we further parameterize the detected line landmarks (e.g., intercept-slope form) whereby a novel filtering backend incorporates temporal and multi-view consistency to achieve smooth and stable detection. Moreover, we annotate a large-scale dataset to validate our method. Experimental results show that our framework achieves the enhanced performance compared with several line detection methods and validate the multi-task network's efficiency about the real-time line landmark detection on the Qualcomm 820A platform while meantime keeps superior accuracy, with our deep line landmark detection system.
翻訳日:2023-09-20 15:14:00 公開日:2023-09-19
# スピン量子ビットのゲート型分散センシングにおける容量クロストーク

Capacitive crosstalk in gate-based dispersive sensing of spin qubits ( http://arxiv.org/abs/2309.10473v1 )

ライセンス: Link先を確認
Eoin G. Kelly, Alexei Orekhov, Nico Hendrickx, Matthias Mergenthaler, Felix Schupp, Stephan Paredes, Rafael S. Eggli, Andreas V. Kuhlmann, Patrick Harvey-Collard, Andreas Fuhrer, Gian Salis(参考訳) ゲートベースの分散センシングでは、量子ドットゲートに取り付けられた共振器の応答を反射電波信号により検出する。 これによりスピン量子ビットの高速読み出しと量子ドットの配列の調整が可能になるが、共振器はスプリアス信号の増幅と量子ドット電位のゆらぎを引き起こすため、クロストークに対する感受性の増大を犠牲にしている。 超伝導NbNインダクタと内部品質係数$Q_{\mathrm{i}}$>1000のタンク回路を、シリコン二重量子ドットデバイスのインタードットバリアゲートに取り付ける。 共振器の周波数に一致する周波数成分で隣り合うプランジャゲートが駆動されるとき, 共振器のリングアップを生じる無線周波数クロストークを定量化する。 この効果はクビット動作を複雑化し、共振器の負荷品質係数、デバイスゲート電極間の相互容量、地中への寄生容量の反転とスケールする。 共振器周波数以下では、このタイプのクロストークを著しく抑制することが期待される。

In gate-based dispersive sensing, the response of a resonator attached to a quantum dot gate is detected by a reflected radio-frequency signal. This enables fast readout of spin qubits and tune up of arrays of quantum dots, but comes at the expense of increased susceptibility to crosstalk, as the resonator can amplify spurious signals and induce fluctuations in the quantum dot potential. We attach tank circuits with superconducting NbN inductors and internal quality factors $Q_{\mathrm{i}}$>1000 to the interdot barrier gate of silicon double quantum dot devices. Measuring the interdot transition in transport, we quantify radio-frequency crosstalk that results in a ring-up of the resonator when neighbouring plunger gates are driven with frequency components matching the resonator frequency. This effect complicates qubit operation and scales with the loaded quality factor of the resonator, the mutual capacitance between device gate electrodes, and with the inverse of the parasitic capacitance to ground. Setting qubit frequencies below the resonator frequency is expected to substantially suppress this type of crosstalk.
翻訳日:2023-09-20 15:13:34 公開日:2023-09-19
# 3d写真における完全自動ランドマークと顔セグメンテーション

Fully automated landmarking and facial segmentation on 3D photographs ( http://arxiv.org/abs/2309.10472v1 )

ライセンス: Link先を確認
Bo Berends, Freek Bielevelt, Ruud Schreurs, Shankeeth Vinayahalingam, Thomas Maal and Guido de Jong(参考訳) 3次元顔ステレオフォトグラメトリーは、イオン化放射線を使わずに、頭蓋骨軟組織の詳細な表現を提供する。 ランドマークのマニュアルアノテーションは、現在脳波分析の標準となっているが、それは時間を要するプロセスであり、ヒューマンエラーの傾向にある。 本研究の目的は,深層学習に基づくアプローチを用いて,自動脳波アノテーション法を開発し,評価することであった。 10個のランドマークが1人の観察者によって2897の顔写真に手動で注釈付けされた。 自動ランドマークワークフローには、2つの連続したDiffusionNetモデルと、顔のセグメンテーションのための追加アルゴリズムが含まれていた。 データセットはランダムにトレーニングとテストデータセットに分割された。 トレーニングデータセットはディープラーニングネットワークのトレーニングに使用され、テストデータセットは自動ワークフローのパフォーマンスを評価するために使用された。 自動ランドマークと手動ランドマーク間のユークリッド距離を計算し,手動アノテーションと半自動ランドマーク法との比較により,ワークフローの精度を評価した。 ワークフローはすべてのテストケースの98.6%で成功した。 ディープラーニングに基づくランドマーク化手法は,正確かつ一貫したランドマークアノテーションを実現している。 1.69mm (+/-1.15 mm) の平均精度は、マニュアルアノテーションのobserver間変動(1.31 +/-0.91 mm)と同等であった。 オートマチックとマニュアルのランドマークの間のユークリッド距離は69%で2mm以内であった。 DiffusionNetベースのアプローチにより、3D写真のランドマークの自動アノテーションが達成された。 提案手法は,大規模データセットの定量的解析を可能にし,診断,フォローアップ,仮想手術計画に使用できる。

Three-dimensional facial stereophotogrammetry provides a detailed representation of craniofacial soft tissue without the use of ionizing radiation. While manual annotation of landmarks serves as the current gold standard for cephalometric analysis, it is a time-consuming process and is prone to human error. The aim in this study was to develop and evaluate an automated cephalometric annotation method using a deep learning-based approach. Ten landmarks were manually annotated on 2897 3D facial photographs by a single observer. The automated landmarking workflow involved two successive DiffusionNet models and additional algorithms for facial segmentation. The dataset was randomly divided into a training and test dataset. The training dataset was used to train the deep learning networks, whereas the test dataset was used to evaluate the performance of the automated workflow. The precision of the workflow was evaluated by calculating the Euclidean distances between the automated and manual landmarks and compared to the intra-observer and inter-observer variability of manual annotation and the semi-automated landmarking method. The workflow was successful in 98.6% of all test cases. The deep learning-based landmarking method achieved precise and consistent landmark annotation. The mean precision of 1.69 (+/-1.15) mm was comparable to the inter-observer variability (1.31 +/-0.91 mm) of manual annotation. The Euclidean distance between the automated and manual landmarks was within 2 mm in 69%. Automated landmark annotation on 3D photographs was achieved with the DiffusionNet-based approach. The proposed method allows quantitative analysis of large datasets and may be used in diagnosis, follow-up, and virtual surgical planning.
翻訳日:2023-09-20 15:13:09 公開日:2023-09-19
# 高次元クラスター状態を持つ資源効率フォトニック量子計算

Resource-efficient photonic quantum computation with high-dimensional cluster states ( http://arxiv.org/abs/2309.10464v1 )

ライセンス: Link先を確認
Ohad Lib, Yaron Bromberg(参考訳) 量子コンピュータは科学とテクノロジーに革命をもたらすが、その実現はあらゆるプラットフォームで困難である。 スケーラビリティへの有望な経路はフォトニックな計測に基づく量子計算であり、大規模なクラスタ状態の単一量子ビット計測とフィードフォワードは、フォールトトレラントな量子計算を可能にする。 しかし、検出確率は、状態を構成する光子の数とともに指数関数的に低下するため、高い速度で大きなクラスター状態を生成することは、非常に難しい。 我々は、高次元空間符号化により各光子上の複数の量子ビットを符号化し、100Hzの速度で9量子ビットを超えるクラスター状態を生成する。 さらに,同じ光子にエンコードされた量子ビット間を瞬時にフィードフォワードすることで,高次元エンコーディングにより計算時間を大幅に削減できることを実証する。 本研究では,高次元エンタングルメントを用いた資源効率測定に基づく量子計算手法を提案する。

Quantum computers can revolutionize science and technology, but their realization remains challenging across all platforms. A promising route to scalability is photonic measurement-based quantum computation, where single-qubit measurements on large cluster states, together with feedforward, enable fault-tolerant quantum computation. However, generating large cluster states at high rates is notoriously difficult, as detection probabilities drop exponentially with the number of photons comprising the state. We tackle this challenge by encoding multiple qubits on each photon through high-dimensional spatial encoding, generating cluster states with over nine qubits at a rate of 100Hz. Additionally, we demonstrate that high-dimensional encoding substantially reduces the computation duration by enabling instantaneous feedforward between qubits encoded in the same photon. Our findings pave the way for resource-efficient measurement-based quantum computation using high-dimensional entanglement.
翻訳日:2023-09-20 15:12:44 公開日:2023-09-19
# AIのダークサイドを探る - ChatGPTによる高度なフィッシングアタック設計とデプロイ

Exploring the Dark Side of AI: Advanced Phishing Attack Design and Deployment Using ChatGPT ( http://arxiv.org/abs/2309.10463v1 )

ライセンス: Link先を確認
Nils Begou, Jeremy Vinoy, Andrzej Duda, Maciej Korczynski(参考訳) 本稿では,ChatGPTによる高度なフィッシング攻撃と大規模展開の自動化の可能性を検討する。 私たちはChatGPTがフィッシング攻撃の次の部分を生成するようにします。 i) ターゲットサイトをクローンすること 二 認証情報を盗むためのコードの統合 三 難読化符号、 四 ホスティングプロバイダ上でのwebサイト展開の自動化 五 フィッシングドメイン名を登録すること、及び vi) Webサイトをリバースプロキシに統合すること。 自動生成されたフィッシングキットの初期評価は、その高速な生成とデプロイプロセスと、結果のページをターゲットのWebサイトと密接な類似性を強調している。 より広い範囲において、aiの最近の進歩は、フィッシング攻撃における誤使用の潜在的なリスクの根底にあることを実証する。 このことは、AIシステム内の強化された対策の必要性を強調している。

This paper explores the possibility of using ChatGPT to develop advanced phishing attacks and automate their large-scale deployment. We make ChatGPT generate the following parts of a phishing attack: i) cloning a targeted website, ii) integrating code for stealing credentials, iii) obfuscating code, iv) automating website deployment on a hosting provider, v) registering a phishing domain name, and vi) integrating the website with a reverse proxy. The initial assessment of the automatically generated phishing kits highlights their rapid generation and deployment process as well as the close resemblance of the resulting pages to the target website. More broadly, we demonstrate that recent advances in AI underscore the potential risks of its misuse in phishing attacks, which can lead to their increased prevalence and severity. This highlights the necessity for enhanced countermeasures within AI systems.
翻訳日:2023-09-20 15:12:29 公開日:2023-09-19
# Consistency Guided Bottleneck を用いた教師なしランドマーク発見

Unsupervised Landmark Discovery Using Consistency Guided Bottleneck ( http://arxiv.org/abs/2309.10518v1 )

ライセンス: Link先を確認
Mamona Awan, Muhammad Haris Khan, Sanoojan Baliah, Muhammad Ahmad Waseem, Salman Khan, Fahad Shahbaz Khan and Arif Mahmood(参考訳) 対象ランドマークの教師なし発見の課題について検討する。 近年の手法の多くは、2次元ガウス熱マップを生成するためのボトルネックに依存しているが、これはおそらく効果的な構造的手がかりが欠如しているため、訓練中に情報熱マップを生成する場合に限られている。 また、全ての予測されたランドマークは、基礎的真理の監督がないにもかかわらず意味的に関連していると仮定される。 本研究では,画像再構成に基づくパイプラインにおいて,擬似地盤真理との整合性スコアを用いて適応的なヒートマップを生成する,一貫性に基づくボトルネックを提案する。 画像間のランドマーク対応を形成することで擬似スーパービジョンを得る。 この整合性は、その雑音のより上の一貫したランドマークをランク付けする適応型ヒートマップの生成において発見されたランドマークの不確かさを変調し、堅牢性を改善する効果的な構造情報を提供する。 MAFL, AFLW, LS3D, Cats, Shoesを含む5つの多様なデータセットの評価は, 既存の最先端手法と比較して, 提案手法の優れた性能を示している。 私たちのコードはhttps://github.com/MamonaAwan/CGB_ULD.comで公開されています。

We study a challenging problem of unsupervised discovery of object landmarks. Many recent methods rely on bottlenecks to generate 2D Gaussian heatmaps however, these are limited in generating informed heatmaps while training, presumably due to the lack of effective structural cues. Also, it is assumed that all predicted landmarks are semantically relevant despite having no ground truth supervision. In the current work, we introduce a consistency-guided bottleneck in an image reconstruction-based pipeline that leverages landmark consistency, a measure of compatibility score with the pseudo-ground truth to generate adaptive heatmaps. We propose obtaining pseudo-supervision via forming landmark correspondence across images. The consistency then modulates the uncertainty of the discovered landmarks in the generation of adaptive heatmaps which rank consistent landmarks above their noisy counterparts, providing effective structural information for improved robustness. Evaluations on five diverse datasets including MAFL, AFLW, LS3D, Cats, and Shoes demonstrate excellent performance of the proposed approach compared to the existing state-of-the-art methods. Our code is publicly available at https://github.com/MamonaAwan/CGB_ULD.
翻訳日:2023-09-20 15:06:34 公開日:2023-09-19
# 愛か憎しみか? 共有か分割か? 分割学習と準同型暗号を用いたプライバシー保護訓練

Love or Hate? Share or Split? Privacy-Preserving Training Using Split Learning and Homomorphic Encryption ( http://arxiv.org/abs/2309.10517v1 )

ライセンス: Link先を確認
Tanveer Khan, Khoa Nguyen, Antonis Michalas, Alexandros Bakas(参考訳) 分割学習(slit learning, sl)は,クライアントやサーバなど参加者が生データを共有せずに機械学習モデルをトレーニングできる,新たな協調学習テクニックである。 この設定では、クライアントは最初、生データに機械学習モデルの一部を適用してアクティベーションマップを生成し、その後、トレーニングプロセスを続けるためにサーバに送信する。 この分野の以前の研究は、アクティベーションマップの再構築がクライアントデータのプライバシリークを引き起こすことを実証した。 それに加えて、SLのプライバシー漏洩を克服する既存の緩和技術は、精度の点で著しく悪化している。 本稿では,準同型暗号化されたデータ上で動作可能なu字型slに基づくプロトコルを構築することにより,これまでの作業を改善する。 より正確には、当社のアプローチでは、クライアントはアクティベーションマップに準同型暗号化を適用してサーバに送信し、ユーザのプライバシを保護する。 これは、他のSLベースの作業と比べてプライバシーの漏洩を減らす重要な改善である。 最後に, パラメータの最適セットを用いて, U字型SLにおけるHEデータを用いたトレーニングは, 平文でのトレーニングに比べて2.65%の精度しか低下しないことを示した。 さらに、生のトレーニングデータプライバシが保存される。

Split learning (SL) is a new collaborative learning technique that allows participants, e.g. a client and a server, to train machine learning models without the client sharing raw data. In this setting, the client initially applies its part of the machine learning model on the raw data to generate activation maps and then sends them to the server to continue the training process. Previous works in the field demonstrated that reconstructing activation maps could result in privacy leakage of client data. In addition to that, existing mitigation techniques that overcome the privacy leakage of SL prove to be significantly worse in terms of accuracy. In this paper, we improve upon previous works by constructing a protocol based on U-shaped SL that can operate on homomorphically encrypted data. More precisely, in our approach, the client applies homomorphic encryption on the activation maps before sending them to the server, thus protecting user privacy. This is an important improvement that reduces privacy leakage in comparison to other SL-based works. Finally, our results show that, with the optimum set of parameters, training with HE data in the U-shaped SL setting only reduces accuracy by 2.65% compared to training on plaintext. In addition, raw training data privacy is preserved.
翻訳日:2023-09-20 15:06:12 公開日:2023-09-19
# 部分特定因果シミュレーション

Partially-Specified Causal Simulations ( http://arxiv.org/abs/2309.10514v1 )

ライセンス: Link先を確認
A. Zamanian, L. Mareis, N. Ahmidi(参考訳) シミュレーション研究は因果推論手法の検証において重要な役割を果たす。 シミュレーションの結果は,試験の実施条件に応じて設計した場合にのみ信頼性が高い。 それでも、多くの因果推論文献は、過度に制限された、あるいは不特定の研究を設計する傾向がある。 本稿では,因果法に対する不適切なシミュレーション設計の問題点を詳述し,効果的なシミュレーションフレームワークのためのデシデラタの一覧をコンパイルする。 次に,それらのデシデラタに対応するシミュレーションフレームワークである部分ランダム因果シミュレーション(parcs)を導入する。 PARCSはグラフィカル因果モデルと幅広い調整可能なパラメータに基づいてデータを合成する。 通常の因果的仮定からパラメータへの正当なマッピングがあるので、ユーザーは関連するパラメータのサブセットを識別および指定し、残りのパラメータをランダム化することで、因果的メソッドのためのデータ生成プロセスの範囲を作成できる。 その結果は、因果的主張に対するより包括的で包括的な実証的調査となる。 PARCSを用いて、2つのよく知られた因果発見と欠落データ解析論文のシミュレーション研究を再現・拡張し、適切なシミュレーション設計の必要性を強調する。 その結果,PARCSをシミュレーションに用いた場合,これらの論文は結果を改善し,拡張したと考えられる。 フレームワークもpythonパッケージとして実装されている。 PARCSの包括性と透明性について論じることで、因果推論研究者に今後の研究の標準ツールとして活用することを奨励する。

Simulation studies play a key role in the validation of causal inference methods. The simulation results are reliable only if the study is designed according to the promised operational conditions of the method-in-test. Still, many causal inference literature tend to design over-restricted or misspecified studies. In this paper, we elaborate on the problem of improper simulation design for causal methods and compile a list of desiderata for an effective simulation framework. We then introduce partially-randomized causal simulation (PARCS), a simulation framework that meets those desiderata. PARCS synthesizes data based on graphical causal models and a wide range of adjustable parameters. There is a legible mapping from usual causal assumptions to the parameters, thus, users can identify and specify the subset of related parameters and randomize the remaining ones to generate a range of complying data-generating processes for their causal method. The result is a more comprehensive and inclusive empirical investigation for causal claims. Using PARCS, we reproduce and extend the simulation studies of two well-known causal discovery and missing data analysis papers to emphasize the necessity of a proper simulation design. Our results show that those papers would have improved and extended the findings, had they used PARCS for simulation. The framework is implemented as a Python package, too. By discussing the comprehensiveness and transparency of PARCS, we encourage causal inference researchers to utilize it as a standard tool for future works.
翻訳日:2023-09-20 15:05:50 公開日:2023-09-19
# 星凸形状をもつインスタンスセグメンテーションの不確かさ推定

Uncertainty Estimation in Instance Segmentation with Star-convex Shapes ( http://arxiv.org/abs/2309.10513v1 )

ライセンス: Link先を確認
Qasim M. K. Siddiqui, Sebastian Starke and Peter Steinbach(参考訳) インスタンスセグメンテーションは、ディープニューラルネットワークベースのアルゴリズムによる有望な進歩を目撃している。 しかし、これらのモデルはしばしば不当な予測と不当な信頼レベルを示す。 これにより、情報意思決定において予測不確実性を評価することが重要となる。 既存の手法は主に分類や回帰タスクの不確実性の定量化に重点を置いており、インスタンスセグメンテーションに重点を置いていない。 本研究は,恒星対流形状のインスタンスの位置に関連する空間的確実性の推定に関する課題に対処する。 モンテカルロドロップアウト法またはディープアンサンブル法を用いて,各インスタンスの空間的および分数的確信度を計算する2つのクラスタリング手法を評価した。 本研究は,空間的および分数的確実性スコアの組み合わせにより,個々の確実性スコアよりもキャリブレーション推定が向上することを示す。 特に実験結果から,新しい放射状クラスタリング手法と併用したDeep Ensemble手法が有効であることが示された。 本研究は,モデル信頼性と意思決定における推定確信のキャリブレーションを評価することの重要性を強調する。

Instance segmentation has witnessed promising advancements through deep neural network-based algorithms. However, these models often exhibit incorrect predictions with unwarranted confidence levels. Consequently, evaluating prediction uncertainty becomes critical for informed decision-making. Existing methods primarily focus on quantifying uncertainty in classification or regression tasks, lacking emphasis on instance segmentation. Our research addresses the challenge of estimating spatial certainty associated with the location of instances with star-convex shapes. Two distinct clustering approaches are evaluated which compute spatial and fractional certainty per instance employing samples by the Monte-Carlo Dropout or Deep Ensemble technique. Our study demonstrates that combining spatial and fractional certainty scores yields improved calibrated estimation over individual certainty scores. Notably, our experimental results show that the Deep Ensemble technique alongside our novel radial clustering approach proves to be an effective strategy. Our findings emphasize the significance of evaluating the calibration of estimated certainties for model reliability and decision-making.
翻訳日:2023-09-20 15:05:28 公開日:2023-09-19
# 単一画像に基づく教師なし関節分割と認知

Single-Image based unsupervised joint segmentation and denoising ( http://arxiv.org/abs/2309.10511v1 )

ライセンス: Link先を確認
Nadja Gruber, Johannes Schwab, No\'emie Debroux, Nicolas Papadakis, Markus Haltmeier(参考訳) 本研究では,単一画像の分割とデノナイズのための教師なし手法を開発する。 この目的のために,変動分節法の利点と,自己教師付き,単一画像に基づく深層学習手法のパワーを組み合わせる。 我々の手法の大きな強みは、大量のラベル付きサンプルが必要なデータ駆動手法とは対照的に、トレーニングデータベースを使わずに画像を複数の意味のある領域に分割できることである。 さらに, 分節化と分節化を結合した新しいエネルギー汎関数を, 双方のタスクが相互に利益をもたらす方法で導入する。 高ノイズや汎用的なテクスチャを扱うことができない、既存の単一画像に基づく変分分割法の制限は、この特定の組み合わせと自己教師付き画像デノイジングによって取り組まれている。 本稿では,特に顕微鏡で利用できる非常にノイズの多い画像に対して,提案する共同手法は,その逐次的手法と,純粋に復調やセグメンテーションに焦点を当てた代替手法よりも優れていることを示す。 別の比較は、同じアプリケーション用に設計された教師付きディープラーニングアプローチで行われ、私たちのアプローチの優れたパフォーマンスを強調します。

In this work, we develop an unsupervised method for the joint segmentation and denoising of a single image. To this end, we combine the advantages of a variational segmentation method with the power of a self-supervised, single-image based deep learning approach. One major strength of our method lies in the fact, that in contrast to data-driven methods, where huge amounts of labeled samples are necessary, our model can segment an image into multiple meaningful regions without any training database. Further, we introduce a novel energy functional in which denoising and segmentation are coupled in a way that both tasks benefit from each other. The limitations of existing single-image based variational segmentation methods, which are not capable of dealing with high noise or generic texture, are tackled by this specific combination with self-supervised image denoising. We propose a unified optimisation strategy and show that, especially for very noisy images available in microscopy, our proposed joint approach outperforms its sequential counterpart as well as alternative methods focused purely on denoising or segmentation. Another comparison is conducted with a supervised deep learning approach designed for the same application, highlighting the good performance of our approach.
翻訳日:2023-09-20 15:05:09 公開日:2023-09-19
# 高スループット・低消費電力用ニューラルネットワークの論理設計

Logic Design of Neural Networks for High-Throughput and Low-Power Applications ( http://arxiv.org/abs/2309.10510v1 )

ライセンス: Link先を確認
Kangwei Xu, Grace Li Zhang, Ulf Schlichtmann, Bing Li(参考訳) ニューラルネットワーク(NN)は様々な分野に展開されている。 NNでは、多数のmultiplyaccumulate (MAC)操作を行う必要がある。 既存のデジタルハードウェアプラットフォームの多くは、MAC操作を高速化するために並列MACユニットに依存している。 しかし、与えられた領域制約の下では、そのようなプラットフォーム内のMACユニット数は制限されているため、MACユニットはニューラルネットワークでMAC操作を実行するために再利用されなければならない。 したがって、分類結果を生成するスループットは高くないため、極端にスループットの高いシナリオにおける従来のハードウェアプラットフォームの適用を防げる。 また,データ移動による電力消費も高い。 この課題を克服するために,本論文では,対応する論理回路を持つニューラルネットワークにおいて,macやreluなどのニューロンにおける全ての操作をフラットにし実装することを提案する。 このような論理設計のスループットの向上と消費電力削減のために、重み値をMACユニットに埋め込んで論理を単純化することにより、MACユニットの遅延と重み移動による消費電力を低減することができる。 さらに、ニューラルネットワークの論理回路のスループットを向上させるために、再見積技術が用いられる。 さらに,ニューラルネットワークの論理設計の領域を削減するためのハードウェア・アウェア・トレーニング手法を提案する。 実験の結果,複数の高スループットアプリケーションにおいて高スループットと低消費電力を実現することができた。

Neural networks (NNs) have been successfully deployed in various fields. In NNs, a large number of multiplyaccumulate (MAC) operations need to be performed. Most existing digital hardware platforms rely on parallel MAC units to accelerate these MAC operations. However, under a given area constraint, the number of MAC units in such platforms is limited, so MAC units have to be reused to perform MAC operations in a neural network. Accordingly, the throughput in generating classification results is not high, which prevents the application of traditional hardware platforms in extreme-throughput scenarios. Besides, the power consumption of such platforms is also high, mainly due to data movement. To overcome this challenge, in this paper, we propose to flatten and implement all the operations at neurons, e.g., MAC and ReLU, in a neural network with their corresponding logic circuits. To improve the throughput and reduce the power consumption of such logic designs, the weight values are embedded into the MAC units to simplify the logic, which can reduce the delay of the MAC units and the power consumption incurred by weight movement. The retiming technique is further used to improve the throughput of the logic circuits for neural networks. In addition, we propose a hardware-aware training method to reduce the area of logic designs of neural networks. Experimental results demonstrate that the proposed logic designs can achieve high throughput and low power consumption for several high-throughput applications.
翻訳日:2023-09-20 15:04:47 公開日:2023-09-19
# テンソルネットワークを用いた三対角 qubo および qudo 問題の多項式時間解法

Polynomial-time Solver of Tridiagonal QUBO and QUDO problems with Tensor Networks ( http://arxiv.org/abs/2309.10509v1 )

ライセンス: Link先を確認
Alejandro Mata Ali, I\~nigo Perez Delgado, Marina Ristol Roura and Aitor Moreno Fdez. de Leceta(参考訳) 本稿では, テンソルネットワークの量子インスピレーション技術を用いて, 三元対角非拘束二元最適化(QUBO)問題と準拘束非拘束離散最適化(QUDO)問題を解決するアルゴリズムを提案する。 本手法は,仮想時間発展を応用し,最大振幅状態を得るための一連の部分的トレースを行う量子状態のシミュレーションに基づいている。 また、退化したケースに対処し、アルゴリズムの多項式複雑性をチェックする。

We present an algorithm for solving tridiagonal Quadratic Unconstrained Binary Optimization (QUBO) problems and Quadratic Unconstrained Discrete Optimization (QUDO) problems with one-neighbor interactions using the quantum-inspired technology of tensor networks. Our method is based on the simulation of a quantum state to which we will apply an imaginary time evolution and perform a series of partial traces to obtain the state of maximum amplitude, since it will be the optimal state. We will also deal with the degenerate case and check the polynomial complexity of the algorithm.
翻訳日:2023-09-20 15:04:26 公開日:2023-09-19
# 構文と構造を考慮したDense Retrievalによるオープンドメインテーブル質問応答の強化

Enhancing Open-Domain Table Question Answering via Syntax- and Structure-aware Dense Retrieval ( http://arxiv.org/abs/2309.10506v1 )

ライセンス: Link先を確認
Nengzheng Jin, Dongfang Li, Junying Chen, Joanna Siebert, Qingcai Chen(参考訳) open-domain table question answeringは、大量のテーブルから情報を検索し抽出することで、質問への答えを提供することを目的としている。 オープンドメインテーブルqaの既存の研究は、直接テキスト検索法を採用するか、テーブル検索のためのエンコーディング層でのみテーブル構造を検討するかのいずれかであり、テーブルスコアリング中に構文的および構造的情報損失を引き起こす可能性がある。 この問題に対処するために,オープンドメインテーブルQAタスクの構文と構造を意識した検索手法を提案する。 質問に対する構文的表現を提供し、テーブルの構造的ヘッダと値表現を使用して、微粒な構文的および構造的情報の損失を回避する。 そして、構文から構造への集約を用いて、人間の検索プロセスを模倣して、質問と候補テーブルとのマッチングスコアを得る。 実験の結果,提案手法はNQ-tablesデータセットの最先端性を達成し,オープンドメインのText-to-SQLデータセットに強いベースラインを圧倒することがわかった。

Open-domain table question answering aims to provide answers to a question by retrieving and extracting information from a large collection of tables. Existing studies of open-domain table QA either directly adopt text retrieval methods or consider the table structure only in the encoding layer for table retrieval, which may cause syntactical and structural information loss during table scoring. To address this issue, we propose a syntax- and structure-aware retrieval method for the open-domain table QA task. It provides syntactical representations for the question and uses the structural header and value representations for the tables to avoid the loss of fine-grained syntactical and structural information. Then, a syntactical-to-structural aggregator is used to obtain the matching score between the question and a candidate table by mimicking the human retrieval process. Experimental results show that our method achieves the state-of-the-art on the NQ-tables dataset and overwhelms strong baselines on a newly curated open-domain Text-to-SQL dataset.
翻訳日:2023-09-20 15:04:16 公開日:2023-09-19
# 拡散モデルを用いたエンドツーエンドチャネル符号化の学習

Learning End-to-End Channel Coding with Diffusion Models ( http://arxiv.org/abs/2309.10505v1 )

ライセンス: Link先を確認
Muah Kim, Rick Fritschek, and Rafael F. Schaefer(参考訳) ディープラーニングによるニューラルエンコーダのトレーニングは、バックプロパゲーションアルゴリズムによって異なるチャネルモデルを必要とする。 この要件は、実世界のシナリオでパイロット信号を介してチャネル分布またはその勾配を近似することで回避することができる。 最初のアプローチは、GAN(Generative Adversarial Network)またはその拡張版を利用して、チャネル分布を生成する、画像生成の最新の進歩に導かれる。 本稿では,この拡散モデルにおけるチャネル近似問題に対処し,画像生成において高いサンプル品質を示す。 拡散モデルに基づくエンドツーエンドのチャネルコーディングフレームワークを提供し、効率的なトレーニングアルゴリズムを提案する。 様々なチャネルモデルを用いたシミュレーションにより、拡散モデルはチャネル分布を正確に学習し、ほぼ最適のシンボル誤り率(SER)を実現する。 高い信号-雑音比領域におけるロバストな一般化能力は、エラーフロアに苦しむGAN変種とは対照的である。 さらに,高速化サンプリングアルゴリズムを適用した場合のサンプル品質とサンプリング速度のトレードオフについて検討し,このトレードオフに対するノイズスケジューリングの影響について検討した。 ノイズスケジューリングの適度な選択により、SERのわずかな増加とともにサンプリング時間を著しく短縮することができる。

The training of neural encoders via deep learning necessitates a differentiable channel model due to the backpropagation algorithm. This requirement can be sidestepped by approximating either the channel distribution or its gradient through pilot signals in real-world scenarios. The initial approach draws upon the latest advancements in image generation, utilizing generative adversarial networks (GANs) or their enhanced variants to generate channel distributions. In this paper, we address this channel approximation challenge with diffusion models, which have demonstrated high sample quality in image generation. We offer an end-to-end channel coding framework underpinned by diffusion models and propose an efficient training algorithm. Our simulations with various channel models establish that our diffusion models learn the channel distribution accurately, thereby achieving near-optimal end-to-end symbol error rates (SERs). We also note a significant advantage of diffusion models: A robust generalization capability in high signal-to-noise ratio regions, in contrast to GAN variants that suffer from error floor. Furthermore, we examine the trade-off between sample quality and sampling speed, when an accelerated sampling algorithm is deployed, and investigate the effect of the noise scheduling on this trade-off. With an apt choice of noise scheduling, sampling time can be significantly reduced with a minor increase in SER.
翻訳日:2023-09-20 15:03:56 公開日:2023-09-19
# mazeデータセットの生成と操作のための構成可能なライブラリ

A Configurable Library for Generating and Manipulating Maze Datasets ( http://arxiv.org/abs/2309.10498v1 )

ライセンス: Link先を確認
Michael Igorevich Ivanitskiy (1), Rusheb Shah, Alex F. Spies (2), Tilman R\"auker, Dan Valentine, Can Rager, Lucia Quirke, Chris Mathwin, Guillaume Corlouer, Cecilia Diniz Behn (1), Samy Wu Fung (1) ((1) Colorado School of Mines, Department of Applied Mathematics and Statistics (2) Imperial College London)(参考訳) 分散シフトに機械学習モデルがどのように反応するかを理解することは、重要な研究課題である。 Mazesは、微妙な分布シフトと顕著な分布シフトの両方をシミュレートするニュアンスなプラットフォームを提供する様々な生成アルゴリズムのために、優れたテストベッドとして機能する。 そこで本研究では,maze処理タスクからなるデータセットの生成,処理,視覚化のための包括的なライブラリである$\texttt{maze-dataset}$を提案する。 このライブラリを使用すると、研究者はデータセットを簡単に作成でき、使用する生成アルゴリズム、選択したアルゴリズムに供給されるパラメータ、迷路を生成するフィルタを満たさなければならない。 さらに、ラスタライズドおよびテキストベースを含む複数の出力フォーマットをサポートし、畳み込みニューラルネットワークと自己回帰トランスフォーマーモデルに対応している。 これらのフォーマットは、可視化と変換のためのツールとともに、研究アプリケーションにおける汎用性と適応性を保証する。

Understanding how machine learning models respond to distributional shifts is a key research challenge. Mazes serve as an excellent testbed due to varied generation algorithms offering a nuanced platform to simulate both subtle and pronounced distributional shifts. To enable systematic investigations of model behavior on out-of-distribution data, we present $\texttt{maze-dataset}$, a comprehensive library for generating, processing, and visualizing datasets consisting of maze-solving tasks. With this library, researchers can easily create datasets, having extensive control over the generation algorithm used, the parameters fed to the algorithm of choice, and the filters that generated mazes must satisfy. Furthermore, it supports multiple output formats, including rasterized and text-based, catering to convolutional neural networks and autoregressive transformer models. These formats, along with tools for visualizing and converting between them, ensure versatility and adaptability in research applications.
翻訳日:2023-09-20 15:03:35 公開日:2023-09-19
# openmsd:多言語科学文書類似度測定に向けて

OpenMSD: Towards Multilingual Scientific Documents Similarity Measurement ( http://arxiv.org/abs/2309.10539v1 )

ライセンス: Link先を確認
Yang Gao, Ji Ma, Ivan Korotkov, Keith Hall, Dana Alon, Don Metzler(参考訳) 本研究は,多言語科学的文書類似度測定モデルの開発と評価である。 このようなモデルは、異なる言語で関連する研究を見つけるために使用することができ、多言語研究者が論文をより効率的に発見し探索するのに役立つ。 103言語で74mの論文と778mの引用ペアを持つ,最初の多言語科学文書データセットであるopen-access multilingual scientific document (openmsd)を提案する。 openmsdでは、科学専門の言語モデルを事前学習し、引用、共引用、書誌結合ペアの混合など、モデルを微調整するために「関連する」紙ペアを導出するための異なる戦略を探求する。 非英語論文におけるモデルの性能をさらに向上させるために、英文要約による非英語論文の強化に生成言語モデルを用いることを検討する。 これにより、モデルの英語能力を活用して、非英語論文のより良い表現を作成できます。 我々の最良のモデルは、強いベースラインを7-16%(平均精度)で上回ります。

We develop and evaluate multilingual scientific documents similarity measurement models in this work. Such models can be used to find related works in different languages, which can help multilingual researchers find and explore papers more efficiently. We propose the first multilingual scientific documents dataset, Open-access Multilingual Scientific Documents (OpenMSD), which has 74M papers in 103 languages and 778M citation pairs. With OpenMSD, we pretrain science-specialized language models, and explore different strategies to derive "related" paper pairs to fine-tune the models, including using a mixture of citation, co-citation, and bibliographic-coupling pairs. To further improve the models' performance for non-English papers, we explore the use of generative language models to enrich the non-English papers with English summaries. This allows us to leverage the models' English capabilities to create better representations for non-English papers. Our best model significantly outperforms strong baselines by 7-16% (in mean average precision).
翻訳日:2023-09-20 14:55:44 公開日:2023-09-19
# レーン検出のための曲線モデリングと舗装回帰のデカップリング

Decoupling the Curve Modeling and Pavement Regression for Lane Detection ( http://arxiv.org/abs/2309.10533v1 )

ライセンス: Link先を確認
Wencheng Han, Jianbing Shen(参考訳) 曲線に基づくレーン表現は、レーンを全体オブジェクトとして表現し、レーンに関する全体的情報の使用を最大化できるため、多くのレーン検出手法において一般的なアプローチである。 しかし、これらの方法によって生成される曲線は不規則な直線にうまく適合せず、セグメンテーションベースやポイントベースメソッドのような間接表現と比べて性能の差が生じる可能性がある。 我々はこれらの車線が不規則であるとは考えていないが、不均一な舗装に描かれたため、視界でジグザグのように見える。 本稿では,レーン検出タスクを曲線モデリングと地上高度回帰という2つの部分に分割することにより,新しいアプローチを提案する。 具体的には、BEV空間のレーンを表すためにパラメータ化された曲線を用いて、レーンの元々の分布を反映する。 第2部では, 地盤の高さは道路条件などの自然要因によって決定され, 全体性は低いため, 曲線モデルとは別個の鍵点の高さを回帰する。 さらに、3Dレーンラベルの有無にかかわらずモデルの最適化を導くために、新しいフレームワークと一連の損失を設計することで、2Dレーンと3Dレーンの検出タスクを統一した。 2次元レーン検出ベンチマーク(tusimpleおよびculane)および最近提案された3次元レーン検出データセット(once-3dlaneおよびopenlane)の実験では、大幅な改善が見られた。 十分に文書化されたソースコードを公開します。

The curve-based lane representation is a popular approach in many lane detection methods, as it allows for the representation of lanes as a whole object and maximizes the use of holistic information about the lanes. However, the curves produced by these methods may not fit well with irregular lines, which can lead to gaps in performance compared to indirect representations such as segmentation-based or point-based methods. We have observed that these lanes are not intended to be irregular, but they appear zigzagged in the perspective view due to being drawn on uneven pavement. In this paper, we propose a new approach to the lane detection task by decomposing it into two parts: curve modeling and ground height regression. Specifically, we use a parameterized curve to represent lanes in the BEV space to reflect the original distribution of lanes. For the second part, since ground heights are determined by natural factors such as road conditions and are less holistic, we regress the ground heights of key points separately from the curve modeling. Additionally, we have unified the 2D and 3D lane detection tasks by designing a new framework and a series of losses to guide the optimization of models with or without 3D lane labels. Our experiments on 2D lane detection benchmarks (TuSimple and CULane), as well as the recently proposed 3D lane detection datasets (ONCE-3Dlane and OpenLane), have shown significant improvements. We will make our well-documented source code publicly available.
翻訳日:2023-09-20 14:55:27 公開日:2023-09-19
# コントラスト知覚と概念処理を用いた視覚抽象推論のための認知的インスパイアニューラルアーキテクチャ

A Cognitively-Inspired Neural Architecture for Visual Abstract Reasoning Using Contrastive Perceptual and Conceptual Processing ( http://arxiv.org/abs/2309.10532v1 )

ライセンス: Link先を確認
Yuan Yang, Deepayan Sanyal, James Ainooson, Joel Michelson, Effat Farhana, Maithilee Kunda(参考訳) 特に,人間の抽象的推論は,柔軟で反復的でダイナミックな認知プロセスの一部として知覚的,概念的処理をしばしばインターリーブするという観察から,視覚的抽象的推論タスクを解決するための新しいニューラルアーキテクチャを導入する。 この原理に着想を得たアーキテクチャは、視覚刺激の知覚的処理と概念的処理の一貫性を追求する反復的自己コントラスト学習プロセスとして視覚的抽象的推論をモデル化する。 この新たなコントラスト知覚ネットワーク(CPCNet)は,有名なRavenのプログレッシブ・マトリクス・インテリジェンス・テスト(Progressive Matrices Intelligence Test)のスタイルで,行列推論問題を用いてどのように機能するかを説明する。 機械学習データセット RAVEN の実験では、CPCNet がこれまでに公開されたすべてのモデルよりも高い精度を達成し、最も弱い帰納バイアスを使用している。 我々はまた、元のRAVENデータセットにおいて、実質的で以前に言及されていないクラス不均衡を指摘し、抽象概念の観点からよりバランスのとれたRAVENの新たな変種であるAB-RAVENを提案する。

We introduce a new neural architecture for solving visual abstract reasoning tasks inspired by human cognition, specifically by observations that human abstract reasoning often interleaves perceptual and conceptual processing as part of a flexible, iterative, and dynamic cognitive process. Inspired by this principle, our architecture models visual abstract reasoning as an iterative, self-contrasting learning process that pursues consistency between perceptual and conceptual processing of visual stimuli. We explain how this new Contrastive Perceptual-Conceptual Network (CPCNet) works using matrix reasoning problems in the style of the well-known Raven's Progressive Matrices intelligence test. Experiments on the machine learning dataset RAVEN show that CPCNet achieves higher accuracy than all previously published models while also using the weakest inductive bias. We also point out a substantial and previously unremarked class imbalance in the original RAVEN dataset, and we propose a new variant of RAVEN -- AB-RAVEN -- that is more balanced in terms of abstract concepts.
翻訳日:2023-09-20 14:54:58 公開日:2023-09-19
# 任意スタイル転送のためのretinex誘導チャネルグルーピングに基づくパッチスワップ

Retinex-guided Channel-grouping based Patch Swap for Arbitrary Style Transfer ( http://arxiv.org/abs/2309.10528v1 )

ライセンス: Link先を確認
Chang Liu, Yi Niu, Mingming Ma, Fu Li and Guangming Shi(参考訳) パッチマッチングベースのスタイル転送の基本原理は、コンテンツ画像特徴マップのパッチを、スタイル画像特徴マップから最も近いパッチで置き換えることである。 1つの審美的なイメージから得られる有限の特徴は、内容の自然なイメージの豊かなテクスチャを表現するには不十分であるため、既存の手法では、フルチャネルスタイルの特徴パッチを単純な信号テンソルとして扱い、信号レベル融合による新しいスタイルの特徴パッチを作成している。 本稿では,チャネルグループに基づくパッチスワップスワップ手法であるRetinex理論を,上記の課題を解決するために提案する。 チャネルグループ戦略は、スタイルのフィーチャーマップを表面およびテクスチャチャネルにグループ化する。 レチネックス理論に基づく分解は、より安定したチャネル符号生成を制御する。 さらに,予期せぬ黒領域と過度にスタイリングされた結果を防止するため,相補的な融合戦略とマルチスケール生成戦略を提供する。 実験の結果,提案手法は,コンテンツの忠実性を維持しつつ,よりスタイル一貫性のあるテクスチャを提供する上で,既存の手法よりも優れていることがわかった。

The basic principle of the patch-matching based style transfer is to substitute the patches of the content image feature maps by the closest patches from the style image feature maps. Since the finite features harvested from one single aesthetic style image are inadequate to represent the rich textures of the content natural image, existing techniques treat the full-channel style feature patches as simple signal tensors and create new style feature patches via signal-level fusion, which ignore the implicit diversities existed in style features and thus fail for generating better stylised results. In this paper, we propose a Retinex theory guided, channel-grouping based patch swap technique to solve the above challenges. Channel-grouping strategy groups the style feature maps into surface and texture channels, which prevents the winner-takes-all problem. Retinex theory based decomposition controls a more stable channel code rate generation. In addition, we provide complementary fusion and multi-scale generation strategy to prevent unexpected black area and over-stylised results respectively. Experimental results demonstrate that the proposed method outperforms the existing techniques in providing more style-consistent textures while keeping the content fidelity.
翻訳日:2023-09-20 14:54:34 公開日:2023-09-19
# SPOT: 自動運転のための作業予測によるスケーラブルな3D事前トレーニング

SPOT: Scalable 3D Pre-training via Occupancy Prediction for Autonomous Driving ( http://arxiv.org/abs/2309.10527v1 )

ライセンス: Link先を確認
Xiangchao Yan, Runjian Chen, Bo Zhang, Jiakang Yuan, Xinyu Cai, Botian Shi, Wenqi Shao, Junchi Yan, Ping Luo, Yu Qiao(参考訳) 3Dオブジェクト検出やLiDARセマンティックセグメンテーションを含む知覚タスクのための3D LiDARポイントクラウドの注釈付けは、時間とエネルギーを消費することで知られる。 ラベル付けの負担を軽減するため、大規模な事前トレーニングを行い、さまざまな下流データセットとタスクでトレーニング済みのバックボーンを微調整することを約束している。 本稿では,トランスファー可能な3次元表現を学習するための占有率予測によるスケーラブルな事前学習を提案し,ラベル効率設定下で下流タスクが異なる様々な公開データセットにおいてその効果を示す。 1) 作業予測は汎用表現の学習に有望であることが示され,多くのデータセットやタスクに関する広範な実験によって実証された。 2) SPOTは,ビーム再サンプリング技術を用いて点雲拡大を行い,様々なLiDARセンサによる領域ギャップを克服し,異なるデータセットにおけるアノテーション戦略を適用した。 (3) スケーラブルな事前トレーニング,すなわち,すべての実験におけるダウンストリームのパフォーマンスは,事前トレーニングデータによって向上する。 我々の発見はLiDAR点雲の理解を容易にし、LiDAR事前学習における将来の探索の道を開くことができると信じている。 コードとモデルがリリースされます。

Annotating 3D LiDAR point clouds for perception tasks including 3D object detection and LiDAR semantic segmentation is notoriously time-and-energy-consuming. To alleviate the burden from labeling, it is promising to perform large-scale pre-training and fine-tune the pre-trained backbone on different downstream datasets as well as tasks. In this paper, we propose SPOT, namely Scalable Pre-training via Occupancy prediction for learning Transferable 3D representations, and demonstrate its effectiveness on various public datasets with different downstream tasks under the label-efficiency setting. Our contributions are threefold: (1) Occupancy prediction is shown to be promising for learning general representations, which is demonstrated by extensive experiments on plenty of datasets and tasks. (2) SPOT uses beam re-sampling technique for point cloud augmentation and applies class-balancing strategies to overcome the domain gap brought by various LiDAR sensors and annotation strategies in different datasets. (3) Scalable pre-training is observed, that is, the downstream performance across all the experiments gets better with more pre-training data. We believe that our findings can facilitate understanding of LiDAR point clouds and pave the way for future exploration in LiDAR pre-training. Codes and models will be released.
翻訳日:2023-09-20 14:54:09 公開日:2023-09-19
# NSOAMT -- 機械翻訳への新しい検索のみアプローチ

NSOAMT -- New Search Only Approach to Machine Translation ( http://arxiv.org/abs/2309.10526v1 )

ライセンス: Link先を確認
Jo\~ao Lu\'is, Diogo Cardoso, Jos\'e Marques, Lu\'is Campos(参考訳) 翻訳自動化機構とツールは、異なる言語を話す人々をまとめるために、数年間開発されてきた。 機械翻訳に対する新しい検索のみのアプローチ」が採用され、他の技術の遅さと不正確さに対処した。 この考え方は、特定の意味的意味を組み合わす単語のインクリメンタルな集合をインデクシングすることによって、ネイティブ言語レコードと翻訳言語との対応プロセスを作成することができるソリューションを開発することである。 本研究の原理は、ある種類の出版・文書で使用される語彙は、言語スタイルや単語の多様性の点で比較的限定されていると仮定し、インデクシングプロセスを通じて翻訳過程における即時かつ厳密な効果を高める。 データベースに処理され、ロードされた電子文書のボリュームを解析し、前の前提を確認するために測定する。 観測および投影された計量値は奨励的な結果を与えなかったが、この手法を用いて翻訳ツールを開発し、利用可能にすることは可能であった。

Translation automation mechanisms and tools have been developed for several years to bring people who speak different languages together. A "new search only approach to machine translation" was adopted to tackle some of the slowness and inaccuracy of the other technologies. The idea is to develop a solution that, by indexing an incremental set of words that combine a certain semantic meaning, makes it possible to create a process of correspondence between their native language record and the language of translation. This research principle assumes that the vocabulary used in a given type of publication/document is relatively limited in terms of language style and word diversity, which enhances the greater effect of instantaneously and rigor in the translation process through the indexing process. A volume of electronic text documents where processed and loaded into a database, and analyzed and measured in order confirm the previous premise. Although the observed and projected metric values did not give encouraging results, it was possible to develop and make available a translation tool using this approach.
翻訳日:2023-09-20 14:53:46 公開日:2023-09-19
# エンドツーエンド音声認識における命令付き大言語モデルのゼロショットパワーの調和

Harnessing the Zero-Shot Power of Instruction-Tuned Large Language Model in End-to-End Speech Recognition ( http://arxiv.org/abs/2309.10524v1 )

ライセンス: Link先を確認
Yosuke Higuchi, Tetsuji Ogawa, Tetsunori Kobayashi(参考訳) 本稿では,命令調整型大規模言語モデル(LLM)とエンドツーエンド自動音声認識(ASR)を新たに統合する。 現代のLLMは、正確な指示や、所望のタスクに向けてテキスト生成プロセスを導くプロンプトが提供されると、ゼロショット学習内で幅広い言語タスクを実行することができる。 本研究では,LLMのゼロショット機能を用いて,ASRの性能向上に寄与する言語情報を抽出する。 具体的には、LLMにASR仮説の文法的誤りの訂正を指示し、組込み言語知識を利用してエンドツーエンドのASRを実行する。 提案手法は,命令調整型LLM(Llama2)をデコーダのフロントエンドとして使用するハイブリッド接続型時間分類(CTC)とアテンションアーキテクチャに基づいている。 訂正対象のASR仮説は、CTCデコードを介してエンコーダから取得され、命令とともにLSMに入力される。 その後、デコーダはLLM埋め込みを入力としてシーケンス生成を行い、エンコーダ出力から音響情報を組み込む。 実験結果と解析結果から,提案手法は有望な性能向上をもたらすことが示された。

We present a novel integration of an instruction-tuned large language model (LLM) and end-to-end automatic speech recognition (ASR). Modern LLMs can perform a wide range of linguistic tasks within zero-shot learning when provided with a precise instruction or a prompt to guide the text generation process towards the desired task. We explore using this zero-shot capability of LLMs to extract linguistic information that can contribute to improving ASR performance. Specifically, we direct an LLM to correct grammatical errors in an ASR hypothesis and harness the embedded linguistic knowledge to conduct end-to-end ASR. The proposed model is built on the hybrid connectionist temporal classification (CTC) and attention architecture, where an instruction-tuned LLM (i.e., Llama2) is employed as a front-end of the decoder. An ASR hypothesis, subject to correction, is obtained from the encoder via CTC decoding, which is then fed into the LLM along with an instruction. The decoder subsequently takes as input the LLM embeddings to perform sequence generation, incorporating acoustic information from the encoder output. Experimental results and analyses demonstrate that the proposed integration yields promising performance improvements, and our approach largely benefits from LLM-based rescoring.
翻訳日:2023-09-20 14:53:27 公開日:2023-09-19
# ポリープセグメンテーションのためのエッジ対応特徴集約ネットワーク

Edge-aware Feature Aggregation Network for Polyp Segmentation ( http://arxiv.org/abs/2309.10523v1 )

ライセンス: Link先を確認
Tao Zhou, Yizhe Zhang, Geng Chen, Yi Zhou, Ye Wu and Deng-Ping Fan(参考訳) 大腸癌 (CRC) の早期診断と予防には, 正確なポリープ分画が不可欠である。 しかし, スケールのばらつきやぼやけたポリプ境界のため, スケールや形状の異なる良好なセグメンテーション性能を実現することは依然として難しい課題である。 本研究では,ポリプセグメンテーションのためのエッジ対応機能集約ネットワーク(EFA-Net)を提案し,ポリプセグメンテーションの性能を高めるために,クロスレベル機能とマルチスケール機能を完全に活用する。 具体的には、まずエッジ対応誘導モジュール(EGM)を提示し、低レベル機能と高レベル機能を組み合わせて、レイヤバイレイヤ戦略を用いて各デコーダユニットに組み込まれたエッジ強化機能を学ぶ。 また、スケール変動を効果的に処理するために、異なる比率の拡張畳み込みを用いてスケール認識機能を学ぶために、スケール認識畳みモジュール(scm)が提案されている。 さらに,局地的・グローバルな文脈情報を活用するクロスレベル統合モジュール (CFM) を提案する。 最後に、CFMの出力を学習したエッジ認識機能を用いて適応的に重み付けし、複数のサイドアウトセグメンテーションマップを生成する。 広く採用されている5つの大腸内視鏡データセットの実験結果から,我々のEFA-Netは,一般化と有効性の観点から最先端のポリプセグメンテーション法より優れていることが示された。

Precise polyp segmentation is vital for the early diagnosis and prevention of colorectal cancer (CRC) in clinical practice. However, due to scale variation and blurry polyp boundaries, it is still a challenging task to achieve satisfactory segmentation performance with different scales and shapes. In this study, we present a novel Edge-aware Feature Aggregation Network (EFA-Net) for polyp segmentation, which can fully make use of cross-level and multi-scale features to enhance the performance of polyp segmentation. Specifically, we first present an Edge-aware Guidance Module (EGM) to combine the low-level features with the high-level features to learn an edge-enhanced feature, which is incorporated into each decoder unit using a layer-by-layer strategy. Besides, a Scale-aware Convolution Module (SCM) is proposed to learn scale-aware features by using dilated convolutions with different ratios, in order to effectively deal with scale variation. Further, a Cross-level Fusion Module (CFM) is proposed to effectively integrate the cross-level features, which can exploit the local and global contextual information. Finally, the outputs of CFMs are adaptively weighted by using the learned edge-aware feature, which are then used to produce multiple side-out segmentation maps. Experimental results on five widely adopted colonoscopy datasets show that our EFA-Net outperforms state-of-the-art polyp segmentation methods in terms of generalization and effectiveness.
翻訳日:2023-09-20 14:53:05 公開日:2023-09-19
# 情報相補性に基づく可視・近赤外画像融合アルゴリズム

Visible and NIR Image Fusion Algorithm Based on Information Complementarity ( http://arxiv.org/abs/2309.10522v1 )

ライセンス: Link先を確認
Zhuo Li, Bo Li(参考訳) 可視および近赤外線(NIR)バンドセンサーは、シーンから補完的な分光放射を捉える画像を提供する。 可視画像とNIR画像の融合は、そのスペクトル特性を利用して画質を向上させることを目的としている。 しかし、現在の可視・近赤外融合アルゴリズムはスペクトル特性をうまく活用することができず、情報の相補性が欠如しており、色歪みやアーティファクトが生じる。 そこで本稿では,物理信号のレベルから相補的な融合モデルを設計する。 まず、ノイズと有用な情報を区別するために、重み付きフィルタとガイド付きフィルタの2つの層を用いて、テクスチャ層とエッジ層をそれぞれ取得する。 次に、初期可視NIR相補性重みマップを生成するために、拡張DoGフィルタにより可視とNIRの差分マップをフィルタリングする。 その後、NIR夜間補償の重要な領域は、arctanI関数による初期相補性重みマップを導出する。 最後に、可視画像とNIR画像の相補性重みマップにより融合画像を生成することができる。 実験結果から,提案アルゴリズムはスペクトル特性と情報相補性を十分に活用できるだけでなく,自然性を維持しながら色の不自然さを回避できることが示された。

Visible and near-infrared(NIR) band sensors provide images that capture complementary spectral radiations from a scene. And the fusion of the visible and NIR image aims at utilizing their spectrum properties to enhance image quality. However, currently visible and NIR fusion algorithms cannot well take advantage of spectrum properties, as well as lack information complementarity, which results in color distortion and artifacts. Therefore, this paper designs a complementary fusion model from the level of physical signals. First, in order to distinguish between noise and useful information, we use two layers of the weight-guided filter and guided filter to obtain texture and edge layers, respectively. Second, to generate the initial visible-NIR complementarity weight map, the difference maps of visible and NIR are filtered by the extend-DoG filter. After that, the significant region of NIR night-time compensation guides the initial complementarity weight map by the arctanI function. Finally, the fusion images can be generated by the complementarity weight maps of visible and NIR images, respectively. The experimental results demonstrate that the proposed algorithm can not only well take advantage of the spectrum properties and the information complementarity, but also avoid color unnatural while maintaining naturalness, which outperforms the state-of-the-art.
翻訳日:2023-09-20 14:52:35 公開日:2023-09-19
# リアルタイムセマンティックセグメンテーションのための空間支援エンコーダデコーダネットワーク

Spatial-Assistant Encoder-Decoder Network for Real Time Semantic Segmentation ( http://arxiv.org/abs/2309.10519v1 )

ライセンス: Link先を確認
Yalun Wang, Shidong Chen, Huicong Bian, Weixiao Li, Qin Lu(参考訳) セマンティックセグメンテーションは、自動運転車が周囲を理解する上で不可欠な技術である。 現在、リアルタイムセマンティクスセグメンテーションネットワークでは、エンコーダ-デコーダアーキテクチャまたは2パスアーキテクチャが一般的である。 一般に、エンコーダ-デコーダモデルはより高速で、2経路モデルの方が高い精度を示す傾向がある。 両強みを活かすため,2つのアーキテクチャを融合させるために,SANet(Spatial-Assistant Encoder-Decoder Network)を提案する。 全体的なアーキテクチャでは,エンコーダの中間部における特徴マップを維持しながらエンコーダとデコーダの設計を維持し,同解像度の特徴抽出にアトラス畳み込みブランチを利用する。 エンコーダの終了に向けて,非対称なプールピラミッドプールモジュール(APPPM)を統合し,特徴写像のセマンティック抽出を最適化する。 このモジュールには、複数の解像度で特徴を抽出する非対称プール層が組み込まれている。 このデコーダでは,水平方向と垂直方向のアテンションを統合し,様々なブランチの組み合わせを容易にするハイブリッドアテンションモジュールsadを提案する。 提案手法の有効性を確認するため,我々のSANetモデルは,リアルタイムCamVidおよび都市景観データセット上での競争結果を得た。 単一の2080Ti GPUを使用することで、Cityscapeテストデータセットでは65.1 FPSで78.4 % mIOU、CamVidテストデータセットでは147 FPSで78.8 % mIOUを達成した。 SANetのトレーニングコードとモデルはhttps://github.com/CuZaoo/SANet-mainで公開されている。

Semantic segmentation is an essential technology for self-driving cars to comprehend their surroundings. Currently, real-time semantic segmentation networks commonly employ either encoder-decoder architecture or two-pathway architecture. Generally speaking, encoder-decoder models tend to be quicker,whereas two-pathway models exhibit higher accuracy. To leverage both strengths, we present the Spatial-Assistant Encoder-Decoder Network (SANet) to fuse the two architectures. In the overall architecture, we uphold the encoder-decoder design while maintaining the feature maps in the middle section of the encoder and utilizing atrous convolution branches for same-resolution feature extraction. Toward the end of the encoder, we integrate the asymmetric pooling pyramid pooling module (APPPM) to optimize the semantic extraction of the feature maps. This module incorporates asymmetric pooling layers that extract features at multiple resolutions. In the decoder, we present a hybrid attention module, SAD, that integrates horizontal and vertical attention to facilitate the combination of various branches. To ascertain the effectiveness of our approach, our SANet model achieved competitive results on the real-time CamVid and cityscape datasets. By employing a single 2080Ti GPU, SANet achieved a 78.4 % mIOU at 65.1 FPS on the Cityscape test dataset and 78.8 % mIOU at 147 FPS on the CamVid test dataset. The training code and model for SANet are available at https://github.com/CuZaoo/SANet-main
翻訳日:2023-09-20 14:52:14 公開日:2023-09-19
# 大規模非構造化法文書における階層型ニューラルネットワークの分類とその説明

A Hierarchical Neural Framework for Classification and its Explanation in Large Unstructured Legal Documents ( http://arxiv.org/abs/2309.10563v1 )

ライセンス: Link先を確認
Nishchal Prasad, Mohand Boughanem, Taoufik Dkaki(参考訳) 自動法的判断予測とその説明は、一般に数万語を超える長い判例文書の問題に苦しめられ、一様でない構造を持つ。 このような文書から判断を予測し、その説明を抽出することは、構造的注釈のない文書よりも難しい課題である。 この問題を「注釈付き法的文書」と定義し、構造情報の欠如とその長大さをmesc(multi-stage encoder-based supervised with-clustering)と呼ぶ深層学習に基づく分類フレームワークを用いて探究し、判断予測を行う。 具体的には、文書を分割して、カスタムな微調整された大規模言語モデルの最後の4層から埋め込みを抽出し、教師なしクラスタリングによってそれらの構造を近似しようとする。 別のトランスフォーマーエンコーダ層で使用して、chunk間の表現を学習します。 我々は,多ビリオンパラメータ(GPT-Neo,GPT-J)を用いたLLMの法文への適応性とドメイン内移行学習能力について検討する。 これに加えて、それらのパフォーマンスをMEScと比較し、最後のレイヤから埋め込みを組み合わせることの影響について述べる。 このような階層モデルに対しては、Occlusion sensitivity-based Relevant Sentence Extractorと呼ばれる説明抽出アルゴリズムも提案する。

Automatic legal judgment prediction and its explanation suffer from the problem of long case documents exceeding tens of thousands of words, in general, and having a non-uniform structure. Predicting judgments from such documents and extracting their explanation becomes a challenging task, more so on documents with no structural annotation. We define this problem as "scarce annotated legal documents" and explore their lack of structural information and their long lengths with a deep learning-based classification framework which we call MESc; "Multi-stage Encoder-based Supervised with-clustering"; for judgment prediction. Specifically, we divide a document into parts to extract their embeddings from the last four layers of a custom fine-tuned Large Language Model, and try to approximate their structure through unsupervised clustering. Which we use in another set of transformer encoder layers to learn the inter-chunk representations. We explore the adaptability of LLMs with multi-billion parameters (GPT-Neo, and GPT-J) to legal texts and their intra-domain(legal) transfer learning capacity. Alongside this, we compare their performance with MESc and the impact of combining embeddings from their last layers. For such hierarchical models, we also propose an explanation extraction algorithm named ORSE; Occlusion sensitivity-based Relevant Sentence Extractor;
翻訳日:2023-09-20 14:46:04 公開日:2023-09-19
# 小型データアプローチによる喫煙検出のためのマルチモーダルディープラーニングアーキテクチャ

A multimodal deep learning architecture for smoking detection with a small data approach ( http://arxiv.org/abs/2309.10561v1 )

ライセンス: Link先を確認
Robert Lakatos, Peter Pollner, Andras Hajdu, Tamas Joo(参考訳) 導入: 禁煙広告はしばしば規制措置を講じる。 本稿では,人工知能,特に深層学習が,隠れた広告を検出する大きな可能性を秘め,タバコ関連メディアコンテンツの不偏,再現性,公平な定量化を可能にしていることを示す。 方法:深層学習,生成法,人間強化に基づく統合的なテキスト・画像処理モデルを提案する。 結果: 本モデルは, 画像の精度が74\%, テキストが98\%であった。 さらに,本システムでは,人間の強化の形で専門家による介入の可能性を統合する。 結論: ディープラーニングを通じて利用可能な、事前訓練されたマルチモーダル、イメージ、およびテキスト処理モデルを使用することで、トレーニングデータが少ない場合でも、異なるメディアにおける喫煙を検出することができる。

Introduction: Covert tobacco advertisements often raise regulatory measures. This paper presents that artificial intelligence, particularly deep learning, has great potential for detecting hidden advertising and allows unbiased, reproducible, and fair quantification of tobacco-related media content. Methods: We propose an integrated text and image processing model based on deep learning, generative methods, and human reinforcement, which can detect smoking cases in both textual and visual formats, even with little available training data. Results: Our model can achieve 74\% accuracy for images and 98\% for text. Furthermore, our system integrates the possibility of expert intervention in the form of human reinforcement. Conclusions: Using the pre-trained multimodal, image, and text processing models available through deep learning makes it possible to detect smoking in different media even with few training data.
翻訳日:2023-09-20 14:45:42 公開日:2023-09-19
# Forgedit:学習と学習によるテキストガイド画像編集

Forgedit: Text Guided Image Editing via Learning and Forgetting ( http://arxiv.org/abs/2309.10556v1 )

ライセンス: Link先を確認
Shiwen Zhang, Shuai Xiao, Weilin Huang(参考訳) 画像と対象テキストプロンプトのみを入力として与えた実画像に対するテキスト案内画像編集は、非常に一般的かつ困難な問題であり、編集モデルは、画像のどの部分を編集すべきかを判断し、元の画像の特徴を保存し、複雑な非剛性編集を行う必要がある。 以前の微調整ベースのソリューションは時間を要するため、オーバーフィッティングに対して脆弱であり、編集能力に制限がある。 これらの課題に対処するため,新しいテキストガイド画像編集手法 Forgedit を設計した。 まず,視覚言語共同学習により,与えられた画像を1分以内で再構成することを学ぶ新しい微調整フレームワークを提案する。 次に、ベクトルサブトラクションとベクトル投影を導入し、編集に適したテキスト埋め込みを探索する。 我々はまた,拡散モデルにおけるUNet構造の一般的な性質を見いだし,そのような発見に触発されて,致命的な過適合問題を低減し,拡散モデルの編集能力を著しく向上させるために,忘れる戦略を設計する。 本手法は,テキストガイド画像編集ベンチマークtedbenchにおいて,クリップスコアとlpipsスコアの両方において,従来のsomaメソッドimagicとimagenを上回って,新たな最先端の成果を実現した。 コードはhttps://github.com/witcherofresearch/forgeditで入手できる。

Text guided image editing on real images given only the image and the target text prompt as inputs, is a very general and challenging problem, which requires the editing model to reason by itself which part of the image should be edited, to preserve the characteristics of original image, and also to perform complicated non-rigid editing. Previous fine-tuning based solutions are time-consuming and vulnerable to overfitting, limiting their editing capabilities. To tackle these issues, we design a novel text guided image editing method, Forgedit. First, we propose a novel fine-tuning framework which learns to reconstruct the given image in less than one minute by vision language joint learning. Then we introduce vector subtraction and vector projection to explore the proper text embedding for editing. We also find a general property of UNet structures in Diffusion Models and inspired by such a finding, we design forgetting strategies to diminish the fatal overfitting issues and significantly boost the editing abilities of Diffusion Models. Our method, Forgedit, implemented with Stable Diffusion, achieves new state-of-the-art results on the challenging text guided image editing benchmark TEdBench, surpassing the previous SOTA method Imagic with Imagen, in terms of both CLIP score and LPIPS score. Codes are available at https://github.com/witcherofresearch/Forgedit.
翻訳日:2023-09-20 14:45:29 公開日:2023-09-19
# 共同最適化による連続データ予測のためのハイブリッド状態空間ベース学習

Hybrid State Space-based Learning for Sequential Data Prediction with Joint Optimization ( http://arxiv.org/abs/2309.10553v1 )

ライセンス: Link先を確認
Mustafa E. Ayd{\i}n, Arda Fazla, Suleyman S. Kozat(参考訳) オンライン環境での非線形予測/回帰について検討し、状態空間の定式化による結合機構を通じて、従来の非線形予測モデルのドメイン固有の特徴工学問題の必要性を効果的に緩和し、非線形成分と線形成分の効率的な混合を実現するハイブリッドモデルを提案する。 特に,再帰的構造を用いて生のシーケンシャルシーケンスから特徴を抽出し,従来の線形時系列モデルを用いて時系列データの複雑さ,例えば季節性,傾向を扱う。 最先端のアンサンブルやハイブリッドモデルは通常、時間消費だけでなく、モデリングや独立したトレーニングの分離による副最適化的な方法でベースモデルを訓練する。 対照的に、文献の中ではじめて、原データからの自動特徴抽出のための拡張リカレントニューラルネットワーク(LSTM)と、時系列データに関連する特異性を効果的に解決するARMAファミリー時系列モデル(SARIMAX)を共同で最適化する。 本研究では,基本モデルに対して新しい状態空間表現を導入することにより,ハイブリッドあるいはアンサンブルの完全な状態空間表現を実現する。 したがって, 粒子フィルタリングにより, 単一パスで両モデルを同時に最適化することが可能であり, 更新方程式も提供できる。 導入されたアーキテクチャは汎用的であり、例えばGRU、伝統的な時系列モデル、例えばETSや他の最適化手法、例えばEKF、UKFを使うことができる。 このような新しい組み合わせと共同最適化により、広く公開されている実生活競合データセットの大幅な改善が示された。 結果のさらなる研究と複製性のために、コードもオープンに公開しています。

We investigate nonlinear prediction/regression in an online setting and introduce a hybrid model that effectively mitigates, via a joint mechanism through a state space formulation, the need for domain-specific feature engineering issues of conventional nonlinear prediction models and achieves an efficient mix of nonlinear and linear components. In particular, we use recursive structures to extract features from raw sequential sequences and a traditional linear time series model to deal with the intricacies of the sequential data, e.g., seasonality, trends. The state-of-the-art ensemble or hybrid models typically train the base models in a disjoint manner, which is not only time consuming but also sub-optimal due to the separation of modeling or independent training. In contrast, as the first time in the literature, we jointly optimize an enhanced recurrent neural network (LSTM) for automatic feature extraction from raw data and an ARMA-family time series model (SARIMAX) for effectively addressing peculiarities associated with time series data. We achieve this by introducing novel state space representations for the base models, which are then combined to provide a full state space representation of the hybrid or the ensemble. Hence, we are able to jointly optimize both models in a single pass via particle filtering, for which we also provide the update equations. The introduced architecture is generic so that one can use other recurrent architectures, e.g., GRUs, traditional time series-specific models, e.g., ETS or other optimization methods, e.g., EKF, UKF. Due to such novel combination and joint optimization, we demonstrate significant improvements in widely publicized real life competition datasets. We also openly share our code for further research and replicability of our results.
翻訳日:2023-09-20 14:45:02 公開日:2023-09-19
# イオントラップ量子コンピュータにおけるFermi-Hubbardモデルの有限エネルギー特性に対するLoschmidt振幅の測定

Measuring the Loschmidt amplitude for finite-energy properties of the Fermi-Hubbard model on an ion-trap quantum computer ( http://arxiv.org/abs/2309.10552v1 )

ライセンス: Link先を確認
K\'evin H\'emery, Khaldoon Ghanem, Eleanor Crane, Sara L. Campbell, Joan M. Dreiling, Caroline Figgatt, Cameron Foltz, John P. Gaebler, Jacob Johansen, Michael Mills, Steven A. Moses, Juan M. Pino, Anthony Ransford, Mary Rowe, Peter Siegfried, Russell P. Stutz, Henrik Dreyer, Alexander Schuckert, Ramil Nigmatullin(参考訳) 凝縮物質系の平衡特性を計算することは、短期量子コンピューティングの有望な応用の1つである。 近年、ハイブリッド量子古典時系列アルゴリズムは、初期状態 $|\psi\rangle$ からLoschmidt振幅 $\langle \psi| e^{-i \hat H t}|\psi \rangle$ を測り、ハミルトンの$\hat H$ の時間発展から、これらの特性を効率的に抽出するために提案されている。 本研究では,現在の量子コンピュータ上でのこのアルゴリズムの動作について検討する。 具体的には,Fermi-Hubbardモデルに対するLoschmidt振幅をQuantinuum H2-1トラップイオンデバイス上の16$site ladder geometry(32軌道)で測定する。 雑音がLoschmidt振幅に与える影響を評価し,アルゴリズム固有の誤差軽減手法を実装した。 このように動機付けられた誤差モデルを用いて、有限エネルギーでの局所観測可能量の期待値を測定することにより、量子古典アルゴリズムの完全動作に対する雑音の影響を数値解析する。 最後に,アルゴリズムのスケールアップに必要なリソースを推定する。

Calculating the equilibrium properties of condensed matter systems is one of the promising applications of near-term quantum computing. Recently, hybrid quantum-classical time-series algorithms have been proposed to efficiently extract these properties from a measurement of the Loschmidt amplitude $\langle \psi| e^{-i \hat H t}|\psi \rangle$ from initial states $|\psi\rangle$ and a time evolution under the Hamiltonian $\hat H$ up to short times $t$. In this work, we study the operation of this algorithm on a present-day quantum computer. Specifically, we measure the Loschmidt amplitude for the Fermi-Hubbard model on a $16$-site ladder geometry (32 orbitals) on the Quantinuum H2-1 trapped-ion device. We assess the effect of noise on the Loschmidt amplitude and implement algorithm-specific error mitigation techniques. By using a thus-motivated error model, we numerically analyze the influence of noise on the full operation of the quantum-classical algorithm by measuring expectation values of local observables at finite energies. Finally, we estimate the resources needed for scaling up the algorithm.
翻訳日:2023-09-20 14:44:33 公開日:2023-09-19
# 静的な単語埋め込みのための隣接認識型差分プライバシー機構

A Neighbourhood-Aware Differential Privacy Mechanism for Static Word Embeddings ( http://arxiv.org/abs/2309.10551v1 )

ライセンス: Link先を確認
Danushka Bollegala, Shuichi Otake, Tomoya Machide, Ken-ichi Kawarabayashi(参考訳) 本研究では,事前訓練された静的単語埋め込み空間における単語の近傍を考慮し,特定のプライバシレベルを保証するのに必要な最小限のノイズを判定するNADP(Neighbourhood-Aware Differential Privacy)機構を提案する。 まず、それらの埋め込みを使って単語の上に最も近い隣接グラフを構築し、それらを連結されたコンポーネント(すなわち近傍)の集合に分解する。 次に、各近傍の単語に対して異なるレベルのガウス雑音を適用し、その近傍の単語集合によって決定される。 実験の結果,提案するNADP機構は,複数の下流タスクにおいて,Laplacian, Gaussian, Mahalanobisといった従来提案されていたDPメカニズムを常に上回り,高いプライバシーレベルを保証していることがわかった。

We propose a Neighbourhood-Aware Differential Privacy (NADP) mechanism considering the neighbourhood of a word in a pretrained static word embedding space to determine the minimal amount of noise required to guarantee a specified privacy level. We first construct a nearest neighbour graph over the words using their embeddings, and factorise it into a set of connected components (i.e. neighbourhoods). We then separately apply different levels of Gaussian noise to the words in each neighbourhood, determined by the set of words in that neighbourhood. Experiments show that our proposed NADP mechanism consistently outperforms multiple previously proposed DP mechanisms such as Laplacian, Gaussian, and Mahalanobis in multiple downstream tasks, while guaranteeing higher levels of privacy.
翻訳日:2023-09-20 14:44:09 公開日:2023-09-19
# 3Dビジョンと3Dプリンティングを結びつける数学的手法と課題の概要

An overview of some mathematical techniques and problems linking 3D vision to 3D printing ( http://arxiv.org/abs/2309.10549v1 )

ライセンス: Link先を確認
Emiliano Cristiani, Maurizio Falcone and Silvia Tozza(参考訳) コンピュータビジョンと3dプリンティングはこの10年間で急速に進化してきたが、いくつかの数学的技術を共有しているにもかかわらず、それら間の相互作用は今のところ非常に限られている。 我々は, 非線形偏微分方程式と最適化に基づくアプローチを重視した3次元印刷と同様に, シェーディング問題に対するいくつかの手法の概要を示すギャップを埋めようとしている。 また,オブジェクトの1つ以上のイメージから始まり,最終的な3dプリントで終わるオブジェクト製造プロセスを完成させるために,可能な結合をスケッチする。 この手順の実践例をいくつか紹介する。

Computer Vision and 3D printing have rapidly evolved in the last 10 years but interactions among them have been very limited so far, despite the fact that they share several mathematical techniques. We try to fill the gap presenting an overview of some techniques for Shape-from-Shading problems as well as for 3D printing with an emphasis on the approaches based on nonlinear partial differential equations and optimization. We also sketch possible couplings to complete the process of object manufacturing starting from one or more images of the object and ending with its final 3D print. We will give some practical examples of this procedure.
翻訳日:2023-09-20 14:43:52 公開日:2023-09-19
# 知識強調拡散による都市流れの生成モデルの構築に向けて

Towards Generative Modeling of Urban Flow through Knowledge-enhanced Denoising Diffusion ( http://arxiv.org/abs/2309.10547v1 )

ライセンス: Link先を確認
Zhilun Zhou, Jingtao Ding, Yu Liu, Depeng Jin, Yong Li(参考訳) 生成AIは多くの分野で成功しているが、地理空間データをモデル化する能力はまだ未熟である。 典型的な地理空間データである都市流れは、幅広い都市用途に欠かせない。 既存の研究は主に、データ不足地域や新たに計画された地域では利用できない過去の流れデータに基づいて将来の流れを予測する都市流れの予測モデリングに焦点を当てている。 他の研究は、地域間のODフローを予測することを目的としているが、時間とともに都市フローの動的変化をモデル化することができない。 本研究では,過去の流れデータのない地域に対して動的に都市フローを生成する都市フロー生成の新たな課題について検討する。 地域特性や都市環境などの都市流動に及ぼす複数の要因の影響を把握すべく,異なる環境下における都市流動を発生させる拡散モデルを用いた。 まず,都市環境と地域間の関係をモデル化するための都市知識グラフを構築し,各地域の都市フローを生成するために,知識に富んだ時空間拡散モデル(KSTDiff)を設計する。 具体的には,異なる流量領域の都市流を正確に生成するために,各領域で学習し,カスタマイズ可能なボリューム推定器によって導かれる新しい拡散過程を設計する。 さらに, 都市流の時空間依存性を把握し, 都市環境への影響を把握するための知識強化型デノナイジングネットワークを提案する。 4つの実世界のデータセットに関する広範な実験は、都市フロー生成における最先端のベースラインよりも、モデルが優れていることを検証します。 さらに詳細な研究により, 都市フローデータの有用性と, 長期フロー生成と都市フロー予測のためのモデルの有用性が示された。 私たちのコードは、https://github.com/tsinghua-fib-lab/KSTDiff-Urban-flow-geneでリリースされています。

Although generative AI has been successful in many areas, its ability to model geospatial data is still underexplored. Urban flow, a typical kind of geospatial data, is critical for a wide range of urban applications. Existing studies mostly focus on predictive modeling of urban flow that predicts the future flow based on historical flow data, which may be unavailable in data-sparse areas or newly planned regions. Some other studies aim to predict OD flow among regions but they fail to model dynamic changes of urban flow over time. In this work, we study a new problem of urban flow generation that generates dynamic urban flow for regions without historical flow data. To capture the effect of multiple factors on urban flow, such as region features and urban environment, we employ diffusion model to generate urban flow for regions under different conditions. We first construct an urban knowledge graph (UKG) to model the urban environment and relationships between regions, based on which we design a knowledge-enhanced spatio-temporal diffusion model (KSTDiff) to generate urban flow for each region. Specifically, to accurately generate urban flow for regions with different flow volumes, we design a novel diffusion process guided by a volume estimator, which is learnable and customized for each region. Moreover, we propose a knowledge-enhanced denoising network to capture the spatio-temporal dependencies of urban flow as well as the impact of urban environment in the denoising process. Extensive experiments on four real-world datasets validate the superiority of our model over state-of-the-art baselines in urban flow generation. Further in-depth studies demonstrate the utility of generated urban flow data and the ability of our model for long-term flow generation and urban flow prediction. Our code is released at: https://github.com/tsinghua-fib-lab/KSTDiff-Urban-flow-generation.
翻訳日:2023-09-20 14:43:43 公開日:2023-09-19
# アルゴリズム投資戦略における機械学習問題の新たな損失関数としての平均絶対方向損失

Mean Absolute Directional Loss as a New Loss Function for Machine Learning Problems in Algorithmic Investment Strategies ( http://arxiv.org/abs/2309.10546v1 )

ライセンス: Link先を確認
Jakub Micha\'nk\'ow, Pawe{\l} Sakowski, Robert \'Slepaczuk(参考訳) 本稿では、アルゴリズム投資戦略(AIS)構築のために、金融時系列の予測に使用される機械学習モデルの最適化における適切な損失関数の問題を検討する。 アルゴリズム投資戦略において,予測から情報を抽出する際に,従来の予測誤差関数の重要な問題を解消し,効率的な購入/販売信号を生成する平均絶対方向損失(madl)関数を提案する。 最後に、2つの異なる資産クラス(暗号通貨:Bitcoinと商品:Crude Oil)のデータに基づいて、新たな損失関数により、LSTMモデルのより良いハイパーパラメータを選択し、サンプル外のデータに対するリスク調整されたリターンメトリクスに関して、より効率的な投資戦略を得ることができることを示す。

This paper investigates the issue of an adequate loss function in the optimization of machine learning models used in the forecasting of financial time series for the purpose of algorithmic investment strategies (AIS) construction. We propose the Mean Absolute Directional Loss (MADL) function, solving important problems of classical forecast error functions in extracting information from forecasts to create efficient buy/sell signals in algorithmic investment strategies. Finally, based on the data from two different asset classes (cryptocurrencies: Bitcoin and commodities: Crude Oil), we show that the new loss function enables us to select better hyperparameters for the LSTM model and obtain more efficient investment strategies, with regard to risk-adjusted return metrics on the out-of-sample data.
翻訳日:2023-09-20 14:43:16 公開日:2023-09-19
# モデルリーチング:llmをターゲットにした抽出攻撃

Model Leeching: An Extraction Attack Targeting LLMs ( http://arxiv.org/abs/2309.10544v1 )

ライセンス: Link先を確認
Lewis Birch, William Hackett, Stefan Trawicki, Neeraj Suri, Peter Garraghan(参考訳) Model Leechingは、Large Language Models (LLMs)をターゲットにした新しい抽出攻撃であり、ターゲットのLLMからタスク固有の知識を縮小パラメータモデルに蒸留することができる。 chatgpt-3.5-turboからタスク能力を抽出し、73%の完全一致(em)類似度を達成し、squad emとf1の精度スコア75%と87%をそれぞれapiコストわずか50ドルで示すことで、攻撃の有効性を実証した。 さらに,モデルリーチングを用いて抽出したモデルから抽出した敵の攻撃伝達可能性を実証し,ChatGPT-3.5-Turboに適用した場合の攻撃成功率を11%向上させる。

Model Leeching is a novel extraction attack targeting Large Language Models (LLMs), capable of distilling task-specific knowledge from a target LLM into a reduced parameter model. We demonstrate the effectiveness of our attack by extracting task capability from ChatGPT-3.5-Turbo, achieving 73% Exact Match (EM) similarity, and SQuAD EM and F1 accuracy scores of 75% and 87%, respectively for only $50 in API cost. We further demonstrate the feasibility of adversarial attack transferability from an extracted model extracted via Model Leeching to perform ML attack staging against a target LLM, resulting in an 11% increase to attack success rate when applied to ChatGPT-3.5-Turbo.
翻訳日:2023-09-20 14:43:03 公開日:2023-09-19
# モバイルクラウドセンシングのためのタスク割り当てゲームにおける分散オンライン学習

Decentralized Online Learning in Task Assignment Games for Mobile Crowdsensing ( http://arxiv.org/abs/2309.10594v1 )

ライセンス: Link先を確認
Bernd Simon, Andrea Ortiz, Walid Saad, Anja Klein(参考訳) モバイルクラウドセンシング(MCS)システムにおける協調データ収集の問題点について検討した。 モバイルクラウドセンシングプラットフォーム(MCSP)は、センサオファーをMCSPに送り返してタスクに参加する意思を示すための、利用可能なモバイルユニット(MU)に順次センシングタスクを発行する。 受信されたオファーから、MCSPはタスク割り当てを決定する。 安定したタスク割り当ては、MCSPとMUの相反する目標、およびMUの要求する努力と嗜好の不確実性という2つの課題に対処する必要がある。 これらの課題を克服するために,戦略的自由センシング(ca-mab-sfs)を用いた,マッチング理論とオンライン学習を組み合わせた新しい分散アプローチを提案する。 タスク割り当て問題は、MCSPとMUの個人目標を考慮したマッチングゲームとしてモデル化され、MUはオンラインで彼らの努力を学習する。 革新的"フリーセンシング"機構は,タスク割り当て時の衝突を低減しつつ,muの学習プロセスを大幅に改善する。 CA-MAB-SFSの安定な後悔、すなわち学習の損失は、解析的に部分線型関数によって束縛され、安定な最適解への収束を保証する。 シミュレーションの結果、CA-MAB-SFSは、最先端手法と比較してMUsとMCSPの満足度を高め、平均タスク完了時間を少なくとも16%削減した。

The problem of coordinated data collection is studied for a mobile crowdsensing (MCS) system. A mobile crowdsensing platform (MCSP) sequentially publishes sensing tasks to the available mobile units (MUs) that signal their willingness to participate in a task by sending sensing offers back to the MCSP. From the received offers, the MCSP decides the task assignment. A stable task assignment must address two challenges: the MCSP's and MUs' conflicting goals, and the uncertainty about the MUs' required efforts and preferences. To overcome these challenges a novel decentralized approach combining matching theory and online learning, called collision-avoidance multi-armed bandit with strategic free sensing (CA-MAB-SFS), is proposed. The task assignment problem is modeled as a matching game considering the MCSP's and MUs' individual goals while the MUs learn their efforts online. Our innovative "free-sensing" mechanism significantly improves the MU's learning process while reducing collisions during task allocation. The stable regret of CA-MAB-SFS, i.e., the loss of learning, is analytically shown to be bounded by a sublinear function, ensuring the convergence to a stable optimal solution. Simulation results show that CA-MAB-SFS increases the MUs' and the MCSP's satisfaction compared to state-of-the-art methods while reducing the average task completion time by at least 16%.
翻訳日:2023-09-20 14:34:29 公開日:2023-09-19
# 中性原子系におけるスチンスプリング拡張による量子チャネル学習の変分法

Variational method for learning Quantum Channels via Stinespring Dilation on neutral atom systems ( http://arxiv.org/abs/2309.10593v1 )

ライセンス: Link先を確認
L.Y. Visser, R.J.P.T. de Keijzer, O. Tse, S.J.J.M.F. Kokkelmans(参考訳) 閉量子系の状態 ||\psi(t)\rangle$ はschr\"{o}dinger方程式の下で進化し、状態の可逆的発展は初期状態 $|\psi_0\rangle$、すなわち ||\psi(t)\rangle=u(t)|\psi_0\rangle$ に対するユニタリ作用素の作用によって記述される。 しかし、現実的な量子系はその環境と相互作用し、リンドブラッド方程式によって記述された可逆的進化をもたらす。 これらの方程式の解は、密度行列の進化を$\rho(t)=\Phi_t(\rho_0)$に従って記述する量子チャネル$\Phi_t$をもたらす。 多くの量子実験において、測定ができるまでの時間は、例えば実験的な不安定性や技術的な制約によって制限される。 しかし、国家のさらなる進化は興味をそそるかもしれない。 例えば、デコヒーレンスとデフォーカスの源を決定するか、進化の定常状態を特定する。 本研究では,Stinespringダイレーション定理を導出し,拡張システム上で等価なユニタリを変動的に近似することで,所定のターゲット量子チャネルを近似する手法を提案する。 本稿では,最初のステップのデータのみを用いて,離散時間ステップで量子チャネルを外挿する実験可能な手法について報告する。 我々のアプローチは、中性原子量子コンピューティングアーキテクチャに特有のエンタングル量子ビットを空間的に輸送する能力に大きく依存しています。 さらに, 様々な非自明な量子チャネルに対する予測能力を示す。 最後に、ゲートベースとパルスベースの変動量子アルゴリズムの間で定量的解析を行う。

The state $|\psi(t)\rangle$ of a closed quantum system evolves under the Schr\"{o}dinger equation, where the reversible evolution of the state is described by the action of a unitary operator $U(t)$ on the initial state $|\psi_0\rangle$, i.e.\ $|\psi(t)\rangle=U(t)|\psi_0\rangle$. However, realistic quantum systems interact with their environment, resulting in non-reversible evolutions, described by Lindblad equations. The solution of these equations give rise to quantum channels $\Phi_t$ that describe the evolution of density matrices according to $\rho(t)=\Phi_t(\rho_0)$, which often results in decoherence and dephasing of the state. For many quantum experiments, the time until which measurements can be done might be limited, e.g. by experimental instability or technological constraints. However, further evolution of the state may be of interest. For instance, to determine the source of the decoherence and dephasing, or to identify the steady state of the evolution. In this work, we introduce a method to approximate a given target quantum channel by means of variationally approximating equivalent unitaries on an extended system, invoking the Stinespring dilation theorem. We report on an experimentally feasible method to extrapolate the quantum channel on discrete time steps using only data on the first time steps. Our approach heavily relies on the ability to spatially transport entangled qubits, which is unique to the neutral atom quantum computing architecture. Furthermore, the method shows promising predictive power for various non-trivial quantum channels. Lastly, a quantitative analysis is performed between gate-based and pulse-based variational quantum algorithms.
翻訳日:2023-09-20 14:34:03 公開日:2023-09-19
# NDDepth: 通常距離支援単眼深度推定

NDDepth: Normal-Distance Assisted Monocular Depth Estimation ( http://arxiv.org/abs/2309.10592v1 )

ライセンス: Link先を確認
Shuwei Shao, Zhongcai Pei, Weihai Chen, Xingming Wu and Zhengguo Li(参考訳) 単眼深度の推定は、その幅広い応用により、視覚コミュニティから広く注目を集めている。 本稿では,3次元シーンが分割平面で構成されていると仮定して,単眼深度推定のための新しい物理(ジオメトリ)駆動深層学習フレームワークを提案する。 特に,各位置における深度を導出するための画素レベル表面の正規化と平面-オリジン距離を出力する新しい正規距離ヘッドを導入する。 一方、標準と距離は、発達した平面認識整合性制約によって正規化される。 さらに,提案フレームワークのロバスト性を改善するために,さらに奥行きヘッドを統合する。 この2つの頭部の強みを十分に活用するために, 深さの不確かさに応じて奥行きを相補的に洗練する効果的な対比的反復改良モジュールを開発した。 大規模な実験により,提案手法は,NYU-Depth-v2,KITTI,SUN RGB-Dデータセット上での最先端の競合より優れていることが示された。 とくに、KITTIの深度予測オンラインベンチマークでは、提出時点で1位にランクインしている。

Monocular depth estimation has drawn widespread attention from the vision community due to its broad applications. In this paper, we propose a novel physics (geometry)-driven deep learning framework for monocular depth estimation by assuming that 3D scenes are constituted by piece-wise planes. Particularly, we introduce a new normal-distance head that outputs pixel-level surface normal and plane-to-origin distance for deriving depth at each position. Meanwhile, the normal and distance are regularized by a developed plane-aware consistency constraint. We further integrate an additional depth head to improve the robustness of the proposed framework. To fully exploit the strengths of these two heads, we develop an effective contrastive iterative refinement module that refines depth in a complementary manner according to the depth uncertainty. Extensive experiments indicate that the proposed method exceeds previous state-of-the-art competitors on the NYU-Depth-v2, KITTI and SUN RGB-D datasets. Notably, it ranks 1st among all submissions on the KITTI depth prediction online benchmark at the submission time.
翻訳日:2023-09-20 14:33:34 公開日:2023-09-19
# リモートセンシングにおけるオブジェクト検出:不完全な注釈付きオブジェクトのカースをリフティングする

Few-shot Object Detection in Remote Sensing: Lifting the Curse of Incompletely Annotated Novel Objects ( http://arxiv.org/abs/2309.10588v1 )

ライセンス: Link先を確認
Fahong Zhang, Yilei Shi, Zhitong Xiong, and Xiao Xiang Zhu(参考訳) 物体検出はコンピュータビジョンと衛星画像処理において必須かつ基本的な課題である。 既存のディープラーニング手法は、大規模な注釈付きデータセットが利用可能になったことで、目覚ましいパフォーマンスを達成した。 しかし、現実のアプリケーションではラベルの可用性は限られている。 この文脈では、少数ショットオブジェクト検出(FSOD)が有望な方向として現れ、このモデルが新規オブジェクトを注釈付きで検出することを目的としている。 しかし、既存のfsodアルゴリズムの多くは、重要な問題を見逃している。入力画像が複数の新しいオブジェクトを含み、そのサブセットのみが注釈付けされている場合、ラベルのないオブジェクトはトレーニング中に背景とみなされる。 これは混乱を引き起こし、モデルが新しいオブジェクトを思い出す能力に深刻な影響を与える可能性がある。 この問題に対処するために, 自己学習機構を組み込んだ FSOD (Self-training-based FSOD) アプローチを提案する。 ST-FSODは、注釈のない新しい物体の発見を可能にすることを目的としており、訓練中にそれらを考慮に入れている。 一方で,ベースと新規オブジェクトの抽出提案を分離する2分岐領域提案ネットワーク(rpn)を考案する一方で,学生教師機構をrpnと関心領域(roi)ヘッドに組み込んで,信頼度の高い非ラベル対象を疑似ラベルとして含める。 実験の結果,提案手法は様々なfsod設定における最先端技術よりも大きなマージンを持つことがわかった。 コードはhttps://github.com/zhu-xlab/ST-FSOD.comで公開されている。

Object detection is an essential and fundamental task in computer vision and satellite image processing. Existing deep learning methods have achieved impressive performance thanks to the availability of large-scale annotated datasets. Yet, in real-world applications the availability of labels is limited. In this context, few-shot object detection (FSOD) has emerged as a promising direction, which aims at enabling the model to detect novel objects with only few of them annotated. However, many existing FSOD algorithms overlook a critical issue: when an input image contains multiple novel objects and only a subset of them are annotated, the unlabeled objects will be considered as background during training. This can cause confusions and severely impact the model's ability to recall novel objects. To address this issue, we propose a self-training-based FSOD (ST-FSOD) approach, which incorporates the self-training mechanism into the few-shot fine-tuning process. ST-FSOD aims to enable the discovery of novel objects that are not annotated, and take them into account during training. On the one hand, we devise a two-branch region proposal networks (RPN) to separate the proposal extraction of base and novel objects, On another hand, we incorporate the student-teacher mechanism into RPN and the region of interest (RoI) head to include those highly confident yet unlabeled targets as pseudo labels. Experimental results demonstrate that our proposed method outperforms the state-of-the-art in various FSOD settings by a large margin. The codes will be publicly available at https://github.com/zhu-xlab/ST-FSOD.
翻訳日:2023-09-20 14:33:14 公開日:2023-09-19
# 不確実性定量化に対する敵対的攻撃

Adversarial Attacks Against Uncertainty Quantification ( http://arxiv.org/abs/2309.10586v1 )

ライセンス: Link先を確認
Emanuele Ledda, Daniele Angioni, Giorgio Piras, Giorgio Fumera, Battista Biggio and Fabio Roli(参考訳) 機械学習モデルは、逆例、すなわち、モデルに間違った予測を出力させる、慎重に構築された入力摂動によって騙される。 近年、敵の入力を検出するために不確実性定量化が提案されているが、これらの攻撃がプリスタンデータよりも高い予測不確実性を示すという仮定の下で、不確実性推定を減らそうとする適応攻撃は、この防御機構を簡単に回避できることが示されている。 本研究では,攻撃者がいまだに不確実性推定を操作することに関心がある異なるシナリオに焦点を当てるが,予測の正確性に関わらず,特に,下流モジュールや人間の操作者によって出力が消費される場合,機械学習モデルの使用を損なうことが目的である。 そのような方向に従うと、次のようになる。 i) 不確実性定量化を狙った攻撃に対する脅威モデルの設計; \textit{ (ii) 分類とセマンティックセグメンテーションの問題にまたがる概念的に異なるUQ技術に対する異なる攻撃戦略を考案する。 (3)) 攻撃対象のUQアプローチのいくつかの違いを比較するために、最初の完全かつ広範囲な分析を行う。 広範な実験分析の結果,不確実性定量化対策は,誤分類を誘発する攻撃よりも効果的であることが判明した。

Machine-learning models can be fooled by adversarial examples, i.e., carefully-crafted input perturbations that force models to output wrong predictions. While uncertainty quantification has been recently proposed to detect adversarial inputs, under the assumption that such attacks exhibit a higher prediction uncertainty than pristine data, it has been shown that adaptive attacks specifically aimed at reducing also the uncertainty estimate can easily bypass this defense mechanism. In this work, we focus on a different adversarial scenario in which the attacker is still interested in manipulating the uncertainty estimate, but regardless of the correctness of the prediction; in particular, the goal is to undermine the use of machine-learning models when their outputs are consumed by a downstream module or by a human operator. Following such direction, we: \textit{(i)} design a threat model for attacks targeting uncertainty quantification; \textit{(ii)} devise different attack strategies on conceptually different UQ techniques spanning for both classification and semantic segmentation problems; \textit{(iii)} conduct a first complete and extensive analysis to compare the differences between some of the most employed UQ approaches under attack. Our extensive experimental analysis shows that our attacks are more effective in manipulating uncertainty quantification measures than attacks aimed to also induce misclassifications.
翻訳日:2023-09-20 14:32:49 公開日:2023-09-19
# PDRL:予測モニタリングのためのマルチエージェント型強化学習

PDRL: Multi-Agent based Reinforcement Learning for Predictive Monitoring ( http://arxiv.org/abs/2309.10576v1 )

ライセンス: Link先を確認
Thanveer Shaik, Xiaohui Tao, Lin Li, Haoran Xie, U R Acharya, Raj Gururajan, Xujuan Zhou(参考訳) 強化学習は、以前の経験から学ぶことができ、適応的な決定ができるため、アプリケーションの監視にますます適用されている。 しかしながら、既存の機械学習ベースのヘルスモニタリングアプリケーションは、ほとんどがラベルに基づいてトレーニングされた学習アルゴリズムで、不確定な複雑な環境で適応的な決定を行うことができない。 本研究では, 時系列予測環境における複数のRLエージェントを用いた新しい, 汎用的な予測深化学習(PDRL)を提案する。 提案する汎用フレームワークでは,仮想ディープQネットワーク (DQN) エージェントが複雑な環境の予測された将来状態を監視することで,エージェントが報酬を最大化しながら既存の知識を学習できるようにする。 提案フレームワークの評価プロセスでは,3つのDRLエージェントを配置し,BiLSTMモデルを用いて将来の心拍数,呼吸,温度を予測した。 各イテレーションで、3つのエージェントが関連するパターンを学習し、その累積報酬が徐々に増加した。 3つの監視エージェントのベースラインモデルよりも優れていた。 提案するPDRLフレームワークは,時系列予測プロセスにおいて最先端の性能を実現することができる。 提案するDRLエージェントとPDRLフレームワークのディープラーニングモデルは、トラフィックや天気などの他の予測アプリケーションで転送学習を実装し、状態を監視するためにカスタマイズされる。 PDRLフレームワークは,交通・天気予報の今後の状況を知ることができ,各エピソードにおいて累積報酬が徐々に増加しつつある。

Reinforcement learning has been increasingly applied in monitoring applications because of its ability to learn from previous experiences and can make adaptive decisions. However, existing machine learning-based health monitoring applications are mostly supervised learning algorithms, trained on labels and they cannot make adaptive decisions in an uncertain complex environment. This study proposes a novel and generic system, predictive deep reinforcement learning (PDRL) with multiple RL agents in a time series forecasting environment. The proposed generic framework accommodates virtual Deep Q Network (DQN) agents to monitor predicted future states of a complex environment with a well-defined reward policy so that the agent learns existing knowledge while maximizing their rewards. In the evaluation process of the proposed framework, three DRL agents were deployed to monitor a subject's future heart rate, respiration, and temperature predicted using a BiLSTM model. With each iteration, the three agents were able to learn the associated patterns and their cumulative rewards gradually increased. It outperformed the baseline models for all three monitoring agents. The proposed PDRL framework is able to achieve state-of-the-art performance in the time series forecasting process. The proposed DRL agents and deep learning model in the PDRL framework are customized to implement the transfer learning in other forecasting applications like traffic and weather and monitor their states. The PDRL framework is able to learn the future states of the traffic and weather forecasting and the cumulative rewards are gradually increasing over each episode.
翻訳日:2023-09-20 14:32:26 公開日:2023-09-19
# モバイルエッジコンピューティングにおける深層強化学習によるタスクグラフオフロード

Task Graph offloading via Deep Reinforcement Learning in Mobile Edge Computing ( http://arxiv.org/abs/2309.10569v1 )

ライセンス: Link先を確認
Jiagang Liu, Yun Mi, Xinyu Zhang(参考訳) 依存タスクを構成するさまざまなモバイルアプリケーションが広く普及し、ますます複雑になっている。 これらのアプリケーションは、しばしば低レイテンシ要件を持ち、コンピューティングリソースの需要が大幅に急増する。 モバイルエッジコンピューティング(MEC)の出現により、高品質なユーザエクスペリエンスを得るために、モバイルネットワークのエッジにデプロイされた小規模デバイスにアプリケーションタスクをオフロードする上で、最も重要な問題となる。 しかし、MECの環境は動的であるため、専門家の知識や正確な分析モデルに大きく依存するタスクグラフのオフロードに焦点を当てた既存の作業は、そのような環境変化に完全に適応できず、ユーザエクスペリエンスが低下する。 本稿では,エッジコンピューティングデバイスの時間変動計算能力を考慮したMECにおけるタスクグラフのオフロードについて検討する。 環境変化に対応するために,計算オフロードのためのタスクグラフスケジューリングをMarkov Decision Process (MDP) としてモデル化する。 次に,環境とのインタラクションからタスクスケジューリング戦略を学習し,ユーザエクスペリエンスを向上させるために,深層強化学習アルゴリズム(sata-drl)を設計する。 シミュレーションにより、SATA-DRLは平均メイトパンと期限違反を減らす点で既存の戦略よりも優れていることが示された。

Various mobile applications that comprise dependent tasks are gaining widespread popularity and are increasingly complex. These applications often have low-latency requirements, resulting in a significant surge in demand for computing resources. With the emergence of mobile edge computing (MEC), it becomes the most significant issue to offload the application tasks onto small-scale devices deployed at the edge of the mobile network for obtaining a high-quality user experience. However, since the environment of MEC is dynamic, most existing works focusing on task graph offloading, which rely heavily on expert knowledge or accurate analytical models, fail to fully adapt to such environmental changes, resulting in the reduction of user experience. This paper investigates the task graph offloading in MEC, considering the time-varying computation capabilities of edge computing devices. To adapt to environmental changes, we model the task graph scheduling for computation offloading as a Markov Decision Process (MDP). Then, we design a deep reinforcement learning algorithm (SATA-DRL) to learn the task scheduling strategy from the interaction with the environment, to improve user experience. Extensive simulations validate that SATA-DRL is superior to existing strategies in terms of reducing average makespan and deadline violation.
翻訳日:2023-09-20 14:32:02 公開日:2023-09-19
# 音声言語識別のためのマルチモーダルモデリング

Multimodal Modeling For Spoken Language Identification ( http://arxiv.org/abs/2309.10567v1 )

ライセンス: Link先を確認
Shikhar Bharadwaj, Min Ma, Shikhar Vashishth, Ankur Bapna, Sriram Ganapathy, Vera Axelrod, Siddharth Dalmia, Wei Han, Yu Zhang, Daan van Esch, Sandy Ritchie, Partha Talukdar, Jason Riesa(参考訳) 音声言語識別とは、ある発話中の音声言語を自動的に予測するタスクを指す。 従来は、音声に基づく言語識別タスクとしてモデル化される。 以前のテクニックは単一のモダリティに制限されていたが、ビデオデータの場合、このタスクに有益である可能性のある他のメタデータが豊富に存在する。 本研究では,様々なメタデータソースを用いて言語識別を行うマルチモーダル音声言語識別手法であるmuseliを提案する。 本研究は,映像のタイトルや説明,地理的位置といったメタデータが,マルチメディア記録の音声言語を識別するための重要な情報を提供することを示す。 youtubeビデオの2つの公開データセットを用いて実験を行い、言語識別タスクに関する最新結果を得る。 さらに,言語認識における各モダリティの異なる寄与を記述したアブレーション研究を行う。

Spoken language identification refers to the task of automatically predicting the spoken language in a given utterance. Conventionally, it is modeled as a speech-based language identification task. Prior techniques have been constrained to a single modality; however in the case of video data there is a wealth of other metadata that may be beneficial for this task. In this work, we propose MuSeLI, a Multimodal Spoken Language Identification method, which delves into the use of various metadata sources to enhance language identification. Our study reveals that metadata such as video title, description and geographic location provide substantial information to identify the spoken language of the multimedia recording. We conduct experiments using two diverse public datasets of YouTube videos, and obtain state-of-the-art results on the language identification task. We additionally conduct an ablation study that describes the distinct contribution of each modality for language recognition.
翻訳日:2023-09-20 14:31:41 公開日:2023-09-19
# 量子忠実性の簡易表現法

A Simplified Expression for Quantum Fidelity ( http://arxiv.org/abs/2309.10565v1 )

ライセンス: Link先を確認
Adrian M\"uller(参考訳) 量子忠実度は混合量子状態間の類似性の最も重要な尺度の1つである。 しかし、通常の定式化は面倒で、初めて遭遇したときは理解しにくい。 この研究は、式をより単純な形式に書き換えることができることを示し、対称性の性質をより明確にするだけでなく、完全な分解を避けることで計算効率が向上する新しい定式化をもたらす。 将来の研究は、他の定理が影響を受ける方法を探したり、忠実性が計算のボトルネックである再構成を利用するかもしれない。

Quantum fidelity is one of the most important measures of similarity between mixed quantum states. However, the usual formulation is cumbersome and hard to understand when encountering the first time. This work shows that the expression can be rewritten into a simpler form, which not only makes its symmetry property more obvious but also gives rise to a novel formulation that might be more computationally efficient by avoiding any full decomposition. Future work might look for ways in which other theorems could be affected or utilize the reformulation where fidelity is the computational bottleneck.
翻訳日:2023-09-20 14:31:29 公開日:2023-09-19
# 二次制約付き二次最適化問題に対するハイブリッドアルゴリズム

A hybrid algorithm for quadratically constrained quadratic optimization problems ( http://arxiv.org/abs/2309.10564v1 )

ライセンス: Link先を確認
Hongyi Zhou, Sirui Peng, Qian Li, Xiaoming Sun(参考訳) Quadratically Constrained Quadratic Programs (QCQP) は、様々な現実世界のアプリケーションにおいて重要な最適化問題である。 本研究では,一般QCQPに対する変分量子アルゴリズムを提案する。 量子状態の振幅に変数を符号化することにより、量子ビット数の要求は変数の次元と対数的にスケールするので、我々のアルゴリズムは現在の量子デバイスに適している。 古典的最適化における原始双対内点法を用いて、一般的な二次制約を扱うことができる。 最大カット問題や最適潮流問題を含む典型的なqcqp問題に関する数値実験により,従来のアルゴリズムよりも優れたハイブリッドアルゴリズムが得られた。

Quadratically Constrained Quadratic Programs (QCQPs) are an important class of optimization problems with diverse real-world applications. In this work, we propose a variational quantum algorithm for general QCQPs. By encoding the variables on the amplitude of a quantum state, the requirement of the qubit number scales logarithmically with the dimension of the variables, which makes our algorithm suitable for current quantum devices. Using the primal-dual interior-point method in classical optimization, we can deal with general quadratic constraints. Our numerical experiments on typical QCQP problems, including Max-Cut and optimal power flow problems, demonstrate a better performance of our hybrid algorithm over the classical counterparts.
翻訳日:2023-09-20 14:31:19 公開日:2023-09-19
# リソース効率の高いアテンションベースニューラルネットワークによる量子状態トモグラフィの強化

Enhancing quantum state tomography via resource-efficient attention-based neural networks ( http://arxiv.org/abs/2309.10616v1 )

ライセンス: Link先を確認
Adriano Macarone Palmieri, Guillem M\"uller-Rigat, Anubhav Kumar Srivastava, Maciej Lewenstein, Grzegorz Rajchel-Mieldzio\'c, and Marcin P{\l}odzie\'n(参考訳) 資源効率の良い量子状態トモグラフィーは、将来の量子技術の主要な要素の1つである。 本研究では,標準量子状態再構成法と注意に基づくニューラルネットワークアーキテクチャを組み合わせた新しいトモグラフィープロトコルを提案する。 提案手法は,有限統計系における線形反転と最大類似度推定よりも平均忠実度再構成を向上し,少なくとも必要なトレーニングデータの量を桁違いに削減できることを示す。 我々は,物理的に関連するシナリオ,特にスピンスクイーズプロトコル中に発生する多体絡み合いという形でメトロロジー資源を認証するために,プロトコルの潜在的利用を実証する。 これは、閉じ込められたイオンや光学格子内の超低温原子といった現在の量子シミュレータプラットフォームで実装できる。

Resource-efficient quantum state tomography is one of the key ingredients of future quantum technologies. In this work, we propose a new tomography protocol combining standard quantum state reconstruction methods with an attention-based neural network architecture. We show how the proposed protocol is able to improve the averaged fidelity reconstruction over linear inversion and maximum-likelihood estimation in the finite-statistics regime, reducing at least by an order of magnitude the amount of necessary training data. We demonstrate the potential use of our protocol in physically relevant scenarios, in particular, to certify metrological resources in the form of many-body entanglement generated during the spin squeezing protocols. This could be implemented with the current quantum simulator platforms, such as trapped ions, and ultra-cold atoms in optical lattices.
翻訳日:2023-09-20 14:26:30 公開日:2023-09-19
# 拡張可能なロバスト最適化モンテカルロのpython実装

An Extendable Python Implementation of Robust Optimisation Monte Carlo ( http://arxiv.org/abs/2309.10612v1 )

ライセンス: Link先を確認
Vasilis Gkolemis, Michael Gutmann, Henri Pesonen(参考訳) 統計モデルにおいて難解な確率で推論を行うことは難しいため、ほとんどの確率自由推論 (lfi) 法は精度と効率の限界に遭遇する。 本稿では,pythonパッケージelfiにおけるlfi法ロバスト最適化モンテカルロ(romc)の実装について述べる。 ROMCは、後方から正確な重み付けされたサンプルを提供する、新しく(非常に並列化可能な)LFIフレームワークである。 私たちの実装は2つの方法で利用できます。 ELFIの原理と調和した使い易いAPIを提供しており、パッケージに含まれる他のメソッドとの比較をむずかしく行うことができる。 さらに,ROMCを拡張性をサポートするために分離したコンポーネントに慎重に分割した。 研究者は、スクラッチからすべてを再実装することなく、ROMCの部分(s)を解決する新しい方法を試すことができる。 どちらのシナリオでも、ROMC部分は完全に並列化され、すべてのCPUコアを利用することができる。 役立つ機能も提供しています (i)推論過程を検査すること (ii) 得られた試料の評価。 最後に、いくつかの典型的なLFIの例で実装の堅牢性をテストする。

Performing inference in statistical models with an intractable likelihood is challenging, therefore, most likelihood-free inference (LFI) methods encounter accuracy and efficiency limitations. In this paper, we present the implementation of the LFI method Robust Optimisation Monte Carlo (ROMC) in the Python package ELFI. ROMC is a novel and efficient (highly-parallelizable) LFI framework that provides accurate weighted samples from the posterior. Our implementation can be used in two ways. First, a scientist may use it as an out-of-the-box LFI algorithm; we provide an easy-to-use API harmonized with the principles of ELFI, enabling effortless comparisons with the rest of the methods included in the package. Additionally, we have carefully split ROMC into isolated components for supporting extensibility. A researcher may experiment with novel method(s) for solving part(s) of ROMC without reimplementing everything from scratch. In both scenarios, the ROMC parts can run in a fully-parallelized manner, exploiting all CPU cores. We also provide helpful functionalities for (i) inspecting the inference process and (ii) evaluating the obtained samples. Finally, we test the robustness of our implementation on some typical LFI examples.
翻訳日:2023-09-20 14:26:18 公開日:2023-09-19
# 抽象的意味表現による医用対話生成の改善

Improving Medical Dialogue Generation with Abstract Meaning Representations ( http://arxiv.org/abs/2309.10608v1 )

ライセンス: Link先を確認
Bohao Yang, Chen Tang, Chenghua Lin(参考訳) 医療対話生成は、患者への医療専門知識の普及を促進することで遠隔医療において重要な役割を担っている。 既存の研究は、重要な医学的実体を無視するなど、テキストの意味論を表現する能力を制限したテキスト表現の導入に焦点を当てている。 テキスト意味論と,エンティティや関係を含む医療知識の理解を深めるために,対話における言語構成員や医療エンティティの役割を記述したグラフィカルな表現を構築するために抽象的意味表現(AMR)を導入する。 本稿では,amrグラフを用いて患者と医療従事者間の対話をモデル化する新しい枠組みを提案する。 実験の結果,本フレームワークは医療対話生成における強力なベースラインモデルよりも優れており,医療知識と論理関係の表現性向上におけるamrグラフの有効性が示された。 さらに、この領域における将来の研究をサポートするために、対応するソースコードをhttps://github.com/Bernard-Yang/MedDiaAMRで提供します。

Medical Dialogue Generation serves a critical role in telemedicine by facilitating the dissemination of medical expertise to patients. Existing studies focus on incorporating textual representations, which have limited their ability to represent the semantics of text, such as ignoring important medical entities. To enhance the model's understanding of the textual semantics and the medical knowledge including entities and relations, we introduce the use of Abstract Meaning Representations (AMR) to construct graphical representations that delineate the roles of language constituents and medical entities within the dialogues. In this paper, We propose a novel framework that models dialogues between patients and healthcare professionals using AMR graphs, where the neural networks incorporate textual and graphical knowledge with a dual attention mechanism. Experimental results show that our framework outperforms strong baseline models in medical dialogue generation, demonstrating the effectiveness of AMR graphs in enhancing the representations of medical knowledge and logical relationships. Furthermore, to support future research in this domain, we provide the corresponding source code at https://github.com/Bernard-Yang/MedDiaAMR.
翻訳日:2023-09-20 14:26:03 公開日:2023-09-19
# 海洋再生可能エネルギー産業における最適化ソリューションのための新しいハイブリッドアルゴリズム:パワーテイクオフパラメータの強化とウェーブエネルギコンバータのサイト選択手順

A Novel Hybrid Algorithm for Optimized Solutions in Ocean Renewable Energy Industry: Enhancing Power Take-Off Parameters and Site Selection Procedure of Wave Energy Converters ( http://arxiv.org/abs/2309.10606v1 )

ライセンス: Link先を確認
Hossein Mehdipour, Erfan Amini, Seyed Taghi Naeeni, Mehdi Neshat(参考訳) 海洋再生エネルギー、特に波浪エネルギーは、地球規模のエネルギーポートフォリオを多様化し、化石燃料への依存を減らし、気候変動の影響を緩和するための重要な要素となっている。 本研究では,オフショア発振サージ波エネルギー変換器(oswec)のパワーテイクオフパラメータ(pto)の最適化とサイト選択過程について検討した。 しかし、これらの相互作用の本質的なダイナミクスと最適化のランドスケープのマルチモーダルな性質が相まって、これは恐ろしい課題となっている。 本稿では,Hill Climb - Explorative Gray Wolf Optimizer (HC-EGWO)について紹介する。 この新しい手法は局所探索法とグローバルオプティマイザをブレンドし、探索と搾取率を動的に制御する。 このバランスは、ソリューション空間のさらなる探索の道を開き、優れたソリューションの特定を確実にする。 さらに, 線形波動理論の仮定に基づく実現可能性ランドスケープ解析を行い, フラップの最大角運動について検討した。 これにより、最適化されたOSWECは安全と効率のパラメータ内で一貫して動作する。 以上の結果から,OSWEC パワーテイクオフシステムの開発に有意な期待が得られた。 彼らは、主要沖合地を選択し、出力を最適化し、海洋再生可能エネルギー源の全体的採用を促進するための洞察を提供する。 また,HC-EGWO法を用いることで,他の方法と比較して最大3.31%の出力向上を実現した。 この大幅な増加は,提案手法の有効性を裏付けるものである。 結論として、この結果は南カスピ海にOSWECを配備するための貴重な知識を提供する。

Ocean renewable energy, particularly wave energy, has emerged as a pivotal component for diversifying the global energy portfolio, reducing dependence on fossil fuels, and mitigating climate change impacts. This study delves into the optimization of power take-off (PTO) parameters and the site selection process for an offshore oscillating surge wave energy converter (OSWEC). However, the intrinsic dynamics of these interactions, coupled with the multi-modal nature of the optimization landscape, make this a daunting challenge. Addressing this, we introduce the novel Hill Climb - Explorative Gray Wolf Optimizer (HC-EGWO). This new methodology blends a local search method with a global optimizer, incorporating dynamic control over exploration and exploitation rates. This balance paves the way for an enhanced exploration of the solution space, ensuring the identification of superior-quality solutions. Further anchoring our approach, a feasibility landscape analysis based on linear water wave theory assumptions and the flap's maximum angular motion is conducted. This ensures the optimized OSWEC consistently operates within safety and efficiency parameters. Our findings hold significant promise for the development of more streamlined OSWEC power take-off systems. They provide insights for selecting the prime offshore site, optimizing power output, and bolstering the overall adoption of ocean renewable energy sources. Impressively, by employing the HC-EGWO method, we achieved an upswing of up to 3.31% in power output compared to other methods. This substantial increment underscores the efficacy of our proposed optimization approach. Conclusively, the outcomes offer invaluable knowledge for deploying OSWECs in the South Caspian Sea, where unique environmental conditions intersect with considerable energy potential.
翻訳日:2023-09-20 14:25:45 公開日:2023-09-19
# FRACAS:新Sにおける属性関係の注釈付きコーパス

FRACAS: A FRench Annotated Corpus of Attribution relations in newS ( http://arxiv.org/abs/2309.10604v1 )

ライセンス: Link先を確認
Ange Richard, Laura Alonzo-Canul, Fran\c{c}ois Portet(参考訳) 引用抽出は、社会学的および自然言語処理の観点から、広く有用なタスクである。 しかし、このタスクを英語以外の言語で研究するためのデータはほとんどない。 本稿では,フランス語で1676のニュースワイヤテキストを手作業でアノテートしたコーパスを用いて引用抽出とソースの帰属を行う。 まず,コーパスの構成とデータ選択における選択について述べる。 次に、アノテーションガイドラインとアノテーションプロセス、および最後のコーパスに関するいくつかの統計と、得られた引用型(特に困難である、直接、間接、混合)のバランスについて詳述する。 最後に、手作業によるラベリングに携わる8人の注釈者の間でのアノテーション間合意を詳述する。

Quotation extraction is a widely useful task both from a sociological and from a Natural Language Processing perspective. However, very little data is available to study this task in languages other than English. In this paper, we present a manually annotated corpus of 1676 newswire texts in French for quotation extraction and source attribution. We first describe the composition of our corpus and the choices that were made in selecting the data. We then detail the annotation guidelines and annotation process, as well as a few statistics about the final corpus and the obtained balance between quote types (direct, indirect and mixed, which are particularly challenging). We end by detailing our inter-annotator agreement between the 8 annotators who worked on manual labelling, which is substantially high for such a difficult linguistic phenomenon.
翻訳日:2023-09-20 14:25:16 公開日:2023-09-19
# 機械学習に基づく小惑星共軌道運動分類

Asteroids co-orbital motion classification based on Machine Learning ( http://arxiv.org/abs/2309.10603v1 )

ライセンス: Link先を確認
Giulia Ciacci and Andrea Barucci and Sara Di Ruzza and Elisa Maria Alessi(参考訳) 本研究では、機械学習を用いて、小惑星の軌道運動と惑星との分類方法について検討する。 そこで我々は,惑星との平均運動共鳴における4つの異なる動きについて考察し,3つのデータセットをReal(JPLホライズンズ・システムからの小惑星の自転)、Ideal and Perturbed(2つの異なる力学系を考慮した初期条件の伝播)で構築し,機械学習アルゴリズムを異なる条件で訓練・テストする。 データ作成とアノテーション、tsfreshパッケージによる時系列特徴抽出(潜在的に選択と標準化が続く)、および次元の縮小と分類のための機械学習アルゴリズムの適用により構成される、問題のアドホックを定義するデータ解析パイプラインを用いて、可変テタ(共振に関連する角度)の時系列を解析する。 このようなアプローチは、時系列から抽出した特徴に基づいて、ディープラーニングアルゴリズムに関してより少ないデータを扱うことが可能であり、特徴の重要性のランキングを定義することもできる。 特徴の物理的解釈可能性もこのアプローチの重要なポイントである。 また,SHapley Additive exPlanations for Explainabilityについて紹介する。 私たちのアプローチのパワーと限界を理解するために、さまざまなトレーニングとテストセットが使用されます。 その結果,アルゴリズムが時系列を正しく識別・分類し,高い性能を発揮できることを示した。

In this work, we explore how to classify asteroids in co-orbital motion with a given planet using Machine Learning. We consider four different kinds of motion in mean motion resonance with the planet, nominally Tadpole, Horseshoe and Quasi-satellite, building 3 datasets defined as Real (taking the ephemerides of real asteroids from the JPL Horizons system), Ideal and Perturbed (both simulated, obtained by propagating initial conditions considering two different dynamical systems) for training and testing the Machine Learning algorithms in different conditions. The time series of the variable theta (angle related to the resonance) are studied with a data analysis pipeline defined ad hoc for the problem and composed by: data creation and annotation, time series features extraction thanks to the tsfresh package (potentially followed by selection and standardization) and the application of Machine Learning algorithms for Dimensionality Reduction and Classification. Such approach, based on features extracted from the time series, allows to work with a smaller number of data with respect to Deep Learning algorithms, also allowing to define a ranking of the importance of the features. Physical Interpretability of the features is another key point of this approach. In addition, we introduce the SHapley Additive exPlanations for Explainability technique. Different training and test sets are used, in order to understand the power and the limits of our approach. The results show how the algorithms are able to identify and classify correctly the time series, with a high degree of performance.
翻訳日:2023-09-20 14:25:02 公開日:2023-09-19
# 拡張チップ集積量子メカノロジーのための光2モード圧縮干渉計

Optical two-mode squeezed interferometer for enhanced chip-integrated quantum-metrology ( http://arxiv.org/abs/2309.10602v1 )

ライセンス: Link先を確認
Patrick Tritschler, Torsten Ohms, Andr\'e Zimmermann, Fabian Zschocke, Peter Degenfeld-Schonburg(参考訳) 本研究は, 小型化に焦点をあて, 既存のセンサ技術の性能向上を図るため, 2モード圧縮光を用いる可能性を分析する。 一般的な4波混合ハミルトニアンに基づいて、fwm過程をしきい値以下で記述した単純な線形方程式を定式化し、生成された光信号とアイドラーモードの間のスクイーズ品質の解析に使用できる。 可能な実現に向けて,マイクロ共振器を用いたチップ積分生成に着目し,設計とポンプ光がスクイーズ品質に与える影響を導出方程式で示す。 これにより、量子量論における使用法を分析し、マッハツェンダー干渉計における2モード絞り光の適用と、サーニャック干渉計の応用におけるより深い理解と動機について分析する。 これらのユースケースにおける損失の影響から、主に小型・小型のデバイスに使われており、古典的な光のみを使用する場合と比較して10倍の量子的改善が期待できることを示す。 これにより、より大型の古典的センサーに匹敵する性能を持つ小さな量子エンハンス型センサーが使用できる。

In this work we analyze the possibility to use two-mode squeezed light to improve the performance of existing sensor technology with the focus on its miniaturization. Based on a general four-wave mixing Hamiltonian, we formulate simple linearized equations that describe the FWM process below threshold and can be used to analyze the squeezing quality between the generated optical signal and idler modes. For a possible realization, we focus on the chip-integrated generation using micro-ringresonators and the impact of the design and the pump light on the squeezing quality is shown with the derived equations. With this we analyze the usage in quantrum metrology and analyze the application of two-mode squeezed light in a Mach-Zehnder interferometer and for a deeper understanding and motivation also in the application of a Sagnac-interferometer. Due to the impact of losses in these use cases, we show that the main usage is for small and compact devices, which can lead to a quantum improvement up to a factor of ten in comparison of using only classical light. This enables the use of small quantum-enhanced sensors with a comparable performance to larger classical sensors.
翻訳日:2023-09-20 14:24:31 公開日:2023-09-19
# 教師なし深層言語エンティティアライメント

Unsupervised Deep Cross-Language Entity Alignment ( http://arxiv.org/abs/2309.10598v1 )

ライセンス: Link先を確認
Chuanyu Jiang, Yiming Qian, Lijun Chen, Yang Gu, and Xia Xie(参考訳) 言語間のエンティティアライメントは、異なる言語知識グラフから同じセマンティックエンティティを見つけるタスクである。 本稿では,言語間エンティティアライメントのための単純かつ新しい教師なし手法を提案する。 深層学習用多言語エンコーダと機械翻訳器を組み合わせて知識グラフテキストを符号化し,ラベルデータへの依存を減らす。 グローバルアライメントとローカルアライメントのみを強調する従来の手法とは異なり,両アライメント戦略を同時に考慮する。 まず、アライメントタスクを二部構成のマッチング問題とみなし、アライメントを達成するために再変化するアイデアを採用する。 最適解のみを与える従来の二部マッチングアルゴリズムと比較して,本アルゴリズムはランク付けされたマッチング結果を生成し,多くのポテンシャルを下流タスクで実現した。 さらに,2種類の最適化(最小値と最大値)を両部マッチングプロセスに適応させることで,柔軟性が向上する。 評価の結果,中国語,日本語,フランス語のDBP15Kデータセットでそれぞれ0.966,0.990,0.996 Hits@1のスコアを得た。 非教師なしと半教師なしのカテゴリで最先端の手法を上回った。 最新の教師付き手法と比較すると,ja-en と fr-en のアライメントタスクでは2.6%,0.4%,zh-en アライメントタスクでは 0.2% 以下である。

Cross-lingual entity alignment is the task of finding the same semantic entities from different language knowledge graphs. In this paper, we propose a simple and novel unsupervised method for cross-language entity alignment. We utilize the deep learning multi-language encoder combined with a machine translator to encode knowledge graph text, which reduces the reliance on label data. Unlike traditional methods that only emphasize global or local alignment, our method simultaneously considers both alignment strategies. We first view the alignment task as a bipartite matching problem and then adopt the re-exchanging idea to accomplish alignment. Compared with the traditional bipartite matching algorithm that only gives one optimal solution, our algorithm generates ranked matching results which enabled many potentials downstream tasks. Additionally, our method can adapt two different types of optimization (minimal and maximal) in the bipartite matching process, which provides more flexibility. Our evaluation shows, we each scored 0.966, 0.990, and 0.996 Hits@1 rates on the DBP15K dataset in Chinese, Japanese, and French to English alignment tasks. We outperformed the state-of-the-art method in unsupervised and semi-supervised categories. Compared with the state-of-the-art supervised method, our method outperforms 2.6% and 0.4% in Ja-En and Fr-En alignment tasks while marginally lower by 0.2% in the Zh-En alignment task.
翻訳日:2023-09-20 14:22:57 公開日:2023-09-19
# シンボリック音楽のためのモチーフ中心表現学習

Motif-Centric Representation Learning for Symbolic Music ( http://arxiv.org/abs/2309.10597v1 )

ライセンス: Link先を確認
Yuxuan Wu, Roger B. Dannenberg, Gus Xia(参考訳) 音楽モチーフは、作曲の概念的な構成要素として、音楽の構造分析や自動作曲に不可欠である。 人間のリスナーは容易にモチーフを識別できるが、既存の計算モデルはモチーフとその発展を表すのに不足している。 その理由はモチーフの性質が暗黙的であり、モチーフの多様性は単純な反復や変調を超えて広がるからである。 本研究では,siameseネットワークアーキテクチャと事前学習と微調整パイプラインを用いて,モチーフと表現学習による変化の関係を暗黙的に学習することを目的とした。 正規化ベースの方法であるvicregが事前学習に採用され、対照的な学習が微調整に使用される。 検索に基づくタスク実験の結果,これら2つの手法が相互に補完することが明らかとなり,精度リコール曲線下の領域では12.6%向上した。 最後に、得られたモチーフ表現を可視化し、楽曲全体の構造を直感的に理解する。 私たちが知る限りでは、この作品は音楽モチーフの計算モデリングにおける注目すべき一歩である。 本研究は,自動作曲と音楽情報検索におけるモチーフの今後の活用の基礎となるものと考えられる。

Music motif, as a conceptual building block of composition, is crucial for music structure analysis and automatic composition. While human listeners can identify motifs easily, existing computational models fall short in representing motifs and their developments. The reason is that the nature of motifs is implicit, and the diversity of motif variations extends beyond simple repetitions and modulations. In this study, we aim to learn the implicit relationship between motifs and their variations via representation learning, using the Siamese network architecture and a pretraining and fine-tuning pipeline. A regularization-based method, VICReg, is adopted for pretraining, while contrastive learning is used for fine-tuning. Experimental results on a retrieval-based task show that these two methods complement each other, yielding an improvement of 12.6% in the area under the precision-recall curve. Lastly, we visualize the acquired motif representations, offering an intuitive comprehension of the overall structure of a music piece. As far as we know, this work marks a noteworthy step forward in computational modeling of music motifs. We believe that this work lays the foundations for future applications of motifs in automatic music composition and music information retrieval.
翻訳日:2023-09-20 14:22:21 公開日:2023-09-19
# 異方性獲得による3次元電子顕微鏡像の等方的再構成のための自己超解法

Self-Supervised Super-Resolution Approach for Isotropic Reconstruction of 3D Electron Microscopy Images from Anisotropic Acquisition ( http://arxiv.org/abs/2309.10646v1 )

ライセンス: Link先を確認
Mohammad Khateri, Morteza Ghahremani, Alejandra Sierra, and Jussi Tohka(参考訳) 3次元電子顕微鏡(3dem)は、体積組織微細構造の研究に不可欠な技術である。 技術的制限と高い撮像コストのため、サンプルはしばしば異方性に撮像され、軸方向の解像度(z$)は横方向の$(x,y)$よりも低い。 この異方性3DEMは、その後の解析および可視化タスクを妨げる。 この制限を克服するために,異方性獲得から等方性3DEMを計算的に再構成する,新しい深層学習(DL)に基づく自己教師型超解法を提案する。 提案されたdlベースのフレームワークは、vision-transformer (vit)ブロックを組み込んだu字型アーキテクチャ上に構築されており、ローカルおよびグローバルマルチスケールイメージの高能力学習を可能にする。 調整ネットワークのトレーニングには,自己教師型アプローチを採用する。 具体的には,与えられた異方性3demデータから一対の異方性および等方性トレーニングデータセットを生成する。 提案手法を用いて, 与えられた異方性3DEMデータセットをトレーニングネットワークに供給することにより, 等方性3DEMを得る。 重要なことは、この等方的再構成アプローチは与えられた異方性3DEMデータセットのみに依存しており、共登録された異方性および等方性3DEMトレーニングデータセットのペアを必要としない。 提案手法の有効性を評価するため,脳から取得した3つの3DEMデータセットを用いて実験を行った。 実験の結果,提案手法が異方性獲得から等方性3demを再構築することに成功した。

Three-dimensional electron microscopy (3DEM) is an essential technique to investigate volumetric tissue ultra-structure. Due to technical limitations and high imaging costs, samples are often imaged anisotropically, where resolution in the axial direction ($z$) is lower than in the lateral directions $(x,y)$. This anisotropy 3DEM can hamper subsequent analysis and visualization tasks. To overcome this limitation, we propose a novel deep-learning (DL)-based self-supervised super-resolution approach that computationally reconstructs isotropic 3DEM from the anisotropic acquisition. The proposed DL-based framework is built upon the U-shape architecture incorporating vision-transformer (ViT) blocks, enabling high-capability learning of local and global multi-scale image dependencies. To train the tailored network, we employ a self-supervised approach. Specifically, we generate pairs of anisotropic and isotropic training datasets from the given anisotropic 3DEM data. By feeding the given anisotropic 3DEM dataset in the trained network through our proposed framework, the isotropic 3DEM is obtained. Importantly, this isotropic reconstruction approach relies solely on the given anisotropic 3DEM dataset and does not require pairs of co-registered anisotropic and isotropic 3DEM training datasets. To evaluate the effectiveness of the proposed method, we conducted experiments using three 3DEM datasets acquired from brain. The experimental results demonstrated that our proposed framework could successfully reconstruct isotropic 3DEM from the anisotropic acquisition.
翻訳日:2023-09-20 14:14:44 公開日:2023-09-19
# セルネットワークにおけるエネルギアウェアフェデレーショントラヒック予測に向けて

Towards Energy-Aware Federated Traffic Prediction for Cellular Networks ( http://arxiv.org/abs/2309.10645v1 )

ライセンス: Link先を確認
Vasileios Perifanis, Nikolaos Pavlidis, Selim F. Yilmaz, Francesc Wilhelmi, Elia Guerra, Marco Miozzo, Pavlos S. Efraimidis, Paolo Dini, Remous-Aris Koutsiamanis(参考訳) セルラートラフィック予測は第5世代(5g)ネットワークにおけるネットワーク最適化にとって重要な活動であり、より正確な予測はインテリジェントネットワーク設計、リソース割り当て、異常緩和に不可欠である。 機械学習(ML)は、ネットワークトラフィックを効果的に予測するための有望なアプローチであるが、単一のデータセンタにおける大規模データの集中化は、機密性、プライバシ、データ転送要求に関する問題を提起する。 これらの課題に対処するために、フェデレーション学習(fl)は並列分散計算による高精度な予測を提供する魅力的なmlトレーニングフレームワークとして登場している。 しかし、これらの方法の環境への影響はしばしば見過ごされ、持続可能性に疑問を投げかける。 本稿では,MLモデルの実現可能性を評価する新しいサステナビリティ指標を提案することにより,FLの精度とエネルギー消費のトレードオフに対処する。 そこで,スペイン・バルセロナ地区の基地局(BS)からの実測値を用いて,最先端のディープラーニング(DL)アーキテクチャを包括的に評価した。 以上の結果から, 大規模mlモデルによる性能改善は少ないが, カーボンフットプリントの面では環境への影響が大きいことが明らかとなった。

Cellular traffic prediction is a crucial activity for optimizing networks in fifth-generation (5G) networks and beyond, as accurate forecasting is essential for intelligent network design, resource allocation and anomaly mitigation. Although machine learning (ML) is a promising approach to effectively predict network traffic, the centralization of massive data in a single data center raises issues regarding confidentiality, privacy and data transfer demands. To address these challenges, federated learning (FL) emerges as an appealing ML training framework which offers high accurate predictions through parallel distributed computations. However, the environmental impact of these methods is often overlooked, which calls into question their sustainability. In this paper, we address the trade-off between accuracy and energy consumption in FL by proposing a novel sustainability indicator that allows assessing the feasibility of ML models. Then, we comprehensively evaluate state-of-the-art deep learning (DL) architectures in a federated scenario using real-world measurements from base station (BS) sites in the area of Barcelona, Spain. Our findings indicate that larger ML models achieve marginally improved performance but have a significant environmental impact in terms of carbon footprint, which make them impractical for real-world applications.
翻訳日:2023-09-20 14:14:18 公開日:2023-09-19
# KFC: 公正なコントラスト損失とマルチタスク学習による関係検証

KFC: Kinship Verification with Fair Contrastive Loss and Multi-Task Learning ( http://arxiv.org/abs/2309.10641v1 )

ライセンス: Link先を確認
Jia Luo Peng, Keng Wei Chang, Shang-Hong Lai(参考訳) キンシップ検証は、複数の潜在的なアプリケーションを持つコンピュータビジョンにおける新たなタスクである。 しかし、代表的でロバストなモデルをトレーニングするのに十分な親和性データセットは存在しません。 さらに、顔認証は、以前の血縁検証作業で対処されていないバイアスを示し、時に深刻な問題を引き起こすことが知られている。 そこで私たちはまず,既存のkinshipデータセットと各idを適切なレースにラベル付けすることにより,レース情報を考慮し,kinraceデータセットと呼ばれる大規模かつ完全なデータセットを提供する。 次に,最先端性能を超える精度を高めるために,アテンションモジュールを備えたマルチタスク学習モデル構造を提案する。 最後に, 対人学習による公正に配慮した比較的損失関数は, 人種的偏見を著しく軽減する。 従来の対照損失にデビアス項を導入し,2つのフェアネス法を混合してバイアスを緩和する革新的な手法である人種分類タスクに逆勾配を導入する。 実験により, 標準偏差と精度の両面において, 提案したKFCの有効性と優れた性能を示す。

Kinship verification is an emerging task in computer vision with multiple potential applications. However, there's no large enough kinship dataset to train a representative and robust model, which is a limitation for achieving better performance. Moreover, face verification is known to exhibit bias, which has not been dealt with by previous kinship verification works and sometimes even results in serious issues. So we first combine existing kinship datasets and label each identity with the correct race in order to take race information into consideration and provide a larger and complete dataset, called KinRace dataset. Secondly, we propose a multi-task learning model structure with attention module to enhance accuracy, which surpasses state-of-the-art performance. Lastly, our fairness-aware contrastive loss function with adversarial learning greatly mitigates racial bias. We introduce a debias term into traditional contrastive loss and implement gradient reverse in race classification task, which is an innovative idea to mix two fairness methods to alleviate bias. Exhaustive experimental evaluation demonstrates the effectiveness and superior performance of the proposed KFC in both standard deviation and accuracy at the same time.
翻訳日:2023-09-20 14:13:57 公開日:2023-09-19
# 深層学習ネットワークの幾何学的構造とグローバル${\mathcal L}^2$ミニマの構築

Geometric structure of Deep Learning networks and construction of global ${\mathcal L}^2$ minimizers ( http://arxiv.org/abs/2309.10639v1 )

ライセンス: Link先を確認
Thomas Chen, Patricia Mu\~noz Ewald(参考訳) 本稿では,l$隠れ層,ランプ活性化関数,${\mathcal l}^2$ schatten クラス (あるいは hilbert-schmidt) コスト関数,入力および出力空間 ${\mathbb r}^q$ と等価次元 $q\geq1$ を特徴とする,ディープラーニング(dl)ネットワークの構造の幾何学的解釈を提案する。 隠れた層は空間 ${\mathbb r}^{q}$ 上でも定義される。 我々は,最近の浅層ニューラルネットワークに関する結果を適用し,l\geq q$の場合のコスト関数の最小最小値に対する最小値の明示的な族を構築する。 ここで示した文脈では、dlネットワークの隠れた層は、トレーニング入力のノイズと信号比を最小化するトランザクションマップの再帰的適用により、トレーニング入力を「キュレート」する。 さらに,コスト関数の縮退型局所最小値の集合を2^Q-1$で決定する。

In this paper, we provide a geometric interpretation of the structure of Deep Learning (DL) networks, characterized by $L$ hidden layers, a ramp activation function, an ${\mathcal L}^2$ Schatten class (or Hilbert-Schmidt) cost function, and input and output spaces ${\mathbb R}^Q$ with equal dimension $Q\geq1$. The hidden layers are defined on spaces ${\mathbb R}^{Q}$, as well. We apply our recent results on shallow neural networks to construct an explicit family of minimizers for the global minimum of the cost function in the case $L\geq Q$, which we show to be degenerate. In the context presented here, the hidden layers of the DL network "curate" the training inputs by recursive application of a truncation map that minimizes the noise to signal ratio of the training inputs. Moreover, we determine a set of $2^Q-1$ distinct degenerate local minima of the cost function.
翻訳日:2023-09-20 14:13:39 公開日:2023-09-19
# ホン・ウー・マンデル干渉法における時間測定精度の基礎的限界

Fundamental limitations of time measurement precision in Hong-Ou-Mandel interferometry ( http://arxiv.org/abs/2309.10633v1 )

ライセンス: Link先を確認
Othmane Meskine, Eloi Descamps, Arne Keller, Aristide Lema\^itre, Florent Baboux, Sara Ducci and P\'erola Milman(参考訳) 量子力学では、プローブとして量子状態を用いたパラメータ推定で得られる精度は、測定戦略によって決定される。 精度の究極の量子極限は、状態とそのダイナミクスによって設定された値によって制限される。 理論的には、2つの可能な結果を持つ干渉測定では、この限界は完全な可視性と損失ゼロの理想的な条件下で到達できる。 しかし、実際にはこれは達成できないので、精度が量子限界に達することはない。 しかし、実験装置は現実的な状況下でどのように精度の限界にアプローチするのか? 本研究は,非完全視認性のための2光子Hong-Ou-Mandel干渉計における精度限界の一般モデルを提供する。 可視性のある精度のスケーリングは、プローブとして使用される状態が占有する時間周波数位相空間の有効領域に依存することを示し、最適なスケーリングが存在することを見出した。 可視性が制御可能で、最大$99.5\%$という設定で、異なる状態に対して実験的に結果を示す。 最適シナリオでは、実験精度と量子限界の間に0.97$の比率が観測され、フィールドに新しいベンチマークが確立される。

In quantum mechanics, the precision achieved in parameter estimation using a quantum state as a probe is determined by the measurement strategy employed. The ultimate quantum limit of precision is bounded by a value set by the state and its dynamics. Theoretical results have revealed that in interference measurements with two possible outcomes, this limit can be reached under ideal conditions of perfect visibility and zero losses. However, in practice, this cannot be achieved, so precision {\it never} reaches the quantum limit. But how do experimental setups approach precision limits under realistic circumstances? In this work we provide a general model for precision limits in two-photon Hong-Ou-Mandel interferometry for non-perfect visibility. We show that the scaling of precision with visibility depends on the effective area in time-frequency phase space occupied by the state used as a probe, and we find that an optimal scaling exists. We demonstrate our results experimentally for different states in a set-up where the visibility can be controlled and reaches up to $99.5\%$. In the optimal scenario, a ratio of $0.97$ is observed between the experimental precision and the quantum limit, establishing a new benchmark in the field.
翻訳日:2023-09-20 14:13:17 公開日:2023-09-19
# 学習システムにおける情報エントロピー変化の影響を探る

Exploring the Influence of Information Entropy Change in Learning Systems ( http://arxiv.org/abs/2309.10625v1 )

ライセンス: Link先を確認
Xiaowei Yu, Yao Xue, Lu Zhang, Li Wang, Tianming Liu, Dajiang Zhu(参考訳) 本研究では,入力・遅延特徴にノイズを加えることにより,ディープラーニングシステムにおけるエントロピー変化の影響について検討する。 本論文の応用は,コンピュータビジョンにおける深層学習タスクに焦点をあてるが,提案する理論は他の分野にも応用できる。 ノイズは従来、畳み込みニューラルネットワーク(cnns)や視覚トランスフォーマー(vits)といったさまざまなディープラーニングアーキテクチャや、画像分類や転送学習といったさまざまな学習タスクにおいて、有害な摂動と見なされる。 しかし,本稿は従来の提案が常に成立するかどうかを再考することを目的としている。 特定の雑音が特定の条件下で様々な深層建築の性能を高めることを実証する。 本研究では,情報エントロピーによって定義されるタスク複雑性を低減し,画像ネットなどの大規模画像データセットにおいて有意な性能向上を実験的に示すことにより,正の雑音から得られる拡張を理論的に証明する。 ここでは,情報エントロピーを用いてタスクの複雑さを定義する。 ノイズが作業の複雑さを軽減するのに役立つかどうかに基づいて、ノイズを正ノイズ(PN)と有害ノイズ(HN)の2つのタイプに分類する。 CNN と ViT の大規模な実験では,積極的に正のノイズを注入することで性能が向上し,ImageNet 上では前例のないトップ1 の精度を95% 以上達成した。 理論的な分析と実証的な証拠の両方が、正のノイズの存在は学習プロセスにとって有益であり、伝統的に有害なノイズが深層学習モデルに悪影響を及ぼすことを証明している。 ノイズの異なる役割は、特定のタスクに関するディープモデルに対する新しい説明を提供し、モデルパフォーマンスを改善するための新しいパラダイムを提供する。 さらに,情報エントロピー変化によって学習システムの性能に影響を及ぼすことができることを思い出させる。

In this work, we explore the influence of entropy change in deep learning systems by adding noise to the inputs/latent features. The applications in this paper focus on deep learning tasks within computer vision, but the proposed theory can be further applied to other fields. Noise is conventionally viewed as a harmful perturbation in various deep learning architectures, such as convolutional neural networks (CNNs) and vision transformers (ViTs), as well as different learning tasks like image classification and transfer learning. However, this paper aims to rethink whether the conventional proposition always holds. We demonstrate that specific noise can boost the performance of various deep architectures under certain conditions. We theoretically prove the enhancement gained from positive noise by reducing the task complexity defined by information entropy and experimentally show the significant performance gain in large image datasets, such as the ImageNet. Herein, we use the information entropy to define the complexity of the task. We categorize the noise into two types, positive noise (PN) and harmful noise (HN), based on whether the noise can help reduce the complexity of the task. Extensive experiments of CNNs and ViTs have shown performance improvements by proactively injecting positive noise, where we achieved an unprecedented top 1 accuracy of over 95% on ImageNet. Both theoretical analysis and empirical evidence have confirmed that the presence of positive noise can benefit the learning process, while the traditionally perceived harmful noise indeed impairs deep learning models. The different roles of noise offer new explanations for deep models on specific tasks and provide a new paradigm for improving model performance. Moreover, it reminds us that we can influence the performance of learning systems via information entropy change.
翻訳日:2023-09-20 14:12:58 公開日:2023-09-19
# 大きな言語モデルで検索者の好みを正確に予測できる

Large language models can accurately predict searcher preferences ( http://arxiv.org/abs/2309.10621v1 )

ライセンス: Link先を確認
Paul Thomas, Seth Spielman, Nick Craswell and Bhaskar Mitra(参考訳) 検索結果が検索結果に価値があるかどうかを示す関連ラベルは,検索システムの評価と最適化の鍵となる。 ユーザの真の好みを捉える最善の方法は、どの結果が役に立つかについて、慎重にフィードバックを求めることだが、このアプローチは、多くのラベルを生成するためにスケールしない。 関連ラベルの大規模取得は通常,ユーザに代わって判断するサードパーティのラベルラによって行われるが,ラベルラがユーザニーズを理解していない場合,低品質なデータが発生するリスクがある。 品質向上のために,インタビューやユーザスタディ,直接的なフィードバックを通じて実際のユーザを調査し,ラベルがユーザと体系的に意見の一致しない領域を見つけ,ガイドラインやトレーニング,監視を通じて,ユーザニーズに関するラベルラを教育する,というアプローチが一般的である。 本稿では,ラベル品質向上のための代替手法を提案する。 これは、定義上最も高品質なファーストパーティゴールドデータである実際のユーザからの注意深くフィードバックを受け取り、そのデータと一致する大きな言語モデルプロンプトを開発する。 我々は,Bingにおける大規模レバレンスラベリングのための言語モデルの展開からアイデアと観察を行い,TRECのデータで説明する。 大規模な言語モデルは、人間のラベルラーと同じくらい正確で、最も難しいクエリやベストラン、ベストグループを選択するのに類似した能力で有効であることがわかった。 プロンプトの体系的な変更は正確さの差をもたらすが、単純な言い換えもする。 実際の検索者との合意を測定するには、高品質な‘gold’ラベルが必要ですが、これらのラベルによって、モデルがサードパーティの労働者よりも優れたラベルを生成することが分かりました。

Relevance labels, which indicate whether a search result is valuable to a searcher, are key to evaluating and optimising search systems. The best way to capture the true preferences of users is to ask them for their careful feedback on which results would be useful, but this approach does not scale to produce a large number of labels. Getting relevance labels at scale is usually done with third-party labellers, who judge on behalf of the user, but there is a risk of low-quality data if the labeller doesn't understand user needs. To improve quality, one standard approach is to study real users through interviews, user studies and direct feedback, find areas where labels are systematically disagreeing with users, then educate labellers about user needs through judging guidelines, training and monitoring. This paper introduces an alternate approach for improving label quality. It takes careful feedback from real users, which by definition is the highest-quality first-party gold data that can be derived, and develops an large language model prompt that agrees with that data. We present ideas and observations from deploying language models for large-scale relevance labelling at Bing, and illustrate with data from TREC. We have found large language models can be effective, with accuracy as good as human labellers and similar capability to pick the hardest queries, best runs, and best groups. Systematic changes to the prompts make a difference in accuracy, but so too do simple paraphrases. To measure agreement with real searchers needs high-quality ``gold'' labels, but with these we find that models produce better labels than third-party workers, for a fraction of the cost, and these labels let us train notably better rankers.
翻訳日:2023-09-20 14:12:29 公開日:2023-09-19
# 超広視野画像に基づく糖尿病網膜症に対するソースフリーアクティブドメイン適応法

Source-free Active Domain Adaptation for Diabetic Retinopathy Grading Based on Ultra-wide-field Fundus Image ( http://arxiv.org/abs/2309.10619v1 )

ライセンス: Link先を確認
Jinye Ran, Guanghua Zhang, Ximei Zhang, Juan Xie, Fan Xia, Hao Zhang(参考訳) ドメイン適応(DA)は、ラベル付きカラー・ファンドス画像から注釈付き知識を伝達する未注のウルトラワイド・フィールド・ファンドス画像の糖尿病網膜症(DR)グレーディングに広く応用されている。 しかし, ドメインギャップと複雑な実世界のシナリオに悩まされ, ほとんどの主流DAのDRグレーディング性能は, 臨床診断とはかけ離れている。 そこで本論文では,新たなソースフリーアクティブドメイン適応(SFADA)を提案する。 具体的には,dr grading問題自体に焦点をあて,drsの継続的な発展を伴うカラーファンドス画像の特徴,局所表現マッチングを用いたラベリングのための貴重な uwf ファンドス画像の選択,dr 病変プロトタイプを用いた uwf ファンドス画像への適応モデルを提案する。 特に、SFADAはデータのプライバシーと計算効率を考慮に入れている。 その結果,提案したSFADAは20.9%の精度向上,2次加重カッパの18.63%,85.36%,92.38%の精度向上を実現した。 これらの結果から,本手法の実際的臨床実践の可能性が示唆された。

Domain adaptation (DA) has been widely applied in the diabetic retinopathy (DR) grading of unannotated ultra-wide-field (UWF) fundus images, which can transfer annotated knowledge from labeled color fundus images. However, suffering from huge domain gaps and complex real-world scenarios, the DR grading performance of most mainstream DA is far from that of clinical diagnosis. To tackle this, we propose a novel source-free active domain adaptation (SFADA) in this paper. Specifically, we focus on DR grading problem itself and propose to generate features of color fundus images with continuously evolving relationships of DRs, actively select a few valuable UWF fundus images for labeling with local representation matching, and adapt model on UWF fundus images with DR lesion prototypes. Notably, the SFADA also takes data privacy and computational efficiency into consideration. Extensive experimental results demonstrate that our proposed SFADA achieves state-of-the-art DR grading performance, increasing accuracy by 20.9% and quadratic weighted kappa by 18.63% compared with baseline and reaching 85.36% and 92.38% respectively. These investigations show that the potential of our approach for real clinical practice is promising.
翻訳日:2023-09-20 14:11:56 公開日:2023-09-19
# 非負の潜在因子分析のための動的線形バイアス組込みスキーム

A Dynamic Linear Bias Incorporation Scheme for Nonnegative Latent Factor Analysis ( http://arxiv.org/abs/2309.10618v1 )

ライセンス: Link先を確認
Yurong Zhong, Zhe Xie, Weiling Li and Xin Luo(参考訳) 高次元および不完全(HDI)データは、多くのノード間の限られた相互作用に関するソーシャルネットワークサービスシステムのようなビッグデータ関連のアプリケーションでよく見られる。 HDIデータからの知識獲得は、ノードの振る舞いのようなリッチなパターンが組み込まれているため、データサイエンスの領域において重要な問題である。 非負の潜在因子分析(nlfa)モデルは、トレーニングオーバーシューティングとゆらぎの提示とモデルが早期収束を防止するために、線形バイアスインコーポレーション(lbi)スキームが重要であるため、この問題に対処するための優位性を持つことが証明されている。 しかし、既存のLBIスキームは、線形バイアスが固定された統計モデルであり、結果のNLFAモデルのスケーラビリティを著しく制限し、HDIデータへの表現学習能力の喪失をもたらす。 上記の発見に動機づけられ,本稿では動的線形バイアス組込み(dlbi)方式を革新的に提示する。 まず、線形バイアスベクトルを行列に拡張し、次に二元重み行列を構築し、線形バイアスのアクティブ/非アクティブ状態を切り替える。 重み行列の各エントリは、線形バイアス値の変動に対応する二項状態間で動的に切り替わり、NLFAモデルに対する動的線形バイアスを確立する。 実応用からの3つのhdiデータセットに関する実証研究は、dlbiベースのnlfaモデルが最先端モデルよりも数倍高い表現精度と高い競合性を持つことを示した。

High-Dimensional and Incomplete (HDI) data is commonly encountered in big data-related applications like social network services systems, which are concerning the limited interactions among numerous nodes. Knowledge acquisition from HDI data is a vital issue in the domain of data science due to their embedded rich patterns like node behaviors, where the fundamental task is to perform HDI data representation learning. Nonnegative Latent Factor Analysis (NLFA) models have proven to possess the superiority to address this issue, where a linear bias incorporation (LBI) scheme is important in present the training overshooting and fluctuation, as well as preventing the model from premature convergence. However, existing LBI schemes are all statistic ones where the linear biases are fixed, which significantly restricts the scalability of the resultant NLFA model and results in loss of representation learning ability to HDI data. Motivated by the above discoveries, this paper innovatively presents the dynamic linear bias incorporation (DLBI) scheme. It firstly extends the linear bias vectors into matrices, and then builds a binary weight matrix to switch the active/inactive states of the linear biases. The weight matrix's each entry switches between the binary states dynamically corresponding to the linear bias value variation, thereby establishing the dynamic linear biases for an NLFA model. Empirical studies on three HDI datasets from real applications demonstrate that the proposed DLBI-based NLFA model obtains higher representation accuracy several than state-of-the-art models do, as well as highly-competitive computational efficiency.
翻訳日:2023-09-20 14:11:29 公開日:2023-09-19
# 自律型水中車両のインテリジェントデブリ質量推定モデル

Intelligent Debris Mass Estimation Model for Autonomous Underwater Vehicle ( http://arxiv.org/abs/2309.10617v1 )

ライセンス: Link先を確認
Mohana Sri S, Swethaa S, Aouthithiye Barathwaj SR Y, Sai Ganesh CS(参考訳) 海洋ゴミは海洋生物の生存に重大な脅威をもたらし、しばしば絡み合いや飢餓につながり、最終的には死に至る。 したがって、海洋からゴミを取り除くことは自然のバランスを回復し、海洋生物を繁栄させるのに不可欠である。 インスタンスセグメンテーション(インスタンスセグメンテーション)は、物体を識別し、それらを正確に特定し、分離するオブジェクト検出の先進的な形態であり、自律型水中車両(AUV)が水中環境を効果的に操作するための必須のツールである。 AUVは画像セグメンテーションを使用して、カメラが捉えた画像を分析し、水中環境をナビゲートする。 本稿では、画像内の個々のオブジェクトの面積を計算するためにインスタンスセグメンテーションを使用し、roboflowではyolov7を使用して、検出毎にクラスラベルと信頼度スコアを持つ画像内の各オブジェクトのバウンディングボックスのセットを生成する。 次に、オブジェクトの境界ボックスにバイナリマスクを適用することで、各オブジェクトに対してセグメンテーションマスクを作成する。 マスクは、背景からオブジェクトをセグメント化するように訓練された畳み込みニューラルネットワークの出力にバイナリしきい値を適用して生成される。 最後に、形態素演算や輪郭検出などの後処理技術を適用し、マスクの精度と品質を向上させることにより、各対象に対するセグメンテーションマスクの精錬を行う。 インスタンスセグメンテーションの領域を推定するプロセスは、各セグメンテーションされたインスタンスの領域を別々に計算し、全インスタンスの領域を合計して総面積を得る。 この計算は、矩形や円のような物体の形状に基づく標準式を用いて行われる。 対象が複素である場合、その領域を推定するためにモンテカルロ法が用いられる。 この方法は従来の方法よりも精度が高く、特に多数のサンプルを使用する場合に高い精度を提供する。

Marine debris poses a significant threat to the survival of marine wildlife, often leading to entanglement and starvation, ultimately resulting in death. Therefore, removing debris from the ocean is crucial to restore the natural balance and allow marine life to thrive. Instance segmentation is an advanced form of object detection that identifies objects and precisely locates and separates them, making it an essential tool for autonomous underwater vehicles (AUVs) to navigate and interact with their underwater environment effectively. AUVs use image segmentation to analyze images captured by their cameras to navigate underwater environments. In this paper, we use instance segmentation to calculate the area of individual objects within an image, we use YOLOV7 in Roboflow to generate a set of bounding boxes for each object in the image with a class label and a confidence score for every detection. A segmentation mask is then created for each object by applying a binary mask to the object's bounding box. The masks are generated by applying a binary threshold to the output of a convolutional neural network trained to segment objects from the background. Finally, refining the segmentation mask for each object is done by applying post-processing techniques such as morphological operations and contour detection, to improve the accuracy and quality of the mask. The process of estimating the area of instance segmentation involves calculating the area of each segmented instance separately and then summing up the areas of all instances to obtain the total area. The calculation is carried out using standard formulas based on the shape of the object, such as rectangles and circles. In cases where the object is complex, the Monte Carlo method is used to estimate the area. This method provides a higher degree of accuracy than traditional methods, especially when using a large number of samples.
翻訳日:2023-09-20 14:10:59 公開日:2023-09-19
# パープレキシティによる汚染推定:言語モデル評価における記憶の定量化

Estimating Contamination via Perplexity: Quantifying Memorisation in Language Model Evaluation ( http://arxiv.org/abs/2309.10677v1 )

ライセンス: Link先を確認
Yucheng Li(参考訳) 大規模言語モデルの大規模なトレーニングコーパスが、しばしば意図せずベンチマークサンプルを含んでいるため、モデル評価におけるデータの汚染がますます広まっている。 そのため,汚染分析は信頼性モデル評価の必然的な部分となっている。 しかし、既存の汚染分析の方法は、最近のモデルでは秘密化されることが多いトレーニングデータ全体にアクセスする必要がある。 これにより、コミュニティはこれらのモデルを厳密に監査し、その能力の正確な評価を行うことができる。 本稿では,過度に汚染の程度を測定するために,完全なトレーニングセットにアクセスせずに汚染を定量化する新しい手法を提案する。 本分析では,最近の基礎モデルにおいて,読解,要約ベンチマークにおいて重要な記憶の証拠を提供するとともに,複数の選択があまり汚染されないことを示す。

Data contamination in model evaluation is getting increasingly prevalent as the massive training corpora of large language models often unintentionally include benchmark samples. Therefore, contamination analysis has became an inevitable part of reliable model evaluation. However, existing method of contamination analysis requires the access of the entire training data which is often confidential for recent models. This prevent the community to rigorously audit these models and conduct accurate assessment of their capability. In this paper, we propose a novel method to quantify contamination without the access of the full training set, that measure the extent of contamination with perplexity. Our analysis provides evidence of significant memorisation of recent foundation models in popular reading comprehension, summarisation benchmarks, while multiple choice appears less contaminated.
翻訳日:2023-09-20 14:04:41 公開日:2023-09-19
# 言語モデリングは圧縮です

Language Modeling Is Compression ( http://arxiv.org/abs/2309.10668v1 )

ライセンス: Link先を確認
Gr\'egoire Del\'etang, Anian Ruoss, Paul-Ambroise Duquenne, Elliot Catt, Tim Genewein, Christopher Mattern, Jordi Grau-Moya, Li Kevin Wenliang, Matthew Aitchison, Laurent Orseau, Marcus Hutter, Joel Veness(参考訳) 予測モデルが損失のない圧縮機に変換できることは、長い間確立されてきた。 ちなみに、機械学習コミュニティは近年、ますます大きくて強力な自己監督型(言語)モデルのトレーニングに注力している。 これらの大きな言語モデルは印象的な予測能力を示すため、強い圧縮機として配置されている。 本研究では,圧縮レンズを通して予測問題を見ることを提案し,大規模(基礎的)モデルの圧縮能力を評価する。 大規模言語モデルは強力な汎用予測器であり、圧縮視点は法則、トークン化、文脈内学習のスケーリングに関する新しい洞察を提供する。 例えば、chinchilla 70bは、主にテキストを訓練しながら、imagenetのパッチを43.4%、librispeechのサンプルを16.4%に圧縮し、それぞれpng (58.5%) やflac (30.3%) のようなドメイン固有の圧縮機を打ち負かす。 最後に, 予測圧縮等価性により, 任意の圧縮機(gzipなど)を用いて条件付き生成モデルを構築することができることを示した。

It has long been established that predictive models can be transformed into lossless compressors and vice versa. Incidentally, in recent years, the machine learning community has focused on training increasingly large and powerful self-supervised (language) models. Since these large language models exhibit impressive predictive capabilities, they are well-positioned to be strong compressors. In this work, we advocate for viewing the prediction problem through the lens of compression and evaluate the compression capabilities of large (foundation) models. We show that large language models are powerful general-purpose predictors and that the compression viewpoint provides novel insights into scaling laws, tokenization, and in-context learning. For example, Chinchilla 70B, while trained primarily on text, compresses ImageNet patches to 43.4% and LibriSpeech samples to 16.4% of their raw size, beating domain-specific compressors like PNG (58.5%) or FLAC (30.3%), respectively. Finally, we show that the prediction-compression equivalence allows us to use any compressor (like gzip) to build a conditional generative model.
翻訳日:2023-09-20 14:04:31 公開日:2023-09-19
# ゼロショットサウンドスケープマッピングのための3モード埋め込み学習

Learning Tri-modal Embeddings for Zero-Shot Soundscape Mapping ( http://arxiv.org/abs/2309.10667v1 )

ライセンス: Link先を確認
Subash Khanal, Srikumar Sastry, Aayush Dhakal, Nathan Jacobs(参考訳) 我々は、特定の地理的な場所で知覚できる最も可能性の高い音を予測できるサウンドスケープマッピングのタスクに焦点を当てている。 本稿では,最新の最先端モデルを用いて,ジオタグ付き音声の符号化,音声のテキスト記述,コントラストプリトレーニングによるキャプチャ位置のオーバーヘッド画像を提案する。 最終結果は3つのモードの共有埋め込み空間であり、テキストや音声のクエリから任意の地理的領域のサウンドスケープマップを構築することができる。 SoundingEarthデータセットを使用することで、既存のSOTAよりも大幅に優れており、画像からオーディオへのリコール@100が0.256から0.450に改善されていることが分かりました。 私たちのコードはhttps://github.com/mvrl/geoclap.orgで利用可能です。

We focus on the task of soundscape mapping, which involves predicting the most probable sounds that could be perceived at a particular geographic location. We utilise recent state-of-the-art models to encode geotagged audio, a textual description of the audio, and an overhead image of its capture location using contrastive pre-training. The end result is a shared embedding space for the three modalities, which enables the construction of soundscape maps for any geographic region from textual or audio queries. Using the SoundingEarth dataset, we find that our approach significantly outperforms the existing SOTA, with an improvement of image-to-audio Recall@100 from 0.256 to 0.450. Our code is available at https://github.com/mvrl/geoclap.
翻訳日:2023-09-20 14:04:09 公開日:2023-09-19
# NusaWrites: 表現不足と極端に低リソースな言語のための高品質コーパスの構築

NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages ( http://arxiv.org/abs/2309.10661v1 )

ライセンス: Link先を確認
Samuel Cahyawijaya, Holy Lovenia, Fajri Koto, Dea Adhista, Emmanuel Dave, Sarah Oktavianti, Salsabil Maulana Akbar, Jhonson Lee, Nuur Shadieq, Tjeng Wawan Cenggoro, Hanung Wahyuning Linuwih, Bryan Wilie, Galih Pradipta Muridan, Genta Indra Winata, David Moeljadi, Alham Fikri Aji, Ayu Purwarianti, Pascale Fung(参考訳) 自然言語処理(nlp)技術へのアクセスの民主化は、特に低表現言語と極めて低リソース言語において重要である。 これまでの研究は、オンラインスクレイピングと文書翻訳を通じて、これらの言語のためのラベル付きおよびラベルなしコーパスの開発に注力してきた。 これらの手法は有効で費用効率が良いことが証明されているが,語彙多様性の欠如や地域社会への文化的関連性など,コーパスの限界が指摘されている。 このギャップに対処するため,インドネシアの地方言語について事例研究を行う。 データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。 本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。 さらに,インドネシアの何百万人もの個人によって話される12の低表現および極低リソース言語を含む, \datasetname{} ベンチマークを提示する。 既存の多言語大言語モデルを用いた実証実験の結果、これらのモデルをより表現不足の言語に拡張する必要性が判明した。 NusaWritesデータセットはhttps://github.com/IndoNLP/nusa-writesでリリースしています。

Democratizing access to natural language processing (NLP) technology is crucial, especially for underrepresented and extremely low-resource languages. Previous research has focused on developing labeled and unlabeled corpora for these languages through online scraping and document translation. While these methods have proven effective and cost-efficient, we have identified limitations in the resulting corpora, including a lack of lexical diversity and cultural relevance to local communities. To address this gap, we conduct a case study on Indonesian local languages. We compare the effectiveness of online scraping, human translation, and paragraph writing by native speakers in constructing datasets. Our findings demonstrate that datasets generated through paragraph writing by native speakers exhibit superior quality in terms of lexical diversity and cultural content. In addition, we present the \datasetname{} benchmark, encompassing 12 underrepresented and extremely low-resource languages spoken by millions of individuals in Indonesia. Our empirical experiment results using existing multilingual large language models conclude the need to extend these models to more underrepresented languages. We release the NusaWrites dataset at https://github.com/IndoNLP/nusa-writes.
翻訳日:2023-09-20 14:03:54 公開日:2023-09-19
# 実世界におけるハイブリッド水位予測モデルのための完全段階分解に基づく新しいサンプリング手法の実装

Implementing a new fully stepwise decomposition-based sampling technique for the hybrid water level forecasting model in real-world application ( http://arxiv.org/abs/2309.10658v1 )

ライセンス: Link先を確認
Ziqian Zhang, Nana Bao, Xingting Yan, Aokai Zhu, Chenyang Li and Mingyu Liu(参考訳) 様々な時変非定常信号は、例えば水位予測のような実世界の水文時系列予測において適切に処理される必要がある。 分解法は良い候補であり、このような前処理問題で広く用いられる。 しかし、不適切なサンプリング手法による分解手法は、実用的応用では利用できない将来データを導入し、誤分解に基づく予測モデルをもたらす可能性がある。 本研究は, 分解に基づく予測モデルのために, 新たな完全ステップワイズ分解ベース(fsdb)サンプリング手法を考案し, 今後の情報の導入を厳密に回避した。 変分モード分解 (vmd) や特異スペクトル解析 (ssa) などの分解手法を用いたサンプリング手法を用いて, 中国の広陽盆地と長州盆地の3つの異なる地点における水位時系列の予測を行った。 FSDBサンプリングを用いたVMDベースハイブリッドモデルの結果,現在最も進んだサンプリング手法と比較して,ナッシュ・サトクリフ効率(NSE)係数は3つの局でそれぞれ6.4%,28.8%,7.0%増加した。 一方、一連のSSAベースの実験では、NSEはそれぞれ3.2%、3.1%、そして1.1%に増加する。 本研究では, 実世界の水位時系列予測における分解型ハイブリッドモデルの性能を向上させるために, 新たに開発したfsdbサンプリング手法を提案する。

Various time variant non-stationary signals need to be pre-processed properly in hydrological time series forecasting in real world, for example, predictions of water level. Decomposition method is a good candidate and widely used in such a pre-processing problem. However, decomposition methods with an inappropriate sampling technique may introduce future data which is not available in practical applications, and result in incorrect decomposition-based forecasting models. In this work, a novel Fully Stepwise Decomposition-Based (FSDB) sampling technique is well designed for the decomposition-based forecasting model, strictly avoiding introducing future information. This sampling technique with decomposition methods, such as Variational Mode Decomposition (VMD) and Singular spectrum analysis (SSA), is applied to predict water level time series in three different stations of Guoyang and Chaohu basins in China. Results of VMD-based hybrid model using FSDB sampling technique show that Nash-Sutcliffe Efficiency (NSE) coefficient is increased by 6.4%, 28.8% and 7.0% in three stations respectively, compared with those obtained from the currently most advanced sampling technique. In the meantime, for series of SSA-based experiments, NSE is increased by 3.2%, 3.1% and 1.1% respectively. We conclude that the newly developed FSDB sampling technique can be used to enhance the performance of decomposition-based hybrid model in water level time series forecasting in real world.
翻訳日:2023-09-20 14:03:33 公開日:2023-09-19
# マルチエージェントシステムの学習適応安全性

Learning Adaptive Safety for Multi-Agent Systems ( http://arxiv.org/abs/2309.10657v1 )

ライセンス: Link先を確認
Luigi Berducci, Shuo Yang, Rahul Mangharam, Radu Grosu(参考訳) 動的マルチエージェントシステムにおける安全性の確保は、他のエージェントに関する情報が限られているため困難である。 制御バリア関数(CBF)は安全性の保証を約束しているが、現在の手法は他のエージェントに対して強い仮定をしており、安全、実現可能性、パフォーマンスのバランスをとるために手動チューニングに依存していることが多い。 本研究では,CBFを用いたマルチエージェントシステムにおける適応型安全学習の問題について検討する。 そこで本研究では,CBF設計に対する応答性および動的アプローチの必要性を強調し,CBF構成により創発的行動が深く影響されることを示す。 我々は,新しい適応型安全rlフレームワークasrlを提案し,ポリシー係数とcbf係数の最適化を完全自動化し,強化学習による安全性と長期的な性能を向上させる。 他のエージェントと直接対話することで、ASRLは多様なエージェントの動作に対処し、所望の限界以下のコスト違反を維持することを学ぶ。 学習ベースおよび制御理論に基づくアプローチに対して,マルチロボットシステムと競合するマルチエージェントレースシナリオでASRLを評価する。 我々は,asrlの有効性と柔軟性を実証し,分散シナリオへの一般化と拡張性を評価する。 コードと補足資料はオンラインで公開されている。

Ensuring safety in dynamic multi-agent systems is challenging due to limited information about the other agents. Control Barrier Functions (CBFs) are showing promise for safety assurance but current methods make strong assumptions about other agents and often rely on manual tuning to balance safety, feasibility, and performance. In this work, we delve into the problem of adaptive safe learning for multi-agent systems with CBF. We show how emergent behavior can be profoundly influenced by the CBF configuration, highlighting the necessity for a responsive and dynamic approach to CBF design. We present ASRL, a novel adaptive safe RL framework, to fully automate the optimization of policy and CBF coefficients, to enhance safety and long-term performance through reinforcement learning. By directly interacting with the other agents, ASRL learns to cope with diverse agent behaviours and maintains the cost violations below a desired limit. We evaluate ASRL in a multi-robot system and a competitive multi-agent racing scenario, against learning-based and control-theoretic approaches. We empirically demonstrate the efficacy and flexibility of ASRL, and assess generalization and scalability to out-of-distribution scenarios. Code and supplementary material are public online.
翻訳日:2023-09-20 14:03:07 公開日:2023-09-19
# 工学における回帰のための物理学インフォームドガウス過程のスペクトル

A spectrum of physics-informed Gaussian processes for regression in engineering ( http://arxiv.org/abs/2309.10656v1 )

ライセンス: Link先を確認
Elizabeth J Cross, Timothy J Rogers, Daniel J Pitchforth, Samuel J Gibson and Matthew R Jones(参考訳) センサとデータ全般の可用性は向上していますが、純粋なデータ駆動アプローチから多くのサービス内エンジニアリングシステムや構造を完全に特徴づけることはできません。 人間の活動を取り込むために利用可能な膨大なデータとリソースは、我々のエンジニアリングされた世界では一致せず、データが ``big,''' と呼ばれる場合でさえ、運用上のウィンドウやライフスパン間で情報を保持することは滅多にありません。 本稿では,機械学習技術と物理ベースの推論を組み合わせることで,限られたデータで予測モデルを作成する能力を高める。 確率過程の物理的視点とデータに基づく回帰的アプローチを明示的に結びつけることにより、システムの異なるレベルの専門家知識を組み込むことが可能なガウス過程モデルのスペクトルを導入する。 例は、これらのアプローチがデータ収集への依存を著しく低減すると同時に、モデルの解釈可能性を高める方法を示している。

Despite the growing availability of sensing and data in general, we remain unable to fully characterise many in-service engineering systems and structures from a purely data-driven approach. The vast data and resources available to capture human activity are unmatched in our engineered world, and, even in cases where data could be referred to as ``big,'' they will rarely hold information across operational windows or life spans. This paper pursues the combination of machine learning technology and physics-based reasoning to enhance our ability to make predictive models with limited data. By explicitly linking the physics-based view of stochastic processes with a data-based regression approach, a spectrum of possible Gaussian process models are introduced that enable the incorporation of different levels of expert knowledge of a system. Examples illustrate how these approaches can significantly reduce reliance on data collection whilst also increasing the interpretability of the model, another important consideration in this context.
翻訳日:2023-09-20 14:02:47 公開日:2023-09-19
# CFGPT:大言語モデルによる中国の金融アシスタント

CFGPT: Chinese Financial Assistant with Large Language Model ( http://arxiv.org/abs/2309.10654v1 )

ライセンス: Link先を確認
Jiangtong Li, Yuxuan Bian, Guoxuan Wang, Yang Lei, Dawei Cheng, Zhijun Ding and Changjun Jiang(参考訳) 大規模言語モデル(LLM)は、金融分野における自然言語処理タスクにおいて大きな可能性を示している。 本稿では,CFGPTという中国の金融生成事前学習型トランスフォーマフレームワークについて紹介する。このフレームワークには,事前学習と教師付き微調整のためのデータセット~(CFData)と,財務テキストを適切に管理するための金融LLM〜(CFLLM)と,実際の金融アプリケーションをナビゲートするためのデプロイメントフレームワーク〜(CFAPP)とが含まれている。 事前トレーニングデータセットと教師付き微調整データセットの両方からなるcfdataは、事前トレーニングデータセットが中国の金融データと分析とを照合し、汎用テキストのごく一部に584m文書と141bトークンを合計し、教師付き微調整データセットは6つの異なる財務タスク向けに調整され、財務分析と意思決定のさまざまな面を、1.5m命令ペアと1.5bトークンで具現化している。 CFLLMは、モデル能力と大きさのバランスをとるためにInternLM-7Bをベースとして、CFDataで2段階の事前訓練と教師付き微調整を継続する。 CFAPPは、大規模言語モデル(LLM)を中心に、現実世界のアプリケーションで多面的な機能を保証するために追加モジュールを追加している。 私たちのコードはhttps://github.com/TongjiFinLab/CFGPTで公開されています。

Large language models (LLMs) have demonstrated great potential in natural language processing tasks within the financial domain. In this work, we present a Chinese Financial Generative Pre-trained Transformer framework, named CFGPT, which includes a dataset~(CFData) for pre-training and supervised fine-tuning, a financial LLM~(CFLLM) to adeptly manage financial texts, and a deployment framework~(CFAPP) designed to navigate real-world financial applications. The CFData comprising both a pre-training dataset and a supervised fine-tuning dataset, where the pre-training dataset collates Chinese financial data and analytics, alongside a smaller subset of general-purpose text with 584M documents and 141B tokens in total, and the supervised fine-tuning dataset is tailored for six distinct financial tasks, embodying various facets of financial analysis and decision-making with 1.5M instruction pairs and 1.5B tokens in total. The CFLLM, which is based on InternLM-7B to balance the model capability and size, is trained on CFData in two stage, continued pre-training and supervised fine-tuning. The CFAPP is centered on large language models (LLMs) and augmented with additional modules to ensure multifaceted functionality in real-world application. Our codes are released at https://github.com/TongjiFinLab/CFGPT.
翻訳日:2023-09-20 14:02:28 公開日:2023-09-19
# 組織病理学的全スライド画像のためのマルチステンドセルフアテンショングラフ多重インスタンス学習パイプライン

Multi-Stain Self-Attention Graph Multiple Instance Learning Pipeline for Histopathology Whole Slide Images ( http://arxiv.org/abs/2309.10650v1 )

ライセンス: Link先を確認
Amaya Gallagher-Syed, Luca Rossi, Felice Rivellese, Costantino Pitzalis, Myles Lewis, Michael Barnes, Gregory Slabaugh(参考訳) Whole Slide Images (WSIs)は、ギガピクセルのサイズと多数のアーティファクトの存在により、コンピュータビジョンの課題を提示している。 しかし、それらは患者の診断と階層化のための貴重なリソースであり、しばしば診断タスクの黄金の標準を表す。 実世界の臨床データセットは、患者レベルにラベルがある異種wsisのセットとして提供されがちである。 これらの課題に対処するために,近年では,注意力の弱いマルチインスタンス学習アプローチが開発されているが,長大と短大の依存関係を解決できない場合もある。 本稿では,患者レベルでラベルを割り当てるが,スライドレベルのラベルや領域アノテーションは利用できない,弱教師付きギガピクセルマルチイメージ分類タスクを解決するために設計された,エンドツーエンドのマルチアテンショングラフ(MUSTANG)マルチインスタンス学習パイプラインを提案する。 このパイプラインは、ユークリッド距離に基づく組み込みwsiパッチの非常にスパースなk-nearest近傍グラフにオペレーションを制限することにより、自己アテンションに基づくアプローチを採用している。 提案手法は,最先端のF1スコア/AUCが0.89/0.92であることを示す。 我々のアプローチは高度にモジュール化されており、アノテーションなしで患者レベルのラベルが必要であり、グラフのサイズや構造が異なるWSIセットを受け入れるため、異なる臨床データセットに適合するように容易に修正できる。 ソースコードはhttps://github.com/AmayaGS/MUSTANGにある。

Whole Slide Images (WSIs) present a challenging computer vision task due to their gigapixel size and presence of numerous artefacts. Yet they are a valuable resource for patient diagnosis and stratification, often representing the gold standard for diagnostic tasks. Real-world clinical datasets tend to come as sets of heterogeneous WSIs with labels present at the patient-level, with poor to no annotations. Weakly supervised attention-based multiple instance learning approaches have been developed in recent years to address these challenges, but can fail to resolve both long and short-range dependencies. Here we propose an end-to-end multi-stain self-attention graph (MUSTANG) multiple instance learning pipeline, which is designed to solve a weakly-supervised gigapixel multi-image classification task, where the label is assigned at the patient-level, but no slide-level labels or region annotations are available. The pipeline uses a self-attention based approach by restricting the operations to a highly sparse k-Nearest Neighbour Graph of embedded WSI patches based on the Euclidean distance. We show this approach achieves a state-of-the-art F1-score/AUC of 0.89/0.92, outperforming the widely used CLAM model. Our approach is highly modular and can easily be modified to suit different clinical datasets, as it only requires a patient-level label without annotations and accepts WSI sets of different sizes, as the graphs can be of varying sizes and structures. The source code can be found at https://github.com/AmayaGS/MUSTANG.
翻訳日:2023-09-20 14:02:00 公開日:2023-09-19
# ラベルなし3次元セグメンテーションのためのクロスモーダルおよびクロスドメイン知識伝達

Cross-modal and Cross-domain Knowledge Transfer for Label-free 3D Segmentation ( http://arxiv.org/abs/2309.10649v1 )

ライセンス: Link先を確認
Jingyu Zhang, Huitong Yang, Daijie Wu, Xuesong Li, Xinge Zhu, Yuexin Ma(参考訳) 現在の最先端のクラウドベースの知覚手法は通常、高価な手動アノテーションを必要とする大規模なラベル付きデータに依存している。 自然な選択肢は、3D知覚タスクの教師なし方法論を検討することである。 しかし、このような手法は、しばしばパフォーマンスの低下に悩まされる。 幸いなことに、画像ベースのデータセットが多数存在し、2D画像の知識を3Dポイントクラウドに転送する代替案が提案できることがわかった。 具体的には,画像とポイントクラウドの関係を十分に検討し,効果的な機能アライメント戦略を設計することにより,クロスモーダルおよびクロスドメイン適応タスクに挑戦する新しいアプローチを提案する。 3dラベルがなければ,既存の教師なしおよび弱い教師付きベースラインと比較して,kitti360とgta5の知識を用いて,semantickitti上の3d point cloudセマンティックセグメンテーションの最先端性能を実現する。

Current state-of-the-art point cloud-based perception methods usually rely on large-scale labeled data, which requires expensive manual annotations. A natural option is to explore the unsupervised methodology for 3D perception tasks. However, such methods often face substantial performance-drop difficulties. Fortunately, we found that there exist amounts of image-based datasets and an alternative can be proposed, i.e., transferring the knowledge in the 2D images to 3D point clouds. Specifically, we propose a novel approach for the challenging cross-modal and cross-domain adaptation task by fully exploring the relationship between images and point clouds and designing effective feature alignment strategies. Without any 3D labels, our method achieves state-of-the-art performance for 3D point cloud semantic segmentation on SemanticKITTI by using the knowledge of KITTI360 and GTA5, compared to existing unsupervised and weakly-supervised baselines.
翻訳日:2023-09-20 14:01:32 公開日:2023-09-19
# Let's Google"から"Let's ChatGPT"へ:LLMが学部工学教育に与える影響に関する学生とインストラクターの視点

From "Let's Google" to "Let's ChatGPT": Student and Instructor Perspectives on the influence of LLMs on Undergraduate Engineering Education ( http://arxiv.org/abs/2309.10694v1 )

ライセンス: Link先を確認
Ishika Joshi, Ritvik Budhiraja, Pranav Deepak Tanna, Lovenya Jain, Mihika Deshpande, Arjun Srivastava, Srinivas Rallapalli, Harshal D Akolekar, Jagat Sesh Challa, Dhruv Kumar(参考訳) LLM(Large Language Models)の人気が高まったことは学術界で議論を巻き起こし、LLMベースのコースワーク調査ツールを探究する学生や、教育や研究のためのインストラクターが集まっている。 学生やインストラクターに適したLLMベースのツールの開発には多くの作業が進行中であるが、LLMに関する学生やインストラクターの視点を捉えた総合的なユーザスタディが欠如している。 本稿では,インドにおける工学系大学における調査とインタビュアーを実施し,このギャップについて述べる。 chatgpt (a popular llm) の学術的利用に関する調査回答1306件,学生面接112件,インストラクターインタビュー27件を用いて,現在の利用状況,効果感,脅威,課題について考察するとともに,学生とインストラクターの間でのllmの採用を促進するための勧告を提供する。 これらの知見は、大学院工学教育などにおけるLLMの実践的意義を議論するためにさらに活用されている。

The rise in popularity of Large Language Models (LLMs) has prompted discussions in academic circles, with students exploring LLM-based tools for coursework inquiries and instructors exploring them for teaching and research. Even though a lot of work is underway to create LLM-based tools tailored for students and instructors, there is a lack of comprehensive user studies that capture the perspectives of students and instructors regarding LLMs. This paper addresses this gap by conducting surveys and interviews within undergraduate engineering universities in India. Using 1306 survey responses among students, 112 student interviews, and 27 instructor interviews around the academic usage of ChatGPT (a popular LLM), this paper offers insights into the current usage patterns, perceived benefits, threats, and challenges, as well as recommendations for enhancing the adoption of LLMs among students and instructors. These insights are further utilized to discuss the practical implications of LLMs in undergraduate engineering education and beyond.
翻訳日:2023-09-20 13:54:00 公開日:2023-09-19
# MINT: ツールと言語フィードバックとのマルチターンインタラクションにおけるLLMの評価

MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language Feedback ( http://arxiv.org/abs/2309.10691v1 )

ライセンス: Link先を確認
Xingyao Wang, Zihan Wang, Jiateng Liu, Yangyi Chen, Lifan Yuan, Hao Peng, Heng Ji(参考訳) 複雑なタスクを解決するために、大規模な言語モデル(llm)は、しばしばユーザとの対話の複数のラウンドを必要とする。 しかしながら、現在の評価パラダイムは、シングルターン交換によるベンチマークパフォーマンスのみに焦点を当て、ユーザ、LLM、および外部ツール間の複雑な相互作用を無視し、ベンチマーク評価と実世界のユースケースの相違を生んでいることが多い。 我々はMINTベンチマークを導入し,(1)ツールと(2)自然言語フィードバックの活用によるマルチターンインタラクションによるタスク解決能力の評価を行った。 再現性を確保するため,LLMはPythonコードを実行し,GPT-4でシミュレーションしたユーザから自然言語フィードバックを受け取ることで,ツールにアクセス可能な評価フレームワークを提供する。 我々は、推論、コーディング、意思決定に焦点を当てた、確立されたデータセットとタスクの多様なセットを再利用し、それらをより効率的な評価のためにインスタンスのコンパクトなサブセットに注意深くキュレーションします。 20のオープンソースおよびクローズドソース LLM の解析は興味深い結果をもたらす。 1) LLMはツールのインタラクションや言語フィードバックの恩恵を受けており, ツール使用では1~8%, 自然言語フィードバックでは2~17%, パフォーマンス向上率は1~8%であった。 2) シングルターン性能が向上しても,マルチターン性能は向上しない。 3) LLMでは, 教師あり指導ファインタニング(SIFT)と人間フィードバックからの強化学習(RLHF)が多ターン機能に悪影響を及ぼすことが認められた。 我々は、MINTが、マルチターンインタラクションにおけるLCMの能力向上の研究、特にマルチターンヒューマンアセスメントの少ないオープンソースコミュニティの進歩を計測し、インセンティブを高めることができることを期待している。

To solve complex tasks, large language models (LLMs) often require multiple rounds of interactions with the user, sometimes assisted by external tools. However, current evaluation paradigms often focus solely on benchmark performance with single-turn exchanges, neglecting the intricate interactions among the user, LLMs, and external tools, creating a discrepancy between benchmark evaluation and real-world use cases. We introduce MINT benchmark to evaluate LLMs' ability to solve tasks with multi-turn interactions by (1) using tools and (2) leveraging natural language feedback. To ensure reproducibility, we provide an evaluation framework where LLMs can access tools by executing Python code and receive natural language feedback from the user simulated with GPT-4. We repurpose a diverse set of established datasets and tasks focusing on reasoning, coding, and decision-making and carefully curate them into a compact subset of instances for efficient evaluation. Our analysis of 20 open- and closed-source LLMs offers intriguing findings. (1) LLMs generally benefit from tool interactions and language feedback, with performance gains (absolute, same below) of 1--8% per additional turn with tool use and 2--17% with natural language feedback. (2) Better single-turn performance does not guarantee better multi-turn performance. (3) Surprisingly, on LLMs we evaluated, we found supervised instruction-finetuning (SIFT) and reinforcement learning from human feedback (RLHF) generally hurt multi-turn capabilities. We hope MINT can help measure progress and incentivize research in improving LLMs' capabilities in multi-turn interactions, especially for open-source communities where multi-turn human evaluation has been less accessible compared to commercial LLMs with a larger user base.
翻訳日:2023-09-20 13:53:36 公開日:2023-09-19
# ReShader:シングルイメージビュー合成のためのビュー依存ハイライト

ReShader: View-Dependent Highlights for Single Image View-Synthesis ( http://arxiv.org/abs/2309.10689v1 )

ライセンス: Link先を確認
Avinash Paliwal, Brandon Nguyen, Andrii Tsarov, Nima Khademi Kalantari(参考訳) 近年では3次元シーン表現の急速な進歩と画像インパインティング技術により,単一画像からの新規なビュー合成が著しい進歩を遂げている。 現在のアプローチでは、幾何学的に一貫した新しいビューを合成できるが、ビュー依存効果を適切に扱えないことが多い。 特に、合成画像のハイライトは通常表面に接着されているように見え、新しい視点は非現実的である。 この大きな問題に対処するために,新たなビューを合成するプロセスでは,新しいカメラに基づいて画素のシェーディングを変更し,適切な場所に移動する必要がある,という重要な観察を行う。 そこで本研究では,ビュー合成過程を画素再構成と再配置の2つの独立したタスクに分割する。 再構成の過程では,1枚の画像を入力とし,新しいカメラに基づいてシェーディングを調整する。 そして、この再構成画像を既存のビュー合成法の入力として使用し、画素を移動させ、最終的な新しいビュー画像を生成する。 本稿では,ニューラルネットワークを用いてリシェーディングを行い,多数の合成入力-リシェードペアを生成し,ネットワークをトレーニングすることを提案する。 提案手法は,様々な現実世界のシーンにリアルな動きのハイライトを付加した,可愛らしい新しいビュー画像を生成する。

In recent years, novel view synthesis from a single image has seen significant progress thanks to the rapid advancements in 3D scene representation and image inpainting techniques. While the current approaches are able to synthesize geometrically consistent novel views, they often do not handle the view-dependent effects properly. Specifically, the highlights in their synthesized images usually appear to be glued to the surfaces, making the novel views unrealistic. To address this major problem, we make a key observation that the process of synthesizing novel views requires changing the shading of the pixels based on the novel camera, and moving them to appropriate locations. Therefore, we propose to split the view synthesis process into two independent tasks of pixel reshading and relocation. During the reshading process, we take the single image as the input and adjust its shading based on the novel camera. This reshaded image is then used as the input to an existing view synthesis method to relocate the pixels and produce the final novel view image. We propose to use a neural network to perform reshading and generate a large set of synthetic input-reshaded pairs to train our network. We demonstrate that our approach produces plausible novel view images with realistic moving highlights on a variety of real world scenes.
翻訳日:2023-09-20 13:53:03 公開日:2023-09-19
# 確率的勾配降下の異なる性質について

On the different regimes of Stochastic Gradient Descent ( http://arxiv.org/abs/2309.10688v1 )

ライセンス: Link先を確認
Antonio Sclocchi and Matthieu Wyart(参考訳) 現代のディープネットワークは、各ステップまたはバッチサイズで考慮されるデータの数である確率的勾配降下(sgd)で訓練され、ステップサイズまたは学習レートは$\eta$である。 小さい$B$と大きな$\eta$の場合、SGDはパラメータの確率的進化に対応し、そのノイズ振幅は '温度' $T\equiv \eta/B$ で制御される。 しかし、この記述は、十分に大きなバッチに対して$B\geq B^*$で分解するか、温度が十分に小さい場合には勾配降下(GD)を単純化する。 これらのクロスオーバーの場所を理解することは、依然として中心的な課題である。 ここでは,教師が学習するパーセプトロン分類モデルに対して,これらの疑問を解決し,我々の重要な予測が依然として深層ネットワークに適用可能であることを実証的に示す。 具体的には、3つの動的位相を分離する$B$-$\eta$平面の位相図を得る。 (i)}$ a noise-dominated SGD by temperature, $\textit{ (ii)$ a large-first-step-dominated sgd and $\textit{ (iii)$gd。 これらの異なる位相もまた、一般化誤差の異なる状態に対応する。 興味深いことに、我々の分析ではバッチサイズが$B^*$ split regimes $\textit{ (i)}$ と $\textit{ (ii)$ scale トレーニングセットのサイズが $p$ で、分類問題の難しさを特徴付ける指数。

Modern deep networks are trained with stochastic gradient descent (SGD) whose key parameters are the number of data considered at each step or batch size $B$, and the step size or learning rate $\eta$. For small $B$ and large $\eta$, SGD corresponds to a stochastic evolution of the parameters, whose noise amplitude is governed by the `temperature' $T\equiv \eta/B$. Yet this description is observed to break down for sufficiently large batches $B\geq B^*$, or simplifies to gradient descent (GD) when the temperature is sufficiently small. Understanding where these cross-overs take place remains a central challenge. Here we resolve these questions for a teacher-student perceptron classification model, and show empirically that our key predictions still apply to deep networks. Specifically, we obtain a phase diagram in the $B$-$\eta$ plane that separates three dynamical phases: $\textit{(i)}$ a noise-dominated SGD governed by temperature, $\textit{(ii)}$ a large-first-step-dominated SGD and $\textit{(iii)}$ GD. These different phases also corresponds to different regimes of generalization error. Remarkably, our analysis reveals that the batch size $B^*$ separating regimes $\textit{(i)}$ and $\textit{(ii)}$ scale with the size $P$ of the training set, with an exponent that characterizes the hardness of the classification problem.
翻訳日:2023-09-20 13:52:44 公開日:2023-09-19
# 局所スティル化ニューラル放射場

Locally Stylized Neural Radiance Fields ( http://arxiv.org/abs/2309.10684v1 )

ライセンス: Link先を確認
Hong-Wing Pang, Binh-Son Hua, Sai-Kit Yeung(参考訳) 近年,参照スタイルの画像から,特にニューラル放射場(NeRF)への3Dシーンのスタイラス化への関心が高まっている。 NeRF上で直接スタイリングを行う場合、任意の新規ビューに対して外観整合性が保証されるが、スタイルイメージからNeRFシーンの異なる部分へのパターンの転送を誘導することは難しい問題である。 本研究では,局所的なスタイル転送に基づくNeRFのスタイリングフレームワークを提案する。 特に、ハッシュグリッド符号化を用いて外観や幾何学成分の埋め込みを学習し、ハッシュテーブルで定義されたマッピングによってある程度のスタイリングを制御できることを示す。 次に、幾何分岐を固定しながら外観分岐を最適化することでスタイリゼーションを実現する。 局所的なスタイル転送を支援するために,分割ネットワークと二部マッチングを利用して,ボリュームレンダリングから得られるコンテンツ画像とスタイル画像の領域対応性を確立する新たな損失関数を提案する。 提案手法は,領域対応を操作・カスタマイズすることで柔軟な制御性を有しつつ,新しい視点合成による可算なスタイライゼーション結果が得られることを示す。

In recent years, there has been increasing interest in applying stylization on 3D scenes from a reference style image, in particular onto neural radiance fields (NeRF). While performing stylization directly on NeRF guarantees appearance consistency over arbitrary novel views, it is a challenging problem to guide the transfer of patterns from the style image onto different parts of the NeRF scene. In this work, we propose a stylization framework for NeRF based on local style transfer. In particular, we use a hash-grid encoding to learn the embedding of the appearance and geometry components, and show that the mapping defined by the hash table allows us to control the stylization to a certain extent. Stylization is then achieved by optimizing the appearance branch while keeping the geometry branch fixed. To support local style transfer, we propose a new loss function that utilizes a segmentation network and bipartite matching to establish region correspondences between the style image and the content images obtained from volume rendering. Our experiments show that our method yields plausible stylization results with novel view synthesis while having flexible controllability via manipulating and customizing the region correspondences.
翻訳日:2023-09-20 13:51:54 公開日:2023-09-19
# 未知環境における学習初期化軌道計画

Learning-Initialized Trajectory Planning in Unknown Environments ( http://arxiv.org/abs/2309.10683v1 )

ライセンス: Link先を確認
Yicheng Chen, Jinjie Li, Wenyuan Qin, Yongzhao Hua, Xiwang Dong, Qingdong Li(参考訳) 未知の環境での自律飛行は、一般に非凸最適化を伴う軌道の空間的および時間的プロファイルの両方を正確に計画する必要がある。 これらの制約に対処するために、ニューラルネットワーク(NN)プランナーを用いて最適化を誘導し初期値を提供する新しいアプローチであるLIT-Planner(Learning-Initialized Trajectory Planner)を導入する。 まず,空間-時間最適化をバッチサンプリングで活用し,訓練事例を生成し,軌跡のマルチモーダリティを捉える。 これらのデータに基づいて、NN-Plannerは、未知の環境を扱うための軌跡パラメータに視覚的および慣性的な観察をマッピングする。 ネットワーク出力は信頼性と説明可能性の両方を強化し、堅牢な性能を保証するように最適化される。 さらに,計画遅延に対する耐性を持って,堅牢なオンライン再計画を支援するフレームワークを提案する。 総合シミュレーションにより、LIT-Plannerの時間効率は最適化法と比較して軌道品質を損なうことなく検証できる。 実世界の実験は、自律ドローンナビゲーションの実用性をさらに実証している。

Autonomous flight in unknown environments requires precise planning for both the spatial and temporal profiles of trajectories, which generally involves nonconvex optimization, leading to high time costs and susceptibility to local optima. To address these limitations, we introduce the Learning-Initialized Trajectory Planner (LIT-Planner), a novel approach that guides optimization using a Neural Network (NN) Planner to provide initial values. We first leverage the spatial-temporal optimization with batch sampling to generate training cases, aiming to capture multimodality in trajectories. Based on these data, the NN-Planner maps visual and inertial observations to trajectory parameters for handling unknown environments. The network outputs are then optimized to enhance both reliability and explainability, ensuring robust performance. Furthermore, we propose a framework that supports robust online replanning with tolerance to planning latency. Comprehensive simulations validate the LIT-Planner's time efficiency without compromising trajectory quality compared to optimization-based methods. Real-world experiments further demonstrate its practical suitability for autonomous drone navigation.
翻訳日:2023-09-20 13:51:34 公開日:2023-09-19
# インターネットとビッグファイブが媒介するソーシャルインタラクション:クロスカウンタリー分析

Social Interactions Mediated by the Internet and the Big- Five: a Cross-Country Analysis ( http://arxiv.org/abs/2309.10681v1 )

ライセンス: Link先を確認
Andrea Mercado, Alethia Hume, Ivanno Bison, Fausto Giunchiglia, Amarsanaa Ganbold and Luca Cernuzzi(参考訳) 本研究は,社会・文化の異なる状況において,デジタルプラットフォームによって媒介される社会的インタラクションと,ビッグファイブ(外向性,一致性,責任性,感情的安定性,経験への開放性)の観点から,パーソナリティ特性の関係を解析した。 我々は,トレント大学(イタリア),モンゴル国立大学(イギリス),ロンドン経済学学校(イギリス),ナエストラ大学(パラグアイ)の4大学の学生を対象に,質問紙調査とチャットボットの使用経験を,支援要請の手段として検討した。 パーソナリティ特性は社会的相互作用やグループへの積極的な参加に影響を及ぼす可能性がある。 したがって、助けを求める人々と、知識やスキルに基づいてだけでなく回答できる人たちとのマッチングアルゴリズムの推奨度を高めるために考慮すべきである。

This study analyzes the possible relationship between personality traits, in terms of Big Five (extraversion, agreeableness, responsibility, emotional stability and openness to experience), and social interactions mediated by digital platforms in different socioeconomic and cultural contexts. We considered data from a questionnaire and the experience of using a chatbot, as a mean of requesting and offering help, with students from 4 universities: University of Trento (Italy), the National University of Mongolia, the School of Economics of London (United Kingdom) and the Universidad Cat\'olica Nuestra Se\~nora de la Asunci\'on (Paraguay). The main findings confirm that personality traits may influence social interactions and active participation in groups. Therefore, they should be taken into account to enrich the recommendation of matching algorithms between people who ask for help and people who could respond not only on the basis of their knowledge and skills.
翻訳日:2023-09-20 13:51:17 公開日:2023-09-19
# Oracle によるモデルフリー LQR の複雑度低減:確率的変数再現型ポリシー勾配アプローチ

Oracle Complexity Reduction for Model-free LQR: A Stochastic Variance-Reduced Policy Gradient Approach ( http://arxiv.org/abs/2309.10679v1 )

ライセンス: Link先を確認
Leonardo F. Toso, Han Wang, James Anderson(参考訳) 本稿では,Stochastic Variance-Reduced Policy Gradient (SVRPG) アプローチを用いて,離散時間線形二次レギュレータ(LQR)問題に対する$\epsilon$-approximateソリューションの学習問題について検討する。 政策勾配法はモデルフリーのLQR問題の最適解に線形収束することが証明されているが、特に2つの異なる制御入力構成でのコスト関数評価を得るアプリケーションにおいて、勾配推定における2点コストクエリの実質的な要求は難解である。 この目的のために、オラクル効率の良いアプローチを提案する。 本手法は,双ループ分散還元アルゴリズムにおいて,一点推定と二点推定を組み合わせる。 O\left(\log\left(1/\epsilon\right)^{\beta}\right)$\beta \in (0,1)$の2点コスト情報のみを近似最適解とする。

We investigate the problem of learning an $\epsilon$-approximate solution for the discrete-time Linear Quadratic Regulator (LQR) problem via a Stochastic Variance-Reduced Policy Gradient (SVRPG) approach. Whilst policy gradient methods have proven to converge linearly to the optimal solution of the model-free LQR problem, the substantial requirement for two-point cost queries in gradient estimations may be intractable, particularly in applications where obtaining cost function evaluations at two distinct control input configurations is exceptionally costly. To this end, we propose an oracle-efficient approach. Our method combines both one-point and two-point estimations in a dual-loop variance-reduced algorithm. It achieves an approximate optimal solution with only $O\left(\log\left(1/\epsilon\right)^{\beta}\right)$ two-point cost information for $\beta \in (0,1)$.
翻訳日:2023-09-20 13:50:55 公開日:2023-09-19
# アルゴリズムによる対話

Dialogues with algorithms ( http://arxiv.org/abs/2309.10678v1 )

ライセンス: Link先を確認
Joost J. Joosten(参考訳) 本稿では,法執行に使用されるルールベースのソフトウェアについて,人間に焦点をあてる。 例えば、タコグラフソフトウェアのような罰金を計算するソフトウェア、dnaシークエンシングソフトウェアや社会的プロファイリングソフトウェアのような証拠を準備し、ハイリスクゾーンでパトロールするソフトウェアなどを考えることができる。 合法的な人間エージェントとソフトウェアアプリケーションの間の重要な違いは、可能な対話にある。 人間のエージェントは彼女の決定を動機付けるために尋問される。 このようなソフトウェアとの対話は、しばしば最も難しいが、ほとんど不可能である。 対話の欠如は、例えば透明性や矛盾性のような公民権や法的原則に誠実に違反する可能性がある。 したがって、法的アルゴリズムによる可能な対話は、少なくとも非常に望ましい。 形式的手法の様々な領域において、このような対話は容易に得ることができる。 しかし、これは対話言語の表現可能性と対応する計算の実現可能性との通常の緊張を引き起こす。

In this short paper we focus on human in the loop for rule-based software used for law enforcement. For example, one can think of software that computes fines like tachograph software, software that prepares evidence like DNA sequencing software or social profiling software to patrol in high-risk zones, among others. An important difference between a legal human agent and a software application lies in possible dialogues. A human agent can be interrogated to motivate her decisions. Often such dialogues with software are at the best extremely hard but mostly impossible. We observe that the absence of a dialogue can sincerely violate civil rights and legal principles like, for example, Transparency or Contestability. Thus, possible dialogues with legal algorithms are at the least highly desirable. Futuristic as this may sound, we observe that in various realms of formal methods, such dialogues are easily obtainable. However, this triggers the usual tension between the expressibility of the dialogue language and the feasibility of the corresponding computations.
翻訳日:2023-09-20 13:50:39 公開日:2023-09-19
# 音源の定位はクロスモーダルアライメントである

Sound Source Localization is All about Cross-Modal Alignment ( http://arxiv.org/abs/2309.10724v1 )

ライセンス: Link先を確認
Arda Senocak, Hyeonggon Ryu, Junsik Kim, Tae-Hyun Oh, Hanspeter Pfister, Joon Son Chung(参考訳) 人間は視覚シーンにおける音源の方向を容易に認識でき、音源の定位と呼ばれる。 学習に基づく音源定位に関する最近の研究は,主にローカライゼーションの観点から検討されている。 しかしながら、先行技術や既存のベンチマークは、真の音源のローカライゼーションに不可欠な、クロスモーダルな意味理解という問題のより重要な側面を考慮していない。 クロスモーダルな意味理解は、例えばサイレントオブジェクトやオフスクリーンサウンドなど、意味的に不一致な音声視覚イベントを理解する上で重要である。 そこで本研究では,音声と視覚の相互作用をよりよく学習するために,音源定位を伴う共同作業として,クロスモーダルアライメントタスクを提案する。 これにより,クロスモーダルなセマンティック理解が強く,高いローカライゼーション性能を実現する。 本手法は音源定位とクロスモーダル検索の両方において最先端のアプローチを上回っている。 我々の研究は、真の音源定位を克服するためには、両方のタスクを共同で取り組む必要があることを示唆している。

Humans can easily perceive the direction of sound sources in a visual scene, termed sound source localization. Recent studies on learning-based sound source localization have mainly explored the problem from a localization perspective. However, prior arts and existing benchmarks do not account for a more important aspect of the problem, cross-modal semantic understanding, which is essential for genuine sound source localization. Cross-modal semantic understanding is important in understanding semantically mismatched audio-visual events, e.g., silent objects, or off-screen sounds. To account for this, we propose a cross-modal alignment task as a joint task with sound source localization to better learn the interaction between audio and visual modalities. Thereby, we achieve high localization performance with strong cross-modal semantic understanding. Our method outperforms the state-of-the-art approaches in both sound source localization and cross-modal retrieval. Our work suggests that jointly tackling both tasks is necessary to conquer genuine sound source localization.
翻訳日:2023-09-20 13:44:57 公開日:2023-09-19
# LEA*: ロボット運動計画のためのエッジ効率を改善するA*変数アルゴリズム

LEA*: An A* Variant Algorithm with Improved Edge Efficiency for Robot Motion Planning ( http://arxiv.org/abs/2309.10722v1 )

ライセンス: Link先を確認
Dongliang Zheng and Panagiotis Tsiotras(参考訳) 本研究では,ロボット動作計画のための新しいグラフ探索アルゴリズムである遅延エッジベースA*(LEA*)を提案する。 エッジキューを用いて遅延探索のアイデアを活用することにより、LEA*はA*と同様の頂点効率が最適であり、A*と比較してエッジ効率が向上する。 LEA* は A* に最小限の変更を加えるだけで実装が簡単であり、従来の遅延探索アルゴリズムに比べてオーバーヘッドが非常に小さい。 また、重み付きLEA* (wLEA*) をもたらす膨らんだヒューリスティックスの効果についても検討する。 wlea*のエッジ効率はlazyspに近いため、ほぼ最適であることを示す。 2次元計画問題と7-DOFマニピュレータの計画についてLEA*とwLEA*をテストする。 我々は,スパース,ミディアム,散在するランダムワールド,小,中,大グラフサイズを考慮し,従来のアルゴリズムと徹底的に比較する。 その結果,LEA* と wLEA* は,従来のアルゴリズムよりも高速に計画を見つけるアルゴリズムであることが示唆された。

In this work, we introduce a new graph search algorithm, lazy edged based A* (LEA*), for robot motion planning. By using an edge queue and exploiting the idea of lazy search, LEA* is optimally vertex efficient similar to A*, and has improved edge efficiency compared to A*. LEA* is simple and easy to implement with minimum modification to A*, resulting in a very small overhead compared to previous lazy search algorithms. We also explore the effect of inflated heuristics, which results in the weighted LEA* (wLEA*). We show that the edge efficiency of wLEA* becomes close to LazySP and, thus is near-optimal. We test LEA* and wLEA* on 2D planning problems and planning of a 7-DOF manipulator. We perform a thorough comparison with previous algorithms by considering sparse, medium, and cluttered random worlds and small, medium, and large graph sizes. Our results show that LEA* and wLEA* are the fastest algorithms to find the plan compared to previous algorithms.
翻訳日:2023-09-20 13:44:39 公開日:2023-09-19
# 光キャビティにおける多レベル原子の駆動散逸4モードスクイーズ

Driven-dissipative four-mode squeezing of multilevel atoms in an optical cavity ( http://arxiv.org/abs/2309.10717v1 )

ライセンス: Link先を確認
Bhuvanesh Sundar and Diego Barbarena and Ana Maria Rey and Asier Pi\~neiro Orioli(参考訳) 我々は、駆動共振光学キャビティに閉じ込められたマルチレベル原子を用いて、量子センシングとメトロジーのためのスケーラブルなマルチモード圧縮状態を生成する。 超放射能または集合散逸放出は、通常光学キャビティにおける絡み合い発生の有害な効果であるが、追加の駆動が存在する場合は絡み合い資源としても使用できる。 最近の研究 [arxiv:2302.10828] では、1つの関連する分極しか持たない6レベル系の暗く2モードスクイーズを散逸生成するためのプロトコルについて記述した。 そこで、最大2つの四角形を絞ることができることを示した。 そこで本研究では,キャビティ内の2つの偏光モードに光を照射することで原子が集合的に崩壊する多層系におけるスクイージングを計算するための一般化解析法を開発した。 このより一般的なシステムでは、最大4つのスピンスクリュード・クオーチュアが得られることを示す。 有限サイズ効果が到達可能なスクイーズをいかに制限するかを研究し、$N$で解析的に計算する。 本研究はアルカリ土様原子を用いた現在の光学キャビティ実験で容易に検証できる。

We utilize multilevel atoms trapped in a driven resonant optical cavity to produce scalable multi-mode squeezed states for quantum sensing and metrology. While superradiance or collective dissipative emission by itself has been typically a detrimental effect for entanglement generation in optical cavities, in the presence of additional drives it can also be used as an entanglement resource. In a recent work [arXiv:2302.10828], we described a protocol for the dissipative generation of two-mode squeezing in the dark state of a six-level system with only one relevant polarization. There we showed that up to two quadratures can be squeezed. Here, we develop a generalized analytic treatment to calculate the squeezing in any multilevel system where atoms can collectively decay by emitting light into two polarization modes in a cavity. We show that in this more general system up to four spin squeezed quadratures can be obtained. We study how finite-size effects constrain the reachable squeezing, and analytically compute the scaling with $N$. Our findings are readily testable in current optical cavity experiments with alkaline-earth-like atoms.
翻訳日:2023-09-20 13:44:20 公開日:2023-09-19
# ディテール保存画像の再構成・生成拡散モデル

Reconstruct-and-Generate Diffusion Model for Detail-Preserving Image Denoising ( http://arxiv.org/abs/2309.10714v1 )

ライセンス: Link先を確認
Yujin Wang, Lingen Li, Tianfan Xue, Jinwei Gu(参考訳) 画像の認知はコンピュータビジョンの分野における基本的な課題である。 ほとんどの教師付き遮音法は、固有のスペクトルバイアスを持つノイズの多い入力からクリーンなイメージを再構築し、過度に滑らかでぼやけた画像を生成する傾向がある。 近年,画像復元作業において高頻度の詳細を生成する拡散モデルが検討されているが,これらのモデルでは生成したテクスチャが実際の画像と一致していることは保証されていない。 視覚刺激と高頻度ディテールの忠実性とのトレードオフに対処するため,再構成・生成拡散モデル(rng)と呼ばれる新しい手法を提案する。 提案手法では, 再構成型雑音化ネットワークを用いて, 基礎となるクリーン信号の大部分を復元し, 忠実性を維持するための初期推定を行う。 さらに、拡散アルゴリズムを使用して、残高周波詳細を生成し、視覚品質を向上させる。 さらに、RnGの再構成モジュールと生成モジュール間の効果的な協調を保証するための2段階のトレーニングスキームを導入する。 また,拡散モデルによって導入された望ましくないテクスチャを低減するために,拡散モデルが適用する逆ステップの数を調整し,各パッチに付加される高周波の詳細のレベルを制御し,推論計算コストを削減できる適応ステップ制御器を提案する。 提案したRnGにより,知覚と歪みのバランスが良くなる。 提案手法の優位性を検証するため,合成データと実データの両方について広範な実験を行った。

Image denoising is a fundamental and challenging task in the field of computer vision. Most supervised denoising methods learn to reconstruct clean images from noisy inputs, which have intrinsic spectral bias and tend to produce over-smoothed and blurry images. Recently, researchers have explored diffusion models to generate high-frequency details in image restoration tasks, but these models do not guarantee that the generated texture aligns with real images, leading to undesirable artifacts. To address the trade-off between visual appeal and fidelity of high-frequency details in denoising tasks, we propose a novel approach called the Reconstruct-and-Generate Diffusion Model (RnG). Our method leverages a reconstructive denoising network to recover the majority of the underlying clean signal, which serves as the initial estimation for subsequent steps to maintain fidelity. Additionally, it employs a diffusion algorithm to generate residual high-frequency details, thereby enhancing visual quality. We further introduce a two-stage training scheme to ensure effective collaboration between the reconstructive and generative modules of RnG. To reduce undesirable texture introduced by the diffusion model, we also propose an adaptive step controller that regulates the number of inverse steps applied by the diffusion model, allowing control over the level of high-frequency details added to each patch as well as saving the inference computational cost. Through our proposed RnG, we achieve a better balance between perception and distortion. We conducted extensive experiments on both synthetic and real denoising datasets, validating the superiority of the proposed approach.
翻訳日:2023-09-20 13:44:01 公開日:2023-09-19
# 動的畳み込みを用いたConvNetの解釈型視覚変換器

Interpret Vision Transformers as ConvNets with Dynamic Convolutions ( http://arxiv.org/abs/2309.10713v1 )

ライセンス: Link先を確認
Chong Zhou, Chen Change Loy, Bo Dai(参考訳) ビジョントランスフォーマーとConvNetsの優位性については議論があり、コンピュータビジョンモデルのバックボーンとして機能している。 通常2つの全く異なるアーキテクチャとみなされるが、本稿では、視覚変換器を動的畳み込みを持つConvNetと解釈し、既存の変換器と動的変換器を統一されたフレームワークで特徴付け、それらの設計選択を並べて比較する。 さらに、我々の解釈はネットワーク設計のガイドにもなり、研究者は視覚変換器をConvNetsの設計空間から考えることができ、その逆も考えられる。 2つの特定の研究を通してその可能性を実証する。 まず,視覚変換器におけるソフトマックスの役割をアクティベーション関数として検討し,ReLUやレイヤ正規化といった一般的なConvNetsモジュールに置き換えることで,より高速な収束率と性能向上を実現する。 第二に、奥行き方向畳み込みの設計に従って、同等の性能でより効率的な奥行き方向視覚変換器を作成する。 提案された統一解釈の可能性は、与えられた例に限らず、コミュニティに刺激を与え、より高度なネットワークアーキテクチャを生み出すことを望んでいる。

There has been a debate about the superiority between vision Transformers and ConvNets, serving as the backbone of computer vision models. Although they are usually considered as two completely different architectures, in this paper, we interpret vision Transformers as ConvNets with dynamic convolutions, which enables us to characterize existing Transformers and dynamic ConvNets in a unified framework and compare their design choices side by side. In addition, our interpretation can also guide the network design as researchers now can consider vision Transformers from the design space of ConvNets and vice versa. We demonstrate such potential through two specific studies. First, we inspect the role of softmax in vision Transformers as the activation function and find it can be replaced by commonly used ConvNets modules, such as ReLU and Layer Normalization, which results in a faster convergence rate and better performance. Second, following the design of depth-wise convolution, we create a corresponding depth-wise vision Transformer that is more efficient with comparable performance. The potential of the proposed unified interpretation is not limited to the given examples and we hope it can inspire the community and give rise to more advanced network architectures.
翻訳日:2023-09-20 13:43:34 公開日:2023-09-19
# 宇宙エネルギーを用いた細粒度開集合認識モデル

Latent Space Energy-based Model for Fine-grained Open Set Recognition ( http://arxiv.org/abs/2309.10711v1 )

ライセンス: Link先を確認
Wentao Bao, Qi Yu, Yu Kong(参考訳) 細粒度オープンセット認識(fineosr)は、未知のクラスのイメージを拒絶しながら、微妙な外観の違いを持つクラスに属するイメージを認識することを目的としている。 OSRの最近の傾向は、識別的未知の検出に対する生成モデルの利点を示している。 生成モデルの一種として、エネルギーベースモデル(EBM)は、生成的および識別的タスクのハイブリッドモデリングのポテンシャルである。 しかし、既存のebmの多くは高次元空間における密度推定に苦しむため、細粒度なクラスから画像を認識するのに非常に重要である。 本稿では,osrのエネルギーに基づく事前分布を細粒度視覚空間に導入することで,低次元潜在空間を探索する。 具体的には, 潜在空間ebmに基づいて, 細粒度クラスにおける試料の表現性, 粒度, 密度を向上させるために, 属性認識情報ボトルネック (aib) , 残留属性特徴集約 (rafa) モジュール, 不確実性に基づく仮想異常合成 (uvos) モジュールを提案する。 本手法は, 近年の視覚トランスフォーマを用いて, 強力な視覚分類と生成を行うことができる。 高解像度で写真リアルな偽画像を生成する能力を保ちながら、細粒度および一般的な視覚分類データセットで検証する。

Fine-grained open-set recognition (FineOSR) aims to recognize images belonging to classes with subtle appearance differences while rejecting images of unknown classes. A recent trend in OSR shows the benefit of generative models to discriminative unknown detection. As a type of generative model, energy-based models (EBM) are the potential for hybrid modeling of generative and discriminative tasks. However, most existing EBMs suffer from density estimation in high-dimensional space, which is critical to recognizing images from fine-grained classes. In this paper, we explore the low-dimensional latent space with energy-based prior distribution for OSR in a fine-grained visual world. Specifically, based on the latent space EBM, we propose an attribute-aware information bottleneck (AIB), a residual attribute feature aggregation (RAFA) module, and an uncertainty-based virtual outlier synthesis (UVOS) module to improve the expressivity, granularity, and density of the samples in fine-grained classes, respectively. Our method is flexible to take advantage of recent vision transformers for powerful visual classification and generation. The method is validated on both fine-grained and general visual classification datasets while preserving the capability of generating photo-realistic fake images with high resolution.
翻訳日:2023-09-20 13:43:11 公開日:2023-09-19
# OpenBA: Scratchから事前訓練された15Bバイリンガル非対称seq2seqモデル

OpenBA: An Open-sourced 15B Bilingual Asymmetric seq2seq Model Pre-trained from Scratch ( http://arxiv.org/abs/2309.10706v1 )

ライセンス: Link先を確認
Juntao Li, Zecheng Tang, Yuyang Ding, Pinzheng Wang, Pei Guo, Wangjie You, Dan Qiao, Wenliang Chen, Guohong Fu, Qiaoming Zhu, Guodong Zhou, Min Zhang(参考訳) 数十億のパラメータを持つ大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて優れた性能を示している。 本報告は,中国指向のオープンソースモデルコミュニティにllmの変種を提供するために,オープンソース15bのバイリンガル非対称seq2seqモデルであるopenbaを提案する。 OpenBAを効果的かつ効率的な技術で強化するとともに,スクラッチからモデルをトレーニングするための3段階のトレーニング戦略を採用しています。 また, BELEBELEベンチマークではLLaMA-70B, MMLUベンチマークではBLOOM-176B, C-Eval(hard)ベンチマークではGLM-130Bよりも優れた380Bトークンで非常に競合的な性能が得られる。 このレポートは、データ処理の事前トレーニング、バイリンガルflanデータ収集、モデルアーキテクチャ設計を刺激する経験的観察、異なるステージのトレーニング目標、その他の強化技術を含む、類似モデルの事前トレーニングに関する主な詳細を提供する。 私たちは、Huggingface Transformers Libraryの設計原則に従うようにコードをリファクタリングし、開発者がより便利に使えるようにし、https://huggingface.co/openBA.comで異なるトレーニングステージのチェックポイントをリリースしました。 プロジェクトの詳細はhttps://github.com/OpenNLG/openBA.git.comで確認できる。

Large language models (LLMs) with billions of parameters have demonstrated outstanding performance on various natural language processing tasks. This report presents OpenBA, an open-sourced 15B bilingual asymmetric seq2seq model, to contribute an LLM variant to the Chinese-oriented open-source model community. We enhance OpenBA with effective and efficient techniques as well as adopt a three-stage training strategy to train the model from scratch. Our solution can also achieve very competitive performance with only 380B tokens, which is better than LLaMA-70B on the BELEBELE benchmark, BLOOM-176B on the MMLU benchmark, GLM-130B on the C-Eval (hard) benchmark. This report provides the main details to pre-train an analogous model, including pre-training data processing, Bilingual Flan data collection, the empirical observations that inspire our model architecture design, training objectives of different stages, and other enhancement techniques. We have refactored our code to follow the design principles of the Huggingface Transformers Library, making it more convenient for developers to use, and released checkpoints of different training stages at https://huggingface.co/openBA. More details of our project are available at https://github.com/OpenNLG/openBA.git.
翻訳日:2023-09-20 13:42:33 公開日:2023-09-19
# 性能保証を用いた低周波PMMDPの簡易化

Measurement Simplification in \rho-POMDP with Performance Guarantees ( http://arxiv.org/abs/2309.10701v1 )

ライセンス: Link先を確認
Tom Yotam, Vadim Indelman(参考訳) 不確実性の下での意思決定は、不完全な情報を扱う自律システムの中心にある。 意思決定問題を解決するコストは行動や観察空間において指数関数的であり、多くのオンラインシステムでは実現不可能である。 本稿では,高次元観測空間を分割することで,効率的な意思決定手法を提案する。 分割された観測空間を用いて、一般の信念分布に対する期待情報理論的な報酬に関する解析的境界を定式化する。 これらの境界は、パフォーマンス保証を維持しながら効率的に計画するために使用される。 境界は適応的で、計算効率が良く、元の解に収束していることが示される。 分割パラダイムを拡張し、計画の効率化を可能にする分割空間の階層を提示する。 次に、ガウス的信念に対するこれらの境界の特定の変種を提案し、少なくとも4の係数の理論的性能改善を示す。 最後に,本手法を,能動SLAMシナリオ,シミュレーション,実実験において,他の最先端技術アルゴリズムと比較する。 どちらの場合も、性能保証を伴う計画の大幅なスピードアップを示します。

Decision making under uncertainty is at the heart of any autonomous system acting with imperfect information. The cost of solving the decision making problem is exponential in the action and observation spaces, thus rendering it unfeasible for many online systems. This paper introduces a novel approach to efficient decision-making, by partitioning the high-dimensional observation space. Using the partitioned observation space, we formulate analytical bounds on the expected information-theoretic reward, for general belief distributions. These bounds are then used to plan efficiently while keeping performance guarantees. We show that the bounds are adaptive, computationally efficient, and that they converge to the original solution. We extend the partitioning paradigm and present a hierarchy of partitioned spaces that allows greater efficiency in planning. We then propose a specific variant of these bounds for Gaussian beliefs and show a theoretical performance improvement of at least a factor of 4. Finally, we compare our novel method to other state of the art algorithms in active SLAM scenarios, in simulation and in real experiments. In both cases we show a significant speed-up in planning with performance guarantees.
翻訳日:2023-09-20 13:42:05 公開日:2023-09-19
# 複数のフランクコンドンモードを介する非断熱誘導体結合は近波長および短波長赤外色素分子のエネルギーギャップ則を規定する

Nonadiabatic derivative couplings through multiple Franck-Condon modes dictate the energy gap law for near and short-wave infrared dye molecules ( http://arxiv.org/abs/2309.10695v1 )

ライセンス: Link先を確認
Pablo Ramos, Hannah Friedman, Cesar Garcia, Ellen Sletten, Justin R. Caram, and Seogjoo J. Jang(参考訳) 近赤外 (nir, 700 - 1000 nm) と短波赤外線 (swir, 10002,000 nm) の色素分子は、最初の一重項励起状態から基底状態までの非放射的減衰率を示す。 これらの傾向は単純なエネルギーギャップ法則によって実証的に説明できるが、ほぼ普遍的な振る舞いの詳細なメカニズムは多くのケースで未解決のままである。 代表的な2つのNIR/SWIR色素分子の理論的および実験的結果は、そのような性質の重要なメカニズムを明らかにする。 第一微分非断熱結合項は、エネルギーギャップ法則の挙動を示す非断熱崩壊過程の主要な結合経路として機能し、最高周波数以外の振動モードもその速度に大きく寄与することを示した。 この評価は、三重項状態への系間交差の可能な代替機構と、重水素化分子の実験データとのさらなる理論的比較によって裏付けられる。

Near infrared (NIR, 700 - 1,000 nm) and short-wave infrared (SWIR, 1,000 - 2,000 nm) dye molecules exhibit significant nonradiative decay rates from the first singlet excited state to the ground state. While these trends can be empirically explained by a simple energy gap law, detailed mechanisms of the nearly universal behavior have remained unsettled for many cases. Theoretical and experimental results for two representative NIR/SWIR dye molecules reported here clarify an important mechanism of such nature. It is shown that the first derivative nonadiabatic coupling terms serve as major coupling pathways for nonadiabatic decay processes exhibiting the energy gap law behavior and that vibrational modes other than the highest frequency ones also make significant contributions to the rate. This assessment is corroborated by further theoretical comparison with possible alternative mechanisms of intersystem crossing to triplet states and also by comparison with experimental data for deuterated molecules.
翻訳日:2023-09-20 13:41:49 公開日:2023-09-19
# Asperger症候群スクリーニングテストによる大言語モデルのメタファーと皮肉を理解する能力の評価

Evaluating large language models' ability to understand metaphor and sarcasm using a screening test for Asperger syndrome ( http://arxiv.org/abs/2309.10744v1 )

ライセンス: Link先を確認
Hiromu Yakura(参考訳) メタファーとサルカズムは、高度に進化した社会コミュニケーションスキルの貴重な成果である。 しかし、アスペルガー症候群の子供は、比喩を理解するのに十分なある種の言語IQを持っているとしても、皮肉を理解するのに困難であることが知られている。 それを考えると、メタファーやサルカズムを理解する能力を評価するスクリーニングテストは、アスペルガー症候群と外的行動に類似した他の症状(注意欠陥/多動性障害など)を区別するために用いられてきた。 本研究では,人間のニュアンス通信を理解するための最近の大規模言語モデル(llms)の能力について,標準化テストを用いて検証する。 その結果,メタファの理解能力はモデルパラメータの数の増加とともに向上したのに対し,皮肉理解の改善は見られなかった。 このことは、人間の場合、感情学習のための重要な脳の領域である扁桃体と関連付けられているサルカズムをつかむ能力を持つ、未熟なLSMに代替的なアプローチが必須であることを示している。

Metaphors and sarcasm are precious fruits of our highly-evolved social communication skills. However, children with Asperger syndrome are known to have difficulties in comprehending sarcasm, even if they possess a certain level of verbal IQ sufficient for understanding metaphors. Given that, a screening test that scores the ability to understand metaphor and sarcasm has been used to differentiate Asperger syndrome from other symptoms exhibiting akin external behaviors (e.g., attention-deficit/hyperactivity disorder). This study uses the standardized test to examine the capability of recent large language models (LLMs) in understanding human nuanced communication. The results divulged that, whereas their ability to comprehend metaphors has been improved with the increase of the number of model parameters, the improvement in sarcasm understanding was not observed. This implies that an alternative approach is imperative to imbue LLMs with the capacity to grasp sarcasm, which has been associated with the amygdala, a pivotal cerebral region for emotional learning, in the case of humans.
翻訳日:2023-09-20 13:34:49 公開日:2023-09-19
# 連続蒸留による拡散型テキスト・音声生成の高速化

Accelerating Diffusion-Based Text-to-Audio Generation with Consistency Distillation ( http://arxiv.org/abs/2309.10740v1 )

ライセンス: Link先を確認
Yatong Bai, Trung Dang, Dung Tran, Kazuhito Koishida, Somayeh Sojoudi(参考訳) 拡散モデルは、TTA(text-to-audio)生成法の大部分をパワーアップする。 残念ながら、これらのモデルは根底にあるデノナイジングネットワークへの反復的なクエリによって推論速度が遅いため、推論時間や計算制約のあるシナリオには適さない。 この作業は、最近提案された一貫性蒸留フレームワークを変更して、単一のニューラルネットワーククエリのみを必要とするTTAモデルをトレーニングする。 蒸留工程に分類器フリーガイダンスを組み込むことに加えて、蒸留訓練中に生成された音声の可用性を活用し、CLAPスコアなどの音声空間における新しい損失関数を持つ整合性TTAモデルを微調整する。 また,AudioCapsデータセットの目的および主観評価結果から,一貫性モデルは拡散モデルの高次品質と多様性を保ちつつ,クエリ数を400倍に削減することを示した。

Diffusion models power a vast majority of text-to-audio (TTA) generation methods. Unfortunately, these models suffer from slow inference speed due to iterative queries to the underlying denoising network, thus unsuitable for scenarios with inference time or computational constraints. This work modifies the recently proposed consistency distillation framework to train TTA models that require only a single neural network query. In addition to incorporating classifier-free guidance into the distillation process, we leverage the availability of generated audio during distillation training to fine-tune the consistency TTA model with novel loss functions in the audio space, such as the CLAP score. Our objective and subjective evaluation results on the AudioCaps dataset show that consistency models retain diffusion models' high generation quality and diversity while reducing the number of queries by a factor of 400.
翻訳日:2023-09-20 13:34:28 公開日:2023-09-19
# MelodyGLM:シンボリックメロディ生成のためのマルチタスク事前学習

MelodyGLM: Multi-task Pre-training for Symbolic Melody Generation ( http://arxiv.org/abs/2309.10738v1 )

ライセンス: Link先を確認
Xinda Wu, Zhijie Huang, Kejun Zhang, Jiaxing Yu, Xu Tan, Tieyao Zhang, Zihao Wang, Lingyun Sun(参考訳) 事前学習された言語モデルは、様々な音楽理解と生成タスクで印象的な結果を得ている。 しかし,記号的メロディ生成のための既存の事前学習手法では,テキストと音楽間のドメイン知識の相違により,音符列内の多次元構造情報の取得に苦慮している。 さらに、利用可能な大規模シンボリックなメロディデータセットがないため、事前トレーニングの改善は制限される。 本稿では,長期構造を持つメロディ生成のためのマルチタスク事前学習フレームワークであるmelodyglmを提案する。 メロディにおける局所的およびグローバルな構造をモデル化するための局所的およびグローバルな空白埋め込みタスクを作成するために,メロディックn-gramと長スパンサンプリング戦略を設計する。 具体的には、メロディの多次元構造をモデル化するために、ピッチ n-gram 、リズム n-gram およびそれらの組み合わせ n-gram をメロディ n-gram ブランク埋込みタスクに組み込む。 この目的のために,0.4百万以上のメロディ楽曲を含む,大規模なシンボリックメロディデータセットであるmelodynetを構築した。 MelodyNetは大規模事前学習とドメイン固有のn-gramレキシコン構築に利用されている。 主観的および客観的評価は、MelodyGLMが標準および以前の事前学習方法を上回ることを示す。 特に主観評価では,メロディ継続タスクにおいて,メロディGLMは,それぞれ0.82,0.87,0.78,0.94の整合性,リズム性,構造,全体的な品質を平均的に向上させる。 特に、メロディglmは、人間の作曲したメロディの品質とほぼ一致している。

Pre-trained language models have achieved impressive results in various music understanding and generation tasks. However, existing pre-training methods for symbolic melody generation struggle to capture multi-scale, multi-dimensional structural information in note sequences, due to the domain knowledge discrepancy between text and music. Moreover, the lack of available large-scale symbolic melody datasets limits the pre-training improvement. In this paper, we propose MelodyGLM, a multi-task pre-training framework for generating melodies with long-term structure. We design the melodic n-gram and long span sampling strategies to create local and global blank infilling tasks for modeling the local and global structures in melodies. Specifically, we incorporate pitch n-grams, rhythm n-grams, and their combined n-grams into the melodic n-gram blank infilling tasks for modeling the multi-dimensional structures in melodies. To this end, we have constructed a large-scale symbolic melody dataset, MelodyNet, containing more than 0.4 million melody pieces. MelodyNet is utilized for large-scale pre-training and domain-specific n-gram lexicon construction. Both subjective and objective evaluations demonstrate that MelodyGLM surpasses the standard and previous pre-training methods. In particular, subjective evaluations show that, on the melody continuation task, MelodyGLM achieves average improvements of 0.82, 0.87, 0.78, and 0.94 in consistency, rhythmicity, structure, and overall quality, respectively. Notably, MelodyGLM nearly matches the quality of human-composed melodies on the melody inpainting task.
翻訳日:2023-09-20 13:34:12 公開日:2023-09-19
# 最適輸送による不確実性伝播を伴うモンテカルロ木探索

Monte-Carlo tree search with uncertainty propagation via optimal transport ( http://arxiv.org/abs/2309.10737v1 )

ライセンス: Link先を確認
Tuan Dam, Pascal Stenger, Lukas Schneider, Joni Pajarinen, Carlo D'Eramo, Odalric-Ambrym Maillard(参考訳) 本稿では,モンテカルロ木探索 (mcts) のための新しいバックアップ戦略を提案する。 我々は,ガウス分布としてバリューノードとアクション値ノードの両方をモデル化し,確率的アプローチを採用する。 そこで我々は,アクション値の子ノードのワッサースタインバリセンタとして値ノードを演算する新しいバックアップ演算子を導入し,その推定値の不確かさをルートノードに伝達する。 L^1$-Wasserstein barycenterと$\alpha$-divergenceを組み合わせた新しいバックアップ演算子について,一般化平均バックアップ演算子との顕著な接続を描画することによって検討した。 我々は,楽観的選択とトンプソンサンプリングに基づく2つのサンプリング戦略で確率的バックアップ演算子を補完し,ワッサーシュタインMCTSアルゴリズムを得る。 本稿では, 最適政策に対する漸近収束の理論的保証と, 確率的かつ部分的に観測可能な環境における経験的評価について述べる。

This paper introduces a novel backup strategy for Monte-Carlo Tree Search (MCTS) designed for highly stochastic and partially observable Markov decision processes. We adopt a probabilistic approach, modeling both value and action-value nodes as Gaussian distributions. We introduce a novel backup operator that computes value nodes as the Wasserstein barycenter of their action-value children nodes; thus, propagating the uncertainty of the estimate across the tree to the root node. We study our novel backup operator when using a novel combination of $L^1$-Wasserstein barycenter with $\alpha$-divergence, by drawing a notable connection to the generalized mean backup operator. We complement our probabilistic backup operator with two sampling strategies, based on optimistic selection and Thompson sampling, obtaining our Wasserstein MCTS algorithm. We provide theoretical guarantees of asymptotic convergence to the optimal policy, and an empirical evaluation on several stochastic and partially observable environments, where our approach outperforms well-known related baselines.
翻訳日:2023-09-20 13:33:34 公開日:2023-09-19
# 多元多目的ドメイン適応における混合重み推定とモデル予測

Mixture Weight Estimation and Model Prediction in Multi-source Multi-target Domain Adaptation ( http://arxiv.org/abs/2309.10736v1 )

ライセンス: Link先を確認
Yuyang Deng, Ilja Kuzborskij, Mehrdad Mahdavi(参考訳) 複数の異種源からモデルを学習することの問題点を,新たなターゲット分布の精度向上を目的として検討する。 学習者の目標は、これらのデータソースを目標分散認識方法で混合し、混合ソースに対する経験的リスクを同時に最小化することである。 この文献は混合領域での学習理論の確立に顕著な進展をもたらした。 しかし、未解決の問題が2つある。 第二に、複数のターゲットドメインが存在する場合、計算的に効率的な方法で、データソースの潜在的にユニークな混合を用いて、各ターゲットに対する経験的リスク最小化(ERM)を解決する方法である。 本稿では, 両問題を効率よく, 保証とともに解決する。 最初の問題である混合重み推定(mixed weight estimation)を凸非凸合成ミニマックス問題として定性保証のある効率的な確率的アルゴリズムを提案する。 次に、2つ目の問題として、特定の状態において、それぞれの対象領域に対して個別にERMを解くことは避けられ、代わりに、対象の最適モデルのパラメータを混合係数の空間上の非線形関数と見なすことができる。 これに基づいて、オフライン環境では、GDトレーニングされた過パラメータニューラルネットワークが、指定されたERM問題を解決する代わりに、ターゲットドメインのモデルを予測するために、そのような機能を確実に学習できることが示される。 最後に, 任意の混合係数列を与えられた新しいターゲットに対するパラメータを予測し, 後悔の保証を享受する, ラベル効率の良いオンラインアルゴリズムを提案する。

We consider the problem of learning a model from multiple heterogeneous sources with the goal of performing well on a new target distribution. The goal of learner is to mix these data sources in a target-distribution aware way and simultaneously minimize the empirical risk on the mixed source. The literature has made some tangible advancements in establishing theory of learning on mixture domain. However, there are still two unsolved problems. Firstly, how to estimate the optimal mixture of sources, given a target domain; Secondly, when there are numerous target domains, how to solve empirical risk minimization (ERM) for each target using possibly unique mixture of data sources in a computationally efficient manner. In this paper we address both problems efficiently and with guarantees. We cast the first problem, mixture weight estimation, as a convex-nonconcave compositional minimax problem, and propose an efficient stochastic algorithm with provable stationarity guarantees. Next, for the second problem, we identify that for certain regimes, solving ERM for each target domain individually can be avoided, and instead parameters for a target optimal model can be viewed as a non-linear function on a space of the mixture coefficients. Building upon this, we show that in the offline setting, a GD-trained overparameterized neural network can provably learn such function to predict the model of target domain instead of solving a designated ERM problem. Finally, we also consider an online setting and propose a label efficient online algorithm, which predicts parameters for new targets given an arbitrary sequence of mixing coefficients, while enjoying regret guarantees.
翻訳日:2023-09-20 13:33:06 公開日:2023-09-19
# GPT4AIGChip:大規模言語モデルによる次世代AIアクセラレータ設計自動化を目指す

GPT4AIGChip: Towards Next-Generation AI Accelerator Design Automation via Large Language Models ( http://arxiv.org/abs/2309.10730v1 )

ライセンス: Link先を確認
Yonggan Fu, Yongan Zhang, Zhongzhi Yu, Sixu Li, Zhifan Ye, Chaojian Li, Cheng Wan, Yingyan Lin(参考訳) 人工知能(AI)の驚くべき能力と複雑な性質は、専門のAIアクセラレーターの衝動を劇的に高めている。 それでも、さまざまなaiワークロードのためのこれらのアクセラレーターの設計は、労働と時間の両方に集中している。 既存の設計調査と自動化ツールは、広範な人間の関与の必要性を部分的に軽減できるが、それでも相当なハードウェアの専門知識を必要としており、非専門家の障壁となり、AIアクセラレータの開発を阻害する。 人間の言語指導に応えて高品質なコンテンツを生成するための大型言語モデル(LLM)の驚くべき可能性に感銘を受け,我々はLLMをAIアクセラレーター設計の自動化に活用する可能性を検討する。 この取り組みを通じて、私たちはGPT4AIGChipを開発した。GPT4AIGChipは、ドメイン固有言語の代わりに人間の自然言語を活用することで、AIアクセラレータ設計を民主化するフレームワークである。 具体的には、私たちはまず、LLMのAIアクセラレータ設計の限界と能力に関する詳細な調査を行い、LLMを利用した自動AIアクセラレータ設計に対する現在の位置の理解と洞察の獲得を支援します。 さらに、上記の知見からインスピレーションを得たGPT4AIGChipというフレームワークを開発し、LLMを高品質なAIアクセラレーター設計へと導くために、コンテキスト内学習を利用した自動デモ拡張プロンプト生成パイプラインを特徴とする。 我々の知る限り、この研究はLLMを利用した自動AIアクセラレータ生成のための効果的なパイプラインを初めて実証したものだ。 したがって、私たちの洞察とフレームワークが、次世代のLCM駆動設計自動化ツールのイノベーションの触媒となると期待している。

The remarkable capabilities and intricate nature of Artificial Intelligence (AI) have dramatically escalated the imperative for specialized AI accelerators. Nonetheless, designing these accelerators for various AI workloads remains both labor- and time-intensive. While existing design exploration and automation tools can partially alleviate the need for extensive human involvement, they still demand substantial hardware expertise, posing a barrier to non-experts and stifling AI accelerator development. Motivated by the astonishing potential of large language models (LLMs) for generating high-quality content in response to human language instructions, we embark on this work to examine the possibility of harnessing LLMs to automate AI accelerator design. Through this endeavor, we develop GPT4AIGChip, a framework intended to democratize AI accelerator design by leveraging human natural languages instead of domain-specific languages. Specifically, we first perform an in-depth investigation into LLMs' limitations and capabilities for AI accelerator design, thus aiding our understanding of our current position and garnering insights into LLM-powered automated AI accelerator design. Furthermore, drawing inspiration from the above insights, we develop a framework called GPT4AIGChip, which features an automated demo-augmented prompt-generation pipeline utilizing in-context learning to guide LLMs towards creating high-quality AI accelerator design. To our knowledge, this work is the first to demonstrate an effective pipeline for LLM-powered automated AI accelerator generation. Accordingly, we anticipate that our insights and framework can serve as a catalyst for innovations in next-generation LLM-powered design automation tools.
翻訳日:2023-09-20 13:32:20 公開日:2023-09-19
# PAMS:人工市場シミュレーションのためのプラットフォーム

PAMS: Platform for Artificial Market Simulations ( http://arxiv.org/abs/2309.10729v1 )

ライセンス: Link先を確認
Masanori Hirano, Ryosuke Takata, Kiyoshi Izumi(参考訳) 本稿では,新しい市場シミュレーションプラットフォームであるPAMS: Platform for Artificial Market Simulationsを提案する。 PAMSはPythonベースのシミュレータとして開発されており、ディープラーニングと容易に統合でき、ユーザが容易に修正できる様々なシミュレーションを可能にする。 本稿では,深層学習による将来の価格予測エージェントを用いたPAMSの有効性を実証する。

This paper presents a new artificial market simulation platform, PAMS: Platform for Artificial Market Simulations. PAMS is developed as a Python-based simulator that is easily integrated with deep learning and enabling various simulation that requires easy users' modification. In this paper, we demonstrate PAMS effectiveness through a study using agents predicting future prices by deep learning.
翻訳日:2023-09-20 13:31:40 公開日:2023-09-19
# QuBEC:QEC埋め込みによる量子回路の等価性チェックの強化

QuBEC: Boosting Equivalence Checking for Quantum Circuits with QEC Embedding ( http://arxiv.org/abs/2309.10728v1 )

ライセンス: Link先を確認
Chao Lu, Navnil Choudhury, Utsav Banerjee, Abdullah Ash Saki, Kanad Basu(参考訳) 量子コンピューティングは、古典的なコンピュータではできないタスクを実行することで、多くのアルゴリズムを加速できることが証明されている。 現在、NISQ(Noisy Intermediate Scale Quantum)マシンは、商用量子コンピュータをレンダリングするためにスケーラビリティとノイズの問題に悩まされている。 しかし、量子コンピュータの物理的およびソフトウェア的改善は、量子ゲートノイズを効率的に制御することができる。 量子アルゴリズムと実装の複雑さが増すにつれて、量子回路のソフトウェア制御はより複雑な設計につながる可能性がある。 その結果、量子回路の検証は、量子誤り訂正やアサーションを含む他のプロセスとともに、コンパイルの正確性を保証するために重要となり、量子回路の忠実性を高めることができる。 本稿では,量子誤差補正冗長性を持つ回路を計算しながら,既存の手法に比べて遅延を少なくする決定図に基づく量子等価性チェック手法であるqubecを提案する。 提案手法は,特定のベンチマーク回路上での検証時間を最大271.49 \times$に削減する一方,必要な決定ダイアグラムノード数は最先端戦略と比較して最大798.31 \times$に削減する。 提案するqubecフレームワークは、より高速で効率的な量子回路の検証を可能にし、より大規模で複雑な量子アルゴリズムの開発への道を開くことによって、量子コンピューティングの進歩に貢献することができる。

Quantum computing has proven to be capable of accelerating many algorithms by performing tasks that classical computers cannot. Currently, Noisy Intermediate Scale Quantum (NISQ) machines struggle from scalability and noise issues to render a commercial quantum computer. However, the physical and software improvements of a quantum computer can efficiently control quantum gate noise. As the complexity of quantum algorithms and implementation increases, software control of quantum circuits may lead to a more intricate design. Consequently, the verification of quantum circuits becomes crucial in ensuring the correctness of the compilation, along with other processes, including quantum error correction and assertions, that can increase the fidelity of quantum circuits. In this paper, we propose a Decision Diagram-based quantum equivalence checking approach, QuBEC, that requires less latency compared to existing techniques, while accounting for circuits with quantum error correction redundancy. Our proposed methodology reduces verification time on certain benchmark circuits by up to $271.49 \times$, while the number of Decision Diagram nodes required is reduced by up to $798.31 \times$, compared to state-of-the-art strategies. The proposed QuBEC framework can contribute to the advancement of quantum computing by enabling faster and more efficient verification of quantum circuits, paving the way for the development of larger and more complex quantum algorithms.
翻訳日:2023-09-20 13:31:24 公開日:2023-09-19
# 基礎モデルを用いた数発パンオプティカルセグメンテーション

Few-Shot Panoptic Segmentation With Foundation Models ( http://arxiv.org/abs/2309.10726v1 )

ライセンス: Link先を確認
Markus K\"appeler, K\"ursat Petek, Niclas V\"odisch, Wolfram Burgard, Abhinav Valada(参考訳) 現在のパンオプティカルセグメンテーションの最先端手法では、膨大な量の注釈付きトレーニングデータが必要であり、広く採用される上で大きな課題となっている。 同時に、視覚表現学習の最近のブレークスルーは、完全にラベルのないイメージでトレーニングできる大規模な基礎モデルが出現するきっかけとなった。 本研究では,このようなタスクに依存しない画像特徴を活用し,0に近いラベル(spino)でパノプティカル情報をセグメンテーションすることにより,少数のパノプティカルセグメンテーションを実現することを提案する。 本手法では,DINOv2のバックボーンと,セマンティックセグメンテーションと境界推定のための軽量なネットワークヘッドを組み合わせる。 提案手法は,10個の注釈付き画像のみを用いてトレーニングし,既存の汎視的セグメンテーション法で使用可能な高品質な擬似ラベルを予測する。 特に,SPINOは,基礎モデルを活用した複雑な視覚認識タスクの学習方法として,基礎的真理ラベルの0.3%未満を使用しながら,完全教師付きベースラインと比較して,競争力のある結果が得られることを示す。 汎用性を示すため,室内環境と屋外環境の両方において,実世界のロボットビジョンシステムにSPINOを更に展開する。 将来の研究を促進するため、コードとトレーニングされたモデルをhttp://spino.cs.uni-freiburg.deで公開しています。

Current state-of-the-art methods for panoptic segmentation require an immense amount of annotated training data that is both arduous and expensive to obtain posing a significant challenge for their widespread adoption. Concurrently, recent breakthroughs in visual representation learning have sparked a paradigm shift leading to the advent of large foundation models that can be trained with completely unlabeled images. In this work, we propose to leverage such task-agnostic image features to enable few-shot panoptic segmentation by presenting Segmenting Panoptic Information with Nearly 0 labels (SPINO). In detail, our method combines a DINOv2 backbone with lightweight network heads for semantic segmentation and boundary estimation. We show that our approach, albeit being trained with only ten annotated images, predicts high-quality pseudo-labels that can be used with any existing panoptic segmentation method. Notably, we demonstrate that SPINO achieves competitive results compared to fully supervised baselines while using less than 0.3% of the ground truth labels, paving the way for learning complex visual recognition tasks leveraging foundation models. To illustrate its general applicability, we further deploy SPINO on real-world robotic vision systems for both outdoor and indoor environments. To foster future research, we make the code and trained models publicly available at http://spino.cs.uni-freiburg.de.
翻訳日:2023-09-20 13:31:00 公開日:2023-09-19
# MRIによる前立腺癌の1ショット学習

Causality-Driven One-Shot Learning for Prostate Cancer Grading from MRI ( http://arxiv.org/abs/2309.10725v1 )

ライセンス: Link先を確認
Gianluca Carloni, Eva Pachetti, Sara Colantonio(参考訳) 本稿では,画像中の弱い因果信号を学習し,活用する医用画像の自動分類手法を提案する。 我々のフレームワークは畳み込みニューラルネットワークのバックボーンと因果抽出モジュールから構成されており、画像の他の場所に別の特徴が存在することを考慮し、画像の1箇所に特徴の出現についてモデルに通知できる特徴マップ間の因果関係を抽出する。 低データシナリオにおける我々のアプローチの有効性を評価するため、我々は1ショット学習方式で因果性駆動型アーキテクチャを訓練し、関連するクラスで設計されるが粒度の異なるメタトレーニングおよびメタテストタスクを含む新しいメタ学習手法を提案する。 前立腺mri画像の公開データセット上でバイナリおよびマルチクラス分類実験を行う。 提案する因果性駆動モジュールの有効性を検証するため,我々はアブレーション研究を行い,ネットワークの意思決定プロセスに強い影響を与える領域を強調するためにクラス活性化マップを用いた質的評価を行う。 本研究は,特徴間の因果関係が,関連情報を識別し,より信頼性と解釈可能な予測を行う能力を高める上で重要な役割を担っていることを示す。 これにより、医療画像分類タスクには有望なアプローチとなる。

In this paper, we present a novel method to automatically classify medical images that learns and leverages weak causal signals in the image. Our framework consists of a convolutional neural network backbone and a causality-extractor module that extracts cause-effect relationships between feature maps that can inform the model on the appearance of a feature in one place of the image, given the presence of another feature within some other place of the image. To evaluate the effectiveness of our approach in low-data scenarios, we train our causality-driven architecture in a One-shot learning scheme, where we propose a new meta-learning procedure entailing meta-training and meta-testing tasks that are designed using related classes but at different levels of granularity. We conduct binary and multi-class classification experiments on a publicly available dataset of prostate MRI images. To validate the effectiveness of the proposed causality-driven module, we perform an ablation study and conduct qualitative assessments using class activation maps to highlight regions strongly influencing the network's decision-making process. Our findings show that causal relationships among features play a crucial role in enhancing the model's ability to discern relevant information and yielding more reliable and interpretable predictions. This would make it a promising approach for medical image classification tasks.
翻訳日:2023-09-20 13:30:34 公開日:2023-09-19
# スティーフェル多様体上の$O(k)$-等変次元性還元

$O(k)$-Equivariant Dimensionality Reduction on Stiefel Manifolds ( http://arxiv.org/abs/2309.10775v1 )

ライセンス: Link先を確認
Andrew Lee, Harlin Lee, Jose A. Perea, Nikolas Schonsheck, Madeleine Weinstein(参考訳) 多くの実世界のデータセットは高次元スティーフェル多様体とグラスマン多様体上に存在し、それぞれ$v_k(\mathbb{r}^n)$と$gr(k, \mathbb{r}^n)$である。 本研究では,データ次元を$V_k(\mathbb{R}^N)$から$V_k(\mathbb{R}^n)$に減らし,$O(k)$-equivariant manner$k \leq n \ll N$から$V_k(\mathbb{R}^N)$に還元するアルゴリズムをPSC(Principal Stiefel Coordinates)と呼ぶ。 まず、各元 $\alpha \in V_n(\mathbb{R}^N)$ が $V_k(\mathbb{R}^n)$ から $V_k(\mathbb{R}^N)$ への等尺埋め込みを定義する。 次に、主成分分析(PCA)の出力と勾配降下を適用することで、データ適合誤差を最小限に抑えた埋め込みマップを最適化する。 次に、データを$v_k(\mathbb{r}^n)$ in $v_k(\mathbb{r}^n)$ in $v_k(\mathbb{r}^n)$ のイメージに投影するために ``closest point operator'' として作用する連続および$o(k)$-同変写像 $\pi_\alpha$ を定義する。 この次元還元は$O(k)$-同変であるため、これらの結果はグラスマン多様体にも拡張される。 最後に、pca出力はノイズのない設定で投影誤差をグローバルに最小化するが、上述のように線形埋め込みされた下次元スティフェル多様体の像にデータが正しく収まらない場合、このアルゴリズムは有意義に異なる改善結果が得られることを示す。 合成および実世界のデータを用いた複数の数値実験を行う。

Many real-world datasets live on high-dimensional Stiefel and Grassmannian manifolds, $V_k(\mathbb{R}^N)$ and $Gr(k, \mathbb{R}^N)$ respectively, and benefit from projection onto lower-dimensional Stiefel (respectively, Grassmannian) manifolds. In this work, we propose an algorithm called Principal Stiefel Coordinates (PSC) to reduce data dimensionality from $ V_k(\mathbb{R}^N)$ to $V_k(\mathbb{R}^n)$ in an $O(k)$-equivariant manner ($k \leq n \ll N$). We begin by observing that each element $\alpha \in V_n(\mathbb{R}^N)$ defines an isometric embedding of $V_k(\mathbb{R}^n)$ into $V_k(\mathbb{R}^N)$. Next, we optimize for such an embedding map that minimizes data fit error by warm-starting with the output of principal component analysis (PCA) and applying gradient descent. Then, we define a continuous and $O(k)$-equivariant map $\pi_\alpha$ that acts as a ``closest point operator'' to project the data onto the image of $V_k(\mathbb{R}^n)$ in $V_k(\mathbb{R}^N)$ under the embedding determined by $\alpha$, while minimizing distortion. Because this dimensionality reduction is $O(k)$-equivariant, these results extend to Grassmannian manifolds as well. Lastly, we show that the PCA output globally minimizes projection error in a noiseless setting, but that our algorithm achieves a meaningfully different and improved outcome when the data does not lie exactly on the image of a linearly embedded lower-dimensional Stiefel manifold as above. Multiple numerical experiments using synthetic and real-world data are performed.
翻訳日:2023-09-20 13:25:02 公開日:2023-09-19
# グラフ伝達学習における半教師付きドメイン適応

Semi-supervised Domain Adaptation in Graph Transfer Learning ( http://arxiv.org/abs/2309.10773v1 )

ライセンス: Link先を確認
Ziyue Qiao, Xiao Luo, Meng Xiao, Hao Dong, Yuanchun Zhou, and Hui Xiong(参考訳) グラフ転送学習の特定の事例として、グラフに対する教師なしドメイン適応は、ラベル豊富なソースグラフからラベルのないターゲットグラフへの知識伝達を目的としている。 しかし、トポロジーと属性を持つグラフは通常かなりのクロスドメインの差があり、ソースグラフに単にノードのサブセットがラベル付けされるような現実世界のシナリオが数多く存在する。 これにより、深刻なドメインシフトとラベルの不足により、グラフ転送学習に重大な課題が生じる。 これらの課題に対処するため,SGDA (Semi-supervised Graph Domain Adaptation) という手法を提案する。 ドメインシフトに対処するために、各ソースノードに適応シフトパラメータを追加し、ノード埋め込みのクロスドメイン分布を調整するために逆向きにトレーニングすることで、ラベル付きソースノードでトレーニングされたノード分類器をターゲットノードに転送することができる。 さらに,ラベルの不足に対処するために,ラベルのないノードに対する擬似ラベル方式を提案し,クラスセントロイドに対する相対的な位置に基づいてノードの後方影響を測定することにより,ターゲットグラフの分類を改善する。 最後に,様々なデータセットに対する広範囲な実験により,提案するsgdaの有効性が検証された。

As a specific case of graph transfer learning, unsupervised domain adaptation on graphs aims for knowledge transfer from label-rich source graphs to unlabeled target graphs. However, graphs with topology and attributes usually have considerable cross-domain disparity and there are numerous real-world scenarios where merely a subset of nodes are labeled in the source graph. This imposes critical challenges on graph transfer learning due to serious domain shifts and label scarcity. To address these challenges, we propose a method named Semi-supervised Graph Domain Adaptation (SGDA). To deal with the domain shift, we add adaptive shift parameters to each of the source nodes, which are trained in an adversarial manner to align the cross-domain distributions of node embedding, thus the node classifier trained on labeled source nodes can be transferred to the target nodes. Moreover, to address the label scarcity, we propose pseudo-labeling on unlabeled nodes, which improves classification on the target graph via measuring the posterior influence of nodes based on their relative position to the class centroids. Finally, extensive experiments on a range of publicly accessible datasets validate the effectiveness of our proposed SGDA in different experimental settings.
翻訳日:2023-09-20 13:24:14 公開日:2023-09-19
# 科学用紙の大規模シングルトピックコーパスの相互蒸留

Interactive Distillation of Large Single-Topic Corpora of Scientific Papers ( http://arxiv.org/abs/2309.10772v1 )

ライセンス: Link先を確認
Nicholas Solovyev, Ryan Barron, Manish Bhattarai, Maksim E. Eren, Kim O. Rasmussen, Boian S. Alexandrov(参考訳) 科学文献の特定のデータセットは、研究と教育の両方において重要である。 しかし、このようなデータセットを大規模に構築することは困難である。 一般的なアプローチは、確立したコーパスにトピックモデリングを適用し、特定のトピックを選択することで、これらのデータセットを還元的に構築することである。 より堅牢だが時間を要するアプローチは、対象物の専門家(SME)が文書を手書きするデータセットの構築である。 この方法はスケールせず、データセットが大きくなるとエラーを起こしやすい。 ここでは,学術文献のターゲットデータセットを構築的に生成するための,機械学習に基づく新しいツールを紹介する。 文書の小さな"コア"コーパスを前提として,文書の引用ネットワークを構築した。 引用ネットワークの各ステップにおいて,テキスト埋め込みを生成し,次元還元による埋め込みを可視化する。 論文は、コアと"似ている"場合や、ループ内の人選によってプルされる場合、データセットに保持される。 論文に関するさらなる知見は、SeNMFkを用いたサブトピックモデリングを通じて得られる。 機械学習の2つの分野に適用することで、文献レビューのための新しいツールを実証する。

Highly specific datasets of scientific literature are important for both research and education. However, it is difficult to build such datasets at scale. A common approach is to build these datasets reductively by applying topic modeling on an established corpus and selecting specific topics. A more robust but time-consuming approach is to build the dataset constructively in which a subject matter expert (SME) handpicks documents. This method does not scale and is prone to error as the dataset grows. Here we showcase a new tool, based on machine learning, for constructively generating targeted datasets of scientific literature. Given a small initial "core" corpus of papers, we build a citation network of documents. At each step of the citation network, we generate text embeddings and visualize the embeddings through dimensionality reduction. Papers are kept in the dataset if they are "similar" to the core or are otherwise pruned through human-in-the-loop selection. Additional insight into the papers is gained through sub-topic modeling using SeNMFk. We demonstrate our new tool for literature review by applying it to two different fields in machine learning.
翻訳日:2023-09-20 13:23:56 公開日:2023-09-19
# FRASIMed : 言語横断的BERTアノテーション投影による臨床用フランス語アノテーション

FRASIMED: a Clinical French Annotated Resource Produced through Crosslingual BERT-Based Annotation Projection ( http://arxiv.org/abs/2309.10770v1 )

ライセンス: Link先を確認
Jamil Zaghir, Mina Bjelogrlic, Jean-Philippe Goldman, Souka\"ina Aananou, Christophe Gaudet-Blavignac and Christian Lovis(参考訳) 低リソースコーパスのための名前付きエンティティ認識(NER)のような自然言語処理(NLP)アプリケーションは、より大きなアノテートデータセットを必要とする大規模言語モデル(LLM)の開発における最近の進歩の恩恵を受けない。 本稿では,注釈付きデータセットの翻訳版を生成する手法について紹介する。 言語に依存しないBERTベースのアプローチを活用することで、人間の努力がほとんどなく、既に利用可能なオープンデータリソースのみを使用することで、低リソースコーパスを増やす効率的なソリューションになります。 半自動データ生成戦略の品質と有効性を評価する上で、量的および質的な評価は欠落することが多い。 クロスリンガルなアノテーション投影手法の評価は,結果のデータセットにおいて有効性と精度の両方を示した。 本手法の実用的応用として、2'051例の合成臨床症例を含む注釈付きコーパスである医学的実体検出用意味情報(frasimed)をフランス語で作成する。 このコーパスは、現在、研究者や実践者が臨床分野におけるフランス語自然言語処理(nlp)アプリケーション(https://zenodo.org/record/8355629)を開発し、洗練することができる。

Natural language processing (NLP) applications such as named entity recognition (NER) for low-resource corpora do not benefit from recent advances in the development of large language models (LLMs) where there is still a need for larger annotated datasets. This research article introduces a methodology for generating translated versions of annotated datasets through crosslingual annotation projection. Leveraging a language agnostic BERT-based approach, it is an efficient solution to increase low-resource corpora with few human efforts and by only using already available open data resources. Quantitative and qualitative evaluations are often lacking when it comes to evaluating the quality and effectiveness of semi-automatic data generation strategies. The evaluation of our crosslingual annotation projection approach showed both effectiveness and high accuracy in the resulting dataset. As a practical application of this methodology, we present the creation of French Annotated Resource with Semantic Information for Medical Entities Detection (FRASIMED), an annotated corpus comprising 2'051 synthetic clinical cases in French. The corpus is now available for researchers and practitioners to develop and refine French natural language processing (NLP) applications in the clinical field (https://zenodo.org/record/8355629), making it the largest open annotated corpus with linked medical concepts in French.
翻訳日:2023-09-20 13:23:38 公開日:2023-09-19
# MAGIC-TBR:グループ設定における変圧器を用いた身体行動認識のためのマルチビューアテンションフュージョン

MAGIC-TBR: Multiview Attention Fusion for Transformer-based Bodily Behavior Recognition in Group Settings ( http://arxiv.org/abs/2309.10765v1 )

ライセンス: Link先を確認
Surbhi Madan, Rishabh Jain, Gulshan Sharma, Ramanathan Subramanian and Abhinav Dhall(参考訳) 身体行動言語は重要な社会的手がかりであり、その自動分析は人工知能システムの理解を深める助けとなる。 さらに、行動言語的手がかりは、ソーシャルエージェントベースのユーザインタラクションにおけるアクティブな関与に不可欠である。 頭と体のポーズ推定のようなタスクに対するコンピュータビジョンの進歩にもかかわらず、身振り、グルーミング、ファムブルといったより細かい行動の検出について検討する必要がある。 本稿では,ビデオから抽出した特徴と対応する離散コサイン変換係数を変換器を用いたアプローチで組み合わせた多視点アテンション融合法MAGIC-TBRを提案する。 bbsiデータセットを用いて実験を行い,多視点注意による特徴融合の有効性を示す。 コードは以下の通り。 https://github.com/surbhimadan92/MAGIC-TBR

Bodily behavioral language is an important social cue, and its automated analysis helps in enhancing the understanding of artificial intelligence systems. Furthermore, behavioral language cues are essential for active engagement in social agent-based user interactions. Despite the progress made in computer vision for tasks like head and body pose estimation, there is still a need to explore the detection of finer behaviors such as gesturing, grooming, or fumbling. This paper proposes a multiview attention fusion method named MAGIC-TBR that combines features extracted from videos and their corresponding Discrete Cosine Transform coefficients via a transformer-based approach. The experiments are conducted on the BBSI dataset and the results demonstrate the effectiveness of the proposed feature fusion with multiview attention. The code is available at: https://github.com/surbhimadan92/MAGIC-TBR
翻訳日:2023-09-20 13:23:12 公開日:2023-09-19
# 高精度・耐故障性アナログニューラルネットワークの青写真化

A Blueprint for Precise and Fault-Tolerant Analog Neural Networks ( http://arxiv.org/abs/2309.10759v1 )

ライセンス: Link先を確認
Cansu Demirkiran, Lakshmi Nair, Darius Bunandar, and Ajay Joshi(参考訳) アナログコンピューティングは、従来のデジタルアーキテクチャがもたらすエネルギー効率とスケーラビリティの課題を克服する可能性から、ディープニューラルネットワーク(DNN)を加速するための有望な道として再燃した。 しかし、高精度データ変換器は高価で実用的ではないため、そのような技術を用いて高精度かつDNNの精度を実現することは困難である。 本稿では,残基数システム(RNS)を用いてこの問題に対処する。 RNSは複数の低精度操作から高精度操作を構成することができ、データコンバータの限られた精度による情報損失を解消できる。 従来のアナログコアは8ドル以上の精度で同じDNNの精度を実現するのに対して,RSSベースの手法を用いたアナログアクセラレータは6ドル以上の精度で,最先端のDNN推論のためのFP32の精度を${\geq}99\%で達成できることを示した。 精度の低下は、rnsを使用すると、同じスループットと精度を維持しながらアナログ加速器のエネルギー消費量を数桁削減できることを示している。 本稿では,この手法をDNNトレーニングに拡張し,FP32精度に匹敵する精度を達成しつつ,7ドルビット整数演算を用いてDNNを効率的に訓練する。 最後に,アナログアクセラレータ内に存在するノイズやエラーに対して,冗長なRSS誤り訂正符号を用いたフォールトトレラントデータフローを提案する。

Analog computing has reemerged as a promising avenue for accelerating deep neural networks (DNNs) due to its potential to overcome the energy efficiency and scalability challenges posed by traditional digital architectures. However, achieving high precision and DNN accuracy using such technologies is challenging, as high-precision data converters are costly and impractical. In this paper, we address this challenge by using the residue number system (RNS). RNS allows composing high-precision operations from multiple low-precision operations, thereby eliminating the information loss caused by the limited precision of the data converters. Our study demonstrates that analog accelerators utilizing the RNS-based approach can achieve ${\geq}99\%$ of FP32 accuracy for state-of-the-art DNN inference using data converters with only $6$-bit precision whereas a conventional analog core requires more than $8$-bit precision to achieve the same accuracy in the same DNNs. The reduced precision requirements imply that using RNS can reduce the energy consumption of analog accelerators by several orders of magnitude while maintaining the same throughput and precision. Our study extends this approach to DNN training, where we can efficiently train DNNs using $7$-bit integer arithmetic while achieving accuracy comparable to FP32 precision. Lastly, we present a fault-tolerant dataflow using redundant RNS error-correcting codes to protect the computation against noise and errors inherent within an analog accelerator.
翻訳日:2023-09-20 13:22:58 公開日:2023-09-19
# 量子測定による整数分解

Integer Factorization by Quantum Measurements ( http://arxiv.org/abs/2309.10757v1 )

ライセンス: Link先を確認
Giuseppe Mussardo and Andrea Trombettoni(参考訳) 量子アルゴリズムは、通常の古典コンピュータでは解けない計算問題を解くために量子力学を使い続ける努力の中心である。 その一般的な特徴は、絡み合いや状態の重畳のような真の量子的性質の使用である。 既知の量子アルゴリズムのうち、特別な役割はshorアルゴリズム、すなわち整数分解のための多項式時間量子アルゴリズムによって果たされ、暗号のようないくつかの分野において潜在的に応用される。 ここでは、別の真の量子特性に基づく整数分解のための別のアルゴリズムを示す。 この新たなスキームでは、整数 $N$ の分解は、素数の$k$ に等しい数ステップで達成される。例えば、$N$ が 2 つの素数の積であれば、$N$ の桁数$n$ によらず、2つの量子測度が十分である。 k$ は一般整数を分解するためにできる演算の数に対する下限であるので、量子力学的なセットアップはそのような境界を飽和させることができる。

Quantum algorithms are at the heart of the ongoing efforts to use quantum mechanics to solve computational problems unsolvable on ordinary classical computers. Their common feature is the use of genuine quantum properties such as entanglement and superposition of states. Among the known quantum algorithms, a special role is played by the Shor algorithm, i.e. a polynomial-time quantum algorithm for integer factorization, with far reaching potential applications in several fields, such as cryptography. Here we present a different algorithm for integer factorization based on another genuine quantum property: quantum measurement. In this new scheme, the factorization of the integer $N$ is achieved in a number of steps equal to the number $k$ of its prime factors, -- e.g., if $N$ is the product of two primes, two quantum measurements are enough, regardless of the number of digits $n$ of the number $N$. Since $k$ is the lower bound to the number of operations one can do to factorize a general integer, one sees that a quantum mechanical setup can saturate such a bound.
翻訳日:2023-09-20 13:22:29 公開日:2023-09-19
# SHOWMe: オブジェクトに依存しない3Dオブジェクト再構築のベンチマーク

SHOWMe: Benchmarking Object-agnostic Hand-Object 3D Reconstruction ( http://arxiv.org/abs/2309.10748v1 )

ライセンス: Link先を確認
Anilkumar Swamy, Vincent Leroy, Philippe Weinzaepfel, Fabien Baradel, Salma Galaaoui, Romain Bregier, Matthieu Armando, Jean-Sebastien Franco, Gregory Rogez(参考訳) 最近のハンドオブジェクトインタラクションデータセットは、実際のオブジェクトの変動性が限られており、manoパラメトリックモデルに当てはめて地対数ハンドシェイプを得る。 これらの制限を超越し、さらなる研究を進めるために、実および詳細なハンドオブジェクト3dテクスチャメッシュでアノテートされた96のビデオからなるshowmeデータセットを紹介します。 近年の研究では,手の動きがビデオシーケンス全体を通して一定である,剛性のある手オブジェクトのシナリオを考察している。 この仮定により、SHOWMeの画像シーケンスにサブミリメートル精度の基底3Dスキャンを登録できる。 単純ではあるが、この仮説は、必要な正確さと詳細度が重要であるアプリケーションの観点から意味がある。 オブジェクトのハンドオーバは、人間とロボットのコラボレーション、オブジェクトのスキャン、操作と接触点の分析に役立ちます。 重要なことは、手動物体システムの剛性は、剛性登録ステップとマルチビュー再構成(MVR)部分からなる2段パイプラインを用いて、未知の手動物体の映像ベースの3次元再構成に取り組むことができる。 これら2つの段階に対する非自明なベースラインのセットを慎重に評価し、SfMツールボックスや手ポーズ推定器を用いて有望なオブジェクト非依存の手オブジェクト再構成を実現し、剛性変換と既製のMVRアルゴリズムを復元可能であることを示す。 しかし、これらの方法は、被写体のテクスチャの欠如や手の重き閉塞のために不正確である可能性がある初期カメラポーズ推定に敏感であり、再建の余地を残している。 コードとデータセットはhttps://europe.naverlabs.com/research/showmeで入手できる。

Recent hand-object interaction datasets show limited real object variability and rely on fitting the MANO parametric model to obtain groundtruth hand shapes. To go beyond these limitations and spur further research, we introduce the SHOWMe dataset which consists of 96 videos, annotated with real and detailed hand-object 3D textured meshes. Following recent work, we consider a rigid hand-object scenario, in which the pose of the hand with respect to the object remains constant during the whole video sequence. This assumption allows us to register sub-millimetre-precise groundtruth 3D scans to the image sequences in SHOWMe. Although simpler, this hypothesis makes sense in terms of applications where the required accuracy and level of detail is important eg., object hand-over in human-robot collaboration, object scanning, or manipulation and contact point analysis. Importantly, the rigidity of the hand-object systems allows to tackle video-based 3D reconstruction of unknown hand-held objects using a 2-stage pipeline consisting of a rigid registration step followed by a multi-view reconstruction (MVR) part. We carefully evaluate a set of non-trivial baselines for these two stages and show that it is possible to achieve promising object-agnostic 3D hand-object reconstructions employing an SfM toolbox or a hand pose estimator to recover the rigid transforms and off-the-shelf MVR algorithms. However, these methods remain sensitive to the initial camera pose estimates which might be imprecise due to lack of textures on the objects or heavy occlusions of the hands, leaving room for improvements in the reconstruction. Code and dataset are available at https://europe.naverlabs.com/research/showme
翻訳日:2023-09-20 13:22:10 公開日:2023-09-19
# 全対相互作用をもつ不均一スピンアンサンブルのダイナミクス:置換不変性を破る

Dynamics of inhomogeneous spin ensembles with all-to-all interactions: breaking permutational invariance ( http://arxiv.org/abs/2309.10746v1 )

ライセンス: Link先を確認
Fernando Iemini, Darrick Chang, Jamir Marino(参考訳) 全対全相互作用を特徴とするスピンアンサンブルのダイナミクスにおける非一様初期条件の導入結果について検討する。 具体的には,向きの異なる半古典的スピンアンサンブルの組を作成することを含む。 この設定を通して,そのような非一様初期状態が置換不変性の破壊に与える影響を考察する。 このアプローチをスピンを一様に整列する従来のシナリオと比較すると、スピンアンサンブルのダイナミクスはより拡張性のあるヒルベルト空間にまたがっていることが分かる。 この拡大は、異なる全角運動量部分空間間の外対角コヒーレンス(英語版)(off-diagonal coherences)の包含によって生じる。 概念的には、動的進化は制約付き部分空間をナビゲートする複数の均質な部分空間の合成として理解することができる。 特に、初期条件の非一様性に敏感な可観測性は、これらの非対角コヒーレンスの識別可能なシグネチャを示す。 我々は、ディッケモデルによって示される緩和現象を再検討するために、この新しい視点を採用し、境界時間結晶の原型的な例を示している。 興味深いことに、不均質な初期条件で初期化されたアンサンブルは、集団ダイナミクスの標準的な例と対照的に、特徴的な振る舞いを示すことができる。 これらの挙動は、新しいギャップのない励起の出現、超放射による服装の周波数を特徴とするリミットサイクルの出現、周波数ロックや同期のインスタンス、ダイナミックス内での「エクストラ」次元の導入まで含んでいる。 閉会式では、現代の空洞量子電磁力学(QED)プラットフォームにおける研究結果の潜在的意義について概説する。

We investigate the consequences of introducing non-uniform initial conditions in the dynamics of spin ensembles characterized by all-to-all interactions. Specifically, our study involves the preparation of a set of semi-classical spin ensembles with varying orientations. Through this setup, we explore the influence of such non-uniform initial states on the disruption of permutational invariance. Comparing this approach to the traditional scenario of initializing with spins uniformly aligned, we find that the dynamics of the spin ensemble now spans a more expansive effective Hilbert space. This enlargement arises due to the inclusion of off-diagonal coherences between distinct total angular momentum subspaces - an aspect typically absent in conventional treatments of all-to-all spin dynamics. Conceptually, the dynamic evolution can be understood as a composite of multiple homogeneous sub-ensembles navigating through constrained subspaces. Notably, observables that are sensitive to the non-uniformity of initial conditions exhibit discernible signatures of these off-diagonal coherences. We adopt this fresh perspective to reexamine the relaxation phenomena exhibited by the Dicke model, as well as a prototypical example of a boundary time crystal. Intriguingly, ensembles initialized with inhomogeneous initial conditions can show distinctive behaviors when contrasted with canonical instances of collective dynamics. These behaviors encompass the emergence of novel gapless excitations, the manifestation of limit-cycles featuring dressed frequencies due to superradiance, instances of frequency locking or beating synchronizations, and even the introduction of ``extra'' dimensions within the dynamics. In closing, we provide a brief overview of the potential implications of our findings in the context of modern cavity quantum electrodynamics (QED) platforms.
翻訳日:2023-09-20 13:21:41 公開日:2023-09-19
# 量子情報処理における集団ランダム化計測

Collective randomized measurements in quantum information processing ( http://arxiv.org/abs/2309.10745v1 )

ライセンス: Link先を確認
Satoya Imai, G\'eza T\'oth, Otfried G\"uhne(参考訳) 個々の粒子のランダム化測定の概念は量子系の解析に有用であることが証明されており、量子状態のシャドウトモグラフィーのような手法の中心となっている。 我々は量子情報処理のツールとして$\textit{collective}$ randomized measurementを導入する。 本研究の目的は,量子系上で集団角運動量の測定を行い,同時多角ユニタリを用いて積極的に方向を回転させることである。 結果の確率分布のモーメントに基づいて、集合参照フレーム独立な方法で量子絡みを特徴づける体系的なアプローチを提案する。 まず、このシナリオでは既存のスピンスクイーズ不等式がアクセス可能であることを示す。 次に、2体相関を持つスピンスキーング不等式を超えて、3体相関に基づく絡み合い基準を示す。 最後に,空間分離した2つのアンサンブル間の絡み合いを特徴付ける手法を適用した。

The concept of randomized measurements on individual particles has proven to be useful for analyzing quantum systems and is central for methods like shadow tomography of quantum states. We introduce $\textit{collective}$ randomized measurements as a tool in quantum information processing. Our idea is to perform measurements of collective angular momentum on a quantum system and actively rotate the directions using simultaneous multilateral unitaries. Based on the moments of the resulting probability distribution, we propose systematic approaches to characterize quantum entanglement in a collective-reference-frame-independent manner. First, we show that existing spin-squeezing inequalities can be accessible in this scenario. Next, we present an entanglement criterion based on three-body correlations, going beyond spin-squeezing inequalities with two-body correlations. Finally, we apply our method to characterize entanglement between spatially-separated two ensembles.
翻訳日:2023-09-20 13:21:16 公開日:2023-09-19
# コホモロジーによるベッチ数推定のための量子アルゴリズム

Quantum Algorithm for Estimating Betti Numbers Using a Cohomology Approach ( http://arxiv.org/abs/2309.10800v1 )

ライセンス: Link先を確認
Nhat A. Nghiem, Xianfeng David Gu and Tzu-Chieh Wei(参考訳) トポロジカルデータ分析は大規模データ分析の強力なツールとして登場した。 高次元データは抽象的単純複体を形成し、ホモロジーのツールを使うことで位相的特徴を識別できる。 単純性が与えられたとき、重要な特徴はいわゆるベッチ数である。 ベッチ数を古典的に計算することは、大量のデータとその高次元の可能性のために厄介な作業である。 ベッチ数を推定する既知の量子アルゴリズムはホモロジーに依存しているが、ここではホッジ理論とド・ラムコホモロジーにインスパイアされた「双対」アプローチと、近年の量子アルゴリズムの先進的手法を組み合わせて考える。 我々のコホモロジー法は、既知のホモロジーに基づく量子アルゴリズムと比較して指数的に少ない量子ビットを必要とする比較的単純だがより自然なフレームワークを提供する。 さらに、我々のアルゴリズムは、その$r$-th Betti number $\beta_r$を、実行時間$\mathcal{O}\big( \log(c_r) c_r^2 / (c_r - \beta_r)^2 \delta^2 \big)$で計算することができる。 したがって、与えられた三角多様体の $r$-simplex の数よりも、$r$-thベッチ数がかなり小さいときに最もよく機能する。

Topological data analysis has emerged as a powerful tool for analyzing large-scale data. High-dimensional data form an abstract simplicial complex, and by using tools from homology, topological features could be identified. Given a simplex, an important feature is so-called Betti numbers. Calculating Betti numbers classically is a daunting task due to the massive volume of data and its possible high-dimension. While most known quantum algorithms to estimate Betti numbers rely on homology, here we consider the `dual' approach, which is inspired by Hodge theory and de Rham cohomology, combined with recent advanced techniques in quantum algorithms. Our cohomology method offers a relatively simpler, yet more natural framework that requires exponentially less qubits, in comparison with the known homology-based quantum algorithms. Furthermore, our algorithm can calculate its $r$-th Betti number $\beta_r$ up to some multiplicative error $\delta$ with running time $\mathcal{O}\big( \log(c_r) c_r^2 / (c_r - \beta_r)^2 \delta^2 \big)$, where $c_r$ is the number of $r$-simplex. It thus works best when the $r$-th Betti number is considerably smaller than the number of the $r$-simplex in the given triangulated manifold.
翻訳日:2023-09-20 13:12:53 公開日:2023-09-19
# マルチコンテキストデュアルハイパープライアニューラル画像圧縮

Multi-Context Dual Hyper-Prior Neural Image Compression ( http://arxiv.org/abs/2309.10799v1 )

ライセンス: Link先を確認
Atefeh Khoshkhahtinat, Ali Zafari, Piyush M. Mehta, Mohammad Akyash, Hossein Kashiani, Nasser M. Nasrabadi(参考訳) 変換とエントロピーモデルは、ディープイメージ圧縮ニューラルネットワークの2つのコアコンポーネントである。 既存の学習ベースの画像圧縮手法の多くは畳み込みに基づく変換を使用しており、畳み込み操作の受容領域が限られているため、長距離依存をモデル化する能力が欠けている。 この制限に対処するために, トランスに基づく非線形変換を提案する。 この変換は、入力画像から局所的情報と大域的情報の両方を効率的に捉え、より非相関な潜在表現をもたらす。 さらに、2つの異なるハイパープライヤを組み込んだ新しいエントロピーモデルを導入し、潜在表現のチャネル間および空間依存性をモデル化する。 エントロピーモデルをさらに改善するために,現在の潜在性をより正確に予測するために,遠方関係を利用したグローバルコンテキストを追加する。 このグローバルコンテキストは、コンテンツ依存の方法で長距離情報を抽出する因果的注意機構を用いる。 実験の結果,提案手法は従来の手法よりも高い性能を示すことがわかった。

Transform and entropy models are the two core components in deep image compression neural networks. Most existing learning-based image compression methods utilize convolutional-based transform, which lacks the ability to model long-range dependencies, primarily due to the limited receptive field of the convolution operation. To address this limitation, we propose a Transformer-based nonlinear transform. This transform has the remarkable ability to efficiently capture both local and global information from the input image, leading to a more decorrelated latent representation. In addition, we introduce a novel entropy model that incorporates two different hyperpriors to model cross-channel and spatial dependencies of the latent representation. To further improve the entropy model, we add a global context that leverages distant relationships to predict the current latent more accurately. This global context employs a causal attention mechanism to extract long-range information in a content-dependent manner. Our experiments show that our proposed framework performs better than the state-of-the-art methods in terms of rate-distortion performance.
翻訳日:2023-09-20 13:12:22 公開日:2023-09-19
# 再給油による経路探索のヒューリスティック探索

Heuristic Search for Path Finding with Refuelling ( http://arxiv.org/abs/2309.10796v1 )

ライセンス: Link先を確認
Anushtup Nandy, Zhongqiang Ren, Sivakumar Rathinam, Howie Choset(参考訳) 本稿では,Refuelling Path Finding (RF-PF) 問題と呼ばれる再給油制約を伴うパスファインディング(PF)の一般化について考察する。 PFと同様に、RF-PF問題は、頂点が既知の燃料価格を持つガソリンスタンドであり、エッジコストは対応する頂点間のガス消費に依存するグラフ上で定義される。 RF-PFは、限られたガスタンクと限られた数の燃料補給停止を持つロボットの目標頂点までの最小コストパスを求める。 rf-pfは多項式時間で解くことができるが、ロボットは経路、停止場所、各停止時に燃料を補給する量を同時に決定する必要があるため、実際に最適な解を迅速に計算することは課題である。 本稿では,計画中の状態プルーニングにおける支配ルールを活用するとともに,ヒューリスティック関数によって導かれる解経路を始点からゴールまで反復的に構築する,Refuel A* (RF-A* ) と呼ばれるヒューリスティック探索アルゴリズムを開発する。 RF-A*は最適な解を見つけることが保証されており、数百のガソリンスタンドを持つ大都市マップでテストした場合、既存の最先端(多項式時間アルゴリズム)よりも桁違いに速く動作する。

This paper considers a generalization of the Path Finding (PF) with refueling constraints referred to as the Refuelling Path Finding (RF-PF) problem. Just like PF, the RF-PF problem is defined over a graph, where vertices are gas stations with known fuel prices, and edge costs depend on the gas consumption between the corresponding vertices. RF-PF seeks a minimum-cost path from the start to the goal vertex for a robot with a limited gas tank and a limited number of refuelling stops. While RF-PF is polynomial-time solvable, it remains a challenge to quickly compute an optimal solution in practice since the robot needs to simultaneously determine the path, where to make the stops, and the amount to refuel at each stop. This paper develops a heuristic search algorithm called Refuel A* (RF-A* ) that iteratively constructs partial solution paths from the start to the goal guided by a heuristic function while leveraging dominance rules for state pruning during planning. RF-A* is guaranteed to find an optimal solution and runs more than an order of magnitude faster than the existing state of the art (a polynomial time algorithm) when tested in large city maps with hundreds of gas stations.
翻訳日:2023-09-20 13:12:05 公開日:2023-09-19
# 太陽画像の多スペクトルエントロピー制約ニューラル圧縮

Multi-spectral Entropy Constrained Neural Compression of Solar Imagery ( http://arxiv.org/abs/2309.10791v1 )

ライセンス: Link先を確認
Ali Zafari, Atefeh Khoshkhahtinat, Piyush M. Mehta, Nasser M. Nasrabadi, Barbara J. Thompson, Michael S. F. Kirk, Daniel da Silva(参考訳) 太陽の動的挙動を研究するミッションは、太陽の多重スペクトル画像をキャプチャし、それを日々地上局に送信するために定義される。 伝送を効率よく実現するためには、画像圧縮システムを利用する必要がある。 近年、エンドツーエンドで最適化されたニューラルネットワークベースの画像圧縮システムが成功し、アドホックな手法で使用される可能性が高まっている。 本研究では,イントラ/インター波長の両方の冗長性を効率的に捕捉するトランスベース多スペクトルニューラルイメージ圧縮器を提案する。 ウィンドウ型自己注意機構の局所性を解き明かすために,ウィンドウ間集約トークンのマルチヘッド自己注意を提案する。 さらに、ニューラルネットワーク圧縮機の自動エンコーダシフトを不変にするために、トランスフォーマーブロックを入力領域の翻訳に非感受性にするランダムシフトウィンドウアテンション機構を用いる。 提案手法は, 従来の圧縮アルゴリズムよりも優れるだけでなく, 単一スペクトル圧縮に比べて複数の波長に沿って画像の相関性が向上することを示す。

Missions studying the dynamic behaviour of the Sun are defined to capture multi-spectral images of the sun and transmit them to the ground station in a daily basis. To make transmission efficient and feasible, image compression systems need to be exploited. Recently successful end-to-end optimized neural network-based image compression systems have shown great potential to be used in an ad-hoc manner. In this work we have proposed a transformer-based multi-spectral neural image compressor to efficiently capture redundancies both intra/inter-wavelength. To unleash the locality of window-based self attention mechanism, we propose an inter-window aggregated token multi head self attention. Additionally to make the neural compressor autoencoder shift invariant, a randomly shifted window attention mechanism is used which makes the transformer blocks insensitive to translations in their input domain. We demonstrate that the proposed approach not only outperforms the conventional compression algorithms but also it is able to better decorrelates images along the multiple wavelengths compared to single spectral compression.
翻訳日:2023-09-20 13:11:42 公開日:2023-09-19
# Adaptive Multimodal Rewards を用いたエージェントのガイド

Guide Your Agent with Adaptive Multimodal Rewards ( http://arxiv.org/abs/2309.10790v1 )

ライセンス: Link先を確認
Changyeon Kim, Younggyo Seo, Hao Liu, Lisa Lee, Jinwoo Shin, Honglak Lee, Kimin Lee(参考訳) 見えない環境に適応できるエージェントを開発することは、模倣学習において難しい課題である。 本研究では,自然言語タスク記述と事前学習型マルチモーダルエンコーダを用いて,エージェントの一般化能力を高めるための効率的なフレームワークであるAdaptive Return-conditioned Policy(ARP)を提案する。 我々のキーとなる考え方は、事前訓練されたマルチモーダル埋め込み空間(CLIPなど)における視覚観察と自然言語命令の類似性を計算し、報酬信号として使用することである。 次に、マルチモーダル報酬をラベル付けした専門家によるデモンストレーションを用いて、返却条件付きポリシーを訓練する。 マルチモーダル報酬は各タイミングで適応的な信号を提供するので、ARPはゴールの一般化を効果的に軽減する。 これにより、既存のテキスト条件のポリシーと比較して、目に見えないテキスト命令に直面しても、より優れた一般化性能が得られる。 報酬の質を向上させるため,事前学習したマルチモーダルエンコーダの微調整手法を導入し,さらに性能の向上を図る。 ビデオデモとソースコードは、プロジェクトのWebサイト(https://sites.google.com/view/2023arp)で公開されている。

Developing an agent capable of adapting to unseen environments remains a difficult challenge in imitation learning. In this work, we present Adaptive Return-conditioned Policy (ARP), an efficient framework designed to enhance the agent's generalization ability using natural language task descriptions and pre-trained multimodal encoders. Our key idea is to calculate a similarity between visual observations and natural language instructions in the pre-trained multimodal embedding space (such as CLIP) and use it as a reward signal. We then train a return-conditioned policy using expert demonstrations labeled with multimodal rewards. Because the multimodal rewards provide adaptive signals at each timestep, our ARP effectively mitigates the goal misgeneralization. This results in superior generalization performances even when faced with unseen text instructions, compared to existing text-conditioned policies. To improve the quality of rewards, we also introduce a fine-tuning method for pre-trained multimodal encoders, further enhancing the performance. Video demonstrations and source code are available on the project website: https://sites.google.com/view/2023arp.
翻訳日:2023-09-20 13:11:25 公開日:2023-09-19
# AV-SUPERB:オーディオ映像表現モデルのためのマルチタスク評価ベンチマーク

AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models ( http://arxiv.org/abs/2309.10787v1 )

ライセンス: Link先を確認
Yuan Tseng, Layne Berry, Yi-Ting Chen, I-Hsiang Chiu, Hsuan-Hao Lin, Max Liu, Puyuan Peng, Yi-Jen Shih, Hung-Yu Wang, Haibin Wu, Po-Yao Huang, Chun-Mao Lai, Shang-Wen Li, David Harwath, Yu Tsao, Shinji Watanabe, Abdelrahman Mohamed, Chi-Luen Feng, Hung-yi Lee(参考訳) 聴覚情報と視覚情報との相関を利用して、人間のような知覚を持つシステムを開発することを目的としている。 しかし、現在のモデルは限られたタスクセットに焦点を当てることが多く、学習表現の一般化能力は不明確である。 そこで本研究では,音声・音声処理における5つの視覚的タスクをカバーする7つのデータセットに対して,音声・視覚・バイモーダル融合表現の汎用的評価を可能にするAV-SUPERBベンチマークを提案する。 我々は,最近の5つの自己教師型モデルを評価し,これらのモデルがすべてのタスクに一般化されず,今後のユニバーサルモデルの性能向上研究の必要性を強調した。 さらに,中間タスクの微調整やオーディオセットによる音声イベントの分類が,強い中間タスクとして機能することを示す。 評価コードとモデル提出プラットフォームを備えたベンチマークをリリースし,視聴覚学習のさらなる研究を奨励する。

Audio-visual representation learning aims to develop systems with human-like perception by utilizing correlation between auditory and visual information. However, current models often focus on a limited set of tasks, and generalization abilities of learned representations are unclear. To this end, we propose the AV-SUPERB benchmark that enables general-purpose evaluation of unimodal audio/visual and bimodal fusion representations on 7 datasets covering 5 audio-visual tasks in speech and audio processing. We evaluate 5 recent self-supervised models and show that none of these models generalize to all tasks, emphasizing the need for future study on improving universal model performance. In addition, we show that representations may be improved with intermediate-task fine-tuning and audio event classification with AudioSet serves as a strong intermediate task. We release our benchmark with evaluation code and a model submission platform to encourage further research in audio-visual learning.
翻訳日:2023-09-20 13:11:06 公開日:2023-09-19
# 太陽ダイナミクス観測におけるコンテキスト対応ニューラルビデオ圧縮

Context-Aware Neural Video Compression on Solar Dynamics Observatory ( http://arxiv.org/abs/2309.10784v1 )

ライセンス: Link先を確認
Atefeh Khoshkhahtinat, Ali Zafari, Piyush M. Mehta, Nasser M. Nasrabadi, Barbara J. Thompson, Michael S. F. Kirk, Daniel da Silva(参考訳) NASAのソーラー・ダイナミクス・オブザーバトリー(SDO)ミッションは、太陽の日常活動の大量のデータを収集する。 データ圧縮は、データの冗長性を排除し、データストレージとビデオ帯域幅の要求を減らすために、宇宙ミッションにとって不可欠である。 本稿では,SDO画像に特化して設計されたニューラルトランスフォーマーに基づくビデオ圧縮手法を提案する。 我々の主な目的は、太陽画像に固有の時間的・空間的冗長性を利用して高い圧縮比を得ることである。 提案するアーキテクチャは、ウィンドウベースのセルフアテンションモジュールと効率的なファステッドローカルアウェアフィードフォワード(flaff)ネットワークを組み込んだ、fused local-aware window(flawin)と呼ばれる新しいトランスフォーマーブロックの利点である。 このアーキテクチャ設計により、リッチで多様なコンテキスト表現の抽出を容易にしながら、短距離と長距離の情報を同時に取得することができます。 さらに、この設計選択は計算複雑性を減少させる。 実験の結果,h.264やh.265といった従来のハンドエンジニアリングビデオコーデックよりも,圧縮性能にひび割れ変圧器ブロックが有意な寄与を示した。

NASA's Solar Dynamics Observatory (SDO) mission collects large data volumes of the Sun's daily activity. Data compression is crucial for space missions to reduce data storage and video bandwidth requirements by eliminating redundancies in the data. In this paper, we present a novel neural Transformer-based video compression approach specifically designed for the SDO images. Our primary objective is to efficiently exploit the temporal and spatial redundancies inherent in solar images to obtain a high compression ratio. Our proposed architecture benefits from a novel Transformer block called Fused Local-aware Window (FLaWin), which incorporates window-based self-attention modules and an efficient fused local-aware feed-forward (FLaFF) network. This architectural design allows us to simultaneously capture short-range and long-range information while facilitating the extraction of rich and diverse contextual representations. Moreover, this design choice results in reduced computational complexity. Experimental results demonstrate the significant contribution of the FLaWin Transformer block to the compression performance, outperforming conventional hand-engineered video codecs such as H.264 and H.265 in terms of rate-distortion trade-off.
翻訳日:2023-09-20 13:10:51 公開日:2023-09-19
# メディアとしての言語:テキストのみによるマルチモーダルビデオ分類

Language as the Medium: Multimodal Video Classification through text only ( http://arxiv.org/abs/2309.10783v1 )

ライセンス: Link先を確認
Laura Hanu, Anita L. Ver\H{o}, James Thewlis(参考訳) マルチモーダル機械学習モデルのエキサイティングな新しい波にもかかわらず、現在のアプローチでは、ビデオに存在するさまざまなモダリティ間の複雑なコンテキスト関係の解釈に苦慮している。 単純なアクティビティやオブジェクトを強調する既存の手法を超えて、マルチモーダル映像情報をキャプチャする詳細なテキスト記述を生成するためのモデルに依存しないアプローチを提案する。 本稿では, GPT-3.5 や Llama2 などの大規模言語モデルを用いて,BLIP-2, Whisper および ImageBind から得られた視覚的・聴覚的モダリティのテキスト記述を解析する。 ビデオテキストモデルやデータセットのさらなる微調整を必要とせず、利用可能なllmは、これらのマルチモーダルテキスト記述を ``sight'' や ``hearing'' のプロキシとして使用し、コンテキスト内のビデオのゼロショットマルチモーダル分類を行うことができることを実証する。 UCF-101 や Kinetics などの一般的な行動認識ベンチマークによる評価は,これらの文脈に富んだ記述をビデオ理解タスクでうまく利用できることを示す。 この手法はマルチモーダル分類における有望な新しい研究方向を示し、テキスト、視覚、聴覚の機械学習モデル間の相互作用がより総合的なビデオ理解を可能にすることを示す。

Despite an exciting new wave of multimodal machine learning models, current approaches still struggle to interpret the complex contextual relationships between the different modalities present in videos. Going beyond existing methods that emphasize simple activities or objects, we propose a new model-agnostic approach for generating detailed textual descriptions that captures multimodal video information. Our method leverages the extensive knowledge learnt by large language models, such as GPT-3.5 or Llama2, to reason about textual descriptions of the visual and aural modalities, obtained from BLIP-2, Whisper and ImageBind. Without needing additional finetuning of video-text models or datasets, we demonstrate that available LLMs have the ability to use these multimodal textual descriptions as proxies for ``sight'' or ``hearing'' and perform zero-shot multimodal classification of videos in-context. Our evaluations on popular action recognition benchmarks, such as UCF-101 or Kinetics, show these context-rich descriptions can be successfully used in video understanding tasks. This method points towards a promising new research direction in multimodal classification, demonstrating how an interplay between textual, visual and auditory machine learning models can enable more holistic video understanding.
翻訳日:2023-09-20 13:10:28 公開日:2023-09-19
# 誰でも使える感情コンピューティングを目指して

Towards affective computing that works for everyone ( http://arxiv.org/abs/2309.10780v1 )

ライセンス: Link先を確認
Tessa Verhoef and Eduard Fosch-Villaronga(参考訳) 情緒計算データセットにおける多様性、公平性、および包含要素の欠如は、異なるグループにわたる感情認識アルゴリズムの正確性と公平性に直接影響を及ぼす。 文献レビューでは、顔の表情や話し方、年齢による顔の外観や健康の変化など、さまざまなグループに対して、情緒的コンピューティングシステムがいかに異なる働きをするかを説明している。 本研究は,既存の情動計算データセットを分析し,人種・性別・性別・年齢・健康表現に関する現在の情動計算データセットにおける多様性の欠如を浮き彫りにする。 本論文は、データセットにおけるより包括的サンプリング戦略と人口統計因子の標準化文書の必要性を強調することにより、この新興分野における倫理的かつ正確な結果を促進するために、情緒的コンピューティング研究における傾倒と社会的帰結に対するより深い注意を喚起する。

Missing diversity, equity, and inclusion elements in affective computing datasets directly affect the accuracy and fairness of emotion recognition algorithms across different groups. A literature review reveals how affective computing systems may work differently for different groups due to, for instance, mental health conditions impacting facial expressions and speech or age-related changes in facial appearance and health. Our work analyzes existing affective computing datasets and highlights a disconcerting lack of diversity in current affective computing datasets regarding race, sex/gender, age, and (mental) health representation. By emphasizing the need for more inclusive sampling strategies and standardized documentation of demographic factors in datasets, this paper provides recommendations and calls for greater attention to inclusivity and consideration of societal consequences in affective computing research to promote ethical and accurate outcomes in this emerging field.
翻訳日:2023-09-20 13:10:02 公開日:2023-09-19
# EU法と感情データ

EU law and emotion data ( http://arxiv.org/abs/2309.10776v1 )

ライセンス: Link先を確認
Andreas Hauselmann, Alan M. Sears, Lex Zard and Eduard Fosch-Villaronga(参考訳) この記事では、EUの法的枠組みにおける感情データ処理に関する法的意味と課題について説明する。 感情データに敏感な性質があるにもかかわらず、GDPRはそれを特別なデータとして分類していないため、包括的な保護が欠如している。 この記事では、感情コンピューティングに対する様々なアプローチのニュアンスと、GDPRの下での特殊データの処理との関連についても論じる。 さらに、公平性や正確性など、データ保護原則による潜在的な緊張関係も指摘する。 私たちの記事では、感情データの処理が個人に与える影響など、いくつかの結果も強調しています。 さらに、AI法の提案が情緒的コンピューティングを規制する意図について論じる。 最後に,感情データを活用したオンラインプラットフォームに対して,dsaが導入した新たな義務と透明性要件について概説する。 本稿は、EU市場向けのACシステムを開発する場合や、EU内の研究参加者と連携する場合の法的要件について、情緒的コンピューティングコミュニティの意識を高めることを目的としている。 我々はまた、法が機密性のある感情データを取得する技術開発に追随している場合でも、個人の基本的権利を保護することの重要性を強調します。

This article sheds light on legal implications and challenges surrounding emotion data processing within the EU's legal framework. Despite the sensitive nature of emotion data, the GDPR does not categorize it as special data, resulting in a lack of comprehensive protection. The article also discusses the nuances of different approaches to affective computing and their relevance to the processing of special data under the GDPR. Moreover, it points to potential tensions with data protection principles, such as fairness and accuracy. Our article also highlights some of the consequences, including harm, that processing of emotion data may have for individuals concerned. Additionally, we discuss how the AI Act proposal intends to regulate affective computing. Finally, the article outlines the new obligations and transparency requirements introduced by the DSA for online platforms utilizing emotion data. Our article aims at raising awareness among the affective computing community about the applicable legal requirements when developing AC systems intended for the EU market, or when working with study participants located in the EU. We also stress the importance of protecting the fundamental rights of individuals even when the law struggles to keep up with technological developments that capture sensitive emotion data.
翻訳日:2023-09-20 13:09:46 公開日:2023-09-19
# SlimPajama-DC: LLMトレーニングのためのデータ組み合わせを理解する

SlimPajama-DC: Understanding Data Combinations for LLM Training ( http://arxiv.org/abs/2309.10818v1 )

ライセンス: Link先を確認
Zhiqiang Shen and Tianhua Tao and Liqun Ma and Willie Neiswanger and Joel Hestness and Natalia Vassilieva and Daria Soboleva and Eric Xing(参考訳) 本稿では,SlimPajamaを用いた大規模言語モデルの学習における各種データの組み合わせ(Webテキスト,wikipedia,github,書籍など)の影響を理解することを目的とする。 SlimPajamaは厳格に非重複化されたマルチソースデータセットで、共用する1.2TトークンのRedPajamaデータセットから627Bトークンに切り離された。 SlimPajama-DCは、大規模な言語モデルのトレーニングにSlimPajamaを採用する際の基本的な特徴とベストプラクティスを明らかにするための実証分析です。 slimpajamaを用いた研究で,(1)グローバル重複と局所重複の2つの重要な観察が得られた。 我々は、グローバル(データセットのさまざまなソース)とローカル(データセットの単一ソース)の重複が、トレーニングされたモデルのパフォーマンスにどのように影響するかを分析し、議論する。 2) 組み合わさった高品質・高精度なマルチソースデータセットの提案 そこで本研究では,SlimPajamaデータセットの6つの構成を構築し,AlibiとSwiGLUを用いた1.3B Cerebras-GPTモデルを用いて個々の構成を訓練する。 私たちの最高の構成は、RedPajamaでトレーニングされた1.3Bモデルで、同じ数のトレーニングトークンをかなりのマージンでパフォーマンスします。 すべての1.3bモデルは、bf16混合精度で合計80pflop/sのcerebras 16$\times$ cs-2クラスタでトレーニングされています。 大規模なバッチサイズトレーニングを備えた7Bモデル上での発見をさらに拡張する(例えば、グローバルデデューケーション後のデータの多様性の向上は不可欠である)。 私たちのモデルとSlimPajama-DCデータセットは、https://huggingface.co/MBzuAI-LLMとhttps://huggingface.co/datasets/cerebras/SlimPajama-627Bで利用可能です。

This paper aims to understand the impacts of various data combinations (e.g., web text, wikipedia, github, books) on the training of large language models using SlimPajama. SlimPajama is a rigorously deduplicated, multi-source dataset, which has been refined and further deduplicated to 627B tokens from the extensive 1.2T tokens RedPajama dataset contributed by Together. We've termed our research as SlimPajama-DC, an empirical analysis designed to uncover fundamental characteristics and best practices associated with employing SlimPajama in the training of large language models. During our research with SlimPajama, two pivotal observations emerged: (1) Global deduplication vs. local deduplication. We analyze and discuss how global (across different sources of datasets) and local (within the single source of dataset) deduplications affect the performance of trained models. (2) Proportions of high-quality/highly-deduplicated multi-source datasets in the combination. To study this, we construct six configurations of SlimPajama dataset and train individual ones using 1.3B Cerebras-GPT model with Alibi and SwiGLU. Our best configuration outperforms the 1.3B model trained on RedPajama using the same number of training tokens by a significant margin. All our 1.3B models are trained on Cerebras 16$\times$ CS-2 cluster with a total of 80 PFLOP/s in bf16 mixed precision. We further extend our discoveries (such as increasing data diversity is crucial after global deduplication) on a 7B model with large batch-size training. Our models and the separate SlimPajama-DC datasets are available at: https://huggingface.co/MBZUAI-LLM and https://huggingface.co/datasets/cerebras/SlimPajama-627B.
翻訳日:2023-09-20 13:03:46 公開日:2023-09-19
# 雑音拡散確率モデルによる空間文脈再現能力の評価

Assessing the capacity of a denoising diffusion probabilistic model to reproduce spatial context ( http://arxiv.org/abs/2309.10817v1 )

ライセンス: Link先を確認
Rucha Deshpande, Muzaffer \"Ozbey, Hua Li, Mark A. Anastasio, Frank J. Brooks(参考訳) 拡散モデルは、深層生成モデル(DGM)の一般的なファミリーとして登場した。 文献では、拡散確率モデル(DDPM)の1種類の拡散モデルが、生成的敵ネットワーク(GAN)に比べて優れた画像合成性能を示すことが主張されている。 これまでこれらの主張は、自然画像用に設計されたアンサンブルに基づく方法か、従来の構造的類似性などの画質の尺度を用いて評価されてきた。 しかし,本研究では,ddpmが「空間的文脈」と呼ばれる医用画像情報を確実に学習できるかどうかを理解するための重要なニーズが残されている。 これを解決するために,DDPMが医療画像アプリケーションに関連する空間的コンテキストを学習する能力の体系的評価を初めて報告した。 研究の重要な側面は、確率的文脈モデル(scms)を使用してトレーニングデータを生成することである。 このようにして、DDPMが空間コンテキストを確実に再現する能力は、ポストホック画像解析を用いて定量的に評価することができる。 DDPM生成アンサンブルの誤り率を報告し, 現代のガンに対応するアンサンブルと比較した。 本研究は,空間文脈学習におけるDDPMの能力に関する新たな重要な知見を明らかにする。 特に、DDPMはトレーニングサンプル間で '補間' された文脈的に正しい画像を生成する能力を有しており、GANができない方法でデータ拡張タスクに役立つ可能性がある。

Diffusion models have emerged as a popular family of deep generative models (DGMs). In the literature, it has been claimed that one class of diffusion models -- denoising diffusion probabilistic models (DDPMs) -- demonstrate superior image synthesis performance as compared to generative adversarial networks (GANs). To date, these claims have been evaluated using either ensemble-based methods designed for natural images, or conventional measures of image quality such as structural similarity. However, there remains an important need to understand the extent to which DDPMs can reliably learn medical imaging domain-relevant information, which is referred to as `spatial context' in this work. To address this, a systematic assessment of the ability of DDPMs to learn spatial context relevant to medical imaging applications is reported for the first time. A key aspect of the studies is the use of stochastic context models (SCMs) to produce training data. In this way, the ability of the DDPMs to reliably reproduce spatial context can be quantitatively assessed by use of post-hoc image analyses. Error-rates in DDPM-generated ensembles are reported, and compared to those corresponding to a modern GAN. The studies reveal new and important insights regarding the capacity of DDPMs to learn spatial context. Notably, the results demonstrate that DDPMs hold significant capacity for generating contextually correct images that are `interpolated' between training samples, which may benefit data-augmentation tasks in ways that GANs cannot.
翻訳日:2023-09-20 13:03:13 公開日:2023-09-19
# panopticnerf-360:パノラマ3dから2dへのラベル転送

PanopticNeRF-360: Panoramic 3D-to-2D Label Transfer in Urban Scenes ( http://arxiv.org/abs/2309.10815v1 )

ライセンス: Link先を確認
Xiao Fu, Shangzhan Zhang, Tianrun Chen, Yichong Lu, Xiaowei Zhou, Andreas Geiger, Yiyi Liao(参考訳) 自動運転車の認識システムの訓練には、相当なアノテーションが必要である。 しかし、手作業による2d画像のラベリングは非常に手間がかかる。 既存のデータセットは事前記録されたシーケンスに対してリッチなアノテーションを提供するが、めったに遭遇しない視点のラベル付けには不足しており、知覚モデルの一般化能力を妨げる可能性がある。 本稿では,粗い3dアノテーションとノイズの多い2d意味的手がかりを組み合わせた新しいアプローチであるpanopticnerf-360を提案する。 我々の重要な洞察は、幾何学と意味論を相互に強化するために、3Dと2Dの先行の相補性を利用することである。 具体的には,3次元空間と2次元空間の両方でノイズの多いセマンティクスラベルとインスタンスラベルを活用し,幾何最適化を導くことを提案する。 同時に、改良された幾何学は3Dおよび2Dアノテーションに存在するノイズを、学習されたセマンティックフィールドを介して3D空間にマージすることでフィルタリングする。 外観をさらに高めるため,MLPとハッシュグリッドを組み合わせることでハイブリッドシーンの特徴を生み出し,高周波の外観と主に連続した意味論のバランスを崩す。 実験では,KITTI-360データセットの都市環境における既存のラベル転送方式に対して,PanopticNeRF-360の最先端性能を実証した。 さらに、PanopticNeRF-360は高忠実度、多視点、時空間的に一貫した外観、セマンティック、インスタンスラベルを全方向レンダリングできる。 コードとデータはhttps://github.com/fuxiao0719/panopticnerfで利用可能です。

Training perception systems for self-driving cars requires substantial annotations. However, manual labeling in 2D images is highly labor-intensive. While existing datasets provide rich annotations for pre-recorded sequences, they fall short in labeling rarely encountered viewpoints, potentially hampering the generalization ability for perception models. In this paper, we present PanopticNeRF-360, a novel approach that combines coarse 3D annotations with noisy 2D semantic cues to generate consistent panoptic labels and high-quality images from any viewpoint. Our key insight lies in exploiting the complementarity of 3D and 2D priors to mutually enhance geometry and semantics. Specifically, we propose to leverage noisy semantic and instance labels in both 3D and 2D spaces to guide geometry optimization. Simultaneously, the improved geometry assists in filtering noise present in the 3D and 2D annotations by merging them in 3D space via a learned semantic field. To further enhance appearance, we combine MLP and hash grids to yield hybrid scene features, striking a balance between high-frequency appearance and predominantly contiguous semantics. Our experiments demonstrate PanopticNeRF-360's state-of-the-art performance over existing label transfer methods on the challenging urban scenes of the KITTI-360 dataset. Moreover, PanopticNeRF-360 enables omnidirectional rendering of high-fidelity, multi-view and spatiotemporally consistent appearance, semantic and instance labels. We make our code and data available at https://github.com/fuxiao0719/PanopticNeRF
翻訳日:2023-09-20 13:02:48 公開日:2023-09-19
# ハイブリッド言語シンボリック推論のための自然言語組込みプログラム

Natural Language Embedded Programs for Hybrid Language Symbolic Reasoning ( http://arxiv.org/abs/2309.10814v1 )

ライセンス: Link先を確認
Tianhua Zhang, Jiaxin Ge, Hongyin Luo, Yung-Sung Chuang, Mingye Gao, Yuan Gong, Xixin Wu, Yoon Kim, Helen Meng, James Glass(参考訳) 記号的および数値的推論を必要とするタスクを解決するために、自然言語表現上でどのように計算を実行できるのか? 本研究では,数学・記号的推論,自然言語理解,命令追従タスクの統一フレームワークとして,自然言語組み込みプログラム(NLEP)を提案する。 我々のアプローチは,構造化知識の自然言語表現を含むデータ構造上の関数を定義する完全なPythonプログラムを生成するよう,言語モデルに促す。 Pythonインタープリタが生成されたコードを実行し、出力をプリントする。 タスク・ジェネラル・プロンプトを用いても,本手法は数学や記号的推論,テキスト分類,質問応答,指示追従といった様々なタスクにおいて,強いベースラインを改善することができる。 さらに, 生成したプログラムは解釈可能であり, 中間的推論ステップのポストホック検証を可能にする。

How can we perform computations over natural language representations to solve tasks that require symbolic and numeric reasoning? We propose natural language embedded programs (NLEP) as a unifying framework for addressing math/symbolic reasoning, natural language understanding, and instruction following tasks. Our approach prompts a language model to generate full Python programs that define functions over data structures which contain natural language representations of structured knowledge. A Python interpreter then executes the generated code and prints the output. Despite using a task-general prompt, we find that this approach can improve upon strong baselines across a range of different tasks including math and symbolic reasoning, text classification, question answering, and instruction following. We further find the generated programs are often interpretable and enable post-hoc verification of the intermediate reasoning steps.
翻訳日:2023-09-20 13:02:21 公開日:2023-09-19
# 物理・数学・計算機科学における学際相互作用のモデル化

Modeling interdisciplinary interactions among Physics, Mathematics & Computer Science ( http://arxiv.org/abs/2309.10811v1 )

ライセンス: Link先を確認
Rima Hazra, Mayank Singh, Pawan Goyal, Bibhas Adhikari and Animesh Mukherjee(参考訳) 近年、学際性は極めて重要となり、最先端の研究を行う重要な方法の1つとなっている。 本稿では、物理学(phy)、数学(ma)、計算機科学(cs)の3つの分野を横断する引用フローをモデル化する。 例えば、これらのフィールドが互いに引用する特定のパターンがありますか? これら3つの分野から120万以上の記事からなるデータセットについて実験を行った。 我々は,これら3つのフィールド間の引用相互作用を時間的バケットシグネチャを通じて定量化する。 本稿では,最近提案されたリレーリンクフレームワークの変種に基づく数値モデルを提案する。 これらのモデルは、3つの分野にまたがってどのように引用リンクが形成されるかという基本的な原則を明らかにするために控えめな試みをしている。

Interdisciplinarity has over the recent years have gained tremendous importance and has become one of the key ways of doing cutting edge research. In this paper we attempt to model the citation flow across three different fields -- Physics (PHY), Mathematics (MA) and Computer Science (CS). For instance, is there a specific pattern in which these fields cite one another? We carry out experiments on a dataset comprising more than 1.2 million articles taken from these three fields. We quantify the citation interactions among these three fields through temporal bucket signatures. We present numerical models based on variants of the recently proposed relay-linking framework to explain the citation dynamics across the three disciplines. These models make a modest attempt to unfold the underlying principles of how citation links could have been formed across the three fields over time.
翻訳日:2023-09-20 13:02:06 公開日:2023-09-19
# PGDiff:部分誘導による顔修復のための拡散モデル

PGDiff: Guiding Diffusion Models for Versatile Face Restoration via Partial Guidance ( http://arxiv.org/abs/2309.10810v1 )

ライセンス: Link先を確認
Peiqing Yang, Shangchen Zhou, Qingyi Tao, Chen Change Loy(参考訳) 修復のための事前訓練された拡散モデルの作成は、近年、従来のタスク固有のトレーニングアプローチの代替として好まれている。 これまでの研究は、明確な劣化モデルを用いて解空間を制限することで、注目すべき成功を収めてきた。 しかし、これらの手法は、一般的に正確にモデル化できない複雑な劣化に直面した場合には、しばしば不足する。 本稿では,既存の作品と比較して現実の劣化に適応可能な新しい視点である部分的ガイダンスを導入することでPGDiffを提案する。 劣化過程を具体的に定義するのではなく、画像構造や高品質画像の色統計などの望ましい特性をモデル化し、逆拡散過程においてこのガイダンスを適用する。 これらの性質は容易に利用でき、劣化過程について仮定することはない。 拡散前処理と組み合わせると、この部分的指導は様々な修復作業を通して魅力的な結果をもたらすことができる。 さらに、PGDiffは、複数の高品質な画像特性を統合し、各タスクからのガイダンスを統合することで、複合タスクを処理するように拡張することができる。 実験結果から,本手法は既存の拡散優先手法に勝るだけでなく,タスク固有モデルと良好に競合することが示された。

Exploiting pre-trained diffusion models for restoration has recently become a favored alternative to the traditional task-specific training approach. Previous works have achieved noteworthy success by limiting the solution space using explicit degradation models. However, these methods often fall short when faced with complex degradations as they generally cannot be precisely modeled. In this paper, we propose PGDiff by introducing partial guidance, a fresh perspective that is more adaptable to real-world degradations compared to existing works. Rather than specifically defining the degradation process, our approach models the desired properties, such as image structure and color statistics of high-quality images, and applies this guidance during the reverse diffusion process. These properties are readily available and make no assumptions about the degradation process. When combined with a diffusion prior, this partial guidance can deliver appealing results across a range of restoration tasks. Additionally, PGDiff can be extended to handle composite tasks by consolidating multiple high-quality image properties, achieved by integrating the guidance from respective tasks. Experimental results demonstrate that our method not only outperforms existing diffusion-prior-based approaches but also competes favorably with task-specific models.
翻訳日:2023-09-20 13:01:53 公開日:2023-09-19
# セマンティックテキスト圧縮による分類

Semantic Text Compression for Classification ( http://arxiv.org/abs/2309.10809v1 )

ライセンス: Link先を確認
Emrecan Kutay and Aylin Yener(参考訳) 本研究では,テキストに含まれる意味をソースデコーダに伝達するテキストのセマンティック圧縮について検討する。 正確な再構築を必要とせずに意味を回復するアプローチに移行する主な動機は、保存と他のノードへの情報伝達の両方において、潜在的なリソース節約である。 そこで本論文では,文の埋め込みと意味的歪み量を用いて意味を保存し,意味の量子化と圧縮手法を提案する。 提案手法は, 意味論的ベースラインに比べて, メッセージ表現に必要なビット数を大幅に削減し, 精度の低下を極端に軽減することを示した。 提案手法の結果を比較し,セマンティッククラスタリングにより,セマンティック量子化によって実現されるリソースの節約がさらに増幅されることを示した。 重要なことは、さまざまなコンテキストのベンチマークテキスト分類データセットに優れた結果をもたらす提案手法の一般化性を観察することである。

We study semantic compression for text where meanings contained in the text are conveyed to a source decoder, e.g., for classification. The main motivator to move to such an approach of recovering the meaning without requiring exact reconstruction is the potential resource savings, both in storage and in conveying the information to another node. Towards this end, we propose semantic quantization and compression approaches for text where we utilize sentence embeddings and the semantic distortion metric to preserve the meaning. Our results demonstrate that the proposed semantic approaches result in substantial (orders of magnitude) savings in the required number of bits for message representation at the expense of very modest accuracy loss compared to the semantic agnostic baseline. We compare the results of proposed approaches and observe that resource savings enabled by semantic quantization can be further amplified by semantic clustering. Importantly, we observe the generalizability of the proposed methodology which produces excellent results on many benchmark text classification datasets with a diverse array of contexts.
翻訳日:2023-09-20 13:01:36 公開日:2023-09-19
# AI Foundation Models for Weather and Climate: Applications, Design, and implementation

AI Foundation Models for Weather and Climate: Applications, Design, and Implementation ( http://arxiv.org/abs/2309.10808v1 )

ライセンス: Link先を確認
S. Karthik Mukkavilli, Daniel Salles Civitarese, Johannes Schmude, Johannes Jakubik, Anne Jones, Nam Nguyen, Christopher Phillips, Sujit Roy, Shraddha Singh, Campbell Watson, Raghu Ganti, Hendrik Hamann, Udaysankar Nair, Rahul Ramachandran, Kommy Weldemariam(参考訳) 機械学習と深層学習は、大気のカオス的な振る舞いを理解し、天気予報を促進するために広く研究されてきた。 テクノロジー企業、政府機関、気象庁から、地球のデジタル双生児建設への関心が高まっている。 変換器、物理インフォームド機械学習、グラフニューラルネットワークを用いた最近のアプローチは、比較的狭い時空間スケールと特定のタスクに対して最先端の性能を示す。 言語モデリングとビジョンのための事前学習されたトランスフォーマーと、迅速なエンジニアリングと微調整のためのAI(Generative AI)の成功により、私たちは現在、一般化可能なAIに向かっています。 特に、複数のドメイン固有の下流タスクで競争力のあるAI基盤モデルの台頭を目撃しています。 この進歩にもかかわらず、我々は地球システムモデル、地域気候モデル、メソスケール気象モデルのための一般化可能なAIモデルの初期段階にある。 本稿では, 気象学におけるトランスフォーマーとオペレーターの学習文献を中心に, 最先端のaiアプローチについて概説する。 気象・気候予報の概況予測のための基盤モデル群に対して, 成功基準に関する視点を提示する。 また, ダウンスケーリング (超高分解能) や山火事発生に伴う条件の特定, ハリケーンや大気圧など様々な時空間スケールでの連続気象現象の予測など, 下流の課題に対して, どのように競争力を発揮するかについても論じる。 特に,現在のAI手法について検討し,気象基礎モデルの設計と実装に十分な成熟度を示した。

Machine learning and deep learning methods have been widely explored in understanding the chaotic behavior of the atmosphere and furthering weather forecasting. There has been increasing interest from technology companies, government institutions, and meteorological agencies in building digital twins of the Earth. Recent approaches using transformers, physics-informed machine learning, and graph neural networks have demonstrated state-of-the-art performance on relatively narrow spatiotemporal scales and specific tasks. With the recent success of generative artificial intelligence (AI) using pre-trained transformers for language modeling and vision with prompt engineering and fine-tuning, we are now moving towards generalizable AI. In particular, we are witnessing the rise of AI foundation models that can perform competitively on multiple domain-specific downstream tasks. Despite this progress, we are still in the nascent stages of a generalizable AI model for global Earth system models, regional climate models, and mesoscale weather models. Here, we review current state-of-the-art AI approaches, primarily from transformer and operator learning literature in the context of meteorology. We provide our perspective on criteria for success towards a family of foundation models for nowcasting and forecasting weather and climate predictions. We also discuss how such models can perform competitively on downstream tasks such as downscaling (super-resolution), identifying conditions conducive to the occurrence of wildfires, and predicting consequential meteorological phenomena across various spatiotemporal scales such as hurricanes and atmospheric rivers. In particular, we examine current AI methodologies and contend they have matured enough to design and implement a weather foundation model.
翻訳日:2023-09-20 13:01:20 公開日:2023-09-19
# チャネルの整合性を考慮した動的写像のCPディバイザビリティの関連

Relating CP divisibility of dynamical maps with compatibility of channels ( http://arxiv.org/abs/2309.10806v1 )

ライセンス: Link先を確認
Arindam Mitra, Debashis Saha, Samyadeb Bhattacharya, and A. S. Majumdar(参考訳) 情報理論の課題に有用な資源として,CP-indivisibilityと非互換性が果たす役割は広く認識されている。 本研究ではcp分割性とチャネル互換性の関係について考察する。 本研究は,一対の一般力学写像に対する量子チャネルの不整合性の挙動に着目した。 本研究では,一対の一般CP分割動的写像に対して,チャネルの不整合性は単調に増加しないことを示す。 我々は,いくつかの動的マップに時間とともに不整合性ロバスト性の挙動を明示的に研究し,CP非可分な状態において非単調な挙動を見出した。 さらに,量子チャネルの不整合性に基づくCPの可視性の尺度を提案する。 本研究は,量子力学マップの性質とその情報理論応用への応用に関する貴重な知見を提供する。

The role of CP-indivisibility and incompatibility as valuable resources for various information-theoretic tasks is widely acknowledged. This study delves into the intricate relationship between CP-divisibility and channel compatibility. Our investigation focuses on the behaviour of incompatibility robustness of quantum channels for a pair of generic dynamical maps. We show that the incompatibility robustness of channels is monotonically non-increasing for a pair of generic CP-divisible dynamical maps. We have explicitly studied the behaviour of incompatibility robustness with time for some specific dynamical maps and found non-monotonic behaviour in the CP-indivisible regime. Additionally, we propose a measure of CP-indivisibility based on the incompatibility robustness of quantum channels. Our investigation provides valuable insights into the nature of quantum dynamical maps and their relevance in information-theoretic applications.
翻訳日:2023-09-20 13:00:52 公開日:2023-09-19
# ライドバーグ原子アンサンブルに基づく連続波単一光子スイッチ

Continuous wave single photon switch based on a Rydberg atom ensemble ( http://arxiv.org/abs/2309.10804v1 )

ライセンス: Link先を確認
Iason Tsiamis, Oleksandr Kyriienko, Anders S. S{\o}rensen(参考訳) 我々は、ファンデルワールス相互作用を介して相互作用するライドバーグ原子に基づく光単一光子スイッチを提案する。 弱いコヒーレント場は原子雲を連続的にプローブし、単一の光子がリドベルク状態に励起すると、電磁誘導透過性の条件を破り、反射/透過を変化させる。 この装置の2つのバージョンが提案され、1つは片側空洞、もう1つは自由空間である。 提案装置は、量子光操作と光子読み取りのためのツールキットを拡張し、以前に実証された単一光子トランジスタの連続波バージョンを表す。

We propose an optical single-photon switch based on Rydberg atoms that interact through van der Waals interactions. A weak coherent field probes the atomic cloud continuously, and when a single photon excites a Rydberg state, it breaks the conditions for electromagnetically induced transparency, altering the reflection/transmission. Two versions of the device are proposed, one in a single-sided cavity and the other in free space. The proposed device extends the toolkit for quantum light manipulation and photon readout, and represents a continuous wave version of previously demonstrated single-photon transistors.
翻訳日:2023-09-20 13:00:40 公開日:2023-09-19
# 教師なし人物再同定のためのハードスケルトンマイニングを用いた階層的骨格メタプロトタイプコントラスト学習

Hierarchical Skeleton Meta-Prototype Contrastive Learning with Hard Skeleton Mining for Unsupervised Person Re-Identification ( http://arxiv.org/abs/2307.12917v4 )

ライセンス: Link先を確認
Haocong Rao, Cyril Leung, Chunyan Miao(参考訳) 深度センサーと深度学習の急速な進歩により、骨格に基づく人物再識別(re-ID)モデルは近年、多くの利点で顕著な進歩を遂げている。 既存のソリューションのほとんどは、同一の骨格の重要性を前提として、身体関節から単一レベルの骨格特徴を学習するが、通常、よりグローバルな身体パターンを持つ肢レベルのような様々なレベルからより有用な骨格特徴を活用できない。 これらの手法のラベル依存性は、より一般的な骨格表現を学ぶ際の柔軟性を制限している。 本稿では,HSM(Hard Skeleton Mining)を用いた階層型非教師付きメタプロトタイプコントラストラーニング(Hi-MPC)手法を提案する。 まず,骨格の階層的表現を構築し,身体関節,構成要素,四肢のレベルから体と運動の特徴をモデル化する。 その後、階層的なメタプロトタイプコントラスト学習モデルが提案され、異なるレベルの骨格から最も典型的な骨格の特徴(プロトタイプ)をクラスタリングし、対比する。 原原型を複数の同種変換を伴うメタプロトタイプに変換することにより,原型固有の一貫性を学習し,人体再IDのより効果的な骨格特徴を捉える。 さらに, 各骨格の情報的重要性を適応的に推測し, より識別的な骨格表現を学習するために, 硬い骨格のマイニング機構を考案した。 5つのデータセットに関する広範な評価は、我々のアプローチが様々な最先端のスケルトンベース手法よりも優れていることを示している。 さらに,本手法が推定骨格を用いたクロスビューパーソン・リIDとRGBベースのシナリオに適用可能であることを示す。

With rapid advancements in depth sensors and deep learning, skeleton-based person re-identification (re-ID) models have recently achieved remarkable progress with many advantages. Most existing solutions learn single-level skeleton features from body joints with the assumption of equal skeleton importance, while they typically lack the ability to exploit more informative skeleton features from various levels such as limb level with more global body patterns. The label dependency of these methods also limits their flexibility in learning more general skeleton representations. This paper proposes a generic unsupervised Hierarchical skeleton Meta-Prototype Contrastive learning (Hi-MPC) approach with Hard Skeleton Mining (HSM) for person re-ID with unlabeled 3D skeletons. Firstly, we construct hierarchical representations of skeletons to model coarse-to-fine body and motion features from the levels of body joints, components, and limbs. Then a hierarchical meta-prototype contrastive learning model is proposed to cluster and contrast the most typical skeleton features ("prototypes") from different-level skeletons. By converting original prototypes into meta-prototypes with multiple homogeneous transformations, we induce the model to learn the inherent consistency of prototypes to capture more effective skeleton features for person re-ID. Furthermore, we devise a hard skeleton mining mechanism to adaptively infer the informative importance of each skeleton, so as to focus on harder skeletons to learn more discriminative skeleton representations. Extensive evaluations on five datasets demonstrate that our approach outperforms a wide variety of state-of-the-art skeleton-based methods. We further show the general applicability of our method to cross-view person re-ID and RGB-based scenarios with estimated skeletons.
翻訳日:2023-09-20 11:15:26 公開日:2023-09-19
# Node機能拡張によるネットワークアライメントの仮想化

Node Feature Augmentation Vitaminizes Network Alignment ( http://arxiv.org/abs/2304.12751v3 )

ライセンス: Link先を確認
Jin-Duk Park, Cong Tran, Won-Yong Shin, Xin Cao(参考訳) ネットワークアライメント(NA)は、複数のネットワークにまたがるノード対応を発見するタスクである。 naメソッドは無数のシナリオで目覚ましい成功を収めてきたが、プライバシの懸念やアクセス制限のために常に利用できるとは限らない、事前のアンカーリンクや/またはノード機能などの追加情報なしでは有効ではない。 この課題に取り組むため,我々は新しいna法であるgrad-align+を提案する。grad-align+は最先端のna法,いわゆるgrad-alignに基づく新しいna法で,全てのノードペアが見つかるまで徐々にノードペアの一部を発見する。 Grad-Align+を設計する際には、NAタスクの実行という意味でノード機能を拡張する方法と、拡張ノード機能を最大限活用してNAメソッドを設計する方法を説明します。 この目標を達成するために、Grad-Align+は3つの重要なコンポーネントから構成されている。 1)中心性に基づくノード特徴増強(CNFA) 2)グラフニューラルネットワーク(gnn)による拡張ノードの特徴と組込み類似度計算 3)アライメント・クロスネットワーク・ニアペア(ACN)を用いた類似性計算による段階的NA。 包括的実験を通して、Grad-Align+が示すことを実証する。 a)ベンチマークNAメソッドよりも優れていること。 (b)CNFAの有効性を確認するための実証的検証と理論的知見。 (c)各構成要素の影響 (d)ネットワークノイズに対する堅牢性、及び (e)計算効率。

Network alignment (NA) is the task of discovering node correspondences across multiple networks. Although NA methods have achieved remarkable success in a myriad of scenarios, their effectiveness is not without additional information such as prior anchor links and/or node features, which may not always be available due to privacy concerns or access restrictions. To tackle this challenge, we propose Grad-Align+, a novel NA method built upon a recent state-of-the-art NA method, the so-called Grad-Align, that gradually discovers a part of node pairs until all node pairs are found. In designing Grad-Align+, we account for how to augment node features in the sense of performing the NA task and how to design our NA method by maximally exploiting the augmented node features. To achieve this goal, Grad-Align+ consists of three key components: 1) centrality-based node feature augmentation (CNFA), 2) graph neural network (GNN)-aided embedding similarity calculation alongside the augmented node features, and 3) gradual NA with similarity calculation using aligned cross-network neighbor-pairs (ACNs). Through comprehensive experiments, we demonstrate that Grad-Align+ exhibits (a) the superiority over benchmark NA methods, (b) empirical validations as well as our theoretical findings to see the effectiveness of CNFA, (c) the influence of each component, (d) the robustness to network noises, and (e) the computational efficiency.
翻訳日:2023-09-20 11:14:57 公開日:2023-09-19
# Probe: 時間的選択におけるユーザの個人化された投影バイアスの学習

Probe: Learning Users' Personalized Projection Bias in Intertemporal Choices ( http://arxiv.org/abs/2303.06016v5 )

ライセンス: Link先を確認
Qingming Li and H. Vicky Zhao(参考訳) 時間的選択は、将来的な利益に対する現在のコストの重み付けを必要とする決定を下す。 特定のタイプの一時的な選択は、個々のアイテムを購入するか、そのアイテムを含むバンドルを選択するかのどちらかである。 従来の研究は、個人がこれらの選択に関わる要因を正確に予測していると仮定していた。 しかし、実際には、これらの要因に対するユーザの認識は、しばしばバイアスを受け、不合理かつ準最適意思決定につながる。 本研究では、投射バイアスと基準点効果という2つのよく観察されるバイアスに焦点を当てる。 これらのバイアスに対処するために, Probe と呼ばれる新しいバイアス埋め込み選好モデルを提案する。 このプローブは、ユーザの投影バイアスをキャプチャする重み関数と、参照点効果を考慮した値関数とを組み込んで、重み関数と値関数を組み合わせるための行動経済学からの予測理論を導入する。 これにより、ユーザがバンドルまたは1つのアイテムを選択する確率を判断できます。 我々は,バンドル販売戦略の設計における予測バイアスの影響を示すために,詳細な理論解析を行う。 実験の結果,提案手法は既存手法よりも優れており,バンドル購入におけるユーザの不合理な振る舞いの理解に寄与することが示された。 この調査は、ユーザの意思決定メカニズムをより深く理解し、パーソナライズされたサービスの提供を可能にし、より合理的で最適な意思決定を支援する。

Intertemporal choices involve making decisions that require weighing the costs in the present against the benefits in the future. One specific type of intertemporal choice is the decision between purchasing an individual item or opting for a bundle that includes that item. Previous research assumes that individuals have accurate expectations of the factors involved in these choices. However, in reality, users' perceptions of these factors are often biased, leading to irrational and suboptimal decision-making. In this work, we specifically focus on two commonly observed biases: projection bias and the reference-point effect. To address these biases, we propose a novel bias-embedded preference model called Probe. The Probe incorporates a weight function to capture users' projection bias and a value function to account for the reference-point effect, and introduce prospect theory from behavioral economics to combine the weight and value functions. This allows us to determine the probability of users selecting the bundle or a single item. We provide a thorough theoretical analysis to demonstrate the impact of projection bias on the design of bundle sales strategies. Through experimental results, we show that the proposed Probe model outperforms existing methods and contributes to a better understanding of users' irrational behaviors in bundle purchases. This investigation can facilitate a deeper comprehension of users' decision-making mechanisms, enable the provision of personalized services, and assist users in making more rational and optimal decisions.
翻訳日:2023-09-20 11:14:37 公開日:2023-09-19
# 非IID領域特徴に対する信頼フェデレーション分散ネットワーク

Reliable Federated Disentangling Network for Non-IID Domain Feature ( http://arxiv.org/abs/2301.12798v3 )

ライセンス: Link先を確認
Meng Wang, Kai Yu, Chun-Mei Feng, Yiming Qian, Ke Zou, Lianyu Wang, Rick Siow Mong Goh, Yong Liu, Huazhu Fu(参考訳) 効果的な分散学習アプローチとしてのフェデレートラーニング(FL)は、複数の機関がローカルデータを共有せずにモデルを共同で訓練することを可能にする。 しかし、異なる取得装置/クライアントによるドメインの特徴シフトはFLモデルの性能を著しく低下させる。 さらに、既存のflアプローチの多くは、信頼性(信頼性や不確実性など)を考慮せずに精度を向上させることを目的としている。 したがって、安全クリティカルなアプリケーションにデプロイすると、予測は信頼できない。 したがって、モデルをより信頼性の高いものにしながら、非ドメイン機能問題におけるflの性能向上を目指す。 本稿では,グローバルなドメイン不変のクロスクライアント表現をキャプチャし,ローカルクライアント固有の特徴学習を保存可能にするために,機能拡張を利用するRFedDisと呼ばれる,信頼性の高いフェデレーションデタングルネットワークを提案する。 また,分離された特徴を効果的に統合するために,不確実性を考慮した決定融合を導入することで,不確実性を推定した信頼性の高い予測を行うとともに,分離された特徴をエビデンスレベルで動的に統合する手法を提案する。 我々の知る限り、提案するRFedDisは明らかに不確実性に基づくFLアプローチと特徴分離を組み合わせた最初の取り組みであり、非IID領域の特徴におけるFLの性能と信頼性を向上させる。 提案するRFedDisは,他の最先端FL手法と比較して,信頼性の高い優れた性能を実現している。

Federated learning (FL), as an effective decentralized distributed learning approach, enables multiple institutions to jointly train a model without sharing their local data. However, the domain feature shift caused by different acquisition devices/clients substantially degrades the performance of the FL model. Furthermore, most existing FL approaches aim to improve accuracy without considering reliability (e.g., confidence or uncertainty). The predictions are thus unreliable when deployed in safety-critical applications. Therefore, aiming at improving the performance of FL in non-Domain feature issues while enabling the model more reliable. In this paper, we propose a novel reliable federated disentangling network, termed RFedDis, which utilizes feature disentangling to enable the ability to capture the global domain-invariant cross-client representation and preserve local client-specific feature learning. Meanwhile, to effectively integrate the decoupled features, an uncertainty-aware decision fusion is also introduced to guide the network for dynamically integrating the decoupled features at the evidence level, while producing a reliable prediction with an estimated uncertainty. To the best of our knowledge, our proposed RFedDis is the first work to develop an FL approach based on evidential uncertainty combined with feature disentangling, which enhances the performance and reliability of FL in non-IID domain features. Extensive experimental results show that our proposed RFedDis provides outstanding performance with a high degree of reliability as compared to other state-of-the-art FL approaches.
翻訳日:2023-09-20 11:14:15 公開日:2023-09-19
# 曲面符号による非独立および非独立分布誤差の補正

Correcting non-independent and non-identically distributed errors with surface codes ( http://arxiv.org/abs/2208.02191v5 )

ライセンス: Link先を確認
Konstantin Tiurev, Peter-Jan H. S. Derks, Joschka Roffe, Jens Eisert, and Jan-Michael Reiner(参考訳) 量子誤り訂正符号の性能を研究する一般的なアプローチは、独立かつ同一に分散された単一ビット誤りを仮定することである。 しかし、利用可能な実験データによると、現代のマルチキュービットデバイスにおける現実的なエラーは、通常、キュービット間で独立でも同一でもない。 本研究では,既知の雑音構造に適応した位相曲面符号の特性をクリフォード共役によって開発・検討する。 局所的に一様でない単一ビット雑音に調整された曲面符号とスケーラブルな整合デコーダは、標準表面符号と比較して誤差閾値の増加とサブ閾値故障率の指数的抑制をもたらすことを示す。 さらに、局所的な2ビット雑音下での調整面符号の挙動について検討し、そのようなノイズの補正においてコード縮退が果たす役割を示す。 提案手法は, 量子ビット数やゲート数などのオーバーヘッドを伴わず, 標準整合デコーダを使用するため, 通常の表面符号誤り訂正に比べ, 余分なコストがかからない。

A common approach to studying the performance of quantum error correcting codes is to assume independent and identically distributed single-qubit errors. However, the available experimental data shows that realistic errors in modern multi-qubit devices are typically neither independent nor identical across qubits. In this work, we develop and investigate the properties of topological surface codes adapted to a known noise structure by Clifford conjugations. We show that the surface code locally tailored to non-uniform single-qubit noise in conjunction with a scalable matching decoder yields an increase in error thresholds and exponential suppression of sub-threshold failure rates when compared to the standard surface code. Furthermore, we study the behaviour of the tailored surface code under local two-qubit noise and show the role that code degeneracy plays in correcting such noise. The proposed methods do not require additional overhead in terms of the number of qubits or gates and use a standard matching decoder, hence come at no extra cost compared to the standard surface-code error correction.
翻訳日:2023-09-20 11:13:51 公開日:2023-09-19
# MMST-ViT:マルチモーダル空間時間視覚変換器による気候変動を考慮した作物収量予測

MMST-ViT: Climate Change-aware Crop Yield Prediction via Multi-Modal Spatial-Temporal Vision Transformer ( http://arxiv.org/abs/2309.09067v2 )

ライセンス: Link先を確認
Fudong Lin, Summer Crawford, Kaleb Guillot, Yihe Zhang, Yan Chen, Xu Yuan, Li Chen, Shelby Williams, Robert Minvielle, Xiangming Xiao, Drew Gholson, Nicolas Ashwell, Tri Setiyono, Brenda Tubana, Lu Peng, Magdy Bayoumi, Nian-Feng Tzeng(参考訳) 正確な収穫予測は、農業計画と意思決定プロセスに貴重な情報を提供する。 しかし、作物の生育が季節の気象変動や気候変動に敏感であるため、収穫量を予測する時期尚早である。 本研究では,生育期における短期気象変動と作物の長期的気候変化の影響を考慮し,米国全域の郡レベルでの作物収量を予測するための,多モード空間時空間視覚トランスフォーマ(mmst-vit)という深層学習に基づくソリューションを開発した。 具体的には,Multi-Modal Transformer,Spatial Transformer,Temporal Transformerから構成される。 Multi-Modal Transformerは、視覚的リモートセンシングデータと短期気象データの両方を利用して、季節変動が作物の成長に与える影響をモデル化する。 空間変換器は、正確な農業追跡のために郡間の高分解能空間依存性を学習する。 テンポラルトランスフォーマーは、長期的な気候変動が作物に与える影響を学ぶための長期の時間的依存を捉えます。 また,人間の介入なしにモデルの事前学習を行うための,新しいマルチモーダルコントラスト学習手法を考案した。 その結果,衛星画像と気象データを利用して,短期的な気象変動と作物に対する長期的気候変動の影響を把握できた。 我々は米国の200以上の郡で広範な実験を行い、実験の結果、我々のmmst-vitは3つのパフォーマンス指標でその郡よりも優れています。

Precise crop yield prediction provides valuable information for agricultural planning and decision-making processes. However, timely predicting crop yields remains challenging as crop growth is sensitive to growing season weather variation and climate change. In this work, we develop a deep learning-based solution, namely Multi-Modal Spatial-Temporal Vision Transformer (MMST-ViT), for predicting crop yields at the county level across the United States, by considering the effects of short-term meteorological variations during the growing season and the long-term climate change on crops. Specifically, our MMST-ViT consists of a Multi-Modal Transformer, a Spatial Transformer, and a Temporal Transformer. The Multi-Modal Transformer leverages both visual remote sensing data and short-term meteorological data for modeling the effect of growing season weather variations on crop growth. The Spatial Transformer learns the high-resolution spatial dependency among counties for accurate agricultural tracking. The Temporal Transformer captures the long-range temporal dependency for learning the impact of long-term climate change on crops. Meanwhile, we also devise a novel multi-modal contrastive learning technique to pre-train our model without extensive human supervision. Hence, our MMST-ViT captures the impacts of both short-term weather variations and long-term climate change on crops by leveraging both satellite images and meteorological data. We have conducted extensive experiments on over 200 counties in the United States, with the experimental results exhibiting that our MMST-ViT outperforms its counterparts under three performance metrics of interest.
翻訳日:2023-09-20 11:11:24 公開日:2023-09-19
# GenDOM:パラメータ対応ポリシーによる汎用的なワンショットデフォルマブルオブジェクト操作

GenDOM: Generalizable One-shot Deformable Object Manipulation with Parameter-Aware Policy ( http://arxiv.org/abs/2309.09051v2 )

ライセンス: Link先を確認
So Kuroki, Jiaxian Guo, Tatsuya Matsushima, Takuya Okubo, Masato Kobayashi, Yuya Ikeda, Ryosuke Takanami, Paul Yoo, Yutaka Matsuo, Yusuke Iwasawa(参考訳) 動作中の変形性に固有の不確実性があるため、ロープや布などの変形可能なオブジェクト操作の以前の方法は、各オブジェクトの操作ポリシーを訓練するために、何百もの実世界のデモンストレーションを必要とした。 この問題に対処するため,1つの実世界の実演だけで異なる変形可能なオブジェクトを操作できるフレームワークであるGenDOMを紹介した。 これを実現するために、変形可能なオブジェクトパラメータに条件付けし、様々な種類の変形可能なオブジェクトでトレーニングすることで、ポリシーを補強し、異なるオブジェクトパラメータに基づいてアクションを調整する。 新しいオブジェクトが推測されたとき、GenDOMは、実世界のデモの点雲の格子密度と微分可能な物理シミュレータのシミュレーションとの差を最小化することにより、単一の実世界のデモだけで変形可能なオブジェクトパラメータを推定できる。 Empirical validations on both simulated and real-world object manipulation setups clearly show that our method can manipulate different objects with a single demonstration and significantly outperforms the baseline in both environments (a 62% improvement for in-domain ropes and a 15% improvement for out-of-distribution ropes in simulation, as well as a 26% improvement for ropes and a 50% improvement for cloths in the real world), demonstrating the effectiveness of our approach in one-shot deformable object manipulation.

Due to the inherent uncertainty in their deformability during motion, previous methods in deformable object manipulation, such as rope and cloth, often required hundreds of real-world demonstrations to train a manipulation policy for each object, which hinders their applications in our ever-changing world. To address this issue, we introduce GenDOM, a framework that allows the manipulation policy to handle different deformable objects with only a single real-world demonstration. To achieve this, we augment the policy by conditioning it on deformable object parameters and training it with a diverse range of simulated deformable objects so that the policy can adjust actions based on different object parameters. At the time of inference, given a new object, GenDOM can estimate the deformable object parameters with only a single real-world demonstration by minimizing the disparity between the grid density of point clouds of real-world demonstrations and simulations in a differentiable physics simulator. Empirical validations on both simulated and real-world object manipulation setups clearly show that our method can manipulate different objects with a single demonstration and significantly outperforms the baseline in both environments (a 62% improvement for in-domain ropes and a 15% improvement for out-of-distribution ropes in simulation, as well as a 26% improvement for ropes and a 50% improvement for cloths in the real world), demonstrating the effectiveness of our approach in one-shot deformable object manipulation.
翻訳日:2023-09-20 11:10:56 公開日:2023-09-19
# CMOSセンサアレイを用いたマイクロ3次元キャパシタンストモグラフィ

Microscale 3-D Capacitance Tomography with a CMOS Sensor Array ( http://arxiv.org/abs/2309.09039v2 )

ライセンス: Link先を確認
Manar Abdelatty, Joseph Incandela, Kangping Hu, Joseph W. Larkin, Sherief Reda, Jacob K. Rosenstein(参考訳) 電気容量トモグラフィ(ECT)は、体積の内部誘電率のマップを、その境界で容量測定を行い、逆問題を解くことによって推定する非光学的イメージング技術である。 以前のECTデモはしばしばセンチメートルスケールで行われているが、ECTはマクロシステムに限定されていない。 本稿では,cmosマイクロ電極アレイを用いた高分子微粒子および細菌バイオフィルムのctイメージングを行い,空間分解能を10ミクロンとした。 さらに,センサ計測から平面外誘電率マップを再構成するための深層学習アーキテクチャと多目的学習手法を提案する。 実験の結果, 提案手法は微細な3次元構造を解くことができ, マイクロスフィアデータセットでは91.5%, バイオフィルムデータセットでは82.7%, ベースライン計算法では平均4.6%向上した。

Electrical capacitance tomography (ECT) is a nonoptical imaging technique in which a map of the interior permittivity of a volume is estimated by making capacitance measurements at its boundary and solving an inverse problem. While previous ECT demonstrations have often been at centimeter scales, ECT is not limited to macroscopic systems. In this paper, we demonstrate ECT imaging of polymer microspheres and bacterial biofilms using a CMOS microelectrode array, achieving spatial resolution of 10 microns. Additionally, we propose a deep learning architecture and an improved multi-objective training scheme for reconstructing out-of-plane permittivity maps from the sensor measurements. Experimental results show that the proposed approach is able to resolve microscopic 3-D structures, achieving 91.5% prediction accuracy on the microsphere dataset and 82.7% on the biofilm dataset, including an average of 4.6% improvement over baseline computational methods.
翻訳日:2023-09-20 11:10:31 公開日:2023-09-19
# クリフォードテーブルーからの安定化回路のアーキテクチャによる合成

Architecture-Aware Synthesis of Stabilizer Circuits from Clifford Tableaus ( http://arxiv.org/abs/2309.08972v2 )

ライセンス: Link先を確認
David Winderl, Qunsheng Huang, Arianne Meijer-van de Griend, and Richie Yeung(参考訳) 現在、量子コンピューティングはNISQ-Eraにあるため、特定のハードウェア上で実行されるゲートの数を減らすためのコンパイル戦略が必要である。 本研究では,量子デバイスの各接続グラフにCNOTを適用することに焦点を当て,Clifford tableausと呼ばれるデータ構造の合成という概念を利用する。 したがって、我々は合成量子回路におけるCNOTの数を減らし、コンパイルやより正確には合成の分野に寄与する。 収束すると,本手法は,特定のハードウェアに対して実行した場合に,他の最先端合成技術よりも優れていることを示す。 実際のハードウェア上で結果の回路を実行すると、我々の合成回路は最終的な忠実度を高め、全体の実行時間を短縮する傾向にある。

Since quantum computing is currently in the NISQ-Era, compilation strategies to reduce the number of gates executed on specific hardware are required. In this work, we utilize the concept of synthesis of a data structure called Clifford tableaus, focusing on applying CNOTs within the respective connectivity graph of the quantum device. We hence contribute to the field of compilation or, more precisely, synthesis by reducing the number of CNOTs in the synthesized quantum circuit. Upon convergence, our method shows to outperform other state-of-the-art synthesis techniques, when executed with respect to a specific hardware. Upon executing the resulting circuits on real hardware, our synthesized circuits tend to increase the final fidelity and reduce the overall execution times.
翻訳日:2023-09-20 11:10:09 公開日:2023-09-19
# Struc-Bench: 大規模言語モデルは複雑な構造化データを生成するのに本当に優れているか?

Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data? ( http://arxiv.org/abs/2309.08963v2 )

ライセンス: Link先を確認
Xiangru Tang, Yiming Zong, Jason Phang, Yilun Zhao, Wangchunshu Zhou, Arman Cohan, Mark Gerstein(参考訳) GPT-4のようなLarge Language Models(LLM)のパワーにもかかわらず、複雑な構造化された出力を生成する必要のあるタスクに苦戦している。 本研究では, 複素構造データの生成における電流LLMの性能評価を行い, 構造を考慮した微調整手法を提案する。 包括的評価を行うために,struc-benchを提案する。5つの代表的なllm(gpt-neox 20b,gpt-3.5,gpt-4,vicuna)を含み,生のテキスト,html,latexテーブルにまたがる注意深く構築されたデータセット上で評価する。 現在のモデル性能の分析に基づいて、特定の共通フォーマットエラーと潜在的な改善領域を同定する。 複雑なフォーマット要求に対処するために、FormatCoT(Chain-of-Thought)を使用してターゲット出力からフォーマット命令を生成する。 実験により,LLaMA-7Bに適用した構造認識微調整法は,自然言語制約の順守を著しく改善し,他の評価LCMよりも優れた性能を示した。 これらの結果に基づいて,6次元のモデル能力の能力マップ(カバレッジ,フォーマット,推論,理解,実用,幻覚)を示す。 このマップは、複雑な構造化された出力を扱う際のLCMの弱点を強調し、将来の作業に期待できる方向性を提案する。 私たちのコードとモデルはhttps://github.com/gersteinlab/struc-benchにあります。

Despite the power of Large Language Models (LLMs) like GPT-4, they still struggle with tasks that require generating complex, structured outputs. In this study, we assess the capability of Current LLMs in generating complex structured data and propose a structure-aware fine-tuning approach as a solution to improve this ability. To perform a comprehensive evaluation, we propose Struc-Bench, include five representative LLMs (i.e., GPT-NeoX 20B, GPT-3.5, GPT-4, and Vicuna) and evaluate them on our carefully constructed datasets spanning raw text, HTML, and LaTeX tables. Based on our analysis of current model performance, we identify specific common formatting errors and areas of potential improvement. To address complex formatting requirements, we utilize FormatCoT (Chain-of-Thought) to generate format instructions from target outputs. Our experiments show that our structure-aware fine-tuning method, when applied to LLaMA-7B, significantly improves adherence to natural language constraints, outperforming other evaluated LLMs. Based on these results, we present an ability map of model capabilities from six dimensions (i.e., coverage, formatting, reasoning, comprehension, pragmatics, and hallucination). This map highlights the weaknesses of LLMs in handling complex structured outputs and suggests promising directions for future work. Our code and models can be found at https://github.com/gersteinlab/Struc-Bench.
翻訳日:2023-09-20 11:09:54 公開日:2023-09-19
# 文脈的バンディットに対するwasserstein分布的ロバストなポリシー評価と学習

Wasserstein Distributionally Robust Policy Evaluation and Learning for Contextual Bandits ( http://arxiv.org/abs/2309.08748v2 )

ライセンス: Link先を確認
Yi Shen, Pan Xu, Michael M. Zavlanos(参考訳) オフ政治評価と学習は、与えられた政策を評価し、環境と直接対話することなくオフラインデータから最適な政策を学ぶことである。 多くの場合、データが収集される環境は、学習されたポリシーが適用される環境とは異なる。 学習・実行中の異なる環境の影響を考慮し,新しい環境の分布が不確実性集合内にあると仮定して,政策値の最悪のケース境界を計算する分散ロバスト最適化法(DRO)が開発されている。 通常、この不確実性集合はロギングデータセットから計算された経験的分布に関するKL分散に基づいて定義される。 しかし、KLの不確実性集合は様々な支持を持つ分布を包含できず、分布支援の幾何学的認識が欠如している。 その結果、klアプローチは実用的な環境ミスマッチに対処するのに不足し、最悪のシナリオへの過剰フィットにつながる。 これらの限界を克服するために、代わりにwasserstein距離を用いる新しいdroアプローチを提案する。 Wasserstein DRO は一般に KL DRO よりも計算コストが高いが,本手法は正規化手法と,その最適化を効率的に行う実践的(バイアス付き)確率勾配勾配法を提案する。 また,提案手法の有限標本複雑性と反復複雑性の理論的解析を行った。 さらに,ランダム化ストーク試験で記録された公開データセットを用いて,このアプローチを検証した。

Off-policy evaluation and learning are concerned with assessing a given policy and learning an optimal policy from offline data without direct interaction with the environment. Often, the environment in which the data are collected differs from the environment in which the learned policy is applied. To account for the effect of different environments during learning and execution, distributionally robust optimization (DRO) methods have been developed that compute worst-case bounds on the policy values assuming that the distribution of the new environment lies within an uncertainty set. Typically, this uncertainty set is defined based on the KL divergence around the empirical distribution computed from the logging dataset. However, the KL uncertainty set fails to encompass distributions with varying support and lacks awareness of the geometry of the distribution support. As a result, KL approaches fall short in addressing practical environment mismatches and lead to over-fitting to worst-case scenarios. To overcome these limitations, we propose a novel DRO approach that employs the Wasserstein distance instead. While Wasserstein DRO is generally computationally more expensive compared to KL DRO, we present a regularized method and a practical (biased) stochastic gradient descent method to optimize the policy efficiently. We also provide a theoretical analysis of the finite sample complexity and iteration complexity for our proposed method. We further validate our approach using a public dataset that was recorded in a randomized stoke trial.
翻訳日:2023-09-20 11:09:27 公開日:2023-09-19
# マルチモーダル階層表現を用いた脳mr-ultrasound合成

Unified Brain MR-Ultrasound Synthesis using Multi-Modal Hierarchical Representations ( http://arxiv.org/abs/2309.08747v2 )

ライセンス: Link先を確認
Reuben Dorent, Nazim Haouchine, Fryderyk K\"ogl, Samuel Joutard, Parikshit Juvekar, Erickson Torio, Alexandra Golby, Sebastien Ourselin, Sarah Frisken, Tom Vercauteren, Tina Kapur, William M. Wells(参考訳) MHVAE(Deep Hierarchical Variational Auto-Encoder, VAE)は, 様々なモードから欠落した画像を合成する。 階層的な潜在構造を持つマルチモーダルVAEを拡張し,不完全な画像集合を入力として扱う柔軟性を有しつつ,共通潜在表現にマルチモーダル画像を融合する確率的定式化を導入する。 さらに、よりシャープな画像を生成するために、逆学習を用いる。 関節内超音波(iUS)とMR(MR)合成の課題について,広範囲にわたる実験を行った。 提案モデルでは,マルチモーダルVAE,条件付きGAN,および現在最先端統合手法(ResViT)で画像の合成を行い,階層的潜在表現と原理的確率的融合操作の利点を実証した。 私たちのコードは \url{https://github.com/reubendo/mhvae} で公開されている。

We introduce MHVAE, a deep hierarchical variational auto-encoder (VAE) that synthesizes missing images from various modalities. Extending multi-modal VAEs with a hierarchical latent structure, we introduce a probabilistic formulation for fusing multi-modal images in a common latent representation while having the flexibility to handle incomplete image sets as input. Moreover, adversarial learning is employed to generate sharper images. Extensive experiments are performed on the challenging problem of joint intra-operative ultrasound (iUS) and Magnetic Resonance (MR) synthesis. Our model outperformed multi-modal VAEs, conditional GANs, and the current state-of-the-art unified method (ResViT) for synthesizing missing images, demonstrating the advantage of using a hierarchical latent representation and a principled probabilistic fusion operation. Our code is publicly available \url{https://github.com/ReubenDo/MHVAE}.
翻訳日:2023-09-20 11:09:02 公開日:2023-09-19
# スパースオートエンコーダは言語モデルで高い解釈可能な特徴を見つける

Sparse Autoencoders Find Highly Interpretable Features in Language Models ( http://arxiv.org/abs/2309.08600v2 )

ライセンス: Link先を確認
Hoagy Cunningham, Aidan Ewart, Logan Riggs, Robert Huben, Lee Sharkey(参考訳) ニューラルネットワークの内部をよりよく理解するための障害の1つは、複数の意味的に異なる文脈でニューロンが活性化しているように見える \textit{polysemanticity}である。 多義性は、ニューラルネットワークが内部で行っていることに関して、簡潔で理解可能な説明を識別することを妨げる。 多義性の原因の一つは \textit{superposition} であり、ニューラルネットワークはニューロンよりも多くの特徴を表現し、個々のニューロンではなく、活性化空間の方向の過剰な集合に特徴を割り当てる。 本稿では、スパースオートエンコーダを用いて言語モデルの内部アクティベーションを再構築し、これらの方向を特定しようとする。 これらのオートエンコーダは、他の手法によって識別される方向よりも解釈可能で単意味な機能群を学習する。 これらの特徴を損なうことで、例えば代名詞予測などの機能を排除し、モデルの振る舞いを以前の技術より破壊することで、正確なモデル編集が可能になる。 本研究は,スケーラブルで教師なしの手法を用いて,言語モデルの重ね合わせを解決することができることを示す。 この手法は,今後の機械的な解釈作業の基礎となる可能性があり,モデルの透明性と操縦性の向上が期待できる。

One of the roadblocks to a better understanding of neural networks' internals is \textit{polysemanticity}, where neurons appear to activate in multiple, semantically distinct contexts. Polysemanticity prevents us from identifying concise, human-understandable explanations for what neural networks are doing internally. One hypothesised cause of polysemanticity is \textit{superposition}, where neural networks represent more features than they have neurons by assigning features to an overcomplete set of directions in activation space, rather than to individual neurons. Here, we attempt to identify those directions, using sparse autoencoders to reconstruct the internal activations of a language model. These autoencoders learn sets of sparsely activating features that are more interpretable and monosemantic than directions identified by alternative approaches, where interpretability is measured by automated methods. Ablating these features enables precise model editing, for example, by removing capabilities such as pronoun prediction, while disrupting model behaviour less than prior techniques. This work indicates that it is possible to resolve superposition in language models using a scalable, unsupervised method. Our method may serve as a foundation for future mechanistic interpretability work, which we hope will enable greater model transparency and steerability.
翻訳日:2023-09-20 11:08:46 公開日:2023-09-19
# 不確実性定量化を用いた機械学習によるCRTの多段階決定過程のモデル化

A new method of modeling the multi-stage decision-making process of CRT using machine learning with uncertainty quantification ( http://arxiv.org/abs/2309.08415v2 )

ライセンス: Link先を確認
Kristoffer Larsen, Chen Zhao, Joyce Keyak, Qiuying Sha, Diana Paez, Xinwei Zhang, Jiangang Zou, Amalia Peix, Weihua Zhou(参考訳) 狙いだ 本研究の目的は、心不全患者に対する心臓再同期療法(crt)反応を予測するための多段階機械学習モデルの構築である。 このモデルは不確実性定量化を利用して、心電図(ECG)の基本的な臨床変数と特徴が十分でない場合、SPECT MPI変数の追加収集を推奨する。 メソッド。 本研究はspect mpiを施行した218例を対象に行った。 crt反応は6カ月の追跡で左室射出率 (lvef) が5%以上増加したと定義した。 2つのアンサンブルモデルを組み合わせて多段mlモデルを作成した。 結果だ crtの反応率は55.5% (n = 121)、男性全体の性別は61.0% (n = 133)、平均年齢は62.0、lvefは27.7であった。 マルチステージモデルでは、AUCが0.75対0.77、精度が0.71対0.69、感度が0.70対0.72、特異性が0.72対0.65であった。 しかし、マルチステージモデルはすべての折り畳み患者の52.7%のSPECT MPIデータしか必要としなかった。 結論だ 不確実な定量化から生じるルールベースの論理を用いることで、マルチステージモデルは、パフォーマンスを犠牲にすることなく、追加のSPECT MPIデータ取得の必要性を減らすことができた。

Aims. The purpose of this study is to create a multi-stage machine learning model to predict cardiac resynchronization therapy (CRT) response for heart failure (HF) patients. This model exploits uncertainty quantification to recommend additional collection of single-photon emission computed tomography myocardial perfusion imaging (SPECT MPI) variables if baseline clinical variables and features from electrocardiogram (ECG) are not sufficient. Methods. 218 patients who underwent rest-gated SPECT MPI were enrolled in this study. CRT response was defined as an increase in left ventricular ejection fraction (LVEF) > 5% at a 6 month follow-up. A multi-stage ML model was created by combining two ensemble models. Results. The response rate for CRT was 55.5% (n = 121) with overall male gender 61.0% (n = 133), an average age of 62.0, and LVEF of 27.7. The multi-stage model performed similarly to Ensemble 2 (which utilized the additional SPECT data) with AUC of 0.75 vs. 0.77, accuracy of 0.71 vs. 0.69, sensitivity of 0.70 vs. 0.72, and specificity 0.72 vs. 0.65, respectively. However, the multi-stage model only required SPECT MPI data for 52.7% of the patients across all folds. Conclusions. By using rule-based logic stemming from uncertainty quantification, the multi-stage model was able to reduce the need for additional SPECT MPI data acquisition without sacrificing performance.
翻訳日:2023-09-20 11:08:23 公開日:2023-09-19
# 大規模言語モデルに基づくエージェントの台頭と可能性:調査

The Rise and Potential of Large Language Model Based Agents: A Survey ( http://arxiv.org/abs/2309.07864v3 )

ライセンス: Link先を確認
Zhiheng Xi, Wenxiang Chen, Xin Guo, Wei He, Yiwen Ding, Boyang Hong, Ming Zhang, Junzhe Wang, Senjie Jin, Enyu Zhou, Rui Zheng, Xiaoran Fan, Xiao Wang, Limao Xiong, Yuhao Zhou, Weiran Wang, Changhao Jiang, Yicheng Zou, Xiangyang Liu, Zhangyue Yin, Shihan Dou, Rongxiang Weng, Wensen Cheng, Qi Zhang, Wenjuan Qin, Yongyan Zheng, Xipeng Qiu, Xuanjing Huang, Tao Gui(参考訳) 人類は長い間、人間のレベルに匹敵する人工知能(AI)を追求してきた。 AIエージェントは、環境を感知し、意思決定し、行動を取る人工エンティティである。 知的エージェントの開発には多くの取り組みがなされているが、主に特定のタスクにおける特定の能力やパフォーマンスを高めるためのアルゴリズムや訓練戦略の進歩に焦点を当てている。 実際、コミュニティに欠けているのは、さまざまなシナリオに適応可能なAIエージェントを設計するための出発点となる、汎用的で強力なモデルである。 彼らが示した多種多様な能力のため、大きな言語モデル(LLM)は人工知能(AGI)の潜在的な火花と見なされ、汎用AIエージェントの構築を期待している。 多くの研究者がLLMをAIエージェント構築の基礎として活用し、大きな進歩を遂げた。 本稿では,llmに基づくエージェントに関する総合的な調査を行う。 まず,エージェントの概念を哲学的起源からAI開発まで追跡し,LLMがエージェントに適した基盤である理由を説明する。 これに基づいて,脳,知覚,行動という3つの主成分からなるllmベースのエージェントのための汎用フレームワークを提案する。 その後、単一エージェントシナリオ、マルチエージェントシナリオ、ヒューマンエージェント協調の3つの側面において、LLMベースのエージェントの広範な応用について検討する。 その後,エージェント・ソサエティを探究し,llmに基づくエージェントの行動と性格,エージェント・ソサエティから生じる社会現象,それらが人間社会に与える洞察を探求する。 最後に、この分野におけるいくつかの重要なトピックとオープンな問題について論じる。 関連論文のリポジトリはhttps://github.com/WooooDyy/LLM-Agent-Paper-Listにある。

For a long time, humanity has pursued artificial intelligence (AI) equivalent to or surpassing the human level, with AI agents considered a promising vehicle for this pursuit. AI agents are artificial entities that sense their environment, make decisions, and take actions. Many efforts have been made to develop intelligent agents, but they mainly focus on advancement in algorithms or training strategies to enhance specific capabilities or performance on particular tasks. Actually, what the community lacks is a general and powerful model to serve as a starting point for designing AI agents that can adapt to diverse scenarios. Due to the versatile capabilities they demonstrate, large language models (LLMs) are regarded as potential sparks for Artificial General Intelligence (AGI), offering hope for building general AI agents. Many researchers have leveraged LLMs as the foundation to build AI agents and have achieved significant progress. In this paper, we perform a comprehensive survey on LLM-based agents. We start by tracing the concept of agents from its philosophical origins to its development in AI, and explain why LLMs are suitable foundations for agents. Building upon this, we present a general framework for LLM-based agents, comprising three main components: brain, perception, and action, and the framework can be tailored for different applications. Subsequently, we explore the extensive applications of LLM-based agents in three aspects: single-agent scenarios, multi-agent scenarios, and human-agent cooperation. Following this, we delve into agent societies, exploring the behavior and personality of LLM-based agents, the social phenomena that emerge from an agent society, and the insights they offer for human society. Finally, we discuss several key topics and open problems within the field. A repository for the related papers at https://github.com/WooooDyy/LLM-Agent-Paper-List.
翻訳日:2023-09-20 11:07:51 公開日:2023-09-19
# 輸送ロボットスケジューリング問題に対する量子最適化のケーススタディ

A Quantum Optimization Case Study for a Transport Robot Scheduling Problem ( http://arxiv.org/abs/2309.09736v2 )

ライセンス: Link先を確認
Dominik Leib, Tobias Seidel, Sven J\"ager, Raoul Heese, Caitlin Isobel Jones, Abhishek Awasthi, Astrid Niederle, Michael Bortz(参考訳) 本稿では,d-wavesのquantum-classical hybrid framework,futsuのquantum-inspired digital annealer,gurobi's state-of-the-art classical solverの性能比較を行った。 この問題は、産業的に関連のある現実世界のシナリオに由来する。 我々は、異なる設計哲学に従う問題に対して、3つの異なるモデルを提供する。 ベンチマークでは、異なるモデルとソルバの組み合わせのソリューション品質とエンドツーエンドランタイムに焦点を当てています。 ディジタルアニールラーには有望な結果が得られ、グロビと直接比較すると、ハイブリッド量子アニールラーにはいくつかの機会がある。 本研究は、異なる戦略でアプリケーション指向最適化問題を解決するためのワークフローに関する洞察を提供し、異なるアプローチの強みと弱みを評価するのに有用である。

We present a comprehensive case study comparing the performance of D-Waves' quantum-classical hybrid framework, Fujitsu's quantum-inspired digital annealer, and Gurobi's state-of-the-art classical solver in solving a transport robot scheduling problem. This problem originates from an industrially relevant real-world scenario. We provide three different models for our problem following different design philosophies. In our benchmark, we focus on the solution quality and end-to-end runtime of different model and solver combinations. We find promising results for the digital annealer and some opportunities for the hybrid quantum annealer in direct comparison with Gurobi. Our study provides insights into the workflow for solving an application-oriented optimization problem with different strategies, and can be useful for evaluating the strengths and weaknesses of different approaches.
翻訳日:2023-09-20 11:00:01 公開日:2023-09-19
# LLM4ジョブ:大規模言語モデルを活用した教師なし職業抽出と標準化

LLM4Jobs: Unsupervised occupation extraction and standardization leveraging Large Language Models ( http://arxiv.org/abs/2309.09708v2 )

ライセンス: Link先を確認
Nan Li, Bo Kang, Tijl De Bie(参考訳) 職業推薦や労働市場政策形成などのアプリケーションには、フリーテキストの求人や履歴書からの職業の自動抽出と標準化が不可欠である。 本稿では,LLM4Jobsについて紹介する。LLM4Jobsは,大規模言語モデル(LLM)の職業的符号化能力を活用する,教師なしの方法論である。 LLM4JobsはLLMの自然言語理解と生成能力の両方を活用する。 合成および実世界のデータセットに対する厳密な実験を評価した結果、LLM4Jobsは教師なしの最先端ベンチマークを一貫して上回り、多様なデータセットや粒度にまたがる汎用性を実証した。 我々の研究の副産物として、この領域におけるその後の研究に役立つかもしれない合成データセットと実世界のデータセットを提示する。 全体として、この調査は、占領の抽出と標準化の複雑な作業に対する現代のLLMの約束を強調しており、研究と産業の文脈の両方に関連する堅牢で適応可能な枠組みの基礎を築いた。

Automated occupation extraction and standardization from free-text job postings and resumes are crucial for applications like job recommendation and labor market policy formation. This paper introduces LLM4Jobs, a novel unsupervised methodology that taps into the capabilities of large language models (LLMs) for occupation coding. LLM4Jobs uniquely harnesses both the natural language understanding and generation capacities of LLMs. Evaluated on rigorous experimentation on synthetic and real-world datasets, we demonstrate that LLM4Jobs consistently surpasses unsupervised state-of-the-art benchmarks, demonstrating its versatility across diverse datasets and granularities. As a side result of our work, we present both synthetic and real-world datasets, which may be instrumental for subsequent research in this domain. Overall, this investigation highlights the promise of contemporary LLMs for the intricate task of occupation extraction and standardization, laying the foundation for a robust and adaptable framework relevant to both research and industrial contexts.
翻訳日:2023-09-20 10:59:26 公開日:2023-09-19
# モデル評価のための性能特性曲線 -情報拡散予測への応用-

A performance characteristic curve for model evaluation: the application in information diffusion prediction ( http://arxiv.org/abs/2309.09537v2 )

ライセンス: Link先を確認
Wenjin Xie, Xiaomeng Wang, Rados{\l}aw Michalski, Tao Jia(参考訳) ソーシャルネットワーク上での情報拡散予測は、今後のメッセージ受信者を予測することを目的としており、マーケティングやソーシャルメディアに実用化されている。 様々な予測モデルがよく機能すると主張しているが、パフォーマンス評価のための一般的なフレームワークは依然として限られている。 ここでは,モデルの性能特性曲線を同定し,異なる複雑性のタスクにおける性能をキャプチャする。 拡散データ中のランダム性を定量化するために,情報エントロピーに基づくメトリクスを提案し,モデルのランダム性と予測精度の間のスケーリングパターンを同定する。 異なるシーケンス長、システムサイズ、ランダム性によるパターンのデータポイントは、すべて単一の曲線に崩壊し、不確実性の増加に対して正しい予測を行うモデル固有の能力を取得する。 この曲線がモデルの評価に使用できるような重要な特性を持っていることを考慮し、モデルの性能特性曲線と定義する。 曲線の妥当性は、同じ家系の3つの予測モデルによって検証され、既存の研究と一致する結論に達する。 また、この曲線は文献から2つの異なるモデルを評価するためにうまく適用される。 我々の研究は、データのランダム性と予測精度の基礎となるパターンを明らかにする。 性能特性曲線は、モデルの性能を体系的に評価する新しい方法を提供し、モデル評価のための他のフレームワークに関する将来の研究に光を当てる。

The information diffusion prediction on social networks aims to predict future recipients of a message, with practical applications in marketing and social media. While different prediction models all claim to perform well, general frameworks for performance evaluation remain limited. Here, we aim to identify a performance characteristic curve for a model, which captures its performance on tasks of different complexity. We propose a metric based on information entropy to quantify the randomness in diffusion data, then identify a scaling pattern between the randomness and the prediction accuracy of the model. Data points in the patterns by different sequence lengths, system sizes, and randomness all collapse into a single curve, capturing a model's inherent capability of making correct predictions against increased uncertainty. Given that this curve has such important properties that it can be used to evaluate the model, we define it as the performance characteristic curve of the model. The validity of the curve is tested by three prediction models in the same family, reaching conclusions in line with existing studies. Also, the curve is successfully applied to evaluate two distinct models from the literature. Our work reveals a pattern underlying the data randomness and prediction accuracy. The performance characteristic curve provides a new way to systematically evaluate models' performance, and sheds light on future studies on other frameworks for model evaluation.
翻訳日:2023-09-20 10:59:09 公開日:2023-09-19
# FedGKD:フェデレーショングラフニューラルネットワークにおけるコラボレーションのパワーの解放

FedGKD: Unleashing the Power of Collaboration in Federated Graph Neural Networks ( http://arxiv.org/abs/2309.09517v2 )

ライセンス: Link先を確認
Qiying Pan, Ruofan Wu, Tengfei Liu, Tianyi Zhang, Yifei Zhu, Weiqiang Wang(参考訳) グラフニューラルネットワーク(gnn)のフェデレーショントレーニングは、データプライバシを維持しながら、データ分離シナリオ下でグラフ関連タスクを実行する能力から、近年普及している。 しかし、連合型GNNシステムにおけるグラフの不均一性問題は引き続き課題となっている。 既存のフレームワークは、異なる統計を用いてローカルタスクを表現し、単純な集約メカニズムを通じてそれらを関連付けることで、この問題に対処する。 しかしながら、これらのアプローチは、タスク関連性定量化の低品質と、コラボレーション構造を利用する非効率という2つの側面から、限られた効率性に苦しめられている。 これらの課題に対処するため,FedGKDという新しいクライアント側グラフデータセット蒸留手法を用いてタスク関連性をよりよく記述したタスク特徴を抽出する新しいGNNフレームワークを提案し,グローバルな協調構造を認識したサーバ側集約機構を提案する。 異なるスケールの6つの実世界のデータセットについて広範な実験を行い、フレームワークのアウトパフォーマンスを実証した。

Federated training of Graph Neural Networks (GNN) has become popular in recent years due to its ability to perform graph-related tasks under data isolation scenarios while preserving data privacy. However, graph heterogeneity issues in federated GNN systems continue to pose challenges. Existing frameworks address the problem by representing local tasks using different statistics and relating them through a simple aggregation mechanism. However, these approaches suffer from limited efficiency from two aspects: low quality of task-relatedness quantification and inefficacy of exploiting the collaboration structure. To address these issues, we propose FedGKD, a novel federated GNN framework that utilizes a novel client-side graph dataset distillation method to extract task features that better describe task-relatedness, and introduces a novel server-side aggregation mechanism that is aware of the global collaboration structure. We conduct extensive experiments on six real-world datasets of different scales, demonstrating our framework's outperformance.
翻訳日:2023-09-20 10:58:49 公開日:2023-09-19
# LayoutNUWA: 大規模言語モデルの隠れたレイアウトエキスパートを明らかにする

LayoutNUWA: Revealing the Hidden Layout Expertise of Large Language Models ( http://arxiv.org/abs/2309.09506v2 )

ライセンス: Link先を確認
Zecheng Tang, Chenfei Wu, Juntao Li, Nan Duan(参考訳) 成長する研究分野であるグラフィックレイアウト生成は、ユーザのエンゲージメントと情報知覚において重要な役割を果たす。 既存の手法は主に、レイアウト生成を数値最適化タスクとして扱い、各レイアウト要素間の関係のようなレイアウトの意味情報を見下ろしながら、定量的な側面に焦点を当てる。 本稿では,レイアウト生成をコード生成タスクとして扱う最初のモデルであるLayoutNUWAを提案する。 より具体的には、3つの相互接続モジュールからなるCode Instruct Tuning (CIT) アプローチを開発する。 1) Code Initialization (CI)モジュールは,数値条件を定量化し,戦略的に配置されたマスク付きHTMLコードとして初期化する。 2) Code Completion (CC)モジュールは,LLMのフォーマット知識を利用して,HTMLコード内のマスク部分を満たす。 3) Code Rendering (CR)モジュールは、完了したコードを最終的なレイアウト出力に変換し、高度に解釈可能で透過的なレイアウト生成手順を保証する。 LayoutNUWAの強みを示しながら、複数のデータセット上での最先端のパフォーマンス(50倍以上の改善)を実現しました。 私たちのコードはhttps://github.com/ProjectNUWA/LayoutNUWAで利用可能です。

Graphic layout generation, a growing research field, plays a significant role in user engagement and information perception. Existing methods primarily treat layout generation as a numerical optimization task, focusing on quantitative aspects while overlooking the semantic information of layout, such as the relationship between each layout element. In this paper, we propose LayoutNUWA, the first model that treats layout generation as a code generation task to enhance semantic information and harness the hidden layout expertise of large language models~(LLMs). More concretely, we develop a Code Instruct Tuning (CIT) approach comprising three interconnected modules: 1) the Code Initialization (CI) module quantifies the numerical conditions and initializes them as HTML code with strategically placed masks; 2) the Code Completion (CC) module employs the formatting knowledge of LLMs to fill in the masked portions within the HTML code; 3) the Code Rendering (CR) module transforms the completed code into the final layout output, ensuring a highly interpretable and transparent layout generation procedure that directly maps code to a visualized layout. We attain significant state-of-the-art performance (even over 50\% improvements) on multiple datasets, showcasing the strong capabilities of LayoutNUWA. Our code is available at https://github.com/ProjectNUWA/LayoutNUWA.
翻訳日:2023-09-20 10:58:32 公開日:2023-09-19
# 計算難解なOracleのない疎線形MDPの探索と学習

Exploring and Learning in Sparse Linear MDPs without Computationally Intractable Oracles ( http://arxiv.org/abs/2309.09457v2 )

ライセンス: Link先を確認
Noah Golowich and Ankur Moitra and Dhruv Rohatgi(参考訳) 基本となる線形マルコフ決定プロセス(mdps)は、学習者が既知の特徴写像$\phi(x, a)$にアクセスでき、状態-作用対を$d$-次元ベクトルにマッピングし、報酬と遷移がこの表現の線形関数である、という仮定である。 しかし、これらの機能はどこから来るのか? 専門家のドメイン知識がなければ,‘kitchen sink’というアプローチを採用して,真の機能がもっと大きな機能セットに含まれていることを期待する,という誘惑的な戦略がある。 本稿では,線形mdpを特徴選択の観点から再検討する。 a $k$-sparse linear MDP には、すべての関連する特徴を含む未知のサブセット $S \subset [d]$ of size $k$ が存在し、その目標は、環境との相互作用をpoly$(k,\log d)$でのみ学習することである。 我々の主な結果は、この問題に対する最初の多項式時間アルゴリズムである。 対照的に、初期の研究は、探索の必要性を損なう、あるいは計算的に難解な最適化問題を解く必要のある、禁止的に強い仮定をした。 その過程で、あるベルマンバックアップを計算するのに十分である遷移の簡潔な近似表現であるエミュレータの概念を導入する。 線形 MDP は非パラメトリックモデルであるため、多項式サイズのエミュレータが存在するかどうかさえ明らかではない。 それらは存在し、凸プログラミングによって効率的に計算できることを示す。 そこで本研究では,ブロックmdpにおいてデコード関数が低深さ決定木である近最適ポリシを学習するアルゴリズムを提案し,そのアルゴリズムを準多項時間で実行し,多項式数のサンプルを取る。 これは計算学習理論における古典的な結果の強化学習類似体と見なすことができる。 さらに、表現学習によるサンプル複雑性の向上が計算可能となる自然なモデルを与える。

The key assumption underlying linear Markov Decision Processes (MDPs) is that the learner has access to a known feature map $\phi(x, a)$ that maps state-action pairs to $d$-dimensional vectors, and that the rewards and transitions are linear functions in this representation. But where do these features come from? In the absence of expert domain knowledge, a tempting strategy is to use the ``kitchen sink" approach and hope that the true features are included in a much larger set of potential features. In this paper we revisit linear MDPs from the perspective of feature selection. In a $k$-sparse linear MDP, there is an unknown subset $S \subset [d]$ of size $k$ containing all the relevant features, and the goal is to learn a near-optimal policy in only poly$(k,\log d)$ interactions with the environment. Our main result is the first polynomial-time algorithm for this problem. In contrast, earlier works either made prohibitively strong assumptions that obviated the need for exploration, or required solving computationally intractable optimization problems. Along the way we introduce the notion of an emulator: a succinct approximate representation of the transitions that suffices for computing certain Bellman backups. Since linear MDPs are a non-parametric model, it is not even obvious whether polynomial-sized emulators exist. We show that they do exist and can be computed efficiently via convex programming. As a corollary of our main result, we give an algorithm for learning a near-optimal policy in block MDPs whose decoding function is a low-depth decision tree; the algorithm runs in quasi-polynomial time and takes a polynomial number of samples. This can be seen as a reinforcement learning analogue of classic results in computational learning theory. Furthermore, it gives a natural model where improving the sample complexity via representation learning is computationally feasible.
翻訳日:2023-09-20 10:58:11 公開日:2023-09-19
# CaT: グラフ凝縮による連続グラフ学習のバランス

CaT: Balanced Continual Graph Learning with Graph Condensation ( http://arxiv.org/abs/2309.09455v2 )

ライセンス: Link先を確認
Yilun Liu and Ruihong Qiu and Zi Huang(参考訳) 連続グラフ学習(CGL)は、グラフデータをストリーミング形式で供給するグラフモデルを継続的に更新することを目的としている。 このモデルは、新しいデータでトレーニングする際の学習知識を忘れやすいため、大惨事な忘れの問題がCGLの主要な焦点となっている。 近年のリプレイベース手法では,(1)新しいデータ全体と(2)履歴データの分布を近似するためにリプレイされたグラフを格納するサンプリングベースメモリバンクを用いて,モデルを更新する。 モデルを更新した後、入ってくるグラフからサンプリングされた新しい再生グラフが既存のメモリバンクに追加される。 これらの手法は直感的でCGLに有効であるが,本論文では2つの問題点を同定する。 第一に、ほとんどのサンプリングベース手法は、ストレージ予算が厳しい場合、履歴分布を完全に把握するのに苦労している。 第二に、複雑な新しいグラフデータと軽量メモリバンクのスケールで重要なデータ不均衡が存在し、結果としてトレーニングが不均衡になる。 これらの問題を解決するために,コンデンス・アンド・トレイン(CaT)フレームワークを提案する。 各モデル更新の前に、新しいグラフは、小さなが情報に富んだ合成されたリプレイグラフに凝縮され、その後、歴史的なリプレイグラフを備えたコンデンスドグラフメモリに格納される。 連続的な学習フェーズでは、トレーニングインメモリスキームを使用して、データ不均衡問題を緩和する新しいグラフ全体ではなく、凝縮グラフメモリでモデルを直接更新する。 4つのベンチマークデータセットで実施された大規模な実験は、有効性と効率の観点から提案したCaTフレームワークの優れた性能を示すことに成功した。 コードはhttps://github.com/superallen13/CaT-CGLで公開されている。

Continual graph learning (CGL) is purposed to continuously update a graph model with graph data being fed in a streaming manner. Since the model easily forgets previously learned knowledge when training with new-coming data, the catastrophic forgetting problem has been the major focus in CGL. Recent replay-based methods intend to solve this problem by updating the model using both (1) the entire new-coming data and (2) a sampling-based memory bank that stores replayed graphs to approximate the distribution of historical data. After updating the model, a new replayed graph sampled from the incoming graph will be added to the existing memory bank. Despite these methods are intuitive and effective for the CGL, two issues are identified in this paper. Firstly, most sampling-based methods struggle to fully capture the historical distribution when the storage budget is tight. Secondly, a significant data imbalance exists in terms of the scales of the complex new-coming graph data and the lightweight memory bank, resulting in unbalanced training. To solve these issues, a Condense and Train (CaT) framework is proposed in this paper. Prior to each model update, the new-coming graph is condensed to a small yet informative synthesised replayed graph, which is then stored in a Condensed Graph Memory with historical replay graphs. In the continual learning phase, a Training in Memory scheme is used to update the model directly with the Condensed Graph Memory rather than the whole new-coming graph, which alleviates the data imbalance problem. Extensive experiments conducted on four benchmark datasets successfully demonstrate superior performances of the proposed CaT framework in terms of effectiveness and efficiency. The code has been released on https://github.com/superallen13/CaT-CGL.
翻訳日:2023-09-20 10:57:37 公開日:2023-09-19
# 言語プロンプトチューニングとフレームレベル言語アダプタによる多言語音声認識の強化

Enhancing Multilingual Speech Recognition through Language Prompt Tuning and Frame-Level Language Adapter ( http://arxiv.org/abs/2309.09443v2 )

ライセンス: Link先を確認
Song Li, Yongbin You, Xuezhi Wang, Ke Ding, Guanglu Wan(参考訳) ChatGPTのような多言語インテリジェントアシスタントは最近人気を集めている。 多言語人工知能アシスタントの応用をさらに拡大し、国際コミュニケーションを促進するためには、音声対話の重要な構成要素である多言語音声認識の性能を高めることが不可欠である。 本稿では,言語構成可能で言語非依存な多言語音声認識を実現するために,言語プロンプトチューニングとフレームレベル言語アダプタという2つの簡易かつパラメータ効率のよい手法を提案する。 さらに,パラメータ効率の良い微調整手法を用いて,これら2つのアプローチを統合する可能性について検討する。 本実験は,提案手法を用いて,7言語にまたがる大幅な性能向上を示す。

Multilingual intelligent assistants, such as ChatGPT, have recently gained popularity. To further expand the applications of multilingual artificial intelligence assistants and facilitate international communication, it is essential to enhance the performance of multilingual speech recognition, which is a crucial component of speech interaction. In this paper, we propose two simple and parameter-efficient methods: language prompt tuning and frame-level language adapter, to respectively enhance language-configurable and language-agnostic multilingual speech recognition. Additionally, we explore the feasibility of integrating these two approaches using parameter-efficient fine-tuning methods. Our experiments demonstrate significant performance improvements across seven languages using our proposed methods.
翻訳日:2023-09-20 10:57:07 公開日:2023-09-19
# RenderIH:3次元干渉型ハンドポース推定のための大規模合成データセット

RenderIH: A Large-scale Synthetic Dataset for 3D Interacting Hand Pose Estimation ( http://arxiv.org/abs/2309.09301v2 )

ライセンス: Link先を確認
Lijun Li, Linrui Tian, Xindi Zhang, Qi Wang, Bang Zhang, Liefeng Bo, Mengyuan Liu, and Chen Chen(参考訳) 現在の相互作用ハンド(IH)データセットは、背景とテクスチャの観点から比較的単純であり、手関節は機械アノテーションによって注釈付けされ、不正確な結果となり、ポーズ分布の多様性が制限される。 しかし,背景,ポーズ分布,テクスチャの多様性は,一般化能力に大きな影響を及ぼす。 そこで我々は,高精度かつ多様なポーズアノテーションで手と対話するための大規模合成データセットRenderIHを提案する。 データセットには、背景、視点、手のテクスチャの異なる100万枚の写真リアル画像が含まれている。 自然および多様に相互作用するポーズを生成するために,新しいポーズ最適化アルゴリズムを提案する。 さらに, 姿勢推定精度を向上させるために, 相互作用手間の相関を活用し, 結果改善におけるrenderihの有効性を検証するために, トランストランスベースポーズ推定ネットワークであるtranshandを導入する。 我々のデータセットはモデル非依存であり、他の実データや合成データセットと比較して任意の手ポーズ推定方法の精度を向上させることができる。 実験により, 合成データの事前学習は6.76mmから5.79mmに大幅に誤差を減少させることが示された。 私たちのデータセットとコードはhttps://github.com/adwardlee/RenderIH.orgで公開されています。

The current interacting hand (IH) datasets are relatively simplistic in terms of background and texture, with hand joints being annotated by a machine annotator, which may result in inaccuracies, and the diversity of pose distribution is limited. However, the variability of background, pose distribution, and texture can greatly influence the generalization ability. Therefore, we present a large-scale synthetic dataset RenderIH for interacting hands with accurate and diverse pose annotations. The dataset contains 1M photo-realistic images with varied backgrounds, perspectives, and hand textures. To generate natural and diverse interacting poses, we propose a new pose optimization algorithm. Additionally, for better pose estimation accuracy, we introduce a transformer-based pose estimation network, TransHand, to leverage the correlation between interacting hands and verify the effectiveness of RenderIH in improving results. Our dataset is model-agnostic and can improve more accuracy of any hand pose estimation method in comparison to other real or synthetic datasets. Experiments have shown that pretraining on our synthetic data can significantly decrease the error from 6.76mm to 5.79mm, and our Transhand surpasses contemporary methods. Our dataset and code are available at https://github.com/adwardlee/RenderIH.
翻訳日:2023-09-20 10:56:58 公開日:2023-09-19
# 自律運転のためのマルチカメラ鳥眼視知覚

Multi-camera Bird's Eye View Perception for Autonomous Driving ( http://arxiv.org/abs/2309.09080v2 )

ライセンス: Link先を確認
David Unger, Nikhil Gosala, Varun Ravi Kumar, Shubhankar Borse, Abhinav Valada, Senthil Yogamani(参考訳) ほとんどの自動走行システムは、複数のカメラ、レーダー、LiDARを含む多様なセンサーセットで構成されており、近距離および遠距離領域における360度範囲を完全に確保している。 3Dで直接計測するRadarやLiDARとは異なり、カメラは固有の奥行きの曖昧さで2Dの視点を投影する。 しかし、他のエージェントの空間的推論と最適経路計画のための構造を実現するためには、3次元で知覚出力を生成することが不可欠である。 カメラ画像から所望のbev表現を達成するための最も基本的なアプローチは、平坦な地上面を仮定してipmである。 新しい車両でよく見られる周囲の視覚システムは、IPM原則を使ってBEV画像を生成し、それを運転者に見せる。 しかし、このアプローチは、この単純すぎる変換法によって引き起こされる激しい歪みがあるため、自律運転には適さない。 最近のアプローチでは、ディープニューラルネットワークを使用してbev空間に直接出力する。 これらの手法は,ネットワーク内の幾何的制約を暗黙的あるいは明示的に用いて,カメラ画像をBEV空間に変換する。 CNNはより多くのコンテキスト情報を持ち、学習可能な変換はより柔軟で画像コンテンツに適応できるため、ディープラーニングベースの手法はBEV変換の新しいベンチマークを設定し、最先端のパフォーマンスを達成する。 第1章では、BEV空間に直接オブジェクト表現を出力するマルチカメラベースのDNN(ディープニューラルネットワーク)モデルの現代動向について論じる。 そこで,本稿では,この手法がセンサ融合にどのように拡張され,状況分析や予測といった下流タスクが結合されるのかを論じる。 最後に,bev知覚における課題とオープン問題を示す。

Most automated driving systems comprise a diverse sensor set, including several cameras, Radars, and LiDARs, ensuring a complete 360\deg coverage in near and far regions. Unlike Radar and LiDAR, which measure directly in 3D, cameras capture a 2D perspective projection with inherent depth ambiguity. However, it is essential to produce perception outputs in 3D to enable the spatial reasoning of other agents and structures for optimal path planning. The 3D space is typically simplified to the BEV space by omitting the less relevant Z-coordinate, which corresponds to the height dimension.The most basic approach to achieving the desired BEV representation from a camera image is IPM, assuming a flat ground surface. Surround vision systems that are pretty common in new vehicles use the IPM principle to generate a BEV image and to show it on display to the driver. However, this approach is not suited for autonomous driving since there are severe distortions introduced by this too-simplistic transformation method. More recent approaches use deep neural networks to output directly in BEV space. These methods transform camera images into BEV space using geometric constraints implicitly or explicitly in the network. As CNN has more context information and a learnable transformation can be more flexible and adapt to image content, the deep learning-based methods set the new benchmark for BEV transformation and achieve state-of-the-art performance. First, this chapter discusses the contemporary trends of multi-camera-based DNN (deep neural network) models outputting object representations directly in the BEV space. Then, we discuss how this approach can extend to effective sensor fusion and coupling downstream tasks like situation analysis and prediction. Finally, we show challenges and open problems in BEV perception.
翻訳日:2023-09-20 10:56:35 公開日:2023-09-19
# des-q:回帰と二分分類のための決定木を構築および効率的に再訓練する量子アルゴリズム

Des-q: a quantum algorithm to construct and efficiently retrain decision trees for regression and binary classification ( http://arxiv.org/abs/2309.09976v2 )

ライセンス: Link先を確認
Niraj Kumar, Romina Yalovetzky, Changhao Li, Pierre Minssen, and Marco Pistoia(参考訳) 決定木は、構築と解釈性の単純さのために機械学習で広く使われている。 しかし、データサイズが大きくなるにつれて、従来の決定木の構築と再学習の方法は徐々に遅くなり、学習例の数とともに多項式的にスケールする。 本研究では,回帰および二分分類タスクにおける決定木の構築と再訓練を行うために,des-qと呼ばれる新しい量子アルゴリズムを提案する。 データストリームが新たなトレーニングサンプルを小さなインクリメントで生成すると仮定すると、des-qアルゴリズムはツリーリトレーニングに必要な時間を大幅に削減し、トレーニングサンプル数における多対数時間の複雑さを実現し、新しいサンプルを量子アクセス可能なメモリにロードするのに必要な時間も考慮している。 提案手法では,各内部ノードで k 個の線形木分割を行う決定木アルゴリズムを構築する。 これらの分割は同時に複数の超平面を生成し、特徴空間を k 個の異なる領域に分割する。 これらの分割に適したk個のアンカーポイントを決定するために,kerenidis et alのq-meansアルゴリズムに基づく効率的な量子教師付きクラスタリング法を開発した。 des-qは、ピアソン相関を推定する新しい量子技術を用いて、まず各特徴量を効率的に推定する。 その後,重み付き距離推定を用いて,k個の非結合領域にトレーニングサンプルをクラスタ化し,同じ手順で木を拡大する。 数値的特徴を持つ複数データセットの回帰と二項分類のための古典的決定木に対して,本アルゴリズムのシミュレーション版の性能をベンチマークした。 さらに,提案アルゴリズムは,周期木再学習を著しく高速化しつつ,最先端の決定木と同等の性能を示すことを示す。

Decision trees are widely used in machine learning due to their simplicity in construction and interpretability. However, as data sizes grow, traditional methods for constructing and retraining decision trees become increasingly slow, scaling polynomially with the number of training examples. In this work, we introduce a novel quantum algorithm, named Des-q, for constructing and retraining decision trees in regression and binary classification tasks. Assuming the data stream produces small increments of new training examples, we demonstrate that our Des-q algorithm significantly reduces the time required for tree retraining, achieving a poly-logarithmic time complexity in the number of training examples, even accounting for the time needed to load the new examples into quantum-accessible memory. Our approach involves building a decision tree algorithm to perform k-piecewise linear tree splits at each internal node. These splits simultaneously generate multiple hyperplanes, dividing the feature space into k distinct regions. To determine the k suitable anchor points for these splits, we develop an efficient quantum-supervised clustering method, building upon the q-means algorithm of Kerenidis et al. Des-q first efficiently estimates each feature weight using a novel quantum technique to estimate the Pearson correlation. Subsequently, we employ weighted distance estimation to cluster the training examples in k disjoint regions and then proceed to expand the tree using the same procedure. We benchmark the performance of the simulated version of our algorithm against the state-of-the-art classical decision tree for regression and binary classification on multiple data sets with numerical features. Further, we showcase that the proposed algorithm exhibits similar performance to the state-of-the-art decision tree while significantly speeding up the periodic tree retraining.
翻訳日:2023-09-20 10:50:30 公開日:2023-09-19
# MindAgent: 創発的なゲームインタラクション

MindAgent: Emergent Gaming Interaction ( http://arxiv.org/abs/2309.09971v2 )

ライセンス: Link先を確認
Ran Gong, Qiuyuan Huang, Xiaojian Ma, Hoi Vo, Zane Durante, Yusuke Noda, Zilong Zheng, Song-Chun Zhu, Demetri Terzopoulos, Li Fei-Fei, Jianfeng Gao(参考訳) 大規模言語モデル(LLM)は、マルチエージェントシステムで複雑なスケジューリングを行う能力を持ち、これらのエージェントを協調作業を必要とする高度なタスクに調整することができる。 しかし、多くのゲームフレームワークが導入されたにもかかわらず、コミュニティはLLMと人間-NPCの両方のコラボレーションを含む汎用マルチエージェントコラボレーションインフラを構築するためのベンチマークが不十分である。 本研究では,ゲーム対話のための計画と協調能力を評価するための新しいインフラ,mindagentを提案する。 特にインフラは既存のゲームフレームワークを利用して 一 マルチエージェントシステムのコーディネータの理解が必要であること。 二 未熟な適切な指示により、人間のプレーヤーと協力すること。 iii) フィードバックを伴う、わずかなプロンプトでコンテキスト内学習を確立すること。 さらに,マルチエージェントコラボレーションの効率性を提供し,同時に複数のエージェントを監督する新しいゲームシナリオと関連するベンチマークであるCUISINEWORLDを紹介する。 協調効率を計算するために,新しいオートメトリックcosを用いて包括的評価を行う。 最後に、私たちのインフラはCUISINEWORLDのカスタマイズされたVRバージョンで現実世界のゲームシナリオにデプロイでき、既存の幅広いMinecraftゲームドメインに適応できます。 llmsと汎用スケジューリングとコーディネートのための新しいインフラストラクチャに関する知見が,大規模言語コーポラから学ぶことで,そのようなスキルがいかに得られるか,という点に光を当ててくれることを願っています。

Large Language Models (LLMs) have the capacity of performing complex scheduling in a multi-agent system and can coordinate these agents into completing sophisticated tasks that require extensive collaboration. However, despite the introduction of numerous gaming frameworks, the community has insufficient benchmarks towards building general multi-agents collaboration infrastructure that encompass both LLM and human-NPCs collaborations. In this work, we propose a novel infrastructure - MindAgent - to evaluate planning and coordination emergent capabilities for gaming interaction. In particular, our infrastructure leverages existing gaming framework, to i) require understanding of the coordinator for a multi-agent system, ii) collaborate with human players via un-finetuned proper instructions, and iii) establish an in-context learning on few-shot prompt with feedback. Furthermore, we introduce CUISINEWORLD, a new gaming scenario and related benchmark that dispatch a multi-agent collaboration efficiency and supervise multiple agents playing the game simultaneously. We conduct comprehensive evaluations with new auto-metric CoS for calculating the collaboration efficiency. Finally, our infrastructure can be deployed into real-world gaming scenarios in a customized VR version of CUISINEWORLD and adapted in existing broader Minecraft gaming domain. We hope our findings on LLMs and the new infrastructure for general-purpose scheduling and coordination can help shed light on how such skills can be obtained by learning from large language corpora.
翻訳日:2023-09-20 10:50:01 公開日:2023-09-19
# ホログラフィーの限界と量子情報プロトコルの補正

Holographic Limitations and Corrections to Quantum Information Protocols ( http://arxiv.org/abs/2309.09939v2 )

ライセンス: Link先を確認
Stefano Pirandola(参考訳) 本稿では,bekenstein 境界や susskind 球面エントロピー境界などのホログラフィック境界によって課される絡み合い分布,量子テレポーテーション,量子通信の制約と限界について論じる。 連続可変(CV)量子情報の文脈では、ホログラム補正を鼻で適用すれば、よく知られた結果の正確な実現は崩壊する。 これらの補正は完全なCVテレポーテーションの不可能性、損失量子チャネルのテレポーテーションシミュレーションにおける均一収束の不可能性、および量子通信のための修正PLOBに繋がる。

We discuss restrictions and limitations to entanglement distribution, quantum teleportation, and quantum communication that are imposed by the holographic bounds, such as the Bekenstein bound and Susskind's spherical entropy bound. In the context of continuous-variable (CV) quantum information, we show that the exact realization of well-known results would break down if holographic corrections are naively applied. These corrections would lead to the impossibility of perfect CV teleportation, the impossibility of uniform convergence in the teleportation simulation of lossy quantum channels, and to a modified PLOB bound for quantum communication.
翻訳日:2023-09-20 10:49:39 公開日:2023-09-19
# 熱・波動ダイナミクスに基づくグラフ上のグラフトポロジー特性の回復

Graph topological property recovery with heat and wave dynamics-based features on graphs ( http://arxiv.org/abs/2309.09924v2 )

ライセンス: Link先を確認
Dhananjay Bhaskar, Yanlei Zhang, Charles Xu, Xingzhi Sun, Oluwadamilola Fasina, Guy Wolf, Maximilian Nickel, Michael Perlmutter and Smita Krishnaswamy(参考訳) 本稿では,グラフ上のPDEに対する解の表現力を生かしたグラフ微分方程式ネットワーク(GDeNet)を提案する。 熱方程式と波動方程式の力学をグラフのスペクトル特性に結びつける理論結果と,グラフ上の連続時間ランダムウォークの挙動を導出する。 これらの力学は,ランダムグラフ,リッチ曲率,永続ホモロジーの生成パラメータを回復することで,グラフ幾何学とトポロジーの有意義な側面を捉えることができることを実験的に証明する。 さらに, 引用グラフ, 薬物様分子, タンパク質など, 現実世界のデータセットにおけるgdenetの優れた性能を示す。

In this paper, we propose Graph Differential Equation Network (GDeNet), an approach that harnesses the expressive power of solutions to PDEs on a graph to obtain continuous node- and graph-level representations for various downstream tasks. We derive theoretical results connecting the dynamics of heat and wave equations to the spectral properties of the graph and to the behavior of continuous-time random walks on graphs. We demonstrate experimentally that these dynamics are able to capture salient aspects of graph geometry and topology by recovering generating parameters of random graphs, Ricci curvature, and persistent homology. Furthermore, we demonstrate the superior performance of GDeNet on real-world datasets including citation graphs, drug-like molecules, and proteins.
翻訳日:2023-09-20 10:49:28 公開日:2023-09-19
# HypR:参照コーパスを用いたASR仮説の総合的研究

HypR: A comprehensive study for ASR hypothesis revising with a reference corpus ( http://arxiv.org/abs/2309.09838v2 )

ライセンス: Link先を確認
Yi-Wei Wang, Ke-Han Lu, Kuan-Yu Chen(参考訳) ディープラーニングの発展に伴い,自動音声認識(ASR)は大きな進歩を遂げた。 性能をさらに向上させるため、認識結果の修正は軽量だが効率的な方法の一つである。 様々な方法は n-best reranking method と error correction model に大別できる。 前者は、与えられた入力音声に対して、ASRによって生成される候補の集合から、最小誤差率の仮説を選択することを目的とする。 後者は、与えられた仮説における認識誤りの検出とこれらの誤りの修正に焦点を合わせ、強化された結果を得る。 しかしながら、これらの研究は、通常異なるコーパスで評価され、異なるASRモデルと組み合わせられ、異なるデータセットを使用してモデルをトレーニングするので、互いにほとんど比較できない。 そこで,本研究ではまず,ASR仮説修正データセット(HypR)のリリースに集中する。 HypRはいくつかの一般的なコーパス(AISHELL-1、TED-Lium 2、LibriSpeech)を含み、各発話に対して50の認識仮説を提供する。 ASRのチェックポイントモデルも公開されている。 また,いくつかの古典的手法と代表的手法を実装し比較し,音声認識結果の改訂に向けた最近の研究動向を示す。 公開のhyprデータセットが、その後の研究のリファレンスベンチマークになり、研究の分野を高度なレベルに促進できることを願っています。

With the development of deep learning, automatic speech recognition (ASR) has made significant progress. To further enhance the performance, revising recognition results is one of the lightweight but efficient manners. Various methods can be roughly classified into N-best reranking methods and error correction models. The former aims to select the hypothesis with the lowest error rate from a set of candidates generated by ASR for a given input speech. The latter focuses on detecting recognition errors in a given hypothesis and correcting these errors to obtain an enhanced result. However, we observe that these studies are hardly comparable to each other as they are usually evaluated on different corpora, paired with different ASR models, and even use different datasets to train the models. Accordingly, we first concentrate on releasing an ASR hypothesis revising (HypR) dataset in this study. HypR contains several commonly used corpora (AISHELL-1, TED-LIUM 2, and LibriSpeech) and provides 50 recognition hypotheses for each speech utterance. The checkpoint models of the ASR are also published. In addition, we implement and compare several classic and representative methods, showing the recent research progress in revising speech recognition results. We hope the publicly available HypR dataset can become a reference benchmark for subsequent research and promote the school of research to an advanced level.
翻訳日:2023-09-20 10:49:14 公開日:2023-09-19
# AI生成コンテンツのバイアス:大規模言語モデルによるニュースの検討

Bias of AI-Generated Content: An Examination of News Produced by Large Language Models ( http://arxiv.org/abs/2309.09825v2 )

ライセンス: Link先を確認
Xiao Fang, Shangkun Che, Minjia Mao, Hongzhe Zhang, Ming Zhao, Xiaohang Zhao(参考訳) 大規模言語モデル(LLM)は、AIGC(AI-Generated Content)として知られる、私たちの生活を変革し、それらが生成するコンテンツを通じて機能する可能性がある。 この変換を活用するためには,LLMの限界を理解する必要がある。 本稿では,ChatGPT や LLaMA を含む7つの代表的な LLM によるAIGC のバイアスについて検討する。 われわれはNew York TimesとReutersのニュース記事を集めている。 次に,これらのニュース記事の見出し付きニュースコンテンツをプロンプトとしてLLMに適用し,AIGCとオリジナルのニュース記事を比較して,LLMが生み出すAIGCの性別的・人種的偏見を評価する。 さらに、これらのニュースの見出しから構築されたプロンプトにジェンダーバイアス付きメッセージを追加することにより、各LDMのジェンダーバイアスをバイアス付きプロンプトで分析する。 調査の結果, LLMが生成するAIGCは, 性別や人種の偏りがかなり大きいことがわかった。 さらに、各LSMが生成するAIGCは、黒人人種の女性や個人に対する顕著な差別を示す。 LLMの中で、ChatGPTによって生成されたAIGCはバイアスの最小レベルを示し、ChatGPTはバイアス付きプロンプトが提供されるとコンテンツ生成を減少させる唯一のモデルである。

Large language models (LLMs) have the potential to transform our lives and work through the content they generate, known as AI-Generated Content (AIGC). To harness this transformation, we need to understand the limitations of LLMs. Here, we investigate the bias of AIGC produced by seven representative LLMs, including ChatGPT and LLaMA. We collect news articles from The New York Times and Reuters, both known for their dedication to provide unbiased news. We then apply each examined LLM to generate news content with headlines of these news articles as prompts, and evaluate the gender and racial biases of the AIGC produced by the LLM by comparing the AIGC and the original news articles. We further analyze the gender bias of each LLM under biased prompts by adding gender-biased messages to prompts constructed from these news headlines. Our study reveals that the AIGC produced by each examined LLM demonstrates substantial gender and racial biases. Moreover, the AIGC generated by each LLM exhibits notable discrimination against females and individuals of the Black race. Among the LLMs, the AIGC generated by ChatGPT demonstrates the lowest level of bias, and ChatGPT is the sole model capable of declining content generation when provided with biased prompts.
翻訳日:2023-09-20 10:48:52 公開日:2023-09-19
# watch the speakers: 感情の不一致を伴う会話における感情認識のためのハイブリッド連続帰属ネットワーク

Watch the Speakers: A Hybrid Continuous Attribution Network for Emotion Recognition in Conversation With Emotion Disentanglement ( http://arxiv.org/abs/2309.09799v2 )

ライセンス: Link先を確認
Shanglin Lei and Xiaoping Wang and Guanting Dong and Jiang Li and Yingjian Liu(参考訳) 会話における感情認識(erc)は、実用的応用の可能性が非常に高いことから、自然言語処理の分野で広く注目を集めている。 既存のERC手法は、文脈のモデリング不足、対話関係の曖昧な把握、話者モデリングにおける過度な適合などにより、多様なシナリオへの一般化を達成する上で課題に直面している。 本研究では,これらの課題に対処するハイブリッド連続帰属ネットワーク(HCAN)を,情緒的継続と感情的帰属の観点から提示する。 具体的には、HCANはグローバルな感情の連続性をモデル化するために、ハイブリッドリカレントとアテンションベースのモジュールを採用する。 次に、各発話の感情内および感情間属性をモデル化するために、新しい感情属性符号化(EAE)を提案する。 さらに、話者モデリングにおけるモデルの堅牢性を高め、異なるシナリオにおける性能を向上させることを目的とした、総合的損失関数の感情的認知損失$\mathcal{L}_{\rm EC}$は、感情的ドリフトを緩和し、話者モデリングへのモデルの過度な適合を克服するために提案される。 我々のモデルは3つのデータセットで最先端のパフォーマンスを達成し、作業の優位性を実証する。 3つのベンチマークに関する別の広範な比較実験とアブレーション研究を行い、各モジュールの有効性を支持する証拠を提供する。 一般化能力実験のさらなる探索は,EAEモジュールのプラグアンドプレイ特性を示している。

Emotion Recognition in Conversation (ERC) has attracted widespread attention in the natural language processing field due to its enormous potential for practical applications. Existing ERC methods face challenges in achieving generalization to diverse scenarios due to insufficient modeling of context, ambiguous capture of dialogue relationships and overfitting in speaker modeling. In this work, we present a Hybrid Continuous Attributive Network (HCAN) to address these issues in the perspective of emotional continuation and emotional attribution. Specifically, HCAN adopts a hybrid recurrent and attention-based module to model global emotion continuity. Then a novel Emotional Attribution Encoding (EAE) is proposed to model intra- and inter-emotional attribution for each utterance. Moreover, aiming to enhance the robustness of the model in speaker modeling and improve its performance in different scenarios, A comprehensive loss function emotional cognitive loss $\mathcal{L}_{\rm EC}$ is proposed to alleviate emotional drift and overcome the overfitting of the model to speaker modeling. Our model achieves state-of-the-art performance on three datasets, demonstrating the superiority of our work. Another extensive comparative experiments and ablation studies on three benchmarks are conducted to provided evidence to support the efficacy of each module. Further exploration of generalization ability experiments shows the plug-and-play nature of the EAE module in our method.
翻訳日:2023-09-20 10:48:29 公開日:2023-09-19
# 文化合意の欠如による集団知能の低下

Harnessing Collective Intelligence Under a Lack of Cultural Consensus ( http://arxiv.org/abs/2309.09787v2 )

ライセンス: Link先を確認
Necdet G\"urkan and Jordan W. Suchow(参考訳) 集団的知性を利用して効果的な意思決定と協力を促進することは、コンセンサス信念の不均一性を検出し特徴付ける能力から得られる。 これは、テクノロジーの受容やリーダーシップの認識のような分野において特に当てはまり、合意が相互に相容れないコンセンサスを維持している場合、複数の「地下の真実」が生まれる可能性がある。 CCT(Cultural Consensus Theory)は、これらの異なるコンセンサスを検知し、特徴付ける統計的枠組みを提供する。 しかし、非常に類似した信念を一般化する能力に欠け、スパースデータでは効果がなく、外部知識ベースも学習機械表現も利用できないため、現代の応用では不可能である。 そこで我々は,これらの制約を無限に潜伏する構築文化コンセンサス理論 (idlc-cct) によって克服する。これはcctを拡張した非パラメトリックベイズモデルである。 リスク源,食品の健康状態,リーダーシップ,第一印象,ユーモアの認識を含む領域をまたがってその方法を検証する。 idlc-cctはコンセンサスの程度を良く予測し、サンプル外のエンティティにうまく一般化し、スパースデータでも効果的である。 拡張性を向上させるために,モデルの低分散漸近解析から導出したアルゴリズムを用いて,iDLC-CCTの効率的なハードクラスタリング変種を導入する。 したがって、idlc-cctは、文化的コンセンサスの欠如の下で集団知性を活用するための実用的な計算基盤を提供し、コンセンサスを意識した情報技術の基盤を形成する可能性がある。

Harnessing collective intelligence to drive effective decision-making and collaboration benefits from the ability to detect and characterize heterogeneity in consensus beliefs. This is particularly true in domains such as technology acceptance or leadership perception, where a consensus defines an intersubjective truth, leading to the possibility of multiple "ground truths" when subsets of respondents sustain mutually incompatible consensuses. Cultural Consensus Theory (CCT) provides a statistical framework for detecting and characterizing these divergent consensus beliefs. However, it is unworkable in modern applications because it lacks the ability to generalize across even highly similar beliefs, is ineffective with sparse data, and can leverage neither external knowledge bases nor learned machine representations. Here, we overcome these limitations through Infinite Deep Latent Construct Cultural Consensus Theory (iDLC-CCT), a nonparametric Bayesian model that extends CCT with a latent construct that maps between pretrained deep neural network embeddings of entities and the consensus beliefs regarding those entities among one or more subsets of respondents. We validate the method across domains including perceptions of risk sources, food healthiness, leadership, first impressions, and humor. We find that iDLC-CCT better predicts the degree of consensus, generalizes well to out-of-sample entities, and is effective even with sparse data. To improve scalability, we introduce an efficient hard-clustering variant of the iDLC-CCT using an algorithm derived from a small-variance asymptotic analysis of the model. The iDLC-CCT, therefore, provides a workable computational foundation for harnessing collective intelligence under a lack of cultural consensus and may potentially form the basis of consensus-aware information technologies.
翻訳日:2023-09-20 10:48:06 公開日:2023-09-19
# データソンのデータの扱い方

How to Data in Datathons ( http://arxiv.org/abs/2309.09770v2 )

ライセンス: Link先を確認
Carlos Mougan, Richard Plant, Clare Teng, Marya Bazzi, Alvaro Cabregas Ejea, Ryan Sze-Yin Chan, David Salvador Jasin, Martin Stoffel, Kirstie Jane Whitaker, Jules Manser(参考訳) datathonsはdataまたはdata scienceハッカソンとしても知られ、短い時間枠で協力し、学び、革新するプラットフォームを提供している。 潜在的なメリットがあるにもかかわらず、組織はしばしば、潜在的な問題に対して明確なガイドラインとベストプラクティスが欠如しているため、データを扱うのに苦労する。 2016年以降、60以上の提携組織で80以上のデータthonチャレンジを組織した経験と洞察をもとに、オーガナイザがデータthonのデータ関連の複雑さをナビゲートするためのリソースとして役立つガイドラインとレコメンデーションを提供しています。 提案フレームワークを10のケーススタディに適用する。

The rise of datathons, also known as data or data science hackathons, has provided a platform to collaborate, learn, and innovate in a short timeframe. Despite their significant potential benefits, organizations often struggle to effectively work with data due to a lack of clear guidelines and best practices for potential issues that might arise. Drawing on our own experiences and insights from organizing >80 datathon challenges with >60 partnership organizations since 2016, we provide guidelines and recommendations that serve as a resource for organizers to navigate the data-related complexities of datathons. We apply our proposed framework to 10 case studies.
翻訳日:2023-09-20 10:47:31 公開日:2023-09-19
# 知識蒸留によるオープンドメイン対話システムにおけるNSFWテキストの検出

Facilitating NSFW Text Detection in Open-Domain Dialogue Systems via Knowledge Distillation ( http://arxiv.org/abs/2309.09749v2 )

ライセンス: Link先を確認
Huachuan Qiu, Shuai Zhang, Hongliang He, Anqi Li, Zhenzhong Lan(参考訳) NSFW(Not Safe for Work)コンテンツは、対話の文脈において、オープンドメインの対話システムにおいて、ユーザに深刻な副作用を与える可能性がある。 しかしながら、対話コンテキストにおけるnsfw言語、特に性的に明示されたコンテンツの検出に関する研究は、大幅に遅れている。 本研究では,NSFW対話検出を目的とした対話監視データセットであるCensorChatを紹介する。 GPT-4とChatGPTを含む知識蒸留技術を活用し、このデータセットはNSFWコンテンツ検出器を構築するためのコスト効率の良い手段を提供する。 このプロセスでは、実際の人間と機械のインタラクションデータを収集し、それを1つの発話と1つの対話に分解する。 ChatGPTは未ラベルデータの注釈付けに使われ、トレーニングセットとして機能する。 ChatGPT と GPT-4 をアノテータとして,ラベリングにおける相違を解消するための自己批判戦略を用いて,ラベリングの検証とテストセットを構築した。 BERTモデルは擬似ラベル付きデータのテキスト分類器として微調整され、その性能を評価する。 この研究は、表現の自由を尊重しながら、デジタル会話におけるユーザーの安全と幸福を優先するAIシステムの重要性を強調している。 提案手法は,NSFWコンテンツ検出だけでなく,AI駆動対話におけるユーザ保護ニーズの進展に対応する。

NSFW (Not Safe for Work) content, in the context of a dialogue, can have severe side effects on users in open-domain dialogue systems. However, research on detecting NSFW language, especially sexually explicit content, within a dialogue context has significantly lagged behind. To address this issue, we introduce CensorChat, a dialogue monitoring dataset aimed at NSFW dialogue detection. Leveraging knowledge distillation techniques involving GPT-4 and ChatGPT, this dataset offers a cost-effective means of constructing NSFW content detectors. The process entails collecting real-life human-machine interaction data and breaking it down into single utterances and single-turn dialogues, with the chatbot delivering the final utterance. ChatGPT is employed to annotate unlabeled data, serving as a training set. Rationale validation and test sets are constructed using ChatGPT and GPT-4 as annotators, with a self-criticism strategy for resolving discrepancies in labeling. A BERT model is fine-tuned as a text classifier on pseudo-labeled data, and its performance is assessed. The study emphasizes the importance of AI systems prioritizing user safety and well-being in digital conversations while respecting freedom of expression. The proposed approach not only advances NSFW content detection but also aligns with evolving user protection needs in AI-driven dialogues.
翻訳日:2023-09-20 10:47:20 公開日:2023-09-19