このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230311となっている論文です。

PDF登録状況(公開日: 20230311)

TitleAuthorsAbstract論文公表日・翻訳日
# 新しい量子データ処理の不平等

A New Quantum Data Processing Inequality ( http://arxiv.org/abs/1210.1689v5 )

ライセンス: Link先を確認
Salman Beigi(参考訳) 量子データ処理の不等式は、局所的な操作の下で2つの遠く離れたパーティが生成できる二分項状態の集合を束縛する; リソースとして二分項状態にアクセスすることで、2つのパーティがリソース状態よりも大きな相互情報を持つ別の二分項状態に局所的に変換することはできない。 しかし、テンソル積の下での量子相互情報の付加性のため、データ処理の不等式は、当事者がリソース状態の任意のコピー数を提供するとき、拘束されない。 本稿では、最大相関と呼ばれる二部量子状態の相関の尺度を紹介し、これは加法的ではなく、複数のコピーに対して計算した場合に同じ数を与える。 そして、この測度に対するデータ処理の不等式を証明することにより、リソース状態の任意の数のコピーが利用可能であっても、ローカル操作の下で生成できる状態の集合にバウンダリを求める。

Quantum data processing inequality bounds the set of bipartite states that can be generated by two far apart parties under local operations; Having access to a bipartite state as a resource, two parties cannot locally transform it to another bipartite state with a mutual information greater than that of the resource state. But due to the additivity of quantum mutual information under tensor product, the data processing inequality gives no bound when the parties are provided with arbitrary number of copies of the resource state. In this paper we introduce a measure of correlation on bipartite quantum states, called maximal correlation, that is not additive and gives the same number when computed for multiple copies. Then by proving a data processing inequality for this measure, we find a bound on the set of states that can be generated under local operations even when an arbitrary number of copies of the resource state is available.
翻訳日:2023-03-25 04:57:33 公開日:2023-03-11
# gRPCを用いたDareFightingICEにおけるAIのデータ転送効率の改善

Improving Data Transfer Efficiency for AIs in the DareFightingICE using gRPC ( http://arxiv.org/abs/2303.10001v1 )

ライセンス: Link先を確認
Chollakorn Nimpattanavong, Ibrahim Khan, Thai Van Nguyen, Ruck Thawonmas, Worawat Choensawat, Kingkarn Sookhanaphibarn(参考訳) 本稿では,非プレイヤーキャラクタの制御にAIを実装することに焦点を当てたJavaベースの格闘ゲームであるDareFightingICEプラットフォーム用の新しいコミュニケーションインターフェースを提案する。 インターフェースは、オープンソースのリモートプロシージャコールであるgRPCを使用して、ゲームとAI間のデータ転送の効率を改善し、ゲームサーバからの情報の受信に要する時間を短縮する。 ファイティングゲームでAIを実装する上で重要な課題は、AIが短時間のレスポンス時間で実行するアクションを選択する必要があることだ。 DareFightingICEプラットフォームはPy4Jに統合されており、開発者はPythonを使ってAIを作成できる。 しかし、Py4Jは大量のデータを扱うのが効率的ではないため、過度の遅延が発生する。 対照的に、gRPCは大量のデータを転送するのに適しています。 新たな通信インタフェースの有効性を評価するために,ゲームサーバから受信した情報に関係なくキックコマンドを送信するルールベースのAIを用いて,gRPCとPy4Jのレイテンシを比較する実験を行った。 実験の結果,65 %のレイテンシ低下だけでなく,安定性も向上し,現行のインタフェースと比較してフレームの欠落が解消された。

This paper presents a new communication interface for the DareFightingICE platform, a Java-based fighting game focused on implementing AI for controlling a non-player character. The interface uses an open-source remote procedure call, gRPC to improve the efficiency of data transfer between the game and the AI, reducing the time spent on receiving information from the game server. This is important because the main challenge of implementing AI in a fighting game is the need for the AI to select an action to perform within a short response time. The DareFightingICE platform has been integrated with Py4J, allowing developers to create AIs using Python. However, Py4J is less efficient at handling large amounts of data, resulting in excessive latency. In contrast, gRPC is well-suited for transmitting large amounts of data. To evaluate the effectiveness of the new communication interface, we conducted an experiment comparing the latency of gRPC and Py4J, using a rule-based AI that sends a kick command regardless of the information received from the game server. The experiment results showed not only a 65\% reduction in latency but also improved stability and eliminated missed frames compared to the current interface.
翻訳日:2023-03-25 03:35:52 公開日:2023-03-11
# 深層学習を用いた振動信号Denoising

Vibration Signal Denoising Using Deep Learning ( http://arxiv.org/abs/2303.11413v1 )

ライセンス: Link先を確認
Yuyan Wu, Senyang Jiang, Youzhi Liang(参考訳) 足跡によって誘導される構造振動信号は、占有者識別、局所化、人間の活動推定、構造健康モニタリングなどのタスクに広く利用されている。 振動信号を振幅値の時系列として収集する。 しかし, 環境騒音, 電磁干渉, その他の要因の影響から, 収集信号は常に雑音である。 ノイズの存在は信号解析のプロセスに影響を与え、最終的なタスクの精度と誤差に影響を与える。 本稿では,フットステップ誘起振動信号のデノナイズ法を主に検討する。 ガウス雑音などの定常雑音や,アイテム投下振動雑音や音楽雑音などの非定常雑音など,様々な種類の雑音について考察した。

Structure vibration signals induced by footsteps are widely used for tasks like occupant identification, localization, human activity inference, structure health monitoring and so on. The vibration signals are collected as time series with amplitude values. However, the collected signals are always noisy in practice due to the influence of environmental noise, electromagnetic interference and other factors. The presence of noise affects the process of signal analysis, thus affecting the accuracy and error of the final tasks. In this paper, we mainly explore the denoising methods for footstep-induced vibration signals. We have considered different kinds of noise including stationary noises such as gaussian noises and non-stationary noises such as item-dropping vibration noise and music noises.
翻訳日:2023-03-25 03:26:20 公開日:2023-03-11
# 大型視覚言語モデルのゼロショット推論における校正

Enabling Calibration In The Zero-Shot Inference of Large Vision-Language Models ( http://arxiv.org/abs/2303.12748v1 )

ライセンス: Link先を確認
Will LeVine, Benjamin Pikus, Pranav Raj, and Fernando Amat Gil(参考訳) 深層学習モデルの校正は信頼性と安全な使用に不可欠であり、分類モデルにおいて、誤校正を減らす手法を用いて広範囲に研究されている。 しかし、CLIPのようなゼロショット推論に使用される視覚言語モデルの校正に関する包括的な研究はまだ行われていない。 我々は,プロンプト,データセット,アーキテクチャといった関連する変数のキャリブレーションを測定し,クリップによるゼロショット推論が誤りであることを確認した。 さらに、ゼロショット推論モデルとしてCLIPの一般的な使用事例と整合した温度スケーリングの修正版を提案し、単一の学習温度が推論データセットをまたいだ特定のCLIPモデル(選択した事前学習データセットとアーキテクチャで定義される)毎に一般化し、選択を促すことを示す。

Calibration of deep learning models is crucial to their trustworthiness and safe usage, and as such, has been extensively studied in supervised classification models, with methods crafted to decrease miscalibration. However, there has yet to be a comprehensive study of the calibration of vision-language models that are used for zero-shot inference, like CLIP. We measure calibration across relevant variables like prompt, dataset, and architecture, and find that zero-shot inference with CLIP is miscalibrated. Furthermore, we propose a modified version of temperature scaling that is aligned with the common use cases of CLIP as a zero-shot inference model, and show that a single learned temperature generalizes for each specific CLIP model (defined by a chosen pre-training dataset and architecture) across inference dataset and prompt choice.
翻訳日:2023-03-25 02:50:23 公開日:2023-03-11
# コード品質の向上,リファクタリング,要求の緩和,ソフトウェア設計のためのChatGPTプロンプトパターン

ChatGPT Prompt Patterns for Improving Code Quality, Refactoring, Requirements Elicitation, and Software Design ( http://arxiv.org/abs/2303.07839v1 )

ライセンス: Link先を確認
Jules White, Sam Hays, Quchen Fu, Jesse Spencer-Smith, Douglas C. Schmidt(参考訳) 本稿では,ChatGPTのような大規模言語モデル(LLM)を用いて,コードをサードパーティ製ライブラリから分離したり,実装前にWebアプリケーションAPIをシミュレートしたりといった,一般的なソフトウェアエンジニアリング活動を自動化するための,ソフトウェアエンジニアリングのための迅速な設計手法を提案する。 本稿では,LLMをソフトウェア工学に利用する研究に2つの貢献をする。 まず、ソフトウェアエンジニアリングのためのパターンカタログを提供し、彼らが解決する問題の種類に応じてパターンを分類する。 第2に、要求の明確化、迅速なプロトタイピング、コード品質、リファクタリング、システム設計を改善するために適用されたいくつかのプロンプトパターンを調査します。

This paper presents prompt design techniques for software engineering, in the form of patterns, to solve common problems when using large language models (LLMs), such as ChatGPT to automate common software engineering activities, such as ensuring code is decoupled from third-party libraries and simulating a web application API before it is implemented. This paper provides two contributions to research on using LLMs for software engineering. First, it provides a catalog of patterns for software engineering that classifies patterns according to the types of problems they solve. Second, it explores several prompt patterns that have been applied to improve requirements elicitation, rapid prototyping, code quality, refactoring, and system design.
翻訳日:2023-03-15 15:10:13 公開日:2023-03-11
# 機械学習を用いた太陽光発電予測

Solar Power Prediction Using Machine Learning ( http://arxiv.org/abs/2303.07875v1 )

ライセンス: Link先を確認
E. Subramanian, M. Mithun Karthik, G Prem Krishna, D. Vaisnav Prasath, V. Sukesh Kumar(参考訳) 本稿では,99%のauc(area under the curve)メトリックを用いた高精度な太陽光発電予測のための機械学習手法を提案する。 このアプローチには、データ収集、前処理、機能選択、モデル選択、トレーニング、評価、デプロイメントが含まれる。 気象データ、太陽放射データ、過去の太陽発電データを含む複数の情報源からの高品質なデータを収集して前処理し、異常値を処理し、データを正規化する。 モデルトレーニングには、温度、湿度、風速、太陽放射などの関連する特徴が選択される。 Support Vector Machines (SVM)、Random Forest、Gradient Boostingは、正確な予測を生成する機械学習アルゴリズムとして使用される。 これらのモデルは、歴史的太陽光発電データやその他の関連する特徴の大規模なデータセットに基づいて訓練されている。 モデルの性能は、AUCや他の精度、リコール、F1スコアなどの指標を用いて評価される。 訓練された機械学習モデルは生産環境にデプロイされ、ソーラー発電に関するリアルタイム予測に使用することができる。 その結果,提案手法は発電予測に99%のaucを達成し,電力会社による太陽光発電システム管理の改善,コスト削減,エネルギー効率の向上が期待できることがわかった。

This paper presents a machine learning-based approach for predicting solar power generation with high accuracy using a 99% AUC (Area Under the Curve) metric. The approach includes data collection, pre-processing, feature selection, model selection, training, evaluation, and deployment. High-quality data from multiple sources, including weather data, solar irradiance data, and historical solar power generation data, are collected and pre-processed to remove outliers, handle missing values, and normalize the data. Relevant features such as temperature, humidity, wind speed, and solar irradiance are selected for model training. Support Vector Machines (SVM), Random Forest, and Gradient Boosting are used as machine learning algorithms to produce accurate predictions. The models are trained on a large dataset of historical solar power generation data and other relevant features. The performance of the models is evaluated using AUC and other metrics such as precision, recall, and F1-score. The trained machine learning models are then deployed in a production environment, where they can be used to make real-time predictions about solar power generation. The results show that the proposed approach achieves a 99% AUC for solar power generation prediction, which can help energy companies better manage their solar power systems, reduce costs, and improve energy efficiency.
翻訳日:2023-03-15 15:03:38 公開日:2023-03-11
# 量子的非散逸性の証拠としてのハートマン効果

Hartman's effect as evidence of quantum non-spatiality ( http://arxiv.org/abs/2303.08031v1 )

ライセンス: Link先を確認
Massimiliano Sassoli de Bianchi(参考訳) トンネリング現象をハートマン効果の観点から解析し、トンネリング実体を潜在的障壁の「通過」と表現することはできないことを示し、宇宙に永久に存在すると見なすことを断念する必要があることを示した。 言い換えれば、ハートマンの効果は量子非散逸性の強い指標であるように見える。

We analyze the tunneling phenomenon from the viewpoint of Hartman's effect, showing that one cannot describe a tunneling entity as "passing through" the potential barrier, hence, one must renounce viewing it as being permanently present in space. In other words, Hartman's effect appears to be a strong indicator of quantum non-spatiality.
翻訳日:2023-03-15 14:16:13 公開日:2023-03-11
# 混合系における時間外順序コリケータの平衡に対する古典的アプローチ

Classical approach to equilibrium of out-of-time ordered correlators in mixed systems ( http://arxiv.org/abs/2303.08047v1 )

ライセンス: Link先を確認
Tom\'as Notenson, Ignacio Garc\'ia-Mata, Augusto J. Roncaglia, and Diego A. Wisniacki(参考訳) out-of-time ordered correlator (otoc) は量子情報のスクランブルの尺度である。 スクランブルは直感的にはカオスシステムの重要な特徴であると考えられており、OTOCはカオスの尺度として広く使われている。 短期間、指数的成長は古典的なリアプノフ指数(バタフライ効果と呼ばれることもある)と関連している。 OTOCは長い間、振動可能な平均平衡値を得る。 完全なカオス系では、漸近的体制へのアプローチは古典的なルネ=ポリコット共鳴によって与えられる速度で指数関数的である。 本研究では, 古典的一般化共鳴が, 混合力学系, 特に標準写像のユビキタスな場合におけるotocの平衡緩和を制御していることを示すことにより, この概念を拡張した。

The out-of-time ordered correlator (OTOC) is a measure of scrambling of quantum information. Scrambling is intuitively considered to be a significant feature of chaotic systems and thus the OTOC is widely used as a measure of chaos. For short times exponential growth is related to the classical Lyapunov exponent, sometimes known as butterfly effect. At long times the OTOC attains an average equilibrium value with possible oscillations. For fully chaotic systems the approach to the asymptotic regime is exponential with a rate given by the classical Ruelle-Pollicott resonances. In this work, we extend this notion by showing that classical generalized resonances govern the relaxation to equilibrium of the OTOC in the ubiquitous case of a system with mixed dynamics, in particular, the standard map.
翻訳日:2023-03-15 14:06:37 公開日:2023-03-11
# 構文構造のない言語行動:スキンナーとチョムスキーを超えて

Verbal behavior without syntactic structures: beyond Skinner and Chomsky ( http://arxiv.org/abs/2303.08080v1 )

ライセンス: Link先を確認
Shimon Edelman(参考訳) 言語を知ることの意味は? チョムスキー革命以降、この問題に対する一般的な答えは、ある構文構造を独占的にライセンスする生成文法を持つことである。 数十年後、どんな言語に対してもそのような文法の近似でさえ定式化され、文法が普遍的で自然に特定されるという考え方は不毛であることが証明され、経験から学習する方法を常に短く示そうと試みられた。 この不合理から進むためには、動的、社会的、マルチモーダル、パターン化、パーポーブといった言語が、他者や自己における望ましい行動(あるいは思考)を促進することを目的としている他の人間の行動と同様の程度を再発見する必要がある。 最近の心理学、計算学、神経生物学、進化的洞察を行動の形式と構造に当てはめることは、言語の新しい実行可能な説明へと導くかもしれない。

What does it mean to know language? Since the Chomskian revolution, one popular answer to this question has been: to possess a generative grammar that exclusively licenses certain syntactic structures. Decades later, not even an approximation to such a grammar, for any language, has been formulated; the idea that grammar is universal and innately specified has proved barren; and attempts to show how it could be learned from experience invariably come up short. To move on from this impasse, we must rediscover the extent to which language is like any other human behavior: dynamic, social, multimodal, patterned, and purposive, its purpose being to promote desirable actions (or thoughts) in others and self. Recent psychological, computational, neurobiological, and evolutionary insights into the shaping and structure of behavior may then point us toward a new, viable account of language.
翻訳日:2023-03-15 13:57:42 公開日:2023-03-11
# 正規化異方性球状ガウスによるオンライン神経経路誘導

Online Neural Path Guiding with Normalized Anisotropic Spherical Gaussians ( http://arxiv.org/abs/2303.08064v1 )

ライセンス: Link先を確認
Jiawei Huang, Akito Iizuka, Hajime Tanaka, Taku Komura, Yoshifumi Kitamura(参考訳) 物理ベースレンダリングのばらつき低減速度は, 重要サンプリング技術によって大きく影響を受ける。 本稿では,確率的レイサンプルを用いて,単一のニューラルネットワークを用いて空間変動密度モデルを学ぶための新しいオンラインフレームワークを提案する。 そこで本研究では, 正規化異方性球状ガウス混合と呼ばれる, 複雑な照射場を少数のパラメータで表現できる新しい閉形式密度モデルを提案する。 我々のフレームワークは、段階的に分布を学習し、ウォームアップフェーズは不要である。 密度モデルのコンパクトで表現力に富んだ表現のため、このフレームワークはgpu上で完全に実装でき、限られた計算リソースで高品質な画像を生成することができます。

The variance reduction speed of physically-based rendering is heavily affected by the adopted importance sampling technique. In this paper we propose a novel online framework to learn the spatial-varying density model with a single small neural network using stochastic ray samples. To achieve this task, we propose a novel closed-form density model called the normalized anisotropic spherical gaussian mixture, that can express complex irradiance fields with a small number of parameters. Our framework learns the distribution in a progressive manner and does not need any warm-up phases. Due to the compact and expressive representation of our density model, our framework can be implemented entirely on the GPU, allowing it produce high quality images with limited computational resources.
翻訳日:2023-03-15 13:56:42 公開日:2023-03-11
# アート・フィフィアル・インテリジェンス:AIの開示が創造的コンテンツの評価に及ぼす影響

Art-ificial Intelligence: The Effect of AI Disclosure on Evaluations of Creative Content ( http://arxiv.org/abs/2303.06217v1 )

ライセンス: Link先を確認
Manav Raj, Justin Berg, Rob Seamans(参考訳) OpenAIのChatGPTチャットボットのような生成AI技術の出現は、AIツールが達成できるタスクの範囲を広げ、AI生成のクリエイティブコンテンツを有効にした。 本研究では,創造的コンテンツの作成におけるaiの利用に関する開示が,コンテンツの人間的評価に与える影響について検討する。 事前登録された一連の実験研究において、AI開示は創造的または記述的な短編小説の評価に有意な影響を及ぼさないが、AI開示は第一人称で書かれた感情的な叙情詩の評価に悪影響を及ぼすことを示した。 この結果は、AIが生成したコンテンツに対する反応が、コンテンツが明らかに「人間」と見なされる場合、陰性である可能性を示唆するものである。 本研究の意義を論じ,AI公開が創造的コンテンツの評価に影響を及ぼすかどうかをよりよく理解するための研究の計画的経路を概説する。

The emergence of generative AI technologies, such as OpenAI's ChatGPT chatbot, has expanded the scope of tasks that AI tools can accomplish and enabled AI-generated creative content. In this study, we explore how disclosure regarding the use of AI in the creation of creative content affects human evaluation of such content. In a series of pre-registered experimental studies, we show that AI disclosure has no meaningful effect on evaluation either for creative or descriptive short stories, but that AI disclosure has a negative effect on evaluations for emotionally evocative poems written in the first person. We interpret this result to suggest that reactions to AI-generated content may be negative when the content is viewed as distinctly "human." We discuss the implications of this work and outline planned pathways of research to better understand whether and when AI disclosure may affect the evaluation of creative content.
翻訳日:2023-03-14 20:24:23 公開日:2023-03-11
# ReBound: アクティブラーニングのためのオープンソースの3Dバウンディングボックスアノテーションツール

ReBound: An Open-Source 3D Bounding Box Annotation Tool for Active Learning ( http://arxiv.org/abs/2303.06250v1 )

ライセンス: Link先を確認
Wesley Chen, Andrew Edgley, Raunak Hota, Joshua Liu, Ezra Schwartz, Aminah Yizar, Neehar Peri, James Purtilo(参考訳) 近年,3次元物体検出のための深層学習手法の訓練において,教師あり学習が主流となっている。 最近、学術コミュニティは、nuScenesやArgoverse 2.0といった公開データセットを使用して、自動運転車(AV)の文脈で3Dオブジェクト検出を研究している。 しかし、これらのデータセットは不完全なアノテーションを持ち、多くの場合シーン内のオブジェクトの小さなサブセットのみをラベル付けする。 3Dバウンディングボックスアノテーションの商用サービスは存在するが、これらはしばしば高額である。 これらの制限に対処するために、オープンソースの3Dビジュアライゼーションとデータセットの再アノテーションツールであるReBoundを提案する。 本稿では,ツールの設計について詳述するとともに,ソフトウェアの利用性を明らかにする調査結果について述べる。 さらに,リバウンドは探索的データ解析に有効であり,アクティブラーニングが容易であることを示す。 コードとドキュメントはhttps://github.com/ajedgley/reboundで閲覧できます。

In recent years, supervised learning has become the dominant paradigm for training deep-learning based methods for 3D object detection. Lately, the academic community has studied 3D object detection in the context of autonomous vehicles (AVs) using publicly available datasets such as nuScenes and Argoverse 2.0. However, these datasets may have incomplete annotations, often only labeling a small subset of objects in a scene. Although commercial services exists for 3D bounding box annotation, these are often prohibitively expensive. To address these limitations, we propose ReBound, an open-source 3D visualization and dataset re-annotation tool that works across different datasets. In this paper, we detail the design of our tool and present survey results that highlight the usability of our software. Further, we show that ReBound is effective for exploratory data analysis and can facilitate active-learning. Our code and documentation is available at https://github.com/ajedgley/ReBound
翻訳日:2023-03-14 20:16:02 公開日:2023-03-11
# conic challenge: 核検出、セグメンテーション、分類、数え上げのフロンティアを推進する

CoNIC Challenge: Pushing the Frontiers of Nuclear Detection, Segmentation, Classification and Counting ( http://arxiv.org/abs/2303.06274v1 )

ライセンス: Link先を確認
Simon Graham, Quoc Dang Vu, Mostafa Jahanifar, Martin Weigert, Uwe Schmidt, Wenhua Zhang, Jun Zhang, Sen Yang, Jinxi Xiang, Xiyue Wang, Josef Lorenz Rumberger, Elias Baumann, Peter Hirsch, Lihao Liu, Chenyang Hong, Angelica I. Aviles-Rivero, Ayushi Jain, Heeyoung Ahn, Yiyu Hong, Hussam Azzuni, Min Xu, Mohammad Yaqub, Marie-Claire Blache, Beno\^it Pi\'egu, Bertrand Vernay, Tim Scherr, Moritz B\"ohland, Katharina L\"offler, Jiachen Li, Weiqin Ying, Chixin Wang, Dagmar Kainmueller, Carola-Bibiane Sch\"onlieb, Shuolin Liu, Dhairya Talsania, Yughender Meda, Prakash Mishra, Muhammad Ridzuan, Oliver Neumann, Marcel P. Schilling, Markus Reischl, Ralf Mikut, Banban Huang, Hsiang-Chin Chien, Ching-Ping Wang, Chia-Yen Lee, Hong-Kun Lin, Zaiyi Liu, Xipeng Pan, Chu Han, Jijun Cheng, Muhammad Dawood, Srijay Deshpande, Raja Muhammad Saad Bashir, Adam Shephard, Pedro Costa, Jo\~ao D. Nunes, Aur\'elio Campilho, Jaime S. Cardoso, Hrishikesh P S, Densen Puthussery, Devika R G, Jiji C V, Ye Zhang, Zijie Fang, Zhifan Lin, Yongbing Zhang, Chunhui Lin, Liukun Zhang, Lijian Mao, Min Wu, Vi Thi-Tuong Vo, Soo-Hyung Kim, Taebum Lee, Satoshi Kondo, Satoshi Kasai, Pranay Dumbhare, Vedant Phuse, Yash Dubey, Ankush Jamthikar, Trinh Thi Le Vuong, Jin Tae Kwak, Dorsa Ziaei, Hyun Jung, Tianyi Miao, David Snead, Shan E Ahmed Raza, Fayyaz Minhas, Nasir M. Rajpoot(参考訳) 核検出, セグメンテーション, 形態計測は, 組織学と患者の予後との関係をより深く理解する上で不可欠である。 この分野のイノベーションを推進するため,我々は,その種の最大のデータセットを使用して,核分裂と細胞構成を評価するコミュニティ全体の課題を設定した。 われわれの挑戦はCoNICと呼ばれ、公衆のリーダーボードのリアルタイムな結果検査による細胞認識のための再現可能なアルゴリズムの開発を刺激した。 大腸組織1,658枚の全スライディング画像を用いて,トップパフォーマンスモデルに基づく広範囲な解析を行った。 7億個の検出された核がモデルごとに検出され、関連する特徴がdysplasia gradingとサバイバル分析に使われ、前回の最先端技術に対するチャレンジの改善が下流のパフォーマンスを著しく向上させたことを実証した。 また, 好酸球および好中球が腫瘍微小環境において重要な役割を担っていることも示唆された。 我々は, バイオマーカー発見のためのさらなる手法の開発を促進するために, 挑戦モデルとwsiレベルの結果をリリースする。

Nuclear detection, segmentation and morphometric profiling are essential in helping us further understand the relationship between histology and patient outcome. To drive innovation in this area, we setup a community-wide challenge using the largest available dataset of its kind to assess nuclear segmentation and cellular composition. Our challenge, named CoNIC, stimulated the development of reproducible algorithms for cellular recognition with real-time result inspection on public leaderboards. We conducted an extensive post-challenge analysis based on the top-performing models using 1,658 whole-slide images of colon tissue. With around 700 million detected nuclei per model, associated features were used for dysplasia grading and survival analysis, where we demonstrated that the challenge's improvement over the previous state-of-the-art led to significant boosts in downstream performance. Our findings also suggest that eosinophils and neutrophils play an important role in the tumour microevironment. We release challenge models and WSI-level results to foster the development of further methods for biomarker discovery.
翻訳日:2023-03-14 20:06:56 公開日:2023-03-11
# ChatGPTの一貫性解析

Consistency Analysis of ChatGPT ( http://arxiv.org/abs/2303.06273v1 )

ライセンス: Link先を確認
Myeongjun Jang, Thomas Lukasiewicz(参考訳) 大規模な言語モデルに基づいた質問と回答の対話システムであるchatgptは、導入以来、大きな人気を集めている。 その肯定的な側面は、多くのメディアプラットフォームを通じて報告されており、ChatGPTが法律、医療、金融分野を含む専門的試験で適度な成績を収め、AIが産業分野の人間を補助し、置き換えることができるという主張にさらなる支持を与えている、という分析もある。 しかし、その信頼性と信頼性を疑う者もいる。 本稿では,ChatGPTの論理的一貫した行動に対する信頼性について検討する。 以上の結果から,ChatGPTは言語理解能力の向上を図っているものの,論理的に正しい予測を頻繁に生成できないことが示唆された。 従って、chatgptが印象的で有望な新しい技術であることは事実であるが、人間による徹底的な検査を伴わない実世界のアプリケーションでの使用には、特にリスクに敏感な領域において、さらなる検討が必要であると結論付ける。

ChatGPT, a question-and-answer dialogue system based on a large language model, has gained huge popularity since its introduction. Its positive aspects have been reported through many media platforms, and some analyses even showed that ChatGPT achieved a decent grade in professional exams, including the law, medical, and finance domains, adding extra support to the claim that AI now can assist and, even, replace humans in industrial fields. Others, however, doubt its reliability and trustworthiness. In this paper, we investigate ChatGPT's trustworthiness regarding logically consistent behaviours. Our findings suggest that, although ChatGPT seems to achieve an improved language understanding ability, it still fails to generate logically correct predictions frequently. Hence, while it is true that ChatGPT is an impressive and promising new technique, we conclude that its usage in real-world applications without thorough human inspection requires further consideration, especially for risk-sensitive areas.
翻訳日:2023-03-14 20:06:38 公開日:2023-03-11
# DEPLOYR: カスタムリアルタイム機械学習モデルを電子カルテにデプロイするための技術フレームワーク

DEPLOYR: A technical framework for deploying custom real-time machine learning models into the electronic medical record ( http://arxiv.org/abs/2303.06269v1 )

ライセンス: Link先を確認
Conor K. Corbin, Rob Maclay, Aakash Acharya, Sreedevi Mony, Soumya Punnathanam, Rahul Thapa, Nikesh Kotecha, Nigam H. Shah, Jonathan H. Chen(参考訳) 医療における機械学習(ml)応用は広く研究されているが、ベッドサイドへの翻訳の成功は少ない。 医療機関は、臨床ワークフローと統合された正確で行動可能な信頼性のあるモデルの実装を統制し、促進する枠組みを確立している。 このようなガバナンスフレームワークは、モデルをリソース効率よくデプロイするために付随する技術的なフレームワークを必要とします。 本稿では,研究者が作成した臨床MLモデルを,広く使用されている電子カルテ(EMR)システムにリアルタイムに展開・監視するための技術フレームワークであるDEPLOYRを提案する。 我々は、emrソフトウェア内の動作に基づく推論を起動するメカニズム、推論を行うためにリアルタイムデータを収集するモジュール、ワークフロー内のエンドユーザに推論を表示することによってループを閉じるメカニズム、デプロイされたモデルのパフォーマンスを追跡するモジュールの監視、サイレントデプロイメント機能、デプロイされたモデルの影響を予測的に評価するメカニズムなど、コア機能と設計決定について議論する。 我々は、スタンフォード・ヘルスケアのEpicの生産事例において、クリニック・ボタンクリックによって引き起こされる12のMLモデルを静かに展開し、前向きに評価することで、DEPLOYRの使用を実証する。 本研究は,このような静かな配置の必要性と実現可能性を強調している。 DEPLOYRを説明することで、MLデプロイメントのベストプラクティスを伝え、モデル実装のギャップを埋めることを目指している。

Machine learning (ML) applications in healthcare are extensively researched, but successful translations to the bedside are scant. Healthcare institutions are establishing frameworks to govern and promote the implementation of accurate, actionable and reliable models that integrate with clinical workflow. Such governance frameworks require an accompanying technical framework to deploy models in a resource efficient manner. Here we present DEPLOYR, a technical framework for enabling real-time deployment and monitoring of researcher created clinical ML models into a widely used electronic medical record (EMR) system. We discuss core functionality and design decisions, including mechanisms to trigger inference based on actions within EMR software, modules that collect real-time data to make inferences, mechanisms that close-the-loop by displaying inferences back to end-users within their workflow, monitoring modules that track performance of deployed models over time, silent deployment capabilities, and mechanisms to prospectively evaluate a deployed model's impact. We demonstrate the use of DEPLOYR by silently deploying and prospectively evaluating twelve ML models triggered by clinician button-clicks in Stanford Health Care's production instance of Epic. Our study highlights the need and feasibility for such silent deployment, because prospectively measured performance varies from retrospective estimates. By describing DEPLOYR, we aim to inform ML deployment best practices and help bridge the model implementation gap.
翻訳日:2023-03-14 20:06:19 公開日:2023-03-11
# 近所の人を信頼する: ペナルティに基づくモデル校正の制約

Trust your neighbours: Penalty-based constraints for model calibration ( http://arxiv.org/abs/2303.06268v1 )

ライセンス: Link先を確認
Balamurali Murugesan, Sukesh Adiga V, Bingyuan Liu, Herv\'e Lombaert, Ismail Ben Ayed, and Jose Dolz(参考訳) ディープネットワークによる信頼性の高い信頼性スコアの確保は、重要な意思決定システム、特に医療領域において重要な意味を持つ。 ディープセグメンテーションネットワークの校正に関する最近の文献は大きな進歩をもたらしたが、その不確実性は通常、興味の対象の局所構造を無視する個々のピクセルの情報を活用することによってモデル化される。 特に、最近のSVLS(Spatially Varying Label Smoothing)アプローチは、画素ラベル割り当てを離散空間ガウスカーネルで軟化することでこの問題に対処している。 本研究では,SVLSの制約付き最適化の視点をまず提示し,周辺画素のソフトクラス比に暗黙の制約を課すことを示した。 さらに,本解析の結果から,svlsには制約の寄与と目的のバランスをとるメカニズムが欠如しており,最適化プロセスに支障をきたす可能性がある。 そこで本研究では,ロジット値の等式制約に基づく原理的かつ簡単な解法を提案し,強制された制約とペナルティの重みを明示的に制御し,より柔軟性を提供する。 様々な有名なセグメンテーションベンチマークに関する包括的な実験は、提案手法の優れた性能を示している。

Ensuring reliable confidence scores from deep networks is of pivotal importance in critical decision-making systems, notably in the medical domain. While recent literature on calibrating deep segmentation networks has led to significant progress, their uncertainty is usually modeled by leveraging the information of individual pixels, which disregards the local structure of the object of interest. In particular, only the recent Spatially Varying Label Smoothing (SVLS) approach addresses this issue by softening the pixel label assignments with a discrete spatial Gaussian kernel. In this work, we first present a constrained optimization perspective of SVLS and demonstrate that it enforces an implicit constraint on soft class proportions of surrounding pixels. Furthermore, our analysis shows that SVLS lacks a mechanism to balance the contribution of the constraint with the primary objective, potentially hindering the optimization process. Based on these observations, we propose a principled and simple solution based on equality constraints on the logit values, which enables to control explicitly both the enforced constraint and the weight of the penalty, offering more flexibility. Comprehensive experiments on a variety of well-known segmentation benchmarks demonstrate the superior performance of the proposed approach.
翻訳日:2023-03-14 20:05:54 公開日:2023-03-11
# 並列テキストコレクション上でのセンスメイキングを支援するインタラクティブUI

An Interactive UI to Support Sensemaking over Collections of Parallel Texts ( http://arxiv.org/abs/2303.06264v1 )

ライセンス: Link先を確認
Joyce Zhou, Elena Glassman, Daniel S. Weld(参考訳) 科学者や科学ジャーナリストは、しばしば、多くの論文と、彼らがスコープ、焦点、発見、その他の重要な要素でどのように互いにどのように比較するかを理解する必要がある。 しかし、大量の論文のコーパスでは、相互に比較し、相互に比較することが認知的に求められています。 レビュープロセスのコンテキストやモチベーションを理解するだけでなく、ドメイン固有の知識を必要とすることが多いため、このレビュープロセスを完全に自動化することは不可能です。 文学レビューのための論文の整理と注釈作成のプロセスを支援する既存のツールもあるが、中核となるのは、論文を連続的に読み、関連する情報を手作業で理解することである。 AVTALERは、人々のユニークなスキル、文脈認識、知識を、自動化の強みと組み合わせて提示する。 紙コーパスから同等のテキストの抜粋のセットを与えられた場合、テーブル内のテキストの抜粋を対話的にアライメントすることで、紙の属性をセンスメイキングし、コントラストするユーザをサポートする。 AVTALERは、現代のNLPツールを利用するコアアライメントアルゴリズムに基づいている。 さらに、AVTALERは混合開始システムであり、ユーザーはアライメント構築プロセスに統合されたシステム制約を対話的に提供することができる。

Scientists and science journalists, among others, often need to make sense of a large number of papers and how they compare with each other in scope, focus, findings, or any other important factors. However, with a large corpus of papers, it's cognitively demanding to pairwise compare and contrast them all with each other. Fully automating this review process would be infeasible, because it often requires domain-specific knowledge, as well as understanding what the context and motivations for the review are. While there are existing tools to help with the process of organizing and annotating papers for literature reviews, at the core they still rely on people to serially read through papers and manually make sense of relevant information. We present AVTALER, which combines peoples' unique skills, contextual awareness, and knowledge, together with the strength of automation. Given a set of comparable text excerpts from a paper corpus, it supports users in sensemaking and contrasting paper attributes by interactively aligning text excerpts in a table so that comparable details are presented in a shared column. AVTALER is based on a core alignment algorithm that makes use of modern NLP tools. Furthermore, AVTALER is a mixed-initiative system: users can interactively give the system constraints which are integrated into the alignment construction process.
翻訳日:2023-03-14 20:05:33 公開日:2023-03-11
# 量子機械学習の実装:提案と実験

Quantum Machine Learning Implementations: Proposals and Experiments ( http://arxiv.org/abs/2303.06263v1 )

ライセンス: Link先を確認
Lucas Lamata(参考訳) 本稿では、量子機械学習の分野における最近の理論提案とその実験的実装の概要と展望について述べる。 この論文は、徹底的な目的を持たずに、量子強化学習、量子オートエンコーダ、量子メムリスタなどの特定の高インパクトトピックと、量子フォトニクスと超伝導回路のプラットフォームにおける実験的な実現についてレビューする。 量子機械学習の分野は、業界や社会にとって有益な結果を生み出す最初の量子テクノロジーの1つかもしれない。 したがって、ノイズの多い中間スケール量子コンピュータにおいて、この技術の初期量子実装を推し進める必要があり、現在または将来のコンピューティングパラダイムよりも優れた機械学習で実りある計算を達成することを目指している。

This article gives an overview and a perspective of recent theoretical proposals and their experimental implementations in the field of quantum machine learning. Without an aim to being exhaustive, the article reviews specific high-impact topics such as quantum reinforcement learning, quantum autoencoders, and quantum memristors, and their experimental realizations in the platforms of quantum photonics and superconducting circuits. The field of quantum machine learning could be among the first quantum technologies producing results that are beneficial for industry and, in turn, to society. Therefore, it is necessary to push forward initial quantum implementations of this technology, in Noisy Intermediate-Scale Quantum Computers, aiming for achieving fruitful calculations in machine learning that are better than with any other current or future computing paradigm.
翻訳日:2023-03-14 20:05:11 公開日:2023-03-11
# 解釈可能なアウトリー・サマリゼーション

Interpretable Outlier Summarization ( http://arxiv.org/abs/2303.06261v1 )

ライセンス: Link先を確認
Yu Wang, Lei Cao, Yizhou Yan, Samuel Madden(参考訳) 異常検出は、金融詐欺の防止、ネットワーク侵入の防御、差し迫ったデバイス障害の検出など、実際のアプリケーションにおいて極めて重要である。 外乱検出結果の評価における人的労力を削減し、効果的に外乱検出結果を実行可能な洞察に変換するため、ユーザは外乱検出結果のサブグループの解釈可能な要約を自動的に生成するシステムをしばしば期待する。 残念ながら、今のところそのようなシステムは存在しない。 このギャップを埋めるために,人間の理解可能なルールのコンパクトな集合を学習し,異常検出結果の要約と説明を行うSTAIRを提案する。 これらのルールを生成するために古典的な決定木アルゴリズムを使用する代わりに、STAIRは最小限の複雑さを持つ少数のルールを生成するために新しい最適化目標を提案する。 階段の学習アルゴリズムは、大きなルールを反復的に分割し、各イテレーションでこの目標を最大化するために最適なルールを生成する。 さらに, 単純な規則で要約し難い高次元, 複雑なデータセットを効果的に扱うために, L-STAIRと呼ばれる局所化STAIRアプローチを提案する。 データ局所性を考慮に入れ、同時にデータを分割し、各パーティションのローカライズされたルールセットを学ぶ。 多くの外れ値ベンチマークデータセットに関する実験により、stairは外れ値検出結果を要約するのに必要となるルールの複雑さを大幅に削減し、決定木法と比較して人間が理解し、評価しやすいことを示した。

Outlier detection is critical in real applications to prevent financial fraud, defend network intrusions, or detecting imminent device failures. To reduce the human effort in evaluating outlier detection results and effectively turn the outliers into actionable insights, the users often expect a system to automatically produce interpretable summarizations of subgroups of outlier detection results. Unfortunately, to date no such systems exist. To fill this gap, we propose STAIR which learns a compact set of human understandable rules to summarize and explain the anomaly detection results. Rather than use the classical decision tree algorithms to produce these rules, STAIR proposes a new optimization objective to produce a small number of rules with least complexity, hence strong interpretability, to accurately summarize the detection results. The learning algorithm of STAIR produces a rule set by iteratively splitting the large rules and is optimal in maximizing this objective in each iteration. Moreover, to effectively handle high dimensional, highly complex data sets which are hard to summarize with simple rules, we propose a localized STAIR approach, called L-STAIR. Taking data locality into consideration, it simultaneously partitions data and learns a set of localized rules for each partition. Our experimental study on many outlier benchmark datasets shows that STAIR significantly reduces the complexity of the rules required to summarize the outlier detection results, thus more amenable for humans to understand and evaluate, compared to the decision tree methods.
翻訳日:2023-03-14 20:04:54 公開日:2023-03-11
# 量子の外れた定理

A Quantum Outlier Theorem ( http://arxiv.org/abs/2303.06256v1 )

ライセンス: Link先を確認
Samuel Epstein(参考訳) 最近の研究では、全てのサンプリング手法が外れ値を生成することが証明されている。 本稿では,これらの結果を量子情報理論に拡張する。 大きなランクのプロジェクターは、外界にある画像に純粋な量子状態を含む必要がある。 そうでなければ、プロジェクターは、停止シーケンスと高い相互情報を持つという点でエキゾチックである。 したがって、シューマッハ圧縮のような射影を使用する量子符号化スキームは、外れ値量子状態を用いて通信する必要がある。

In recent results, it has been proven that all sampling methods produce outliers. In this paper, we extend these results to quantum information theory. Projectors of large rank must contain pure quantum states in their images that are outlying states. Otherwise, the projectors are exotic, in that they have high mutual information with the halting sequence. Thus quantum coding schemes that use projections, such as Schumacher compression, must communicate using outlier quantum states.
翻訳日:2023-03-14 20:04:28 公開日:2023-03-11
# ICUにおける環境騒音と光情報によるデリリウムのリスク予測

Predicting risk of delirium from ambient noise and light information in the ICU ( http://arxiv.org/abs/2303.06253v1 )

ライセンス: Link先を確認
Sabyasachi Bandyopadhyay, Ahna Cecil, Jessica Sena, Andrea Davidson, Ziyuan Guan, Subhash Nerella, Jiaqing Zhang, Kia Khezeli, Brooke Armfield, Azra Bihorac, Parisa Rashidi(参考訳) 既存の集中治療ユニット(icu)デリリウム予測モデルは、デリリウムへの影響の強い証拠にもかかわらず、環境要因を考慮しない。 本研究は, 環境騒音と光情報のみを用いたICU患者に対する初回深層学習に基づくデリリウム予測モデルについて報告する。 2021年5月から2022年9月までに、Thunderboard、ActiGraphセンサー、AudioToolsアプリケーションを用いた102人のICU患者室から、環境光と雑音の強度を測定した。 これらの測定は昼間 (0700 - 1859) と夜間 (1900 - 0659) に分けられた。 深層学習モデルは、ICU滞在中または退院4日以内にデリリウムの発生を予測するために、このデータを用いて訓練された。 最後に,すべての特徴の重要性と方向性を評価するために,結果スコアを分析した。 夜間ノイズレベルは夜間ノイズレベルよりも有意に高かった。 auc=0.77, 0.74; 感度=0.60, 0.56; 特異度=0.74, 0.74; 精度=0.46, 0.40である。 AUC=0.80, Sensitivity=0.60, Specificity=0.77, Precision=0.37。 最高夜間と最低夜間の騒音レベルはそれぞれ,デリリウムの正および負の予測因子であった。 夜間光度は日中光度よりもデリリウムの強い予測値であった。 ICU滞在2日目と4日目の騒音特性よりも光特性の影響が大きかった。 本研究は, 環境光と騒音強度が, ICUにおける長期デリリウム発生の強い予測因子であることを示す。 昼と夜の環境要因がデリリウムに異なる影響を及ぼし、icu滞在期間中に光とノイズの重要性が変化することが明らかとなった。

Existing Intensive Care Unit (ICU) delirium prediction models do not consider environmental factors despite strong evidence of their influence on delirium. This study reports the first deep-learning based delirium prediction model for ICU patients using only ambient noise and light information. Ambient light and noise intensities were measured from ICU rooms of 102 patients from May 2021 to September 2022 using Thunderboard, ActiGraph sensors and an iPod with AudioTools application. These measurements were divided into daytime (0700 to 1859) and nighttime (1900 to 0659). Deep learning models were trained using this data to predict the incidence of delirium during ICU stay or within 4 days of discharge. Finally, outcome scores were analyzed to evaluate the importance and directionality of every feature. Daytime noise levels were significantly higher than nighttime noise levels. When using only noise features or a combination of noise and light features 1-D convolutional neural networks (CNN) achieved the strongest performance: AUC=0.77, 0.74; Sensitivity=0.60, 0.56; Specificity=0.74, 0.74; Precision=0.46, 0.40 respectively. Using only light features, Long Short-Term Memory (LSTM) networks performed best: AUC=0.80, Sensitivity=0.60, Specificity=0.77, Precision=0.37. Maximum nighttime and minimum daytime noise levels were the strongest positive and negative predictors of delirium respectively. Nighttime light level was a stronger predictor of delirium than daytime light level. Total influence of light features outweighed that of noise features on the second and fourth day of ICU stay. This study shows that ambient light and noise intensities are strong predictors of long-term delirium incidence in the ICU. It reveals that daytime and nighttime environmental factors might influence delirium differently and that the importance of light and noise levels vary over the course of an ICU stay.
翻訳日:2023-03-14 20:04:22 公開日:2023-03-11
# AI強化集中治療ユニット:広汎なセンシングによる患者ケアの革新

AI-Enhanced Intensive Care Unit: Revolutionizing Patient Care with Pervasive Sensing ( http://arxiv.org/abs/2303.06252v1 )

ライセンス: Link先を確認
Subhash Nerella, Ziyuan Guan, Scott Siegel, Jiaqing Zhang, Kia Khezeli, Azra Bihorac, Parisa Rashidi(参考訳) 集中治療室 (ICU) は、重篤な患者が集中治療や監視を受ける特別な病院空間である。 包括的モニタリングは患者の状態、特に明度、究極的にはケアの質を評価する上で不可欠である。 しかし、ICUにおける患者の監視範囲は、時間的制約と医療提供者の作業負荷によって制限されている。 現在、表情、姿勢、機動性などの細部を含む視力の視覚的評価は散発的に捉えられ、あるいは全く捉えられていない。 これらの手作業による観察は、個人にとって主観的であり、ドキュメントエラーを起こしやすく、追加のワークロードでケアプロバイダを過大評価します。 人工知能(AI)によって実現されたシステムは、異常な学習能力のために、患者の視覚的モニタリングとアセスメントを増強する可能性がある。 このようなシステムは、トレーニングに堅牢なアノテートデータを必要とする。 そこで本研究では,複数モードの深度画像,カラーRGB画像,加速度計,筋電図,音圧,光レベルからデータを収集し,連続的および粒度の計測,デリリウムリスク,痛み,移動性評価などのインテリジェントなモニタリングシステムを開発するために,広汎なセンシング・データ処理システムを開発した。 本稿では,患者のリアルタイムモニタリングと視覚的評価のために開発したIntelligent Intensive Care Unit (I2CU)システムアーキテクチャについて述べる。

The intensive care unit (ICU) is a specialized hospital space where critically ill patients receive intensive care and monitoring. Comprehensive monitoring is imperative in assessing patients conditions, in particular acuity, and ultimately the quality of care. However, the extent of patient monitoring in the ICU is limited due to time constraints and the workload on healthcare providers. Currently, visual assessments for acuity, including fine details such as facial expressions, posture, and mobility, are sporadically captured, or not captured at all. These manual observations are subjective to the individual, prone to documentation errors, and overburden care providers with the additional workload. Artificial Intelligence (AI) enabled systems has the potential to augment the patient visual monitoring and assessment due to their exceptional learning capabilities. Such systems require robust annotated data to train. To this end, we have developed pervasive sensing and data processing system which collects data from multiple modalities depth images, color RGB images, accelerometry, electromyography, sound pressure, and light levels in ICU for developing intelligent monitoring systems for continuous and granular acuity, delirium risk, pain, and mobility assessment. This paper presents the Intelligent Intensive Care Unit (I2CU) system architecture we developed for real-time patient monitoring and visual assessment.
翻訳日:2023-03-14 20:03:48 公開日:2023-03-11
# 量子ウォークにおけるセデンタリネス

Sedentariness in quantum walks ( http://arxiv.org/abs/2303.06297v1 )

ライセンス: Link先を確認
Hermie Monterde(参考訳) ゴッドシル (Linear Algebra Appl. 614:356-375, 2021] が導入したグラフのセジタリー族の概念を緩和し、グラフ内の与えられた頂点がセデンタリティを示すのに十分な条件を与える。 少なくとも2人の双子を持つ頂点(隣人を共有する頂点)が鎮静的であることを示す。 また、セジタリーである強いコスペクトルの頂点を含むグラフが無限に存在することを証明し、強いコスペクトル性がかなり良い状態転移の必要条件であるにもかかわらず、他の頂点への高い確率状態転移に抵抗する強いコスペクトルの頂点が存在することを示した。 さらに、グラフの積におけるセデンタリティの結果を導き、完全なグラフと星のカルテシアン力のような新しいセデンタリー族を構築することができる。

We present a relaxation of the concept of a sedentary family of graphs introduced by Godsil [Linear Algebra Appl. 614:356-375, 2021] and provide sufficient conditions for a given vertex in a graph to exhibit sedentariness. We show that a vertex with at least two twins (vertices that share the same neighbours) is sedentary. We also prove that there are infinitely many graphs containing strongly cospectral vertices that are sedentary, which reveals that, even though strong cospectrality is a necessary condition for pretty good state transfer, there are strongly cospectral vertices which resist high probability state transfer to other vertices. Moreover, we derive results about sedentariness in products of graphs which allow us to construct new sedentary families, such as Cartesian powers of complete graphs and stars.
翻訳日:2023-03-14 19:57:21 公開日:2023-03-11
# 注意エントロピー崩壊防止による変圧器訓練の安定化

Stabilizing Transformer Training by Preventing Attention Entropy Collapse ( http://arxiv.org/abs/2303.06296v1 )

ライセンス: Link先を確認
Shuangfei Zhai, Tatiana Likhomanenko, Etai Littwin, Dan Busbridge, Jason Ramapuram, Yizhe Zhang, Jiatao Gu, Josh Susskind(参考訳) トレーニングの安定性はトランスフォーマーにとって非常に重要です。 本研究では,注意層の進化を考察し,変圧器のトレーニングダイナミクスについて検討する。 特に,モデルシャープネスの指標であるトレーニング中の注意ヘッド毎の注意エントロピーを追跡する。 我々は,低い注意エントロピーと高いトレーニング不安定性が伴う異なるアーキテクチャやタスクにまたがる共通パターンを特定する。 我々は,高度に集中した注意スコアに対応する,病理的に低い注意エントロピーを$\textit{entropy collapse}$と表現した。 そこで我々は,スペクトル正規化と学習スカラーを付加してすべての線形層を再パラメータ化する,単純かつ効率的な解法である$\sigma$Reparamを提案する。 提案手法は注意層におけるエントロピー崩壊を防止し,より安定したトレーニングを促進する。 さらに,アテンションエントロピーの厳密な下限を証明し,アテンションロジットのスペクトルノルムに比例して指数関数的に減少し,我々のアプローチに新たなモチベーションを与える。 我々は、画像分類、画像自己教師付き学習、機械翻訳、自動音声認識、言語モデリングタスクに関する$\sigma$reparamの実験をトランスフォーマアーキテクチャ間で実施する。 我々は、$\sigma$Reparamがハイパーパラメータの選択に関して安定性と堅牢性を提供することを示した。 (a)ウォームアップ、重量減少、層正規化又は適応最適化を行わない競争性能へのビジョントランスフォーマ (b)機械翻訳における深層建築 (c)ウォームアップや適応オプティマイザのない競合性能への音声認識

Training stability is of great importance to Transformers. In this work, we investigate the training dynamics of Transformers by examining the evolution of the attention layers. In particular, we track the attention entropy for each attention head during the course of training, which is a proxy for model sharpness. We identify a common pattern across different architectures and tasks, where low attention entropy is accompanied by high training instability, which can take the form of oscillating loss or divergence. We denote the pathologically low attention entropy, corresponding to highly concentrated attention scores, as $\textit{entropy collapse}$. As a remedy, we propose $\sigma$Reparam, a simple and efficient solution where we reparametrize all linear layers with spectral normalization and an additional learned scalar. We demonstrate that the proposed reparameterization successfully prevents entropy collapse in the attention layers, promoting more stable training. Additionally, we prove a tight lower bound of the attention entropy, which decreases exponentially fast with the spectral norm of the attention logits, providing additional motivation for our approach. We conduct experiments with $\sigma$Reparam on image classification, image self-supervised learning, machine translation, automatic speech recognition, and language modeling tasks, across Transformer architectures. We show that $\sigma$Reparam provides stability and robustness with respect to the choice of hyperparameters, going so far as enabling training (a) a Vision Transformer to competitive performance without warmup, weight decay, layer normalization or adaptive optimizers; (b) deep architectures in machine translation and (c) speech recognition to competitive performance without warmup and adaptive optimizers.
翻訳日:2023-03-14 19:57:06 公開日:2023-03-11
# ストリーミングネットワーク埋め込みにおける空間不変射影

Space-Invariant Projection in Streaming Network Embedding ( http://arxiv.org/abs/2303.06293v1 )

ライセンス: Link先を確認
Yanwen Zhang, Huiwen Wang and Jichang Zhao(参考訳) ダイナミクスネットワークに新たに到着したノードは、ノード埋め込みスペースがドリフトし、ノード埋め込みと下流モデルの再トレーニングが不可欠になる。 しかし、これらの新しいノードの正確なしきい値サイズは、ノードの埋め込み空間が述語的に維持されるであろうが、理論や実験ではほとんど考慮されない。 行列摂動理論の観点からは、ノード埋め込み空間をほぼ等価に保つ新しいノードの最大数のしきい値が解析的に提供され、実証的に検証される。 したがって、新たに到着したノードのサイズがこのしきい値以下であるので、これらの新しいノードの埋め込みは、元のノードの埋め込みから素早く引き出すことができる。 生成フレームワークであるSpace-Invariant Projection (SIP) が提案され、任意の静的MFベースの埋め込みスキームが動的ネットワークに新しいノードを高速に埋め込むことを可能にする。 SIPの時間複雑性はネットワークサイズと線形である。 SIPと最先端の4つのMFベースのスキームを組み合わせることで、SIPは広範適応性だけでなく、3つの実データセットにおけるノード分類タスクの効率性と有効性にも優れた経験的性能を示すことを示す。

Newly arriving nodes in dynamics networks would gradually make the node embedding space drifted and the retraining of node embedding and downstream models indispensable. An exact threshold size of these new nodes, below which the node embedding space will be predicatively maintained, however, is rarely considered in either theory or experiment. From the view of matrix perturbation theory, a threshold of the maximum number of new nodes that keep the node embedding space approximately equivalent is analytically provided and empirically validated. It is therefore theoretically guaranteed that as the size of newly arriving nodes is below this threshold, embeddings of these new nodes can be quickly derived from embeddings of original nodes. A generation framework, Space-Invariant Projection (SIP), is accordingly proposed to enables arbitrary static MF-based embedding schemes to embed new nodes in dynamics networks fast. The time complexity of SIP is linear with the network size. By combining SIP with four state-of-the-art MF-based schemes, we show that SIP exhibits not only wide adaptability but also strong empirical performance in terms of efficiency and efficacy on the node classification task in three real datasets.
翻訳日:2023-03-14 19:56:37 公開日:2023-03-11
# マルチビュー揺らぎ検出:ノイズ免疫の影響分析の観点から

Multi-view shaker detection: Insights from a noise-immune influence analysis Perspective ( http://arxiv.org/abs/2303.06292v1 )

ライセンス: Link先を確認
Chang Liao(参考訳) ネットワークシステム内の他の組織に大きく影響するエンティティは、シェーカーと呼ばれる。 近年、進化する物質からそのような揺らぎを検出するモデルが提案されている。 しかし、限られた作業は、多くの現実世界の応用がある非常に短期的なシェーカー検出に焦点を当てている。 例えば金融市場では、投資家と知事の両方が急速な変化に迅速に対応できる。 短期的な設定では、従来の手法は限られたデータサンプルの問題に苦しめられ、シニカルな操作に敏感であり、信頼性の低い結果をもたらす。 幸いなことに、複数の属性進化レコードがあり、互換性があり補完的な情報を提供できる。 本稿では,短期多属性進化記録から信頼性のある影響を学習する方法を検討する。 我々は,複数の視点に一貫した影響を持つエンティティを,短期的にはマルチビューシェーカーと呼び,マルチビューシェーカー検出の新たな課題について検討する。 1) 短期的な揺らぎを共同で検出する方法、および異なる視点における相反する影響をモデル化する方法。 (2)頑健な影響推論のための各視点における突発的な影響関係のフィルタリング方法 これに対して,ノイズ・免疫的影響分析の観点から,ロバスト影響ネットワークと呼ばれる新しい解を提案する。 より具体的には、各視点から影響関係を学び、異なる視点から影響関係を中間表現に変換する。 その間に、一貫性のない、スプリアスなアウトリアーの両方を明らかにする。

Entities whose changes will significantly affect others in a networked system are called shakers. In recent years, some models have been proposed to detect such shaker from evolving entities. However, limited work has focused on shaker detection in very short term, which has many real-world applications. For example, in financial market, it can enable both investors and governors to quickly respond to rapid changes. Under the short-term setting, conventional methods may suffer from limited data sample problems and are sensitive to cynical manipulations, leading to unreliable results. Fortunately, there are multi-attribute evolution records available, which can provide compatible and complementary information. In this paper, we investigate how to learn reliable influence results from the short-term multi-attribute evolution records. We call entities with consistent influence among different views in short term as multi-view shakers and study the new problem of multi-view shaker detection. We identify the challenges as follows: (1) how to jointly detect short-term shakers and model conflicting influence results among different views? (2) how to filter spurious influence relation in each individual view for robust influence inference? In response, a novel solution, called Robust Influence Network from a noise-immune influence analysis perspective is proposed, where the possible outliers are well modelled jointly with multi-view shaker detection task. More specifically, we learn the influence relation from each view and transform influence relation from different views into an intermediate representation. In the meantime, we uncover both the inconsistent and spurious outliers.
翻訳日:2023-03-14 19:56:17 公開日:2023-03-11
# 機械学習によるハンケル動的モード分解

Machine Learning Enhanced Hankel Dynamic-Mode Decomposition ( http://arxiv.org/abs/2303.06289v1 )

ライセンス: Link先を確認
Christopher W. Curtis, D. Jay Alford-Lago, Erik Bollt, Andrew Tuma(参考訳) 時系列の取得はますます単純で洗練されたものになっているが、時系列から動的モデルを開発することは依然として困難な問題であり、常に進化している。 ここ数年、この問題に対処するために、動的モード分解(DMD)と呼ばれる機械学習ツールが統合されてきた。 この一般的なアプローチは、高度で正確なモデル開発のための特に有望な道であることが示されている。 この先行研究に基づいて,takesの埋め込み定理の基本的な知見を活かし,高次元およびカオス力学をよりよく捉える適応学習スキームを開発することを目的とした,ディープラーニングdmdベース手法を開発した。 我々はこの手法をDeep Learning Hankel DMD (DLHDMD)と呼ぶ。 dlhdmd はカオス時系列の正確なダイナミクスを生成できることを示し,また,学習を成功させた後,ダイナミックスにおける次元間の相互情報に大きな変化をもたらすマッピングを学習する方法についても検討した。 これはdmd全体を拡張するための重要な機能であり、時系列予測のためのより洗練されたディープラーニング手法を開発する上で、さらなる洞察を提供するのに役立つだろう。

While the acquisition of time series has become increasingly more straightforward and sophisticated, developing dynamical models from time series is still a challenging and ever evolving problem domain. Within the last several years, to address this problem, there has been a merging of machine learning tools with what is called the dynamic mode decomposition (DMD). This general approach has been shown to be an especially promising avenue for sophisticated and accurate model development. Building on this prior body of work, we develop a deep learning DMD based method which makes use of the fundamental insight of Takens' Embedding Theorem to develop an adaptive learning scheme that better captures higher dimensional and chaotic dynamics. We call this method the Deep Learning Hankel DMD (DLHDMD). We show that the DLHDMD is able to generate accurate dynamics for chaotic time series, and we likewise explore how our method learns mappings which tend, after successful training, to significantly change the mutual information between dimensions in the dynamics. This appears to be a key feature in enhancing the DMD overall, and it should help provide further insight for developing more sophisticated deep learning methods for time series forecasting.
翻訳日:2023-03-14 19:55:52 公開日:2023-03-11
# DeltaEdit: テキスト駆動イメージ操作のためのテキストフリートレーニング

DeltaEdit: Exploring Text-free Training for Text-Driven Image Manipulation ( http://arxiv.org/abs/2303.06285v1 )

ライセンス: Link先を確認
Yueming Lyu, Tianwei Lin, Fu Li, Dongliang He, Jing Dong, Tieniu Tan(参考訳) テキスト駆動の画像操作は、トレーニングや推論の柔軟性において依然として難しい。 条件生成モデルは高価な注釈付きトレーニングデータに大きく依存する。 一方、事前訓練された視覚言語モデルを利用する最近のフレームワークは、テキストプロンプト最適化または推論時ハイパーパラメータチューニングによって制限されている。 本研究では,これらの問題に対処する新しいフレームワークであるtextit{DeltaEdit}を提案する。 私たちのキーとなるアイデアは、CLIPの視覚的特徴差と、ソースとターゲットのテキストのテキスト埋め込み差との間によく整合した分布を持つデルタ画像とテキスト空間を調査・同定することである。 CLIPデルタ空間に基づいて、DeltaEditネットワークは、CLIPの視覚的特徴の違いをトレーニングフェーズにおけるStyleGANの編集方向にマッピングするように設計されている。 そして、推測フェーズにおいて、DeltaEditはCLIPテキスト機能の違いからStyleGANの編集方向を予測する。 このように、DeltaEditはテキストフリーでトレーニングされる。 一度訓練すると、ベルや笛なしでゼロショット推論のために様々なテキストプロンプトにうまく一般化できる。 コードはhttps://github.com/Yueming6568/DeltaEditで入手できる。

Text-driven image manipulation remains challenging in training or inference flexibility. Conditional generative models depend heavily on expensive annotated training data. Meanwhile, recent frameworks, which leverage pre-trained vision-language models, are limited by either per text-prompt optimization or inference-time hyper-parameters tuning. In this work, we propose a novel framework named \textit{DeltaEdit} to address these problems. Our key idea is to investigate and identify a space, namely delta image and text space that has well-aligned distribution between CLIP visual feature differences of two images and CLIP textual embedding differences of source and target texts. Based on the CLIP delta space, the DeltaEdit network is designed to map the CLIP visual features differences to the editing directions of StyleGAN at training phase. Then, in inference phase, DeltaEdit predicts the StyleGAN's editing directions from the differences of the CLIP textual features. In this way, DeltaEdit is trained in a text-free manner. Once trained, it can well generalize to various text prompts for zero-shot inference without bells and whistles. Code is available at https://github.com/Yueming6568/DeltaEdit.
翻訳日:2023-03-14 19:55:33 公開日:2023-03-11
# 経済グラフに基づく地域開発力の展望:分類から Scoring へ

Prospecting Community Development Strength based on Economic Graph: From Categorization to Scoring ( http://arxiv.org/abs/2303.06284v1 )

ライセンス: Link先を確認
Chang Liao(参考訳) 近年、地域社会の特徴に関する研究が盛んに行われている。 地域開発を評価するためのカテゴリー的施策(上昇または減少)に関する大規模な研究とは対照的に,地域開発力(上昇または減少の程度)を見積もることを提案する。 より具体的には、コミュニティ開発に関する既に知られている分類情報を考えると、私たちはコミュニティ開発の強さを定量化しようとしています。 コミュニティ間のネットワーク上での大規模データの可用性向上に動機づけられ,コミュニティの開発力を評価する方法について検討した。 我々は,コミュニティ開発力の定量化におけるエンティティマルチリレーショナルネットワークの統合のための限定的なガイダンス,(2)コミュニティ開発力がネットワーク形成にもたらす選択効果の存在,という2つの課題を,マルチリレーショナルネットワーク情報に基づく分類からコミュニティ開発力の予測として正式に定義する。 これらの課題を踏まえ、我々は、マルチリレーショナルネットワークベースのコミュニティ開発強度定量化における差別的および生成的アプローチのハイブリッドから始める。 そして、ネットワーク生成プロセスを利用して、選択プロセスが劣化する。 最後に,企業における事業発展の強さを定量化するために,提案モデルを適用して実証的に評価する。 実験の結果,提案手法の有効性が示された。

Recent years have witnessed a growing number of researches on community characterization. In contrast to the large body of researches on the categorical measures (rise or decline) for evaluating the community development, we propose to estimate the community development strength (to which degree the rise or decline is). More specifically, given already known categorical information of community development, we are attempting to quantify the community development strength, which is of great interest. Motivated by the increasing availability of large-scale data on the network between entities among communities, we investigate how to score the the community's development strength. We formally define our task as prospecting community development strength from categorization based on multi-relational network information and identify two challenges as follows: (1) limited guidance for integrating entity multi-relational network in quantifying the community development strength; (2) the existence of selection effect that the community development strength has on network formation. Aiming at these challenges, we start by a hybrid of discriminative and generative approaches on multi-relational network-based community development strength quantification. Then a network generation process is exploited to debias the selection process. In the end, we empirically evaluate the proposed model by applying it to quantify enterprise business development strength. Experimental results demonstrate the effectiveness of the proposed method.
翻訳日:2023-03-14 19:55:15 公開日:2023-03-11
# ブラックボックス反対事例に対する国家防衛調査

Investigating Stateful Defenses Against Black-Box Adversarial Examples ( http://arxiv.org/abs/2303.06280v1 )

ライセンス: Link先を確認
Ryan Feng, Ashish Hooda, Neal Mangaokar, Kassem Fawaz, Somesh Jha, Atul Prakash(参考訳) ホワイトボックス攻撃に対する機械学習(ML)モデルの防御は極めて困難であることが証明された。 代わりに、近年の研究は、より制限されたブラックボックス攻撃から防御するために、ステートフルな防御を提案している。 これらの防御策は、入力されたモデルクエリの履歴を追跡し、疑わしいほど類似しているものを拒否することで機能する。 現在の最先端のステートフルディフェンスであるBlacklightは、USENIX Security '22で提案され、CIFAR10とImageNetの両方のデータセットに対する攻撃の100%を防止した。 本稿では,既存のブラックボックス攻撃のパラメータを単純に調整することで,攻撃者がブラックライト保護型分類器(例えば,CIFAR10では82.2%から6.4%)の精度を大幅に低減できることを示す。 この驚くべき観察に動機づけられ、既存の攻撃はblacklightの著者によって評価されたため、既存のステートフルな防御モデルがなぜ失敗したのかを理解するために、ステートフルな防御の体系化を提供する。 最後に,アダプティブスコアとハードラベルベースのブラックボックス攻撃からなるステートフル防御に対するより強力な評価戦略を提案する。 これらの攻撃を利用して、再構成されたBlacklightのバージョンさえも、0%の堅牢な精度で削減できるのです。

Defending machine-learning (ML) models against white-box adversarial attacks has proven to be extremely difficult. Instead, recent work has proposed stateful defenses in an attempt to defend against a more restricted black-box attacker. These defenses operate by tracking a history of incoming model queries, and rejecting those that are suspiciously similar. The current state-of-the-art stateful defense Blacklight was proposed at USENIX Security '22 and claims to prevent nearly 100% of attacks on both the CIFAR10 and ImageNet datasets. In this paper, we observe that an attacker can significantly reduce the accuracy of a Blacklight-protected classifier (e.g., from 82.2% to 6.4% on CIFAR10) by simply adjusting the parameters of an existing black-box attack. Motivated by this surprising observation, since existing attacks were evaluated by the Blacklight authors, we provide a systematization of stateful defenses to understand why existing stateful defense models fail. Finally, we propose a stronger evaluation strategy for stateful defenses comprised of adaptive score and hard-label based black-box attacks. We use these attacks to successfully reduce even reconfigured versions of Blacklight to as low as 0% robust accuracy.
翻訳日:2023-03-14 19:54:52 公開日:2023-03-11
# spotr:人間の運動予測のための時空間ポーズトランスフォーマー

SPOTR: Spatio-temporal Pose Transformers for Human Motion Prediction ( http://arxiv.org/abs/2303.06277v1 )

ライセンス: Link先を確認
Avinash Ajit Nargund and Misha Sra(参考訳) 人間の3D動作予測はコンピュータビジョンにおける高い重要性と課題の研究領域である。 これはロボット工学や自動運転を含む多くのアプリケーションの設計に有用である。 伝統的に、自己回帰モデルは人間の動きを予測するために用いられてきた。 しかし、これらのモデルには高い計算要求とエラー蓄積があり、リアルタイムアプリケーションでは使用が困難である。 本稿では,人間の運動予測のための非自律モデルを提案する。 我々は,未来的運動の生成のために非回帰的に時空間表現を学習することに集中する。 本稿では,最近提案されたトランスフォーマーを利用した新しいアーキテクチャを提案する。 人間の動きは複雑な時空間的ダイナミクスを伴い、関節は直接接続されていなくても互いの位置と回転に影響を与える。 提案モデルは畳み込みと自己着脱機構の両方を用いてこれらのダイナミクスを抽出する。 コンボリューションによって抽出された特徴を増強するために、特殊空間的・時間的自己アテンションを用いることで、我々のモデルは活動と平行して時空間的コヒーレントな予測を生成できる。 私たちの貢献は3倍です 一 人間の動作予測をシーケンス・ツー・シーケンス問題とみなし、ポーズの列を並列に予測する非自己回帰変換器を提案する。 (ii)この方法は活動非依存である。 3) 単純さにもかかわらず,我々のアプローチでは,パラメータがはるかに少なく,推論がはるかに高速な2つの公開データセットにおいて,最先端あるいは同等の結果が得られることを示す。

3D human motion prediction is a research area of high significance and a challenge in computer vision. It is useful for the design of many applications including robotics and autonomous driving. Traditionally, autogregressive models have been used to predict human motion. However, these models have high computation needs and error accumulation that make it difficult to use them for realtime applications. In this paper, we present a non-autogressive model for human motion prediction. We focus on learning spatio-temporal representations non-autoregressively for generation of plausible future motions. We propose a novel architecture that leverages the recently proposed Transformers. Human motion involves complex spatio-temporal dynamics with joints affecting the position and rotation of each other even though they are not connected directly. The proposed model extracts these dynamics using both convolutions and the self-attention mechanism. Using specialized spatial and temporal self-attention to augment the features extracted through convolution allows our model to generate spatio-temporally coherent predictions in parallel independent of the activity. Our contributions are threefold: (i) we frame human motion prediction as a sequence-to-sequence problem and propose a non-autoregressive Transformer to forecast a sequence of poses in parallel; (ii) our method is activity agnostic; (iii) we show that despite its simplicity, our approach is able to make accurate predictions, achieving better or comparable results compared to the state-of-the-art on two public datasets, with far fewer parameters and much faster inference.
翻訳日:2023-03-14 19:54:30 公開日:2023-03-11
# 構造型エンコーダと事前学習によるタンパク質言語モデルの強化

Enhancing Protein Language Models with Structure-based Encoder and Pre-training ( http://arxiv.org/abs/2303.06275v1 )

ライセンス: Link先を確認
Zuobai Zhang, Minghao Xu, Vijil Chenthamarakshan, Aur\'elie Lozano, Payel Das, Jian Tang(参考訳) 大規模タンパク質配列コーパスで事前訓練されたタンパク質言語モデル(PLMs)は、下流タンパク質理解タスクにおいて顕著な性能を発揮した。 トランスフォーマーベースのplmは、暗黙的にresidueコンタクト情報を取得する能力があるにもかかわらず、タンパク質構造を明示的にエンコードすることはできない。 さらに、これらのPLMを改善するために、利用可能なタンパク質構造に対する事前学習の力は検討されていないが、機能決定には構造が重要である。 これらの制約に対処するため,本研究では,構造ベースのエンコーダとプリトレーニングによりplmを強化する。 まず,最先端のplm(esm-1b1)と最先端のタンパク質構造エンコーダ(gearnet)の利点を組み合わせるために,実現可能なモデルアーキテクチャを検討する。 2つのエンコーダを連続的に接続するESM-GearNetを,最も効果的な組合せモデルとして実証的に検証する。 ESM-GearNetの有効性をさらに向上するために, 比較学習による大規模未ラベルタンパク質構造を事前学習し, 共起サブシーケンスの表現を協調させてそれらの生物学的相関を捉える。 EC および GO タンパク質関数予測ベンチマークの大規模な実験は、以前の PLM や構造エンコーダよりも ESM-GearNet の方が優れていることを示した。 実装はhttps://github.com/deepgraphlearning/gearnetで利用可能です。

Protein language models (PLMs) pre-trained on large-scale protein sequence corpora have achieved impressive performance on various downstream protein understanding tasks. Despite the ability to implicitly capture inter-residue contact information, transformer-based PLMs cannot encode protein structures explicitly for better structure-aware protein representations. Besides, the power of pre-training on available protein structures has not been explored for improving these PLMs, though structures are important to determine functions. To tackle these limitations, in this work, we enhance the PLMs with structure-based encoder and pre-training. We first explore feasible model architectures to combine the advantages of a state-of-the-art PLM (i.e., ESM-1b1) and a state-of-the-art protein structure encoder (i.e., GearNet). We empirically verify the ESM-GearNet that connects two encoders in a series way as the most effective combination model. To further improve the effectiveness of ESM-GearNet, we pre-train it on massive unlabeled protein structures with contrastive learning, which aligns representations of co-occurring subsequences so as to capture their biological correlation. Extensive experiments on EC and GO protein function prediction benchmarks demonstrate the superiority of ESM-GearNet over previous PLMs and structure encoders, and clear performance gains are further achieved by structure-based pre-training upon ESM-GearNet. Our implementation is available at https://github.com/DeepGraphLearning/GearNet.
翻訳日:2023-03-14 19:54:08 公開日:2023-03-11
# 保存されたニューロンは1つのニューロンである:二次ネットワークのパラメトリック効率について

One Neuron Saved Is One Neuron Earned: On Parametric Efficiency of Quadratic Networks ( http://arxiv.org/abs/2303.06316v1 )

ライセンス: Link先を確認
Feng-Lei Fan, Hang-Cheng Dong, Zhongming Wu, Lecheng Ruan, Tieyong Zeng, Yiming Cui, Jing-Xiao Liao(参考訳) 生体神経系の神経細胞多様性に触発されて、新しいタイプの人工ニューロンを設計し、ニューラルネットワークにニューロン多様性を導入するために多くの研究が提案された。 最近提案された2次ニューロンは、従来のニューロンの内積操作を2次ニューロンに置き換え、多くの重要なタスクで大きな成功を収めた。 二次ニューロンの有望な結果にもかかわらず、未解決の問題がある: \textit{Is the superior performance of quadratic network just due the increase parameters or the intrinsic expressive capabilities? この問題を明確にすることなく、二次ネットワークの性能は常に疑わしい。 さらに、この問題の解決は二次ネットワークのキラーアプリケーションの発見に還元される。 本稿では,理論および実証的な研究により,二次ネットワークがパラメトリック効率を保ち,二次ネットワークの優れた性能は内在的な表現能力によるものであることを示す。 この内在的な表現能力は、通常のニューロンでは難しいが、二次ニューロンは容易に非線形相互作用を表現できるからである。 理論的には、実空間と多様体の観点から従来の2次ネットワークの近似効率を導出する。 さらに、バロン空間の観点からは、次元自由誤差で二次ネットワークで近似できる関数空間が存在するが、従来のネットワークの近似誤差は次元に依存する。 経験的に、合成データ、古典的ベンチマーク、実世界の応用に関する実験の結果、二次モデルはパラメトリックな効率を広く享受し、効率の獲得はタスクに依存する。

Inspired by neuronal diversity in the biological neural system, a plethora of studies proposed to design novel types of artificial neurons and introduce neuronal diversity into artificial neural networks. Recently proposed quadratic neuron, which replaces the inner-product operation in conventional neurons with a quadratic one, have achieved great success in many essential tasks. Despite the promising results of quadratic neurons, there is still an unresolved issue: \textit{Is the superior performance of quadratic networks simply due to the increased parameters or due to the intrinsic expressive capability?} Without clarifying this issue, the performance of quadratic networks is always suspicious. Additionally, resolving this issue is reduced to finding killer applications of quadratic networks. In this paper, with theoretical and empirical studies, we show that quadratic networks enjoy parametric efficiency, thereby confirming that the superior performance of quadratic networks is due to the intrinsic expressive capability. This intrinsic expressive ability comes from that quadratic neurons can easily represent nonlinear interaction, while it is hard for conventional neurons. Theoretically, we derive the approximation efficiency of the quadratic network over conventional ones in terms of real space and manifolds. Moreover, from the perspective of the Barron space, we demonstrate that there exists a functional space whose functions can be approximated by quadratic networks in a dimension-free error, but the approximation error of conventional networks is dependent on dimensions. Empirically, experimental results on synthetic data, classic benchmarks, and real-world applications show that quadratic models broadly enjoy parametric efficiency, and the gain of efficiency depends on the task.
翻訳日:2023-03-14 19:48:40 公開日:2023-03-11
# DETA:Few-Shot Learningのためのタスク適応

DETA: Denoised Task Adaptation for Few-Shot Learning ( http://arxiv.org/abs/2303.06315v1 )

ライセンス: Link先を確認
Ji Zhang, Lianli Gao, Xu Luo, Hengtao Shen and Jingkuan Song(参考訳) 少数ショット学習におけるテスト時間タスク適応(test-time task adaptation)は、事前学習されたタスク非依存モデルを適用して、テストタスクのタスク固有の知識をキャプチャすることを目的としている。 従来のアプローチは一般的に、与えられたサポートサンプルの固有の問題を無視しながら、目標を達成するための高度なアルゴリズムの開発に重点を置いている。 実際、少数のサンプルしか利用できないため、サポートサンプルからの画像ノイズ(xノイズ)またはラベルノイズ(yノイズ)の悪影響を著しく増幅することができる。 この課題に対処するため,本研究では,既存のタスク適応アプローチと直交する,画像とラベルの統一化フレームワークであるdennoized task adaptation (deta)を提案する。 余分な監督なしに、DETAは、グローバルな視覚情報とサポートサンプルの地域詳細の両方を活用することで、タスク非関連でノイズの多い表現をフィルタリングする。 難しいメタデータセットでは、detaは様々な事前学習されたモデルに適用される幅広いベースラインメソッドのパフォーマンスを一貫して改善する。 特に、メタデータセットで見過ごされた画像ノイズに取り組むことで、detaは新しい最先端の結果を確立します。 コードはhttps://github.com/nobody-1617/detaでリリースされる。

Test-time task adaptation in few-shot learning aims to adapt a pre-trained task-agnostic model for capturing taskspecific knowledge of the test task, rely only on few-labeled support samples. Previous approaches generally focus on developing advanced algorithms to achieve the goal, while neglecting the inherent problems of the given support samples. In fact, with only a handful of samples available, the adverse effect of either the image noise (a.k.a. X-noise) or the label noise (a.k.a. Y-noise) from support samples can be severely amplified. To address this challenge, in this work we propose DEnoised Task Adaptation (DETA), a first, unified image- and label-denoising framework orthogonal to existing task adaptation approaches. Without extra supervision, DETA filters out task-irrelevant, noisy representations by taking advantage of both global visual information and local region details of support samples. On the challenging Meta-Dataset, DETA consistently improves the performance of a broad spectrum of baseline methods applied on various pre-trained models. Notably, by tackling the overlooked image noise in Meta-Dataset, DETA establishes new state-of-the-art results. Code is released at https://github.com/nobody-1617/DETA.
翻訳日:2023-03-14 19:48:14 公開日:2023-03-11
# IoTシステムにおける非IIDデータによるフェデレーション学習の安定化と改善

Stabilizing and Improving Federated Learning with Non-IID Data and Client Dropout in IoT Systems ( http://arxiv.org/abs/2303.06314v1 )

ライセンス: Link先を確認
Jian Xu, Meiling Yang, Wenbo Ding, Shao-Lun Huang(参考訳) フェデレートラーニング(Federated Learning)は、プライベートデータを公開せずに分散化したクライアント上でディープモデルをトレーニングするための新興技術である。 この課題は、参加するクライアントが不安定な状況にあり、頻繁にドロップアウトする場合にさらに深刻になる可能性がある。 従来の研究と経験的観察から,分類作業用分類器ヘッドはラベルスキューに敏感であり,FedAvgの不安定な性能は,主に異なるクラスにわたる不均衡なトレーニングサンプルにあることが示された。 バイアス付き分類器ヘッドは、特徴表現の学習にも影響を与える。 したがって、より良いグローバルモデルを構築する上で、バランスの取れた分類器ヘッドを維持することが重要である。 この問題に対処するために,クロスエントロピー損失を計算するための事前校正ソフトマックス関数と,エッジデバイスに軽量でグローバルモデルアグリゲーションが容易なローカルトレーニングを再バランスするプロトタイプベースの機能拡張スキームを導入することで,シンプルで効果的なフレームワークを提案する。 FashionMNIST と CIFAR-10 データセットを用いた広範囲な実験により,IID 以外のデータやクライアントのドロップアウトの存在下で,既存のベースラインよりも優れたモデル性能を示す。

Federated learning is an emerging technique for training deep models over decentralized clients without exposing private data, which however suffers from label distribution skew and usually results in slow convergence and degraded model performance. This challenge could be more serious when the participating clients are in unstable circumstances and dropout frequently. Previous work and our empirical observations demonstrate that the classifier head for classification task is more sensitive to label skew and the unstable performance of FedAvg mainly lies in the imbalanced training samples across different classes. The biased classifier head will also impact the learning of feature representations. Therefore, maintaining a balanced classifier head is of significant importance for building a better global model. To tackle this issue, we propose a simple yet effective framework by introducing a prior-calibrated softmax function for computing the cross-entropy loss and a prototype-based feature augmentation scheme to re-balance the local training, which are lightweight for edge devices and can facilitate the global model aggregation. With extensive experiments performed on FashionMNIST and CIFAR-10 datasets, we demonstrate the improved model performance of our method over existing baselines in the presence of non-IID data and client dropout.
翻訳日:2023-03-14 19:47:52 公開日:2023-03-11
# EXO-200におけるシンチレーション信号シミュレーションのための生成逆ネットワーク

Generative Adversarial Networks for Scintillation Signal Simulation in EXO-200 ( http://arxiv.org/abs/2303.06311v1 )

ライセンス: Link先を確認
S. Li, I. Ostrovskiy, Z. Li, L. Yang, S. Al Kharusi, G. Anton, I. Badhrees, P.S. Barbeau, D. Beck, V. Belov, T. Bhatta, M. Breidenbach, T. Brunner, G.F. Cao, W.R. Cen, C. Chambers, B. Cleveland, M. Coon, A. Craycraft, T. Daniels, L. Darroch, S.J. Daugherty, J. Davis, S. Delaquis, A. Der Mesrobian-Kabakian, R. DeVoe, J. Dilling, A. Dolgolenko, M.J. Dolinski, J. Echevers, W. Fairbank Jr., D. Fairbank, J. Farine, S. Feyzbakhsh, P. Fierlinger, Y.S. Fu, D. Fudenberg, P. Gautam, R. Gornea, G. Gratta, C. Hall, E.V. Hansen, J. Hoessl, P. Hufschmidt, M. Hughes, A. Iverson, A. Jamil, C. Jessiman, M.J. Jewell, A. Johnson, A. Karelin, L.J. Kaufman, T. Koffas, R. Kr\"ucken, A. Kuchenkov, K.S. Kumar, Y. Lan, A. Larson, B.G. Lenardo, D.S. Leonard, G.S. Li, C. Licciardi, Y.H. Lin, R. MacLellan, T. McElroy, T. Michel, B. Mong, D.C. Moore, K. Murray, O. Njoya, O. Nusair, A. Odian, A. Perna, A. Piepke, A. Pocar, F. Reti\`ere, A.L. Robinson, P.C. Rowson, J. Runge, S. Schmidt, D. Sinclair, K. Skarpaas, A.K. Soma, V. Stekhanov, M. Tarka, S. Thibado, J. Todd, T. Tolba, T.I. Totev, R. Tsang(参考訳) シミュレーションまたは実際のイベントのサンプルでトレーニングされた生成的逆ネットワークは、計算コストを低減した大規模なシミュレーションデータセットを生成する方法として提案されている。 本研究は,EXO-200実験における時間投影チャンバーからの光検出器信号のシミュレーションを行うための新しい手法である。 この手法はWasserstein Generative Adversarial Networkに基づいており、与えられたオブジェクトの集合に対する集団分布の暗黙的な非パラメトリック推定を可能にするディープラーニング技術である。 本ネットワークは生シンチレーション波形を入力として実校正データに基づいて学習する。 従来のシミュレーション手法よりも桁違いに高速に高品質なシミュレーション波形を生成でき、さらに、トレーニングサンプルから一般化し、データの健全な高次特徴を識別できることが判明した。 特に、ネットワークは検出器内のシンチレーション光応答の位置依存性を正しく導き、死んだ光検出器チャネルを正しく認識する。 ネットワーク出力はEXO-200分析フレームワークに統合され、標準的なEXO-200再構成ルーチンがシミュレーション波形を処理して実波形に匹敵するエネルギー分布を生成することを示す。 最後に、残りの相違点と、アプローチをさらに改善する潜在的な方法を強調します。

Generative Adversarial Networks trained on samples of simulated or actual events have been proposed as a way of generating large simulated datasets at a reduced computational cost. In this work, a novel approach to perform the simulation of photodetector signals from the time projection chamber of the EXO-200 experiment is demonstrated. The method is based on a Wasserstein Generative Adversarial Network - a deep learning technique allowing for implicit non-parametric estimation of the population distribution for a given set of objects. Our network is trained on real calibration data using raw scintillation waveforms as input. We find that it is able to produce high-quality simulated waveforms an order of magnitude faster than the traditional simulation approach and, importantly, generalize from the training sample and discern salient high-level features of the data. In particular, the network correctly deduces position dependency of scintillation light response in the detector and correctly recognizes dead photodetector channels. The network output is then integrated into the EXO-200 analysis framework to show that the standard EXO-200 reconstruction routine processes the simulated waveforms to produce energy distributions comparable to that of real waveforms. Finally, the remaining discrepancies and potential ways to improve the approach further are highlighted.
翻訳日:2023-03-14 19:47:28 公開日:2023-03-11
# 運転者の眠気検出システム:機械学習によるアプローチ

Driver Drowsiness Detection System: An Approach By Machine Learning Application ( http://arxiv.org/abs/2303.06310v1 )

ライセンス: Link先を確認
Jagbeer Singh, Ritika Kanojia, Rishika Singh, Rishita Bansal, Sakshi Bansal(参考訳) 人的死傷の大部分は交通事故によるものである。 世界保健機関(who)によると、毎年100万人が交通事故で死亡している。 十分な睡眠、休息、疲れを感じていないドライバーは、車輪の後ろで眠り、自分自身と他の道路利用者の両方を危険に晒すことがある。 道路事故の研究は、運転中の眠気によって大きな道路事故が発生することを明記した。 最近では、疲れた運転が眠気を引き起こす主な原因であることが観察されている。 今では、道路事故の増加のための主要な原則となっている。 これは、できるだけ早く解決することが非常に重要である世界の大きな問題になります。 すべてのデバイスの主な目標は、リアルタイムに眠気を検出するパフォーマンスを改善することである。 多くのデバイスは、異なる人工知能アルゴリズムに依存する眠気を検出するために開発された。 そこで本研究では,ドライバの眠気検出にも関係しており,顔の識別と視線追跡によってドライバの眠気を識別できる。 抽出されたアイイメージは、システムによってデータセットにマッチする。 システムはデータセットの助けを借りて、もし目が一定の範囲に近かったら、ドライバーに警告を鳴らすために警報を鳴らし、もし目が警告の後に開いていれば、追跡を続けることができることを検知した。 目が開いていると、設定したスコアが減少し、目を閉じるとスコアが増加する。 本稿では,80%の精度で眠気検知の問題を解決することに注力し,道路事故の低減に寄与する。

The majority of human deaths and injuries are caused by traffic accidents. A million people worldwide die each year due to traffic accident injuries, consistent with the World Health Organization. Drivers who do not receive enough sleep, rest, or who feel weary may fall asleep behind the wheel, endangering both themselves and other road users. The research on road accidents specified that major road accidents occur due to drowsiness while driving. These days, it is observed that tired driving is the main reason to occur drowsiness. Now, drowsiness becomes the main principle for to increase in the number of road accidents. This becomes a major issue in a world which is very important to resolve as soon as possible. The predominant goal of all devices is to improve the performance to detect drowsiness in real time. Many devices were developed to detect drowsiness, which depend on different artificial intelligence algorithms. So, our research is also related to driver drowsiness detection which can identify the drowsiness of a driver by identifying the face and then followed by eye tracking. The extracted eye image is matched with the dataset by the system. With the help of the dataset, the system detected that if eyes were close for a certain range, it could ring an alarm to alert the driver and if the eyes were open after the alert, then it could continue tracking. If the eyes were open then the score that we set decreased and if the eyes were closed then the score increased. This paper focus to resolve the problem of drowsiness detection with an accuracy of 80% and helps to reduce road accidents.
翻訳日:2023-03-14 19:47:08 公開日:2023-03-11
# バーチャルマウスとアシスタント:人工知能のテクノロジー革命

Virtual Mouse And Assistant: A Technological Revolution Of Artificial Intelligence ( http://arxiv.org/abs/2303.06309v1 )

ライセンス: Link先を確認
Jagbeer Singh, Yash Goel, Shubhi Jain, Shiva Yadav(参考訳) 本研究の目的は,仮想アシスタントの性能を向上させることである。 つまり、バーチャルアシスタントとは何か。 アプリケーションソフトウェア(英語: application software)は、aiアシスタントまたはデジタルアシスタントとしても知られる仮想アシスタントと呼ばれ、自然言語音声コマンドを理解し、あなたの代わりにタスクを実行するソフトウェアである。 バーチャルアシスタントは何をするのか。 仮想アシスタントは、自分のスマートフォンやPCのアクティビティを実際に完了させることができ、リストは継続的に拡大している。 バーチャルアシスタントは通常、会議のスケジュール、メッセージの配信、天気のモニタリングなど、印象的なタスクをこなす。 これまでGoogle AssistantやCortanaのようなバーチャルアシスタントは、検索のみを実行でき、完全に自動化されていないという制限があった。 例えば、これらのエンジンは、曲のコントロール機能を維持するために、曲を前進させて巻き戻す機能を持たず、曲を検索して再生するモジュールしか持たない。 現在私たちは、このプロジェクトの機能を改善するために、google、youtube、その他多くの新機能を自動化しているプロジェクトに取り組んでいます。 さて、プロセスを単純化するために、カーソルコントロールとクリックにのみ使用できる仮想マウスを追加しました。 カメラから入力を受け取り、インデックスフィンガーはマウスの先端、中指は右クリックなどとして機能します。

The purpose of this paper is to enhance the performance of the virtual assistant. So, what exactly is a virtual assistant. Application software, often called virtual assistants, also known as AI assistants or digital assistants, is software that understands natural language voice commands and can perform tasks on your behalf. What does a virtual assistant do. Virtual assistants can complete practically any specific smartphone or PC activity that you can complete on your own, and the list is continually expanding. Virtual assistants typically do an impressive variety of tasks, including scheduling meetings, delivering messages, and monitoring the weather. Previous virtual assistants, like Google Assistant and Cortana, had limits in that they could only perform searches and were not entirely automated. For instance, these engines do not have the ability to forward and rewind the song in order to maintain the control function of the song; they can only have the module to search for songs and play them. Currently, we are working on a project where we are automating Google, YouTube, and many other new things to improve the functionality of this project. Now, in order to simplify the process, we've added a virtual mouse that can only be used for cursor control and clicking. It receives input from the camera, and our index finger acts as the mouse tip, our middle finger as the right click, and so forth.
翻訳日:2023-03-14 19:46:44 公開日:2023-03-11
# ブロックチェーンベースの分散投票システムセキュリティの展望:デジタル投票システムの安全性と安全性

Blockchain-based decentralized voting system security Perspective: Safe and secure for digital voting system ( http://arxiv.org/abs/2303.06306v1 )

ライセンス: Link先を確認
Jagbeer Singh, Utkarsh Rastogi, Yash Goel, Brijesh Gupta, Utkarsh(参考訳) 本研究は主にブロックチェーンベースの投票システムに着目し,投票者,候補者,役人に対する投票への参加と管理を促進する。 バックエンドでブロックチェーンを使い、誰でも投票詐欺を追跡できるようにしているので、私たちのシステムは驚くほど安全です。 本論文は, aadhar カード番号や otp が生成されるというユニークな識別にアプローチし, 投票システムを利用して投票を行う。 A proposal for Bit-coin, a virtual currency system that is decided by a central authority for producing money, transferring ownership, and validating transactions, included the peer-to-peer network in a Block-Chain system, the ledger is duplicated across several, identical databases which is hosted and updated by a different process and all other nodes are updated concurrently if changes made to one node and a transaction occurs, the records of the values and assets are permanently exchanged, Only the user and the system need to be verified no other authentication required. ブロックチェーンベースのシステムで実行されるトランザクションが、安全で検証可能、透過的でありながら、数秒で解決される場合。 ブロックチェーン技術はビットコインやその他のデジタル通貨の基盤であるが、他の多くの分野における困難を大幅に減らすために広く使われる可能性があるが、投票は、トランザクションが分散かつ安全な方法で保持されているという事実にもかかわらず、セキュリティ、集中権、管理権の欠如などと戦っている分野である。

This research study focuses primarily on Block-Chain-based voting systems, which facilitate participation in and administration of voting for voters, candidates, and officials. Because we used Block-Chain in the backend, which enables everyone to trace vote fraud, our system is incredibly safe. This paper approach any unique identification the Aadhar Card number or an OTP will be generated then user can utilise the voting system to cast his/her vote. A proposal for Bit-coin, a virtual currency system that is decided by a central authority for producing money, transferring ownership, and validating transactions, included the peer-to-peer network in a Block-Chain system, the ledger is duplicated across several, identical databases which is hosted and updated by a different process and all other nodes are updated concurrently if changes made to one node and a transaction occurs, the records of the values and assets are permanently exchanged, Only the user and the system need to be verified no other authentication required. If any transaction carried out on a block chain-based system would be settled in a matter of seconds while still being safe, verifiable, and transparent. Although block-chain technology is the foundation for Bitcoin and other digital currencies but also it may be applied widely to greatly reduce difficulties in many other sectors, Voting is the sector that is battling from a lack of security, centralized-authority, management-issues, and many more despite the fact that transactions are kept in a distributed and safe fashion.
翻訳日:2023-03-14 19:46:23 公開日:2023-03-11
# マイトショットセグメンテーションのためのマルチコンテキストインタラクションネットワーク

Multi-Context Interaction Network for Few-Shot Segmentation ( http://arxiv.org/abs/2303.06304v1 )

ライセンス: Link先を確認
Hao Chen, Yunlong Yu, Yonghan Dong, Zheming Lu, Yingming Li, and Zhongfei Zhang(参考訳) Few-Shot Segmentation (FSS) は,サポート画像の制限やクラス内外見の相違に難渋している。 サポートとクエリのサンプルに大きな違いがあるため、既存のアプローチのほとんどは、サポート-クエリの相関のために同じレイヤの高レベルな表現を抽出することに重点を置いている。 本稿では,サポートクエリペアに含まれるマルチスケールなコンテキスト情報を十分に活用し,対話することにより,この問題を解消するマルチコンテキストインタラクションネットワーク(mcinet)を提案する。 特に、MCINetは、他のクエリブランチからの低レベル構造情報を高レベルなセマンティック特徴に組み込むことにより、クエリ表現を強化し、同一層と隣接層の両方の機能を活用してサポートクエリ相関を強化し、異なるスケールのコンテンツが双方向に相互作用するマルチスケールマスク予測戦略によって予測結果を改善することにより、FSSを改善する。 2つのベンチマークの実験は、我々のアプローチがSOTAのパフォーマンスに到達し、多くの望ましい利点、特に挑戦的なCOCOデータセットで最高の競争相手を上回ることを実証している。

Few-Shot Segmentation (FSS) is challenging for limited support images and large intra-class appearance discrepancies. Due to the huge difference between support and query samples, most existing approaches focus on extracting high-level representations of the same layers for support-query correlations but neglect the shift issue between different layers and scales. In this paper, we propose a Multi-Context Interaction Network (MCINet) to remedy this issue by fully exploiting and interacting with the multi-scale contextual information contained in the support-query pairs. Specifically, MCINet improves FSS from the perspectives of boosting the query representations by incorporating the low-level structural information from another query branch into the high-level semantic features, enhancing the support-query correlations by exploiting both the same-layer and adjacent-layer features, and refining the predicted results by a multi-scale mask prediction strategy, with which the different scale contents have bidirectionally interacted. Experiments on two benchmarks demonstrate that our approach reaches SOTA performances and outperforms the best competitors with many desirable advantages, especially on the challenging COCO dataset.
翻訳日:2023-03-14 19:46:00 公開日:2023-03-11
# 機械学習ネットワークにおける敵対的攻撃と防御--現代調査

Adversarial Attacks and Defenses in Machine Learning-Powered Networks: A Contemporary Survey ( http://arxiv.org/abs/2303.06302v1 )

ライセンス: Link先を確認
Yulong Wang, Tong Sun, Shenghong Li, Xin Yuan, Wei Ni, Ekram Hossain, H. Vincent Poor(参考訳) 機械学習とディープニューラルネットワークにおける敵対的攻撃と防御は、インターネットにおけるディープラーニングの急速に成長した応用と関連するシナリオによって、大きな注目を集めている。 本調査は,深層ニューラルネットワークに基づく分類モデルに焦点をあてた,敵対的攻撃・防御技術の最近の進歩の概要を提供する。 具体的には,最近の攻撃手法の包括的分類を行い,攻撃原理に基づいた最先端の防御手法を視覚的にアピールする表や木図に提示する。 これは既存の作品の強みと限界の分析を含む厳密な評価に基づいている。 また,本手法を,正則化に基づくロバスト性向上手法を中心に,反撃検出とロバスト性向上に分類する。 サーチベース、決定ベース、ドロップベース、物理ワールド攻撃など、新たな攻撃方法も検討され、最新の防御方法の階層的分類が提供され、トレーニングコストとパフォーマンスのバランス、クリーンな精度の維持、勾配マスクの効果の克服、メソッド転送可能性の確保といった課題が強調されている。 最後に、学んだ教訓とオープンチャレンジは、将来の研究機会として推奨されている。

Adversarial attacks and defenses in machine learning and deep neural network have been gaining significant attention due to the rapidly growing applications of deep learning in the Internet and relevant scenarios. This survey provides a comprehensive overview of the recent advancements in the field of adversarial attack and defense techniques, with a focus on deep neural network-based classification models. Specifically, we conduct a comprehensive classification of recent adversarial attack methods and state-of-the-art adversarial defense techniques based on attack principles, and present them in visually appealing tables and tree diagrams. This is based on a rigorous evaluation of the existing works, including an analysis of their strengths and limitations. We also categorize the methods into counter-attack detection and robustness enhancement, with a specific focus on regularization-based methods for enhancing robustness. New avenues of attack are also explored, including search-based, decision-based, drop-based, and physical-world attacks, and a hierarchical classification of the latest defense methods is provided, highlighting the challenges of balancing training costs with performance, maintaining clean accuracy, overcoming the effect of gradient masking, and ensuring method transferability. At last, the lessons learned and open challenges are summarized with future research opportunities recommended.
翻訳日:2023-03-14 19:45:39 公開日:2023-03-11
# MLP-SRGAN:MLP-Mixerを用いた単一次元超解像ガン

MLP-SRGAN: A Single-Dimension Super Resolution GAN using MLP-Mixer ( http://arxiv.org/abs/2303.06298v1 )

ライセンス: Link先を確認
Samir Mitha, Seungho Choe, Pejman Jahbedar Maralani, Alan R. Moody, and April Khademi(参考訳) マルチ層パーセプトロンミキサー(MLP-ミキサー)と畳み込み層を併用し,スライス方向にアップサンプリングする単一次元超解像生成逆数ネットワーク(SRGAN)であるMLP-SRGANを提案する。 MLP-SRGANは、MSSEG2チャレンジデータセットから高分解能(HR)FLAIR MRIを用いて訓練され、検証される。 本手法は,スライス次元の空間分解能の低い画像の3つの多心FLAIRデータセット(CAIN, ADNI, CCNA)に応用し,保持(見えない)臨床データの性能について検討した。 アップサンプリングの結果は、いくつかの最先端のSRネットワークと比較される。 高分解能(HR)基底真理を持つ画像に対しては、ピーク信号対雑音比(PSNR)と構造類似度指数(SSIM)を用いてアップサンプリング性能を測定する。 研削性(エッジ強度)、ノイズ(エントロピー)、ぼやけ性(低周波情報)を定量化するために、新しい構造的・非参照画像品質指標がいくつか提案されている。 その結果、MLP-SRGANは、よりシャープなエッジ、よりぼやけ、よりテクスチャと微細解剖学的詳細を保存し、パラメータを少なくし、トレーニング/評価時間を短縮し、既存の方法よりもモデルサイズを小さくした。 MLP-SRGANのトレーニングと推論、データジェネレータ、モデル、非参照画像品質メトリクスのコードはhttps://github.com/IAMLAB-Ryerson/MLP-SRGANで入手できる。

We propose a novel architecture called MLP-SRGAN, which is a single-dimension Super Resolution Generative Adversarial Network (SRGAN) that utilizes Multi-Layer Perceptron Mixers (MLP-Mixers) along with convolutional layers to upsample in the slice direction. MLP-SRGAN is trained and validated using high resolution (HR) FLAIR MRI from the MSSEG2 challenge dataset. The method was applied to three multicentre FLAIR datasets (CAIN, ADNI, CCNA) of images with low spatial resolution in the slice dimension to examine performance on held-out (unseen) clinical data. Upsampled results are compared to several state-of-the-art SR networks. For images with high resolution (HR) ground truths, peak-signal-to-noise-ratio (PSNR) and structural similarity index (SSIM) are used to measure upsampling performance. Several new structural, no-reference image quality metrics were proposed to quantify sharpness (edge strength), noise (entropy), and blurriness (low frequency information) in the absence of ground truths. Results show MLP-SRGAN results in sharper edges, less blurring, preserves more texture and fine-anatomical detail, with fewer parameters, faster training/evaluation time, and smaller model size than existing methods. Code for MLP-SRGAN training and inference, data generators, models and no-reference image quality metrics will be available at https://github.com/IAMLAB-Ryerson/MLP-SRGAN.
翻訳日:2023-03-14 19:45:18 公開日:2023-03-11
# 異所性学習におけるコントラスト学習

Contrastive Learning under Heterophily ( http://arxiv.org/abs/2303.06344v1 )

ライセンス: Link先を確認
Wenhan Yang, Baharan Mirzasoleiman(参考訳) グラフニューラルネットワークは、タスク固有のノードラベルが利用できる場合にノード表現を学習するための強力なツールである。 しかし、グラフのラベルを取得することは多くのアプリケーションで高価である。 これは特に大きなグラフの場合である。 これを解決するために,ラベルなしでノード表現を自己教師付きで学習する作業が数多く行われている。 コントラスト学習(CL)は、自己指導的な方法で表現を学ぶのに特に人気がある。 一般に、CL法は、同じ例の強化ビューの表現間の類似度を最大化し、異なる例の強化ビュー間の類似度を最小化する。 しかし、既存のグラフCL法では、連結ノードが異なるクラスに属する傾向があるヘテロフィリーの下で高品質な表現を学べない。 これは、ヘテロフィリーの下では、同じ例の増分は互いに似ていないかもしれないためである。 本稿では,ノード表現学習のための最初のグラフcl法であるhlclを提案することで,上記の問題に対処する。 HLCLは、同じノードの異なるビューを生成するために、ハイパスとローパスグラフフィルタを使用する。 そして、最終的なノード表現を学ぶために、2つのフィルタされたビューを対比する。 有効に、ハイパスフィルタは近隣のノード間の相似性をキャプチャし、ローパスフィルタは隣のノード間の類似性をキャプチャするが、2つのフィルタされたビューとは対照的に、HLCLはグラフのリッチなノード表現をヘテロフィリーでホモフィリーに学習することができる。

Graph Neural Networks are powerful tools for learning node representations when task-specific node labels are available. However, obtaining labels for graphs is expensive in many applications. This is particularly the case for large graphs. To address this, there has been a body of work to learn node representations in a self-supervised manner without labels. Contrastive learning (CL), has been particularly popular to learn representations in a self-supervised manner. In general, CL methods work by maximizing the similarity between representations of augmented views of the same example, and minimizing the similarity between augmented views of different examples. However, existing graph CL methods cannot learn high-quality representations under heterophily, where connected nodes tend to belong to different classes. This is because under heterophily, augmentations of the same example may not be similar to each other. In this work, we address the above problem by proposing the first graph CL method, HLCL, for learning node representations, under heterophily. HLCL uses a high-pass and a low-pass graph filter to generate different views of the same node. Then, it contrasts the two filtered views to learn the final node representations. Effectively, the high-pass filter captures the dissimilarity between nodes in a neighborhood and the low-pass filter captures the similarity between neighboring nodes.Contrasting the two filtered views allows HLCL to learn rich node representations for graphs, under heterophily and homophily.Empirically, HLCL outperforms state-of-the-art graph CL methods on benchmark heterophily datasets and large-scale real-world datasets by up to 10%.
翻訳日:2023-03-14 19:39:24 公開日:2023-03-11
# 拡張Kレーダ:4次元レーダテンソルを用いた物体検出における検出性能とアクセシビリティ向上のための最適密度低減

Enhanced K-Radar: Optimal Density Reduction to Improve Detection Performance and Accessibility of 4D Radar Tensor-based Object Detection ( http://arxiv.org/abs/2303.06342v1 )

ライセンス: Link先を確認
Dong-Hee Paek, Seung-Hyun Kong, Kevin Tirta Wijaya(参考訳) 近年の研究では、悪天候条件下での4次元レーダーによる3次元物体検出の優れた堅牢性を示している。 しかし、4D Radarのデータ処理は、計算とストレージに大量のメモリを必要とする巨大なデータサイズのため、依然として課題である。 先行研究では、4次元レーダーテンソル(4drt)上でオンライン密度低減を行い、密度低減レベルを任意に選択したデータサイズを低減する。 しかし, 密度低下が検出性能とメモリ消費に与える影響は明らかになっていない。 本稿では,密度低減レベルを広範に調整することにより,この問題に対処することを目的とする。 実験結果から,元の4DRT密度の0.01%から50%への密度上昇は,メモリ消費のコストで検出性能を比例的に向上させることが示された。 しかし、密度レベルが5%を超えるとメモリ消費だけが増加し、検出性能はピーク点以下に変動する。 4d sparse radar tensor (4dsrt) は4d sparse radarデータのオフライン密度低減のための新しい表現であり、生データサイズが大幅に削減される。 ニューラルネットワークをトレーニングするための最適化された開発キットも提供され、4DSRTの利用とともに、最先端の4DRTベースのニューラルネットワークと比較して17.1倍のトレーニング速度が向上する。 すべてのコードは、https://github.com/kaist-avelab/K-Radar.comで入手できる。

Recent works have shown the superior robustness of four-dimensional (4D) Radar-based three-dimensional (3D) object detection in adverse weather conditions. However, processing 4D Radar data remains a challenge due to the large data size, which require substantial amount of memory for computing and storage. In previous work, an online density reduction is performed on the 4D Radar Tensor (4DRT) to reduce the data size, in which the density reduction level is chosen arbitrarily. However, the impact of density reduction on the detection performance and memory consumption remains largely unknown. In this paper, we aim to address this issue by conducting extensive hyperparamter tuning on the density reduction level. Experimental results show that increasing the density level from 0.01% to 50% of the original 4DRT density level proportionally improves the detection performance, at a cost of memory consumption. However, when the density level is increased beyond 5%, only the memory consumption increases, while the detection performance oscillates below the peak point. In addition to the optimized density hyperparameter, we also introduce 4D Sparse Radar Tensor (4DSRT), a new representation for 4D Radar data with offline density reduction, leading to a significantly reduced raw data size. An optimized development kit for training the neural networks is also provided, which along with the utilization of 4DSRT, improves training speed by a factor of 17.1 compared to the state-of-the-art 4DRT-based neural networks. All codes are available at: https://github.com/kaist-avelab/K-Radar.
翻訳日:2023-03-14 19:38:57 公開日:2023-03-11
# テンソルネットワーク機械学習によるRamanスペクトルデータを用いた肺癌検診のインテリジェント診断法

Intelligent diagnostic scheme for lung cancer screening with Raman spectra data by tensor network machine learning ( http://arxiv.org/abs/2303.06340v1 )

ライセンス: Link先を確認
Yu-Jia An, Sheng-Chen Bai, Lin Cheng, Xiao-Guang Li, Cheng-en Wang, Xiao-Dong Han, Gang Su, Shi-Ju Ran, Cong Wang(参考訳) 人工知能(AI)は、バイオマーカーの検出と診断、治療の最適化、薬物発見における新たな治療ターゲットの同定など、学術研究から臨床応用へのバイオメディカル科学への多大な影響をもたらした。 しかし、現代のAI技術、特にディープラーニング(ML)は非解釈性に苦しむため、制御不能に誤った予測につながる可能性がある。 消費者は確固とした根拠や説得力のある解釈から必要な安心感と信頼を得る必要があるため、mlにとって解釈性は特に重要である。 本研究では,吸入呼吸中の揮発性有機化合物(VOC)のラマンスペクトルデータをスクリーニングすることにより,肺癌患者とそのステージを確実に予測するテンソルネットワーク(TN)-ML法を提案する。 TN-MLの予測は、量子ヒルベルト空間にマッピングされた呼吸サンプルの相互距離に基づいている。 量子確率論的解釈により、予測の確実性は定量的に特徴づけられる。 確度の高い試料の精度は、ほぼ100$%$である。 誤分類されたサンプルは明らかに確実性が低いため、人間の専門家が高い信頼性を保証するために処理する異常として識別することができる。 本研究は,「バイオメディカルサイエンスのためのAI」を従来の非解釈可能なMLスキームから解釈可能な人間-MLインタラクティブアプローチへシフトさせることに重点を置いている。

Artificial intelligence (AI) has brought tremendous impacts on biomedical sciences from academic researches to clinical applications, such as in biomarkers' detection and diagnosis, optimization of treatment, and identification of new therapeutic targets in drug discovery. However, the contemporary AI technologies, particularly deep machine learning (ML), severely suffer from non-interpretability, which might uncontrollably lead to incorrect predictions. Interpretability is particularly crucial to ML for clinical diagnosis as the consumers must gain necessary sense of security and trust from firm grounds or convincing interpretations. In this work, we propose a tensor-network (TN)-ML method to reliably predict lung cancer patients and their stages via screening Raman spectra data of Volatile organic compounds (VOCs) in exhaled breath, which are generally suitable as biomarkers and are considered to be an ideal way for non-invasive lung cancer screening. The prediction of TN-ML is based on the mutual distances of the breath samples mapped to the quantum Hilbert space. Thanks to the quantum probabilistic interpretation, the certainty of the predictions can be quantitatively characterized. The accuracy of the samples with high certainty is almost 100$\%$. The incorrectly-classified samples exhibit obviously lower certainty, and thus can be decipherably identified as anomalies, which will be handled by human experts to guarantee high reliability. Our work sheds light on shifting the ``AI for biomedical sciences'' from the conventional non-interpretable ML schemes to the interpretable human-ML interactive approaches, for the purpose of high accuracy and reliability.
翻訳日:2023-03-14 19:38:08 公開日:2023-03-11
# ユニバーサル制御可能な画像キャプションのための組合せプロンプトの学習

Learning Combinatorial Prompts for Universal Controllable Image Captioning ( http://arxiv.org/abs/2303.06338v1 )

ライセンス: Link先を確認
Zhen Wang, Jun Xiao, Lei Chen, Fei Gao, Jian Shao, Long Chen(参考訳) 制御可能な画像キャプション(CIC) -- 与えられた制御信号の指示の下で画像に関する自然言語記述を生成する -- は、次世代キャプションシステムへの最も有望な方向の1つである。 現在、コンテンツ関連制御から構造関連制御まで、様々な種類のCIC制御信号が提案されている。 しかし、異なる制御信号の形式とターゲットギャップのため、既存のCICの作業(またはアーキテクチャ)は1つの制御信号にのみ焦点を合わせ、人間のような組合せ能力を見落としている。 私たちの人間は説明を生成する際に、複数のニーズ(あるいは制約)を同時に満たすことができます。 そこで我々は,ComPro と呼ばれる Combinatorial Prompts の学習により,CIC のための新しいプロンプトベースのフレームワークを提案する。 具体的には、事前訓練された言語モデルGPT-2を直接言語モデルとして利用し、異なる信号固有のCICアーキテクチャ間のギャップを埋めるのに役立つ。 そこで我々は,CICをプロンプトガイド文生成問題として再構成し,異なる種類の制御信号に対する組合せプロンプトを生成するための,新しい軽量プロンプト生成ネットワークを提案する。 異なる制御信号に対して,プロンプトベースのCICを実現するための新しいマスクアテンション機構を設計する。 その単純さから、当社のcomproはこれらのプロンプトを結合することで、より複雑な複合制御信号に容易に拡張できます。 2つのCICベンチマークの大規模な実験により、ComProの単一および複合制御信号に対する有効性と効率が検証された。

Controllable Image Captioning (CIC) -- generating natural language descriptions about images under the guidance of given control signals -- is one of the most promising directions towards next-generation captioning systems. Till now, various kinds of control signals for CIC have been proposed, ranging from content-related control to structure-related control. However, due to the format and target gaps of different control signals, all existing CIC works (or architectures) only focus on one certain control signal, and overlook the human-like combinatorial ability. By ``combinatorial", we mean that our humans can easily meet multiple needs (or constraints) simultaneously when generating descriptions. To this end, we propose a novel prompt-based framework for CIC by learning Combinatorial Prompts, dubbed as ComPro. Specifically, we directly utilize a pretrained language model GPT-2 as our language model, which can help to bridge the gap between different signal-specific CIC architectures. Then, we reformulate the CIC as a prompt-guide sentence generation problem, and propose a new lightweight prompt generation network to generate the combinatorial prompts for different kinds of control signals. For different control signals, we further design a new mask attention mechanism to realize the prompt-based CIC. Due to its simplicity, our ComPro can easily be extended to more complex combined control signals by concatenating these prompts. Extensive experiments on two prevalent CIC benchmarks have verified the effectiveness and efficiency of our ComPro on both single and combined control signals.
翻訳日:2023-03-14 19:37:26 公開日:2023-03-11
# AutoMLP: シーケンスレコメンデーションのための自動MLP

AutoMLP: Automated MLP for Sequential Recommendations ( http://arxiv.org/abs/2303.06337v1 )

ライセンス: Link先を確認
Muyang Li, Zijian Zhang, Xiangyu Zhao, Wanyu Wang, Minghao Zhao, Runze Wu, Ruocheng Guo(参考訳) 時系列リコメンデータシステムは,過去のインタラクションからユーザの次の関心項目を予測することを目的としている。 しかし、長年の問題は、ユーザの長期的/短期的な関心を区別する方法であり、それは不均一であり、次の推奨に異なる貢献をする可能性がある。 既存のアプローチは通常、徹底的な探索または経験的な経験によって事前定義された短期利息長を設定する。 最近の高度なトランスフォーマーベースのモデルは、前述の問題にもかかわらず最先端のパフォーマンスを達成できるが、入力シーケンスの長さに対して2次計算の複雑さがある。 そこで本研究では,ユーザの長期的関心を過去のインタラクションからモデル化することを目的とした,新しいレコメンデーションシステムAutoMLPを提案する。 さらに,エンド・ツー・エンドの最適化による短期利息長を優先する自動適応探索アルゴリズムを設計する。 広範な実験を通して,AutoMLPは線形計算複雑性を維持しつつ,最先端の手法と競合する性能を有することを示す。

Sequential recommender systems aim to predict users' next interested item given their historical interactions. However, a long-standing issue is how to distinguish between users' long/short-term interests, which may be heterogeneous and contribute differently to the next recommendation. Existing approaches usually set pre-defined short-term interest length by exhaustive search or empirical experience, which is either highly inefficient or yields subpar results. The recent advanced transformer-based models can achieve state-of-the-art performances despite the aforementioned issue, but they have a quadratic computational complexity to the length of the input sequence. To this end, this paper proposes a novel sequential recommender system, AutoMLP, aiming for better modeling users' long/short-term interests from their historical interactions. In addition, we design an automated and adaptive search algorithm for preferable short-term interest length via end-to-end optimization. Through extensive experiments, we show that AutoMLP has competitive performance against state-of-the-art methods, while maintaining linear computational complexity.
翻訳日:2023-03-14 19:37:02 公開日:2023-03-11
# SEM-CS: テキストベースの画像スタイル転送のためのセマンティックCLIPSタイラー

SEM-CS: Semantic CLIPStyler for Text-Based Image Style Transfer ( http://arxiv.org/abs/2303.06334v1 )

ライセンス: Link先を確認
Chanda G Kamra, Indra Deep Mastan, Debayan Gupta(参考訳) CLIPStylerは、(参照スタイルのイメージを必要とする代わりに)スタイル記述のみを使用して、現実的なテクスチャで画像スタイルの転送をデモした。 しかし、スタイル伝達出力におけるオブジェクトの基底セマンティクスは、サルエントやバックグラウンドオブジェクト(コンテンツミスマッチ)や過度なスティル化によって失われる。 そこで本研究ではセマンティックCLIPStyler (Semantic CLIPStyler) を提案する。 Sem-CSはまずコンテンツイメージを正当で非正当なオブジェクトに分割し、所定のスタイルのテキスト記述に基づいて芸術的なスタイルを転送する。 セマンティックなスタイルの転送は、グローバルな前景の損失(有能なオブジェクト)とグローバルな背景の損失(非塩性オブジェクト)を用いて達成される。 DISTS,NIMA,ユーザスタディスコアなどの実験結果から,提案手法が質的,定量的に優れた性能を示すことを示す。

CLIPStyler demonstrated image style transfer with realistic textures using only the style text description (instead of requiring a reference style image). However, the ground semantics of objects in style transfer output is lost due to style spillover on salient and background objects (content mismatch) or over-stylization. To solve this, we propose Semantic CLIPStyler (Sem-CS) that performs semantic style transfer. Sem-CS first segments the content image into salient and non-salient objects and then transfers artistic style based on a given style text description. The semantic style transfer is achieved using global foreground loss (for salient objects) and global background loss (for non-salient objects). Our empirical results, including DISTS, NIMA and user study scores, show that our proposed framework yields superior qualitative and quantitative performance.
翻訳日:2023-03-14 19:36:47 公開日:2023-03-11
# Parachute: インタラクティブなヒューマン-LMコライティングシステムの評価

Parachute: Evaluating Interactive Human-LM Co-writing Systems ( http://arxiv.org/abs/2303.06333v1 )

ライセンス: Link先を確認
Hua Shen, Tongshuang Wu(参考訳) 言語モデル(LM)の進歩は、人間とLMが相互に相互に共筆の成果物に貢献するコライティングシステムを構築するために、LMを使うことに大きな関心を惹き付けている。 しかし、インタラクティブな環境での協調書記システムを評価する研究は乏しい。 本研究では,対話型コライトシステムのための人間中心評価フレームワークであるParachuteを提案する。 パラシュートは相互作用評価の総合的な視点を示し、それぞれの評価側面は、分類された実践的指標から構成される。 さらに,Parachuteを用いた共筆システムの評価と比較を行うために,Parachuteをユースケースとして提示する。

A surge of advances in language models (LMs) has led to significant interest in using LMs to build co-writing systems, in which humans and LMs interactively contribute to a shared writing artifact. However, there is a lack of studies assessing co-writing systems in interactive settings. We propose a human-centered evaluation framework, Parachute, for interactive co-writing systems. Parachute showcases an integrative view of interaction evaluation, where each evaluation aspect consists of categorized practical metrics. Furthermore, we present Parachute with a use case to demonstrate how to evaluate and compare co-writing systems using Parachute.
翻訳日:2023-03-14 19:36:30 公開日:2023-03-11
# prsnet: マスク付き自己教師付き学習歩行者再同定法

PRSNet: A Masked Self-Supervised Learning Pedestrian Re-Identification Method ( http://arxiv.org/abs/2303.06330v1 )

ライセンス: Link先を確認
Zhijie Xiao, Zhicheng Dong, Hao Xiang(参考訳) 近年、自己指導型学習は広く学術的な議論を巻き起こし、コンピュータビジョンの重要な問題の多くに対処している。 本研究は,画像上の高度な意味情報のネットワーク学習を改善し,現在のタスクの事前学習中にモデル推論を高速化する,優れたエージェントタスクの構築方法に注目する。 既存の特徴抽出ネットワークをimagenetデータセット上で事前学習し、歩行者画像のきめ細かな情報をうまく抽出できず、コントラスト自己教師付き学習の既存の事前タスクが歩行者画像の本来の特性を損なう可能性があるという問題を解決するため、マスク復元の事前タスクをデザインし、強固な事前学習モデルを取得し、歩行者再識別タスクに使用する。 センタロイドに基づいて三重項損失を改善してネットワークのトレーニング最適化を行い、損失計算にマスク画像を追加サンプルとして付加することにより、トレーニングが完了した後、実用的な用途において、ネットワークが歩行者マッチングに対処できるようにする。 本手法は,既存の自己教師付き学習歩行者再同定法よりも,marker1501およびcuhk03データ上で約5%高いマップを得られ,rank1では約1%高く,アブレーション実験により実現可能性を示す。 私たちのモデルはhttps://github.com/ZJieX/prsnetにあります。

In recent years, self-supervised learning has attracted widespread academic debate and addressed many of the key issues of computer vision. The present research focus is on how to construct a good agent task that allows for improved network learning of advanced semantic information on images so that model reasoning is accelerated during pre-training of the current task. In order to solve the problem that existing feature extraction networks are pre-trained on the ImageNet dataset and cannot extract the fine-grained information in pedestrian images well, and the existing pre-task of contrast self-supervised learning may destroy the original properties of pedestrian images, this paper designs a pre-task of mask reconstruction to obtain a pre-training model with strong robustness and uses it for the pedestrian re-identification task. The training optimization of the network is performed by improving the triplet loss based on the centroid, and the mask image is added as an additional sample to the loss calculation, so that the network can better cope with the pedestrian matching in practical applications after the training is completed. This method achieves about 5% higher mAP on Marker1501 and CUHK03 data than existing self-supervised learning pedestrian re-identification methods, and about 1% higher for Rank1, and ablation experiments are conducted to demonstrate the feasibility of this method. Our model code is located at https://github.com/ZJieX/prsnet.
翻訳日:2023-03-14 19:36:20 公開日:2023-03-11
# MetaViewer: 統一されたマルチビュー表現を目指して

MetaViewer: Towards A Unified Multi-View Representation ( http://arxiv.org/abs/2303.06329v1 )

ライセンス: Link先を確認
Ren Wang, Haoliang Sun, Yuling Ma, Xiaoming Xi, and Yilong Yin(参考訳) 既存の多視点表現学習法は、通常、特定の対一のパイプラインに従い、各ビューから潜在特徴を抽出し、それらを融合または整列して統一されたオブジェクト表現を得る。 しかし、手動でフュージョン関数とビュー・プライベートな冗長情報が特徴に混ざり合っており、派生表現の品質が低下する可能性がある。 そこで我々は,この表現を一様から一様に学習する,二段階最適化に基づく新しい多視点学習フレームワークを提案する。 具体的には、メタラーナー、すなわちMetaViewerを訓練し、融合を学び、外部レベルの最適化でビュー共有メタ表現をモデル化する。 このメタ表現から始めると、ビュー固有のbase-learnerが、対応するビューをインナーレベルに迅速に再構築する必要がある。 metaviewerは最終的に、一様から特定のビュー全体への再構成プロセスを観察することで更新し、ビュー-プライベート情報を分離してフィルタする最適な融合スキームを学ぶ。 分類やクラスタリングなどの下流タスクにおける広範囲な実験結果から,本手法の有効性が示された。

Existing multi-view representation learning methods typically follow a specific-to-uniform pipeline, extracting latent features from each view and then fusing or aligning them to obtain the unified object representation. However, the manually pre-specify fusion functions and view-private redundant information mixed in features potentially degrade the quality of the derived representation. To overcome them, we propose a novel bi-level-optimization-based multi-view learning framework, where the representation is learned in a uniform-to-specific manner. Specifically, we train a meta-learner, namely MetaViewer, to learn fusion and model the view-shared meta representation in outer-level optimization. Start with this meta representation, view-specific base-learners are then required to rapidly reconstruct the corresponding view in inner-level. MetaViewer eventually updates by observing reconstruction processes from uniform to specific over all views, and learns an optimal fusion scheme that separates and filters out view-private information. Extensive experimental results in downstream tasks such as classification and clustering demonstrate the effectiveness of our method.
翻訳日:2023-03-14 19:35:54 公開日:2023-03-11
# 新しいテンソル・エクスプロットハイブリッド並列性アプローチ : エクササイズ・オブ・エクササイズトレーニング

A Novel Tensor-Expert Hybrid Parallelism Approach to Scale Mixture-of-Experts Training ( http://arxiv.org/abs/2303.06318v1 )

ライセンス: Link先を確認
Siddharth Singh, Olatunji Ruwase, Ammar Ahmad Awan, Samyam Rajbhandari, Yuxiong He, Abhinav Bhatele(参考訳) Mixture-of-Experts (MoE)と呼ばれる新しいニューラルネットワークアーキテクチャが最近提案され、トレーニングや推論のための浮動小数点演算の総数を変更することなく、わずかに活性化された専門家ブロックを追加することにより、ニューラルネットワーク(ベースモデル)のパラメータを増加させる。 理論的には、このアーキテクチャはベースモデルと同じ計算コストを維持しながら、任意に大きなモデルを訓練することができる。 しかし、64から128のエキスパートブロックを超える前の研究では、これらのMoEモデルの試験精度の低下が観測された。 したがって、高品質なMoEモデルをトレーニングするには、エキスパートブロックの数とともにベースモデルのサイズをスケールする必要があります。 本研究では,現在最先端のDeepSpeed-MoEよりも4~8倍大きなベースモデルによるMoEモデルのトレーニングを可能にするために,テンソル,エキスパート,データ並列性を組み合わせた3次元ハイブリッド並列アルゴリズムを提案する。 本稿では、メモリ最適化と余剰なデータの移動をなくす通信最適化を提案する。 これらの冗長性を取り除くことは、約21%のスピードアップをもたらす。 128V100 GPU上で400億のパラメータMOEモデル(16のエキスパートを持つ670億ベースモデル)をトレーニングする場合、最適化によってピーク半精度フロップ/sを20%から27%に大幅に改善します。

A new neural network architecture called Mixture-of-Experts (MoE) has been proposed recently that increases the parameters of a neural network (the base model) by adding sparsely activated expert blocks, without changing the total number of floating point operations for training or inference. In theory, this architecture allows us to train arbitrarily large models while keeping the computational costs same as that of the base model. However, beyond 64 to 128 experts blocks, prior work has observed diminishing returns in the test accuracies of these MoE models. Thus, training high quality MoE models requires us to scale the size of the base models, along with the number of expert blocks. In this work, we propose a novel, three-dimensional, hybrid parallel algorithm that combines tensor, expert, and data parallelism to enable the training of MoE models with 4-8x larger base models than the current state-of-the-art -- DeepSpeed-MoE. We propose memory optimizations in the optimizer step, and communication optimizations that eliminate redundant movement of data. Removing these redundancies provides a speedup of nearly 21%. When training a 40 billion parameter MoE model (6.7 billion base model with 16 experts) on 128 V100 GPUs, our optimizations significantly improve the peak half precision flop/s from 20% to 27%.
翻訳日:2023-03-14 19:35:36 公開日:2023-03-11
# 仮想検査層による時系列用説明可能なAI

Explainable AI for Time Series via Virtual Inspection Layers ( http://arxiv.org/abs/2303.06365v1 )

ライセンス: Link先を確認
Johanna Vielhaben, Sebastian Lapuschkin, Gr\'egoire Montavon, Wojciech Samek(参考訳) eXplainable Artificial Intelligence(XAI)の分野は近年大きく進歩しているが、主にコンピュータビジョンと自然言語処理が進歩している。 入力がしばしば解釈できない時系列の場合、XAIに関する限られた研究のみが利用可能である。 本研究では,時系列を解釈可能な表現に変換する仮想検査層を提案し,レイヤワイド関連伝搬(LRP)のような局所XAI手法を用いて,その表現に対する関連性を伝達する。 このようにして、XAIメソッドのファミリーの適用性を、変換後にのみ入力が解釈可能な領域(例えば、音声)に拡張する。 本稿では,時系列とLRPの解釈に顕著に適用されるフーリエ変換に注目し,本手法をDFT-LRPと呼ぶ。 音声や電子カルテなどの時系列分類におけるDFT-LRPの有用性を示す。 DFT-LRPが、異なる領域(例えば、時間対周波数領域)で訓練されたモデルの分類戦略の違いを明らかにするか、あるいは、モデルがデータの急激な相関にどのように振る舞うかを明らかにする。

The field of eXplainable Artificial Intelligence (XAI) has greatly advanced in recent years, but progress has mainly been made in computer vision and natural language processing. For time series, where the input is often not interpretable, only limited research on XAI is available. In this work, we put forward a virtual inspection layer, that transforms the time series to an interpretable representation and allows to propagate relevance attributions to this representation via local XAI methods like layer-wise relevance propagation (LRP). In this way, we extend the applicability of a family of XAI methods to domains (e.g. speech) where the input is only interpretable after a transformation. Here, we focus on the Fourier transformation which is prominently applied in the interpretation of time series and LRP and refer to our method as DFT-LRP. We demonstrate the usefulness of DFT-LRP in various time series classification settings like audio and electronic health records. We showcase how DFT-LRP reveals differences in the classification strategies of models trained in different domains (e.g., time vs. frequency domain) or helps to discover how models act on spurious correlations in the data.
翻訳日:2023-03-14 19:29:18 公開日:2023-03-11
# 非定常環境のためのプライバシ保護協調可視光位置決め:フェデレーション学習の視点から

Privacy-Preserving Cooperative Visible Light Positioning for Nonstationary Environment: A Federated Learning Perspective ( http://arxiv.org/abs/2303.06361v1 )

ライセンス: Link先を確認
Tiankuo Wei, Sicong Liu(参考訳) 可視光測光(VLP)は,屋内測光技術として多くの注目を集めている。 しかし,非定常環境においては,vlpの性能は時間的に制限される。 本稿では,非定常環境における位置決め精度と一般化能力を改善するために,フェデレートラーニング(FL)に基づく協調型VLPスキームを提案する。 FLフレームワークをエクスプロイトすることで、環境変化に適応したグローバルモデルが、ユーザのプライベートデータを共有せずに、ユーザが共同でトレーニングすることができる。 さらに,協調可視光測位ネットワーク(CVPosNet)を提案し,収束率を向上し,位置決め精度を向上させる。 シミュレーションの結果,提案手法はベンチマーク手法,特に非定常環境よりも優れていた。

Visible light positioning (VLP) has drawn plenty of attention as a promising indoor positioning technique. However, in nonstationary environments, the performance of VLP is limited because of the highly time-varying channels. To improve the positioning accuracy and generalization capability in nonstationary environments, a cooperative VLP scheme based on federated learning (FL) is proposed in this paper. Exploiting the FL framework, a global model adaptive to environmental changes can be jointly trained by users without sharing private data of users. Moreover, a Cooperative Visible-light Positioning Network (CVPosNet) is proposed to accelerate the convergence rate and improve the positioning accuracy. Simulation results show that the proposed scheme outperforms the benchmark schemes, especially in nonstationary environments.
翻訳日:2023-03-14 19:28:59 公開日:2023-03-11
# FedLP: コミュニケーション計算効率の良いフェデレーション学習のためのレイヤワイズ・プルーニング機構

FedLP: Layer-wise Pruning Mechanism for Communication-Computation Efficient Federated Learning ( http://arxiv.org/abs/2303.06360v1 )

ライセンス: Link先を確認
Zheqi Zhu, Yuchen Shi, Jiajun Luo, Fei Wang, Chenghui Peng, Pingyi Fan, Khaled B. Letaief(参考訳) フェデレーション学習(fl)は、分散学習のための効率的でプライバシー保護されたスキームとして普及してきた。 本研究では,主に刈り込みの観点からFLにおける計算と通信の最適化に焦点を当てる。 局所学習におけるレイヤワイズプルーニングとフェデレート更新の採用により,異なるタイプのディープラーニングモデルに対してモデル非依存で普遍的なFedLP(Federated Layer-wise Pruning)という明示的なFLプルーニングフレームワークを定式化する。 FedLPの2つの特定のスキームは、同種局所モデルと異種局所モデルを持つシナリオ用に設計されている。 理論的および実験的評価は,FedLPが通信のボトルネックを緩和し,限界性能減衰を伴う計算を行うのを確認するために開発された。 私たちの知る限りでは、FedLPはFLにレイヤーワイドプルーニングを正式に導入した最初のフレームワークです。 連合学習の範囲内では、より多くの変種と組み合わせをFedLPに基づいて設計することができる。

Federated learning (FL) has prevailed as an efficient and privacy-preserved scheme for distributed learning. In this work, we mainly focus on the optimization of computation and communication in FL from a view of pruning. By adopting layer-wise pruning in local training and federated updating, we formulate an explicit FL pruning framework, FedLP (Federated Layer-wise Pruning), which is model-agnostic and universal for different types of deep learning models. Two specific schemes of FedLP are designed for scenarios with homogeneous local models and heterogeneous ones. Both theoretical and experimental evaluations are developed to verify that FedLP relieves the system bottlenecks of communication and computation with marginal performance decay. To the best of our knowledge, FedLP is the first framework that formally introduces the layer-wise pruning into FL. Within the scope of federated learning, more variants and combinations can be further designed based on FedLP.
翻訳日:2023-03-14 19:28:46 公開日:2023-03-11
# O2CTA:冠動脈プラーク解析におけるOCTからCCTAへのアノテーション導入

O2CTA: Introducing Annotations from OCT to CCTA in Coronary Plaque Analysis ( http://arxiv.org/abs/2303.06358v1 )

ライセンス: Link先を確認
Jun Li, Kexin Li, Yafeng Zhou, S. Kevin Zhou(参考訳) 冠動脈疾患の診断と治療計画は動脈硬化プラーク成分によって異なる。 冠動脈造影(CCTA)は動脈造影や狭窄度判定に広く用いられている。 しかし, 人工物に対する空間分解能と感受性の制限は, 腔形態特性とプラーク組成を得る際にCCTAを損なう。 侵襲的光コヒーレンス断層撮影(OCT)により、医師のトラブルを伴わずに解決できるが、高いコストと潜在的なリスクをもたらす。 そこで本論文では,OCTからペアCCTAスキャンへのプラーク組織および腔内性状のアノテーションの導入が臨床的に重要である。 O2CTA問題に対処する手法を提案する。 cctaスキャンはまずマルチプランナー・リフォーム・アット(mpr)画像に再構成され、意味的な内容でoct画像と一致する。 OCTの動脈セグメントは手動でラベル付けされ、提案したアライメント戦略を介してMPR画像の動脈全体と空間的に整列する。 最後に、3D CNNとTransformerを含む分類モデルを学習し、局所的な特徴を抽出し、動脈に沿って依存を捕捉する。 55対の OCT と CCTA の実験では,OCT ラベルに基づいて CCTA の分類が可能であり,精度は 86.2% であり,OCT と CCTA のマニュアル読み出しは Kappa 係数が0.113 である。 私たちは、研究コミュニティに利益をもたらすために、ソースコード、モデル、データ、結果を公開します。

Targeted diagnosis and treatment plans for patients with coronary artery disease vary according to atherosclerotic plaque component. Coronary CT angiography (CCTA) is widely used for artery imaging and determining the stenosis degree. However, the limited spatial resolution and susceptibility to artifacts fail CCTA in obtaining lumen morphological characteristics and plaque composition. It can be settled by invasive optical coherence tomography (OCT) without much trouble for physicians, but bringing higher costs and potential risks to patients. Therefore, it is clinically critical to introduce annotations of plaque tissue and lumen characteristics from OCT to paired CCTA scans, denoted as \textbf{the O2CTA problem} in this paper. We propose a method to handle the O2CTA problem. CCTA scans are first reconstructed into multi-planar reformatted (MPR) images, which agree with OCT images in term of semantic contents. The artery segment in OCT, which is manually labelled, is then spatially aligned with the entire artery in MPR images via the proposed alignment strategy. Finally, a classification model involving a 3D CNN and a Transformer, is learned to extract local features and capture dependence along arteries. Experiments on 55 paired OCT and CCTA we curate demonstrate that it is feasible to classify the CCTA based on the OCT labels, with an accuracy of 86.2%, while the manual readings of OCT and CCTA vary significantly, with a Kappa coefficient of 0.113. We will make our source codes, models, data, and results publicly available to benefit the research community.
翻訳日:2023-03-14 19:28:29 公開日:2023-03-11
# casp-net:音声・視覚コンシスタンス知覚視点によるビデオサリエンシー予測の再検討

CASP-Net: Rethinking Video Saliency Prediction from an Audio-VisualConsistency Perceptual Perspective ( http://arxiv.org/abs/2303.06357v1 )

ライセンス: Link先を確認
Junwen Xiong, Ganglai Wang, Peng Zhang, Wei Huang, Yufei Zha, Guangtao Zhai(参考訳) オーディオストリームを組み込むことで、VSP(Video Saliency Prediction)は人間の脳の選択的注意機構を模倣することができる。 共同聴覚と視覚情報の利点に焦点を合わせることで、ほとんどのVSP手法は視覚と音響のモダリティのセマンティックな相関を活用できるが、音声と視覚の内在性の時間的矛盾による負の効果を無視することができる。 本研究は,多感覚情報における生体的不整合補正に触発され,音声と視覚のセマンティックな相互作用と一貫した知覚を包括的に考慮した,一貫性に配慮した音声・視覚の相性予測ネットワーク(CASP-Net)を提案する。 ビデオフレームと対応する音源とのエレガントな関連付けのための2ストリームエンコーダに加えて、オーディオと視覚表現の一貫性を反復的に向上させる新たな一貫性対応予測符号化も設計されている。 マルチスケールの音声視覚情報をさらに集約するために、最終的なサリエンシマップ生成のために、サリエンシデコーダを導入する。 実体実験により、提案されたCASP-Netは、6つの挑戦的な視覚的視線追跡データセットにおいて、他の最先端の手法よりも優れていることが示された。 システムのデモについては、プロジェクトのWebページを参照してください。

Incorporating the audio stream enables Video Saliency Prediction (VSP) to imitate the selective attention mechanism of human brain. By focusing on the benefits of joint auditory and visual information, most VSP methods are capable of exploiting semantic correlation between vision and audio modalities but ignoring the negative effects due to the temporal inconsistency of audio-visual intrinsics. Inspired by the biological inconsistency-correction within multi-sensory information, in this study, a consistency-aware audio-visual saliency prediction network (CASP-Net) is proposed, which takes a comprehensive consideration of the audio-visual semantic interaction and consistent perception. In addition a two-stream encoder for elegant association between video frames and corresponding sound source, a novel consistency-aware predictive coding is also designed to improve the consistency within audio and visual representations iteratively. To further aggregate the multi-scale audio-visual information, a saliency decoder is introduced for the final saliency map generation. Substantial experiments demonstrate that the proposed CASP-Net outperforms the other state-of-the-art methods on six challenging audio-visual eye-tracking datasets. For a demo of our system please see our project webpage.
翻訳日:2023-03-14 19:28:03 公開日:2023-03-11
# 時間の経過とトップダウン因果関係

The passage of time and top-down causation ( http://arxiv.org/abs/2303.06352v1 )

ライセンス: Link先を確認
Barbara Drossel(参考訳) 物理学の基本法則は決定論的かつ時間対称であり、したがって時間経過の経験は錯覚であると主張することが多い。 本稿では,これらの主張を批判的に議論し,物理法則が自然の完全かつ完全な記述であるという誤解に基づいていることを示す。 基本的な決定論的かつ時間対称の法則はすべて、その限界を持ち、確率的かつ不可逆的な要素によって補われると論じる。 実際、システムの決定論的記述は、世界の他の部分との相互作用を無視できる限り有効である。 最も有名な例は、量子系が測定装置のような巨視的な環境と相互作用する際に生じる量子測定過程である。 この環境は、測定の可能な結果とその確率をトップダウンで決定する。 より一般的に、システム内で起こりうる事象とその確率は、より広い文脈からのトップダウンの影響の結果である、と私は主張する。 このように、系の微視的なレベルは、マクロな環境からの影響に因果的に開放される。 結論として、決定論と不可逆性は、より広い文脈に埋め込まれたシステムの結果である。

It is often claimed that the fundamental laws of physics are deterministic and time-symmetric and that therefore our experience of the passage of time is an illusion. This paper will critically discuss these claims and show that they are based on the misconception that the laws of physics are an exact and complete description of nature. I will argue that all supposedly fundamental deterministic and time-symmetric laws have their limitations and are supplemented by stochastic and irreversible elements. In fact, a deterministic description of a system is valid only as long as interactions with the rest of the world can be ignored. The most famous example is the quantum measurement process that occurs when a quantum system interacts with a macroscopic environment such as a measurement apparatus. This environment determines in a top-down way the possible outcomes of the measurement and their probabilities. I will argue that more generally the possible events that can occur in a system and their probabilities are the result of top-down influences from the wider context. In this way the microscopic level of a system is causally open to influences from the macroscopic environment. In conclusion, indeterminism and irreversibility are the result of a system being embedded in a wider context.
翻訳日:2023-03-14 19:27:38 公開日:2023-03-11
# ロングシーケンスのためのリカレントニューラルネットワークの復活

Resurrecting Recurrent Neural Networks for Long Sequences ( http://arxiv.org/abs/2303.06349v1 )

ライセンス: Link先を確認
Antonio Orvieto, Samuel L Smith, Albert Gu, Anushan Fernando, Caglar Gulcehre, Razvan Pascanu and Soham De(参考訳) リカレントニューラルネットワーク(RNN)は、長いシーケンスに対する高速な推論を提供するが、最適化が難しく、訓練が遅い。 深部状態空間モデル(SSM)は、最近、長いシーケンスモデリングタスクにおいて非常によく機能し、高速並列化可能なトレーニングとRNNのような高速推論の利点を付加している。 しかし、SSMは表面的にはRNNと似ているが、RNNのパフォーマンス向上がどこから来ているのかがはっきりしない重要な違いがある。 本稿では,標準信号伝搬引数を用いた深部RNNの注意設計により,長距離推論タスクにおける深部SSMの印象的な性能を回復し,学習速度を一致させることができることを示す。 そこで我々は, 線形化と対角化, パラメータ化と初期化の改善, 前方通過の適正な正規化の確保など, 標準RNNの一連の変更を解析・アブレーションする。 その結果、深層ssmsの性能の印象的な原点に関する新たな知見が得られ、また、長い範囲のarenaベンチマークと計算効率の両方のパフォーマンスにマッチするリニアリカレントユニットと呼ばれるrnnブロックも導入された。

Recurrent Neural Networks (RNNs) offer fast inference on long sequences but are hard to optimize and slow to train. Deep state-space models (SSMs) have recently been shown to perform remarkably well on long sequence modeling tasks, and have the added benefits of fast parallelizable training and RNN-like fast inference. However, while SSMs are superficially similar to RNNs, there are important differences that make it unclear where their performance boost over RNNs comes from. In this paper, we show that careful design of deep RNNs using standard signal propagation arguments can recover the impressive performance of deep SSMs on long-range reasoning tasks, while also matching their training speed. To achieve this, we analyze and ablate a series of changes to standard RNNs including linearizing and diagonalizing the recurrence, using better parameterizations and initializations, and ensuring proper normalization of the forward pass. Our results provide new insights on the origins of the impressive performance of deep SSMs, while also introducing an RNN block called the Linear Recurrent Unit that matches both their performance on the Long Range Arena benchmark and their computational efficiency.
翻訳日:2023-03-14 19:27:22 公開日:2023-03-11
# 中温度差下での高性能連続3レベル量子ヒートエンジン

Continuous Three-level Quantum Heat Engine with High Performance Under Medium Temperature Difference ( http://arxiv.org/abs/2303.06348v1 )

ライセンス: Link先を確認
Gao-xiang Deng, Wei Shao, Yu Liu, Zheng Cui(参考訳) 量子効果を利用した量子熱エンジンの性能向上の可能性は、研究の活発な話題であるが、エンジンパラメータの最適化による性能向上については、さらなる研究が必要である。 本研究では,三段量子熱機関の性能に影響を及ぼす温度差と散逸モードを直交試験により解析した。 その結果, 消散モードが量子熱機関の性能を左右することがわかった。 量子熱エンジンは、共振のみが存在し、デチューニングがない場合に最も良く機能するが、デチューニングが存在する場合、低い共鳴はエネルギー損失を減らすことで効率を向上させることができる。 温度差については, 熱漏れの減少による中温度差で最高の性能が得られた。 最後に、デチューニングによって引き起こされる量子摩擦は、カルノー効率よりも最大効率を低くすることができる。

The possibility of utilizing quantum effects to enhance the performance of quantum heat engines has been an active topic of research, but how to enhance the performance by optimizing the engine parameters needs to be further studied. In this study, the temperature difference and dissipation modes affecting the performance of a three-level quantum heat engine were analyzed using an orthogonal test. The results indicated that the dissipation mode dominated the performance of the quantum heat engine. The quantum heat engine performs best when there is only resonance and no detuning; however, when detuning exists, a lower resonance can improve the efficiency by reducing energy losses. Regarding the temperature difference, the best performance was achieved at medium temperature difference owing to the decreasing heat leakage. Finally, the quantum friction caused by the detuning could make the maximal efficiency lower than the Carnot efficiency.
翻訳日:2023-03-14 19:26:59 公開日:2023-03-11
# 3dinaction: 3dポイントクラウドにおけるヒューマンアクションの理解

3DInAction: Understanding Human Actions in 3D Point Clouds ( http://arxiv.org/abs/2303.06346v1 )

ライセンス: Link先を確認
Yizhak Ben-Shabat, Oren Shrout, Stephen Gould(参考訳) 本稿では,3次元クラウド行動認識のための新しい手法を提案する。 RGBビデオにおける人間の行動を理解することは近年広く研究されているが、その3Dポイントクラウドはいまだ探索されていない。 これは主に、ポイントクラウドデータのモダリティ(構造の欠如、置換不変性、点数の変化)が本質的に制限されているためであり、時空間的な表現を学ぶのが困難である。 この制限に対処するために,まず時間内移動するパッチ(tパッチ)を重要なビルディングブロックとして推定する3DinActionパイプラインと,情報的時空間表現を学習する階層アーキテクチャを提案する。 本手法は,DFAUSTやIKEA ASMなどの既存のデータセットの性能向上を実現する。

We propose a novel method for 3D point cloud action recognition. Understanding human actions in RGB videos has been widely studied in recent years, however, its 3D point cloud counterpart remains under-explored. This is mostly due to the inherent limitation of the point cloud data modality -- lack of structure, permutation invariance, and varying number of points -- which makes it difficult to learn a spatio-temporal representation. To address this limitation, we propose the 3DinAction pipeline that first estimates patches moving in time (t-patches) as a key building block, alongside a hierarchical architecture that learns an informative spatio-temporal representation. We show that our method achieves improved performance on existing datasets, including DFAUST and IKEA ASM.
翻訳日:2023-03-14 19:26:46 公開日:2023-03-11
# 画像セグメンテーション参照のための意味論的動的局所化と細分化

Semantics-Aware Dynamic Localization and Refinement for Referring Image Segmentation ( http://arxiv.org/abs/2303.06345v1 )

ライセンス: Link先を確認
Zhao Yang, Jiaqi Wang, Yansong Tang, Kai Chen, Hengshuang Zhao, Philip H.S. Torr(参考訳) 参照画像セグメンテーションは、言語表現から画像をセグメンテーションする。 高品質なマスクを製作することを目的として、既存の手法では、RNNや注目層を積み重ねて視覚言語の特徴を洗練させる反復学習アプローチを採用することが多い。 その複雑さにもかかわらず、RNNベースのメソッドは特定のエンコーダ選択の対象となり、注意ベースのメソッドは限られた利得を提供する。 本稿では,識別的マルチモーダル特徴を段階的に学習するための単純かつ効果的な代替手法を提案する。 私たちのアプローチの核となる考え方は、ターゲットオブジェクトの表現として継続的に更新されたクエリを各イテレーションで活用し、クエリに強い相関を持つマルチモーダル機能を強化し、関連度の低いクエリを弱めることです。 クエリは言語特徴によって初期化され、オブジェクト特徴によって逐次更新されるので、アルゴリズムは徐々にローカライズ中心からセグメンテーション中心へとシフトする。 この戦略は、欠落したオブジェクト部分の漸進的なリカバリと、反復による外部部分の削除を可能にします。 比較すると,本手法はより汎用的な$\unicode{x2014}$it であり,先行技術にそのまま接続でき,一貫して改良が加えられる。 RefCOCO、RefCOCO+、G-Refの挑戦的なデータセットに関する実験結果は、最先端の手法に関してその利点を示している。

Referring image segmentation segments an image from a language expression. With the aim of producing high-quality masks, existing methods often adopt iterative learning approaches that rely on RNNs or stacked attention layers to refine vision-language features. Despite their complexity, RNN-based methods are subject to specific encoder choices, while attention-based methods offer limited gains. In this work, we introduce a simple yet effective alternative for progressively learning discriminative multi-modal features. The core idea of our approach is to leverage a continuously updated query as the representation of the target object and at each iteration, strengthen multi-modal features strongly correlated to the query while weakening less related ones. As the query is initialized by language features and successively updated by object features, our algorithm gradually shifts from being localization-centric to segmentation-centric. This strategy enables the incremental recovery of missing object parts and/or removal of extraneous parts through iteration. Compared to its counterparts, our method is more versatile$\unicode{x2014}$it can be plugged into prior arts straightforwardly and consistently bring improvements. Experimental results on the challenging datasets of RefCOCO, RefCOCO+, and G-Ref demonstrate its advantage with respect to the state-of-the-art methods.
翻訳日:2023-03-14 19:26:32 公開日:2023-03-11
# FAC: 前景認識特徴コントラストによる3次元表現学習

FAC: 3D Representation Learning via Foreground Aware Feature Contrast ( http://arxiv.org/abs/2303.06388v1 )

ライセンス: Link先を確認
Kangcheng Liu, Aoran Xiao, Xiaoqin Zhang, Shijian Lu, Ling Shao(参考訳) コントラスト学習は3次元シーン理解タスクにおける教師なし事前学習に大きな可能性を示した。 しかし、既存のほとんどの作業は、コントラストを構築しながらアンカーとしてポイントの特徴をランダムに選び、しばしば3Dシーンで支配される背景点に対して明確なバイアスをもたらす。 また、物体認識と前景間識別は無視され、対照的な学習がより効果的になる。 これらの課題に対処するために,事前学習においてより効果的なポイントクラウド表現を学習するための,一般のフォアグラウンド対応機能コントラスト(FAC)フレームワークを提案する。 FACは2つの新しいコントラスト設計で構成され、より効果的で情報的なコントラストペアを構築する。 1つは、ポイントが同じ意味を持つ傾向にある同じ前景セグメント内で正のペアを構築することである。 2つ目は,3次元セグメント/オブジェクト間の過度な識別を防止し,セグメンテーションレベルでの背景と背景の区別をシムズ対応ネットワークの適応的特徴学習により促進することである。 点アクティベーションマップを用いた可視化により, コントラストペアが事前学習中に前景領域間の明確な対応を捉えることを示す。 定量的実験により、FACは様々な下流3次元セマンティックセグメンテーションやオブジェクト検出タスクにおいて、優れた知識伝達とデータ効率を達成することが示された。

Contrastive learning has recently demonstrated great potential for unsupervised pre-training in 3D scene understanding tasks. However, most existing work randomly selects point features as anchors while building contrast, leading to a clear bias toward background points that often dominate in 3D scenes. Also, object awareness and foreground-to-background discrimination are neglected, making contrastive learning less effective. To tackle these issues, we propose a general foreground-aware feature contrast (FAC) framework to learn more effective point cloud representations in pre-training. FAC consists of two novel contrast designs to construct more effective and informative contrast pairs. The first is building positive pairs within the same foreground segment where points tend to have the same semantics. The second is that we prevent over-discrimination between 3D segments/objects and encourage foreground-to-background distinctions at the segment level with adaptive feature learning in a Siamese correspondence network, which adaptively learns feature correlations within and across point cloud views effectively. Visualization with point activation maps shows that our contrast pairs capture clear correspondences among foreground regions during pre-training. Quantitative experiments also show that FAC achieves superior knowledge transfer and data efficiency in various downstream 3D semantic segmentation and object detection tasks.
翻訳日:2023-03-14 19:20:10 公開日:2023-03-11
# 機械学習臨床脳波分類におけるスコープと調停

Scope and Arbitration in Machine Learning Clinical EEG Classification ( http://arxiv.org/abs/2303.06386v1 )

ライセンス: Link先を確認
Yixuan Zhu, Luke J. W. Canham, David Western(参考訳) 臨床脳波の解釈における重要な課題は、録音またはセッションを正常または異常に分類することである。 このタスクに対する機械学習のアプローチでは、録音は通常、実際の理由で短いウィンドウに分割され、これらのウィンドウは親レコードのラベルを継承する。 この方法で派生したウィンドウラベルは、例えば、異常のないウィンドウを「異常」とラベル付けして学習過程を妨害し、性能を劣化させるなど、誤解を招く可能性があると仮定した。 この問題を軽減するための2つの分離可能なアプローチについて検討した。ウィンドウ長の増大と、記録内のウィンドウ固有の予測を仲裁する第2段階モデルの導入である。 これらの手法をテンプル大学病院異常脳波コーポレーションで評価し、最先端の平均精度を89.8%から93.3%に大幅に改善した。 この結果は、このデータセットの性能限界の以前の推定値に反し、この問題に対する機械学習アプローチの臨床的翻訳に向けた大きな一歩となる。

A key task in clinical EEG interpretation is to classify a recording or session as normal or abnormal. In machine learning approaches to this task, recordings are typically divided into shorter windows for practical reasons, and these windows inherit the label of their parent recording. We hypothesised that window labels derived in this manner can be misleading for example, windows without evident abnormalities can be labelled `abnormal' disrupting the learning process and degrading performance. We explored two separable approaches to mitigate this problem: increasing the window length and introducing a second-stage model to arbitrate between the window-specific predictions within a recording. Evaluating these methods on the Temple University Hospital Abnormal EEG Corpus, we significantly improved state-of-the-art average accuracy from 89.8 percent to 93.3 percent. This result defies previous estimates of the upper limit for performance on this dataset and represents a major step towards clinical translation of machine learning approaches to this problem.
翻訳日:2023-03-14 19:19:46 公開日:2023-03-11
# 統合センシング・通信システムのためのプリコード学習

Learning to Precode for Integrated Sensing and Communications Systems ( http://arxiv.org/abs/2303.06381v1 )

ライセンス: Link先を確認
R.S. Prasobh Sankar, Sidharth S. Nair, Siddhant Doshi, and Sundeep Prabhakar Chepuri(参考訳) 本稿では,センサ・通信(ISAC)システムのためのプリコーダを設計するための教師なし学習ニューラルモデルを提案する。 アップリンクパイロットとエコーからのプリコーダを学習する問題はパラメータ化関数推定問題とみなすことができ、ニューラルネットワークモデルを用いてこの関数を学習することを提案する。 ニューラルネットワークのパラメータを学習するために,1次最適条件に基づく新しい損失関数を開発し,sinrと電力制約を組み込む。 数値シミュレーションにより,提案手法はチャネル推定誤差の有無で従来の最適化法を上回り,計算複雑性を低減し,訓練中に示されなかった異なるチャネル条件をうまく一般化することを示す。

In this paper, we present an unsupervised learning neural model to design transmit precoders for integrated sensing and communication (ISAC) systems to maximize the worst-case target illumination power while ensuring a minimum signal-to-interference-plus-noise ratio (SINR) for all the users. The problem of learning transmit precoders from uplink pilots and echoes can be viewed as a parameterized function estimation problem and we propose to learn this function using a neural network model. To learn the neural network parameters, we develop a novel loss function based on the first-order optimality conditions to incorporate the SINR and power constraints. Through numerical simulations, we demonstrate that the proposed method outperforms traditional optimization-based methods in presence of channel estimation errors while incurring lesser computational complexity and generalizing well across different channel conditions that were not shown during training.
翻訳日:2023-03-14 19:19:29 公開日:2023-03-11
# 構造ディスタングルメントと双対判別による半教師付き手の外観復元

Semi-supervised Hand Appearance Recovery via Structure Disentanglement and Dual Adversarial Discrimination ( http://arxiv.org/abs/2303.06380v1 )

ライセンス: Link先を確認
Zimeng Zhao, Binghui Zuo, Zhiyu Long, Yangang Wang(参考訳) 信頼できるアノテーションを持つ多数の手画像は、マーカーベースのMoCapを介して収集される。 残念なことに、マーカーによる劣化は手の外観再構成における応用を制限する。 鮮明な外観回復の洞察は、未ペアデータで訓練された画像から画像への変換である。 しかし、ほとんどのフレームワークは、劣化した手から素手への構造的不整合が存在するため、失敗する。 我々のアプローチの核心は、まずこれらの劣化した画像から素手の構造を外し、それからこの構造に外観をデュアル・アドバーサル・デコレーション(dad)方式で包むことである。 両モジュールは、半教師付き学習パラダイムを最大限に活用する: 構造的アンタングルメントは、ViTのモデリング能力の恩恵を受け、翻訳処理と翻訳結果の両面での二重識別により、トランスレータが強化される。 我々のフレームワークは、多種多様なマーカーとオブジェクトを含むデータセットから、フォトリアリスティックハンドの外観を堅牢に復元できることを示すため、包括的な評価がなされている。 これは、他の下流の学習問題に対する素手での出現データを取得するための新しい手段を提供する。

Enormous hand images with reliable annotations are collected through marker-based MoCap. Unfortunately, degradations caused by markers limit their application in hand appearance reconstruction. A clear appearance recovery insight is an image-to-image translation trained with unpaired data. However, most frameworks fail because there exists structure inconsistency from a degraded hand to a bare one. The core of our approach is to first disentangle the bare hand structure from those degraded images and then wrap the appearance to this structure with a dual adversarial discrimination (DAD) scheme. Both modules take full advantage of the semi-supervised learning paradigm: The structure disentanglement benefits from the modeling ability of ViT, and the translator is enhanced by the dual discrimination on both translation processes and translation results. Comprehensive evaluations have been conducted to prove that our framework can robustly recover photo-realistic hand appearance from diverse marker-contained and even object-occluded datasets. It provides a novel avenue to acquire bare hand appearance data for other downstream learning problems.The codes will be publicly available at https://www.yangangwang.com
翻訳日:2023-03-14 19:19:14 公開日:2023-03-11
# untrimmed videoにおける多用途理解のための学習グラウンドドヴィジュアル言語表現

Learning Grounded Vision-Language Representation for Versatile Understanding in Untrimmed Videos ( http://arxiv.org/abs/2303.06378v1 )

ライセンス: Link先を確認
Teng Wang, Jinrui Zhang, Feng Zheng, Wenhao Jiang, Ran Cheng, Ping Luo(参考訳) 近年,共同ビデオ言語学習が注目されている。 しかし、既存の作品は、主にシングルまたは複数トリミングされたビデオクリップ(イベント)に焦点を当てている。 関連性から脱却するために,情報的イベントを自動的に検出し,多文記述と対応するイベントセグメントのアライメントを効果的に抽出する,アントリミングビデオのための基底的視覚言語学習フレームワークを提案する。 粗いビデオ言語アライメントの代わりに、細粒度セグメントレベルアライメント(TEG)とイベント・トゥ・テキスト生成(ETG)の2つの二重プレテキストタスクを提案する。 TEGは、共同意味空間におけるクロスモーダル距離を推定することにより、文の集合が与えられたイベントの提案を適応的に基礎づけることを学ぶ。 一方、ETGは、イベント提案のマッチしたテキストを再構成(生成)することを目的としており、イベント表現が意味のある意味情報を保持するように促している。 イベントセットとテキストセット間の正確なラベル割り当てを促進するため,曖昧な境界アノテーションによる準最適マッチングを緩和するためのセマンティック・アウェア・コストを提案する。 我々のフレームワークは、視覚的な言語理解と生成を含むタスクに容易に拡張できる。 我々は、ActivityNet Captions、YouCook2、YouMakeupで最先端の高密度ビデオキャプション性能を達成し、他の言語生成および理解タスクで競合性能を達成した。 また,本手法は,PIC 4th ChallengeのMTVGおよびMDVCタスクにおいて,第1位を獲得した。

Joint video-language learning has received increasing attention in recent years. However, existing works mainly focus on single or multiple trimmed video clips (events), which makes human-annotated event boundaries necessary during inference. To break away from the ties, we propose a grounded vision-language learning framework for untrimmed videos, which automatically detects informative events and effectively excavates the alignments between multi-sentence descriptions and corresponding event segments. Instead of coarse-level video-language alignments, we present two dual pretext tasks to encourage fine-grained segment-level alignments, i.e., text-to-event grounding (TEG) and event-to-text generation (ETG). TEG learns to adaptively ground the possible event proposals given a set of sentences by estimating the cross-modal distance in a joint semantic space. Meanwhile, ETG aims to reconstruct (generate) the matched texts given event proposals, encouraging the event representation to retain meaningful semantic information. To encourage accurate label assignment between the event set and the text set, we propose a novel semantic-aware cost to mitigate the sub-optimal matching results caused by ambiguous boundary annotations. Our framework is easily extensible to tasks covering visually-grounded language understanding and generation. We achieve state-of-the-art dense video captioning performance on ActivityNet Captions, YouCook2 and YouMakeup, and competitive performance on several other language generation and understanding tasks. Our method also achieved 1st place in both the MTVG and MDVC tasks of the PIC 4th Challenge.
翻訳日:2023-03-14 19:18:54 公開日:2023-03-11
# パーキンソン病の脳波に基づく機械学習検出における性公平性の評価--多施設共同研究

Assessing gender fairness in EEG-based machine learning detection of Parkinson's disease: A multi-center study ( http://arxiv.org/abs/2303.06376v1 )

ライセンス: Link先を確認
Anna Kurbatskaya, Alberto Jaramillo-Jimenez, John Fredy Ochoa-Gomez, Kolbj{\o}rn Br{\o}nnick, Alvaro Fernandez-Quilez(参考訳) パーキンソン病(PD)検出のための機械学習(ML)と安静時脳波(rs-EEG)に基づく自動ツールの数が増え続けているため、公平さとバイアス分析による健康格差の悪化の可能性の評価がより重要になる。 性別などの保護された属性は、PD診断の発達において重要な役割を果たす。 しかし,MLモデルの開発やPD検出の性能評価において,性別の異なるサブグループ集団の分析が考慮されることは稀である。 本研究では、rs-EEGのパワースペクトル密度(PSD)特性に基づいて、以前開発されたMLアルゴリズムのマルチセンター設定において、性別サブグループの検出能力を体系的に解析する。 実験時間における男女のpd検出能力の有意差(80.5% 対 63.7% の精度)と,性別サブグループのpd検出能力の差を説明するかもしれないpdおよび非pd男性の頭頂および前頭脳波チャネル群および周波数サブバンド群に対する有意な活性の差がみられた。

As the number of automatic tools based on machine learning (ML) and resting-state electroencephalography (rs-EEG) for Parkinson's disease (PD) detection keeps growing, the assessment of possible exacerbation of health disparities by means of fairness and bias analysis becomes more relevant. Protected attributes, such as gender, play an important role in PD diagnosis development. However, analysis of sub-group populations stemming from different genders is seldom taken into consideration in ML models' development or the performance assessment for PD detection. In this work, we perform a systematic analysis of the detection ability for gender sub-groups in a multi-center setting of a previously developed ML algorithm based on power spectral density (PSD) features of rs-EEG. We find significant differences in the PD detection ability for males and females at testing time (80.5% vs. 63.7% accuracy) and significantly higher activity for a set of parietal and frontal EEG channels and frequency sub-bands for PD and non-PD males that might explain the differences in the PD detection ability for the gender sub-groups.
翻訳日:2023-03-14 19:18:23 公開日:2023-03-11
# 画像超解像用再帰一般化変換器

Recursive Generalization Transformer for Image Super-Resolution ( http://arxiv.org/abs/2303.06373v1 )

ライセンス: Link先を確認
Zheng Chen, Yulun Zhang, Jinjin Gu, Linghe Kong, Xiaokang Yang(参考訳) トランスフォーマーアーキテクチャは、画像超解像(SR)において顕著な性能を示した。 トランスフォーマーにおける自己注意(SA)の2次計算複雑性のため、既存の手法ではオーバーヘッドを減らすために局所的にSAを採用する傾向にある。 しかし、局所的な設計は、正確な画像再構成に欠かせないグローバルな文脈利用を制限する。 本研究では,大域空間情報を捕捉し,高解像度画像に適した画像SRのための再帰一般化変換器(RGT)を提案する。 具体的には、再帰的一般化自己注意(RG-SA)を提案する。 入力特徴を代表的特徴マップに再帰的に集約し,グローバル情報抽出にクロスアテンションを利用する。 一方、注意行列(クエリ、キー、値)のチャネル次元は、計算オーバーヘッドとパフォーマンスのトレードオフを改善するためにさらにスケールされる。 さらに,RG-SAと局所自己意識を組み合わせることで,グローバルコンテキストの活用を促進するとともに,モジュール統合のためのハイブリッド適応統合(HAI)を提案する。 HAIは、異なるレベル(ローカルまたはグローバル)の機能間の直接的で効果的な融合を可能にする。 我々のRGTは最近の最先端手法よりも優れています。

Transformer architectures have exhibited remarkable performance in image super-resolution (SR). Since the quadratic computational complexity of the self-attention (SA) in Transformer, existing methods tend to adopt SA in a local region to reduce overheads. However, the local design restricts the global context exploitation, which is critical for accurate image reconstruction. In this work, we propose the Recursive Generalization Transformer (RGT) for image SR, which can capture global spatial information and is suitable for high-resolution images. Specifically, we propose the recursive-generalization self-attention (RG-SA). It recursively aggregates input features into representative feature maps, and then utilizes cross-attention to extract global information. Meanwhile, the channel dimensions of attention matrices (query, key, and value) are further scaled for a better trade-off between computational overheads and performance. Furthermore, we combine the RG-SA with local self-attention to enhance the exploitation of the global context, and propose the hybrid adaptive integration (HAI) for module integration. The HAI allows the direct and effective fusion between features at different levels (local or global). Extensive experiments demonstrate that our RGT outperforms recent state-of-the-art methods.
翻訳日:2023-03-14 19:18:04 公開日:2023-03-11
# AugDiff:全スライド画像における複数インスタンス学習のための拡散に基づく機能拡張

AugDiff: Diffusion based Feature Augmentation for Multiple Instance Learning in Whole Slide Image ( http://arxiv.org/abs/2303.06371v1 )

ライセンス: Link先を確認
Zhuchen Shao, Liuxi Dai, Yifeng Wang, Haoqian Wang, Yongbing Zhang(参考訳) 弱教師付き学習のための強力な戦略であるマルチインスタンス学習(MIL)は、ギガピクセル全スライド画像(WSI)上で様々な予測タスクを実行することができる。 しかし、WSIの何万ものパッチは、通常、画像拡張の膨大な計算負担を発生させ、MILモデルの性能改善を制限する。 現在、機能拡張ベースのMILフレームワークは有望なソリューションであり、Mixupのような既存のメソッドは非現実的な機能を生成することが多い。 より効率的で実用的な拡張手法を探るため,Diffusion Model (DM) を初めて MIL に導入し,AugDiff という機能拡張フレームワークを提案する。 具体的には,DM生成の多様性を利用して特徴増強の質を向上し,ステップバイステップ生成特性を用いて意味情報の保持を制御する。 我々は,AugDiffの性能を評価するために,3つの異なる癌データセット,2つの異なる特徴抽出器,および3つのMILアルゴリズムについて広範な実験を行った。 アブレーション研究と可視化は、その効果をさらに検証する。 さらに、AugDiffの画質向上機能と、自己教師型学習よりも優れている点を強調した。 外部データセットの一般化は、その広範な応用を示している。

Multiple Instance Learning (MIL), a powerful strategy for weakly supervised learning, is able to perform various prediction tasks on gigapixel Whole Slide Images (WSIs). However, the tens of thousands of patches in WSIs usually incur a vast computational burden for image augmentation, limiting the MIL model's improvement in performance. Currently, the feature augmentation-based MIL framework is a promising solution, while existing methods such as Mixup often produce unrealistic features. To explore a more efficient and practical augmentation method, we introduce the Diffusion Model (DM) into MIL for the first time and propose a feature augmentation framework called AugDiff. Specifically, we employ the generation diversity of DM to improve the quality of feature augmentation and the step-by-step generation property to control the retention of semantic information. We conduct extensive experiments over three distinct cancer datasets, two different feature extractors, and three prevalent MIL algorithms to evaluate the performance of AugDiff. Ablation study and visualization further verify the effectiveness. Moreover, we highlight AugDiff's higher-quality augmented feature over image augmentation and its superiority over self-supervised learning. The generalization over external datasets indicates its broader applications.
翻訳日:2023-03-14 19:17:47 公開日:2023-03-11
# Blendshape Facial Animationにおける逆リグ問題の分散解

Distributed Solution of the Inverse Rig Problem in Blendshape Facial Animation ( http://arxiv.org/abs/2303.06370v1 )

ライセンス: Link先を確認
Stevo Rackovi\'c, Cl\'audia Sores, Du\v{s}an Jakoveti\'c(参考訳) アバターの現実的で魅力的なパフォーマンスを実現するため、リグ反転の問題は顔アニメーションの中心にある。 現代のブレンド形状モデルの複雑さが増すにつれて、実行時間は事実上実現可能なソリューションを超えて増加する。 より高速なソリューションへのアプローチとしては、顔の空間的性質を活用したクラスタリングがあり、分散メソッドに繋がる。 本稿では、重なり合うコンポーネントのより確実な推定を得るために、クラスタ結合を伴ってさらに一歩進める。 本アルゴリズムは,サブプロブレム間で重なり合う重みを共有する乗算器の交互方向法を適用する。 この手法を用いて得られた結果は、成功と視覚検査の異なる指標で測定されるように、単純クラスタ化アプローチに対する明確な優位性を示している。 この方法は任意の顔のクラスタリングに適用できる。 また,クラスタ数を無データに選択する新しい手法を提案する。 この方法は、結果として得られるクラスタリンググラフがスパースであるが必須情報を失うことなく、クラスタリングを見つける傾向がある。 最後に,上述のクラスタリング選択戦略に関して,優れたスコアを生成するデータフリークラスタリングアルゴリズムの新たな変種を提案する。

The problem of rig inversion is central in facial animation as it allows for a realistic and appealing performance of avatars. With the increasing complexity of modern blendshape models, execution times increase beyond practically feasible solutions. A possible approach towards a faster solution is clustering, which exploits the spacial nature of the face, leading to a distributed method. In this paper, we go a step further, involving cluster coupling to get more confident estimates of the overlapping components. Our algorithm applies the Alternating Direction Method of Multipliers, sharing the overlapping weights between the subproblems. The results obtained with this technique show a clear advantage over the naive clustered approach, as measured in different metrics of success and visual inspection. The method applies to an arbitrary clustering of the face. We also introduce a novel method for choosing the number of clusters in a data-free manner. The method tends to find a clustering such that the resulting clustering graph is sparse but without losing essential information. Finally, we give a new variant of a data-free clustering algorithm that produces good scores with respect to the mentioned strategy for choosing the optimal clustering.
翻訳日:2023-03-14 19:17:26 公開日:2023-03-11
# 人工ニューラルネットワークを用いた海馬依存課題におけるシーン知覚の神経表現

Probing neural representations of scene perception in a hippocampally dependent task using artificial neural networks ( http://arxiv.org/abs/2303.06367v1 )

ライセンス: Link先を確認
Markus Frey, Christian F. Doeller, Caswell Barry(参考訳) バックプロパゲーションによって訓練された深層人工ニューラルネットワーク(dnn)は、哺乳類の視覚システムの効果的なモデルを提供し、一次視覚野から下側皮質(it)への神経応答の階層を正確に捉える。 しかし、これらのネットワークが高次皮質領域の表現を説明する能力は比較的欠如しており、十分に研究されていない。 例えば、dnnは後頭葉皮質と後頭頂皮質の回路によって具現化されたエゴセントリックからアロセントリック変換のモデルとしてはあまり成功していない。 海馬依存タスクに触発された新たなシーン知覚ベンチマークについて述べる。これはDNNが異なる自我中心の視点から見るシーンを変換する能力を探索するために設計されたものである。 側頭葉構造と海馬の接続性に着想を得たネットワークアーキテクチャを用いて,三重項損失を用いて訓練されたdnnがこのタスクを学習できることを実証する。 さらに、因子化された潜在空間を強制することにより、情報伝達を「何」と「どこ」の経路に分割し、入力を再構築することができる。 これにより、CATERとMOVi-A,B,Cベンチマークで、教師なしオブジェクトセグメンテーションの最先端を破ることができる。

Deep artificial neural networks (DNNs) trained through backpropagation provide effective models of the mammalian visual system, accurately capturing the hierarchy of neural responses through primary visual cortex to inferior temporal cortex (IT). However, the ability of these networks to explain representations in higher cortical areas is relatively lacking and considerably less well researched. For example, DNNs have been less successful as a model of the egocentric to allocentric transformation embodied by circuits in retrosplenial and posterior parietal cortex. We describe a novel scene perception benchmark inspired by a hippocampal dependent task, designed to probe the ability of DNNs to transform scenes viewed from different egocentric perspectives. Using a network architecture inspired by the connectivity between temporal lobe structures and the hippocampus, we demonstrate that DNNs trained using a triplet loss can learn this task. Moreover, by enforcing a factorized latent space, we can split information propagation into "what" and "where" pathways, which we use to reconstruct the input. This allows us to beat the state-of-the-art for unsupervised object segmentation on the CATER and MOVi-A,B,C benchmarks.
翻訳日:2023-03-14 19:17:09 公開日:2023-03-11
# レンダリングに基づく拡張の観点からのマルチビューステレオの再考

Rethinking the Multi-view Stereo from the Perspective of Rendering-based Augmentation ( http://arxiv.org/abs/2303.06418v1 )

ライセンス: Link先を確認
Chenjie Cao, Xinlin Ren, Xiangyang Xue, Yanwei Fu(参考訳) GigaMVSは、既存のMulti-View Stereo(MVS)アルゴリズムに対して、その大規模、複雑なオクルージョン、およびギガピクセル画像に対するいくつかの課題を提示している。 これらの問題に対処するために,我々はまず,最先端の学習ベースmvs手法 --mvsformer を適用し,従来のパッチマッチ法で被るテクスチャレス領域やリフレクション領域などの難解なシナリオを克服したが,いくつかの大きなシーンの再構成では失敗する。 さらに、ACMMP、OpenMVS、RealCaptureといった従来のPatchMatchアルゴリズムを利用して、大規模なシーンの完全性をさらに向上する。 さらに、深層学習手法と従来のPatchMatchの両方の利点を統合するために、深度とカラー画像を描画してMVSFormerモデルをさらに微調整することを提案する。 特に、MVS法は、同期照明によるレンダリング画像により、より優れた予測を実現できることが分かり、MVSコミュニティにとって重要であると信じている。 したがって、MVSFormerは大規模シーンに一般化することができ、テクスチャレス再構築問題を補完的に解決することができる。 最後に、上記の \textit{ except one from realitycapture} のすべてのポイントクラウドを組み立て、競合であるgigareconstruction でトップ1にランク付けしました。

GigaMVS presents several challenges to existing Multi-View Stereo (MVS) algorithms for its large scale, complex occlusions, and gigapixel images. To address these problems, we first apply one of the state-of-the-art learning-based MVS methods, --MVSFormer, to overcome intractable scenarios such as textureless and reflections regions suffered by traditional PatchMatch methods, but it fails in a few large scenes' reconstructions. Moreover, traditional PatchMatch algorithms such as ACMMP, OpenMVS, and RealityCapture are leveraged to further improve the completeness in large scenes. Furthermore, to unify both advantages of deep learning methods and the traditional PatchMatch, we propose to render depth and color images to further fine-tune the MVSFormer model. Notably, we find that the MVS method could produce much better predictions through rendered images due to the coincident illumination, which we believe is significant for the MVS community. Thus, MVSFormer is capable of generalizing to large-scale scenes and complementarily solves the textureless reconstruction problem. Finally, we have assembled all point clouds mentioned above \textit{except ones from RealityCapture} and ranked Top-1 on the competitive GigaReconstruction.
翻訳日:2023-03-14 19:11:22 公開日:2023-03-11
# MIMO-NOMA IoTシステムにおけるAoI最小化のための深層強化学習に基づく電力配分

Deep Reinforcement Learning Based Power Allocation for Minimizing AoI and Energy Consumption in MIMO-NOMA IoT Systems ( http://arxiv.org/abs/2303.06411v1 )

ライセンス: Link先を確認
Hongbiao Zhu, Qiong Wu, Qiang Fan, Pingyi Fan, Jiangzhou Wang, and Zhengquan Li(参考訳) マルチインプットマルチアウトおよび非直交マルチアクセス(MIMO-NOMA)インターネットオブシング(IoT)システムは、リアルタイムアプリケーションをサポートするために、チャネル容量とスペクトル効率をはっきりと改善することができる。 情報時代(AoI)はリアルタイムアプリケーションにとって重要な指標だが,MIMO-NOMA IoT システムの AoI を最小化する文献は存在しない。 MIMO-NOMA IoTシステムでは、基地局(BS)がサンプル収集要求を決定し、各IoTデバイスに送信電力を割り当てる。 各装置は、サンプル収集要求に従ってデータをサンプリングするかを決定し、割り当てられた電力を採用して、MIMO-NOMAチャネルを介してサンプルデータをBSに送信する。 その後、BSは逐次干渉キャンセル(SIC)技術を用いて、各デバイスから送信されるデータの信号を復号する。 サンプル収集要求と電力配分は、AoIとシステムのエネルギー消費に影響を与える。 伝送速度がSICプロセスでは一定ではなく,MIMO-NOMAチャネルではノイズが確率的である,MIMO-NOMA IoTシステムのAoIとエネルギー消費を最小限に抑えるために,サンプル収集要求や電力配分を含む最適なポリシを決定することが重要である。 本稿では,深部強化学習(DRL)に基づくMIMO-NOMA IoTシステムのAoIとエネルギー消費を最小化するための最適電力割り当てを提案する。 最適電力割当の優位性を示すために,広範なシミュレーションを行った。

Multi-input multi-out and non-orthogonal multiple access (MIMO-NOMA) internet-of-things (IoT) systems can improve channel capacity and spectrum efficiency distinctly to support the real-time applications. Age of information (AoI) is an important metric for real-time application, but there is no literature have minimized AoI of the MIMO-NOMA IoT system, which motivates us to conduct this work. In MIMO-NOMA IoT system, the base station (BS) determines the sample collection requirements and allocates the transmission power for each IoT device. Each device determines whether to sample data according to the sample collection requirements and adopts the allocated power to transmit the sampled data to the BS over MIMO-NOMA channel. Afterwards, the BS employs successive interference cancelation (SIC) technique to decode the signal of the data transmitted by each device. The sample collection requirements and power allocation would affect AoI and energy consumption of the system. It is critical to determine the optimal policy including sample collection requirements and power allocation to minimize the AoI and energy consumption of MIMO-NOMA IoT system, where the transmission rate is not a constant in the SIC process and the noise is stochastic in the MIMO-NOMA channel. In this paper, we propose the optimal power allocation to minimize the AoI and energy consumption of MIMO- NOMA IoT system based on deep reinforcement learning (DRL). Extensive simulations are carried out to demonstrate the superiority of the optimal power allocation.
翻訳日:2023-03-14 19:10:57 公開日:2023-03-11
# brain diffuser: エンド・ツー・エンドの脳画像から脳ネットワークパイプライン

Brain Diffuser: An End-to-End Brain Image to Brain Network Pipeline ( http://arxiv.org/abs/2303.06410v1 )

ライセンス: Link先を確認
Xuhang Chen, Baiying Lei, Chi-Man Pun, Shuqiang Wang(参考訳) 脳ネットワーク解析はアルツハイマー病(AD)の診断と治療に不可欠である。 しかし、以前の研究は主に特定の時間的および主観的なツールキットに依存していた。 脳拡散テンソル画像(DTI)から構造的脳ネットワークを得ることができるツールはほとんどない。 本稿では,DTIから構造脳ネットワークを直接形成する拡散型エンド・ツー・エンド脳ネットワーク生成モデルであるBrain Diffuserを提案する。 既存のツールキットと比較して、brain diffuserは、被験者間の構造的脳ネットワークの相違を分析して、より構造的な接続機能と疾患関連情報を利用する。 アルツハイマー病の症例では,既存のアルツハイマー病画像データベース(adni)の結果より,提案モデルの方が優れていた。

Brain network analysis is essential for diagnosing and intervention for Alzheimer's disease (AD). However, previous research relied primarily on specific time-consuming and subjective toolkits. Only few tools can obtain the structural brain networks from brain diffusion tensor images (DTI). In this paper, we propose a diffusion based end-to-end brain network generative model Brain Diffuser that directly shapes the structural brain networks from DTI. Compared to existing toolkits, Brain Diffuser exploits more structural connectivity features and disease-related information by analyzing disparities in structural brain networks across subjects. For the case of Alzheimer's disease, the proposed model performs better than the results from existing toolkits on the Alzheimer's Disease Neuroimaging Initiative (ADNI) database.
翻訳日:2023-03-14 19:10:28 公開日:2023-03-11
# ヒトのてんかん発作発生を予知する補助犬からの信号伝達行動の自動検出

Automatic Detection of Signalling Behaviour from Assistance Dogs as they Forecast the Onset of Epileptic Seizures in Humans ( http://arxiv.org/abs/2303.06407v1 )

ライセンス: Link先を確認
Hitesh Raju, Ankit Sharma, Aoife Smeaton, Alan F. Smeaton(参考訳) てんかんまたはてんかん発作(英: epileptic seizures)は、何百万人もの人々に影響を及ぼす、世界で最もよく知られた神経障害の一つである。 発作は、主に脳内の非協調的な放電によるものであり、崩壊や意識の喪失など、損傷を引き起こす可能性がある。 発作の発症を予知することができれば、被検体を安全な環境や位置に置くことができ、崩壊による自己損傷を最小化することができる。 しかし、日常的に制御されていない環境で発作を予測する決定的な方法はない。 従来の研究では、ペット犬は発作が起こる前の被験者によって皮膚から放出される特徴的な揮発性有機化合物を嗅ぐことでててんかん発作の発症を検出する能力があることが示されている。 この研究では、訓練された援助犬の信号伝達行動を自動的に検出し、これを飼い主に警告する。 犬の首輪に装着した加速度計のデータを用いて、私たちは11匹の訓練犬から合計107日間の移動データを収集した。 本稿では,犬の行動から信号を正確に検出する機械学習手法を提案する。 この研究は、訓練された支援犬のシグナリング行動からてんかん発作の発生可能性を自動的に警告するステップである。

Epilepsy or the occurrence of epileptic seizures, is one of the world's most well-known neurological disorders affecting millions of people. Seizures mostly occur due to non-coordinated electrical discharges in the human brain and may cause damage, including collapse and loss of consciousness. If the onset of a seizure can be forecast then the subject can be placed into a safe environment or position so that self-injury as a result of a collapse can be minimised. However there are no definitive methods to predict seizures in an everyday, uncontrolled environment. Previous studies have shown that pet dogs have the ability to detect the onset of an epileptic seizure by scenting the characteristic volatile organic compounds exuded through the skin by a subject prior a seizure occurring and there are cases where assistance dogs, trained to scent the onset of a seizure, can signal this to their owner/trainer. In this work we identify how we can automatically detect the signalling behaviours of trained assistance dogs and use this to alert their owner. Using data from an accelerometer worn on the collar of a dog we describe how we gathered movement data from 11 trained dogs for a total of 107 days as they exhibited signalling behaviour on command. We present the machine learning techniques used to accurately detect signalling from routine dog behaviour. This work is a step towards automatic alerting of the likely onset of an epileptic seizure from the signalling behaviour of a trained assistance dog.
翻訳日:2023-03-14 19:10:21 公開日:2023-03-11
# 感度edm探索のための新しいスピンプリセッション法

Novel spin-precession method for sensitive EDM searches ( http://arxiv.org/abs/2303.06402v1 )

ライセンス: Link先を確認
A. Boeschoten, V.R. Marshall, T.B. Meijknecht, A. Touwen, H.L. Bethlem, A. Borschevsky, S. Hoekstra, J.W.F. van Hofslot, K. Jungmann, M.C. Mooij, R.G.E. Timmermans, W. Ubachs, and L. Willmann(参考訳) 単フッ化バリウムのx^2\sigma^+,n=0$基底状態($^{138}$ba$^{19}$f)における全超微細構造間の多値コヒーレンスを観察・解析するためのスピンプリセッション法を示す。 この信号は、永久電気双極子モーメント(edm)の探索に適用される状態準備rabi周波数および外部電気及び磁場に敏感である。 得られた干渉スペクトルでは、電場とラビ周波数はEDMと同時に観測可能である。 この手法は, 系統的バイアスを低減し, 補助的な測定回数を減少させる。

We demonstrate a spin-precession method to observe and analyze multi-level coherence between all hyperfine levels in the $X ^2\Sigma^+,N=0$ ground state of barium monofluoride ($^{138}$Ba$^{19}$F). The signal is sensitive to the state-preparation Rabi frequency and external electric and magnetic fields applied in searches for a permanent electric dipole moment (EDM). In the obtained interference spectrum, the electric field and Rabi frequency become observable simultaneously with the EDM. This method reduces systematic biases and the number of auxiliary measurements for such precision measurements.
翻訳日:2023-03-14 19:09:55 公開日:2023-03-11
# 2つの水素原子の長距離相互作用エネルギーのための1-マトリクス関数

1-matrix functional for long-range interaction energy of two hydrogen atoms ( http://arxiv.org/abs/2303.06400v1 )

ライセンス: Link先を確認
Jerzy Cioslowski, Christian Schilling, Rolf Schilling(参考訳) 1電子還元密度行列のH$2$分子の基底状態エネルギーに対する1電子還元密度行列と核間分離$R$の機能の漸近的な項は、R \to \infty$極限における相ジレンマの解によって導かれる。 この極限において、それぞれの自然軌道 (NOs) は「半空間」軌道の対称的および非対称的な結合と、同じ振幅の対応する自然振幅と反対の符号によって与えられる。 結果として生じる明示関数の最小化は、弱占有NOsの占有数と$C_6$分散係数に対する大きなR$漸近を生じる。 現在の定式化の発展により初めて利用可能となる、$p$型の「半空間」軌道と対応する占有数($R^{-6}$のように崩壊する)の放射成分の高精度な近似は、いくつかの予期せぬ性質を持つ。

The leading terms in the large-$R$ asymptotics of the functional of the one-electron reduced density matrix for the ground-state energy of the H$_2$ molecule with the internuclear separation $R$ is derived thanks to the solution of the phase dilemma at the $R \to \infty$ limit. At this limit, the respective natural orbitals (NOs) are given by symmetric and antisymmetric combinations of "half-space" orbitals with the corresponding natural amplitudes of the same amplitudes but opposite signs. Minimization of the resulting explicit functional yields the large-$R$ asymptotics for the occupation numbers of the weakly occupied NOs and the $C_6$ dispersion coefficient. The highly accurate approximates for the radial components of the $p$-type "half-space" orbitals and the corresponding occupation numbers (that decay like $R^{-6}$), which are available for the first time thanks to the development of the present formalism, have some unexpected properties.
翻訳日:2023-03-14 19:09:45 公開日:2023-03-11
# ワッサーシュタイン勾配流による変分ガウスフィルタリング

Variational Gaussian filtering via Wasserstein gradient flows ( http://arxiv.org/abs/2303.06398v1 )

ライセンス: Link先を確認
Adrie Corenflos and Hany Abdulsamad(参考訳) 本稿では,ガウシアンと混合ガウシアンのフィルタリングを仮定した変分的アプローチを提案する。 提案手法は,Kulback-Leibler差分最小化の勾配-フロー表現から生じる近似に依存する。 本手法の概要を述べるとともに,ガウス近似が一般的に失敗する2つのモデルに対して,パラメータ推定と後続表現の競合性を示す。

In this article, we present a variational approach to Gaussian and mixture-of-Gaussians assumed filtering. Our method relies on an approximation stemming from the gradient-flow representations of a Kullback--Leibler discrepancy minimization. We outline the general method and show its competitiveness in parameter estimation and posterior representation for two models for which Gaussian approximations typically fail: a multiplicative noise and a multi-modal model.
翻訳日:2023-03-14 19:09:28 公開日:2023-03-11
# 公平な資源配分のための非回帰アルゴリズム

No-regret Algorithms for Fair Resource Allocation ( http://arxiv.org/abs/2303.06396v1 )

ライセンス: Link先を確認
Abhishek Sinha, Ativ Joshi, Rajarshi Bhattacharjee, Cameron Musco, Mohammad Hajiesmaili(参考訳) 制限のない敵に対する無規制設定における公平な資源配分問題を考える。 目的は、エージェントの$\alpha$-fairユーティリティの最適な静的透視的割り当てとオンラインポリシーの割り当ての差が時間とともに非線形に増加するように、オンラインの方法で複数のエージェント間で公平にリソースを割り当てることである。 この問題は、$\alpha$-fairness関数の非加法性のために難しい。 従来、この問題に対するオンラインポリシーは存在せず、サブリニア標準の後悔は生じなかった。 本稿では,オンライン比例フェア (opf) と呼ばれる効率的なオンライン資源配分ポリシーを提案し,近似係数 $c_\alpha=(1-\alpha)^{-(1-\alpha)}\leq 1.445,$0\leq \alpha < 1$ で$c_\alpha$-approximate sublinear regret を実現する。 この問題に対する$c_\alpha$-regret の上限は驚くべき相転移現象を示す。 後悔はパワーローから臨界指数 $\alpha=\frac{1}{2} での定数への変化を束縛する。 この結果は、Even-Darらによって提起されたオープンな問題を解決します。 [2009]特定パラメーター制度におけるオンラインジョブスケジューリング問題に対する効率的なノンレグレットポリシーの設計について。 本研究の結果は,非加法的大域的報酬関数の将来勾配の欲求的推定,適応的後悔境界のブートストラップなど,新たなアルゴリズム的・解析的手法を導入している。

We consider a fair resource allocation problem in the no-regret setting against an unrestricted adversary. The objective is to allocate resources equitably among several agents in an online fashion so that the difference of the aggregate $\alpha$-fair utilities of the agents between an optimal static clairvoyant allocation and that of the online policy grows sub-linearly with time. The problem is challenging due to the non-additive nature of the $\alpha$-fairness function. Previously, it was shown that no online policy can exist for this problem with a sublinear standard regret. In this paper, we propose an efficient online resource allocation policy, called Online Proportional Fair (OPF), that achieves $c_\alpha$-approximate sublinear regret with the approximation factor $c_\alpha=(1-\alpha)^{-(1-\alpha)}\leq 1.445,$ for $0\leq \alpha < 1$. The upper bound to the $c_\alpha$-regret for this problem exhibits a surprising phase transition phenomenon. The regret bound changes from a power-law to a constant at the critical exponent $\alpha=\frac{1}{2}.$ As a corollary, our result also resolves an open problem raised by Even-Dar et al. [2009] on designing an efficient no-regret policy for the online job scheduling problem in certain parameter regimes. The proof of our results introduces new algorithmic and analytical techniques, including greedy estimation of the future gradients for non-additive global reward functions and bootstrapping adaptive regret bounds, which may be of independent interest.
翻訳日:2023-03-14 19:09:24 公開日:2023-03-11
# 時系列予測のための移動前線,データ分解,深層学習を組み合わせた新しい手法

A Novel Method Combines Moving Fronts, Data Decomposition and Deep Learning to Forecast Intricate Time Series ( http://arxiv.org/abs/2303.06394v1 )

ライセンス: Link先を確認
Debdarsan Niyogi(参考訳) 可変性の高い単変量時系列は、ディープニューラルネットワーク(DNN)にも挑戦できる。 これを克服するために、単変量時系列はより単純な構成級数に分解され、その和は元の級数と等しい。 本稿で示すように、従来の1回分解技術は、データリークと呼ばれる未来からの情報の漏洩に苦しむ。 本研究では,データ漏洩を防止し,分解系列を他の時系列のように扱うことが可能な,新しい移動フロント(mf)法を提案する。 インド夏モンスーン降雨(ISMR)は非常に複雑な時系列であり、DNNに挑戦し、その例として選ばれている。 利用可能な多くの信号処理ツールから、Impirical Wavelet Transform (EWT)は、他の一般的なアルゴリズムであるComplete Ensemble Empirical Mode Decomposition with Adaptive Noise (CEEMDAN)よりも効果的であることが判明し、ISMRを単純な構成系列に分解するために選ばれた。 提案するmf法は,成分漏れのない時系列を生成するために用いられた。 予測と予測は最先端の長短メモリ(LSTM)ネットワークアーキテクチャによって行われ、特にシーケンシャルパターンの予測に適している。 構成的MFシリーズは、トレーニング、テスト、予測に分けられている。 ここで開発されたモデル(EWT-MF-LSTM)は、ウォーク・フォワード・バリデーション(WFV)やパフォーマンスパラメータ(PP$)が0.99、0.86、0.95と非常に優れた予測を行い、PP$ = 1.0はデータの完全な複製を意味する。

A univariate time series with high variability can pose a challenge even to Deep Neural Network (DNN). To overcome this, a univariate time series is decomposed into simpler constituent series, whose sum equals the original series. As demonstrated in this article, the conventional one-time decomposition technique suffers from a leak of information from the future, referred to as a data leak. In this work, a novel Moving Front (MF) method is proposed to prevent data leakage, so that the decomposed series can be treated like other time series. Indian Summer Monsoon Rainfall (ISMR) is a very complex time series, which poses a challenge to DNN and is therefore selected as an example. From the many signal processing tools available, Empirical Wavelet Transform (EWT) was chosen for decomposing the ISMR into simpler constituent series, as it was found to be more effective than the other popular algorithm, Complete Ensemble Empirical Mode Decomposition with Adaptive Noise (CEEMDAN). The proposed MF method was used to generate the constituent leakage-free time series. Predictions and forecasts were made by state-of-the-art Long and Short-Term Memory (LSTM) network architecture, especially suitable for making predictions of sequential patterns. The constituent MF series has been divided into training, testing, and forecasting. It has been found that the model (EWT-MF-LSTM) developed here made exceptionally good train and test predictions, as well as Walk-Forward Validation (WFV), forecasts with Performance Parameter ($PP$) values of 0.99, 0.86, and 0.95, respectively, where $PP$ = 1.0 signifies perfect reproduction of the data.
翻訳日:2023-03-14 19:08:51 公開日:2023-03-11
# 不確かさに気付くオフ・ポリティ・ラーニング

Uncertainty-Aware Off-Policy Learning ( http://arxiv.org/abs/2303.06389v1 )

ライセンス: Link先を確認
Xiaoying Zhang, Junpu Chen, Hongning Wang, Hong Xie, Hang Li(参考訳) オフライン学習は、ログ化されたフィードバックデータにのみアクセス可能なポリシー最適化の手順を参照し、検索エンジンやレコメンダシステムなど、さまざまな現実世界のアプリケーションにおいて重要であることを示す。 ログデータを生成する接地検層法は通常不明であるが、従来の研究は単に非政治学習において推定値を取るだけで、特に小さく不正確な推定検層確率を持つ試料において、そのような推定値から生じる高いバイアスと高いばらつきの両方を無視している。 本研究では,推定ロギングポリシーの不確かさを明示的にモデル化し,不確実性を考慮した逆確率スコア推定器(UIPS)を提案する。 人工的および実世界の3つの推奨データセットの実験結果から,提案したUIPS推定器の有効サンプル効率を,最先端のベースラインの広範なリストと比較した。

Off-policy learning, referring to the procedure of policy optimization with access only to logged feedback data, has shown importance in various real-world applications, such as search engines, recommender systems, and etc. While the ground-truth logging policy, which generates the logged data, is usually unknown, previous work simply takes its estimated value in off-policy learning, ignoring both high bias and high variance resulted from such an estimator, especially on samples with small and inaccurately estimated logging probabilities. In this work, we explicitly model the uncertainty in the estimated logging policy and propose a Uncertainty-aware Inverse Propensity Score estimator (UIPS) for improved off-policy learning. Experiment results on synthetic and three real-world recommendation datasets demonstrate the advantageous sample efficiency of the proposed UIPS estimator against an extensive list of state-of-the-art baselines.
翻訳日:2023-03-14 19:08:18 公開日:2023-03-11
# DECOMPL:単一バレーボール画像からのグループ活動認識のための注意ポーリングによる分解学習

DECOMPL: Decompositional Learning with Attention Pooling for Group Activity Recognition from a Single Volleyball Image ( http://arxiv.org/abs/2303.06439v1 )

ライセンス: Link先を確認
Berker Demirel, Huseyin Ozkan(参考訳) グループアクティビティ認識(GAR)は、複数のアクターがシーンで実行するアクティビティを検出することを目的としている。 先行作業モデルは、rgb、オプティカルフロー、キーポイントデータ型に基づく時空間的特徴をモデル化する。 しかし、時間性とデータ型の両方を使用することで、計算の複雑さが大幅に増大する。 我々の仮説は、時間性のないRGBデータのみを使用することで、精度を損なうことなく性能を維持できるというものである。 そこで我々は,バレーボールビデオのための新しいGAR手法であるDECOMPLを提案する。 視覚枝では、アテンションプールを用いた特徴を選択的に抽出する。 座標分岐では、アクターの現在の構成を考慮し、ボックス座標から空間情報を抽出する。 さらに,最近の文献が大半を基盤とするバレーボールデータセットを分析し,そのラベリング方式が活動の集団概念を個々の俳優のレベルに分解することを確認した。 我々は,グループ概念を強調するために,データセットを体系的に手動で再注釈した。 Volleyball と Collective Activity (別のドメイン、つまりバレーボールではない) のデータセットの実験結果は、提案されたモデル DECOMPL の有効性を実証した。 私たちのコード、結果、新しいアノテーションは、リビジョンプロセスの後、githubで利用可能になります。

Group Activity Recognition (GAR) aims to detect the activity performed by multiple actors in a scene. Prior works model the spatio-temporal features based on the RGB, optical flow or keypoint data types. However, using both the temporality and these data types altogether increase the computational complexity significantly. Our hypothesis is that by only using the RGB data without temporality, the performance can be maintained with a negligible loss in accuracy. To that end, we propose a novel GAR technique for volleyball videos, DECOMPL, which consists of two complementary branches. In the visual branch, it extracts the features using attention pooling in a selective way. In the coordinate branch, it considers the current configuration of the actors and extracts the spatial information from the box coordinates. Moreover, we analyzed the Volleyball dataset that the recent literature is mostly based on, and realized that its labeling scheme degrades the group concept in the activities to the level of individual actors. We manually reannotated the dataset in a systematic manner for emphasizing the group concept. Experimental results on the Volleyball as well as Collective Activity (from another domain, i.e., not volleyball) datasets demonstrated the effectiveness of the proposed model DECOMPL, which delivered the best/second best GAR performance with the reannotations/original annotations among the comparable state-of-the-art techniques. Our code, results and new annotations will be made available through GitHub after the revision process.
翻訳日:2023-03-14 19:01:57 公開日:2023-03-11
# 深層学習に基づくOFDM信号の音源分離のためのニューラルネットワークについて

On Neural Architectures for Deep Learning-based Source Separation of Co-Channel OFDM Signals ( http://arxiv.org/abs/2303.06438v1 )

ライセンス: Link先を確認
Gary C.F. Lee and Amir Weiss and Alejandro Lancho and Yury Polyanskiy and Gregory W. Wornell(参考訳) 近年のデジタル通信システムにおいてユビキタスである直交周波数分割多重化(ofdm)信号を含む単一チャネル源分離問題について検討した。 モノラル音源分離では、音声信号(1次元時系列として)のエンドツーエンドセパレータをトレーニングするために最先端のニューラルアーキテクチャが採用されている。 本研究は,OFDMソースモデルに基づくプロトタイプ問題を通じて,通信波形に関連する特徴に基づいた信号の分離において,音声指向のニューラルアーキテクチャを用いることの有効性を評価する。 意外なことに、完全分離が理論上達成可能ないくつかの構成では、これらのオーディオ指向ニューラルネットワークは、共チャネルOFDM波形の分離において不十分に機能する。 しかし、OFDM構造からの洞察に基づいて、ネットワークパラメータ化に対する重要なドメインインフォームド修正を提案し、約30dBの性能向上を期待できる。

We study the single-channel source separation problem involving orthogonal frequency-division multiplexing (OFDM) signals, which are ubiquitous in many modern-day digital communication systems. Related efforts have been pursued in monaural source separation, where state-of-the-art neural architectures have been adopted to train an end-to-end separator for audio signals (as 1-dimensional time series). In this work, through a prototype problem based on the OFDM source model, we assess -- and question -- the efficacy of using audio-oriented neural architectures in separating signals based on features pertinent to communication waveforms. Perhaps surprisingly, we demonstrate that in some configurations, where perfect separation is theoretically attainable, these audio-oriented neural architectures perform poorly in separating co-channel OFDM waveforms. Yet, we propose critical domain-informed modifications to the network parameterization, based on insights from OFDM structures, that can confer about 30 dB improvement in performance.
翻訳日:2023-03-14 19:01:34 公開日:2023-03-11
# 強化学習に基づくカウンターミス情報応答生成 : ワクチン誤報を事例として

Reinforcement Learning-based Counter-Misinformation Response Generation: A Case Study of COVID-19 Vaccine Misinformation ( http://arxiv.org/abs/2303.06433v1 )

ライセンス: Link先を確認
Bing He, Mustaque Ahamad, Srijan Kumar(参考訳) オンライン誤報の拡散は公衆衛生、民主主義、そしてより広い社会を脅かす。 プロのファクトチェックは、偽の主張を事実チェックすることで最初の防衛線を形成するが、偽情報スプレッドラーとの会話に直接関わらない。 一方、非専門家の一般ユーザーは、偽情報に積極的に対処する現場で、96%の偽情報対応が一般ユーザーによって行われていることが最近の研究で示されている。 しかし、研究は2/3回、これらの反応は失礼で証拠がないことも明らかにした。 本研究は,誤報を効果的に修正するための誤報応答生成モデルの構築を目的とする。 この目的は、理想的な反情報応答の基盤構造を含むデータセットが存在しないことと、通信理論による応答を生成できるモデルが存在しないことによる。 本研究では,実地ソーシャルメディアと大学生のクラウドソーシングから,誤情報と反情報応答ペアの新たなデータセットを2つ作成する。 収集したデータは、事実、礼儀正しく、偽情報に反する理想的な応答と区別するために注釈付けします。 入力誤報投稿に対する反誤報応答を学習する強化学習に基づくフレームワークであるMisinfoCorrectを提案する。 このモデルは、テキストの流布や関連性を保ちつつ、丁寧さ、事実性、反感を高めるためにジェネレータに報酬を与える。 定量的・質的評価は, 高品質な反応答を発生させることで, モデルが複数のベースラインを上回っていることを示す。 この研究は、安全で信頼性の高い情報エコシステムの構築を支援する、社会的善のための生成テキストモデルの約束を示している。 コードとデータはhttps://github.com/claws-lab/MisinfoCorrectでアクセスできる。

The spread of online misinformation threatens public health, democracy, and the broader society. While professional fact-checkers form the first line of defense by fact-checking popular false claims, they do not engage directly in conversations with misinformation spreaders. On the other hand, non-expert ordinary users act as eyes-on-the-ground who proactively counter misinformation -- recent research has shown that 96% counter-misinformation responses are made by ordinary users. However, research also found that 2/3 times, these responses are rude and lack evidence. This work seeks to create a counter-misinformation response generation model to empower users to effectively correct misinformation. This objective is challenging due to the absence of datasets containing ground-truth of ideal counter-misinformation responses, and the lack of models that can generate responses backed by communication theories. In this work, we create two novel datasets of misinformation and counter-misinformation response pairs from in-the-wild social media and crowdsourcing from college-educated students. We annotate the collected data to distinguish poor from ideal responses that are factual, polite, and refute misinformation. We propose MisinfoCorrect, a reinforcement learning-based framework that learns to generate counter-misinformation responses for an input misinformation post. The model rewards the generator to increase the politeness, factuality, and refutation attitude while retaining text fluency and relevancy. Quantitative and qualitative evaluation shows that our model outperforms several baselines by generating high-quality counter-responses. This work illustrates the promise of generative text models for social good -- here, to help create a safe and reliable information ecosystem. The code and data is accessible on https://github.com/claws-lab/MisinfoCorrect.
翻訳日:2023-03-14 19:01:17 公開日:2023-03-11
# エンコーダとデコーダのアンサンブルによる異常検出

Anomaly Detection with Ensemble of Encoder and Decoder ( http://arxiv.org/abs/2303.06431v1 )

ライセンス: Link先を確認
Xijuan Sun, Di Wu, Arnaud Zinflou, Benoit Boulet(参考訳) 敵からのハッキングや偽のデータ注入は電力グリッドの日常的な運用を脅かし、経済的損失を著しく引き起こす可能性がある。 電力グリッドの異常検出は、電力グリッドの正常かつ効率的な動作を維持するために不可欠である、電力システムに対するサイバー攻撃による異常を検出し、識別することを目的としている。 統計手法や機械学習に基づく手法など、さまざまな手法が異常検出に応用されている。 通常、機械学習ベースの方法は、通常のデータ分布をモデル化する必要がある。 本研究では,複数エンコーダとデコーダによる正規サンプルのデータ分布をモデル化し,新しい異常検出法を提案する。 具体的には,入力サンプルを潜時空間にマッピングし,潜時ベクトルからの出力サンプルを再構成する。 余剰エンコーダは最終的に再構成されたサンプルを潜在表現にマッピングする。 トレーニング期間中、再構成損失と符号化損失を最小化してパラメータを最適化する。 トレーニングサンプルは再重み付けされ、通常のデータの特徴間の相関の欠如に焦点が当てられる。 さらに,エンコーダとデコーダとして長期記憶モデルを用い,その有効性を検証した。 また,我々のアプローチのハイパーパラメータチューニングのためのメタラーニングベースのフレームワークについても検討した。 ネットワーク侵入と電力系統データセットを用いた実験により,提案手法の有効性が実証された。

Hacking and false data injection from adversaries can threaten power grids' everyday operations and cause significant economic loss. Anomaly detection in power grids aims to detect and discriminate anomalies caused by cyber attacks against the power system, which is essential for keeping power grids working correctly and efficiently. Different methods have been applied for anomaly detection, such as statistical methods and machine learning-based methods. Usually, machine learning-based methods need to model the normal data distribution. In this work, we propose a novel anomaly detection method by modeling the data distribution of normal samples via multiple encoders and decoders. Specifically, the proposed method maps input samples into a latent space and then reconstructs output samples from latent vectors. The extra encoder finally maps reconstructed samples to latent representations. During the training phase, we optimize parameters by minimizing the reconstruction loss and encoding loss. Training samples are re-weighted to focus more on missed correlations between features of normal data. Furthermore, we employ the long short-term memory model as encoders and decoders to test its effectiveness. We also investigate a meta-learning-based framework for hyper-parameter tuning of our approach. Experiment results on network intrusion and power system datasets demonstrate the effectiveness of our proposed method, where our models consistently outperform all baselines.
翻訳日:2023-03-14 19:00:48 公開日:2023-03-11
# 人間-AIテキスト協調作業におけるインタラクションのデザイン空間のマッピング

Mapping the Design Space of Interactions in Human-AI Text Co-creation Tasks ( http://arxiv.org/abs/2303.06430v1 )

ライセンス: Link先を確認
Zijian Ding. Joel Chan(参考訳) 大規模言語モデル (LLM) は印象的なテキスト生成能力を示し、人間とAIの共創の未来と、人間がLLMとどのように相互作用するかを再考するきっかけとなった。 本稿では,コンテンツ生成タスクとそれに対応するヒューマン・AIインタラクションパターンについて述べる。 これらのタスクには以下のものがある。 1)人間とaiの相互作用を最小限に抑える固定スコープコンテンツキュレーションタスク 2)人間とAIのインタラクションを正確に行う独立した創造的タスク 3) 反復的人間-AIインタラクションによる複雑で相互依存的な創造的タスク。 我々は、生成的なaiとhci研究コミュニティに対して、より複雑な、相互依存的なタスクに焦点を合わせることを奨励します。

Large Language Models (LLMs) have demonstrated impressive text generation capabilities, prompting us to reconsider the future of human-AI co-creation and how humans interact with LLMs. In this paper, we present a spectrum of content generation tasks and their corresponding human-AI interaction patterns. These tasks include: 1) fixed-scope content curation tasks with minimal human-AI interactions, 2) independent creative tasks with precise human-AI interactions, and 3) complex and interdependent creative tasks with iterative human-AI interactions. We encourage the generative AI and HCI research communities to focus on the more complex and interdependent tasks, which require greater levels of human involvement.
翻訳日:2023-03-14 19:00:29 公開日:2023-03-11
# 特徴学習による深部畳み込みニューラルネットワークのロバスト性向上

Improving the Robustness of Deep Convolutional Neural Networks Through Feature Learning ( http://arxiv.org/abs/2303.06425v1 )

ライセンス: Link先を確認
Jin Ding, Jie-Chao Zhao, Yong-Zhi Sun, Ping Tan, Ji-En Ma, You-Tong Fang(参考訳) 深層畳み込みニューラルネットワーク(DCNN: Deep Convolutional Neural Network)モデルは、小さな摂動の例に弱い。 逆トレーニング(略してAT)は、データ拡張によるDCNNモデルの堅牢性を高めるために広く用いられている手法である。 ATでは、DCNNモデルは、特定の攻撃方法を用いて生成されたクリーンな例と敵の例(略してAE)で訓練され、目に見えないAEに直面する際に自身を守る能力を得ることを目的としている。 しかし実際には、訓練されたdcnnモデルは、しばしば新しい攻撃法によって生成されたaesによって騙される。 DCNNモデルは、小さな摂動に敏感な特定の機能を学び、どんな攻撃方法が提示されたとしても、さらに自身を守ることができる。 この問題に対処するため,本稿では,一般的なバックボーンに組み込むことのできる浅いバイナリ機能モジュール(略してSBFM)を提案する。 sbfmはソベル層としきい値層という2種類の層を含む。 sobel層では、水平、垂直、対角エッジの特徴を表す4つの平行な特徴マップが存在する。 そしてしきい値層では、sobel layerが学習するエッジ機能をバイナリ機能に変換し、バックボーンが学習した機能で分類するために、完全に接続されたレイヤにフィードする。 SBFMをVGG16とResNet34に統合し、複数のデータセットで実験を行う。 実験の結果,$\epsilon=8/255$のfgsm攻撃では,sbfm統合モデルの方が平均して35\%高い精度を達成でき,cifar-10およびtinyimagenetデータセットでは,sbfm統合モデルが平均75\%の分類精度を達成できることがわかった。 本稿では,特徴学習を通じてDCNNモデルの堅牢性を高めることを約束する。

Deep convolutional neural network (DCNN for short) models are vulnerable to examples with small perturbations. Adversarial training (AT for short) is a widely used approach to enhance the robustness of DCNN models by data augmentation. In AT, the DCNN models are trained with clean examples and adversarial examples (AE for short) which are generated using a specific attack method, aiming to gain ability to defend themselves when facing the unseen AEs. However, in practice, the trained DCNN models are often fooled by the AEs generated by the novel attack methods. This naturally raises a question: can a DCNN model learn certain features which are insensitive to small perturbations, and further defend itself no matter what attack methods are presented. To answer this question, this paper makes a beginning effort by proposing a shallow binary feature module (SBFM for short), which can be integrated into any popular backbone. The SBFM includes two types of layers, i.e., Sobel layer and threshold layer. In Sobel layer, there are four parallel feature maps which represent horizontal, vertical, and diagonal edge features, respectively. And in threshold layer, it turns the edge features learnt by Sobel layer to the binary features, which then are feeded into the fully connected layers for classification with the features learnt by the backbone. We integrate SBFM into VGG16 and ResNet34, respectively, and conduct experiments on multiple datasets. Experimental results demonstrate, under FGSM attack with $\epsilon=8/255$, the SBFM integrated models can achieve averagely 35\% higher accuracy than the original ones, and in CIFAR-10 and TinyImageNet datasets, the SBFM integrated models can achieve averagely 75\% classification accuracy. The work in this paper shows it is promising to enhance the robustness of DCNN models through feature learning.
翻訳日:2023-03-14 19:00:17 公開日:2023-03-11
# トークン化画像合成のための正規化ベクトル量子化

Regularized Vector Quantization for Tokenized Image Synthesis ( http://arxiv.org/abs/2303.06424v1 )

ライセンス: Link先を確認
Jiahui Zhang, Fangneng Zhan, Christian Theobalt, Shijian Lu(参考訳) 画像の離散表現への量子化は、統一生成モデリングにおける根本的な問題である。 先行的アプローチは、ベストマッチトークンを選択して決定論的に、あるいは予測された分布からサンプリングして確率的に、離散表現を学習する。 しかし、決定論的量子化は、厳密なコードブックの崩壊と推論段階との不一致に悩まされ、確率的量子化は、低いコードブック利用と摂動的再構成の目的に悩まされる。 本稿では,2つの視点から正規化を適用することで,上記の問題を効果的に緩和できる正規化ベクトル量子化フレームワークを提案する。 1つ目は、コードブックの崩壊やコードブックの利用率の低下を避けるために、先行トークン分布と予測トークン分布とのずれを測定する事前分布正規化である。 2つ目は確率マスクの正規化であり、量子化中に確率性を導入し、推論段階のミスアライメントと未摂動再建目標とのバランスを良くする。 さらに, キャリブレーション指標として機能する確率的コントラスト損失を設計し, 摂動再建の目的をさらに緩和する。 拡張実験により、提案手法は自己回帰モデルや拡散モデルを含む様々な生成モデルにおいて、ベクトル量子化法を一貫して上回ることを示した。

Quantizing images into discrete representations has been a fundamental problem in unified generative modeling. Predominant approaches learn the discrete representation either in a deterministic manner by selecting the best-matching token or in a stochastic manner by sampling from a predicted distribution. However, deterministic quantization suffers from severe codebook collapse and misalignment with inference stage while stochastic quantization suffers from low codebook utilization and perturbed reconstruction objective. This paper presents a regularized vector quantization framework that allows to mitigate above issues effectively by applying regularization from two perspectives. The first is a prior distribution regularization which measures the discrepancy between a prior token distribution and the predicted token distribution to avoid codebook collapse and low codebook utilization. The second is a stochastic mask regularization that introduces stochasticity during quantization to strike a good balance between inference stage misalignment and unperturbed reconstruction objective. In addition, we design a probabilistic contrastive loss which serves as a calibrated metric to further mitigate the perturbed reconstruction objective. Extensive experiments show that the proposed quantization framework outperforms prevailing vector quantization methods consistently across different generative models including auto-regressive models and diffusion models.
翻訳日:2023-03-14 18:59:45 公開日:2023-03-11
# 超大規模データセットによる解釈可能な因果ネットワークの学習 : 乳癌患者の医療記録400,000件への適用

Learning interpretable causal networks from very large datasets, application to 400,000 medical records of breast cancer patients ( http://arxiv.org/abs/2303.06423v1 )

ライセンス: Link先を確認
Marcel da C\^amara Ribeiro-Dantas, Honghao Li, Vincent Cabeli, Louise Dupuis, Franck Simon, Liza Hettal, Anne-Sophie Hamy, and Herv\'e Isambert(参考訳) 因果効果の発見は科学的調査の核心にあるが、観測データのみが利用可能である場合には依然として困難である。 実際、因果関係は学習と解釈が困難であり、比較的小さなデータセットに限られる。 本報告では,より信頼性が高くスケーラブルな因果関係発見法(imiic)を,汎用的な相互情報超越原理に基づいて報告し,真因果関係の精度を大幅に向上するとともに,真因果関係と潜在因果効果を区別する。 乳がん患者396,179名を対象に,米国監視,疫学,最終結果プログラムから,合成および実生活の医療データに関するimiicを紹介する。 予測因果効果の90%以上は正しいように見え、残りの予期せぬ直接的および間接的因果効果は、診断方法、治療タイミング、患者の嗜好、社会経済的格差の観点から解釈できる。 imiicのユニークな能力は、様々な研究分野にまたがる信頼性と解釈可能な因果ネットワークを発見するための新しい道を開く。

Discovering causal effects is at the core of scientific investigation but remains challenging when only observational data is available. In practice, causal networks are difficult to learn and interpret, and limited to relatively small datasets. We report a more reliable and scalable causal discovery method (iMIIC), based on a general mutual information supremum principle, which greatly improves the precision of inferred causal relations while distinguishing genuine causes from putative and latent causal effects. We showcase iMIIC on synthetic and real-life healthcare data from 396,179 breast cancer patients from the US Surveillance, Epidemiology, and End Results program. More than 90\% of predicted causal effects appear correct, while the remaining unexpected direct and indirect causal effects can be interpreted in terms of diagnostic procedures, therapeutic timing, patient preference or socio-economic disparity. iMIIC's unique capabilities open up new avenues to discover reliable and interpretable causal networks across a range of research fields.
翻訳日:2023-03-14 18:59:24 公開日:2023-03-11
# フラットトップレーザービームを用いた原子超ヘテロダイン受信機の雑音解析

Noise analysis of the atomic superheterodyne receiver based on flat-top laser beams ( http://arxiv.org/abs/2303.06421v1 )

ライセンス: Link先を確認
Zheng Wang, Mingyong Jing, Peng Zhang, Shaoxin Yuan, Hao Zhang, Linjie Zhang, Liantuan Xiao, Suotang Jia(参考訳) 理論的感度は量子ノイズによって制限されるため、リドバーグ原子に基づく電波センシングは、従来の感度で置き換える可能性があり、近年急速に発展している。 しかし、最も感度の高い原子電波センサとして、原子超ヘテロダイン受信機は、理論的な感度への道を開くための詳細なノイズ分析を欠いている。 本研究では, 平面励起レーザビームの直径を変化させて原子数を精密に制御する原子数と原子数とのノイズパワースペクトルを定量的に検討した。 その結果、励起ビームの直径が2mm未満で読み出し周波数が70khzより大きいという実験条件下では、原子受信機の感度は量子ノイズによってのみ制限され、その他の条件では古典ノイズによって制限されることがわかった。 さらに、ノイズに寄与する原子のごく一部だけが貴重な信号を提供するため、この原子受信機が到達した量子ノイズ限界感度はその理論値から遠く離れている。 しかしながら、この研究は原子受信機の感度を究極の限界に達するのに不可欠であり、量子精度測定において重要である。

Since its theoretical sensitivity is limited by quantum noise, radio wave sensing based on Rydberg atoms has the potential to replace its traditional counterparts with higher sensitivity and has developed rapidly in recent years. However, as the most sensitive atomic radio wave sensor, the atomic superheterodyne receiver lacks a detailed noise analysis to pave the way to its theoretical sensitivity. In this work, we quantitatively study the noise power spectral of the atomic receiver versus the number of atoms, where the number of atoms is precisely controlled by changing the diameters of flat-top excitation laser beams. The results show that under the experimental conditions that the diameters of excitation beams are minor than 2 mm and the read-out frequency is larger than 70 kHz, the sensitivity of the atomic receiver is limited only by the quantum noise and, in the other conditions, by classical noises. Moreover, since only a fraction of atoms contributing to noise provides valuable signals, the quantum noise limit sensitivity reached by this atomic receiver is far from its theoretical value. Nonetheless, this work is essential in making the sensitivity of the atomic receiver reach its ultimate limit and is significant in quantum precision measurement.
翻訳日:2023-03-14 18:59:00 公開日:2023-03-11
# 説明からのロバスト学習

Robust Learning from Explanations ( http://arxiv.org/abs/2303.06419v1 )

ライセンス: Link先を確認
Juyeon Heo, Vihari Piratla, Matthew Wicker, Adrian Weller(参考訳) mlx(machine learning from explanations)は、モデル予測が正しい理由に合致することを保証するために、各入力に関連した機能の人間によるアノテーションを使用する学習アプローチである。 既存のMLXアプローチは、特定のモデル解釈アプローチに大きく依存しており、モデルと人間の説明を整合させるために強力なパラメータ正則化を必要とする。 我々はMLXを逆の頑健性問題として再考し、人間の説明では摂動が引き起こされる低次元多様体を規定し、この手法が強いパラメータ正規化の必要性を緩和する理論的かつ実証的な方法を示す。 我々は、堅牢性を達成するための様々なアプローチを検討し、従来のmlxメソッドよりもパフォーマンスが向上した。 最後に、ロバストネスを以前のMLX法と組み合わせ、合成および実世界のベンチマークで最先端の結果を得る。

Machine learning from explanations (MLX) is an approach to learning that uses human-provided annotations of relevant features for each input to ensure that model predictions are right for the right reasons. Existing MLX approaches rely heavily on a specific model interpretation approach and require strong parameter regularization to align model and human explanations, leading to sub-optimal performance. We recast MLX as an adversarial robustness problem, where human explanations specify a lower dimensional manifold from which perturbations can be drawn, and show both theoretically and empirically how this approach alleviates the need for strong parameter regularization. We consider various approaches to achieving robustness, leading to improved performance over prior MLX methods. Finally, we combine robustness with an earlier MLX method, yielding state-of-the-art results on both synthetic and real-world benchmarks.
翻訳日:2023-03-14 18:58:41 公開日:2023-03-11
# 分子からの質量スペクトル予測のためのプレフィックスツリーデコーディング

Prefix-tree Decoding for Predicting Mass Spectra from Molecules ( http://arxiv.org/abs/2303.06470v1 )

ライセンス: Link先を確認
Samuel Goldman, John Bradshaw, Jiayi Xin, and Connor W. Coley(参考訳) 分子からの質量スペクトルの計算学的予測により、臨床的に関連する代謝物の発見が可能となった。 しかし、これらの予測ツールはまだ2つの極端の1つを占めるため、運用に制限がある。 (a)分子を断片的に断片化し、潜在的な再配列や時間的複雑さに過度に厳格な制約を課すこと (b)損失および非物理的離散スペクトルベクトルの復号による。 本研究では, 質量スペクトルを原子の多元集合である化学式として扱うことにより, 分子からの質量スペクトルを予測するための新しい中間戦略を導入する。 入力分子グラフをまずエンコードした後、質量スペクトルの予測ピークを指定する一連の化学サブフォルムをデコードし、その強度を第2のモデルにより予測する。 我々の重要な洞察は、プレフィックスツリー構造(原子型原子型)を用いて式セットを復号化することで、化学サブフォーミュラの組合せ可能性の克服である。 質量スペクトル予測タスクにおける有望な実験結果を示す。

Computational predictions of mass spectra from molecules have enabled the discovery of clinically relevant metabolites. However, such predictive tools are still limited as they occupy one of two extremes, either operating (a) by fragmenting molecules combinatorially with overly rigid constraints on potential rearrangements and poor time complexity or (b) by decoding lossy and nonphysical discretized spectra vectors. In this work, we introduce a new intermediate strategy for predicting mass spectra from molecules by treating mass spectra as sets of chemical formulae, which are themselves multisets of atoms. After first encoding an input molecular graph, we decode a set of chemical subformulae, each of which specify a predicted peak in the mass spectra, the intensities of which are predicted by a second model. Our key insight is to overcome the combinatorial possibilities for chemical subformulae by decoding the formula set using a prefix tree structure, atom-type by atom-type, representing a general method for ordered multiset decoding. We show promising empirical results on mass spectra prediction tasks.
翻訳日:2023-03-14 18:53:15 公開日:2023-03-11
# データ変換法による地球平均気温の高精度予測

Accurate Prediction of Global Mean Temperature through Data Transformation Techniques ( http://arxiv.org/abs/2303.06468v1 )

ライセンス: Link先を確認
Debdarsan Niyogi, J. Srinivasan(参考訳) 今後数十年で世界平均気温(GMT)がどのように進化するかを予測することは重要である。 履歴データを予測する能力は、長期予測の実際の目標に向けて必要な第一歩である。 本稿では,複雑なMLアルゴリズムやディープラーニングニューラルネットワーク(Deep Learning Neural Networks, DNN)を直接利用するのではなく, 統計的および簡易な機械学習手法の利点を検討する。 しばしば、異なるアルゴリズムを適用する前に無視されたデータ変換手法が予測精度を改善する手段として使われてきた。 GMT時系列は単変量時系列として扱われ、回帰問題としても扱われる。 データ変換のいくつかのステップが有効であることが判明した。 さまざまなシンプルなmlメソッドは、アルゴリズムの大きな花束を第1ステップとして試すメリットを示す、より有名なものよりも、あるいはそれ以上に優れていました。 50のアルゴリズムはBox-Cox、Yeo-Johnson、および一階差があり、それらの欠如と比較された。 年次GMT試験データの予測はこれまでに公表した値よりも優れており,最低のRMSE値は0.02ドル^\circ$Cであった。 5年間の平均GMT値は0.00002から0.00036$^\circ$Cであった。

It is important to predict how the Global Mean Temperature (GMT) will evolve in the next few decades. The ability to predict historical data is a necessary first step toward the actual goal of making long-range forecasts. This paper examines the advantage of statistical and simpler Machine Learning (ML) methods instead of directly using complex ML algorithms and Deep Learning Neural Networks (DNN). Often neglected data transformation methods prior to applying different algorithms have been used as a means of improving predictive accuracy. The GMT time series is treated both as a univariate time series and also cast as a regression problem. Some steps of data transformations were found to be effective. Various simple ML methods did as well or better than the more well-known ones showing merit in trying a large bouquet of algorithms as a first step. Fifty-six algorithms were subject to Box-Cox, Yeo-Johnson, and first-order differencing and compared with the absence of them. Predictions for the annual GMT testing data were better than that published so far, with the lowest RMSE value of 0.02 $^\circ$C. RMSE for five-year mean GMT values for the test data ranged from 0.00002 to 0.00036 $^\circ$C.
翻訳日:2023-03-14 18:52:55 公開日:2023-03-11
# デコヒーレンス下の制御された開量子系間の距離の上限

Upper bound of the distance between controlled open quantum systems under decoherence ( http://arxiv.org/abs/2303.06466v1 )

ライセンス: Link先を確認
Kohei Kobayashi(参考訳) 量子情報技術を実現するために、所望の状態を準備するための量子制御が重要な役割を果たす。 しかし現実的な状況では、量子系は開き、制御性能はデコヒーレンスによって著しく制限される。 したがって、制御性能に対するデコヒーレンスの影響を見積もって特徴付けることが重要である。 Hilbert-Schmidt (HS) 距離は解析的にも数値的にも計算が容易であるため,制御性能を評価する上で有用なツールである。 本稿では,制御された開量子系に対するhs距離の一般上限をデコヒーレンスの存在と不在によって導出する。 境界は計算が容易で、デコヒーレンスの下でターゲット状態を得る理論的条件を導出することができる。

To realize quantum information technologies, quantum control for preparing a desired state plays a key role. However, in realistic situation, the quantum system is open and the performance of control is severely limited by decoherence. Therefore, it is important to estimate and characterize the infulence of decoherence on the control performance. The Hilbert-Schmidt (HS) distance can be used as a useful tool for evaluating the control performance, because it is easeir to compute both analytically and numerically. In this paper, we derive a general upper bound of the HS distance for controlled open quantum systems in the presence and absence of decoherence. The bound is easier to compute and can be applied to derive a theoretical condition for obtaining the target state under decoherence.
翻訳日:2023-03-14 18:52:36 公開日:2023-03-11
# PARASOL:拡散画像合成のためのパラメトリックスタイル制御

PARASOL: Parametric Style Control for Diffusion Image Synthesis ( http://arxiv.org/abs/2303.06464v1 )

ライセンス: Link先を確認
Gemma Canet Tarr\'es, Dan Ruta, Tu Bui, John Collomosse(参考訳) 両コンテンツと微細な視覚スタイルの埋め込みを共同で条件付けすることで、画像の視覚スタイルの非交叉パラメトリック制御を可能にするマルチモーダル合成モデルであるPARASOLを提案する。 我々は,各モダリティの特定の損失を用いて潜在拡散モデル(ldm)を訓練し,クラスifer-freeガイダンスを適用し,独立コンテンツと推論時のスタイルモダリティに対する不連続制御を奨励する。 補助的なセマンティクスとスタイルに基づく検索を活用して,コンテンツとスタイルの相補性を保証し,LDMの監督のためのトレーニング三つ子を作成する。 PARASOLは、画像生成とスタイリゼーションのための拡散モデルにおける視覚スタイルのニュアンス制御を可能にするとともに、テキストベースの検索結果を、コンテンツとスタイル記述子の両方を補間することによって、より密にユーザ意図に適合させることができる生成検索を可能にする。

We propose PARASOL, a multi-modal synthesis model that enables disentangled, parametric control of the visual style of the image by jointly conditioning synthesis on both content and a fine-grained visual style embedding. We train a latent diffusion model (LDM) using specific losses for each modality and adapt the classifer-free guidance for encouraging disentangled control over independent content and style modalities at inference time. We leverage auxiliary semantic and style-based search to create training triplets for supervision of the LDM, ensuring complementarity of content and style cues. PARASOL shows promise for enabling nuanced control over visual style in diffusion models for image creation and stylization, as well as generative search where text-based search results may be adapted to more closely match user intent by interpolating both content and style descriptors.
翻訳日:2023-03-14 18:52:23 公開日:2023-03-11
# zeronlg: ゼロショットマルチモーダルおよび多言語自然言語生成のためのアライメントおよび自動エンコーディングドメイン

ZeroNLG: Aligning and Autoencoding Domains for Zero-Shot Multimodal and Multilingual Natural Language Generation ( http://arxiv.org/abs/2303.06458v1 )

ライセンス: Link先を確認
Bang Yang, Fenglin Liu, Yuexian Zou, Xian Wu, Yaowei Wang, and David A. Clifton(参考訳) 自然言語生成(NLG)は、画像、ビデオ、テキストの形式で入力データを受け付け、対応する自然言語テキストを出力として生成する。 既存のNLGメソッドは主に教師付きアプローチを採用し、結合したデータ-テキストペアに大きく依存している。 しかし、多くのシナリオや英語以外の言語では、十分な量のラベル付きデータが利用できないことが多い。 ダウンストリームタスクのラベル付きデータへの依存を緩和するために,直観的で効果的なゼロショット学習フレームワークであるzeronlgを提案する。このフレームワークは,統合フレームワーク内で英語,中国語,ドイツ語,フランス語にまたがって,画像からテキストへの(画像キャプション),ビデオからテキストへの(ビデオキャプション),テキスト間(ニューラル機械翻訳)といった複数のnlgタスクを処理できる。 ZeroNLGはトレーニングのためにラベル付き下流ペアを必要としない。 ZeroNLGのトレーニング中 (i)共有共通潜在空間内の対応する座標に対して異なる領域(交叉モダリティ及び言語)を計画する。 (二 この空間において対応する座標を整列させて異なる領域を橋渡しすること。) 三 教師なし多言語自動エンコーダを構築し、共有潜在空間における座標が与えられた入力テキストを再構成してテキストを生成する。 したがって、推論の間、データからテキストへのパイプラインに基づいて、0nlgは共通の空間における入力データの座標に基づいて、異なる言語にまたがるターゲット文を生成することができる。 この統一フレームワークでは、視覚(画像またはビデオ)データを入力として、zeronlgはゼロショット視覚キャプションを実行し、テキスト文を入力として、zeronlgはゼロショット機械翻訳を実行することができる。 我々は,12のNLGタスクに対する広範な実験結果を示し,ラベル付き下流ペアをトレーニングに使わずに,ZeroNLGは高品質で信頼性の高い出力を生成し,既存のゼロショット法を著しく上回ることを示す。

Natural Language Generation (NLG) accepts input data in the form of images, videos, or text and generates corresponding natural language text as output. Existing NLG methods mainly adopt a supervised approach and rely heavily on coupled data-to-text pairs. However, for many targeted scenarios and for non-English languages, sufficient quantities of labeled data are often not available. To relax the dependency on labeled data of downstream tasks, we propose an intuitive and effective zero-shot learning framework, ZeroNLG, which can deal with multiple NLG tasks, including image-to-text (image captioning), video-to-text (video captioning), and text-to-text (neural machine translation), across English, Chinese, German, and French within a unified framework. ZeroNLG does not require any labeled downstream pairs for training. During training, ZeroNLG (i) projects different domains (across modalities and languages) to corresponding coordinates in a shared common latent space; (ii) bridges different domains by aligning their corresponding coordinates in this space; and (iii) builds an unsupervised multilingual auto-encoder to learn to generate text by reconstructing the input text given its coordinate in shared latent space. Consequently, during inference, based on the data-to-text pipeline, ZeroNLG can generate target sentences across different languages given the coordinate of input data in the common space. Within this unified framework, given visual (imaging or video) data as input, ZeroNLG can perform zero-shot visual captioning; given textual sentences as input, ZeroNLG can perform zero-shot machine translation. We present the results of extensive experiments on twelve NLG tasks, showing that, without using any labeled downstream pairs for training, ZeroNLG generates high-quality and believable outputs and significantly outperforms existing zero-shot methods.
翻訳日:2023-03-14 18:52:05 公開日:2023-03-11
# 注意マップエントロピーに基づくアクティブビジュアル探索

Active Visual Exploration Based on Attention-Map Entropy ( http://arxiv.org/abs/2303.06457v1 )

ライセンス: Link先を確認
Adam Pardyl, Grzegorz Rype\'s\'c, Grzegorz Kurzejamski, Bartosz Zieli\'nski, Tomasz Trzci\'nski(参考訳) アクティブビジュアル探索は、環境に基づいて連続した観測がアクティブに選択される現実世界のシナリオにおいて、限られたセンサー能力の問題に対処する。 この問題に対処するために,Attention-Map Entropy (AME) と呼ばれる新しい手法を導入する。 変圧器モデルの内部の不確実性を利用して、最も情報性の高い観測値を決定する。 既存のソリューションとは対照的に、トレーニングを単純化する追加の損失コンポーネントは必要ない。 網膜様センサを模倣する実験により、そのような簡易なトレーニングにより、公開データセットの再構成と分類の性能が大幅に向上することを示した。

Active visual exploration addresses the issue of limited sensor capabilities in real-world scenarios, where successive observations are actively chosen based on the environment. To tackle this problem, we introduce a new technique called Attention-Map Entropy (AME). It leverages the internal uncertainty of the transformer-based model to determine the most informative observations. In contrast to existing solutions, it does not require additional loss components, which simplifies the training. Through experiments, which also mimic retina-like sensors, we show that such simplified training significantly improves the performance of reconstruction and classification on publicly available datasets.
翻訳日:2023-03-14 18:51:30 公開日:2023-03-11
# 表データを用いたディープラーニングのためのグラフニューラルネットワークコンテキスト埋め込み

Graph Neural Network contextual embedding for Deep Learning on Tabular Data ( http://arxiv.org/abs/2303.06455v1 )

ライセンス: Link先を確認
Mario Villaiz\'an-Vallelado, Matteo Salvatori, Bel\'en Carro Martinez, Antonio Javier Sanchez Esguevillas(参考訳) すべての業界は、いわゆる表形式で利用可能な既存のビッグデータに基づいて、人工知能(AI)を活用しようとしている。 ディープラーニング(dl)は、自然言語処理のような人間のスキルに関連する分野において、aiにとって大きな一歩を踏み出したが、その表データへの適用はより困難だった。 ツリーベースのアンサンブルのような、より古典的な機械学習(ML)モデルは、通常、パフォーマンスが向上する。 本稿では,グラフニューラルネットワーク(GNN)を用いた新しいDLモデル,特にコンテキスト埋め込みのためのインタラクションネットワーク(IN)を紹介する。 この結果は、最近発表された5つの公開データセットに基づいたDLベンチマークによる調査よりも優れており、強化ツリーソリューションと比較しても競合的な結果が得られる。

All industries are trying to leverage Artificial Intelligence (AI) based on their existing big data which is available in so called tabular form, where each record is composed of a number of heterogeneous continuous and categorical columns also known as features. Deep Learning (DL) has consituted a major breathrough for AI in fields related to human skills like natural language processing, but its applicability to tabular data has been more challenging. More classical Machine Learning (ML) models like tree-based ensemble ones usually perform better. In this manuscript a novel DL model that uses Graph Neural Network (GNN), more specifically Interaction Network (IN), for contextual embedding is introduced. Its results outperform those of the recently published survey with DL benchmark based on five public datasets, achieving also competitive results when compared to boosted-tree solutions.
翻訳日:2023-03-14 18:51:21 公開日:2023-03-11
# 幻覚的心拍数:異常を意識したリモートパルス推定

Hallucinated Heartbeats: Anomaly-Aware Remote Pulse Estimation ( http://arxiv.org/abs/2303.06452v1 )

ライセンス: Link先を確認
Jeremy Speth, Nathan Vance, Benjamin Sporrer, Lu Niu, Patrick Flynn, Adam Czajka(参考訳) カメラベースの生理学的モニタリング、特にリモートフォトプレチモグラフィ(rppg)は、健康診断に有望なツールであり、最先端のパルス推定器はベンチマークデータセットで印象的なパフォーマンスを示している。 我々は、生の人物がいないビデオや激しいノイズがある場合の失敗事例を明らかにするため、現代のソリューションの評価は不完全かもしれないと主張している。 実検体のみを訓練した時空間深層学習モデルでは,rPPGモデルが医療従事者によって使用される場合,真の形状のパルスを異常ビデオやノイズビデオに"幻覚する"ことが示される。 これに対処するために、私たちはこう提案します。 (a)予測波形上に構築された異常検出モデル。 オープンセット(未知の異常予測)とクローズセット(トレーニング時に既知の異常予測)で訓練されたモデルを比較する。 (b)異常映像から周期的信号を予測するモデルにペナルティを課す異常認識訓練体制。 DDPM, CDDPM, PURE, UBFC, ARPM, Deep fakes: DFDC, face presentation attack Detection: HKBU-MARs; rPPG outlier: KITTI) という8つの研究データセットによる大規模な実験では、提案されたトレーニング(75.8%)を組み込んだディープラーニングモデルの異常検出の精度が、定期的に訓練されたモデル(73.7%)や手作りのrPPG法(52-62%)と比較して高い。

Camera-based physiological monitoring, especially remote photoplethysmography (rPPG), is a promising tool for health diagnostics, and state-of-the-art pulse estimators have shown impressive performance on benchmark datasets. We argue that evaluations of modern solutions may be incomplete, as we uncover failure cases for videos without a live person, or in the presence of severe noise. We demonstrate that spatiotemporal deep learning models trained only with live samples "hallucinate" a genuine-shaped pulse on anomalous and noisy videos, which may have negative consequences when rPPG models are used by medical personnel. To address this, we offer: (a) An anomaly detection model, built on top of the predicted waveforms. We compare models trained in open-set (unknown abnormal predictions) and closed-set (abnormal predictions known when training) settings; (b) An anomaly-aware training regime that penalizes the model for predicting periodic signals from anomalous videos. Extensive experimentation with eight research datasets (rPPG-specific: DDPM, CDDPM, PURE, UBFC, ARPM; deep fakes: DFDC; face presentation attack detection: HKBU-MARs; rPPG outlier: KITTI) show better accuracy of anomaly detection for deep learning models incorporating the proposed training (75.8%), compared to models trained regularly (73.7%) and to hand-crafted rPPG methods (52-62%).
翻訳日:2023-03-14 18:51:07 公開日:2023-03-11
# 高温微細化と背景抑制によるきめ細かい視覚分類

Fine-grained Visual Classification with High-temperature Refinement and Background Suppression ( http://arxiv.org/abs/2303.06442v1 )

ライセンス: Link先を確認
Po-Yung Chou, Yu-Yung Kao, Cheng-Hung Lin(参考訳) 細粒度の視覚的分類は、カテゴリ間の高い類似性と1つのカテゴリ内のデータ間の相違により難しい課題である。 これらの課題に対処するため、従来の戦略では、カテゴリ間の微妙な相違点のローカライズと、それらにおける差別的特徴の集中に重点を置いてきた。 しかし、背景には、分類に不必要であるか、あるいは有害であるかをモデルに伝える重要な情報もあり、微妙な特徴に強く依存するモデルは、グローバルな特徴や文脈的な情報を見落としてしまう可能性がある。 本稿では,2つのモジュール,すなわち高温リファインメントモジュールと背景抑圧モジュールから構成される「高温リファインメント」と「背景抑圧」という,識別特性の抽出と背景雑音の抑制を行う新しいネットワークを提案する。 高温改良モジュールは、異なるスケールで特徴マップを精製し、多様な特徴の学習を改善することにより、適切な特徴スケールを学習することを可能にする。 そして、背景抑圧モジュールは、まず、分類信頼度スコアを用いて、特徴マップを前景と背景に分割し、識別的特徴を高めながら、低信頼領域の特徴値を抑制する。 CUB-200-2011 と NABirds のベンチマークにおいて, HERBS は様々なスケールの特徴を効果的に融合し, 背景雑音, 識別的特徴を微粒化のための適切なスケールで抑制し, CUB-200-2011 と NABirds のベンチマークにおける最先端性能を 93% を超える精度で達成した。 このように、HERBSは、きめ細かい視覚分類タスクの性能を向上させるための有望なソリューションを提供する。 コードはすぐに利用可能になります

Fine-grained visual classification is a challenging task due to the high similarity between categories and distinct differences among data within one single category. To address the challenges, previous strategies have focused on localizing subtle discrepancies between categories and enhencing the discriminative features in them. However, the background also provides important information that can tell the model which features are unnecessary or even harmful for classification, and models that rely too heavily on subtle features may overlook global features and contextual information. In this paper, we propose a novel network called ``High-temperaturE Refinement and Background Suppression'' (HERBS), which consists of two modules, namely, the high-temperature refinement module and the background suppression module, for extracting discriminative features and suppressing background noise, respectively. The high-temperature refinement module allows the model to learn the appropriate feature scales by refining the features map at different scales and improving the learning of diverse features. And, the background suppression module first splits the features map into foreground and background using classification confidence scores and suppresses feature values in low-confidence areas while enhancing discriminative features. The experimental results show that the proposed HERBS effectively fuses features of varying scales, suppresses background noise, discriminative features at appropriate scales for fine-grained visual classification.The proposed method achieves state-of-the-art performance on the CUB-200-2011 and NABirds benchmarks, surpassing 93% accuracy on both datasets. Thus, HERBS presents a promising solution for improving the performance of fine-grained visual classification tasks. code will be available: soon
翻訳日:2023-03-14 18:50:31 公開日:2023-03-11
# Xformer:画像デノーミング用ハイブリッドX字型トランス

Xformer: Hybrid X-Shaped Transformer for Image Denoising ( http://arxiv.org/abs/2303.06440v1 )

ライセンス: Link先を確認
Jiale Zhang and Yulun Zhang and Jinjin Gu and Jiahua Dong and Linghe Kong and Xiaokang Yang(参考訳) 本稿では,Xformerと呼ばれるハイブリッドX字型視覚変換器について述べる。 異なるスコープからトークンのグローバル表現を強化することを検討する。 詳しくは、Transformerブロックのタイプを2つ採用する。 空間ワイドトランスフォーマーブロックは、空間次元で定義されたトークン間のきめ細かい局所パッチ相互作用を実行する。 チャネルワイドトランスフォーマーブロックは、チャネル次元で定義されたトークン間で直接グローバルなコンテキストインタラクションを実行する。 並列ネットワーク構造に基づき,これら2つの相互作用パターンを実行するために2つのブランチを設計した。 各ブランチ内では,エンコーダ・デコーダアーキテクチャを用いてマルチスケール機能をキャプチャする。 さらに,この2つのブランチから学習した表現を結合し,情報融合を増強した双方向接続ユニット(BCU)を提案する。 共同設計により、Xformerは空間次元とチャネル次元の両方でグローバルな情報モデリングを行うことができる。 大規模な実験により、Xformerはモデル複雑さに匹敵する条件下で、合成および実世界の画像デノゲーションタスクにおける最先端のパフォーマンスを達成することが示された。

In this paper, we present a hybrid X-shaped vision Transformer, named Xformer, which performs notably on image denoising tasks. We explore strengthening the global representation of tokens from different scopes. In detail, we adopt two types of Transformer blocks. The spatial-wise Transformer block performs fine-grained local patches interactions across tokens defined by spatial dimension. The channel-wise Transformer block performs direct global context interactions across tokens defined by channel dimension. Based on the concurrent network structure, we design two branches to conduct these two interaction fashions. Within each branch, we employ an encoder-decoder architecture to capture multi-scale features. Besides, we propose the Bidirectional Connection Unit (BCU) to couple the learned representations from these two branches while providing enhanced information fusion. The joint designs make our Xformer powerful to conduct global information modeling in both spatial and channel dimensions. Extensive experiments show that Xformer, under the comparable model complexity, achieves state-of-the-art performance on the synthetic and real-world image denoising tasks.
翻訳日:2023-03-14 18:49:57 公開日:2023-03-11
# 長距離量子システムにおける情報の伝播

Propagation of information in long-range quantum systems ( http://arxiv.org/abs/2303.06506v1 )

ライセンス: Link先を確認
Israel Michael Sigal, Jingxuan Zhang(参考訳) 我々は、量子メッセージング、相関の伝播/生成、および一般、長距離、格子量子多体ボソニック系の状態の制御の最小時間に関する境界を示す。 証明は、最大速度境界と力学の光錐近似に基づいており、これは多体の発展が、初期条件の支持の光円錐内、特に、進化可観測物の可換作用素上のリーブ・ロビンソン型境界において、小さな漏れ確率尾まで続くという事実の異なる表現を提供する。

We present bounds on the minimal time for quantum messaging, propagation/creation of correlations, and control of states for general, long-range, lattice quantum many-body bosonic systems. The proofs are based on a maximal velocity bound and the light-cone approximation of dynamics, which provide different expressions of the fact that the many-body evolution stays, up to small leaking probability tails, within a light cone of the support of the initial conditions and imply, in particular, Lieb-Robinson-type bounds on commutators of evolving observables.
翻訳日:2023-03-14 18:43:22 公開日:2023-03-11
# ヒューマン・リテクスチャのための正常誘導ガーメントUV予測

Normal-guided Garment UV Prediction for Human Re-texturing ( http://arxiv.org/abs/2303.06504v1 )

ライセンス: Link先を確認
Yasamin Jafarian, Tuanfeng Y. Wang, Duygu Ceylan, Jimei Yang, Nathan Carr, Yi Zhou, Hyun Soo Park(参考訳) 衣服は複雑な幾何学的変形を受け、外観が変化する。 人間の映像を物理的に妥当な方法で編集するには、テクスチャマップは体の動きや衣服のフィッティングによって引き起こされる衣服の変化だけでなく、3Dの微細な表面形状も考慮しなければならない。 しかしこれは、画像やビデオからダイナミックな服を3Dで再現する、という新しい挑戦だ。 本稿では,3次元再構成を行なわずに着飾った人間の画像や映像を編集できることを示す。 画像中の衣服領域とテクスチャ空間,すなわちUVマップとの間の幾何学的認識テクスチャマップを推定する。 uvマップは,画像から予測した3次元表面正規値を用いて,基礎となる3次元表面に対する等尺性を保つように設計されている。 提案手法では,UVマップの真理アノテーションを必要とせず,時間的コヒーレントなUVマップの予測に容易に拡張することができる。 本手法は,実データと合成データの両方において最先端のuvマップ推定手法よりも優れていることを示す。

Clothes undergo complex geometric deformations, which lead to appearance changes. To edit human videos in a physically plausible way, a texture map must take into account not only the garment transformation induced by the body movements and clothes fitting, but also its 3D fine-grained surface geometry. This poses, however, a new challenge of 3D reconstruction of dynamic clothes from an image or a video. In this paper, we show that it is possible to edit dressed human images and videos without 3D reconstruction. We estimate a geometry aware texture map between the garment region in an image and the texture space, a.k.a, UV map. Our UV map is designed to preserve isometry with respect to the underlying 3D surface by making use of the 3D surface normals predicted from the image. Our approach captures the underlying geometry of the garment in a self-supervised way, requiring no ground truth annotation of UV maps and can be readily extended to predict temporally coherent UV maps. We demonstrate that our method outperforms the state-of-the-art human UV map estimation approaches on both real and synthetic data.
翻訳日:2023-03-14 18:43:07 公開日:2023-03-11
# パノラマX線解析のための拡散型階層型多層物体検出

Diffusion-Based Hierarchical Multi-Label Object Detection to Analyze Panoramic Dental X-rays ( http://arxiv.org/abs/2303.06500v1 )

ライセンス: Link先を確認
Ibrahim Ethem Hamamci and Sezgin Er and Enis Simsar and Anjany Sekuboyina and Mustafa Gundogar and Bernd Stadlinger and Albert Mehl and Bjoern Menze(参考訳) 正確な治療計画の必要性から、異なる歯科疾患を識別するためのパノラマX線の使用は著しく増加した。 パノラマX線を解釈するために多くのMLモデルが開発されているが、歯列と関連する診断を同時に行う問題歯を識別できるエンドツーエンドモデルが開発されていない。 このようなモデルを開発するために、FDIシステムに後続する3種類の注釈付きデータを階層的に構築し、第1は4次列挙でラベル付けし、第2は4次列挙でラベル付けし、第3は4次列挙でラベル付けする。 これら3つの階層から共同で学習するために,オブジェクト検出をノイズボックスからオブジェクトボックスへのデノナイズ拡散プロセスとして定式化することにより,新しい拡散に基づく階層型多言語オブジェクト検出フレームワークを導入する。 具体的には, 階層的アノテートデータを活用するために, 拡散ネットワークにおけるデノナイズ処理を, 事前学習したモデルから階層的に推論することで, 新たなノイズボックス操作手法を用いる。 また, 部分的アノテーションから効率的に学習し, 処置計画に各異常歯について必要な情報を全て提供するために, マルチラベル物体検出法を用いる。 提案手法は,パノラマx線分析においてretinanet,高速なr-cnn,detr,distributeddetなどの最先端の物体検出手法を著しく上回っており,階層的および部分的な注釈付きデータセットの可能性を実証している。 コードとデータは、https://github.com/ibrahimethemhamamci/HierarchicalDetで入手できる。

Due to the necessity for precise treatment planning, the use of panoramic X-rays to identify different dental diseases has tremendously increased. Although numerous ML models have been developed for the interpretation of panoramic X-rays, there has not been an end-to-end model developed that can identify problematic teeth with dental enumeration and associated diagnoses at the same time. To develop such a model, we structure the three distinct types of annotated data hierarchically following the FDI system, the first labeled with only quadrant, the second labeled with quadrant-enumeration, and the third fully labeled with quadrant-enumeration-diagnosis. To learn from all three hierarchies jointly, we introduce a novel diffusion-based hierarchical multi-label object detection framework by adapting a diffusion-based method that formulates object detection as a denoising diffusion process from noisy boxes to object boxes. Specifically, to take advantage of the hierarchically annotated data, our method utilizes a novel noisy box manipulation technique by adapting the denoising process in the diffusion network with the inference from the previously trained model in hierarchical order. We also utilize a multi-label object detection method to learn efficiently from partial annotations and to give all the needed information about each abnormal tooth for treatment planning. Experimental results show that our method significantly outperforms state-of-the-art object detection methods, including RetinaNet, Faster R-CNN, DETR, and DiffusionDet for the analysis of panoramic X-rays, demonstrating the great potential of our method for hierarchically and partially annotated datasets. The code and the data are available at: https://github.com/ibrahimethemhamamci/HierarchicalDet.
翻訳日:2023-03-14 18:42:47 公開日:2023-03-11
# 量子回路の局所性と誤差低減

Locality and Error Mitigation of Quantum Circuits ( http://arxiv.org/abs/2303.06496v1 )

ライセンス: Link先を確認
Minh C. Tran, Kunal Sharma, Kristan Temme(参考訳) 本研究では,確率的誤差キャンセラ法 (PEC) とゼロノイズ外挿法 (ZNE) の2つの主要な誤差低減手法について検討・改善し,局所観測値の期待値を推定する。 PECでは、対象の局所観測値に対するユニタリ回路の光円錐を考慮に入れた新しい推定器を導入する。 固定誤差耐性が与えられた場合、新しい推定器のサンプリングオーバーヘッドは標準のPEC推定器よりも数桁小さくすることができる。 ZNEでは、外挿後に残るバイアスの挙動を密にキャプチャする誤差境界を確立するために光錐の引数も使用します。

In this work, we study and improve two leading error mitigation techniques, namely Probabilistic Error Cancellation (PEC) and Zero-Noise Extrapolation (ZNE), for estimating the expectation value of local observables. For PEC, we introduce a new estimator that takes into account the light cone of the unitary circuit with respect to a target local observable. Given a fixed error tolerance, the sampling overhead for the new estimator can be several orders of magnitude smaller than the standard PEC estimators. For ZNE, we also use light-cone arguments to establish an error bound that closely captures the behavior of the bias that remains after extrapolation.
翻訳日:2023-03-14 18:42:05 公開日:2023-03-11
# 対話型ボリュームセグメンテーションにおけるサイクル一貫性学習の探索

Exploring Cycle Consistency Learning in Interactive Volume Segmentation ( http://arxiv.org/abs/2303.06493v1 )

ライセンス: Link先を確認
Qin Liu, Meng Zheng, Benjamin Planche, Zhongpai Gao, Terrence Chen, Marc Niethammer, and Ziyan Wu(参考訳) 対話的ボリュームセグメンテーションは2つの分離モジュール(interaction-to-segmentationとsegmentation propagation)を介してアプローチできる。 医療ボリュームが与えられたら、ユーザはまず対話モジュールを介してスライス(またはいくつかのスライス)を分割し、残りのスライスにセグメンテーション(s)を伝搬する。 十分なボリュームセグメンテーション品質が達成されるまで、ユーザはこのプロセスを何度も繰り返すことができる。 しかし, 伝搬中の人為的補正の欠如により, 中間スライスにセグメンテーション誤差が蓄積しやすくなり, 準最適性能につながる可能性がある。 この問題を緩和するために、開始スライス中の正確なセグメンテーションを参照することにより中間セグメンテーションを規則化する、単純で効果的なサイクル整合損失を提案する。 この目的のために,同じ伝搬ネットワークを用いて中間セグメント化を開始スライスに戻す後方セグメント化経路を導入する。 サイクル整合性トレーニングでは、伝播ネットワークは標準のフォワードオンリーのトレーニングアプローチよりも規則化された。 AbdomenCT-1k や OAI-ZIB などのベンチマークによる評価結果から,本手法の有効性が示された。 我々の知る限りでは、対話型ボリュームセグメンテーションにおけるサイクル一貫性学習を初めて探求する。

Interactive volume segmentation can be approached via two decoupled modules: interaction-to-segmentation and segmentation propagation. Given a medical volume, a user first segments a slice (or several slices) via the interaction module and then propagates the segmentation(s) to the remaining slices. The user may repeat this process multiple times until a sufficiently high volume segmentation quality is achieved. However, due to the lack of human correction during propagation, segmentation errors are prone to accumulate in the intermediate slices and may lead to sub-optimal performance. To alleviate this issue, we propose a simple yet effective cycle consistency loss that regularizes an intermediate segmentation by referencing the accurate segmentation in the starting slice. To this end, we introduce a backward segmentation path that propagates the intermediate segmentation back to the starting slice using the same propagation network. With cycle consistency training, the propagation network is better regularized than in standard forward-only training approaches. Evaluation results on challenging benchmarks such as AbdomenCT-1k and OAI-ZIB demonstrate the effectiveness of our method. To the best of our knowledge, we are the first to explore cycle consistency learning in interactive volume segmentation.
翻訳日:2023-03-14 18:41:54 公開日:2023-03-11
# 超球面一様ギャップによる神経崩壊の一般化とデカップリング

Generalizing and Decoupling Neural Collapse via Hyperspherical Uniformity Gap ( http://arxiv.org/abs/2303.06484v1 )

ライセンス: Link先を確認
Weiyang Liu, Longhui Yu, Adrian Weller, Bernhard Sch\"olkopf(参考訳) 神経崩壊(NC)現象は、深い学習された特徴と分類器の両方が単純な等角的タイトフレームに収束する深層ニューラルネットワークの基本的な幾何学対称性を記述する。 クロスエントロピー損失と平均二乗誤差の両方がncにつながることが示されている。 我々は、NCの特徴次元とクラス数に関する重要な仮定を取り除き、元のNCを効果的に仮定する一般化された神経崩壊(GNC)仮説を示す。 NCがニューラルネットワークのトレーニングターゲットをいかに特徴付けるかに着想を得て、GNCを最小クラス内変動と最大クラス間分離の2つの目標に分離する。 次に、これらの2つの目的を定量化するための統一フレームワークとして、超球面均一性(単位超球面上の均一性の度合いを特徴付ける)を用いる。 最後に、クラス間およびクラス内超球面均一性の違いによって定義される汎用超球面均一性ギャップ(HUG)を提案する。 HUG は GNC に確実に収束するだけでなく、GNC を 2 つの別々の目的に分離する。 クラス内コンパクト性とクラス間分離性を結合したクロスエントロピー損失とは異なり、HUGはより柔軟性があり、優れた代替損失関数として機能する。 経験的結果は、HUGが一般化と堅牢性の観点からうまく機能することを示している。

The neural collapse (NC) phenomenon describes an underlying geometric symmetry for deep neural networks, where both deeply learned features and classifiers converge to a simplex equiangular tight frame. It has been shown that both cross-entropy loss and mean square error can provably lead to NC. We remove NC's key assumption on the feature dimension and the number of classes, and then present a generalized neural collapse (GNC) hypothesis that effectively subsumes the original NC. Inspired by how NC characterizes the training target of neural networks, we decouple GNC into two objectives: minimal intra-class variability and maximal inter-class separability. We then use hyperspherical uniformity (which characterizes the degree of uniformity on the unit hypersphere) as a unified framework to quantify these two objectives. Finally, we propose a general objective -- hyperspherical uniformity gap (HUG), which is defined by the difference between inter-class and intra-class hyperspherical uniformity. HUG not only provably converges to GNC, but also decouples GNC into two separate objectives. Unlike cross-entropy loss that couples intra-class compactness and inter-class separability, HUG enjoys more flexibility and serves as a good alternative loss function. Empirical results show that HUG works well in terms of generalization and robustness.
翻訳日:2023-03-14 18:41:34 公開日:2023-03-11
# 効率的な連関訓練のための知識蒸留

Knowledge Distillation for Efficient Sequences of Training Runs ( http://arxiv.org/abs/2303.06480v1 )

ライセンス: Link先を確認
Xingyu Liu, Alex Leonardi, Lu Yu, Chris Gilmer-Hill, Matthew Leavitt, Jonathan Frankle(参考訳) ハイパーパラメータ検索や新しいデータによる連続的再トレーニングなど、多くの実践シナリオでは、関連するトレーニングの実行が連続的に何度も実行される。 現在のプラクティスは、これらのモデルをスクラッチから独立してトレーニングすることです。 我々は, 知識蒸留(KD)を用いて, 将来の運転コストを削減するために, 過去の運転に投じられた計算を利用する問題について検討した。 kdのオーバーヘッドを考慮しても、前回の走行でのkdの強化によって、これらのモデルのトレーニングに要する時間を劇的に削減できることが分かりました。 これらの結果に対し,kdのオーバーヘッドを80~90%削減し,精度と総コストの大幅な改善に最小限の影響で改善した。 我々は、kdは、実際に最終モデルの訓練に先行する高価な準備作業のコストを削減するための有望な道であると結論づける。

In many practical scenarios -- like hyperparameter search or continual retraining with new data -- related training runs are performed many times in sequence. Current practice is to train each of these models independently from scratch. We study the problem of exploiting the computation invested in previous runs to reduce the cost of future runs using knowledge distillation (KD). We find that augmenting future runs with KD from previous runs dramatically reduces the time necessary to train these models, even taking into account the overhead of KD. We improve on these results with two strategies that reduce the overhead of KD by 80-90% with minimal effect on accuracy and vast pareto-improvements in overall cost. We conclude that KD is a promising avenue for reducing the cost of the expensive preparatory work that precedes training final models in practice.
翻訳日:2023-03-14 18:41:11 公開日:2023-03-11
# TransMatting:画像マッチングのためのトリツーケン型変圧器モデル

TransMatting: Tri-token Equipped Transformer Model for Image Matting ( http://arxiv.org/abs/2303.06476v1 )

ライセンス: Link先を確認
Huanqia Cai, Fanglei Xue, Lele Xu, Lili Guo(参考訳) image mattingは、毛髪、煙、クモの巣など、自然画像の精巧な不確かさ領域のアルファ値を予測することを目的としている。 しかし, 従来手法では, 予測の不確実性が大きいこと, 畳み込みネットワークの受容領域が小さいことなどから, 高度に透明なフォアグラウンドオブジェクトに直面すると性能が低下する。 そこで本研究では,長距離機能を持つ透明物体をモデル化し,性能評価のために透明物体(transparent-460)の高分解能マットングデータセットを収集するトランスフォーマッティング(transmatting)を提案する。 具体的には,trimapにおける意味情報を柔軟かつ効果的に活用するために,trimapをtri-tokenと呼ばれる3つの学習可能なトークンとして再設計する。 Transformerと畳み込みマッチングモデルの両方が、提案したトリトーケン設計の恩恵を受けるだろう。 従来のトリマップ結合戦略をトリトーケンに置き換えることで,既存のマッチング手法はSADの約10%,MSEの約20%の改善を達成できる。 提案したTransMattingは,新たに収集したTransparent-460およびいくつかの人気マッチングベンチマークにおいて,最先端の手法よりも優れている。

Image matting aims to predict alpha values of elaborate uncertainty areas of natural images, like hairs, smoke, and spider web. However, existing methods perform poorly when faced with highly transparent foreground objects due to the large area of uncertainty to predict and the small receptive field of convolutional networks. To address this issue, we propose a Transformer-based network (TransMatting) to model transparent objects with long-range features and collect a high-resolution matting dataset of transparent objects (Transparent-460) for performance evaluation. Specifically, to utilize semantic information in the trimap flexibly and effectively, we also redesign the trimap as three learnable tokens, named tri-token. Both Transformer and convolution matting models could benefit from our proposed tri-token design. By replacing the traditional trimap concatenation strategy with our tri-token, existing matting methods could achieve about 10% improvement in SAD and 20% in MSE. Equipped with the new tri-token design, our proposed TransMatting outperforms current state-of-the-art methods on several popular matting benchmarks and our newly collected Transparent-460.
翻訳日:2023-03-14 18:40:58 公開日:2023-03-11
# ニューラル半CRFを用いた転写自由充填語検出

Transcription free filler word detection with Neural semi-CRFs ( http://arxiv.org/abs/2303.06475v1 )

ライセンス: Link先を確認
Ge Zhu, Yujia Yan, Juan-Pablo Caceres and Zhiyao Duan(参考訳) uh" や "um" のような非言語的なフィラー語は自然発声で一般的であり、ためらいや不確実性を表現する指標として機能する。 特定の非言語的フィラー語を検出する以前の研究は、確立された商用自動音声認識(asr)システムからの書き起こしに大きく依存している。 しかしながら、一部のASRシステムは予算、ターゲット言語、計算能力など、多くの面から普遍的にアクセスできない。 本研究では,ASRシステムに依存しない充填語検出システムについて検討する。 本研究では,構造化状態空間列モデル (S4) とニューラルセミマルコフ条件付き乱数場 (セミCRF) を用いて,PodcastFillers データセットの6.4%(セグメンテーションレベル)と3.1%(イベントレベル)の絶対的なF1改善を実現する。 また,検出された結果の質的分析を行い,提案システムの限界を分析する。

Non-linguistic filler words, such as "uh" or "um", are prevalent in spontaneous speech and serve as indicators for expressing hesitation or uncertainty. Previous works for detecting certain non-linguistic filler words are highly dependent on transcriptions from a well-established commercial automatic speech recognition (ASR) system. However, certain ASR systems are not universally accessible from many aspects, e.g., budget, target languages, and computational power. In this work, we investigate filler word detection system that does not depend on ASR systems. We show that, by using the structured state space sequence model (S4) and neural semi-Markov conditional random fields (semi-CRFs), we achieve an absolute F1 improvement of 6.4% (segment level) and 3.1% (event level) on the PodcastFillers dataset. We also conduct a qualitative analysis on the detected results to analyze the limitations of our proposed system.
翻訳日:2023-03-14 18:40:36 公開日:2023-03-11
# 深部ニューラルネットワーク時代の腫瘍学のためのマルチモーダルデータ統合

Multimodal Data Integration for Oncology in the Era of Deep Neural Networks: A Review ( http://arxiv.org/abs/2303.06471v1 )

ライセンス: Link先を確認
Asim Waqas, Aakash Tripathi, Ravi P. Ramachandran, Paul Stewart, Ghulam Rasool(参考訳) がんは、放射線学、病理学、ゲノム学、プロテオミクス、臨床記録など、取得されたデータのスケール、モダリティ、解像度の異なる関係情報を持っている。 多様なデータ型を統合することで、がんの診断と治療の精度と信頼性が向上する。 人間や既存の技術ツールが視覚的に識別するには微妙すぎる病気関連の情報もある。 伝統的な手法は通常、個々のスケールでの生物学的システムに関する部分的または一様の情報に焦点を当て、データの不均一な性質の完全なスペクトルをカプセル化しない。 ディープニューラルネットワークは、複数のソースから関連する情報を抽出し統合できる高度なマルチモーダルデータ融合アプローチの開発を促進する。 グラフニューラルネットワーク(gnns)やトランスフォーマーといった最近のディープラーニングフレームワークは、マルチモーダル学習で顕著な成功を収めている。 本稿では,oncology におけるマルチモーダルデータ融合のための gnn と transformers の最先端技術に関する詳細な分析を行い,注目すべき研究成果とその成果について紹介する。 また,マルチモーダル学習の基礎,本質的課題,オンコロジーにおける統合的学習の機会についても論じる。 腫瘍学におけるマルチモーダルデータ統合の現状と今後の展望を調べることにより,マルチモーダルニューラルネットワークががん予防,早期発見,治療に果たす有望な役割を,個別設定におけるインフォームドoncologyの実践を通じて実証することを目的とする。

Cancer has relational information residing at varying scales, modalities, and resolutions of the acquired data, such as radiology, pathology, genomics, proteomics, and clinical records. Integrating diverse data types can improve the accuracy and reliability of cancer diagnosis and treatment. There can be disease-related information that is too subtle for humans or existing technological tools to discern visually. Traditional methods typically focus on partial or unimodal information about biological systems at individual scales and fail to encapsulate the complete spectrum of the heterogeneous nature of data. Deep neural networks have facilitated the development of sophisticated multimodal data fusion approaches that can extract and integrate relevant information from multiple sources. Recent deep learning frameworks such as Graph Neural Networks (GNNs) and Transformers have shown remarkable success in multimodal learning. This review article provides an in-depth analysis of the state-of-the-art in GNNs and Transformers for multimodal data fusion in oncology settings, highlighting notable research studies and their findings. We also discuss the foundations of multimodal learning, inherent challenges, and opportunities for integrative learning in oncology. By examining the current state and potential future developments of multimodal data integration in oncology, we aim to demonstrate the promising role that multimodal neural networks can play in cancer prevention, early detection, and treatment through informed oncology practices in personalized settings.
翻訳日:2023-03-14 18:40:18 公開日:2023-03-11
# 高速な医用画像分割のためのToken Sparsification

Token Sparsification for Faster Medical Image Segmentation ( http://arxiv.org/abs/2303.06522v1 )

ライセンス: Link先を確認
Lei Zhou, Huidong Liu, Joseph Bae, Junjun He, Dimitris Samaras, Prateek Prasanna(参考訳) 密集予測にスパーストークン(例えばセグメンテーション)を使用できるか? トークンスパーシフィケーションは視覚トランスフォーマー(vit)に応用され分類を加速しているが、スパーストークンからのセグメンテーションの実行方法はまだ不明である。 この目的のために、セグメント化をスパース符号化 ->トークン完了 -> 密度復号(SCD)パイプラインとして再構成する。 まず,分類トークンの刈り取りとマスク画像モデリング(mim)による既存手法の適用が,不適切なサンプリングアルゴリズムによる失敗と非効率なトレーニング,および復元された高密度特徴の低品質化につながることを実証的に示す。 本稿では,これらの問題に対処するため,Soft-topK Token Pruning (STP) と Multi-layer Token Assembly (MTA) を提案する。 スパースエンコーディングでは、STPは軽量サブネットワークでトークンの重要度を予測し、トップKトークンをサンプリングする。 難解なtopk勾配は連続摂動スコア分布を通じて近似される。 トークン補完では、mtaはスパース出力トークンとpruned multi-layer intermediateトークンの両方を組み立てることで完全なトークンシーケンスを復元する。 最後の高密度デコードステージは、既存のセグメンテーションデコーダ(例えばUNETR)と互換性がある。 実験では、STPとMTAを備えたSCDパイプラインは、両方のトレーニングでトークンプルーニング(最大120%のスループットと最大60.6%のスループット)なしで、セグメンテーション品質を維持しながらベースラインよりもはるかに高速であることが示された。

Can we use sparse tokens for dense prediction, e.g., segmentation? Although token sparsification has been applied to Vision Transformers (ViT) to accelerate classification, it is still unknown how to perform segmentation from sparse tokens. To this end, we reformulate segmentation as a sparse encoding -> token completion -> dense decoding (SCD) pipeline. We first empirically show that naively applying existing approaches from classification token pruning and masked image modeling (MIM) leads to failure and inefficient training caused by inappropriate sampling algorithms and the low quality of the restored dense features. In this paper, we propose Soft-topK Token Pruning (STP) and Multi-layer Token Assembly (MTA) to address these problems. In sparse encoding, STP predicts token importance scores with a lightweight sub-network and samples the topK tokens. The intractable topK gradients are approximated through a continuous perturbed score distribution. In token completion, MTA restores a full token sequence by assembling both sparse output tokens and pruned multi-layer intermediate ones. The last dense decoding stage is compatible with existing segmentation decoders, e.g., UNETR. Experiments show SCD pipelines equipped with STP and MTA are much faster than baselines without token pruning in both training (up to 120% higher throughput and inference up to 60.6% higher throughput) while maintaining segmentation quality.
翻訳日:2023-03-14 18:33:03 公開日:2023-03-11
# 学習条件付き確率モデルを用いたロスレス点雲形状と属性圧縮

Lossless Point Cloud Geometry and Attribute Compression Using a Learned Conditional Probability Model ( http://arxiv.org/abs/2303.06519v1 )

ライセンス: Link先を確認
Dat Thanh Nguyen Andre Kaup(参考訳) 近年、私たちは、没入型メディア、自動運転、ヘルスケアなど、私たちの生活の多くの面でポイントクラウドデータの存在を目にしてきました。 本稿では,分散テンソルに基づく深層ニューラルネットワークを用いて,点雲形状と色確率分布を学習する効率的なロスレスポイントクラウド圧縮手法を提案する。 本手法は,異なるビット深さの3つの属性特徴を持つ点雲を統一されたスパース表現で表現する。 これにより、スパーステンソルベースのニューラルネットワークを使用して、ポイントクラウド内の特徴と点の依存関係を効率的に活用し、算術コーダ用の正確な自動回帰コンテキストモデルを構築することができます。 私たちの知る限りでは、これは学習ベースのロスレスポイントクラウド幾何学と属性圧縮アプローチの最初のものである。 移動画像の専門家グループ (mpeg) による最先端のロスレスポイントクラウド圧縮法と比較すると, 種々のテストポイントクラウド上でのビットレートは, それぞれ49.0%, 18.3%, 幾何および色属性成分でそれぞれ22.6%削減できる。

In recent years, we have witnessed the presence of point cloud data in many aspects of our life, from immersive media, autonomous driving to healthcare, although at the cost of a tremendous amount of data. In this paper, we present an efficient lossless point cloud compression method that uses sparse tensor-based deep neural networks to learn point cloud geometry and color probability distributions. Our method represents a point cloud with both occupancy feature and three attribute features at different bit depths in a unified sparse representation. This allows us to efficiently exploit feature-wise and point-wise dependencies within point clouds using a sparse tensor-based neural network and thus build an accurate auto-regressive context model for an arithmetic coder. To the best of our knowledge, this is the first learning-based lossless point cloud geometry and attribute compression approach. Compared with the-state-of-the-art lossless point cloud compression method from Moving Picture Experts Group (MPEG), our method achieves 22.6% reduction in total bitrate on a diverse set of test point clouds while having 49.0% and 18.3% rate reduction on geometry and color attribute component, respectively.
翻訳日:2023-03-14 18:32:35 公開日:2023-03-11
# lossless scalable point cloud attribute 圧縮のための深い確率モデル

Deep probabilistic model for lossless scalable point cloud attribute compression ( http://arxiv.org/abs/2303.06517v1 )

ライセンス: Link先を確認
Dat Thanh Nguyen, Kamal Gopikrishnan Nambiar and Andre Kaup(参考訳) 近年,高度な深層学習技術を用いた点クラウド幾何圧縮手法がいくつか提案されているが,属性圧縮,特にロスレス圧縮に関する研究は限られている。 本研究では,マルチスケールな潜在空間に徐々に属性を投影する,エンドツーエンドのマルチスケールポイントクラウド属性コーディング手法(mnet)を構築した。 マルチスケールアーキテクチャは属性確率モデリングの正確なコンテキストを提供し、単一のネットワーク予測で符号化ビットレートを最小化する。 また,本手法では,低品質版をロスレス圧縮ビットストリームから容易に抽出できるスケーラブルな符号化を実現する。 MVUB と MPEG の点群に対して本手法の有効性を検証し,提案手法が最近提案した手法よりも優れており,最新の G-PCC バージョン 14 と同等であることを示す。 さらに、コーディング時間はG-PCCよりもかなり高速です。

In recent years, several point cloud geometry compression methods that utilize advanced deep learning techniques have been proposed, but there are limited works on attribute compression, especially lossless compression. In this work, we build an end-to-end multiscale point cloud attribute coding method (MNeT) that progressively projects the attributes onto multiscale latent spaces. The multiscale architecture provides an accurate context for the attribute probability modeling and thus minimizes the coding bitrate with a single network prediction. Besides, our method allows scalable coding that lower quality versions can be easily extracted from the losslessly compressed bitstream. We validate our method on a set of point clouds from MVUB and MPEG and show that our method outperforms recently proposed methods and on par with the latest G-PCC version 14. Besides, our coding time is substantially faster than G-PCC.
翻訳日:2023-03-14 18:32:14 公開日:2023-03-11
# shapスコア計算のためのニューラルネットワーク分類器の公開

Opening Up the Neural Network Classifier for Shap Score Computation ( http://arxiv.org/abs/2303.06516v1 )

ライセンス: Link先を確認
Leopoldo Bertossi and Jorge E. Leon(参考訳) 機械学習モデルを用いた分類におけるShap説明スコアの効率的な計算の問題に対処する。 この目的により、二元ニューラルネットワーク(BNN)の分類を決定論的かつ分解可能なブール回路に変換し、知識コンパイル技術を用いることを示す。 その結果得られる回路はオープンボックスモデルとして扱われ、この種類の回路に対する最近の効率的なアルゴリズムにより、shapスコアを計算する。 詳細な実験により、ブラックボックスモデルとして扱われるbnn上でのshapの計算性能は大幅に向上した。

We address the problem of efficiently computing Shap explanation scores for classifications with machine learning models. With this goal, we show the transformation of binary neural networks (BNNs) for classification into deterministic and decomposable Boolean circuits, for which knowledge compilation techniques are used. The resulting circuit is treated as an open-box model, to compute Shap scores by means of a recent efficient algorithm for this class of circuits. Detailed experiments show a considerable gain in performance in comparison with computing Shap directly on the BNN treated as a black-box model.
翻訳日:2023-03-14 18:32:00 公開日:2023-03-11
# カーネルによる多段階確率最適化

Multistage Stochastic Optimization via Kernels ( http://arxiv.org/abs/2303.06515v1 )

ライセンス: Link先を確認
Dimitris Bertsimas, Kimberly Villalobos Carballo(参考訳) 我々は,不確実性に影響を与えない多段階確率的最適化問題を解くための非パラメトリック,データ駆動,扱いやすい手法を開発した。 提案フレームワークは, 決定変数を再生カーネルヒルベルト空間の要素として表現し, 経験的正規化損失を最小限に抑える機能的確率勾配降下を行う。 関数部分空間投影に基づくスパーシフィケーション技術を導入することで、データサイズが大きくなるにつれて、標準カーネルメソッドが導入する計算複雑性を克服することができる。 提案手法は側情報を用いた多段階確率最適化に漸近的に最適であることを示す。 確率的在庫管理問題に関する様々な計算実験において、本手法は多次元設定において良好に機能し、データサイズが大きければトラクタブルである。 最後に,在庫管理問題の最適損失に対する下位境界の計算により,提案手法が最適に近い平均性能で決定ルールを生成することを示す。

We develop a non-parametric, data-driven, tractable approach for solving multistage stochastic optimization problems in which decisions do not affect the uncertainty. The proposed framework represents the decision variables as elements of a reproducing kernel Hilbert space and performs functional stochastic gradient descent to minimize the empirical regularized loss. By incorporating sparsification techniques based on function subspace projections we are able to overcome the computational complexity that standard kernel methods introduce as the data size increases. We prove that the proposed approach is asymptotically optimal for multistage stochastic optimization with side information. Across various computational experiments on stochastic inventory management problems, {our method performs well in multidimensional settings} and remains tractable when the data size is large. Lastly, by computing lower bounds for the optimal loss of the inventory control problem, we show that the proposed method produces decision rules with near-optimal average performance.
翻訳日:2023-03-14 18:31:50 公開日:2023-03-11
# 不均衡データに対する拡張ランダムフォレスト分類器を用いたクレジットカード不正検出

Credit Card Fraud Detection Using Enhanced Random Forest Classifier for Imbalanced Data ( http://arxiv.org/abs/2303.06514v1 )

ライセンス: Link先を確認
AlsharifHasan Mohamad Aburbeian and Huthaifa I. Ashqar(参考訳) クレジットカードはオンラインとオフラインの両方で最も人気のある支払い方法となっている。 不正行為を正確に識別・停止するための不正検出アルゴリズムを作成する必要性は、技術の発達と不正事件の増加の両方の結果生じる。 本稿では,この問題を解決するためにランダムフォレスト(RF)アルゴリズムを実装した。 本研究ではクレジットカード取引のデータセットを用いた。 クレジットカード不正検出に対処する際の主な問題は、トランザクションの大半が不正ではない不均衡データセットである。 不均衡データセットの問題を克服するため、合成マイノリティオーバーサンプリング技術(SMOTE)を用いた。 ランダム森林分類器の性能向上のためのハイパーパラメータ手法の実装 その結果,RF分類器の精度は98%,F1スコア値の約98%であった。 また,本モデルは比較的容易に適用でき,不正検出アプリケーションにおける不均衡データの問題を克服できると考えている。

The credit card has become the most popular payment method for both online and offline transactions. The necessity to create a fraud detection algorithm to precisely identify and stop fraudulent activity arises as a result of both the development of technology and the rise in fraud cases. This paper implements the random forest (RF) algorithm to solve the issue in the hand. A dataset of credit card transactions was used in this study. The main problem when dealing with credit card fraud detection is the imbalanced dataset in which most of the transaction are non-fraud ones. To overcome the problem of the imbalanced dataset, the synthetic minority over-sampling technique (SMOTE) was used. Implementing the hyperparameters technique to enhance the performance of the random forest classifier. The results showed that the RF classifier gained an accuracy of 98% and about 98% of F1-score value, which is promising. We also believe that our model is relatively easy to apply and can overcome the issue of imbalanced data for fraud detection applications.
翻訳日:2023-03-14 18:31:34 公開日:2023-03-11
# 機械学習モデルを用いたソフトウェア定義ネットワークにおけるddos攻撃の検出

Detection of DDoS Attacks in Software Defined Networking Using Machine Learning Models ( http://arxiv.org/abs/2303.06513v1 )

ライセンス: Link先を確認
Ahmad Hamarshe, Huthaifa I. Ashqar, and Mohammad Hamarsheh(参考訳) software defined networking(sdn)の概念は、コントロールプレーンとデータプレーンをネットワーク抽象化を通じて分離する、ネットワークに対する現代的なアプローチを表している。 コントロールプレーンとデータプレーンの分離は、ネットワークのレジリエンスの向上につながったが、SDN環境における新たな課題となる分散型サービス障害(DDoS)攻撃の脅威など、新たなセキュリティリスクも生じている。 本稿では,sdn(software-defined networking)環境における分散型ddos攻撃検出のための機械学習アルゴリズムの有効性について検討する。 ランダムフォレスト、決定木、サポートベクターマシン、xgboostを含む4つのアルゴリズムがcicddos2019データセットでテストされ、タイムスタンプ機能は削除された。 性能は精度、リコール、精度、F1スコアで評価され、ランダムフォレストアルゴリズムは68.9%と高い精度で評価された。 その結果,非パラメトリックアルゴリズムの計算要件にもかかわらず,mlに基づく検出はsdnにおけるddos攻撃をより正確かつ効果的に同定する手法であることが示された。

The concept of Software Defined Networking (SDN) represents a modern approach to networking that separates the control plane from the data plane through network abstraction, resulting in a flexible, programmable and dynamic architecture compared to traditional networks. The separation of control and data planes has led to a high degree of network resilience, but has also given rise to new security risks, including the threat of distributed denial-of-service (DDoS) attacks, which pose a new challenge in the SDN environment. In this paper, the effectiveness of using machine learning algorithms to detect distributed denial-of-service (DDoS) attacks in software-defined networking (SDN) environments is investigated. Four algorithms, including Random Forest, Decision Tree, Support Vector Machine, and XGBoost, were tested on the CICDDoS2019 dataset, with the timestamp feature dropped among others. Performance was assessed by measures of accuracy, recall, accuracy, and F1 score, with the Random Forest algorithm having the highest accuracy, at 68.9%. The results indicate that ML-based detection is a more accurate and effective method for identifying DDoS attacks in SDN, despite the computational requirements of non-parametric algorithms.
翻訳日:2023-03-14 18:31:19 公開日:2023-03-11
# 複合開量子系の断熱除去:ハイゼンベルクの定式化と数値シミュレーション

Adiabatic elimination for composite open quantum systems: Heisenberg formulation and numerical simulations ( http://arxiv.org/abs/2303.05089v2 )

ライセンス: Link先を確認
Fran\c{c}ois-Marie Le R\'egent, Pierre Rouchon(参考訳) 本稿では,複数のオープン量子サブシステムからなるオープン量子システムを用いて,古典的コンピュータ上でシミュレーションを行う数値計算法を提案する。 各サブシステムはデコヒーレンス自由部分空間に向かって指数関数的に安定化され、いくつかのデコヒーレンスチャネルにわずかに影響され、他のサブシステムと弱結合していると仮定される。 この数値法は、連続時間または離散時間における力学のハイゼンベルク定式化を利用したオリジナルの漸近展開による摂動解析に基づいている。 これはサブシステムの局所的および名目的散逸的ダイナミクスの不変作用素に依存する。 ヒルベルト空間全体の大域的な計算を避けた局所計算だけで二階展開を計算できることが示されている。 このアルゴリズムは、例えばschr\"odinger cat状態を持つボソニック符号のような自律的量子誤り訂正スキームのシミュレーションに特に適している。 これらの二階ハイゼンベルクシミュレーションは、完全シュル=オディンガーシミュレーションと二階断熱による解析公式と比較されている。 これらの比較は、1つの猫量子ビット上のZゲート、2つの猫量子ビット上のZZゲート、3つの猫量子ビット上のZZZゲートという3つの猫量子ビットゲートを実行する。 zzz-gateでは、各キャットキュービットのエネルギーである$\alpha^2$が8を超えると完全なシュル=オディンガーシミュレーションはほぼ不可能であるが、第2次ハイゼンベルクシミュレーションはマシン精度まで容易にアクセス可能である。 これらの数値的な研究は、2階ハイゼンベルク力学が非常に小さなビットフリップ誤差確率を捉え、指数関数は 1 から 16 まで様々に$\alpha^2$に対して減少することを示している。 また、量子プロセストモグラフィー(いわゆる$\chi$ matrix)への直接的な数値アクセスを提供し、それらの確率で異なるエラーチャネルの完全な特徴づけを提供する。

This report proposes a numerical method for simulating on a classical computer an open quantum system composed of several open quantum subsystems. Each subsystem is assumed to be strongly stabilized exponentially towards a decoherence free sub-space, slightly impacted by some decoherence channels and weakly coupled to the other subsystems. This numerical method is based on a perturbation analysis with an original asymptotic expansion exploiting the Heisenberg formulation of the dynamics, either in continuous time or discrete time. It relies on the invariant operators of the local and nominal dissipative dynamics of the subsystems. It is shown that second-order expansion can be computed with only local calculations avoiding global computations on the entire Hilbert space. This algorithm is particularly well suited for simulation of autonomous quantum error correction schemes, such as in bosonic codes with Schr\"odinger cat states. These second-order Heisenberg simulations have been compared with complete Schr\"odinger simulations and analytical formulas obtained by second order adiabatic elimination. These comparisons have been performed three cat-qubit gates: a Z-gate on a single cat qubit; a ZZ-gate on two cat qubits; a ZZZ-gate on three cat qubits. For the ZZZ-gate, complete Schr\"odinger simulations are almost impossible when $\alpha^2$, the energy of each cat qubit, exceeds 8, whereas second-order Heisenberg simulations remain easily accessible up to machine precision. These numerical investigations indicate that second-order Heisenberg dynamics capture the very small bit-flip error probabilities and their exponential decreases versus $\alpha^2$ varying from 1 to 16. They also provides a direct numerical access to quantum process tomography, the so called $\chi$ matrix providing a complete characterization of the different error channels with their probabilities.
翻訳日:2023-03-14 11:08:00 公開日:2023-03-11