このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230716となっている論文です。

PDF登録状況(公開日: 20230716)

TitleAuthorsAbstract論文公表日・翻訳日
# 開発者のためのオープンソースコードのマイニングレビュー:プロセスマイニングアプローチ

Mining Reviews in Open Source Code for Developers Trail: A Process Mining Approach ( http://arxiv.org/abs/2308.00686v1 )

ライセンス: Link先を確認
Patrick Mukala(参考訳) オーディトトレイルは、あらゆるログ内のアクティビティパフォーマーの明らかな表示である。 トランザクション処理システム、管理情報システム、意思決定支援システム、さらにはエグゼクティブマネジメントシステムといった現代的なリアクティブシステムは、ユーザの日常的なタスクをさまざまな理由から実行し、おそらく最も重要なもののひとつがセキュリティである。 プライバシーと情報へのアクセスを効率的に監視、管理するために、これらのログに記録されたトレイルは、この点において重要な役割を果たす。 しかし、オープンソースの領域では、そうではない。 フリーソフトウェアの目的は、アクセス、無料配布、コーディング変更の権利を許可することであるが、このような監査証跡を持つことは、これらのコミュニティのアクティブなメンバーがどれほど活動しているかを追跡、理解するのに役立ちます。 本稿では,プロセスマイニングを用いて,オープンソースのリポジトリにあるような量のデータを用いてログを構築することで,ワークフローネットと呼ばれる,開発者のアクティビティの逐次発生を図示するプロセスモデルを作成することを提案する。 本手法はact-traceと呼ばれる単純なアルゴリズムによって提示される。

Audit trails are evidential indications of activities performers in any logs. Modern reactive systems such as transaction processing systems, management information systems, decision support systems and even executive management systems log activities of users as they perform their daily tasks for a number of reasons and perhaps one of the most important is security. In order to efficiently monitor and manage privacy and access to information, the trails as captured and recorded in these logs play a pivotal role in this regard. In Open Source realm, however, this is not the case. Although the objective with free software is to allow for access, free distribution and the rights to modify coding, having such audit trails can help to trace and understand how active members of these communities are and the type of activities they perform. In this paper, we propose using process mining to construct logs using as much data as can be found in open source repositories in order to produce a process model, also called a workflow net that graphical depicts the sequential occurrence of developers activities. Our method is exhibited through a simple algorithm called Act-Trace.
翻訳日:2023-10-23 15:43:16 公開日:2023-07-16
# prismを用いた買い物かごアプリケーションモデルの形式検証

Formal Verification Of A Shopping Basket Application Model Using PRISM ( http://arxiv.org/abs/2308.00618v1 )

ライセンス: Link先を確認
Patrick Mukala(参考訳) 形式的検証はモデル検証と正確性の中心にある。 モデルチェックでは、ソフトウェア工学、特にソフトウェア開発において、重要な実現がなされている。 このアプローチにより、複雑なアプリケーションをシミュレートし、そのパフォーマンスは、手元にある要件と期待するパフォーマンスと合致して予測される。 本稿では,Prism Model Checker を用いたショッピング・バスケット・アプリケーション・モデルにおけるシミュレーション結果について述べる。 プロジェクテッドプロセスモデルから修正されたモデルに適用することで、買い物客の振る舞いをシミュレートし、ショッピングプロセスのいくつかの定義された状態を経て、複数の定義されたプロパティを通してアクセシビリティと到達可能性を表現する。

Formal verification is at the heart of model validation and correctness. With model checking, invaluable realizations have been accomplished in software engineering and particularly in software development. By means of this approach, complex applications can be simulated and their performance forecasted in light with requirements at hands and expected performance. In this short paper we present the results of a simulation using Prism Model Checker for a Shopping Basket Application Model. Applied on a modified model from a projected process model, the objective is to simulate the behavior of shoppers as they go through a number of defined states of the shopping process and express accessibility and reachability through a number of defined properties.
翻訳日:2023-10-23 15:41:36 公開日:2023-07-16
# 古典的コンピュータにおける整数因子化と肥料・機械学習

Integer Factorisation, Fermat & Machine Learning on a Classical Computer ( http://arxiv.org/abs/2308.12290v1 )

ライセンス: Link先を確認
Sam Blake(参考訳) 本稿では、整数因数分解の深層学習に基づく確率的アルゴリズムについて述べる。我々は、フェルマーの因数分解アルゴリズムの拡張を用いて、整数因数分解問題を二項分類問題に還元する。この分類問題に対処するために、大規模な擬似ランダム素数を生成することの容易さに基づき、必要に応じて、トレーニングデータのコーパスを合成的に生成する。 アルゴリズムを導入し、いくつかの実験を要約し、これらの実験が不足している箇所を分析し、最終的に他の人に、このアプローチが実用的でスケーラブルな因数分解アルゴリズムになるところまで改善できるかどうかを再現、検証、確認するよう呼びかける。

In this paper we describe a deep learning--based probabilistic algorithm for integer factorisation. We use Lawrence's extension of Fermat's factorisation algorithm to reduce the integer factorisation problem to a binary classification problem. To address the classification problem, based on the ease of generating large pseudo--random primes, a corpus of training data, as large as needed, is synthetically generated. We will introduce the algorithm, summarise some experiments, analyse where these experiments fall short, and finally put out a call to others to reproduce, verify and see if this approach can be improved to a point where it becomes a practical, scalable factorisation algorithm.
翻訳日:2023-10-23 12:55:43 公開日:2023-07-16
# QuCS: 量子コンピュータソフトウェアとシステムに関する講義シリーズ

QuCS: A Lecture Series on Quantum Computer Software and System ( http://arxiv.org/abs/2309.15908v1 )

ライセンス: Link先を確認
Zhiding Liang, Hanrui Wang(参考訳) 量子コンピューティングにおける差し迫った進歩の時代、量子アルゴリズムのハードウェア要求と利用可能なデバイスの間のギャップを埋めることが重要になっている。 この文脈における主要な焦点は、量子コンピュータに対するソフトウェアとシステムレベルのサポートであり、このギャップを著しく減少させる有望な可能性を示している。 しかし、量子ソフトウェアとシステムレベルにフォーカスしたコースの欠如は、世界中で学界で注目されている。 そこで本研究では,Quantum Computer Systems (QuCS) Lecture Seriesを提案する。 QuCS講義シリーズは、量子コンピューティングソフトウェアとシステムレベルの可視性を高め、世界中の複数の大学における量子コンピューティング研究への多様な参加を促進することを目的としている。 多様なバックグラウンドを持つ個人をまとめ、この急成長する分野における異文化間のコラボレーションとイノベーションを触媒する包括的プラットフォームとして考えられている。 講義シリーズは、量子コンピューティングの核となる概念と基礎を明らかにする入門セッションで始まる。 この基礎知識はその後のセッションの上に構築され、最先端の研究動向と量子ソフトウェアとシステムレベルでの最近の発見を強調します。 本稿では,QuCS講義シリーズの概要を概説し,その形式,話題の多様さ,その意義について述べる。 このシリーズの潜在的な影響は、量子超越性への進歩を加速させ、量子コンピューティング研究者と実践者の多様なグローバルなコミュニティを育むことにある。 QuCSの講演シリーズは、すでに40の講義が開催されており、8カ国以上から40以上の講演者が参加し、学術と産業の両方からQuCSは世界中から1000人以上の会員を集めている。

In this era of incessant advancements in quantum computing, bridging the gap between quantum algorithms' hardware requisites and available devices has become crucial. A prime focus in this context is the Software and System Level support for quantum computers, which has shown promising potential in significantly decreasing this gap. However, a noteworthy deficit of quantum software and system level-focused courses has been observed in academia worldwide. Addressing this deficiency, this paper proposes the Quantum Computer Systems (QuCS) Lecture Series. The QuCS Lecture Series aims to enhance the visibility of quantum computing software and system level and foster diverse participation in quantum computing research across multiple universities worldwide. It is envisioned as an inclusive platform to bring together individuals of diverse backgrounds, catalyzing cross-cultural collaboration and innovation in this burgeoning field. The lecture series begins with an introductory session elucidating the core concepts and fundamentals of quantum computing. This foundational knowledge will be built upon in subsequent sessions, highlighting cutting-edge research trends and recent findings in quantum software and system level. This paper provides a comprehensive overview of the QuCS Lecture Series, detailing the format, the gamut of topics to be covered, and their significance. It emphasizes the potential impact of the series on accelerating progress towards quantum supremacy and fostering a diverse, global community of quantum computing researchers and practitioners. The QuCS Lecture Series has already hosted nearly 40 lectures with over 40 confirmed speakers from more than eight different countries and from both academia and industry, QuCS also attracted more than 1000 subscribers from all over the world.
翻訳日:2023-10-23 06:06:48 公開日:2023-07-16
# dynamicfl: 連合学習のためのコミュニケーションダイナミクスとクライアント操作のバランス

DynamicFL: Balancing Communication Dynamics and Client Manipulation for Federated Learning ( http://arxiv.org/abs/2308.06267v1 )

ライセンス: Link先を確認
Bocheng Chen, Nikolay Ivanov, Guangjing Wang, Qiben Yan(参考訳) federated learning (fl) は分散機械学習(ml)パラダイムであり、数百万のエッジデバイスにわたる分散データを活用してグローバルモデルをトレーニングすることを目的としている。 集中学習と比較して、FLはデータを明示的にダウンロードすることを避けてクライアントのプライバシを保存する。 しかし、高度にダイナミックなネットワークを持つ地理的に分散したエッジデバイス(例えば、モバイル、車、電車、地下鉄)を考えると、これらのデバイスからすべてのモデルアップデートを集約すると、flでは避けられないロングテール遅延が発生する。 これにより、トレーニングプロセスの効率が大幅に低下する。 時間に敏感なFLシナリオにおける高システム不均一性を解決するために,クライアント操作戦略を特別に設計した大規模デバイス間の通信ダイナミクスとデータ品質を考慮した新しいFLフレームワークであるDynamicFLを提案する。 \oursは動的ネットワーク条件とトレーニングデータの品質から,ネットワーク予測に基づいてモデル更新を行うクライアントを積極的に選択する。 さらに、クライアント選択における長期欲求戦略は、動的ネットワークにおける短期スケジューリングによるシステム性能劣化の問題に対処する。 最後に、クライアントの性能評価とクライアント操作粒度とのトレードオフのバランスをとるため、トレーニングプロセスにおける観察窓の長さを動的に調整し、長期システムの効率を最適化する。 flの最先端のクライアント選択方式と比較すると、 \ours は18.9\% -- 84.0\% のウォールクロック時間を消費しながら、より良いモデル精度を達成できる。 本研究は, 様々な実生活シナリオにおいて, 成分的, 感度的な研究によりさらに頑健性を示す。

Federated Learning (FL) is a distributed machine learning (ML) paradigm, aiming to train a global model by exploiting the decentralized data across millions of edge devices. Compared with centralized learning, FL preserves the clients' privacy by refraining from explicitly downloading their data. However, given the geo-distributed edge devices (e.g., mobile, car, train, or subway) with highly dynamic networks in the wild, aggregating all the model updates from those participating devices will result in inevitable long-tail delays in FL. This will significantly degrade the efficiency of the training process. To resolve the high system heterogeneity in time-sensitive FL scenarios, we propose a novel FL framework, DynamicFL, by considering the communication dynamics and data quality across massive edge devices with a specially designed client manipulation strategy. \ours actively selects clients for model updating based on the network prediction from its dynamic network conditions and the quality of its training data. Additionally, our long-term greedy strategy in client selection tackles the problem of system performance degradation caused by short-term scheduling in a dynamic network. Lastly, to balance the trade-off between client performance evaluation and client manipulation granularity, we dynamically adjust the length of the observation window in the training process to optimize the long-term system efficiency. Compared with the state-of-the-art client selection scheme in FL, \ours can achieve a better model accuracy while consuming only 18.9\% -- 84.0\% of the wall-clock time. Our component-wise and sensitivity studies further demonstrate the robustness of \ours under various real-life scenarios.
翻訳日:2023-08-20 16:39:40 公開日:2023-07-16
# 非線形状態空間モデルのための確率勾配MCMC

Stochastic Gradient MCMC for Nonlinear State Space Models ( http://arxiv.org/abs/1901.10568v3 )

ライセンス: Link先を確認
Christopher Aicher, Srshti Putcha, Christopher Nemeth, Paul Fearnhead, and Emily B. Fox(参考訳) 状態空間モデル(SSM)は、潜在確率過程を通じて複雑な時系列をモデル化するための柔軟なフレームワークを提供する。 非線形で非ガウス的なSSMの推論は、長い時間系列にうまくスケールしない粒子法にしばしば取り組まれる。 問題は2つある: 線形の場合のように計算を時間とともに線形にスケールするだけでなく、粒子フィルタは長い系列で粒子の縮退を増大させる。 確率勾配MCMC法は有限状態隠れマルコフモデルと線形SSMのベイズ推定を時相依存性を考慮したバッファ付き確率勾配推定を用いて拡張する。 確率勾配推定器を粒子法を用いて非線形ssmに拡張する。 本研究では,非線形ssmにおけるバッファリング誤差と粒子誤差の両方を考慮した誤差境界を提案する。 提案した粒子バッファリング確率勾配を確率勾配MCMCを用いて,長周期合成および微細分解の両方の財務リターンデータから推定し,この手法の重要性を実証した。

State space models (SSMs) provide a flexible framework for modeling complex time series via a latent stochastic process. Inference for nonlinear, non-Gaussian SSMs is often tackled with particle methods that do not scale well to long time series. The challenge is two-fold: not only do computations scale linearly with time, as in the linear case, but particle filters additionally suffer from increasing particle degeneracy with longer series. Stochastic gradient MCMC methods have been developed to scale Bayesian inference for finite-state hidden Markov models and linear SSMs using buffered stochastic gradient estimates to account for temporal dependencies. We extend these stochastic gradient estimators to nonlinear SSMs using particle methods. We present error bounds that account for both buffering error and particle error in the case of nonlinear SSMs that are log-concave in the latent process. We evaluate our proposed particle buffered stochastic gradient using stochastic gradient MCMC for inference on both long sequential synthetic and minute-resolution financial returns data, demonstrating the importance of this class of methods.
翻訳日:2023-07-30 04:31:28 公開日:2023-07-16
# ボース・アインシュタイン凝縮のパラドックス

The Paradox of Bose-Einstein Condensation ( http://arxiv.org/abs/2307.11743v1 )

ライセンス: Link先を確認
Phil Attard(参考訳) ボース=アインシュタイン凝縮のパラドックスは、$\lambda$-transition heat capacityや超流動流のような現象はマクロ的であるが、基底状態の占有は顕微鏡的である。 この矛盾は、ボース=アインシュタイン凝縮が基底状態だけでなく、複数の低次状態に入ることを示すイデアルボソンの単純な導出によって解決される。

The paradox of Bose-Einstein condensation is that phenomena such as the $\lambda$-transition heat capacity and superfluid flow are macroscopic, whereas the occupancy of the ground state is microscopic. This contradiction is resolved with a simple derivation for ideal bosons that shows Bose-Einstein condensation is into multiple low-lying states, not just the ground state.
翻訳日:2023-07-30 04:26:55 公開日:2023-07-16
# 効率的かつ自動的な形容詞の認識

Recognition of Mental Adjectives in An Efficient and Automatic Style ( http://arxiv.org/abs/2307.11767v1 )

ライセンス: Link先を確認
Fei Yang(参考訳) 近年、コモンセンス推論は学術界からますます注目を集めている。 本稿では,コモンセンス推論を推論グラフで扱うために,新たな語彙推論タスクであるメンタル・物理分類(MPC)を提案する。 メンタルワードは、感情、ニーズ、知覚、推論、計画、パーソナリティの6つのカテゴリに分類される精神活動に関係している。 物理的な言葉は、色、硬さ、速度、可鍛性などの物体の物理的特性を記述する。 このタスクのためにBERTモデルを微調整し、トレーニングフレームワークにアクティブラーニングアルゴリズムを採用し、必要なアノテーションリソースを削減する。 ENTROPY戦略を用いたモデルは良好な精度を実現し,約300のラベル付き単語を必要とする。 また,sentiwordnetとの比較を行い,感情分析におけるmpcと主観性分類タスクの違いについて検討した。

In recent years, commonsense reasoning has received more and more attention from academic community. We propose a new lexical inference task, Mental and Physical Classification (MPC), to handle commonsense reasoning in a reasoning graph. Mental words relate to mental activities, which fall into six categories: Emotion, Need, Perceiving, Reasoning, Planning and Personality. Physical words describe physical attributes of an object, like color, hardness, speed and malleability. A BERT model is fine-tuned for this task and active learning algorithm is adopted in the training framework to reduce the required annotation resources. The model using ENTROPY strategy achieves satisfactory accuracy and requires only about 300 labeled words. We also compare our result with SentiWordNet to check the difference between MPC and subjectivity classification task in sentiment analysis.
翻訳日:2023-07-30 04:16:49 公開日:2023-07-16
# ディープ・エビデンシャル・レグレッションにおける不合理な効果

The Unreasonable Effectiveness of Deep Evidential Regression ( http://arxiv.org/abs/2205.10060v3 )

ライセンス: Link先を確認
Nis Meinert, Jakob Gawlikowski, Alexander Lavin(参考訳) 機械学習システムでは、安全性クリティカルな領域にますます展開されるため、原則に基づく不確実性推論が必要となる。 不確実性を考慮した回帰ベースニューラルネットワーク(NN)による新しいアプローチは、アレター性およびてんかん性不確実性の学習に基づくもので、従来の決定論的手法や典型的なベイズ的NNよりも、特にアレター性およびてんかん性不確実性の解離を約束する。 ディープ・エビデンシャル・レグレッション(Dep Evidential Regression,DER)の実証的な成功にもかかわらず、なぜ提案手法が機能するのかという疑問を提起する数学的基礎には重要なギャップがある。 我々は、理論上の欠点を詳述し、合成および実世界のデータセットのパフォーマンスを分析し、Deep Evidential Regressionが正確な不確実な定量化ではなくヒューリスティックであることを示す。 今後,NN から動脈およびてんかんの不確かさを抽出する方法の補正と再定義について検討する。

There is a significant need for principled uncertainty reasoning in machine learning systems as they are increasingly deployed in safety-critical domains. A new approach with uncertainty-aware regression-based neural networks (NNs), based on learning evidential distributions for aleatoric and epistemic uncertainties, shows promise over traditional deterministic methods and typical Bayesian NNs, notably with the capabilities to disentangle aleatoric and epistemic uncertainties. Despite some empirical success of Deep Evidential Regression (DER), there are important gaps in the mathematical foundation that raise the question of why the proposed technique seemingly works. We detail the theoretical shortcomings and analyze the performance on synthetic and real-world data sets, showing that Deep Evidential Regression is a heuristic rather than an exact uncertainty quantification. We go on to discuss corrections and redefinitions of how aleatoric and epistemic uncertainties should be extracted from NNs.
翻訳日:2023-07-21 19:18:58 公開日:2023-07-16
# 不完全データを用いたアルツハイマー病分類用多モード混合変圧器

Cascaded Multi-Modal Mixing Transformers for Alzheimer's Disease Classification with Incomplete Data ( http://arxiv.org/abs/2210.00255v2 )

ライセンス: Link先を確認
Linfeng Liu, Siyu Liu, Lu Zhang, Xuan Vinh To, Fatima Nasrallah, Shekhar S. Chandra(参考訳) 正確な医療分類には多数のマルチモーダルデータが必要であり、多くの場合、異なる特徴タイプが必要である。 これまでの研究では、マルチモーダルデータを使用することで、アルツハイマー病(AD)などの疾患の分類において、単一モーダルモデルよりも優れた結果が得られた。 しかし、これらのモデルは通常、欠落したモダリティを扱うのに十分な柔軟性がない。 現在、最も一般的な回避策は、未使用のサンプルを捨てることであり、それがかなりのデータ利用率につながる。 ラベル付き医療画像がすでに不足していることに加えて、ディープラーニングのようなデータ駆動型手法のパフォーマンスが著しく阻害される可能性がある。 したがって、様々な臨床環境で欠落したデータを処理できるマルチモーダル法が極めて望ましい。 本稿では、マルチモーダルデータを利用するだけでなく、欠落したデータシナリオも扱える病気分類トランスであるMulti-Modal Mixing Transformer (3MAT)を提案する。 本研究は,ADと認知正常 (CN) 分類と軽度認知障害 (MCI) から進行性MCI (pMCI) あるいは安定性MCI (sMCI) への変換予測を臨床および神経画像データを用いてテストする。 このモデルは、クロスアテンションを持つ新しいCascaded Modality Transformerアーキテクチャを使用して、より情報のある予測にマルチモーダル情報を組み込む。 我々は,前代未聞のモダリティの独立性と,欠落したデータシナリオに対処する堅牢性を保証するための,新しいモダリティドロップアウト機構を提案する。 その結果、任意の数のモダリティと異なる特徴型を混合することが可能な汎用ネットワークが実現され、データ利用の完全な欠如したデータシナリオが保証される。 モデルは、stra性能でadniデータセット上でトレーニングおよび評価され、データ欠落したaiblデータセットでさらに評価される。

Accurate medical classification requires a large number of multi-modal data, and in many cases, different feature types. Previous studies have shown promising results when using multi-modal data, outperforming single-modality models when classifying diseases such as Alzheimer's Disease (AD). However, those models are usually not flexible enough to handle missing modalities. Currently, the most common workaround is discarding samples with missing modalities which leads to considerable data under-utilization. Adding to the fact that labeled medical images are already scarce, the performance of data-driven methods like deep learning can be severely hampered. Therefore, a multi-modal method that can handle missing data in various clinical settings is highly desirable. In this paper, we present Multi-Modal Mixing Transformer (3MAT), a disease classification transformer that not only leverages multi-modal data but also handles missing data scenarios. In this work, we test 3MT for AD and Cognitively normal (CN) classification and mild cognitive impairment (MCI) conversion prediction to progressive MCI (pMCI) or stable MCI (sMCI) using clinical and neuroimaging data. The model uses a novel Cascaded Modality Transformer architecture with cross-attention to incorporate multi-modal information for more informed predictions. We propose a novel modality dropout mechanism to ensure an unprecedented level of modality independence and robustness to handle missing data scenarios. The result is a versatile network that enables the mixing of arbitrary numbers of modalities with different feature types and also ensures full data utilization missing data scenarios. The model is trained and evaluated on the ADNI dataset with the SOTRA performance and further evaluated with the AIBL dataset with missing data.
翻訳日:2023-07-21 18:58:19 公開日:2023-07-16
# 医療データセットにおける時間的モデル性能の評価

Evaluating Model Performance in Medical Datasets Over Time ( http://arxiv.org/abs/2305.13426v2 )

ライセンス: Link先を確認
Helen Zhou, Yuwen Chen, Zachary C. Lipton(参考訳) 医療システムにデプロイされる機械学習(ML)モデルは、継続的に進化する環境から引き出されたデータに直面する必要がある。 しかし、そのようなモデルを提案する研究者は通常、時間に依存しない方法で評価し、研究期間全体を通してランダムにサンプルされた患者に従ってデータセットを分割する。 本研究は,時間にわたってモデルクラスの性能を評価するEMDOTフレームワークを提案する。 バックテストの概念にインスパイアされたEMDOTは、実践者が各時点で実行できたかもしれないトレーニング手順をシミュレートし、将来のすべてのポイントで得られたモデルを評価する。 6つの異なる医療データソース(表と画像)で、リニアモデルとより複雑なモデルの両方を評価することで、データセットに依存するか、すべての履歴データを使用することは、多くの場合、理想的であるかを示します。 モデルが突然の性能低下に苦しむデータセットにおいて、これらのショックに対する妥当な説明を調査する。 EMDOTパッケージをリリースし、時間とともにデプロイメント指向の評価のさらなる作業を支援する。

Machine learning (ML) models deployed in healthcare systems must face data drawn from continually evolving environments. However, researchers proposing such models typically evaluate them in a time-agnostic manner, splitting datasets according to patients sampled randomly throughout the entire study time period. This work proposes the Evaluation on Medical Datasets Over Time (EMDOT) framework, which evaluates the performance of a model class across time. Inspired by the concept of backtesting, EMDOT simulates possible training procedures that practitioners might have been able to execute at each point in time and evaluates the resulting models on all future time points. Evaluating both linear and more complex models on six distinct medical data sources (tabular and imaging), we show how depending on the dataset, using all historical data may be ideal in many cases, whereas using a window of the most recent data could be advantageous in others. In datasets where models suffer from sudden degradations in performance, we investigate plausible explanations for these shocks. We release the EMDOT package to help facilitate further works in deployment-oriented evaluation over time.
翻訳日:2023-07-21 17:59:25 公開日:2023-07-16
# look before you leap: 大規模言語モデルにおける不確実性測定の探索的研究

Look Before You Leap: An Exploratory Study of Uncertainty Measurement for Large Language Models ( http://arxiv.org/abs/2307.10236v1 )

ライセンス: Link先を確認
Yuheng Huang, Jiayang Song, Zhijie Wang, Huaming Chen, Lei Ma(参考訳) 最近の大規模言語モデル(llms)のパフォーマンス向上は、多くの産業アプリケーションやドメインにまたがる新しい機会を開く。 しかし、誤報、誤報、LLMによる幻覚といった誤った世代は、特に安全性、セキュリティ、信頼性に敏感なシナリオにおいて、LLMの信頼性に対する深刻な懸念を提起し、現実世界の採用を妨げる可能性がある。 不確実性推定は、一般的な機械学習(ML)モデルによる予測リスクを解釈する可能性を示しているが、LLMの能力を探究し、望ましくない振る舞いに対処するのにどの程度役立つかは、ほとんど分かっていない。 本稿では,このギャップを埋めるために,不確実性レンズからのLSMのリスク評価に関する探索的研究を開始する。 特に,4つの自然言語処理(NLP)タスクに対して,12の不確実性推定手法と4つのLLMを用いて実験を行い,LLMの予測リスクをどの程度評価できるかを検討した。 本研究は,LLMの不確かさ・非実効性予測に対する不確実性推定の有効性を検証した。 一般的なNLPタスクに加えて、2つのデータセット上のコード生成のための4つのLLMを用いて広範囲に実験を行う。 不確実性推定は,LSMが生成するバグプログラムを潜在的に発見する可能性がある。 本研究から得られた知見は,LLMの信頼性向上に向けた今後の設計・開発に光を当てたものである。

The recent performance leap of Large Language Models (LLMs) opens up new opportunities across numerous industrial applications and domains. However, erroneous generations, such as false predictions, misinformation, and hallucination made by LLMs, have also raised severe concerns for the trustworthiness of LLMs', especially in safety-, security- and reliability-sensitive scenarios, potentially hindering real-world adoptions. While uncertainty estimation has shown its potential for interpreting the prediction risks made by general machine learning (ML) models, little is known about whether and to what extent it can help explore an LLM's capabilities and counteract its undesired behavior. To bridge the gap, in this paper, we initiate an exploratory study on the risk assessment of LLMs from the lens of uncertainty. In particular, we experiment with twelve uncertainty estimation methods and four LLMs on four prominent natural language processing (NLP) tasks to investigate to what extent uncertainty estimation techniques could help characterize the prediction risks of LLMs. Our findings validate the effectiveness of uncertainty estimation for revealing LLMs' uncertain/non-factual predictions. In addition to general NLP tasks, we extensively conduct experiments with four LLMs for code generation on two datasets. We find that uncertainty estimation can potentially uncover buggy programs generated by LLMs. Insights from our study shed light on future design and development for reliable LLMs, facilitating further research toward enhancing the trustworthiness of LLMs.
翻訳日:2023-07-21 16:50:40 公開日:2023-07-16
# 対向訓練による視点不変視覚認識に向けて

Towards Viewpoint-Invariant Visual Recognition via Adversarial Training ( http://arxiv.org/abs/2307.10235v1 )

ライセンス: Link先を確認
Shouwei Ruan, Yinpeng Dong, Hang Su, Jianteng Peng, Ning Chen, Xingxing Wei(参考訳) 視覚認識モデルは、3次元の世界における視点変化に不変ではない。 ニューラルネットワークを2次元画像の変換や回転に不変にする試みは数多く行われているが、視点不変性が研究されることはほとんどない。 多くのモデルが視点ビューで画像を処理するため、2次元入力のみに基づいて3次元視点変化に不変性を課すことは困難である。 モデルのロバスト性を促進するための敵意訓練の成功に動機づけられ,共通の画像分類器の視点ロバスト性を改善するために,視点不変な敵意訓練(viat)を提案する。 攻撃としての視点変換に関して、VIATは最小限の最適化問題として定式化され、内最大化は新たな攻撃GMVFoolに基づいてガウス混合分布を学習し、外最小化は最悪の対向的な視点分布に対する期待損失を最小限に抑えて視点不変の分類器を訓練する。 一般化性能をさらに向上するため,オブジェクト間の対向的な視点の伝達性を活用した分散共有戦略を導入した。 GMVFoolによる対角的視点の多様性に基づいて,様々な画像分類器の視点ロバスト性を向上させるためのVIATの有効性を検証する。

Visual recognition models are not invariant to viewpoint changes in the 3D world, as different viewing directions can dramatically affect the predictions given the same object. Although many efforts have been devoted to making neural networks invariant to 2D image translations and rotations, viewpoint invariance is rarely investigated. As most models process images in the perspective view, it is challenging to impose invariance to 3D viewpoint changes based only on 2D inputs. Motivated by the success of adversarial training in promoting model robustness, we propose Viewpoint-Invariant Adversarial Training (VIAT) to improve viewpoint robustness of common image classifiers. By regarding viewpoint transformation as an attack, VIAT is formulated as a minimax optimization problem, where the inner maximization characterizes diverse adversarial viewpoints by learning a Gaussian mixture distribution based on a new attack GMVFool, while the outer minimization trains a viewpoint-invariant classifier by minimizing the expected loss over the worst-case adversarial viewpoint distributions. To further improve the generalization performance, a distribution sharing strategy is introduced leveraging the transferability of adversarial viewpoints across objects. Experiments validate the effectiveness of VIAT in improving the viewpoint robustness of various image classifiers based on the diversity of adversarial viewpoints generated by GMVFool.
翻訳日:2023-07-21 16:50:16 公開日:2023-07-16
# SentimentGPT:高度な感性分析のためのGPTの爆発と現在の機械学習からの逸脱

SentimentGPT: Exploiting GPT for Advanced Sentiment Analysis and its Departure from Current Machine Learning ( http://arxiv.org/abs/2307.10234v1 )

ライセンス: Link先を確認
Kiana Kheiri and Hamid Karimi(参考訳) 本研究では,感情分析におけるGPT(Generative Pretrained Transformer)の方法論について,特にSemEval 2017データセットのタスク4の文脈で詳細に検討する。 主な戦略は3つある。 1)先進gpt-3.5ターボを用いたプロンプトエンジニアリング 2)微調整GPTモデル、及び 3)埋め込み分類への創発的アプローチ。 この研究は、これらの戦略と個々のgptモデル間の詳細な比較洞察をもたらし、その特異な強みと潜在的な限界を明らかにする。 さらに、この研究は、これらのGPTベースの方法論を、以前同じデータセットで使用されていた他の現代のハイパフォーマンスモデルと比較する。 その結果,GPT手法の予測性能において,F1スコアの22%以上において,最先端技術と比較して有意な優位性を示した。 さらに,感情分析における共通課題として,文脈理解やサーカズムの検出などについて述べる。 これらの複雑さを効果的にナビゲートするためのGPTモデルの強化機能を強調している。 これらの知見は、感情分析におけるGPTモデルの可能性を強調し、今後の研究の舞台となる。 コードはhttps://github.com/DSAatUSU/SentimentGPTで見ることができる。

This study presents a thorough examination of various Generative Pretrained Transformer (GPT) methodologies in sentiment analysis, specifically in the context of Task 4 on the SemEval 2017 dataset. Three primary strategies are employed: 1) prompt engineering using the advanced GPT-3.5 Turbo, 2) fine-tuning GPT models, and 3) an inventive approach to embedding classification. The research yields detailed comparative insights among these strategies and individual GPT models, revealing their unique strengths and potential limitations. Additionally, the study compares these GPT-based methodologies with other contemporary, high-performing models previously used with the same dataset. The results illustrate the significant superiority of the GPT approaches in terms of predictive performance, more than 22% in F1-score compared to the state-of-the-art. Further, the paper addresses common challenges in sentiment analysis tasks, such as understanding context and detecting sarcasm. It underscores the enhanced capabilities of the GPT models to effectively navigate these complexities. Collectively, these findings highlight the promising potential of GPT models in sentiment analysis, setting the stage for future research in this field. The code can be found at https://github.com/DSAatUSU/SentimentGPT.
翻訳日:2023-07-21 16:49:49 公開日:2023-07-16
# raymvsnet++: 正確なマルチビューステレオのためのレイベースの1次元暗黙フィールドの学習

RayMVSNet++: Learning Ray-based 1D Implicit Fields for Accurate Multi-View Stereo ( http://arxiv.org/abs/2307.10233v1 )

ライセンス: Link先を確認
Yifei Shi, Junhua Xi, Dewen Hu, Zhiping Cai, Kai Xu(参考訳) 学習ベースのマルチビューステレオ(MVS)は、コストボリュームの3D畳み込みを中心にしている。 3D CNNの高計算とメモリ消費のため、出力深さの解像度は大幅に制限されることが多い。 コストボリュームの適応的改善に特化した既存の作業とは異なり、我々はレーザースキャナのレンジ発見を模倣して、各カメラ線に沿った深さ値を直接最適化する。 これによりmvsの問題は、フルコストのボリューム最適化よりもはるかに軽量なレイベースの深さ最適化に抑えられる。 特に,シーン深度を示すゼロクロスポイントを用いて,各カメラ線に沿った1次元暗黙フィールドの逐次予測を学習するRayMVSNetを提案する。 この逐次モデリングは変圧器の特徴に基づいて行われ、従来のマルチビューステレオのエピポーラ線探索を本質的に学習する。 最適化収束と深度精度向上のためのマルチタスク学習を考案する。 その結果,SDFの単調性は各光線の深度推定に大きく寄与することがわかった。 我々の手法は、DTUとタンク・アンド・テンプルスの双方のデータセットの上位にランクされ、DTUでは0.33mm、タンク・アンド・テンプルでは59.48%となっている。 非テクスチャ表面のオブジェクトやシーン,厳密な閉塞,高度に変化する深度範囲といった難易度シナリオにおいて,高品質な深度推定と点雲再構成を実現することができる。 さらに,raymvsnet++ では,注意ゲーティングユニットの設計により,各光線に対する文脈的特徴の集約を向上し,その光線周辺の局所フラスタム内で意味的に関連のある隣接光線を選択する。 RayMVSNet++はScanNetデータセット上で最先端のパフォーマンスを達成する。 特に、0.058mのAbsRelを獲得し、テクスチャレス領域の2つのサブセットと大きな深さ変化の正確な結果を生成する。

Learning-based multi-view stereo (MVS) has by far centered around 3D convolution on cost volumes. Due to the high computation and memory consumption of 3D CNN, the resolution of output depth is often considerably limited. Different from most existing works dedicated to adaptive refinement of cost volumes, we opt to directly optimize the depth value along each camera ray, mimicking the range finding of a laser scanner. This reduces the MVS problem to ray-based depth optimization which is much more light-weight than full cost volume optimization. In particular, we propose RayMVSNet which learns sequential prediction of a 1D implicit field along each camera ray with the zero-crossing point indicating scene depth. This sequential modeling, conducted based on transformer features, essentially learns the epipolar line search in traditional multi-view stereo. We devise a multi-task learning for better optimization convergence and depth accuracy. We found the monotonicity property of the SDFs along each ray greatly benefits the depth estimation. Our method ranks top on both the DTU and the Tanks & Temples datasets over all previous learning-based methods, achieving an overall reconstruction score of 0.33mm on DTU and an F-score of 59.48% on Tanks & Temples. It is able to produce high-quality depth estimation and point cloud reconstruction in challenging scenarios such as objects/scenes with non-textured surface, severe occlusion, and highly varying depth range. Further, we propose RayMVSNet++ to enhance contextual feature aggregation for each ray through designing an attentional gating unit to select semantically relevant neighboring rays within the local frustum around that ray. RayMVSNet++ achieves state-of-the-art performance on the ScanNet dataset. In particular, it attains an AbsRel of 0.058m and produces accurate results on the two subsets of textureless regions and large depth variation.
翻訳日:2023-07-21 16:49:29 公開日:2023-07-16
# conan: unconstrained face feature fusionのための条件付きニューラルネットワーク

CoNAN: Conditional Neural Aggregation Network For Unconstrained Face Feature Fusion ( http://arxiv.org/abs/2307.10237v1 )

ライセンス: Link先を確認
Bhavin Jawade, Deen Dayal Mohan, Dennis Fedorishin, Srirangaraj Setlur, Venu Govindaraju(参考訳) 遠距離、低解像度、様々な視点、照明、ポーズ、大気条件など、制御されていない条件下で取得された画像集合からの顔認識は困難である。 テンプレートに存在するn個の特徴表現を単一のグローバル表現に集約することを含む顔特徴集約は、そのような認識システムにおいて重要な役割を果たす。 従来の顔特徴集約における既存の仕事は、メタデータまたは高次元の中間特徴表現を使用して、アグリゲーションの特徴品質を推定する。 しかし、高品質なメタデータやスタイル情報を生成することは、長距離や高高度で捉えた極めて低解像度の顔では不可能である。 このような制約を克服するために,テンプレートアグリゲーションのためのCoNANと呼ばれる特徴分散条件付け手法を提案する。 具体的には,受信した特徴集合の分布情報に基づいて条件付きコンテキストベクトルを学習し,その推定情報量に基づいて特徴量を測定することを目的とする。 提案手法は,btsやdronesurfなどの長期非拘束型顔認識データセットに最先端の結果を与え,そのような集約戦略の利点を検証する。

Face recognition from image sets acquired under unregulated and uncontrolled settings, such as at large distances, low resolutions, varying viewpoints, illumination, pose, and atmospheric conditions, is challenging. Face feature aggregation, which involves aggregating a set of N feature representations present in a template into a single global representation, plays a pivotal role in such recognition systems. Existing works in traditional face feature aggregation either utilize metadata or high-dimensional intermediate feature representations to estimate feature quality for aggregation. However, generating high-quality metadata or style information is not feasible for extremely low-resolution faces captured in long-range and high altitude settings. To overcome these limitations, we propose a feature distribution conditioning approach called CoNAN for template aggregation. Specifically, our method aims to learn a context vector conditioned over the distribution information of the incoming feature set, which is utilized to weigh the features based on their estimated informativeness. The proposed method produces state-of-the-art results on long-range unconstrained face recognition datasets such as BTS, and DroneSURF, validating the advantages of such an aggregation strategy.
翻訳日:2023-07-21 16:37:38 公開日:2023-07-16
# 凸凸表現のルジャンドル変換を用いたニューラルネットワークのmax-affineスプライン近似

A max-affine spline approximation of neural networks using the Legendre transform of a convex-concave representation ( http://arxiv.org/abs/2307.09602v1 )

ライセンス: Link先を確認
Adam Perrett, Danny Wood, Gavin Brown(参考訳) 本研究では,ニューラルネットワークをスプライン表現に変換する新しいアルゴリズムを提案する。 凸やピースワイズ・アフィン・ネットワーク演算子を必要とする以前の作業とは異なり、この作業はこの制約を緩和する。 唯一の制約は、函数が有界であり、よく定義された第二微分を持つことであるが、厳密には必要でないことが実験的に示されている。 また、各レイヤを独立して実行するのではなく、ネットワーク全体で実行することもできる。 これまでの研究と同様に、ニューラルネットワークと近似理論のギャップを埋めるだけでなく、ネットワーク特徴マップの可視化も可能にしている。 この手法の数学的証明と実験的検証は、畳み込みニューラルネットワークを含む様々なアーキテクチャから近似誤差と特徴マップを抽出することによって行われる。

This work presents a novel algorithm for transforming a neural network into a spline representation. Unlike previous work that required convex and piecewise-affine network operators to create a max-affine spline alternate form, this work relaxes this constraint. The only constraint is that the function be bounded and possess a well-define second derivative, although this was shown experimentally to not be strictly necessary. It can also be performed over the whole network rather than on each layer independently. As in previous work, this bridges the gap between neural networks and approximation theory but also enables the visualisation of network feature maps. Mathematical proof and experimental investigation of the technique is performed with approximation error and feature maps being extracted from a range of architectures, including convolutional neural networks.
翻訳日:2023-07-20 16:16:25 公開日:2023-07-16
# 衝突温度測定と時間最適ホロノミック量子計算のためのベイズ推定

Bayesian estimation for collisional thermometry and time-optimal holonomic quantum computation ( http://arxiv.org/abs/2307.10175v1 )

ライセンス: Link先を確認
Gabriel O. Alves(参考訳) この論文では2つの異なるトピックを取り扱う。 前半では、コヒーレントデバイスにおける高レベルの制御を利用して温度推定の精度を高める量子温度測定の問題にベイズ形式がどのように導入されるかを検討する。 特に,アシラを連続的に送ってシステムの温度を調査するプロトコルである衝突熱量測定に焦点をあてて,具体的な推定方法を検討する。 ベイズ推定を用いた衝突熱測定の完全な枠組みを考案した。 このアプローチは容易に実装でき、実験的にフレンドリーです。 さらに、Clam\'er-Rao 境界を長時間の極限で常に飽和させることが保証されている。 システムの温度に関する以前の情報についても、Van Trees と Sch\'utzenberger に付随する改良された Cram\'er-Rao 境界の観点から議論し、分析する。 一方,論文の最終部では,非断熱ホロノミック計算の問題にアプローチする。 具体的には,$\Lambda$-systemsに基づく実装について検討する。 3段階の系は、非可換非断熱幾何学的位相を用いて量子ゲートの普遍的な集合を構築するために、$\lambda$-型構成で使うことができることが知られている。 このような構造により、デコヒーレンスの影響を減少させる高速動作が可能となる。 しかし、回転波近似(RWA)の妥当性の低下は、反回転項とパルス長の時間スケールに匹敵するものであり、ダイナミクスに大きな影響を及ぼす可能性がある。 本稿では, 散逸効果とRWA妥当性のトレードオフについて検討し, ホロノミック量子ゲートの動作に最適な状態を求める。

In this thesis we deal with two different topics. In the first half we investigate how the Bayesian formalism can be introduced into the problem of quantum thermometry -- a field which exploits the high level of control in coherent devices to offer enhanced precision for temperature estimation. In particular, we investigate concrete estimation strategies, with focus on collisional thermometry, a protocol where a series of ancillae are sent sequentially to probe the system's temperature. We put forth a complete framework for analyzing collisional thermometry using Bayesian inference. The approach is easily implementable and experimentally friendly. Moreover, it is guaranteed to always saturate the Cram\'er-Rao bound in the long-time limit. Subtleties concerning the prior information about the system's temperature are also discussed and analyzed in terms of a modified Cram\'er-Rao bound associated with Van Trees and Sch\"utzenberger. Meanwhile, in the last part of the thesis we approach the problem of non-adiabatic holonomic computation. Namely, we investigate the implementation based on $\Lambda$-systems. It is known that a three-level system can be used in a $\Lambda$-type configuration in order to construct a universal set of quantum gates through the use of non-Abelian nonadiabatic geometrical phases. Such construction allows for high-speed operation times which diminish the effects of decoherence. This might be, however, accompanied by a breakdown of the validity of the rotating-wave approximation (RWA) due to the comparable timescale between counter-rotating terms and the pulse length, which greatly affects the dynamics. Here, we investigate the trade-off between dissipative effects and the RWA validity, obtaining the optimal regime for the operation of the holonomic quantum gates.
翻訳日:2023-07-20 13:01:21 公開日:2023-07-16
# 集合雑音チャネル上の6状態量子鍵分布の盗聴による雑音低減

Noise reduction caused by eavesdropping on six-state quantum key distribution over collective-noise channel ( http://arxiv.org/abs/1912.00196v2 )

ライセンス: Link先を確認
Hiroo Azuma(参考訳) 本稿では,量子鍵分布(qkd)プロトコルにおいて,盗聴がノイズ低減を引き起こす事例について述べる。 これらの現象を目撃するため、一括一元性雑音チャネル上のフォールトトレラント6状態QKDプロトコルについて検討する。 このプロトコルでは、正規ユーザは、ノイズレス部分空間に属する2量子状態の集合的ユニタリエラーに対して堅牢な送信と受信を行う。 このプロトコルに対するeavesdropperのintercept/resendおよびentanglingプローブ攻撃について検討する。 一般に、集合的ユニタリノイズは、正当性がQKDプロトコルとランダムなビットを共有する確率を低下させる。 しかし,集合的ユニタリノイズチャネルの効果は十分強いものの,盗聴は特定のシナリオでその確率を増大させることを示した。 これらの現象により、正当な利用者は、同じランダムキーを共有する確率を監視して、ノイズと盗聴者の悪意ある行為の区別が困難になる。

In this paper, we show that there are instances where eavesdropping causes noise reduction for a quantum key distribution (QKD) protocol. To witness these phenomena, we investigate a fault-tolerant six-state QKD protocol over a collective unitary noise channel. In this protocol, legitimate users send and receive two-qubit states that belong to the noiseless subspace being robust against collective unitary errors. We examine eavesdropper's intercept/resend and entangling probe attacks on this protocol. In general, the collective unitary noises lessen the probability that legitimate users share a random bit with the QKD protocol. However, we show that eavesdropping enlarges that probability in some specific scenarios although the effects of the collective unitary noise channel are strong enough. These phenomena make the legitimate users difficult to distinguish between noises and eavesdropper's malicious acts by monitoring the probability that they share the same random key.
翻訳日:2023-07-19 20:01:20 公開日:2023-07-16
# 交通信号制御と炭素排出削減のための協調多目的強化学習

Cooperative Multi-Objective Reinforcement Learning for Traffic Signal Control and Carbon Emission Reduction ( http://arxiv.org/abs/2306.09662v2 )

ライセンス: Link先を確認
Cheng Ruei Tang, Jun Wei Hsieh, and Shin You Teng(参考訳) 既存の交通信号制御システムは、過度に単純化されたルールベースの方法に依存しており、rlベースの方法でさえしばしば最適で不安定である。 そこで我々は,MOMA-DDPG(Multi-Objective Multi-Agent Deep Deterministic Policy Gradient)と呼ばれる協調型多目的アーキテクチャを提案する。 1つは各交差点でのローカルトラフィックの最適化に重点を置き、もう1つはグローバルトラフィックスループットの最適化を目的としています。 本手法は,アジアの交通カメラから収集した実世界の交通データを用いて評価する。 グローバルエージェントが組み込まれているにもかかわらず、このエージェントは推論段階では不要であるため、ソリューションは分散のままである。 以上の結果から,MOMA-DDPGの有効性が示された。 さらに,提案システムでは,待ち時間と二酸化炭素排出量を最小化する。 特に,本論文は,交通信号制御において炭素排出とグローバルエージェントをリンクする最初の方法である。

Existing traffic signal control systems rely on oversimplified rule-based methods, and even RL-based methods are often suboptimal and unstable. To address this, we propose a cooperative multi-objective architecture called Multi-Objective Multi-Agent Deep Deterministic Policy Gradient (MOMA-DDPG), which estimates multiple reward terms for traffic signal control optimization using age-decaying weights. Our approach involves two types of agents: one focuses on optimizing local traffic at each intersection, while the other aims to optimize global traffic throughput. We evaluate our method using real-world traffic data collected from an Asian country's traffic cameras. Despite the inclusion of a global agent, our solution remains decentralized as this agent is no longer necessary during the inference stage. Our results demonstrate the effectiveness of MOMA-DDPG, outperforming state-of-the-art methods across all performance metrics. Additionally, our proposed system minimizes both waiting time and carbon emissions. Notably, this paper is the first to link carbon emissions and global agents in traffic signal control.
翻訳日:2023-07-19 18:29:06 公開日:2023-07-16
# 少ない測定値からフーリエ位相を組み込んだ未学習ニューラルネットワーク

Untrained neural network embedded Fourier phase retrieval from few measurements ( http://arxiv.org/abs/2307.08717v1 )

ライセンス: Link先を確認
Liyuan Ma and Hongxia Wang and Ningyi Leng and Ziyang Yuan(参考訳) フーリエ位相検索(FPR)は様々なアプリケーションで広く使われている課題である。 フーリエの無位相測定から未知の信号を復元する。 少ない測定値を持つFPRは、時間とハードウェアコストを削減するために重要であるが、深刻な悪影響を被る。 最近、トレーニングされていないニューラルネットワークは、外部データを必要とせず、不備を緩和するために学習した事前を導入することで、新しいアプローチを提案している。 しかし、画像の細部を再構築するには理想的ではなく、計算コストがかかる。 本稿では,乗算器(ADMM)フレームワークの交互方向法に基づく非学習型ニューラルネットワーク(NN)組み込みアルゴリズムを提案する。 具体的には、回復すべき画像を表すために生成ネットワークを使用し、ネットワーク構造によって定義された空間に画像を閉じ込める。 高周波情報表現能力を向上させるため、画像内の局所構造の復元を容易にするため、全変動(tv)正則化を課す。 さらに,未学習nnのパラメータ更新を主とする計算コストを低減するため,明示的と暗黙的正規化を適応的に切り替える高速化アルゴリズムを開発した。 実験の結果,提案アルゴリズムは計算資源の少ない既存のnnベースのアルゴリズムよりも優れており,nnベースのアルゴリズムとの競合性も高いことがわかった。

Fourier phase retrieval (FPR) is a challenging task widely used in various applications. It involves recovering an unknown signal from its Fourier phaseless measurements. FPR with few measurements is important for reducing time and hardware costs, but it suffers from serious ill-posedness. Recently, untrained neural networks have offered new approaches by introducing learned priors to alleviate the ill-posedness without requiring any external data. However, they may not be ideal for reconstructing fine details in images and can be computationally expensive. This paper proposes an untrained neural network (NN) embedded algorithm based on the alternating direction method of multipliers (ADMM) framework to solve FPR with few measurements. Specifically, we use a generative network to represent the image to be recovered, which confines the image to the space defined by the network structure. To improve the ability to represent high-frequency information, total variation (TV) regularization is imposed to facilitate the recovery of local structures in the image. Furthermore, to reduce the computational cost mainly caused by the parameter updates of the untrained NN, we develop an accelerated algorithm that adaptively trades off between explicit and implicit regularization. Experimental results indicate that the proposed algorithm outperforms existing untrained NN-based algorithms with fewer computational resources and even performs competitively against trained NN-based algorithms.
翻訳日:2023-07-19 17:59:10 公開日:2023-07-16
# 一様サンプリングによる不規則表面間のトポロジ的相互作用の促進

Enforcing Topological Interaction between Implicit Surfaces via Uniform Sampling ( http://arxiv.org/abs/2307.08716v1 )

ライセンス: Link先を確認
Hieu Le, Nicolas Talabot, Jiancheng Yang, Pascal Fua(参考訳) オブジェクトは、封じ込め、接触、固定距離の維持など、さまざまな方法で相互に相互作用する。 これらのトポロジカル相互作用の確立は多くのシナリオにおいて正確なモデリングに不可欠である。 本稿では,3次元物体表現を洗練し,その表面が位相的に先行する面に付着することを保証する新しい手法を提案する。 我々のキーとなる観察は、物体同士の相互作用を確率近似法で観測できることであり、物体表面への多数のランダム点間の符号付き距離の統計は、物体間の相互作用を反映している。 したがって、オブジェクトの相互作用は、一連の点をアンカーとして選び、オブジェクト表面を洗練させることで間接的に操作することができる。 特に,2つの物体に対して表面交叉を伴わず,特定の接触比を持つように強制することができることを示す。 実験の結果,提案手法は心臓の正確な3次元再構築を可能にし,成分間の適切なトポロジ的接続を確保できることがわかった。 さらに,本提案手法は,任意のオブジェクトと手動で対話する様々な方法をシミュレートするためにも利用できることを示す。

Objects interact with each other in various ways, including containment, contact, or maintaining fixed distances. Ensuring these topological interactions is crucial for accurate modeling in many scenarios. In this paper, we propose a novel method to refine 3D object representations, ensuring that their surfaces adhere to a topological prior. Our key observation is that the object interaction can be observed via a stochastic approximation method: the statistic of signed distances between a large number of random points to the object surfaces reflect the interaction between them. Thus, the object interaction can be indirectly manipulated by using choosing a set of points as anchors to refine the object surfaces. In particular, we show that our method can be used to enforce two objects to have a specific contact ratio while having no surface intersection. The conducted experiments show that our proposed method enables accurate 3D reconstruction of human hearts, ensuring proper topological connectivity between components. Further, we show that our proposed method can be used to simulate various ways a hand can interact with an arbitrary object.
翻訳日:2023-07-19 17:58:46 公開日:2023-07-16
# 低リソース言語における財務取引データのための言語間NER

Cross-Lingual NER for Financial Transaction Data in Low-Resource Languages ( http://arxiv.org/abs/2307.08714v1 )

ライセンス: Link先を確認
Sunisth Kumar, Davide Liu, Alexandre Boulenger(参考訳) 半構造化テキストデータにおける言語間識別のための効率的なモデリングフレームワークを提案する。 我々のアプローチは知識蒸留と一貫性トレーニングの両方に依存している。 モデリングフレームワークは、ソース言語で事前訓練された大きな言語モデル(XLMRoBERTa)から知識を活用し、学生と教師の関係(知識蒸留)を持つ。 学生モデルは、低リソースのターゲット言語に教師なしの一貫性トレーニング(klの分岐損失を伴う)を組み込んでいる。 我々は、英語とアラビア語のsmsの独立したデータセットを2つ採用し、それぞれが半構造化銀行取引情報を持ち、英語からアラビア語への知識の伝達に焦点を当てている。 30個のラベル付きサンプルしか利用できず、英語からアラビア語まで、商人、量、その他の分野の認識を一般化することができる。 対象言語で事前学習したDistilBERTや、対象言語でラベル付きデータを直接訓練した教師付きモデルと比較すると、モデリング手法は効率的ではあるが、全体的な性能がよいことを示す。 実験の結果, 半構造化データのラベル付きサンプルが存在する場合, 低リソース言語で適切な性能を得るためには, 英語のエンティティを認識するのに十分であることがわかった。 提案フレームワークは多言語アプリケーションの開発に意味を持ち,特にデジタル学習者が英語と1つ以上の低リソース言語に依存している地理学において,英語と混在したり,単独で使用されることがある。

We propose an efficient modeling framework for cross-lingual named entity recognition in semi-structured text data. Our approach relies on both knowledge distillation and consistency training. The modeling framework leverages knowledge from a large language model (XLMRoBERTa) pre-trained on the source language, with a student-teacher relationship (knowledge distillation). The student model incorporates unsupervised consistency training (with KL divergence loss) on the low-resource target language. We employ two independent datasets of SMSs in English and Arabic, each carrying semi-structured banking transaction information, and focus on exhibiting the transfer of knowledge from English to Arabic. With access to only 30 labeled samples, our model can generalize the recognition of merchants, amounts, and other fields from English to Arabic. We show that our modeling approach, while efficient, performs best overall when compared to state-of-the-art approaches like DistilBERT pre-trained on the target language or a supervised model directly trained on labeled data in the target language. Our experiments show that it is enough to learn to recognize entities in English to reach reasonable performance in a low-resource language in the presence of a few labeled samples of semi-structured data. The proposed framework has implications for developing multi-lingual applications, especially in geographies where digital endeavors rely on both English and one or more low-resource language(s), sometimes mixed with English or employed singly.
翻訳日:2023-07-19 17:58:29 公開日:2023-07-16
# 継続的学習を超えた深層学習の予測に関する包括的調査

A Comprehensive Survey of Forgetting in Deep Learning Beyond Continual Learning ( http://arxiv.org/abs/2307.09218v1 )

ライセンス: Link先を確認
Zhenyi Wang, Enneng Yang, Li Shen, Heng Huang(参考訳) 蓄積とは、以前取得した情報や知識の喪失または劣化を指す。 忘れることに関する既存の調査は、主に継続的学習に焦点を当てているが、深層学習における他の様々な研究領域でよく見られる現象である。 ジェネレータシフトによる生成モデルや、クライアント間での不均一なデータ分布によるフェデレーション学習などの研究分野におけるフォーミングの現れ。 忘れることへの対処には、古いタスク知識の保持と新しいタスクの迅速な学習のバランス、競合する目標とのタスク干渉の管理、プライバシー漏洩の防止など、いくつかの課題が含まれている。 さらに、継続学習に関する既存の調査のほとんどは、忘れが常に有害であると暗黙的に仮定している。 対照的に、われわれの調査は、忘れは二重刃の剣であり、プライバシー保護シナリオのような特定のケースで有益で望ましいものだと主張している。 より広い文脈で忘れることを検討することで、我々はこの現象をより微妙な理解を示し、その潜在的な利点を浮き彫りにする。 この包括的な調査を通じて、忘れを扱ったさまざまな分野のアイデアやアプローチを描き出すことで、潜在的な解決策を明らかにすることを目指している。 従来の境界を越えて忘れることを調べることで、将来の作業では、実際のアプリケーションにおける忘れを緩和、活用、あるいは受け入れるための新しい戦略の開発を奨励したいと考えています。 様々な研究分野における忘れに関する包括的な論文の一覧は、 \url{https://github.com/EnnengYang/Awesome-Forgetting-in-Deep-Learning} にある。

Forgetting refers to the loss or deterioration of previously acquired information or knowledge. While the existing surveys on forgetting have primarily focused on continual learning, forgetting is a prevalent phenomenon observed in various other research domains within deep learning. Forgetting manifests in research fields such as generative models due to generator shifts, and federated learning due to heterogeneous data distributions across clients. Addressing forgetting encompasses several challenges, including balancing the retention of old task knowledge with fast learning of new tasks, managing task interference with conflicting goals, and preventing privacy leakage, etc. Moreover, most existing surveys on continual learning implicitly assume that forgetting is always harmful. In contrast, our survey argues that forgetting is a double-edged sword and can be beneficial and desirable in certain cases, such as privacy-preserving scenarios. By exploring forgetting in a broader context, we aim to present a more nuanced understanding of this phenomenon and highlight its potential advantages. Through this comprehensive survey, we aspire to uncover potential solutions by drawing upon ideas and approaches from various fields that have dealt with forgetting. By examining forgetting beyond its conventional boundaries, in future work, we hope to encourage the development of novel strategies for mitigating, harnessing, or even embracing forgetting in real applications. A comprehensive list of papers about forgetting in various research fields is available at \url{https://github.com/EnnengYang/Awesome-Forgetting-in-Deep-Learning}.
翻訳日:2023-07-19 14:56:05 公開日:2023-07-16
# 検出トランスを用いた微小地震イベント検出と位置検出

Joint Microseismic Event Detection and Location with a Detection Transformer ( http://arxiv.org/abs/2307.09207v1 )

ライセンス: Link先を確認
Yuanyuan Yang, Claire Birnie, Tariq Alkhalifah(参考訳) 微小地震イベントの検出と位置は、微小地震モニタリングの2つの主要な要素であり、貯水池の刺激と進化の過程で地下の貴重な知見を提供する。 従来のイベント検出と位置検出のアプローチは手動の介入や重い計算に悩まされることが多いが、現在の機械学習支援アプローチは検出と位置を別々に扱うのが一般的である。 本稿では,畳み込みニューラルネットワークバックボーンとエンコーダ・デコーダトランスを,記録波形に直接適用したセットベースハンガリー損失に適応させて,イベント検出とソース位置を単一フレームワークに統一する手法を提案する。 提案するネットワークは、疑わしい微小地震活動領域のランダムな源位置に対応する複数のマイクロ地震イベントをシミュレートする合成データに基づいて訓練される。 SEAM Time Lapse モデルの2次元プロファイルに対する合成試験では, 提案手法が適切に検出し, 地下で正確に位置決めする能力を示した。一方, アルコマ盆地データを用いたフィールドテストでは, その実用性, 効率, およびマイクロ地震イベントのリアルタイムモニタリングの可能性をさらに証明している。

Microseismic event detection and location are two primary components in microseismic monitoring, which offers us invaluable insights into the subsurface during reservoir stimulation and evolution. Conventional approaches for event detection and location often suffer from manual intervention and/or heavy computation, while current machine learning-assisted approaches typically address detection and location separately; such limitations hinder the potential for real-time microseismic monitoring. We propose an approach to unify event detection and source location into a single framework by adapting a Convolutional Neural Network backbone and an encoder-decoder Transformer with a set-based Hungarian loss, which is applied directly to recorded waveforms. The proposed network is trained on synthetic data simulating multiple microseismic events corresponding to random source locations in the area of suspected microseismic activities. A synthetic test on a 2D profile of the SEAM Time Lapse model illustrates the capability of the proposed method in detecting the events properly and locating them in the subsurface accurately; while, a field test using the Arkoma Basin data further proves its practicability, efficiency, and its potential in paving the way for real-time monitoring of microseismic events.
翻訳日:2023-07-19 14:54:19 公開日:2023-07-16
# 単一画像と映像から新しいシーン構成を生成する

Generating Novel Scene Compositions from Single Images and Videos ( http://arxiv.org/abs/2103.13389v4 )

ライセンス: Link先を確認
Vadim Sushko, Dan Zhang, Juergen Gall, Anna Khoreva(参考訳) 訓練のための大きなデータセットが与えられると、生成逆ネットワーク(gans)は画像合成タスクにおいて顕著な性能を達成できる。 しかし、非常に低いデータ体制でのGANのトレーニングは、過度な適合が頻繁に発生し、記憶や訓練のばらつきにつながるため、依然として課題である。 本稿では,siv-ganについて紹介する。siv-ganは無条件生成モデルであり,単一のトレーニング画像やビデオクリップから新たなシーン構成を生成することができる。 本稿では、内部コンテンツとシーンレイアウトのリアリズムを別々に判断するために、コンテンツとレイアウトの分岐を持つ2分岐判別器アーキテクチャを提案する。 この識別器設計により、元のサンプルのコンテキストを保ちながら、内容やレイアウトの異なるシーンの視覚的に可視で斬新な構成を合成することができる。 従来の単一画像 GAN と比較すると,より多彩で高品質な画像を生成する一方で,単一の画像設定に制限されない。 さらに、単一のビデオのいくつかのフレームから学習する上で、新たな課題を導入する。 このトレーニング設定では、トレーニング画像は互いに非常によく似ており、従来のGANモデルでは高品質と多様性の両方を合成することが困難である。

Given a large dataset for training, generative adversarial networks (GANs) can achieve remarkable performance for the image synthesis task. However, training GANs in extremely low data regimes remains a challenge, as overfitting often occurs, leading to memorization or training divergence. In this work, we introduce SIV-GAN, an unconditional generative model that can generate new scene compositions from a single training image or a single video clip. We propose a two-branch discriminator architecture, with content and layout branches designed to judge internal content and scene layout realism separately from each other. This discriminator design enables synthesis of visually plausible, novel compositions of a scene, with varying content and layout, while preserving the context of the original sample. Compared to previous single image GANs, our model generates more diverse, higher quality images, while not being restricted to a single image setting. We further introduce a new challenging task of learning from a few frames of a single video. In this training setup the training images are highly similar to each other, which makes it difficult for prior GAN models to achieve a synthesis of both high quality and diversity.
翻訳日:2023-07-19 01:17:27 公開日:2023-07-16
# salp swarmアルゴリズムを用いた複数の無人航空機の3次元経路計画

Three Dimensional Route Planning for Multiple Unmanned Aerial Vehicles using Salp Swarm Algorithm ( http://arxiv.org/abs/1911.10519v4 )

ライセンス: Link先を確認
Priyansh Saxena, Ram Kishan Dewangan(参考訳) 複数の無人航空機のためのルート計画(英: route planning for multiple flying aircraft vehicle、uavs)は、ある出発地点から目的地の目標地点への一連の翻訳と回転のステップである。 経路計画問題の目標は、環境に存在する障害物との衝突を避けるために最も最適な経路を決定することである。 ルート計画はNPハード最適化の問題である。 本稿では,新たに提案したSalp Swarm Algorithm(SSA)を用いて,その性能を決定論的および他のNature-Inspired Algorithm(NIA)と比較する。 その結果,SSAは3次元環境下での複数のUAVの経路計画において,他のメタヒューリスティックアルゴリズムよりも優れていた。 提案手法は,最近報告したデータと比較すると,平均コストと総時間をそれぞれ1.25%と6.035%改善する。 ルートプランニングは、ロボットナビゲーション、自動運転車、危険な地上ゼロの状況での捜索と救助のための自律uav、民間の監視、軍事戦闘、さらにはドローンによる荷物配送のような商用サービスなど、多くの現実のアプリケーションに関与している。

Route planning for multiple Unmanned Aerial Vehicles (UAVs) is a series of translation and rotational steps from a given start location to the destination goal location. The goal of the route planning problem is to determine the most optimal route avoiding any collisions with the obstacles present in the environment. Route planning is an NP-hard optimization problem. In this paper, a newly proposed Salp Swarm Algorithm (SSA) is used, and its performance is compared with deterministic and other Nature-Inspired Algorithms (NIAs). The results illustrate that SSA outperforms all the other meta-heuristic algorithms in route planning for multiple UAVs in a 3D environment. The proposed approach improves the average cost and overall time by 1.25% and 6.035% respectively when compared to recently reported data. Route planning is involved in many real-life applications like robot navigation, self-driving car, autonomous UAV for search and rescue operations in dangerous ground-zero situations, civilian surveillance, military combat and even commercial services like package delivery by drones.
翻訳日:2023-07-19 01:16:10 公開日:2023-07-16
# 脳腫瘍の予測モデリング : ディープラーニングによるアプローチ

Predictive modeling of brain tumor: A Deep learning approach ( http://arxiv.org/abs/1911.02265v6 )

ライセンス: Link先を確認
Priyansh Saxena, Akshat Maheshwari, and Saumil Maheshwari(参考訳) 画像処理の概念は、人体の異なる解剖構造を可視化することができる。 近年のディープラーニングの分野での進歩により、患者の脳磁気共鳴イメージング(MRI)スキャンでがん組織の成長を検出することができるようになった。 これらの方法は、実用上非常に高い精度と単純な偽陰性率を必要とする。 本稿では3つの事前学習モデルを用いて脳MRIスキャンを2つのクラスに分類する畳み込みニューラルネットワーク(CNN)に基づく伝達学習手法を提案する。 これらのモデルの性能は互いに比較される。 実験の結果, Resnet-50モデルが最も精度が高く, 偽陰率は95%, ゼロであった。 続いてVGG-16とInception-V3モデルがあり、それぞれ90%と55%の精度である。

Image processing concepts can visualize the different anatomy structure of the human body. Recent advancements in the field of deep learning have made it possible to detect the growth of cancerous tissue just by a patient's brain Magnetic Resonance Imaging (MRI) scans. These methods require very high accuracy and meager false negative rates to be of any practical use. This paper presents a Convolutional Neural Network (CNN) based transfer learning approach to classify the brain MRI scans into two classes using three pre-trained models. The performances of these models are compared with each other. Experimental results show that the Resnet-50 model achieves the highest accuracy and least false negative rates as 95% and zero respectively. It is followed by VGG-16 and Inception-V3 model with an accuracy of 90% and 55% respectively.
翻訳日:2023-07-19 01:15:31 公開日:2023-07-16
# Frauchiger and Renner Paper (Nat) へのコメント 共産。 93711年(2018年):停止時間の問題

Comment on Frauchiger and Renner paper (Nat. Commun. 9, 3711 (2018)): the problem of stopping times ( http://arxiv.org/abs/1906.02333v4 )

ライセンス: Link先を確認
P. B. Lerner(参考訳) Frauchiger と Renner が論文 "Nature" で進めたゲダンケン実験は、2つの非相互作用系間の確率的測定間隔を同期できるという暗黙の仮定に基づいている。 この仮説は、著者が示すように、これらのシステムの完全な絡み合いと等価である。 したがって、フラウチャーとレンナーの仮定 Q は無意味であり、絞り込む必要がある。 仮定Q1の正確な再構成は、測定を伴うパラドックスを含まない。 本論文は、量子力学の特定の解釈について無知である。 また「波動関数の収束」も参照しない。

The Gedankenexperiment advanced by Frauchiger and Renner in their "Nature" paper was based on an implicit assumption that one can synchronize stochastic measurement intervals between two non-interacting systems. This hypothesis, the author demonstrates, is equivalent to the complete entanglement of these systems. Consequently, Frauchiger and Renner's postulate Q is meaningless and needs to be narrowed. Accurate reformulation of the postulate Q1 does not entail any paradoxes with measurement. This paper is agnostic concerning particular interpretations of quantum mechanics. Nor does it refer to the "collapse of the wavefunction."
翻訳日:2023-07-19 01:15:19 公開日:2023-07-16
# 確率的コントラスト学習によるドメイン適応

Probabilistic Contrastive Learning for Domain Adaptation ( http://arxiv.org/abs/2111.06021v5 )

ライセンス: Link先を確認
Junjie Li, Yixin Zhang, Zilei Wang, Keyu Tu, Saihui Hou(参考訳) コントラスト学習は、自己指導的な方法で特徴識別性を大幅に向上させ、様々な視覚的タスクにおいて顕著な成功を収めた。 しかし、標準のコントラストパラダイム (features+$\ell_{2}$ normalization) がドメイン適応にはほとんど役に立たないことは望ましくない。 本研究では,この現象を考察し,最適化において無視されている認識に不可欠であるクラス重み(最終完全連結層の重み)が主な原因であることを見出した。 この問題に対処するために,識別的特徴の抽出を支援するだけでなく,クラス重みの周囲にクラスタ化を強制する,シンプルかつ強力な確率的コントラスト学習(PCL)を提案する。 具体的には、$\ell_{2}$正規化を取り除き、機能を確率で置き換えることで、標準的なコントラストパラダイムを破る。 このようにして、PCLは1ホット形式を近似する確率を強制し、特徴量とクラス重みの間のずれを減らすことができる。 簡潔さから見れば、PCLは異なる設定によく一般化できる。 本研究では,5つのタスクに対する広範な実験を行い,一貫したパフォーマンス向上,すなわち,Unsupervised Domain Adaptation (UDA), Semi-Supervised Domain Adaptation (SSDA), Semi-Supervised Learning (SSL), UDA Detection, UDA Semantic Segmentationを観察する。 特に、SynTHIA上のUDAセマンティックセグメンテーションでは、PCLは洗練されたCPSL-Dを$>\! 2\%(PCL:1*3090,5日対CPSL-D:4*V100,11日)である。 コードはhttps://github.com/ljjcoder/Probabilistic-Contrastive-Learningで入手できる。

Contrastive learning can largely enhance the feature discriminability in a self-supervised manner and has achieved remarkable success for various visual tasks. However, it is undesirably observed that the standard contrastive paradigm (features+$\ell_{2}$ normalization) only brings little help for domain adaptation. In this work, we delve into this phenomenon and find that the main reason is due to the class weights (weights of the final fully connected layer) which are vital for the recognition yet ignored in the optimization. To tackle this issue, we propose a simple yet powerful Probabilistic Contrastive Learning (PCL), which does not only assist in extracting discriminative features but also enforces them to be clustered around the class weights. Specifically, we break the standard contrastive paradigm by removing $\ell_{2}$ normalization and replacing the features with probabilities. In this way, PCL can enforce the probability to approximate the one-hot form, thereby reducing the deviation between the features and class weights. Benefiting from the conciseness, PCL can be well generalized to different settings. In this work, we conduct extensive experiments on five tasks and observe consistent performance gains, i.e., Unsupervised Domain Adaptation (UDA), Semi-Supervised Domain Adaptation (SSDA), Semi-Supervised Learning (SSL), UDA Detection, and UDA Semantic Segmentation. Notably, for UDA Semantic Segmentation on SYNTHIA, PCL surpasses the sophisticated CPSL-D by $>\!2\%$ in terms of mean IoU with a much smaller training cost (PCL: 1*3090, 5 days v.s. CPSL-D: 4*V100, 11 days). Code is available at https://github.com/ljjcoder/Probabilistic-Contrastive-Learning.
翻訳日:2023-07-19 01:09:29 公開日:2023-07-16
# ニューラル分散ソース符号化

Neural Distributed Source Coding ( http://arxiv.org/abs/2106.02797v3 )

ライセンス: Link先を確認
Jay Whang, Alliot Nagle, Anish Acharya, Hyeji Kim, Alexandros G. Dimakis(参考訳) 分散ソース符号化(DSC)は、デコーダにのみ利用可能な相関側情報がない場合に入力を符号化するタスクである。 注目すべきことに、1973年にSlepianとWolfは、サイド情報にアクセスできないエンコーダが、サイド情報が利用可能であるのと同じ圧縮率を漸近的に達成できることを示した。 この話題には多くの先行研究があるが、実用的なDSCは合成データセットや特定の相関構造に限られている。 ここでは、相関構造に依存せず、高次元までスケールできる損失DSCのためのフレームワークを提案する。 本手法は,手作りのソースモデリングに頼るのではなく,Vector-Quantized Variational Autoencoder (VQ-VAE) を用いて分散エンコーダとデコーダを学習する。 提案手法は複数のデータセットで評価し,複雑な相関を処理でき,最先端psnrを実現できることを示す。

Distributed source coding (DSC) is the task of encoding an input in the absence of correlated side information that is only available to the decoder. Remarkably, Slepian and Wolf showed in 1973 that an encoder without access to the side information can asymptotically achieve the same compression rate as when the side information is available to it. While there is vast prior work on this topic, practical DSC has been limited to synthetic datasets and specific correlation structures. Here we present a framework for lossy DSC that is agnostic to the correlation structure and can scale to high dimensions. Rather than relying on hand-crafted source modeling, our method utilizes a conditional Vector-Quantized Variational Autoencoder (VQ-VAE) to learn the distributed encoder and decoder. We evaluate our method on multiple datasets and show that our method can handle complex correlations and achieves state-of-the-art PSNR.
翻訳日:2023-07-19 01:06:44 公開日:2023-07-16
# Few-Shot Video Object Segmentationのための時間的トランスダクティブ推論

Temporal Transductive Inference for Few-Shot Video Object Segmentation ( http://arxiv.org/abs/2203.14308v2 )

ライセンス: Link先を確認
Mennatullah Siam, Konstantinos G. Derpanis, Richard P. Wildes(参考訳) Few-shot Video Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。 本稿では,ノンラベリングビデオフレームの時間的一貫性を利用した,単純かつ効果的な時間的トランスダクティブ推論(tti)手法を提案する。 私たちのアプローチの鍵は、グローバルとローカルの両方の時間制約を使うことです。 大域的制約の目的は、画像シーケンス全体にわたって新しいクラスの一貫した線形分類器を学習することであり、一方、局所的制約は、各フレームにおける前景/背景領域の比率を局所的時間的ウィンドウ全体にわたって整合させる。 これらの制約は、時間的コヒーレンスを高め、少数ショットのサポートセットのオーバーフィッティングを減らすために、トランスダクティブ推論中に時空間正規化器として機能する。 経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。 さらに,改良されたベンチマークを徹底的にラベル付けし,トレーニングとテストセット間のデータ分散シフトを目標とした,より現実的な評価パラダイムを提案する。 実験結果と詳細な分析により,時間的コヒーレンスの改善とオーバーフィットシナリオの克服を目的として提案する時空間正規化器の付加効果が確認できた。

Few-shot video object segmentation (FS-VOS) aims at segmenting video frames using a few labelled examples of classes not seen during initial training. In this paper, we present a simple but effective temporal transductive inference (TTI) approach that leverages temporal consistency in the unlabelled video frames during few-shot inference. Key to our approach is the use of both global and local temporal constraints. The objective of the global constraint is to learn consistent linear classifiers for novel classes across the image sequence, whereas the local constraint enforces the proportion of foreground/background regions in each frame to be coherent across a local temporal window. These constraints act as spatiotemporal regularizers during the transductive inference to increase temporal coherence and reduce overfitting on the few-shot support set. Empirically, our model outperforms state-of-the-art meta-learning approaches in terms of mean intersection over union on YouTube-VIS by 2.8%. In addition, we introduce improved benchmarks that are exhaustively labelled (i.e. all object occurrences are labelled, unlike the currently available), and present a more realistic evaluation paradigm that targets data distribution shift between training and testing sets. Our empirical results and in-depth analysis confirm the added benefits of the proposed spatiotemporal regularizers to improve temporal coherence and overcome certain overfitting scenarios.
翻訳日:2023-07-19 00:59:34 公開日:2023-07-16
# 分布シフトによるモデル精度の検証

Certifying Model Accuracy under Distribution Shifts ( http://arxiv.org/abs/2201.12440v3 )

ライセンス: Link先を確認
Aounon Kumar, Alexander Levine, Tom Goldstein and Soheil Feizi(参考訳) 機械学習における認証された堅牢性は主に、データ分散の各点に対する固定攻撃予算による入力の逆摂動に焦点を当てている。 本研究では,データ分布の有界wassersteinシフト下でのモデルの精度について,証明可能なロバスト性を保証する。 変換空間内のモデルの入力をランダム化する単純な手続きは、変換の下での分布シフトに対して確実に頑健であることを示す。 提案手法により, datum 特有の摂動径は入力分布の異なる点にまたがって変化し, 固定サイズの摂動も含むことができる。 我々の証明は、ワッサーシュタイン球内における入力分布の(自然あるいは逆)シフトに対するモデルの性能に関する保証された低い境界を生成する。 この技術を応用します 一 色シフト、色シフト、明るさ及び彩度の変化等の画像の自然(非逆変換)に対する堅牢性を証明すること。 (ii)入力分布の逆流に対するロバスト性を証明すること、及び (3) モデルトレーニングに干渉する有害ないわゆる「未学習」データセットで訓練されたモデルの性能について、証明可能な下限(硬度結果)を示す。

Certified robustness in machine learning has primarily focused on adversarial perturbations of the input with a fixed attack budget for each point in the data distribution. In this work, we present provable robustness guarantees on the accuracy of a model under bounded Wasserstein shifts of the data distribution. We show that a simple procedure that randomizes the input of the model within a transformation space is provably robust to distributional shifts under the transformation. Our framework allows the datum-specific perturbation size to vary across different points in the input distribution and is general enough to include fixed-sized perturbations as well. Our certificates produce guaranteed lower bounds on the performance of the model for any (natural or adversarial) shift of the input distribution within a Wasserstein ball around the original distribution. We apply our technique to: (i) certify robustness against natural (non-adversarial) transformations of images such as color shifts, hue shifts and changes in brightness and saturation, (ii) certify robustness against adversarial shifts of the input distribution, and (iii) show provable lower bounds (hardness results) on the performance of models trained on so-called "unlearnable" datasets that have been poisoned to interfere with model training.
翻訳日:2023-07-19 00:58:50 公開日:2023-07-16
# Taylor3DNet:ランドマークをベースとした3D形状推論

Taylor3DNet: Fast 3D Shape Inference With Landmark Points Based Taylor Series ( http://arxiv.org/abs/2201.06845v2 )

ライセンス: Link先を確認
Yuting Xiao, Jiale Xu, Shenghua Gao(参考訳) 連続表現能力から見れば、深い暗黙関数は無限解像度で形を表現することができる。 しかしながら、暗黙の関数から高解像度のiso-surfaceを抽出するには、多数のクエリポイントに対して多くのパラメータを持つネットワークを前方に伝播する必要があるため、生成速度が低下する。 テイラー級数に着想を得て,暗黙の形状表現の推論を高速化するTaylo3DNetを提案する。 taylor3dnetは、離散的ランドマーク点とその対応するテイラー級数係数を駆使して3次元形状の暗黙的場を表現し、ランドマーク点の数はiso-surface抽出の解像度とは独立している。 ランドマーク点に対応する係数が予測されると、各問合せ点に対するネットワーク評価を、いくつかの最も近いランドマーク点を持つ低次テイラー級数計算として単純化することができる。 この効率的な表現に基づいて、Taylor3DNetは従来のネットワークベースの暗黙関数よりもはるかに高速な推論速度を実現する。 提案手法は, 各種入力型を用いた再構成作業に対するアプローチを評価し, 提案手法は, 最先端のベースラインに比べて性能を犠牲にすることなく, 推論速度を大きなマージンで向上させることができることを示した。

Benefiting from the continuous representation ability, deep implicit functions can represent a shape at infinite resolution. However, extracting high-resolution iso-surface from an implicit function requires forward-propagating a network with a large number of parameters for numerous query points, thus preventing the generation speed. Inspired by the Taylor series, we propose Taylo3DNet to accelerate the inference of implicit shape representations. Taylor3DNet exploits a set of discrete landmark points and their corresponding Taylor series coefficients to represent the implicit field of a 3D shape, and the number of landmark points is independent of the resolution of the iso-surface extraction. Once the coefficients corresponding to the landmark points are predicted, the network evaluation for each query point can be simplified as a low-order Taylor series calculation with several nearest landmark points. Based on this efficient representation, our Taylor3DNet achieves a significantly faster inference speed than classical network-based implicit functions. We evaluate our approach on reconstruction tasks with various input types, and the results demonstrate that our approach can improve the inference speed by a large margin without sacrificing the performance compared with state-of-the-art baselines.
翻訳日:2023-07-19 00:58:05 公開日:2023-07-16
# ポリフォニックコントラスト学習による音楽信号の自己監督型ビート追跡

Self-Supervised Beat Tracking in Musical Signals with Polyphonic Contrastive Learning ( http://arxiv.org/abs/2201.01771v2 )

ライセンス: Link先を確認
Dorian Desblancs(参考訳) 音楽のビートをアノテートするのは非常に長く退屈なプロセスです。 そこで本研究では,ビート追跡とダウンビート推定のための自己教師付き学習プリテキストタスクを提案する。 このタスクでは、オーディオソース分離モデルであるspleeterを使用して、歌のドラムを他の信号から分離する。 最初の信号セットは、対照的な学習事前学習のために、正および拡張負として使用される。 一方、ドラムレス信号はアンカーとして使用される。 このプリテキストタスクを用いて、完全畳み込みおよび繰り返しモデルを事前学習すると、オンセット関数が学習される。 場合によっては、この関数は歌の周期要素にマッピングされる。 その結果、ビートトラッキングトレーニングセットが極めて小さい場合(10例未満)、事前学習モデルはランダムに初期化モデルより優れていることがわかった。 このような場合、事前トレーニングは学習のスピードアップにつながるため、モデルはトレーニングセットに過度に適合する。 より一般に、本書は音楽の自己監督学習の領域における新しい視点を定義する。 これは、オーディオソース分離をセルフスーパービジョンの基本コンポーネントとして使う最初の作品の1つである。

Annotating musical beats is a very long and tedious process. In order to combat this problem, we present a new self-supervised learning pretext task for beat tracking and downbeat estimation. This task makes use of Spleeter, an audio source separation model, to separate a song's drums from the rest of its signal. The first set of signals are used as positives, and by extension negatives, for contrastive learning pre-training. The drum-less signals, on the other hand, are used as anchors. When pre-training a fully-convolutional and recurrent model using this pretext task, an onset function is learned. In some cases, this function is found to be mapped to periodic elements in a song. We find that pre-trained models outperform randomly initialized models when a beat tracking training set is extremely small (less than 10 examples). When this is not the case, pre-training leads to a learning speed-up that causes the model to overfit to the training set. More generally, this work defines new perspectives in the realm of musical self-supervised learning. It is notably one of the first works to use audio source separation as a fundamental component of self-supervision.
翻訳日:2023-07-19 00:57:25 公開日:2023-07-16
# 情報完全測定の射影性

Projectivities of informationally complete measurements ( http://arxiv.org/abs/2112.13052v5 )

ライセンス: Link先を確認
Hao Shu(参考訳) 情報完全(IC)測定の背後にある物理的問題は、状態トモグラフィと呼ばれる測定結果によって統計的に未知の状態を決定することである。 チャネル推定、デバイステスト、量子鍵分布などの量子情報処理において重要な役割を担っている。 しかし,良質な測定器の構築は長年の課題である。 本研究では,IC計測の射影的実現について検討する。 情報完全性の条件はまず証明で示される。 そこで, 極小射影IC測定(MPICM)を素数次元のシステムで構築するなど, IC測定の射影的実現と, 大規模システムにおいて, ある種の最適性を持つ単一の射影的測定により, C^{n}$の未知の状態を決定することを含む, IC測定の射影的実現について検討した。 最後に、結果は局所状態トモグラフィに拡張できる。 複数種類の最適性の導入についても議論する。

The physical problem behind informationally complete (IC) measurements is determining an unknown state statistically by measurement outcomes, known as state tomography. It is of central importance in quantum information processing such as channel estimating, device testing, quantum key distribution, etc. However, constructing such measurements with good properties is a long-standing problem. In this work, we investigate projective realizations of IC measurements. Conditions of informational completeness are presented with proofs first. Then the projective realizations of IC measurements, including proposing the first general construction of minimal projective IC measurements (MPICM) in no prime power dimensional systems, as well as determining an unknown state in $C^{n}$ via a single projective measurement with some kinds of optimalities in a larger system, are investigated. Finally, The results can be extended to local state tomography. Some discussions on employing several kinds of optimalities are also provided.
翻訳日:2023-07-19 00:57:09 公開日:2023-07-16
# シングルイメージ超解法のための実践的コントラスト学習フレームワーク

A Practical Contrastive Learning Framework for Single-Image Super-Resolution ( http://arxiv.org/abs/2111.13924v2 )

ライセンス: Link先を確認
Gang Wu and Junjun Jiang and Xianming Liu(参考訳) コントラスト学習は様々な高レベルタスクにおいて顕著な成功を収めてきたが、低レベルタスクに対して提案されたコントラスト学習ベースの手法は少ない。 低レベル画像復元問題に対して高レベル視覚課題に対して提案されるバニラコントラスト学習技術を採用することは困難である。 取得した高レベルなグローバルな視覚表現は、リッチなテクスチャとコンテキスト情報を必要とする低レベルなタスクには不十分である。 本稿では,正と負のサンプル構成と特徴埋め込みという2つの視点から,コントラスト学習に基づく単一画像の超解像について検討する。 既存の手法では、単純なサンプル構築アプローチ(例えば、低品質入力を負のサンプルとして、基底真理を正のサンプルとして)を採用し、事前モデル(例えば、事前訓練されたVGGモデル)を採用して特徴埋め込みを得る。 そこで本稿では,PCL-SR という SISR の実践的コントラスト学習フレームワークを提案する。 周波数空間に多数の有意な正と硬い負のサンプルを生成する。 事前訓練されたネットワークを利用する代わりに、よりタスクフレンドリーな識別器ネットワークから受け継いだ、シンプルで効果的な埋め込みネットワークを設計する。 既存のベンチマーク手法と比較して,提案手法をPCL-SRフレームワークで再学習し,優れた性能を実現する。 提案したPCL-SR完全アブレーション研究の有効性と技術的貢献を明らかにするため,広範囲な実験を行った。 コードと事前訓練されたモデルはhttps://github.com/Aitical/PCL-SISRで見ることができる。

Contrastive learning has achieved remarkable success on various high-level tasks, but there are fewer contrastive learning-based methods proposed for low-level tasks. It is challenging to adopt vanilla contrastive learning technologies proposed for high-level visual tasks to low-level image restoration problems straightly. Because the acquired high-level global visual representations are insufficient for low-level tasks requiring rich texture and context information. In this paper, we investigate the contrastive learning-based single image super-resolution from two perspectives: positive and negative sample construction and feature embedding. The existing methods take naive sample construction approaches (e.g., considering the low-quality input as a negative sample and the ground truth as a positive sample) and adopt a prior model (e.g., pre-trained VGG model) to obtain the feature embedding. To this end, we propose a practical contrastive learning framework for SISR, named PCL-SR. We involve the generation of many informative positive and hard negative samples in frequency space. Instead of utilizing an additional pre-trained network, we design a simple but effective embedding network inherited from the discriminator network which is more task-friendly. Compared with existing benchmark methods, we re-train them by our proposed PCL-SR framework and achieve superior performance. Extensive experiments have been conducted to show the effectiveness and technical contributions of our proposed PCL-SR thorough ablation studies. The code and pre-trained models can be found at https://github.com/Aitical/PCL-SISR.
翻訳日:2023-07-19 00:56:12 公開日:2023-07-16
# 連続時間平均回帰マルコフ決定過程に対する対数的後悔境界

Logarithmic regret bounds for continuous-time average-reward Markov decision processes ( http://arxiv.org/abs/2205.11168v3 )

ライセンス: Link先を確認
Xuefeng Gao, Xun Yu Zhou(参考訳) 無限ホリゾン平均回帰設定における連続時間マルコフ決定過程(mdps)に対する強化学習を考える。 離散時間MDPとは対照的に、連続時間プロセスは状態に移動し、アクションが実行された後にランダムに保持される。 未知の遷移確率と指数的保持時間率により、時間地平線において対数的となるインスタンス依存の後悔の下限を導出する。 さらに,学習アルゴリズムを設計し,対数成長率を達成する有限時間後悔境界を確立する。 本分析は,高信頼度強化学習,平均保持時間の微妙な推定,点過程の確率的比較に基づく。

We consider reinforcement learning for continuous-time Markov decision processes (MDPs) in the infinite-horizon, average-reward setting. In contrast to discrete-time MDPs, a continuous-time process moves to a state and stays there for a random holding time after an action is taken. With unknown transition probabilities and rates of exponential holding times, we derive instance-dependent regret lower bounds that are logarithmic in the time horizon. Moreover, we design a learning algorithm and establish a finite-time regret bound that achieves the logarithmic growth rate. Our analysis builds upon upper confidence reinforcement learning, a delicate estimation of the mean holding times, and stochastic comparison of point processes.
翻訳日:2023-07-19 00:49:12 公開日:2023-07-16
# 分類によるバイナリ化:ソフト機能は本当に必要か?

Binarizing by Classification: Is soft function really necessary? ( http://arxiv.org/abs/2205.07433v3 )

ライセンス: Link先を確認
Yefei He, Luoming Zhang, Weijia Wu, Hong Zhou(参考訳) 二項ニューラルネットワークは、重みとアクティベーションを二項化するために$\mathrm{Sign}$関数を利用する。 手動設計のソフト関数の多くは勾配推定器として提案されているが、そのメカニズムは明確ではなく、2進モデルと完全精度モデルの間には大きな性能差がある。 これらの問題に対処し、勾配誤差を減らすため、二元分類問題としてネットワークバイナリ化に取り組み、前方パスの分類器として多層パーセプトロン(mlp)、後方パスの勾配推定器を用いる。 連続関数に適合する理論的能力から、ネットワークとバックプロパゲート勾配を、ソフト関数の事前の知識なしに二項化するために適応的に学習することができる。 この観点から、単純な線型関数でさえ、以前の複素ソフト関数より優れていることを実証的に正当化する。 大規模な実験により,提案手法は画像分類と人間のポーズ推定の双方において驚くべき性能を示した。 具体的には、imagenetデータセット上のresnet-34の65.7\%$ top-1精度を達成し、絶対的な改善は2.6\%$です。 さらに、ポーズ推定モデルの軽量化手法としてバイナライゼーションを採用し、よく設計されたバイナリポーズ推定ネットワーク SBPN と BHRNet を提案する。 挑戦的なMicrosoft COCOキーポイントデータセットを評価する際、提案手法によりバイナリネットワークが初めて60.6ドルまでのmAPを達成できる。 実プラットフォーム上で行った実験は、特に計算資源が極端に低い場合、BNNが性能と計算複雑性のバランスを良くすることを示した。

Binary neural networks leverage $\mathrm{Sign}$ function to binarize weights and activations, which require gradient estimators to overcome its non-differentiability and will inevitably bring gradient errors during backpropagation. Although many hand-designed soft functions have been proposed as gradient estimators to better approximate gradients, their mechanism is not clear and there are still huge performance gaps between binary models and their full-precision counterparts. To address these issues and reduce gradient error, we propose to tackle network binarization as a binary classification problem and use a multi-layer perceptron (MLP) as the classifier in the forward pass and gradient estimator in the backward pass. Benefiting from the MLP's theoretical capability to fit any continuous function, it can be adaptively learned to binarize networks and backpropagate gradients without any prior knowledge of soft functions. From this perspective, we further empirically justify that even a simple linear function can outperform previous complex soft functions. Extensive experiments demonstrate that the proposed method yields surprising performance both in image classification and human pose estimation tasks. Specifically, we achieve $65.7\%$ top-1 accuracy of ResNet-34 on ImageNet dataset, with an absolute improvement of $2.6\%$. Moreover, we take binarization as a lightweighting approach for pose estimation models and propose well-designed binary pose estimation networks SBPN and BHRNet. When evaluating on the challenging Microsoft COCO keypoint dataset, the proposed method enables binary networks to achieve a mAP of up to $60.6$ for the first time. Experiments conducted on real platforms demonstrate that BNN achieves a better balance between performance and computational complexity, especially when computational resources are extremely low.
翻訳日:2023-07-19 00:49:03 公開日:2023-07-16
# MQT Bench: 量子コンピューティングのためのベンチマークソフトウェアと設計自動化ツール

MQT Bench: Benchmarking Software and Design Automation Tools for Quantum Computing ( http://arxiv.org/abs/2204.13719v3 )

ライセンス: Link先を確認
Nils Quetschlich, Lukas Burgholzer, Robert Wille(参考訳) 様々な抽象化レベルにおける様々な設計タスクのための量子ソフトウェアツールは、最終的に有用な量子アプリケーションを実現するために不可欠である。 これは、新しいソフトウェアツールを実証的に評価し、現在の技術と比較するために、実用的で関連するベンチマークを必要とする。 特定の設計タスクのベンチマークは一般的に利用可能だが、全体的なクロスレベルベンチマークスイートの需要はまだ完全に満たされておらず、量子ソフトウェアツールの評価方法の相互統合は行われていない。 本稿では,4つのコア特性に基づくmqtベンチベンチマークスイート(ミュンヘン量子ツールキット,mqt)を提案する。(1)異なる抽象化レベルに対するクロスレベルサポート,(2)使いやすいwebインターフェース(https://www.cda.cit.tum.de/mqtbench)によるアクセシビリティ,(3)汎用性を促進するための幅広いベンチマークの選択,(4)将来のアルゴリズム,ゲートセット,ハードウェアアーキテクチャの拡張性。 MQT Benchは、2から130キュービットまでの70万以上のベンチマーク回路を4つの抽象化レベルで構成することで、コンパビリティ、再現性、透明性を向上させるために、単一のベンチマークスイートで異なる抽象化レベルをベンチマークする第一歩を提示する。

Quantum software tools for a wide variety of design tasks on and across different levels of abstraction are crucial in order to eventually realize useful quantum applications. This requires practical and relevant benchmarks for new software tools to be empirically evaluated and compared to the current state of the art. Although benchmarks for specific design tasks are commonly available, the demand for an overarching cross-level benchmark suite has not yet been fully met and there is no mutual consolidation in how quantum software tools are evaluated thus far. In this work, we propose the MQT Bench benchmark suite (as part of the Munich Quantum Toolkit, MQT) based on four core traits: (1) cross-level support for different abstraction levels, (2) accessibility via an easy-to-use web interface (https://www.cda.cit.tum.de/mqtbench) and a Python package, (3) provision of a broad selection of benchmarks to facilitate generalizability, as well as (4) extendability to future algorithms, gate-sets, and hardware architectures. By comprising more than 70,000 benchmark circuits ranging from 2 to 130 qubits on four abstraction levels, MQT Bench presents a first step towards benchmarking different abstraction levels with a single benchmark suite to increase comparability, reproducibility, and transparency.
翻訳日:2023-07-19 00:47:56 公開日:2023-07-16
# SAFARI:解釈可能性のロバスト性の評価

SAFARI: Versatile and Efficient Evaluations for Robustness of Interpretability ( http://arxiv.org/abs/2208.09418v2 )

ライセンス: Link先を確認
Wei Huang, Xingyu Zhao, Gaojie Jin, Xiaowei Huang(参考訳) ディープラーニングの解釈可能性(DL)は、信頼できるAIの障壁である。 説明可能なAI(XAI)コミュニティによる多大な努力にもかかわらず、説明には堅牢性がない。 したがって、XAI法を考えると、DL解釈可能性の堅牢性を評価することが不可欠である。 本稿では,最先端技術が総じて対処できないいくつかの課題を明らかにする。 一 既存の指標が包括的でないこと。 二 XAI技術は、非常に異質である。 三 誤解は、通常まれな出来事である。 これらの課題に取り組むため,本研究では,最悪の場合の解釈の不一致について,ブラックボックス評価手法を2つ紹介する。 遺伝的アルゴリズム (GA) は, 効率の悪いケース評価のために, 制約付き最適化を解くために用いられる。 希少事象の確率を推定するサブセットシミュレーション(ss)は、全体のロバスト性を評価するために使用される。 実験により, 提案手法の精度, 感度, 効率が最先端技術よりも優れていることが示された。 最後に,ロバストなxai手法のランク付けと,分類と解釈のロバスト性を改善するためのトレーニングスキームの選択という2つの応用例を示す。

Interpretability of Deep Learning (DL) is a barrier to trustworthy AI. Despite great efforts made by the Explainable AI (XAI) community, explanations lack robustness -- indistinguishable input perturbations may lead to different XAI results. Thus, it is vital to assess how robust DL interpretability is, given an XAI method. In this paper, we identify several challenges that the state-of-the-art is unable to cope with collectively: i) existing metrics are not comprehensive; ii) XAI techniques are highly heterogeneous; iii) misinterpretations are normally rare events. To tackle these challenges, we introduce two black-box evaluation methods, concerning the worst-case interpretation discrepancy and a probabilistic notion of how robust in general, respectively. Genetic Algorithm (GA) with bespoke fitness function is used to solve constrained optimisation for efficient worst-case evaluation. Subset Simulation (SS), dedicated to estimate rare event probabilities, is used for evaluating overall robustness. Experiments show that the accuracy, sensitivity, and efficiency of our methods outperform the state-of-the-arts. Finally, we demonstrate two applications of our methods: ranking robust XAI methods and selecting training schemes to improve both classification and interpretation robustness.
翻訳日:2023-07-19 00:40:48 公開日:2023-07-16
# 線形固有値問題を解くためのパワー法と逆パワー法に基づくニューラルネットワーク

Neural Networks Based on Power Method and Inverse Power Method for Solving Linear Eigenvalue Problems ( http://arxiv.org/abs/2209.11134v5 )

ライセンス: Link先を確認
Qihong Yang, Yangtao Deng, Yu Yang, Qiaolin He, Shiquan Zhang(参考訳) 本稿では,線形固有値問題の解法として,電力法と逆電力法にヒントを得た2種類のニューラルネットワークを提案する。 これらのニューラルネットワークは、微分作用素が自動微分によって実現される従来の手法と同様のアイデアを共有している。 固有値問題の固有関数をニューラルネットワークで学習し、特別に定義された損失関数を最適化して反復アルゴリズムを実装する。 与えられた事前知識を持つ最大の正の固有値、最小の固有値および内部固有値を効率的に解くことができる。 本研究では,1次元,2次元,高次元の数値実験における手法の適用性と精度について検討する。 数値計算の結果, 高精度固有値近似と固有関数近似が得られた。

In this article, we propose two kinds of neural networks inspired by power method and inverse power method to solve linear eigenvalue problems. These neural networks share similar ideas with traditional methods, in which the differential operator is realized by automatic differentiation. The eigenfunction of the eigenvalue problem is learned by the neural network and the iterative algorithms are implemented by optimizing the specially defined loss function. The largest positive eigenvalue, smallest eigenvalue and interior eigenvalues with the given prior knowledge can be solved efficiently. We examine the applicability and accuracy of our methods in the numerical experiments in one dimension, two dimensions and higher dimensions. Numerical results show that accurate eigenvalue and eigenfunction approximations can be obtained by our methods.
翻訳日:2023-07-19 00:29:17 公開日:2023-07-16
# 説明可能な気候科学のためのカーネル学習

Kernel Learning for Explainable Climate Science ( http://arxiv.org/abs/2209.04947v2 )

ライセンス: Link先を確認
Vidhi Lalchand, Kenza Tazi, Talay M. Cheema, Richard E. Turner, Scott Hosking(参考訳) ヒマラヤのインダス盆地は人口2億7000万人と無数の生態系に水を供給している。 しかし, この地域では, 水文モデリングの重要な要素である降水があまり理解されていない。 この不確実性を取り巻く重要な課題は、盆地にまたがる複雑な時空間的な降水分布である。 本稿では,uibの沈殿パターンをモデル化するために,非定常カーネル構造を持つガウス過程を提案する。 ヒンドゥー・クシュ・カラコラム・ヒマラヤ地域の降水の定量化やモデル化の試みは、しばしば質的であり、より低い解像度では解決できない粗い仮定や単純化を含んでいる。 この研究機関は誤りの伝播もほとんど行っていない。 入力依存長スケールでパラメータ化した非定常ギブスカーネルによる降水の空間的変動について考察する。 これにより、後部関数のサンプルは、インダス地域の異なる基盤地形に固有の様々な降水パターンに適応することができる。 入力依存長スケールは、関数レベルのハイパーパラメータがスムーズに変化するように、定常二乗指数核を持つ潜在ガウス過程によって制御される。 アブレーション実験では,提案するカーネルの各コンポーネントを,空間的共分散,時間的構造,共同時空間再構成をモデル化し,モチベーションを高める。 我々は、定常ガウス過程とディープガウス過程でモデルをベンチマークする。

The Upper Indus Basin, Himalayas provides water for 270 million people and countless ecosystems. However, precipitation, a key component to hydrological modelling, is poorly understood in this area. A key challenge surrounding this uncertainty comes from the complex spatial-temporal distribution of precipitation across the basin. In this work we propose Gaussian processes with structured non-stationary kernels to model precipitation patterns in the UIB. Previous attempts to quantify or model precipitation in the Hindu Kush Karakoram Himalayan region have often been qualitative or include crude assumptions and simplifications which cannot be resolved at lower resolutions. This body of research also provides little to no error propagation. We account for the spatial variation in precipitation with a non-stationary Gibbs kernel parameterised with an input dependent lengthscale. This allows the posterior function samples to adapt to the varying precipitation patterns inherent in the distinct underlying topography of the Indus region. The input dependent lengthscale is governed by a latent Gaussian process with a stationary squared-exponential kernel to allow the function level hyperparameters to vary smoothly. In ablation experiments we motivate each component of the proposed kernel by demonstrating its ability to model the spatial covariance, temporal structure and joint spatio-temporal reconstruction. We benchmark our model with a stationary Gaussian process and a Deep Gaussian processes.
翻訳日:2023-07-19 00:28:36 公開日:2023-07-16
# 適応解法による最適正規化オンライン割り当て

Optimal Regularized Online Allocation by Adaptive Re-Solving ( http://arxiv.org/abs/2209.00399v2 )

ライセンス: Link先を確認
Wanteng Ma and Ying Cao and Danny H.K. Tsang and Dong Xia(参考訳) 本稿では,非コンケーブ累積的報酬,ハードリソース制約,非分離的正規化子を含むオンラインリソース割り当て問題を解くための2元ベースのアルゴリズムフレームワークを提案する。 資源制約を適応的に更新する戦略の下では,提案手法は経験的二重問題に対する近似解をある程度の精度で要求するのみであり,局所的な2次成長条件下では最適対数後悔を与える。 驚いたことに、二重目的関数の微妙な解析により、後悔境界における悪名高いログ係数を排除できる。 フレキシブルなフレームワークは、有名な高速なアルゴリズム、例えば双対確率勾配降下を即座に適用する。 さらに, 最適後悔性能を損なうことなく計算要求を大幅に低減する, 頻繁な再解法を提案する。 リソース制約が2つの最適化の間に適応的に更新されない場合、最悪の平方根後悔の低い境界が確立される。 総合的な数値実験は,提案手法の利点を実証するものである。

This paper introduces a dual-based algorithm framework for solving the regularized online resource allocation problems, which have potentially non-concave cumulative rewards, hard resource constraints, and a non-separable regularizer. Under a strategy of adaptively updating the resource constraints, the proposed framework only requests approximate solutions to the empirical dual problems up to a certain accuracy and yet delivers an optimal logarithmic regret under a locally second-order growth condition. Surprisingly, a delicate analysis of the dual objective function enables us to eliminate the notorious log-log factor in regret bound. The flexible framework renders renowned and computationally fast algorithms immediately applicable, e.g., dual stochastic gradient descent. Additionally, an infrequent re-solving scheme is proposed, which significantly reduces computational demands without compromising the optimal regret performance. A worst-case square-root regret lower bound is established if the resource constraints are not adaptively updated during dual optimization, which underscores the critical role of adaptive dual variable update. Comprehensive numerical experiments demonstrate the merits of the proposed algorithm framework.
翻訳日:2023-07-19 00:27:44 公開日:2023-07-16
# フェデレーション・ジェネレーション・アドバーサリアン・ネットワークによる医療画像合成におけるバックドア攻撃と防御

Backdoor Attack and Defense in Federated Generative Adversarial Network-based Medical Image Synthesis ( http://arxiv.org/abs/2210.10886v3 )

ライセンス: Link先を確認
Ruinan Jin and Xiaoxiao Li(参考訳) 深層学習に基づく画像合成技術は、オープンな研究を支援するために医療画像を生成するために医療研究に応用されている。 GAN(generative adversarial Neural Network)のトレーニングは通常、大量のトレーニングデータを必要とする。 フェデレーション学習(fl)は、生データをローカルに保持しながら、分散データを使用して中央モデルをトレーニングする方法を提供する。 しかし、FLサーバが生データにアクセスできないことを考えると、訓練データに毒を盛ることによって、バックドア攻撃に弱い。 ほとんどのバックドア攻撃戦略は分類モデルと集中型ドメインに焦点を当てている。 既存のバックドア攻撃がGANトレーニングに影響を及ぼすのか、もしそうなら、FL設定での攻撃に対してどのように防御するかは、まだ明らかな疑問である。 本研究では,フェデレートされたGAN(FedGANs)におけるバックドア攻撃の問題点について検討する。 この攻撃の成功は、有毒なデータに過度に適合し、局所的なGAN平衡を悪化させた結果であると判断され、ジェネレータのパラメータを平均化する際に他のクライアントをさらに汚染し、高いジェネレータ損失をもたらす。 そこで我々はFedDetectを提案する。FL設定のバックドア攻撃に対して効果的かつ効果的な防御方法であり、サーバはクライアントの損失に基づいてクライアントの敵行動を検出し、悪意のあるクライアントをブロックすることができる。 異なるモダリティを持つ2つの医学データセットに対する広範な実験により、FedGANに対するバックドア攻撃は、忠実度が低い合成画像をもたらすことが示された。 提案した防衛戦略を用いて検出された悪意のあるクライアントを検出して抑制した後、FedGANはデータ拡張のための高品質な医療データセット(ラベル付き)を合成し、分類モデルの性能を向上させる。

Deep Learning-based image synthesis techniques have been applied in healthcare research for generating medical images to support open research and augment medical datasets. Training generative adversarial neural networks (GANs) usually require large amounts of training data. Federated learning (FL) provides a way of training a central model using distributed data while keeping raw data locally. However, given that the FL server cannot access the raw data, it is vulnerable to backdoor attacks, an adversarial by poisoning training data. Most backdoor attack strategies focus on classification models and centralized domains. It is still an open question if the existing backdoor attacks can affect GAN training and, if so, how to defend against the attack in the FL setting. In this work, we investigate the overlooked issue of backdoor attacks in federated GANs (FedGANs). The success of this attack is subsequently determined to be the result of some local discriminators overfitting the poisoned data and corrupting the local GAN equilibrium, which then further contaminates other clients when averaging the generator's parameters and yields high generator loss. Therefore, we proposed FedDetect, an efficient and effective way of defending against the backdoor attack in the FL setting, which allows the server to detect the client's adversarial behavior based on their losses and block the malicious clients. Our extensive experiments on two medical datasets with different modalities demonstrate the backdoor attack on FedGANs can result in synthetic images with low fidelity. After detecting and suppressing the detected malicious clients using the proposed defense strategy, we show that FedGANs can synthesize high-quality medical datasets (with labels) for data augmentation to improve classification models' performance.
翻訳日:2023-07-19 00:08:05 公開日:2023-07-16
# 帯域問題に対するPAC-Bayes境界:調査と実験的比較

PAC-Bayes Bounds for Bandit Problems: A Survey and Experimental Comparison ( http://arxiv.org/abs/2211.16110v2 )

ライセンス: Link先を確認
Hamish Flynn, David Reeb, Melih Kandemir, Jan Peters(参考訳) PAC-Bayesは最近、厳密な性能保証を伴う原則付き学習アルゴリズムを導出できる効果的な理論として再浮上した。 しかし,バンドイト問題へのPAC-Bayesの適用は比較的稀であり,大きな不幸である。 医療、金融、自然科学における多くの意思決定問題は、盗賊問題としてモデル化できる。 これらのアプリケーションの多くは、強力な性能保証を持つ原則付きアルゴリズムを非常に高く評価している。 本調査では,バンドイト問題に対するPAC-Bayes境界の概説と,これらの境界の実験的比較について述べる。 一方、PAC-Bayes境界は、性能保証付きオフラインバンディットアルゴリズムの設計に有用なツールであることがわかった。 我々の実験では、PAC-Bayesianのオフライン文脈帯域幅アルゴリズムは、競合する期待報酬と非空き性能保証を持つランダム化されたニューラルネットワーク警察を学習することができた。 一方、我々がテストしたpac-bayesian online banditアルゴリズムは、累積的な後悔の限界があった。 結論として,pac-bayesian banditアルゴリズムの今後の課題について論じる。

PAC-Bayes has recently re-emerged as an effective theory with which one can derive principled learning algorithms with tight performance guarantees. However, applications of PAC-Bayes to bandit problems are relatively rare, which is a great misfortune. Many decision-making problems in healthcare, finance and natural sciences can be modelled as bandit problems. In many of these applications, principled algorithms with strong performance guarantees would be very much appreciated. This survey provides an overview of PAC-Bayes bounds for bandit problems and an experimental comparison of these bounds. On the one hand, we found that PAC-Bayes bounds are a useful tool for designing offline bandit algorithms with performance guarantees. In our experiments, a PAC-Bayesian offline contextual bandit algorithm was able to learn randomised neural network polices with competitive expected reward and non-vacuous performance guarantees. On the other hand, the PAC-Bayesian online bandit algorithms that we tested had loose cumulative regret bounds. We conclude by discussing some topics for future work on PAC-Bayesian bandit algorithms.
翻訳日:2023-07-19 00:01:00 公開日:2023-07-16
# 畳み込みニューラルネットワークの入力マスキングの改善に向けて

Towards Improved Input Masking for Convolutional Neural Networks ( http://arxiv.org/abs/2211.14646v2 )

ライセンス: Link先を確認
Sriram Balasubramanian and Soheil Feizi(参考訳) 機械学習モデルの入力から特徴を取り除く能力は、モデル予測を理解し解釈することが非常に重要である。 しかし、入力画像の一部をマスキングすることは、通常、大きな分布シフトを引き起こすため、視覚モデルにとってこれは非自明である。 これは、マスク(通常は灰色または黒)の基線色が分布していないためである。 さらに、マスク自体の形状は、モデルによって予測に使用できる望ましくない信号を含むことができる。 近年,視覚トランスフォーマーの画像マスキングにおいて,この問題(欠落バイアスと呼ばれる)の緩和が進展している。 本研究では,マスキングによる欠落バイアスを広範囲に低減したcnnのための新しいマスキング手法を提案する。 直感的には、層マスキングは中間活性化マップにマスクを適用し、モデルが非マスク入力のみを処理する。 私たちの方法は (i)モデルの出力に対するマスク形状や色の影響を排除又は最小化することができる。 (ii) ライムなどの入力摂動に基づく解釈技術では, マスク領域を黒または灰色に置き換える方がはるかに優れている。 このように、層マスキングは、他のマスキング戦略よりも欠落バイアスの影響を受けない。 また,マスクの形状がクラスに関する情報を漏洩させる可能性を示し,入力マスキングによるクラス関連特徴のモデル依存度を推定する。 さらに,この問題に取り組むためのデータ拡張技術の役割について検討し,マスク形状へのモデル依存を防ぐには不十分であると主張する。 このプロジェクトのコードはhttps://github.com/sriramb-98/layer_maskingで公開されている。

The ability to remove features from the input of machine learning models is very important to understand and interpret model predictions. However, this is non-trivial for vision models since masking out parts of the input image typically causes large distribution shifts. This is because the baseline color used for masking (typically grey or black) is out of distribution. Furthermore, the shape of the mask itself can contain unwanted signals which can be used by the model for its predictions. Recently, there has been some progress in mitigating this issue (called missingness bias) in image masking for vision transformers. In this work, we propose a new masking method for CNNs we call layer masking in which the missingness bias caused by masking is reduced to a large extent. Intuitively, layer masking applies a mask to intermediate activation maps so that the model only processes the unmasked input. We show that our method (i) is able to eliminate or minimize the influence of the mask shape or color on the output of the model, and (ii) is much better than replacing the masked region by black or grey for input perturbation based interpretability techniques like LIME. Thus, layer masking is much less affected by missingness bias than other masking strategies. We also demonstrate how the shape of the mask may leak information about the class, thus affecting estimates of model reliance on class-relevant features derived from input masking. Furthermore, we discuss the role of data augmentation techniques for tackling this problem, and argue that they are not sufficient for preventing model reliance on mask shape. The code for this project is publicly available at https://github.com/SriramB-98/layer_masking
翻訳日:2023-07-19 00:00:43 公開日:2023-07-16
# nlpにおける望ましくないバイアス:測定の危機を回避する

Undesirable biases in NLP: Averting a crisis of measurement ( http://arxiv.org/abs/2211.13709v2 )

ライセンス: Link先を確認
Oskar van der Wal, Dominik Bachmann, Alina Leidinger, Leendert van Maanen, Willem Zuidema, Katrin Schulz(参考訳) 大規模言語モデルと自然言語処理(NLP)技術が急速に発展し、日々の生活に広まるにつれ、その利用が人々に与える影響を予想することが重要となる。 近年注目されている問題のひとつは、この技術が行動に有害なバイアスを呈していることだ。 これらのバイアスの評価と緩和に多くの労力が費やされているが、NLPモデルのバイアスを測定する方法には深刻な問題がある(例えば、実際に何を測定しているのかは不明)。 本稿では,NLPモデルバイアスの問題を,直接観測できないバイアスのような概念の測定に特化している心理測定のレンズを用いて議論するための学際的アプローチを提案する。 特に,心理計測から測定ツールの構成妥当性と信頼性の2つの中心的な概念を考察し,モデルバイアス測定の文脈でどのように適用できるかについて議論する。 我々のゴールは、NLP実践者により良いバイアス測定を設計するための方法論的なツールを提供することであり、バイアス測定ツールの開発において、より一般的にサイコメトリックからツールを探索することである。

As Large Language Models and Natural Language Processing (NLP) technology rapidly develops and spreads into daily life, it becomes crucial to anticipate how its use could harm people. One problem that has received a lot of attention in recent years is that this technology has displayed harmful biases in its behavior. Although a lot of effort has been invested in assessing and mitigating these biases, our methods of measuring the biases of NLP models have serious problems (e.g., it is often unclear what they actually measure). In this paper, we provide an interdisciplinary approach to discussing the issue of NLP model bias by adopting the lens of psychometrics -- a field specialized in the measurement of concepts like bias that are not directly observable. In particular, we will explore two central notions from psychometrics, the construct validity and the reliability of measurement tools, and discuss how they can be applied in the context of measuring model bias. Our goal is to provide NLP practitioners with methodological tools for designing better bias measures, and to inspire them more generally to explore tools from psychometrics when working on bias measurement tools.
翻訳日:2023-07-18 23:59:48 公開日:2023-07-16
# iEnhancer-ELM:エンハンサー言語モデルに基づく位置関連マルチスケールコンテキスト情報抽出によるエンハンサー識別の改善

iEnhancer-ELM: improve enhancer identification by extracting position-related multiscale contextual information based on enhancer language models ( http://arxiv.org/abs/2212.01495v2 )

ライセンス: Link先を確認
Jiahao Li, Zhourun Wu, Wenhao Lin, Jiawei Luo, Jun Zhang, Qingcai Chen and Junjie Chen(参考訳) モチベーション:エンハンサーは、幅広い生物学的機能を制御し、標的遺伝子の転写を促進する重要なシス調節要素である。 エンハンサー同定の性能向上のために,多くの特徴抽出法が提案されているが,DNA配列から位置関連マルチスケールコンテキスト情報を学習することはできない。 結果: 本稿では,BERT型エンハンサー言語モデルに基づく新しいエンハンサー識別法(iEnhancer-ELM)を提案する。 iEnhancer-ELMは、マルチスケールのk-merでDNA配列をトークン化し、マルチヘッドアテンション機構を介して、異なるスケールのk-merのコンテキスト情報を抽出する。 まず, 異なるスケールk-merの性能を評価し, エンハンサー識別の性能を向上させるためにアンサンブルする。 2つの人気のあるベンチマークデータセットの実験結果は、我々のモデルが最先端の手法より優れていることを示している。 さらに,iEnhancer-ELMの解釈可能性について述べる。 ケーススタディでは,STREMEとJASPARで12つのモチーフを検証し,このモデルがエンハンサーの生物学的メカニズムを明らかにする可能性を実証する3-merモデルを用いて,30個のエンハンサーモチーフを発見する。 可用性と実装: モデルと関連するコードはhttps://github.com/chen-bioinfo/ienhancer-elm contact: junjiechen@hit.edu.cn supplementary information: supplementary dataはbioinformatics advances onlineで入手できる。

Motivation: Enhancers are important cis-regulatory elements that regulate a wide range of biological functions and enhance the transcription of target genes. Although many feature extraction methods have been proposed to improve the performance of enhancer identification, they cannot learn position-related multiscale contextual information from raw DNA sequences. Results: In this article, we propose a novel enhancer identification method (iEnhancer-ELM) based on BERT-like enhancer language models. iEnhancer-ELM tokenizes DNA sequences with multi-scale k-mers and extracts contextual information of different scale k-mers related with their positions via an multi-head attention mechanism. We first evaluate the performance of different scale k-mers, then ensemble them to improve the performance of enhancer identification. The experimental results on two popular benchmark datasets show that our model outperforms stateof-the-art methods. We further illustrate the interpretability of iEnhancer-ELM. For a case study, we discover 30 enhancer motifs via a 3-mer-based model, where 12 of motifs are verified by STREME and JASPAR, demonstrating our model has a potential ability to unveil the biological mechanism of enhancer. Availability and implementation: The models and associated code are available at https://github.com/chen-bioinfo/iEnhancer-ELM Contact: junjiechen@hit.edu.cn Supplementary information: Supplementary data are available at Bioinformatics Advances online.
翻訳日:2023-07-18 23:49:59 公開日:2023-07-16
# 事前制約付き分類器を用いたFew-Shot Transfer Learningのための一般化境界

Generalization Bounds for Few-Shot Transfer Learning with Pretrained Classifiers ( http://arxiv.org/abs/2212.12532v2 )

ライセンス: Link先を確認
Tomer Galanti, Andr\'as Gy\"orgy, Marcus Hutter(参考訳) 本研究では,新しいクラスに移動可能な分類の表現を基礎モデルで学習する能力について検討する。 論文の最近の結果は、多くのクラスで単一の分類子によって学習される表現は、そのような問題のために設計された特別な目的のアルゴリズムによって学習される表現を持つ、少数の学習問題と競合していることを示している。 我々は,最近発見されたクラス-機能-変数の崩壊現象,すなわち,深層分類ネットワークのトレーニングにおいて,同一クラスに属するサンプルの特徴埋め込みがクラス平均に集中する傾向にあることに基づく,この挙動に関する理論的説明を提供する。 より具体的には、クラスが固定分布から独立して選択されるという仮定の下で、新しいクラス上の学習された特徴写像(各新しいクラスから少数のランダムサンプルから学習したセンターを用いて、最も近いクラス中心分類器の分類誤差として定義される)の少数ショット誤差が小さいことを示す。 これは、ファウンデーションモデルが、たとえごく少数のサンプルであっても、新しい下流タスクに転送可能な機能マップを提供することができることを示唆している。

We study the ability of foundation models to learn representations for classification that are transferable to new, unseen classes. Recent results in the literature show that representations learned by a single classifier over many classes are competitive on few-shot learning problems with representations learned by special-purpose algorithms designed for such problems. We offer a theoretical explanation for this behavior based on the recently discovered phenomenon of class-feature-variability collapse, that is, that during the training of deep classification networks the feature embeddings of samples belonging to the same class tend to concentrate around their class means. More specifically, we show that the few-shot error of the learned feature map on new classes (defined as the classification error of the nearest class-center classifier using centers learned from a small number of random samples from each new class) is small in case of class-feature-variability collapse, under the assumption that the classes are selected independently from a fixed distribution. This suggests that foundation models can provide feature maps that are transferable to new downstream tasks, even with very few samples; to our knowledge, this is the first performance bound for transfer-learning that is non-vacuous in the few-shot setting.
翻訳日:2023-07-18 23:39:07 公開日:2023-07-16
# 半導体量子ドットにおける高軌道孔のコヒーレント制御

Coherent control of a high-orbital hole in a semiconductor quantum dot ( http://arxiv.org/abs/2212.10749v3 )

ライセンス: Link先を確認
Jun-Yong Yan, Chen Chen, Xiao-Dong Zhang, Yu-Tong Wang, Hans-Georg Babin, Andreas D. Wieck, Arne Ludwig, Yun Meng, Xiaolong Hu, Huali Duan, Wenchao Chen, Wei Fang, Moritz Cygorek, Xing Lin, Da-Wei Wang, Chao-Yuan Jin, Feng Liu(参考訳) コヒーレント駆動型半導体量子ドットは、フォトニック量子技術の基盤となる非古典的な光源と量子論理ゲートのための最も有望なプラットフォームの一つである。 しかしながら、量子ドットにおける単一電荷キャリアのコヒーレントな操作は、主にその最低軌道状態に限られている。 高軌道状態の超高速コヒーレント制御は、可変テラヘルツパルスの要求によって妨げられる。 この制約を断ち切るために、オージェ法によりホールの高軌道状態を制御する全光学的手法を実証する。 オージェ過程のコヒーレントな性質はラビ振動とラムジー干渉によって証明される。 このコヒーレンスを利用することで、シングルホール緩和機構のさらなる検証が可能になる。 161psのホール緩和時間を観測し、フォノンボトルネック効果に起因する。 我々の研究は、量子エミッタにおける高軌道状態の基本的な性質を理解し、新しいタイプの軌道ベースの量子フォトニクスデバイスを開発する新しい可能性を開く。

Coherently driven semiconductor quantum dots are one of the most promising platforms for non-classical light sources and quantum logic gates which form the foundation of photonic quantum technologies. However, to date, coherent manipulation of single charge carriers in quantum dots is limited mainly to their lowest orbital states. Ultrafast coherent control of high-orbital states is obstructed by the demand for tunable terahertz pulses. To break this constraint, we demonstrate an all-optical method to control high-orbital states of a hole via stimulated Auger process. The coherent nature of the Auger process is proved by Rabi oscillation and Ramsey interference. Harnessing this coherence further enables the investigation of single-hole relaxation mechanism. A hole relaxation time of 161 ps is observed and attributed to the phonon bottleneck effect. Our work opens new possibilities for understanding the fundamental properties of high-orbital states in quantum emitters and developing new types of orbital-based quantum photonic devices.
翻訳日:2023-07-18 23:38:45 公開日:2023-07-16
# 鳥の視線から見る:カメラの校正を伴わない共同カメラと被写体登録

From a Bird's Eye View to See: Joint Camera and Subject Registration without the Camera Calibration ( http://arxiv.org/abs/2212.09298v2 )

ライセンス: Link先を確認
Zekun Qian, Ruize Han, Wei Feng, Feifan Wang, Song Wang(参考訳) 本研究では, カメラキャリブレーションのない鳥眼ビュー(BEV)におけるマルチビューカメラと対象登録の新たな課題に取り組む。 BEV画像とFPVのキャリブレーションを伴わないマルチパーソンシーンの異なるファーストパーソンビュー(FPV)から複数のRGB画像が入力されるのに対して、出力はBEV内の被写体とカメラの両方のローカライズと向きの統一された平面であるため、これは非常に難しい問題である。 この問題を解消するエンドツーエンドのフレームワークを提案し、その主な考え方は以下の部分に分けられる。 一 ビュー変換対象検出モジュールを作成して、各歩行者のローカライゼーション及び配向を含む仮想BEVに変換すること。 二 カメラのローカライゼーション及び視野方向を推定するための幾何学的変換に基づく方法、すなわち、統合されたBEVにおけるカメラ登録を導出すること。 三 被写体を統合BEVに集約するために空間情報及び外観情報を利用すること。 評価のためのリッチアノテーションを備えた大規模合成データセットを新たに収集する。 実験の結果,提案手法の顕著な有効性を示した。

We tackle a new problem of multi-view camera and subject registration in the bird's eye view (BEV) without pre-given camera calibration. This is a very challenging problem since its only input is several RGB images from different first-person views (FPVs) for a multi-person scene, without the BEV image and the calibration of the FPVs, while the output is a unified plane with the localization and orientation of both the subjects and cameras in a BEV. We propose an end-to-end framework solving this problem, whose main idea can be divided into following parts: i) creating a view-transform subject detection module to transform the FPV to a virtual BEV including localization and orientation of each pedestrian, ii) deriving a geometric transformation based method to estimate camera localization and view direction, i.e., the camera registration in a unified BEV, iii) making use of spatial and appearance information to aggregate the subjects into the unified BEV. We collect a new large-scale synthetic dataset with rich annotations for evaluation. The experimental results show the remarkable effectiveness of our proposed method.
翻訳日:2023-07-18 23:38:31 公開日:2023-07-16
# 生活体験の課題 : ソーシャルメディアにおける物質使用者に対するスティグマの自動検出

Lived Experience Matters: Automatic Detection of Stigma on Social Media Toward People Who Use Substances ( http://arxiv.org/abs/2302.02064v2 )

ライセンス: Link先を確認
Salvatore Giorgi, Douglas Bellew, Daniel Roy Sadek Habib, Garrick Sherman, Joao Sedoc, Chase Smitterberg, Amanda Devoto, McKenzie Himelein-Wachowiak, and Brenda Curtis(参考訳) 物質を使用する人(PWUS)に対するスティグマは、治療を求める上で主要な障壁となっている。 ヘイトスピーチと毒性の関連概念は、脆弱な人口を対象としたものを含むが、自動コンテンツモデレーション研究、スティグマ(stigma)、特に物質を使用する人はそうではない。 本稿では、約5000の公開Reddit投稿のデータセットを用いて、PWUSに対するスティグマについて検討する。 我々は,PWUSに対するスティグマの存在について,各投稿に注釈を付けるように依頼し,物質使用経験に関する一連の質問に回答するクラウドソースアノテーションタスクを実施した。 結果、物質を使ったり、薬物使用障害の人を知っている労働者は、投稿を汚職として評価する傾向が強いことがわかった。 これに基づいて、redditの投稿にスティグマタイジング(stigmatizing)とラベル付けする、生きた物質使用経験のある労働者を集中させる、教師付き機械学習フレームワークを使用します。 コメントレベルの言語に加えて、個人レベルの人口層をモデル化すると、分類精度は0.69で、モデリング言語だけで17%向上している。 最後に、pwusの物質と、他の言語(「人々」や「彼ら」)を取り巻く言語に同意しない人々、そして「アドディクト」のような用語がスティグマタイジングであるのに対し、pwusは特定の物質に関する議論をよりスティグマタイジングするのと対照的に)を区別する言語学者の手がかりを探究する。 本研究は, 物質使用におけるスティグマの知覚特性について考察した。 さらに、これらの結果は、これらの機械学習タスクの主観的な性質をさらに確立し、彼らの社会的コンテキストを理解する必要性を強調している。

Stigma toward people who use substances (PWUS) is a leading barrier to seeking treatment.Further, those in treatment are more likely to drop out if they experience higher levels of stigmatization. While related concepts of hate speech and toxicity, including those targeted toward vulnerable populations, have been the focus of automatic content moderation research, stigma and, in particular, people who use substances have not. This paper explores stigma toward PWUS using a data set of roughly 5,000 public Reddit posts. We performed a crowd-sourced annotation task where workers are asked to annotate each post for the presence of stigma toward PWUS and answer a series of questions related to their experiences with substance use. Results show that workers who use substances or know someone with a substance use disorder are more likely to rate a post as stigmatizing. Building on this, we use a supervised machine learning framework that centers workers with lived substance use experience to label each Reddit post as stigmatizing. Modeling person-level demographics in addition to comment-level language results in a classification accuracy (as measured by AUC) of 0.69 -- a 17% increase over modeling language alone. Finally, we explore the linguist cues which distinguish stigmatizing content: PWUS substances and those who don't agree that language around othering ("people", "they") and terms like "addict" are stigmatizing, while PWUS (as opposed to those who do not) find discussions around specific substances more stigmatizing. Our findings offer insights into the nature of perceived stigma in substance use. Additionally, these results further establish the subjective nature of such machine learning tasks, highlighting the need for understanding their social contexts.
翻訳日:2023-07-18 23:32:01 公開日:2023-07-16
# 進化系からの制御微分方程式の発見

Discover governing differential equations from evolving systems ( http://arxiv.org/abs/2301.07863v3 )

ライセンス: Link先を確認
Yuanyuan Li, Kai Wu, Jing Liu(参考訳) 利用可能な観測から進化系の支配方程式を発見することは不可欠で難しい。 本稿では,ストリーミングデータから支配方程式を発見する新たなシナリオについて考察する。 現在の手法では、測定全体を考慮して微分方程式の制御を見つけるのに苦労し、このタスクを処理できなかった。 本稿では,データセット全体を処理するのではなく,ストリーミングデータをモデリングすることで,各サンプルを順次処理できるオンラインモデリング手法を提案する。 提案手法は,ストリーミングデータから常微分方程式 (ODE) と偏微分方程式 (PDE) の発見に有効である。 進化するシステムは時間とともに変化しており、システムの状態によって常に変化する。 したがって、正確な変化点を見つけることが重要である。 変更したシステムから生成された測定は前と異なって分布するので,提案手法により差を識別できる。 提案手法は,3つのハイブリッドシステムと2つの切替線形システムにおいて,変化点の同定と制御微分方程式の発見に競争力がある。

Discovering the governing equations of evolving systems from available observations is essential and challenging. In this paper, we consider a new scenario: discovering governing equations from streaming data. Current methods struggle to discover governing differential equations with considering measurements as a whole, leading to failure to handle this task. We propose an online modeling method capable of handling samples one by one sequentially by modeling streaming data instead of processing the entire dataset. The proposed method performs well in discovering ordinary differential equations (ODEs) and partial differential equations (PDEs) from streaming data. Evolving systems are changing over time, which invariably changes with system status. Thus, finding the exact change points is critical. The measurement generated from a changed system is distributed dissimilarly to before; hence, the difference can be identified by the proposed method. Our proposal is competitive in identifying the change points and discovering governing differential equations in three hybrid systems and two switching linear systems.
翻訳日:2023-07-18 23:29:41 公開日:2023-07-16
# 光リモートセンシング画像における有向物体検出のための境界認識補助とプログレッシブセマンティック最適化によるデュアルフィードバック注意フレームワーク

Dual Feedback Attention Framework via Boundary-Aware Auxiliary and Progressive Semantic Optimization for Salient Object Detection in Optical Remote Sensing Imagery ( http://arxiv.org/abs/2303.02867v2 )

ライセンス: Link先を確認
Dejun Feng, Hongyu Chen, Suning Liu, Xingyu Shen, Ziyang Liao, Yakun Xie, Jun Zhu(参考訳) 光リモートセンシング画像(ORSI-SOD)における局所物体検出は、深層学習(DL)と自然シーン画像(NSI-SOD)における局所物体検出の発達により、徐々に注目を集めている。 しかし、NSIとORSIは、大きなカバレッジ、複雑なバックグラウンド、ターゲットタイプとスケールの大きな違いなど、多くの面で異なる。 そのため、ORSI-SODには新たな専用の方法が必要である。 加えて、既存のメソッドはオブジェクトの境界に十分な注意を払わず、最終的な給与マップの完全性は改善が必要である。 これらの問題に対処するために,境界認識補助および進歩意味最適化(DFA-BASO)によるデュアルフィードバック注意フレームワークを提案する。 第一に, 境界保護校正 (BPC) モジュールは, 前方伝搬時のエッジ位置情報の損失を低減し, 低レベル特性のノイズを抑制する。 次に、BPCモジュールに基づくDFFC(Dual Feature Feedback Complementary)モジュールを提案する。 境界セマンティックな二重特徴を集約し、異なる層にまたがる特徴を調整する効果的なフィードバックを提供する。 最後に,より完全なサリエンシーマップを得るために,ssfrモジュールを提案する。 このモジュールは特徴表現をさらに洗練し、ユニークなフィードバック機構を通じて特徴の違いを取り除く。 2つの公開データセットに対する大規模な実験は、DFA-BASOが15の最先端の手法より優れていることを示している。 さらに,DFA-BASOのORSI-SODへの貢献を可視化図の詳細な分析により強く実証する。 すべてのコードはhttps://github.com/YUHsss/DFA-BASOで見ることができる。

Salient object detection in optical remote sensing image (ORSI-SOD) has gradually attracted attention thanks to the development of deep learning (DL) and salient object detection in natural scene image (NSI-SOD). However, NSI and ORSI are different in many aspects, such as large coverage, complex background, and large differences in target types and scales. Therefore, a new dedicated method is needed for ORSI-SOD. In addition, existing methods do not pay sufficient attention to the boundary of the object, and the completeness of the final saliency map still needs improvement. To address these issues, we propose a novel method called Dual Feedback Attention Framework via Boundary-Aware Auxiliary and Progressive Semantic Optimization (DFA-BASO). First, Boundary Protection Calibration (BPC) module is proposed to reduce the loss of edge position information during forward propagation and suppress noise in low-level features. Second, a Dual Feature Feedback Complementary (DFFC) module is proposed based on BPC module. It aggregates boundary-semantic dual features and provides effective feedback to coordinate features across different layers. Finally, a Strong Semantic Feedback Refinement (SSFR) module is proposed to obtain more complete saliency maps. This module further refines feature representation and eliminates feature differences through a unique feedback mechanism. Extensive experiments on two public datasets show that DFA-BASO outperforms 15 state-of-the-art methods. Furthermore, this paper strongly demonstrates the true contribution of DFA-BASO to ORSI-SOD by in-depth analysis of the visualization figure. All codes can be found at https://github.com/YUHsss/DFA-BASO.
翻訳日:2023-07-18 23:11:42 公開日:2023-07-16
# 雨滴による敵攻撃

Adversarial Attack with Raindrops ( http://arxiv.org/abs/2302.14267v2 )

ライセンス: Link先を確認
Jiyuan Liu, Bingyi Lu, Mingkang Xiong, Tao Zhang, Huilin Xiong(参考訳) ディープニューラルネットワーク(DNN)は、通常、愚かなDNNに人工的に設計されるが、現実のシナリオにはほとんど存在しない敵の例に弱いことが知られている。 本稿では,雨滴による逆襲事例について検討し,DNNに対する逆襲攻撃として機能する自然現象が多数存在することを示す。 さらに, 自然雨滴をシミュレートするgenerative adversarial network (gan) 手法を用いて, advrd と呼ばれる逆雨滴を生成する新しい手法を提案する。 われわれのAdvRDが作成した画像は、実際の雨滴画像と非常によく似ており、統計的に真の雨滴画像の分布に近づき、さらに重要なのは、最先端のDNNモデルに対して強力な敵攻撃を行うことができることだ。 一方,AdvRD画像を用いた逆行訓練は実世界の雨滴攻撃に対するDNNの堅牢性を大幅に向上させることができることを示す。 AdvRDが作成した画像が自然雨滴画像に視覚的かつ統計的に近いこと、DNNモデルに対する強力な攻撃者として機能すること、また、雨滴攻撃に対するDNNの堅牢性向上に役立つことを実証するために、大規模な実験が行われた。

Deep neural networks (DNNs) are known to be vulnerable to adversarial examples, which are usually designed artificially to fool DNNs, but rarely exist in real-world scenarios. In this paper, we study the adversarial examples caused by raindrops, to demonstrate that there exist plenty of natural phenomena being able to work as adversarial attackers to DNNs. Moreover, we present a new approach to generate adversarial raindrops, denoted as AdvRD, using the generative adversarial network (GAN) technique to simulate natural raindrops. The images crafted by our AdvRD look very similar to the real-world raindrop images, statistically close to the distribution of true raindrop images, and more importantly, can perform strong adversarial attack to the state-of-the-art DNN models. On the other side, we show that the adversarial training using our AdvRD images can significantly improve the robustness of DNNs to the real-world raindrop attacks. Extensive experiments are carried out to demonstrate that the images crafted by AdvRD are visually and statistically close to the natural raindrop images, can work as strong attackers to DNN models, and also help improve the robustness of DNNs to raindrop attacks.
翻訳日:2023-07-18 23:11:06 公開日:2023-07-16
# DoGはSGDのベストフレンド:パラメータフリーの動的ステップサイズスケジュール

DoG is SGD's Best Friend: A Parameter-Free Dynamic Step Size Schedule ( http://arxiv.org/abs/2302.12022v3 )

ライセンス: Link先を確認
Maor Ivgi, Oliver Hinder and Yair Carmon(参考訳) 本研究では,Distance over Gradients (DoG) と呼ばれるチューニング不要な動的SGDステップサイズ公式を提案する。 DoGのステップサイズは単純な経験量(初期点と勾配のノルムに依存している)に依存し、‘学習率’パラメータを持たない。 理論的には、犬の公式のわずかな変化は、確率凸最適化のための強いパラメータフリーな収束保証を享受していることを示す。 実証的に,幅広い視覚・言語伝達学習タスクを考察し,DoGの性能が学習速度を調整したSGDに近いことを示す。 また、一般にSGDよりも優れており、チューニングされたAdamの性能に近づいたDoGの層間変異も提案する。 pytorchの実装はhttps://github.com/formll/dogで利用可能

We propose a tuning-free dynamic SGD step size formula, which we call Distance over Gradients (DoG). The DoG step sizes depend on simple empirical quantities (distance from the initial point and norms of gradients) and have no ``learning rate'' parameter. Theoretically, we show that a slight variation of the DoG formula enjoys strong parameter-free convergence guarantees for stochastic convex optimization assuming only \emph{locally bounded} stochastic gradients. Empirically, we consider a broad range of vision and language transfer learning tasks, and show that DoG's performance is close to that of SGD with tuned learning rate. We also propose a per-layer variant of DoG that generally outperforms tuned SGD, approaching the performance of tuned Adam. A PyTorch implementation is available at https://github.com/formll/dog
翻訳日:2023-07-18 23:10:09 公開日:2023-07-16
# 信号処理と機械学習のための確率的近似

Stochastic Approximation Beyond Gradient for Signal Processing and Machine Learning ( http://arxiv.org/abs/2302.11147v2 )

ライセンス: Link先を確認
Aymeric Dieuleveut, Gersende Fort, Eric Moulines, Hoi-To Wai(参考訳) 確率近似(Stochastic Approximation, SA)は、不確実性で観測された大量のデータを扱う必要があるため、信号処理や今日では機械学習に大きな影響を与えている古典的なアルゴリズムである。 SAの典型例は、多くの重要な応用の背後にある作業馬である一般的な確率的(部分)漸進的アルゴリズムに関するものである。 あまり知られていない事実として、saスキームは圧縮確率勾配、確率的期待最大化、強化学習アルゴリズムなど非確率的勾配アルゴリズムにも拡張されている。 本論文の目的は,saアルゴリズムの設計指針を提示することで,信号処理と機械学習のオーディエンスに対して,saの非統計的漸進的視点を概観し,紹介することである。 我々の中心的なテーマは、非漸近的および漸近的収束結果を含むsaの既存の理論を統一する一般的な枠組みを提案し、人気のある非確率的勾配アルゴリズムへの応用を示すことである。 我々は,様々な軽度条件を満たすリアプノフ関数のクラスに基づく解析フレームワークを構築した。 Lyapunov関数が滑らか、凸、あるいは強い凸である場合、非確率階数アルゴリズムとシナリオの間の接続を描く。 上記の枠組みを用いて、具体例を用いて非確率階調アルゴリズムの収束特性を説明する。 サンプルの複雑さを改善するための分散低減技術の拡張についても論じる。

Stochastic Approximation (SA) is a classical algorithm that has had since the early days a huge impact on signal processing, and nowadays on machine learning, due to the necessity to deal with a large amount of data observed with uncertainties. An exemplar special case of SA pertains to the popular stochastic (sub)gradient algorithm which is the working horse behind many important applications. A lesser-known fact is that the SA scheme also extends to non-stochastic-gradient algorithms such as compressed stochastic gradient, stochastic expectation-maximization, and a number of reinforcement learning algorithms. The aim of this article is to overview and introduce the non-stochastic-gradient perspectives of SA to the signal processing and machine learning audiences through presenting a design guideline of SA algorithms backed by theories. Our central theme is to propose a general framework that unifies existing theories of SA, including its non-asymptotic and asymptotic convergence results, and demonstrate their applications on popular non-stochastic-gradient algorithms. We build our analysis framework based on classes of Lyapunov functions that satisfy a variety of mild conditions. We draw connections between non-stochastic-gradient algorithms and scenarios when the Lyapunov function is smooth, convex, or strongly convex. Using the said framework, we illustrate the convergence properties of the non-stochastic-gradient algorithms using concrete examples. Extensions to the emerging variance reduction techniques for improved sample complexity will also be discussed.
翻訳日:2023-07-18 23:09:34 公開日:2023-07-16
# 差分プライバシーを持つ訓練モデルの理論に関する考察

Considerations on the Theory of Training Models with Differential Privacy ( http://arxiv.org/abs/2303.04676v2 )

ライセンス: Link先を確認
Marten van Dijk and Phuong Ha Nguyen(参考訳) 連携学習におけるコラボレーティブラーニングは、各クライアントがそれぞれのローカルトレーニングデータの使用方法、特に各クライアントのローカルトレーニングデータがプライベートのままであることをコントロールしたいという一連のクライアントによって行われる。 差分プライバシーは、プライバシー漏洩を制限する方法のひとつだ。 本稿では,そのフレームワークの概要と証明可能な特性について概説し,Gaussian DP あるいは $f$-DP と呼ばれる仮説に基づくより最近の定義を取り入れた上で,Pariially Private Stochastic Gradient Descent (DP-SGD) について議論する。 私たちはメタレベルに留まり、直感的な説明と洞察を試みます。

In federated learning collaborative learning takes place by a set of clients who each want to remain in control of how their local training data is used, in particular, how can each client's local training data remain private? Differential privacy is one method to limit privacy leakage. We provide a general overview of its framework and provable properties, adopt the more recent hypothesis based definition called Gaussian DP or $f$-DP, and discuss Differentially Private Stochastic Gradient Descent (DP-SGD). We stay at a meta level and attempt intuitive explanations and insights \textit{in this book chapter}.
翻訳日:2023-07-18 22:59:36 公開日:2023-07-16
# 橋渡し模倣とオンライン強化学習:楽観的な物語

Bridging Imitation and Online Reinforcement Learning: An Optimistic Tale ( http://arxiv.org/abs/2303.11369v2 )

ライセンス: Link先を確認
Botao Hao, Rahul Jain, Dengwang Tang, Zheng Wen(参考訳) 本稿では,不完全な専門家からオフラインのデモデータセットを与えられた場合,MDPのオンライン学習性能をブートストラップする最善の方法は何か,という問題に対処する。 まず,オフラインデータセットを用いたインフォームドリアスサンプリングベースrl(ipsrl)アルゴリズムと,オフラインデータセット生成に使用する専門家の行動ポリシーに関する情報を提案する。 累積ベイズ的後悔はnで指数関数的に速く、専門家が十分に有能であればオフラインデータセットのサイズになる。 このアルゴリズムは非現実的であるため、オンラインRLのためのRSVIアルゴリズムと模倣学習を組み合わせたiRLSVIアルゴリズムを提案する。 実験の結果,提案したiRLSVIアルゴリズムは,オフラインデータとオフラインデータセットの2つのベースラインに対して,生成ポリシーに関する情報を使わずに,後悔の低減を図ることができることがわかった。 我々のアルゴリズムはオンラインRLと模倣学習を初めて橋渡しする。

In this paper, we address the following problem: Given an offline demonstration dataset from an imperfect expert, what is the best way to leverage it to bootstrap online learning performance in MDPs. We first propose an Informed Posterior Sampling-based RL (iPSRL) algorithm that uses the offline dataset, and information about the expert's behavioral policy used to generate the offline dataset. Its cumulative Bayesian regret goes down to zero exponentially fast in N, the offline dataset size if the expert is competent enough. Since this algorithm is computationally impractical, we then propose the iRLSVI algorithm that can be seen as a combination of the RLSVI algorithm for online RL, and imitation learning. Our empirical results show that the proposed iRLSVI algorithm is able to achieve significant reduction in regret as compared to two baselines: no offline data, and offline dataset but used without information about the generative policy. Our algorithm bridges online RL and imitation learning for the first time.
翻訳日:2023-07-18 22:52:02 公開日:2023-07-16
# メタツリー上の後木分布のバッチ更新

Batch Updating of a Posterior Tree Distribution over a Meta-Tree ( http://arxiv.org/abs/2303.09705v2 )

ライセンス: Link先を確認
Yuta Nakahara, Toshiyasu Matsushima(参考訳) 従来,観測不能な木に代表される確率的データ生成モデルと,木の集合上の後続分布を計算するための逐次更新手法を提案した。 集合はメタ木と呼ばれる。 本稿では,より効率的なバッチ更新手法を提案する。

Previously, we proposed a probabilistic data generation model represented by an unobservable tree and a sequential updating method to calculate a posterior distribution over a set of trees. The set is called a meta-tree. In this paper, we propose a more efficient batch updating method.
翻訳日:2023-07-18 22:49:37 公開日:2023-07-16
# サブサンプルリッジアンサンブル:同値と一般化されたクロスバリデーション

Subsample Ridge Ensembles: Equivalences and Generalized Cross-Validation ( http://arxiv.org/abs/2304.13016v2 )

ライセンス: Link先を確認
Jin-Hong Du, Pratik Patil, Arun Kumar Kuchibhotla(参考訳) 本研究では, 比例漸近状態におけるサブサンプリングに基づく隆起アンサンブルについて検討し, 比例比が一定となるような試料径に比例して特徴量が大きくなることを示した。 リッジアンサンブルの2乗予測リスクを明示的なペナルティ$\lambda$と制限サブサンプルアスペクト比$\phi_s$(特徴サイズとサブサンプルサイズとの比率)の関数として解析することにより、達成可能なリスクで$(\lambda, \phi_s)$プレーンの輪郭を特徴づける。 その結果、最適なリッジレスアンサンブル(すべての可能なサブサンプルに適合する)のリスクが、最適なリッジ予測器のそれと一致することを証明した。 さらに,リッジアンサンブルの予測リスクを推定するためのサブサンプルサイズに対して,一般クロスバリデーション(GCV)の強い均一性を示す。 これにより、サンプル分割なしでGCVベースのフルリッジレスアンサンブルのチューニングが可能となり、リスクが最適リッジリスクと一致する予測器が得られる。

We study subsampling-based ridge ensembles in the proportional asymptotics regime, where the feature size grows proportionally with the sample size such that their ratio converges to a constant. By analyzing the squared prediction risk of ridge ensembles as a function of the explicit penalty $\lambda$ and the limiting subsample aspect ratio $\phi_s$ (the ratio of the feature size to the subsample size), we characterize contours in the $(\lambda, \phi_s)$-plane at any achievable risk. As a consequence, we prove that the risk of the optimal full ridgeless ensemble (fitted on all possible subsamples) matches that of the optimal ridge predictor. In addition, we prove strong uniform consistency of generalized cross-validation (GCV) over the subsample sizes for estimating the prediction risk of ridge ensembles. This allows for GCV-based tuning of full ridgeless ensembles without sample splitting and yields a predictor whose risk matches optimal ridge risk.
翻訳日:2023-07-18 22:42:01 公開日:2023-07-16
# gistトークンでプロンプトを圧縮する学習

Learning to Compress Prompts with Gist Tokens ( http://arxiv.org/abs/2304.08467v2 )

ライセンス: Link先を確認
Jesse Mu, Xiang Lisa Li, Noah Goodman(参考訳) プロンプトは言語モデル(lms)のマルチタスク機能を利用する主要な方法であるが、プロンプトは入力コンテキストウィンドウの貴重なスペースを占め、同じプロンプトを繰り返しエンコーディングすることは計算量的に非効率である。 微粒化および蒸留法は、LMをプロンプトせずに特殊化することができるが、各タスクのモデルを再訓練する必要がある。 このトレードオフを完全に回避するために、我々はLMにプロンプトを圧縮するよう訓練するgistingを、キャッシュし、計算効率を高めるために再利用できる"gist"トークンの小さなセットに提示する。 gistモデルは、プロンプト圧縮を促進するために変圧器アテンションマスクを単純に変更することで、標準命令の微調整よりも追加コストなしでトレーニングすることができる。 decoder (LLaMA-7B) と encoder-decoder (FLAN-T5-XXL) のLMでは、gisting はプロンプトの最大26倍の圧縮が可能で、最大40%のFLOPs削減、4.2%のウォールタイムスピードアップ、ストレージセーブが可能で、出力品質の損失は最小限である。

Prompting is the primary way to utilize the multitask capabilities of language models (LMs), but prompts occupy valuable space in the input context window, and repeatedly encoding the same prompt is computationally inefficient. Finetuning and distillation methods allow for specialization of LMs without prompting, but require retraining the model for each task. To avoid this trade-off entirely, we present gisting, which trains an LM to compress prompts into smaller sets of "gist" tokens which can be cached and reused for compute efficiency. Gist models can be trained with no additional cost over standard instruction finetuning by simply modifying Transformer attention masks to encourage prompt compression. On decoder (LLaMA-7B) and encoder-decoder (FLAN-T5-XXL) LMs, gisting enables up to 26x compression of prompts, resulting in up to 40% FLOPs reductions, 4.2% wall time speedups, and storage savings, all with minimal loss in output quality.
翻訳日:2023-07-18 22:41:20 公開日:2023-07-16
# CAFIN: グラフ上での教師なし表現学習のためのインプロセッシングによる中心性意識の公平性

CAFIN: Centrality Aware Fairness inducing IN-processing for Unsupervised Representation Learning on Graphs ( http://arxiv.org/abs/2304.04391v2 )

ライセンス: Link先を確認
Arvindh Arun, Aakash Aanegola, Amul Agrawal, Ramasuri Narayanam, Ponnurangam Kumaraguru(参考訳) グラフ上での教師なし表現学習は、乱れのないネットワークデータの増大と、生成された表現のコンパクトさ、豊かさ、有用性により、勢いを増している。 この文脈では、公平さとバイアスの制約を考慮しながら表現を生成する必要性は、以前の仕事においてある程度動機づけられ、研究されてきた。 この設定における以前の研究の大きな制限の1つは、ノード間の不均等なパフォーマンスをもたらす様々なノード中心性など、グラフの接続パターンに起因するバイアスに対処することを目的としていないことである。 本研究は,教師なし環境でのグラフ構造によるバイアス軽減の問題に対処することを目的としている。 この目的のために,既存のフレームワークが生成する表現をチューニングするためにグラフの構造情報を活用する,集中性に配慮した公平性誘導フレームワークであるcafinを提案する。 GraphSAGE(このドメインで人気のあるフレームワーク)にデプロイし、ノード分類とリンク予測という2つの下流タスクで有効性を示します。 実証的には、CAFINは、さまざまなドメインからの一般的なデータセット(18から80%のパフォーマンス格差の削減)間のパフォーマンス格差を一貫して低減します。

Unsupervised Representation Learning on graphs is gaining traction due to the increasing abundance of unlabelled network data and the compactness, richness, and usefulness of the representations generated. In this context, the need to consider fairness and bias constraints while generating the representations has been well-motivated and studied to some extent in prior works. One major limitation of most of the prior works in this setting is that they do not aim to address the bias generated due to connectivity patterns in the graphs, such as varied node centrality, which leads to a disproportionate performance across nodes. In our work, we aim to address this issue of mitigating bias due to inherent graph structure in an unsupervised setting. To this end, we propose CAFIN, a centrality-aware fairness-inducing framework that leverages the structural information of graphs to tune the representations generated by existing frameworks. We deploy it on GraphSAGE (a popular framework in this domain) and showcase its efficacy on two downstream tasks - Node Classification and Link Prediction. Empirically, CAFIN consistently reduces the performance disparity across popular datasets (varying from 18 to 80% reduction in performance disparity) from various domains while incurring only a minimal cost of fairness.
翻訳日:2023-07-18 22:40:55 公開日:2023-07-16
# 移動可能な攻撃に最適な同盟国を選ぶには?

How to choose your best allies for a transferable attack? ( http://arxiv.org/abs/2304.02312v2 )

ライセンス: Link先を確認
Thibault Maho, Seyed-Mohsen Moosavi-Dezfooli, Teddy Furon(参考訳) 敵対的な例の転送性は、ディープニューラルネットワークのセキュリティにおいて重要な問題である。 別のターゲットモデルを騙すソースモデルのために作られた敵の例の可能性は、敵の攻撃の脅威をより現実的なものにします。 移動性の測定は重要な問題であるが、攻撃成功率だけでは音質評価はできない。 本稿では,中心位置に歪みを配置することで移動性を評価する新しい手法を提案する。 この新しいツールは、攻撃者がランダムにソースモデルを選択した場合、転送可能な攻撃はブラックボックス攻撃よりもはるかに悪い可能性があることを示している。 この問題に対処するため,我々はfitと呼ばれる新しい選択機構を提案し,ターゲットに対してほんの数回の予備クエリしか持たない最適なソースモデルを選択することを目的としている。 実験の結果,FiTは単一モデルアタックやアンサンブルモデルアタック,複数アタックなど,複数のシナリオに対して最適なソースモデルを選択するのに極めて効果的であることがわかった。

The transferability of adversarial examples is a key issue in the security of deep neural networks. The possibility of an adversarial example crafted for a source model fooling another targeted model makes the threat of adversarial attacks more realistic. Measuring transferability is a crucial problem, but the Attack Success Rate alone does not provide a sound evaluation. This paper proposes a new methodology for evaluating transferability by putting distortion in a central position. This new tool shows that transferable attacks may perform far worse than a black box attack if the attacker randomly picks the source model. To address this issue, we propose a new selection mechanism, called FiT, which aims at choosing the best source model with only a few preliminary queries to the target. Our experimental results show that FiT is highly effective at selecting the best source model for multiple scenarios such as single-model attacks, ensemble-model attacks and multiple attacks (Code available at: https://github.com/t-maho/transferability_measure_fit).
翻訳日:2023-07-18 22:40:15 公開日:2023-07-16
# 類似した線形表現から学ぶ:適応性、最小性、ロバスト性

Learning from Similar Linear Representations: Adaptivity, Minimaxity, and Robustness ( http://arxiv.org/abs/2303.17765v2 )

ライセンス: Link先を確認
Ye Tian, Yuqi Gu, Yang Feng(参考訳) MTL(Representation Multi-task Learning)とTL(Transfer Learning)は実践的に大きな成功を収めている。 しかし、これらの方法の理論的理解はまだ不十分である。 既存の理論的な研究の多くは、全てのタスクが同じ表現を共有している場合に焦点を当てており、MTLとTLはほとんど常に性能を改善していると主張している。 しかし、タスクの数が増えるにつれて、すべてのタスクが同じ表現を共有していると仮定すると、非現実的になる。 また、これは必ずしも経験的な結果と一致せず、共有表現が必ずしもシングルタスクやターゲットのみの学習性能を改善するとは限らないことを示唆している。 本稿では,外れたタスクを扱いながら, \textit{ similar but not exactly the same} 線形表現を用いてタスクから学ぶ方法を理解することを目的とする。 そこで本研究では,MTL と TL の両設定下でのタスクのアウトレイラに対して,類似性構造に対する \textit{adaptive} と \textit{robust} の2つのアルゴリズムを提案する。 私たちのアルゴリズムは、タスク間の表現が十分に似ていて、外れたタスクの割合が小さい場合に、シングルタスクやターゲットのみの学習よりも優れています。 さらに、表現が相違する場合でも、シングルタスク学習やターゲットのみの学習よりも常に悪い結果が得られます。 情報理論的な下限を提供し、我々のアルゴリズムが大規模なシステムにおいてほぼ最適であることを示す。 また,未知の固有次元に適応するアルゴリズムを提案する。 理論的結果を検証するために2つのシミュレーション研究を行う。

Representation multi-task learning (MTL) and transfer learning (TL) have achieved tremendous success in practice. However, the theoretical understanding of these methods is still lacking. Most existing theoretical works focus on cases where all tasks share the same representation, and claim that MTL and TL almost always improve performance. However, as the number of tasks grows, assuming all tasks share the same representation is unrealistic. Also, this does not always match empirical findings, which suggest that a shared representation may not necessarily improve single-task or target-only learning performance. In this paper, we aim to understand how to learn from tasks with \textit{similar but not exactly the same} linear representations, while dealing with outlier tasks. With a known intrinsic dimension, we propose two algorithms that are \textit{adaptive} to the similarity structure and \textit{robust} to outlier tasks under both MTL and TL settings. Our algorithms outperform single-task or target-only learning when representations across tasks are sufficiently similar and the fraction of outlier tasks is small. Furthermore, they always perform no worse than single-task learning or target-only learning, even when the representations are dissimilar. We provide information-theoretic lower bounds to show that our algorithms are nearly \textit{minimax} optimal in a large regime. We also propose an algorithm to adapt to the unknown intrinsic dimension. We conduct two simulation studies to verify our theoretical results.
翻訳日:2023-07-18 22:39:00 公開日:2023-07-16
# FedDWA: 動的重み調整による個人化フェデレーション学習

FedDWA: Personalized Federated Learning with Dynamic Weight Adjustment ( http://arxiv.org/abs/2305.06124v3 )

ライセンス: Link先を確認
Jiahao Liu, Jiang Wu, Jinyu Chen, Miao Hu, Yipeng Zhou, Di Wu(参考訳) 従来のフェデレーション学習とは異なり、パーソナライズド・フェデレーション・ラーニング(PFL)は個々のクライアントに対して独自の要求に応じてカスタマイズされたモデルをトレーニングすることができる。 メインストリームのアプローチは、異なるクライアント間の損失値やモデルパラメータによって重み付けが決定されるパーソナライズされたモデルを生成するために、重み付け集約方式の一種を採用することである。 しかし、この種の方法は、クライアントが他人のモデルをダウンロードする必要がある。 通信トラフィックを増加させるだけでなく、データプライバシーを侵害する可能性がある。 本稿では,パラメータサーバ(PS)を利用して,クライアントから収集したモデルに基づいてパーソナライズされたアグリゲーション重みを計算し,その問題に対処するため,新しいPFLアルゴリズムである \emph{FedDWA (Federated Learning with Dynamic Weight Adjustment)} を提案する。 このようにして、FedDWAは通信オーバーヘッドをはるかに少なくしてクライアント間の類似性をキャプチャできる。 具体的には、パーソナライズされたモデルとガイダンスモデルの距離を最小にすることで最適化問題としてPFL問題を定式化し、各クライアントの集約重みをカスタマイズする。 ガイダンスモデルは、個々のクライアントに対する1段階の事前適応によって得られる。 最後に,5つの実データを用いた広範囲な実験を行い,FedDWAが通信トラフィックを大幅に低減し,最先端の手法よりもはるかに高いモデル精度を実現することを示す。

Different from conventional federated learning, personalized federated learning (PFL) is able to train a customized model for each individual client according to its unique requirement. The mainstream approach is to adopt a kind of weighted aggregation method to generate personalized models, in which weights are determined by the loss value or model parameters among different clients. However, such kinds of methods require clients to download others' models. It not only sheer increases communication traffic but also potentially infringes data privacy. In this paper, we propose a new PFL algorithm called \emph{FedDWA (Federated Learning with Dynamic Weight Adjustment)} to address the above problem, which leverages the parameter server (PS) to compute personalized aggregation weights based on collected models from clients. In this way, FedDWA can capture similarities between clients with much less communication overhead. More specifically, we formulate the PFL problem as an optimization problem by minimizing the distance between personalized models and guidance models, so as to customize aggregation weights for each client. Guidance models are obtained by the local one-step ahead adaptation on individual clients. Finally, we conduct extensive experiments using five real datasets and the results demonstrate that FedDWA can significantly reduce the communication traffic and achieve much higher model accuracy than the state-of-the-art approaches.
翻訳日:2023-07-18 22:33:29 公開日:2023-07-16
# Glitch in the Matrix: コンテンツ駆動型オーディオ画像偽造検出と位置推定のための大規模ベンチマーク

Glitch in the Matrix: A Large Scale Benchmark for Content Driven Audio-Visual Forgery Detection and Localization ( http://arxiv.org/abs/2305.01979v3 )

ライセンス: Link先を確認
Zhixi Cai, Shreya Ghosh, Abhinav Dhall, Tom Gedeon, Kalin Stefanov, Munawar Hayat(参考訳) 多くのディープフェイク検出方法は、顔属性の空間的および/または時空間的変化の検出に重点を置いており、ビデオが本物か偽かを検出するバイナリ分類タスクを中心にしている。 これは、利用可能なベンチマークデータセットがビデオ全体に存在するビジュアルのみの修正を含んでいるためである。 しかし、洗練されたディープフェイクには、ビデオコンテンツの意味を完全に変えることができるオーディオまたはオーディオ視覚操作の小さな部分が含まれるかもしれない。 このギャップに対処するために,我々は,戦略的コンテンツ駆動型オーディオ,ビジュアルおよびオーディオビジュアル操作からなる,新たなデータセットであるlocalized audio visual deepfake (lav-df)を提案し,ベンチマークを行った。 提案手法であるBundary Aware Temporal Forgery Detection (BA-TFD)は,マルチモーダル操作を効果的に捉える3次元畳み込みニューラルネットワークに基づくアーキテクチャである。 さらに,バックボーンをマルチスケールビジョン変換器に置き換え,コントラスト,フレーム分類,バウンダリマッチング,マルチモーダル境界マッチング損失関数を用いてトレーニングプロセスを導出することにより,ベースライン法をさらに改良する(BA-TFD+)。 この定量分析は,新たに提案したデータセットを含むいくつかのベンチマークデータセットを用いて,時間的偽造位置推定および深度検出タスクにおけるBA-TFD+の優位性を示す。 データセット、モデル、コードはhttps://github.com/controlnet/lav-dfで入手できる。

Most deepfake detection methods focus on detecting spatial and/or spatio-temporal changes in facial attributes and are centered around the binary classification task of detecting whether a video is real or fake. This is because available benchmark datasets contain mostly visual-only modifications present in the entirety of the video. However, a sophisticated deepfake may include small segments of audio or audio-visual manipulations that can completely change the meaning of the video content. To addresses this gap, we propose and benchmark a new dataset, Localized Audio Visual DeepFake (LAV-DF), consisting of strategic content-driven audio, visual and audio-visual manipulations. The proposed baseline method, Boundary Aware Temporal Forgery Detection (BA-TFD), is a 3D Convolutional Neural Network-based architecture which effectively captures multimodal manipulations. We further improve (i.e. BA-TFD+) the baseline method by replacing the backbone with a Multiscale Vision Transformer and guide the training process with contrastive, frame classification, boundary matching and multimodal boundary matching loss functions. The quantitative analysis demonstrates the superiority of BA-TFD+ on temporal forgery localization and deepfake detection tasks using several benchmark datasets including our newly proposed dataset. The dataset, models and code are available at https://github.com/ControlNet/LAV-DF.
翻訳日:2023-07-18 22:30:39 公開日:2023-07-16
# シミュレーション人間社会における社会適応型言語モデルの訓練

Training Socially Aligned Language Models in Simulated Human Society ( http://arxiv.org/abs/2305.16960v2 )

ライセンス: Link先を確認
Ruibo Liu, Ruixin Yang, Chenyan Jia, Ge Zhang, Denny Zhou, Andrew M. Dai, Diyi Yang, Soroush Vosoughi(参考訳) AIシステムにおける社会的アライメントは、確立された社会的価値に応じてこれらのモデルが振舞うことを保証することを目的としている。 しかし、社会的相互作用を通じて価値判断に関するコンセンサスを導出する人間とは異なり、現在の言語モデル(lms)は、トレーニングコーパスを分離して厳格に複製するように訓練され、未知のシナリオと敵の攻撃に対する脆弱性のサブパー一般化に繋がる。 この研究は、シミュレーションされた社会的相互作用から学ぶことができる新しい訓練パラダイムを示す。 既存の手法と比較して、我々のアプローチはかなりスケーラブルで効率的であり、アライメントベンチマークや人間評価において優れた性能を示している。 LMのトレーニングにおけるこのパラダイムシフトは、社会的規範と価値を堅牢かつ正確に反映できるAIシステムの開発に一歩近づきます。

Social alignment in AI systems aims to ensure that these models behave according to established societal values. However, unlike humans, who derive consensus on value judgments through social interaction, current language models (LMs) are trained to rigidly replicate their training corpus in isolation, leading to subpar generalization in unfamiliar scenarios and vulnerability to adversarial attacks. This work presents a novel training paradigm that permits LMs to learn from simulated social interactions. In comparison to existing methodologies, our approach is considerably more scalable and efficient, demonstrating superior performance in alignment benchmarks and human evaluations. This paradigm shift in the training of LMs brings us a step closer to developing AI systems that can robustly and accurately reflect societal norms and values.
翻訳日:2023-07-18 22:21:45 公開日:2023-07-16
# ロボット群における人間のフィードバックの進化と創発的行動の発見

Leveraging Human Feedback to Evolve and Discover Novel Emergent Behaviors in Robot Swarms ( http://arxiv.org/abs/2305.16148v2 )

ライセンス: Link先を確認
Connor Mattson, Daniel S. Brown(参考訳) ロボット群は、しばしば観察が興味深い創発的な行動を示すが、エージェントの能力のセットの下でどのような群れの行動が現れるかを予測することは困難である。 我々は、人間の入力を効果的に活用し、特定のマルチエージェントシステムから出現しうる集団行動の分類を、人間が事前に興味や可能な行動を知ることなく、自動的に発見することを目指している。 提案手法は,自己教師付き学習とHuman-in-the-loopクエリを用いて,Swarm集団行動に対する類似性空間を学習することにより,ユーザの好みに適応する。 学習した類似度指標と新規検索とクラスタリングを組み合わせることで,Swarm動作の空間を探索し,分類する。 また,創発的行動につながる可能性のあるロボットコントローラを優先することで,創発的検索の効率を向上させる汎用ヒューリスティックも提案する。 提案手法は,2つのロボット能力モデルを用いてシミュレーションを行い,先行研究よりもより豊かな創発的行動のセットを一貫して発見することを示す。 コード、ビデオ、データセットはhttps://sites.google.com/view/evolving-novel-swarmsで入手できる。

Robot swarms often exhibit emergent behaviors that are fascinating to observe; however, it is often difficult to predict what swarm behaviors can emerge under a given set of agent capabilities. We seek to efficiently leverage human input to automatically discover a taxonomy of collective behaviors that can emerge from a particular multi-agent system, without requiring the human to know beforehand what behaviors are interesting or even possible. Our proposed approach adapts to user preferences by learning a similarity space over swarm collective behaviors using self-supervised learning and human-in-the-loop queries. We combine our learned similarity metric with novelty search and clustering to explore and categorize the space of possible swarm behaviors. We also propose several general-purpose heuristics that improve the efficiency of our novelty search by prioritizing robot controllers that are likely to lead to interesting emergent behaviors. We test our approach in simulation on two robot capability models and show that our methods consistently discover a richer set of emergent behaviors than prior work. Code, videos, and datasets are available at https://sites.google.com/view/evolving-novel-swarms.
翻訳日:2023-07-18 22:21:30 公開日:2023-07-16
# エネルギーを意識した早期退出を通した持続的エッジインテリジェンス

Sustainable Edge Intelligence Through Energy-Aware Early Exiting ( http://arxiv.org/abs/2305.14094v2 )

ライセンス: Link先を確認
Marcello Bullo, Seifallah Jardak, Pietro Carnelli, Deniz G\"und\"uz(参考訳) ディープラーニング(DL)モデルは、IoT(Internet of Things)のための有望なソリューションとして登場した。 しかし、その計算複雑性のため、DLモデルは大量のエネルギーを消費し、バッテリを急速に消費し、IoTデバイスの性能を損なう可能性がある。 持続的な運転には、充電可能な電池とエネルギ回収機能を備えたエッジデバイスを考える。 環境エネルギー源の確率的性質に加えて、収穫率はしばしば推定エネルギー要件を満たすために不十分であり、エネルギー非依存のデバイスでは劇的に性能が低下する。 この問題を軽減するため,EHエッジインテリジェンスシステムにおいて,エネルギー適応型動的早期退避(EE)を提案する。 提案手法は, サンプルごとの最適計算量を決定する, エネルギー対応のEEポリシーを導出する。 提案した方針は、限られた入出力に適合するエネルギー消費のバランスをとり、連続的な可用性を実現する。 その結果, エネルギー非依存政策と比較して, 精度は25%, サービス速度は35%向上した。

Deep learning (DL) models have emerged as a promising solution for the Internet of Things (IoT). However, due to their computational complexity, DL models consume significant amounts of energy, which can rapidly drain the battery and compromise the performance of IoT devices. For sustainable operation, we consider an edge device with a rechargeable battery and energy harvesting (EH) capabilities. In addition to the stochastic nature of the ambient energy source, the harvesting rate is often insufficient to meet the inference energy requirements, leading to drastic performance degradation in energy-agnostic devices. To mitigate this problem, we propose energy-adaptive dynamic early exiting (EE) to enable efficient and accurate inference in an EH edge intelligence system. Our approach derives an energy-aware EE policy that determines the optimal amount of computational processing on a per-sample basis. The proposed policy balances the energy consumption to match the limited incoming energy and achieves continuous availability. Numerical results show that accuracy and service rate are improved up to 25% and 35%, respectively, in comparison with an energy-agnostic policy.
翻訳日:2023-07-18 22:20:08 公開日:2023-07-16
# テキスト分類と周辺分析における純粋相関の理解と緩和

Understanding and Mitigating Spurious Correlations in Text Classification with Neighborhood Analysis ( http://arxiv.org/abs/2305.13654v2 )

ライセンス: Link先を確認
Oscar Chew, Hsuan-Tien Lin, Kai-Wei Chang, Kuan-Hao Huang(参考訳) 最近の研究では、ディープラーニングモデルはトレーニングセットに存在するスプリアス相関を利用する傾向があるが、一般的な状況では当てはまらない可能性があることが示されている。 例えば、感情分類器は、トークンのパフォーマンスが一般的に肯定的な映画レビューと関連していることを誤って学習することができる。 これらのスプリアス相関に依存すると、分散外データにデプロイすると、分類器のパフォーマンスが低下する。 本稿では, 周辺分析と呼ばれる新たな視点から, 突発的相関の影響を考察する。 この分析は、スプリアス相関が非関係な単語を埋め込み空間に誤って集結させる方法を明らかにする。 この分析により,スプリアストークンを検出するためのメトリクスを設計し,テキスト分類におけるスプリアス相関を緩和する正規化手法であるNFL(DoN't Forget your Language)を提案する。 実験の結果,NFLは誤クラスタを効果的に防止し,分類器の堅牢性を大幅に向上させることができることがわかった。

Recent research has revealed that deep learning models have a tendency to leverage spurious correlations that exist in the training set but may not hold true in general circumstances. For instance, a sentiment classifier may erroneously learn that the token performances is commonly associated with positive movie reviews. Relying on these spurious correlations degrades the classifiers performance when it deploys on out-of-distribution data. In this paper, we examine the implications of spurious correlations through a novel perspective called neighborhood analysis. The analysis uncovers how spurious correlations lead unrelated words to erroneously cluster together in the embedding space. Driven by the analysis, we design a metric to detect spurious tokens and also propose a family of regularization methods, NFL (doN't Forget your Language) to mitigate spurious correlations in text classification. Experiments show that NFL can effectively prevent erroneous clusters and significantly improve the robustness of classifiers.
翻訳日:2023-07-18 22:19:50 公開日:2023-07-16
# 構造データ湖と非構造データ湖のクロスモーダルデータ発見

Cross Modal Data Discovery over Structured and Unstructured Data Lakes ( http://arxiv.org/abs/2306.00932v3 )

ライセンス: Link先を確認
Mohamed Y. Eltabakh, Mayuresh Kunjir, Ahmed Elmagarmid, Mohammad Shahmeer Ahmad(参考訳) 組織はデータ駆動意思決定のために、ますます大量のデータを集めています。 これらのデータは、数千の構造化データセットと非構造化データセットからなるデータレイクなど、中央リポジトリにダンプされることが多い。 逆に、そのようなデータセットの混合は、ユーザのクエリや分析タスクに関連する要素(例えばテーブルやドキュメント)を発見することを非常に困難にしている。 Despite the recent efforts in data discovery, the problem remains widely open especially in the two fronts of (1) discovering relationships and relatedness across structured and unstructured datasets where existing techniques suffer from either scalability, being customized for a specific problem type (e.g., entity matching or data integration), or demolishing the structural properties on its way, and (2) developing a holistic system for integrating various similarity measurements and sketches in an effective way to boost the discovery accuracy. 本稿では,この2つの制約に対処するための新しいデータディスカバリシステムcmdlを提案する。 CMDLは、テーブルの構造特性を維持しながら、構造化データと非構造化データの両方でデータ発見プロセスをサポートする。

Organizations are collecting increasingly large amounts of data for data driven decision making. These data are often dumped into a centralized repository, e.g., a data lake, consisting of thousands of structured and unstructured datasets. Perversely, such mixture of datasets makes the problem of discovering elements (e.g., tables or documents) that are relevant to a user's query or an analytical task very challenging. Despite the recent efforts in data discovery, the problem remains widely open especially in the two fronts of (1) discovering relationships and relatedness across structured and unstructured datasets where existing techniques suffer from either scalability, being customized for a specific problem type (e.g., entity matching or data integration), or demolishing the structural properties on its way, and (2) developing a holistic system for integrating various similarity measurements and sketches in an effective way to boost the discovery accuracy. In this paper, we propose a new data discovery system, named CMDL, for addressing these two limitations. CMDL supports the data discovery process over both structured and unstructured data while retaining the structural properties of tables.
翻訳日:2023-07-18 22:12:59 公開日:2023-07-16
# w-procer: 重み付き原型的コントラスト学習による医療用少数ショットエンティティ認識

W-procer: Weighted Prototypical Contrastive Learning for Medical Few-Shot Named Entity Recognition ( http://arxiv.org/abs/2305.18624v4 )

ライセンス: Link先を確認
Mingchen Li, Yang Ye, Jeremy Yeung, Huixue Zhou, Huaiyuan Chu, Rui Zhang(参考訳) 対照的学習は、NER(Non-shot Name Entity Regniation)の一般的なソリューションとなっている。 従来の構成では、同じラベルを持つトークン間の距離を減らし、異なるラベルを持つトークン間の距離を増やそうとしている。 しかし、医療分野では、OUTSIDE (O) として注釈付けされたエンティティが多数存在し、現在の対照的な学習方法によってOUTSIDE (O) とラベル付けされていない他のエンティティに非推奨にプッシュされ、ラベルのセマンティックな表現のためのノイズの多いプロトタイプで終わるが、OUTSIDE (O) にラベル付けされたエンティティがラベル付けされたエンティティに関連するものも多い。 この課題に対処するために,医用フリューショット名義エンティティ認識のためのWeighted Prototypeal Contrastive Learning (W-PROCER) という新しい手法を提案する。 当社のアプローチは主に,プロトタイプベースの契約損失と重み付けネットワークの構築を中心に展開している。 これらのコンポーネントは、外部(o)トークンから負のサンプルを区別し、コントラスト学習の識別能力を高める上で、モデルを支援する上で重要な役割を果たす。 実験の結果,提案するW-PROCERフレームワークは,3つのベンチマークデータセットの強いベースラインを著しく上回ることがわかった。

Contrastive learning has become a popular solution for few-shot Name Entity Recognization (NER). The conventional configuration strives to reduce the distance between tokens with the same labels and increase the distance between tokens with different labels. The effect of this setup may, however, in the medical domain, there are a lot of entities annotated as OUTSIDE (O), and they are undesirably pushed apart to other entities that are not labeled as OUTSIDE (O) by the current contrastive learning method end up with a noisy prototype for the semantic representation of the label, though there are many OUTSIDE (O) labeled entities are relevant to the labeled entities. To address this challenge, we propose a novel method named Weighted Prototypical Contrastive Learning for Medical Few Shot Named Entity Recognization (W-PROCER). Our approach primarily revolves around constructing the prototype-based contractive loss and weighting network. These components play a crucial role in assisting the model in differentiating the negative samples from OUTSIDE (O) tokens and enhancing the discrimination ability of contrastive learning. Experimental results show that our proposed W-PROCER framework significantly outperforms the strong baselines on the three medical benchmark datasets.
翻訳日:2023-07-18 22:11:34 公開日:2023-07-16
# k-テンソル:正の半定義行列のクラスタリング

K-Tensors: Clustering Positive Semi-Definite Matrices ( http://arxiv.org/abs/2306.06534v2 )

ライセンス: Link先を確認
Hanchao Zhang, Thaddeus Tarpey(参考訳) 本稿では,その固有構造に基づく正半定義行列の分布を分割するために設計された,新しい自己一貫性クラスタリングアルゴリズム(k$-tensors)を提案する。 正の半定義行列は$\re^p$, $p \ge 2$ で楕円体として表現できるので、効果的なクラスタリングを行うために構造情報を維持することが重要である。 しかし、従来のクラスタリングアルゴリズム(行列に適用)は、しばしば行列のインボルブベクトル化(involve vectorization)を行い、本質的な構造情報を失う。 この問題に対処するため,正の半定値行列の構造情報に基づいて,クラスタリングのための距離メートル法を提案する。 この距離計量により、クラスタリングアルゴリズムは正の半定行列と、正の半定行列の集合から定義される \thadJulyTen{orthonormal vectors で表される {a} 共通空間への射影の違いを考えることができる。 正の半定義行列をクラスタリングするこの革新的なアプローチは、機能的接続データの解析など、金融および生物医学研究を含むいくつかの分野に広く応用されている。 提案アルゴリズムは,正半定値行列の構造情報を維持することにより,正半定値行列をより有意義な方法でクラスタリングし,基礎となるデータに対する深い洞察を促進する。

This paper introduces a novel self-consistency clustering algorithm ($K$-Tensors) designed for {partitioning a distribution of} positive-semidefinite matrices based on their eigenstructures. As positive semi-definite matrices can be represented as ellipsoids in $\Re^p$, $p \ge 2$, it is critical to maintain their structural information to perform effective clustering. However, traditional clustering algorithms {applied to matrices} often {involve vectorization of} the matrices, resulting in a loss of essential structural information. To address this issue, we propose a distance metric {for clustering} that is specifically based on the structural information of positive semi-definite matrices. This distance metric enables the clustering algorithm to consider the differences between positive semi-definite matrices and their projections onto {a} common space spanned by \thadJulyTen{orthonormal vectors defined from a set of} positive semi-definite matrices. This innovative approach to clustering positive semi-definite matrices has broad applications in several domains including financial and biomedical research, such as analyzing functional connectivity data. By maintaining the structural information of positive semi-definite matrices, our proposed algorithm promises to cluster the positive semi-definite matrices in a more meaningful way, thereby facilitating deeper insights into the underlying data in various applications.
翻訳日:2023-07-18 22:02:18 公開日:2023-07-16
# EPIC-Kitchens-100 Multi-Instance Retrieval Challenge 2023参加報告

UniUD Submission to the EPIC-Kitchens-100 Multi-Instance Retrieval Challenge 2023 ( http://arxiv.org/abs/2306.15445v2 )

ライセンス: Link先を確認
Alex Falcon, Giuseppe Serra(参考訳) 本稿では,EPIC-Kitchens-100 Multi-Instance Retrieval Challenge 2023への提出の技術的詳細について述べる。 この課題に参加するために,トレーニングデータの25%に2つの異なる損失関数を訓練した2つのモデルを整理した。 我々の投稿は、公開リーダーボードに表示され、平均スコアは56.81% ndcg と 42.63% である。

In this report, we present the technical details of our submission to the EPIC-Kitchens-100 Multi-Instance Retrieval Challenge 2023. To participate in the challenge, we ensembled two models trained with two different loss functions on 25% of the training data. Our submission, visible on the public leaderboard, obtains an average score of 56.81% nDCG and 42.63% mAP.
翻訳日:2023-07-18 21:53:19 公開日:2023-07-16
# ロバスト連合学習のための一階メタスタッケルバーグ法

A First Order Meta Stackelberg Method for Robust Federated Learning ( http://arxiv.org/abs/2306.13800v3 )

ライセンス: Link先を確認
Yunian Pan, Tao Li, Henger Li, Tianyi Xu, Zizhan Zheng, and Quanyan Zhu(参考訳) これまでの研究によると、連邦学習(FL)システムは様々なセキュリティリスクにさらされている。 いくつかの防衛戦略の提案にもかかわらず、それらは非適応的で特定の種類の攻撃に特有の傾向があり、予測不能あるいは適応不能な脅威に対して効果的ではない。 この研究は、バイエルン・スタックルベルク・マルコフゲーム(BSMG)として敵対的連合学習をモデル化し、様々な攻撃タイプに関するディフェンダーの不完全な情報をキャプチャする。 本稿では,bsmgにおける平衡戦略を解決するために,効率的なメタ学習アルゴリズムであるmeta-stackelberg learning (meta-sl)を提案する。 メタslは, 1次$o(\varepsilon^{-2})$勾配反復において, 1次$\varepsilon$平衡点に収束し, 1回に$o(\varepsilon^{-4})$のサンプルが必要となる。 実証的な証拠は、我々のメタスタックルバーグフレームワークが、不確かな性質の強力なモデル中毒やバックドア攻撃に対して非常によく機能していることを示している。

Previous research has shown that federated learning (FL) systems are exposed to an array of security risks. Despite the proposal of several defensive strategies, they tend to be non-adaptive and specific to certain types of attacks, rendering them ineffective against unpredictable or adaptive threats. This work models adversarial federated learning as a Bayesian Stackelberg Markov game (BSMG) to capture the defender's incomplete information of various attack types. We propose meta-Stackelberg learning (meta-SL), a provably efficient meta-learning algorithm, to solve the equilibrium strategy in BSMG, leading to an adaptable FL defense. We demonstrate that meta-SL converges to the first-order $\varepsilon$-equilibrium point in $O(\varepsilon^{-2})$ gradient iterations, with $O(\varepsilon^{-4})$ samples needed per iteration, matching the state of the art. Empirical evidence indicates that our meta-Stackelberg framework performs exceptionally well against potent model poisoning and backdoor attacks of an uncertain nature.
翻訳日:2023-07-18 21:53:02 公開日:2023-07-16
# 点相互作用の理論の新しい考察

A new look at the theory of point interactions ( http://arxiv.org/abs/2306.10292v2 )

ライセンス: Link先を確認
R. Figari, H. Saberbaghi, A. Teta(参考訳) 多中心点相互作用ハミルトン群の全族について検討する。 これらの作用素の大きな部分族は、2つ以上の散乱中心の位置が一致する場合、特異あるいは自明になることはない。 この意味では、それらはデフォルトでは「局所的」な点相互作用のハミルトニアンとは対照的に正規化されているように見える。 2中心の場合、中心距離の関数として負の固有値の挙動を研究する。 この結果は、2つの重粒子と1つの軽粒子を持つ3粒子系のボルン・オッペンハイマー近似を解析するために用いられる。 我々は,この簡易モデルが超紫外大惨事を示しないことを示すとともに,連続する低エネルギー固有値の比がエフィモフ幾何学則に従うことを証明した。

We investigate the entire family of multi-center point interaction Hamiltonians. We show that a large sub-family of these operators do not become either singular or trivial when the positions of two or more scattering centers tend to coincide. In this sense, they appear to be renormalised by default as opposed to the "local" point interaction Hamiltonians usually considered in the literature as the ones of physical interest. In the two-center case we study the behaviour of the negative eigenvalues as a function of the center distance. The result is used to analyze a formal Born-Oppenheimer approximation of a three-particle system with two heavy and one light particle. We show that this simplified model does not show any ultra-violet catastrophe and we prove that the ratio of successive low energy eigenvalues follows the Efimov geometrical law.
翻訳日:2023-07-18 21:51:58 公開日:2023-07-16
# Instructeval: 指導選択法の体系的評価

InstructEval: Systematic Evaluation of Instruction Selection Methods ( http://arxiv.org/abs/2307.00259v2 )

ライセンス: Link先を確認
Anirudh Ajith, Chris Pan, Mengzhou Xia, Ameet Deshpande, Karthik Narasimhan(参考訳) In-context Learning (ICL) は、命令を使って大きな言語モデル(LLM)とデモと呼ばれる注釈付き例の小さなセットを誘導することでタスクを実行する。 近年の研究では、ICLで使用される入力の正確な詳細が、命令選択アルゴリズムにインセンティブを与え、性能に大きな影響を与えることが示されている。 しかし、命令選択の効果は極めて過小評価されており、既存の分析はモデルやタスクの浅い部分集合に制限され、それらの洞察の一般化性は制限されている。 ICL評価スイートであるInstructEvalを開発し、これらの手法を徹底的に評価する。 このスイートには、4つのモデルファミリーからさまざまなスケールの13のオープンソースLLMが含まれ、3つのカテゴリにわたる9つのタスクをカバーしている。 このスイートを用いて,ICLに関連する5つの指標に対して,一般的な7つの命令選択手法の相対的性能を評価する。 本実験により,手書きによる手書き命令や簡単な命令をタスク固有の記述なしで使用すると,自動命令推論手法よりも優れたICL性能が得られることが判明した。 我々は,提案手法をベンチマークし,より一般化可能な手法を実現するための評価スイートをリリースする。

In-context learning (ICL) performs tasks by prompting a large language model (LLM) using an instruction and a small set of annotated examples called demonstrations. Recent work has shown that precise details of the inputs used in the ICL prompt significantly impact performance, which has incentivized instruction selection algorithms. The effect of instruction-choice however is severely underexplored, with existing analyses restricted to shallow subsets of models and tasks, limiting the generalizability of their insights. We develop InstructEval, an ICL evaluation suite to conduct a thorough assessment of these techniques. The suite includes 13 open-sourced LLMs of varying scales from four model families, and covers nine tasks across three categories. Using the suite, we evaluate the relative performance of seven popular instruction selection methods over five metrics relevant to ICL. Our experiments reveal that using curated manually-written instructions or simple instructions without any task-specific descriptions often elicits superior ICL performance overall than that of automatic instruction-induction methods, pointing to a lack of generalizability among the latter. We release our evaluation suite for benchmarking instruction selection approaches and enabling more generalizable methods in this space.
翻訳日:2023-07-18 21:43:19 公開日:2023-07-16
# flipnerf: 反射光線を反射して、ノベル・ビュー・シンセサイザーを作る

FlipNeRF: Flipped Reflection Rays for Few-shot Novel View Synthesis ( http://arxiv.org/abs/2306.17723v2 )

ライセンス: Link先を確認
Seunghyeon Seo, Yeonjin Chang, Nojun Kwak(参考訳) ニューラル・ラミアンス・フィールド(nerf)は、レンダリングされた画像と単純なアーキテクチャの素晴らしい品質を持つ、新しいビュー合成の主流である。 NeRFは, 連続的な性能向上のために様々な方向に開発されてきたが, 多視点画像の高密度化の必要性は, 実用化に向けての停滞ブロックとして残っている。 そこで本研究では,フリップ反射光を利用した数ショットの新規ビュー合成のための新しい正規化手法であるFlipNeRFを提案する。 反射光は入力線方向と推定される正規ベクトルから明示的に導出され、より正確な表面の正常を推定し、3D幾何学を効果的に学習しながら効果的な追加の訓練線の役割を担っている。 表面の正規度とシーンの深さはどちらも光線に沿った推定密度から導出されるため、正確な表面の正規度はより正確な深さ推定をもたらす。 さらに,FlipNeRFは,不確実性を考慮した不確実性損失とボトルネック特徴整合性損失を推定することにより,複数のシーン構造にまたがって浮動小数点を効果的に低減し,新たな特徴抽出装置を使わずに,フォトコンシステント画素に投射される2つの画素間の特徴レベルの整合性を向上させることができる。 我々のFlipNeRFは、すべてのシナリオにわたる複数のベンチマークでSOTAのパフォーマンスを達成する。

Neural Radiance Field (NeRF) has been a mainstream in novel view synthesis with its remarkable quality of rendered images and simple architecture. Although NeRF has been developed in various directions improving continuously its performance, the necessity of a dense set of multi-view images still exists as a stumbling block to progress for practical application. In this work, we propose FlipNeRF, a novel regularization method for few-shot novel view synthesis by utilizing our proposed flipped reflection rays. The flipped reflection rays are explicitly derived from the input ray directions and estimated normal vectors, and play a role of effective additional training rays while enabling to estimate more accurate surface normals and learn the 3D geometry effectively. Since the surface normal and the scene depth are both derived from the estimated densities along a ray, the accurate surface normal leads to more exact depth estimation, which is a key factor for few-shot novel view synthesis. Furthermore, with our proposed Uncertainty-aware Emptiness Loss and Bottleneck Feature Consistency Loss, FlipNeRF is able to estimate more reliable outputs with reducing floating artifacts effectively across the different scene structures, and enhance the feature-level consistency between the pair of the rays cast toward the photo-consistent pixels without any additional feature extractor, respectively. Our FlipNeRF achieves the SOTA performance on the multiple benchmarks across all the scenarios.
翻訳日:2023-07-18 21:42:45 公開日:2023-07-16
# シンセティック・ヒューマングループ活動から学ぶ

Learning from Synthetic Human Group Activities ( http://arxiv.org/abs/2306.16772v2 )

ライセンス: Link先を確認
Che-Jui Chang, Honglu Zhou, Parth Goel, Aditya Bhat, Seonghyeon Moon, Samuel S. Sohn, Sejong Yoon, Vladimir Pavlovic, Mubbasir Kapadia(参考訳) 複雑なヒューマンインタラクションとグループアクティビティの理解は、人間中心のコンピュータビジョンにおいて注目を集めている。 しかし,大規模ラベル付き実世界のデータセットの取得が困難であるため,関連タスクの進行が妨げられている。 この問題を軽減するために,マルチビューマルチパーソン・ヒューマン・アトミック・アクションとグループ・アクティビティ・データジェネレータであるM3Actを提案する。 Unityエンジンによって駆動されるM3Actには、シミュレーション可能な3Dシーンと人的資産、設定可能な照明とカメラシステム、高度にパラメータ化されたモジュラグループアクティビティ、データ生成プロセス中のドメインランダム化が含まれている。 我々のデータジェネレータは、複数の視点、モダリティ(RGB画像、2Dポーズ、3Dモーション)、個人と多人数グループ(2Dバウンディングボックス、2Dセグメンテーションマスク、個別アクション、グループアクティビティカテゴリ)の大規模データセットを生成することができる。 M3Actを用いて2次元骨格に基づくグループ行動認識とRGBに基づく多人数ポーズトラッキングのための合成データ事前学習を行う。 その結果,本合成データセットからの学習により,実世界のデータセットにおけるモデル性能が大幅に向上し,cad2上では5.59%,7.32%,hieveでは6.63%向上した。 合成データによる事前トレーニングは、下流タスク(最大6.8%)におけるモデル収束を高速化する。 さらに、M3Actは3Dグループ活動生成のための新しい研究課題を開く。 m3act3dは87.6時間の3dモーションデータセットで、従来のマルチパーソンデータセットよりもグループサイズが大きく、人間インタラクションの複雑さが高い。 複数のメトリクスを定義し、新しいタスクの競争基準を提案する。

The understanding of complex human interactions and group activities has garnered attention in human-centric computer vision. However, the advancement of the related tasks is hindered due to the difficulty of obtaining large-scale labeled real-world datasets. To mitigate the issue, we propose M3Act, a multi-view multi-group multi-person human atomic action and group activity data generator. Powered by the Unity engine, M3Act contains simulation-ready 3D scenes and human assets, configurable lighting and camera systems, highly parameterized modular group activities, and a large degree of domain randomization during the data generation process. Our data generator is capable of generating large-scale datasets of human activities with multiple viewpoints, modalities (RGB images, 2D poses, 3D motions), and high-quality annotations for individual persons and multi-person groups (2D bounding boxes, instance segmentation masks, individual actions and group activity categories). Using M3Act, we perform synthetic data pre-training for 2D skeleton-based group activity recognition and RGB-based multi-person pose tracking. The results indicate that learning from our synthetic datasets largely improves the model performances on real-world datasets, with the highest gain of 5.59% and 7.32% respectively in group and person recognition accuracy on CAD2, as well as an improvement of 6.63 in MOTP on HiEve. Pre-training with our synthetic data also leads to faster model convergence on downstream tasks (up to 6.8% faster). Moreover, M3Act opens new research problems for 3D group activity generation. We release M3Act3D, an 87.6-hour 3D motion dataset of human activities with larger group sizes and higher complexity of inter-person interactions than previous multi-person datasets. We define multiple metrics and propose a competitive baseline for the novel task.
翻訳日:2023-07-18 21:41:33 公開日:2023-07-16
# VCMのためのエンドツーエンド学習型マルチスケール特徴圧縮

End-to-End Learnable Multi-Scale Feature Compression for VCM ( http://arxiv.org/abs/2306.16670v2 )

ライセンス: Link先を確認
Yeongwoong Kim, Hyewon Jeong, Janghyun Yu, Younhee Kim, Jooyoung Lee, Se Yoon Jeong, and Hui Yong Kim(参考訳) ディープラーニングベースのマシンビジョンアプリケーションの普及により、ビデオ符号化(VCM)と呼ばれる新しいタイプの圧縮が生まれている。 VCMは従来のビデオコーディングとは異なり、人間の視覚的品質ではなく、マシンビジョンのパフォーマンスに最適化されている。 MPEG-VCMの特徴圧縮トラックでは,画像から抽出したマルチスケール特徴を圧縮する。 近年,MPEG-VCM機能アンカーに対するBDレートを最大96%削減できる多目的ビデオ符号化(VVC)標準方式が実証されている。 しかし、vvcは抽出された特徴ではなく、自然画像のために設計されたため、まだ最適ではない。 さらに、VVCの符号化複雑性が高いため、性能を犠牲にすることなく軽量エンコーダの設計が困難になる。 これらの課題に対処するため,我々は,抽出された特徴のエンドツーエンド最適化と軽量エンコーダの設計を両立する,新しいマルチスケール特徴圧縮手法を提案する。 提案モデルは,学習可能な圧縮機とマルチスケール特徴融合ネットワークを組み合わせることで,マルチスケール特徴の冗長性を効果的に除去する。 融合ネットワークと圧縮ネットワークを単純にカスケードする代わりに、融合処理と符号化処理をインターリーブ方式で統合する。 提案モデルでは,まず大規模特徴を符号化して潜伏表現を取得し,さらに小型特徴量で潜伏表現を融合する。 この処理は、最小のスケール特徴が融合するまで連続して行われ、最終段階のエントロピー符号化によりエントロピー符号化が行われる。 その結果、我々のモデルは、BDレートを少なくとも52%削減し、オブジェクト検出のエンコードタイムを$\times5$から$\times27$に短縮した。

The proliferation of deep learning-based machine vision applications has given rise to a new type of compression, so called video coding for machine (VCM). VCM differs from traditional video coding in that it is optimized for machine vision performance instead of human visual quality. In the feature compression track of MPEG-VCM, multi-scale features extracted from images are subject to compression. Recent feature compression works have demonstrated that the versatile video coding (VVC) standard-based approach can achieve a BD-rate reduction of up to 96% against MPEG-VCM feature anchor. However, it is still sub-optimal as VVC was not designed for extracted features but for natural images. Moreover, the high encoding complexity of VVC makes it difficult to design a lightweight encoder without sacrificing performance. To address these challenges, we propose a novel multi-scale feature compression method that enables both the end-to-end optimization on the extracted features and the design of lightweight encoders. The proposed model combines a learnable compressor with a multi-scale feature fusion network so that the redundancy in the multi-scale features is effectively removed. Instead of simply cascading the fusion network and the compression network, we integrate the fusion and encoding processes in an interleaved way. Our model first encodes a larger-scale feature to obtain a latent representation and then fuses the latent with a smaller-scale feature. This process is successively performed until the smallest-scale feature is fused and then the encoded latent at the final stage is entropy-coded for transmission. The results show that our model outperforms previous approaches by at least 52% BD-rate reduction and has $\times5$ to $\times27$ times less encoding time for object detection...
翻訳日:2023-07-18 21:40:59 公開日:2023-07-16
# CMOSスピン量子ビットにおける交換相互作用の経路積分シミュレーション

Path integral simulation of exchange interactions in CMOS spin qubits ( http://arxiv.org/abs/2307.03455v2 )

ライセンス: Link先を確認
Jes\'us D. Cifuentes, Philip Y. Mai, Fr\'ed\'eric Schlattner, H. Ekmel Ercan, MengKe Feng, Christopher C. Escott, Andrew S. Dzurak, Andre Saraiva(参考訳) 半導体量子コンピューティングプラットフォームのブームは、量子デバイスのコンピュータ支援設計と製造の需要を生み出した。 パス積分モンテカルロ(PIMC)は、これらの多電子系にしばしば現れる強い量子相関を本質的に統合するため、この取り組みにおいて重要な役割を果たす。 本稿では,3次元電気的に定義された量子ドットの交換相互作用を推定するPIMCアルゴリズムを提案する。 このモデルをシリコン金属-酸化物-半導体(MOS)デバイスに適用し,FCIシミュレーションとの比較を行った。 アプリケーションとして、単一電荷トラップが2つの交換点に与える影響について検討し、CMOSデバイスの障害に対する耐性をテストするためにこのコードを使用する可能性を明らかにする。 このアルゴリズムはこのシステムの正確な記述を提供し、PIMCアルゴリズムを半導体量子コンピュータの開発に組み込むための最初のステップを設定する。

The boom of semiconductor quantum computing platforms created a demand for computer-aided design and fabrication of quantum devices. Path integral Monte Carlo (PIMC) can have an important role in this effort because it intrinsically integrates strong quantum correlations that often appear in these multi-electron systems. In this paper we present a PIMC algorithm that estimates exchange interactions of three-dimensional electrically defined quantum dots. We apply this model to silicon metal-oxide-semiconductor (MOS) devices and we benchmark our method against well-tested full configuration interaction (FCI) simulations. As an application, we study the impact of a single charge trap on two exchanging dots, opening the possibility of using this code to test the tolerance to disorder of CMOS devices. This algorithm provides an accurate description of this system, setting up an initial step to integrate PIMC algorithms into development of semiconductor quantum computers.
翻訳日:2023-07-18 19:56:54 公開日:2023-07-16
# トランスフォーマーモデルを用いた絵文字予測

Emoji Prediction using Transformer Models ( http://arxiv.org/abs/2307.02054v2 )

ライセンス: Link先を確認
Muhammad Osama Nusrat, Zeeshan Habib, Mehreen Alam and Saad Ahmed Jamal(参考訳) 近年、ソーシャルメディアにおける絵文字の利用は劇的に増加し、オンラインコミュニケーションを理解する上で重要な要素となっている。 しかし,テキスト中の絵文字の意味を予測することは,そのあいまいさから難しい課題である。 本研究では,広く使われている事前学習型言語モデルであるBERTを用いた絵文字予測のためのトランスフォーマーに基づく手法を提案する。 テキストと絵文字の両方を含む大量のテキストコーパスでBERTを微調整し、与えられたテキストに最適な絵文字を予測する。 実験の結果,75%以上の精度で絵文字を予測する手法が最先端モデルよりも優れていることがわかった。 この研究は自然言語処理、感情分析、ソーシャルメディアマーケティングに潜在的な応用がある。

In recent years, the use of emojis in social media has increased dramatically, making them an important element in understanding online communication. However, predicting the meaning of emojis in a given text is a challenging task due to their ambiguous nature. In this study, we propose a transformer-based approach for emoji prediction using BERT, a widely-used pre-trained language model. We fine-tuned BERT on a large corpus of text containing both text and emojis to predict the most appropriate emoji for a given text. Our experimental results demonstrate that our approach outperforms several state-of-the-art models in predicting emojis with an accuracy of over 75 percent. This work has potential applications in natural language processing, sentiment analysis, and social media marketing.
翻訳日:2023-07-18 19:55:55 公開日:2023-07-16
# mvdiffusion:対応認識拡散を用いた総合的多視点画像生成の実現

MVDiffusion: Enabling Holistic Multi-view Image Generation with Correspondence-Aware Diffusion ( http://arxiv.org/abs/2307.01097v2 )

ライセンス: Link先を確認
Shitao Tang, Fuyang Zhang, Jiacheng Chen, Peng Wang, Yasutaka Furukawa(参考訳) 本稿では,パノラマ画像や多視点画像(深度マップとポーズ)など,画素対ピクセル対応が利用可能なシナリオに対して,シンプルで効果的なマルチビュー画像生成手法であるMVDiffusionを紹介する。 反復的なイメージウォーピングとインペインティングに依存する以前のモデルとは異なり、mvdiffusionは、高解像度とリッチなコンテンツを含むグローバルアウェアネスを持つ全ての画像を同時に生成し、前モデルで広く普及したエラー蓄積を効果的に解決する。 MVDiffusionは特に、効果的なクロスビューインタラクションを可能にする対応対応型アテンション機構を組み込んでいる。 このメカニズムは3つの重要なモジュールを支える。 1)グローバル対応を維持しつつ低解像度画像を生成する生成モジュール 2)画像間の空間被覆を拡大する補間モジュール及び 3) 高解像度出力にスケールアップ可能なスーパーレゾリューションモジュール。 パノラマ画像に関しては、mvdiffusionは1024$\times$1024ピクセルの高解像度フォトリアリスティック画像を生成することができる。 幾何条件のマルチビュー画像生成では、MVDiffusionはシーンメッシュのテクスチャマップを生成する最初の方法を示す。 プロジェクトページはhttps://mvdiffusion.github.ioにある。

This paper introduces MVDiffusion, a simple yet effective multi-view image generation method for scenarios where pixel-to-pixel correspondences are available, such as perspective crops from panorama or multi-view images given geometry (depth maps and poses). Unlike prior models that rely on iterative image warping and inpainting, MVDiffusion concurrently generates all images with a global awareness, encompassing high resolution and rich content, effectively addressing the error accumulation prevalent in preceding models. MVDiffusion specifically incorporates a correspondence-aware attention mechanism, enabling effective cross-view interaction. This mechanism underpins three pivotal modules: 1) a generation module that produces low-resolution images while maintaining global correspondence, 2) an interpolation module that densifies spatial coverage between images, and 3) a super-resolution module that upscales into high-resolution outputs. In terms of panoramic imagery, MVDiffusion can generate high-resolution photorealistic images up to 1024$\times$1024 pixels. For geometry-conditioned multi-view image generation, MVDiffusion demonstrates the first method capable of generating a textured map of a scene mesh. The project page is at https://mvdiffusion.github.io.
翻訳日:2023-07-18 19:55:43 公開日:2023-07-16
# ビデオ分類における段階的知識蒸留:補足的弱監視フレームワークによる学生の進歩の調和

The Staged Knowledge Distillation in Video Classification: Harmonizing Student Progress by a Complementary Weakly Supervised Framework ( http://arxiv.org/abs/2307.05201v3 )

ライセンス: Link先を確認
Chao Wang, Zheng Tang(参考訳) ビデオデータにおけるラベル効率学習の文脈では, 蒸留法と教師-学生アーキテクチャの構造設計が知識蒸留に大きな影響を及ぼす。 しかし、これらの要因の関係は以前の研究では見過ごされている。 このギャップに対処するために,学生モデルの効率と精度を向上させるために,ビデオ分類における知識蒸留のための弱教師付き学習フレームワークを提案する。 本手法は,サブステージ学習の概念を活用し,学生サブステージとそれに対応するサブステージの相関関係に基づいて知識を蒸留する。 また,教師と生徒の容量差が大きいことによって生じる精度損失に対処するために,プログレッシブ・カスケード・トレーニング手法を用いた。 さらに,初期データラベルを改善するための擬似ラベル最適化戦略を提案する。 訓練過程における蒸留サブステージの損失関数を最適化するために,特徴分布に基づく新しい損失法を提案する。 実データとシミュレーションデータの両方について広範な実験を行い,ビデオ分類作業における知識蒸留の観点から,提案手法が既存の蒸留方法より優れていることを示す。 提案手法は,ビデオデータに対するラベル効率学習の今後の研究の可能性を秘めている。

In the context of label-efficient learning on video data, the distillation method and the structural design of the teacher-student architecture have a significant impact on knowledge distillation. However, the relationship between these factors has been overlooked in previous research. To address this gap, we propose a new weakly supervised learning framework for knowledge distillation in video classification that is designed to improve the efficiency and accuracy of the student model. Our approach leverages the concept of substage-based learning to distill knowledge based on the combination of student substages and the correlation of corresponding substages. We also employ the progressive cascade training method to address the accuracy loss caused by the large capacity gap between the teacher and the student. Additionally, we propose a pseudo-label optimization strategy to improve the initial data label. To optimize the loss functions of different distillation substages during the training process, we introduce a new loss method based on feature distribution. We conduct extensive experiments on both real and simulated data sets, demonstrating that our proposed approach outperforms existing distillation methods in terms of knowledge distillation for video classification tasks. Our proposed substage-based distillation approach has the potential to inform future research on label-efficient learning for video data.
翻訳日:2023-07-18 19:46:42 公開日:2023-07-16
# 非造影CTスキャンを用いた胃癌検診のためのクラスター誘発マスクトランス

Cluster-Induced Mask Transformers for Effective Opportunistic Gastric Cancer Screening on Non-contrast CT Scans ( http://arxiv.org/abs/2307.04525v2 )

ライセンス: Link先を確認
Mingze Yuan, Yingda Xia, Xin Chen, Jiawen Yao, Junli Wang, Mingyan Qiu, Hexin Dong, Jingren Zhou, Bin Dong, Le Lu, Li Zhang, Zaiyi Liu, Ling Zhang(参考訳) 胃癌は、がん関連死亡の3番目の原因であるが、ガイドラインで推奨されるスクリーニング試験は存在していない。 既存の方法は侵襲的で費用がかかり、早期胃癌の診断に感度が欠如している。 本研究では,非造影CTによる胃癌検出における深層学習の有用性について検討した。 マルチタスク方式で腫瘍を共同分割し異常を分類する新規なクラスタ誘導型マスクトランスを提案する。 本モデルでは, 胃癌のテクスチャと形状のプロトタイプを符号化する学習可能なクラスタを組み込んで, 畳み込みの特徴と相互作用するために, 自己および横断的意図を利用する。 本実験では,100例のがん患者と148例の正常例からなるホールドアウトテストセットにおいて,胃癌の検出に85.0%の感度と92.6%の特異性を実現する。 2人の放射線学者の平均感度は73.5%、特異性は84.3%である。 また,903例の外部試験群では97.7%の特異性を得た。 本手法は血液検査や内視鏡検査などの確立した最先端胃癌スクリーニングツールと相性が良く,早期胃癌の検出にもより敏感である。 本研究は胃癌検診における新規,非侵襲的,低コスト,高精度な方法としての可能性を示すものである。

Gastric cancer is the third leading cause of cancer-related mortality worldwide, but no guideline-recommended screening test exists. Existing methods can be invasive, expensive, and lack sensitivity to identify early-stage gastric cancer. In this study, we explore the feasibility of using a deep learning approach on non-contrast CT scans for gastric cancer detection. We propose a novel cluster-induced Mask Transformer that jointly segments the tumor and classifies abnormality in a multi-task manner. Our model incorporates learnable clusters that encode the texture and shape prototypes of gastric cancer, utilizing self- and cross-attention to interact with convolutional features. In our experiments, the proposed method achieves a sensitivity of 85.0% and specificity of 92.6% for detecting gastric tumors on a hold-out test set consisting of 100 patients with cancer and 148 normal. In comparison, two radiologists have an average sensitivity of 73.5% and specificity of 84.3%. We also obtain a specificity of 97.7% on an external test set with 903 normal cases. Our approach performs comparably to established state-of-the-art gastric cancer screening tools like blood testing and endoscopy, while also being more sensitive in detecting early-stage cancer. This demonstrates the potential of our approach as a novel, non-invasive, low-cost, and accurate method for opportunistic gastric cancer screening.
翻訳日:2023-07-18 19:45:57 公開日:2023-07-16
# 可変長複合意味摂動の多目的進化探索

Multi-objective Evolutionary Search of Variable-length Composite Semantic Perturbations ( http://arxiv.org/abs/2307.06548v2 )

ライセンス: Link先を確認
Jialiang Sun, Wen Yao, Tingsong Jiang, Xiaoqian Chen(参考訳) ディープニューラルネットワークは、画像に特定の摂動を加えて間違った出力をするという形で、敵の攻撃に弱いことが証明されている。 より強力な敵攻撃法を設計することで、DNNモデルの堅牢性をより確実に評価することができる。 港の負担を解放し、攻撃性能を向上させるため、オート機械学習(AutoML)は、近距離攻撃戦略の自動発見に成功している。 しかし、敵攻撃のためのAutoMLに関する既存の研究は、$L_{\infty}$-normベースの摂動のみに焦点を当てている。 実際、セマンティックな摂動は自然性や物理的実現可能性によって注目を集めている。 本稿では,オートMLとセマンティック・アタックのギャップを埋めるために,可変長合成意味摂動(MES-VCSP)の多目的進化探索法を提案する。 具体的には,5つの勾配に基づくセマンティックアタック法を提供する可変長合成セマンティック摂動の数学的モデルを構築した。 攻撃シーケンスにおける同じタイプの摂動を複数回行うことができる。 さらに、NSGA-IIと近隣探索からなる多目的進化探索を導入し、ほぼ最適な可変長攻撃シーケンスを求める。 CIFAR10とImageNetデータセットの実験結果から、MES-VCSPは既存の手法と比較して、より高い攻撃成功率、より自然性、より少ない時間コストで敵の例を得ることができることが示された。

Deep neural networks have proven to be vulnerable to adversarial attacks in the form of adding specific perturbations on images to make wrong outputs. Designing stronger adversarial attack methods can help more reliably evaluate the robustness of DNN models. To release the harbor burden and improve the attack performance, auto machine learning (AutoML) has recently emerged as one successful technique to help automatically find the near-optimal adversarial attack strategy. However, existing works about AutoML for adversarial attacks only focus on $L_{\infty}$-norm-based perturbations. In fact, semantic perturbations attract increasing attention due to their naturalnesses and physical realizability. To bridge the gap between AutoML and semantic adversarial attacks, we propose a novel method called multi-objective evolutionary search of variable-length composite semantic perturbations (MES-VCSP). Specifically, we construct the mathematical model of variable-length composite semantic perturbations, which provides five gradient-based semantic attack methods. The same type of perturbation in an attack sequence is allowed to be performed multiple times. Besides, we introduce the multi-objective evolutionary search consisting of NSGA-II and neighborhood search to find near-optimal variable-length attack sequences. Experimental results on CIFAR10 and ImageNet datasets show that compared with existing methods, MES-VCSP can obtain adversarial examples with a higher attack success rate, more naturalness, and less time cost.
翻訳日:2023-07-18 19:38:05 公開日:2023-07-16
# 巨人を解き放つ:コーディングアルゴリズムとデータ構造におけるChatGPTの習熟度に関する包括的評価

Unmasking the giant: A comprehensive evaluation of ChatGPT's proficiency in coding algorithms and data structures ( http://arxiv.org/abs/2307.05360v2 )

ライセンス: Link先を確認
Sayed Erfan Arefin, Tasnia Ashrafi Heya, Hasan Al-Qudah, Ynes Ineza, Abdul Serwadda(参考訳) 大規模言語モデル(LLM)の変革的影響は、人工知能(AI)技術領域を根本的に変えている。 特にChatGPTは、これらのモデル内で自分自身を区別し、マルチターン会話において顕著なパフォーマンスを示し、さまざまな言語でコード習熟度を示す。 本稿では,過去最大のコーディング課題のカタログに基づいて,chatgptのコーディング能力の包括的評価を行う。 我々の焦点はピソンプログラミング言語とデータ構造とアルゴリズムを中心とした問題であり、コンピュータ科学の根底にある2つのトピックである。 chatgptは、その問題に対する正しい解決策を生成する能力、コード品質、コードによって投げられるランタイムエラーの性質を評価します。 ChatGPTコードが正常に実行されるが、その問題の解決に失敗した場合、我々は、ChatGPTコードがこの種の状況でどのように間違っているかを知るために、通過したテストケースのパターンを調べる。 ChatGPTがトレーニングに使われたデータのいくつかを直接記憶したかどうかを推測するため、我々はこの現象を調査するための実験を体系的に設計した。 人間のパフォーマンスを常に比較し、基礎となる学習モデル(gpt-3.5とgpt-4)の文脈、メイントピック内の膨大な配列のサブトピック、難易度が異なる問題などから、上記の全ての質問を考察する。

The transformative influence of Large Language Models (LLMs) is profoundly reshaping the Artificial Intelligence (AI) technology domain. Notably, ChatGPT distinguishes itself within these models, demonstrating remarkable performance in multi-turn conversations and exhibiting code proficiency across an array of languages. In this paper, we carry out a comprehensive evaluation of ChatGPT's coding capabilities based on what is to date the largest catalog of coding challenges. Our focus is on the python programming language and problems centered on data structures and algorithms, two topics at the very foundations of Computer Science. We evaluate ChatGPT for its ability to generate correct solutions to the problems fed to it, its code quality, and nature of run-time errors thrown by its code. Where ChatGPT code successfully executes, but fails to solve the problem at hand, we look into patterns in the test cases passed in order to gain some insights into how wrong ChatGPT code is in these kinds of situations. To infer whether ChatGPT might have directly memorized some of the data that was used to train it, we methodically design an experiment to investigate this phenomena. Making comparisons with human performance whenever feasible, we investigate all the above questions from the context of both its underlying learning models (GPT-3.5 and GPT-4), on a vast array sub-topics within the main topics, and on problems having varying degrees of difficulty.
翻訳日:2023-07-18 19:35:15 公開日:2023-07-16
# デュアルレギュレータを用いたフェデレーション半教師あり学習におけるデータ不均衡

Combating Data Imbalances in Federated Semi-supervised Learning with Dual Regulators ( http://arxiv.org/abs/2307.05358v2 )

ライセンス: Link先を確認
Sikai Bai, Shuaicheng Li, Weiming Zhuang, Jie Zhang, Song Guo, Kunlin Yang, Jun Hou, Shuai Zhang, Junyu Gao, Shuai Yi(参考訳) 分散学習は分散異種データから学ぶための一般的な方法となっている。 フェデレーション半教師付き学習(FSSL)は、分散クライアントのラベル不足により、ラベル付きデータのごく一部からモデルをトレーニングするために現れる。 既存のFSSLメソッドは、クライアント間で独立および同一に分散された(IID)ラベル付きデータと、クライアント内でラベル付きおよび未ラベル付きデータ間の一貫性のあるクラス分散を前提としている。 この研究は、クライアント間だけでなく、ラベル付きデータとラベルなしデータの間でデータ分散が異なる、FSSLのより実践的で困難なシナリオを研究する。 この課題に対処するために、デュアルレギュレータであるFedDureを用いた新しいFSSLフレームワークを提案する。 c-regはラベル付きデータ分散の学習効果を追跡することでローカルモデルの更新を規則化し、f-regは各クライアントのラベル付きインスタンス用に調整された適応重み付けスキームを学習する。 さらに,2つのレギュレータを用いてクライアント内のモデルを適応的に最適化するバイレベル最適化として,クライアントモデルのトレーニングを定式化する。 理論的には、二重レギュレータの収束保証を示す。 CIFAR-10 と CINIC-10 データセットでは,FedDure が既存の手法よりも幅広い設定で優れていることが実証されている。

Federated learning has become a popular method to learn from decentralized heterogeneous data. Federated semi-supervised learning (FSSL) emerges to train models from a small fraction of labeled data due to label scarcity on decentralized clients. Existing FSSL methods assume independent and identically distributed (IID) labeled data across clients and consistent class distribution between labeled and unlabeled data within a client. This work studies a more practical and challenging scenario of FSSL, where data distribution is different not only across clients but also within a client between labeled and unlabeled data. To address this challenge, we propose a novel FSSL framework with dual regulators, FedDure.} FedDure lifts the previous assumption with a coarse-grained regulator (C-reg) and a fine-grained regulator (F-reg): C-reg regularizes the updating of the local model by tracking the learning effect on labeled data distribution; F-reg learns an adaptive weighting scheme tailored for unlabeled instances in each client. We further formulate the client model training as bi-level optimization that adaptively optimizes the model in the client with two regulators. Theoretically, we show the convergence guarantee of the dual regulators. Empirically, we demonstrate that FedDure is superior to the existing methods across a wide range of settings, notably by more than 11% on CIFAR-10 and CINIC-10 datasets.
翻訳日:2023-07-18 19:34:48 公開日:2023-07-16
# Video-FocalNets:ビデオ行動認識のための時空間修正

Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action Recognition ( http://arxiv.org/abs/2307.06947v2 )

ライセンス: Link先を確認
Syed Talal Wasim, Muhammad Uzair Khattak, Muzammal Naseer, Salman Khan, Mubarak Shah, Fahad Shahbaz Khan(参考訳) 最近のビデオ認識モデルは、長距離時空間モデリングにTransformerモデルを使用している。 ビデオトランスフォーマーの設計は、高い計算コストでグローバルコンテキストをモデル化できるセルフアテンションに基づいている。 比較として、ビデオの畳み込み設計は効率的な代替手段を提供するが、長距離依存モデリングは欠如している。 この研究は、両方の設計のベストを達成するために、ローカルコンテキストとグローバルコンテキストの両方をモデル化した、ビデオ認識のための効率的かつ効率的なアーキテクチャであるVideo-FocalNetを提案する。 Video-FocalNetは、より効率的な自己注意の相互作用と集約ステップを反転させる、時空間焦点変調アーキテクチャに基づいている。 さらに、アグリゲーションステップとインタラクションステップは、効率的な畳み込みと、ビデオ表現上の自己注意処理よりも計算コストの低い要素乗算演算を用いて実装される。 焦点変調に基づく時空間空間モデルの設計空間を広範に検討し、並列空間および時空間符号化設計が最適選択であることを示す。 Video-FocalNetsは3つの大規模データセット(Kinetics-400, Kinetics-600, SS-v2)上のビデオ認識のための最先端のトランスフォーマーベースモデルに対して、より少ない計算コストで好適に動作する。 私たちのコード/モデルはhttps://github.com/talalwasim/video-focalnetsでリリースしています。

Recent video recognition models utilize Transformer models for long-range spatio-temporal context modeling. Video transformer designs are based on self-attention that can model global context at a high computational cost. In comparison, convolutional designs for videos offer an efficient alternative but lack long-range dependency modeling. Towards achieving the best of both designs, this work proposes Video-FocalNet, an effective and efficient architecture for video recognition that models both local and global contexts. Video-FocalNet is based on a spatio-temporal focal modulation architecture that reverses the interaction and aggregation steps of self-attention for better efficiency. Further, the aggregation step and the interaction step are both implemented using efficient convolution and element-wise multiplication operations that are computationally less expensive than their self-attention counterparts on video representations. We extensively explore the design space of focal modulation-based spatio-temporal context modeling and demonstrate our parallel spatial and temporal encoding design to be the optimal choice. Video-FocalNets perform favorably well against the state-of-the-art transformer-based models for video recognition on three large-scale datasets (Kinetics-400, Kinetics-600, and SS-v2) at a lower computational cost. Our code/models are released at https://github.com/TalalWasim/Video-FocalNets.
翻訳日:2023-07-18 19:24:47 公開日:2023-07-16
# 多層合成有限要素モデルシミュレーションによるカーボンナノチューブ(cnt)像の力学特性の予測

Predicting mechanical properties of Carbon Nanotube (CNT) images Using Multi-Layer Synthetic Finite Element Model Simulations ( http://arxiv.org/abs/2307.07912v1 )

ライセンス: Link先を確認
Kaveh Safavigerdini, Koundinya Nouduri, Ramakrishna Surya, Andrew Reinhard, Zach Quinlan, Filiz Bunyak, Matthew R. Maschmann, Kannappan Palaniappan(参考訳) 本稿では,AIに基づく材料発見のためのディープラーニングモデルを用いて,垂直方向のカーボンナノチューブ(CNT)森林画像の力学的特性を予測するパイプラインを提案する。 本手法は,2次元合成画像をブレンドして生成する多層合成(mls)または準2.5d画像を用いた革新的なデータ拡張手法を取り入れている。 mls画像は3d合成・実走査電子顕微鏡(sem)画像によく似ているが、高価な3dシミュレーションや実験を行う計算コストは伴わない。 物理モデルを用いて, MLS画像の剛性や座屈荷重などの力学特性を推定した。 提案したディープラーニングアーキテクチャであるCNTNeXtは、ResNeXtの特徴表現とランダム森林回帰推定器を用いて、これまでのCNTNetニューラルネットワーク上に構築されている。 合成画像の混合集合を利用してCNT物理特性を予測する機械学習手法は, 実走査電子顕微鏡画像の力学的特性の予測において, 単一合成画像ベース学習より優れていることが期待される。 これは、多様な用途において、CNT森林の自己集合の理解と制御を加速する可能性がある。

We present a pipeline for predicting mechanical properties of vertically-oriented carbon nanotube (CNT) forest images using a deep learning model for artificial intelligence (AI)-based materials discovery. Our approach incorporates an innovative data augmentation technique that involves the use of multi-layer synthetic (MLS) or quasi-2.5D images which are generated by blending 2D synthetic images. The MLS images more closely resemble 3D synthetic and real scanning electron microscopy (SEM) images of CNTs but without the computational cost of performing expensive 3D simulations or experiments. Mechanical properties such as stiffness and buckling load for the MLS images are estimated using a physics-based model. The proposed deep learning architecture, CNTNeXt, builds upon our previous CNTNet neural network, using a ResNeXt feature representation followed by random forest regression estimator. Our machine learning approach for predicting CNT physical properties by utilizing a blended set of synthetic images is expected to outperform single synthetic image-based learning when it comes to predicting mechanical properties of real scanning electron microscopy images. This has the potential to accelerate understanding and control of CNT forest self-assembly for diverse applications.
翻訳日:2023-07-18 17:10:29 公開日:2023-07-16
# MESOB:均衡均衡と社会的最適性

MESOB: Balancing Equilibria & Social Optimality ( http://arxiv.org/abs/2307.07911v1 )

ライセンス: Link先を確認
Xin Guo, Lihong Li, Sareh Nabi, Rabih Salhab, Junzi Zhang(参考訳) 本稿では,オンライン広告オークションにおける入札提案に動機づけられたマルチレベルゲームとマルチエージェントゲームという2つの主要な特徴について考察する。 このような複雑なシステムをモデル化するために,mesob(mean-field equilibria & social optimality balancing)と呼ばれる平均場近似による新規で扱いやすい二目的最適化定式化と,それを解決するためのmesob-omo法を提案する。 MESOB-OMOは、MESOBにおける競合と協力の二重目的という観点でおよそパレート効率の良い解を得ることができ、特に漸近的にナッシュ平衡の選択と社会的等化が可能である。 我々はMESOB-OMOを、クリック単価をシミュレーションした広告オークションで推薦する。 実験は、異なる政党の利益のバランスをとること、入札者の競争的な性質を扱うこと、および競争的側面と協力的側面のみを考慮するベースラインよりも有利であることを示す。

Motivated by bid recommendation in online ad auctions, this paper considers a general class of multi-level and multi-agent games, with two major characteristics: one is a large number of anonymous agents, and the other is the intricate interplay between competition and cooperation. To model such complex systems, we propose a novel and tractable bi-objective optimization formulation with mean-field approximation, called MESOB (Mean-field Equilibria & Social Optimality Balancing), as well as an associated occupation measure optimization (OMO) method called MESOB-OMO to solve it. MESOB-OMO enables obtaining approximately Pareto efficient solutions in terms of the dual objectives of competition and cooperation in MESOB, and in particular allows for Nash equilibrium selection and social equalization in an asymptotic manner. We apply MESOB-OMO to bid recommendation in a simulated pay-per-click ad auction. Experiments demonstrate its efficacy in balancing the interests of different parties and in handling the competitive nature of bidders, as well as its advantages over baselines that only consider either the competitive or the cooperative aspects.
翻訳日:2023-07-18 17:10:09 公開日:2023-07-16
# イミテーションは必要か? デュアルフェーズトレーニングによる一般化意思決定

Is Imitation All You Need? Generalized Decision-Making with Dual-Phase Training ( http://arxiv.org/abs/2307.07909v1 )

ライセンス: Link先を確認
Yao Wei and Yanchao Sun and Ruijie Zheng and Sai Vemprala and Rogerio Bonatti and Shuhang Chen and Ratnesh Madaan and Zhongjie Ba and Ashish Kapoor and Shuang Ma(参考訳) 本稿では,現在の手法が抱える課題,例えば過剰適合行動やタスク固有の微調整に依存する問題に対処する,さまざまな意思決定タスクに取り組むためのジェネラリストエージェントであるdualmindを紹介する。 DualMindは、人間が世界でどのように行動するかをエミュレートする新しい「デュアルフェーズ」トレーニング戦略を使用している。 モデルはまず、制御タスク用に調整された自己教師付き目標を通じて基本的な共通知識を学び、その後、与えられたプロンプトに基づいて条件づけされた行動を模倣して、異なるコンテキストに基づいて意思決定を行う方法を学ぶ。 DualMindは1セットのモデル重みだけで、ドメイン、シーン、実施状況のタスクを処理でき、タスク固有の微調整を必要とせずにゼロショットプロンプトを実行することができる。 我々は,MetaWorld と Habitat の DualMind を広範囲な実験により評価し,従来の手法に比べて優れた一般化性を示し,Habitat と MetaWorld の 70$\% 以上のジェネラリストエージェントをそれぞれ50$\% 以上上回った。 MetaWorldの45のタスクでは、DualMindは90$\%の成功率で30以上のタスクを達成している。

We introduce DualMind, a generalist agent designed to tackle various decision-making tasks that addresses challenges posed by current methods, such as overfitting behaviors and dependence on task-specific fine-tuning. DualMind uses a novel "Dual-phase" training strategy that emulates how humans learn to act in the world. The model first learns fundamental common knowledge through a self-supervised objective tailored for control tasks and then learns how to make decisions based on different contexts through imitating behaviors conditioned on given prompts. DualMind can handle tasks across domains, scenes, and embodiments using just a single set of model weights and can execute zero-shot prompting without requiring task-specific fine-tuning. We evaluate DualMind on MetaWorld and Habitat through extensive experiments and demonstrate its superior generalizability compared to previous techniques, outperforming other generalist agents by over 50$\%$ and 70$\%$ on Habitat and MetaWorld, respectively. On the 45 tasks in MetaWorld, DualMind achieves over 30 tasks at a 90$\%$ success rate.
翻訳日:2023-07-18 17:09:49 公開日:2023-07-16
# 分散量子コンピューティングのためのアーキテクチャと回路

Architectures and circuits for distributed quantum computing ( http://arxiv.org/abs/2307.07908v1 )

ライセンス: Link先を確認
Daniele Cuomo(参考訳) この論文は、分散パラダイムに基づく量子計算を提供するネットワークを扱う。 1つのプロセッサに依存するアーキテクチャと比較すると、ネットワークはよりスケーラブルで障害の少ないものになる。 実用的な量子計算を提供する分散システムの開発には多くの課題が伴うが、適切に設計された複数のコンポーネントの大規模な統合を構築するためには、慎重に分析する必要がある。 現在世界中で建設中のハードウェア技術に従って、テレゲートはプロセッサ間の基本的な操作を表す。 各テレゲートはいくつかのタスクから構成される。 一 絡み合いの発生及び分布 二 地方事業、及び iii) 古典的コミュニケーション。 エンタングルメントの生成と配布は時間を要するので、高価なリソースである。 この論文の主な貢献は、全体的な忠実度に対するテレゲートの影響を最小限に抑えるコンパイラの定義である。 具体的には、対象問題の厳密な定式化を行い、計算と通信の相互依存を識別する。 推論のための最良のツール、すなわち、ネットワーク最適化、回路操作、グループ理論、ZX計算のサポートにより、分散量子コンピューティングシステムの進化方法に関する新たな視点が発見された。

This thesis treats networks providing quantum computation based on distributed paradigms. Compared to architectures relying on one processor, a network promises to be more scalable and less fault-prone. Developing a distributed system able to provide practical quantum computation comes with many challenges, each of which need to be faced with careful analysis in order to create a massive integration of several components properly engineered. In accordance with hardware technologies, currently under construction around the globe, telegates represent the fundamental inter-processor operations. Each telegate consists of several tasks: i) entanglement generation and distribution, ii) local operations, and iii) classical communications. Entanglement generation and distribution is an expensive resource, as it is time-consuming. The main contribution of this thesis is on the definition of compilers that minimize the impact of telegates on the overall fidelity. Specifically, we give rigorous formulations of the subject problem, allowing us to identify the inter-dependence between computation and communication. With the support of some of the best tools for reasoning -- i.e. network optimization, circuit manipulation, group theory and ZX-calculus -- we found new perspectives on the way a distributed quantum computing system should evolve.
翻訳日:2023-07-18 17:09:27 公開日:2023-07-16
# コントラスト型マルチタスクデンス予測

Contrastive Multi-Task Dense Prediction ( http://arxiv.org/abs/2307.07934v1 )

ライセンス: Link先を確認
Siwei Yang, Hanrong Ye, Dan Xu(参考訳) 本稿では,複数の高密度な予測タスクを1つのフレームワークで同時に学習し,推論することを目的としたマルチタスク高密度予測問題を提案する。 設計の核となる目標は、タスク間の相互作用を効果的にモデル化し、それらの固有の相補性と一貫性に基づいて異なるタスクの包括的な改善を達成する方法である。 既存の研究は、訓練と推論の両方において異なるタスク固有の特徴間の明示的な相互作用計算を実行するために、余分な高価な蒸留モジュールを設計し、異なるタスクセットへの適応が困難になり、マルチタスクモデルのサイズが明らかに大きくなるために効率が低下する。 対照的に、マルチタスク密接な予測のためのクロスタスク相互作用のモデル化に、機能的コントラスト整合を導入する。 本稿では,異なるサブタスクの表現学習を効果的に促進するために,一貫性に基づく新しいマルチタスクコントラスト正規化手法を提案する。 2つの挑戦的データセット(例えばNYUD-v2とPascal-Context)に対する大規模な実験は、高密度予測のためのマルチタスクコントラスト学習アプローチの優位性を明確に示し、新しい最先端のパフォーマンスを確立する。

This paper targets the problem of multi-task dense prediction which aims to achieve simultaneous learning and inference on a bunch of multiple dense prediction tasks in a single framework. A core objective in design is how to effectively model cross-task interactions to achieve a comprehensive improvement on different tasks based on their inherent complementarity and consistency. Existing works typically design extra expensive distillation modules to perform explicit interaction computations among different task-specific features in both training and inference, bringing difficulty in adaptation for different task sets, and reducing efficiency due to clearly increased size of multi-task models. In contrast, we introduce feature-wise contrastive consistency into modeling the cross-task interactions for multi-task dense prediction. We propose a novel multi-task contrastive regularization method based on the consistency to effectively boost the representation learning of the different sub-tasks, which can also be easily generalized to different multi-task dense prediction frameworks, and costs no additional computation in the inference. Extensive experiments on two challenging datasets (i.e. NYUD-v2 and Pascal-Context) clearly demonstrate the superiority of the proposed multi-task contrastive learning approach for dense predictions, establishing new state-of-the-art performances.
翻訳日:2023-07-18 17:02:18 公開日:2023-07-16
# Few-Shot VOSのためのホロスティックなプロトタイプアテンションネットワーク

Holistic Prototype Attention Network for Few-Shot VOS ( http://arxiv.org/abs/2307.07933v1 )

ライセンス: Link先を確認
Yin Tang, Tao Chen, Xiruo Jiang, Yazhou Yao, Guo-Sen Xie, and Heng-Tao Shen(参考訳) 少数ショットビデオオブジェクトセグメンテーション(fsvos)は、ピクセルレベルのオブジェクトアノテーションを含む小さなサポートイメージセットを使用することで、目に見えないクラスの動的オブジェクトをセグメンテーションすることを目的としている。 既存の手法では、サポート画像とクエリフレームの相関関係を学習することにより、ドメインエージェントベースのアテンションメカニズムがFSVOSに有効であることを示した。 しかし、エージェントフレームには冗長な画素情報とバックグラウンドノイズが含まれており、セグメンテーション性能が劣る。 さらに,既存手法はクエリビデオのフレーム間相関を無視する傾向にある。 上記のジレンマを緩和するために,FSVOSを前進させるための総合プロトタイプアテンションネットワーク(HPAN)を提案する。 具体的には、プロトタイプグラフアテンションモジュール (PGAM) と双方向プロトタイプアテンションモジュール (BPAM) を導入し、見知らぬクラスに情報を伝達する。 PGAMは、すべての前景特徴から局所プロトタイプを生成し、その内部相関を利用して、総合的なプロトタイプの表現を強化する。 BPAMは、サポート・クエリのセマンティック一貫性と内部フレームの時間一貫性を達成するために、コアテンションと自己アテンションを融合することにより、サポート画像とビデオフレームからの全体的情報を利用する。 提案手法の有効性と優位性を示すため,YouTube-FSVOSの大規模な実験を行った。

Few-shot video object segmentation (FSVOS) aims to segment dynamic objects of unseen classes by resorting to a small set of support images that contain pixel-level object annotations. Existing methods have demonstrated that the domain agent-based attention mechanism is effective in FSVOS by learning the correlation between support images and query frames. However, the agent frame contains redundant pixel information and background noise, resulting in inferior segmentation performance. Moreover, existing methods tend to ignore inter-frame correlations in query videos. To alleviate the above dilemma, we propose a holistic prototype attention network (HPAN) for advancing FSVOS. Specifically, HPAN introduces a prototype graph attention module (PGAM) and a bidirectional prototype attention module (BPAM), transferring informative knowledge from seen to unseen classes. PGAM generates local prototypes from all foreground features and then utilizes their internal correlations to enhance the representation of the holistic prototypes. BPAM exploits the holistic information from support images and video frames by fusing co-attention and self-attention to achieve support-query semantic consistency and inner-frame temporal consistency. Extensive experiments on YouTube-FSVOS have been provided to demonstrate the effectiveness and superiority of our proposed HPAN method.
翻訳日:2023-07-18 17:01:55 公開日:2023-07-16
# マルチチャンネルカラー画像復調のための新しいノーム正規化法

A Novel Truncated Norm Regularization Method for Multi-channel Color Image Denoising ( http://arxiv.org/abs/2307.07932v1 )

ライセンス: Link先を確認
Yiwen Shan, Dong Hu, Haoming Ding, Chunming Yang, Zhi Wang(参考訳) 高い柔軟性と顕著な性能のため、低位近似法はカラー画像のノイズ化のために広く研究されている。 しかし、これらの手法は、実世界のカラー画像のノイズの容量を制限するクロスチャネル差やノイズの空間的変動をほとんど無視する。 これらの欠点を克服するために,二重重み付き核ノルムminus truncated frobenius norm minimization (dtnfm) 法によるカラー画像のノイズ除去を提案する。 ノイズ画像の非局所的自己相似性を利用して類似した構造を収集し、類似したパッチ行列を構築する。 各グループについて、dtnfmモデルを実行し、その分別バージョンを推定する。 切り離された画像は、全ての切り離されたパッチ行列を連結することで得られる。 DtNFMモデルには2つの利点がある。 まず、チャネル間差とノイズの空間的変動の両方をモデル化し、活用する。 これにより、現実世界の画像におけるノイズの複雑な分布を扱うのに十分な柔軟性が得られる。 第二に、提案したDtNFMモデルは、異なるランク成分を柔軟に扱うことができるため、基礎となるクリーンマトリックスに近似を与える。 DtNFMモデルから得られた問題を解決するために,乗算器の交互方向法(ADMM)の枠組みを利用して,高精度かつ効率的なアルゴリズムを提案する。 生成された部分問題について詳細に論じる。 そして、それらのグローバルオプティマは、クローズドフォームで簡単に得ることができる。 厳密な数学的導出は、アルゴリズムによって生成された解列が一つの臨界点に収束することを証明する。 合成および実ノイズデータセットに関する広範囲な実験により,提案手法が最先端のカラー画像デノイジング法よりも優れていることが示された。

Due to the high flexibility and remarkable performance, low-rank approximation methods has been widely studied for color image denoising. However, those methods mostly ignore either the cross-channel difference or the spatial variation of noise, which limits their capacity in real world color image denoising. To overcome those drawbacks, this paper is proposed to denoise color images with a double-weighted truncated nuclear norm minus truncated Frobenius norm minimization (DtNFM) method. Through exploiting the nonlocal self-similarity of the noisy image, the similar structures are gathered and a series of similar patch matrices are constructed. For each group, the DtNFM model is conducted for estimating its denoised version. The denoised image would be obtained by concatenating all the denoised patch matrices. The proposed DtNFM model has two merits. First, it models and utilizes both the cross-channel difference and the spatial variation of noise. This provides sufficient flexibility for handling the complex distribution of noise in real world images. Second, the proposed DtNFM model provides a close approximation to the underlying clean matrix since it can treat different rank components flexibly. To solve the problem resulted from DtNFM model, an accurate and effective algorithm is proposed by exploiting the framework of the alternating direction method of multipliers (ADMM). The generated subproblems are discussed in detail. And their global optima can be easily obtained in closed-form. Rigorous mathematical derivation proves that the solution sequences generated by the algorithm converge to a single critical point. Extensive experiments on synthetic and real noise datasets demonstrate that the proposed method outperforms many state-of-the-art color image denoising methods.
翻訳日:2023-07-18 17:01:30 公開日:2023-07-16
# GeoGPT:自律型GPTによる地理空間課題の理解と処理

GeoGPT: Understanding and Processing Geospatial Tasks through An Autonomous GPT ( http://arxiv.org/abs/2307.07930v1 )

ライセンス: Link先を確認
Yifan Zhang, Cheng Wei, Shangyou Wu, Zhengting He, Wenhao Yu(参考訳) GISの意思決定者は、空間的タスクを解決するために、一連の空間的アルゴリズムと演算を組み合わせる必要がある。 例えば、施設のシッティングのタスクでは、バッファツールがまず特定のエンティティに近づいたり近づいたりするために使われ、次に複数の要件を満たす候補エリアを選択するためにintersectまたはdeleteツールが使用される。 専門家は関連するツールの逐次利用によってこれらの地理空間的タスクを容易に理解し、解決することができるが、非専門家がこれらの問題を解決することは困難である。 近年、生成事前学習変換器(例えばChatGPT)は意味理解と推論において高い性能を示す。 特にAutoGPTは、外部定義されたツールの自動推論と呼び出しによって、大きな言語モデル(LLM)の機能をさらに拡張することができる。 これらの研究に触発されて,gisコミュニティ内の成熟したツールを用いて,llmに固有の意味理解能力を統合することにより,地理空間的タスクを解決するための非プロフェッショナルユーザの閾値を下げようとしている。 具体的には、地理空間データ収集、処理、分析を自然言語のみの指示で自律的に行うことのできるGeoGPTと呼ばれる新しいフレームワークを開発する。 言い換えれば、GeoGPTは入力された自然言語記述に基づいて非専門ユーザの要求を理解し、次に定義されたGISツールを思考、計画、実行して最終的な効果を出力する。 空間的データクローリング,空間的クエリ,施設の座り込み,マッピングなど,いくつかのケースでフレームワークの有効性が検証された。 本論文では,GeoGPTがより多くのGISツールを備えることで,より多様なタスクに拡張することができるが,GeoGPTに示唆される「基礎と専門」のパラダイムは,大規模基盤モデルの時代において,次世代GISを開発する効果的な方法であると考えている。

Decision-makers in GIS need to combine a series of spatial algorithms and operations to solve geospatial tasks. For example, in the task of facility siting, the Buffer tool is usually first used to locate areas close or away from some specific entities; then, the Intersect or Erase tool is used to select candidate areas satisfied multiple requirements. Though professionals can easily understand and solve these geospatial tasks by sequentially utilizing relevant tools, it is difficult for non-professionals to handle these problems. Recently, Generative Pre-trained Transformer (e.g., ChatGPT) presents strong performance in semantic understanding and reasoning. Especially, AutoGPT can further extend the capabilities of large language models (LLMs) by automatically reasoning and calling externally defined tools. Inspired by these studies, we attempt to lower the threshold of non-professional users to solve geospatial tasks by integrating the semantic understanding ability inherent in LLMs with mature tools within the GIS community. Specifically, we develop a new framework called GeoGPT that can conduct geospatial data collection, processing, and analysis in an autonomous manner with the instruction of only natural language. In other words, GeoGPT is used to understand the demands of non-professional users merely based on input natural language descriptions, and then think, plan, and execute defined GIS tools to output final effective results. Several cases including geospatial data crawling, spatial query, facility siting, and mapping validate the effectiveness of our framework. Though limited cases are presented in this paper, GeoGPT can be further extended to various tasks by equipping with more GIS tools, and we think the paradigm of "foundational plus professional" implied in GeoGPT provides an effective way to develop next-generation GIS in this era of large foundation models.
翻訳日:2023-07-18 17:01:03 公開日:2023-07-16
# doctr: 文書における構造化情報抽出のための文書トランスフォーマー

DocTr: Document Transformer for Structured Information Extraction in Documents ( http://arxiv.org/abs/2307.07929v1 )

ライセンス: Link先を確認
Haofu Liao, Aruni RoyChowdhury, Weijian Li, Ankan Bansal, Yuting Zhang, Zhuowen Tu, Ravi Kumar Satzoda, R. Manmatha, Vijay Mahadevan(参考訳) 本稿では、視覚的にリッチな文書から構造化情報抽出(SIE)を新たに定義する。 それは、入力テキストの正しい順序に依存するか、複雑なグラフのデコードに苦労する、既存のIOBタグやグラフベースの定式化の制限に対処することを目的としています。 代わりに、視覚におけるアンカーベースのオブジェクト検出器に動機づけられ、エンティティをアンカーワードとバウンディングボックスとして表現し、エンティティリンクをアンカーワード間の関連付けとして表現する。 これはテキストの順序付けよりも堅牢であり、エンティティリンク用のコンパクトグラフを維持している。 定式化は私達に導入を促す 1)視覚的に豊かな文書におけるエンティティ境界ボックスの検出及び関連を図るDOCument TRansformer(DocTr) 2) 言語コンテキストにおけるエンティティ検出の学習を支援する,シンプルな事前学習戦略。 3つのSIEベンチマークの評価は、提案した定式化の有効性を示し、全体的なアプローチは既存のソリューションよりも優れている。

We present a new formulation for structured information extraction (SIE) from visually rich documents. It aims to address the limitations of existing IOB tagging or graph-based formulations, which are either overly reliant on the correct ordering of input text or struggle with decoding a complex graph. Instead, motivated by anchor-based object detectors in vision, we represent an entity as an anchor word and a bounding box, and represent entity linking as the association between anchor words. This is more robust to text ordering, and maintains a compact graph for entity linking. The formulation motivates us to introduce 1) a DOCument TRansformer (DocTr) that aims at detecting and associating entity bounding boxes in visually rich documents, and 2) a simple pre-training strategy that helps learn entity detection in the context of language. Evaluations on three SIE benchmarks show the effectiveness of the proposed formulation, and the overall approach outperforms existing solutions.
翻訳日:2023-07-18 17:00:31 公開日:2023-07-16
# スキップ接続を伴わない顔スワップ用強化アンタングル

Reinforced Disentanglement for Face Swapping without Skip Connection ( http://arxiv.org/abs/2307.07928v1 )

ライセンス: Link先を確認
Xiaohang Ren, Xingyu Chen, Pengfei Yao, Heung-Yeung Shum, Baoyuan Wang(参考訳) SOTAのフェイススワップモデルでは、ターゲットのアイデンティティ(形状)がリークされたり、ターゲットの非アイデンティティ属性(背景、毛髪)が最終結果に完全に保存されないという問題がまだ残っている。 We show that this insufficient disentanglement is caused by two flawed designs that were commonly adopted in prior models: (1) counting on only one compressed encoder to represent both the semantic-level non-identity facial attributes(i.e., pose) and the pixel-level non-facial region details, which is contradictory to satisfy at the same time; (2) highly relying on long skip-connections between the encoder and the final generator, leaking a certain amount of target face identity into the result. そこで我々は,2つのターゲットエンコーダを用いて,顔領域の画素レベルの非顔領域属性と意味的非顔領域属性をそれぞれキャプチャする「WSCスワップ」という新しい顔スワップフレームワークを提案する。 対象エンコーダの絡み合い学習をさらに強化するために,逆訓練(gan)によるid消去損失と,[11]のような先行3dmmモデルによる非id化保存損失の両方を用いる。 faceforensics++ と celeba-hq の両方の広範な実験により、我々の結果は、以前完全に無視されたアイデンティティ一貫性を測定するための新しいメトリックを含む、リッチなメトリクスセットの以前の成果を大きく上回っていることが分かりました。

The SOTA face swap models still suffer the problem of either target identity (i.e., shape) being leaked or the target non-identity attributes (i.e., background, hair) failing to be fully preserved in the final results. We show that this insufficient disentanglement is caused by two flawed designs that were commonly adopted in prior models: (1) counting on only one compressed encoder to represent both the semantic-level non-identity facial attributes(i.e., pose) and the pixel-level non-facial region details, which is contradictory to satisfy at the same time; (2) highly relying on long skip-connections between the encoder and the final generator, leaking a certain amount of target face identity into the result. To fix them, we introduce a new face swap framework called 'WSC-swap' that gets rid of skip connections and uses two target encoders to respectively capture the pixel-level non-facial region attributes and the semantic non-identity attributes in the face region. To further reinforce the disentanglement learning for the target encoder, we employ both identity removal loss via adversarial training (i.e., GAN) and the non-identity preservation loss via prior 3DMM models like [11]. Extensive experiments on both FaceForensics++ and CelebA-HQ show that our results significantly outperform previous works on a rich set of metrics, including one novel metric for measuring identity consistency that was completely neglected before.
翻訳日:2023-07-18 17:00:15 公開日:2023-07-16
# ソフトウェア開発のためのコミュニケーションエージェント

Communicative Agents for Software Development ( http://arxiv.org/abs/2307.07924v1 )

ライセンス: Link先を確認
Chen Qian and Xin Cong and Cheng Yang and Weize Chen and Yusheng Su and Juyuan Xu and Zhiyuan Liu and Maosong Sun(参考訳) ソフトウェア工学は複雑な意思決定プロセスによって特徴づけられる領域であり、しばしば微妙な直観とコンサルティングに依存している。 ディープラーニングの最近の進歩は、ソフトウェア開発のさまざまなステージで実装された精巧な設計を通じて、ソフトウェアエンジニアリングプラクティスを革新し始めている。 本稿では,ソフトウェア開発プロセス全体を通じて大規模言語モデル(LLM)を活用し,自然言語通信によるキープロセスの合理化と統一を実現し,各フェーズにおける特化モデルの必要性を解消する,革新的なパラダイムを提案する。 このパラダイムの中核であるChatDevは、確立したウォーターフォールモデルを模倣し、開発プロセスを慎重に4つの異なる時系列ステージ(設計、コーディング、テスト、ドキュメント)に分割する仮想チャットベースのソフトウェア開発会社です。 各ステージはプログラマ、コードレビュアー、テストエンジニアといったエージェントのチームが参加し、共同対話を促進し、シームレスなワークフローを促進する。 チャットチェーンはファシリテーターとして働き、各ステージをアトミックなサブタスクに分解する。 これによりデュアルロールが可能になり、コンテキスト認識通信によるソリューションの提案と検証が可能になり、特定のサブタスクの効率的な解決につながる。 ChatDevのインストゥルメンタル分析は、ソフトウェア生成における顕著な効果を強調し、1ドル以下のコストで、ソフトウェア開発プロセス全体の完了を7分以内で可能にする。 潜在的な脆弱性を特定し、緩和するだけでなく、満足できる効率とコスト効率を維持しながら、潜在的な幻覚を是正する。 ChatDevのポテンシャルは、LLMをソフトウェア開発領域に統合する新たな可能性を明らかにしている。

Software engineering is a domain characterized by intricate decision-making processes, often relying on nuanced intuition and consultation. Recent advancements in deep learning have started to revolutionize software engineering practices through elaborate designs implemented at various stages of software development. In this paper, we present an innovative paradigm that leverages large language models (LLMs) throughout the entire software development process, streamlining and unifying key processes through natural language communication, thereby eliminating the need for specialized models at each phase. At the core of this paradigm lies ChatDev, a virtual chat-powered software development company that mirrors the established waterfall model, meticulously dividing the development process into four distinct chronological stages: designing, coding, testing, and documenting. Each stage engages a team of agents, such as programmers, code reviewers, and test engineers, fostering collaborative dialogue and facilitating a seamless workflow. The chat chain acts as a facilitator, breaking down each stage into atomic subtasks. This enables dual roles, allowing for proposing and validating solutions through context-aware communication, leading to efficient resolution of specific subtasks. The instrumental analysis of ChatDev highlights its remarkable efficacy in software generation, enabling the completion of the entire software development process in under seven minutes at a cost of less than one dollar. It not only identifies and alleviates potential vulnerabilities but also rectifies potential hallucinations while maintaining commendable efficiency and cost-effectiveness. The potential of ChatDev unveils fresh possibilities for integrating LLMs into the realm of software development.
翻訳日:2023-07-18 16:59:46 公開日:2023-07-16
# ニューラルアーキテクチャの検索

Neural Architecture Retrieval ( http://arxiv.org/abs/2307.07919v1 )

ライセンス: Link先を確認
Xiaohuan Pei, Yanxi Li, Minjing Dong, Chang Xu(参考訳) 新たなニューラルアーキテクチャの設計が増え、既存のニューラルアーキテクチャが相当数存在するため、研究者が既存のニューラルアーキテクチャと比較したり、他の関連するアーキテクチャとの接続を確立するのが難しくなっている。 類似したニューラルアーキテクチャを効率的かつ自動的に発見するために,クエリニューラルアーキテクチャに類似した設計を持つ既存のニューラルアーキテクチャ群を検索する,新たな問題ニューラルアーキテクチャ検索を定義する。 既存のグラフ事前学習戦略は、グラフのサイズとモチーフのため、ニューラルネットワークアーキテクチャの計算グラフに対処できない。 この可能性を実現するために,マクログラフの再構築に使用されるモチーフにグラフを分割し,正確なグラフ表現学習を実現するために多レベルコントラスト学習を導入することを提案する。 人間の設計と合成の両方のニューラルネットワークアーキテクチャの大規模な評価は、我々のアルゴリズムの優位性を示している。 1kの実際のネットワークアーキテクチャを含むそのようなデータセットとその組み込みは、ニューラルアーキテクチャの検索のために構築されている。

With the increasing number of new neural architecture designs and substantial existing neural architectures, it becomes difficult for the researchers to situate their contributions compared with existing neural architectures or establish the connections between their designs and other relevant ones. To discover similar neural architectures in an efficient and automatic manner, we define a new problem Neural Architecture Retrieval which retrieves a set of existing neural architectures which have similar designs to the query neural architecture. Existing graph pre-training strategies cannot address the computational graph in neural architectures due to the graph size and motifs. To fulfill this potential, we propose to divide the graph into motifs which are used to rebuild the macro graph to tackle these issues, and introduce multi-level contrastive learning to achieve accurate graph representation learning. Extensive evaluations on both human-designed and synthesized neural architectures demonstrate the superiority of our algorithm. Such a dataset which contains 12k real-world network architectures, as well as their embedding, is built for neural architecture retrieval.
翻訳日:2023-07-18 16:59:20 公開日:2023-07-16
# 対人攻撃に対する分割学習のロバスト性について

On the Robustness of Split Learning against Adversarial Attacks ( http://arxiv.org/abs/2307.07916v1 )

ライセンス: Link先を確認
Mingyuan Fan, Cen Chen, Chengyu Wang, Wenmeng Zhou, Jun Huang(参考訳) 分割学習は、生データとモデルの詳細を直接共有することを避けることによって、データのプライバシとモデルのセキュリティを保ちながら、協調的なディープラーニングモデルトレーニングを可能にする。 しかし、既存の研究は主にプライバシー保護の信頼性に重点を置いており、モデルセキュリティについてはほとんど調査していない。 Specifically, by exploring full models, attackers can launch adversarial attacks, and split learning can mitigate this severe threat by only disclosing part of models to untrusted servers.This paper aims to evaluate the robustness of split learning against adversarial attacks, particularly in the most challenging setting where untrusted servers only have access to the intermediate layers of the model.Existing adversarial attacks mostly focus on the centralized setting instead of the collaborative setting, thus, to better evaluate the robustness of split learning, we develop a tailored attack called SPADV, which comprises two stages: 1)モデルの一部欠如問題に対処するシャドーモデルトレーニング 2) 2段階目は非IIDデータのみを必要とするが, 2段階目ではSPADVは自然試料の中間出力を摂動させ, 敵試料を製作する。 提案する攻撃プロセス全体のコストは比較的低いが,経験的な攻撃効果は著しく高く,敵の攻撃に対するスプリットラーニングの驚くべき脆弱性を示している。

Split learning enables collaborative deep learning model training while preserving data privacy and model security by avoiding direct sharing of raw data and model details (i.e., sever and clients only hold partial sub-networks and exchange intermediate computations). However, existing research has mainly focused on examining its reliability for privacy protection, with little investigation into model security. Specifically, by exploring full models, attackers can launch adversarial attacks, and split learning can mitigate this severe threat by only disclosing part of models to untrusted servers.This paper aims to evaluate the robustness of split learning against adversarial attacks, particularly in the most challenging setting where untrusted servers only have access to the intermediate layers of the model.Existing adversarial attacks mostly focus on the centralized setting instead of the collaborative setting, thus, to better evaluate the robustness of split learning, we develop a tailored attack called SPADV, which comprises two stages: 1) shadow model training that addresses the issue of lacking part of the model and 2) local adversarial attack that produces adversarial examples to evaluate.The first stage only requires a few unlabeled non-IID data, and, in the second stage, SPADV perturbs the intermediate output of natural samples to craft the adversarial ones. The overall cost of the proposed attack process is relatively low, yet the empirical attack effectiveness is significantly high, demonstrating the surprising vulnerability of split learning to adversarial attacks.
翻訳日:2023-07-18 16:59:03 公開日:2023-07-16
# 加速バイオメディカルコンピューティングのためのFPGAの爆発能力

Exploiting FPGA Capabilities for Accelerated Biomedical Computing ( http://arxiv.org/abs/2307.07914v1 )

ライセンス: Link先を確認
Kayode Inadagbo, Baran Arig, Nisanur Alici, Murat Isik(参考訳) 本研究では,CNN(Convolutional Neural Networks),RNN(Recurrent Neural Networks),LSTM(Long Short-Term Memory Networks),DBN(Deep Belief Networks)などの先進的なニューラルネットワークアーキテクチャについて述べる。 トレーニングと検証にはMIT-BIH Arrhythmia Databaseを使用し,アルゴリズムの堅牢性を改善するためにガウスノイズを導入した。 実装されたモデルは、異なる処理と分類タスクのための様々なレイヤを備えており、EarlyStoppingコールバックやDropoutレイヤのようなテクニックがオーバーフィッティングを軽減するために使用される。 PYNQ Z1ボード用のカスタムTensor Compute Unit(TCU)アクセラレータの開発も検討しており、DockerにTensilツールチェーンをセットアップすること、アーキテクチャの選択、PS-PLの設定、モデルのコンパイルと実行など、FPGAベースのマシンラーニングの包括的なステップを提供しています。 レイテンシやスループットなどのパフォーマンス指標を実用的な知見として計算し、高性能なバイオメディカルコンピューティングにおけるFPGAの可能性を示す。 この研究は最終的に、様々なアプリケーションのためのFPGA上でのニューラルネットワーク性能を最適化するためのガイドを提供する。

This study presents advanced neural network architectures including Convolutional Neural Networks (CNN), Recurrent Neural Networks (RNN), Long Short-Term Memory Networks (LSTMs), and Deep Belief Networks (DBNs) for enhanced ECG signal analysis using Field Programmable Gate Arrays (FPGAs). We utilize the MIT-BIH Arrhythmia Database for training and validation, introducing Gaussian noise to improve algorithm robustness. The implemented models feature various layers for distinct processing and classification tasks and techniques like EarlyStopping callback and Dropout layer are used to mitigate overfitting. Our work also explores the development of a custom Tensor Compute Unit (TCU) accelerator for the PYNQ Z1 board, offering comprehensive steps for FPGA-based machine learning, including setting up the Tensil toolchain in Docker, selecting architecture, configuring PS-PL, and compiling and executing models. Performance metrics such as latency and throughput are calculated for practical insights, demonstrating the potential of FPGAs in high-performance biomedical computing. The study ultimately offers a guide for optimizing neural network performance on FPGAs for various applications.
翻訳日:2023-07-18 16:58:41 公開日:2023-07-16
# 低リソースインド言語におけるASRのモデル適応

Model Adaptation for ASR in low-resource Indian Languages ( http://arxiv.org/abs/2307.07948v1 )

ライセンス: Link先を確認
Abhayjeet Singh, Arjun Singh Mehta, Ashish Khuraishi K S, Deekshitha G, Gauri Date, Jai Nanavati, Jesuraja Bandekar, Karnalius Basumatary, Karthika P, Sandhya Badiger, Sathvik Udupa, Saurabh Kumar, Savitha, Prasanta Kumar Ghosh, Prashanthi V, Priyanka Pai, Raoul Nanavati, Rohan Saxena, Sai Praneeth Reddy Mora, Srinivasa Raghavan(参考訳) 近年,wav2vec2のような自己教師付き学習(SSL)ベースの音響モデルとWhisperのような大規模多言語学習によって,音声認識(ASR)の性能が大幅に向上している。 音声とテキストの両方の可用性が制限されている低リソース言語には、依然として大きな課題がある。 これはインド語のような複数の方言の存在によってさらに複雑である。 しかし、多くのインドの言語は、同じ家族に分けて、同じ文字と文法構造を共有することができる。 ここで多くの適応と微調整のテクニックが適用され、十分なリソースを持つ類似言語を利用することで、データの低リソースの性質を克服できるのです。 このようなシナリオでは、音響やテキストなどの各モードが、信頼できるASRを構築する上で重要であるかを理解することが重要である。 言語内の音響データが豊富にあると、大きなテキストのみのコーパスの必要性が減る可能性がある。 あるいは、様々な事前訓練された音響モデルが利用できるため、逆もまた正しいかもしれない。 提案する特別セッションでは,ベンガル語とボージュリ語の2つの低リソースインド語言語を用いて,これらのアイデアをコミュニティが探求することを推奨する。 これらのアプローチはインドの言語に限らず、世界中の様々な言語に適用できる可能性がある。

Automatic speech recognition (ASR) performance has improved drastically in recent years, mainly enabled by self-supervised learning (SSL) based acoustic models such as wav2vec2 and large-scale multi-lingual training like Whisper. A huge challenge still exists for low-resource languages where the availability of both audio and text is limited. This is further complicated by the presence of multiple dialects like in Indian languages. However, many Indian languages can be grouped into the same families and share the same script and grammatical structure. This is where a lot of adaptation and fine-tuning techniques can be applied to overcome the low-resource nature of the data by utilising well-resourced similar languages. In such scenarios, it is important to understand the extent to which each modality, like acoustics and text, is important in building a reliable ASR. It could be the case that an abundance of acoustic data in a language reduces the need for large text-only corpora. Or, due to the availability of various pretrained acoustic models, the vice-versa could also be true. In this proposed special session, we encourage the community to explore these ideas with the data in two low-resource Indian languages of Bengali and Bhojpuri. These approaches are not limited to Indian languages, the solutions are potentially applicable to various languages spoken around the world.
翻訳日:2023-07-18 16:51:38 公開日:2023-07-16
# 言語条件付き交通生成

Language Conditioned Traffic Generation ( http://arxiv.org/abs/2307.07947v1 )

ライセンス: Link先を確認
Shuhan Tan, Boris Ivanovic, Xinshuo Weng, Marco Pavone, Philipp Kraehenbuehl(参考訳) シミュレーションは現代の自動運転開発のバックボーンを形成する。 シミュレーターは、人間や車、環境を危険にさらすことなく、運転システムの開発、テスト、改善を支援する。 しかしシミュレーターは、現実的でスケーラブルで興味深いコンテンツに依存しているため、大きな課題に直面している。 近年のレンダリングとシーン再構築の進歩は静的なシーンアセットの作成に大きく貢献しているが、レイアウト、ダイナミックス、振る舞いのモデリングは依然として困難である。 本研究では,動的交通シーン生成の監督源として言語に目を向ける。 当社のモデルであるlctgenは、大規模な言語モデルとトランスフォーマベースのデコーダアーキテクチャを組み合わせることで、マップのデータセットから可能性の高いマップロケーションを選択し、初期トラフィック分布と各車両のダイナミクスを生成します。 LCTGenは、非条件と条件付きの両方のトラフィックシーン生成において、リアリズムと忠実さの点で、事前の作業よりも優れています。 コードとビデオはhttps://ariostgx.github.io/lctgenで入手できる。

Simulation forms the backbone of modern self-driving development. Simulators help develop, test, and improve driving systems without putting humans, vehicles, or their environment at risk. However, simulators face a major challenge: They rely on realistic, scalable, yet interesting content. While recent advances in rendering and scene reconstruction make great strides in creating static scene assets, modeling their layout, dynamics, and behaviors remains challenging. In this work, we turn to language as a source of supervision for dynamic traffic scene generation. Our model, LCTGen, combines a large language model with a transformer-based decoder architecture that selects likely map locations from a dataset of maps, and produces an initial traffic distribution, as well as the dynamics of each vehicle. LCTGen outperforms prior work in both unconditional and conditional traffic scene generation in terms of realism and fidelity. Code and video will be available at https://ariostgx.github.io/lctgen.
翻訳日:2023-07-18 16:51:16 公開日:2023-07-16
# Few-Shot Sequence Labelingにおけるトークンとスパンレベルの統一化

Unifying Token and Span Level Supervisions for Few-Shot Sequence Labeling ( http://arxiv.org/abs/2307.07946v1 )

ライセンス: Link先を確認
Zifeng Cheng, Qingyu Zhou, Zhiwei Jiang, Xuemin Zhao, Yunbo Cao, Qing Gu(参考訳) 短いショットシーケンスラベリングは、少数のラベル付きサンプルに基づいて新しいクラスを特定することを目的としている。 既存の手法は、主にメトリクス学習に基づくトークンレベルまたはスパンレベルのラベルモデルを設計することで、データの不足問題を解決する。 しかしながら、これらの方法は単一の粒度(トークンレベルまたはスパンレベル)でのみ訓練され、対応する粒度にいくつかの弱点がある。 本稿では,まずトークンとスパンレベルの監視を統一し,数ショットのシーケンスラベリングのための一貫性デュアル適応型(CDAP)ネットワークを提案する。 CDAPにはトークンレベルとスパンレベルのネットワークが含まれており、異なる粒度で共同で訓練されている。 2つのネットワークの出力を調整するために,我々は,相互に学習できる一貫性のある損失を提案する。 推定段階では,まず予測確率を調整し,次に最大確率で非重複スパンを選択する一貫した欲求推論アルゴリズムを提案する。 大規模実験の結果,3つのベンチマークデータセットにおいて,新たな最先端結果が得られた。

Few-shot sequence labeling aims to identify novel classes based on only a few labeled samples. Existing methods solve the data scarcity problem mainly by designing token-level or span-level labeling models based on metric learning. However, these methods are only trained at a single granularity (i.e., either token level or span level) and have some weaknesses of the corresponding granularity. In this paper, we first unify token and span level supervisions and propose a Consistent Dual Adaptive Prototypical (CDAP) network for few-shot sequence labeling. CDAP contains the token-level and span-level networks, jointly trained at different granularities. To align the outputs of two networks, we further propose a consistent loss to enable them to learn from each other. During the inference phase, we propose a consistent greedy inference algorithm that first adjusts the predicted probability and then greedily selects non-overlapping spans with maximum probability. Extensive experiments show that our model achieves new state-of-the-art results on three benchmark datasets.
翻訳日:2023-07-18 16:51:00 公開日:2023-07-16
# 表面幾何処理 : 効率的正規化による詳細表現

Surface Geometry Processing: An Efficient Normal-based Detail Representation ( http://arxiv.org/abs/2307.07945v1 )

ライセンス: Link先を確認
Wuyuan Xie, Miaohui Wang, Di Lin, Boxin Shi, and Jianmin Jiang(参考訳) 高分解能の3dビジョンアプリケーションの開発が急速に進み、従来の表面ディテールを操作する方法は、かなりのメモリと計算時間を必要とする。 これらの問題に対処するために,我々は2次元正規領域における効率的な表面詳細処理フレームワークを導入し,理論上も経験上も説明されるマイクロ幾何学構造のキャリアとして,新しい正規特徴表現を抽出する。 既存の美術品と比較して,提案する正規表現には,細部分離性,細部移動性,細部イデオロジェンスといった3つの重要な特性があることを確認した。 最後に、幾何学的テクスチャ合成、幾何学的ディテール変換、3次元表面超解像を含む幾何学的表面詳細処理アプリケーションのために、3つの新しいスキームが設計されている。 最新のベンチマークデータセットの理論的解析と実験結果から,入力面頂点の30倍の精度を持つ正規表現の有効性と汎用性を検証すると同時に,既存の競合アルゴリズムと比較して,メモリコスト6.5%,実行時間14.0%しか必要としない。

With the rapid development of high-resolution 3D vision applications, the traditional way of manipulating surface detail requires considerable memory and computing time. To address these problems, we introduce an efficient surface detail processing framework in 2D normal domain, which extracts new normal feature representations as the carrier of micro geometry structures that are illustrated both theoretically and empirically in this article. Compared with the existing state of the arts, we verify and demonstrate that the proposed normal-based representation has three important properties, including detail separability, detail transferability and detail idempotence. Finally, three new schemes are further designed for geometric surface detail processing applications, including geometric texture synthesis, geometry detail transfer, and 3D surface super-resolution. Theoretical analysis and experimental results on the latest benchmark dataset verify the effectiveness and versatility of our normal-based representation, which accepts 30 times of the input surface vertices but at the same time only takes 6.5% memory cost and 14.0% running time in comparison with existing competing algorithms.
翻訳日:2023-07-18 16:50:41 公開日:2023-07-16
# 信頼度・多様性・クラスバランスによるドメイン適応型3次元物体検出の再検討

Revisiting Domain-Adaptive 3D Object Detection by Reliable, Diverse and Class-balanced Pseudo-Labeling ( http://arxiv.org/abs/2307.07944v1 )

ライセンス: Link先を確認
Zhuoxiao Chen, Yadan Luo, Zi Huang, Zheng Wang, Mahsa Baktashmotlagh(参考訳) ドメイン適応型3Dオブジェクト検出において,疑似ラベリング技術を用いた教師なしドメイン適応(DA)が重要なアプローチとして浮上している。 既存のDA手法は,低品質な擬似ラベルの共存とクラス不均衡の問題により,マルチクラスのトレーニング環境に適用した場合,性能が大幅に低下する。 本稿では,全てのクラスを同時に検出する学習に適した新しいReDBフレームワークを提案する。 我々の手法は、分布が異なるターゲット領域上での自己学習を反復的に導くために、信頼性、ディバース、およびクラスベース擬似3Dボックスを生成する。 提案したクロスドメイン検査(CDE)は、環境不一致(ビーム数など)による破壊を軽減するため、コピーペースト対象インスタンスをソース環境に挿入して擬似ラベルの正しさを評価し、予測整合性を測定する。 計算オーバーヘッドを低減し、オブジェクトシフト(例えばスケールやポイント密度)を緩和するために、異なる幾何学的特徴にまたがる擬似ラベルオブジェクトを均一にダウンサンプルできるオーバーラップボックスカウント(obc)メトリックを設計する。 クラス間不均衡の問題に対処するため,疑似ラベル付きターゲットインスタンスとソースオブジェクトのクラスバランスを段階的に強化し,頻繁に出現するクラスと稀なクラスの両方において認識精度を高める。 ボクセルベース(SECOND)とポイントベース3D検出器(PointRCNN)の両方を用いた3つのベンチマークデータセットの実験結果から,提案したReDBアプローチが既存の3Dドメイン適応手法を大きなマージンで上回り,nuScenes $\rightarrow$ KITTIタスクにおいて23.15%のmAPを改善することを示した。

Unsupervised domain adaptation (DA) with the aid of pseudo labeling techniques has emerged as a crucial approach for domain-adaptive 3D object detection. While effective, existing DA methods suffer from a substantial drop in performance when applied to a multi-class training setting, due to the co-existence of low-quality pseudo labels and class imbalance issues. In this paper, we address this challenge by proposing a novel ReDB framework tailored for learning to detect all classes at once. Our approach produces Reliable, Diverse, and class-Balanced pseudo 3D boxes to iteratively guide the self-training on a distributionally different target domain. To alleviate disruptions caused by the environmental discrepancy (e.g., beam numbers), the proposed cross-domain examination (CDE) assesses the correctness of pseudo labels by copy-pasting target instances into a source environment and measuring the prediction consistency. To reduce computational overhead and mitigate the object shift (e.g., scales and point densities), we design an overlapped boxes counting (OBC) metric that allows to uniformly downsample pseudo-labeled objects across different geometric characteristics. To confront the issue of inter-class imbalance, we progressively augment the target point clouds with a class-balanced set of pseudo-labeled target instances and source objects, which boosts recognition accuracies on both frequently appearing and rare classes. Experimental results on three benchmark datasets using both voxel-based (i.e., SECOND) and point-based 3D detectors (i.e., PointRCNN) demonstrate that our proposed ReDB approach outperforms existing 3D domain adaptation methods by a large margin, improving 23.15% mAP on the nuScenes $\rightarrow$ KITTI task.
翻訳日:2023-07-18 16:50:23 公開日:2023-07-16
# kecor: アクティブ3次元物体検出のためのカーネル符号化速度最大化

KECOR: Kernel Coding Rate Maximization for Active 3D Object Detection ( http://arxiv.org/abs/2307.07942v1 )

ライセンス: Link先を確認
Yadan Luo, Zhuoxiao Chen, Zhen Fang, Zheng Zhang, Zi Huang, Mahsa Baktashmotlagh(参考訳) 自律走行における信頼性の高いLiDARベースの物体検出器の達成は最重要であるが、その成功は大量の正確な3Dアノテーションを得ることに繋がる。 アクティブラーニング(AL)は、ラベルを少なくし、完全に教師付き学習に匹敵するパフォーマンスを達成するアルゴリズムを通じて、アノテーションの負担を軽減することを目指している。 ALは将来性を示したが、現在のアプローチでは、不確実性や多様性の高い未ラベルの点雲の選択が優先されており、ラベル付けや計算効率の低下のためにより多くのインスタンスが選択される。 本稿では,情報理論のレンズを通してラベルを取得する最も情報性の高い点群を特定することを目的とした,カーネル符号化速度最大化(KECOR)戦略を提案する。 グリーディ探索は、潜在特徴のエンコードに必要な最小ビット数を最大化できる所望の点群を求めるために適用される。 モデルの観点から選択されたサンプルの特異性と情報性を決定するために,3次元検出器ヘッドのプロキシネットワークを構築し,すべてのプロキシ層からジャコビアンの外積を計算し,経験的ニューラルネットワークカーネル(NTK)行列を形成する。 1段目(SECOND)と2段目(PVRCNN)の両方に対応するため、アノテーションとして選択された境界ボックスの総数と検出性能のトレードオフを分類エントロピーの最大化と良好に行う。 2つの3次元ベンチマークと2次元検出データセットに関する広範な実験により、提案手法の優位性と汎用性が証明された。 その結果,検出性能を損なうことなく,約44%のボックスレベルのアノテーションコストと26%の計算時間を削減することができた。

Achieving a reliable LiDAR-based object detector in autonomous driving is paramount, but its success hinges on obtaining large amounts of precise 3D annotations. Active learning (AL) seeks to mitigate the annotation burden through algorithms that use fewer labels and can attain performance comparable to fully supervised learning. Although AL has shown promise, current approaches prioritize the selection of unlabeled point clouds with high uncertainty and/or diversity, leading to the selection of more instances for labeling and reduced computational efficiency. In this paper, we resort to a novel kernel coding rate maximization (KECOR) strategy which aims to identify the most informative point clouds to acquire labels through the lens of information theory. Greedy search is applied to seek desired point clouds that can maximize the minimal number of bits required to encode the latent features. To determine the uniqueness and informativeness of the selected samples from the model perspective, we construct a proxy network of the 3D detector head and compute the outer product of Jacobians from all proxy layers to form the empirical neural tangent kernel (NTK) matrix. To accommodate both one-stage (i.e., SECOND) and two-stage detectors (i.e., PVRCNN), we further incorporate the classification entropy maximization and well trade-off between detection performance and the total number of bounding boxes selected for annotation. Extensive experiments conducted on two 3D benchmarks and a 2D detection dataset evidence the superiority and versatility of the proposed approach. Our results show that approximately 44% box-level annotation costs and 26% computational time are reduced compared to the state-of-the-art AL method, without compromising detection performance.
翻訳日:2023-07-18 16:49:49 公開日:2023-07-16
# 高歪レジームにおける単位ノルムベクトルの最適圧縮

Optimal Compression of Unit Norm Vectors in the High Distortion Regime ( http://arxiv.org/abs/2307.07941v1 )

ライセンス: Link先を確認
Heng Zhu, Avishek Ghosh, Arya Mazumdar(参考訳) 通信効率の高い分散学習の必要性に動機づけられて,単位ノルムベクトルを最小ビット数に圧縮する方法を検討した。 この問題は、率歪み/カバレッジコード文学において検討されてきたが、我々の焦点は「高歪」体制に限られている。 我々は,ベクトルに関する事前情報を得ることなく,ランダム化圧縮マップを使用可能な,最悪のシナリオでこの問題にアプローチする。 本研究は, バイアス圧縮法と非バイアス圧縮法の両方を考察し, 最適圧縮率を決定する。 このシナリオでは、単純な圧縮スキームがほぼ最適であることがわかった。 結果は新しいものと既知のものが混在しているが、完全性のためにこの論文にまとめられている。

Motivated by the need for communication-efficient distributed learning, we investigate the method for compressing a unit norm vector into the minimum number of bits, while still allowing for some acceptable level of distortion in recovery. This problem has been explored in the rate-distortion/covering code literature, but our focus is exclusively on the "high-distortion" regime. We approach this problem in a worst-case scenario, without any prior information on the vector, but allowing for the use of randomized compression maps. Our study considers both biased and unbiased compression methods and determines the optimal compression rates. It turns out that simple compression schemes are nearly optimal in this scenario. While the results are a mix of new and known, they are compiled in this paper for completeness.
翻訳日:2023-07-18 16:49:17 公開日:2023-07-16
# 参照ソリューションの提案のためのDeduplicing and Ranking Solutionsプログラム

Deduplicating and Ranking Solution Programs for Suggesting Reference Solutions ( http://arxiv.org/abs/2307.07940v1 )

ライセンス: Link先を確認
Atsushi Shirafuji and Yutaka Watanobe(参考訳) 他のユーザが書いたソリューションプログラムを参照することは、プログラミング教育の学習者に役立つ。 しかし、現在のオンライン・ジャッジ・システムは、ユーザから提出されたすべてのソリューション・プログラムを単にリストアップし、プログラムがどの程度参照可能かを無視して、提出日時、実行時間、またはユーザ評価に基づいてプログラムをソートする。 さらに、重複や重複に近いプログラムが多すぎるため、ユーザはさまざまなソリューションアプローチを参照するのに苦労している。 本稿では,学習者がより優れた解法を学ぶための様々なソリューションを参照するための動機付けとして,各プログラミング問題における共通解プログラムの非重複化とランク付けを行う手法を提案する。 より重複したプログラムがより一般的なアプローチを採用し、参照できるという仮説に基づいて、近い重複した解プログラムを取り除き、重複数に基づいてユニークなプログラムをランク付けする。 実世界のオンライン・ジャッジ・システムに提出されたソリューション・プログラムの実験では、プログラムの数は60.20%減少しているのに対し、ベースラインは重複解消後の29.59%減少している。 さらに分析の結果,トップ10のプログラムは平均29.95%のプログラムをカバーしており,ユーザは10プログラムのみを参照して29.95%のソリューションアプローチを把握できることがわかった。 提案手法は,多すぎるソリューションを参照する学習者の負担を軽減し,より優れたアプローチを学ぶ動機づけとなる可能性を示す。

Referring to the solution programs written by the other users is helpful for learners in programming education. However, current online judge systems just list all solution programs submitted by users for references, and the programs are sorted based on the submission date and time, execution time, or user rating, ignoring to what extent the program can be a reference. In addition, users struggle to refer to a variety of solution approaches since there are too many duplicated and near-duplicated programs. To motivate the learners to refer to various solutions to learn the better solution approaches, in this paper, we propose an approach to deduplicate and rank common solution programs in each programming problem. Based on the hypothesis that the more duplicated programs adopt a more common approach and can be a reference, we remove the near-duplicated solution programs and rank the unique programs based on the duplicate count. The experiments on the solution programs submitted to a real-world online judge system demonstrate that the number of programs is reduced by 60.20%, whereas the baseline only reduces by 29.59% after the deduplication, meaning that the users only need to refer to 39.80% of programs on average. Furthermore, our analysis shows that top-10 ranked programs cover 29.95% of programs on average, indicating that the users can grasp 29.95% of solution approaches by referring to only 10 programs. The proposed approach shows the potential of reducing the learners' burden of referring to too many solutions and motivating them to learn a variety of better approaches.
翻訳日:2023-07-18 16:49:05 公開日:2023-07-16
# CVSformer:セマンティックシーン補完のためのクロスビュー合成変換器

CVSformer: Cross-View Synthesis Transformer for Semantic Scene Completion ( http://arxiv.org/abs/2307.07938v1 )

ライセンス: Link先を確認
Haotian Dong (1), Enhui Ma (1), Lubo Wang (1), Miaohui Wang (2), Wuyuan Xie (2), Qing Guo (3), Ping Li (4), Lingyu Liang (5), Kairui Yang (6), Di Lin (1) ((1) Tianjin University, (2) Shenzhen University, (3) A*STAR, (4) The Hong Kong Polytechnic University, (5) South China University of Technology, (6) Alibaba Damo Academy)(参考訳) セマンティックシーン補完(SSC)は、3Dシーンにおけるオブジェクト間の幾何学的および意味的関係を正確に理解し、隠蔽されたオブジェクトを推論する。 一般的なSSC法は3Dオブジェクトを酸化し、3D畳み込みネットワーク(3D CNN)が複雑なシーンからオブジェクトの関係を学習できるようにする。 しかし、現在のネットワークは、複数のビューにわたるオブジェクト関係をモデル化するための制御可能なカーネルを欠いている。 本稿では,マルチビュー特徴合成とクロスビューオブジェクト関係学習のためのクロスビュートランスからなるクロスビュー合成トランス(cvsformer)を提案する。 マルチビュー機能合成では、3次元畳み込みカーネルのセットをそれぞれ異なる回転させ、それぞれのvoxelのマルチビュー機能を計算する。 クロスビュートランスフォーマーでは、クロスビュー融合を用いて、クロスビュー関係を包括的に学習し、個々のビューの特徴を高める有用な情報を形成する。 拡張された特徴を用いて、全てのボクセルの幾何学的占有度と意味ラベルを予測する。 我々はCVSformerを公開データセット上で評価し、CVSformerは最先端の結果を得る。

Semantic scene completion (SSC) requires an accurate understanding of the geometric and semantic relationships between the objects in the 3D scene for reasoning the occluded objects. The popular SSC methods voxelize the 3D objects, allowing the deep 3D convolutional network (3D CNN) to learn the object relationships from the complex scenes. However, the current networks lack the controllable kernels to model the object relationship across multiple views, where appropriate views provide the relevant information for suggesting the existence of the occluded objects. In this paper, we propose Cross-View Synthesis Transformer (CVSformer), which consists of Multi-View Feature Synthesis and Cross-View Transformer for learning cross-view object relationships. In the multi-view feature synthesis, we use a set of 3D convolutional kernels rotated differently to compute the multi-view features for each voxel. In the cross-view transformer, we employ the cross-view fusion to comprehensively learn the cross-view relationships, which form useful information for enhancing the features of individual views. We use the enhanced features to predict the geometric occupancies and semantic labels of all voxels. We evaluate CVSformer on public datasets, where CVSformer yields state-of-the-art results.
翻訳日:2023-07-18 16:48:37 公開日:2023-07-16
# マルチエージェント協調知覚のためのS2R-ViT:シミュレーションから現実へのギャップを埋める

S2R-ViT for Multi-Agent Cooperative Perception: Bridging the Gap from Simulation to Reality ( http://arxiv.org/abs/2307.07935v1 )

ライセンス: Link先を確認
Jinlong Li, Runsheng Xu, Xinyu Liu, Baolu Li, Qin Zou, Jiaqi Ma, Hongkai Yu(参考訳) 実際のマルチエージェントデータの欠如とラベリングの時間消費のため、既存のマルチエージェント協調認識アルゴリズムは通常、トレーニングと検証のためにシミュレーションされたセンサデータを選択する。 しかし,シミュレーション学習モデルが実世界へデプロイされた場合,シミュレーションデータと実データの間の領域ギャップが大きいため,知覚性能が低下する。 本稿では,S2R-ViTと命名された新しい視覚変換器を用いて,シミュレーションデータと実データ間の実装ギャップと特徴ギャップの両方を考慮した,マルチエージェント協調認識のための最初のシミュレーション・トゥ・リアル変換学習フレームワークを提案する。 本稿では,これらの2種類の領域ギャップの効果について検討し,実装ギャップを効果的に緩和する新しい不確実性認識型視覚変換器とエージェントベースの特徴適応モジュールを提案する。 提案するs2r-vitはシミュレーションから現実へのギャップを効果的に橋渡しし,ポイントクラウドに基づく3次元物体検出において,他の手法を大幅に上回ることができることを示す。

Due to the lack of real multi-agent data and time-consuming of labeling, existing multi-agent cooperative perception algorithms usually select the simulated sensor data for training and validating. However, the perception performance is degraded when these simulation-trained models are deployed to the real world, due to the significant domain gap between the simulated and real data. In this paper, we propose the first Simulation-to-Reality transfer learning framework for multi-agent cooperative perception using a novel Vision Transformer, named as S2R-ViT, which considers both the Implementation Gap and Feature Gap between simulated and real data. We investigate the effects of these two types of domain gaps and propose a novel uncertainty-aware vision transformer to effectively relief the Implementation Gap and an agent-based feature adaptation module with inter-agent and ego-agent discriminators to reduce the Feature Gap. Our intensive experiments on the public multi-agent cooperative perception datasets OPV2V and V2V4Real demonstrate that the proposed S2R-ViT can effectively bridge the gap from simulation to reality and outperform other methods significantly for point cloud-based 3D object detection.
翻訳日:2023-07-18 16:48:16 公開日:2023-07-16
# ドメイン適応意味セグメンテーションのためのデュアルレベルインタラクション

Dual-level Interaction for Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2307.07972v1 )

ライセンス: Link先を確認
Dongyu Yao, Boheng Li, Run Wang, Lina Wang(参考訳) セマンティックセグメンテーションタスクにおける実世界の画像のピクセル単位のアノテーションを回避するために、Unsupervised Domain Adaptation (UDA)を探索し、まずラベル付きソースデータ(合成画像)を用いてモデルをトレーニングし、ラベル付きターゲットデータ(実画像)に適応させる。 研究されているすべてのテクニックの中で、自己学習アプローチは、最近ドメイン適応セマンティックセグメンテーションにおいて、モデルがターゲットドメインの擬似ラベルでトレーニングされる位置を確保している。 現在の進歩は、ドメインギャップによるノイズの多い擬似ラベルを緩和している。 しかし、それでも意味的分類器の判断境界付近で誤った擬似ラベルに苦しむ。 本稿では、ドメイン適応(DIDA)のセグメンテーションにおける二重レベル相互作用を提案し、この問題に対処する。 明示的に、同じピクセルの異なる拡張ビューは、類似のクラス予測(semantic level)だけでなく、他のピクセル(instance-level)に敬意を表した類似性関係を持つことを推奨する。 データセットのすべてのピクセルインスタンスの機能を保持することは不可能であるため、動的更新戦略を備えたラベル付きインスタンスバンクを新規に設計、維持し、インスタンスの情報的特徴を選択的に保存する。 さらに、DIDAは、より信頼性の高い擬似ラベルを再生するための散乱・集束技術とのクロスレベル相互作用を行う。 本手法は,特に混乱した長文クラスにおいて,最先端の手法を著しく上回っている。 コードはhttps://github.com/RainJamesY/DIDAで入手できる。

To circumvent the costly pixel-wise annotations of real-world images in the semantic segmentation task, the Unsupervised Domain Adaptation (UDA) is explored to firstly train a model with the labeled source data (synthetic images) and then adapt it to the unlabeled target data (real images). Among all the techniques being studied, the self-training approach recently secures its position in domain adaptive semantic segmentation, where a model is trained with target domain pseudo-labels. Current advances have mitigated noisy pseudo-labels resulting from the domain gap. However, they still struggle with erroneous pseudo-labels near the decision boundaries of the semantic classifier. In this paper, we tackle this issue by proposing a dual-level interaction for domain adaptation (DIDA) in semantic segmentation. Explicitly, we encourage the different augmented views of the same pixel to have not only similar class prediction (semantic-level) but also akin similarity relationship respected to other pixels (instance-level). As it is impossible to keep features of all pixel instances for a dataset, we novelly design and maintain a labeled instance bank with dynamic updating strategies to selectively store the informative features of instances. Further, DIDA performs cross-level interaction with scattering and gathering techniques to regenerate more reliable pseudolabels. Our method outperforms the state-of-the-art by a notable margin, especially on confusing and long-tailed classes. Code is available at https://github.com/RainJamesY/DIDA.
翻訳日:2023-07-18 16:42:53 公開日:2023-07-16
# 非エルミチアンフェルミオン系におけるペアリング依存性粒子分離

Pairing-dependent particle separation in non-Hermitian fermionic systems ( http://arxiv.org/abs/2307.07964v1 )

ライセンス: Link先を確認
Yi Qin and Linhu Li(参考訳) スピン依存非エルミタンポンプにより駆動される一次元フェルミオン系において,非ハーミティティーと多体相互作用の複雑な相互作用から生じるエキゾチック現象を明らかにする。 具体的には、強いスピンフリップ項は、単一粒子レベルで系の非エルミート皮膚効果(NHSE)の方向を逆転させるが、同じ格子サイトを占有するスピンペアフェルミオンはスピンフリップを禁止し、非逆のNHSEを呈し、したがって未ペアのものと分離される。 ハバード相互作用をオンにすることで、多体固有状態は実エネルギーで分裂し、左、右、または双極性nhseの複雑なエネルギー平面で分離可能なクラスターを形成する。 対応する多体固有状態の局所スピン相関と絡み合いエントロピーを解析することにより、粒子の占有に対する皮膚の蓄積方向の依存性をさらに正当化する。 この職業依存型NHSEは、多体動学において一方向または双方向のポンピングとして現れ、空間的に対と不対の粒子を分離するメカニズムを提供する。 本研究は,非保存粒子種を起源とする新しい非エルミート相の設計と探索の可能性とその空間的構成を明らかにする。

We unveil an exotic phenomena originated in the intricate interplay between non-Hermiticity and many-body interactions, namely an pairing-dependent particle separation in a one-dimensional fermionic system driven by spin-dependent non-Hermitian pumping. Specifically, a strong spin flipping term reverses the direction of non-Hermitian skin effect (NHSE) of the system in the single-particle level, yet spin-paired fermions occupying the same lattice site forbid spin flipping and hence exhibit non-reversed NHSE, and are thus separated from unpaired ones. By turning on the Hubbard interaction, many-body eigenstates split in their real energies, forming separable clusters in the complex energy plane with either left-, right-, or bipolar-NHSE. The dependency of skin accumulating directions on particle occupation is further justified through analyzing local spin correlation and entanglement entropy of corresponding many-body eigenstates. This occupation-dependent NHSE also manifests as uni- or bi-directional pumping in many-body dynamics, providing a mechanism for spatially separating paired and unpaired particles. Our work unveils the possibility of designing and exploring novel non-Hermitian phases originated from non-conserved particle species and their spatial configurations.
翻訳日:2023-07-18 16:42:23 公開日:2023-07-16
# ニューロモルフィックアプローチによる自律システム推定におけるエネルギー効率と信頼性の向上

Enhancing Energy Efficiency and Reliability in Autonomous Systems Estimation using Neuromorphic Approach ( http://arxiv.org/abs/2307.07963v1 )

ライセンス: Link先を確認
Reza Ahmadvand, Sarah Safura Sharif, Yaser Mike Banad(参考訳) エネルギー効率と信頼性は、自律システムコンピュータにおけるコスト効率と安全なミッションを保証するための重要な要素であった。 宇宙ロボティクスや高度エアモビリティといった産業の急速な発展に伴い、これらの低サイズ、重量、電力(SWaP)コンピュータの需要は大幅に増大した。 本研究では、スパイク符号化理論とスパイクニューラルネットワーク(SNN)に基づく推定フレームワークの導入に焦点をあて、ニューロモルフィックコンピュータの効率性とスケーラビリティを活用する。 そこで我々は,SNNに基づくKalmanフィルタ(KF)を提案する。 さらに, 改良型スライディング・イノベーション・フィルタ (MSIF) を用いて, SNN-MSIF と呼ばれるロバストな戦略を提案する。 特に、ネットワークの重み行列はシステムモデルに従って設計されており、学習の必要性をなくしている。 提案手法の有効性を評価するため,モンテカルロシミュレーションを用いて,アルゴリズムによる手法であるkfとmsifとの比較を行った。 さらに、SNN-MSIFをSNN-KFと比較し、不確実性や神経細胞の喪失をモデル化する場合のロバスト性を評価する。 提案手法の適用性を実証し,SNN-MSIFの精度とロバスト性において優れた性能を示す。 さらに, ネットワークから観測されたスパイクパターンは, 提案手法によって得られたエネルギー効率の証拠となり, 放射スパイクの約97%の低減効果を示した。

Energy efficiency and reliability have long been crucial factors for ensuring cost-effective and safe missions in autonomous systems computers. With the rapid evolution of industries such as space robotics and advanced air mobility, the demand for these low size, weight, and power (SWaP) computers has grown significantly. This study focuses on introducing an estimation framework based on spike coding theories and spiking neural networks (SNN), leveraging the efficiency and scalability of neuromorphic computers. Therefore, we propose an SNN-based Kalman filter (KF), a fundamental and widely adopted optimal strategy for well-defined linear systems. Furthermore, based on the modified sliding innovation filter (MSIF) we present a robust strategy called SNN-MSIF. Notably, the weight matrices of the networks are designed according to the system model, eliminating the need for learning. To evaluate the effectiveness of the proposed strategies, we compare them to their algorithmic counterparts, namely the KF and the MSIF, using Monte Carlo simulations. Additionally, we assess the robustness of SNN-MSIF by comparing it to SNN-KF in the presence of modeling uncertainties and neuron loss. Our results demonstrate the applicability of the proposed methods and highlight the superior performance of SNN-MSIF in terms of accuracy and robustness. Furthermore, the spiking pattern observed from the networks serves as evidence of the energy efficiency achieved by the proposed methods, as they exhibited an impressive reduction of approximately 97 percent in emitted spikes compared to possible spikes.
翻訳日:2023-07-18 16:41:58 公開日:2023-07-16
# EmoSet: リッチ属性を備えた大規模ビジュアル感情データセット

EmoSet: A Large-scale Visual Emotion Dataset with Rich Attributes ( http://arxiv.org/abs/2307.07961v1 )

ライセンス: Link先を確認
Jingyuan Yang, Qiruin Huang, Tingting Ding, Dani Lischinski, Daniel Cohen-Or, Hui Huang(参考訳) 視覚感情分析(VEA)は、視覚刺激に対する人々の感情反応を予測することを目的とする。 これは、感情コンピューティングにおける有望だが挑戦的なタスクであり、近年注目を集めている。 この分野の既存の作業のほとんどは機能設計に重点を置いているが、データセットの構築にはほとんど注目されていない。 本稿では,既存のデータセットよりも,スケール,アノテーションの豊かさ,多様性,データバランスという4つの面で優れている,リッチ属性を注釈とした最初の大規模ビジュアル感情データセットであるemosetを紹介する。 EmoSetは合計330万枚の画像で構成され、そのうち118,102枚の画像は人間のアノテーションによって慎重にラベル付けされている。 EmoSetにはソーシャルネットワークの画像と芸術的イメージが含まれており、異なる感情カテゴリー間でバランスがとれている。 心理学的な研究によって動機付けられた各画像には、感情のカテゴリに加えて、明度、カラフルネス、シーンタイプ、オブジェクトクラス、表情、人間の行動といった、視覚的な感情を正確に解釈可能な方法で理解するための一連の記述可能な感情特性が注釈付けされている。 これらの感情特性の関連性は、それらと視覚的感情の相関を解析し、また、視覚的感情認識を支援する属性モジュールを設計することによって検証される。 EmoSetはいくつかの重要な洞察をもたらし、視覚的感情分析と理解のさらなる研究を促進するだろうと考えています。 データとコードは、この作品の公開後にリリースされる予定だ。

Visual Emotion Analysis (VEA) aims at predicting people's emotional responses to visual stimuli. This is a promising, yet challenging, task in affective computing, which has drawn increasing attention in recent years. Most of the existing work in this area focuses on feature design, while little attention has been paid to dataset construction. In this work, we introduce EmoSet, the first large-scale visual emotion dataset annotated with rich attributes, which is superior to existing datasets in four aspects: scale, annotation richness, diversity, and data balance. EmoSet comprises 3.3 million images in total, with 118,102 of these images carefully labeled by human annotators, making it five times larger than the largest existing dataset. EmoSet includes images from social networks, as well as artistic images, and it is well balanced between different emotion categories. Motivated by psychological studies, in addition to emotion category, each image is also annotated with a set of describable emotion attributes: brightness, colorfulness, scene type, object class, facial expression, and human action, which can help understand visual emotions in a precise and interpretable way. The relevance of these emotion attributes is validated by analyzing the correlations between them and visual emotion, as well as by designing an attribute module to help visual emotion recognition. We believe EmoSet will bring some key insights and encourage further research in visual emotion analysis and understanding. The data and code will be released after the publication of this work.
翻訳日:2023-07-18 16:41:33 公開日:2023-07-16
# グラフニューラルネットワークのための自動多項式フィルタ学習

Automated Polynomial Filter Learning for Graph Neural Networks ( http://arxiv.org/abs/2307.07956v1 )

ライセンス: Link先を確認
Wendi Yu, Zhichao Hou, Xiaorui Liu(参考訳) グラフニューラルネットワーク(GNN)の設計の指針として多項グラフフィルタが広く用いられている。 近年, 多項式グラフフィルタの適応学習により, ホモ親和性グラフとヘテロ親和性グラフの両方上でのグラフ信号のモデリング性能が向上し, その柔軟性と表現性が向上した。 本研究では,多項式グラフフィルタ学習手法の可能性と限界を探究する新たな予備研究を行い,重度な過剰フィット問題を明らかにする。 多項式グラフフィルタの有効性を向上させるために,様々な複雑なグラフ信号に適応可能なフィルタを効率的に学習する,新規で汎用的な多項式グラフフィルタ学習フレームワークであるauto-polynomialを提案する。 総合的な実験とアブレーション研究により, 多項式フィルタ学習の可能性を解き放つ様々なラベリング比を考慮し, 複数の学習環境において, ホモ親和性グラフとヘテロ親和性グラフの両方に有意かつ一貫した性能改善が示された。

Polynomial graph filters have been widely used as guiding principles in the design of Graph Neural Networks (GNNs). Recently, the adaptive learning of the polynomial graph filters has demonstrated promising performance for modeling graph signals on both homophilic and heterophilic graphs, owning to their flexibility and expressiveness. In this work, we conduct a novel preliminary study to explore the potential and limitations of polynomial graph filter learning approaches, revealing a severe overfitting issue. To improve the effectiveness of polynomial graph filters, we propose Auto-Polynomial, a novel and general automated polynomial graph filter learning framework that efficiently learns better filters capable of adapting to various complex graph signals. Comprehensive experiments and ablation studies demonstrate significant and consistent performance improvements on both homophilic and heterophilic graphs across multiple learning settings considering various labeling ratios, which unleashes the potential of polynomial filter learning.
翻訳日:2023-07-18 16:41:07 公開日:2023-07-16
# 歯科インプラントの精密計画のための各種パターンにおける欠損歯の正確な3次元予測

Accurate 3D Prediction of Missing Teeth in Diverse Patterns for Precise Dental Implant Planning ( http://arxiv.org/abs/2307.07953v1 )

ライセンス: Link先を確認
Lei Ma, Peng Xue, Yuning Gu, Yue Zhao, Min Zhu, Zhongxiang Ding, Dinggang Shen(参考訳) 近年, 歯科用インプラントの需要は, 高い成功率と審美的優位性により急増している。 しかし, 歯質構造が複雑であり, 歯の喪失パターンのばらつきが原因で, 正確なデジタルインプラント計画のための欠損歯の正確な予測が難しい。 本研究は, 異なるパターンの欠損歯の正確な予測を行うための新しい枠組みを提示し, デジタルインプラント計画を容易にする。 提案手法は,健常者のcbct画像から再構成した歯科用メッシュモデルのデータセット間のポイント・ツー・ポイント対応を推定することから始まる。 その後、歯型毎に歯辞書を作成し、確立されたポイントツーポイント対応に基づいてその位置と形状情報を符号化する。 歯列モデルにおいて欠損歯を予測するために, 歯列辞書を用いて欠損歯の隣接歯をスパース的に表現することにより, スパース係数を学習する。 これらの係数は欠損歯の辞書に適用され、それらの位置と形状の正確な予測を生成する。 以上の結果から,本フレームワークは, 欠損歯の予測に平均1.04mm, 欠損歯14歯の予測に平均1.33mmの予測誤差を達成し, 各種パターンにおける欠損歯の正確な予測能力を示した。 欠損歯を正確に予測することにより, 歯科医師はインプラントの計画と配置を改善でき, インプラント処置中の患者の審美的, 機能的結果が向上する。

In recent years, the demand for dental implants has surged, driven by their high success rates and esthetic advantages. However, accurate prediction of missing teeth for precise digital implant planning remains a challenge due to the intricate nature of dental structures and the variability in tooth loss patterns. This study presents a novel framework for accurate prediction of missing teeth in different patterns, facilitating digital implant planning. The proposed framework begins by estimating point-to-point correspondence among a dataset of dental mesh models reconstructed from CBCT images of healthy subjects. Subsequently, tooth dictionaries are constructed for each tooth type, encoding their position and shape information based on the established point-to-point correspondence. To predict missing teeth in a given dental mesh model, sparse coefficients are learned by sparsely representing adjacent teeth of the missing teeth using the corresponding tooth dictionaries. These coefficients are then applied to the dictionaries of the missing teeth to generate accurate predictions of their positions and shapes. The evaluation results on real subjects shows that our proposed framework achieves an average prediction error of 1.04mm for predictions of single missing tooth and an average prediction error of 1.33mm for the prediction of 14 missing teeth, which demonstrates its capability of accurately predicting missing teeth in various patterns. By accurately predicting missing teeth, dental professionals can improve the planning and placement of dental implants, leading to better esthetic and functional outcomes for patients undergoing dental implant procedures.
翻訳日:2023-07-18 16:40:49 公開日:2023-07-16
# 配向操作の実験的実現のための理論的提案

Theoretical proposal for the experimental realization of realignment operation ( http://arxiv.org/abs/2307.07952v1 )

ライセンス: Link先を確認
Shruti Aggarwal, Satyabrata Adhikari(参考訳) 配向操作は、束縛や自由絡みの検出において重要な役割を果たす。 部分転位と同様に、行列要素の置換にも基づいている。 しかし、再編成操作の物理的実装はまだ分かっていない。 本稿では,実測操作の実験的実現の問題に対処し,その目的を達成するために,その理論的提案を提案する。 まず,二成分状態に対して再グルーション演算を施した後,列交換操作とともに部分転置演算の観点で行列を表現できることを示す。 これらのカラム交換操作は、密度行列に作用するSWAP演算子を介して実装可能な置換行列を形成する。 この数学的枠組みは、配向行列の最初の瞬間を実験的に正確に決定するために用いられる。 これは、配向行列の最初の瞬間を、その測定の可能性を示すSWAP演算子の期待値として表現できることを示す。 さらに,第1の再調整モーメントの観点からの高次再調整モーメントの推定を行い,実験により高次モーメントを推定する方法を提案する。 次に,正の部分転置絡み状態(ppte)と負の部分転置絡み状態(npte)を検出するモーメントに基づく絡み合い検出基準を開発する。 さらに, 3量子ビット状態に対する新しい行列再配置演算を定義し, 3量子ビット境界エンタングル状態を検出するエンタングルメント基準を考案した。 本研究では,現在の技術で実現可能な2成分および3成分の絡み合い状態の検出法と手法を開発した。

Realignment operation has a significant role in detecting bound as well as free entanglement. Just like partial transposition, it is also based on permutations of the matrix elements. However, the physical implementation of realignment operation is not known yet. In this letter, we address the problem of experimental realization of realignment operation and to achieve this aim, we propose a theoretical proposal for the same. We first show that after applying the realignment operation on a bipartite state, the resulting matrix can be expressed in terms of the partial transposition operation along with column interchange operations. We observed that these column interchange operations forms a permutation matrix which can be implemented via SWAP operator acting on the density matrix. This mathematical framework is used to exactly determine the first moment of the realignment matrix experimentally. This has been done by showing that the first moment of the realignment matrix can be expressed as the expectation value of a SWAP operator which indicates the possibility of its measurement. Further, we have provided an estimation of the higher order realigned moments in terms of the first realigned moment and thus pave a way to estimate the higher order moments experimentally. Next, we develop moments based entanglement detection criteria that detect positive partial transpose entangled states (PPTES) as well as negative partial transpose entangled states (NPTES). Moreover, we define a new matrix realignment operation for three-qubit states and have devised an entanglement criteria that is able to detect three-qubit bound entangled states. We have developed various methods and techniques in the detection of bipartite and tripartite entangled states that may be realized in the current technology.
翻訳日:2023-07-18 16:40:22 公開日:2023-07-16
# MinT:マルチビューファインチューニングによる数学的推論における一般化の促進

MinT: Boosting Generalization in Mathematical Reasoning via Multi-View Fine-Tuning ( http://arxiv.org/abs/2307.07951v1 )

ライセンス: Link先を確認
Zhenwen Liang, Dian Yu, Xiaoman Pan, Wenlin Yao, Qingkai Zeng, Xiangliang Zhang, Dong Yu(参考訳) 数学領域における推論は、比較的小さな言語モデル(LM)にとって重要な課題である。 現在の多くの手法は、数学的推論におけるLMの専門化に重点を置いており、強力なが非効率な大規模LM(LLM)からの知識蒸留に大きく依存している。 本研究では,llm教師への過度な依存を回避し,既存の数理問題データセットを多種多様なアノテーションスタイルで効率的に活用するマルチビュー微調整手法を導入する。 このアプローチでは,様々なアノテーション形式を異なる"ビュー"として一意に考慮し,モデルのトレーニングに活用する。 入力する質問に対して異なる指示をポストすることで、モデルは柔軟な方法で様々な形式でソリューションを生成することができる。 実験結果から,LLaMA-7Bモデルでは,知識蒸留を生かした先行手法と,慎重に確立されたベースラインを達成できる可能性が示唆された。 さらに,提案手法は,様々なビューやデータセットにまたがる一般化能力を期待するモデルと,不正確あるいは不完全なノイズデータから学習する能力を与える。 私たちのマルチビュートレーニングパラダイムが、他のマシン推論領域における将来の研究を刺激することを期待しています。

Reasoning in mathematical domains remains a significant challenge for relatively small language models (LMs). Many current methods focus on specializing LMs in mathematical reasoning and rely heavily on knowledge distillation from powerful but inefficient large LMs (LLMs). In this work, we explore a new direction that avoids over-reliance on LLM teachers, introducing a multi-view fine-tuning method that efficiently exploits existing mathematical problem datasets with diverse annotation styles. Our approach uniquely considers the various annotation formats as different "views" and leverages them in training the model. By postpending distinct instructions to input questions, models can learn to generate solutions in diverse formats in a flexible manner. Experimental results show that our strategy enables a LLaMA-7B model to outperform prior approaches that utilize knowledge distillation, as well as carefully established baselines. Additionally, the proposed method grants the models promising generalization ability across various views and datasets, and the capability to learn from inaccurate or incomplete noisy data. We hope our multi-view training paradigm could inspire future studies in other machine reasoning domains.
翻訳日:2023-07-18 16:40:00 公開日:2023-07-16
# Selective Synchronizationによる分散MLトレーニングの高速化

Accelerating Distributed ML Training via Selective Synchronization ( http://arxiv.org/abs/2307.07950v1 )

ライセンス: Link先を確認
Sahil Tyagi, Martin Swany(参考訳) 分散トレーニングでは、ディープニューラルネットワーク(DNN)が複数のワーカ上で同時に起動され、バルク同期並列(BSP)トレーニングの各ステップでローカル更新を集約する。 しかし, 集約の通信コストが高いため, BSPは線形スケールアウトしない。 このオーバーヘッドを軽減するため、federated averaging (fedavg) や stale-synchronous parallel (ssp) といった代替手段は同期周波数を減少させるか、あるいは完全に除去する。 本稿では,DNN トレーニングの実践的,低オーバーヘッドな手法である \texttt{SelSync} を提案する。 我々は、 \textit{semi-synchronous} トレーニングの文脈における収束を改善するために、 \texttt{selsync} の一部として様々な最適化を提案する。 私たちのシステムはbspと同じかそれ以上の精度に収束し、トレーニング時間を最大14$\times$に短縮します。

In distributed training, deep neural networks (DNNs) are launched over multiple workers concurrently and aggregate their local updates on each step in bulk-synchronous parallel (BSP) training. However, BSP does not linearly scale-out due to high communication cost of aggregation. To mitigate this overhead, alternatives like Federated Averaging (FedAvg) and Stale-Synchronous Parallel (SSP) either reduce synchronization frequency or eliminate it altogether, usually at the cost of lower final accuracy. In this paper, we present \texttt{SelSync}, a practical, low-overhead method for DNN training that dynamically chooses to incur or avoid communication at each step either by calling the aggregation op or applying local updates based on their significance. We propose various optimizations as part of \texttt{SelSync} to improve convergence in the context of \textit{semi-synchronous} training. Our system converges to the same or better accuracy than BSP while reducing training time by up to 14$\times$.
翻訳日:2023-07-18 16:39:42 公開日:2023-07-16
# マイクロ波導波路に結合した巨大原子による量子音波の周期的ファノ共鳴の制御

Controlling periodic Fano resonances of quantum acoustic waves with a giant atom coupled to microwave waveguide ( http://arxiv.org/abs/2307.07949v1 )

ライセンス: Link先を確認
Po-Chen Kuo and Jhen-Dong Lin and Yin-Chun Huang and Yueh-Nan Chen(参考訳) ナノスケールのファノ共鳴は、電気通信から超感度バイオセンシングまで、幅広い研究を駆り立てている。 マイクロ波導波路とデジタルトランスデューサ複合デバイスとを結合した超伝導量子ビットが音響ファノ共鳴を示すことを実証する。 テイラー級数近似を利用して, 周期的ファノ様干渉を伴う量子音響共鳴の起源を解明した。 解析的なファノパラメータを解析することにより、巨大原子の共鳴周波数付近のファノ共鳴とその対応するファノ幅を正確に制御し、時間遅延を調整して操作できることを実証する。 さらに、近接共振ファノプロファイルだけでなく、周期的なファノ共鳴特性全体をマイクロ波導波路の結合強度を調整してローレンツ、ファノから準ローレンツ形状に正確に変調することができる。 本研究は,量子音波における周期的ファノ共鳴の制御と操作に関する知見を提供し,量子情報処理,センシング,通信などの応用に有意な可能性を示す。

Nanoscale Fano resonances, with applications from telecommunications to ultra-sensitive biosensing, have prompted extensive research. We demonstrate that a superconducting qubit, jointly coupled to microwave waveguides and an inter-digital transducer composite device, can exhibit acoustic Fano resonances. Our analytical framework, leveraging the Taylor series approximation, elucidates the origins of these quantum acoustic resonances with periodic Fano-like interference. By analyzing the analytical Fano parameter, we demonstrate that the Fano resonances and their corresponding Fano widths near the resonance frequency of a giant atom can be precisely controlled and manipulated by adjusting the time delay. Moreover, not just the near-resonant Fano profiles, but the entire periodic Fano resonance features can be precisely modulated from Lorentz, Fano to quasi-Lorentz shapes by tuning the coupling strength of the microwave waveguide. Our analytical framework offers insights into the control and manipulation of periodic Fano resonances in quantum acoustic waves, thereby presenting significant potential for applications such as quantum information processing, sensing, and communication.
翻訳日:2023-07-18 16:39:22 公開日:2023-07-16
# SHAMSUL:局所的解釈可能性法を用いた医療的意義の同時解析

SHAMSUL: Simultaneous Heatmap-Analysis to investigate Medical Significance Utilizing Local interpretability methods ( http://arxiv.org/abs/2307.08003v1 )

ライセンス: Link先を確認
Mahbub Ul Alam, Jaakko Hollm\'en, J\'on R\'unar Baldvinsson, Rahim Rahmani(参考訳) ディープニューラルネットワークの解釈可能性は、医療分野や医療分野において大きな関心を集めている。 この注意は、透明性、法的および倫理的考察、およびこれらのディープニューラルネットワークが臨床意思決定支援システムで生み出す予測の医学的意義に関する懸念から来ている。 そこで本研究では, 局所解釈型モデル非依存説明法 (LIME) , シェープ付加拡張法 (SHAP) , グラディエント重み付きクラス活性化マッピング (Grad-CAM) , レイヤーワイド関連伝搬法 (LRP) の4つの方法について検討した。 マルチラベル・マルチクラスの胸部X線撮影データセットを用いたトランスファーラーニングのアプローチを応用し,特定の病理学クラスに関連する予測を解釈することを目的とする。 本分析では, 単一ラベルと多ラベルの予測を両方含み, 定量的および定性的な調査を通じて包括的かつ不偏な評価を行う。 特に、grad-camは定量的評価において最も好適な性能を示し、limeヒートマップのセグメンテーション可視化は医学的重要性の最高レベルを示す。 本研究は、これらの解釈可能性の強みと限界を強調し、胸部x線画像以外の多様な情報ソースを組み込んだマルチモーダル・アプローチが、医療領域における解釈可能性を高めるための追加の洞察をもたらすことを示唆する。

The interpretability of deep neural networks has become a subject of great interest within the medical and healthcare domain. This attention stems from concerns regarding transparency, legal and ethical considerations, and the medical significance of predictions generated by these deep neural networks in clinical decision support systems. To address this matter, our study delves into the application of four well-established interpretability methods: Local Interpretable Model-agnostic Explanations (LIME), Shapley Additive exPlanations (SHAP), Gradient-weighted Class Activation Mapping (Grad-CAM), and Layer-wise Relevance Propagation (LRP). Leveraging the approach of transfer learning with a multi-label-multi-class chest radiography dataset, we aim to interpret predictions pertaining to specific pathology classes. Our analysis encompasses both single-label and multi-label predictions, providing a comprehensive and unbiased assessment through quantitative and qualitative investigations, which are compared against human expert annotation. Notably, Grad-CAM demonstrates the most favorable performance in quantitative evaluation, while the LIME heatmap segmentation visualization exhibits the highest level of medical significance. Our research highlights the strengths and limitations of these interpretability methods and suggests that a multimodal-based approach, incorporating diverse sources of information beyond chest radiography images, could offer additional insights for enhancing interpretability in the medical domain.
翻訳日:2023-07-18 16:24:24 公開日:2023-07-16
# LUCYD: 機能駆動型Richardson-Lucyデコンボリューションネットワーク

LUCYD: A Feature-Driven Richardson-Lucy Deconvolution Network ( http://arxiv.org/abs/2307.07998v1 )

ライセンス: Link先を確認
Tom\'a\v{s} Chobola, Gesine M\"uller, Veit Dausmann, Anton Theileis, Jan Taucher, Jan Huisken, Tingying Peng(参考訳) 生命科学における微視的な画像を取得するプロセスは、しばしば画像の劣化と腐敗を引き起こし、ノイズとぼやけの存在によって特徴づけられる。 本稿では,Richardson-Lucyデコンボリューション公式と完全畳み込みネットワークで得られる深部特徴の融合を組み合わせた,体積顕微鏡画像の復元手法LUCYDを提案する。 画像形成過程を特徴駆動復元モデルに統合することにより,計算コストを低減し,高い解釈可能性を維持しつつ,復元画像の品質を高めることを目的とする。 以上の結果から,lucydは合成像と実像像の両方において最先端の手法を上回っており,画質と汎用性において優れた性能を得られた。 本モデルは,2つの異なる顕微鏡データセット上で,ボリュームワイドフィールドと光シート顕微鏡を用いて評価することにより,様々な顕微鏡モードや撮像条件を扱えることを示す。 実験の結果,LUCYDは顕微鏡画像の解像度,コントラスト,全体的な画質を大幅に改善できることがわかった。 したがって、顕微鏡画像の復元に有用なツールとなり、様々な顕微鏡応用の研究が容易になる。 私たちはモデルのソースコードをhttps://github.com/ctom2/lucyd-deconvolutionでアクセス可能にしました。

The process of acquiring microscopic images in life sciences often results in image degradation and corruption, characterised by the presence of noise and blur, which poses significant challenges in accurately analysing and interpreting the obtained data. This paper proposes LUCYD, a novel method for the restoration of volumetric microscopy images that combines the Richardson-Lucy deconvolution formula and the fusion of deep features obtained by a fully convolutional network. By integrating the image formation process into a feature-driven restoration model, the proposed approach aims to enhance the quality of the restored images whilst reducing computational costs and maintaining a high degree of interpretability. Our results demonstrate that LUCYD outperforms the state-of-the-art methods in both synthetic and real microscopy images, achieving superior performance in terms of image quality and generalisability. We show that the model can handle various microscopy modalities and different imaging conditions by evaluating it on two different microscopy datasets, including volumetric widefield and light-sheet microscopy. Our experiments indicate that LUCYD can significantly improve resolution, contrast, and overall quality of microscopy images. Therefore, it can be a valuable tool for microscopy image restoration and can facilitate further research in various microscopy applications. We made the source code for the model accessible under https://github.com/ctom2/lucyd-deconvolution.
翻訳日:2023-07-18 16:23:56 公開日:2023-07-16
# margctgan: 低サンプルレジームのための"マージナリー"なctgan

MargCTGAN: A "Marginally'' Better CTGAN for the Low Sample Regime ( http://arxiv.org/abs/2307.07997v1 )

ライセンス: Link先を確認
Tejumade Afonja, Dingfan Chen, Mario Fritz(参考訳) 現実的で有用な合成データのポテンシャルは重要である。 しかし,近年の表データ生成における評価手法は主に下流課題の有用性に焦点をあてており,統計特性の重要性を無視することが多い。 この監視は、これらの統計的尺度の急激な劣化を伴う低いサンプルシナリオにおいて特に顕著になる。 本稿では,その限界分布,列対相関,連系分布,下流タスクユーティリティ性能に基づく3つの最先端合成表データ生成装置の評価を行い,この問題に対処する。 一般的なCTGANモデルは、有効性は高いが、有効性は低いサンプル設定では不十分である。 この制限を克服するために,非相関境界の特徴マッチングを追加するMargCTGANを提案する。

The potential of realistic and useful synthetic data is significant. However, current evaluation methods for synthetic tabular data generation predominantly focus on downstream task usefulness, often neglecting the importance of statistical properties. This oversight becomes particularly prominent in low sample scenarios, accompanied by a swift deterioration of these statistical measures. In this paper, we address this issue by conducting an evaluation of three state-of-the-art synthetic tabular data generators based on their marginal distribution, column-pair correlation, joint distribution and downstream task utility performance across high to low sample regimes. The popular CTGAN model shows strong utility, but underperforms in low sample settings in terms of utility. To overcome this limitation, we propose MargCTGAN that adds feature matching of de-correlated marginals, which results in a consistent improvement in downstream utility as well as statistical properties of the synthetic data.
翻訳日:2023-07-18 16:23:32 公開日:2023-07-16
# ポジティブ感情誘発を伴う多ターン感情支援会話の促進:強化学習アプローチ

Facilitating Multi-turn Emotional Support Conversation with Positive Emotion Elicitation: A Reinforcement Learning Approach ( http://arxiv.org/abs/2307.07994v1 )

ライセンス: Link先を確認
Jinfeng Zhou, Zhuang Chen, Bo Wang, Minlie Huang(参考訳) 感情支援会話(ESC)は、精神状態を改善するための感情支援(ES)を提供することを目的としている。 既存の作業は、ESへの影響を無視し、感情的な肯定的な移行を導く明確な目標を欠く、接地された応答と対応戦略(例えば質問)に留まっている。 そこで本研究では,多ターンescをポジティブ感情誘発のプロセスとして定式化する新しいパラダイムを提案する。 このタスクに対処するには、コヒーレンスのような会話目標を維持しながら会話が進行するにつれて、ESのエリケーション強度を微調整する必要がある。 本稿では,専門家による強化学習モデルであるサポーターを提案し,esと対話のコヒーレンスをうまく設計し,政策の学習を指導して回答する。 実験は,コヒーレンスを含む会話目標を維持しながら,反応時の肯定的感情誘発における支援者の優位性を検証する。

Emotional support conversation (ESC) aims to provide emotional support (ES) to improve one's mental state. Existing works stay at fitting grounded responses and responding strategies (e.g., question), which ignore the effect on ES and lack explicit goals to guide emotional positive transition. To this end, we introduce a new paradigm to formalize multi-turn ESC as a process of positive emotion elicitation. Addressing this task requires finely adjusting the elicitation intensity in ES as the conversation progresses while maintaining conversational goals like coherence. In this paper, we propose Supporter, a mixture-of-expert-based reinforcement learning model, and well design ES and dialogue coherence rewards to guide policy's learning for responding. Experiments verify the superiority of Supporter in achieving positive emotion elicitation during responding while maintaining conversational goals including coherence.
翻訳日:2023-07-18 16:23:07 公開日:2023-07-16
# 変圧器推論の最適化手法の検討

A Survey of Techniques for Optimizing Transformer Inference ( http://arxiv.org/abs/2307.07982v1 )

ライセンス: Link先を確認
Krishna Teja Chitty-Venkata, Sparsh Mittal, Murali Emani, Venkatram Vishwanath, Arun K. Somani(参考訳) 近年、トランスフォーマーニューラルネットワークの性能と応用が飛躍的に増加している。 The family of transformer network, including bidirectional Encoder Representations from Transformer (BERT), Generative Pretrained Transformer (GPT), Vision Transformer (ViT)は、自然言語処理 (NLP) とコンピュータビジョン (CV) ドメインで有効であることを示した。 chatgptのようなトランスフォーマーベースのネットワークは、庶民の生活に影響を与えている。 しかし、高い予測性能の追求により、トランスフォーマーのメモリと計算フットプリントが指数関数的に増加した。 研究者は、あらゆるレベルの抽象化でトランスフォーマー推論を最適化する手法を提案している。 本稿では,トランスネットワークの推論位相を最適化する手法の包括的調査を行う。 我々は,知識蒸留,プルーニング,量子化,ニューラルアーキテクチャ探索,軽量ネットワーク設計などの手法をアルゴリズムレベルで調査する。 さらに,ハードウェアレベルの最適化手法とトランスフォーマーのための新しいハードウェアアクセラレータの設計について述べる。 パラメータ/FLOPの数といくつかのモデル/テクニックの精度に関する定量的な結果を要約し、それらのトレードオフを示す。 この急速に発展する研究分野における今後の方向性についても概説する。 この調査は、初学者と熟成研究者の両方を教育し、この分野で多くの研究成果を生み出すものと信じている。

Recent years have seen a phenomenal rise in performance and applications of transformer neural networks. The family of transformer networks, including Bidirectional Encoder Representations from Transformer (BERT), Generative Pretrained Transformer (GPT) and Vision Transformer (ViT), have shown their effectiveness across Natural Language Processing (NLP) and Computer Vision (CV) domains. Transformer-based networks such as ChatGPT have impacted the lives of common men. However, the quest for high predictive performance has led to an exponential increase in transformers' memory and compute footprint. Researchers have proposed techniques to optimize transformer inference at all levels of abstraction. This paper presents a comprehensive survey of techniques for optimizing the inference phase of transformer networks. We survey techniques such as knowledge distillation, pruning, quantization, neural architecture search and lightweight network design at the algorithmic level. We further review hardware-level optimization techniques and the design of novel hardware accelerators for transformers. We summarize the quantitative results on the number of parameters/FLOPs and accuracy of several models/techniques to showcase the tradeoff exercised by them. We also outline future directions in this rapidly evolving field of research. We believe that this survey will educate both novice and seasoned researchers and also spark a plethora of research efforts in this field.
翻訳日:2023-07-18 16:22:37 公開日:2023-07-16
# byzantine-robust分散オンライン学習: 敵の参加者を敵の環境に改ざんする

Byzantine-Robust Distributed Online Learning: Taming Adversarial Participants in An Adversarial Environment ( http://arxiv.org/abs/2307.07980v1 )

ライセンス: Link先を確認
Xingrong Dong, Zhaoxian Wu, Qing Ling, Zhi Tian(参考訳) 本稿では,ビザンチン攻撃下でのオンライン学習について検討する。 オンライン学習アルゴリズムの性能は、しばしば(逆)後悔によって特徴づけられ、環境が対向的な損失を与えるときのワンステップ決定の質を評価し、サブ線形境界が好ましい。 しかし, 逆境環境やビザンチンの参加者の存在下では, 最先端の頑健な集約ルールのクラスであっても, オンライン勾配の分散は, 厳密な線形的反逆的後悔境界を達成できないことが証明された。 これはビザンツ攻撃の避けられない結果であり、線形敵の後悔の定数を合理的なレベルに制御することができる。 興味深いことに、正直な参加者の損失が無依存かつ均等に分配されるように環境が完全に敵対的でない場合は、上記の敵対的後悔とは対照的に、亜線形確率的後悔が可能となる。 そこで我々は, ビザンチン・ロバスト分散オンラインモーメントアルゴリズムを開発し, このような半線形確率的後悔境界を実現する。 大規模な数値実験は我々の理論解析を裏付ける。

This paper studies distributed online learning under Byzantine attacks. The performance of an online learning algorithm is often characterized by (adversarial) regret, which evaluates the quality of one-step-ahead decision-making when an environment provides adversarial losses, and a sublinear bound is preferred. But we prove that, even with a class of state-of-the-art robust aggregation rules, in an adversarial environment and in the presence of Byzantine participants, distributed online gradient descent can only achieve a linear adversarial regret bound, which is tight. This is the inevitable consequence of Byzantine attacks, even though we can control the constant of the linear adversarial regret to a reasonable level. Interestingly, when the environment is not fully adversarial so that the losses of the honest participants are i.i.d. (independent and identically distributed), we show that sublinear stochastic regret, in contrast to the aforementioned adversarial regret, is possible. We develop a Byzantine-robust distributed online momentum algorithm to attain such a sublinear stochastic regret bound. Extensive numerical experiments corroborate our theoretical analysis.
翻訳日:2023-07-18 16:21:54 公開日:2023-07-16
# 行動認識のためのヒューマンパーシングとポースネットワークの統合

Integrating Human Parsing and Pose Network for Human Action Recognition ( http://arxiv.org/abs/2307.07977v1 )

ライセンス: Link先を確認
Runwei Ding, Yuhang Wen, Jinfu Liu, Nan Dai, Fanyang Meng, Mengyuan Liu(参考訳) ヒトの骨格とrgb配列は共に、人間の行動認識に広く採用されている入力モードである。 しかし、骨格は外観に欠けており、色データは大量の無関係な描写に苦しむ。 そこで本研究では,身体部位の時空間的特徴を選択的に保ちつつ,衣装や背景などに関するノイズを除去できるため,人間のパース特徴マップを新しいモダリティとして導入する。 本稿では,アクション認識のためのヒューマン・パース・アンド・ポーズ・ネットワーク(ipp-net)を提案する。 人間のポーズ枝は、グラフ畳み込みネットワークにおける異なるモダリティのコンパクトな骨格表現を与え、ポーズ特徴をモデル化する。 人間のパーシングブランチでは、多フレームのボディ部分解析機能は人間の検出器とパーサで抽出され、後に畳み込みバックボーンを用いて学習される。 2つの分岐の遅いアンサンブルは、ロバストなキーポイントと豊富なセマンティックなボディーパート機能の両方を考慮して、最終的な予測を得るために採用されます。 NTU RGB+D と NTU RGB+D 120 ベンチマークの大規模な実験は、提案した IPP-Net の有効性を一貫して検証し、既存の行動認識法より優れている。 私たちのコードはhttps://github.com/liujf69/IPP-Net-Parsingで公開されています。

Human skeletons and RGB sequences are both widely-adopted input modalities for human action recognition. However, skeletons lack appearance features and color data suffer large amount of irrelevant depiction. To address this, we introduce human parsing feature map as a novel modality, since it can selectively retain spatiotemporal features of the body parts, while filtering out noises regarding outfits, backgrounds, etc. We propose an Integrating Human Parsing and Pose Network (IPP-Net) for action recognition, which is the first to leverage both skeletons and human parsing feature maps in dual-branch approach. The human pose branch feeds compact skeletal representations of different modalities in graph convolutional network to model pose features. In human parsing branch, multi-frame body-part parsing features are extracted with human detector and parser, which is later learnt using a convolutional backbone. A late ensemble of two branches is adopted to get final predictions, considering both robust keypoints and rich semantic body-part features. Extensive experiments on NTU RGB+D and NTU RGB+D 120 benchmarks consistently verify the effectiveness of the proposed IPP-Net, which outperforms the existing action recognition methods. Our code is publicly available at https://github.com/liujf69/IPP-Net-Parsing .
翻訳日:2023-07-18 16:21:20 公開日:2023-07-16
# hrhd-hk:写真測点雲の3次元セマンティクスセグメンテーションのための高層・高密度都市シーンのベンチマークデータセット

HRHD-HK: A benchmark dataset of high-rise and high-density urban scenes for 3D semantic segmentation of photogrammetric point clouds ( http://arxiv.org/abs/2307.07976v1 )

ライセンス: Link先を確認
Maosu Li, Yijie Wu, Anthony G.O. Yeh, Fan Xue(参考訳) 既存の3dセマンティクスセグメンテーション手法の多くは、特にコンピュータビジョンにおけるディープラーニングであり、都市オブジェクトが多すぎて、人々が質的に判断できないような、都市的ポイントクラウドで望ましい結果を達成すると主張した。 したがって,高層,低層,高密度,低密度の都市部を包含する都市空間の多様化において,これらの手法を定量的に評価することが重要である。 しかしながら、既存の公開ベンチマークデータセットは、主にヨーロッパの都市からの低層シーンを表しており、その手法を包括的に評価することはできない。 本稿では,香港の高層,高密度都市景観(hrhd-hk)の高層都市点雲に関するベンチマークデータセットを提案する。 hrhd-hkは150個のタイルに配置され、多様な都市環境から2億7300万のカラーフォトグラム3dポイントを含んでいる。 HRHD-HKのセマンティックラベルには、建物、植生、道路、水域、施設、地形、車両が含まれる。 我々の知る限り、HRHD-HKはHRHD都市圏に焦点を当てた最初のフォトグラムデータセットである。 本稿では,HRHD-HKデータセット上での8つの一般的なセマンティックセマンティックセマンティクス手法を包括的に評価する。 実験により,現在の点雲の3次元意味セグメンテーション,特に体積の少ない都市対象物について,十分な空間が確認された。 私たちのデータセットは、https://github.com/LuZaiJiaoXiaL/HRHD-HK.comで公開されています。

Many existing 3D semantic segmentation methods, deep learning in computer vision notably, claimed to achieve desired results on urban point clouds, in which the city objects are too many and diverse for people to judge qualitatively. Thus, it is significant to assess these methods quantitatively in diversified real-world urban scenes, encompassing high-rise, low-rise, high-density, and low-density urban areas. However, existing public benchmark datasets primarily represent low-rise scenes from European cities and cannot assess the methods comprehensively. This paper presents a benchmark dataset of high-rise urban point clouds, namely High-Rise, High-Density urban scenes of Hong Kong (HRHD-HK), which has been vacant for a long time. HRHD-HK arranged in 150 tiles contains 273 million colorful photogrammetric 3D points from diverse urban settings. The semantic labels of HRHD-HK include building, vegetation, road, waterbody, facility, terrain, and vehicle. To the best of our knowledge, HRHD-HK is the first photogrammetric dataset that focuses on HRHD urban areas. This paper also comprehensively evaluates eight popular semantic segmentation methods on the HRHD-HK dataset. Experimental results confirmed plenty of room for enhancing the current 3D semantic segmentation of point clouds, especially for city objects with small volumes. Our dataset is publicly available at: https://github.com/LuZaiJiaoXiaL/HRHD-HK.
翻訳日:2023-07-18 16:20:55 公開日:2023-07-16
# 有限要素インスピレーションネットワーク:部分的な観測から物理的に証明可能な変形可能な物体力学を学習する

Finite element inspired networks: Learning physically-plausible deformable object dynamics from partial observations ( http://arxiv.org/abs/2307.07975v1 )

ライセンス: Link先を確認
Shamil Mamedov, A. Ren\'e Geist, Jan Swevers, Sebastian Trimpe(参考訳) 変形可能な線形物体(DLO)力学の正確なシミュレーションは、手作業が高速な予測をもたらす人間解釈可能なデータ効率モデルを必要とする場合、困難である。 このようなモデルに到達するために、剛有限要素法(R-FEM)からインスピレーションを得て、動的ネットワークによって内部状態が経時的にアンロールされる剛体の直列鎖としてDLOをモデル化する。 この状態が直接観察されないため、ダイナミクスネットワークは、観測された運動変数をボディチェーンの状態にマッピングする物理インフォームドエンコーダと共同で訓練される。 状態が物理的に意味のある表現を取得することを奨励するために、基礎となるR-FEMモデルの前方運動学(FK)をデコーダとして活用する。 我々はロボット実験において、このアーキテクチャが「有限要素インスピレーションネットワーク」と呼ばれ、容易に扱えるが能力のあるDLO力学モデルを形成し、部分的な観測から物理的に解釈可能な予測が得られることを示した。 プロジェクトコードは \url{https://tinyurl.com/fei-networks} で利用可能である。

The accurate simulation of deformable linear object (DLO) dynamics is challenging if the task at hand requires a human-interpretable and data-efficient model that also yields fast predictions. To arrive at such model, we draw inspiration from the rigid finite element method (R-FEM) and model a DLO as a serial chain of rigid bodies whose internal state is unrolled through time by a dynamics network. As this state is not observed directly, the dynamics network is trained jointly with a physics-informed encoder mapping observed motion variables to the body chain's state. To encourage that the state acquires a physically meaningful representation, we leverage the forward kinematics (FK) of the underlying R-FEM model as a decoder. We demonstrate in a robot experiment that this architecture - being termed "Finite element inspired network" - forms an easy to handle, yet capable DLO dynamics model yielding physically interpretable predictions from partial observations. The project code is available at: \url{https://tinyurl.com/fei-networks}
翻訳日:2023-07-18 16:20:30 公開日:2023-07-16
# ヘテロシデスティック因果構造学習

Heteroscedastic Causal Structure Learning ( http://arxiv.org/abs/2307.07973v1 )

ライセンス: Link先を確認
Bao Duong and Thin Nguyen(参考訳) これまで,観測データに埋め込まれた因果関係を符号化する有向非巡回グラフ(DAG)の学習は,計算的に難しい問題であった。 近年の研究の潮流は、等分散の仮定の下で多項式時間複雑性を持つdagを回復できることを示した。 しかし、これはノイズのヘテロシステキティを禁止し、より柔軟なモデリング能力を可能にするが、同時に処理がかなり難しい。 本研究では,ガウス雑音下での不連続因果構造学習問題に取り組む。 因果メカニズムの正規性を利用することで、条件付き独立テストを用いて因果dagを一意に識別できる有効な因果順序を回復することができる。 結果はhost(heteroscedastic causal structure learning)であり、サンプルサイズと次元の両方で多項式スケールする、単純で効果的な因果構造学習アルゴリズムである。 さらに,制御されたデータセットと実データの両方に対して広範な実験的な評価を行うことで,提案手法は因果順序学習と構造学習の両問題において最先端の手法と競合することを示す。

Heretofore, learning the directed acyclic graphs (DAGs) that encode the cause-effect relationships embedded in observational data is a computationally challenging problem. A recent trend of studies has shown that it is possible to recover the DAGs with polynomial time complexity under the equal variances assumption. However, this prohibits the heteroscedasticity of the noise, which allows for more flexible modeling capabilities, but at the same time is substantially more challenging to handle. In this study, we tackle the heteroscedastic causal structure learning problem under Gaussian noises. By exploiting the normality of the causal mechanisms, we can recover a valid causal ordering, which can uniquely identify the causal DAG using a series of conditional independence tests. The result is HOST (Heteroscedastic causal STructure learning), a simple yet effective causal structure learning algorithm that scales polynomially in both sample size and dimensionality. In addition, via extensive empirical evaluations on a wide range of both controlled and real datasets, we show that the proposed HOST method is competitive with state-of-the-art approaches in both the causal order learning and structure learning problems.
翻訳日:2023-07-18 16:20:11 公開日:2023-07-16
# ゴールコンディション強化学習のための磁場ベースリワード整形

Magnetic Field-Based Reward Shaping for Goal-Conditioned Reinforcement Learning ( http://arxiv.org/abs/2307.08033v1 )

ライセンス: Link先を確認
Hongyu Ding, Yuanze Tang, Qing Wu, Bo Wang, Chunlin Chen, Zhi Wang(参考訳) ゴール条件強化学習(RL)は従来のRLフレームワークの興味深い拡張であり、動的環境と報酬空間が従来の学習アルゴリズムを失敗させる可能性がある。 報酬形成は、人間のドメイン知識を学習プロセスに組み込むことでサンプル効率を改善するための実践的なアプローチです。 目標条件付きrlに対する既存の報酬形成手法は、線形および等方性分布を持つ距離メトリクスに基づいて構築されるが、複雑で変化する環境に関する十分な情報を提供しない可能性がある。 本稿では,目標条件付きRLタスクの動的目標と障害物を考慮した新しい磁場型報酬整形法を提案する。 磁石の物理的性質に着想を得て, 目標と障害物を永久磁石とみなし, これらの磁石によって生じる磁場の強度値に応じて報酬関数を確立する。 磁場強度の非線形および異方性分布は、最適化ランドスケープに関するよりアクセシブルで導出的な情報を提供することができ、したがって距離ベースの設定よりも洗練された磁気報酬をもたらす。 さらに, 二次ポテンシャル関数を同時に学習することで, 磁気的報酬をポテンシャルに基づく報酬形成の形に変換し, 最適方針不変性を確保する。 実世界のロボット操作のシミュレーション実験の結果、MFRSは既存の手法よりも優れており、目標条件付きタスクにおけるRLアルゴリズムのサンプル効率を目標と障害物の様々なダイナミクスで効果的に向上することが示された。

Goal-conditioned reinforcement learning (RL) is an interesting extension of the traditional RL framework, where the dynamic environment and reward sparsity can cause conventional learning algorithms to fail. Reward shaping is a practical approach to improving sample efficiency by embedding human domain knowledge into the learning process. Existing reward shaping methods for goal-conditioned RL are typically built on distance metrics with a linear and isotropic distribution, which may fail to provide sufficient information about the ever-changing environment with high complexity. This paper proposes a novel magnetic field-based reward shaping (MFRS) method for goal-conditioned RL tasks with dynamic target and obstacles. Inspired by the physical properties of magnets, we consider the target and obstacles as permanent magnets and establish the reward function according to the intensity values of the magnetic field generated by these magnets. The nonlinear and anisotropic distribution of the magnetic field intensity can provide more accessible and conducive information about the optimization landscape, thus introducing a more sophisticated magnetic reward compared to the distance-based setting. Further, we transform our magnetic reward to the form of potential-based reward shaping by learning a secondary potential function concurrently to ensure the optimal policy invariance of our method. Experiments results in both simulated and real-world robotic manipulation tasks demonstrate that MFRS outperforms relevant existing methods and effectively improves the sample efficiency of RL algorithms in goal-conditioned tasks with various dynamics of the target and obstacles.
翻訳日:2023-07-18 16:14:30 公開日:2023-07-16
# 拡散確率モデルを用いた雑音対応音声強調

Noise-aware Speech Enhancement using Diffusion Probabilistic Model ( http://arxiv.org/abs/2307.08029v1 )

ライセンス: Link先を確認
Yuchen Hu, Chen Chen, Ruizhe Li, Qiushi Zhu, Eng Siong Chng(参考訳) 最近の拡散モデルの進歩により、生成的音声強調(se)は、ノイズを検知しない可能性が非常に高いため、研究の関心を集めている。 しかし,既存の研究は,実環境下での様々なノイズ情報を過小評価し,クリーン音声の固有性に着目している。 本稿では,拡散モデルの逆過程を導くために,雑音固有情報を抽出する雑音認識音声強調(nase)手法を提案する。 具体的には,雑音分類(nc)モデルの設計を行い,逆発振過程を導出するためのノイズコンディショナとして音響埋め込みを行う。 一方,seタスクとncタスクを協調して最適化し,抽出したノイズコンディショナーの雑音特異性を高めるマルチタスク学習手法が考案された。 提案するnaseは任意の拡散seモデルに一般化可能なプラグアンドプレイモジュールであることが示されている。 voicebank-demandデータセットの実験的な証拠は、naseが複数の主流の拡散seモデル、特に目に見えないテストノイズに対して大きな改善を達成していることを示している。

With recent advances of diffusion model, generative speech enhancement (SE) has attracted a surge of research interest due to its great potential for unseen testing noises. However, existing efforts mainly focus on inherent properties of clean speech for inference, underexploiting the varying noise information in real-world conditions. In this paper, we propose a noise-aware speech enhancement (NASE) approach that extracts noise-specific information to guide the reverse process in diffusion model. Specifically, we design a noise classification (NC) model to produce acoustic embedding as a noise conditioner for guiding the reverse denoising process. Meanwhile, a multi-task learning scheme is devised to jointly optimize SE and NC tasks, in order to enhance the noise specificity of extracted noise conditioner. Our proposed NASE is shown to be a plug-and-play module that can be generalized to any diffusion SE models. Experiment evidence on VoiceBank-DEMAND dataset shows that NASE achieves significant improvement over multiple mainstream diffusion SE models, especially on unseen testing noises.
翻訳日:2023-07-18 16:14:06 公開日:2023-07-16
# 低次元物体運動による多物体発見

Multi-Object Discovery by Low-Dimensional Object Motion ( http://arxiv.org/abs/2307.08027v1 )

ライセンス: Link先を確認
Sadra Safadoust, Fatma G\"uney(参考訳) 教師なし多目的セグメンテーションの最近の研究は、次の画像のない動きのあいまいさに拘わらず、単一の画像から動きを予測することで印象的な結果を示している。 一方、シーン構造を考慮し、被写体を移動させることで、画像の可能な運動のセットを低次元空間に制約することができる。 単一画像からの流れを再構成する際のあいまいさを取り除くために,画素単位の幾何と物体の動きをモデル化する。 具体的には、画像をコヒーレントに動く領域に分割し、各領域で観測された流れを最もよく説明するフローベースを構築する。 本研究では,シーン構造と物体の動きをモデル化することにより,合成および実世界のデータセット上で教師なしマルチオブジェクトセグメンテーションを実現する。 予測深度マップの評価は単眼深度推定における信頼性を示す。

Recent work in unsupervised multi-object segmentation shows impressive results by predicting motion from a single image despite the inherent ambiguity in predicting motion without the next image. On the other hand, the set of possible motions for an image can be constrained to a low-dimensional space by considering the scene structure and moving objects in it. We propose to model pixel-wise geometry and object motion to remove ambiguity in reconstructing flow from a single image. Specifically, we divide the image into coherently moving regions and use depth to construct flow bases that best explain the observed flow in each region. We achieve state-of-the-art results in unsupervised multi-object segmentation on synthetic and real-world datasets by modeling the scene structure and object motion. Our evaluation of the predicted depth maps shows reliable performance in monocular depth estimation.
翻訳日:2023-07-18 16:13:49 公開日:2023-07-16
# 物体検出を用いたテキスト・画像モデルにおけるジェンダーバイアスの解析

Analysing Gender Bias in Text-to-Image Models using Object Detection ( http://arxiv.org/abs/2307.08025v1 )

ライセンス: Link先を確認
Harvey Mannering(参考訳) 本研究は,テキストから画像へのバイアスを測定する新しい手法を提案する。 性別を特定し、オブジェクトを曖昧に参照するペアプロンプト(例:「アイテムを持っている男性/女性」)を使用することで、特定のオブジェクトが特定の性別に関連付けられているかどうかを検証できる。 安定拡散の結果を解析した結果, 男性のプロンプトはタイ, ナイフ, トラック, 野球のバット, 自転車などの物体をより頻繁に発生することがわかった。 一方,女性のプロンプトは,ハンドバッグや傘,ボウル,ボトル,カップなどのオブジェクトを生成する傾向が高かった。 ここで概説する手法は、テキストから画像へのモデルのバイアスを調べるのに有用なツールになることを願っている。

This work presents a novel strategy to measure bias in text-to-image models. Using paired prompts that specify gender and vaguely reference an object (e.g. "a man/woman holding an item") we can examine whether certain objects are associated with a certain gender. In analysing results from Stable Diffusion, we observed that male prompts generated objects such as ties, knives, trucks, baseball bats, and bicycles more frequently. On the other hand, female prompts were more likely to generate objects such as handbags, umbrellas, bowls, bottles, and cups. We hope that the method outlined here will be a useful tool for examining bias in text-to-image models.
翻訳日:2023-07-18 16:13:34 公開日:2023-07-16
# データ効率、説明可能、安全なロボット動作計画のためのベイジアン推論:レビュー

Bayesian inference for data-efficient, explainable, and safe robotic motion planning: A review ( http://arxiv.org/abs/2307.08024v1 )

ライセンス: Link先を確認
Chengmin Zhou, Chao Wang, Haseeb Hassan, Himat Shah, Bingding Huang, Pasi Fr\"anti(参考訳) ベイズ推論は4つの観点からロボットの動き計画において多くの利点がある: ポリシーの不確実性、安全性(リスク認識)、ロボットの動きの最適保証、強化学習の訓練におけるデータ効率、そしてロボットが現実世界のタスクに適用される際のシモディリアルギャップを減らす。 しかし、ロボット運動計画におけるベイジアン推論の適用は、ベイジアン推論の包括的理論に遅れを取っている。 さらに、ベイズ推論の進捗を要約して、研究者にロボットの動き計画の体系的な理解を与える包括的なレビューはない。 本稿では,複素ケースに対するベイズ推論の予備となるベイズ推論の確率論的理論について述べる。 第二に、ベイズ推定は、ポリシーの計算に使用されるポリシーや未知の関数の後方を推定するために与えられる。 第3に、ロボットの動き計画のための古典的モデルベースベイズRLとモデルフリーベイズRLアルゴリズムを要約し、複雑なケースにおけるこれらのアルゴリズムも分析する。 第4に、データ効率のよい方法で報酬関数を推定するために、逆 RL におけるベイズ推定の解析を行う。 第5に, ベイズ推論とRLのハイブリッド化を体系的に提示し, RLの収束性を向上し, 運動計画の改善を図っている。 第6に,ベイズ推定を前提に,近年のホットな研究テーマである,解釈可能かつ安全なロボット動作計画を提案する。 最後に,本論文でレビューした全てのアルゴリズムを知識グラフとして解析的に要約し,データ効率,説明性,安全なロボット動作計画戦略を実用化するために,ロボット動作計画のためのベイズ推論の将来についても論じる。

Bayesian inference has many advantages in robotic motion planning over four perspectives: The uncertainty quantification of the policy, safety (risk-aware) and optimum guarantees of robot motions, data-efficiency in training of reinforcement learning, and reducing the sim2real gap when the robot is applied to real-world tasks. However, the application of Bayesian inference in robotic motion planning is lagging behind the comprehensive theory of Bayesian inference. Further, there are no comprehensive reviews to summarize the progress of Bayesian inference to give researchers a systematic understanding in robotic motion planning. This paper first provides the probabilistic theories of Bayesian inference which are the preliminary of Bayesian inference for complex cases. Second, the Bayesian estimation is given to estimate the posterior of policies or unknown functions which are used to compute the policy. Third, the classical model-based Bayesian RL and model-free Bayesian RL algorithms for robotic motion planning are summarized, while these algorithms in complex cases are also analyzed. Fourth, the analysis of Bayesian inference in inverse RL is given to infer the reward functions in a data-efficient manner. Fifth, we systematically present the hybridization of Bayesian inference and RL which is a promising direction to improve the convergence of RL for better motion planning. Sixth, given the Bayesian inference, we present the interpretable and safe robotic motion plannings which are the hot research topic recently. Finally, all algorithms reviewed in this paper are summarized analytically as the knowledge graphs, and the future of Bayesian inference for robotic motion planning is also discussed, to pave the way for data-efficient, explainable, and safe robotic motion planning strategies for practical applications.
翻訳日:2023-07-18 16:13:21 公開日:2023-07-16
# タスクのブレークダウン: ビジョンと言語決定のためのユニットグレードのハイブリッドトレーニングフレームワーク

Breaking Down the Task: A Unit-Grained Hybrid Training Framework for Vision and Language Decision Making ( http://arxiv.org/abs/2307.08016v1 )

ライセンス: Link先を確認
Ruipu Luo, Jiwen Zhang, Zhongyu Wei(参考訳) 視覚言語意思決定(VLDM)は、難しいマルチモーダルタスクである。 エージェントは複雑なヒューマンインストラクションを理解し、環境ナビゲーションやオブジェクト操作を含む完全な構成タスクを理解する必要がある。 しかしながら、VLDMに関わる長いアクションシーケンスは、タスクの学習を困難にする。 環境の観点からすると、タスクのエピソードは、ナビゲーションフェーズとインタラクションフェーズを含むきめ細かい \textit{units} に分割できることがわかった。 ユニット内の環境は変化しないため,環境中を活発に探索し,露出バイアスを低減できる新しいハイブリッド学習フレームワークを提案する。 このようなフレームワークは、単位粒度の設定を利用し、モデルに依存しない。 具体的には、ユニットスケールのクロスモーダルメモリを維持する固有のリカレント状態を持つユニット変換器(UT)を設計する。 TEACHベンチマークの広範な実験を通じて,提案するフレームワークは,すべての評価指標において,既存の最先端手法よりも優れていることを示す。 全体として,より小さく管理可能なユニットに分割し,ハイブリッドトレーニングフレームワークを活用することで,vldmタスクに取り組むための新たなアプローチを導入しました。 そうすることで、私たちはより柔軟で効果的なマルチモーダルな意思決定ソリューションを提供します。

Vision language decision making (VLDM) is a challenging multimodal task. The agent have to understand complex human instructions and complete compositional tasks involving environment navigation and object manipulation. However, the long action sequences involved in VLDM make the task difficult to learn. From an environment perspective, we find that task episodes can be divided into fine-grained \textit{units}, each containing a navigation phase and an interaction phase. Since the environment within a unit stays unchanged, we propose a novel hybrid-training framework that enables active exploration in the environment and reduces the exposure bias. Such framework leverages the unit-grained configurations and is model-agnostic. Specifically, we design a Unit-Transformer (UT) with an intrinsic recurrent state that maintains a unit-scale cross-modal memory. Through extensive experiments on the TEACH benchmark, we demonstrate that our proposed framework outperforms existing state-of-the-art methods in terms of all evaluation metrics. Overall, our work introduces a novel approach to tackling the VLDM task by breaking it down into smaller, manageable units and utilizing a hybrid-training framework. By doing so, we provide a more flexible and effective solution for multimodal decision making.
翻訳日:2023-07-18 16:12:49 公開日:2023-07-16
# ジオメトリ誘導クロスビュートランスによる3次元地対衛星カメラ位置推定精度の向上

Boosting 3-DoF Ground-to-Satellite Camera Localization Accuracy via Geometry-Guided Cross-View Transformer ( http://arxiv.org/abs/2307.08015v1 )

ライセンス: Link先を確認
Yujiao Shi, Fei Wu, Ankit Vora, Akhil Perincherry, and Hongdong Li(参考訳) 画像検索に基づくクロスビューローカライズ手法は、データベース衛星画像のサンプリング密度が限られているため、非常に粗いカメラポーズ推定につながることが多い。 本稿では,地上画像とマッチング・検索衛星画像との相対的な回転と変換を推定することにより,地上カメラの位置と方向の精度を向上させる手法を提案する。 本手法では,従来の形状と学習可能なクロスビュートランスを併用した形状誘導クロスビュートランスを設計,地上観測をオーバヘッドビューにマッピングする。 合成したオーバヘッドビューと観測された衛星特徴マップから,強いグローバル情報埋め込み能力を持つニューラルポーズオプティマイザを構築し,それらの相対回転を推定する。 それらの回転を整列した後、不確実性誘導された空間相関関係を開発し、相対変換を決定できる車両位置の確率マップを生成する。 実験の結果,本手法は最先端技術よりも優れていた。 特に、クロスビューkittiデータセットにおける車両横ポーズを1m以内に制限する可能性は35.54\%$から76.44\%$に改善され、そのgt値の1^{\circ}$以内に制限される可能性は19.64\%$から99.10\%$に改善された。

Image retrieval-based cross-view localization methods often lead to very coarse camera pose estimation, due to the limited sampling density of the database satellite images. In this paper, we propose a method to increase the accuracy of a ground camera's location and orientation by estimating the relative rotation and translation between the ground-level image and its matched/retrieved satellite image. Our approach designs a geometry-guided cross-view transformer that combines the benefits of conventional geometry and learnable cross-view transformers to map the ground-view observations to an overhead view. Given the synthesized overhead view and observed satellite feature maps, we construct a neural pose optimizer with strong global information embedding ability to estimate the relative rotation between them. After aligning their rotations, we develop an uncertainty-guided spatial correlation to generate a probability map of the vehicle locations, from which the relative translation can be determined. Experimental results demonstrate that our method significantly outperforms the state-of-the-art. Notably, the likelihood of restricting the vehicle lateral pose to be within 1m of its Ground Truth (GT) value on the cross-view KITTI dataset has been improved from $35.54\%$ to $76.44\%$, and the likelihood of restricting the vehicle orientation to be within $1^{\circ}$ of its GT value has been improved from $19.64\%$ to $99.10\%$.
翻訳日:2023-07-18 16:12:31 公開日:2023-07-16
# 暗黙的モデルの再検討:視覚タスクのための重み付きモデルにおけるスパーシティトレードオフ能力

Revisiting Implicit Models: Sparsity Trade-offs Capability in Weight-tied Model for Vision Tasks ( http://arxiv.org/abs/2307.08013v1 )

ライセンス: Link先を確認
Haobo Song, Soumajit Majumder, Tao Lin(参考訳) 深層平衡モデル(deqs)のような暗黙のモデルは、エレガントな解探索手順と一定のメモリフットプリントで無限層モデルを訓練できる能力によって、コミュニティに大きな注目を集めてきた。 しかし、いくつかの試みにもかかわらず、これらの手法はモデルの非効率性と最適化の不安定性によって強く制約されている。 さらに、視覚タスクに関連するメソッドに対する公正なベンチマークが欠落している。 この研究では、暗黙のモデル列を再検討し、それらを元の重み付けモデルに遡る。 驚いたことに、重み付きモデルはdeqの変種と比較して、視覚タスクにおいてより効率的で安定であり、効率的である。 これらの単純イットクリーン重み付けモデルのレンズを通して、これらのモデルのモデル容量の基本的な限界について研究し、モデル容量を改善するために異なるスパースマスクの使用を提案する。 最後に,重み付きモデルの深さ,幅,スパーシティ選択に関する設計ガイドラインを提供し,他の学習パラダイムに対する洞察の一般化可能性を示す。

Implicit models such as Deep Equilibrium Models (DEQs) have garnered significant attention in the community for their ability to train infinite layer models with elegant solution-finding procedures and constant memory footprint. However, despite several attempts, these methods are heavily constrained by model inefficiency and optimization instability. Furthermore, fair benchmarking across relevant methods for vision tasks is missing. In this work, we revisit the line of implicit models and trace them back to the original weight-tied models. Surprisingly, we observe that weight-tied models are more effective, stable, as well as efficient on vision tasks, compared to the DEQ variants. Through the lens of these simple-yet-clean weight-tied models, we further study the fundamental limits in the model capacity of such models and propose the use of distinct sparse masks to improve the model capacity. Finally, for practitioners, we offer design guidelines regarding the depth, width, and sparsity selection for weight-tied models, and demonstrate the generalizability of our insights to other learning paradigms.
翻訳日:2023-07-18 16:12:03 公開日:2023-07-16
# 教師なし潜在セマンティクス発見のための家計プロジェクタ

Householder Projector for Unsupervised Latent Semantics Discovery ( http://arxiv.org/abs/2307.08012v1 )

ライセンス: Link先を確認
Yue Song, Jichao Zhang, Nicu Sebe, Wei Wang(参考訳) GAN(Generative Adversarial Networks)、特に最近のスタイルベースジェネレータ(StyleGANs)は、構造化潜在空間において汎用的な意味を持つ。 潜時セマンティクス発見法が潜時コードの周りを動き回るようになり、1つの要素しか経時的に変化しない。 近年,教師なしの手法では,潜在符号を解釈可能な方向として特徴にマッピングするプロジェクション行列の固有ベクトルを直接使用するという有望な方法が提案されている。 しかし、見落とされがちな事実は、射影行列が非直交的であり、固有ベクトルの数が大きすぎることである。 非直交性は、トップ数個の固有ベクトルで意味的属性を絡ませ、大きな次元性は、行列が直交であっても、方向の無意味な変化をもたらすかもしれない。 これらの問題を回避するために, 射影行列をパラメータ化するために, フレキシブルで一般の低次直交行列表現であるhouseer projectorを提案する。 直交性は固有ベクトルが非絡み合いの解釈可能な意味論に対応することを保証し、一方低ランク性はそれぞれの特定方向が有意な変動を持つことを奨励する。 プロジェクタを事前訓練したStyleGAN2/StyleGAN3に統合し、複数のベンチマークでモデルを評価する。 私たちのプロジェクタは、微調整のためのオリジナルのトレーニングステップのわずか1\%で、画像の忠実さを犠牲にすることなく、より複雑で正確なセマンティック属性を見つけるのに役立ちます。

Generative Adversarial Networks (GANs), especially the recent style-based generators (StyleGANs), have versatile semantics in the structured latent space. Latent semantics discovery methods emerge to move around the latent code such that only one factor varies during the traversal. Recently, an unsupervised method proposed a promising direction to directly use the eigenvectors of the projection matrix that maps latent codes to features as the interpretable directions. However, one overlooked fact is that the projection matrix is non-orthogonal and the number of eigenvectors is too large. The non-orthogonality would entangle semantic attributes in the top few eigenvectors, and the large dimensionality might result in meaningless variations among the directions even if the matrix is orthogonal. To avoid these issues, we propose Householder Projector, a flexible and general low-rank orthogonal matrix representation based on Householder transformations, to parameterize the projection matrix. The orthogonality guarantees that the eigenvectors correspond to disentangled interpretable semantics, while the low-rank property encourages that each identified direction has meaningful variations. We integrate our projector into pre-trained StyleGAN2/StyleGAN3 and evaluate the models on several benchmarks. Within only $1\%$ of the original training steps for fine-tuning, our projector helps StyleGANs to discover more disentangled and precise semantic attributes without sacrificing image fidelity.
翻訳日:2023-07-18 16:11:44 公開日:2023-07-16
# ワンショットデコーディング: 教師なしディープラーニングベースの極性デコーダ

For One-Shot Decoding: Unsupervised Deep Learning-Based Polar Decoder ( http://arxiv.org/abs/2307.08004v1 )

ライセンス: Link先を確認
Huiying Song, Yihao Luo, Yuma Fukuzawa(参考訳) 極性符号のワンショット復号を可能にする教師なし深層学習に基づく復号方式を提案する。 提案手法では,ニューラルネットワーク(NN)を教師付き学習で訓練するラベルとして使用するのではなく,自己教師付き学習によって極符号のジェネレータ行列を活用することにより,境界距離デコーダとして機能するように訓練されている。 このアプローチは、事前に定義されたラベルへの依存を排除し、通信システム内の実際のデータを直接トレーニングする可能性を高め、適用性を高める。 さらに、コンピュータシミュレーションは、 (i)提案方式のビット誤り率 (BER) とブロック誤り率 (BLER) の性能は、非常に短いパケットに対して最大アフターイデコーダ (MAP) に近づくことができる。 (ii)提案するnnデコーダは,従来よりもはるかに優れた一般化能力を示す。

We propose an unsupervised deep learning-based decoding scheme that enables one-shot decoding of polar codes. In the proposed scheme, rather than using the information bit vectors as labels for training the neural network (NN) through supervised learning as the conventional scheme did, the NN is trained to function as a bounded distance decoder by leveraging the generator matrix of polar codes through self-supervised learning. This approach eliminates the reliance on predefined labels, empowering the potential to train directly on the actual data within communication systems and thereby enhancing the applicability. Furthermore, computer simulations demonstrate that (i) the bit error rate (BER) and block error rate (BLER) performances of the proposed scheme can approach those of the maximum a posteriori (MAP) decoder for very short packets and (ii) the proposed NN decoder exhibits much superior generalization ability compared to the conventional one.
翻訳日:2023-07-18 16:11:16 公開日:2023-07-16
# LafitE: 教師なしマルチクラス異常検出のための特徴編集付き潜時拡散モデル

LafitE: Latent Diffusion Model with Feature Editing for Unsupervised Multi-class Anomaly Detection ( http://arxiv.org/abs/2307.08059v1 )

ライセンス: Link先を確認
Haonan Yin and Guanlong Jiao and Qianhui Wu and Borje F. Karlsson and Biqing Huang and Chin Yew Lin(参考訳) 最小限の再構成で異なる種類の製品を製造するために必要となるフレキシブルな製造システムにおいて,本論文は教師なしマルチクラス異常検出の問題に対処する: 通常のデータのみにアクセス可能な複数のクラスに属するオブジェクトから異常を検出する統一モデルを開発する。 まず, 自動エンコーダ法における「アイデンティティ・ショートカット」問題を軽減するため, 生成的アプローチを探索し, 遅延拡散モデルを用いて再構成を行う。 次に, 拡散モデルの入力特徴空間を修飾し, ``identity shortcuts'' をさらに緩和すると共に, 正規領域の再構成品質を向上し, 偽陽性予測を少なくする特徴編集戦略を提案する。 さらに、教師なし異常検出におけるハイパーパラメータ選択の問題を最初に提起し、この問題に対処するための疑似検証セットに対して、異常データを合成するソリューションを提案する。 ベンチマークデータセット MVTec-AD と MPDD の広範な実験により、提案されたLafitE, \ie, Latent Diffusion Model with Feature Editing は、平均 AUROC の点で最先端の手法よりも優れた性能を示した。 擬似検証セットで選択したハイパーパラメータは、実際のテストセットとよく一致します。

In the context of flexible manufacturing systems that are required to produce different types and quantities of products with minimal reconfiguration, this paper addresses the problem of unsupervised multi-class anomaly detection: develop a unified model to detect anomalies from objects belonging to multiple classes when only normal data is accessible. We first explore the generative-based approach and investigate latent diffusion models for reconstruction to mitigate the notorious ``identity shortcut'' issue in auto-encoder based methods. We then introduce a feature editing strategy that modifies the input feature space of the diffusion model to further alleviate ``identity shortcuts'' and meanwhile improve the reconstruction quality of normal regions, leading to fewer false positive predictions. Moreover, we are the first who pose the problem of hyperparameter selection in unsupervised anomaly detection, and propose a solution of synthesizing anomaly data for a pseudo validation set to address this problem. Extensive experiments on benchmark datasets MVTec-AD and MPDD show that the proposed LafitE, \ie, Latent Diffusion Model with Feature Editing, outperforms state-of-art methods by a significant margin in terms of average AUROC. The hyperparamters selected via our pseudo validation set are well-matched to the real test set.
翻訳日:2023-07-18 16:04:15 公開日:2023-07-16
# tweezerアレイにおける量子センシング:個別原子センサグリッド上の光磁気計測

Quantum Sensing in Tweezer Arrays: Optical Magnetometry on an Individual-Atom Sensor Grid ( http://arxiv.org/abs/2307.08055v1 )

ライセンス: Link先を確認
Dominik Sch\"affner, Tobias Schreiber, Fabian Lenz, Malte Schlosser, Gerhard Birkl(参考訳) 個別のレーザー冷却原子を保持可能な数百のサイトからなる量子センシングのためのスケーラブルなプラットフォームを実装し,この単一量子システムセンサアレイを二次元格子上の磁場マッピングに適用可能であることを示した。 各原子は7.0(2)マイクロメートルの相互分離で0.5マイクロメートル^2の領域に閉じ込められているため、マイクロメートルスケールの空間分解能と高並列化操作が得られる。 追加のステアブル光学式ツイーザはグリッド内の原子の再配置を可能にし、サブミクロン分解能を持つ単一原子走査顕微鏡を可能にする。 我々の新しい原子センサープラットフォームは、外部に印加された直流勾配磁場のマッピングにすぐに応用できる。 ラムゼー型測定では、フィールド解像度は98(29)ナノテスラである。 コヒーレント進化の正味時間に基づく計算は20(7)ナノテスラ/hz^1/2の感度をもたらす。

We implemented a scalable platform for quantum sensing comprising hundreds of sites capable of holding individual laser-cooled atoms and demonstrate the applicability of this single-quantum-system sensor array to magnetic-field mapping on a two-dimensional grid. With each atom being confined in an optical tweezerwithin an area of 0.5 micrometer^2 at mutual separations of 7.0(2) micrometer, we obtain micrometer-scale spatial resolution and highly parallelized operation. An additional steerable optical tweezer allows for a rearrangement of atoms within the grid and enables single-atom scanning microscopy with sub-micron resolution. Our novel individual-atom sensor platform finds its immediate application in mapping an externally applied DC gradient magnetic field. In a Ramsey-type measurement, we obtain a field resolution of 98(29) nanotesla. A calculation based on the net time of coherent evolution leads to a sensitivity of 20(7) nanotesla/Hz^1/2.
翻訳日:2023-07-18 16:03:51 公開日:2023-07-16
# transnuseg: 核セグメンテーションのための軽量マルチタスクトランスフォーマ

TransNuSeg: A Lightweight Multi-Task Transformer for Nuclei Segmentation ( http://arxiv.org/abs/2307.08051v1 )

ライセンス: Link先を確認
Zhenqi He, Mathias Unberath, Jing Ke, Yiqing Shen(参考訳) 核の大きさは小さいが、実際の臨床実践では、核と背景の間の色や明るさのコントラストのグローバルな空間情報と相関は、正確な核分割にとって重要な要素と考えられている。 しかし、自動核セグメンテーションの分野は畳み込みニューラルネットワーク(cnns)が支配しているが、最近普及したトランスフォーマーのポテンシャルは十分に研究されておらず、局所的グローバル相関を捉えるのに有効である。 この目的のために、我々はtransnusegと呼ばれる純粋な核セグメンテーション用トランスフォーマーフレームワークの最初の試みを行う。 従来の作業と異なり,三重復号器構造をそれぞれ核インスタンス,核エッジ,クラスタ化エッジセグメンテーションに用いた本質的なマルチタスク学習タスクに,挑戦的な核セグメンテーションタスクを分離する。 従来の研究で異なる枝から分岐予測を除去するために,枝間の一貫性を明示的に規定する新たな自己蒸留損失を導入する。 さらに, 分岐間の高い相関関係を定式化し, パラメータ数を削減するために, 自己認識頭部をトリデコーダ間で部分的に共有することで, 効率的な注意共有方式を提案する。 最後に、トークンmlpボトルネックが過剰パラメータのトランスフォーマーボトルネックを置き換えることで、モデルの複雑さがさらに低減される。 MoNuSegを含む2つの異なるモーダル性データセットの実験により、我々の手法はCA2.5-Netのような最先端の手法よりも30%少ないパラメータで2-3%向上できることが示された。 結論として、TransNuSegは核セグメンテーションの文脈でTransformerの強さを確認し、実際の臨床実践の効率的な解決策となる。 コードはhttps://github.com/zhenqi-he/transnusegで入手できる。

Nuclei appear small in size, yet, in real clinical practice, the global spatial information and correlation of the color or brightness contrast between nuclei and background, have been considered a crucial component for accurate nuclei segmentation. However, the field of automatic nuclei segmentation is dominated by Convolutional Neural Networks (CNNs), meanwhile, the potential of the recently prevalent Transformers has not been fully explored, which is powerful in capturing local-global correlations. To this end, we make the first attempt at a pure Transformer framework for nuclei segmentation, called TransNuSeg. Different from prior work, we decouple the challenging nuclei segmentation task into an intrinsic multi-task learning task, where a tri-decoder structure is employed for nuclei instance, nuclei edge, and clustered edge segmentation respectively. To eliminate the divergent predictions from different branches in previous work, a novel self distillation loss is introduced to explicitly impose consistency regulation between branches. Moreover, to formulate the high correlation between branches and also reduce the number of parameters, an efficient attention sharing scheme is proposed by partially sharing the self-attention heads amongst the tri-decoders. Finally, a token MLP bottleneck replaces the over-parameterized Transformer bottleneck for a further reduction in model complexity. Experiments on two datasets of different modalities, including MoNuSeg have shown that our methods can outperform state-of-the-art counterparts such as CA2.5-Net by 2-3% Dice with 30% fewer parameters. In conclusion, TransNuSeg confirms the strength of Transformer in the context of nuclei segmentation, which thus can serve as an efficient solution for real clinical practice. Code is available at https://github.com/zhenqi-he/transnuseg.
翻訳日:2023-07-18 16:03:37 公開日:2023-07-16
# MRI脳腫瘍自動分離のための新しいSLCA-UNetアーキテクチャ

A Novel SLCA-UNet Architecture for Automatic MRI Brain Tumor Segmentation ( http://arxiv.org/abs/2307.08048v1 )

ライセンス: Link先を確認
Tejashwini P S, Thriveni J, Venugopal K R(参考訳) 脳腫瘍は、個人の平均寿命を減少させる重篤な健康合併症の1つとして検討され、世界中で死亡の顕著な原因と考えられている。 したがって、脳腫瘍のタイムリーな検出と予測は、脳腫瘍による死亡率の予防に役立つ。 バイオメディカル画像解析は脳腫瘍の診断法として広く知られている。 MRIは画像診断の標準的な方法であるが,手動分割の要求により臨床的有用性は制限されている。 ディープラーニングベースのアプローチは、自動バイオメディカル画像探索ツールを開発するための有望なソリューションとして登場し、UNetアーキテクチャは一般的にセグメンテーションに使われている。 しかし、従来のunetには複雑さ、トレーニング、正確性、文脈情報処理の面での制限がある。 その結果,高密度ブロック,層状アテンション,チャネルアテンションモジュールを組み込んだUNetアーキテクチャが,畳み込み畳み込みに加えて,粗い特徴情報と細かな特徴情報の両方を効果的にキャプチャできることがわかった。 提案したSLCA UNetアプローチは,BraTS 2020データセットに対するDice, Sensitivity, Specificity, Hausdorff95の平均性能が0.845, 0.845, 0.999, 8.1であるBraTS 2020データセットに対して,それぞれ優れたパフォーマンスを実現する。

Brain tumor is deliberated as one of the severe health complications which lead to decrease in life expectancy of the individuals and is also considered as a prominent cause of mortality worldwide. Therefore, timely detection and prediction of brain tumors can be helpful to prevent death rates due to brain tumors. Biomedical image analysis is a widely known solution to diagnose brain tumor. Although MRI is the current standard method for imaging tumors, its clinical usefulness is constrained by the requirement of manual segmentation which is time-consuming. Deep learning-based approaches have emerged as a promising solution to develop automated biomedical image exploration tools and the UNet architecture is commonly used for segmentation. However, the traditional UNet has limitations in terms of complexity, training, accuracy, and contextual information processing. As a result, the modified UNet architecture, which incorporates residual dense blocks, layered attention, and channel attention modules, in addition to stacked convolution, can effectively capture both coarse and fine feature information. The proposed SLCA UNet approach achieves good performance on the freely accessible Brain Tumor Segmentation (BraTS) dataset, with an average performance of 0.845, 0.845, 0.999, and 8.1 in terms of Dice, Sensitivity, Specificity, and Hausdorff95 for BraTS 2020 dataset, respectively.
翻訳日:2023-07-18 16:03:06 公開日:2023-07-16
# 注意計算のための高速量子アルゴリズム

Fast Quantum Algorithm for Attention Computation ( http://arxiv.org/abs/2307.08045v1 )

ライセンス: Link先を確認
Yeqi Gao, Zhao Song, Xin Yang, Ruizhe Zhang(参考訳) 大規模言語モデル(LLM)は、幅広いタスクで例外的なパフォーマンスを示している。 これらのモデルは高度なディープラーニング技術を利用して、自然言語処理(NLP)の分野に革命をもたらし、様々な言語関連タスクにおいて顕著な成果を上げている。 LLMは機械翻訳、感情分析、質問応答、テキスト生成、テキスト分類、言語モデリングなどのタスクに優れています。 複雑な言語パターンを捉えたり、文脈を理解したり、コヒーレントで文脈的に関連するテキストを生成するのに非常に効果的であることが証明されている。 注意体系は、大規模言語モデル(LLM)のアーキテクチャにおいて重要な役割を果たす。 モデルが言語処理タスク中にコンテキスト情報を効果的にキャプチャし利用できるようにする基本的なコンポーネントである。 注意体系計算を高速化することは、LLMの計算を高速化する中心的な問題の一つである。 量子機械は古典機械と比較して計算上の優位性があることはよく知られている。 しかし、量子コンピューティングがLLMに役立つかどうかは現在不明である。 本研究では,Groverの検索アルゴリズムを用いて,疎注意計算行列を効率的に計算することに焦点を当てる。 古典的手法による多項式量子スピードアップを実現する。 さらに,量子アルゴリズムによって出力される注意行列は,llmsの高速学習アルゴリズムを得る上で有用である余分な低ランク構造を示す。 さらに,注意行列の計算の文脈において,アルゴリズムの誤差解析と時間複雑性の詳細な解析を行う。

Large language models (LLMs) have demonstrated exceptional performance across a wide range of tasks. These models, powered by advanced deep learning techniques, have revolutionized the field of natural language processing (NLP) and have achieved remarkable results in various language-related tasks. LLMs have excelled in tasks such as machine translation, sentiment analysis, question answering, text generation, text classification, language modeling, and more. They have proven to be highly effective in capturing complex linguistic patterns, understanding context, and generating coherent and contextually relevant text. The attention scheme plays a crucial role in the architecture of large language models (LLMs). It is a fundamental component that enables the model to capture and utilize contextual information during language processing tasks effectively. Making the attention scheme computation faster is one of the central questions to speed up the LLMs computation. It is well-known that quantum machine has certain computational advantages compared to the classical machine. However, it is currently unknown whether quantum computing can aid in LLM. In this work, we focus on utilizing Grover's Search algorithm to compute a sparse attention computation matrix efficiently. We achieve a polynomial quantum speed-up over the classical method. Moreover, the attention matrix outputted by our quantum algorithm exhibits an extra low-rank structure that will be useful in obtaining a faster training algorithm for LLMs. Additionally, we present a detailed analysis of the algorithm's error analysis and time complexity within the context of computing the attention matrix.
翻訳日:2023-07-18 16:02:42 公開日:2023-07-16
# フレキシブルな時系列モデリングを目指して:ランク回帰によるニューラルネットワークの最適化

Towards Flexible Time-to-event Modeling: Optimizing Neural Networks via Rank Regression ( http://arxiv.org/abs/2307.08044v1 )

ライセンス: Link先を確認
Hyunjun Lee, Junhyun Lee, Taehwa Choi, Jaewoo Kang, Sangbum Choi(参考訳) 生存時間分析(英: time-to-event analysis)または生存時間分析(英: survivor analysis)は、一連の特徴からイベントの発生時期を予測することを目的としている。 この領域における大きな課題の1つは、検閲されたデータを扱うことであり、学習アルゴリズムをより複雑にすることができる。 coxの比例ハザードモデルやaft(accelerated failure time)モデルのような従来の手法はこの分野では人気があるが、比例ハザードや線形性といった仮定を必要とすることが多い。 特に、AFTモデルは、しばしば事前に特定されたパラメトリック分布の仮定を必要とする。 予測性能の向上と厳密な仮定の緩和のために,近年,ハザードモデルに対する深層学習アプローチが数多く行われている。 しかし、AFTの表現学習は、ハザードに着目した手法と比較して、その単純さと解釈性にもかかわらず、ニューラルネットワークの文献では広く研究されていない。 本稿では,DART(Time-to-event Prediction)のためのDeep AFT Rank-regressionモデルを提案する。 このモデルは、表現学習に効率的で信頼性の高いgehan's rank statisticに基づく客観的関数を用いる。 DARTは、ベースラインのイベント時間分布を確立する必要をなくすだけでなく、標準のAFTモデルでイベント時間を直接予測する利点を保っている。 提案手法は, 生存時間分布に分布的仮定を課さない, aftモデルへの半パラメトリックなアプローチである。 これにより、既存のニューラルネットワークベースのATTモデルとは異なり、追加のハイパーパラメータや複雑なモデルアーキテクチャの必要性もなくなる。 様々なベンチマークデータセットの定量的分析により、DARTは高スループットの検閲された時系列データをモデル化する大きな可能性を示唆している。

Time-to-event analysis, also known as survival analysis, aims to predict the time of occurrence of an event, given a set of features. One of the major challenges in this area is dealing with censored data, which can make learning algorithms more complex. Traditional methods such as Cox's proportional hazards model and the accelerated failure time (AFT) model have been popular in this field, but they often require assumptions such as proportional hazards and linearity. In particular, the AFT models often require pre-specified parametric distributional assumptions. To improve predictive performance and alleviate strict assumptions, there have been many deep learning approaches for hazard-based models in recent years. However, representation learning for AFT has not been widely explored in the neural network literature, despite its simplicity and interpretability in comparison to hazard-focused methods. In this work, we introduce the Deep AFT Rank-regression model for Time-to-event prediction (DART). This model uses an objective function based on Gehan's rank statistic, which is efficient and reliable for representation learning. On top of eliminating the requirement to establish a baseline event time distribution, DART retains the advantages of directly predicting event time in standard AFT models. The proposed method is a semiparametric approach to AFT modeling that does not impose any distributional assumptions on the survival time distribution. This also eliminates the need for additional hyperparameters or complex model architectures, unlike existing neural network-based AFT models. Through quantitative analysis on various benchmark datasets, we have shown that DART has significant potential for modeling high-throughput censored time-to-event data.
翻訳日:2023-07-18 16:02:19 公開日:2023-07-16
# 視覚のSEEDを大規模言語モデルに植え付ける

Planting a SEED of Vision in Large Language Model ( http://arxiv.org/abs/2307.08041v1 )

ライセンス: Link先を確認
Yuying Ge, Yixiao Ge, Ziyun Zeng, Xintao Wang and Ying Shan(参考訳) 我々は,SEEとDrawの創発的能力を備えたLLM(Large Language Models)を同時に実現する精巧な画像トークンであるSEEDを提案する。 画像トークン化器の研究は、マルチモーダル理解(BLIP-2など)や生成(安定拡散など)において、サブパーパフォーマンスと収束により、量子化された視覚トークンを用いたフレームワークが優位に立たなくなったため、これまでは不合理な状況にあった。 制限にもかかわらず、私たちは視覚とテキストの表現を統一する自然な能力に自信を持ち、LLMのオリジナルレシピを使ったスケーラブルなマルチモーダルトレーニングを支援しています。 本研究では,LLM との連携を効果的に緩和する SEED のアーキテクチャとトレーニングの2つの重要な原則を同定する。 1)画像トークンは2次元の物理的パッチ位置から独立して1次元因果依存性で生成され,LSMの左右自己回帰予測機構に適合する固有の相互依存性を示す。 2)画像トークンは,単語の意味的抽象化の程度と一致した高レベル意味をキャプチャし,トークン化訓練段階での識別性と再構築に最適化する必要がある。 その結果、LLMは、効率的なLoRAチューニングにより、SEEDを組み込むことで、画像からテキストへ、テキストへの両方を生成することができる。 総合的なマルチモーダル事前学習と命令チューニングは、より良い結果をもたらす可能性があるが、将来の調査のために予約されている。 このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。 予備研究は、多目的多モードLCMにおける離散的視覚トークンの可能性と、より広範な研究における適切な画像トークン化の重要性を強調した。

We present SEED, an elaborate image tokenizer that empowers Large Language Models (LLMs) with the emergent ability to SEE and Draw at the same time. Research on image tokenizers has previously reached an impasse, as frameworks employing quantized visual tokens have lost prominence due to subpar performance and convergence in multimodal comprehension (compared to BLIP-2, etc.) or generation (compared to Stable Diffusion, etc.). Despite the limitations, we remain confident in its natural capacity to unify visual and textual representations, facilitating scalable multimodal training with LLM's original recipe. In this study, we identify two crucial principles for the architecture and training of SEED that effectively ease subsequent alignment with LLMs. (1) Image tokens should be independent of 2D physical patch positions and instead be produced with a 1D causal dependency, exhibiting intrinsic interdependence that aligns with the left-to-right autoregressive prediction mechanism in LLMs. (2) Image tokens should capture high-level semantics consistent with the degree of semantic abstraction in words, and be optimized for both discriminativeness and reconstruction during the tokenizer training phase. As a result, the off-the-shelf LLM is able to perform both image-to-text and text-to-image generation by incorporating our SEED through efficient LoRA tuning. Comprehensive multimodal pretraining and instruction tuning, which may yield improved results, are reserved for future investigation. This version of SEED was trained in 5.7 days using only 64 V100 GPUs and 5M publicly available image-text pairs. Our preliminary study emphasizes the great potential of discrete visual tokens in versatile multimodal LLMs and the importance of proper image tokenizers in broader research.
翻訳日:2023-07-18 16:01:47 公開日:2023-07-16
# 風場の大規模空間補間のための二変量深絞り

Bivariate DeepKriging for Large-scale Spatial Interpolation of Wind Fields ( http://arxiv.org/abs/2307.08038v1 )

ライセンス: Link先を確認
Pratik Nag, Ying Sun and Brian J Reich(参考訳) 高空間分解能風速データは、気候、海洋学、気象学研究における幅広い応用に不可欠である。 2次元の速度を持つ2変量風場の大規模空間補間またはダウンスケールは、風データは高い空間変動性と不均質性を持つ非ガウジアンである傾向があるため、難しい課題である。 空間統計学において、コクリグティングは二変量空間場の予測によく用いられる。 しかし、コクリギン予測はガウス過程を除いては最適ではない。 さらに、大規模なデータセットではcokrigingは計算的に禁止される。 本稿では,2変数空間データ予測のための空間ラジアル基底関数によって構築された埋め込み層を備えた空間依存型ディープニューラルネットワーク(DNN)であるバイバリアレートディープクリグ法を提案する。 次に,ブートストラップとアンサンブルdnnに基づく分布フリー不確実性定量法を開発した。 提案手法は,コリージョン化の線形モデルやフレキシブル二変量Mat\ern共分散などの共分散関数を用いた従来の共分散予測器よりも優れている。 提案したDNNモデルの計算効率とスケーラビリティを,従来の手法に比べて平均20倍高速な計算で実証する。 両変数のDeepKriging法を中東の506,771箇所の風速データに適用した。 提案手法の予測性能は, cokriging予測器よりも優れており, 計算時間を劇的に短縮する。

High spatial resolution wind data are essential for a wide range of applications in climate, oceanographic and meteorological studies. Large-scale spatial interpolation or downscaling of bivariate wind fields having velocity in two dimensions is a challenging task because wind data tend to be non-Gaussian with high spatial variability and heterogeneity. In spatial statistics, cokriging is commonly used for predicting bivariate spatial fields. However, the cokriging predictor is not optimal except for Gaussian processes. Additionally, cokriging is computationally prohibitive for large datasets. In this paper, we propose a method, called bivariate DeepKriging, which is a spatially dependent deep neural network (DNN) with an embedding layer constructed by spatial radial basis functions for bivariate spatial data prediction. We then develop a distribution-free uncertainty quantification method based on bootstrap and ensemble DNN. Our proposed approach outperforms the traditional cokriging predictor with commonly used covariance functions, such as the linear model of co-regionalization and flexible bivariate Mat\'ern covariance. We demonstrate the computational efficiency and scalability of the proposed DNN model, with computations that are, on average, 20 times faster than those of conventional techniques. We apply the bivariate DeepKriging method to the wind data over the Middle East region at 506,771 locations. The prediction performance of the proposed method is superior over the cokriging predictors and dramatically reduces computation time.
翻訳日:2023-07-18 16:01:16 公開日:2023-07-16
# カップリング・デカップリング遷移下における高次キャビティポラリトンの性質の探索

Exploring the Nature of High-Order Cavity Polaritons under the Coupling-Decoupling Transition ( http://arxiv.org/abs/2307.08037v1 )

ライセンス: Link先を確認
M. Godsi, A. Golombek, M. Balasubrahmaniyam, T. Schwartz(参考訳) 近年,複数の縦モードをサポートするキャビティにおいて,システムパラメータによって強い結合が全く異なる方法で発生することを理論的に予測した。 異なる縦方向のキャビティモードは、材料を介して互いに絡み合うか、エキシトンモードと独立に結合される。 固定結合強度を維持しながら空洞の厚さが徐々に増大するにつれて, これら2つの状態間の遷移を実験的に示す。 反射分光法と発光分光法を用いてシステムの特性について検討し, 結合強度が一定であっても, 結合脱カップリング遷移に沿ってスペクトル応答の異なる挙動が観察されることを示した。 また, このような多モードキャビティでは, 単一モードキャビティの場合とは対照的に, 上部ポラリトン放射が顕著であることがわかった。 さらに, ポンププローブ分光測定による多モードキャビティの超高速ダイナミックスに対処し, 過渡スペクトルが遷移を通じて著しく変化することを観測した。

Recently, we predicted theoretically that in cavities that support several longitudinal modes, strong coupling can occur in very different manners, depending on the system parameters. Distinct longitudinal cavity modes are either entangled with each other via the material or independently coupled to the exciton mode. Here we experimentally demonstrate the transition between those two regimes as the cavity thickness is gradually increased while maintaining fixed coupling strength. We study the properties of the system using reflection and emission spectroscopy and show that even though the coupling strength is constant, different behavior in the spectral response is observed along the coupling-decoupling transition. In addition, we find that in such multimode cavities pronounced upper-polariton emission is observed, in contrast to the usual case of a single-mode cavity. Furthermore, we address the ultrafast dynamics of the multimode cavities by pump-probe spectroscopic measurements and observe that the transient spectra significantly change through the transition.
翻訳日:2023-07-18 16:00:53 公開日:2023-07-16
# 文法的に正しい文を識別するニューラルシンボリックアプローチ

A Neural-Symbolic Approach Towards Identifying Grammatically Correct Sentences ( http://arxiv.org/abs/2307.08036v1 )

ライセンス: Link先を確認
Nicos Isaak(参考訳) 私たちの周りのテキストコンテンツは毎日増えています。 オンラインの新聞やブログやソーシャルメディアで、多くの記事が書かれています。 同様に、言語モデルや従来のAIアプローチのようなAI分野の最近の進歩は、上記のすべてを活用して、学習した表現を改善して、人間のような精度でNLP課題に取り組む。 テキスト要約、質問処理、機械翻訳、さらには代名詞分解といった課題に取り組むために、有効な情報源からよく書かれたテキストにアクセスすることが重要であると一般的に認められている。 例えば、うまく要約するには、要約を形成するためにそれらを結合するために最も重要な文を選択する必要がある。 しかし、うまく形づくられた英文や非有価語文にアクセスできない場合はどうなりますか。 良く書かれた文にアクセスすることの重要性にもかかわらず、それらを検証する方法を見つけることは依然として研究のオープン領域である。 この問題に対処するため,新しいニューラルシンボリックアプローチにより,英語の文を簡易に検証する方法を提案する。 近年、ニューラルシンボリックアプローチは、さまざまなAIシステムにおける中心的なコンポーネントとしての有効性を示すため、さまざまなNLP課題に取り組むことへの関心が高まっている。 文法規則と構文規則を言語モデルと組み合わせた古典と現代AIを組み合わせることで、単語列が英文法文であるか否かを示すタスクである言語受容性コーパス(COLA)に効果的に取り組む。 実験では、記号系と非記号系を混合することで、後者の精度に関する洞察が得られることが効果的に示されている。

Textual content around us is growing on a daily basis. Numerous articles are being written as we speak on online newspapers, blogs, or social media. Similarly, recent advances in the AI field, like language models or traditional classic AI approaches, are utilizing all the above to improve their learned representation to tackle NLP challenges with human-like accuracy. It is commonly accepted that it is crucial to have access to well-written text from valid sources to tackle challenges like text summarization, question-answering, machine translation, or even pronoun resolution. For instance, to summarize well, one needs to select the most important sentences in order to concatenate them to form the summary. However, what happens if we do not have access to well-formed English sentences or even non-valid sentences? Despite the importance of having access to well-written sentences, figuring out ways to validate them is still an open area of research. To address this problem, we present a simplified way to validate English sentences through a novel neural-symbolic approach. Lately, neural-symbolic approaches have triggered an increasing interest towards tackling various NLP challenges, as they are demonstrating their effectiveness as a central component in various AI systems. Through combining Classic with Modern AI, which involves the blending of grammatical and syntactical rules with language models, we effectively tackle the Corpus of Linguistic Acceptability (COLA), a task that shows whether or not a sequence of words is an English grammatical sentence. Among others, undertaken experiments effectively show that blending symbolic and non-symbolic systems helps the former provide insights about the latter's accuracy results.
翻訳日:2023-07-18 16:00:35 公開日:2023-07-16
# 有望なサブセット選択が可能なデータセット蒸留

Dataset Distillation Meets Provable Subset Selection ( http://arxiv.org/abs/2307.08086v1 )

ライセンス: Link先を確認
Murad Tukan, Alaa Maalouf, Margarita Osadchy(参考訳) 近年、ディープラーニングは飛躍的に成長し、様々な分野で最先端の成果を上げている。 しかし、そのようなモデルのトレーニングには膨大なデータが必要であり、計算時間とコストが増加する。 データセットの蒸留により、大規模なトレーニングデータセットを、そのパフォーマンスを維持する小さな合成データセットに圧縮することが提案された。これは、(1) 合成セットを均一に初期化し、(2) 完全なデータからインスタンスを均一にサンプリングすることで、予め定義された損失に従って、このセットを反復的に更新/学習することによって行われる。 本稿では,(1)データ中の重要点を特定して余分な点を除去して蒸留セットを初期化するための,実証可能なサンプリングベースアプローチを提案するとともに,(2)データセット蒸留によるデータサブセット選択のアイデアを,次のバッチをランダムにサンプリングする代わりに,'重要'のサンプリングポイントの蒸留セットをトレーニングすることで,さらに統合する。 そこで我々は,2つの異なる損失関数,すなわち,初期化フェーズ(カーネルリッジ回帰のためのカーネルフィッティング関数と,他の蒸留方法に対する$k$-meansに基づく損失関数)と,訓練フェーズにおける相対クロスエントロピー損失(または他の事前定義された損失)関数に対するインスタンスの相対的寄与に基づいて,重要度の概念を定義する。 最後に,本手法が既存のデータセット蒸留技術にどのように適用でき,その性能を向上できるかを示す実験結果を示す。

Deep learning has grown tremendously over recent years, yielding state-of-the-art results in various fields. However, training such models requires huge amounts of data, increasing the computational time and cost. To address this, dataset distillation was proposed to compress a large training dataset into a smaller synthetic one that retains its performance -- this is usually done by (1) uniformly initializing a synthetic set and (2) iteratively updating/learning this set according to a predefined loss by uniformly sampling instances from the full data. In this paper, we improve both phases of dataset distillation: (1) we present a provable, sampling-based approach for initializing the distilled set by identifying important and removing redundant points in the data, and (2) we further merge the idea of data subset selection with dataset distillation, by training the distilled set on ``important'' sampled points during the training procedure instead of randomly sampling the next batch. To do so, we define the notion of importance based on the relative contribution of instances with respect to two different loss functions, i.e., one for the initialization phase (a kernel fitting function for kernel ridge regression and $K$-means based loss function for any other distillation method), and the relative cross-entropy loss (or any other predefined loss) function for the training phase. Finally, we provide experimental results showing how our method can latch on to existing dataset distillation techniques and improve their performance.
翻訳日:2023-07-18 15:55:20 公開日:2023-07-16
# 被写体絡み合い状態の生成関数

Generating function for projected entangled-pair states ( http://arxiv.org/abs/2307.08083v1 )

ライセンス: Link先を確認
Wei-Lin Tu, Laurens Vanderstraeten, Norbert Schuch, Hyun-Yong Lee, Naoki Kawashima, Ji-Yao Chen(参考訳) ダイアグラム和は、射影エンタングルペア状態(PEPS)の現代の応用、特に二次元量子多体系の低エネルギー励起の計算における一般的なボトルネックである。 この問題を解決するために,従来行列積状態の文脈で提案されていたテンソルネットワーク図式和の生成関数アプローチを拡張する。 一粒子励起として表される励起状態により、変動パラメータを決定するための関連対象、すなわち、変動パラメータ空間における有効ハミルトニアン行列およびノルム行列は、生成関数形式論において容易に計算できることが示され、さらに力学構造因子の評価に使用できる。 正方格子上のスピン-1/2$逆場イジングモデルとハイゼンベルクモデルに対するベンチマーク結果は望ましい精度を示し、既知の結果とよく一致することを示す。 次に,同一格子上のスピン-$1/2$$$j_1-j_2$モデルについて検討し,ギャップレススピン液相の動的性質について検討した。 我々は多粒子励起への一般化に関する議論を締めくくった。

Diagrammatic summation is a common bottleneck in modern applications of projected entangled-pair states (PEPS), especially in computing low-energy excitations of a two dimensional quantum many-body system. To solve this problem, here we extend the generating function approach for tensor network diagrammatic summation, previously proposed in the context of matrix product states. With the excited state expressed as a one-particle excitation, we show that relevant objects in determining the variational parameters, i.e. effective hamiltonian and norm matrices in the variational parameter space can be easily computed in the generating function formalism, which can further be used in evaluating the dynamical structure factor. Our benchmark results for the spin-$1/2$ transverse field Ising model and Heisenberg model on the square lattice provide a desirable accuracy, showing good agreement with known results. Then we study the spin-$1/2$ $J_1-J_2$ model on the same lattice and investigate the dynamical properties of the putative gapless spin liquid phase. We conclude with a discussion on generalizations to multi-particle excitations.
翻訳日:2023-07-18 15:54:51 公開日:2023-07-16
# 深層強化学習によるpomdp推論とロバストな解法:鉄道最適保守への適用

POMDP inference and robust solution via deep reinforcement learning: An application to railway optimal maintenance ( http://arxiv.org/abs/2307.08082v1 )

ライセンス: Link先を確認
Giacomo Arcieri, Cyprien Hoelzl, Oliver Schwery, Daniel Straub, Konstantinos G. Papakonstantinou, Eleni Chatzi(参考訳) 部分的に観測可能なマルコフ決定過程(POMDP)は、確率的かつ不確実な環境下で複雑な逐次決定問題をモデル化することができる。 現実の応用において広く採用されるのを妨げる主な理由は、適切なPOMDPモデルやシミュレータが存在しないことである。 強化学習(Reinforcement Learning, RL)のような利用可能な解アルゴリズムは、遷移力学と観測生成過程の知識を必要とする。 本研究では,深いRLを通したPOMDPの推論とロバストな解を組み合わせたフレームワークを提案する。 第一に、全ての遷移および観測モデルパラメータは、利用可能なデータから完全な後方分布を回復するために、動作を条件とした隠れマルコフモデルのマルコフ連鎖モンテカルロサンプリングによって共同で推定される。 パラメータの不確かさを持つPOMDPは、不確かさをモデル化する堅牢なソリューションを開発するために、パラメータ分布を領域ランダム化によって解に組み込んだ深いRL手法によって解決される。 さらに,モデルベース/モデルフリーハイブリッドアプローチを用いて,モデルフリーなRLソリューションを構成するトランスフォーマーと長期短期記憶ネットワークの利用を比較した。 これらの手法を鉄道資産の最適保守計画の現実問題に適用する。

Partially Observable Markov Decision Processes (POMDPs) can model complex sequential decision-making problems under stochastic and uncertain environments. A main reason hindering their broad adoption in real-world applications is the lack of availability of a suitable POMDP model or a simulator thereof. Available solution algorithms, such as Reinforcement Learning (RL), require the knowledge of the transition dynamics and the observation generating process, which are often unknown and non-trivial to infer. In this work, we propose a combined framework for inference and robust solution of POMDPs via deep RL. First, all transition and observation model parameters are jointly inferred via Markov Chain Monte Carlo sampling of a hidden Markov model, which is conditioned on actions, in order to recover full posterior distributions from the available data. The POMDP with uncertain parameters is then solved via deep RL techniques with the parameter distributions incorporated into the solution via domain randomization, in order to develop solutions that are robust to model uncertainty. As a further contribution, we compare the use of transformers and long short-term memory networks, which constitute model-free RL solutions, with a model-based/model-free hybrid approach. We apply these methods to the real-world problem of optimal maintenance planning for railway assets.
翻訳日:2023-07-18 15:54:32 公開日:2023-07-16
# 可変オートエンコーダによるフレキシブルで効率的な空間極端エミュレーション

Flexible and efficient spatial extremes emulation via variational autoencoders ( http://arxiv.org/abs/2307.08079v1 )

ライセンス: Link先を確認
Likun Zhang and Xiaoyu Ma and Christopher K. Wikle and Rapha\"el Huser(参考訳) 多くの実世界のプロセスは、古典的なガウス過程では特徴づけられない複雑なテール依存構造を持つ。 ガウススケール混合物やシングルステーションコンディショニングモデルのようなより柔軟な空間的極端モデルは、極端依存特性をアピールするが、しばしば適合とシミュレートが極めて禁止される。 本稿では,柔軟性と非定常依存性を有する新しい空間的極端性モデルを開発し,変分オートエンコーダ(extvae)の符号化復号構造に統合する。 extVAEは、潜在的力学モデル出力状態の分布を特徴付ける時空間エミュレータとして使用することができ、特に尾部において入力と同じ特性を持つ出力を生成する。 大規模なシミュレーション研究により、我々のextVAEは従来のベイズ推定よりもはるかに時間効率が良く、静止構造を持つ多くの空間超越モデルよりも優れていることが示された。 さらに,extvaeの計算能力を示すために,1日16703グリッドセルでの観測を含む,紅海における海面温度の高解像度衛星データの解析を行った。

Many real-world processes have complex tail dependence structures that cannot be characterized using classical Gaussian processes. More flexible spatial extremes models such as Gaussian scale mixtures and single-station conditioning models exhibit appealing extremal dependence properties but are often exceedingly prohibitive to fit and simulate from. In this paper, we develop a new spatial extremes model that has flexible and non-stationary dependence properties, and we integrate it in the encoding-decoding structure of a variational autoencoder (extVAE). The extVAE can be used as a spatio-temporal emulator that characterizes the distribution of potential mechanistic model output states and produces outputs that have the same properties as the inputs, especially in the tail. Through extensive simulation studies, we show that our extVAE is vastly more time-efficient than traditional Bayesian inference while also outperforming many spatial extremes models with a stationary dependence structure. To further demonstrate the computational power of the extVAE, we analyze a high-resolution satellite-derived dataset of sea surface temperature in the Red Sea, which includes daily measurements at 16703 grid cells.
翻訳日:2023-07-18 15:54:09 公開日:2023-07-16
# 拡散と拡散:対象検出器の拡散モデルに基づく自然主義的逆パッチ生成

Diffusion to Confusion: Naturalistic Adversarial Patch Generation Based on Diffusion Model for Object Detector ( http://arxiv.org/abs/2307.08076v1 )

ライセンス: Link先を確認
Shuo-Yen Lin, Ernie Chu, Che-Hsien Lin, Jun-Cheng Chen, Jia-Ching Wang(参考訳) オブジェクト検出器を用いた悪意のある監視から個人のプライバシーを保護するために、多くの物理的敵パッチ生成法が広く提案されている。 しかし、通常は、注意深いハイパーパラメータチューニングを行うことなく、ステルスネスと攻撃性能の両方の観点から満足のいくパッチ画像を生成することができない。 この問題に対処するため,拡散モデル(DM)に基づく新たな自然主義的逆パッチ生成手法を提案する。 自然画像に事前学習したdmモデルから最適な画像をサンプリングすることで、他の深層生成モデルと同様に深刻なモード崩壊問題に苦しむことなく、人間に高品質で自然主義的な物理的敵意パッチを安定的に作ることができる。 我々の知る限りでは、オブジェクト検出器のためのDMベースの自然主義的逆パッチ生成を最初に提案する。 定量的,質的,主観的な実験により,提案手法の有効性を示すとともに,他の最先端のパッチ生成手法よりも許容可能な攻撃性能を実現する。 また、異なる条件下で様々な世代のトレードオフを示す。

Many physical adversarial patch generation methods are widely proposed to protect personal privacy from malicious monitoring using object detectors. However, they usually fail to generate satisfactory patch images in terms of both stealthiness and attack performance without making huge efforts on careful hyperparameter tuning. To address this issue, we propose a novel naturalistic adversarial patch generation method based on the diffusion models (DM). Through sampling the optimal image from the DM model pretrained upon natural images, it allows us to stably craft high-quality and naturalistic physical adversarial patches to humans without suffering from serious mode collapse problems as other deep generative models. To the best of our knowledge, we are the first to propose DM-based naturalistic adversarial patch generation for object detectors. With extensive quantitative, qualitative, and subjective experiments, the results demonstrate the effectiveness of the proposed approach to generate better-quality and more naturalistic adversarial patches while achieving acceptable attack performance than other state-of-the-art patch generation methods. We also show various generation trade-offs under different conditions.
翻訳日:2023-07-18 15:53:50 公開日:2023-07-16
# disco-bench: 言語モデリングのための談話認識評価ベンチマーク

Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language Modelling ( http://arxiv.org/abs/2307.08074v1 )

ライセンス: Link先を確認
Longyue Wang, Zefeng Du, Donghuai Liu, Cai Deng, Dian Yu, Haiyun Jiang, Yan Wang, Leyang Cui, Shuming Shi, Zhaopeng Tu(参考訳) 談話のモデル化 - 個々の文を超えた言語現象は、自然言語処理(NLP)の基本的かつ挑戦的な側面である。 しかし、既存の評価ベンチマークは主に文間特性の評価に焦点が当てられ、文章を横断する批判的な談話現象を見落としている。 このギャップを埋めるため,多種多様なNLPタスクを対象とし,理解,翻訳,生成を網羅した文内談話特性の評価が可能なベンチマークであるDisco-Benchを提案する。 disco-benchは文学領域の9つの文書レベルのテストセットで構成されており、中国語と英語の豊富な談話現象(例えば、コヒーレンスとコヒーレンス)を含んでいる。 言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートも設計する。 我々は、Transformer、高度な事前学習アーキテクチャ、大規模言語モデル(LLM)に基づいて、20の汎用、ドメイン内および商用モデルを評価する。 その結果,(1)評価ベンチマークの課題と必要性,(2)文章レベルのトレーニングデータに基づくきめ細かい事前学習は,談話情報のモデリングを一貫して改善していることがわかった。 私たちはデータセット、事前トレーニングされたモデル、そしてleaderboardをリリースします。この分野の研究を著しく促進できることを願っています。 https://github.com/longyuewangdcu/disco-bench。

Modeling discourse -- the linguistic phenomena that go beyond individual sentences, is a fundamental yet challenging aspect of natural language processing (NLP). However, existing evaluation benchmarks primarily focus on the evaluation of inter-sentence properties and overlook critical discourse phenomena that cross sentences. To bridge the gap, we propose Disco-Bench, a benchmark that can evaluate intra-sentence discourse properties across a diverse set of NLP tasks, covering understanding, translation, and generation. Disco-Bench consists of 9 document-level testsets in the literature domain, which contain rich discourse phenomena (e.g. cohesion and coherence) in Chinese and/or English. For linguistic analysis, we also design a diagnostic test suite that can examine whether the target models learn discourse knowledge. We totally evaluate 20 general-, in-domain and commercial models based on Transformer, advanced pretraining architectures and large language models (LLMs). Our results show (1) the challenge and necessity of our evaluation benchmark; (2) fine-grained pretraining based on literary document-level training data consistently improves the modeling of discourse information. We will release the datasets, pretrained models, and leaderboard, which we hope can significantly facilitate research in this field: https://github.com/longyuewangdcu/Disco-Bench.
翻訳日:2023-07-18 15:53:32 公開日:2023-07-16
# 量子化大規模言語モデルにおける創発的能力--実証的研究

Do Emergent Abilities Exist in Quantized Large Language Models: An Empirical Study ( http://arxiv.org/abs/2307.08072v1 )

ライセンス: Link先を確認
Peiyu Liu, Zikang Liu, Ze-Feng Gao, Dawei Gao, Wayne Xin Zhao, Yaliang Li, Bolin Ding, Ji-Rong Wen(参考訳) 優れた性能にもかかわらず、Large Language Models~(LLM)は、デプロイと使用のためにかなりの計算資源を必要とする。 この問題を解決するために、LLMのメモリフットプリント削減や推論率の向上に量子化法が広く応用されている。 しかし、大きな課題は、低ビット量子化法がしばしば性能劣化を引き起こすことである。 量子化がLLMの容量に与える影響を理解することは重要である。 全体的な性能に着目した以前の研究と異なり、本研究は、小言語モデルとllmを区別する重要な特徴である \emph{emergent ability} に対する量子化の影響を調べることを目的としている。 特に,量子化llmにおける文脈内学習,連鎖的思考推論,命令追従の能力について検討する。 実験により,4ビット量子化モデルにおいて,これらの創発能力は依然として存在することが示された。 低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。 我々の研究は、量子化が創発能力に与える影響を理解するための重要な発見を導き、LLMの極低ビット量子化の可能性に光を放つ。

Despite the superior performance, Large Language Models~(LLMs) require significant computational resources for deployment and use. To overcome this issue, quantization methods have been widely applied to reduce the memory footprint of LLMs as well as increasing the inference rate. However, a major challenge is that low-bit quantization methods often lead to performance degradation. It is important to understand how quantization impacts the capacity of LLMs. Different from previous studies focused on overall performance, this work aims to investigate the impact of quantization on \emph{emergent abilities}, which are important characteristics that distinguish LLMs from small language models. Specially, we examine the abilities of in-context learning, chain-of-thought reasoning, and instruction-following in quantized LLMs. Our empirical experiments show that these emergent abilities still exist in 4-bit quantization models, while 2-bit models encounter severe performance degradation on the test of these abilities. To improve the performance of low-bit models, we conduct two special experiments: (1) fine-gained impact analysis that studies which components (or substructures) are more sensitive to quantization, and (2) performance compensation through model fine-tuning. Our work derives a series of important findings to understand the impact of quantization on emergent abilities, and sheds lights on the possibilities of extremely low-bit quantization for LLMs.
翻訳日:2023-07-18 15:53:07 公開日:2023-07-16
# 複雑なマルチタスク学習によるコミックの再構成

Dense Multitask Learning to Reconfigure Comics ( http://arxiv.org/abs/2307.08071v1 )

ライセンス: Link先を確認
Deblina Bhattacharjee, Sabine S\"usstrunk and Mathieu Salzmann(参考訳) 本稿では,漫画パネルの高密度な予測を実現するためのMultiTask Learning (MTL) モデルを開発した。 MTL法は,マンガパネルに埋め込まれた3Dの概念だけでなく,意味単位の同定にも有効である。 コミックは異なる芸術スタイル、イラスト、レイアウト、そして作者の創造過程に依存するオブジェクトスケールで構成されているため、これは非常に難しい問題である。 通常、高密度画像ベースの予測技術は大量のデータを必要とする。 漫画領域における密集予測のための自動解を見つけることは、漫画画像に対する地味な密集アノテーションの欠如により、より困難になる。 これらの課題に対処するために、以下のソリューションを開発します。 1) 実世界のアノテーションの大規模なコーパスを利用することが可能な,教師なし画像から画像への変換という,一般的な戦略を活用する。 2)視覚変換器のバックボーンとドメイン転送可能なアテンションモジュールをベースとしたマルチタスク手法の開発に,翻訳結果を活用する。 3) MTL高密度予測手法を既存の再ターゲティング手法に統合し,コミックを再構成する可能性を検討する。

In this paper, we develop a MultiTask Learning (MTL) model to achieve dense predictions for comics panels to, in turn, facilitate the transfer of comics from one publication channel to another by assisting authors in the task of reconfiguring their narratives. Our MTL method can successfully identify the semantic units as well as the embedded notion of 3D in comic panels. This is a significantly challenging problem because comics comprise disparate artistic styles, illustrations, layouts, and object scales that depend on the authors creative process. Typically, dense image-based prediction techniques require a large corpus of data. Finding an automated solution for dense prediction in the comics domain, therefore, becomes more difficult with the lack of ground-truth dense annotations for the comics images. To address these challenges, we develop the following solutions: 1) we leverage a commonly-used strategy known as unsupervised image-to-image translation, which allows us to utilize a large corpus of real-world annotations; 2) we utilize the results of the translations to develop our multitasking approach that is based on a vision transformer backbone and a domain transferable attention module; 3) we study the feasibility of integrating our MTL dense-prediction method with an existing retargeting method, thereby reconfiguring comics.
翻訳日:2023-07-18 15:52:43 公開日:2023-07-16
# 言語サンプルから抽出した語彙特徴を用いたアルツハイマー病の自動同定

Automatic Identification of Alzheimer's Disease using Lexical Features extracted from Language Samples ( http://arxiv.org/abs/2307.08070v1 )

ライセンス: Link先を確認
M. Zakaria Kurdi(参考訳) 目的: この研究には2つの目標がある。 第一に、アルツハイマー病(AD)の認知症がレキシコンの様々な側面に与える影響を理解することを目的としている。 第二に、機械学習分類器の特徴として使用されるレキシコンのこのような側面が、AD患者が生成する言語サンプルを自動的に識別する最先端のパフォーマンスを達成することを実証することを目的としている。 メソッド:データは、DementiaBankのコーパスの一部であるADDreSSチャレンジから導かれる。 使用したデータセットは、トレーニング部で54名、テスト部で24名からなるCookie Theft画像記述の書き起こしからなる。 ナラティブサンプルの数はトレーニングセットで108個、テストセットで48個である。 まず、選択された99の語彙特徴に対するadの影響を、データセットのトレーニングとテストの両方を用いて検討する。 そこで, 健常者からAD患者が作成したテキストサンプルを用いて, 書き起こされた音声サンプルを分類する作業において, 機械学習実験を行った。 語彙的複雑性の異なる領域を比較し、最適な性能を達成するのに役立つ特徴のサブセットを特定し、入力のサイズが分類に与える影響を調べるために、いくつかの実験を行った。 物語音声に基づくモデルの一般化を評価するため、2つの一般化試験は、イギリスの作家アイリス・マードック(英語版)とアガサ・クリスティ(英語版)の筆記データと、ロナルド・レーガン元大統領によるスピーチの書き起こしを用いて行われた。 結果: 語彙的特徴のみを用い, 健康管理対象者からadを持つ個人が生成する言語サンプルの分類において, f1 と accuracies の91%以上が達成された。 これは、ADが辞書処理に大きく影響していることを確認する。

Objective: this study has a twofold goal. First, it aims to improve the understanding of the impact of Dementia of type Alzheimer's Disease (AD) on different aspects of the lexicon. Second, it aims to demonstrate that such aspects of the lexicon, when used as features of a machine learning classifier, can help achieve state-of-the-art performance in automatically identifying language samples produced by patients with AD. Methods: data is derived from the ADDreSS challenge, which is a part of the DementiaBank corpus. The used dataset consists of transcripts of Cookie Theft picture descriptions, produced by 54 subjects in the training part and 24 subjects in the test part. The number of narrative samples is 108 in the training set and 48 in the test set. First, the impact of AD on 99 selected lexical features is studied using both the training and testing parts of the dataset. Then some machine learning experiments were conducted on the task of classifying transcribed speech samples with text samples that were produced by people with AD from those produced by normal subjects. Several experiments were conducted to compare the different areas of lexical complexity, identify the subset of features that help achieve optimal performance, and study the impact of the size of the input on the classification. To evaluate the generalization of the models built on narrative speech, two generalization tests were conducted using written data from two British authors, Iris Murdoch and Agatha Christie, and the transcription of some speeches by former President Ronald Reagan. Results: using lexical features only, state-of-the-art classification, F1 and accuracies, of over 91% were achieved in categorizing language samples produced by individuals with AD from the ones produced by healthy control subjects. This confirms the substantial impact of AD on lexicon processing.
翻訳日:2023-07-18 15:52:21 公開日:2023-07-16
# MaGNAS: 異種MPSoCデプロイのためのマッピング対応グラフニューラルネットワーク検索フレームワーク

MaGNAS: A Mapping-Aware Graph Neural Architecture Search Framework for Heterogeneous MPSoC Deployment ( http://arxiv.org/abs/2307.08065v1 )

ライセンス: Link先を確認
Mohanad Odema, Halima Bouzidi, Hamza Ouarnoughi, Smail Niar, Mohammad Abdullah Al Faruque(参考訳) グラフニューラルネットワーク(gnns)は、画像フレームのさまざまな部分間の構造的および文脈的関係をモデル化する能力があるため、視覚ベースのアプリケーションで人気が高まっている。 別の面では、エッジでのディープビジョンベースのアプリケーションの普及は、リアルタイムで厳密な実行要求の下で推論を可能にする異種マルチプロセッサシステム(MPSoC)の最近の進歩によって促進されている。 拡張によって、視覚ベースのアプリケーションに使用されるGNNは、同じ実行要件に従わなければならない。 しかし、一般的なディープニューラルネットワークとは対照的に、グラフ学習操作の不規則なフローは、そのような異種MPSoCプラットフォーム上でGNNを実行する上での課題となる。 本稿では,ヘテロジニアスMPSoCプラットフォーム上での視覚GNNワークロードの効率的な処理のための統一型設計マッピング手法を提案する。 特に,マッピング対応のグラフニューラルアーキテクチャ検索フレームワークであるMaGNASを開発した。 MaGNASは、デバイス上のリソース効率を最大化するモデルアーキテクチャを特定するために、GNNアーキテクチャ設計スペースと、異種SoC上の将来的なマッピングオプションを提案する。 これを実現するために、MaGNASは2階層の進化的探索を用いて最適なGNNを特定し、最高のパフォーマンストレードオフをもたらすペアをマッピングする。 近年のVision GNN(ViG)アーキテクチャから派生したスーパーネットを設計することで、4つの(04)最先端ビジョンデータセットの実験を行った。 (i)本物のSoCプラットフォーム(NVIDIA Xavier AGX)と (II)DNN加速器の性能・コストモデルシミュレータ。 実験の結果,Xavier MPSoCとGPUのみのデプロイメントで実行される複数のビジョンデータセットに対して,MaGNASは1.57倍のレイテンシの高速化を実現し,ベースラインから平均0.11%の精度低下を維持できることがわかった。

Graph Neural Networks (GNNs) are becoming increasingly popular for vision-based applications due to their intrinsic capacity in modeling structural and contextual relations between various parts of an image frame. On another front, the rising popularity of deep vision-based applications at the edge has been facilitated by the recent advancements in heterogeneous multi-processor Systems on Chips (MPSoCs) that enable inference under real-time, stringent execution requirements. By extension, GNNs employed for vision-based applications must adhere to the same execution requirements. Yet contrary to typical deep neural networks, the irregular flow of graph learning operations poses a challenge to running GNNs on such heterogeneous MPSoC platforms. In this paper, we propose a novel unified design-mapping approach for efficient processing of vision GNN workloads on heterogeneous MPSoC platforms. Particularly, we develop MaGNAS, a mapping-aware Graph Neural Architecture Search framework. MaGNAS proposes a GNN architectural design space coupled with prospective mapping options on a heterogeneous SoC to identify model architectures that maximize on-device resource efficiency. To achieve this, MaGNAS employs a two-tier evolutionary search to identify optimal GNNs and mapping pairings that yield the best performance trade-offs. Through designing a supernet derived from the recent Vision GNN (ViG) architecture, we conducted experiments on four (04) state-of-the-art vision datasets using both (i) a real hardware SoC platform (NVIDIA Xavier AGX) and (ii) a performance/cost model simulator for DNN accelerators. Our experimental results demonstrate that MaGNAS is able to provide 1.57x latency speedup and is 3.38x more energy-efficient for several vision datasets executed on the Xavier MPSoC vs. the GPU-only deployment while sustaining an average 0.11% accuracy reduction from the baseline.
翻訳日:2023-07-18 15:51:50 公開日:2023-07-16
# 複屈折準曲面を用いた偏光多重画像合成

Polarization Multi-Image Synthesis with Birefringent Metasurfaces ( http://arxiv.org/abs/2307.08106v1 )

ライセンス: Link先を確認
Dean Hazineh, Soon Wei Daniel Lim, Qi Guo, Federico Capasso, Todd Zickler(参考訳) 精密に設計されたナノ構造からなる光学メタ曲面は、光を操り、入射場の性質に基づいて異なる機能を実装する能力において大きな注目を集めている。 計算画像処理システムは、デジタルポストプロセッシングと組み合わせることで、特定のタスクに役立つ一連のコード化された測定値を生成するためにこの能力を利用し始めた。 これらの研究に触発されて、偏光子モザイク光センサを備えた複屈折型準曲面を用いて、光学的に符号化された4つの計測結果を単一の露光で捉える新しいシステムを導入する。 本研究では,デジタル空間フィルタリング操作を,空間フィルタサイズに依存しない4つの偏光チャネルにまたがるより単純な画素単位の和に置き換える,非コヒーレントな光電子フィルタリングのタスクに適用する。 空間フィルタを1つしか実現できない非一貫性光電子フィルタに関するこれまでの研究とは対照的に,単一キャプチャから連続的なフィルタファミリを実現し,ポストキャプチャ後のディジタル和重みを調整することで,家族からフィルタを選択できる。 ユーザが特定した空間フィルタのセットを実現するメタサーフェスを見つけるために,光効率と信号対雑音比の高い新しい正則化器を用いた勾配降下方式を導入する。 シミュレーションや試作プロトタイプの例をいくつか紹介する。その中には、深度や波長に一定の変動がある空間フィルターもある。

Optical metasurfaces composed of precisely engineered nanostructures have gained significant attention for their ability to manipulate light and implement distinct functionalities based on the properties of the incident field. Computational imaging systems have started harnessing this capability to produce sets of coded measurements that benefit certain tasks when paired with digital post-processing. Inspired by these works, we introduce a new system that uses a birefringent metasurface with a polarizer-mosaicked photosensor to capture four optically-coded measurements in a single exposure. We apply this system to the task of incoherent opto-electronic filtering, where digital spatial-filtering operations are replaced by simpler, per-pixel sums across the four polarization channels, independent of the spatial filter size. In contrast to previous work on incoherent opto-electronic filtering that can realize only one spatial filter, our approach can realize a continuous family of filters from a single capture, with filters being selected from the family by adjusting the post-capture digital summation weights. To find a metasurface that can realize a set of user-specified spatial filters, we introduce a form of gradient descent with a novel regularizer that encourages light efficiency and a high signal-to-noise ratio. We demonstrate several examples in simulation and with fabricated prototypes, including some with spatial filters that have prescribed variations with respect to depth and wavelength.
翻訳日:2023-07-18 15:44:04 公開日:2023-07-16
# 決定木を用いた教師付きクラスタリング

Using Decision Trees for Interpretable Supervised Clustering ( http://arxiv.org/abs/2307.08104v1 )

ライセンス: Link先を確認
Natallia Kokash and Leonid Makhnist(参考訳) 本稿では,ラベル付きデータセットにおけるクラス一様データの説明可能なクラスタを見つける問題に対処する。 この問題は、解釈可能な教師付きクラスタリングの領域に当てはまる。 従来のクラスタリングとは異なり、教師付きクラスタリングは、高い確率密度のラベル付きデータのクラスタを形成することを目的としている。 特に、あるクラスのデータのクラスタを見つけ、包括的なルールのセットでクラスタを記述することに興味があります。 本稿では,最も直感的な学習手法として,決定木に基づく分類器を用いて高密度クラスタを抽出する反復的手法を提案し,特定群の品質を最大化するノード選択法について検討する。

In this paper, we address an issue of finding explainable clusters of class-uniform data in labelled datasets. The issue falls into the domain of interpretable supervised clustering. Unlike traditional clustering, supervised clustering aims at forming clusters of labelled data with high probability densities. We are particularly interested in finding clusters of data of a given class and describing the clusters with the set of comprehensive rules. We propose an iterative method to extract high-density clusters with the help of decisiontree-based classifiers as the most intuitive learning method, and discuss the method of node selection to maximize quality of identified groups.
翻訳日:2023-07-18 15:43:39 公開日:2023-07-16
# 高量子ビット接続型超伝導量子情報プロセッサ

A superconducting quantum information processor with high qubit connectivity ( http://arxiv.org/abs/2307.08101v1 )

ライセンス: Link先を確認
G\"urkan Kartal, George Simion, Bart Sor\'ee(参考訳) トランスモン量子ビットと情報ストレージとしての共振器の結合は、量子コンピューティングの代替経路を提供する。 このようなスキームは、cQEDシステムにおいて大きな課題である高い量子ビット接続を実現するための道を開く。 実装には、補助的なトランスモンの直接励起または仮想光子相互作用が含まれる。 仮想結合スキームは、トランスモンのデコヒーレンス効果が抑制されるため、並列、仮想ゲート操作、より優れたコヒーレンス特性などの利点を約束する。 しかし、仮想ゲートはシステム内のモードの非一様周波数分離に依存しており、この機能を取得することは簡単な作業ではない。 そこで本研究では,トランスモンの4波長混合機能を,量子ビットで結合した共振器のチェーンに組み込むアーキテクチャを提案する。 単一モード近似内で動作している多数の共振器からなるこのシステムは、上記のような不均一性を維持し、異なる共振器を適切な周波数で収容する。

Coupling of transmon qubits to resonators that serve as storage for information provides alternative routes for quantum computing. Such a scheme paves the way for achieving high qubit connectivity, which is a great challenge in cQED systems. Implementations either involve an ancillary transmon's direct excitation, or virtual photon interactions. Virtual coupling scheme promises advantages such as the parallel, virtual gate operations and better coherence properties since the transmon's decoherence effects are suppressed. However, virtual gates rely on nonuniform frequency separation of the modes in the system and acquiring this feature is not a straightforward task. Here, we propose an architecture that incorporates the four-wave mixing capabilities of the transmon into a chain of resonators coupled collectively by qubits in between. The system, consisting of numerous resonators all operating within the single mode approximation, maintains the above-mentioned nonuniformity by accommodating different resonators with appropriate frequencies.
翻訳日:2023-07-18 15:43:28 公開日:2023-07-16
# FourierHandFlow: フーリエクエリフローを用いたニューラルネットワークによる4次元ハンド表現

FourierHandFlow: Neural 4D Hand Representation Using Fourier Query Flow ( http://arxiv.org/abs/2307.08100v1 )

ライセンス: Link先を確認
Jihyun Lee, Junbong Jang, Donghwan Kim, Minhyuk Sung, Tae-Kyun Kim(参考訳) 最近の4次元形状表現モデルによる暗黙的形状の連続的時間的発展は,(1)形状や調音の先取りを使わずにクエリフローを学習するか,(2)時間値ごとに分割した形状の復号化である。 したがって、明瞭な形状間の暗黙の対応を効果的に捉えたり、ジッタイ時間変形を規則化することはない。 本研究では,人間の手の時空間的連続表現であるフーリエハンドフローを,フーリエ級数として表現された3次元占有場と調音認識クエリフローとを結合した,フーリエハンドフローを提案する。 入力rgbシーケンスが与えられると、各クエリフローに対する固定数のフーリエ係数を学習し、滑らかで連続的な時間形状のダイナミクスを保証する。 有声手における時空間的変形を効果的にモデル化するために,(1)暗黙的な線形ブレンドスキンによる調音変化の影響を受ける問合せダイナミクスをモデル化するポーズフローと,(2)問合せ方向の変位流れをモデル化する形状フローという,2種類のフーリエ・クエリフローに基づいて4次元表現を構成する。 実験では,既存の3D/4D暗示形状表現よりも計算効率が良く,映像ベース4D再構成の最先端結果が得られた。 さらに, 暗黙的形状の学習対応を用いて, 運動間・外挿・テクスチャ伝達に関する結果を示す。 私たちの知る限りでは、FourierHandFlowはRGBビデオから学んだ最初の4D連続表現である。 コードは公開アクセス可能である。

Recent 4D shape representations model continuous temporal evolution of implicit shapes by (1) learning query flows without leveraging shape and articulation priors or (2) decoding shape occupancies separately for each time value. Thus, they do not effectively capture implicit correspondences between articulated shapes or regularize jittery temporal deformations. In this work, we present FourierHandFlow, which is a spatio-temporally continuous representation for human hands that combines a 3D occupancy field with articulation-aware query flows represented as Fourier series. Given an input RGB sequence, we aim to learn a fixed number of Fourier coefficients for each query flow to guarantee smooth and continuous temporal shape dynamics. To effectively model spatio-temporal deformations of articulated hands, we compose our 4D representation based on two types of Fourier query flow: (1) pose flow that models query dynamics influenced by hand articulation changes via implicit linear blend skinning and (2) shape flow that models query-wise displacement flow. In the experiments, our method achieves state-of-the-art results on video-based 4D reconstruction while being computationally more efficient than the existing 3D/4D implicit shape representations. We additionally show our results on motion inter- and extrapolation and texture transfer using the learned correspondences of implicit shapes. To the best of our knowledge, FourierHandFlow is the first neural 4D continuous hand representation learned from RGB videos. The code will be publicly accessible.
翻訳日:2023-07-18 15:43:13 公開日:2023-07-16
# CalibNet: RGB-D Salient Instance Segmentationのためのデュアルブランチクロスモーダル校正

CalibNet: Dual-branch Cross-modal Calibration for RGB-D Salient Instance Segmentation ( http://arxiv.org/abs/2307.08098v1 )

ライセンス: Link先を確認
Jialun Pei, Tao Jiang, He Tang, Nian Liu, Yueming Jin, Deng-Ping Fan, Pheng-Ann Heng(参考訳) 本稿では,CalibNetと呼ばれるデュアルブランチ・クロスモーダルな特徴キャリブレーションアーキテクチャを用いて,RGB-Dの有意なインスタンスセグメンテーションを提案する。 本手法は,カーネルとマスクブランチの深さとrgb機能を同時処理し,インスタンス対応カーネルとマスク機能を生成する。 CalibNetは、動的インタラクティブカーネル(DIK)とウェイトシェアリング融合(WSF)の3つの単純なモジュールで構成され、効果的にインスタンス対応カーネルを生成し、クロスモーダル機能を統合する。 奥行き特徴の質を向上させるため、dikとwsfの前に奥行き類似度評価(dsa)モジュールを組み込んだ。 さらに、詳細なインスタンスレベルのアノテーションを備えた1,940のイメージを含む新しいDSISデータセットも提供します。 3つの挑戦的なベンチマークに関する広範囲な実験により、calibnetは、代替フレームワークを大幅に上回るcome15k-nテストセットにおいて、320*480の入力サイズを持つ58.0%apという有望な結果をもたらすことが示された。 私たちのコードとデータセットは、https://github.com/PJLallen/CalibNet.comで公開されています。

We propose a novel approach for RGB-D salient instance segmentation using a dual-branch cross-modal feature calibration architecture called CalibNet. Our method simultaneously calibrates depth and RGB features in the kernel and mask branches to generate instance-aware kernels and mask features. CalibNet consists of three simple modules, a dynamic interactive kernel (DIK) and a weight-sharing fusion (WSF), which work together to generate effective instance-aware kernels and integrate cross-modal features. To improve the quality of depth features, we incorporate a depth similarity assessment (DSA) module prior to DIK and WSF. In addition, we further contribute a new DSIS dataset, which contains 1,940 images with elaborate instance-level annotations. Extensive experiments on three challenging benchmarks show that CalibNet yields a promising result, i.e., 58.0% AP with 320*480 input size on the COME15K-N test set, which significantly surpasses the alternative frameworks. Our code and dataset are available at: https://github.com/PJLallen/CalibNet.
翻訳日:2023-07-18 15:42:42 公開日:2023-07-16
# easytpp: テンポラリポイントプロセスのオープンベンチマークに向けて

EasyTPP: Towards Open Benchmarking the Temporal Point Processes ( http://arxiv.org/abs/2307.08097v1 )

ライセンス: Link先を確認
Siqiao Xue, Xiaoming Shi, Zhixuan Chu, Yan Wang, Fan Zhou, Hongyan Hao, Caigao Jiang, Chen Pan, Yi Xu, James Y. Zhang, Qingsong Wen, Jun Zhou, Hongyuan Mei(参考訳) 継続的イベントシーケンスは、ヘルスケア、ファイナンス、オンラインショッピング、ソーシャルネットワークなど、現実世界のドメインにおいて重要な役割を果たす。 このようなデータをモデル化するために、時間点プロセス(TPP)が最も先進的な生成モデルとして登場し、学術的および応用的なコミュニティに大きな影響を与えている。 近年、多くの強力なモデルが出現しているが、それらを評価するための包括的なベンチマークはない。 この標準化の欠如は、研究者や実践者が手法の比較や結果の再現を妨げ、この分野の進歩を遅らせる可能性がある。 本稿では,TPP評価のための中央ベンチマークを確立することを目的としたEasyTPPを提案する。 データセットにも貢献した以前の作業と比較すると、easytppにはコミュニティに3つのユニークな貢献があります。 i) 一般的に用いられる評価指標とデータセットを統合した,高度に引用された8つの神経TPPの包括的実装。 二 異なるデータセット上の異なる方法の透過的かつ徹底的な比較のための標準ベンチマークパイプライン (iii) 複数のMLライブラリ(PyTorchやTensorFlowなど)とカスタム実装をサポートする普遍的なフレームワーク。 すべてのデータと実装は、この \href{https://github.com/ant-research/EasyTemporalPointProcess}{\textcolor{blue}{Github repository}}\footnote{\url{https://github.com/ant-research/EasyTemporalPointProcess} で見ることができる。 }. 私たちはこのベンチマークを積極的に維持し、他の研究者や実践者の貢献を歓迎します。 私たちのベンチマークは、この分野における再現可能な研究を促進するのに役立つでしょう。

Continuous-time event sequences play a vital role in real-world domains such as healthcare, finance, online shopping, social networks, and so on. To model such data, temporal point processes (TPPs) have emerged as the most advanced generative models, making a significant impact in both academic and application communities. Despite the emergence of many powerful models in recent years, there is still no comprehensive benchmark to evaluate them. This lack of standardization impedes researchers and practitioners from comparing methods and reproducing results, potentially slowing down progress in this field. In this paper, we present EasyTPP, which aims to establish a central benchmark for evaluating TPPs. Compared to previous work that also contributed datasets, our EasyTPP has three unique contributions to the community: (i) a comprehensive implementation of eight highly cited neural TPPs with the integration of commonly used evaluation metrics and datasets; (ii) a standardized benchmarking pipeline for a transparent and thorough comparison of different methods on different datasets; (iii) a universal framework supporting multiple ML libraries (e.g., PyTorch and TensorFlow) as well as custom implementations. Our benchmark is open-sourced: all the data and implementation can be found at this \href{https://github.com/ant-research/EasyTemporalPointProcess}{\textcolor{blue}{Github repository}}\footnote{\url{https://github.com/ant-research/EasyTemporalPointProcess}.}. We will actively maintain this benchmark and welcome contributions from other researchers and practitioners. Our benchmark will help promote reproducible research in this field, thus accelerating research progress as well as making more significant real-world impacts.
翻訳日:2023-07-18 15:42:20 公開日:2023-07-16
# Semi-DETR: 検出変換器を用いた半監督対象検出

Semi-DETR: Semi-Supervised Object Detection with Detection Transformers ( http://arxiv.org/abs/2307.08095v1 )

ライセンス: Link先を確認
Jiacheng Zhang, Xiangru Lin, Wei Zhang, Kuo Wang, Xiao Tan, Junyu Han, Errui Ding, Jingdong Wang, Guanbin Li(参考訳) 半教師対象検出(SSOD)に関するDETRベースのフレームワークを解析し,(1)擬似接地構造境界ボックスが不正確な場合に1対1の割当て戦略が不正確なマッチングを発生させ,トレーニングの非効率化につながること,(2)DTRベースの検出器は入力クエリと予測出力間の決定論的対応を欠き,現在のSSOD法で広く使用されている一貫性に基づく正規化の適用性を妨げていることを観察する。 そこで本稿では,トランスフォーマーを用いた初のエンドツーエンドの半教師付き物体検出器であるsemi-detrを提案する。 具体的には,第1段階のトレーニング効率を向上させるために,1対1の課題と1対1の課題を組み合わせ,第2段階のトレーニングのための高品質な擬似ラベルを提供するステージワイドハイブリッドマッチング戦略を提案する。 さらに、異なるビューからオブジェクトクエリのセマンティックな特徴不変性を学習するクロスビュークエリ一貫性法を導入し、決定論的クエリ対応を見つける必要性を回避する。 さらに,一貫性トレーニングのための擬似基底真理バウンディングボックスのマッチングコストに基づいて,さらに多くの擬似ボックスを動的にマイニングするコストベースの擬似ラベルマイニングモジュールを提案する。 COCOとPascal VOCベンチマークのベンチマークデータセットのSSOD設定に関する大規模な実験は、Semi-DETR法がすべての最先端メソッドをクリアマージンで上回っていることを示している。 PaddlePaddleバージョンcode1はhttps://github.com/PaddlePaddle/PaddleDetection/tree/develop/configs/semi_det/semi_detrにある。

We analyze the DETR-based framework on semi-supervised object detection (SSOD) and observe that (1) the one-to-one assignment strategy generates incorrect matching when the pseudo ground-truth bounding box is inaccurate, leading to training inefficiency; (2) DETR-based detectors lack deterministic correspondence between the input query and its prediction output, which hinders the applicability of the consistency-based regularization widely used in current SSOD methods. We present Semi-DETR, the first transformer-based end-to-end semi-supervised object detector, to tackle these problems. Specifically, we propose a Stage-wise Hybrid Matching strategy that combines the one-to-many assignment and one-to-one assignment strategies to improve the training efficiency of the first stage and thus provide high-quality pseudo labels for the training of the second stage. Besides, we introduce a Crossview Query Consistency method to learn the semantic feature invariance of object queries from different views while avoiding the need to find deterministic query correspondence. Furthermore, we propose a Cost-based Pseudo Label Mining module to dynamically mine more pseudo boxes based on the matching cost of pseudo ground truth bounding boxes for consistency training. Extensive experiments on all SSOD settings of both COCO and Pascal VOC benchmark datasets show that our Semi-DETR method outperforms all state-of-the-art methods by clear margins. The PaddlePaddle version code1 is at https://github.com/PaddlePaddle/PaddleDetection/tree/develop/configs/semi_det/semi_detr.
翻訳日:2023-07-18 15:41:54 公開日:2023-07-16
# 非拘束画像からの新規ビュー合成のためのクロスレイトニューラルラジアンス場

Cross-Ray Neural Radiance Fields for Novel-view Synthesis from Unconstrained Image Collections ( http://arxiv.org/abs/2307.08093v1 )

ライセンス: Link先を確認
Yifan Yang and Shuhai Zhang and Zixiong Huang and Yubing Zhang and Mingkui Tan(参考訳) NeRF(Neural Radiance Fields)は、1ピクセルあたりの1光線をサンプリングすることでシーンを描画する革命的なアプローチであり、静的なシーン画像から新規ビューの合成機能を示す。 しかし、実際には、通常、制約のないイメージコレクションからNeRFを回復する必要があります。 1)撮影時間とカメラ設定が異なるため、画像の外観が動的に変化することが多い。 2) 画像には,人間や車などの過渡的な物体が含まれ,閉塞やゴースト的アーティファクトにつながる可能性がある。 従来のアプローチでは、1つの光線を局所的に利用してピクセルの色を合成することでこれらの課題に対処しようとする。 対照的に、人間は通常、複数のピクセルにまたがる情報をグローバルに活用して外観や物体を知覚する。 本稿では,人間の知覚過程を模倣するために,複数の光線にまたがるインタラクティブな情報を利用して,画像と同じ外観のオクルージョンフリーな新規ビューを合成するクロスレイネフ(cr-nerf)を提案する。 具体的には、まず、新しいクロスレイ特徴を持つ複数の光線を表現し、次に、大域的な統計、すなわち、光線の特徴の共分散と画像の出現を融合して、その外観を復元することを提案する。 さらに,過渡オブジェクトによる閉塞を回避するために,過渡オブジェクトハンドラを提案し,過渡オブジェクトをマスキングするグリッドサンプリング戦略を提案する。 理論的には、複数の光線にまたがる相関の活用は、よりグローバルな情報収集を促進する。 さらに,cr-nerfの有効性を大規模実世界のデータセットで検証した。

Neural Radiance Fields (NeRF) is a revolutionary approach for rendering scenes by sampling a single ray per pixel and it has demonstrated impressive capabilities in novel-view synthesis from static scene images. However, in practice, we usually need to recover NeRF from unconstrained image collections, which poses two challenges: 1) the images often have dynamic changes in appearance because of different capturing time and camera settings; 2) the images may contain transient objects such as humans and cars, leading to occlusion and ghosting artifacts. Conventional approaches seek to address these challenges by locally utilizing a single ray to synthesize a color of a pixel. In contrast, humans typically perceive appearance and objects by globally utilizing information across multiple pixels. To mimic the perception process of humans, in this paper, we propose Cross-Ray NeRF (CR-NeRF) that leverages interactive information across multiple rays to synthesize occlusion-free novel views with the same appearances as the images. Specifically, to model varying appearances, we first propose to represent multiple rays with a novel cross-ray feature and then recover the appearance by fusing global statistics, i.e., feature covariance of the rays and the image appearance. Moreover, to avoid occlusion introduced by transient objects, we propose a transient objects handler and introduce a grid sampling strategy for masking out the transient objects. We theoretically find that leveraging correlation across multiple rays promotes capturing more global information. Moreover, extensive experimental results on large real-world datasets verify the effectiveness of CR-NeRF.
翻訳日:2023-07-18 15:41:26 公開日:2023-07-16
# 物理に基づく生体力学シミュレーションによる歩行データ増大

Gait Data Augmentation using Physics-Based Biomechanical Simulation ( http://arxiv.org/abs/2307.08092v1 )

ライセンス: Link先を確認
Mritula Chandrasekaran, Jarek Francik, Dimitrios Makris(参考訳) 本稿では,歩行分析におけるデータ不足の問題に焦点をあてる。 標準的な増強法は、人間の歩行の生体力学的制約と一致しない歩行配列を生成することができる。 そこで本研究では,バイオメカニカル・プラウシブル・ウォーキング・シーケンスを合成するための物理シミュレーションOpenSIMを用いて,歩行データ拡張のための新しいフレームワークを提案する。 提案手法は,WBDSデータセットとCASIA-Bデータセットを拡張し,それぞれ3次元歩行分類と2次元歩行個人識別のための歩行ベース分類器を訓練することによって検証される。 CASIA-Bデータセットで96.11%の精度で、モデルに基づく歩行分類器の性能を改善し、歩行に基づく人物識別の最先端結果を提供できることを示す。

This paper focuses on addressing the problem of data scarcity for gait analysis. Standard augmentation methods may produce gait sequences that are not consistent with the biomechanical constraints of human walking. To address this issue, we propose a novel framework for gait data augmentation by using OpenSIM, a physics-based simulator, to synthesize biomechanically plausible walking sequences. The proposed approach is validated by augmenting the WBDS and CASIA-B datasets and then training gait-based classifiers for 3D gender gait classification and 2D gait person identification respectively. Experimental results indicate that our augmentation approach can improve the performance of model-based gait classifiers and deliver state-of-the-art results for gait-based person identification with an accuracy of up to 96.11% on the CASIA-B dataset.
翻訳日:2023-07-18 15:40:59 公開日:2023-07-16
# 空間知覚データからの意味的形式概念生成のための再帰的batesonインスパイアモデル

A Recursive Bateson-Inspired Model for the Generation of Semantic Formal Concepts from Spatial Sensory Data ( http://arxiv.org/abs/2307.08087v1 )

ライセンス: Link先を確認
Jaime de Miguel Rodriguez, Fernando Sancho Caparrini(参考訳) 機械学習へのニューラルシンボリックアプローチは、コネクショニストとシンボリックメソッドの両方の利点を取り入れている。 通常、これらのモデルは、複雑なデータから特徴を抽出するために、ニューラルネットワークアーキテクチャに基づく最初のモジュールを使用する。 次に、これらの特徴は推論、概念構造、構成可能性、より良い一般化、分散学習などの可能性を提供する記号エンジンによってシンボルとして処理される。 しかし、知覚データにおけるシンボルの接地に対する神経的アプローチは、強力ではあるが、ほとんどの部分において重いトレーニングと退屈なラベル付けを必要としている。 本稿では,複雑な空間知覚データから階層的概念構造を生成するための新しいシンボリックオンリー手法を提案する。 このアプローチは、概念や概念の創始の鍵としてのバテソンの差異の概念に基づいている。 彼の提案に続いて、モデルは多変量数値ストリームにおける要素の逐次比較を計算し、生データから原子の特徴を抽出する。 より高レベルな構造は、再帰的なプロセスでさらなる比較を行うことによってこれらの特徴から構築される。 再帰のどの段階でも、形式的概念分析によってこれらの構成と特徴から概念構造を得ることができる。 結果は、モデルは訓練なしでかなりリッチだが人間に読まれる概念表現を生成できることを示している。 さらに、モデルを通して得られた概念構造 (i)現在高い構成性があり、「見えない」概念を創出できる可能性がある。 (ii)正式な推論を許可し、 (iii)一般化と分散学習に固有の能力を有する。 したがって、この手法は現在のニューラルシンボリック研究に興味深い角度を与える可能性がある。 モデルがより大きなデータセットに対してテストできるようにトレーニング方法論を開発するためには、今後の作業が必要である。

Neural-symbolic approaches to machine learning incorporate the advantages from both connectionist and symbolic methods. Typically, these models employ a first module based on a neural architecture to extract features from complex data. Then, these features are processed as symbols by a symbolic engine that provides reasoning, concept structures, composability, better generalization and out-of-distribution learning among other possibilities. However, neural approaches to the grounding of symbols in sensory data, albeit powerful, still require heavy training and tedious labeling for the most part. This paper presents a new symbolic-only method for the generation of hierarchical concept structures from complex spatial sensory data. The approach is based on Bateson's notion of difference as the key to the genesis of an idea or a concept. Following his suggestion, the model extracts atomic features from raw data by computing elemental sequential comparisons in a stream of multivariate numerical values. Higher-level constructs are built from these features by subjecting them to further comparisons in a recursive process. At any stage in the recursion, a concept structure may be obtained from these constructs and features by means of Formal Concept Analysis. Results show that the model is able to produce fairly rich yet human-readable conceptual representations without training. Additionally, the concept structures obtained through the model (i) present high composability, which potentially enables the generation of 'unseen' concepts, (ii) allow formal reasoning, and (iii) have inherent abilities for generalization and out-of-distribution learning. Consequently, this method may offer an interesting angle to current neural-symbolic research. Future work is required to develop a training methodology so that the model can be tested against a larger dataset.
翻訳日:2023-07-18 15:40:44 公開日:2023-07-16
# ほぼ同期相関と富田竹崎理論

Almost synchronous correlations and Tomita-Takesaki theory ( http://arxiv.org/abs/2307.08129v1 )

ライセンス: Link先を確認
Amine Marrakchi and Mikael de la Salle(参考訳) このノートの目的は、コーンズの分布補題の ``type III''' の一般化を示すことである。 次に、ビディクに従えば、非局所ゲームにおける無限次元量子戦略の結果を導出する。

The aim of this note is to present a ``type III'' generalization of a distribution lemma of Connes. We then derive, following Vidick, consequences on infinite-dimensional quantum strategies for non-local games.
翻訳日:2023-07-18 15:35:33 公開日:2023-07-16
# ハードデータ一貫性による潜時拡散モデルによる逆問題の解法

Solving Inverse Problems with Latent Diffusion Models via Hard Data Consistency ( http://arxiv.org/abs/2307.08123v1 )

ライセンス: Link先を確認
Bowen Song, Soo Min Kwon, Zecheng Zhang, Xinyu Hu, Qing Qu, Liyue Shen(参考訳) 拡散モデルは最近、逆問題を解くための強力な生成前駆体として現れている。 しかし、画素空間におけるトレーニング拡散モデルは、データ集約的かつ計算的に要求されるものであり、医療画像などの領域における事前適用性を制限する。 非常に低次元空間で動作する潜在拡散モデルは、これらの課題に対する解決策を提供する。 しかし、その逆問題への直接的な適用は、エンコーダとデコーダの非線形性のために未解決の技術的課題である。 そこで本研究では,事前学習した潜在拡散モデルを用いて一般逆問題を解くアルゴリズムであるresampleを提案する。 本アルゴリズムは,データ整合性の概念である逆サンプリングプロセス中に最適化問題を解くことによって,データの整合性を実現する。 この最適化問題の解決にあたり、測定一貫性のあるサンプルを正しいデータ多様体にマッピングする新しい再サンプリング手法を提案する。 本手法は,(1)学習中に一定の前方測定演算子を仮定しないのと同じ事前学習モデルを用いて,様々な逆問題に容易に適応できる,(2)潜在拡散モデルを最小限のデータサンプルで微調整するだけで異なる領域に一般化できるという意味で,メモリ効率とかなりの柔軟性を提供する。 線形および非線形の逆問題に対する実験結果から,画素空間で動作する最先端の著作物と比較して,高品質な画像を再現できることを示した。

Diffusion models have recently emerged as powerful generative priors for solving inverse problems. However, training diffusion models in the pixel space are both data intensive and computationally demanding, which restricts their applicability as priors in domains such as medical imaging. Latent diffusion models, which operate in a much lower-dimensional space, offer a solution to these challenges. Though, their direct application to solving inverse problems remains an unsolved technical challenge due to the nonlinearity of the encoder and decoder. To address this issue,we propose ReSample, an algorithm that solves general inverse problems with pre-trained latent diffusion models. Our algorithm incorporates data consistency by solving an optimization problem during the reverse sampling process, a concept that we term as hard data consistency. Upon solving this optimization problem, we propose a novel resampling scheme to map the measurement-consistent sample back onto the correct data manifold. Our approach offers both memory efficiency and considerable flexibility in the sense that (1) it can be readily adapted to various inverse problems using the same pre-trained model as it does not assume any fixed forward measurement operator during training, and (2) it can be generalized to different domains by simply fine-tuning the latent diffusion model with a minimal amount of data samples. Our empirical results on both linear and non-linear inverse problems demonstrate that our approach can reconstruct high-quality images even compared to state-of-the-art works that operate in the pixel space.
翻訳日:2023-07-18 15:35:28 公開日:2023-07-16
# 構成・プライバシー・削除のためのタンジェント変換器

Tangent Transformers for Composition, Privacy and Removal ( http://arxiv.org/abs/2307.08122v1 )

ライセンス: Link先を確認
Tian Yu Liu, Aditya Golatkar and Stefano Soatto(参考訳) 本稿では,1次テイラー展開計算による線形化変圧器の微調整手法であるTangent Attention Fine-Tuning(TAFT)を紹介する。 線形化から生じるヤコビアン・ベクター積は1つの前方通過で効率的に計算でき、同じ数のパラメータを用いてトレーニングと推論コストを元の非線形積と同じ桁に削減できることを示す。 さらに, 下流の様々な視覚分類課題に適用すると, タフトを微調整したタンジェント変圧器は, 元の非線形ネットワークの微調整と相性が良いことを示した。 タンジェントトランスフォーマーは,新しい重み集合に対して線形であり,結果として生じる微調整損失は凸であるので,モデル構成や並列トレーニング,機械学習,差分プライバシーなどに関して,TAFTは非線形微調整に比べていくつかの利点がある。

We introduce Tangent Attention Fine-Tuning (TAFT), a method for fine-tuning linearized transformers obtained by computing a First-order Taylor Expansion around a pre-trained initialization. We show that the Jacobian-Vector Product resulting from linearization can be computed efficiently in a single forward pass, reducing training and inference cost to the same order of magnitude as its original non-linear counterpart, while using the same number of parameters. Furthermore, we show that, when applied to various downstream visual classification tasks, the resulting Tangent Transformer fine-tuned with TAFT can perform comparably with fine-tuning the original non-linear network. Since Tangent Transformers are linear with respect to the new set of weights, and the resulting fine-tuning loss is convex, we show that TAFT enjoys several advantages compared to non-linear fine-tuning when it comes to model composition, parallel training, machine unlearning, and differential privacy.
翻訳日:2023-07-18 15:35:06 公開日:2023-07-16
# 絡み合ったトーリック符号における単発量子誤差補正

Single-Shot Quantum Error Correction in Intertwined Toric Codes ( http://arxiv.org/abs/2307.08118v1 )

ライセンス: Link先を確認
Charles Stahl(参考訳) ユーザフレンドリーで透過的な方法で単発誤り訂正を行う3次元のサブシステムコードを構築する。 このコードは結合トーリックコードのサブシステムバージョンなので、我々はそれをintertwined toric code (ITC)と呼ぶ。 以前の符号は単発誤り訂正の特性を共有しているが、itcは物理的に動機づけられた原点、幾何学的に分かりやすい論理演算子と誤差、単純な位相図によって区別される。 コードは、シングルショット特性の物理的起源を強調する方法で、3次元安定化器トーリック符号から生じる。 特に,3次元トーリック符号の2つのコピーから始め,ループ励起を凝縮することなく点状励起を閉じ込めるチェック演算子を追加する。 幾何学的には、ITCの裸の論理演算子と着飾った論理演算子は、下層のトーリック符号の論理演算子から派生し、エラーと測定結果とを明確に関連付ける。 itcのシンドロームは、kubicaとvasmerによるsingle-shot codeのシンドロームに似ています。 また,itcに対応する位相図を抽出し,kubica-vasmer符号に含まれる位相を含むことを示す。 最後に、Walker-Wangモデルと測定に基づく量子計算との様々な接続を提案する。

We construct a new subsystem code in three dimensions that exhibits single-shot error correction in a user-friendly and transparent way. As this code is a subsystem version of coupled toric codes, we call it the intertwined toric code (ITC). Although previous codes share the property of single-shot error correction, the ITC is distinguished by its physically motivated origin, geometrically straightforward logical operators and errors, and a simple phase diagram. The code arises from 3d stabilizer toric codes in a way that emphasizes the physical origin of the single-shot property. In particular, starting with two copies of the 3d toric code, we add check operators that provide for the confinement of pointlike excitations without condensing the loop excitations. Geometrically, the bare and dressed logical operators in the ITC derive from logical operators in the underlying toric codes, creating a clear relationship between errors and measurement outcomes. The syndromes of the ITC resemble the syndromes of the single-shot code by Kubica and Vasmer, allowing us to use their decoding schemes. We also extract the phase diagram corresponding to ITC and show that it contains the phases found in the Kubica-Vasmer code. Finally, we suggest various connections to Walker-Wang models and measurement-based quantum computation.
翻訳日:2023-07-18 15:34:48 公開日:2023-07-16
# 視覚トランスフォーマからの双方向エンコーダ表現による領域一般化

Domain Generalisation with Bidirectional Encoder Representations from Vision Transformers ( http://arxiv.org/abs/2307.08117v1 )

ライセンス: Link先を確認
Hamza Riaz and Alan F. Smeaton(参考訳) ドメインの一般化は、ソースドメインからの知識を、目に見えないターゲットドメインに一般化できる単一のモデルにプールすることを伴う。 ドメイン一般化における最近の研究は、深層学習モデルを用いて、訓練対象と異なるデータ分布と相互作用する際の課題に直面している。 ここでは、視覚変換器を用いて、オフ・オブ・ディストリビューション(OOD)ビジョンベンチマークの領域一般化を行う。 まず,vit, levit, deit, beitの4つの視覚トランスフォーマーアーキテクチャについて検討した。 画像トランスフォーマー(BEIT)アーキテクチャによる双方向エンコーダ表現が優れているため,PACS,Home-Office,DomainNetの3つのベンチマークでさらに実験を行った。 その結果, 検証精度とテスト精度が大幅に向上し, イントラディストリビューションデータとOODデータのギャップを大幅に克服した。

Domain generalisation involves pooling knowledge from source domain(s) into a single model that can generalise to unseen target domain(s). Recent research in domain generalisation has faced challenges when using deep learning models as they interact with data distributions which differ from those they are trained on. Here we perform domain generalisation on out-of-distribution (OOD) vision benchmarks using vision transformers. Initially we examine four vision transformer architectures namely ViT, LeViT, DeiT, and BEIT on out-of-distribution data. As the bidirectional encoder representation from image transformers (BEIT) architecture performs best, we use it in further experiments on three benchmarks PACS, Home-Office and DomainNet. Our results show significant improvements in validation and test accuracy and our implementation significantly overcomes gaps between within-distribution and OOD data.
翻訳日:2023-07-18 15:34:25 公開日:2023-07-16
# 非同期ニューロモルフィックシステムのためのメムリスタベースルータのスケーリング限界

Scaling Limits of Memristor-Based Routers for Asynchronous Neuromorphic Systems ( http://arxiv.org/abs/2307.08116v1 )

ライセンス: Link先を確認
Junren Chen, Siyao Yang, Huaqiang Wu, Giacomo Indiveri, Melika Payvand(参考訳) マルチコアニューロモルフィックシステムは、通常、コア間のスパイク伝達にオンチップルータを使用する。 これらのルータは重要なメモリ資源を必要とし、システム全体のエネルギー予算の大部分を消費する。 標準のCMOSおよびSRAMベースのルータを使用するための有望なアプローチは、メムリシブなクロスバーアレイの機能を利用して、スパイクをルーティングするプログラム可能なスイッチ行列として使用することである。 しかしながら、これらのクロスバーアレイのスケーリングは、寄生抵抗による金属線上の「IRドロップ」や、複数のアクティブな「オフ」中間子上のリーク電流蓄積などの物理的課題を示す。 このタイプの信頼性の課題は、メモリ内行列ベクトル乗算(MVM)アクセラレータとストレージクラスメモリの同期システムで広く研究されているが、メムリスタベースのクロスバールータのスケーリング限界を特徴づける努力はほとんど行われていない。 本稿では,非同期スパイキングニューラルネットワーク(SNN)ハードウェアでスパイクを送信するためのルーティングチャネルとして使用する場合,メムリシティブクロスバーアレイの課題について検討する。 本研究では,4K-ReRAMチップを用いて解析結果を検証し,ルーティングクロスバーとしての機能を示す。 本研究では,22nmFDSOI技術を用いた実験,モデリング,回路シミュレーションの両面から,IRドロップおよびリーク問題によるルーティング上の機能境界を決定する。 本研究は、このアプローチの制約を強調し、マルチコア非同期ニューロモルフィックシステムを構築するためのmemristive crossbarルータにおけるmemristorプロパティをエンジニアリングするための有用なガイドラインを提供する。

Multi-core neuromorphic systems typically use on-chip routers to transmit spikes among cores. These routers require significant memory resources and consume a large part of the overall system's energy budget. A promising alternative approach to using standard CMOS and SRAM-based routers is to exploit the features of memristive crossbar arrays and use them as programmable switch-matrices that route spikes. However, the scaling of these crossbar arrays presents physical challenges, such as `IR drop' on the metal lines due to the parasitic resistance, and leakage current accumulation on multiple active `off' memristors. While reliability challenges of this type have been extensively studied in synchronous systems for compute-in-memory matrix-vector multiplication (MVM) accelerators and storage class memory, little effort has been devoted so far to characterizing the scaling limits of memristor-based crossbar routers. In this paper, we study the challenges of memristive crossbar arrays, when used as routing channels to transmit spikes in asynchronous Spiking Neural Network (SNN) hardware. We validate our analytical findings with experimental results obtained from a 4K-ReRAM chip which demonstrate its functionality as a routing crossbar. We determine the functionality bounds on the routing due to the IR drop and leak problem, based both on experimental measurements, modeling and circuit simulations in a 22nm FDSOI technology. This work highlights the constraint of this approach and provides useful guidelines for engineering memristor properties in memristive crossbar routers for building multi-core asynchronous neuromorphic systems.
翻訳日:2023-07-18 15:34:11 公開日:2023-07-16
# 感性及び連続的微調整のための接モデル組成物

Tangent Model Composition for Ensembling and Continual Fine-tuning ( http://arxiv.org/abs/2307.08114v1 )

ライセンス: Link先を確認
Tian Yu Liu and Stefano Soatto(参考訳) タンジェントモデル合成(Tangent Model composition、TMC)は、事前訓練された点を中心に微調整されたコンポーネントモデルを独立に結合する手法である。 コンポーネントモデルは、インクリメンタルラーニング、エンハンブル、アンラーニングをサポートするために追加、スケール、縮小できる事前訓練されたモデルに接するベクトルである。 コンポーネントモデルはスカラー結合を介して推論時に構成され、単一のモデルとのアンサンブルコストを低減します。 TMCの精度は2.5倍から10倍に向上し、コンポーネントモデルの数を線形に増加させながら、非線形に微調整されたモデルと比べ4.2%向上した。 それぞれのコンポーネントモデルはゼロコストで無視でき、結果として生じる推論に残差は与えない。 連続的な微調整に使用する場合、MCCはシーケンシャルバイアスに制約されず、フェデレートされたデータ上で並列に実行できる。 tmcは、リプレイバッファを使わずに、3つのベンチマークデータセットで合計13の実験で、タスクインクリメンタル、クラスインクリメンタル、データインクリメンタルの各設定で、ほぼ一様に、連続的な微調整メソッドを公開している。 TMCは、事前訓練された埋め込みに局所的なモデルを構築するために設計されたが、より一般的な設定に拡張できる。

Tangent Model Composition (TMC) is a method to combine component models independently fine-tuned around a pre-trained point. Component models are tangent vectors to the pre-trained model that can be added, scaled, or subtracted to support incremental learning, ensembling, or unlearning. Component models are composed at inference time via scalar combination, reducing the cost of ensembling to that of a single model. TMC improves accuracy by 4.2% compared to ensembling non-linearly fine-tuned models at a 2.5x to 10x reduction of inference cost, growing linearly with the number of component models. Each component model can be forgotten at zero cost, with no residual effect on the resulting inference. When used for continual fine-tuning, TMC is not constrained by sequential bias and can be executed in parallel on federated data. TMC outperforms recently published continual fine-tuning methods almost uniformly on each setting -- task-incremental, class-incremental, and data-incremental -- on a total of 13 experiments across 3 benchmark datasets, despite not using any replay buffer. TMC is designed for composing models that are local to a pre-trained embedding, but could be extended to more general settings.
翻訳日:2023-07-18 15:33:43 公開日:2023-07-16
# 絡み合い抑制、対称性の強化、標準模型ライクなヒッグスボソン

Entanglement Suppression, Enhanced Symmetry and a Standard-Model-like Higgs Boson ( http://arxiv.org/abs/2307.08112v1 )

ライセンス: Link先を確認
Marcela Carena, Ian Low, Carlos E. M. Wagner, Ming-Lei Xiao(参考訳) ヒッグスダブルトを2つ含むスカラーモデルの情報理論特性について検討し、a=1,2$はフレーバー量子数である。 2-to-2散乱 $\Phi_a \Phi_b \to \Phi_c \Phi_d$ をフレーバー部分空間の2量子ビット系として、S-行列を量子論理ゲートとして考慮し、S-行列の木レベルでの絡み合い力を分析する。 散乱中のフレーバーの絡み合いの抑制を要求すると、破壊相の摂動s行列は同一ゲートの同値なクラスにのみ存在し、スカラーポテンシャルは2つの二重項の8つの実成分に作用する最大に強化された$so(8)$対称性を示す。 SO(8)$対称性はアライメント限界を自然に導き、エンタングルメントの抑制の結果、標準モデルのようなヒッグスボソンが生じる。

We study information-theoretic properties of scalar models containing two Higgs doublets $\Phi_a$, where $a=1,2$ is the flavor quantum number. Considering the 2-to-2 scattering $\Phi_a \Phi_b \to \Phi_c \Phi_d$ as a two-qubit system in the flavor subspace and the S-matrix as a quantum logic gate, we analyze the entanglement power of the S-matrix at the tree-level, in the limit the gauge coupling is turned off. Demanding the suppression of flavor entanglement during the scattering, the perturbative S-matrix in the broken phase can only be in the equivalent class of the Identity gate and the scalar potential exhibits a maximally enhanced $SO(8)$ symmetry acting on the 8 real components of the two doublets. The $SO(8)$ symmetry leads to the alignment limit naturally, giving rise to a Standard-Model-like Higgs boson as a consequence of entanglement suppression.
翻訳日:2023-07-18 15:33:16 公開日:2023-07-16
# 電位時間ステップ不連続における電子散乱

Electron Scattering at a Potential Temporal Step Discontinuity ( http://arxiv.org/abs/2307.08111v1 )

ライセンス: Link先を確認
Furkan Ok, Amir Bahrami, Christophe Caloz(参考訳) 我々は時間的段階の不連続性における電子散乱の問題を解く。 シュロディンガー方程式はディラック方程式(英語版)に依拠しており、関連する散乱を生成するための破砕ゲージ対称性はベクトルポテンシャルを必要とするが、スカラーポテンシャルはアハラノフ-ボーム効果と同様にエネルギー遷移のみを誘導する。 散乱確率を導出し,後続および後続の性質が示され,この問題の空間的ステップと古典的電磁相対値の比較を行った。

We solve the problem of electron scattering at a potential temporal step discontinuity. We show that the Schrodinger equation is underdetermined for this problem, implying resort to the Dirac equation, and that breaking gauge symmetry to produce related scattering requires a vector potential, whereas a scalar potential only induces energy transitions, akin to the Aharonov-Bohm effect. We derive the scattering probabilities, which we show to be of later forward and backward nature, and compare the results with those for the spatial step and classical electromagnetic counterparts of the problem.
翻訳日:2023-07-18 15:32:43 公開日:2023-07-16
# PINNと記号回帰を組み合わせたアルツハイマー病の反応拡散モデル

Discovering a reaction-diffusion model for Alzheimer's disease by combining PINNs with symbolic regression ( http://arxiv.org/abs/2307.08107v1 )

ライセンス: Link先を確認
Zhen Zhang, Zongren Zou, Ellen Kuhl, George Em Karniadakis(参考訳) tauタンパク質はアルツハイマー病の進行と病理において重要な役割を担っている。 近年の研究では, ミスフォールドタウの時空間パターンは反応拡散型方程式に従うことが示唆されている。 しかし、脳全体のミスフォールドタンパク質の進行を特徴付ける正確な数学的モデルとパラメータは、いまだに完全に理解されていない。 本稿では,脳神経イメージングイニシアチブデータベースからの縦断的タウポジトロン放射トモグラフィーを用いて,深層学習と人工知能を用いてアルツハイマー病の進行の数学的モデルを発見する。 具体的には、物理情報ニューラルネットワーク(PINN)とシンボリックレグレッションを統合し、タウタンパク質のミスフォールディングと拡散のための反応拡散型偏微分方程式を発見する。 まず,合成データを用いたモデルとパラメータ発見の可能性を示す。 そこで本研究では,アルツハイマー病を発症する可能性のある46名,健常者30名を対象に,tau画像データを説明するための最善のモデルとパラメータを提案する。 我々のシンボリック回帰は、2つのグループに対する異なるミスフォールディングモデルである$f(c)$を発見し、アルツハイマー群に対するより早いミスフォールディング、健康管理群よりも$f(c) = 0.23c^3 - 1.34c^2 + 1.11c$、そして$f(c) = -c^3 +0.62c^2 + 0.39c$を見つける。 以上の結果から, PINNはリアクション拡散型モデルにより, アルツハイマー病のタンパク濃度の低下を説明できる可能性が示唆された。 本研究は,アルツハイマー病の早期診断,および理想的には早期の神経変性治療のための画像ベースの技術を提供するための,より総合的な解析の出発点となることを期待する。

Misfolded tau proteins play a critical role in the progression and pathology of Alzheimer's disease. Recent studies suggest that the spatio-temporal pattern of misfolded tau follows a reaction-diffusion type equation. However, the precise mathematical model and parameters that characterize the progression of misfolded protein across the brain remain incompletely understood. Here, we use deep learning and artificial intelligence to discover a mathematical model for the progression of Alzheimer's disease using longitudinal tau positron emission tomography from the Alzheimer's Disease Neuroimaging Initiative database. Specifically, we integrate physics informed neural networks (PINNs) and symbolic regression to discover a reaction-diffusion type partial differential equation for tau protein misfolding and spreading. First, we demonstrate the potential of our model and parameter discovery on synthetic data. Then, we apply our method to discover the best model and parameters to explain tau imaging data from 46 individuals who are likely to develop Alzheimer's disease and 30 healthy controls. Our symbolic regression discovers different misfolding models $f(c)$ for two groups, with a faster misfolding for the Alzheimer's group, $f(c) = 0.23c^3 - 1.34c^2 + 1.11c$, than for the healthy control group, $f(c) = -c^3 +0.62c^2 + 0.39c$. Our results suggest that PINNs, supplemented by symbolic regression, can discover a reaction-diffusion type model to explain misfolded tau protein concentrations in Alzheimer's disease. We expect our study to be the starting point for a more holistic analysis to provide image-based technologies for early diagnosis, and ideally early treatment of neurodegeneration in Alzheimer's disease and possibly other misfolding-protein based neurodegenerative disorders.
翻訳日:2023-07-18 15:32:26 公開日:2023-07-16
# ChatGPT や GPT-4 などの大言語モデルを用いた臨床助手の可能性と問題点

The Potential and Pitfalls of using a Large Language Model such as ChatGPT or GPT-4 as a Clinical Assistant ( http://arxiv.org/abs/2307.08152v1 )

ライセンス: Link先を確認
Jingqing Zhang, Kai Sun, Akshay Jagadeesh, Mahta Ghahfarokhi, Deepa Gupta, Ashok Gupta, Vibhor Gupta, Yike Guo(参考訳) 近年の研究では、いくつかの医療領域におけるChatGPTとGPT-4の有望な性能が示されている。 しかし、大規模な実世界の電子健康記録データベースを用いて、そのパフォーマンスを評価することはなく、また、多種多様な疾患のプレゼンテーションで患者に臨床診断支援を提供することの有用性も評価していない。 chatgptとgpt-4を用いた2つの分析を行った。1つは実世界の大規模電子カルテデータベースを用いて特定の医療診断を受けた患者を同定し、もう1つは医療従事者に対して仮説的評価のための診断支援を提供するものである。 以上の結果から,GPT-4は思考の連鎖と数発のプロンプトを伴い,F1スコアの96%を達成できた。 患者評価では、gpt-4は4回中3回正確に診断できる。 しかし、重大な医学的所見を見落とし、不必要な調査や過剰な治療の勧告など、事実的に誤記の言及があった。 これらの問題とプライバシーの懸念が組み合わさって、これらのモデルが現実の臨床試験に不適切になっている。 しかし、従来の機械学習ワークフローの構成と比較して、プロンプトエンジニアリングに必要なデータと時間に制限があり、医療アプリケーション間のスケーラビリティの可能性を強調している。

Recent studies have demonstrated promising performance of ChatGPT and GPT-4 on several medical domain tasks. However, none have assessed its performance using a large-scale real-world electronic health record database, nor have evaluated its utility in providing clinical diagnostic assistance for patients across a full range of disease presentation. We performed two analyses using ChatGPT and GPT-4, one to identify patients with specific medical diagnoses using a real-world large electronic health record database and the other, in providing diagnostic assistance to healthcare workers in the prospective evaluation of hypothetical patients. Our results show that GPT-4 across disease classification tasks with chain of thought and few-shot prompting can achieve performance as high as 96% F1 scores. For patient assessment, GPT-4 can accurately diagnose three out of four times. However, there were mentions of factually incorrect statements, overlooking crucial medical findings, recommendations for unnecessary investigations and overtreatment. These issues coupled with privacy concerns, make these models currently inadequate for real world clinical use. However, limited data and time needed for prompt engineering in comparison to configuration of conventional machine learning workflows highlight their potential for scalability across healthcare applications.
翻訳日:2023-07-18 15:23:41 公開日:2023-07-16
# 異常とは何か?

What is an anomaly? ( http://arxiv.org/abs/2307.08147v1 )

ライセンス: Link先を確認
Daniel S. Freed(参考訳) 場の量子論の異常は、その射影的性質の表現である。 この出発点は、その特殊種類の場理論としての顕現化を素早く導く: かつて分類された可逆理論。 我々はこの声明にたどり着き、射影に関する一般的な議論と量子力学における射影に関する議論を行う。 我々は、自由スピノル場の異常に関する一般公式で結論付ける。

The anomaly of a quantum field theory is an expression of its projective nature. This starting point quickly leads to its manifestation as a special kind of field theory: a once-categorified invertible theory. We arrive at this statement through a general discussion of projectivity and a discussion of projectivity in quantum mechanics. We conclude with a general formula for the anomaly of a free spinor field.
翻訳日:2023-07-18 15:23:19 公開日:2023-07-16
# 非教師なしビデオ要約のための自己アテンションに基づく生成型逆ネットワーク

Self-Attention Based Generative Adversarial Networks For Unsupervised Video Summarization ( http://arxiv.org/abs/2307.08145v1 )

ライセンス: Link先を確認
Maria Nektaria Minaidi, Charilaos Papaioannou, Alexandros Potamianos(参考訳) 本稿では,敵対的学習に依拠した教師なしアプローチによる総合的映像要約作成の問題について検討する。 我々は,GAN(Generative Adversarial Network)をトレーニングして,原文と区別できない要約を生成する,一般的な手法に基づいて構築する。 ビデオフレームの選択・符号化・デコードのためのアテンション機構の導入は,ビデオ要約における時間関係のモデル化におけるセルフアテンションとトランスフォーマーの効果を示している。 本稿では,フレーム選択のための自己認識機構と,符号化と復号のためのLSTMを組み合わせたSUM-GAN-AEDモデルを提案する。 我々は,SumMe,TVSum,COGNIMUSEデータセットを用いたSUM-GAN-AEDモデルの性能評価を行った。 実験の結果,フレーム選択機構としての自己アテンション機構はsummeの最先端性能を上回り,tvsumやcognimuseの最先端性能に匹敵することがわかった。

In this paper, we study the problem of producing a comprehensive video summary following an unsupervised approach that relies on adversarial learning. We build on a popular method where a Generative Adversarial Network (GAN) is trained to create representative summaries, indistinguishable from the originals. The introduction of the attention mechanism into the architecture for the selection, encoding and decoding of video frames, shows the efficacy of self-attention and transformer in modeling temporal relationships for video summarization. We propose the SUM-GAN-AED model that uses a self-attention mechanism for frame selection, combined with LSTMs for encoding and decoding. We evaluate the performance of the SUM-GAN-AED model on the SumMe, TVSum and COGNIMUSE datasets. Experimental results indicate that using a self-attention mechanism as the frame selection mechanism outperforms the state-of-the-art on SumMe and leads to comparable to state-of-the-art performance on TVSum and COGNIMUSE.
翻訳日:2023-07-18 15:23:15 公開日:2023-07-16
# ニューラルストリーム関数

Neural Stream Functions ( http://arxiv.org/abs/2307.08142v1 )

ライセンス: Link先を確認
Skylar Wolfgang Wurster, Hanqi Guo, Tom Peterka, Han-Wei Shen(参考訳) 本稿では,与えられたベクトル場に直交する勾配を持つスカラー関数であるストリーム関数をニューラルネットワークで計算する。 その結果, 流れ関数のイソサーフェスが流れ面を抽出し, 流れの特徴を分析するために可視化できる。 提案手法はベクトル場を入力とし,そのベクトル場に対するストリーム関数を学習するために暗黙のニューラル表現を訓練する。 ネットワークは、ニューラルネットワークの出力の勾配の内積とベクトル場の最小化により、入力座標をストリーム関数値にマップすることを学習する。 ストリーム関数ソリューションはユニークではないかもしれないので、特定のストリーム関数を学習するネットワークに対して、任意の制約を与える。 具体的には, 流れ面が流れ場の曲率に従うストリーム関数の解を任意に生成したり, シードレークを通過するストリーム面を含むストリーム関数を学習するために, 損失関数の正規化を導入する。 また、トレーニングされた暗黙的ネットワークを適切に可視化し、アーティファクトフリーな表面を抽出するための考慮事項についても検討する。 我々は、これらの結果を他の暗黙解と比較し、いくつかの合成およびシミュレートされたベクトル場に対する定性的および定量的結果を示す。

We present a neural network approach to compute stream functions, which are scalar functions with gradients orthogonal to a given vector field. As a result, isosurfaces of the stream function extract stream surfaces, which can be visualized to analyze flow features. Our approach takes a vector field as input and trains an implicit neural representation to learn a stream function for that vector field. The network learns to map input coordinates to a stream function value by minimizing the inner product of the gradient of the neural network's output and the vector field. Since stream function solutions may not be unique, we give optional constraints for the network to learn particular stream functions of interest. Specifically, we introduce regularizing loss functions that can optionally be used to generate stream function solutions whose stream surfaces follow the flow field's curvature, or that can learn a stream function that includes a stream surface passing through a seeding rake. We also discuss considerations for properly visualizing the trained implicit network and extracting artifact-free surfaces. We compare our results with other implicit solutions and present qualitative and quantitative results for several synthetic and simulated vector fields.
翻訳日:2023-07-18 15:22:57 公開日:2023-07-16
# poa:高クラッタ環境における二輪ロボットの走行経路計画アルゴリズム

POA: Passable Obstacles Aware Path-planning Algorithm for Navigation of a Two-wheeled Robot in Highly Cluttered Environments ( http://arxiv.org/abs/2307.08141v1 )

ライセンス: Link先を確認
Alexander Petrovsky, Yomna Youssef, Kirill Myasoedov, Artem Timoshenko, Vladimir Guneavoi, Ivan Kalinov, and Dzmitry Tsetserukou(参考訳) 本稿では,高度に乱雑な環境下での二輪ロボットの新しいナビゲーション手法であるPassable Obstacles Aware(POA)プランナーについて述べる。 ナビゲーションアルゴリズムは2種類の障害物を識別するためにオブジェクトを検出し、分類する。 このアルゴリズムにより、2輪ロボットは通過可能な障害物を通り抜ける経路を見つけることができる。 このようなソリューションは、ロボットが標準的な経路プランナーにアクセスできない領域で作業し、ロボットの近傍に多数のオブジェクトがあるシナリオにおいて最適な軌道を見つけるのに役立つ。 POAプランナーは、他の計画アルゴリズムに組み込むことができ、障害物を通るパスを構築することができる。 提案手法は, GVD, A*, RRT* などの標準経路プランナと比較して,最終目的地までの経路長と総走行時間をそれぞれ43%, 39%に短縮する。

This paper focuses on Passable Obstacles Aware (POA) planner - a novel navigation method for two-wheeled robots in a highly cluttered environment. The navigation algorithm detects and classifies objects to distinguish two types of obstacles - passable and unpassable. Our algorithm allows two-wheeled robots to find a path through passable obstacles. Such a solution helps the robot working in areas inaccessible to standard path planners and find optimal trajectories in scenarios with a high number of objects in the robot's vicinity. The POA planner can be embedded into other planning algorithms and enables them to build a path through obstacles. Our method decreases path length and the total travel time to the final destination up to 43% and 39%, respectively, comparing to standard path planners such as GVD, A*, and RRT*
翻訳日:2023-07-18 15:22:38 公開日:2023-07-16
# gastrovision: 消化器疾患検出のためのマルチクラス内視鏡画像データセット

GastroVision: A Multi-class Endoscopy Image Dataset for Computer Aided Gastrointestinal Disease Detection ( http://arxiv.org/abs/2307.08140v1 )

ライセンス: Link先を確認
Debesh Jha, Vanshali Sharma, Neethi Dasu, Nikhil Kumar Tomar, Steven Hicks, M.K. Bhuyan, Pradip K. Das, Michael A. Riegler, P{\aa}l Halvorsen, Thomas de Lange, and Ulas Bagci(参考訳) 臨床実践におけるリアルタイム人工知能(AI)システムの統合は、スケーラビリティや受け入れといった課題に直面している。 これらの課題には、データ可用性、偏りのある結果、データ品質、透明性の欠如、異なるディストリビューションからの見えないデータセットの低パフォーマンスなどが含まれる。 大規模で正確にラベル付けされた多様なデータセットの不足は、臨床統合の大きな課題である。 この不足は、臨床医の正確な注釈に必要な法的制限と広範な手作業によるものである。 これらの課題に対処するため,多施設間オープンアクセス消化管内視鏡(GI)検査データセットであるGastroVisionについて,解剖学的所見,病理所見,ポリープ除去症例,正常所見(総計24クラス)について紹介した。 データセットはノルウェーのB{\ae}rum Hospitalとスウェーデンのカロリンスカ大学から8000枚の画像からなり、経験豊富なGI内科医によって注釈され、検証された。 さらに,一般的なディープラーニングベースラインモデルに基づく広範なベンチマークを用いて,データセットの意義を検証する。 我々のデータセットは、GI病の検出と分類のためのAIベースのアルゴリズムの開発を促進することができると信じている。 私たちのデータセットはhttps://osf.io/84e7f/で利用可能です。

Integrating real-time artificial intelligence (AI) systems in clinical practices faces challenges such as scalability and acceptance. These challenges include data availability, biased outcomes, data quality, lack of transparency, and underperformance on unseen datasets from different distributions. The scarcity of large-scale, precisely labeled, and diverse datasets are the major challenge for clinical integration. This scarcity is also due to the legal restrictions and extensive manual efforts required for accurate annotations from clinicians. To address these challenges, we present GastroVision, a multi-center open-access gastrointestinal (GI) endoscopy dataset that includes different anatomical landmarks, pathological abnormalities, polyp removal cases and normal findings (a total of 24 classes) from the GI tract. The dataset comprises 8,000 images acquired from B{\ae}rum Hospital in Norway and Karolinska University in Sweden and was annotated and verified by experienced GI endoscopists. Furthermore, we validate the significance of our dataset with extensive benchmarking based on the popular deep learning based baseline models. We believe our dataset can facilitate the development of AI-based algorithms for GI disease detection and classification. Our dataset is available at https://osf.io/84e7f/.
翻訳日:2023-07-18 15:22:23 公開日:2023-07-16
# 文書のバイアスをスコアリングするための解釈可能なモデル

It's All Relative: Interpretable Models for Scoring Bias in Documents ( http://arxiv.org/abs/2307.08139v1 )

ライセンス: Link先を確認
Aswin Suresh, Chi-Hsuan Wu, Matthias Grossglauser(参考訳) テキストコンテンツのみに基づいて, web ドキュメントに存在するバイアスをスコア付けするための解釈可能なモデルを提案する。 我々のモデルはブラッドリー・テリーの公理を思い起こさせる仮定を取り入れており、同じウィキペディアの記事の修正ペアに基づいて訓練され、あるバージョンは他のバージョンよりも偏りがある。 絶対バイアス分類に基づく事前のアプローチは,タスクの高精度化に苦慮する一方で,学習によって偏差のペア比較を正確に行うことで,偏差のスコアリングに有用なモデルを開発することができる。 学習モデルのパラメータを解釈することで,バイアスを最も表わす単語を発見できることを示す。 また、ウィキペディアの記事におけるバイアスの時間的進化の研究、バイアスに基づくニュースソースの比較、法改正におけるバイアスの評価という3つの異なる設定でモデルを適用します。 いずれの場合も、トレーニングデータ領域外にある2つのドメインに対しても、モデルの出力を説明および検証できることを実証する。 また、このモデルを使ってドメイン間の偏りの一般的なレベルを比較することで、法律上のテキストは偏りが低く、ニュースメディアは偏りが一番多く、wikipediaの記事はその中間にあります。 その高いパフォーマンス、シンプルさ、解釈性、そして幅広い適用性を考えると、wikipediaやニュース編集者、政治・社会科学者、そして一般大衆を含む大きなコミュニティにとって、このモデルが役立つことを願っている。

We propose an interpretable model to score the bias present in web documents, based only on their textual content. Our model incorporates assumptions reminiscent of the Bradley-Terry axioms and is trained on pairs of revisions of the same Wikipedia article, where one version is more biased than the other. While prior approaches based on absolute bias classification have struggled to obtain a high accuracy for the task, we are able to develop a useful model for scoring bias by learning to perform pairwise comparisons of bias accurately. We show that we can interpret the parameters of the trained model to discover the words most indicative of bias. We also apply our model in three different settings - studying the temporal evolution of bias in Wikipedia articles, comparing news sources based on bias, and scoring bias in law amendments. In each case, we demonstrate that the outputs of the model can be explained and validated, even for the two domains that are outside the training-data domain. We also use the model to compare the general level of bias between domains, where we see that legal texts are the least biased and news media are the most biased, with Wikipedia articles in between. Given its high performance, simplicity, interpretability, and wide applicability, we hope the model will be useful for a large community, including Wikipedia and news editors, political and social scientists, and the general public.
翻訳日:2023-07-18 15:22:04 公開日:2023-07-16
# 重力が測定時に量子実体として働くかどうかをテストする

Testing Whether Gravity Acts as a Quantum Entity When Measured ( http://arxiv.org/abs/2307.08133v1 )

ライセンス: Link先を確認
Farhan Hanif, Debarshi Das, Jonathan Halliwell, Dipankar Home, Anupam Mazumdar, Hendrik Ulbricht, Sougato Bose(参考訳) 古典的なシステムの明確なシグネチャは、その非侵襲的測定可能性である。 これは、量子重ね合わせの源によって生成される重力場(曲率)の非古典性をテストするのに利用できることを示す。 この目的のために,マルチインターフェロメータの実験装置について述べる。これは原理的には,重畳磁場の非古典性を明らかにすることができる。 1つの干渉計がフィールドを供給している間、他の計は重ね合わせによって生成されたフィールドを測定するために使用される。 量子力学の相補的な側面を、エンタングルメント・証人ベースのプロトコル、すなわち量子状態の計測誘起崩壊によってテストすることで、この実験は、重力のためにテストされる量子力学的仮定の領域を強化する。 絡み合ったwitnessingベースのテストとは対照的に、どんなデコヒーレンス率でも、シグネチャは小さいが小さいことが分かる。

A defining signature of classical systems is their noninvasive measurability: a feature manifestly violated by quantum systems. We show that this can be used to test the non-classicality of the gravitational field (curvature) generated by a source in quantum superposition. To this end, we describe a multi-interferometer experimental setup that can, in principle, reveal the non-classicality of a superposition-sourced gravitational field by showing that it is necessarily disturbed by measurement. While one interferometer sources the field, the others are used to measure the field created by the superposition. By testing a complementary aspect of quantum mechanics to that tested by entanglement witness based protocols, namely the measurement induced collapse of a quantum state, this experiment will enhance the domain of quantum mechanical postulates being tested for gravity. In contrast to the entanglement-witnessing based tests, it is found to yield a signature, however small, for any rate of decoherence.
翻訳日:2023-07-18 15:21:40 公開日:2023-07-16
# 不均質グラフモデルによる乳癌診断のための生物学的実体間の空間的関係

Heterogeneous graphs model spatial relationships between biological entities for breast cancer diagnosis ( http://arxiv.org/abs/2307.08132v1 )

ライセンス: Link先を確認
Akhila Krishna K, Ravi Kant Gupta, Nikhil Cherian Kurian, Pranav Jeevan, Amit Sethi(参考訳) 乳がんの異質性は早期発見、予後、治療選択に重大な課題をもたらす。 畳み込みニューラルネットワークは、しばしば病理画像内の空間的関係を無視し、精度を制限できる。 グラフニューラルネットワーク(GNN)は、画像内の空間的関係をコーディングすることで、有望なソリューションを提供する。 これまでの研究では、細胞と組織グラフとしての病理組織像のモデリングが研究されてきたが、これらの生物学的実体間の相互関係を抽出できる可能性に完全には触れられていない。 本稿では,細胞と組織グラフの空間的・階層的関係を捉え,組織病理学的画像から有用な情報を抽出するための不均一gnnを用いた新しい手法を提案する。 また,組織と細胞グラフの複雑な関係をモデル化するトランスフォーマーアーキテクチャとクロスアテンションベースネットワークの性能を比較した。 本モデルでは, パラメータ数に関して優れた効率性を示し, BRIGHT, BreakHis, BACHの3つの乳がんデータセットに対して, トランスフォーマーに基づく最先端アプローチと比較して高い精度を実現する。

The heterogeneity of breast cancer presents considerable challenges for its early detection, prognosis, and treatment selection. Convolutional neural networks often neglect the spatial relationships within histopathological images, which can limit their accuracy. Graph neural networks (GNNs) offer a promising solution by coding the spatial relationships within images. Prior studies have investigated the modeling of histopathological images as cell and tissue graphs, but they have not fully tapped into the potential of extracting interrelationships between these biological entities. In this paper, we present a novel approach using a heterogeneous GNN that captures the spatial and hierarchical relations between cell and tissue graphs to enhance the extraction of useful information from histopathological images. We also compare the performance of a cross-attention-based network and a transformer architecture for modeling the intricate relationships within tissue and cell graphs. Our model demonstrates superior efficiency in terms of parameter count and achieves higher accuracy compared to the transformer-based state-of-the-art approach on three publicly available breast cancer datasets -- BRIGHT, BreakHis, and BACH.
翻訳日:2023-07-18 15:21:26 公開日:2023-07-16
# INFLECT-DGNN:動的グラフニューラルネットワークによるインフルエンサー予測

INFLECT-DGNN: Influencer Prediction with Dynamic Graph Neural Networks ( http://arxiv.org/abs/2307.08131v1 )

ライセンス: Link先を確認
Elena Tiukhova, Emiliano Penaloza, Mar\'ia \'Oskarsd\'ottir, Bart Baesens, Monique Snoeck, Cristi\'an Bravo(参考訳) 予測モデリングにネットワーク情報を活用することは、多くの領域で広まっている。 参照とターゲットマーケティングの領域において、インフルエンサー検出は、顧客ブランド関係の継続的な発展による動的ネットワーク表現の取り込みから大きな恩恵を受けることができる分野として際立っている。 グラフニューラルネットワーク(gnn)とリカレントニューラルネットワーク(rnn)と重み付き損失関数を組み合わせた,ダイナミックグラフニューラルネットワークによるインフルエンサー予測のための新たなフレームワークであるinflect-dgnnと,グラフデータに適応した合成マイノリティオーバーサンプリング技術(smote)と,注意深いローリングウィンドウ戦略を紹介する。 予測性能を評価するため、3つの都市のネットワークを用いたユニークな企業データセットを用いて、インフルエンサー予測のための利益主導評価手法を導出する。 この結果から, 時間特性の符号化にRNNを用いることで, 予測性能が大幅に向上したことを示す。 各種モデルの結果を比較して,グラフ表現,時間的依存,利益主導の手法による評価の重要性を示す。

Leveraging network information for predictive modeling has become widespread in many domains. Within the realm of referral and targeted marketing, influencer detection stands out as an area that could greatly benefit from the incorporation of dynamic network representation due to the ongoing development of customer-brand relationships. To elaborate this idea, we introduce INFLECT-DGNN, a new framework for INFLuencer prEdiCTion with Dynamic Graph Neural Networks that combines Graph Neural Networks (GNN) and Recurrent Neural Networks (RNN) with weighted loss functions, the Synthetic Minority Oversampling TEchnique (SMOTE) adapted for graph data, and a carefully crafted rolling-window strategy. To evaluate predictive performance, we utilize a unique corporate data set with networks of three cities and derive a profit-driven evaluation methodology for influencer prediction. Our results show how using RNN to encode temporal attributes alongside GNNs significantly improves predictive performance. We compare the results of various models to demonstrate the importance of capturing graph representation, temporal dependencies, and using a profit-driven methodology for evaluation.
翻訳日:2023-07-18 15:21:10 公開日:2023-07-16
# クレジット割り当て:人間ライクなaiエージェント開発における挑戦と機会

Credit Assignment: Challenges and Opportunities in Developing Human-like AI Agents ( http://arxiv.org/abs/2307.08171v1 )

ライセンス: Link先を確認
Thuy Ngoc Nguyen and Chase McDonald and Cleotilde Gonzalez(参考訳) 時間的クレジット割り当ては、自然と人工知能の学習とスキル開発に不可欠である。 強化学習におけるTDアプローチのような計算手法が提案されているが、人間がフィードバックの遅延を処理する方法を正確に表現しているかどうかは不明だ。 認知モデルは、人間が問題解決し、多くのタスクを実行する精神的なステップを表現することを意図しているが、認知科学における限られた研究は、人間と認知モデルにおける信用割り当ての問題に対処している。 本研究は,経験に基づく意思決定理論,インスタンスベース学習理論(iblt)に基づいた認知モデルを用いて,意思決定複雑性のレベルが異なる目標探索ナビゲーションタスクにおいて,異なるクレジット割り当て機構をテストする。 インスタンスベース学習(IBL)モデルは、IBL決定機構とTDアプローチを組み合わせた新しいIBL-TDモデルを含む、異なるクレジット割り当てメカニズムでシーケンシャルな選択を行うプロセスをシミュレートする。 その結果,(1)IBL-TDやQ-ラーニングを含む他のモデルよりも優れた評価が得られること,(2)IBL-TDやQ-ラーニングモデルは当初は人間よりも優れていなかったが,最終的には人間より優れていること,(3)人間は意思決定の複雑さの影響を受けており,モデルはそうではない。 我々の研究は、人間の行動を把握することの課題と、これらのモデルを将来のAIシステムで人間の活動を支援する機会についての洞察を提供する。

Temporal credit assignment is crucial for learning and skill development in natural and artificial intelligence. While computational methods like the TD approach in reinforcement learning have been proposed, it's unclear if they accurately represent how humans handle feedback delays. Cognitive models intend to represent the mental steps by which humans solve problems and perform a number of tasks, but limited research in cognitive science has addressed the credit assignment problem in humans and cognitive models. Our research uses a cognitive model based on a theory of decisions from experience, Instance-Based Learning Theory (IBLT), to test different credit assignment mechanisms in a goal-seeking navigation task with varying levels of decision complexity. Instance-Based Learning (IBL) models simulate the process of making sequential choices with different credit assignment mechanisms, including a new IBL-TD model that combines the IBL decision mechanism with the TD approach. We found that (1) An IBL model that gives equal credit assignment to all decisions is able to match human performance better than other models, including IBL-TD and Q-learning; (2) IBL-TD and Q-learning models underperform compared to humans initially, but eventually, they outperform humans; (3) humans are influenced by decision complexity, while models are not. Our study provides insights into the challenges of capturing human behavior and the potential opportunities to use these models in future AI systems to support human activities.
翻訳日:2023-07-18 15:13:41 公開日:2023-07-16
# ユーザタイプの発見:強化学習におけるタスク特化行動によるユーザ特性のマッピング

Discovering User Types: Mapping User Traits by Task-Specific Behaviors in Reinforcement Learning ( http://arxiv.org/abs/2307.08169v1 )

ライセンス: Link先を確認
L. L. Ankile, B. S. Ham, K. Mao, E. Shin, S. Swaroop, F. Doshi-Velez, W. Pan(参考訳) 強化学習(RL)におけるユーザ支援では,ユーザをRLエージェントとして表現し,‘emph{user traits} と呼ばれる重要なパラメータを学習して介入設計を通知することができる。 ユーザ行動(政治クラス)とユーザ特性の関係について検討する。 環境が与えられた場合、私たちは"ユーザタイプ"の崩壊を研究するための直感的なツールを紹介します。 一見して異なる実世界の環境は同一のユーザタイプを認め、この観察を環境上で定義された同値関係として定式化する。 同じ等価クラス内の環境間で介入設計を転送することで、介入を迅速にパーソナライズすることができる。

When assisting human users in reinforcement learning (RL), we can represent users as RL agents and study key parameters, called \emph{user traits}, to inform intervention design. We study the relationship between user behaviors (policy classes) and user traits. Given an environment, we introduce an intuitive tool for studying the breakdown of "user types": broad sets of traits that result in the same behavior. We show that seemingly different real-world environments admit the same set of user types and formalize this observation as an equivalence relation defined on environments. By transferring intervention design between environments within the same equivalence class, we can help rapidly personalize interventions.
翻訳日:2023-07-18 15:13:14 公開日:2023-07-16
# フィードバックは必要なすべて:近似物理モデルを用いた実世界の強化学習

Feedback is All You Need: Real-World Reinforcement Learning with Approximate Physics-Based Models ( http://arxiv.org/abs/2307.08168v1 )

ライセンス: Link先を確認
Tyler Westenbroek, Jacob Levy, David Fridovich-Keil(参考訳) 我々は,実世界のデータを用いたロボット学習のための効率的かつ信頼性の高いポリシー最適化戦略の開発に注力する。 近年,シミュレーションにおける制御ポリシのトレーニングのパラダイムとして,ポリシー勾配法が登場している。 しかし、これらのアプローチはデータ効率が悪く、本物のロボットハードウェアでトレーニングするには信頼できないことが多い。 本稿では,(多分高度に単純化された)第一原理モデルを体系的に活用し,限られた実世界データで正確な制御方針を学習できる,新しい政策勾配に基づく政策最適化フレームワークを提案する。 アプローチ1)$は、ポリシー勾配のサンプル効率推定にモデルの導関数を使用し、2)$は、ポリシークラスに埋め込まれた低レベルのトラッキングコントローラを設計するためにモデルを使用する。 理論的分析により,このフィードバックコントローラの存在が,スタンドアローンのポリシー勾配法の重要な限界を克服する方法についての知見が得られた。一方,小型車と四輪車を用いたハードウェア実験では,我々のアプローチが正確な制御戦略を確実に学習し,実際のデータのみを数分で取得できることが示されている。

We focus on developing efficient and reliable policy optimization strategies for robot learning with real-world data. In recent years, policy gradient methods have emerged as a promising paradigm for training control policies in simulation. However, these approaches often remain too data inefficient or unreliable to train on real robotic hardware. In this paper we introduce a novel policy gradient-based policy optimization framework which systematically leverages a (possibly highly simplified) first-principles model and enables learning precise control policies with limited amounts of real-world data. Our approach $1)$ uses the derivatives of the model to produce sample-efficient estimates of the policy gradient and $2)$ uses the model to design a low-level tracking controller, which is embedded in the policy class. Theoretical analysis provides insight into how the presence of this feedback controller addresses overcomes key limitations of stand-alone policy gradient methods, while hardware experiments with a small car and quadruped demonstrate that our approach can learn precise control strategies reliably and with only minutes of real-world data.
翻訳日:2023-07-18 15:13:02 公開日:2023-07-16
# 単一回路を用いた量子ニューラルネットワークの全てのパラメータに関する勾配の計算

Computing the gradients with respect to all parameters of a quantum neural network using a single circuit ( http://arxiv.org/abs/2307.08167v1 )

ライセンス: Link先を確認
Guang Ping He(参考訳) パラメータシフト規則を用いて量子ニューラルネットワークの勾配を計算する場合、ネットワークの1つの調整可能なパラメータに対して、勾配に対してコスト関数を2回計算する必要がある。 パラメータの総数が多い場合には、計算のための量子回路を何度も調整して実行しなければならない。 本稿では,回路深度を小さくし,古典レジスタを小さくした単一回路のみを用いた勾配計算手法を提案する。 また、実量子ハードウェアとシミュレータの両方で実験により、回路が従来の手法よりもはるかに短い時間でコンパイルできるという利点があり、結果として全体の実行速度が向上することを示した。

When computing the gradients of a quantum neural network using the parameter-shift rule, the cost function needs to be calculated twice for the gradient with respect to a single adjustable parameter of the network. When the total number of parameters is high, the quantum circuit for the computation has to be adjusted and run for many times. Here we propose an approach to compute all the gradients using a single circuit only, with a much reduced circuit depth and less classical registers. We also demonstrate experimentally, on both real quantum hardware and simulator, that our approach has the advantages that the circuit takes a significantly shorter time to compile than the conventional approach, resulting in a speedup on the total runtime.
翻訳日:2023-07-18 15:12:43 公開日:2023-07-16
# 境界重み付きロジット整合性はセグメンテーションネットワークの校正を改善する

Boundary-weighted logit consistency improves calibration of segmentation networks ( http://arxiv.org/abs/2307.08163v1 )

ライセンス: Link先を確認
Neerav Karani, Neel Dey, Polina Golland(参考訳) ニューラルネットワーク予測の確率と精度は、しばしば弱い相関関係である。 画像セグメンテーションのためのトレーニングデータにおける連続ラベルの曖昧さは、そのような誤字を増大させる。 確率変換におけるロジット一貫性は空間的に変化する正規化器として作用し,曖昧なラベルを持つ画素における過密な予測を防止できることを示した。 このレギュラライザーの境界強調拡張は前立腺と心臓mriの分画に対する最先端のキャリブレーションを提供する。

Neural network prediction probabilities and accuracy are often only weakly-correlated. Inherent label ambiguity in training data for image segmentation aggravates such miscalibration. We show that logit consistency across stochastic transformations acts as a spatially varying regularizer that prevents overconfident predictions at pixels with ambiguous labels. Our boundary-weighted extension of this regularizer provides state-of-the-art calibration for prostate and heart MRI segmentation.
翻訳日:2023-07-18 15:12:32 公開日:2023-07-16
# gpt-4と規則に基づくマルチチョイス質問の品質評価

Assessing the Quality of Multiple-Choice Questions Using GPT-4 and Rule-Based Methods ( http://arxiv.org/abs/2307.08161v1 )

ライセンス: Link先を確認
Steven Moore, Huy A. Nguyen, Tianying Chen, John Stamper(参考訳) 項目書きの欠陥のある複数項目の質問は、学生の学習やスキュー分析に悪影響を及ぼす可能性がある。 これらの欠陥は、しばしば学生が生成した質問に現れており、その品質と教室の利用適性を評価することは困難である。 既存のマルチチョイス質問の評価方法は、コース材料内の使用意図や教育的意味を考慮せずに、しばしば機械可読性指標に焦点をあてる。 本研究では, GPT-4を用いたルールベース手法の性能を, 19の共通項目記述欠陥に基づく複数項目質問の自動評価に応用した機械学習手法と比較した。 4つの被験者領域から200人の学生が生成した質問を分析した結果,GPT-4の79%と比較して,ルールベースの手法が人間のアノテータによって同定された欠陥の91%を正しく検出できた。 そこで本研究では,学生が生み出した質問に共通する項目書きの欠陥を識別する2つの方法の有効性を実証した。 ルールベースの手法では、複数のドメインからの複数選択質問を正確かつ効率的に評価し、GPT-4を上回り、そのような質問の教育的利用を考慮しない既存の指標を超えることができる。 最後に,これらの自動手法を用いて,特定された欠陥に基づいて質問の質を向上させる可能性について考察する。

Multiple-choice questions with item-writing flaws can negatively impact student learning and skew analytics. These flaws are often present in student-generated questions, making it difficult to assess their quality and suitability for classroom usage. Existing methods for evaluating multiple-choice questions often focus on machine readability metrics, without considering their intended use within course materials and their pedagogical implications. In this study, we compared the performance of a rule-based method we developed to a machine-learning based method utilizing GPT-4 for the task of automatically assessing multiple-choice questions based on 19 common item-writing flaws. By analyzing 200 student-generated questions from four different subject areas, we found that the rule-based method correctly detected 91% of the flaws identified by human annotators, as compared to 79% by GPT-4. We demonstrated the effectiveness of the two methods in identifying common item-writing flaws present in the student-generated questions across different subject areas. The rule-based method can accurately and efficiently evaluate multiple-choice questions from multiple domains, outperforming GPT-4 and going beyond existing metrics that do not account for the educational use of such questions. Finally, we discuss the potential for using these automated methods to improve the quality of questions based on the identified flaws.
翻訳日:2023-07-18 15:12:24 公開日:2023-07-16
# 野生におけるデータセットアノテーションの品質管理の分析

Analyzing Dataset Annotation Quality Management in the Wild ( http://arxiv.org/abs/2307.08153v1 )

ライセンス: Link先を確認
Jan-Christoph Klie, Richard Eckart de Castilho, Iryna Gurevych(参考訳) データ品質は、正確で偏りのない、信頼できる機械学習モデルとその正しい評価のトレーニングに不可欠である。 しかし、近年の研究では、最先端モデルのトレーニングや評価に使用される一般的なデータセットでさえ、誤ったアノテーションやバイアス、アノテーションアーティファクトを不要に含んでいることが示されている。 アノテーションプロジェクトにはベストプラクティスとガイドラインがあります。 しかし、私たちの知る限りでは、自然言語データセット作成時の品質管理の実施方法や、これらの推奨事項が従うかどうかについて、まだ大規模な分析が行われていません。 そこで本論文では,まず,データセット作成のための推奨品質管理プラクティスを調査し,その適用方法について提案する。 そして,テキストデータセットを導入した591の学術出版物のコーパスをコンパイルし,アノテータ管理,合意,判断,データ検証などの品質関連側面に注釈を付ける。 次に,これらのアノテーションを用いて品質管理の実施方法を分析する。 注釈付き出版物の大半は、良質または非常に良質な管理を施している。 しかし、我々は作品の30%の努力が不足しているとみなしている。 また,本分析では,特にアノテーション間一致と演算誤り率を用いて,一般的な誤りを示す。

Data quality is crucial for training accurate, unbiased, and trustworthy machine learning models and their correct evaluation. Recent works, however, have shown that even popular datasets used to train and evaluate state-of-the-art models contain a non-negligible amount of erroneous annotations, bias or annotation artifacts. There exist best practices and guidelines regarding annotation projects. But to the best of our knowledge, no large-scale analysis has been performed as of yet on how quality management is actually conducted when creating natural language datasets and whether these recommendations are followed. Therefore, we first survey and summarize recommended quality management practices for dataset creation as described in the literature and provide suggestions on how to apply them. Then, we compile a corpus of 591 scientific publications introducing text datasets and annotate it for quality-related aspects, such as annotator management, agreement, adjudication or data validation. Using these annotations, we then analyze how quality management is conducted in practice. We find that a majority of the annotated publications apply good or very good quality management. However, we deem the effort of 30% of the works as only subpar. Our analysis also shows common errors, especially with using inter-annotator agreement and computing annotation error rates.
翻訳日:2023-07-18 15:12:01 公開日:2023-07-16