このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230922となっている論文です。

PDF登録状況(公開日: 20230922)

TitleAuthorsAbstract論文公表日・翻訳日
# RDPの切断ラプラスとガウス機構

Truncated Laplace and Gaussian mechanisms of RDP ( http://arxiv.org/abs/2309.12647v1 )

ライセンス: Link先を確認
Jie Fu, Zhiyu Sun, Haitao Liu, Zhili Chen, (参考訳) ラプラス機構とガウス機構は微分プライバシーの主要なメカニズムであり、数値データを含む多くのシナリオに適用できる。 しかし、それらが生成する無限範囲のランダム変数のため、ラプラスとガウスのメカニズムは、負数のような意味的に不可能な値を返すことができる。 この問題に対処するため,我々は切り詰められたラプラス機構とガウス機構を設計した。 所定の切り抜き間隔 [a,b] に対して、切り抜きされたガウス機構は、切り抜き間隔 [a,b] に選択された値にかかわらず、切り抜きされたメカニズムと同じRenyi差分プライバシー(RDP)を保証する。 同様に、所定間隔 [a, b] に対して、truncated Laplace のメカニズムは、unruncated のメカニズムと同じ RDP を維持する。 それぞれに RDP 表現を提供する。 我々の研究は、特定のアプリケーションにおける差分プライバシーの有用性をさらに高めることができると信じている。

The Laplace mechanism and the Gaussian mechanism are primary mechanisms in differential privacy, widely applicable to many scenarios involving numerical data. However, due to the infinite-range random variables they generate, the Laplace and Gaussian mechanisms may return values that are semantically impossible, such as negative numbers. To address this issue, we have designed the truncated Laplace mechanism and Gaussian mechanism. For a given truncation interval [a, b], the truncated Gaussian mechanism ensures the same Renyi Differential Privacy (RDP) as the untruncated mechanism, regardless of the values chosen for the truncation interval [a, b]. Similarly, the truncated Laplace mechanism, for specified interval [a, b], maintains the same RDP as the untruncated mechanism. We provide the RDP expressions for each of them. We believe that our study can further enhance the utility of differential privacy in specific applications.
翻訳日:2024-03-19 04:01:03 公開日:2023-09-22
# HammerHead: 動的スケジューリングのリーダからの意見

HammerHead: Leader Reputation for Dynamic Scheduling ( http://arxiv.org/abs/2309.12713v1 )

ライセンス: Link先を確認
Giorgos Tsimos, Anastasios Kichidis, Alberto Sonnino, Lefteris Kokoris-Kogias, (参考訳) ブロックチェーン技術における高いスループットと検閲耐性の必要性は、DAGベースのコンセンサスの研究につながっている。 Suiブロックチェーンプロトコルは、レイテンシが低いため、Bullsharkコンセンサスアルゴリズムの亜種を使用するが、このリーダベースのプロトコルは、候補リーダがクラッシュしたときにパフォーマンス上の問題を引き起こす。 本稿では,Carousel氏がリーダ・ユーティライゼーション(Lead-Utilization)とHammerHead(HammerHead)の提供について提案する。 チェーンでパイプライン化されたコンセンサスプロトコルを念頭に置いて構築されているCarouselとは異なり、HammerHeadはDAGが直接提供するチェーン品質を心配する必要はない。 我々のHammerHeadの実装では、障害のない環境ではパフォーマンスがわずかに向上し、2倍のレイテンシが大幅に低下し、障害に悩む場合のスループットが最大40%向上した(100バリケータ、33故障)。

The need for high throughput and censorship resistance in blockchain technology has led to research on DAG-based consensus. The Sui blockchain protocol uses a variant of the Bullshark consensus algorithm due to its lower latency, but this leader-based protocol causes performance issues when candidate leaders crash. In this paper, we explore the ideas pioneered by Carousel on providing Leader-Utilization and present HammerHead. Unlike Carousel, which is built with a chained and pipelined consensus protocol in mind, HammerHead does not need to worry about chain quality as it is directly provided by the DAG, but needs to make sure that even though validators might commit blocks in different views the safety and liveness is preserved. Our implementation of HammerHead shows a slight performance increase in a faultless setting, and a drastic 2x latency reduction and up to 40% throughput increase when suffering faults (100 validators, 33 faults).
翻訳日:2024-03-19 04:01:03 公開日:2023-09-22
# Cuttlefish: FastUnlockを使った表現力豊かな高速パスブロックチェーン

Cuttlefish: Expressive Fast Path Blockchains with FastUnlock ( http://arxiv.org/abs/2309.12715v1 )

ライセンス: Link先を確認
Lefteris Kokoris-Kogias, Alberto Sonnino, George Danezis, (参考訳) Cuttlefishは、プログラム可能性の制限やデッドロックされた資産のリスクなど、既存のコンセンサスレスおよびコンセンサス最小化された分散台帳のいくつかの制限に対処する。 Cuttlefishの重要な洞察は、以前の作業で示唆されたような資産の複数の所有者ではなく、競合によるブロックチェーンのコンセンサスが必要だ、ということだ。 これまでの提案では、合意を積極的に利用して、競合が資産をブロックするのを防ぎ、悲観的なアプローチを取っていた。 これとは対照的に、Cuttlefishは集合オブジェクトとマルチオーナトランザクションを導入し、トランスアクティベートされたオブジェクトが競合していない場合に、従来のブロックチェーンの機能の大部分を提供する。 さらに、競合の場合、Cuttlefishは、ブロックされていない競合オブジェクトの遅延を大幅に低減する新しい'Unlock'プロトコルを提案する。 これらの機能を活用することで、Cuttlefishは、これまでコンセンサスを必要とすると考えられていたアセットスワップやマルチ署名トランザクションなど、幅広いトランザクションに対してコンセンサスのないプロトコルを実装している。

Cuttlefish addresses several limitations of existing consensus-less and consensus-minimized decentralized ledgers, including restricted programmability and the risk of deadlocked assets. The key insight of Cuttlefish is that consensus in blockchains is necessary due to contention, rather than multiple owners of an asset as suggested by prior work. Previous proposals proactively use consensus to prevent contention from blocking assets, taking a pessimistic approach. In contrast, Cuttlefish introduces collective objects and multi-owner transactions that can offer most of the functionality of classic blockchains when objects transacted on are not under contention. Additionally, in case of contention, Cuttlefish proposes a novel `Unlock' protocol that significantly reduces the latency of unblocking contented objects. By leveraging these features, Cuttlefish implements consensus-less protocols for a broader range of transactions, including asset swaps and multi-signature transactions, which were previously believed to require consensus.
翻訳日:2024-03-19 04:01:03 公開日:2023-09-22
# 機械学習技術を用いたニアリアルタイムプロトコルトンネル検出装置の実現に向けて

Towards a Near-real-time Protocol Tunneling Detector based on Machine Learning Techniques ( http://arxiv.org/abs/2309.12720v1 )

ライセンス: Link先を確認
Filippo Sobrero, Beatrice Clavarezza, Daniele Ucci, Federica Bisio, (参考訳) ここ数年、サイバーセキュリティの攻撃は前例のないペースで増加し、より洗練されコストがかかるようになった。 その影響は、民間企業と重要なインフラの両方に及んでいる。 同時に、新型コロナウイルス(COVID-19)のパンデミックにより、多くの組織のセキュリティ範囲が拡大し、マルウェアやフィッシング攻撃を通じて脅威行為者によって悪用される攻撃面が増加した。 これらの要因を考慮すると、検出と応答のテストされたセキュリティ戦略によると、監視されたネットワークで発生するセキュリティ周知とイベントを監視することが重要となる。 本稿では,機械学習技術を用いて企業のネットワークトラフィックをほぼリアルタイムで検査するプロトコルトンネル検出器のプロトタイプを提案する。 実際、トンネリング攻撃は、悪意のあるアクターが活動が検出されない期間を最大化することを可能にする。 この検出器は、暗号化されていないネットワークフローを監視し、機械学習とディープラーニングを組み合わせることで、起こりうる攻撃や異常を検出する特徴を抽出する。 提案するモジュールは,ネットワークフロー情報とそのメタデータを提供するネットワークセキュリティ監視プラットフォームに組み込むことができる。 実装されたプロトタイプの検出機能は、良性データセットと悪意のあるデータセットの両方でテストされている。 その結果、全体的な精度は97.1%であり、F1スコアは95.6%である。

In the very last years, cybersecurity attacks have increased at an unprecedented pace, becoming ever more sophisticated and costly. Their impact has involved both private/public companies and critical infrastructures. At the same time, due to the COVID-19 pandemic, the security perimeters of many organizations expanded, causing an increase of the attack surface exploitable by threat actors through malware and phishing attacks. Given these factors, it is of primary importance to monitor the security perimeter and the events occurring in the monitored network, according to a tested security strategy of detection and response. In this paper, we present a protocol tunneling detector prototype which inspects, in near real time, a company's network traffic using machine learning techniques. Indeed, tunneling attacks allow malicious actors to maximize the time in which their activity remains undetected. The detector monitors unencrypted network flows and extracts features to detect possible occurring attacks and anomalies, by combining machine learning and deep learning. The proposed module can be embedded in any network security monitoring platform able to provide network flow information along with its metadata. The detection capabilities of the implemented prototype have been tested both on benign and malicious datasets. Results show 97.1% overall accuracy and an F1-score equals to 95.6%.
翻訳日:2024-03-19 04:01:03 公開日:2023-09-22
# MCUにおける新たなセキュリティ脅威 -- SoC全体のタイミングサイドチャネルとその発見方法

A New Security Threat in MCUs -- SoC-wide timing side channels and how to find them ( http://arxiv.org/abs/2309.12925v1 )

ライセンス: Link先を確認
Johannes Müller, Anna Lena Duque Antón, Lucas Deutschmann, Dino Mehmedagić, Mohammad Rahmani Fadiheh, Dominik Stoffel, Wolfgang Kunz, (参考訳) マイクロアーキテクチャのタイミング側チャネルは、共有バッファ(例えばキャッシュ)と攻撃者と被害者のタスク実行間の並列性を備えたハードウェア設計において、セキュリティ上の脅威として徹底的に研究されている。 一般的な直感とは対照的に、最近の活動では、この脅威はマイクロコントローラのSoCでもそのような特徴がなければ現実的であることが示されている。 本稿では,セキュリティ解析によってこれまで無視されていたSoC全体のタイミング側チャネルについて述べるとともに,このギャップを埋めるための新しい形式的手法を提案する。 RISC-V Pulpissimo SoC プラットフォームを用いたケーススタディでは,攻撃者が被害者のメモリアクセス行動に関する情報を得ることのできる,これまで知られていなかった攻撃の脆弱性を発見した。 保守的な修正を実行した後、SoCがw.r.t.タイミング側チャネルをセキュアにしていることを確認した。

Microarchitectural timing side channels have been thoroughly investigated as a security threat in hardware designs featuring shared buffers (e.g., caches) and/or parallelism between attacker and victim task execution. Contradicting common intuitions, recent activities demonstrate, however, that this threat is real also in microcontroller SoCs without such features. In this paper, we describe SoC-wide timing side channels previously neglected by security analysis and present a new formal method to close this gap. In a case study with the RISC-V Pulpissimo SoC platform, our method found a vulnerability to a so far unknown attack variant that allows an attacker to obtain information about a victim's memory access behavior. After implementing a conservative fix, we were able to verify that the SoC is now secure w.r.t. timing side channels.
翻訳日:2024-03-19 04:01:03 公開日:2023-09-22
# 中小企業と大規模企業業績管理のための予測AI

Predictive AI for SME and Large Enterprise Financial Performance Management ( http://arxiv.org/abs/2311.05840v1 )

ライセンス: Link先を確認
Ricardo Cuervo(参考訳) 財務パフォーマンス管理はビジネスマネジメントの核心であり、これまでは、バランスシートと所得表データを使って、競合他社と比較して企業業績を評価する金融比率分析に頼ってきた。 企業がどのように振る舞うかの予測や、低パフォーマンスのリスク(確率)の評価にはほとんど進展がない。 本研究では,バランスシートと所得表の標準比率を補完する新たな金融・マクロ経済比について紹介する。 また、企業パフォーマンスを予測するための教師付き学習モデル(MLレグレッタとニューラルネットワーク)とベイジアンモデルも提供します。 提案した変数は,標準産業比率に比例してモデル精度を向上させることができる。 また、Feedforward Neural Networks(FNN)は6つの予測タスク(ROA、ROE、Net Margin、Op Margin、Cash Ratio、Op Cash Generation)にまたがって、実装と実行が簡単である。 BNは予測された(予測された)値に加えて確率密度関数を提供するという付加的な利点がある。 調査の結果は、CFOやCEOが企業に対してより利益の出る方向で財務不利益のリスクを評価するのに役立ち、金融機関が企業の状況をよりよく評価し、投資家に公開企業の財務状況をより正確に把握するためのツールを提供することに寄与する可能性がある。

Financial performance management is at the core of business management and has historically relied on financial ratio analysis using Balance Sheet and Income Statement data to assess company performance as compared with competitors. Little progress has been made in predicting how a company will perform or in assessing the risks (probabilities) of financial underperformance. In this study I introduce a new set of financial and macroeconomic ratios that supplement standard ratios of Balance Sheet and Income Statement. I also provide a set of supervised learning models (ML Regressors and Neural Networks) and Bayesian models to predict company performance. I conclude that the new proposed variables improve model accuracy when used in tandem with standard industry ratios. I also conclude that Feedforward Neural Networks (FNN) are simpler to implement and perform best across 6 predictive tasks (ROA, ROE, Net Margin, Op Margin, Cash Ratio and Op Cash Generation); although Bayesian Networks (BN) can outperform FNN under very specific conditions. BNs have the additional benefit of providing a probability density function in addition to the predicted (expected) value. The study findings have significant potential helping CFOs and CEOs assess risks of financial underperformance to steer companies in more profitable directions; supporting lenders in better assessing the condition of a company and providing investors with tools to dissect financial statements of public companies more accurately.
翻訳日:2024-01-15 16:34:02 公開日:2023-09-22
# HydraScreen:ドラッグ発見のための一般的な構造に基づくディープラーニングアプローチ

HydraScreen: A Generalizable Structure-Based Deep Learning Approach to Drug Discovery ( http://arxiv.org/abs/2311.12814v1 )

ライセンス: Link先を確認
Alvaro Prat, Hisham Abdel Aty, Gintautas Kamuntavi\v{c}ius, Tanya Paquet, Povilas Norvai\v{s}as, Piero Gasparotto, Roy Tal(参考訳) 我々は、より堅牢な機械学習加速薬発見のためのフレームワークを提供することを目的とした、ディープラーニングアプローチであるHydraScreenを提案する。 HydraScreenは、タンパク質-リガンド結合における分子構造と相互作用の効果的な表現のために設計された最先端の3D畳み込みニューラルネットワークを使用している。 我々は,高スループットスクリーニングとリード最適化のためのエンドツーエンドパイプラインを設計し,構造に基づく薬物設計の応用を目標とした。 提案手法は,CASF 2016コアセットに基づいて確立された公開ベンチマークを用いて評価し,アフィニティとポーズ予測(ピアソン r = 0.86, RMSE = 1.15, Top-1 = 0.95)の上位階層の結果を得た。 さらに,新しいインタラクション・プロファイリング手法を用いて,モデルとデータセットの潜在的なバイアスを同定し,解釈可能性を高め,手法のバイアスのない性質をサポートする。 最後に,ハイドラスクリーンのタンパク質とリガンドを汎用化し,ロバストな機械学習スコアリング機能の開発に向けた方向性を示す。 HydraScreen (https://hydrascreen.ro5.ai)は、ユーザフレンドリーなGUIと公開APIを提供し、個々のタンパク質-リガンド複合体の評価を容易にする。

We propose HydraScreen, a deep-learning approach that aims to provide a framework for more robust machine-learning-accelerated drug discovery. HydraScreen utilizes a state-of-the-art 3D convolutional neural network, designed for the effective representation of molecular structures and interactions in protein-ligand binding. We design an end-to-end pipeline for high-throughput screening and lead optimization, targeting applications in structure-based drug design. We assess our approach using established public benchmarks based on the CASF 2016 core set, achieving top-tier results in affinity and pose prediction (Pearson's r = 0.86, RMSE = 1.15, Top-1 = 0.95). Furthermore, we utilize a novel interaction profiling approach to identify potential biases in the model and dataset to boost interpretability and support the unbiased nature of our method. Finally, we showcase HydraScreen's capacity to generalize across unseen proteins and ligands, offering directions for future development of robust machine learning scoring functions. HydraScreen (accessible at https://hydrascreen.ro5.ai) provides a user-friendly GUI and a public API, facilitating easy assessment of individual protein-ligand complexes.
翻訳日:2024-01-15 15:48:11 公開日:2023-09-22
# 複合メディアにおける高分解能画像のためのウェーブインフォームディクショナリ学習

Wave-informed dictionary learning for high-resolution imaging in complex media ( http://arxiv.org/abs/2310.12990v1 )

ライセンス: Link先を確認
Miguel Moscoso, Alexei Novikov, George Papanicolaou and Chrysoula Tsogka(参考訳) 本研究では,多種多様なデータセットが利用可能である場合の散乱媒質のイメージング手法を提案する。 ステップは2つある。 辞書学習アルゴリズムを用いて、最初のステップは、真のグリーン関数ベクトルを無秩序なセンシング行列の列として推定する。 配列データは、位置と強さが分かっていない多くのスパースなソースセットから来ています。 第2のステップでは、推定されたセンシングマトリクスのコラムを、時間反転のように、コラムの相互相関に由来する接続情報と多次元スケーリングを用いて撮像するために順序付けする。 これら2つのステップを連携させるためには,センサマトリックスの列が第1ステップで不整合となるように,受信機の大規模な配列からのデータと,第2ステップで必要な接続性を得るのに十分な整合性を持つようにサブアレイからのデータが必要である。 シミュレーション実験により,提案手法は,均質媒質の分解能を有する複雑な媒体に画像を提供することができることを示した。

We propose an approach for imaging in scattering media when large and diverse data sets are available. It has two steps. Using a dictionary learning algorithm the first step estimates the true Green's function vectors as columns in an unordered sensing matrix. The array data comes from many sparse sets of sources whose location and strength are not known to us. In the second step, the columns of the estimated sensing matrix are ordered for imaging using Multi-Dimensional Scaling with connectivity information derived from cross-correlations of its columns, as in time reversal. For these two steps to work together we need data from large arrays of receivers so the columns of the sensing matrix are incoherent for the first step, as well as from sub-arrays so that they are coherent enough to obtain the connectivity needed in the second step. Through simulation experiments, we show that the proposed approach is able to provide images in complex media whose resolution is that of a homogeneous medium.
翻訳日:2023-10-29 16:21:58 公開日:2023-09-22
# モデルベースシステム工学におけるツールインターオペラビリティ

Tool interoperability for model-based systems engineering ( http://arxiv.org/abs/2302.03503v2 )

ライセンス: Link先を確認
Sander Thuijsman, G\"okhan Kahraman, Alireza Mohamadkhani, Ferry Timmers, Loek Cleophas, Marc Geilen, Jan Friso Groote, Michel Reniers, Ramon Schiffelers, Jeroen Voeten(参考訳) サイバー物理システムの監視制御設計には多くの課題がある。 モデルベースのシステムエンジニアリングは、様々な分野から解き明かすことで、これらの問題に対処できる。 仕様、合成、検証などの機能を提供するいくつかのツールについて、それぞれ独自の規律で議論する。 このようなモノ分野のツールをマルチ分野のワークフローに統合することは、大きな課題です。 arrowhead フレームワーク上に構築された analytics as a service では,これらのツールを接続して相互運用可能にしています。 エンジニアは、それぞれのツールの等価モデル間の翻訳ステップが自動化されているため、単一のインターフェースから簡単にツールの機能にアクセスできます。

Supervisory control design of cyber-physical systems has many challenges. Model-based systems engineering can address these, with solutions originating from various disciplines. We discuss several tools, each state-of-the-art in its own discipline, offering functionality such as specification, synthesis, and verification. Integrating such mono-disciplinary tools in a multi-disciplinary workflow is a major challenge. We present Analytics as a Service, built on the Arrowhead framework, to connect these tools and make them interoperable. A seamless integration of the tools has been established through a service-oriented architecture: The engineer can easily access the functionality of the tools from a single interface, as translation steps between equivalent models for the respective tools are automated.
翻訳日:2023-10-24 13:38:00 公開日:2023-09-22
# LiSum: マルチタスク学習によるオープンソースソフトウェアライセンスの要約

LiSum: Open Source Software License Summarization with Multi-Task Learning ( http://arxiv.org/abs/2309.05074v2 )

ライセンス: Link先を確認
Linyu Li, Sihan Xu, Yang Liu, Ya Gao, Xiangrui Cai, Jiarun Wu, Wenli Song and Zheli Liu(参考訳) オープンソースソフトウェア(OSS)ライセンスは、ユーザーが合法的にソフトウェアを再利用、修正、配布できる条件を規制している。 しかし、コミュニティには様々なOSSライセンスがあり、形式言語で書かれており、通常は長くて理解しにくい。 本稿では,OSSライセンスに対する開発者の視点と実践を調査するため,681名の参加者を対象にオンライン調査を行った。 ユーザ調査により、ライセンス理解を容易にする自動化ツールの必要性が明らかにされた。 ユーザ調査とコミュニティにおけるライセンスの急速な成長に動機づけられ,ライセンスの自動要約に向けた最初の研究を提案する。 具体的には、最初の高品質テキスト要約データセットをリリースし、任意のライセンスに対する比較的短い要約を生成するためのライセンステキスト要約(LTS)と、予め定義されたキーライセンス用語の集合に対する態度推論に焦点を当てたライセンス用語分類(LTC)という2つのタスクを設計した。 この2つのタスクを目標として,OSSライセンス理解の障害を克服するためのマルチタスク学習手法LiSumを提案する。 総合的な実験により、提案された共同学習目標が両タスクのパフォーマンスを向上し、少なくとも4つの要約基準の5点w.r.t.F1スコアと95.13%のマイクロ平均F1スコアを同時に獲得した。 私たちは、すべてのデータセット、レプリケーションパッケージ、コミュニティのためのアンケートをリリースしました。

Open source software (OSS) licenses regulate the conditions under which users can reuse, modify, and distribute the software legally. However, there exist various OSS licenses in the community, written in a formal language, which are typically long and complicated to understand. In this paper, we conducted a 661-participants online survey to investigate the perspectives and practices of developers towards OSS licenses. The user study revealed an indeed need for an automated tool to facilitate license understanding. Motivated by the user study and the fast growth of licenses in the community, we propose the first study towards automated license summarization. Specifically, we released the first high quality text summarization dataset and designed two tasks, i.e., license text summarization (LTS), aiming at generating a relatively short summary for an arbitrary license, and license term classification (LTC), focusing on the attitude inference towards a predefined set of key license terms (e.g., Distribute). Aiming at the two tasks, we present LiSum, a multi-task learning method to help developers overcome the obstacles of understanding OSS licenses. Comprehensive experiments demonstrated that the proposed jointly training objective boosted the performance on both tasks, surpassing state-of-the-art baselines with gains of at least 5 points w.r.t. F1 scores of four summarization metrics and achieving 95.13% micro average F1 score for classification simultaneously. We released all the datasets, the replication package, and the questionnaires for the community.
翻訳日:2023-10-23 08:12:14 公開日:2023-09-22
# Testaro: Webアクセシビリティのための効率的なアンサンブルテスト

Testaro: Efficient Ensemble Testing for Web Accessibility ( http://arxiv.org/abs/2309.10167v2 )

ライセンス: Link先を確認
Jonathan Robert Pool(参考訳) 自動Webアクセシビリティテストツールが新しく改良されたテストで豊かになるにつれて、これらの進歩を活用することは現実的ではない。 それぞれのツールは独自のメリットを提供するが、複数のツールを効果的に使用するためには、それらを統一的なテストとレポートのスキームに統合する必要がある。 このような統合は複雑で、ツールが検出しようとするもの、実際に検出するもの、どのように欠陥を分類、記述、報告するかによって異なります。 その結果、テスターは通常1つのツールのみを使用します。 TestaroはオープンソースのNPMパッケージで、alfa、Axe、Equal Access、HTML CodeSniffer、Nu Html Checker、QualWeb、Testaro、WAVEという8つのツールのアンサンブルによって定義された約650のルールでコンプライアンスをチェックする。 デモの参加者は5分以内に、Testaroのジョブを作成し、実行し、単一のツールが発見できる以上にアクセシビリティの問題を示す統一レポートを生成する。

As automated web accessibility testing tools become enriched with new and improved tests, it can be impractical to leverage those advances. Each tool offers unique benefits, but effectively using multiple tools would require integrating them into a uniform testing and reporting scheme. Such integration is complex, because tools vary in what they try to detect, what they actually detect, and how they classify, describe, and report defects. Consequently, testers typically use only one tool. Testaro is a novel open-source NPM package that checks compliance with about 650 rules defined by an ensemble of 8 tools: alfa, Axe, Equal Access, HTML CodeSniffer, Nu Html Checker, QualWeb, Testaro, and WAVE. Attendees at the demonstration will, within 5 minutes, create jobs for Testaro, run them, and generate unified reports documenting more accessibility issues than any single tool can discover.
翻訳日:2023-10-23 07:22:12 公開日:2023-09-22
# BOMs Away! 利害関係者の心の中に--ソフトウェアシステムのための材料請求書の総合的研究

BOMs Away! Inside the Minds of Stakeholders: A Comprehensive Study of Bills of Materials for Software Systems ( http://arxiv.org/abs/2309.12206v2 )

ライセンス: Link先を確認
Trevor Stalnaker, Nathan Wintersgill, Oscar Chaparro, Massimiliano Di Penta, Daniel M German, Denys Poshyvanyk(参考訳) Software Bills of Materials (SBOM) は、ソフトウェア依存関係、脆弱性、ライセンス、サプライチェーンの管理を容易にするツールとして登場した。 SBOMの認知度を高め、SBOMフォーマットやツールの開発に多大な努力が注がれているが、最近の研究では、SBOMはまだまだ十分に採用されていない初期の技術であることを示している。 本報告では,SBOMの作成・利用において,ステークホルダーが直面する課題を包括的に調査する。 調査では、5つの利害関係者グループに属する138人の実践者(SBOM、重要なオープンソースプロジェクトのメンバー、AI/ML、サイバー物理システム、法律実務者)を、異なるアンケートを用いて調査し、8人の回答者にインタビューを行い、彼らの経験についてさらなる洞察を得た。 SBOMの内容,SBOMツールの欠陥,SBOMのメンテナンスと検証,ドメイン固有の課題など,SBOMの作成と利用に直面する12の課題を特定した。 特定課題に対する4つの実行可能な解決策を提案し,議論し,今後の研究開発の道筋を示す。

Software Bills of Materials (SBOMs) have emerged as tools to facilitate the management of software dependencies, vulnerabilities, licenses, and the supply chain. While significant effort has been devoted to increasing SBOM awareness and developing SBOM formats and tools, recent studies have shown that SBOMs are still an early technology not yet adequately adopted in practice. Expanding on previous research, this paper reports a comprehensive study that investigates the current challenges stakeholders encounter when creating and using SBOMs. The study surveyed 138 practitioners belonging to five stakeholder groups (practitioners familiar with SBOMs, members of critical open source projects, AI/ML, cyber-physical systems, and legal practitioners) using differentiated questionnaires, and interviewed 8 survey respondents to gather further insights about their experience. We identified 12 major challenges facing the creation and use of SBOMs, including those related to the SBOM content, deficiencies in SBOM tools, SBOM maintenance and verification, and domain-specific challenges. We propose and discuss 4 actionable solutions to the identified challenges and present the major avenues for future research and development.
翻訳日:2023-10-23 06:59:00 公開日:2023-09-22
# 5g無線ソフトウェア実装のスマートファジング

Smart Fuzzing of 5G Wireless Software Implementation ( http://arxiv.org/abs/2309.12994v1 )

ライセンス: Link先を確認
Huan Wu, Brian Fang, and Fei Xie(参考訳) 本稿では,5g無線通信システムの探索,開発,テストを行うためのオープンソースソフトウェアフレームワークであるopenairinterface5g(oai5g)のセキュリティ,信頼性,理解性を高めるための包括的アプローチを提案する。 まず、我々は強力なファジィツールであるAFL++を使用して、その構成ファイルに関してOAI5Gをファジィテストする。 この広範なテストプロセスは、従来のテストメソッドを回避する可能性のあるエラー、欠陥、セキュリティ脆弱性の特定に役立つ。 第二に、Google Bardのような大規模言語モデルの能力を利用して、ファジングに使用されるOAI5Gコードベース内のパラメータの意味を自動的に解読し、文書化する。 この自動パラメータ解釈は、その後の分析を合理化し、よりインフォームドな意思決定を促進する。 これら2つのテクニックは、oai5gシステムの強化に貢献し、開発者やアナリストにとってもより堅牢でセキュアで理解しやすいものにします。

In this paper, we introduce a comprehensive approach to bolstering the security, reliability, and comprehensibility of OpenAirInterface5G (OAI5G), an open-source software framework for the exploration, development, and testing of 5G wireless communication systems. Firstly, we employ AFL++, a powerful fuzzing tool, to fuzzy-test OAI5G with respect to its configuration files rigorously. This extensive testing process helps identify errors, defects, and security vulnerabilities that may evade conventional testing methods. Secondly, we harness the capabilities of Large Language Models such as Google Bard to automatically decipher and document the meanings of parameters within the OAI5G codebase that are used in fuzzing. This automated parameter interpretation streamlines subsequent analyses and facilitates more informed decision-making. Together, these two techniques contribute to fortifying the OAI5G system, making it more robust, secure, and understandable for developers and analysts alike.
翻訳日:2023-10-23 06:39:39 公開日:2023-09-22
# ソフトウェアシステムの有効寿命推定におけるプロセッサ速度とクロック速度の影響の解析

Analyzing the Influence of Processor Speed and Clock Speed on Remaining Useful Life Estimation of Software Systems ( http://arxiv.org/abs/2309.12617v1 )

ライセンス: Link先を確認
M. Rubyet Islam, Peter Sandborn(参考訳) PHM(Prognostics and Health Management)は、システムやコンポーネントが意図した通りに動作停止する地点を予測することに焦点を当てた分野であり、通常、Remaining Useful Life (RUL) として測定される。 RULは緊急計画のための重要な意思決定ツールであり、システムのメンテナンスのタイミングと性質を導く。 歴史的に、PHMはハードウェアシステムに主に適用されており、ソフトウェアにしか適用されていない。 最近の研究では、ソフトウェアの変更がソフトウェアのRULに与える影響を実証する方法論を紹介しました。 しかし、実用的なソフトウェア開発においては、リアルタイム性能はオペレーティングシステム、クロック速度、プロセッサ性能、RAM、マシンコア数などの様々な環境特性にも影響される。 本研究は、オペレーティングシステムやクロック速度などの環境特性の変化がソフトウェアにおけるrul推定に与える影響を評価するために分析を拡張する。 分析結果は, 実性能データを用いて厳密に検証され, 予測モデル生成データと比較される。 回帰分析を含む統計的検証は、結果の信頼性を支持する。 コントロールされたテストベッド環境は、実際のアプリケーションからの障害を複製し、検証し、標準化されたアセスメントプラットフォームを保証する。 この調査は、ソフトウェアメンテナンスと最適化戦略に関する実用的な知識をもたらし、ソフトウェアヘルス管理の分野における大きなギャップに対処する。

Prognostics and Health Management (PHM) is a discipline focused on predicting the point at which systems or components will cease to perform as intended, typically measured as Remaining Useful Life (RUL). RUL serves as a vital decision-making tool for contingency planning, guiding the timing and nature of system maintenance. Historically, PHM has primarily been applied to hardware systems, with its application to software only recently explored. In a recent study we introduced a methodology and demonstrated how changes in software can impact the RUL of software. However, in practical software development, real-time performance is also influenced by various environmental attributes, including operating systems, clock speed, processor performance, RAM, machine core count and others. This research extends the analysis to assess how changes in environmental attributes, such as operating system and clock speed, affect RUL estimation in software. Findings are rigorously validated using real performance data from controlled test beds and compared with predictive model-generated data. Statistical validation, including regression analysis, supports the credibility of the results. The controlled test bed environment replicates and validates faults from real applications, ensuring a standardized assessment platform. This exploration yields actionable knowledge for software maintenance and optimization strategies, addressing a significant gap in the field of software health management.
翻訳日:2023-10-23 06:39:07 公開日:2023-09-22
# 脳年齢再訪:深層学習による脳波由来脳年齢動態の状態と形質の仮説の検討

Brain Age Revisited: Investigating the State vs. Trait Hypotheses of EEG-derived Brain-Age Dynamics with Deep Learning ( http://arxiv.org/abs/2310.07029v1 )

ライセンス: Link先を確認
Lukas AW Gemein, Robin T Schirrmeister, Joschka Boedecker and Tonio Ball(参考訳) 脳の生物学的年齢は、神経学的に重要なバイオマーカーの候補と見なされている。 しかし, 経時磁気共鳴画像データに基づく最近の結果は, その解釈に疑問を呈している。 中枢的な疑問は、脳の生物学的年齢の増加が脳病理の指標であり、脳年齢の変化が診断された病理(状態仮説)と相関しているかどうかである。 あるいは、脳年齢の差は個々の個体に固有の安定な特徴(特性仮説)となるか? そこで本研究では, 臨床脳波に基づく脳の老化に関する包括的研究を行い, これまでのmriによる研究を補完するものである。 年齢回帰の課題に最先端の時間畳み込みネットワーク(TCN)を適用した。 本研究は,Temple University Hospital EEG Corpus (TUEG) の記録を非病理的, 病理的, 病理的記録を有する被験者の記録に明示的にラベル付けし, 単点検診, 反復検診を行った。 その結果, TUEGの4つの新しいサブセットを作成した。I) 全て非病理的, II) 全て非病理的, III) 少なくとも1つの非病理的, そして少なくとも1つの記録的, III) 反対の遷移(第1の病理的,第1の病理的,第1の病理的)。 以上の結果から, 平均絶対誤差6.6年, 年齢復号化におけるTNの現況が明らかとなった。 以上より, 非病理的, 病理学的対象の年齢 (1歳, 5歳, t-test, p=0.18, p=0.0066) を有意に過小評価した。 さらに、脳年齢ギャップバイオマーカーは、病理脳波の指標ではない。

The brain's biological age has been considered as a promising candidate for a neurologically significant biomarker. However, recent results based on longitudinal magnetic resonance imaging data have raised questions on its interpretation. A central question is whether an increased biological age of the brain is indicative of brain pathology and if changes in brain age correlate with diagnosed pathology (state hypothesis). Alternatively, could the discrepancy in brain age be a stable characteristic unique to each individual (trait hypothesis)? To address this question, we present a comprehensive study on brain aging based on clinical EEG, which is complementary to previous MRI-based investigations. We apply a state-of-the-art Temporal Convolutional Network (TCN) to the task of age regression. We train on recordings of the Temple University Hospital EEG Corpus (TUEG) explicitly labeled as non-pathological and evaluate on recordings of subjects with non-pathological as well as pathological recordings, both with examinations at a single point in time and repeated examinations over time. Therefore, we created four novel subsets of TUEG that include subjects with multiple recordings: I) all labeled non-pathological; II) all labeled pathological; III) at least one recording labeled non-pathological followed by at least one recording labeled pathological; IV) similar to III) but with opposing transition (first pathological then non-pathological). The results show that our TCN reaches state-of-the-art performance in age decoding with a mean absolute error of 6.6 years. Our extensive analyses demonstrate that the model significantly underestimates the age of non-pathological and pathological subjects (-1 and -5 years, paired t-test, p <= 0.18 and p <= 0.0066). Furthermore, the brain age gap biomarker is not indicative of pathological EEG.
翻訳日:2023-10-23 03:22:42 公開日:2023-09-22
# 機械学習によるグラフコンビネーション最適化によるネットワークレジリエンスの強化:サイバーディフェンスと情報拡散への応用

Enhancing Network Resilience through Machine Learning-powered Graph Combinatorial Optimization: Applications in Cyber Defense and Information Diffusion ( http://arxiv.org/abs/2310.10667v1 )

ライセンス: Link先を確認
Diksha Goel(参考訳) コンピューティングとネットワーク通信技術の飛躍的な進歩により、ネットワークインフラストラクチャとそのアプリケーション環境はますます複雑になっています。 複雑化に伴い、ネットワークはハードウェアの障害にかかりやすくなり、サイバー攻撃の影響を受けやすい。 したがって、急速に成長するネットワーク中心のアプリケーションにとって、ネットワークのレジリエンスは、攻撃の影響を最小限に抑え、ネットワークが攻撃、障害、破壊の間に許容されるレベルのサービスを提供することを保証するために不可欠である。 本論は,ネットワークレジリエンス向上のための効果的なアプローチ開発に焦点を当てる。 ネットワークレジリエンスを強化する既存のアプローチでは、ネットワーク内のボトルネックノードとエッジの判定と、攻撃からネットワークを保護するための積極的な応答の設計が重視されている。 しかし、既存のソリューションは一般に広範なアプリケーションドメインを考慮し、サイバー攻撃者の間で非常に人気のあるアプリケーションドメインであるサイバー防御や情報拡散といった特定のアプリケーション領域に適用する場合に限定的な適用性を有する。 この論文は、サイバー防衛および情報拡散アプリケーションドメインにおけるネットワークのレジリエンスを高めるためにネットワークのボトルネックノードやエッジを発見するための効率的で効率的でスケーラブルな手法を設計することを目的としている。 まず,サイバー防衛グラフ最適化問題,すなわちネットワークのボトルネックエッジの発見によるアクティブディレクトリシステムの強化について検討する。 次に,ネットワークにおける情報拡散に不可欠であるボトルネック構造ホールスパンナーノードの同定の問題について検討する。 両問題をグラフ組合せ最適化問題に変換し、ネットワークレジリエンスを高める上で不可欠なボトルネック点を見つけるための機械学習ベースのアプローチを設計する。

With the burgeoning advancements of computing and network communication technologies, network infrastructures and their application environments have become increasingly complex. Due to the increased complexity, networks are more prone to hardware faults and highly susceptible to cyber-attacks. Therefore, for rapidly growing network-centric applications, network resilience is essential to minimize the impact of attacks and to ensure that the network provides an acceptable level of services during attacks, faults or disruptions. In this regard, this thesis focuses on developing effective approaches for enhancing network resilience. Existing approaches for enhancing network resilience emphasize on determining bottleneck nodes and edges in the network and designing proactive responses to safeguard the network against attacks. However, existing solutions generally consider broader application domains and possess limited applicability when applied to specific application areas such as cyber defense and information diffusion, which are highly popular application domains among cyber attackers. This thesis aims to design effective, efficient and scalable techniques for discovering bottleneck nodes and edges in the network to enhance network resilience in cyber defense and information diffusion application domains. We first investigate a cyber defense graph optimization problem, i.e., hardening active directory systems by discovering bottleneck edges in the network. We then study the problem of identifying bottleneck structural hole spanner nodes, which are crucial for information diffusion in the network. We transform both problems into graph-combinatorial optimization problems and design machine learning based approaches for discovering bottleneck points vital for enhancing network resilience.
翻訳日:2023-10-23 02:19:17 公開日:2023-09-22
# 線形最小正方形に対するカルマンフィルタを用いたインターリーブ学習の簡易図形化

A Simple Illustration of Interleaved Learning using Kalman Filter for Linear Least Squares ( http://arxiv.org/abs/2310.03751v1 )

ライセンス: Link先を確認
Majnu John and Yihren Wu(参考訳) 機械学習アルゴリズムにおけるインターリーブ学習は、有望な結果を持つ生物学的にインスパイアされたトレーニング方法である。 本稿では,線形最小正方形に対するカルマンフィルタに基づく単純な統計・最適化フレームワークによるインターリービング機構について述べる。

Interleaved learning in machine learning algorithms is a biologically inspired training method with promising results. In this short note, we illustrate the interleaving mechanism via a simple statistical and optimization framework based on Kalman Filter for Linear Least Squares.
翻訳日:2023-10-15 14:58:16 公開日:2023-09-22
# ARRQP:グラフ畳み込みによる異常耐性リアルタイムQoS予測フレームワーク

ARRQP: Anomaly Resilient Real-time QoS Prediction Framework with Graph Convolution ( http://arxiv.org/abs/2310.02269v1 )

ライセンス: Link先を確認
Suraj Kumar, Soumi Chattopadhyay(参考訳) 現代のサービス指向アーキテクチャの領域では、Quality of Service(QoS)が最重要視されている。 事前にqos値を予測する能力は、ユーザにインフォームドな意思決定を促す。 しかし、さまざまな問題や異常の存在下で正確なQoS予測を達成するには、アウトレーヤ、データスパシティ、グレーシープインスタンス、コールドスタートシナリオなどが必要である。 現在の最先端のメソッドは、これらの問題に同時に対処する際にしばしば不足し、パフォーマンスが低下する。 本稿では、データ内の異常に対するレジリエンスを改善することに焦点を当てたリアルタイムQoS予測フレームワーク(ARRQP)を紹介する。 ARRQPは、データに制限やスパースがある場合でも、ユーザやサービス間の複雑な関係や依存関係をキャプチャするために、グラフ畳み込み技術の力を利用する。 ARRQPはコンテキスト情報と協調的な洞察を統合し、ユーザとサービスのインタラクションの包括的な理解を可能にする。 ロバストな損失関数を利用することで、ARRQPはモデルトレーニング中の外れ値の影響を効果的に低減する。 さらに,QoS予測を別々に処理するスポーシティレジリエントグレーシープ検出手法を提案する。 さらに,協調的特徴よりも文脈的特徴を強調することで,コールドスタート問題に対処する。 ベンチマークWS-DREAMデータセットの実験結果は、正確でタイムリーなQoS予測を実現するためのフレームワークの有効性を示す。

In the realm of modern service-oriented architecture, ensuring Quality of Service (QoS) is of paramount importance. The ability to predict QoS values in advance empowers users to make informed decisions. However, achieving accurate QoS predictions in the presence of various issues and anomalies, including outliers, data sparsity, grey-sheep instances, and cold-start scenarios, remains a challenge. Current state-of-the-art methods often fall short when addressing these issues simultaneously, resulting in performance degradation. In this paper, we introduce a real-time QoS prediction framework (called ARRQP) with a specific emphasis on improving resilience to anomalies in the data. ARRQP utilizes the power of graph convolution techniques to capture intricate relationships and dependencies among users and services, even when the data is limited or sparse. ARRQP integrates both contextual information and collaborative insights, enabling a comprehensive understanding of user-service interactions. By utilizing robust loss functions, ARRQP effectively reduces the impact of outliers during the model training. Additionally, we introduce a sparsity-resilient grey-sheep detection method, which is subsequently treated separately for QoS prediction. Furthermore, we address the cold-start problem by emphasizing contextual features over collaborative features. Experimental results on the benchmark WS-DREAM dataset demonstrate the framework's effectiveness in achieving accurate and timely QoS predictions.
翻訳日:2023-10-08 10:58:16 公開日:2023-09-22
# PopBERT ドイツ連邦におけるポピュリズムとそのホストイデオロギーの検出

PopBERT. Detecting populism and its host ideologies in the German Bundestag ( http://arxiv.org/abs/2309.14355v1 )

ライセンス: Link先を確認
L. Erhard, S. Hanke, U. Remer, A. Falenska and R. Heiberger(参考訳) ポピュリズムの台頭は、多くの政治学者や実践者に関係するが、その根底にある言語の検出は断片的である。 本稿では,ポピュリストの姿勢を測定するための信頼性,有効,スケーラブルなアプローチを提案する。 そこで我々は,2013年から2021年までのドイツ連邦議会演説に基づく注釈付きデータセットを作成した。 ポピュリズムのイデオロギー的な定義に従い、我々は、悪徳な人々や腐敗したエリートに対する道徳的言及をポピュリズム言語のコアディメンジョンとしてラベル付けする。 さらに、ポピュリズムの薄いイデオロギーがどのように肥大化しているかを識別するために、ポピュリズムが左翼または右翼のホストイデオロギーにどのようにアタッチされているかを注釈する。 次に、変換器モデル(PopBERT)をマルチラベル分類器として訓練し、各次元を検出し定量化する。 バリデーションチェックのバッテリは、モデルは予測精度が強く、質的な顔の妥当性が高く、専門家による調査のパーティーランキングと一致し、サンプル外のテキストスニペットを正しく検出する。 PopBERTは、ドイツ語を話す政治家や政党がポピュリスト言語を戦略的装置として使う方法の動的分析を可能にする。 さらに、アノテータレベルのデータは、クロスドメインアプリケーションや関連する分類器の開発にも適用できる。

The rise of populism concerns many political scientists and practitioners, yet the detection of its underlying language remains fragmentary. This paper aims to provide a reliable, valid, and scalable approach to measure populist stances. For that purpose, we created an annotated dataset based on parliamentary speeches of the German Bundestag (2013 to 2021). Following the ideational definition of populism, we label moralizing references to the virtuous people or the corrupt elite as core dimensions of populist language. To identify, in addition, how the thin ideology of populism is thickened, we annotate how populist statements are attached to left-wing or right-wing host ideologies. We then train a transformer-based model (PopBERT) as a multilabel classifier to detect and quantify each dimension. A battery of validation checks reveals that the model has a strong predictive accuracy, provides high qualitative face validity, matches party rankings of expert surveys, and detects out-of-sample text snippets correctly. PopBERT enables dynamic analyses of how German-speaking politicians and parties use populist language as a strategic device. Furthermore, the annotator-level data may also be applied in cross-domain applications or to develop related classifiers.
翻訳日:2023-09-27 17:06:32 公開日:2023-09-22
# 線形方程式系のアルゴリズム解、$\mathcal{O}(mn)$ time

Algorithmic Solution for Systems of Linear Equations, in $\mathcal{O}(mn)$ time ( http://arxiv.org/abs/2104.12570v2 )

ライセンス: Link先を確認
Nikolaos P. Bakas(参考訳) 本稿では,線形方程式系の解法として,超高速に解く新しいアルゴリズムを提案する。 このアルゴリズムは基本的な定式化では短く、定義上はベクトル化されるが、各反復では与えられた入力行列 $\mathbf x$ の1次元のみが使用されるため、メモリ割り当て要求は自明である。 実行時間は最先端の手法と比較して非常に短く、特に線形方程式の非二乗系において、計算式と高次(全系)あるいは低(全体系)の比で、計算時間10^2$のスピードアップと低メモリ割り当ての要求を示す。 精度は高く、直接的に制御されており、計算時間、解の精度、メモリ要求量の観点から、提案アルゴリズムの効率を数値的に強調する。 本論文は,アルゴリズム収束の理論的証明も含み,提案手法の実装を特徴選択タスクに拡張する。

We present a novel algorithm attaining excessively fast, the sought solution of linear systems of equations. The algorithm is short in its basic formulation and, by definition, vectorized, while the memory allocation demands are trivial, because, for each iteration, only one dimension of the given input matrix $\mathbf X$ is utilized. The execution time is very short compared with state-of-the-art methods, exhibiting $> \times 10^2$ speed-up and low memory allocation demands, especially for non-square Systems of Linear Equations, with ratio of equations versus features high (tall systems), or low (wide systems) accordingly. The accuracy is high and straightforwardly controlled, and the numerical results highlight the efficiency of the proposed algorithm, in terms of computation time, solution accuracy and memory demands. The paper also comprises a theoretical proof for the algorithmic convergence, and we extend the implementation of the proposed algorithmic rationale to feature selection tasks.
翻訳日:2023-09-27 05:31:43 公開日:2023-09-22
# JPEGのためのCNN:計算コストに関する研究

CNNs for JPEGs: A Study in Computational Cost ( http://arxiv.org/abs/2012.14426v3 )

ライセンス: Link先を確認
Samuel Felipe dos Santos, Nicu Sebe, Jurandy Almeida(参考訳) 畳み込みニューラルネットワーク(cnns)は、過去10年間に驚くべき進歩を遂げ、いくつかのコンピュータビジョンタスクで最先端を定義する。 CNNはRGBピクセルから直接データの堅牢な表現を学習することができる。 しかし、ほとんどの画像データは圧縮フォーマットで利用可能であり、jpegは送信やストレージの目的で、高い計算負荷とメモリ使用量を持つプリミティブデコーディングプロセスを要求するため、最も広く使われている。 このため,近年,圧縮領域から直接学習できる深層学習手法が注目されている。 これらの手法は通常、部分的復号化によってDCTのような画像の周波数領域表現を抽出し、典型的なCNNアーキテクチャに適応して処理を行う。 現在の研究の1つの制限は、周波数領域のデータに対応するために、元のモデルに施された修正がパラメータの量と計算複雑性を著しく増加させることである。 一方, 画像の完全復号化コストは回避されるため, 高速な前処理が可能であり, 一方, モデルが向上しても, 画像の通過コストが増大し, 高速化の可能性が軽減される。 本稿では,周波数領域用に設計した深層モデルの計算コストのさらなる検討を行い,画像の復号化とネットワークへの転送のコストを評価する。 また,RGBベースラインと類似性を維持するため,計算コストと精度のトレードオフを良くした効率的なモデルを実現するために,計算複雑性とパラメータ数を削減できる手作業型およびデータ駆動型手法を提案する。

Convolutional neural networks (CNNs) have achieved astonishing advances over the past decade, defining state-of-the-art in several computer vision tasks. CNNs are capable of learning robust representations of the data directly from the RGB pixels. However, most image data are usually available in compressed format, from which the JPEG is the most widely used due to transmission and storage purposes demanding a preliminary decoding process that have a high computational load and memory usage. For this reason, deep learning methods capable of learning directly from the compressed domain have been gaining attention in recent years. Those methods usually extract a frequency domain representation of the image, like DCT, by a partial decoding, and then make adaptation to typical CNNs architectures to work with them. One limitation of these current works is that, in order to accommodate the frequency domain data, the modifications made to the original model increase significantly their amount of parameters and computational complexity. On one hand, the methods have faster preprocessing, since the cost of fully decoding the images is avoided, but on the other hand, the cost of passing the images though the model is increased, mitigating the possible upside of accelerating the method. In this paper, we propose a further study of the computational cost of deep models designed for the frequency domain, evaluating the cost of decoding and passing the images through the network. We also propose handcrafted and data-driven techniques for reducing the computational complexity and the number of parameters for these models in order to keep them similar to their RGB baselines, leading to efficient models with a better trade off between computational cost and accuracy.
翻訳日:2023-09-27 05:31:00 公開日:2023-09-22
# BLM-17m: Twitter上のブラックライブトピック検出のための大規模データセット

BLM-17m: A Large-Scale Dataset for Black Lives Matter Topic Detection on Twitter ( http://arxiv.org/abs/2105.01331v2 )

ライセンス: Link先を確認
Hasan Kemik, Nusret \"Ozate\c{s}, Meysam Asgari-Chenaghlu, Erik Cambria(参考訳) 人権の保護は、我々の世界で最も重要な問題の1つです。 本稿の目的は,ジョージ・フロイド事件(George Floyd incident)に影響を及ぼした近年の人権侵害の最も顕著な1つをカバーするデータセットを提供することである。 1700万ツイートを含むトピック検出のためのラベル付きデータセットを提案する。 これらのツイートは、2020年5月25日から8月21日までの89日間に収集される。 我々は、世界中の新聞や地方紙のトレンドニュースをモニタリングすることで、データセットをラベル付けした。 それとは別に、TF-IDF と LDA の2つのベースラインがある。 精度,リコール,f1スコアの3つの異なるk値を用いた2つの手法の結果を評価した。 収集されたデータセットはhttps://github.com/MeysamAsgariC/BLMTで入手できる。

Protection of human rights is one of the most important problems of our world. In this paper, our aim is to provide a dataset which covers one of the most significant human rights contradiction in recent months affected the whole world, George Floyd incident. We propose a labeled dataset for topic detection that contains 17 million tweets. These Tweets are collected from 25 May 2020 to 21 August 2020 that covers 89 days from start of this incident. We labeled the dataset by monitoring most trending news topics from global and local newspapers. Apart from that, we present two baselines, TF-IDF and LDA. We evaluated the results of these two methods with three different k values for metrics of precision, recall and f1-score. The collected dataset is available at https://github.com/MeysamAsgariC/BLMT.
翻訳日:2023-09-27 05:21:33 公開日:2023-09-22
# 強化学習を実現するスパイキングニューラルネットワーク構造

A Spiking Neural Network Structure Implementing Reinforcement Learning ( http://arxiv.org/abs/2204.04431v2 )

ライセンス: Link先を確認
Mikhail Kiselev(参考訳) 現在、スパイキングニューラルネットワーク(SNN)における学習機構の実装は、多くのSNN学習アルゴリズムが提案されているにもかかわらず、科学的問題の解決には至っていない。 また、強化学習(RL)のSNN実装にも当てはまり、ロボット工学などのSNN応用の観点から最も有望な領域との密接な関係から、特にSNNにとってRLは重要である。 本稿では,広範囲なRLタスクで使用可能なSNN構造について述べる。 私のアプローチの特徴は、センシティブ入力ストリーム、アクチュエータに送信される出力信号、報酬/懸賞信号など、すべての信号のスパイクのみを使用することです。 それに加えて、ニューロン/塑性モデルを選択することで、現代の神経チップで容易に実装できるという要件に導かれました。 本論文で検討されているsn構造は、lifat(leaky integrated-and-fire neuron with adaptive threshold)モデルの一般化と、単純なスパイクタイミング依存性シナプス可塑性モデル(ドーパミン修飾可塑性の一般化)によって記述されたスパイキングニューロンを含む。 私の概念は、RLタスク特性に関する非常に一般的な仮定に基づいており、適用性に目に見える制限はありません。 実験では,エミュレートされたDVSカメラの視野内に,カオス的に動く光点を保持するために,ネットワークを訓練する簡単な作業を選択した。 SNNによるこのRL問題の有効な解法は、私のアプローチの効率性を支持する証拠とみなすことができる。

At present, implementation of learning mechanisms in spiking neural networks (SNN) cannot be considered as a solved scientific problem despite plenty of SNN learning algorithms proposed. It is also true for SNN implementation of reinforcement learning (RL), while RL is especially important for SNNs because of its close relationship to the domains most promising from the viewpoint of SNN application such as robotics. In the present paper, I describe an SNN structure which, seemingly, can be used in wide range of RL tasks. The distinctive feature of my approach is usage of only the spike forms of all signals involved - sensory input streams, output signals sent to actuators and reward/punishment signals. Besides that, selecting the neuron/plasticity models, I was guided by the requirement that they should be easily implemented on modern neurochips. The SNN structure considered in the paper includes spiking neurons described by a generalization of the LIFAT (leaky integrate-and-fire neuron with adaptive threshold) model and a simple spike timing dependent synaptic plasticity model (a generalization of dopamine-modulated plasticity). My concept is based on very general assumptions about RL task characteristics and has no visible limitations on its applicability. To test it, I selected a simple but non-trivial task of training the network to keep a chaotically moving light spot in the view field of an emulated DVS camera. Successful solution of this RL problem by the SNN described can be considered as evidence in favor of efficiency of my approach.
翻訳日:2023-09-27 05:15:13 公開日:2023-09-22
# トピックモデリングと相対密度推定による犯罪ホットスポットモデリング

Crime Hot-Spot Modeling via Topic Modeling and Relative Density Estimation ( http://arxiv.org/abs/2202.04176v3 )

ライセンス: Link先を確認
Jonathan Zhou, Sarah Huestis-Mitchell, Xiuyuan Cheng, Yao Xie(参考訳) 本稿では,類似の通話をグループ化して,犯罪記録の収集から相対的な空間分布を決定する手法を提案する。 まず、各物語の話題分布を求め、次いで、近辺の相対密度推定(kNN-RDE)手法を提案し、話題ごとの空間相対密度を求める。 アトランタ警視庁による大規模なコーパス(475,019$)に関する実験は、発信者が最初に立ち上がらず、イベント密度の上昇が原因で気付かない地理的ホットスポットの傾向を捉えられる方法の有効性を示している。

We present a method to capture groupings of similar calls and determine their relative spatial distribution from a collection of crime record narratives. We first obtain a topic distribution for each narrative, and then propose a nearest neighbors relative density estimation (kNN-RDE) approach to obtain spatial relative densities per topic. Experiments over a large corpus ($n=475,019$) of narrative documents from the Atlanta Police Department demonstrate the viability of our method in capturing geographic hot-spot trends which call dispatchers do not initially pick up on and which go unnoticed due to conflation with elevated event density in general.
翻訳日:2023-09-27 05:13:00 公開日:2023-09-22
# 不正データセットベンチマークとその応用

Fraud Dataset Benchmark and Applications ( http://arxiv.org/abs/2208.14417v3 )

ライセンス: Link先を確認
Prince Grover, Julia Xu, Justin Tittelfitz, Anqi Cheng, Zheng Li, Jakub Zablocki, Jianbo Liu, Hao Zhou(参考訳) 標準化されたデータセットとベンチマークは、コンピュータビジョン、自然言語処理、マルチモーダルおよび表の設定の革新を刺激している。 他のよく研究された分野と比較して、不正検出には、高いレベルの不均衡、多様な特徴型、頻繁な不正パターンの変更、問題の敵対的性質といった、ユニークな課題がある。 このため、他の研究分野のデータセットで評価されたモデリングアプローチは、不正検出には適さない可能性がある。 本稿では,不正なカード非表示トランザクションの識別,ボット攻撃の検出,悪意のあるURLの分類,コンテンツモデレーションに対するローンのデフォルトのリスク推定など,さまざまな不正関連タスクを含む,不正検出用の公開データセットのコンパイルであるFraud Dataset Benchmark(FDB)を紹介する。 pythonベースのfdbライブラリは、標準化されたトレーニングとテスト分割によるデータローディングのための一貫したapiを提供する。 本稿では,fdbの特徴工学,教師付き学習アルゴリズムの比較,ラベルノイズ除去,クラス不均衡処理,半教師付き学習など,不正検出の幅広い応用例を示す。 FDBは、不正検出領域の研究者や実践者が、さまざまな不正ユースケースをターゲットにした堅牢でカスタマイズされた機械学習技術を開発するための共通の場になることを願っている。

Standardized datasets and benchmarks have spurred innovations in computer vision, natural language processing, multi-modal and tabular settings. We note that, as compared to other well researched fields, fraud detection has unique challenges: high-class imbalance, diverse feature types, frequently changing fraud patterns, and adversarial nature of the problem. Due to these, the modeling approaches evaluated on datasets from other research fields may not work well for the fraud detection. In this paper, we introduce Fraud Dataset Benchmark (FDB), a compilation of publicly available datasets catered to fraud detection FDB comprises variety of fraud related tasks, ranging from identifying fraudulent card-not-present transactions, detecting bot attacks, classifying malicious URLs, estimating risk of loan default to content moderation. The Python based library for FDB provides a consistent API for data loading with standardized training and testing splits. We demonstrate several applications of FDB that are of broad interest for fraud detection, including feature engineering, comparison of supervised learning algorithms, label noise removal, class-imbalance treatment and semi-supervised learning. We hope that FDB provides a common playground for researchers and practitioners in the fraud detection domain to develop robust and customized machine learning techniques targeting various fraud use cases.
翻訳日:2023-09-27 04:55:43 公開日:2023-09-22
# ブロッホベクトル増幅のための非線形および非CPゲート

Nonlinear and non-CP gates for Bloch vector amplification ( http://arxiv.org/abs/2208.01804v2 )

ライセンス: Link先を確認
Michael R. Geller(参考訳) パウリ基底で書かれ、純粋な状態 r = (0,0,1) で初期化される量子ビットの任意の状態 r = (x,y,z) は、3つの量子演算(ブロッホ球面上の純状態に到達するための2つのユニタリ回転ゲート、次に |r| を減少させる非分極ゲート)を合成することによって作成できる。 本稿では,ブロッホ球の中心で初期化された量子ビットに対する相補的状態準備プロトコル r=0 について, |r| を所望の値に増加または増幅し,次に回転させる。 ブロッホベクトル増幅はクォービットエネルギーを増大させるが、必ずしも純度を高めエントロピーを減少させる。 増幅は、チャネルの固定点を r=0 から遠ざけることで線形マルコフCPTPチャネルで達成できるが、その結果のゲートは固定点に近づくと臨界減速に悩まされる。 ここでは、線形cptpチャネル、すなわち減速のない高速ブロッホベクトル増幅に対する利点を提供する線形および非線形マルコフ型ptpチャネルに基づく代替設計を検討する。 これらの操作は、キュービットの熱力学的矢印の反転をシミュレートし、非CP力学の顕著な実験的なデモンストレーションを提供する。

Any state r = (x,y,z) of a qubit, written in the Pauli basis and initialized in the pure state r = (0,0,1), can be prepared by composing three quantum operations: two unitary rotation gates to reach a pure state on the Bloch sphere, followed by a depolarization gate to decrease |r|. Here we discuss the complementary state-preparation protocol for qubits initialized at the center of the Bloch ball, r=0, based on increasing or amplifying |r| to its desired value, then rotating. Bloch vector amplification may or may not increase qubit energy, but it necessarily increases purity and decreases entropy. Amplification can be achieved with a linear Markovian CPTP channel by placing the channel's fixed point away from r=0, making it nonunital, but the resulting gate suffers from a critical slowing down as that fixed point is approached. Here we consider alternative designs based on linear and nonlinear Markovian PTP channels, which offer benefits relative to linear CPTP channels, namely fast Bloch vector amplification without deceleration. These operations simulate a reversal of the thermodynamic arrow of time for the qubit and would provide striking experimental demonstrations of non-CP dynamics.
翻訳日:2023-09-27 04:52:32 公開日:2023-09-22
# nano: 最小限の言語モデル制御のためのループ内人間報酬学習

Nano: Nested Human-in-the-Loop Reward Learning for Few-shot Language Model Control ( http://arxiv.org/abs/2211.05750v3 )

ライセンス: Link先を確認
Xiang Fan, Yiwei Lyu, Paul Pu Liang, Ruslan Salakhutdinov, Louis-Philippe Morency(参考訳) 事前訓練された言語モデルは、言語生成において異常な能力を示した。 しかし、現実のタスクは、バイアスを緩和し、公平性を促進し、パーソナライズを達成するために、生成されたテキストの分配を制御する必要があることが多い。 生成したテキストの分布を制御する既存の技術は、あらかじめ定義されたカテゴリ、分布の比率、あるいは所望の分布に従う既存のコーパスを必要とする、定量化された分布でのみ機能する。 しかし、個人の好みなど多くの重要な分布は不適切である。 本研究では,人間のフィードバックから継続的に学習する数発の学習アルゴリズムであるnanoを提案することで,任意の分布(定量化,非定量化)に従ってテキストを生成する問題に取り組む。 nanoは、以前の作品と比較して、単一のトピック/属性と定量化された分布制御で最先端の結果を得る。 また,nanoは非定量的分布を学習し,パーソナライゼーションを実現し,サンプル効率の高い個人選好の違いを捉えることができることを示した。

Pretrained language models have demonstrated extraordinary capabilities in language generation. However, real-world tasks often require controlling the distribution of generated text in order to mitigate bias, promote fairness, and achieve personalization. Existing techniques for controlling the distribution of generated text only work with quantified distributions, which require pre-defined categories, proportions of the distribution, or an existing corpus following the desired distributions. However, many important distributions, such as personal preferences, are unquantified. In this work, we tackle the problem of generating text following arbitrary distributions (quantified and unquantified) by proposing Nano, a few-shot human-in-the-loop training algorithm that continuously learns from human feedback. Nano achieves state-of-the-art results on single topic/attribute as well as quantified distribution control compared to previous works. We also show that Nano is able to learn unquantified distributions, achieves personalization, and captures differences between different individuals' personal preferences with high sample efficiency.
翻訳日:2023-09-27 04:43:53 公開日:2023-09-22
# PASTA:Syn-to-Real領域一般化のための比例振幅スペクトルトレーニング強化

PASTA: Proportional Amplitude Spectrum Training Augmentation for Syn-to-Real Domain Generalization ( http://arxiv.org/abs/2212.00979v4 )

ライセンス: Link先を確認
Prithvijit Chattopadhyay, Kartik Sarangmath, Vivek Vijaykumar, Judy Hoffman(参考訳) 合成データは、ラベル付き現実世界のデータが不足している設定のために、安価で価値あるトレーニングデータを約束する。 しかし、実世界のデータで評価すると、合成データに基づいて訓練されたモデルの性能は著しく低下する。 本稿では,本論文で提案する比例振幅スペクトルトレーニング強化法(pasta)により,合成から実への(syn-to-real)一般化性能を向上させるための簡易かつ効果的な拡張戦略を提案する。 PASTAはフーリエ領域の合成画像の振幅スペクトルを摂動させ、拡張ビューを生成する。 具体的には,低周波成分よりも比較的高周波成分が摂動する構造的摂動戦略を提案する。 セマンティックセグメンテーション(GTAV-to-Real)、オブジェクト検出(Sim10K-to-Real)、オブジェクト認識(VisDA-C Syn-to-Real)のタスクは、合計5つのシンセグメンテーション・トゥ・リアルシフトにまたがって、PASTAがより複雑なステート・オブ・ザ・アートの一般化手法より優れており、相補的であることがわかった。

Synthetic data offers the promise of cheap and bountiful training data for settings where labeled real-world data is scarce. However, models trained on synthetic data significantly underperform when evaluated on real-world data. In this paper, we propose Proportional Amplitude Spectrum Training Augmentation (PASTA), a simple and effective augmentation strategy to improve out-of-the-box synthetic-to-real (syn-to-real) generalization performance. PASTA perturbs the amplitude spectra of synthetic images in the Fourier domain to generate augmented views. Specifically, with PASTA we propose a structured perturbation strategy where high-frequency components are perturbed relatively more than the low-frequency ones. For the tasks of semantic segmentation (GTAV-to-Real), object detection (Sim10K-to-Real), and object recognition (VisDA-C Syn-to-Real), across a total of 5 syn-to-real shifts, we find that PASTA outperforms more complex state-of-the-art generalization methods while being complementary to the same.
翻訳日:2023-09-27 04:35:00 公開日:2023-09-22
# sncqa:ハードウェア効率のよい等価量子畳み込み回路アーキテクチャ

SnCQA: A hardware-efficient equivariant quantum convolutional circuit architecture ( http://arxiv.org/abs/2211.12711v2 )

ライセンス: Link先を確認
Han Zheng, Christopher Kang, Gokul Subramanian Ravi, Hanrui Wang, Kanav Setia, Frederic T. Chong, Junyu Liu(参考訳) 本稿では,同変量子畳み込み回路のハードウェア効率の良い変分回路であるsncqaを提案し,量子ビット数n$の置換対称性と空間格子対称性について述べる。 多くの量子多体および量子化学問題に共通する格子ハミルトンのようなシステムの置換対称性を活用することで、我々の量子ニューラルネットワークは置換対称性が存在する機械学習問題の解決に適しており、計算コストの大幅な削減につながる可能性がある。 その理論的新奇性とは別に、量子計算化学における基底状態の学習の実践例においても、シミュレーションはうまく機能し、数十のパラメータを持つ従来の手法と同等のパフォーマンスを達成できた。 純粋なハードウェア効率のansatz (phea) のような他の伝統的な変分量子回路と比較すると、sncqaはよりスケーラブルで正確で、ノイズ耐性がある($3 \times 4$ square lattice では$20\times$、様々な格子サイズでは$200\% - 1000\%$ のリソース節約と層数、パラメータ数、時間といった重要な基準で収束する)。

We propose SnCQA, a set of hardware-efficient variational circuits of equivariant quantum convolutional circuits respective to permutation symmetries and spatial lattice symmetries with the number of qubits $n$. By exploiting permutation symmetries of the system, such as lattice Hamiltonians common to many quantum many-body and quantum chemistry problems, Our quantum neural networks are suitable for solving machine learning problems where permutation symmetries are present, which could lead to significant savings of computational costs. Aside from its theoretical novelty, we find our simulations perform well in practical instances of learning ground states in quantum computational chemistry, where we could achieve comparable performances to traditional methods with few tens of parameters. Compared to other traditional variational quantum circuits, such as the pure hardware-efficient ansatz (pHEA), we show that SnCQA is more scalable, accurate, and noise resilient (with $20\times$ better performance on $3 \times 4$ square lattice and $200\% - 1000\%$ resource savings in various lattice sizes and key criterions such as the number of layers, parameters, and times to converge in our cases), suggesting a potentially favorable experiment on near-time quantum devices.
翻訳日:2023-09-27 04:33:47 公開日:2023-09-22
# DP-SGDを用いたプライベート広告モデリング

Private Ad Modeling with DP-SGD ( http://arxiv.org/abs/2211.11896v2 )

ライセンス: Link先を確認
Carson Denison, Badih Ghazi, Pritish Kamath, Ravi Kumar, Pasin Manurangsi, Krishna Giri Narra, Amer Sinha, Avinash Varadarajan, Chiyuan Zhang(参考訳) プライバシー保護MLにおけるよく知られたアルゴリズムは、個人確率勾配降下(DP-SGD)である。 このアルゴリズムはテキストデータや画像データで評価されているが、以前は広告データには適用されていない。 本研究では,DP-SGDをクリックスルー率,コンバージョン率,コンバージョンイベント数などの広告モデリングタスクに適用し,実際のデータセット上でのプライバシユーティリティトレードオフを評価する。 私たちの研究は、DP-SGDが広告モデリングタスクのプライバシーとユーティリティの両方を提供できることを実証的に実証した初めてのものです。

A well-known algorithm in privacy-preserving ML is differentially private stochastic gradient descent (DP-SGD). While this algorithm has been evaluated on text and image data, it has not been previously applied to ads data, which are notorious for their high class imbalance and sparse gradient updates. In this work we apply DP-SGD to several ad modeling tasks including predicting click-through rates, conversion rates, and number of conversion events, and evaluate their privacy-utility trade-off on real-world datasets. Our work is the first to empirically demonstrate that DP-SGD can provide both privacy and utility for ad modeling tasks.
翻訳日:2023-09-27 04:33:19 公開日:2023-09-22
# 潜在空間における共起バイアス調整のための因果表現学習の実現

Realization of Causal Representation Learning to Adjust Confounding Bias in Latent Space ( http://arxiv.org/abs/2211.08573v9 )

ライセンス: Link先を確認
Jia Li, Xiang Li, Xiaowei Jia, Michael Steinbach, Vipin Kumar(参考訳) 因果dag(directed acyclic graphs)は通常2次元平面で考慮される。 エッジは因果効果の方向を示し、対応する時間経過を示す。 統計的モデルの自然な制限のため、効果推定は通常、個人の相関、すなわち特定の時間における観察的変化の平均化によって近似される。 しかし、複雑なdagを持つ大規模質問に対する機械学習の文脈において、このようなわずかなバイアスは、グローバルなモデルを歪めるために雪だるまになり得る。 本稿では,変数の値が時間スタンプに依存しなくなり,時系列が軸と見なせる因果dagを \emph{do-dag} と再定義する。 多次元のdo-DAGの幾何学的説明により、共通共役バイアスと区別された \emph{Causal Representation Bias} とその必要因子を同定する。 したがって、dl(deep learning)ベースのフレームワークが汎用ソリューションとして提案され、実現可能性を検証するための実現方法と実験が提案される。

Causal DAGs(Directed Acyclic Graphs) are usually considered in a 2D plane. Edges indicate causal effects' directions and imply their corresponding time-passings. Due to the natural restriction of statistical models, effect estimation is usually approximated by averaging the individuals' correlations, i.e., observational changes over a specific time. However, in the context of Machine Learning on large-scale questions with complex DAGs, such slight biases can snowball to distort global models - More importantly, it has practically impeded the development of AI, for instance, the weak generalizability of causal models. In this paper, we redefine causal DAG as \emph{do-DAG}, in which variables' values are no longer time-stamp-dependent, and timelines can be seen as axes. By geometric explanation of multi-dimensional do-DAG, we identify the \emph{Causal Representation Bias} and its necessary factors, differentiated from common confounding biases. Accordingly, a DL(Deep Learning)-based framework will be proposed as the general solution, along with a realization method and experiments to verify its feasibility.
翻訳日:2023-09-27 04:32:48 公開日:2023-09-22
# molcpt:分子表現学習を一般化する分子連続プロンプトチューニング

MolCPT: Molecule Continuous Prompt Tuning to Generalize Molecular Representation Learning ( http://arxiv.org/abs/2212.10614v2 )

ライセンス: Link先を確認
Cameron Diao, Kaixiong Zhou, Zirui Liu, Xiao Huang, Xia Hu(参考訳) 分子表現学習は、グラフニューラルネットワーク(GNN)がそれらの構造モデリング能力のために効果的な解となる、分子特性予測の問題に不可欠である。 ラベル付きデータは入手が困難で費用がかかることが多いため、GNNが広範な分子空間で一般化することは大きな課題である。 近年、GNNの一般化能力向上のために「事前訓練、微調整」の訓練パラダイムが活用されている。 自己教師付き情報を使ってgnnを事前学習し、数個のラベルで下流タスクを最適化するための微調整を行う。 しかし、特にランダムな構造的マスキングを伴う自己教師付き学習において、事前学習は統計的に有意な改善をもたらすとは限らない。 実際、分子構造はモチーフサブグラフによって特徴づけられ、しばしば発生し、分子特性に影響を及ぼす。 課題関連モチーフを活用するために,分子表現学習のための"pre-train, prompt, fine-tune"という新しいパラダイム,分子連続的プロンプトチューニング(MolCPT)を提案する。 MolCPTは、事前訓練されたモデルを使用して、スタンドアロンの入力を表現的なプロンプトに投影するモチーフプロンプト関数を定義する。 このプロンプトは、連続表現空間において有意義なモチーフを持つ分子グラフを効果的に強化する。 いくつかのベンチマークデータセットの大規模な実験により、MollCPTは分子特性予測のために学習済みのGNNを数ステップで効率的に一般化することが示された。

Molecular representation learning is crucial for the problem of molecular property prediction, where graph neural networks (GNNs) serve as an effective solution due to their structure modeling capabilities. Since labeled data is often scarce and expensive to obtain, it is a great challenge for GNNs to generalize in the extensive molecular space. Recently, the training paradigm of "pre-train, fine-tune" has been leveraged to improve the generalization capabilities of GNNs. It uses self-supervised information to pre-train the GNN, and then performs fine-tuning to optimize the downstream task with just a few labels. However, pre-training does not always yield statistically significant improvement, especially for self-supervised learning with random structural masking. In fact, the molecular structure is characterized by motif subgraphs, which are frequently occurring and influence molecular properties. To leverage the task-related motifs, we propose a novel paradigm of "pre-train, prompt, fine-tune" for molecular representation learning, named molecule continuous prompt tuning (MolCPT). MolCPT defines a motif prompting function that uses the pre-trained model to project the standalone input into an expressive prompt. The prompt effectively augments the molecular graph with meaningful motifs in the continuous representation space; this provides more structural patterns to aid the downstream classifier in identifying molecular properties. Extensive experiments on several benchmark datasets show that MolCPT efficiently generalizes pre-trained GNNs for molecular property prediction, with or without a few fine-tuning steps.
翻訳日:2023-09-27 04:22:24 公開日:2023-09-22
# ユーザの自己報告データ収集にチャットボットを活用するための大規模言語モデル

Leveraging Large Language Models to Power Chatbots for Collecting User Self-Reported Data ( http://arxiv.org/abs/2301.05843v2 )

ライセンス: Link先を確認
Jing Wei, Sungdong Kim, Hyunhoon Jung, Young-Ho Kim(参考訳) 大きな言語モデル(LLM)は、自然言語のプロンプトを受け入れてチャットボットを構築する新しい方法を提供する。 しかし、ユーザーからの自己報告データ収集など、特定の目標を追求しながら自然主義的な会話を行うためにチャットボットをパワーアップするためのプロンプトをどのように設計するかは不明だ。 我々は,チャットボットが自然に会話し,データを確実に収集する上で,プロンプトの設計要因について検討する。 この目的のために、異なる構造とペルソナを持つ4つのプロンプトデザインを定式化した。 参加者が異なるデザインのプロンプトによって駆動されるチャットボットと会話するオンライン研究(n = 48)を通じて,プロンプトデザインと会話トピックがチャットボットの会話フローやユーザの認識にどのように影響するかを検討した。 チャットボットは、会話中の所望の情報スロットの79%をカバーし、プロンプトやトピックの設計は会話の流れやデータ収集のパフォーマンスに大きく影響した。 LLMによるチャットボット構築の機会と課題について論じる。

Large language models (LLMs) provide a new way to build chatbots by accepting natural language prompts. Yet, it is unclear how to design prompts to power chatbots to carry on naturalistic conversations while pursuing a given goal, such as collecting self-report data from users. We explore what design factors of prompts can help steer chatbots to talk naturally and collect data reliably. To this aim, we formulated four prompt designs with different structures and personas. Through an online study (N = 48) where participants conversed with chatbots driven by different designs of prompts, we assessed how prompt designs and conversation topics affected the conversation flows and users' perceptions of chatbots. Our chatbots covered 79% of the desired information slots during conversations, and the designs of prompts and topics significantly influenced the conversation flows and the data collection performance. We discuss the opportunities and challenges of building chatbots with LLMs.
翻訳日:2023-09-27 04:12:57 公開日:2023-09-22
# 自動テキスト要約手法の総合的レビュー:方法、データ、評価および符号化

A comprehensive review of automatic text summarization techniques: method, data, evaluation and coding ( http://arxiv.org/abs/2301.03403v3 )

ライセンス: Link先を確認
Daniel O. Cajueiro, Arthur G. Nery, Igor Tavares, Ma\'isa K. De Melo, Silvia A. dos Reis, Li Weigang, Victor R. R. Celestino(参考訳) 本稿では,ATS(Automatic Text Summarization)システムに関する文献レビューを行う。 引用に基づくアプローチを考える。 まず、私たちがカバーしたい各トピックについて手元に持っている人気で有名な論文から始め、"backward citations"(前もって知っていた論文のセットによって引用された論文)と"forward citations"(前もって知っていた論文のセットを引用する新しい論文)を追跡しました。 異なる手法を整理するために、我々は、それらが要約を生成するメカニズムによって導かれる様々なアプローチをATSに提示する。 また,提案手法の提示に加えて,要約タスクに利用可能なデータセットや,要約の質を評価するための手法についても概説する。 最後に,CNN Corpusデータセットを用いて,抽出および抽象的手法に黄金の要約を提供する実験的な手法を提案する。

We provide a literature review about Automatic Text Summarization (ATS) systems. We consider a citation-based approach. We start with some popular and well-known papers that we have in hand about each topic we want to cover and we have tracked the "backward citations" (papers that are cited by the set of papers we knew beforehand) and the "forward citations" (newer papers that cite the set of papers we knew beforehand). In order to organize the different methods, we present the diverse approaches to ATS guided by the mechanisms they use to generate a summary. Besides presenting the methods, we also present an extensive review of the datasets available for summarization tasks and the methods used to evaluate the quality of the summaries. Finally, we present an empirical exploration of these methods using the CNN Corpus dataset that provides golden summaries for extractive and abstractive methods.
翻訳日:2023-09-27 04:12:21 公開日:2023-09-22
# Off-the-Grid MARL:オフラインマルチエージェント強化学習のためのベースライン付きデータセット

Off-the-Grid MARL: Datasets with Baselines for Offline Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2302.00521v2 )

ライセンス: Link先を確認
Claude Formanek, Asad Jeewa, Jonathan Shock, Arnu Pretorius(参考訳) 協調型マルチエージェントコントローラの開発に大規模なデータセットのパワーを活用できることは、現実世界のアプリケーションに巨大な価値を開放することを約束する。 多くの重要な産業システムは、本質的にマルチエージェントであり、bespokeシミュレータを用いたモデリングは困難である。 しかし、産業では、分散プロセスは操作中に記録され、大量の実証データが保存される。 オフラインマルチエージェント強化学習(MARL)は、このようなデータセットから効率的な分散型コントローラを構築するための有望なパラダイムを提供する。 しかし、オフラインMARLはまだ初期段階であり、標準ベンチマークデータセットやベースラインが欠如しているため、強化学習(RL)のより成熟したサブフィールドで一般的に見られる。 これらの欠陥は、コミュニティが進捗を賢明に測定することを難しくする。 本研究は,協調的なオフラインMARL研究のためのベースラインを備えた高品質データセットのリポジトリであるOG-MARL(OG-MARL)をリリースすることによって,このギャップを埋めることを目指している。 私たちのデータセットは、複雑な環境ダイナミクス、異種エージェント、非定常性、多数のエージェント、部分的可観測性、サブオプティリティ、スパース報酬、デモされたコーディネーションなど、現実世界のシステム特有の設定を提供します。 各設定では、さまざまなデータセットタイプ(例えば、グッド、ミディアム、プア、リプレイ)を提供し、各データセットのエクスペリエンスの構成をプロファイルします。 私たちは、OG-MARLがデータセットの信頼できるソースとしてコミュニティに役立ち、進歩を促進するとともに、研究者がこの分野に新たに参入するためのアクセス可能なエントリポイントを提供することを期待しています。

Being able to harness the power of large datasets for developing cooperative multi-agent controllers promises to unlock enormous value for real-world applications. Many important industrial systems are multi-agent in nature and are difficult to model using bespoke simulators. However, in industry, distributed processes can often be recorded during operation, and large quantities of demonstrative data stored. Offline multi-agent reinforcement learning (MARL) provides a promising paradigm for building effective decentralised controllers from such datasets. However, offline MARL is still in its infancy and therefore lacks standardised benchmark datasets and baselines typically found in more mature subfields of reinforcement learning (RL). These deficiencies make it difficult for the community to sensibly measure progress. In this work, we aim to fill this gap by releasing off-the-grid MARL (OG-MARL): a growing repository of high-quality datasets with baselines for cooperative offline MARL research. Our datasets provide settings that are characteristic of real-world systems, including complex environment dynamics, heterogeneous agents, non-stationarity, many agents, partial observability, suboptimality, sparse rewards and demonstrated coordination. For each setting, we provide a range of different dataset types (e.g. Good, Medium, Poor, and Replay) and profile the composition of experiences for each dataset. We hope that OG-MARL will serve the community as a reliable source of datasets and help drive progress, while also providing an accessible entry point for researchers new to the field.
翻訳日:2023-09-27 04:01:15 公開日:2023-09-22
# Kartezio: 生体画像解析のための説明可能なパイプラインの進化設計

Kartezio: Evolutionary Design of Explainable Pipelines for Biomedical Image Analysis ( http://arxiv.org/abs/2302.14762v2 )

ライセンス: Link先を確認
K\'evin Cortacero, Brienne McKenzie, Sabina M\"uller, Roxana Khazen, Fanny Lafouresse, Ga\"elle Corsaut, Nathalie Van Acker, Fran\c{c}ois-Xavier Frenois, Laurence Lamant, Nicolas Meyer, B\'eatrice Vergier, Dennis G. Wilson, Herv\'e Luga, Oskar Staufer, Michael L. Dustin, Salvatore Valitutti and Sylvain Cussat-Blanc(参考訳) 現代の生物医学における未解決の問題は、注釈、分析、解釈を必要とする複雑な画像の圧倒的な数と多様性である。 ディープラーニングの最近の進歩はコンピュータビジョンの分野に革命をもたらし、画像分割タスクにおいて人間の専門家と競合するアルゴリズムを生み出した。 しかし、これらのフレームワークはトレーニングのために大きな人間の注釈付きデータセットを必要とし、結果のモデルは解釈が難しい。 本研究では,コンピュータビジョン関数を反復的に組み立て,パラメータ化することにより,透明で容易に解釈可能な画像処理パイプラインを生成する,モジュール型カルテジアン遺伝的プログラミングに基づく計算戦略であるkartezioを提案する。 それによって生成されたパイプラインは、インスタンスセグメンテーションタスクにおける最先端のDeep Learningアプローチに匹敵する精度を示し、同時に、このアプローチに対する柔軟性、スピード、機能を示す、非常に小さなトレーニングデータセットを必要とする。 また,実世界の4つのユースケースにおける意味的およびインスタンスセグメンテーションの問題を解決するためにkartezioを配置し,高分解能顕微鏡から臨床病理まで,画像領域におけるその有用性を示した。 細胞構造から腫瘍組織まで,画像のポートフォリオ上でKartezioをうまく実装することにより,この完全に説明可能な進化的デザイナの柔軟性,堅牢性,実用性を実証した。

An unresolved issue in contemporary biomedicine is the overwhelming number and diversity of complex images that require annotation, analysis and interpretation. Recent advances in Deep Learning have revolutionized the field of computer vision, creating algorithms that compete with human experts in image segmentation tasks. Crucially however, these frameworks require large human-annotated datasets for training and the resulting models are difficult to interpret. In this study, we introduce Kartezio, a modular Cartesian Genetic Programming based computational strategy that generates transparent and easily interpretable image processing pipelines by iteratively assembling and parameterizing computer vision functions. The pipelines thus generated exhibit comparable precision to state-of-the-art Deep Learning approaches on instance segmentation tasks, while requiring drastically smaller training datasets, a feature which confers tremendous flexibility, speed, and functionality to this approach. We also deployed Kartezio to solve semantic and instance segmentation problems in four real-world Use Cases, and showcase its utility in imaging contexts ranging from high-resolution microscopy to clinical pathology. By successfully implementing Kartezio on a portfolio of images ranging from subcellular structures to tumoral tissue, we demonstrated the flexibility, robustness and practical utility of this fully explicable evolutionary designer for semantic and instance segmentation.
翻訳日:2023-09-27 03:55:54 公開日:2023-09-22
# 事前訓練されたlmによるパワー一般時系列分析

One Fits All:Power General Time Series Analysis by Pretrained LM ( http://arxiv.org/abs/2302.11939v5 )

ライセンス: Link先を確認
Tian Zhou, PeiSong Niu, Xue Wang, Liang Sun, Rong Jin(参考訳) 自然言語処理 (NLP) やコンピュータビジョン (CV) において, 事前学習モデルに大きな成功をおさめてきたが, 時系列解析の進歩は限られている。 異なるタスクを実行するために統一モデルを使用するNLPやCVとは異なり、特別に設計されたアプローチは、分類、異常検出、予測、少数ショット学習などの時系列分析タスクにおいて依然として支配的である。 時系列分析のための事前訓練されたモデルの開発を妨げる主な課題は、トレーニングのための大量のデータがないことである。 本研究では,数十億のトークンから事前学習した言語やCVモデルを時系列解析に活用することで,この問題に対処する。 具体的には、事前学習言語や画像モデルにおける残余ブロックの自己注意層やフィードフォワード層の変更を控える。 このモデルはFPT(Frozen Pretrained Transformer)と呼ばれ、時系列を含む全ての主要なタスクを微調整することで評価される。 その結果、自然言語や画像で事前学習されたモデルが、図1に示すように、すべての時系列分析タスクで同等あるいは最先端のパフォーマンスをもたらすことが示されています。 また,この自己注意モジュールの動作が原則成分分析(PCA)と類似していることが理論的にも実証的にも証明された。これはトランスフォーマーがドメインギャップをいかに橋渡しするかを説明するのに役立ち,事前学習したトランスフォーマーの普遍性を理解するための重要なステップである。このコードはhttps://github.com/DAMO-DI-ML/One_Fits_Allで公開されている。

Although we have witnessed great success of pre-trained models in natural language processing (NLP) and computer vision (CV), limited progress has been made for general time series analysis. Unlike NLP and CV where a unified model can be used to perform different tasks, specially designed approach still dominates in each time series analysis task such as classification, anomaly detection, forecasting, and few-shot learning. The main challenge that blocks the development of pre-trained model for time series analysis is the lack of a large amount of data for training. In this work, we address this challenge by leveraging language or CV models, pre-trained from billions of tokens, for time series analysis. Specifically, we refrain from altering the self-attention and feedforward layers of the residual blocks in the pre-trained language or image model. This model, known as the Frozen Pretrained Transformer (FPT), is evaluated through fine-tuning on all major types of tasks involving time series. Our results demonstrate that pre-trained models on natural language or images can lead to a comparable or state-of-the-art performance in all main time series analysis tasks, as illustrated in Figure 1. We also found both theoretically and empirically that the self-attention module behaviors similarly to principle component analysis (PCA), an observation that helps explains how transformer bridges the domain gap and a crucial step towards understanding the universality of a pre-trained transformer.The code is publicly available at https://github.com/DAMO-DI-ML/One_Fits_All.
翻訳日:2023-09-27 03:52:40 公開日:2023-09-22
# Lamarr: Gaussにデプロイされた機械学習モデルに基づくLHCb超高速シミュレーション

Lamarr: LHCb ultra-fast simulation based on machine learning models deployed within Gauss ( http://arxiv.org/abs/2303.11428v2 )

ライセンス: Link先を確認
Matteo Barbetti (for the LHCb Simulation Project)(参考訳) LHCb実験で利用可能なコンピューティングリソースの約90%は、CERNのLarge Hadron ColliderのRun 2のシミュレーションデータサンプルの作成に費やされている。 アップグレードされたLHCb検出器は、より大きなデータサンプルを収集し、Run 3で収集されるデータを分析するために、さらに多くのシミュレートされたイベントを必要とする。 シミュレーションは、信号を解釈し、背景を拒絶し、効率を測定するのに重要な分析の必要性である。 必要なシミュレーションは、約束されたリソースをはるかに超え、これらのシミュレーションデータサンプルを生成する技術や技術の進化を必要とします。 本稿では,LHCb実験における検出器応答と再構成アルゴリズムの両方をパラメータ化するシミュレーション生成を高速化するGaudiベースのフレームワークであるLamarrについて論じる。 複数のアルゴリズムと戦略を駆使した深部生成モデルを用いて、LHCb検出器の単一成分の高レベル応答を効果的にパラメータ化し、ニューラルネットワーク内で検出および再構成フェーズで導入された実験誤差と不確実性を符号化する。 可能な場合、モデルは実際のデータに基づいて直接訓練され、適切なリウィーディング手順を適用することで、統計的に任意のバックグラウンドコンポーネントを減算する。 一般的なLHCb Gauss SimulationフレームワークにLamarrを組み込むことで、実行と利用可能なジェネレータをシームレスに組み合わせることができる。 ソフトウェアパッケージは、今までの詳細なシミュレーションとは無関係にシミュレーションプロセスを可能にする。

About 90% of the computing resources available to the LHCb experiment has been spent to produce simulated data samples for Run 2 of the Large Hadron Collider at CERN. The upgraded LHCb detector will be able to collect larger data samples, requiring many more simulated events to analyze the data to be collected in Run 3. Simulation is a key necessity of analysis to interpret signal, reject background and measure efficiencies. The needed simulation will far exceed the pledged resources, requiring an evolution in technologies and techniques to produce these simulated data samples. In this contribution, we discuss Lamarr, a Gaudi-based framework to speed-up the simulation production parameterizing both the detector response and the reconstruction algorithms of the LHCb experiment. Deep Generative Models powered by several algorithms and strategies are employed to effectively parameterize the high-level response of the single components of the LHCb detector, encoding within neural networks the experimental errors and uncertainties introduced in the detection and reconstruction phases. Where possible, models are trained directly on real data, statistically subtracting any background components by applying appropriate reweighing procedures. Embedding Lamarr in the general LHCb Gauss Simulation framework allows to combine its execution with any of the available generators in a seamless way. The resulting software package enables a simulation process independent of the detailed simulation used to date.
翻訳日:2023-09-27 03:31:51 公開日:2023-09-22
# マージ決定トランスフォーマー:マルチタスクポリシー形成のための重み平均化

Merging Decision Transformers: Weight Averaging for Forming Multi-Task Policies ( http://arxiv.org/abs/2303.07551v3 )

ライセンス: Link先を確認
Daniel Lawson, Ahmed H. Qureshi(参考訳) 近年の研究では、ジェネラリスト、トランスフォーマーベース、言語モデル、ビジョンモデル、シーケンシャルな意思決定問題の作成が期待されている。 このようなモデルを作成するには、一般的に集中的なトレーニング目標、データ、計算が必要です。 複数のタスク固有の個別に訓練されたポリシーを組み合わせることで、より柔軟にジェネラリストポリシーを作成できれば、それは興味深いことです。 本研究では,異なるムジョコロコモーション問題に対して学習したパラメータ空間における決定トランスフォーマーのサブセットをマージし,平均化することにより,マルチタスクモデルを構築することにより,この方向への予備的な一歩を踏み出す。 また,事前学習した共通初期化の活用,モデル容量の増大,重み付けパラメータの重要性に対するフィッシャー情報の利用など,政策統合における様々な方法論的選択の重要性を実証する。 一般的に、この方向の研究は、マルチタスクロボットポリシーを形成するプロセスの民主化と配布に役立つと信じている。 我々の実装はhttps://github.com/daniellawson9999/merging-decision-transformersで利用可能です。

Recent work has shown the promise of creating generalist, transformer-based, models for language, vision, and sequential decision-making problems. To create such models, we generally require centralized training objectives, data, and compute. It is of interest if we can more flexibly create generalist policies by merging together multiple, task-specific, individually trained policies. In this work, we take a preliminary step in this direction through merging, or averaging, subsets of Decision Transformers in parameter space trained on different MuJoCo locomotion problems, forming multi-task models without centralized training. We also demonstrate the importance of various methodological choices when merging policies, such as utilizing common pre-trained initializations, increasing model capacity, and utilizing Fisher information for weighting parameter importance. In general, we believe research in this direction could help democratize and distribute the process that forms multi-task robotics policies. Our implementation is available at https://github.com/daniellawson9999/merging-decision-transformers.
翻訳日:2023-09-27 03:30:44 公開日:2023-09-22
# UVCGAN v2: 未ペア画像から画像への変換のための改良されたサイクル一貫性GAN

UVCGAN v2: An Improved Cycle-Consistent GAN for Unpaired Image-to-Image Translation ( http://arxiv.org/abs/2303.16280v3 )

ライセンス: Link先を確認
Dmitrii Torbunov, Yi Huang, Huan-Hsin Tseng, Haiwang Yu, Jin Huang, Shinjae Yoo, Meifeng Lin, Brett Viren, Yihui Ren(参考訳) unpaired image-to-image (i2i) 変換技術は、2つのドメイン間のマッピングを完全に教師なしで探す。 i2i問題の初期の解はgans(generative adversarial neural networks)によって提供されていたが、拡散モデル(dms)は現在、frechetインセプション距離(fid)の観点からi2i翻訳ベンチマークの最先端状態にある。 しかし、DMはトレーニング中にソースドメインからのデータを使用しなかったり、ソースの一貫性を維持したり、単純なピクセル単位のエラーでのみ変換された画像に制限を受ける。 この研究は、最近のUVCGANモデルを改善し、モデルアーキテクチャとトレーニング手順の近代化に資する。 その結果、改良されたモデルは、様々なベンチマークで他の先進的なGANやDMベースの競合より大幅に優れている。 CelebAの男性から女性への翻訳では、最先端の結果と比較してFIDスコアが40%以上改善されている。 この研究は、ピクセル単位のi2i翻訳の忠実性指標の非効率性を示し、その修正を提案する。 コードとトレーニングされたモデルはhttps://github.com/ls4gan/uvcgan2で入手できる。

An unpaired image-to-image (I2I) translation technique seeks to find a mapping between two domains of data in a fully unsupervised manner. While initial solutions to the I2I problem were provided by generative adversarial neural networks (GANs), diffusion models (DMs) currently hold the state-of-the-art status on the I2I translation benchmarks in terms of Frechet inception distance (FID). Yet, DMs suffer from limitations, such as not using data from the source domain during the training or maintaining consistency of the source and translated images only via simple pixel-wise errors. This work improves a recent UVCGAN model and equips it with modern advancements in model architectures and training procedures. The resulting revised model significantly outperforms other advanced GAN- and DM-based competitors on a variety of benchmarks. In the case of Male-to-Female translation of CelebA, the model achieves more than 40% improvement in FID score compared to the state-of-the-art results. This work also demonstrates the ineffectiveness of the pixel-wise I2I translation faithfulness metrics and suggests their revision. The code and trained models are available at https://github.com/LS4GAN/uvcgan2
翻訳日:2023-09-27 03:20:08 公開日:2023-09-22
# samrs: segment anythingモデルによるリモートセンシングセグメンテーションデータセットのスケールアップ

SAMRS: Scaling-up Remote Sensing Segmentation Dataset with Segment Anything Model ( http://arxiv.org/abs/2305.02034v2 )

ライセンス: Link先を確認
Di Wang, Jing Zhang, Bo Du, Minqiang Xu, Lin Liu, Dacheng Tao and Liangpei Zhang(参考訳) Segment Anything Model(SAM)の成功は、データ中心の機械学習の重要性を示している。 しかし、リモートセンシング(rs)画像に注釈を付けることに伴う困難とコストのため、貴重なrsデータは、特にピクセルレベルではラベルが付かないままである。 本研究では,samと既存のrsオブジェクト検出データセットを活用して,大規模rsセグメンテーションデータセットを生成する効率的なパイプラインを開発する。 SAMRSは完全に105,090の画像と1,668,241のインスタンスを持ち、既存の高解像度RSセグメンテーションデータセットを数桁上回っている。 セマンティックセグメンテーション、インスタンスセグメンテーション、オブジェクト検出に使用できるオブジェクトカテゴリ、場所、およびインスタンス情報を提供する。 また,様々な側面からSAMRSを包括的に分析する。 さらに、予備実験では、タスクの相違に対処するためにsamlによるセグメント化事前トレーニングを行い、微調整中の限られたトレーニングデータによって生じる制限を緩和することの重要性を強調する。 コードとデータセットはhttps://github.com/ViTAE-Transformer/SAMRS.comから入手できる。

The success of the Segment Anything Model (SAM) demonstrates the significance of data-centric machine learning. However, due to the difficulties and high costs associated with annotating Remote Sensing (RS) images, a large amount of valuable RS data remains unlabeled, particularly at the pixel level. In this study, we leverage SAM and existing RS object detection datasets to develop an efficient pipeline for generating a large-scale RS segmentation dataset, dubbed SAMRS. SAMRS totally possesses 105,090 images and 1,668,241 instances, surpassing existing high-resolution RS segmentation datasets in size by several orders of magnitude. It provides object category, location, and instance information that can be used for semantic segmentation, instance segmentation, and object detection, either individually or in combination. We also provide a comprehensive analysis of SAMRS from various aspects. Moreover, preliminary experiments highlight the importance of conducting segmentation pre-training with SAMRS to address task discrepancies and alleviate the limitations posed by limited training data during fine-tuning. The code and dataset will be available at https://github.com/ViTAE-Transformer/SAMRS.
翻訳日:2023-09-27 03:03:21 公開日:2023-09-22
# 見ることは必ずしも信じるものではない:ai生成画像の人間とモデル知覚のベンチマーク

Seeing is not always believing: Benchmarking Human and Model Perception of AI-Generated Images ( http://arxiv.org/abs/2304.13023v3 )

ライセンス: Link先を確認
Zeyu Lu, Di Huang, Lei Bai, Jingjing Qu, Chengyue Wu, Xihui Liu, Wanli Ouyang(参考訳) 写真は、人間が日常生活で何を経験したかを記録するための手段であり、しばしば信頼できる情報源と見なされる。 しかし、人工知能(AI)技術の進歩が偽の写真を生み出し、写真に対する混乱と信頼の低下を引き起こすのではないかという懸念が高まっている。 本研究の目的は、最先端のAI生成視覚コンテンツを識別するためのエージェントを包括的に評価することである。 我々の研究は、大規模なフェイク画像データセットFake2Mを用いて、人間の能力と最先端のフェイク画像検出AIアルゴリズムをベンチマークした。 HPBenchと題された人間の知覚評価では、人間が実際の写真をAI生成したものと区別するのに苦労し、誤分類率は38.7%であることがわかった。 これに伴い,ai生成画像検出評価mpbenchとmpbenchのtop-performingモデルのモデル能力は,人間評価と同じ条件下で13%の故障率を達成する。 我々の研究は、AI生成画像の潜在的なリスクに対する認識を高め、偽情報の拡散を防止するためにさらなる研究を促進することを願っている。 詳細はhttps://github.com/inf-imagine/sentryを参照。

Photos serve as a way for humans to record what they experience in their daily lives, and they are often regarded as trustworthy sources of information. However, there is a growing concern that the advancement of artificial intelligence (AI) technology may produce fake photos, which can create confusion and diminish trust in photographs. This study aims to comprehensively evaluate agents for distinguishing state-of-the-art AI-generated visual content. Our study benchmarks both human capability and cutting-edge fake image detection AI algorithms, using a newly collected large-scale fake image dataset Fake2M. In our human perception evaluation, titled HPBench, we discovered that humans struggle significantly to distinguish real photos from AI-generated ones, with a misclassification rate of 38.7%. Along with this, we conduct the model capability of AI-Generated images detection evaluation MPBench and the top-performing model from MPBench achieves a 13% failure rate under the same setting used in the human evaluation. We hope that our study can raise awareness of the potential risks of AI-generated images and facilitate further research to prevent the spread of false information. More information can refer to https://github.com/Inf-imagine/Sentry.
翻訳日:2023-09-27 03:02:06 公開日:2023-09-22
# テキストと数値データストリームを用いたクレジットレーティング予測のためのマルチモーダルディープラーニング

Multi-Modal Deep Learning for Credit Rating Prediction Using Text and Numerical Data Streams ( http://arxiv.org/abs/2304.10740v2 )

ライセンス: Link先を確認
Mahsa Tavakoli, Rohitash Chandra, Fengrui Tian, Cristi\'an Bravo(参考訳) 信用格付けの課題において重要な要因を知ることは、より良い意思決定につながる。 しかし、これまでの文献の焦点は主に構造化データであり、非構造化データセットやマルチモーダルデータセットに対処する研究は少ない。 本稿では,企業信用格付けクラスの予測のための深層学習モデルの融合のための最も効果的なアーキテクチャを,異なるタイプの構造化データセットと非構造化データセットを用いて分析する。 これらのモデルでは,CNN,LSTM,GRU,BERTなど,異なる深層学習モデルとの融合戦略の組み合わせを検討した。 我々は,データ融合戦略を,(初期および中期融合を含む)レベルと技術(連結と交差注意を含む)レベルで研究した。 その結果,二つの融合戦略を持つcnnベースのマルチモーダルモデルは,他のマルチモーダル手法よりも優れていた。 さらに、単純なアーキテクチャとより複雑なアーキテクチャを比較することで、より高度なディープラーニングモデルが必ずしも最高のパフォーマンスをもたらすとは限らないことが分かりましたが、注意に基づくモデルが最良の結果を生み出している場合、融合戦略として相互注意が必要であることがわかりました。 最後に、短期的・中長期的評価における格付け機関の比較から、ムーディーの格付けはスタンダード・アンド・プアーズやフィッチ・レーティングズのような他の格付け機関よりも優れていることが分かる。

Knowing which factors are significant in credit rating assignment leads to better decision-making. However, the focus of the literature thus far has been mostly on structured data, and fewer studies have addressed unstructured or multi-modal datasets. In this paper, we present an analysis of the most effective architectures for the fusion of deep learning models for the prediction of company credit rating classes, by using structured and unstructured datasets of different types. In these models, we tested different combinations of fusion strategies with different deep learning models, including CNN, LSTM, GRU, and BERT. We studied data fusion strategies in terms of level (including early and intermediate fusion) and techniques (including concatenation and cross-attention). Our results show that a CNN-based multi-modal model with two fusion strategies outperformed other multi-modal techniques. In addition, by comparing simple architectures with more complex ones, we found that more sophisticated deep learning models do not necessarily produce the highest performance; however, if attention-based models are producing the best results, cross-attention is necessary as a fusion strategy. Finally, our comparison of rating agencies on short-, medium-, and long-term performance shows that Moody's credit ratings outperform those of other agencies like Standard & Poor's and Fitch Ratings.
翻訳日:2023-09-27 03:01:32 公開日:2023-09-22
# DMF-TONN:ニューラルネットワークを用いたメッシュフリートポロジー最適化

DMF-TONN: Direct Mesh-free Topology Optimization using Neural Networks ( http://arxiv.org/abs/2305.04107v2 )

ライセンス: Link先を確認
Aditya Joglekar, Hongrui Chen, Levent Burak Kara(参考訳) 本稿では,密度場近似ニューラルネットワークと変位場近似ニューラルネットワークを統合し,トポロジー最適化を行うための直接メッシュフリー手法を提案する。 この直接的統合アプローチは,処理後ソフトウェアとのシームレスな統合を可能にするという利点と,メッシュ化や有限要素解析(fea)が高価あるいは不適当であるような目的によるトポロジー最適化の可能性によって,従来のトポロジー最適化手法に匹敵する結果が得られることを示す。 我々の手法 (DMF-TONN) は境界条件と領域座標を入力として取り入れ, コンプライアンスの損失関数とボリューム分数制約違反を最小化するための最適密度場を求める。 メッシュフリー性は、物理インフォームドな変位場近似ニューラルネットワークにより、線形弾性偏微分方程式を解き、従来のコンプライアンス計算に使用されていたFEAを置き換えることができる。 We show that using a suitable Fourier Features neural network architecture and hyperparameters, the density field approximation neural network can learn the weights to represent the optimal density field for the given domain and boundary conditions, by directly backpropagating the loss gradient through the displacement field approximation neural network, and unlike prior work there is no requirement of a sensitivity filter, optimality criterion method, or a separate training of density network in each topology optimization iteration.

We propose a direct mesh-free method for performing topology optimization by integrating a density field approximation neural network with a displacement field approximation neural network. We show that this direct integration approach can give comparable results to conventional topology optimization techniques, with an added advantage of enabling seamless integration with post-processing software, and a potential of topology optimization with objectives where meshing and Finite Element Analysis (FEA) may be expensive or not suitable. Our approach (DMF-TONN) takes in as inputs the boundary conditions and domain coordinates and finds the optimum density field for minimizing the loss function of compliance and volume fraction constraint violation. The mesh-free nature is enabled by a physics-informed displacement field approximation neural network to solve the linear elasticity partial differential equation and replace the FEA conventionally used for calculating the compliance. We show that using a suitable Fourier Features neural network architecture and hyperparameters, the density field approximation neural network can learn the weights to represent the optimal density field for the given domain and boundary conditions, by directly backpropagating the loss gradient through the displacement field approximation neural network, and unlike prior work there is no requirement of a sensitivity filter, optimality criterion method, or a separate training of density network in each topology optimization iteration.
翻訳日:2023-09-27 02:50:11 公開日:2023-09-22
# 極端なリスクに対するモデル評価

Model evaluation for extreme risks ( http://arxiv.org/abs/2305.15324v2 )

ライセンス: Link先を確認
Toby Shevlane, Sebastian Farquhar, Ben Garfinkel, Mary Phuong, Jess Whittlestone, Jade Leung, Daniel Kokotajlo, Nahema Marchal, Markus Anderljung, Noam Kolt, Lewis Ho, Divya Siddarth, Shahar Avin, Will Hawkins, Been Kim, Iason Gabriel, Vijay Bolina, Jack Clark, Yoshua Bengio, Paul Christiano, Allan Dafoe(参考訳) 汎用AIシステムを構築するための現在のアプローチは、有益かつ有害な能力を持つシステムを生成する傾向がある。 ai開発のさらなる進歩は、攻撃的なサイバー能力や強力な操作スキルなど、極端なリスクをもたらす能力につながる可能性がある。 モデル評価が極端なリスクに対処するために重要である理由を説明する。 開発者は("危険な能力評価"を通じて)危険な能力と、("評価"を通じて)その能力を害に当てはめるモデルの拡張性を識別できなければなりません。 これらの評価は、政策立案者や他の利害関係者に情報を提供し、モデルトレーニング、デプロイメント、セキュリティに関する責任ある決定を下すために重要になります。

Current approaches to building general-purpose AI systems tend to produce systems with both beneficial and harmful capabilities. Further progress in AI development could lead to capabilities that pose extreme risks, such as offensive cyber capabilities or strong manipulation skills. We explain why model evaluation is critical for addressing extreme risks. Developers must be able to identify dangerous capabilities (through "dangerous capability evaluations") and the propensity of models to apply their capabilities for harm (through "alignment evaluations"). These evaluations will become critical for keeping policymakers and other stakeholders informed, and for making responsible decisions about model training, deployment, and security.
翻訳日:2023-09-27 02:44:03 公開日:2023-09-22
# 学習可能な間隔を持つ拡張畳み込み--双線型補間を超えて

Dilated Convolution with Learnable Spacings: beyond bilinear interpolation ( http://arxiv.org/abs/2306.00817v2 )

ライセンス: Link先を確認
Ismail Khalfaoui-Hassani, Thomas Pellegrini, Timoth\'ee Masquelier(参考訳) Dilated Convolution with Learnable Spacings (DCLS) は、最近提案された拡張畳み込みの変種であり、カーネル内のゼロでない要素間の間隔、またはそれらの位置が学習可能である。 非整数位置は補間によって処理される。 このトリックのおかげで、位置はよく定義された勾配を持つ。 オリジナルのDCLSは双線形補間を使用しており、そのため最も近い4つのピクセルのみが考慮された。 しかし、より長い範囲の補間、特にガウス補間は、2つの最先端の畳み込みアーキテクチャ(convnextとconv\-former)におけるimagenet1k分類のパフォーマンスをパラメータ数を増加させることなく改善できることを示している。 メソッドコードはPyTorchをベースにしており、https://github.com/K-H-Ismail/Dilated-Convolution-with-Learnable-Spacings-PyTorchで利用可能である。

Dilated Convolution with Learnable Spacings (DCLS) is a recently proposed variation of the dilated convolution in which the spacings between the non-zero elements in the kernel, or equivalently their positions, are learnable. Non-integer positions are handled via interpolation. Thanks to this trick, positions have well-defined gradients. The original DCLS used bilinear interpolation, and thus only considered the four nearest pixels. Yet here we show that longer range interpolations, and in particular a Gaussian interpolation, allow improving performance on ImageNet1k classification on two state-of-the-art convolutional architectures (ConvNeXt and Conv\-Former), without increasing the number of parameters. The method code is based on PyTorch and is available at https://github.com/K-H-Ismail/Dilated-Convolution-with-Learnable-Spacings-PyTorch
翻訳日:2023-09-27 02:20:09 公開日:2023-09-22
# コントラスト学習を用いたコミュニケーション学習

Learning to Communicate using Contrastive Learning ( http://arxiv.org/abs/2307.01403v2 )

ライセンス: Link先を確認
Yat Long Lo, Biswa Sengupta, Jakob Foerster, Michael Noukhovitch(参考訳) コミュニケーションはマルチエージェントRLにおけるコーディネーションの強力なツールである。 しかし、効果的な共通言語の導入は、特に分散環境では難しい課題である。 本稿では,エージェント間で送信されるコミュニケーションメッセージが,環境状態の異なる不完全なビューと見なされる,別の視点を提案する。 受信したメッセージ間の関係を調べることにより,与えられた軌道上のメッセージ間の相互情報を最大化するために,コントラスト学習を用いてコミュニケーションを学ぶことを提案する。 通信環境において,本手法は性能と学習速度の両面で,従来の手法よりも優れていた。 定性的メトリクスと表現探索を用いて,本手法がより対称な通信を誘導し,環境からグローバルな状態情報を取得することを示す。 全体として、コントラスト学習の力と、効果的なコミュニケーションのためのエンコーディングとしてメッセージを活用することの重要性を示す。

Communication is a powerful tool for coordination in multi-agent RL. But inducing an effective, common language is a difficult challenge, particularly in the decentralized setting. In this work, we introduce an alternative perspective where communicative messages sent between agents are considered as different incomplete views of the environment state. By examining the relationship between messages sent and received, we propose to learn to communicate using contrastive learning to maximize the mutual information between messages of a given trajectory. In communication-essential environments, our method outperforms previous work in both performance and learning speed. Using qualitative metrics and representation probing, we show that our method induces more symmetric communication and captures global state information from the environment. Overall, we show the power of contrastive learning and the importance of leveraging messages as encodings for effective communication.
翻訳日:2023-09-27 02:02:10 公開日:2023-09-22
# 機械学習による積分可能な量子多体系のダイナミクスの探索

Finding the Dynamics of an Integrable Quantum Many-Body System via Machine Learning ( http://arxiv.org/abs/2307.03310v2 )

ライセンス: Link先を確認
Victor Wei, Alev Orfi, Felix Fehse, W. A. Coish(参考訳) 学習手法を用いて,ガウディン磁石(中心スピンモデル)の力学について検討する。 このモデルは、例えば、環境スピンの大きな浴と相互作用する中心スピンの非マルコフ非コヒーレンスダイナミクスの研究や非平衡超伝導の研究など、実用上重要なものである。 ガウディン磁石もまた可積分であり、多くの保存量を認めている:$N$スピンに対して、モデルハミルトニアンは$N$独立通勤作用素の和として書くことができる。 この高次対称性にもかかわらず、この多体問題の力学に対する一般閉形式解析解はいまだ解明されていない。 機械学習手法は、明示的な解析解が明らかでない場合でも、可積分問題における高次対称性を利用するのに適している。 この直観に動機づけられ、モデルハミルトニアンの各変分固有状態に対してニューラルネットワーク表現(制限ボルツマン機械)を用いる。 次に、変分モンテカルロ計算により、ガウディン・マグネットハミルトニアンの基底状態と低次励起状態の正確な表現を得る。 低次固有状態から、スピン浴の存在下での時間変化する横磁場に対する中心スピンの線形応答を記述する非摂動動的横スピン感受性を求める。 この感受性を効率的に記述することは、量子2レベルシステムの環境と相互作用する量子ビットのキャラクタリゼーションと量子制御手順を改善するための扉を開く。 これらのシステムには、超微粒子相互作用を介して環境核スピンと相互作用する電子スピンおよびホールスピン量子ビットや、コヒーレント電荷または常磁性不純物と相互作用する自由度を持つ量子ビットが含まれる。

We study the dynamics of the Gaudin magnet ("central-spin model") using machine-learning methods. This model is of practical importance, e.g., for studying non-Markovian decoherence dynamics of a central spin interacting with a large bath of environmental spins and for studies of nonequilibrium superconductivity. The Gaudin magnet is also integrable, admitting many conserved quantities: For $N$ spins, the model Hamiltonian can be written as the sum of $N$ independent commuting operators. Despite this high degree of symmetry, a general closed-form analytic solution for the dynamics of this many-body problem remains elusive. Machine-learning methods may be well suited to exploiting the high degree of symmetry in integrable problems, even when an explicit analytic solution is not obvious. Motivated in part by this intuition, we use a neural-network representation (restricted Boltzmann machine) for each variational eigenstate of the model Hamiltonian. We then obtain accurate representations of the ground state and of the low-lying excited states of the Gaudin-magnet Hamiltonian through a variational Monte Carlo calculation. From the low-lying eigenstates, we find the non-perturbative dynamic transverse spin susceptibility, describing the linear response of a central spin to a time-varying transverse magnetic field in the presence of a spin bath. Having an efficient description of this susceptibility opens the door to improved characterization and quantum control procedures for qubits interacting with an environment of quantum two-level systems. These systems include electron-spin and hole-spin qubits interacting with environmental nuclear spins via hyperfine interactions or qubits with charge or flux degrees of freedom interacting with coherent charge or paramagnetic impurities.
翻訳日:2023-09-27 01:49:11 公開日:2023-09-22
# ゼロショット自己監督型学習再構成によるマルチショット拡散強調MRIの改良

Improved Multi-Shot Diffusion-Weighted MRI with Zero-Shot Self-Supervised Learning Reconstruction ( http://arxiv.org/abs/2308.05103v2 )

ライセンス: Link先を確認
Jaejin Cho, Yohan Jun, Xiaoqing Wang, Caique Kobayashi, Berkin Bilgic(参考訳) 拡散MRIはエコープラナー画像(EPI)を用いて高速な取得時間で行うのが一般的である。 しかし、拡散強調画像の解像度は磁場の不均一性に関連するアーティファクトや、T2-およびT2*-緩和効果によって引き起こされるぼかしによって制限されることが多い。 これらの制約に対処するため、マルチショット EPI (msEPI) と並列イメージング技術が併用されることが多い。 それでも、複数のショット間の位相変化のため、msEPIの再構成は困難である。 本研究では,0-MIRID(Multi-shot Image Reconstruction for Improved Diffusion MRI)と呼ばれる新しいmsEPI再構成手法を提案する。 本手法は,深層学習に基づく画像正規化手法を組み込んだmsepiデータを共同で再構成する。 このネットワークは、仮想コイルを活用して画像再構成条件を改善するとともに、k空間と画像空間の両方にCNNデノイザを組み込んでいる。 自己教師付き学習手法を採用し,サンプルデータを3つのグループに分割することにより,本手法は現状の並列イメージング法よりも優れた結果が得られる。

Diffusion MRI is commonly performed using echo-planar imaging (EPI) due to its rapid acquisition time. However, the resolution of diffusion-weighted images is often limited by magnetic field inhomogeneity-related artifacts and blurring induced by T2- and T2*-relaxation effects. To address these limitations, multi-shot EPI (msEPI) combined with parallel imaging techniques is frequently employed. Nevertheless, reconstructing msEPI can be challenging due to phase variation between multiple shots. In this study, we introduce a novel msEPI reconstruction approach called zero-MIRID (zero-shot self-supervised learning of Multi-shot Image Reconstruction for Improved Diffusion MRI). This method jointly reconstructs msEPI data by incorporating deep learning-based image regularization techniques. The network incorporates CNN denoisers in both k- and image-spaces, while leveraging virtual coils to enhance image reconstruction conditioning. By employing a self-supervised learning technique and dividing sampled data into three groups, the proposed approach achieves superior results compared to the state-of-the-art parallel imaging method, as demonstrated in an in-vivo experiment.
翻訳日:2023-09-27 01:32:02 公開日:2023-09-22
# ChatGPTの共感能力を探る

Exploring ChatGPT's Empathic Abilities ( http://arxiv.org/abs/2308.03527v3 )

ライセンス: Link先を確認
Kristina Schaaff, Caroline Reinig, Tim Schlippe(参考訳) 共感はしばしば、他人の心の状態や感情を共有し理解する能力として理解される。 様々な領域におけるチャットボットの利用が増加し、例えば、宿題を手伝う子供たち、医療アドバイスを求める個人、日々の交流の源泉としてチャットボットを使用している人々などによって、人間とコンピュータの相互作用における共感の重要性が増している。 そこで本研究では,GPT-3.5に基づくChatGPTが情緒的反応や情緒的表情を呈する程度について検討した。 本研究では,(1)感情の理解と表現,(2)パラレル感情応答,(3)共感的性格の3つの側面を解析した。 そこで我々はChatGPTを様々な共感的側面で評価し、人間の行動と比較するだけでなく、チャットボット全般の共感を解析する方法も示す。 その結果、91.7%の症例において、ChatGPTは感情を正しく識別し、適切な回答を得られることがわかった。 会話中、chatgptは70.7%の症例で平行感情で反応した。 ChatGPTの共感能力は,共感の異なる側面をカバーする5つの質問紙を用いて評価した。 結果から、ChatGPTのスコアは健康な人間の平均よりも依然として悪いことが分かるが、Asperger症候群/高機能自閉症と診断された人よりも良いスコアである。

Empathy is often understood as the ability to share and understand another individual's state of mind or emotion. With the increasing use of chatbots in various domains, e.g., children seeking help with homework, individuals looking for medical advice, and people using the chatbot as a daily source of everyday companionship, the importance of empathy in human-computer interaction has become more apparent. Therefore, our study investigates the extent to which ChatGPT based on GPT-3.5 can exhibit empathetic responses and emotional expressions. We analyzed the following three aspects: (1) understanding and expressing emotions, (2) parallel emotional response, and (3) empathic personality. Thus, we not only evaluate ChatGPT on various empathy aspects and compare it with human behavior but also show a possible way to analyze the empathy of chatbots in general. Our results show, that in 91.7% of the cases, ChatGPT was able to correctly identify emotions and produces appropriate answers. In conversations, ChatGPT reacted with a parallel emotion in 70.7% of cases. The empathic capabilities of ChatGPT were evaluated using a set of five questionnaires covering different aspects of empathy. Even though the results show, that the scores of ChatGPT are still worse than the average of healthy humans, it scores better than people who have been diagnosed with Asperger syndrome / high-functioning autism.
翻訳日:2023-09-27 01:28:48 公開日:2023-09-22
# リアルタイムデハージングのための周波数補償拡散モデル

Frequency Compensated Diffusion Model for Real-scene Dehazing ( http://arxiv.org/abs/2308.10510v2 )

ライセンス: Link先を確認
Jing Wang, Songtao Wu, Kuanhong Xu, and Zhiqiang Yuan(参考訳) 分布シフトのため、深層学習に基づく画像デハジング手法は、実世界のハジング画像に適用すると性能低下に苦しむ。 本稿では,実ヘイズへの一般化を改善するための条件拡散モデルに基づくデヘイジングフレームワークについて検討する。 まず,拡散モデルの学習目標,すなわちガウス雑音ベクトルの最適化は非自明であることがわかった。 ディープネットワークのスペクトルバイアスは、ガウスベクトルの高周波数モードの学習を妨げるため、画像詳細の再構成を阻害する。 そこで本研究では,入力信号の中~高周波数を協調的に強調するフィルタバンクを用いた,周波数補償ブロック(fcb)と呼ばれるネットワークユニットを設計する。 fcbを用いた拡散モデルが知覚と歪みの指標の両方において有意な利益をもたらすことを実証する。 第2に,一般化性能をさらに向上させるため,HazAugという新たなデータ合成パイプラインを提案し,次数と多様性の観点からヘイズを増強する。 フレームワーク内では、ブラインドデハジングのためのソリッドベースラインが設定され、モデルが合成ハジークリーンペアに基づいてトレーニングされ、実際のデータに直接一般化される。 広範に評価した結果,提案手法は実世界画像の最先端手法を著しく上回ることがわかった。 私たちのコードはhttps://github.com/W-Jilly/ frequency-compensated-diffusion-model-pytorchにあります。

Due to distribution shift, deep learning based methods for image dehazing suffer from performance degradation when applied to real-world hazy images. In this paper, we consider a dehazing framework based on conditional diffusion models for improved generalization to real haze. First, we find that optimizing the training objective of diffusion models, i.e., Gaussian noise vectors, is non-trivial. The spectral bias of deep networks hinders the higher frequency modes in Gaussian vectors from being learned and hence impairs the reconstruction of image details. To tackle this issue, we design a network unit, named Frequency Compensation block (FCB), with a bank of filters that jointly emphasize the mid-to-high frequencies of an input signal. We demonstrate that diffusion models with FCB achieve significant gains in both perceptual and distortion metrics. Second, to further boost the generalization performance, we propose a novel data synthesis pipeline, HazeAug, to augment haze in terms of degree and diversity. Within the framework, a solid baseline for blind dehazing is set up where models are trained on synthetic hazy-clean pairs, and directly generalize to real data. Extensive evaluations show that the proposed dehazing diffusion model significantly outperforms state-of-the-art methods on real-world images. Our code is at https://github.com/W-Jilly/frequency-compensated-diffusion-model-pytorch.
翻訳日:2023-09-27 01:22:06 公開日:2023-09-22
# 既存の顆粒の代数的, トポロジー的, メアロジー的基礎

Algebraic, Topological, and Mereological Foundations of Existential Granules ( http://arxiv.org/abs/2308.16157v2 )

ライセンス: Link先を確認
A Mani(参考訳) 本研究では, 自己を決定する実存顆粒の新しい概念を考案し, 代数的, 位相的, メレロジー的観点から特徴付ける。 既存の顆粒は最初は自分自身を決定づけ、その後環境と相互作用するものである。 グラニュラーボールの概念の例は、不適切な定義、アルゴリズムが確立され、他者による以前の研究で不十分に理論化されたが、既に粗い集合やソフトコンピューティングの応用に使われている。 粒度計算の複数の理論的枠組み(アダプティブ、アダプティブなど)に適合することが示されている。 特徴付けは、アルゴリズムの開発、分類問題への応用、およびアプローチの一般化の数学的基礎に関するものである。 さらに、多くのオープンな問題や指示が提示される。

In this research, new concepts of existential granules that determine themselves are invented, and are characterized from algebraic, topological, and mereological perspectives. Existential granules are those that determine themselves initially, and interact with their environment subsequently. Examples of the concept, such as those of granular balls, though inadequately defined, algorithmically established, and insufficiently theorized in earlier works by others, are already used in applications of rough sets and soft computing. It is shown that they fit into multiple theoretical frameworks (axiomatic, adaptive, and others) of granular computing. The characterization is intended for algorithm development, application to classification problems and possible mathematical foundations of generalizations of the approach. Additionally, many open problems are posed and directions provided.
翻訳日:2023-09-27 01:10:50 公開日:2023-09-22
# ゼロショット異常検出のためのクリップによるランダム単語データ拡張

Random Word Data Augmentation with CLIP for Zero-Shot Anomaly Detection ( http://arxiv.org/abs/2308.11119v2 )

ライセンス: Link先を確認
Masato Tamura(参考訳) 本稿では,ゼロショット異常検出のためのデータソースとして,視覚言語モデルCLIPを利用する新しい手法を提案する。 産業応用の可能性から異常検出器の開発に多大な努力が払われている。 トレーニングのための様々な異常なサンプルを取得することの難しさを考慮すると、既存の手法のほとんどは正常なサンプルのみを用いてモデルを訓練し、推論中の正常なサンプルの分布との差異を測定する。 この非効率なトレーニング要件の問題は、スライドウインドウ方式で画像の各部分に即時誘導分類を適用するCLIPベースの異常検出器を設計することで解決されている。 しかし、この方法はまだ既知のオブジェクトカテゴリを慎重にセンシングする作業に苦しむ。 上記の問題を克服するため、トレーニング用のデータソースとしてCLIPを活用することを提案する。 テキストエンコーダをCLIPのテキストエンコーダに埋め込み、正規語や異常語を含む典型的なプロンプトを生成する。 これらの単語に加えて、ランダムに生成された複数の単語をプロンプトに挿入することで、エンコーダは様々な正規および異常なサンプルを生成することができる。 生成された埋め込みをトレーニングデータとして、フィードフォワードニューラルネットワークは、クリップの埋め込みから正常および異常の特徴を抽出するように学習し、その結果、トレーニング画像なしでカテゴリ非依存の異常検出を行うことができる。 実験により, ゼロショットセットアップにおいて, 精巧なプロンプトアンサンブルを伴わずに, 最先端の性能を達成できることが実証された。

This paper presents a novel method that leverages a visual-language model, CLIP, as a data source for zero-shot anomaly detection. Tremendous efforts have been put towards developing anomaly detectors due to their potential industrial applications. Considering the difficulty in acquiring various anomalous samples for training, most existing methods train models with only normal samples and measure discrepancies from the distribution of normal samples during inference, which requires training a model for each object category. The problem of this inefficient training requirement has been tackled by designing a CLIP-based anomaly detector that applies prompt-guided classification to each part of an image in a sliding window manner. However, the method still suffers from the labor of careful prompt ensembling with known object categories. To overcome the issues above, we propose leveraging CLIP as a data source for training. Our method generates text embeddings with the text encoder in CLIP with typical prompts that include words of normal and anomaly. In addition to these words, we insert several randomly generated words into prompts, which enables the encoder to generate a diverse set of normal and anomalous samples. Using the generated embeddings as training data, a feed-forward neural network learns to extract features of normal and anomaly from CLIP's embeddings, and as a result, a category-agnostic anomaly detector can be obtained without any training images. Experimental results demonstrate that our method achieves state-of-the-art performance without laborious prompt ensembling in zero-shot setups.
翻訳日:2023-09-27 01:07:50 公開日:2023-09-22
# SayNav: 新しい環境での動的計画とナビゲーションのための大規模言語モデル

SayNav: Grounding Large Language Models for Dynamic Planning to Navigation in New Environments ( http://arxiv.org/abs/2309.04077v3 )

ライセンス: Link先を確認
Abhinav Rajvanshi, Karan Sikka, Xiao Lin, Bhoram Lee, Han-Pang Chiu and Alvaro Velasquez(参考訳) 自律エージェントが未知の環境で複雑なナビゲーションタスクを実行するためには、セマンティック推論と動的計画能力が不可欠である。 これらのタスクを成功させるためには、人間が持っている多くの常識知識が必要である。 我々は,Large Language Models (LLMs) からの人間の知識を活用し,未知の大規模環境における複雑なナビゲーションタスクへの効率的な一般化を行う新しいアプローチであるSayNavを提案する。 SayNavは、探索環境の3DシーングラフをLSMへの入力としてインクリメンタルに構築する新しい基盤機構を使用して、ナビゲーションのための実用的でコンテキスト的に適切な高レベルプランを生成する。 LLMの生成したプランは、事前訓練された低レベルプランナーによって実行され、各ステップを短距離のポイントゴールナビゲーションサブタスクとして扱う。 SayNavはナビゲーション中に動的にステップバイステップの指示を生成し、新たに認識された情報に基づいて将来のステップを継続的に洗練する。 エージェントが未知の環境で複数の異なるオブジェクトを効率的に探索するために膨大な量の人間知識を利用する必要がある、新しいマルチオブジェクトナビゲーションタスクでsaynavを評価する。 saynavはoracleベースのpoint-navベースラインを上回り、このタスクの理想的な設定の下で95.35%(ベースラインで56.06%)の成功率を達成し、大規模な新しい環境でオブジェクトをうまく配置するための動的プランを生成する能力を強調している。 さらにSayNavは、シミュレーションから実際の新しい環境まで、学習の効率的な一般化を可能にする。

Semantic reasoning and dynamic planning capabilities are crucial for an autonomous agent to perform complex navigation tasks in unknown environments. It requires a large amount of common-sense knowledge, that humans possess, to succeed in these tasks. We present SayNav, a new approach that leverages human knowledge from Large Language Models (LLMs) for efficient generalization to complex navigation tasks in unknown large-scale environments. SayNav uses a novel grounding mechanism, that incrementally builds a 3D scene graph of the explored environment as inputs to LLMs, for generating feasible and contextually appropriate high-level plans for navigation. The LLM-generated plan is then executed by a pre-trained low-level planner, that treats each planned step as a short-distance point-goal navigation sub-task. SayNav dynamically generates step-by-step instructions during navigation and continuously refines future steps based on newly perceived information. We evaluate SayNav on a new multi-object navigation task, that requires the agent to utilize a massive amount of human knowledge to efficiently search multiple different objects in an unknown environment. SayNav outperforms an oracle based Point-nav baseline, achieving a success rate of 95.35% (vs 56.06% for the baseline), under the ideal settings on this task, highlighting its ability to generate dynamic plans for successfully locating objects in large-scale new environments. In addition, SayNav also enables efficient generalization of learning to navigate from simulation to real novel environments.
翻訳日:2023-09-27 01:01:45 公開日:2023-09-22
# 一般粗集合における定量アグリゲーションの代数モデルとバイアス発見の推論

Algebraic Models for Qualified Aggregation in General Rough Sets, and Reasoning Bias Discovery ( http://arxiv.org/abs/2309.03217v2 )

ライセンス: Link先を確認
A Mani(参考訳) 一般的な粗集合の文脈では、2つのものを組み合わせて別のものを作る行為は単純ではない。 この状況は不確実性と曖昧さを懸念する他の理論と似ている。 そのような作用は、$*$-ノルムの理論や$L$-ファジィ集合に対する関連する含意のように、構造的連結と解離を越えて追加的な意味を持つことができる。 本研究では,一般化された格子上の粗い集合と近似作用素(粗いコンビニエンス格子と呼ばれる)を結合する作用の代数モデルが考案された。 この調査は、懐疑的、悲観的、そして人間の推論における楽観的、またはポシビリスティックな集約をモデル化したいという願望に強く動機付けられており、操作の選択は視点によって制約されている。 最小モデルによる弱い否定と含意に関する基礎的な結果が証明された。 さらに、このモデルは、人間の推論における差別的・有害な行動の研究や、そのような行動を学ぶmlアルゴリズムに適している。

In the context of general rough sets, the act of combining two things to form another is not straightforward. The situation is similar for other theories that concern uncertainty and vagueness. Such acts can be endowed with additional meaning that go beyond structural conjunction and disjunction as in the theory of $*$-norms and associated implications over $L$-fuzzy sets. In the present research, algebraic models of acts of combining things in generalized rough sets over lattices with approximation operators (called rough convenience lattices) is invented. The investigation is strongly motivated by the desire to model skeptical or pessimistic, and optimistic or possibilistic aggregation in human reasoning, and the choice of operations is constrained by the perspective. Fundamental results on the weak negations and implications afforded by the minimal models are proved. In addition, the model is suitable for the study of discriminatory/toxic behavior in human reasoning, and of ML algorithms learning such behavior.
翻訳日:2023-09-27 01:01:17 公開日:2023-09-22
# グラフリンク予測を用いたライフスタイルVlogにおけるヒューマンアクション共起

Human Action Co-occurrence in Lifestyle Vlogs using Graph Link Prediction ( http://arxiv.org/abs/2309.06219v2 )

ライセンス: Link先を確認
Oana Ignat, Santiago Castro, Weiji Li, Rada Mihalcea(参考訳) 我々は,2つの人間の行動が同じ時間間隔で共起可能かどうかを判断する,自動的人間の行動共起識別タスクを導入する。 我々はACE(Action Co-occurrencE)データセットを公開し、約12kのビジュアルアクションとそれに対応するビデオクリップからなる巨大なグラフを作成し、公開する。 視覚情報とテキスト情報を利用して2つのアクションが共起しているかどうかを自動的に推測するグラフリンク予測モデルについて述べる。 グラフは人間の行動間の関係を捉えるのに特に適しており、学習したグラフ表現はタスクに有効であり、異なるデータ領域にまたがる新規および関連情報をキャプチャする。 この論文で導入されたACEデータセットとコードはhttps://github.com/MichiganNLP/vlog_action_co-occurrenceで公開されている。

We introduce the task of automatic human action co-occurrence identification, i.e., determine whether two human actions can co-occur in the same interval of time. We create and make publicly available the ACE (Action Co-occurrencE) dataset, consisting of a large graph of ~12k co-occurring pairs of visual actions and their corresponding video clips. We describe graph link prediction models that leverage visual and textual information to automatically infer if two actions are co-occurring. We show that graphs are particularly well suited to capture relations between human actions, and the learned graph representations are effective for our task and capture novel and relevant information across different data domains. The ACE dataset and the code introduced in this paper are publicly available at https://github.com/MichiganNLP/vlog_action_co-occurrence.
翻訳日:2023-09-27 00:50:46 公開日:2023-09-22
# リーマン多様体上のMat\'ern Gaussian過程の後方収縮速度

Posterior Contraction Rates for Mat\'ern Gaussian Processes on Riemannian Manifolds ( http://arxiv.org/abs/2309.10918v2 )

ライセンス: Link先を確認
Paul Rosa and Viacheslav Borovitskiy and Alexander Terenin and Judith Rousseau(参考訳) ガウス過程は不確実性定量化に依存する多くの機械学習アプリケーションで使われている。 近年、リーマン多様体上の入力のような幾何学的設定でこれらのモデルを扱うための計算ツールが開発されている。 これらの内在的なモデルは、単にすべての関連する量を$\mathbb{r}^d$に埋め込み、通常のユークリッドガウス過程の制限を用いるよりも、理論的により良いパフォーマンスをもたらすことができるか? これを調べるために、コンパクトリーマン多様体上で定義される内在的マト・エルン・ガウス過程の最適収縮率を証明できる。 また、多様体と周囲のソボレフ空間の間のトレースおよび拡張定理を用いて、外部過程の類似の速度を証明した: 幾分驚くべきことに、それらの滑らかさパラメータが適切に一致していることから、本質的過程のそれと一致することが判明した。 先行研究の反映として,本質的プロセスが実際によりよいパフォーマンスを達成できることを示す,いくつかの例を実証的に示す。 そこで本研究では,幾何学的ガウス過程の異なるレベルのデータ効率を,特に小さなデータセットのサイズと非漸近的振る舞いを含む設定で区別するために,よりきめ細かい解析が必要であることを示す。

Gaussian processes are used in many machine learning applications that rely on uncertainty quantification. Recently, computational tools for working with these models in geometric settings, such as when inputs lie on a Riemannian manifold, have been developed. This raises the question: can these intrinsic models be shown theoretically to lead to better performance, compared to simply embedding all relevant quantities into $\mathbb{R}^d$ and using the restriction of an ordinary Euclidean Gaussian process? To study this, we prove optimal contraction rates for intrinsic Mat\'ern Gaussian processes defined on compact Riemannian manifolds. We also prove analogous rates for extrinsic processes using trace and extension theorems between manifold and ambient Sobolev spaces: somewhat surprisingly, the rates obtained turn out to coincide with those of the intrinsic processes, provided that their smoothness parameters are matched appropriately. We illustrate these rates empirically on a number of examples, which, mirroring prior work, show that intrinsic processes can achieve better performance in practice. Therefore, our work shows that finer-grained analyses are needed to distinguish between different levels of data-efficiency of geometric Gaussian processes, particularly in settings which involve small data set sizes and non-asymptotic behavior.
翻訳日:2023-09-26 22:45:34 公開日:2023-09-22
# JPEGのためのCNN:計算コストに関する研究

CNNs for JPEGs: A Study in Computational Cost ( http://arxiv.org/abs/2309.11417v2 )

ライセンス: Link先を確認
Samuel Felipe dos Santos, Nicu Sebe, and Jurandy Almeida(参考訳) 畳み込みニューラルネットワーク(cnns)は、過去10年間に驚くべき進歩を遂げ、いくつかのコンピュータビジョンタスクで最先端を定義する。 CNNはRGBピクセルから直接データの堅牢な表現を学習することができる。 しかし、ほとんどの画像データは圧縮フォーマットで利用可能であり、jpegは送信やストレージの目的で、高い計算負荷とメモリ使用量を持つプリミティブデコーディングプロセスを要求するため、最も広く使われている。 このため,近年,圧縮領域から直接学習できる深層学習手法が注目されている。 これらの手法は通常、部分的復号化によってDCTのような画像の周波数領域表現を抽出し、典型的なCNNアーキテクチャに適応して処理を行う。 現在の研究の1つの制限は、周波数領域のデータに対応するために、元のモデルに施された修正がパラメータの量と計算複雑性を著しく増加させることである。 一方, 画像の完全復号化コストは回避されるため, 高速な前処理が可能であり, 一方, モデルが向上しても, 画像の通過コストが増大し, 高速化の可能性が軽減される。 本稿では,周波数領域用に設計した深層モデルの計算コストのさらなる検討を行い,画像の復号化とネットワークへの転送のコストを評価する。 また,RGBベースラインと類似性を維持するため,計算コストと精度のトレードオフを良くした効率的なモデルを実現するために,計算複雑性とパラメータ数を削減できる手作業型およびデータ駆動型手法を提案する。

Convolutional neural networks (CNNs) have achieved astonishing advances over the past decade, defining state-of-the-art in several computer vision tasks. CNNs are capable of learning robust representations of the data directly from the RGB pixels. However, most image data are usually available in compressed format, from which the JPEG is the most widely used due to transmission and storage purposes demanding a preliminary decoding process that have a high computational load and memory usage. For this reason, deep learning methods capable of learning directly from the compressed domain have been gaining attention in recent years. Those methods usually extract a frequency domain representation of the image, like DCT, by a partial decoding, and then make adaptation to typical CNNs architectures to work with them. One limitation of these current works is that, in order to accommodate the frequency domain data, the modifications made to the original model increase significantly their amount of parameters and computational complexity. On one hand, the methods have faster preprocessing, since the cost of fully decoding the images is avoided, but on the other hand, the cost of passing the images though the model is increased, mitigating the possible upside of accelerating the method. In this paper, we propose a further study of the computational cost of deep models designed for the frequency domain, evaluating the cost of decoding and passing the images through the network. We also propose handcrafted and data-driven techniques for reducing the computational complexity and the number of parameters for these models in order to keep them similar to their RGB baselines, leading to efficient models with a better trade off between computational cost and accuracy.
翻訳日:2023-09-26 22:34:22 公開日:2023-09-22
# ヘテロジニアス情報ネットワークのためのプロトタイプ強化ハイパーグラフ学習

Prototype-Enhanced Hypergraph Learning for Heterogeneous Information Networks ( http://arxiv.org/abs/2309.13092v1 )

ライセンス: Link先を確認
Shuai Wang, Jiayi Shen, Athanasios Efthymiou, Stevan Rudinac, Monika Kackovic, Nachoem Wijnberg, Marcel Worring(参考訳) マルチメディアデータにおける関係の多様性と複雑さは、異種情報ネットワーク(HIN)につながる。 このようなネットワークからセマンティクスをキャプチャするには、HINの完全な豊かさを活用できるアプローチが必要である。 既存のHINのモデリング方法は、もともとグラフニューラルネットワーク用に設計された技術と、手動で定義されたメタパスを使用するようなHINの分解分析を用いる。 本稿では,HINにおけるノード分類のための新しいハイパーグラフ学習手法を提案する。 グラフの代わりにハイパーグラフを用いてノード間の高次関係を抽出し,メタパスに頼ることなく意味情報を抽出する。 提案手法はプロトタイプの力を利用してハイパーグラフ学習プロセスの堅牢性を向上し,その基盤となるネットワーク構造に対する人間の解釈可能な洞察を提供する可能性を生み出す。 実世界の3つのHINに対する大規模な実験により,本手法の有効性が示された。

The variety and complexity of relations in multimedia data lead to Heterogeneous Information Networks (HINs). Capturing the semantics from such networks requires approaches capable of utilizing the full richness of the HINs. Existing methods for modeling HINs employ techniques originally designed for graph neural networks, and HINs decomposition analysis, like using manually predefined metapaths. In this paper, we introduce a novel prototype-enhanced hypergraph learning approach for node classification in HINs. Using hypergraphs instead of graphs, our method captures higher-order relationships among nodes and extracts semantic information without relying on metapaths. Our method leverages the power of prototypes to improve the robustness of the hypergraph learning process and creates the potential to provide human-interpretable insights into the underlying network structure. Extensive experiments on three real-world HINs demonstrate the effectiveness of our method.
翻訳日:2023-09-26 22:25:50 公開日:2023-09-22
# 3つの相互非可換オブザーバブルの2つの集合間の確率的等価性を予測する新しい文脈性

A Novel Form of Contextuality Predicting Probabilistic Equivalence between Two Sets of Three Mutually Noncommuting Observables ( http://arxiv.org/abs/2309.13091v1 )

ライセンス: Link先を確認
Mirko Navara and Karl Svozil(参考訳) 観測可能量の新しい文脈量子システムを導入し、三重非可換観測可能な2つの集合間の発生確率の状態非依存の等式を予測する。

A novel contextual quantum system of observables is introduced, which predicts the state-independent equality of occurrence probabilities between two sets of triple mutually noncommuting observables.
翻訳日:2023-09-26 22:25:36 公開日:2023-09-22
# 携帯型ラマン分光法によるウイスキー識別のための学習アルゴリズム

Learning algorithms for identification of whisky using portable Raman spectroscopy ( http://arxiv.org/abs/2309.13087v1 )

ライセンス: Link先を確認
Kwang Jun Lee, Alexander C. Trowbridge, Graham D. Bruce, George O. Dwapanyin, Kylie R. Dunning, Kishan Dholakia, Erik P. Schartner(参考訳) ウイスキーのような高価値商品の信頼性の高い識別は、ブランドの置換(詐欺製品)や品質管理などの問題が業界にとって重要であるため、ますます重要になっている。 市販ウイスキー試料のエタノール/メタノール濃度を同定し,特徴付けるため,様々な機械学習アルゴリズムを調査し,携帯型ラマン分光装置と直接インターフェースした。 機械学習モデルが28の商用サンプルのブランド識別において99%以上の精度を達成できることを実証する。 このアプローチの柔軟性を示すために、同じサンプルとアルゴリズムを使用してエタノール濃度を定量し、スパイクウイスキー試料中のメタノール濃度を測定した。 筆者らの機械学習技術は, サンプルを元の容器から切り離すことなく, スペクトル分析と同定を行うためのスルー・ザ・ボトル法と組み合わせて, 偽造または未成年精神などの高価値液体試料の検出に対する本手法の実用可能性を示す。

Reliable identification of high-value products such as whisky is an increasingly important area, as issues such as brand substitution (i.e. fraudulent products) and quality control are critical to the industry. We have examined a range of machine learning algorithms and interfaced them directly with a portable Raman spectroscopy device to both identify and characterize the ethanol/methanol concentrations of commercial whisky samples. We demonstrate that machine learning models can achieve over 99% accuracy in brand identification across twenty-eight commercial samples. To demonstrate the flexibility of this approach we utilised the same samples and algorithms to quantify ethanol concentrations, as well as measuring methanol levels in spiked whisky samples. Our machine learning techniques are then combined with a through-the-bottle method to perform spectral analysis and identification without requiring the sample to be decanted from the original container, showing the practical potential of this approach to the detection of counterfeit or adulterated spirits and other high value liquid samples.
翻訳日:2023-09-26 22:25:31 公開日:2023-09-22
# 最大独立集合に対する反復量子アルゴリズム:低深さ量子アルゴリズムの物語

Iterative Quantum Algorithms for Maximum Independent Set: A Tale of Low-Depth Quantum Algorithms ( http://arxiv.org/abs/2309.13110v1 )

ライセンス: Link先を確認
Lucas T. Brady, Stuart Hadfield(参考訳) 量子アルゴリズムは組合せ最適化問題の文脈で広く研究されている。 この取り組みはしばしば解析的かつ実際に二次的なスピードアップを達成することができるが、理論的および数値的研究は、特に古典的アルゴリズムの研究と比較して、限られている。 本稿では,特に再帰的量子近似最適化アルゴリズムを一般化したIterative Quantum Algorithmsと呼ばれる,量子最適化のための新しいハイブリッド手法を提案する。 このパラダイムは、最大独立集合(MIS)問題を考慮し、ハードな制約を組み込むことができる。 深度$p=1$のQAOAの場合、このアルゴリズムはMISの古典的欲求アルゴリズムと全く同じ操作と選択を行う。 次に、より深い$p>1$の回路や他の古典的アルゴリズムでは容易に模倣できない量子アルゴリズムの修正方法を示し、性能改善を実証的に確認する。 本研究は,実証済みの古典的手法をより効果的なハイブリッド量子古典アルゴリズムに組み込む実践的重要性を実証する。

Quantum algorithms have been widely studied in the context of combinatorial optimization problems. While this endeavor can often analytically and practically achieve quadratic speedups, theoretical and numeric studies remain limited, especially compared to the study of classical algorithms. We propose and study a new class of hybrid approaches to quantum optimization, termed Iterative Quantum Algorithms, which in particular generalizes the Recursive Quantum Approximate Optimization Algorithm. This paradigm can incorporate hard problem constraints, which we demonstrate by considering the Maximum Independent Set (MIS) problem. We show that, for QAOA with depth $p=1$, this algorithm performs exactly the same operations and selections as the classical greedy algorithm for MIS. We then turn to deeper $p>1$ circuits and other ways to modify the quantum algorithm that can no longer be easily mimicked by classical algorithms, and empirically confirm improved performance. Our work demonstrates the practical importance of incorporating proven classical techniques into more effective hybrid quantum-classical algorithms.
翻訳日:2023-09-26 22:15:16 公開日:2023-09-22
# データはしばしば短い深さでロード可能である:財務、画像、流体、タンパク質のためのテンソルネットワークからの量子回路

Data is often loadable in short depth: Quantum circuits from tensor networks for finance, images, fluids, and proteins ( http://arxiv.org/abs/2309.13108v1 )

ライセンス: Link先を確認
Raghav Jumade, Nicolas PD Sawaya(参考訳) 古典的データセットを研究する量子アルゴリズムの開発にはかなりの進歩があったが、古典的データを単にロードするコストは量子的優位性の障害となっている。 振幅符号化を使用する場合、任意の古典ベクトルをロードするには、量子ビット数に対して指数回路の深さを最大にする必要がある。 ここでは、この ``input problem'' に2つの貢献で対処する。 まず,テンソルネットワーク(TN)理論に基づく回路コンパイル手法を提案する。 AMLET(Automatic Multi-layer Loader Exploiting TNs)は、特定のTNトポロジーを慎重に構築することで、任意の回路深さに合わせて調整することができる。 第2に,金融,画像,流体力学,タンパク質の4つの異なる領域から,実世界の古典データについて数値実験を行う。 我々の知る限りでは、これは古典的なデータを量子コンピュータにロードするまでの最も広い数値解析である。 この領域における他の研究と同様に、必要な回路深さは指数的にスケーリングされる一般的な負荷アルゴリズムよりも数桁低い場合が多い。 より効率的なローディングアルゴリズムを導入することに加えて、この研究は、多くの古典的データセットが従来よりもはるかに短い深さでロード可能であることを示す。

Though there has been substantial progress in developing quantum algorithms to study classical datasets, the cost of simply loading classical data is an obstacle to quantum advantage. When the amplitude encoding is used, loading an arbitrary classical vector requires up to exponential circuit depths with respect to the number of qubits. Here, we address this ``input problem'' with two contributions. First, we introduce a circuit compilation method based on tensor network (TN) theory. Our method -- AMLET (Automatic Multi-layer Loader Exploiting TNs) -- proceeds via careful construction of a specific TN topology and can be tailored to arbitrary circuit depths. Second, we perform numerical experiments on real-world classical data from four distinct areas: finance, images, fluid mechanics, and proteins. To the best of our knowledge, this is the broadest numerical analysis to date of loading classical data into a quantum computer. Consistent with other recent work in this area, the required circuit depths are often several orders of magnitude lower than the exponentially-scaling general loading algorithm would require. Besides introducing a more efficient loading algorithm, this work demonstrates that many classical datasets are loadable in depths that are much shorter than previously expected, which has positive implications for speeding up classical workloads on quantum computers.
翻訳日:2023-09-26 22:14:57 公開日:2023-09-22
# OpportunityFinder: 自動因果推論のためのフレームワーク

OpportunityFinder: A Framework for Automated Causal Inference ( http://arxiv.org/abs/2309.13103v1 )

ライセンス: Link先を確認
Huy Nguyen, Prince Grover, Devashish Khatwani(参考訳) 非エキスパートユーザのためのパネルデータを用いた様々な因果推論研究を行うためのコードレスフレームワークであるOpportunityFinderを紹介する。 現在の状態では、OpportunityFinderは、ユーザが生の観測データと設定ファイルを提供するだけでよい。 次にパイプラインが起動され、データを検査・処理し、適切なアルゴリズムを選択して因果研究を実行する。 選択された結果に対する治療の因果的影響を、感度と堅牢性の結果と共に返す。 因果推論は広く研究され、製品や特徴との相互作用が下流に与える影響を推定するために使われる。 これらの因果研究は科学者や経済学者が定期的に行うことが一般的である。 ビジネスの利害関係者はしばしば因果研究を行うために科学者や経済学者の帯域幅にボトルネックされる。 我々は,(1)ビジネスアナリストと科学者の両方で簡単に利用できること,(2)単一I/Oインタフェース下での複数のアルゴリズムの抽象化,(3)パネルデータによるバイナリ処理による因果的影響解析のサポート,(4)データのスケールに基づくアルゴリズムの動的選択の4つの主要な特徴を持つ因果的研究のためのソリューションとして,OpportunityFinderを提供する。

We introduce OpportunityFinder, a code-less framework for performing a variety of causal inference studies with panel data for non-expert users. In its current state, OpportunityFinder only requires users to provide raw observational data and a configuration file. A pipeline is then triggered that inspects/processes data, chooses the suitable algorithm(s) to execute the causal study. It returns the causal impact of the treatment on the configured outcome, together with sensitivity and robustness results. Causal inference is widely studied and used to estimate the downstream impact of individual's interactions with products and features. It is common that these causal studies are performed by scientists and/or economists periodically. Business stakeholders are often bottle-necked on scientist or economist bandwidth to conduct causal studies. We offer OpportunityFinder as a solution for commonly performed causal studies with four key features: (1) easy to use for both Business Analysts and Scientists, (2) abstraction of multiple algorithms under a single I/O interface, (3) support for causal impact analysis under binary treatment with panel data and (4) dynamic selection of algorithm based on scale of data.
翻訳日:2023-09-26 22:14:34 公開日:2023-09-22
# FL4ASRにおける最適化者によるスムースネスの重要性 : エンドツーエンドASRにおけるフェデレーション学習の理解に向けて

Importance of Smoothness Induced by Optimizers in FL4ASR: Towards Understanding Federated Learning for End-to-End ASR ( http://arxiv.org/abs/2309.13102v1 )

ライセンス: Link先を確認
Sheikh Shams Azam, Tatiana Likhomanenko, Martin Pelikan, Jan "Honza" Silovsky(参考訳) 本稿では,federated learning(fl)を用いたエンドツーエンド自動音声認識(asr)モデルを訓練し,flを用いて学習したモデルと集中型モデル間の単語誤り率の観点から,性能の差を最小化するための基礎的考察を行った。 具体的には その効果を (i)適応オプティマイザ (ii)コネクショニスト時相分類(ctc)重みの変化による損失特性 (iii)シード開始によるモデル初期化 四 集中訓練経験からFL、例えば前層又は後層正規化に至るまでのモデリング設定を積み重ねること (v)ローカルエポック数,クライアントサンプリングサイズ,学習速度スケジューラなどのFL固有のハイパーパラメータ,特に異種データ分布下でのASRについて検討した。 私たちは、スムーズさを誘発することで、いくつかの最適化が他のものよりもうまく機能するかを明かしました。 また,アルゴリズムの適用性や傾向を要約し,FLにおける先行研究からエンド・ツー・エンドASRモデルへのベストプラクティスを提案する。

In this paper, we start by training End-to-End Automatic Speech Recognition (ASR) models using Federated Learning (FL) and examining the fundamental considerations that can be pivotal in minimizing the performance gap in terms of word error rate between models trained using FL versus their centralized counterpart. Specifically, we study the effect of (i) adaptive optimizers, (ii) loss characteristics via altering Connectionist Temporal Classification (CTC) weight, (iii) model initialization through seed start, (iv) carrying over modeling setup from experiences in centralized training to FL, e.g., pre-layer or post-layer normalization, and (v) FL-specific hyperparameters, such as number of local epochs, client sampling size, and learning rate scheduler, specifically for ASR under heterogeneous data distribution. We shed light on how some optimizers work better than others via inducing smoothness. We also summarize the applicability of algorithms, trends, and propose best practices from prior works in FL (in general) toward End-to-End ASR models.
翻訳日:2023-09-26 22:14:13 公開日:2023-09-22
# 高忠実度単分子ダイナミックシーン再構成のための変形性3次元ガウスアン

Deformable 3D Gaussians for High-Fidelity Monocular Dynamic Scene Reconstruction ( http://arxiv.org/abs/2309.13101v1 )

ライセンス: Link先を確認
Ziyi Yang, Xinyu Gao, Wen Zhou, Shaohui Jiao, Yuqing Zhang, Xiaogang Jin(参考訳) 暗黙の神経表現は動的シーン再構成とレンダリングのための新しい道を開いた。 それでも、動的ニューラルネットワークレンダリングの最先端の手法は、これらの暗黙の表現に大きく依存しており、シーン内のオブジェクトの複雑な詳細を正確に捉えるのにしばしば苦労している。 さらに、暗黙的なメソッドは、一般的な動的シーンでリアルタイムレンダリングを達成するのに苦労し、幅広いタスクでの使用を制限している。 そこで本研究では, 変形場を有する標準空間のガウスを学習し, モノクロダイナミックシーンをモデル化する, 変形可能な3次元ガウス分割法を提案する。 また、実際のデータセットにおける不正確なポーズが時間補間タスクの滑らかさに与える影響を軽減するために、余分なオーバーヘッドのない平滑化トレーニング機構も導入した。 微分ガウスラスタ化により、変形可能な3Dガウスは高いレンダリング品質だけでなく、リアルタイムレンダリング速度も達成できる。 実験により,本手法はレンダリング品質と速度の両方において既存手法よりも優れており,新規ビュー合成,時間合成,リアルタイムレンダリングといったタスクに適していることがわかった。

Implicit neural representation has opened up new avenues for dynamic scene reconstruction and rendering. Nonetheless, state-of-the-art methods of dynamic neural rendering rely heavily on these implicit representations, which frequently struggle with accurately capturing the intricate details of objects in the scene. Furthermore, implicit methods struggle to achieve real-time rendering in general dynamic scenes, limiting their use in a wide range of tasks. To address the issues, we propose a deformable 3D Gaussians Splatting method that reconstructs scenes using explicit 3D Gaussians and learns Gaussians in canonical space with a deformation field to model monocular dynamic scenes. We also introduced a smoothing training mechanism with no extra overhead to mitigate the impact of inaccurate poses in real datasets on the smoothness of time interpolation tasks. Through differential gaussian rasterization, the deformable 3D Gaussians not only achieve higher rendering quality but also real-time rendering speed. Experiments show that our method outperforms existing methods significantly in terms of both rendering quality and speed, making it well-suited for tasks such as novel-view synthesis, time synthesis, and real-time rendering.
翻訳日:2023-09-26 22:13:53 公開日:2023-09-22
# lamarckの復讐:学習された特徴の継承はロボットの進化をより良くする

Lamarck's Revenge: Inheritance of Learned Traits Can Make Robot Evolution Better ( http://arxiv.org/abs/2309.13099v1 )

ライセンス: Link先を確認
Jie Luo, Karine Miras, Jakub Tomczak, Agoston E. Eiben(参考訳) 進化ロボットシステムは、進化最適化を通じてロボットを開発する高度な方法と、進化に関する問題に関する実験を行うための特別な研究プラットフォームの2つの主要な利点を提供する。 私たちの研究はこれらの交差点にあります。 18世紀の生物学者ラマルクが完全に間違っているわけではなく、生涯に学んだ個々の特性が継承を通じて子孫に受け継がれるとしたら?」という問いを調査する。我々はこの問題を、ロボットの形態学(体)と制御学(脳)が進化し、ロボットが生涯にわたって学習することでコントローラーを改善する進化的ロボットフレームワークを用いてシミュレーションを通して研究する。 この枠組みの中で、脳の学習されたビットが継承可能であるラマルク系と、それらがそうではないダーウィン系を比較する。 これらのシステムに基づいてシミュレーションを解析し、ラマルク進化力学と進化と学習の相互作用に関する新たな知見を得る。 特に、ラマルキズムは「形態学的知性」の出現を増幅し、学習によって良い脳を獲得できるロボットの能力を強化し、この成功の源を特定できることを示します。

Evolutionary robot systems offer two principal advantages: an advanced way of developing robots through evolutionary optimization and a special research platform to conduct what-if experiments regarding questions about evolution. Our study sits at the intersection of these. We investigate the question ``What if the 18th-century biologist Lamarck was not completely wrong and individual traits learned during a lifetime could be passed on to offspring through inheritance?'' We research this issue through simulations with an evolutionary robot framework where morphologies (bodies) and controllers (brains) of robots are evolvable and robots also can improve their controllers through learning during their lifetime. Within this framework, we compare a Lamarckian system, where learned bits of the brain are inheritable, with a Darwinian system, where they are not. Analyzing simulations based on these systems, we obtain new insights about Lamarckian evolution dynamics and the interaction between evolution and learning. Specifically, we show that Lamarckism amplifies the emergence of `morphological intelligence', the ability of a given robot body to acquire a good brain by learning, and identify the source of this success: `newborn' robots have a higher fitness because their inherited brains match their bodies better than those in a Darwinian system.
翻訳日:2023-09-26 22:13:31 公開日:2023-09-22
# オンラインヘイトスピーチ、誤った情報、一般的なメンタルヘルスのトポロジカルデータマッピング:大規模言語モデルに基づく研究

Topological Data Mapping of Online Hate Speech, Misinformation, and General Mental Health: A Large Language Model Based Study ( http://arxiv.org/abs/2309.13098v1 )

ライセンス: Link先を確認
Andrew Alexander, Hongbin Wang(参考訳) ソーシャルメディアの出現により、ヘイトスピーチや誤った情報を広める可能性への懸念が高まり、偏見や差別に寄与するだけでなく、米国での暴力や犯罪の増加に重要な役割を果たしていると疑われている。 文献では、ポストヘイトスピーチとネット上の誤報とポスターの特定の性格特性との関連が示されているが、ポスターの全体的な心理的幸福の文脈におけるオンラインヘイトスピーチ/誤報の一般的な関係と関連性は、いまだ解明されていない。 難しいのは、大量のソーシャルメディアの投稿を十分に分析して、隠れたリンクを明らかにするための十分なデータ分析ツールがないことだ。 機械学習とChatGPTのような大規模言語モデルの最近の進歩は、そのような分析を可能にした。 本研究では,ソーシャルメディアサイトreddit上で,慎重に選択されたコミュニティから数千の投稿を集めた。 次に,OpenAI の GPT3 を用いて,ポストの隠れ意味論を表す高次元実数ベクトルであるこれらのポストの埋め込みを導出した。 次に,これら組込みに基づく機械学習分類を行い,様々なコミュニティにおけるヘイトスピーチ/誤情報の役割を理解する。 最後に, オンラインヘイトスピーチ, 誤報, 各種精神障害, 一般精神保健を結合した視覚地図を得るため, 埋め込みにトポロジカルデータ解析(TDA)を適用した。

The advent of social media has led to an increased concern over its potential to propagate hate speech and misinformation, which, in addition to contributing to prejudice and discrimination, has been suspected of playing a role in increasing social violence and crimes in the United States. While literature has shown the existence of an association between posting hate speech and misinformation online and certain personality traits of posters, the general relationship and relevance of online hate speech/misinformation in the context of overall psychological wellbeing of posters remain elusive. One difficulty lies in the lack of adequate data analytics tools capable of adequately analyzing the massive amount of social media posts to uncover the underlying hidden links. Recent progresses in machine learning and large language models such as ChatGPT have made such an analysis possible. In this study, we collected thousands of posts from carefully selected communities on the social media site Reddit. We then utilized OpenAI's GPT3 to derive embeddings of these posts, which are high-dimensional real-numbered vectors that presumably represent the hidden semantics of posts. We then performed various machine-learning classifications based on these embeddings in order to understand the role of hate speech/misinformation in various communities. Finally, a topological data analysis (TDA) was applied to the embeddings to obtain a visual map connecting online hate speech, misinformation, various psychiatric disorders, and general mental health.
翻訳日:2023-09-26 22:13:07 公開日:2023-09-22
# 言語ビジョンモデルを用いたゼロショットオブジェクトカウント

Zero-Shot Object Counting with Language-Vision Models ( http://arxiv.org/abs/2309.13097v1 )

ライセンス: Link先を確認
Jingyi Xu, Hieu Le, Dimitris Samaras(参考訳) クラスに依存しないオブジェクトカウントは、テスト時に任意のクラスのオブジェクトインスタンスをカウントすることを目的としている。 難しいが、多くの潜在的なアプリケーションを可能にする。 現在の方法は、新しいカテゴリー、特に自律システムでは利用できない入力として、人間に注釈を付けた例を必要とする。 そこで本研究では,テスト期間中にクラス名のみを設定できるゼロショットオブジェクトカウント(zsc)を提案する。 これにより、人間のアノテーションが不要になり、自動操作が可能となる。 ZSCを実現するために,入力画像からいくつかの対象作物を抽出し,それを例に数える方法を提案する。 目標は、関心のあるオブジェクトを含むパッチを識別し、画像内のすべてのインスタンスを視覚的に代表することです。 そこで我々はまず,CLIPやStable Diffusionを含む大規模言語ビジョンモデルを用いてクラスプロトタイプを構築し,対象オブジェクトを含むパッチを選択する。 さらに,各パッチの計数誤差を推定し,計数に適した例を選択するランキングモデルを提案する。 最近のクラス非依存計数データセットであるfsc-147の実験結果は,本手法の有効性を検証する。

Class-agnostic object counting aims to count object instances of an arbitrary class at test time. It is challenging but also enables many potential applications. Current methods require human-annotated exemplars as inputs which are often unavailable for novel categories, especially for autonomous systems. Thus, we propose zero-shot object counting (ZSC), a new setting where only the class name is available during test time. This obviates the need for human annotators and enables automated operation. To perform ZSC, we propose finding a few object crops from the input image and use them as counting exemplars. The goal is to identify patches containing the objects of interest while also being visually representative for all instances in the image. To do this, we first construct class prototypes using large language-vision models, including CLIP and Stable Diffusion, to select the patches containing the target objects. Furthermore, we propose a ranking model that estimates the counting error of each patch to select the most suitable exemplars for counting. Experimental results on a recent class-agnostic counting dataset, FSC-147, validate the effectiveness of our method.
翻訳日:2023-09-26 22:12:42 公開日:2023-09-22
# 在庫管理における需要の不確実性と変動に対処する複数独立DEM最適化

Multiple Independent DE Optimizations to Tackle Uncertainty and Variability in Demand in Inventory Management ( http://arxiv.org/abs/2309.13095v1 )

ライセンス: Link先を確認
Sarit Maitra, Sukanya Kundu, Vivek Mishra(参考訳) 確率的需要の文脈における在庫管理(IM)に対するメタヒューリスティック微分進化最適化戦略の有効性を決定するため,本研究は徹底的な調査を行う。 主な目的は、不確かな需要パターンの文脈において在庫コストを最小化するための最も効果的な戦略を見極めることである。 在庫コストとは、企業内の在庫を保有・管理する際の費用を指す。 このアプローチは、IMポリシーの継続的なレビューとモンテカルロシミュレーション(MCS)を組み合わせる。 この最適解を見つけるために、研究はメタヒューリスティックなアプローチに焦点を当て、複数のアルゴリズムを比較する。 その結果、差分進化(DE)アルゴリズムは、IMの最適化において、そのアルゴリズムよりも優れていることが明らかとなった。 パラメータを微調整するために、この研究はラテンハイパーキューブサンプリング(LHS)統計法を用いている。 最終解を決定するために、複数の独立DEM最適化の結果を組み合わせて、それぞれ異なるランダム初期条件で開始する手法を用いる。 このアプローチは在庫管理の分野に新規で有望な次元を導入し、特に確率的な需要パターンの存在下で、パフォーマンスとコスト効率の潜在的な拡張を提供する。

To determine the effectiveness of metaheuristic Differential Evolution optimization strategy for inventory management (IM) in the context of stochastic demand, this empirical study undertakes a thorough investigation. The primary objective is to discern the most effective strategy for minimizing inventory costs within the context of uncertain demand patterns. Inventory costs refer to the expenses associated with holding and managing inventory within a business. The approach combines a continuous review of IM policies with a Monte Carlo Simulation (MCS). To find the optimal solution, the study focuses on meta-heuristic approaches and compares multiple algorithms. The outcomes reveal that the Differential Evolution (DE) algorithm outperforms its counterparts in optimizing IM. To fine-tune the parameters, the study employs the Latin Hypercube Sampling (LHS) statistical method. To determine the final solution, a method is employed in this study which combines the outcomes of multiple independent DE optimizations, each initiated with different random initial conditions. This approach introduces a novel and promising dimension to the field of inventory management, offering potential enhancements in performance and cost efficiency, especially in the presence of stochastic demand patterns.
翻訳日:2023-09-26 22:12:25 公開日:2023-09-22
# 計算自然哲学 : チューリングからチャットGPTへ

Computational Natural Philosophy: A Thread from Presocratics through Turing to ChatGPT ( http://arxiv.org/abs/2309.13094v1 )

ライセンス: Link先を確認
Gordana Dodig-Crnkovic(参考訳) 現代の計算自然哲学は、情報と計算の観点で宇宙を概念化し、認知と知性の研究の枠組みを確立している。 いくつかの批判にもかかわらず、この計算的視点は自然界の理解に大きな影響を与え、深層ニューラルネットワークに基づくChatGPTのようなAIシステムの開発につながった。 この領域の進歩は学際的な研究によって促進され、複雑なシステムをシミュレートするために複数の分野からの知識を統合する。 ChatGPTのような大規模言語モデル(LLM)は、人間のフィードバックによる強化学習(RLHF)を利用して、このアプローチの能力を表している。 現在の研究は、ニューラルネットワークとシンボリックコンピューティングを統合することを目的としており、新しい世代のハイブリッド計算モデルを導入している。

Modern computational natural philosophy conceptualizes the universe in terms of information and computation, establishing a framework for the study of cognition and intelligence. Despite some critiques, this computational perspective has significantly influenced our understanding of the natural world, leading to the development of AI systems like ChatGPT based on deep neural networks. Advancements in this domain have been facilitated by interdisciplinary research, integrating knowledge from multiple fields to simulate complex systems. Large Language Models (LLMs), such as ChatGPT, represent this approach's capabilities, utilizing reinforcement learning with human feedback (RLHF). Current research initiatives aim to integrate neural networks with symbolic computing, introducing a new generation of hybrid computational models.
翻訳日:2023-09-26 22:12:05 公開日:2023-09-22
# ERASER:フォールトトレラント量子コンピューティングにおける適応リーク抑制に向けて

ERASER: Towards Adaptive Leakage Suppression for Fault-Tolerant Quantum Computing ( http://arxiv.org/abs/2309.13143v1 )

ライセンス: Link先を確認
Suhas Vittal (1), Poulami Das (2), Moinuddin Qureshi (1) ((1) Georgia Institute of Technology, (2) The University of Texas at Austin)(参考訳) 量子エラー訂正(QEC)符号は、冗長な物理量子ビットを用いてフォールトトレラント論理量子ビットを符号化し、パリティチェックを用いてエラーを検出することにより、ハードウェアエラーを許容することができる。 漏洩エラーは量子ビットが計算ベースを離れ、より高いエネルギー状態に入るときに起こる。 これらのエラーは2つの理由からQECの性能を著しく制限する。 まず、エラーの正確な検出を邪魔する誤ったパリティチェックにつながります。 第二に、リークは他のキュービットに広がり、時間とともにより多くのエラーを発生させる。 以前は、QEC符号のパリティチェック回路を変更するリーク低減回路(LRC)を使用してリークエラーを許容していた。 残念なことに、LCCは(1)漏れ輸送を促進し、(2)新しいエラー源として機能する追加の2キュービット演算を発生させるため、プログラムを通して常に直感的にLRCを使用するのが最適である。 理想的には、LRCはリークが発生した場合にのみ使用すべきであり、両方のリークからのエラーと追加のLCC操作が同時に最小化される。 しかし,リアルタイムに漏洩エラーを識別することは困難である。 LRCのロバストかつ効率的な使用を可能にするために,リークした可能性のあるキュービットのサブセットを推測するERASERを提案する。 私たちの研究によると、リークエラーの大部分は、通常パリティチェックに影響を与えます。 この洞察を利用して、パリティチェックの失敗パターンを分析して、リークしたキュービットを特定する。 本研究では,キュービットを$|0\rangle, |1\rangle$, $|l\rangle$に分類可能なqubit測定プロトコルを用いて,より正確にリークを検出することで消去性を高める消去器+mを提案する。 ERASERとERASER+Mは論理誤差率を最大4.3\times$と23\times$で改善する。

Quantum error correction (QEC) codes can tolerate hardware errors by encoding fault-tolerant logical qubits using redundant physical qubits and detecting errors using parity checks. Leakage errors occur in quantum systems when a qubit leaves its computational basis and enters higher energy states. These errors severely limit the performance of QEC due to two reasons. First, they lead to erroneous parity checks that obfuscate the accurate detection of errors. Second, the leakage spreads to other qubits and creates a pathway for more errors over time. Prior works tolerate leakage errors by using leakage reduction circuits (LRCs) that modify the parity check circuitry of QEC codes. Unfortunately, naively using LRCs always throughout a program is sub-optimal because LRCs incur additional two-qubit operations that (1) facilitate leakage transport, and (2) serve as new sources of errors. Ideally, LRCs should only be used if leakage occurs, so that errors from both leakage as well as additional LRC operations are simultaneously minimized. However, identifying leakage errors in real-time is challenging. To enable the robust and efficient usage of LRCs, we propose ERASER that speculates the subset of qubits that may have leaked and only uses LRCs for those qubits. Our studies show that the majority of leakage errors typically impact the parity checks. We leverage this insight to identify the leaked qubits by analyzing the patterns in the failed parity checks. We propose ERASER+M that enhances ERASER by detecting leakage more accurately using qubit measurement protocols that can classify qubits into $|0\rangle, |1\rangle$ and $|L\rangle$ states. ERASER and ERASER+M improve the logical error rate by up to $4.3\times$ and $23\times$ respectively compared to always using LRC.
翻訳日:2023-09-26 22:06:57 公開日:2023-09-22
# 密閉型遠隔ゲートを用いたビットルーティングの改善

Improving Qubit Routing by Using Entanglement Mediated Remote Gates ( http://arxiv.org/abs/2309.13141v1 )

ライセンス: Link先を確認
Gurleen Padda, Edwin Tham, Aharon Brodutch, Dave Touchette(参考訳) 短期量子コンピュータは接続の制約、すなわちデバイス内の量子ビットのペアが相互作用できる制限を持つことが多い。 これらの制約の下で量子回路をハードウェアトポロジーに最適にマッピングすることは難しい課題である。 キュービットルーティングを最適化するための多くのアプローチが提案されているが、短期デバイスにおけるキュービットの短距離結合のため、コンパイルされた回路のゲート数と深さオーバーヘッドは高いままである。 Bell や Einstein-Podolsky-Rosen (EPR) のような資源状態は、キュービット間の長距離相互作用を促進する操作の仲介に使うことができる。 本研究では,資源状態を用いたキュービットルーティングの実践的トレードオフについて検討した。 我々は既存の最先端コンパイラを利用して、標準ゲートとEPRを介する遠隔制御NOTゲートの両方で回路のルーティングを最適化する手法を開発した。 その後、これは正方形グリッドトポロジーの異なるベンチマーク回路をコンパイルするために使用され、そこではeprペアの保存にキュービットのほんの一部が使用される。 適切な最適化コンパイラで使用する場合,eprを介する操作により,ゲート数とコンパイル回路の深さを実質的に削減できることを示す。 この利点は、異なる種類の回路に対して異なるスケールであるが、それでもアーキテクチャのサイズに応じて成長する。 本結果は,EPRによる操作を統合可能な効率的なコンパイルツールの開発との関連性を強調した。

Near-term quantum computers often have connectivity constraints, i.e. restrictions, on which pairs of qubits in the device can interact. Optimally mapping a quantum circuit to a hardware topology under these constraints is a difficult task. While numerous approaches have been proposed to optimize qubit routing, the resulting gate count and depth overheads of the compiled circuits remain high due to the short-range coupling of qubits in near-term devices. Resource states, such as Bell or Einstein-Podolsky-Rosen (EPR) pairs, can be used to mediate operations that facilitate long-range interactions between qubits. In this work, we studied some of the practical trade-offs involved in using resource states for qubit routing. We developed a method that leverages an existing state-of-the-art compiler to optimize the routing of circuits with both standard gates and EPR mediated remote controlled-NOT gates. This was then used to compile different benchmark circuits for a square grid topology, where a fraction of the qubits are used to store EPR pairs. We demonstrate that EPR-mediated operations can substantially reduce the total number of gates and depths of compiled circuits when used with an appropriate optimizing compiler. This advantage scales differently for different types of circuits, but nonetheless grows with the size of the architecture. Our results highlight the relevance of developing efficient compilation tools that can integrate EPR-mediated operations.
翻訳日:2023-09-26 22:06:21 公開日:2023-09-22
# 顔認識のための特徴集約に関する相互情報交換

Trading-off Mutual Information on Feature Aggregation for Face Recognition ( http://arxiv.org/abs/2309.13137v1 )

ライセンス: Link先を確認
Mohammad Akyash, Ali Zafari, Nasser M. Nasrabadi(参考訳) 顔認識(FR)分野の進歩にもかかわらず、これらの手法の精度はまだ十分ではない。 本稿では, FRの性能向上のために, 最先端(SOTA)深部FRモデルであるArcFaceとAdaFaceの出力を集約する手法を提案する。 提案手法では,トランスフォーマーアテンション機構を利用して2つの特徴マップの異なる部分間の関係を利用する。 これにより、FRシステムの全体的な識別能力を高めることを目指している。 機能集約の課題の1つは、ローカルとグローバル両方の依存関係を効果的にモデリングすることである。 従来のトランスフォーマーは、長距離依存関係をキャプチャする能力で知られているが、しばしばローカル依存関係を正確にモデル化するのに苦労する。 この制限に対処するため、ローカルとグローバルの両方の依存関係を効果的にキャプチャする自己認識機構を増強する。 これにより、我々のモデルは、機能マップの対応する場所に存在する重複する受容フィールドを利用することができます。 しかし、異なるfrモデルの2つの特徴マップを融合することは、顔埋め込みに冗長性をもたらすかもしれない。 これらのモデルはしばしば同一のバックボーンアーキテクチャを共有するため、得られた特徴マップには重複した情報が含まれ、トレーニングプロセスを誤解させる可能性がある。 この問題を克服するために,我々はインフォメーション・ボトルネックの原理を利用して,最大情報的表情を求める。 これにより、集約された特徴が最も関連性があり差別的な情報を保持しつつ、冗長または誤解を招く詳細を最小限に抑えることができる。 提案手法の有効性を評価するため,人気のあるベンチマーク実験を行い,最先端アルゴリズムと比較した。 これらのベンチマークで観測した一貫した改善は、fr性能向上における我々のアプローチの有効性を示しています。

Despite the advances in the field of Face Recognition (FR), the precision of these methods is not yet sufficient. To improve the FR performance, this paper proposes a technique to aggregate the outputs of two state-of-the-art (SOTA) deep FR models, namely ArcFace and AdaFace. In our approach, we leverage the transformer attention mechanism to exploit the relationship between different parts of two feature maps. By doing so, we aim to enhance the overall discriminative power of the FR system. One of the challenges in feature aggregation is the effective modeling of both local and global dependencies. Conventional transformers are known for their ability to capture long-range dependencies, but they often struggle with modeling local dependencies accurately. To address this limitation, we augment the self-attention mechanism to capture both local and global dependencies effectively. This allows our model to take advantage of the overlapping receptive fields present in corresponding locations of the feature maps. However, fusing two feature maps from different FR models might introduce redundancies to the face embedding. Since these models often share identical backbone architectures, the resulting feature maps may contain overlapping information, which can mislead the training process. To overcome this problem, we leverage the principle of Information Bottleneck to obtain a maximally informative facial representation. This ensures that the aggregated features retain the most relevant and discriminative information while minimizing redundant or misleading details. To evaluate the effectiveness of our proposed method, we conducted experiments on popular benchmarks and compared our results with state-of-the-art algorithms. The consistent improvement we observed in these benchmarks demonstrates the efficacy of our approach in enhancing FR performance.
翻訳日:2023-09-26 22:05:58 公開日:2023-09-22
# 画像キャプションからの文脈感情推定

Contextual Emotion Estimation from Image Captions ( http://arxiv.org/abs/2309.13136v1 )

ライセンス: Link先を確認
Vera Yang, Archita Srivastava, Yasaman Etesam, Chuxuan Zhang, Angelica Lim(参考訳) 画像中の感情推定は難しい作業であり、通常、コンピュータビジョンを用いて顔、身体のポーズ、文脈の手がかりを用いて人々の感情を直接推定する。 本稿では,Large Language Models (LLMs) が,まずイメージをキャプションし,次に LLM を用いて,文脈的感情推定タスクをサポートできるかを検討する。 まず、LLMが人間の感情をどの程度知覚するかを理解する必要があります。 そして、情報のどの部分が感情を判断できるのか? 最初の課題は、感情知覚に関連する情報を含むシーン内の人物を記述したキャプションを構築することである。 この目的に向けて, 顔, 身体, インタラクション, 環境のための自然言語記述子セットを提案する。 EMOTICデータセットから331の画像のサブセットに対して,手動でキャプションと感情アノテーションを生成する。 これらのキャプションは、シーンの要素がLLMなどの感情知覚にどのように影響するかを理解するために、感情推定の解釈可能な表現を提供する。 第二に、画像キャプションから感情を推測する大規模言語モデルの能力をテストする。 GPT-3.5(特にtext-davinci-003モデル)は、人間のアノテーションと一致した驚くほど合理的な感情予測を提供するが、精度は感情概念に依存する。 以上の結果から,画像キャプションとLCMアプローチの有望性が示唆された。

Emotion estimation in images is a challenging task, typically using computer vision methods to directly estimate people's emotions using face, body pose and contextual cues. In this paper, we explore whether Large Language Models (LLMs) can support the contextual emotion estimation task, by first captioning images, then using an LLM for inference. First, we must understand: how well do LLMs perceive human emotions? And which parts of the information enable them to determine emotions? One initial challenge is to construct a caption that describes a person within a scene with information relevant for emotion perception. Towards this goal, we propose a set of natural language descriptors for faces, bodies, interactions, and environments. We use them to manually generate captions and emotion annotations for a subset of 331 images from the EMOTIC dataset. These captions offer an interpretable representation for emotion estimation, towards understanding how elements of a scene affect emotion perception in LLMs and beyond. Secondly, we test the capability of a large language model to infer an emotion from the resulting image captions. We find that GPT-3.5, specifically the text-davinci-003 model, provides surprisingly reasonable emotion predictions consistent with human annotations, but accuracy can depend on the emotion concept. Overall, the results suggest promise in the image captioning and LLM approach.
翻訳日:2023-09-26 22:05:34 公開日:2023-09-22
# 深層学習と薬物動態の先行した治療に対する予測応答

Forecasting Response to Treatment with Deep Learning and Pharmacokinetic Priors ( http://arxiv.org/abs/2309.13135v1 )

ライセンス: Link先を確認
Willa Potosnak, Cristian Challu, Kin G. Olivares, Artur Dubrawski(参考訳) 予後の早期発見や患者のモニタリングには,医療時系列の予測が不可欠である。 しかし、ノイズや間欠的なデータのために予測が難しい場合がある。 これらの課題は、薬物投与などの外因性要因によって引き起こされる変化点によって、しばしば悪化する。 本稿では,薬物の薬物動態効果の深層学習モデルを用いて,治療による時系列の正確な予測を可能にするエンコーダを提案する。 現実的にシミュレーションされた実世界のデータを用いて血糖値を予測する作業において,本手法の有効性を示す。 我々の薬物動態エンコーダは、ディープラーニングモデルがシミュレーションデータで約11%、実世界のデータで8%を超えるのに役立ちます。 提案手法は, 予期せぬ治療反応に対する早期警告の発行や, 薬物吸収および除去特性の観点から, 患者固有の治療効果を特徴付けるなど, 臨床実践において有益である。

Forecasting healthcare time series is crucial for early detection of adverse outcomes and for patient monitoring. Forecasting, however, can be difficult in practice due to noisy and intermittent data. The challenges are often exacerbated by change points induced via extrinsic factors, such as the administration of medication. We propose a novel encoder that informs deep learning models of the pharmacokinetic effects of drugs to allow for accurate forecasting of time series affected by treatment. We showcase the effectiveness of our approach in a task to forecast blood glucose using both realistically simulated and real-world data. Our pharmacokinetic encoder helps deep learning models surpass baselines by approximately 11% on simulated data and 8% on real-world data. The proposed approach can have multiple beneficial applications in clinical practice, such as issuing early warnings about unexpected treatment responses, or helping to characterize patient-specific treatment effects in terms of drug absorption and elimination characteristics.
翻訳日:2023-09-26 22:05:13 公開日:2023-09-22
# 医用画像分類のための深層ニューラルネットワークのキャリブレーションの理解

Understanding Calibration of Deep Neural Networks for Medical Image Classification ( http://arxiv.org/abs/2309.13132v1 )

ライセンス: Link先を確認
Abhishek Singh Sambyal, Usma Niyaz, Narayanan C. Krishnan, Deepti R. Bathula(参考訳) 医用画像解析の分野では、高精度化は不十分であり、適切に調整された予測の確保も重要である。 深層ニューラルネットワークの信頼性スコアは、モデルの確実性に関する洞察を与え、注意を要するケースを特定し、その予測に対する信頼を確立することによって、説明可能性において重要な役割を果たす。 その結果、正確かつ信頼性の高い予測が最重要となる医療画像領域において、よく校正されたモデルの重要性が最重要となる。 最新の深層ニューラルネットワークを訓練して医用イメージングタスクの精度を高めることには大きな努力があったが、モデルキャリブレーションやそれに影響する要因は未検討のままである。 そこで本研究では,異なるトレーニング環境下でのモデル性能とキャリブレーションについて総合的な実験を行った。 我々は,コミュニティで広く普及しているアプローチである完全教師付きトレーニングと,様々なデータセットとアーキテクチャサイズにわたる転送学習を伴うローテーションベースの自己教師付き手法を検討した。 複数のキャリブレーション指標を用いて、モデルキャリブレーションの全体的理解を得た。 本研究では,重み分布や学習表現の類似性などの要因がモデルで観測されたキャリブレーション傾向と相関していることを明らかにする。 特に、ローテーションベースの自己教師付き事前訓練システムを用いてトレーニングされたモデルは、異なる医用画像データセットの完全な教師付きモデルと比較して、同等またはそれ以上のパフォーマンスを達成しながら、キャリブレーションが大幅に向上する。 これらの結果は, 医用画像解析におけるモデル校正の重要性を浮き彫りにし, 自己教師あり学習アプローチを取り入れて, 性能と校正の両立を図った。

In the field of medical image analysis, achieving high accuracy is not enough; ensuring well-calibrated predictions is also crucial. Confidence scores of a deep neural network play a pivotal role in explainability by providing insights into the model's certainty, identifying cases that require attention, and establishing trust in its predictions. Consequently, the significance of a well-calibrated model becomes paramount in the medical imaging domain, where accurate and reliable predictions are of utmost importance. While there has been a significant effort towards training modern deep neural networks to achieve high accuracy on medical imaging tasks, model calibration and factors that affect it remain under-explored. To address this, we conducted a comprehensive empirical study that explores model performance and calibration under different training regimes. We considered fully supervised training, which is the prevailing approach in the community, as well as rotation-based self-supervised method with and without transfer learning, across various datasets and architecture sizes. Multiple calibration metrics were employed to gain a holistic understanding of model calibration. Our study reveals that factors such as weight distributions and the similarity of learned representations correlate with the calibration trends observed in the models. Notably, models trained using rotation-based self-supervised pretrained regime exhibit significantly better calibration while achieving comparable or even superior performance compared to fully supervised models across different medical imaging datasets. These findings shed light on the importance of model calibration in medical image analysis and highlight the benefits of incorporating self-supervised learning approach to improve both performance and calibration.
翻訳日:2023-09-26 22:04:56 公開日:2023-09-22
# OTTR中心のオントロジー工学方法論からの洞察

Insights from an OTTR-centric Ontology Engineering Methodology ( http://arxiv.org/abs/2309.13130v1 )

ライセンス: Link先を確認
Moritz Blum, Basil Ell, Philipp Cimiano(参考訳) OTTRはオントロジーモデリングパターンを表現するための言語で、テンプレートをインスタンス化することでオントロジーや知識ベースを構築することができる。 これにより、オントロジ表現言語の特異性はドメインの専門家から隠蔽され、オントロジエンジニアは、モデルする情報を決定するプロセスと、その情報をどのようにモデル化するか、例えば、どのデザインパターンを使用するかを決定するプロセスとをある程度分離することができる。 したがって、ある決定は、これらのプロセスの1つに集中する利点のために延期することができる。 これまで、オントロジのテンプレートが適用されるオントロジ工学に関する著作は少ない。 本稿では,物質科学分野におけるオントロジー工学活動の方法論と報告について概説する。 これらの活動では、OTTRテンプレートが重要な役割を果たす。 私たちのオントロジエンジニアリングのプロセスはボトムアップであり、テンプレートを通じて既存のデータからアクティビティをモデリングし始め、知識グラフに入力し、トップダウンです。 特に,OTTRテンプレートはドメインの専門家とのコミュニケーション手段として特に有用であることがわかった。 さらに、OTTRテンプレートがモデリング決定をカプセル化しているため、エンジニアリングプロセスは柔軟になり、設計決定は少ないコストで変更できることがわかった。

OTTR is a language for representing ontology modeling patterns, which enables to build ontologies or knowledge bases by instantiating templates. Thereby, particularities of the ontological representation language are hidden from the domain experts, and it enables ontology engineers to, to some extent, separate the processes of deciding about what information to model from deciding about how to model the information, e.g., which design patterns to use. Certain decisions can thus be postponed for the benefit of focusing on one of these processes. To date, only few works on ontology engineering where ontology templates are applied are described in the literature. In this paper, we outline our methodology and report findings from our ontology engineering activities in the domain of Material Science. In these activities, OTTR templates play a key role. Our ontology engineering process is bottom-up, as we begin modeling activities from existing data that is then, via templates, fed into a knowledge graph, and it is top-down, as we first focus on which data to model and postpone the decision of how to model the data. We find, among other things, that OTTR templates are especially useful as a means of communication with domain experts. Furthermore, we find that because OTTR templates encapsulate modeling decisions, the engineering process becomes flexible, meaning that design decisions can be changed at little cost.
翻訳日:2023-09-26 22:04:27 公開日:2023-09-22
# プロパティ誘導型抗体設計のための抗BARTY拡散

AntiBARTy Diffusion for Property Guided Antibody Design ( http://arxiv.org/abs/2309.13129v1 )

ライセンス: Link先を確認
Jordan Venderley(参考訳) 過去10年間で、抗体はその特異度が高く、副作用のリスクも低いため、治療の重要性が徐々に増してきた。 従来の抗体発見は、主にウェットラボで駆動されるが、MLベースの生成モデリングの急速な改善により、インサイリコは発見と工学のためにますます有効なルートに近づいた。 そこで我々は,BART(Bidirectional and Auto-Regressive Transformer)に基づく抗体特異的言語モデルであるAntiBARTyを訓練し,その潜在空間を用いて,誘導IgG de novo設計のための特性条件拡散モデルを訓練する。 試験例では, 抗体の妥当性を維持し, 配列の多様性を制御しながら, シリカ溶解度を向上した新規抗体を効果的に生成できることが示唆された。

Over the past decade, antibodies have steadily grown in therapeutic importance thanks to their high specificity and low risk of adverse effects compared to other drug modalities. While traditional antibody discovery is primarily wet lab driven, the rapid improvement of ML-based generative modeling has made in-silico approaches an increasingly viable route for discovery and engineering. To this end, we train an antibody-specific language model, AntiBARTy, based on BART (Bidirectional and Auto-Regressive Transformer) and use its latent space to train a property-conditional diffusion model for guided IgG de novo design. As a test case, we show that we can effectively generate novel antibodies with improved in-silico solubility while maintaining antibody validity and controlling sequence diversity.
翻訳日:2023-09-26 22:04:06 公開日:2023-09-22
# テンソルネットワークによる位相双対性

Topological dualities via tensor networks ( http://arxiv.org/abs/2309.13118v1 )

ライセンス: Link先を確認
C. Wille, J. Eisert, A. Altland(参考訳) トーリック符号の基底状態、二次元クラスd超伝導体の基底状態、および二次元イジングモデルの分割和は互いに双対である。 この双対性は、物理学の様々な分野に共通するシステム、すなわち、長い範囲の絡み合った位相秩序、(位相)バンド絶縁体、そして古典的な統計力学を結び付けるため、目覚ましい。 フェルミオン系とボソニック系をつなぐ双対性構成は本質的に非局所的であり、1次元への次元還元、共形場理論法、作用素代数など様々なアプローチで対処されている。 本研究では,この双対性に対する一元的アプローチを提案し,その主主人公がテンソルネットワーク(tn)であり,中間翻訳者の役割を仮定する。 双対性のネットに4番目のノードを導入すると、以下の利点が得られる: 定式化は、双対性のすべてのリンクが等しい基底で扱われること、(場の理論的なアプローチとは異なり)格子の精度で定式化されること、相関関数のマッピングにおいて鍵となる特徴、そしてそれらの可能な数値的実装である。 最後に、ボソンからフェルミオンへの通過は、直感的で技術的に便利な形式を仮定する2次元のTNフレームワークで完全に定式化される。 本稿では, 位相遷移, 点・線欠陥, 位相境界モード, およびシステムクラス間のマッピング下での他の構造の運命を探ることにより, 形式化の予測可能性を示す。 物質リーダシップを念頭に置いて,tnsの概念への最小限の親和性のみを前提として,教育的に構築を紹介する。

The ground state of the toric code, that of the two-dimensional class D superconductor, and the partition sum of the two-dimensional Ising model are dual to each other. This duality is remarkable inasmuch as it connects systems commonly associated to different areas of physics -- that of long range entangled topological order, (topological) band insulators, and classical statistical mechanics, respectively. Connecting fermionic and bosonic systems, the duality construction is intrinsically non-local, a complication that has been addressed in a plethora of different approaches, including dimensional reduction to one dimension, conformal field theory methods, and operator algebra. In this work, we propose a unified approach to this duality, whose main protagonist is a tensor network (TN) assuming the role of an intermediate translator. Introducing a fourth node into the net of dualities offers several advantages: the formulation is integrative in that all links of the duality are treated on an equal footing, (unlike in field theoretical approaches) it is formulated with lattice precision, a feature that becomes key in the mapping of correlation functions, and their possible numerical implementation. Finally, the passage from bosons to fermions is formulated entirely within the two-dimensional TN framework where it assumes an intuitive and technically convenient form. We illustrate the predictive potential of the formalism by exploring the fate of phase transitions, point and line defects, topological boundary modes, and other structures under the mapping between system classes. Having condensed matter readerships in mind, we introduce the construction pedagogically in a manner assuming only minimal familiarity with the concept of TNs.
翻訳日:2023-09-26 22:03:54 公開日:2023-09-22
# 軸索摂動のスクイージングに及ぼすアンハーモニックの影響

Anharmonic Effects on the Squeezing of Axion Perturbations ( http://arxiv.org/abs/2309.13112v1 )

ライセンス: Link先を確認
Valentina Danieli, Takeshi Kobayashi, Nicola Bartolo, Sabino Matarrese and Matteo Viel(参考訳) 標準宇宙論では、宇宙は初期の段階でインフレーションの期間を経、インフラトンスカラー場の真空ゆらぎによる構造形成のための種子を提供すると仮定されている。 これらのゆらぎは、宇宙の準指数膨張によって伸長され、圧縮される。 観測的な観点からは、ガウス状態を考えると、絞られた状態における物理量の期待値は確率分布の古典的な平均と区別できない。 これにより、自由場の量子揺らぎから生じる宇宙論的摂動は、古典的起源を持つものと効果的に同一となる。 宇宙論的なスクイージングは文学で主に研究されてきたが、ほとんどの作品はほとんど自由分野に焦点が当てられている。 本研究の目的は,自己相互作用の効果を考慮した量子-古典遷移の理解を深めることである。 この目的のために、アクシオン様の場を研究する。 特に, インフレーション中の地平線出口から放射線支配時代までのアクシオンの揺らぎモードの進化に追従する。 我々は,軸粒子数と等曲率摂動に関連付けられたボゴリューボフ係数とスクイーズパラメータを計算する。 量子力学的粒子の生成と摂動のスクイーズ化は、もし非調和効果、すなわちポテンシャルにおける高次項の効果を考慮に入れれば、強化される。 この効果はポテンシャルの丘頂に向かって特に強くなる。

It is assumed in standard cosmology that the Universe underwent a period of inflation in its earliest phase, providing the seeds for structure formation through vacuum fluctuations of the inflaton scalar field. These fluctuations get stretched by the quasi-exponential expansion of the Universe and become squeezed. From an observational point of view, if we consider Gaussian states, the expectation value of physical quantities on a squeezed state is indistinguishable from a classical average of a stochastic distribution. This renders cosmological perturbations arising from quantum fluctuations of free fields effectively identical to those with a classical origin. The cosmological squeezing has been largely studied in the literature, however most works have focused on nearly free fields. The aim of this paper is to deepen the understanding of the quantum-to-classical transition considering the effect of self-interactions. For this purpose, we study axion-like fields. In particular we follow the evolution of the axion's fluctuation modes from the horizon exit during inflation to the radiation-dominated epoch. We compute Bogoliubov coefficients and squeezing parameters, which are linked to the axion particles number and isocurvature perturbation. We find that the quantum mechanical particle production and the squeezing of the perturbations are enhanced, if one accounts for anharmonic effects, i.e., the effect of higher order terms in the potential. This effect becomes particularly strong towards the hilltop of the potential.
翻訳日:2023-09-26 22:03:21 公開日:2023-09-22
# 機械学習支援マルチフィジカルシミュレーションによる多目的最適化の促進

Enhancing Multi-Objective Optimization through Machine Learning-Supported Multiphysics Simulation ( http://arxiv.org/abs/2309.13179v1 )

ライセンス: Link先を確認
Diego Botache, Jens Decke, Winfried Ripken, Abhinay Dornipati, Franz G\"otz-Hahn, Mohamed Ayeb, Bernhard Sick(参考訳) 複数の結合した物理現象を含む多物理シミュレーションは、すぐに計算コストが高くなる。 これは、最適化アルゴリズムがしばしばシミュレーションを何度もクエリする必要があるため、複数の目的を満たすこれらの問題に対して最適な設定を求める実践者にとって課題となる。 本稿では,多物理シミュレーションを近似・高速化するために,訓練,自己最適化,自己組織化サロゲートモデルの方法論的枠組みを提案する。 2つの実世界のグラフデータセットを生成して公開し、サロゲートモデルが比較的少量のデータに基づいてトレーニングされ、基礎となるシミュレーションを正確に近似できることを示す。 機械学習とディープラーニングの4つのアルゴリズムと2つの最適化アルゴリズムと総合評価戦略を組み合わせた広範囲な実験を行う。 最後に,本実験で生成したパレート最適結果を検証することで,学習と最適化の複合パイプラインの性能を評価する。 また、説明可能なAI技術を使ってサロゲートを分析し、リアル世界の例で最も重要な特徴を決定するための事前選択戦略を実行しています。 このアプローチにより、根本的な問題を理解し、重要な部分的依存関係を特定できます。

Multiphysics simulations that involve multiple coupled physical phenomena quickly become computationally expensive. This imposes challenges for practitioners aiming to find optimal configurations for these problems satisfying multiple objectives, as optimization algorithms often require querying the simulation many times. This paper presents a methodological framework for training, self-optimizing, and self-organizing surrogate models to approximate and speed up Multiphysics simulations. We generate two real-world tabular datasets, which we make publicly available, and show that surrogate models can be trained on relatively small amounts of data to approximate the underlying simulations accurately. We conduct extensive experiments combining four machine learning and deep learning algorithms with two optimization algorithms and a comprehensive evaluation strategy. Finally, we evaluate the performance of our combined training and optimization pipeline by verifying the generated Pareto-optimal results using the ground truth simulations. We also employ explainable AI techniques to analyse our surrogates and conduct a preselection strategy to determine the most relevant features in our real-world examples. This approach lets us understand the underlying problem and identify critical partial dependencies.
翻訳日:2023-09-26 21:55:16 公開日:2023-09-22
# AIリスクプロファイル:AIリスクの事前公開のための標準提案

AI Risk Profiles: A Standards Proposal for Pre-Deployment AI Risk Disclosures ( http://arxiv.org/abs/2309.13176v1 )

ライセンス: Link先を確認
Eli Sherman, Ian W. Eisenberg(参考訳) AIシステムの高度化と増殖が進むにつれて、リスクに対する認識は比例的に増大している(Sorkin et al. 2023)。 これに反応して、AI産業における開示と透明性(NTIA 2023; OpenAI 2023b)に重点を置く声が高まり、モデルカード(Mitchellなど)のような技術開示の使用の標準化から、まだ特定されていないライセンス体制(Sindhu 2023)まで、さまざまな提案がなされている。 AIバリューチェーンは複雑で、アクターはさまざまな専門知識、視点、価値観を表現しているため、透明性開示の消費者は、AIシステムのリスクと開示に関する懸念を理解することが重要である。 本稿では,リスクアセスメントのトリアージ,調達と展開の通知,規制フレームワークの指示など,下流の意思決定を導くためのリスクプロファイリング標準を提案する。 この基準は、提案したAIリスクの分類に基づいており、文献で提案されるさまざまなリスクの高度な分類を反映している。 リスクプロファイルの構築に必要な無数のデータソースを概説し,リスク情報を標準的かつ柔軟な構造に照合するためのテンプレートベースの手法を提案する。 我々はこの方法論を,公開情報を用いた多数の著名なAIシステムに適用する。 結論として,プロファイルの設計決定と今後の作業について論じる。

As AI systems' sophistication and proliferation have increased, awareness of the risks has grown proportionally (Sorkin et al. 2023). In response, calls have grown for stronger emphasis on disclosure and transparency in the AI industry (NTIA 2023; OpenAI 2023b), with proposals ranging from standardizing use of technical disclosures, like model cards (Mitchell et al. 2019), to yet-unspecified licensing regimes (Sindhu 2023). Since the AI value chain is complicated, with actors representing various expertise, perspectives, and values, it is crucial that consumers of a transparency disclosure be able to understand the risks of the AI system the disclosure concerns. In this paper we propose a risk profiling standard which can guide downstream decision-making, including triaging further risk assessment, informing procurement and deployment, and directing regulatory frameworks. The standard is built on our proposed taxonomy of AI risks, which reflects a high-level categorization of the wide variety of risks proposed in the literature. We outline the myriad data sources needed to construct informative Risk Profiles and propose a template-based methodology for collating risk information into a standard, yet flexible, structure. We apply this methodology to a number of prominent AI systems using publicly available information. To conclude, we discuss design decisions for the profiles and future work.
翻訳日:2023-09-26 21:54:58 公開日:2023-09-22
# BenLLMEval: Bengali NLPにおける大規模言語モデルの可能性と落とし穴に関する総合的な評価

BenLLMEval: A Comprehensive Evaluation into the Potentials and Pitfalls of Large Language Models on Bengali NLP ( http://arxiv.org/abs/2309.13173v1 )

ライセンス: Link先を確認
Mohsinul Kabir, Mohammed Saidul Islam, Md Tahmid Rahman Laskar, Mir Tafseer Nayeem, M Saiful Bari, Enamul Hoque(参考訳) 大規模言語モデル(LLM)は、自然言語処理(NLP)において、言語生成やその他の言語固有のタスクにおける印象的なスキルにおいて最も重要なブレークスルーの1つとなっている。 LLMは様々なタスク、主に英語で評価されてきたが、ベンガル語 (Bangla) のような未資源言語では十分に評価されていない。 本稿では,低リソースのバングラ語に対するLLMの性能評価を行う。 本稿では,ChatGPT,LLaMA-2,Claude-2を用いたゼロショット評価において,抽象的要約,質問応答,パラフレージング,自然言語推論,テキスト分類,感情分析などの重要かつ多様なBangla NLPタスクを選択し,その性能を最先端の微調整モデルと比較する。 実験の結果,Bangla NLPタスクに対するLLMの性能は劣っていることが示され,Banglaのような低リソース言語におけるLLMの理解を深めるためのさらなる取り組みが求められた。

Large Language Models (LLMs) have emerged as one of the most important breakthroughs in natural language processing (NLP) for their impressive skills in language generation and other language-specific tasks. Though LLMs have been evaluated in various tasks, mostly in English, they have not yet undergone thorough evaluation in under-resourced languages such as Bengali (Bangla). In this paper, we evaluate the performance of LLMs for the low-resourced Bangla language. We select various important and diverse Bangla NLP tasks, such as abstractive summarization, question answering, paraphrasing, natural language inference, text classification, and sentiment analysis for zero-shot evaluation with ChatGPT, LLaMA-2, and Claude-2 and compare the performance with state-of-the-art fine-tuned models. Our experimental results demonstrate an inferior performance of LLMs for different Bangla NLP tasks, calling for further effort to develop better understanding of LLMs in low-resource languages like Bangla.
翻訳日:2023-09-26 21:54:35 公開日:2023-09-22
# AESにおけるサイドチャネル攻撃のための効果的なディープラーニングアーキテクチャの検討

Investigating Efficient Deep Learning Architectures For Side-Channel Attacks on AES ( http://arxiv.org/abs/2309.13170v1 )

ライセンス: Link先を確認
Yoha\"i-Eliel Berreby, Laurent Sauvage(参考訳) 過去数年間、ディープラーニングは、効果的なキーリカバリに必要な攻撃トレースの量という利点を提供するため、組み込み暗号アプリケーションにおけるサイドチャネル脆弱性の悪用で徐々に人気を高めてきた。 ニューラルネットワークを使った効果的な攻撃は、すでに数多く報告されていますが、必要な計算リソースとデータ量の観点からのコスト削減は、この作業で追求される、常にある目標です。 我々は、ASCAD(ANSSI Side-Channel Attack Database)に焦点を当て、ディープラーニングベースのSCAのためのJAXベースのフレームワークを作成します。 また,様々なトランスフォーマーモデルの有効性についても検討した。

Over the past few years, deep learning has been getting progressively more popular for the exploitation of side-channel vulnerabilities in embedded cryptographic applications, as it offers advantages in terms of the amount of attack traces required for effective key recovery. A number of effective attacks using neural networks have already been published, but reducing their cost in terms of the amount of computing resources and data required is an ever-present goal, which we pursue in this work. We focus on the ANSSI Side-Channel Attack Database (ASCAD), and produce a JAX-based framework for deep-learning-based SCA, with which we reproduce a selection of previous results and build upon them in an attempt to improve their performance. We also investigate the effectiveness of various Transformer-based models.
翻訳日:2023-09-26 21:54:16 公開日:2023-09-22
# フロー因子化表現学習

Flow Factorized Representation Learning ( http://arxiv.org/abs/2309.13167v1 )

ライセンス: Link先を確認
Yue Song, T. Anderson Keller, Nicu Sebe, Max Welling(参考訳) 表現学習研究の目立った目標は、変動の基底的真理因子に関して有用な方法で因果化される表現を達成することである。 アンタングルおよび同変表現学習の分野は、様々な補足的視点からこの理想にアプローチしてきたが、これまで、ほとんどのアプローチは、学習された潜在空間におけるすべての現実的な関心要素を効果的に分離するために、不特定または不十分に柔軟であることが証明されてきた。 そこで本研究では,フロー因子化表現学習(flow factorized representation learning)と呼ぶ構造表現学習の新たな視点を提案し,既存のフレームワークよりも効率的かつ有用な表現を学習できることを実証する。 具体的には、異なる入力変換を定義する潜在確率パスの異なる集合を特定する生成モデルを導入する。 各潜水流は、動的最適輸送に続く学習ポテンシャルの勾配場によって生成される。 我々の新しいセットアップは、 \textit{disentanglement} と \textit{equivariance} の両方に新しい理解をもたらす。 本モデルは,ほぼ同変モデルに近づきながら,標準表現学習ベンチマークにおいて高い確率を達成することを示す。 さらに,本モデルで学習した変換は柔軟に合成可能であり,新しいデータへの外挿も可能であり,有用に因子化された表現学習の最終的な目標に近づく頑健さと一般化性を示唆する。

A prominent goal of representation learning research is to achieve representations which are factorized in a useful manner with respect to the ground truth factors of variation. The fields of disentangled and equivariant representation learning have approached this ideal from a range of complimentary perspectives; however, to date, most approaches have proven to either be ill-specified or insufficiently flexible to effectively separate all realistic factors of interest in a learned latent space. In this work, we propose an alternative viewpoint on such structured representation learning which we call Flow Factorized Representation Learning, and demonstrate it to learn both more efficient and more usefully structured representations than existing frameworks. Specifically, we introduce a generative model which specifies a distinct set of latent probability paths that define different input transformations. Each latent flow is generated by the gradient field of a learned potential following dynamic optimal transport. Our novel setup brings new understandings to both \textit{disentanglement} and \textit{equivariance}. We show that our model achieves higher likelihoods on standard representation learning benchmarks while simultaneously being closer to approximately equivariant models. Furthermore, we demonstrate that the transformations learned by our model are flexibly composable and can also extrapolate to new data, implying a degree of robustness and generalizability approaching the ultimate goal of usefully factorized representation learning.
翻訳日:2023-09-26 21:54:04 公開日:2023-09-22
# 音響生成拡散モデルに対する可視な透かし

Invisible Watermarking for Audio Generation Diffusion Models ( http://arxiv.org/abs/2309.13166v1 )

ライセンス: Link先を確認
Xirong Cao, Xiang Li, Divyesh Jadav, Yanzhao Wu, Zhehui Chen, Chen Zeng, Wenqi Wei(参考訳) 拡散モデルは、画像領域において、データ生成と変換の能力で注目され、画像領域と音声領域の両方の様々なタスクで最先端のパフォーマンスを達成している。 音声ベースの機械学習の分野では、モデルの完全性とデータ著作権の確立の保護が最重要となる。 本稿では,メルスペクトログラムを用いた音響拡散モデルに適用する最初の透かし手法を提案する。 これは上記の課題に対する新しいアプローチを提供する。 我々のモデルは、良質な音声生成だけでなく、モデル検証のための目に見えない透かしトリガー機構も備えている。 この透かしトリガーは保護層として機能し、モデルのオーナシップを識別し、その完全性を保証する。 広範囲な実験を通じて,不可視透かしトリガーが無許可な修正に対して効果的に保護し,良性な音声生成タスクにおいて高い実用性を維持することを実証した。

Diffusion models have gained prominence in the image domain for their capabilities in data generation and transformation, achieving state-of-the-art performance in various tasks in both image and audio domains. In the rapidly evolving field of audio-based machine learning, safeguarding model integrity and establishing data copyright are of paramount importance. This paper presents the first watermarking technique applied to audio diffusion models trained on mel-spectrograms. This offers a novel approach to the aforementioned challenges. Our model excels not only in benign audio generation, but also incorporates an invisible watermarking trigger mechanism for model verification. This watermark trigger serves as a protective layer, enabling the identification of model ownership and ensuring its integrity. Through extensive experiments, we demonstrate that invisible watermark triggers can effectively protect against unauthorized modifications while maintaining high utility in benign audio generation tasks.
翻訳日:2023-09-26 21:53:41 公開日:2023-09-22
# 大きな言語モデルもプロトタイプのCommonsense Reasonerである

Large Language Models Are Also Good Prototypical Commonsense Reasoners ( http://arxiv.org/abs/2309.13165v1 )

ライセンス: Link先を確認
Chenin Li, Qianglong Chen, Yin Zhang, Yifei Zhang, Hongxiang Yao(参考訳) コモンセンス推論は、大きな言語モデルにとって重要なスキルであるが、この能力を必要とする特定のタスクに永続的な課題をもたらす。 従来の微調整アプローチはリソース集約的であり、モデルの一般化能力を損なう可能性がある。 さらに、gpt-3.5やclaudeのような最先端の言語モデルはapi呼び出しを通じてアクセス可能であるため、微調整モデルが困難になる。 これらの課題に対処するため、我々は、調整されたタスクのための大規模モデルのアウトプットからインスピレーションを得て、半自動的に、タスク関連、支援的な証拠生成(例えば、思考の連鎖と知識)、モデルを支援するための多様なパスデコードなど、いくつかの視点から、新しいプロンプトセットを開発した。 ProtoQAデータセットの実験結果によると、設計上のプロンプトにより、ProtoQAのリーダーボード上で新しい最先端(SOTA)を達成でき、Max Answer@1スコアを8%改善し、Max Incorrect@1スコアを以前のSOTAモデルと比較して4%改善(初めて50%突破)し、StrategyQAとCommonsenseQA2.0(それぞれ3%と1%)の改善を実現した。 さらに、生成する思考の連鎖と知識により、モデルの解釈性を改善しつつ、従来のsomaモデルを超えることができる。 我々は、NLPコミュニティがより優れたプロンプトを開発し、より複雑な推論タスクのための大きな言語モデルの可能性を探るための洞察を提供することができることを願っている。

Commonsense reasoning is a pivotal skill for large language models, yet it presents persistent challenges in specific tasks requiring this competence. Traditional fine-tuning approaches can be resource-intensive and potentially compromise a model's generalization capacity. Furthermore, state-of-the-art language models like GPT-3.5 and Claude are primarily accessible through API calls, which makes fine-tuning models challenging. To address these challenges, we draw inspiration from the outputs of large models for tailored tasks and semi-automatically developed a set of novel prompts from several perspectives, including task-relevance, supportive evidence generation (e.g. chain-of-thought and knowledge), diverse path decoding to aid the model. Experimental results on ProtoQA dataset demonstrate that with better designed prompts we can achieve the new state-of-art(SOTA) on the ProtoQA leaderboard, improving the Max Answer@1 score by 8%, Max Incorrect@1 score by 4% (breakthrough 50% for the first time) compared to the previous SOTA model and achieved an improvement on StrategyQA and CommonsenseQA2.0 (3% and 1%, respectively). Furthermore, with the generated Chain-of-Thought and knowledge, we can improve the interpretability of the model while also surpassing the previous SOTA models. We hope that our work can provide insight for the NLP community to develop better prompts and explore the potential of large language models for more complex reasoning tasks.
翻訳日:2023-09-26 21:53:25 公開日:2023-09-22
# GAMIX-VAE:ガウス混合型後部VAE

GAMIX-VAE: A VAE with Gaussian Mixture Based Posterior ( http://arxiv.org/abs/2309.13160v1 )

ライセンス: Link先を確認
Mariano Rivera(参考訳) 変分オートエンコーダ(VAE)は、機械学習における生成モデリングと表現学習の基盤となっている。 本稿では,再建精度と正規化のトレードオフを規定するEvidence Lower Bound (ELBO) における重要な要素であるKulback Leibler (KL) Divergenceの解釈に焦点をあて,VAEの曖昧な側面について考察する。 kl の発散は、潜在変数分布と、全潜在空間上の構造を前もって構成することとのアライメントを強制するが、個々の変数分布は拘束されない。 提案手法は, ELBOをガウスの混合体で再定義し, 分散崩壊を防止するための正規化項を導入し, テクスチャリアリズムを高めるためにPatchGAN識別器を用いる。 実装の詳細はEncoderとDecoderの両方のResNetV2アーキテクチャである。 実験は現実的な顔を生成する能力を示し、VAEベースの生成モデルを強化するための有望なソリューションを提供する。

Variational Autoencoders (VAEs) have become a cornerstone in generative modeling and representation learning within machine learning. This paper explores a nuanced aspect of VAEs, focusing on interpreting the Kullback Leibler (KL) Divergence, a critical component within the Evidence Lower Bound (ELBO) that governs the trade-off between reconstruction accuracy and regularization. While the KL Divergence enforces alignment between latent variable distributions and a prior imposing a structure on the overall latent space but leaves individual variable distributions unconstrained. The proposed method redefines the ELBO with a mixture of Gaussians for the posterior probability, introduces a regularization term to prevent variance collapse, and employs a PatchGAN discriminator to enhance texture realism. Implementation details involve ResNetV2 architectures for both the Encoder and Decoder. The experiments demonstrate the ability to generate realistic faces, offering a promising solution for enhancing VAE based generative models.
翻訳日:2023-09-26 21:52:52 公開日:2023-09-22
# カメラ動作障害に対する認証ロバストネスのための画素ワイズ平滑化

Pixel-wise Smoothing for Certified Robustness against Camera Motion Perturbations ( http://arxiv.org/abs/2309.13150v1 )

ライセンス: Link先を確認
Hanjiang Hu, Zuxin Liu, Linyi Li, Jiacheng Zhu, Ding Zhao(参考訳) 近年、コンピュータビジョンは自動運転とロボティクスにおいて顕著な進歩を遂げている。 しかし、深層学習に基づく視覚知覚モデルでは、カメラの動き摂動に直面すると頑健性が欠如していることが観察されている。 現在、ロバスト性を評価するための認証プロセスは、モンテカルロの3Dカメラモーション空間でのサンプリングに必要な画像投影の膨大な数のためにコストと時間を要する。 これらの課題に対処するために,3d-2d投影変換のロバスト性を検証するための新しい,効率的かつ実用的な枠組みを提案する。 提案手法では,3次元空間ではなく2次元画素空間上の平滑化分布を活用し,高コストのカメラモーションサンプリングを不要とし,ロバスト性認証の効率を大幅に向上させる。 画素単位の平滑化分類器では、カメラの動き空間の均一なパーティショニング技術を用いて投影誤差を完全に上界できる。 さらに私たちは認証フレームワークを,oracleのプロジェクションに単一フレームのポイントクラウドのみが必要な,より一般的なシナリオに拡張しています。 これはリプシッツに基づく近似分割区間の導出によって達成される。 実験により,提案手法の有効性と効率のトレードオフを検証した。 また,提案手法は画像フレームの30%しか利用せず,約80%の精度を達成している。

In recent years, computer vision has made remarkable advancements in autonomous driving and robotics. However, it has been observed that deep learning-based visual perception models lack robustness when faced with camera motion perturbations. The current certification process for assessing robustness is costly and time-consuming due to the extensive number of image projections required for Monte Carlo sampling in the 3D camera motion space. To address these challenges, we present a novel, efficient, and practical framework for certifying the robustness of 3D-2D projective transformations against camera motion perturbations. Our approach leverages a smoothing distribution over the 2D pixel space instead of in the 3D physical space, eliminating the need for costly camera motion sampling and significantly enhancing the efficiency of robustness certifications. With the pixel-wise smoothed classifier, we are able to fully upper bound the projection errors using a technique of uniform partitioning in camera motion space. Additionally, we extend our certification framework to a more general scenario where only a single-frame point cloud is required in the projection oracle. This is achieved by deriving Lipschitz-based approximated partition intervals. Through extensive experimentation, we validate the trade-off between effectiveness and efficiency enabled by our proposed method. Remarkably, our approach achieves approximately 80% certified accuracy while utilizing only 30% of the projected image frames.
翻訳日:2023-09-26 21:52:31 公開日:2023-09-22
# ソーシャルメディアによる心血管疾患リスク予測

Cardiovascular Disease Risk Prediction via Social Media ( http://arxiv.org/abs/2309.13147v1 )

ライセンス: Link先を確認
Al Zadid Sultan Bin Habib, Md Asif Bin Syed, Md Tanvirul Islam, Donald A. Adjeroh(参考訳) 研究者はtwitterと感情分析を使って心血管疾患(cvd)のリスクを予測する。 ツイート中の感情を精査し,CVD関連キーワード辞書を導入した。 我々はアパラチア地域を含む18の州からツイートを集めた。 感情分析にVADERモデルを用いて,ユーザがCVDのリスクを負う可能性があると分類した。 機械学習(ML)モデルは個人のCVDリスクを評価するために使用され、その後、人口統計情報を含むCDCデータセットに適用された。 我々は,テスト精度,精度,リコール,F1スコア,マシュー相関係数(MCC),コーエンカッパ(CK)スコアなど,さまざまな評価指標を検討した。 以上の結果から, ツイートの感情内容の分析は, 人口統計データの予測能力よりも優れており, CVDの発症リスクの高い個人識別が可能であることが示唆された。 この研究は、CVDリスクのある個人を特定するためにツイートを活用する自然言語処理(NLP)とML技術の可能性を強調し、従来の人口統計情報に代わるアプローチを公衆衛生監視に提供した。

Researchers utilize Twitter and sentiment analysis to forecast the risk of Cardiovascular Disease (CVD). We have introduced a novel CVD-related keyword dictionary by scrutinizing the emotions conveyed in tweets. We gathered tweets from eighteen U.S. states, encompassing the Appalachian region. Employing the VADER model for sentiment analysis, we categorized users as potentially at risk for CVD. Machine Learning (ML) models were employed to assess individuals' CVD risk and were subsequently applied to a CDC dataset containing demographic information for comparison. We considered various performance evaluation metrics, including Test Accuracy, Precision, Recall, F1 score, Mathew's Correlation Coefficient (MCC), and Cohen's Kappa (CK) score. Our findings demonstrate that analyzing the emotional content of tweets outperforms the predictive capabilities of demographic data alone, enabling the identification of individuals at potential risk of developing CVD. This research underscores the potential of Natural Language Processing (NLP) and ML techniques in leveraging tweets to identify individuals with CVD risks, offering an alternative approach to traditional demographic information for public health monitoring.
翻訳日:2023-09-26 21:52:08 公開日:2023-09-22
# ClusterFormer: ユニバーサルなビジュアル学習者としてのクラスタリング

ClusterFormer: Clustering As A Universal Visual Learner ( http://arxiv.org/abs/2309.13196v1 )

ライセンス: Link先を確認
James C. Liang, Yiming Cui, Qifan Wang, Tong Geng, Wenguan Wang, Dongfang Liu(参考訳) 本稿では,Transformerを用いたCLUSTERingパラダイムに基づくユニバーサルビジョンモデルであるCLUSTERFORMERを提案する。 斬新なデザインが2つある。 一 変圧器におけるクロスアテンション機構を再構成し、クラスタセンタの再帰的な更新を可能にして強固な表現学習を促進する再帰的クロスアテンションクラスタリング 2. 機能ディスパッチ(feature dispatching)は、アップデートされたクラスタセンタを使用して、類似度ベースのメトリクスを通じてイメージ機能を再配布する。 このエレガントなデザインは説明可能で転送可能なワークフローを合理化し、クラスタリングの粒度(イメージ、ボックス、ピクセルレベル)の異なるレベルで異種視覚タスク(画像分類、オブジェクト検出、画像分割)に取り組むことができる。 実証的な結果は、CLUSTERFORMERが様々な有名な特殊アーキテクチャを上回り、83.41%のトップ1を達成していることを示している。 ImageNet-1K 画像分類では 54.2% と 47.0% mAP が MSCOCO で ADE20K で 52.4% mIoU で ADE20K で 55.8% PQ で その有効性のために、コンピュータビジョンにおける普遍モデルにおけるパラダイムシフトを触媒できることを期待します。

This paper presents CLUSTERFORMER, a universal vision model that is based on the CLUSTERing paradigm with TransFORMER. It comprises two novel designs: 1. recurrent cross-attention clustering, which reformulates the cross-attention mechanism in Transformer and enables recursive updates of cluster centers to facilitate strong representation learning; and 2. feature dispatching, which uses the updated cluster centers to redistribute image features through similarity-based metrics, resulting in a transparent pipeline. This elegant design streamlines an explainable and transferable workflow, capable of tackling heterogeneous vision tasks (i.e., image classification, object detection, and image segmentation) with varying levels of clustering granularity (i.e., image-, box-, and pixel-level). Empirical results demonstrate that CLUSTERFORMER outperforms various well-known specialized architectures, achieving 83.41% top-1 acc. over ImageNet-1K for image classification, 54.2% and 47.0% mAP over MS COCO for object detection and instance segmentation, 52.4% mIoU over ADE20K for semantic segmentation, and 55.8% PQ over COCO Panoptic for panoptic segmentation. For its efficacy, we hope our work can catalyze a paradigm shift in universal models in computer vision.
翻訳日:2023-09-26 21:47:35 公開日:2023-09-22
# 不均一クライアントのためのパーソナライズ層を用いたフェデレーション短期負荷予測

Federated Short-Term Load Forecasting with Personalization Layers for Heterogeneous Clients ( http://arxiv.org/abs/2309.13194v1 )

ライセンス: Link先を確認
Shourya Bose and Kibaek Kim(参考訳) スマートメーターの出現により、短期負荷予測(STLF)モデルをトレーニングするための幅広いエネルギー消費データ収集が可能になった。 プライバシの懸念に応えて、トレーニングのためのプライバシ保護アプローチとしてフェデレートラーニング(FL)が提案されているが、クライアントデータによってトレーニングされたモデルの品質が低下する。 本稿では、この欠点をパーソナライズ層を用いて軽減し、FLフレームワーク内のSTLFモデルの特定のレイヤが、クライアント自身のデータのみに基づいてトレーニングされるようにする。 そこで本研究では,パーソナライズ層を扱えるパーソナライズされたFLアルゴリズム(PL-FL)を提案する。 PL-FLアルゴリズムはArgonne Privacy-Preserving Federated Learningパッケージを用いて実装されている。 複数の商業ビルの異種エネルギー消費データを含むNREL ComStockデータセットでトレーニングしたモデルの予測性能を検証した。 PL-FLで訓練されたモデルの上位性能は、パーソナライズ層によって従来のFLアルゴリズムが不均一なデータでクライアントを扱えることを示す。

The advent of smart meters has enabled pervasive collection of energy consumption data for training short-term load forecasting (STLF) models. In response to privacy concerns, federated learning (FL) has been proposed as a privacy-preserving approach for training, but the quality of trained models degrades as client data becomes heterogeneous. In this paper we alleviate this drawback using personalization layers, wherein certain layers of an STLF model in an FL framework are trained exclusively on the clients' own data. To that end, we propose a personalized FL algorithm (PL-FL) enabling FL to handle personalization layers. The PL-FL algorithm is implemented by using the Argonne Privacy-Preserving Federated Learning package. We test the forecast performance of models trained on the NREL ComStock dataset, which contains heterogeneous energy consumption data of multiple commercial buildings. Superior performance of models trained with PL-FL demonstrates that personalization layers enable classical FL algorithms to handle clients with heterogeneous data.
翻訳日:2023-09-26 21:47:03 公開日:2023-09-22
# 適応的バックプロパゲーションによる大規模言語モデルにおけるグリーンAI

Towards Green AI in Fine-tuning Large Language Models via Adaptive Backpropagation ( http://arxiv.org/abs/2309.13192v1 )

ライセンス: Link先を確認
Kai Huang, Hanyun Yin, Heng Huang, Wei Gao(参考訳) ファインチューニングは、トレーニング済みの大規模言語モデル(LLM)を下流アプリケーションに適用する最も効果的な方法である。 LLM対応AIアプリケーションの急速な成長とオープンソーシング LLM の民主化により、未経験者でも微調整が可能になったが、世界中で集中的に実施されている微調整はエネルギー消費と炭素フットプリントを著しく増加させ、環境に大きな影響を与える可能性がある。 グリーンaiに対する環境影響の軽減は、微調整のフラップの削減と直接相関するが、効率的なllm微調整における既存の技術は、微調整におけるバックプロパゲーションコストの無知のため、そのようなフラップの削減しかできない。 この制限に対処するため,本論文では,異なるテンソルのバックプロパゲーションコストと微調整モデル精度への寄与を適応的に評価する新しいLLM微調整手法であるGreenTrainerを提案する。 このようなGreenTrainerの選択は、エネルギー供給における炭素フットプリントとグリーンAIの必要性に柔軟に対応できるFLOPの削減という目標に基づいて行われる。 複数のオープンソースLLMモデルと抽象的な要約データセットに対する実験結果から、LLMモデル全体を微調整するのに対し、GreenTrainerはモデル精度を損なうことなく、最大64%のFLOPを細調整で保存できることがわかった。 LoRaのような既存の微調整技術と比較して、GreenTrainerはモデル精度を最大4%改善できる。

Fine-tuning is the most effective way of adapting pre-trained large language models (LLMs) to downstream applications. With the fast growth of LLM-enabled AI applications and democratization of open-souced LLMs, fine-tuning has become possible for non-expert individuals, but intensively performed LLM fine-tuning worldwide could result in significantly high energy consumption and carbon footprint, which may bring large environmental impact. Mitigating such environmental impact towards Green AI directly correlates to reducing the FLOPs of fine-tuning, but existing techniques on efficient LLM fine-tuning can only achieve limited reduction of such FLOPs, due to their ignorance of the backpropagation cost in fine-tuning. To address this limitation, in this paper we present GreenTrainer, a new LLM fine-tuning technique that adaptively evaluates different tensors' backpropagation costs and contributions to the fine-tuned model accuracy, to minimize the fine-tuning cost by selecting the most appropriate set of tensors in training. Such selection in GreenTrainer is made based on a given objective of FLOPs reduction, which can flexibly adapt to the carbon footprint in energy supply and the need in Green AI. Experiment results over multiple open-sourced LLM models and abstractive summarization datasets show that, compared to fine-tuning the whole LLM model, GreenTrainer can save up to 64% FLOPs in fine-tuning without any noticeable model accuracy loss. Compared to the existing fine-tuning techniques such as LoRa, GreenTrainer can achieve up to 4% improvement on model accuracy with on-par FLOPs reduction.
翻訳日:2023-09-26 21:46:46 公開日:2023-09-22
# 空間周波数チャネル, 形状バイアス, 対向ロバスト性

Spatial-frequency channels, shape bias, and adversarial robustness ( http://arxiv.org/abs/2309.13190v1 )

ライセンス: Link先を確認
Ajay Subramanian, Elena Sizikova, Najib J. Majaj, Denis G. Pelli(参考訳) 人間とニューラルネットワークは物体を認識するのにどんな空間周波数情報を使うのか? 神経科学において、クリティカルバンドマスキングは、物体認識に使用される周波数選択フィルタを明らかにする確立されたツールである。 臨界帯域マスキングは、空間周波数毎に付加される雑音に対する認識性能の感度を測定する。 既存のクリティカルバンドマスキング研究では、人間が1オクターブの周波数帯域(周波数の倍)を持つ空間周波数フィルタ(または「チャネル」)を用いて周期パターンと文字を認識することが示されている。 本稿では,ネットワーク・ヒューマン比較のための課題として臨界帯域マスキングを導入し,狭帯域雑音下での16方向イメージネット分類において,14人と76人のニューラルネットワークをテストした。 人間は文字やグレーティングに使用する1オクターブ幅のチャネルを使って自然画像中の物体を認識することがわかり、人間の物体認識の標準的特徴となっている。 一方、ニューラルネットワークチャネルは、さまざまなアーキテクチャとトレーニング戦略をまたいで、人間のチャネルの2-4倍幅がある。 言い換えれば、ネットワークは人間のパフォーマンスに影響を与えない高周波数と低周波数のノイズに弱い。 adversarial と augmented-image トレーニングは、ネットワークの堅牢性と形状バイアスを高めるために一般的に使用される。 このトレーニングは、ネットワークと人間のオブジェクト認識チャネルを調整するか? 3つのネットワークチャネル特性 (帯域幅, 中心周波数, ピークノイズ感度) は, 形状バイアス (53%分散説明) と強く相関し, 対向訓練ネットワークの堅牢性 (74%分散説明) と相関する。 対人訓練は堅牢性を高めるが、チャネル帯域幅を人間の帯域幅からさらに遠ざける。 したがって、クリティカルバンドマスキングは、ネットワークチャネルが人間のチャネルの2倍以上の幅であり、敵のトレーニングがこの差を増加させるだけであることを示す。

What spatial frequency information do humans and neural networks use to recognize objects? In neuroscience, critical band masking is an established tool that can reveal the frequency-selective filters used for object recognition. Critical band masking measures the sensitivity of recognition performance to noise added at each spatial frequency. Existing critical band masking studies show that humans recognize periodic patterns (gratings) and letters by means of a spatial-frequency filter (or "channel'') that has a frequency bandwidth of one octave (doubling of frequency). Here, we introduce critical band masking as a task for network-human comparison and test 14 humans and 76 neural networks on 16-way ImageNet categorization in the presence of narrowband noise. We find that humans recognize objects in natural images using the same one-octave-wide channel that they use for letters and gratings, making it a canonical feature of human object recognition. On the other hand, the neural network channel, across various architectures and training strategies, is 2-4 times as wide as the human channel. In other words, networks are vulnerable to high and low frequency noise that does not affect human performance. Adversarial and augmented-image training are commonly used to increase network robustness and shape bias. Does this training align network and human object recognition channels? Three network channel properties (bandwidth, center frequency, peak noise sensitivity) correlate strongly with shape bias (53% variance explained) and with robustness of adversarially-trained networks (74% variance explained). Adversarial training increases robustness but expands the channel bandwidth even further away from the human bandwidth. Thus, critical band masking reveals that the network channel is more than twice as wide as the human channel, and that adversarial training only increases this difference.
翻訳日:2023-09-26 21:46:14 公開日:2023-09-22
# コンテンツ一貫性のない画像間翻訳のためのマスク付き判別器

Masked Discriminators for Content-Consistent Unpaired Image-to-Image Translation ( http://arxiv.org/abs/2309.13188v1 )

ライセンス: Link先を確認
Bonifaz Stuhr, J\"urgen Brauer, Bernhard Schick, Jordi Gonz\`alez(参考訳) unpaired image-to-image translationの共通の目標は、対象領域のスタイルを模倣しながら、ソース画像と翻訳画像間のコンテンツ一貫性を維持することである。 両方のドメインのデータセット間のバイアスのため、多くのメソッドは翻訳プロセスによって引き起こされる不整合に苦しむ。 これらの不整合を緩和するために導入されたほとんどのアプローチは、差別を制限せず、さらに不整合なトレーニング設定につながる。 さらに、これらのアプローチは、より大きな作物サイズのために設計されていない。 本研究では,コンテンツベースマスクを用いた両ドメインにおけるグローバル判別器の入力をマスキングすることで,コンテンツの不整合を著しく低減できることを示す。 しかし、この戦略は、マスキングプロセスに遡ることができるアーティファクトへと繋がる。 これらのアーティファクトを減らすために、類似性サンプリング戦略で選択された小作物のペアで動作する局所判別器を導入する。 さらに、このサンプリング戦略を適用し、ソースおよびターゲットデータセットからグローバルな入力作物をサンプリングする。 さらに,コンテントベースの統計データをジェネレータストリームに選択的に組み込む機能付き非正規化を提案する。 本実験では,光リアルなシミュレーショナル翻訳と天気翻訳において最先端の性能を実現し,日毎の翻訳でも良好に動作することを示す。 さらに,sKVD尺度に基づいて,クラスやカテゴリレベルでの翻訳品質の検証を可能にするcKVD尺度を提案する。

A common goal of unpaired image-to-image translation is to preserve content consistency between source images and translated images while mimicking the style of the target domain. Due to biases between the datasets of both domains, many methods suffer from inconsistencies caused by the translation process. Most approaches introduced to mitigate these inconsistencies do not constrain the discriminator, leading to an even more ill-posed training setup. Moreover, none of these approaches is designed for larger crop sizes. In this work, we show that masking the inputs of a global discriminator for both domains with a content-based mask is sufficient to reduce content inconsistencies significantly. However, this strategy leads to artifacts that can be traced back to the masking process. To reduce these artifacts, we introduce a local discriminator that operates on pairs of small crops selected with a similarity sampling strategy. Furthermore, we apply this sampling strategy to sample global input crops from the source and target dataset. In addition, we propose feature-attentive denormalization to selectively incorporate content-based statistics into the generator stream. In our experiments, we show that our method achieves state-of-the-art performance in photorealistic sim-to-real translation and weather translation and also performs well in day-to-night translation. Additionally, we propose the cKVD metric, which builds on the sKVD metric and enables the examination of translation quality at the class or category level.
翻訳日:2023-09-26 21:45:43 公開日:2023-09-22
# トポロジーの重要性を視覚化する: クラス駆動アプローチ

Visualizing Topological Importance: A Class-Driven Approach ( http://arxiv.org/abs/2309.13185v1 )

ライセンス: Link先を確認
Yu Qin and Brittany Terese Fasy and Carola Wenk and Brian Summa(参考訳) 本稿では,データのクラスを定義する位相的特徴の重要性を可視化する最初の手法を提案する。 複雑なデータの基本的な構造を抽象化できるトポロジカルな特徴は、可視化と分析パイプラインの不可欠なコンポーネントである。 データに含まれるすべてのトポロジ的特徴が同じ重要性を持つわけではない。 今日まで、機能の重要性のデフォルト定義は、しばしば仮定され、修正されている。 この研究は、説明可能なディープラーニングアプローチがトポロジカル分類にどのように適用できるかを示している。 そうすることで、クラスラベルに関して各データセットで重要なトポロジ構造を照らす最初のテクニックを提供する。 特に、このアプローチは、永続化図の点の密度推定器を入力として、学習されたメトリック分類器を使用する。 この計量は、分類精度が高いようにこの密度を補正する方法を学ぶ。 この重みを抽出することにより、永続点密度の重要フィールドを作成することができる。 これは永続点の重要性を直感的に表現し、新しい視覚化の推進に使用できる。 この研究は2つの例を提供する: 各図上で直接可視化することと、画像のサブレベルセットのフィルタの場合、画像そのものを直接可視化することである。 この研究は、グラフ、3次元形状、医療画像データにおける重要なトポロジ的特徴を可視化するこのアプローチの実例を強調している。

This paper presents the first approach to visualize the importance of topological features that define classes of data. Topological features, with their ability to abstract the fundamental structure of complex data, are an integral component of visualization and analysis pipelines. Although not all topological features present in data are of equal importance. To date, the default definition of feature importance is often assumed and fixed. This work shows how proven explainable deep learning approaches can be adapted for use in topological classification. In doing so, it provides the first technique that illuminates what topological structures are important in each dataset in regards to their class label. In particular, the approach uses a learned metric classifier with a density estimator of the points of a persistence diagram as input. This metric learns how to reweigh this density such that classification accuracy is high. By extracting this weight, an importance field on persistent point density can be created. This provides an intuitive representation of persistence point importance that can be used to drive new visualizations. This work provides two examples: Visualization on each diagram directly and, in the case of sublevel set filtrations on images, directly on the images themselves. This work highlights real-world examples of this approach visualizing the important topological features in graph, 3D shape, and medical image data.
翻訳日:2023-09-26 21:45:20 公開日:2023-09-22
# 医療紹介のための文書理解

Document Understanding for Healthcare Referrals ( http://arxiv.org/abs/2309.13184v1 )

ライセンス: Link先を確認
Jimit Mistry, Natalia M. Arzeno(参考訳) 医療紹介のためのスキャンされた文書の信頼性とファックスコミュニケーションは、患者のケアに影響を与える可能性のある管理コストとエラーにつながる。 本研究は, ファックスドレファレンシャル文書中の重要患者, 医師, 試験関連エンティティを特定するためのドメイン固有のルールとともに, LayoutLMv3を利用したハイブリッドモデルを提案する。 医療実践によって異なるフォーマットを持つ参考書に文書理解モデルを適用する際の課題について検討し、MUC-5メトリクスを用いてモデル性能を評価し、実用的なユースケースに適した指標を得る。 本分析では,トランスフォーマーモデルにドメイン固有のルールを加えることで,精度とf1スコアが大幅に向上することを示す。

Reliance on scanned documents and fax communication for healthcare referrals leads to high administrative costs and errors that may affect patient care. In this work we propose a hybrid model leveraging LayoutLMv3 along with domain-specific rules to identify key patient, physician, and exam-related entities in faxed referral documents. We explore some of the challenges in applying a document understanding model to referrals, which have formats varying by medical practice, and evaluate model performance using MUC-5 metrics to obtain appropriate metrics for the practical use case. Our analysis shows the addition of domain-specific rules to the transformer model yields greatly increased precision and F1 scores, suggesting a hybrid model trained on a curated dataset can increase efficiency in referral management.
翻訳日:2023-09-26 21:45:00 公開日:2023-09-22
# 情報価値に関する統計的仮説検定(iv)

Statistical Hypothesis Testing for Information Value (IV) ( http://arxiv.org/abs/2309.13183v1 )

ライセンス: Link先を確認
Helder Rojas, Cirilo Alvarez and Nilton Rojas(参考訳) 情報の価値(IV)は、モデリングフェーズの前に特徴の選択を行うための非常に一般的なテクニックです。 実用的な基準はあるが、同時にivに基づいて、モデリングフェーズで考慮すべき十分な予測能力があるかどうかを決定するための、謎めいた理論的な議論が欠如している。 しかし、この手法の数学的発展と統計的推論法は文献にはほとんど存在しない。 本研究は,IVの理論的枠組みを提示し,予測力をテストするための非パラメトリック仮説テストを提案する。 シミュレーションデータを用いて,テスト統計を効率的に計算し,その性能について検討する。 さらに、銀行詐欺データにテストを適用し、結果を実装するためのpythonライブラリを提供します。

Information value (IV) is a quite popular technique for feature selection prior to the modeling phase. There are practical criteria, but at the same time mysterious and lacking theoretical arguments, based on the IV, to decide if a predictor has sufficient predictive power to be considered in the modeling phase. However, the mathematical development and statistical inference methods for this technique is almost non-existent in the literature. In this work we present a theoretical framework for the IV and propose a non-parametric hypothesis test to test the predictive power. We show how to efficiently calculate the test statistic and study its performance on simulated data. Additionally, we apply our test on bank fraud data and provide a Python library where we implement our results.
翻訳日:2023-09-26 21:44:38 公開日:2023-09-22
# LLMによるテーブル型推論能力の有効蒸留

Effective Distillation of Table-based Reasoning Ability from LLMs ( http://arxiv.org/abs/2309.13182v1 )

ライセンス: Link先を確認
Bohao Yang, Chen Tang, Kun Zhao, Chenghao Xiao, Chenghua Lin(参考訳) 大規模言語モデル(LLM)は、幅広い自然言語処理タスクにおいて顕著な性能を示している。 しかし、その驚くべきパラメータサイズとコンピュータリソースに対する高い要求は、実際のデプロイメントに課題を生じさせる。 近年の研究では、LLMの特定の機能、例えば数値的推論は蒸留によってより小さなモデルに移行できることが明らかになっている。 LLMをテーブルベースの推論に活用する可能性を探る研究もある。 しかしながら,本研究に先立ち,テーブル・ツー・テキスト生成タスクに適した小型モデルにおいて,テーブル推論スキルを育成する可能性については検討されていない。 本稿では, LLMをテーブルベースの推論タスク用に特別に設計された, より小型なモデルに蒸留することを目的とした, テーブルベースの推論蒸留を提案する。 実験の結果、0.22億のパラメータモデル(flan-t5-base)が蒸留データを用いて微調整されており、従来の微調整されたベースラインよりも大幅に改善されるだけでなく、scigen(scigen)のgpt-3.5-turboのような特定のllmを超えることが示されている。 コードとデータはhttps://github.com/bernard-yang/tabledistillでリリースされる。

Large Language Models (LLMs) have demonstrated remarkable performance across a wide range of natural language processing tasks. However, their remarkable parameter size and their impressive high requirement of computing resources pose challenges for their practical deployment. Recent research has revealed that specific capabilities of LLMs, such as numerical reasoning, can be transferred to smaller models through distillation. Some studies explore the potential of leveraging LLMs to perform table-based reasoning. Nevertheless, prior to our work, there has been no investigation into the prospect of specialising table reasoning skills in smaller models specifically tailored for table-to-text generation tasks. In this paper, we propose a novel table-based reasoning distillation, with the aim of distilling distilling LLMs into tailored, smaller models specifically designed for table-based reasoning task. Experimental results have shown that a 0.22 billion parameter model (Flan-T5-base) fine-tuned using distilled data, not only achieves a significant improvement compared to traditionally fine-tuned baselines but also surpasses specific LLMs like gpt-3.5-turbo on the scientific table-to-text generation dataset (SciGen). The code and data are released in https://github.com/Bernard-Yang/TableDistill.
翻訳日:2023-09-26 21:44:18 公開日:2023-09-22
# 深層強化学習のためのビデオゲームの計算要求の診断と活用

Diagnosing and exploiting the computational demands of videos games for deep reinforcement learning ( http://arxiv.org/abs/2309.13181v1 )

ライセンス: Link先を確認
Lakshmi Narasimhan Govindarajan, Rex G Liu, Drew Linsley, Alekh Karkada Ashok, Max Reuter, Michael J Frank, Thomas Serre(参考訳) 人間は環境と相互作用し、行動の結果を知覚することで学習する。 人工知能のランドマークは、ビデオゲームで、人間と同等かそれ以上に、同じことをできるディープ強化学習(drl)アルゴリズムの開発である。 しかし、dRLモデルの成功が視覚表現学習の進歩を反映しているか、より優れたポリシーを発見するための強化学習アルゴリズムの有効性、あるいはその両方を反映しているかは明らかでない。 この課題に対処するために,タスクの知覚的および強化的学習要求を別々に測定する学習課題診断器(LCD)を導入する。 我々はLCDを用いて、Procgenベンチマークにおける課題の新しい分類を発見し、これらの予測が信頼性が高く、アルゴリズム開発を指導できることを示す。 より広範に、LCDは、Procgenのようなビデオゲームベンチマーク全体に対してdRLアルゴリズムを最適化する際に発生する複数の障害ケースを明らかにし、より効率的な進歩への道筋を提供する。

Humans learn by interacting with their environments and perceiving the outcomes of their actions. A landmark in artificial intelligence has been the development of deep reinforcement learning (dRL) algorithms capable of doing the same in video games, on par with or better than humans. However, it remains unclear whether the successes of dRL models reflect advances in visual representation learning, the effectiveness of reinforcement learning algorithms at discovering better policies, or both. To address this question, we introduce the Learning Challenge Diagnosticator (LCD), a tool that separately measures the perceptual and reinforcement learning demands of a task. We use LCD to discover a novel taxonomy of challenges in the Procgen benchmark, and demonstrate that these predictions are both highly reliable and can instruct algorithmic development. More broadly, the LCD reveals multiple failure cases that can occur when optimizing dRL algorithms over entire video game benchmarks like Procgen, and provides a pathway towards more efficient progress.
翻訳日:2023-09-26 21:43:22 公開日:2023-09-22
# ビジネス最適化のためのAI-Copilot:生産スケジューリングのフレームワークとケーススタディ

AI-Copilot for Business Optimisation: A Framework and A Case Study in Production Scheduling ( http://arxiv.org/abs/2309.13218v1 )

ライセンス: Link先を確認
Pivithuru Thejan Amarasinghe, Su Nguyen, Yuan Sun and Damminda Alahakoon(参考訳) ビジネス最適化は、ビジネスに競争上の優位性をもたらすために、効率的で費用対効果の高い運用方法を見つけ、実装するプロセスである。 問題定式化は、人間の専門知識を中心としたビジネス最適化の不可欠な部分であり、ボトルネックになる可能性が高い。 近年のLarge Language Models (LLMs) の進歩により、問題定式化に必要な人間の専門知識は、人工知能(AI)を用いて最小化できる可能性がある。 しかし、データ要件のトレーニングやトークン制限、LLMにおける適切なパフォーマンス指標の欠如など、問題定式化のためのLLMの開発は困難である。 大規模なトレーニングデータの要求を最小限に抑えるため、最近、特定のタスクのためにLLMをスクラッチからトレーニングするのではなく、下流タスクのための微調整済みのLLMにかなりの注意が向けられている。 本稿では,本手法を採用し,事前学習したllmを問題定式化のために微調整することにより,ビジネス最適化のためのai-copilotを提案する。 トークン制限に対処するために,LLMのトークン制限に適合するモジュールとして,複雑な問題定式化を合成するためのモジュール化とエンジニアリング手法を導入する。 さらに,既存の評価指標と比較して,問題定式化の精度と品質を評価するのに適した評価指標を設計する。 実験により,我々のAI-Copilotは,生産スケジューリングにおける典型的なビジネス最適化問題に対して,複雑で大規模な問題定式化を合成できることが示されている。

Business optimisation is the process of finding and implementing efficient and cost-effective means of operation to bring a competitive advantage for businesses. Synthesizing problem formulations is an integral part of business optimisation which is centred around human expertise, thus with a high potential of becoming a bottleneck. With the recent advancements in Large Language Models (LLMs), human expertise needed in problem formulation can potentially be minimized using Artificial Intelligence (AI). However, developing a LLM for problem formulation is challenging, due to training data requirements, token limitations, and the lack of appropriate performance metrics in LLMs. To minimize the requirement of large training data, considerable attention has recently been directed towards fine-tuning pre-trained LLMs for downstream tasks, rather than training a LLM from scratch for a specific task. In this paper, we adopt this approach and propose an AI-Copilot for business optimisation by fine-tuning a pre-trained LLM for problem formulation. To address token limitations, we introduce modularization and prompt engineering techniques to synthesize complex problem formulations as modules that fit into the token limits of LLMs. In addition, we design performance evaluation metrics that are more suitable for assessing the accuracy and quality of problem formulations compared to existing evaluation metrics. Experiment results demonstrate that our AI-Copilot can synthesize complex and large problem formulations for a typical business optimisation problem in production scheduling.
翻訳日:2023-09-26 21:35:36 公開日:2023-09-22
# MISFIT-V:熱・視覚情報を用いた画像合成と融合

MISFIT-V: Misaligned Image Synthesis and Fusion using Information from Thermal and Visual ( http://arxiv.org/abs/2309.13216v1 )

ライセンス: Link先を確認
Aadhar Chauhan, Isaac Remy, Danny Broyles, and Karen Leung(参考訳) 大気中の視覚や熱画像から人間を検出することは、WiSAR(Wiserness Search-and-Rescue)チームにとって根本的な課題である。 これらの2つのセンサーモードを融合する能力は、人間のオペレーターに対する認知的負荷を減少させ、コンピュータビジョンオブジェクト検出モデルの有効性を向上させる可能性がある。 しかし、ハードウェアの限界と極端な環境要因のため、融合タスクはWiSARの文脈では特に困難である。 本研究は,GAN(Generative Adversarial Network)とクロスアテンション機構を用いて,各モードから最も関連性の高い特徴を抽出する,2段階の非教師付き深層学習手法であるMISFIT-V(Information from Thermal and Visual)を用いたミスアライメント画像合成と融合を提案する。 実験結果から,MISFIT-Vは既存の画像融合法と比較して,配向不良や照明・熱環境の悪化に対して強い堅牢性を示すことが示された。

Detecting humans from airborne visual and thermal imagery is a fundamental challenge for Wilderness Search-and-Rescue (WiSAR) teams, who must perform this function accurately in the face of immense pressure. The ability to fuse these two sensor modalities can potentially reduce the cognitive load on human operators and/or improve the effectiveness of computer vision object detection models. However, the fusion task is particularly challenging in the context of WiSAR due to hardware limitations and extreme environmental factors. This work presents Misaligned Image Synthesis and Fusion using Information from Thermal and Visual (MISFIT-V), a novel two-pronged unsupervised deep learning approach that utilizes a Generative Adversarial Network (GAN) and a cross-attention mechanism to capture the most relevant features from each modality. Experimental results show MISFIT-V offers enhanced robustness against misalignment and poor lighting/thermal environmental conditions compared to existing visual-thermal image fusion methods.
翻訳日:2023-09-26 21:35:12 公開日:2023-09-22
# ビデオゲームコミュニケーションにおけるパーソナリティの感情状態への影響評価

Assessing the Impact of Personality on Affective States from Video Game Communication ( http://arxiv.org/abs/2309.13214v1 )

ライセンス: Link先を確認
Atieh Kashani, Johannes Pfau, Magy Seif El-Nasr(参考訳) 個々人の性格の違いは、私たちの好み、特性、価値観を決定づけます。 テクノロジーと社会の現在の進歩と変革により、テキストベースのコミュニケーションは普通になり、しばしば自然な声の会話を -- 異なる課題と機会と共に -- 越えている。 本研究では,チームベースの協調現実ゲームにおけるプレイヤーが感情的に自己表現する傾向に及ぼす個性の影響について検討する。 2週間にわたって11人の選手からチャットログを収集し,感情状態に応じてラベル付けし,それらと5要素のパーソナリティドメインとファセットの関連を評価した。 マルチ線形回帰を適用した結果,自己能力の低下 (C1) やストレスに対する不安による個人的不安 (N6) ,不安を伴わない選手 (N1), 謙虚で控えめな選手 (A5), 行動より慎重に考えること (C6) , 神経性障害が高い選手 (N) などにより, 人格変数と表現的影響の相関関係が示唆された。 その後の作業でデータセット、サンプルサイズ、入力モダリティを拡大し、これらの発見を確認し、より興味深いコネクションを明らかにすることを目的としています。

Individual differences in personality determine our preferences, traits and values, which should similarly hold for the way we express ourselves. With current advancements and transformations of technology and society, text-based communication has become ordinary and often even surpasses natural voice conversations -- with distinct challenges and opportunities. In this exploratory work, we investigate the impact of personality on the tendency how players of a team-based collaborative alternate reality game express themselves affectively. We collected chat logs from eleven players over two weeks, labeled them according to their affective state, and assessed the connection between them and the five-factor personality domains and facets. After applying multi-linear regression, we found a series of reasonable correlations between (combinations of) personality variables and expressed affect -- as increased confusion could be predicted by lower self-competence (C1), personal annoyance by vulnerability to stress (N6) and expressing anger occured more often in players that are prone to anxiety (N1), less humble and modest (A5), think less carefully before they act (C6) and have higher neuroticism (N). Expanding the data set, sample size and input modalities in subsequent work, we aim to confirm these findings and reveal even more interesting connections that could inform affective computing and games user research equally.
翻訳日:2023-09-26 21:34:54 公開日:2023-09-22
# LHCb超高速シミュレーションオプションLamarr:設計と検証

The LHCb ultra-fast simulation option, Lamarr: design and validation ( http://arxiv.org/abs/2309.13213v1 )

ライセンス: Link先を確認
Lucio Anderlini, Matteo Barbetti, Simone Capelli, Gloria Corti, Adam Davis, Denis Derkach, Nikita Kazeev, Artem Maevskiy, Maurizio Martinelli, Sergei Mokonenko, Benedetto Gianluca Siddi, Zehua Xu (for the LHCb Simulation Project)(参考訳) 詳細な検出器シミュレーションはLHCbのCPUリソースの主要な消費者であり、CERNの大型ハドロン衝突型加速器のラン2で計算予算の90%以上を使っていた。 LHCのラン3で改良されたLHCb検出器によってデータが収集されるため、シミュレーションデータサンプルに対するより大きな要求が必要であり、既存の高速シミュレーションオプションでさえ、実験の約束されたリソースをはるかに超えることになる。 シミュレーションサンプルを生成する技術や技術の進化は、信号と背景を解釈し、効率を測定するための今後の分析のニーズを満たすために必須である。 そこで我々は,lhcb検出器のシミュレーションに最適な解法を提供するために設計されたガウディベースのフレームワーク lamarr を提案する。 ラマーは検出器応答とLHCb実験の再構成アルゴリズムの両方をパラメータ化したモジュールのパイプラインで構成されている。 パラメータ化のほとんどは、シミュレーションサンプルでトレーニングされたDeep Generative ModelsとGradient Boosted Decision Treesで構成されている。 一般的なLHCb Gauss SimulationフレームワークにLamarrを埋め込むことで、実行と利用可能なジェネレータをシームレスに組み合わせることができる。 Lamarrは、重要な再構成量と詳細なシミュレーションを比較することで検証されている。 シミュレーション位相の2次速度アップによりシミュレーション分布の良好な一致を求める。

Detailed detector simulation is the major consumer of CPU resources at LHCb, having used more than 90% of the total computing budget during Run 2 of the Large Hadron Collider at CERN. As data is collected by the upgraded LHCb detector during Run 3 of the LHC, larger requests for simulated data samples are necessary, and will far exceed the pledged resources of the experiment, even with existing fast simulation options. An evolution of technologies and techniques to produce simulated samples is mandatory to meet the upcoming needs of analysis to interpret signal versus background and measure efficiencies. In this context, we propose Lamarr, a Gaudi-based framework designed to offer the fastest solution for the simulation of the LHCb detector. Lamarr consists of a pipeline of modules parameterizing both the detector response and the reconstruction algorithms of the LHCb experiment. Most of the parameterizations are made of Deep Generative Models and Gradient Boosted Decision Trees trained on simulated samples or alternatively, where possible, on real data. Embedding Lamarr in the general LHCb Gauss Simulation framework allows combining its execution with any of the available generators in a seamless way. Lamarr has been validated by comparing key reconstructed quantities with Detailed Simulation. Good agreement of the simulated distributions is obtained with two-order-of-magnitude speed-up of the simulation phase.
翻訳日:2023-09-26 21:34:26 公開日:2023-09-22
# 統一シナリオにおける量子アドバンテージと資源の安全な検出

Quantum advantage in a unified scenario and secure detection of resources ( http://arxiv.org/abs/2309.13208v1 )

ライセンス: Link先を確認
Saronath Halder, Alexander Streltsov(参考訳) 量子リソースは、古典的なリソースよりも有利である。 我々はこれを量子的優位だと言う。 ここでは、量子優位性の異なるアプローチを研究するための単一のタスクを考える。 これを統一的なシナリオと言えます。 私たちのタスクには、マネージャ、Alice、Bobの3つのパーティがあります。 マネージャはAliceにランダム変数の値を送り、同時にBobはその値に関する部分的な情報を受け取る。 当初、アリスもボブもお互いの入力を知らない。 タスクのゴールが達成されるのは、アリスに送られた確率変数の値が、常に半分以上の成功確率を持つボブによって特定されたときである。 ここでエラー確率はゼロではない。 ボブを助けるため、アリスは古典的または量子的な情報を限られた量送る。 Alice が qubit を送信するとタスクのゴールが達成できることを示す。 一方、cbit通信は目標を達成するのに十分ではない。 したがって、量子アドバンテージが確立される。 さらに、キュービット通信の全体プロセスにおける最適成功確率は、cbit通信のそれよりも高い可能性があることを示す。 明らかに量子アドバンテージを確立するだけでなく、より顕著な非古典的特徴も示している。 また,他のタスクに比べて高い成功確率が得られる。 これは、我々のタスクの実験フレンドリーな性質を示唆している。 そして、タスクを半デバイス依存と結びつけ、コミュニケーションの量子性を検出するのにどのように役立つかを示します。 同様に、アンサンブルの普遍的なコヒーレンスを検出する方法も提供する。 高次元確率変数の場合、目標を達成するには、キュービットのみを送信することで達成できるが、任意に高次元の古典的通信が必要である。 これは任意に大きな量子-古典的分離を確立する。

Quantum resources may provide advantage over their classical counterparts. We say this as quantum advantage. Here we consider a single task to study different approaches of having quantum advantage. We say this as a unified scenario. In our task, there are three parties: Manager, Alice, and Bob. The Manager sends a value of a random variable to Alice and at the same time Bob receives some partial information regarding that value. Initially, neither Alice nor Bob knows the input of the other. The goal of the task is achieved if and only if the value of the random variable, sent to Alice, is identified by Bob with success probability greater than half all the time. Here error probability is non-zero. To help Bob, Alice sends a limited amount of classical or quantum information to him. We show that the goal of the task can be achieved when Alice sends a qubit. On the other hand, a cbit communication is not sufficient for achieving the goal. Thus, it establishes quantum advantage. We further show that the optimal success probability in the overall process for a qubit communication might be higher than that for a cbit communication. Clearly, it not only establishes quantum advantage, it also demonstrates a more prominent non-classical feature. We also obtain higher success probability compared to other tasks. This suggests the experiment friendly nature of our task. Then, we connect our task with semi-device-independence and show how our task can be useful to detect quantumness of communication securely. Similarly, we provide a way to detect universal coherence of an ensemble. For a high dimensional random variable, to achieve the goal, it may require an arbitrarily high dimensional classical communication while it can be achieved by sending a qubit only. This establishes an arbitrarily large quantum-classical separation.
翻訳日:2023-09-26 21:34:01 公開日:2023-09-22
# Evidential Deep Learning:地球系科学応用のための予測不確実性推定の強化

Evidential Deep Learning: Enhancing Predictive Uncertainty Estimation for Earth System Science Applications ( http://arxiv.org/abs/2309.13207v1 )

ライセンス: Link先を確認
John S. Schreck, David John Gagne II, Charlie Becker, William E. Chapman, Kim Elmore, Gabrielle Gantos, Eliot Kim, Dhamma Kimpara, Thomas Martin, Maria J. Molina, Vanessa M. Pryzbylo, Jacob Radford, Belen Saavedra, Justin Willson, Christopher Wirz(参考訳) 予測の不確かさのロバストな定量化は、気象と気候の結果を促進する要因を理解する上で重要である。 アンサンブルは予測の不確実性の推定を提供し、物理的に分解することができるが、物理と機械学習のアンサンブルは計算的に高価である。 パラメトリック深層学習は、確率分布のパラメータを予測することによって、一つのモデルで不確かさを推定できるが、認識的不確実性は考慮しない。 . パラメトリック深層学習を高次分布に拡張する実証的深層学習は、1つのモデルで有意な不確かさと認識的不確実性の両方を考慮できる。 本研究は,ニューラルネットワークから得られる不確かさとアンサンブルから得られる不確かさを比較した。 冬期降水形態の分類と表層フラックスの回帰の応用を通して, 予測精度が標準手法に匹敵することを示すとともに, 両方の不確実性源をしっかりと定量化しながら, 明らかな深層学習モデルを示す。 我々は,予測の校正精度と不確実性が予測誤差とどの程度相関するかで不確実性を評価する。 入力の文脈における不確実性の分析は、基礎となる気象過程に対する感受性を示し、モデルの解釈を容易にする。 実証的ニューラルネットワークの概念的単純性、解釈性、計算効率は、高度に拡張可能であり、地球系科学モデリングにおける信頼性と実用的な不確かさの定量化に有望なアプローチを提供する。 Earth System Science における顕在的深層学習の広範な採用を促進するため,我々は新しいPythonパッケージ MILES-GUESS (https://github.com/ai2es/miles-guess) を開発した。

Robust quantification of predictive uncertainty is critical for understanding factors that drive weather and climate outcomes. Ensembles provide predictive uncertainty estimates and can be decomposed physically, but both physics and machine learning ensembles are computationally expensive. Parametric deep learning can estimate uncertainty with one model by predicting the parameters of a probability distribution but do not account for epistemic uncertainty.. Evidential deep learning, a technique that extends parametric deep learning to higher-order distributions, can account for both aleatoric and epistemic uncertainty with one model. This study compares the uncertainty derived from evidential neural networks to those obtained from ensembles. Through applications of classification of winter precipitation type and regression of surface layer fluxes, we show evidential deep learning models attaining predictive accuracy rivaling standard methods, while robustly quantifying both sources of uncertainty. We evaluate the uncertainty in terms of how well the predictions are calibrated and how well the uncertainty correlates with prediction error. Analyses of uncertainty in the context of the inputs reveal sensitivities to underlying meteorological processes, facilitating interpretation of the models. The conceptual simplicity, interpretability, and computational efficiency of evidential neural networks make them highly extensible, offering a promising approach for reliable and practical uncertainty quantification in Earth system science modeling. In order to encourage broader adoption of evidential deep learning in Earth System Science, we have developed a new Python package, MILES-GUESS (https://github.com/ai2es/miles-guess), that enables users to train and evaluate both evidential and ensemble deep learning.
翻訳日:2023-09-26 21:33:39 公開日:2023-09-22
# インテント認識型自律運転 : 高速道路合併シナリオを事例として

Intent-Aware Autonomous Driving: A Case Study on Highway Merging Scenarios ( http://arxiv.org/abs/2309.13206v1 )

ライセンス: Link先を確認
Nishtha Mahajan, Qi Zhang(参考訳) 本研究では,自動運転車エージェント間の協調を促進する手段として,意図のコミュニケーションを利用する。 一般的に、意図は、車両が他の車両と通信する将来の行動に関する信頼できる情報となる。 自動運転車の意思決定戦略を学習するための環境群を提供するhighway-envシミュレータにおいて,統合環境上でのインテント共有タスクとして実装する。 2つのエージェント間の簡単な設定の下で、高速道路のマージシナリオにおいて、インテントシェアリングが受信車両の挙動の調整にどのように役立つか慎重に検討する。

In this work, we use the communication of intent as a means to facilitate cooperation between autonomous vehicle agents. Generally speaking, intents can be any reliable information about its future behavior that a vehicle communicates with another vehicle. We implement this as an intent-sharing task atop the merging environment in the simulator of highway-env, which provides a collection of environments for learning decision-making strategies for autonomous vehicles. Under a simple setting between two agents, we carefully investigate how intent-sharing can aid the receiving vehicle in adjusting its behavior in highway merging scenarios.
翻訳日:2023-09-26 21:33:05 公開日:2023-09-22
# 文脈内学習のためのゼロショットプロンプト設計に関する実践的研究

A Practical Survey on Zero-shot Prompt Design for In-context Learning ( http://arxiv.org/abs/2309.13205v1 )

ライセンス: Link先を確認
Yinheng Li(参考訳) 大規模言語モデル(LLM)の顕著な進歩は、自然言語処理(NLP)タスクに大きな改善をもたらした。 本稿では,インコンテキスト学習手法の包括的レビューを行い,離散的,連続的,少数,ゼロショットを含むさまざまな種類のプロンプトと,それらのllmパフォーマンスへの影響について述べる。 我々は,手動設計や最適化アルゴリズム,評価手法など,様々な設計手法を探求し,多種多様なタスクにまたがるLLM性能を最適化する。 本レビューでは,プロンプトエンジニアリングにおける重要な研究成果について紹介し,その方法論とこの分野への貢献について考察する。 プロンプトがないことと、複数のメトリクスを検討することの重要性を考慮して、プロンプトパフォーマンスを評価する際に直面する課題についても検討しました。 結論として, LLMの潜在能力を最大限活用する上で, 迅速な設計が重要な役割を担い, 手動設計, 最適化技術, 厳密な評価を組み合わせることで, 様々なNLPタスクにおけるLLMのより効率的かつ効率的な利用について考察する。

The remarkable advancements in large language models (LLMs) have brought about significant improvements in Natural Language Processing(NLP) tasks. This paper presents a comprehensive review of in-context learning techniques, focusing on different types of prompts, including discrete, continuous, few-shot, and zero-shot, and their impact on LLM performance. We explore various approaches to prompt design, such as manual design, optimization algorithms, and evaluation methods, to optimize LLM performance across diverse tasks. Our review covers key research studies in prompt engineering, discussing their methodologies and contributions to the field. We also delve into the challenges faced in evaluating prompt performance, given the absence of a single "best" prompt and the importance of considering multiple metrics. In conclusion, the paper highlights the critical role of prompt design in harnessing the full potential of LLMs and provides insights into the combination of manual design, optimization techniques, and rigorous evaluation for more effective and efficient use of LLMs in various NLP tasks.
翻訳日:2023-09-26 21:32:53 公開日:2023-09-22
# 大規模言語モデルと制御機構による生物医学的要約のテキスト可読性の向上

Large Language Models and Control Mechanisms Improve Text Readability of Biomedical Abstracts ( http://arxiv.org/abs/2309.13202v1 )

ライセンス: Link先を確認
Zihao Li, Samuel Belkadi, Nicolo Micheletti, Lifeng Han, Matthew Shardlow, Goran Nenadic(参考訳) 医学文献は複雑な言語と到達不能な専門用語を用いることが多い。 そのため、公衆衛生リテラシーを改善する上で、単純化が重要な役割を果たす。 このようなタスクを自動化するために自然言語処理(nlp)モデルを適用することで、在地読者の迅速かつ直接的なアクセシビリティが実現される。 本研究では,生物医学的要約の平易な言語適応のためのデータセットを用いて,生物医学的抽象単純化タスクにおける最先端の大規模言語モデル(llms)の能力について検討する。 適用方法としては、ドメインファインチューニングとプロンプトベースラーニング(PBL)がある。 1)エンコーダ-デコーダモデル(t5, scifive, bart) 2) OpenAI および BioGPT からのデコーダのみの GPT モデル (GPT-3.5 および GPT-4) と BART モデルにおける制御制御機構について検討した。 BLEU,ROUGE,SARI,BERTscoreなど,さまざまな自動評価指標を用い,人的評価を行った。 BART-L-w-CT(BART-L-w-CT)機構ではSARIスコアが46.54、T5ベースではBERTscore 72.62であった。 人間による評価では、BART-L-w-CTsはT5-Base(2.9 vs. 2.2)よりもシンプルさが向上し、T5-BaseはBART-L-w-CTs(3.1 vs. 2.6)よりも保存性が向上した。 我々はまた、システムのアウトプットを例に分類し、このタスクに関する今後の研究に光を当てることを望んだ。 我々のコード、微調整モデル、データ分割は \url{https://github.com/HECTA-UoM/PLABA-MU} で利用可能である。

Biomedical literature often uses complex language and inaccessible professional terminologies. That is why simplification plays an important role in improving public health literacy. Applying Natural Language Processing (NLP) models to automate such tasks allows for quick and direct accessibility for lay readers. In this work, we investigate the ability of state-of-the-art large language models (LLMs) on the task of biomedical abstract simplification, using the publicly available dataset for plain language adaptation of biomedical abstracts (\textbf{PLABA}). The methods applied include domain fine-tuning and prompt-based learning (PBL) on: 1) Encoder-decoder models (T5, SciFive, and BART), 2) Decoder-only GPT models (GPT-3.5 and GPT-4) from OpenAI and BioGPT, and 3) Control-token mechanisms on BART-based models. We used a range of automatic evaluation metrics, including BLEU, ROUGE, SARI, and BERTscore, and also conducted human evaluations. BART-Large with Control Token (BART-L-w-CT) mechanisms reported the highest SARI score of 46.54 and T5-base reported the highest BERTscore 72.62. In human evaluation, BART-L-w-CTs achieved a better simplicity score over T5-Base (2.9 vs. 2.2), while T5-Base achieved a better meaning preservation score over BART-L-w-CTs (3.1 vs. 2.6). We also categorised the system outputs with examples, hoping this will shed some light for future research on this task. Our code, fine-tuned models, and data splits are available at \url{https://github.com/HECTA-UoM/PLABA-MU}
翻訳日:2023-09-26 21:32:33 公開日:2023-09-22
# apsシンクロトロンにおけるx線パラメトリックダウン変換

X-ray Parametric Down Conversion at the APS Synchrotron ( http://arxiv.org/abs/2309.13197v1 )

ライセンス: Link先を確認
N. J. Hartley, D. Hodge, T. Buckway, R. Camacho, P. Chow, E. Christie, A. Gleason, S. Glenzer, A. Halavanau, A. M. Hardy, C. Recker, S. Sheehan, S. Shwartz, H. Tarvin, M. Ware, J. Wunschel, Y. Xiao, R.L. Sandberg, G. Walker(参考訳) 我々は、アドバンスト光子源シンクロトロン施設におけるX線パラメトリックダウン変換の測定を行った。 22 kevの入射ポンプビームを用いて、ダイヤモンド結晶中に発生するダウンコンバート光子対の同時にの弾性放射を観測する。 このペアは低ノイズのシリコンドリフト検出器を用いて検出される。 10~12keVのエネルギー窓内の光子対を短時間でしか観測できない検出器信号の時間-エネルギー相関を測定することにより、ダウンコンバージョンによる生成を確認した。 結晶不一致と検出器位置を系統的に変化させることにより,ダウン変換信号の総和値と一致した結果を得る。

We present measurements of X-ray Parametric Down Conversion at the Advanced Photon Source synchrotron facility. We use an incoming pump beam at 22 keV to observe the simultaneous, elastic emission of down-converted photon pairs generated in a diamond crystal. The pairs are detected using high count rate silicon drift detectors with low noise. Production by down-conversion is confirmed by measuring time-energy correlations in the detector signal, where photon pairs within an energy window ranging from 10 to 12 keV are only observed at short time differences. By systematically varying the crystal misalignment and detector positions, we obtain results that are consistent with the constant total of the down-converted signal.
翻訳日:2023-09-26 21:31:57 公開日:2023-09-22
# ポスト:自己監督型量子化-知識蒸留

Poster: Self-Supervised Quantization-Aware Knowledge Distillation ( http://arxiv.org/abs/2309.13220v1 )

ライセンス: Link先を確認
Kaiqi Zhao, Ming Zhao(参考訳) 量子化対応トレーニング(QAT)は、事前トレーニングされた完全精度モデルから始まり、再トレーニング中に量子化を実行する。 しかし、既存のQATはレーベルの監督を必要としており、精度の低下による精度の低下に悩まされている。 これらの制約に対処するため,本稿では,SQAKD(Self-Supervised Quantization-Aware Knowledge Distillation framework)を提案する。 SQAKDはまず、様々な量子化関数の前方と後方のダイナミクスを統一し、次に、KL-Lossと離散化誤差を同時に最小化する共最適化問題としてQATを再配置する。 評価の結果,SQAKDは様々な最先端QAT作品の性能を著しく向上させることがわかった。 SQAKDはより強力なベースラインを確立し、ラベル付きトレーニングデータを必要としない。

Quantization-aware training (QAT) starts with a pre-trained full-precision model and performs quantization during retraining. However, existing QAT works require supervision from the labels and they suffer from accuracy loss due to reduced precision. To address these limitations, this paper proposes a novel Self-Supervised Quantization-Aware Knowledge Distillation framework (SQAKD). SQAKD first unifies the forward and backward dynamics of various quantization functions and then reframes QAT as a co-optimization problem that simultaneously minimizes the KL-Loss and the discretization error, in a self-supervised manner. The evaluation shows that SQAKD significantly improves the performance of various state-of-the-art QAT works. SQAKD establishes stronger baselines and does not require extensive labeled training data, potentially making state-of-the-art QAT research more accessible.
翻訳日:2023-09-26 21:23:01 公開日:2023-09-22
# DEYOv3: リアルタイムオブジェクト検出のためのYOLO付きDETR

DEYOv3: DETR with YOLO for Real-time Object Detection ( http://arxiv.org/abs/2309.11851v2 )

ライセンス: Link先を確認
Haodong Ouyang(参考訳) 近年、エンド・ツー・エンドの物体検出器は、その優れた性能のために研究コミュニティから大きな注目を集めている。 しかし、DETRは一般的にImageNet上のバックボーンの教師付き事前トレーニングに依存しており、これはDETRの実用的応用とバックボーンの設計を制限し、モデルの潜在的な一般化能力に影響を与える。 本稿では,ステップバイステップトレーニングと呼ばれる新しいトレーニング手法を提案する。 特に第1段階では、一対多で事前訓練されたYOLO検出器を使用して、エンドツーエンド検出器を初期化する。 第2段階では、バックボーンとエンコーダはDETRのようなモデルと一致しているが、検出器のみをゼロから訓練する必要がある。 このトレーニング方法により、オブジェクト検出器はバックボーンをトレーニングするために追加のデータセット(imagenet)を必要としないため、バックボーンの設計をより柔軟にし、オブジェクト検出器の実用化に役立つ検出器のトレーニングコストを劇的に削減できる。 また,detrライクモデルと比較して,従来のdetrライクモデルのトレーニング法よりも高い精度を実現することができた。 本稿では,この新しいトレーニング手法を用いて,deyov3と呼ばれる新しいエンドツーエンドオブジェクト検出モデルを提案する。 DEYOv3-NはCOCO val2017で41.1%、T4 GPUで270 FPS、DEYOv3-Lは51.3%APと102 FPSを達成した。 追加のトレーニングデータを使わずに、DEYOv3は速度と精度の両方で既存のリアルタイムオブジェクト検出器を超越している。 なお、N、S、Mスケールのモデルでは、COCOデータセットのトレーニングは単一の24GB RTX3090 GPUを使用して完了する。 コードはhttps://github.com/ouyanghaodong/deyov3でリリースされる。

Recently, end-to-end object detectors have gained significant attention from the research community due to their outstanding performance. However, DETR typically relies on supervised pretraining of the backbone on ImageNet, which limits the practical application of DETR and the design of the backbone, affecting the model's potential generalization ability. In this paper, we propose a new training method called step-by-step training. Specifically, in the first stage, the one-to-many pre-trained YOLO detector is used to initialize the end-to-end detector. In the second stage, the backbone and encoder are consistent with the DETR-like model, but only the detector needs to be trained from scratch. Due to this training method, the object detector does not need the additional dataset (ImageNet) to train the backbone, which makes the design of the backbone more flexible and dramatically reduces the training cost of the detector, which is helpful for the practical application of the object detector. At the same time, compared with the DETR-like model, the step-by-step training method can achieve higher accuracy than the traditional training method of the DETR-like model. With the aid of this novel training method, we propose a brand-new end-to-end real-time object detection model called DEYOv3. DEYOv3-N achieves 41.1% on COCO val2017 and 270 FPS on T4 GPU, while DEYOv3-L achieves 51.3% AP and 102 FPS. Without the use of additional training data, DEYOv3 surpasses all existing real-time object detectors in terms of both speed and accuracy. It is worth noting that for models of N, S, and M scales, the training on the COCO dataset can be completed using a single 24GB RTX3090 GPU. Code will be released at https://github.com/ouyanghaodong/DEYOv3.
翻訳日:2023-09-26 10:47:37 公開日:2023-09-22
# Dzyaloshinskii-Moriya相互作用を持つXXZハイゼンベルクモデルにおけるロバスト一方向ファントムヘリックス状態

Robust unidirectional phantom helix states in the XXZ Heisenberg model with Dzyaloshinskii-Moriya interaction ( http://arxiv.org/abs/2306.11578v5 )

ライセンス: Link先を確認
Y. B. Shi and Z. Song(参考訳) ファントム・ヘリックス状態(phantom helix states)は、ゼロエネルギーの周りのエネルギー準位にあり、双方向に等しいxxzハイゼンベルク模型の退化固有状態の特別な集合である。 本研究では,dmi(dzyaloshinskii-moriya interaction)を用いてxxzハイゼンベルク模型のヘリックス状態について検討する。 一方向のヘリックス状態のみが共鳴DMIの存在下で変化しないことを示す。 Holstein--Primakoff(HP)変換に基づいて、量子スピンモデルをボソンモデルにマッピングすることで、基礎となるメカニズムを理解することができる。 さらに、そのような幻状態が強いDMIによってスペクトルから分離され、状態の堅牢性を高めることも示している。 数値シミュレーションにより一方向ファントムヘリックス状態の動的形成過程を示す。 その結果,DMIは高い効率でフィルタとして機能することが示唆された。

The phantom helix states are a special set of degenerate eigenstates of the XXZ Heisenberg model, which lie in the energy levels around zero energy and are bidirectionally equal. In this work, we study the helix state in the XXZ Heisenberg model with the Dzyaloshinskii-Moriya interaction (DMI). We show exactly that only the helix states in one direction remain unchanged in the presence of resonant DMI. Based on the Holstein--Primakoff (HP) transformation, the quantum spin model is mapped to a boson model, which allows us to understand the underlying mechanism. Furthermore, it also indicates that such phantom states can be separated from the spectrum by the strong DMI to enhance the robustness of the states. We demonstrate the dynamic formation processes of unidirectional phantom helix states by numerical simulations. The results indicate that the DMI as expected acts as a filter with high efficiency.
翻訳日:2023-09-26 10:44:59 公開日:2023-09-22
# 空間的平衡なペアリング過程を持つ非エルミート・キータエフ鎖の固定線

Fixed lines in a non-Hermitian Kitaev chain with spatially balanced pairing processes ( http://arxiv.org/abs/2305.00496v3 )

ライセンス: Link先を確認
Y. B. Shi and Z. Song(参考訳) 非エルミート量子多体系の厳密な解は稀であるが、エルミート成分と非エルミート成分の相互作用に関する貴重な洞察を与える。 不安定な不均衡なペア生成と消滅項を導入することにより, p-wave Kitaev 鎖の非エルミート変種について検討した。 位相図には固定線が存在し、基底状態は有限系の周期的境界条件の下で非エルミート項の存在下で変化しない。 これにより、任意の速度でバランス強度を変化させる過程における位相指数の構成性が得られ、時間依存摂動の下で非エルミート・キタエフ連鎖の位相のロバスト性を示す。 基礎となるメカニズムは、無限鎖に対するジョルダン・ウィグナー変換によって得られる等価量子スピン系を通して研究される。 さらに、正確な解は、共鳴非エルミート不純物が対応するマヨラナ格子の1対のゼロモードを誘導し、熱力学的極限のエッジモードに漸近し、バルク・バウンダリー対応を示すことを示した。 一定線からわずかにずれた系に対するクエンチ力学の数値シミュレーションを行い、安定領域を時間的に示す。 この研究は、ペア生成と消滅ペアリングプロセスの間の相互作用を明らかにする。

Exact solutions for non-Hermitian quantum many-body systems are rare but may provide valuable insights into the interplay between Hermitian and non-Hermitian components. We report our investigation of a non-Hermitian variant of a p-wave Kitaev chain by introducing staggered imbalanced pair creation and annihilation terms. We find that there exists a fixed line in the phase diagram, at which the ground state remains unchanged in the presence of non-Hermitian term under the periodic boundary condition for a finite system. This allows the constancy of the topological index in the process of varying the balance strength at arbitrary rate, exhibiting the robustness of the topology for non-Hermitian Kitaev chain under time-dependent perturbations. The underlying mechanism is investigated through the equivalent quantum spin system obtained by the Jordan-Wigner transformation for infinite chain. In addition, the exact solution shows that a resonant non-Hermitian impurity can induce a pair of zero modes in the corresponding Majorana lattice, which asymptotically approach the edge modes in the thermodynamic limit, manifesting the bulk-boundary correspondence. Numerical simulation is performed for the quench dynamics for the systems with slight deviation from the fixed line to show the stability region in time. This work reveals the interplay between the pair creation and annihilation pairing processes.
翻訳日:2023-09-26 10:44:41 公開日:2023-09-22
# The Reversal Curse: "A is B" でトレーニングされた LLM は "B is A" を学ぶことができません。

The Reversal Curse: LLMs trained on "A is B" fail to learn "B is A" ( http://arxiv.org/abs/2309.12288v2 )

ライセンス: Link先を確認
Lukas Berglund, Meg Tong, Max Kaufmann, Mikita Balesni, Asa Cooper Stickland, Tomasz Korbak, Owain Evans(参考訳) 自動回帰型大言語モデル(LLM)における一般化の驚くべき失敗を明らかにする。 モデルが "A is B" という形式の文で訓練された場合、それは自動的に "B is A" に一般化されない。 これは逆の呪いだ 例えば、もしあるモデルが「Olaf Scholzがドイツ第9代首相であった」と訓練された場合、「ドイツの第9代首相は誰だったのか」という疑問に自動的に答えることはできない。 さらに、正解("Olaf Scholz")の確率は、ランダムな名前よりも高くはならない。 Thus, models exhibit a basic failure of logical deduction and do not generalize a prevalent pattern in their training set (i.e. if "A is B'' occurs, "B is A" is more likely to occur). We provide evidence for the Reversal Curse by finetuning GPT-3 and Llama-1 on fictitious statements such as "Uriah Hawthorne is the composer of 'Abyssal Melodies'" and showing that they fail to correctly answer "Who composed 'Abyssal Melodies?'". The Reversal Curse is robust across model sizes and model families and is not alleviated by data augmentation. We also evaluate ChatGPT (GPT-3.5 and GPT-4) on questions about real-world celebrities, such as "Who is Tom Cruise's mother? a: メアリー・リー・ファイファー (mary lee pfeiffer) - メアリー・リー・ファイファーの息子。 GPT-4は、前の79%の時間のように正しく答えるが、後者は33%である。 これは、逆の呪いによって引き起こされるという論理的な推論の失敗を示している。 コードはhttps://github.com/lukasberglund/reversal_curseで入手できる。

We expose a surprising failure of generalization in auto-regressive large language models (LLMs). If a model is trained on a sentence of the form "A is B", it will not automatically generalize to the reverse direction "B is A". This is the Reversal Curse. For instance, if a model is trained on "Olaf Scholz was the ninth Chancellor of Germany", it will not automatically be able to answer the question, "Who was the ninth Chancellor of Germany?". Moreover, the likelihood of the correct answer ("Olaf Scholz") will not be higher than for a random name. Thus, models exhibit a basic failure of logical deduction and do not generalize a prevalent pattern in their training set (i.e. if "A is B'' occurs, "B is A" is more likely to occur). We provide evidence for the Reversal Curse by finetuning GPT-3 and Llama-1 on fictitious statements such as "Uriah Hawthorne is the composer of 'Abyssal Melodies'" and showing that they fail to correctly answer "Who composed 'Abyssal Melodies?'". The Reversal Curse is robust across model sizes and model families and is not alleviated by data augmentation. We also evaluate ChatGPT (GPT-3.5 and GPT-4) on questions about real-world celebrities, such as "Who is Tom Cruise's mother? [A: Mary Lee Pfeiffer]" and the reverse "Who is Mary Lee Pfeiffer's son?". GPT-4 correctly answers questions like the former 79% of the time, compared to 33% for the latter. This shows a failure of logical deduction that we hypothesize is caused by the Reversal Curse. Code is available at https://github.com/lukasberglund/reversal_curse.
翻訳日:2023-09-26 10:36:07 公開日:2023-09-22
# cambridge law corpus: a corpus for legal ai research (英語)

The Cambridge Law Corpus: A Corpus for Legal AI Research ( http://arxiv.org/abs/2309.12269v2 )

ライセンス: Link先を確認
Andreas \"Ostling and Holli Sargeant and Huiyuan Xie and Ludwig Bull and Alexander Terenin and Leif Jonsson and M{\aa}ns Magnusson and Felix Steffek(参考訳) 法的なAI研究のためのコーパスであるCambridge Law Corpus (CLC)を紹介する。 英国から250,000件以上の訴訟が起こっている。 ほとんどのケースは21世紀のものであるが、コーパスには16世紀のものが含まれる。 本稿では,原文とメタデータを含むコーパスの最初のリリースについて述べる。 コーパスとともに,法律専門家による638件の事例に対して,事例結果に関する注釈を提供する。 注記データを用いて,GPT-3,GPT-4,RoBERTaモデルを用いて事例抽出を行い,評価を行った。 我々は、この資料の潜在的に敏感な性質に対処するための、広範な法的および倫理的な議論を含む。 その結果、コーパスは特定の制限下で研究目的のためにのみ解放される。

We introduce the Cambridge Law Corpus (CLC), a corpus for legal AI research. It consists of over 250 000 court cases from the UK. Most cases are from the 21st century, but the corpus includes cases as old as the 16th century. This paper presents the first release of the corpus, containing the raw text and meta-data. Together with the corpus, we provide annotations on case outcomes for 638 cases, done by legal experts. Using our annotated data, we have trained and evaluated case outcome extraction with GPT-3, GPT-4 and RoBERTa models to provide benchmarks. We include an extensive legal and ethical discussion to address the potentially sensitive nature of this material. As a consequence, the corpus will only be released for research purposes under certain restrictions.
翻訳日:2023-09-26 10:35:38 公開日:2023-09-22
# ランダム初期化深層ニューラルネットワークの定量的ガウス近似

Quantitative Gaussian Approximation of Randomly Initialized Deep Neural Networks ( http://arxiv.org/abs/2203.07379v2 )

ライセンス: Link先を確認
Andrea Basteri, Dario Trevisan(参考訳) ランダムなガウスパラメータで初期化される任意の深い完全連結ニューラルネットワークが与えられると、その出力分布と適切なガウス過程の間の二次ワッサースタイン距離の上から束縛される。 我々の明示的な不等式は、隠蔽層と出力層のサイズがネットワークのガウス的挙動にどのように影響し、分布収束を定量的に回復するかを示す。

Given any deep fully connected neural network, initialized with random Gaussian parameters, we bound from above the quadratic Wasserstein distance between its output distribution and a suitable Gaussian process. Our explicit inequalities indicate how the hidden and output layers sizes affect the Gaussian behaviour of the network and quantitatively recover the distributional convergence results in the wide limit, i.e., if all the hidden layers sizes become large.
翻訳日:2023-09-25 19:55:56 公開日:2023-09-22
# 近似関数負荷のための量子アルゴリズム

Quantum algorithms for approximate function loading ( http://arxiv.org/abs/2111.07933v2 )

ライセンス: Link先を確認
Gabriel Marin-Sanchez, Javier Gonzalez-Conde and Mikel Sanz(参考訳) 量子コンピュータに古典的なデータをロードすることは、多くの関連する量子アルゴリズム、特に量子機械学習の分野において必須の段階である。 したがって、この負荷プロセスの非効率性は、これらのアルゴリズムの適用において大きなボトルネックとなる。 本稿では,実関数のロード問題を部分的に解決するgrover-rudolphアルゴリズムに触発されたnisq時代の近似量子状態生成法を2つ紹介する。 実際、不忠実な$\epsilon$と、ある滑らかな条件下では、まずM\"ott\"onen $\textit{et al}$によって導入されたGrover-Rudolphアルゴリズムの実装の複雑さが、$n$の量子ビット数と$k_0(\epsilon)$の漸近独立であることを証明する。 これにより、必要な2ビットゲートの数が劇的に減少する。 また, この結果により, 上記の滑らかさ条件を超えて関数をロードできる変分アルゴリズムも提案する。 私たちの変分アンサッツは関数のランドスケープに明示的に調整され、準最適化されたハイパーパラメータの数に繋がる。 これにより,負荷状態における高忠実度を高速収束で実現することができる。

Loading classical data into quantum computers represents an essential stage in many relevant quantum algorithms, especially in the field of quantum machine learning. Therefore, the inefficiency of this loading process means a major bottleneck for the application of these algorithms. Here, we introduce two approximate quantum-state preparation methods for the NISQ era inspired by the Grover-Rudolph algorithm, which partially solve the problem of loading real functions. Indeed, by allowing for an infidelity $\epsilon$ and under certain smoothness conditions, we prove that the complexity of the implementation of the Grover-Rudolph algorithm without ancillary qubits, first introduced by M\"ott\"onen $\textit{et al}$, results into $\mathcal{O}(2^{k_0(\epsilon)})$, with $n$ the number of qubits and $k_0(\epsilon)$ asymptotically independent of $n$. This leads to a dramatic reduction in the number of required two-qubit gates. Aroused by this result, we also propose a variational algorithm capable of loading functions beyond the aforementioned smoothness conditions. Our variational Ansatz is explicitly tailored to the landscape of the function, leading to a quasi-optimized number of hyperparameters. This allows us to achieve high fidelity in the loaded state with high speed convergence for the studied examples.
翻訳日:2023-09-25 19:55:46 公開日:2023-09-22
# 制約プログラミングと量子アニーリングによる保守を含む車両計画の最適化

Optimising Rolling Stock Planning including Maintenance with Constraint Programming and Quantum Annealing ( http://arxiv.org/abs/2109.07212v2 )

ライセンス: Link先を確認
Cristian Grozea, Ronny Hans, Matthias Koch, Christina Riehn, Armin Wolf(参考訳) 本稿では,CP(Constraint Programming)とQA(Quantum Annealing)のアプローチを用いて,必要なメンテナンスタスクを考慮したストック割り当て最適化を提案する。 CPアプローチでは、全微分制約、要素制約の拡張、論理的含意などを用いて問題をモデル化する。 QA アプローチでは,2次非制約バイナリ最適化 (QUBO) モデルを開発する。 評価には、Deutsche Bahnの実際のデータに基づいてデータセットを使用し、D-Waveの実際の量子コンピュータ上でQAアプローチを実行する。 古典的なコンピュータは cp のアプローチや qubo モデルの tabu 探索を評価するのに使われている。 物理量子アニールの現段階では、両方のアプローチが同等の結果をもたらす傾向がある。

We propose and compare Constraint Programming (CP) and Quantum Annealing (QA) approaches for rolling stock assignment optimisation considering necessary maintenance tasks. In the CP approach, we model the problem with an Alldifferent constraint, extensions of the Element constraint, and logical implications, among others. For the QA approach, we develop a quadratic unconstrained binary optimisation (QUBO) model. For evaluation, we use data sets based on real data from Deutsche Bahn and run the QA approach on real quantum computers from D-Wave. Classical computers are used to evaluate the CP approach as well as tabu search for the QUBO model. At the current development stage of the physical quantum annealers, we find that both approaches tend to produce comparable results.
翻訳日:2023-09-25 19:55:17 公開日:2023-09-22
# 繰り返しランダム演算子の確率的収縮解析

Probabilistic Contraction Analysis of Iterated Random Operators ( http://arxiv.org/abs/1804.01195v6 )

ライセンス: Link先を確認
Abhishek Gupta and Rahul Jain and Peter Glynn(参考訳) 工学の多くの分野において、バナッハの縮約写像定理は、ある決定論的アルゴリズムの収束を確立するために用いられる。 これらのアルゴリズムのランダム化バージョンは、データ駆動問題に有用であることが証明された。 ランダム化アルゴリズムのクラスでは、各反復において、縮約写像は、ある確率変数の独立分布と同一分布のサンプルを使用する演算子と近似される。 これにより、完備距離空間において初期点に作用する反復ランダム作用素が導かれ、マルコフ連鎖が生成される。 本稿では,そのような反復乱数演算子が生成するマルコフ連鎖の確率収束性を確立するために,確率的縮小解析と呼ばれる確率的支配に基づく新しい証明手法を開発した。 本研究で開発された手法は, 契約性のあるモンテカルロ法を多種多様な方法で収束させるための一般的な枠組みを提供する。 この収束結果を用いて、連続状態における適合値反復と適合相対値反復の収束と連続行動マルコフ決定問題を一般的なフレームワークの代表的応用として結論付ける。

In many branches of engineering, Banach contraction mapping theorem is employed to establish the convergence of certain deterministic algorithms. Randomized versions of these algorithms have been developed that have proved useful in data-driven problems. In a class of randomized algorithms, in each iteration, the contraction map is approximated with an operator that uses independent and identically distributed samples of certain random variables. This leads to iterated random operators acting on an initial point in a complete metric space, and it generates a Markov chain. In this paper, we develop a new stochastic dominance based proof technique, called probabilistic contraction analysis, for establishing the convergence in probability of Markov chains generated by such iterated random operators in certain limiting regime. The methods developed in this paper provides a general framework for understanding convergence of a wide variety of Monte Carlo methods in which contractive property is present. We apply the convergence result to conclude the convergence of fitted value iteration and fitted relative value iteration in continuous state and continuous action Markov decision problems as representative applications of the general framework developed here.
翻訳日:2023-09-25 19:54:12 公開日:2023-09-22
# エネルギー領域における遅い電子の自己トッピング

Self-trapping of slow electrons in the energy domain ( http://arxiv.org/abs/2209.14850v2 )

ライセンス: Link先を確認
Maor Eldar, Zhaopin Chen, Yiming Pan and Michael Kr\"uger(参考訳) 光と急速電子の相互作用により、電子波束の位相コヒーレントな操作と加速が可能になった。 ここでは、低エネルギー電子(約20-200ev)が位相整合光電界と相互作用する新しい方法で、この相互作用を調べる。 解析的および数値的研究により、低速電子は電子分散の非消滅曲率によりエネルギー領域に強い閉じ込めを受けることが明らかとなった。 スペクトルトラップは調整可能であり、光場パラメータの適切な選択は相互作用のダイナミクスを2つのエネルギー状態に還元することができる。 電子をトラップする能力は、電子ビーム物理学、自由電子量子光学、量子シミュレータの範囲を広げる。

The interaction of light and swift electrons has enabled phase-coherent manipulation and acceleration of electron wavepackets. Here we investigate this interaction in a new regime where low-energy electrons (~20-200 eV) interact with a phase-matched light field. Our analytical and numerical study shows that slow electrons are subject to strong confinement in the energy domain due to the non-vanishing curvature of the electron dispersion. The spectral trap is tunable and an appropriate choice of light field parameters can reduce the interaction dynamics to only two energy states. The capacity to trap electrons expands the scope of electron beam physics, free-electron quantum optics and quantum simulators.
翻訳日:2023-09-25 19:47:42 公開日:2023-09-22
# 量子力学のエベレット解釈における個人的アイデンティティと不確かさ

Personal Identity and Uncertainty in the Everett Interpretation of Quantum Mechanics ( http://arxiv.org/abs/2209.02639v4 )

ライセンス: Link先を確認
Zhonghao Lu(参考訳) 量子力学のエヴァレット解釈(Everett Interpretation of Quantum Mechanics)の決定論的性質は、EQMにおける確率の使用と矛盾しているようで、「不整合問題」と呼ばれる問題を引き起こす。 本稿では,事前測定の不確実性を通じて,EQMの不整合問題を解決するためのアプローチについて検討する。 事前測定の不確実性の有効性に関する以前の議論は、意味論と参照の理論の複雑な側面、人格の4次元主義または3次元主義の受容、またはeqmのオントロジーに重きを置いている。 本稿では,3次元主義か4次元主義かに関わらず,EQMのオントロジーの重複観か,あるいは相違観かに関わらず,EQMの不整合性問題に対する事前不確実性アプローチは,身体主義の基本原理に矛盾しながら,成功をアーカイブするのみである,と論じる。 分析を説明する例として、eqmのダイバージェンスビューも使用しています。

The deterministic nature of EQM (the Everett Interpretation of Quantum Mechanics) seems to be inconsistent to the use of probability in EQM, giving rise to what is known as the "incoherence problem". In this paper, I explore approaches to solve the incoherence problem of EQM via pre-measurement uncertainty. Previous discussions on the validity of pre-measurement uncertainty have leaned heavily on intricate aspects of the theory of semantics and reference, the embrace of either 4-dimensionalism or 3-dimensionalism of personhood, or the ontology of EQM. In this paper, I argue that, regardless of the adoption of whether 3-dimensionalism or 4-dimensionalism of personhood, the overlapping view or the divergence view of the ontology of EQM, the pre-measurement uncertainty approach to the incoherence problem of EQM can only archive success while contradicting fundamental principles of physicalism. I also use the divergence view of EQM as an example to illustrate my analyses.
翻訳日:2023-09-25 19:47:31 公開日:2023-09-22
# タスク関連オートエンコーディング」は人間の神経科学のための機械学習を強化する

"Task-relevant autoencoding" enhances machine learning for human neuroscience ( http://arxiv.org/abs/2208.08478v2 )

ライセンス: Link先を確認
Seyedmehdi Orouji, Vincent Taschereau-Dumouchel, Aurelio Cortese, Brian Odegaard, Cody Cushing, Mouslim Cherkaoui, Mitsuo Kawato, Hakwan Lau, and Megan A. K. Peters(参考訳) 人間の神経科学において、機械学習は被験者の行動に関連する低次元の神経表現を明らかにするのに役立つ。 しかし、最先端のモデルは訓練に大規模なデータセットを必要とするため、しばしばサンプルが少ないが多くの入力次元を持つヒトの神経画像データに過度に適合する傾向がある。 ここでは、人間の神経科学で探す特徴が、被験者の行動に正確に関連しているという事実を生かした。 そこで我々は,TRACEを用いたタスク関連オートエンコーダを開発し,従来のオートエンコーダ,変分オートエンコーダ,および2つの重く切り詰められた機械学習データセットに対する主成分分析と比較して,行動関連で分離可能な表現を抽出する能力を検証した。 動物や物体を観察した59名の被験者のfMRIデータから,すべてのモデルを評価する。 TRACEは全てのモデルをほぼ一方的に上回り、分類精度は最大12%向上し、タスク関連表現の発見において最大56%改善した。 これらの結果は、人間の行動に関連する幅広いデータに対するトレースの可能性を示している。

In human neuroscience, machine learning can help reveal lower-dimensional neural representations relevant to subjects' behavior. However, state-of-the-art models typically require large datasets to train, so are prone to overfitting on human neuroimaging data that often possess few samples but many input dimensions. Here, we capitalized on the fact that the features we seek in human neuroscience are precisely those relevant to subjects' behavior. We thus developed a Task-Relevant Autoencoder via Classifier Enhancement (TRACE), and tested its ability to extract behaviorally-relevant, separable representations compared to a standard autoencoder, a variational autoencoder, and principal component analysis for two severely truncated machine learning datasets. We then evaluated all models on fMRI data from 59 subjects who observed animals and objects. TRACE outperformed all models nearly unilaterally, showing up to 12% increased classification accuracy and up to 56% improvement in discovering "cleaner", task-relevant representations. These results showcase TRACE's potential for a wide variety of data related to human behavior.
翻訳日:2023-09-25 19:47:10 公開日:2023-09-22
# カールザ・クライン還元による曲線運動量空間からのモーメントゲージ場

Momentum gauge fields from curved momentum space through Kaluza-Klein reduction ( http://arxiv.org/abs/2208.00409v2 )

ライセンス: Link先を確認
Eduardo Guendelman and Fabian Wagner(参考訳) 本研究では,曲線運動量空間と運動量依存ゲージ場の関係について検討する。 前者は最小長のモデルに結びついた古典的なアイデアであるが、後者は量子重力現象学における比較的最近の発展である。 特に、運動量空間におけるゲージの原理は、最小結合の処方則に従って運動量空間におけるゲージ-共変微分に類似する$\hat{X}^\mu\rightarrow\hat{X}^\mu-g A^\mu (\hat{P})$という形の位置作用素の修正に相当する。 ここでは、運動量空間に曲率を示す高次元幾何学のカルザ・クレイン還元から両方の効果を導出する。 新興ゲージ場の相互作用と、残った曲線運動量空間の相互作用は、ハイゼンベルク代数の修正に繋がる。 ゲージ場は、類似体強度テンソルに依存するモヤル型非可換性を示すが、次元的に縮小された運動量空間幾何はスナイダー型非可換幾何学に変換される。

In this work we investigate the relation between curved momentum space and momentum-dependent gauge fields. While the former is a classic idea that has been shown to be tied to minimal-length models, the latter constitutes a relatively recent development in quantum gravity phenomenology. In particular, the gauge principle in momentum space amounts to a modification of the position operator of the form $\hat{X}^\mu\rightarrow\hat{X}^\mu-g A^\mu (\hat{P})$ akin to a gauge-covariant derivative in momentum space according to the minimal coupling prescription. Here, we derive both effects from a Kaluza-Klein reduction of a higher-dimensional geometry exhibiting curvature in momentum space. The interplay of the emerging gauge fields as well as the remaining curved momentum space lead to modifications of the Heisenberg algebra. While the gauge fields imply Moyal-type noncommutativity dependent on the analogue field strength tensor, the dimensionally reduced curved momentum space geometry translates to a Snyder-type noncommutative geometry.
翻訳日:2023-09-25 19:46:33 公開日:2023-09-22
# 超伝導回路を用いた量子時計精度に及ぼす測定バックアクションの影響

Effect of Measurement Backaction on Quantum Clock Precision Studied with a Superconducting Circuit ( http://arxiv.org/abs/2207.11043v3 )

ライセンス: Link先を確認
Xin He, Prasanna Pakkiam, Adil A. Gangat, Michael J. Kewming, Gerard J. Milburn, and Arkady Fedorov(参考訳) 量子時計の温度近辺の精度を理論的に実験的に検討し,連続測定の影響を明示的に考慮した。 クロックは、オープンコプラナー共振器に分散結合された超伝導トランスモン量子ビットによって生成される。 キャビティとキュービットはコヒーレントフィールドによって駆動され、キャビティ出力は量子ノイズ制限増幅器で監視される。 連続測定が弱い場合には、共振器の出力に現れる量子ビットのエネルギー確率分布の条件モーメントにおける持続的コヒーレント振動(変動周期を伴う)を誘導する。 一方、強い連続測定は量子ジャンプの一貫性のないサイクルにつながる。 理論上、各レジームにおけるクロックの精度の平等性を見出す。 等式から独立して、精度に対する不確実性関係を導出し、両等式がこの不確実性関係を満たすことを確認する。 最後に、我々の量子時計は、精度の運動不確実性関係に従うことを実験的に検証し、クロックの(運動)熱力学挙動と精度との明示的なリンクを作り、量子領域における運動不確実性関係を実験的に検証した。

We theoretically and experimentally study the precision of a quantum clock near zero temperature, explicitly accounting for the effect of continuous measurement. The clock is created by a superconducting transmon qubit dispersively coupled to an open coplanar resonator. The cavity and qubit are driven by coherent fields, and the cavity output is monitored with a quantum-noise-limited amplifier. When the continuous measurement is weak, it induces persistent coherent oscillations (with fluctuating periods) in the conditional moments of the qubit's energy probability distribution, which are manifest in the output of the resonator. On the other hand, strong continuous measurement leads to an incoherent cycle of quantum jumps. We theoretically find an equality for the precision of the clock in each regime. Independently from the equalities, we derive a kinetic uncertainty relation for the precision, and find that both equalities satisfy this uncertainty relation. Finally, we experimentally verify that our quantum clock obeys the kinetic uncertainty relation for the precision, thus making an explicit link between the (kinetic) thermodynamic behavior of the clock and its precision, and achieving an experimental test of a kinetic uncertainty relation in the quantum domain.
翻訳日:2023-09-25 19:45:56 公開日:2023-09-22
# 視覚異常検出のためのオートエンコーダによる自己教師付きトレーニング

Self-Supervised Training with Autoencoders for Visual Anomaly Detection ( http://arxiv.org/abs/2206.11723v5 )

ライセンス: Link先を確認
Alexander Bauer, Shinichi Nakajima, Klaus-Robert M\"uller(参考訳) ディープオートエンコーダは、教師なしの方法で非線形次元の減少を学習するための効果的なツールを提供する。 近年,視覚領域における異常検出作業に用いられている。 異常のない例を用いて再構成誤差を最適化することにより、対応するネットワークがアプリケーションフェーズ内の異常領域を正確に再構成できない、という考え方が一般的である。 この目標は通常、ボトルネック層のサイズを減らすか、アクティベーションに間隔制約を課すことによって、ネットワークのキャパシティを制御することで対処される。 しかし、どちらの手法も異常信号の再構成を明示的に罰しないため、しばしば検出が困難になる。 本稿では,訓練中に識別情報の使用を可能にするが,正規例のデータ多様体に焦点をあてた自己教師付き学習方式を適用することで,この問題に取り組む。 入力画像毎に1回のフォワードパスを必要とするトレーニングや予測では,このアプローチによる推論が非常に効率的であることを強調する。 MVTec ADデータセットを用いた実験では,高い検出性能と局所化性能を示した。 特にテクスチャ・サブセットでは,近年の異常検出法を顕著な差で一貫して上回っている。

Deep autoencoders provide an effective tool for learning non-linear dimensionality reduction in an unsupervised way. Recently, they have been used for the task of anomaly detection in the visual domain. By optimizing for the reconstruction error using anomaly-free examples, the common belief is that a corresponding network should fail to accurately reconstruct anomalous regions in the application phase. This goal is typically addressed by controlling the capacity of the network, either by reducing the size of the bottleneck layer or by enforcing sparsity constraints on the activations. However, neither of these techniques does explicitly penalize reconstruction of anomalous signals often resulting in poor detection. We tackle this problem by adapting a self-supervised learning regime that allows the use of discriminative information during training but focuses on the data manifold of normal examples. We emphasize that inference with our approach is very efficient during training and prediction requiring a single forward pass for each input image. Our experiments on the MVTec AD dataset demonstrate high detection and localization performance. On the texture-subset, in particular, our approach consistently outperforms recent anomaly detection methods by a significant margin.
翻訳日:2023-09-25 19:45:34 公開日:2023-09-22
# メトリクスの再ロード:画像分析検証の推奨

Metrics reloaded: Recommendations for image analysis validation ( http://arxiv.org/abs/2206.01653v7 )

ライセンス: Link先を確認
Lena Maier-Hein, Annika Reinke, Patrick Godau, Minu D. Tizabi, Florian Buettner, Evangelia Christodoulou, Ben Glocker, Fabian Isensee, Jens Kleesiek, Michal Kozubek, Mauricio Reyes, Michael A. Riegler, Manuel Wiesenfarth, A. Emre Kavur, Carole H. Sudre, Michael Baumgartner, Matthias Eisenmann, Doreen Heckmann-N\"otzel, A. Tim R\"adsch, Laura Acion, Michela Antonelli, Tal Arbel, Spyridon Bakas, Arriel Benis, Matthew Blaschko, M. Jorge Cardoso, Veronika Cheplygina, Beth A. Cimini, Gary S. Collins, Keyvan Farahani, Luciana Ferrer, Adrian Galdran, Bram van Ginneken, Robert Haase, Daniel A. Hashimoto, Michael M. Hoffman, Merel Huisman, Pierre Jannin, Charles E. Kahn, Dagmar Kainmueller, Bernhard Kainz, Alexandros Karargyris, Alan Karthikesalingam, Hannes Kenngott, Florian Kofler, Annette Kopp-Schneider, Anna Kreshuk, Tahsin Kurc, Bennett A. Landman, Geert Litjens, Amin Madani, Klaus Maier-Hein, Anne L. Martel, Peter Mattson, Erik Meijering, Bjoern Menze, Karel G.M. Moons, Henning M\"uller, Brennan Nichyporuk, Felix Nickel, Jens Petersen, Nasir Rajpoot, Nicola Rieke, Julio Saez-Rodriguez, Clara I. S\'anchez, Shravya Shetty, Maarten van Smeden, Ronald M. Summers, Abdel A. Taha, Aleksei Tiulpin, Sotirios A. Tsaftaris, Ben Van Calster, Ga\"el Varoquaux, Paul F. J\"ager(参考訳) 機械学習(ML)アルゴリズム検証の欠陥が過小評価されているグローバルな問題であることを示す証拠が増加する。 特に自動バイオメディカル画像解析において、選択されたパフォーマンス指標は、しばしばドメインの関心を反映せず、科学的な進歩を適切に測定できず、ML技術の実践的な翻訳を妨げる。 これを解決するために、当社の大手国際専門家コンソーシアムは、メトリクスの選択を問題視する研究者を導く包括的なフレームワークであるmetrics reloadedを作成しました。 アプリケーションドメイン間のML方法論の収束に続いて、Metrics Reloadedは検証方法論の収束を促進する。 このフレームワークは多段階のDelphiプロセスで開発され、問題指紋(問題指紋)という新しい概念に基づいており、ドメインの関心事からターゲット構造の性質、データセット、アルゴリズムの出力まで、メートル法選択に関連するすべての側面をキャプチャする、与えられた問題の構造化された表現である。 問題の指紋に基づいて、ユーザは潜在的な落とし穴を認識しながら適切な検証指標を選択し、適用するプロセスを通じてガイドされる。 Metrics Reloadedは画像、オブジェクト、ピクセルレベルでの分類タスク、すなわち画像レベルの分類、オブジェクト検出、セマンティックセグメンテーション、インスタンスセグメンテーションタスクとして解釈できるイメージ分析の問題をターゲットにしている。 ユーザエクスペリエンスを改善するために、私たちはMetrics Reloadedオンラインツールにフレームワークを実装しました。 各種の生物学的・医学的画像解析症例のインスタンス化により, ドメイン間のフレームワークの広範な適用性を実証した。

Increasing evidence shows that flaws in machine learning (ML) algorithm validation are an underestimated global problem. Particularly in automatic biomedical image analysis, chosen performance metrics often do not reflect the domain interest, thus failing to adequately measure scientific progress and hindering translation of ML techniques into practice. To overcome this, our large international expert consortium created Metrics Reloaded, a comprehensive framework guiding researchers in the problem-aware selection of metrics. Following the convergence of ML methodology across application domains, Metrics Reloaded fosters the convergence of validation methodology. The framework was developed in a multi-stage Delphi process and is based on the novel concept of a problem fingerprint - a structured representation of the given problem that captures all aspects that are relevant for metric selection, from the domain interest to the properties of the target structure(s), data set and algorithm output. Based on the problem fingerprint, users are guided through the process of choosing and applying appropriate validation metrics while being made aware of potential pitfalls. Metrics Reloaded targets image analysis problems that can be interpreted as a classification task at image, object or pixel level, namely image-level classification, object detection, semantic segmentation, and instance segmentation tasks. To improve the user experience, we implemented the framework in the Metrics Reloaded online tool, which also provides a point of access to explore weaknesses, strengths and specific recommendations for the most common validation metrics. The broad applicability of our framework across domains is demonstrated by an instantiation for various biological and medical image analysis use cases.
翻訳日:2023-09-25 19:44:59 公開日:2023-09-22
# A-NeSI:確率論的ニューロシンボリック推論のためのスケーラブル近似法

A-NeSI: A Scalable Approximate Method for Probabilistic Neurosymbolic Inference ( http://arxiv.org/abs/2212.12393v3 )

ライセンス: Link先を確認
Emile van Krieken, Thiviyan Thanapalasingam, Jakub M. Tomczak, Frank van Harmelen, Annette ten Teije(参考訳) ニューラルネットワークとシンボリック推論を組み合わせた問題について検討する。 近年、DeepProbLogのような確率的ニューロシンボリックラーニング(PNL)フレームワークが指数時間正確な推論を行い、PNLソリューションのスケーラビリティを制限している。 本稿では、ニューラルネットワークを用いてスケーラブルな近似推論を行うPNLの新しいフレームワークであるA-NeSIを紹介する。 A-NeSI 1) 確率論理のセマンティクスを変更することなく,多項式時間で近似推論を行う。 2) 背景知識が生成したデータを用いて訓練する。 3)予測の象徴的な説明をすることができる。 4) 安全クリティカルなアプリケーションで不可欠な、テスト時の論理的な制約の満足度を保証できる。 実験の結果,A-NeSIは指数的組合せスケーリングで3つのニューロシンボリックな課題を解く最初のエンドツーエンド手法であることがわかった。 最後に,A-NeSIは性能上のペナルティを伴わずに,説明可能性と安全性を実現することを示す。

We study the problem of combining neural networks with symbolic reasoning. Recently introduced frameworks for Probabilistic Neurosymbolic Learning (PNL), such as DeepProbLog, perform exponential-time exact inference, limiting the scalability of PNL solutions. We introduce Approximate Neurosymbolic Inference (A-NeSI): a new framework for PNL that uses neural networks for scalable approximate inference. A-NeSI 1) performs approximate inference in polynomial time without changing the semantics of probabilistic logics; 2) is trained using data generated by the background knowledge; 3) can generate symbolic explanations of predictions; and 4) can guarantee the satisfaction of logical constraints at test time, which is vital in safety-critical applications. Our experiments show that A-NeSI is the first end-to-end method to solve three neurosymbolic tasks with exponential combinatorial scaling. Finally, our experiments show that A-NeSI achieves explainability and safety without a penalty in performance.
翻訳日:2023-09-25 19:38:13 公開日:2023-09-22
# 公平でない方がよいか:画像分類における部分群差に関する研究

Better May Not Be Fairer: A Study on Subgroup Discrepancy in Image Classification ( http://arxiv.org/abs/2212.08649v2 )

ライセンス: Link先を確認
Ming-Chang Chiu, Pin-Yu Chen, Xuezhe Ma(参考訳) 本稿では,一般的なデータセットに対する2万件の非自明な人間のアノテーションを,自然な意味的スプリアス機能が画像の分類にどのように影響するかを研究するための第一歩として提供します。 各画像の背景色に基づいてcifar10とcifar100のテストセットをサブグループにアノテートすることにより,自然背景色がスプリアスな特徴として果たす役割について検討する。 データセットは、textbf{CIFAR10-B} と \textbf{CIFAR100-B} と名付け、CIFAR-Csと統合します。 人間のレベルでの精度は、一貫したサブグループ性能を保証せず、ImageNetやデータ拡張後のモデルでもその現象は継続している。 この問題を緩和するために、事前学習された生成フローによってキャプチャされたデカップリングされた意味表現を利用する \textbf{FlowAug}, a \emph{semantic} DA を提案する。 実験の結果,FlowAugはCIFAR10/100およびCIFAR10/100-C上で,他のDA法よりも一貫したサブグループ結果が得られることがわかった。 さらに、より優れた一般化性能を示す。 さらに,各クラス間の重み付き標準偏差に対してマクロ平均値を取ることにより,モデルロバスト性からスプリアス相関を研究するための一般的な計量である \emph{macrostd} を提案する。 私たちは、 \textit{macrostd} がより良いパフォーマンスをより予測していることを示している。 このメトリクスは、キュレートされたデータセットを研究するために提案されているが、サブグループまたはサブクラスを持つすべてのデータセットに適用される。 最後に、cifar10.1でより優れた分散結果を示す。

In this paper, we provide 20,000 non-trivial human annotations on popular datasets as a first step to bridge gap to studying how natural semantic spurious features affect image classification, as prior works often study datasets mixing low-level features due to limitations in accessing realistic datasets. We investigate how natural background colors play a role as spurious features by annotating the test sets of CIFAR10 and CIFAR100 into subgroups based on the background color of each image. We name our datasets \textbf{CIFAR10-B} and \textbf{CIFAR100-B} and integrate them with CIFAR-Cs. We find that overall human-level accuracy does not guarantee consistent subgroup performances, and the phenomenon remains even on models pre-trained on ImageNet or after data augmentation (DA). To alleviate this issue, we propose \textbf{FlowAug}, a \emph{semantic} DA that leverages decoupled semantic representations captured by a pre-trained generative flow. Experimental results show that FlowAug achieves more consistent subgroup results than other types of DA methods on CIFAR10/100 and on CIFAR10/100-C. Additionally, it shows better generalization performance. Furthermore, we propose a generic metric, \emph{MacroStd}, for studying model robustness to spurious correlations, where we take a macro average on the weighted standard deviations across different classes. We show \textit{MacroStd} being more predictive of better performances; per our metric, FlowAug demonstrates improvements on subgroup discrepancy. Although this metric is proposed to study our curated datasets, it applies to all datasets that have subgroups or subclasses. Lastly, we also show superior out-of-distribution results on CIFAR10.1.
翻訳日:2023-09-25 19:37:56 公開日:2023-09-22
# スペイン語モデルの評価から学んだ教訓

Lessons learned from the evaluation of Spanish Language Models ( http://arxiv.org/abs/2212.08390v2 )

ライセンス: Link先を確認
Rodrigo Agerri and Eneko Agirre(参考訳) 自然言語処理分野における言語モデルの影響を考えると、多くのスペイン語エンコーダのみのマスキング言語モデル(berts)が訓練され、リリースされた。 これらのモデルは、非常に大きなプライベートコーパスを使った大規模プロジェクトや、自由に利用可能なデータを活用する小規模の学術的取り組みによって開発された。 本稿では,スペイン語の言語モデルの包括的比較を行い,以下の結果と比較する。 一 大企業の多言語モデルを無視して、スペイン語における言語モデルの評価状況を大きく変えること。 (II) 単言語モデル全体の結果は決定的ではなく、より小さく劣ったモデルが競争的に機能していると考えられる。 これらの経験的結果に基づいて、これらの要因を理解するためにさらなる研究の必要性を論じる。 この意味では、コーパスのサイズ、品質、事前学習技術の影響は、特にこの分野の急速な進歩に直面して、大手民間企業によってリリースされた多言語モデルよりも、スペイン語の単言語モデルがはるかに優れているために、さらに調査する必要がある。 スペイン語の言語技術開発における最近の活動は歓迎されているが、この結果から、言語モデルの構築は、最高の研究の専門知識と実践とリソース(モネタリーおよび/または計算)の融合を必要とする、オープンでリソースに富んだ問題であることが示された。

Given the impact of language models on the field of Natural Language Processing, a number of Spanish encoder-only masked language models (aka BERTs) have been trained and released. These models were developed either within large projects using very large private corpora or by means of smaller scale academic efforts leveraging freely available data. In this paper we present a comprehensive head-to-head comparison of language models for Spanish with the following results: (i) Previously ignored multilingual models from large companies fare better than monolingual models, substantially changing the evaluation landscape of language models in Spanish; (ii) Results across the monolingual models are not conclusive, with supposedly smaller and inferior models performing competitively. Based on these empirical results, we argue for the need of more research to understand the factors underlying them. In this sense, the effect of corpus size, quality and pre-training techniques need to be further investigated to be able to obtain Spanish monolingual models significantly better than the multilingual ones released by large private companies, specially in the face of rapid ongoing progress in the field. The recent activity in the development of language technology for Spanish is to be welcomed, but our results show that building language models remains an open, resource-heavy problem which requires to marry resources (monetary and/or computational) with the best research expertise and practice.
翻訳日:2023-09-25 19:37:24 公開日:2023-09-22
# 視覚障害者ナビゲーションのためのslam:研究の現状に関する体系的文献レビュー

SLAM for Visually Impaired Navigation: A Systematic Literature Review of the Current State of Research ( http://arxiv.org/abs/2212.04745v2 )

ライセンス: Link先を確認
Marziyeh Bamdad, Davide Scaramuzza, Alireza Darvishy(参考訳) 近年では視覚障害者や盲人(VIB)のための補助技術が開発され、独立して安全にナビゲートする能力が向上している。 同時に、これらの支援技術の開発において、同時ローカライゼーションとマッピング(slam)の技術は十分に堅牢で効率的なものとなった。 本稿では,vibと共同で実施した匿名の全世界調査の結果を最初に報告し,ナビゲーションにおける経験,ニーズ,課題を把握し,地理的な範囲が限られ,特定の課題に焦点を当てた先行研究とアプローチを区別した。 次に,VIB の人々を対象としたSLAM ベースのソリューションに関する最近の研究の体系的な文献レビューを紹介する。 この文脈で使用される様々なSLAM技術について概説する。 本稿では,VIBナビゲーションにおけるこれらの手法の利点と限界について論じる。 さらに,本研究に含まれる様々な課題について検討した。 視覚障害者が効果的にナビゲートできる能力を改善するためのslamベースのソリューションについて説明する。 最後に、この領域における将来の機会と課題を紹介する。

In recent decades, several assistive technologies have been developed for visually impaired and blind (VIB) individuals to improve their ability to navigate independently and safely. At the same time, simultaneous localization and mapping (SLAM) techniques have become sufficiently robust and efficient to be adopted in the development of these assistive technologies. In this paper, we first report the results of an anonymous worldwide survey conducted with VIB people to understand their experiences, needs, and challenges in navigation, differentiating our approach from prior work that often has a limited geographic scope and focuses on specific challenges. We then present a systematic literature review of recent studies on SLAM-based solutions for VIB people. This review explores various SLAM techniques employed in this context. We discuss the advantages and limitations of these techniques for VIB navigation. Moreover, we examined a range of challenging situations addressed in the studies included in this review. We explain how SLAM-based solutions offer potential to improve the ability of visually impaired individuals to navigate effectively. Finally, we present future opportunities and challenges in this domain.
翻訳日:2023-09-25 19:36:51 公開日:2023-09-22
# OpenApePose:ポーズ推定のための注釈付き猿の写真データベース

OpenApePose: a database of annotated ape photographs for pose estimation ( http://arxiv.org/abs/2212.00741v2 )

ライセンス: Link先を確認
Nisarg Desai, Praneet Bala, Rebecca Richardson, Jessica Raper, Jan Zimmermann, Benjamin Hayden(参考訳) 人間との密接な関係から、非ヒト類人猿(チンパンジー、ボノボ、ゴリラ、オランウータン、シャムアンを含むギボン)は非常に科学的に興味深い。 複雑な行動を理解するという目標は、ビデオベースのポーズ追跡を行う能力によって大きく進歩する。 しかし、追跡には高品質な猿写真の注釈付きデータセットが必要である。 ここでは,自然主義的な文脈で6種の類人猿の標本を16の目印で注釈した,71,868枚の写真からなる新しい公開データセットであるopenapeposeについて紹介する。 我々は、猿(特にOpenMonkeyPoseデータセット)や人間(COCO)で訓練されたネットワークよりも、猿の写真で訓練された標準的なディープネット(HRNet-W48)が、確実にサンプル外の猿の写真を追跡することができることを示した。 この訓練されたネットワークは猿を追跡できるだけでなく、他のネットワークがそれぞれの分類を追跡できる。 最終的に,動物追跡システムにおける大規模専門データベースの重要性を強調し,新たな猿データベースの有用性を確認した。

Because of their close relationship with humans, non-human apes (chimpanzees, bonobos, gorillas, orangutans, and gibbons, including siamangs) are of great scientific interest. The goal of understanding their complex behavior would be greatly advanced by the ability to perform video-based pose tracking. Tracking, however, requires high-quality annotated datasets of ape photographs. Here we present OpenApePose, a new public dataset of 71,868 photographs, annotated with 16 body landmarks, of six ape species in naturalistic contexts. We show that a standard deep net (HRNet-W48) trained on ape photos can reliably track out-of-sample ape photos better than networks trained on monkeys (specifically, the OpenMonkeyPose dataset) and on humans (COCO) can. This trained network can track apes almost as well as the other networks can track their respective taxa, and models trained without one of the six ape species can track the held out species better than the monkey and human models can. Ultimately, the results of our analyses highlight the importance of large specialized databases for animal tracking systems and confirm the utility of our new ape database.
翻訳日:2023-09-25 19:36:36 公開日:2023-09-22
# Ada3Diff:Adaptive Diffusionによる3D逆転点雲に対する防御

Ada3Diff: Defending against 3D Adversarial Point Clouds via Adaptive Diffusion ( http://arxiv.org/abs/2211.16247v2 )

ライセンス: Link先を確認
Kui Zhang, Hang Zhou, Jie Zhang, Qidong Huang, Weiming Zhang, Nenghai Yu(参考訳) ディープ3Dポイントクラウドモデルは敵攻撃に敏感であり、自律運転のような安全クリティカルなアプリケーションに脅威をもたらす。 強固な訓練と防御による防御は、敵の摂動を防御するための典型的な戦略である。 しかし、それらは膨大な計算オーバーヘッドを誘発するか、特定の事前に強く依存し、あらゆる種類の攻撃に対する一般的な堅牢性を制限する。 そこで,本稿では,プリスティーヌデータ分布の復元と拡散モデルの構築を可能にする,新しい歪み認識防御フレームワークを提案する。 歪みを検知する前方拡散を行うために,各点から近傍点の最適フィッティング平面までの距離を,逆点雲の局所的空間特性の観測に基づいて合計した歪み推定アルゴリズムを設計する。 反復拡散と逆偏光により、様々な歪みの下での摂動点雲を清浄な分布に戻すことができる。 このアプローチは、ノイズ予算の異なる適応攻撃に対する効果的な防御を可能にし、既存の3d深層認識モデルのロバスト性を高める。

Deep 3D point cloud models are sensitive to adversarial attacks, which poses threats to safety-critical applications such as autonomous driving. Robust training and defend-by-denoising are typical strategies for defending adversarial perturbations. However, they either induce massive computational overhead or rely heavily upon specified priors, limiting generalized robustness against attacks of all kinds. To remedy it, this paper introduces a novel distortion-aware defense framework that can rebuild the pristine data distribution with a tailored intensity estimator and a diffusion model. To perform distortion-aware forward diffusion, we design a distortion estimation algorithm that is obtained by summing the distance of each point to the best-fitting plane of its local neighboring points, which is based on the observation of the local spatial properties of the adversarial point cloud. By iterative diffusion and reverse denoising, the perturbed point cloud under various distortions can be restored back to a clean distribution. This approach enables effective defense against adaptive attacks with varying noise budgets, enhancing the robustness of existing 3D deep recognition models.
翻訳日:2023-09-25 19:36:13 公開日:2023-09-22
# レンガ加工回路を用いた影推定のための閉形式解析式

Closed-form analytic expressions for shadow estimation with brickwork circuits ( http://arxiv.org/abs/2211.09835v2 )

ライセンス: Link先を確認
Mirko Arienzo, Markus Heinrich, Ingo Roth, Martin Kliesch(参考訳) 量子系の性質は、ユニタリのランダムアンサンブルに基づく測定を実装する古典的な影を用いて推定できる。 元々はグローバルなクリフォードユニタリーと単一キュービットクリフォードゲートの積から派生したもので、実践的な実装は、中間数のキュービットに対する後者のスキームに限られる。 局所ゲート以外にも、2つの局所ゲートを持つ非常に短いランダム回路の正確な実装は実験的に可能であるため、短期的な応用で測定を行うのに興味深い。 本研究では,2層並列2局所haar-random(クリフォード)ユニタリを有するブロックワーク回路を用いたシャドー推定のための閉形式解析式を導出する。 古典影の構成に加えて,この結果はパウリ観測量の推定のためのサンプル複雑度保証をもたらす。 次に,ブロックワーク回路のシャドウ推定性能を局所クリフォードユニタリを用いた確立された手法と比較し,十分な数の量子ビット上での観測可能量の推定において,サンプルの複雑さが向上したことを示す。

Properties of quantum systems can be estimated using classical shadows, which implement measurements based on random ensembles of unitaries. Originally derived for global Clifford unitaries and products of single-qubit Clifford gates, practical implementations are limited to the latter scheme for moderate numbers of qubits. Beyond local gates, the accurate implementation of very short random circuits with two-local gates is still experimentally feasible and, therefore, interesting for implementing measurements in near-term applications. In this work, we derive closed-form analytical expressions for shadow estimation using brickwork circuits with two layers of parallel two-local Haar-random (or Clifford) unitaries. Besides the construction of the classical shadow, our results give rise to sample-complexity guarantees for estimating Pauli observables. We then compare the performance of shadow estimation with brickwork circuits to the established approach using local Clifford unitaries and find improved sample complexity in the estimation of observables supported on sufficiently many qubits.
翻訳日:2023-09-25 19:35:35 公開日:2023-09-22
# aiMotive Dataset:長距離知覚を用いたロバスト自動運転のためのマルチモーダルデータセット

aiMotive Dataset: A Multimodal Dataset for Robust Autonomous Driving with Long-Range Perception ( http://arxiv.org/abs/2211.09445v3 )

ライセンス: Link先を確認
Tam\'as Matuszka, Iv\'an Barton, \'Ad\'am Butykai, P\'eter Hajas, D\'avid Kiss, Domonkos Kov\'acs, S\'andor Kuns\'agi-M\'at\'e, P\'eter Lengyel, G\'abor N\'emeth, Levente Pet\H{o}, Dezs\H{o} Ribli, D\'avid Szeghy, Szabolcs Vajna, B\'alint Varga(参考訳) 自動運転はコンピュータビジョン研究コミュニティで人気のある研究分野である。 自動運転車は安全性が極めて重要であるため、現実の展開には堅牢性を保証することが不可欠である。 いくつかの公共のマルチモーダルデータセットはアクセス可能であるが、主に悪天候に適さない2つのセンサーモード(カメラ、LiDAR)で構成されている。 さらに、長距離アノテーションが欠如しているため、自動運転車の高速道路アシスタント機能の基盤となるニューラルネットワークのトレーニングが困難になる。 そこで本稿では,長距離認識による頑健な自律運転のためのマルチモーダルデータセットを提案する。 データセットは176のシーンで構成され、同期して校正されたLiDAR、カメラ、レーダーセンサーが360度視野をカバーする。 収集したデータは、昼間、夜間、雨季に高速道路、都市、郊外で撮影され、フレーム間に一貫した識別子を持つ3D境界ボックスで注釈付けされている。 さらに,3次元物体検出のためのユニモーダルベースラインモデルとマルチモーダルベースラインモデルを訓練した。 データは \url{https://github.com/aimotive/aimotive_dataset} で入手できる。

Autonomous driving is a popular research area within the computer vision research community. Since autonomous vehicles are highly safety-critical, ensuring robustness is essential for real-world deployment. While several public multimodal datasets are accessible, they mainly comprise two sensor modalities (camera, LiDAR) which are not well suited for adverse weather. In addition, they lack far-range annotations, making it harder to train neural networks that are the base of a highway assistant function of an autonomous vehicle. Therefore, we introduce a multimodal dataset for robust autonomous driving with long-range perception. The dataset consists of 176 scenes with synchronized and calibrated LiDAR, camera, and radar sensors covering a 360-degree field of view. The collected data was captured in highway, urban, and suburban areas during daytime, night, and rain and is annotated with 3D bounding boxes with consistent identifiers across frames. Furthermore, we trained unimodal and multimodal baseline models for 3D object detection. Data are available at \url{https://github.com/aimotive/aimotive_dataset}.
翻訳日:2023-09-25 19:35:16 公開日:2023-09-22
# 局所差分密度を用いた深部不均衡時系列予測

Deep Imbalanced Time-series Forecasting via Local Discrepancy Density ( http://arxiv.org/abs/2302.13563v2 )

ライセンス: Link先を確認
Junwoo Park, Jungsoo Lee, Youngin Cho, Woncheol Shin, Dongmin Kim, Jaegul Choo, Edward Choi(参考訳) 時系列予測モデルは、通常予期せぬ出来事や未知の出来事によって起こる特定の時間内に突然の変化に遭遇することが多い。 トレーニングセットで発生頻度が低かったにもかかわらず、突然の損失の増加は全体の損失に大きく寄与する。 そのため、ノイズの多いトレーニングサンプルとして動作し、モデルが一般化可能なパターン、すなわち通常の状態を学ぶのを防ぐ。 本研究は, 急激な変化による損失の軽減と, 正常な状態による過度化を両立させる再重み付けフレームワークを提案する。 再重み付けフレームワークでは,まず,所定時間における変化の急激度を測定する局所離散度(LD)と呼ばれる測定値を定義する。 トレーニングセットは主に通常の状態で構成されているため、LDに基づいてトレーニングセットに時間的変化が出現する頻度を考慮する。 我々の再重み付けフレームワークは、アーキテクチャに関係なく、既存の時系列予測モデルに適用できる。 様々なインアウトプットシーケンス長を持つ8つのデータセット上での12の時系列予測モデルに関する広範な実験を通じて、我々の再重み付けフレームワークの適用は、平均で10.1%、最先端モデルでは18.6%削減することを示した。

Time-series forecasting models often encounter abrupt changes in a given period of time which generally occur due to unexpected or unknown events. Despite their scarce occurrences in the training set, abrupt changes incur loss that significantly contributes to the total loss. Therefore, they act as noisy training samples and prevent the model from learning generalizable patterns, namely the normal states. Based on our findings, we propose a reweighting framework that down-weights the losses incurred by abrupt changes and up-weights those by normal states. For the reweighting framework, we first define a measurement termed Local Discrepancy (LD) which measures the degree of abruptness of a change in a given period of time. Since a training set is mostly composed of normal states, we then consider how frequently the temporal changes appear in the training set based on LD. Our reweighting framework is applicable to existing time-series forecasting models regardless of the architectures. Through extensive experiments on 12 time-series forecasting models over eight datasets with various in-output sequence lengths, we demonstrate that applying our reweighting framework reduces MSE by 10.1% on average and by up to 18.6% in the state-of-the-art model.
翻訳日:2023-09-25 19:26:53 公開日:2023-09-22
# 深層学習を容易にする言語とは何か?

What Makes a Language Easy to Deep-Learn? ( http://arxiv.org/abs/2302.12239v2 )

ライセンス: Link先を確認
Lukas Galke, Yoav Ram, Limor Raviv(参考訳) ニューラルネットワークは自然言語処理の成功を促進する。 言語の基本特性は構成構造であり、人間が体系的に新しい意味の形式を作ることができる。 しかし、人間とは異なり、ニューラルネットワークは体系的な一般化に苦しむことで悪名高く、創発的コミュニケーションシミュレーションにおいて構成構造から恩恵を受けるとは限らない。 これは、ニューラルネットワークを使って人間の言語学習と進化をシミュレートする問題であり、異なる学習システムのバイアスに重要な違いを示唆している。 ここでは,学習においてニューラルネットワークが人間とどのように比較されるかを直接テストし,その構造によって異なる入力言語を一般化する。 我々は,事前学習した言語モデルGPT-3.5(成人第二言語学習者)とスクラッチ(子ども第一言語学習者)から学習した繰り返しニューラルネットワークの記憶と一般化能力を評価する。 その結果,深層ニューラルネットワークと成人学習者との類似性が顕著であり,より構造化された言語入力により,より体系的な一般化と,ニューラルネットワークと人間との収束性が向上した。 これらの結果から,全ての学習システムは言語の構造に敏感であり,構成性は学習に有利であることが示唆された。 本研究は,子どもの学習バイアスに関する明確な予測と,小集団が話す言語の自動処理の課題を浮き彫りにするものである。 特に、人間と機械の類似性は、言語学習と進化の研究のための新しい道を開く。

Neural networks drive the success of natural language processing. A fundamental property of language is its compositional structure, allowing humans to produce forms for new meanings systematically. However, unlike humans, neural networks notoriously struggle with systematic generalization, and do not necessarily benefit from compositional structure in emergent communication simulations. This poses a problem for using neural networks to simulate human language learning and evolution, and suggests crucial differences in the biases of the different learning systems. Here, we directly test how neural networks compare to humans in learning and generalizing different input languages that vary in their degree of structure. We evaluate the memorization and generalization capabilities of a pre-trained language model GPT-3.5 (analagous to an adult second language learner) and recurrent neural networks trained from scratch (analaogous to a child first language learner). Our results show striking similarities between deep neural networks and adult human learners, with more structured linguistic input leading to more systematic generalization and to better convergence between neural networks and humans. These findings suggest that all the learning systems are sensitive to the structure of languages in similar ways with compositionality being advantageous for learning. Our findings draw a clear prediction regarding children's learning biases, as well as highlight the challenges of automated processing of languages spoken by small communities. Notably, the similarity between humans and machines opens new avenues for research on language learning and evolution.
翻訳日:2023-09-25 19:26:35 公開日:2023-09-22
# 連続的外因性無観測共同設立者のロバスト適合Q-評価と反復

Robust Fitted-Q-Evaluation and Iteration under Sequentially Exogenous Unobserved Confounders ( http://arxiv.org/abs/2302.00662v2 )

ライセンス: Link先を確認
David Bruns-Smith and Angela Zhou(参考訳) オフライン強化学習は、オンライン実験が費用がかかり、危険または非倫理的であり、真のモデルが不明な領域において重要な分野である。 しかし、ほとんどの手法は行動方針の行動決定に使用される全ての共変体が観察されていると仮定する。 この仮定、シーケンシャルな無知/不整合性は、おそらく観測データでは保持されないが、治療の選択に関するデータのほとんどは観察され、感度分析の動機となる。 感度モデルの下で, 逐次外在的非オブザーブ型共同創設者の存在下でのロバストな政策評価と政策最適化について検討する。 本稿では,ロバストq関数の損失最小化問題を導出するためにロバストベルマン作用素の閉形式解を用いた直交ロバストq文を提案し解析し,量的推定にバイアス補正を加える。 本アルゴリズムは直交化による適合q文の計算容易性と統計的改善(量子量推定誤差依存性の低減)を享受する。 本研究は,敗血症治療のシミュレーションと実世界の縦断医療データの両方において,複雑性境界,洞察,有効性を示す。 特に、シーケンシャルな非オブザーブな共同創設者のモデルでは、部分的に観察されたマルコフ決定プロセスではなく、オンラインマルコフ決定プロセスが得られます。

Offline reinforcement learning is important in domains such as medicine, economics, and e-commerce where online experimentation is costly, dangerous or unethical, and where the true model is unknown. However, most methods assume all covariates used in the behavior policy's action decisions are observed. Though this assumption, sequential ignorability/unconfoundedness, likely does not hold in observational data, most of the data that accounts for selection into treatment may be observed, motivating sensitivity analysis. We study robust policy evaluation and policy optimization in the presence of sequentially-exogenous unobserved confounders under a sensitivity model. We propose and analyze orthogonalized robust fitted-Q-iteration that uses closed-form solutions of the robust Bellman operator to derive a loss minimization problem for the robust Q function, and adds a bias-correction to quantile estimation. Our algorithm enjoys the computational ease of fitted-Q-iteration and statistical improvements (reduced dependence on quantile estimation error) from orthogonalization. We provide sample complexity bounds, insights, and show effectiveness both in simulations and on real-world longitudinal healthcare data of treating sepsis. In particular, our model of sequential unobserved confounders yields an online Markov decision process, rather than partially observed Markov decision process: we illustrate how this can enable warm-starting optimistic reinforcement learning algorithms with valid robust bounds from observational data.
翻訳日:2023-09-25 19:25:28 公開日:2023-09-22
# 2対1:拡散モデルと粗粒分子動力学のための力場

Two for One: Diffusion Models and Force Fields for Coarse-Grained Molecular Dynamics ( http://arxiv.org/abs/2302.00600v3 )

ライセンス: Link先を確認
Marloes Arts, Victor Garcia Satorras, Chin-Wei Huang, Daniel Zuegner, Marco Federici, Cecilia Clementi, Frank No\'e, Robert Pinsler, Rianne van den Berg(参考訳) 粗粒分子動力学(CG)は、時間的および空間的なスケールでの生物学的過程の研究を可能にする。 しかし,cg力場を正確に学習することは課題である。 本研究では, スコアベース生成モデル, 力場, 分子動力学の接続を利用して, トレーニング中の力入力を必要とせずにCG力場を学習する。 具体的には、分子動力学シミュレーションからタンパク質構造の拡散生成モデルを訓練し、そのスコア関数がCG分子動力学をシミュレートするために直接使用できる力場に近似することを示した。 本研究は, 従来の研究に比べて極めて簡易なトレーニング設定を持つ一方で, 小規模から中規模のタンパク質シミュレーションにおける性能向上, CG平衡分布の再現, タンパク質折り畳み現象などの全原子シミュレーションのダイナミクスの保存等を図っている。

Coarse-grained (CG) molecular dynamics enables the study of biological processes at temporal and spatial scales that would be intractable at an atomistic resolution. However, accurately learning a CG force field remains a challenge. In this work, we leverage connections between score-based generative models, force fields and molecular dynamics to learn a CG force field without requiring any force inputs during training. Specifically, we train a diffusion generative model on protein structures from molecular dynamics simulations, and we show that its score function approximates a force field that can directly be used to simulate CG molecular dynamics. While having a vastly simplified training setup compared to previous work, we demonstrate that our approach leads to improved performance across several small- to medium-sized protein simulations, reproducing the CG equilibrium distribution, and preserving dynamics of all-atom simulations such as protein folding events.
翻訳日:2023-09-25 19:25:02 公開日:2023-09-22
# Tsallis KL分枝を用いた一般化Munchausen強化学習

Generalized Munchausen Reinforcement Learning using Tsallis KL Divergence ( http://arxiv.org/abs/2301.11476v2 )

ライセンス: Link先を確認
Lingwei Zhu, Zheng Chen, Matthew Schlegel, Martha White(参考訳) 強化学習における多くの政策最適化アプローチでは、kl(kullback-leilbler)が以前の方針に分岐し、政策の変化が早すぎることを防ぐ。 このアイデアは、TRPOやMunchausen Value Iteration (MVI)といったアルゴリズムによって与えられる近似を用いて、保守政策イテレーションに関するセミナー論文で最初に提案された。 我々は、定義に$q$-logarithmを使用する一般化KL発散(英語版)(Tsallis KL divergence)と呼ばれる、一般化KL発散の研究を継続する。 このアプローチは厳密な一般化であり、$q = 1$ は標準 KL の発散に対応する;$q > 1$ は様々な新しい選択肢を提供する。 我々はTsallis KLで学んだポリシーのタイプを特徴付け、$q > 1$が有益である場合に動機付ける。 Tsallis KL正規化を組み込む実用的なアルゴリズムを得るために、我々はKL正規化を組み込む最も単純なアプローチの一つであるMVIを拡張する。 この一般化されたMVI($q$)は、35のアタリゲームにおいて標準MVI($q = 1$)よりも大幅に改善されていることを示す。

Many policy optimization approaches in reinforcement learning incorporate a Kullback-Leilbler (KL) divergence to the previous policy, to prevent the policy from changing too quickly. This idea was initially proposed in a seminal paper on Conservative Policy Iteration, with approximations given by algorithms like TRPO and Munchausen Value Iteration (MVI). We continue this line of work by investigating a generalized KL divergence -- called the Tsallis KL divergence -- which use the $q$-logarithm in the definition. The approach is a strict generalization, as $q = 1$ corresponds to the standard KL divergence; $q > 1$ provides a range of new options. We characterize the types of policies learned under the Tsallis KL, and motivate when $q >1$ could be beneficial. To obtain a practical algorithm that incorporates Tsallis KL regularization, we extend MVI, which is one of the simplest approaches to incorporate KL regularization. We show that this generalized MVI($q$) obtains significant improvements over the standard MVI($q = 1$) across 35 Atari games.
翻訳日:2023-09-25 19:24:46 公開日:2023-09-22
# Scale-MAE:マルチスケール地理空間表現学習のためのスケール対応マスケードオートエンコーダ

Scale-MAE: A Scale-Aware Masked Autoencoder for Multiscale Geospatial Representation Learning ( http://arxiv.org/abs/2212.14532v4 )

ライセンス: Link先を確認
Colorado J. Reed, Ritwik Gupta, Shufan Li, Sarah Brockman, Christopher Funk, Brian Clipp, Kurt Keutzer, Salvatore Candido, Matt Uyttendaele, Trevor Darrell(参考訳) 大規模で事前訓練されたモデルは通常、様々な条件やスケールを模倣するために強化されたイメージで微調整され、その結果、様々なタスクに様々な空間スケールの画像で使用される。 このようなモデルは、リモートセンシングのようなスケール依存領域のデータにおけるスケール固有の情報を見落とします。 本稿では,事前学習プロセスを通じて,異なる既知のスケールでデータ間の関係を明示的に学習する事前学習手法であるScale-MAEを提案する。 scale-maeは、画像がカバーする地球の面積が画像解像度ではなくvit位置符号化のスケールを決定する既知の入力スケールで入力画像をマスクすることにより、ネットワークを事前学習する。 Scale-MAEは、マスクされた画像を標準のViTバックボーンで符号化し、その後、帯域通過フィルタを介してマスクされた画像を復号し、低周波画像の低/高周波画像の再構成を行う。 その結果,低周波画像と高周波画像の両方を再構成することで,リモートセンシング画像のマルチスケール表現が堅牢になることがわかった。 Scale-MAEは8つのリモートセンシングデータセットに対して平均2.4~5.6\%の非パラメトリックkNN分類の改善を達成し、様々な評価尺度に対するSpaceNetビルディングセグメンテーション転送タスクにおいて0.9$ mIoUから1.7$ mIoUの改善を達成している。

Large, pretrained models are commonly finetuned with imagery that is heavily augmented to mimic different conditions and scales, with the resulting models used for various tasks with imagery from a range of spatial scales. Such models overlook scale-specific information in the data for scale-dependent domains, such as remote sensing. In this paper, we present Scale-MAE, a pretraining method that explicitly learns relationships between data at different, known scales throughout the pretraining process. Scale-MAE pretrains a network by masking an input image at a known input scale, where the area of the Earth covered by the image determines the scale of the ViT positional encoding, not the image resolution. Scale-MAE encodes the masked image with a standard ViT backbone, and then decodes the masked image through a bandpass filter to reconstruct low/high frequency images at lower/higher scales. We find that tasking the network with reconstructing both low/high frequency images leads to robust multiscale representations for remote sensing imagery. Scale-MAE achieves an average of a $2.4 - 5.6\%$ non-parametric kNN classification improvement across eight remote sensing datasets compared to current state-of-the-art and obtains a $0.9$ mIoU to $1.7$ mIoU improvement on the SpaceNet building segmentation transfer task for a range of evaluation scales.
翻訳日:2023-09-25 19:24:11 公開日:2023-09-22
# PPLN導波路を用いた光子対源による光子吸収

Photon Pair Source based on PPLN-Waveguides for Entangled Two-Photon Absorption ( http://arxiv.org/abs/2303.16584v2 )

ライセンス: Link先を確認
Tobias Bernd G\"abler and Patrick Hendra and Nitish Jain and Markus Gr\"afe(参考訳) 絡み合った光子対の吸収による蛍光励起は、低励起力で高い信号レベルを達成すると同時に光毒性を緩和するなど、古典的なイメージング技術と比べて利点がある。 しかし、現在の絡み合った光子対源は蛍光検出には信頼できない。 この制限に対処するためには、超明るい光子対源が必要である。 潜在的な解のうち、非線形導波路を用いた源は、絡み合った光子による蛍光励起を促進する有望な候補として現れる。 本稿では, 周期的極性窒化リチウム導波管からなる光源を開発し, その特性を分析した。 CdSe/ZnS量子ドット溶液の絡み合った2光子吸収挙動を実験的に検討した。

Fluorescence excitation by absorption of entangled photon pairs offers benefits compared to classical imaging techniques, such as the attainment of higher signal levels at low excitation power while simultaneously mitigating photo-toxicity. However, current entangled photon pair sources are unreliable for fluorescence detection. In order to address this limitation, there is a need for ultra-bright entangled photon pair sources. Among the potential solutions, sources utilizing nonlinear waveguides emerge as promising candidates to facilitate fluorescence excitation through entangled photons. In this paper, a source consisting of a periodically poled lithium niobate waveguide was developed and its key characteristics analysed. To demonstrate its suitability as key component for imaging experiments, the entangled two-photon absorption behavior of CdSe/ZnS quantum dot solutions was experimentally investigated.
翻訳日:2023-09-25 19:17:29 公開日:2023-09-22
# Beyond Accuracy: モバイルおよびウェアラブルコンピューティングにおける機械学習の公正性の批判的レビュー

Beyond Accuracy: A Critical Review of Fairness in Machine Learning for Mobile and Wearable Computing ( http://arxiv.org/abs/2303.15585v3 )

ライセンス: Link先を確認
Sofia Yfantidou, Marios Constantinides, Dimitris Spathis, Athena Vakali, Daniele Quercia, Fahim Kawsar(参考訳) モバイルとウェアラブルコンピューティングの分野は、機械学習を革命的に統合している。 デバイスは病気を診断し、心臓の異常を予測し、人間の認知の可能性を解き放つことができる。 しかし、これらの予測の基盤となるアルゴリズムは、繊細な属性(例えば、性別、人種)に対するバイアスに影響を受けず、差別的な結果をもたらす。 この研究の目的は、モバイルおよびウェアラブルコンピューティングコミュニティが、データセットやモデルに関する情報を表面化し、最終的にはバイアスに対処する方法をどの程度採用したかを探ることである。 2018-2022年のACM Interactive, Mobile, Wearable and Ubiquitous Technologies (IMWUT)ジャーナルに掲載された論文の体系的なレビューは、アルゴリズム的公正性に関する進展はあるものの、まだ成長の余地が十分にあることを示している。 論文のごく一部(5%)が現代のフェアネスレポートに準拠しているのに対し,圧倒的多数は精度や誤差の指標に重点を置いている。 ACM MobiCom, MobiSys, SenSys, IEEE Pervasive, IEEE Transactions on Mobile Computing, IEEE Transactions on Mobile Computing など, 同様の分野の会場でこれらの結果を一般化し, 主要な成果とは何の差も見つからなかった。 これらの知見を踏まえて,本研究は,正確性だけでなく公正性も追求するモバイルおよびウェアラブル技術の設計・開発のための実践的ガイドラインを提供する。

The field of mobile and wearable computing is undergoing a revolutionary integration of machine learning. Devices can now diagnose diseases, predict heart irregularities, and unlock the full potential of human cognition. However, the underlying algorithms powering these predictions are not immune to biases with respect to sensitive attributes (e.g., gender, race), leading to discriminatory outcomes. The goal of this work is to explore the extent to which the mobile and wearable computing community has adopted ways of reporting information about datasets and models to surface and, eventually, counter biases. Our systematic review of papers published in the Proceedings of the ACM Interactive, Mobile, Wearable and Ubiquitous Technologies (IMWUT) journal from 2018-2022 indicates that, while there has been progress made on algorithmic fairness, there is still ample room for growth. Our findings show that only a small portion (5%) of published papers adheres to modern fairness reporting, while the overwhelming majority thereof focuses on accuracy or error metrics. To generalize these results across venues of similar scope, we analyzed recent proceedings of ACM MobiCom, MobiSys, and SenSys, IEEE Pervasive, and IEEE Transactions on Mobile Computing Computing, and found no deviation from our primary result. In light of these findings, our work provides practical guidelines for the design and development of mobile and wearable technologies that not only strive for accuracy but also fairness.
翻訳日:2023-09-25 19:17:16 公開日:2023-09-22
# インプシットニューラル表現を用いた単目的マルチコントラストMRI超解像

Single-subject Multi-contrast MRI Super-resolution via Implicit Neural Representations ( http://arxiv.org/abs/2303.15065v2 )

ライセンス: Link先を確認
Julian McGinnis, Suprosanna Shit, Hongwei Bran Li, Vasiliki Sideri-Lampretsa, Robert Graf, Maik Dannecker, Jiazhen Pan, Nil Stolt Ans\'o, Mark M\"uhlau, Jan S. Kirschke, Daniel Rueckert, Benedikt Wiestler(参考訳) 臨床ルーチンと振り返りコホートは一般的にマルチパラメトリック磁気共鳴イメージングを含むが、主に信号対雑音比と走査時間の制約により異方性2Dビューで取得される。 このように、獲得されたビューは、平面外解像度の低下に苦しめられ、通常等方性3dスキャンを必要とする下流のボリューム画像解析に影響を及ぼす。 マルチコントラストスキャンの異なるビューを高解像度の等方性3Dスキャンに組み合わせることは、大規模なトレーニングコホートがないために困難である。 本研究は,インプリシトニューラルネットワーク表現(INR)を利用した新しい解法を提案する。 提案したINRは,連続空間関数における相補的視点の2つの異なるコントラストを共同で学習し,それら間の解剖学的情報交換の利点を享受する。 単一のコモディティGPU上で数分でトレーニングされた私たちのモデルは、3つのデータセットによる実験において、異なるコントラストのペア間で現実的な超解像を提供する。 相互情報(MI)を指標として、我々のモデルは配列の最適MIに収束し、解剖学的に忠実な再構築を実現する。 https://github.com/jqmcginnis/multi_contrast_inr/

Clinical routine and retrospective cohorts commonly include multi-parametric Magnetic Resonance Imaging; however, they are mostly acquired in different anisotropic 2D views due to signal-to-noise-ratio and scan-time constraints. Thus acquired views suffer from poor out-of-plane resolution and affect downstream volumetric image analysis that typically requires isotropic 3D scans. Combining different views of multi-contrast scans into high-resolution isotropic 3D scans is challenging due to the lack of a large training cohort, which calls for a subject-specific framework. This work proposes a novel solution to this problem leveraging Implicit Neural Representations (INR). Our proposed INR jointly learns two different contrasts of complementary views in a continuous spatial function and benefits from exchanging anatomical information between them. Trained within minutes on a single commodity GPU, our model provides realistic super-resolution across different pairs of contrasts in our experiments with three datasets. Using Mutual Information (MI) as a metric, we find that our model converges to an optimum MI amongst sequences, achieving anatomically faithful reconstruction. Code is available at: https://github.com/jqmcginnis/multi_contrast_inr/
翻訳日:2023-09-25 19:16:48 公開日:2023-09-22
# 強化データと乗算影響: モデル精度の向上とデータセット強化によるロバスト性

Reinforce Data, Multiply Impact: Improved Model Accuracy and Robustness with Dataset Reinforcement ( http://arxiv.org/abs/2303.08983v3 )

ライセンス: Link先を確認
Fartash Faghri, Hadi Pouransari, Sachin Mehta, Mehrdad Farajtabar, Ali Farhadi, Mohammad Rastegari, Oncel Tuzel(参考訳) 我々は,強化データセット上でトレーニングされたモデルアーキテクチャの精度を,ユーザにとって追加のトレーニングコストなしで向上させるように,データセットを改善するための戦略であるデータセット強化を提案する。 本稿では,データ拡張と知識蒸留に基づくデータセット強化戦略を提案する。 提案手法は,CNNモデルおよびトランスフォーマーモデルにまたがる広範囲な解析に基づいて設計され,各種データ拡張を伴う最先端モデルによる蒸留の大規模研究を行う。 ImageNet+と呼ばれるImageNetトレーニングデータセットの強化バージョンと、強化データセットCIFAR-100+、Flowers-102+、Food-101+を作成します。 ImageNet+でトレーニングされたモデルはより正確で堅牢で校正され、下流のタスク(セグメンテーションや検出など)にうまく転送される。 例えば、ResNet-50の精度はImageNet検証セットで1.7%、ImageNetV2で3.5%、ImageNet-Rで10.0%向上している。 ImageNet検証セットのキャリブレーションエラー(ECE)も9.9%削減された。 このバックボーンをMask-RCNNでMS-COCOの物体検出に使用すると、平均精度は0.8%向上する。 MobileNets、ViTs、Swin-Transformersも同様に伸びています。 MobileNetV3とSwin-Tinyでは、ImageNet-R/A/Cの大幅な改善が最大20%改善された。 ImageNet+で事前訓練され、CIFAR-100+、Flowers-102+、Food-101+で微調整されたモデルでは、精度が3.4%向上した。 コード、データセット、事前訓練されたモデルはhttps://github.com/apple/ml-dr.comで入手できる。

We propose Dataset Reinforcement, a strategy to improve a dataset once such that the accuracy of any model architecture trained on the reinforced dataset is improved at no additional training cost for users. We propose a Dataset Reinforcement strategy based on data augmentation and knowledge distillation. Our generic strategy is designed based on extensive analysis across CNN- and transformer-based models and performing large-scale study of distillation with state-of-the-art models with various data augmentations. We create a reinforced version of the ImageNet training dataset, called ImageNet+, as well as reinforced datasets CIFAR-100+, Flowers-102+, and Food-101+. Models trained with ImageNet+ are more accurate, robust, and calibrated, and transfer well to downstream tasks (e.g., segmentation and detection). As an example, the accuracy of ResNet-50 improves by 1.7% on the ImageNet validation set, 3.5% on ImageNetV2, and 10.0% on ImageNet-R. Expected Calibration Error (ECE) on the ImageNet validation set is also reduced by 9.9%. Using this backbone with Mask-RCNN for object detection on MS-COCO, the mean average precision improves by 0.8%. We reach similar gains for MobileNets, ViTs, and Swin-Transformers. For MobileNetV3 and Swin-Tiny, we observe significant improvements on ImageNet-R/A/C of up to 20% improved robustness. Models pretrained on ImageNet+ and fine-tuned on CIFAR-100+, Flowers-102+, and Food-101+, reach up to 3.4% improved accuracy. The code, datasets, and pretrained models are available at https://github.com/apple/ml-dr.
翻訳日:2023-09-25 19:15:54 公開日:2023-09-22
# 多体量子力学における速度限界と局所性

Speed limits and locality in many-body quantum dynamics ( http://arxiv.org/abs/2303.07386v2 )

ライセンス: Link先を確認
Chi-Fang Chen, Andrew Lucas, Chao Yin(参考訳) 本稿では,多体系における量子情報処理の数学的速度制限について検討する。 1972年にリーブ・ロビンソン理論が証明された後、過去20年間、古典的または量子コンピュータ上の量子システムのシミュラビリティ、絡み合いの発生、ギャップ付きシステムの基底状態の性質など、他の問題への応用に顕著な進展が見られた。 さらに、リーブ・ロビンソン境界は非自明な方法で拡張され、パワーロー相互作用やボソン相互作用を持つ系の速度限界を示し、また全対全相互作用を持つ量子重力のマンガモデルで生じる局所性の概念も証明された。 我々は,その進展を概観し,最も有望な結果とテクニックを強調するとともに,その中心となる課題について議論する。 新参者をスピードアップさせるため、私たちはこの分野の最も重要な結果の自己完結した証明を提供します。

We review the mathematical speed limits on quantum information processing in many-body systems. After the proof of the Lieb-Robinson Theorem in 1972, the past two decades have seen substantial developments in its application to other questions, such as the simulatability of quantum systems on classical or quantum computers, the generation of entanglement, and even the properties of ground states of gapped systems. Moreover, Lieb-Robinson bounds have been extended in non-trivial ways, to demonstrate speed limits in systems with power-law interactions or interacting bosons, and even to prove notions of locality that arise in cartoon models for quantum gravity with all-to-all interactions. We overview the progress which has occurred, highlight the most promising results and techniques, and discuss some central outstanding questions which remain open. To help bring newcomers to the field up to speed, we provide self-contained proofs of the field's most essential results.
翻訳日:2023-09-25 19:15:27 公開日:2023-09-22
# 合成体験リプレイ

Synthetic Experience Replay ( http://arxiv.org/abs/2303.06614v3 )

ライセンス: Link先を確認
Cong Lu, Philip J. Ball, Yee Whye Teh, Jack Parker-Holder(参考訳) 過去10年の主なテーマは、大規模なニューラルネットワークと大規模なデータセットを組み合わせることで、素晴らしい結果が得られることだ。 deep reinforcement learning(rl)では、このパラダイムは経験リプレイを通じて一般的に実現され、過去の経験のデータセットがポリシやバリュー関数のトレーニングに使用される。 しかし、教師付き学習や自己教師型学習とは異なり、RLエージェントは、しばしば制限される独自のデータを集める必要がある。 したがって、ディープラーニングのメリットを享受することは困難であり、トレーニング開始時に小さなニューラルネットワークでさえ過度に適合する可能性がある。 本研究では,生成モデルにおける最近の大きな進歩を活かし,エージェントの収集した経験を柔軟に評価するための拡散ベースアプローチであるsynthetic experience replay(synther)を提案する。 提案手法では,syntherはオフライン環境とオンライン環境でのrlエージェントのトレーニングに有効な手法であることを示す。 オフライン設定では、小さなオフラインデータセットをアップサンプリングする際の大幅な改善を観察し、追加の合成データによって、より大きなネットワークを効果的にトレーニングすることができることを確認する。 さらに、SynthERはオンラインエージェントが以前よりもはるかに高い更新とデータの比率でトレーニングできるので、アルゴリズムの変更なしにサンプル効率が大幅に向上する。 我々は、限られたデータからリプレイベースのRLアルゴリズムの深層学習の可能性を実現するために、合成トレーニングデータが扉を開くことができると考えている。 最後に、コードをhttps://github.com/conglu 1997/SynthER.comでオープンソース化します。

A key theme in the past decade has been that when large neural networks and large datasets combine they can produce remarkable results. In deep reinforcement learning (RL), this paradigm is commonly made possible through experience replay, whereby a dataset of past experiences is used to train a policy or value function. However, unlike in supervised or self-supervised learning, an RL agent has to collect its own data, which is often limited. Thus, it is challenging to reap the benefits of deep learning, and even small neural networks can overfit at the start of training. In this work, we leverage the tremendous recent progress in generative modeling and propose Synthetic Experience Replay (SynthER), a diffusion-based approach to flexibly upsample an agent's collected experience. We show that SynthER is an effective method for training RL agents across offline and online settings, in both proprioceptive and pixel-based environments. In offline settings, we observe drastic improvements when upsampling small offline datasets and see that additional synthetic data also allows us to effectively train larger networks. Furthermore, SynthER enables online agents to train with a much higher update-to-data ratio than before, leading to a significant increase in sample efficiency, without any algorithmic changes. We believe that synthetic training data could open the door to realizing the full potential of deep learning for replay-based RL algorithms from limited data. Finally, we open-source our code at https://github.com/conglu1997/SynthER.
翻訳日:2023-09-25 19:14:36 公開日:2023-09-22
# 古典系および量子系における時空間パターンの平衡から定量化

Quantifying spatio-temporal patterns in classical and quantum systems out of equilibrium ( http://arxiv.org/abs/2302.14558v2 )

ライセンス: Link先を確認
E.A. Maletskii, I.A. Iakovlev, V.V. Mazurenko(参考訳) 様々な非平衡力学現象やプロセスは、完全に異なる性質を持つ多体系における空間的自由度と時間的自由度の間の複雑な相互作用を探索し推定する一般的な数値技術の発達を明白に求めている。 本研究では,システムの時間依存ディジタル表現における時空間パターンを定量化するための構造的複雑性尺度を適用することで,この問題に対する解決策を提案する。 非常に限られた量のデータに基づいて、このアプローチは異なる動的レジームを区別し、古典的および量子的なシステムの両方において重要なパラメータを定義することができる。 非平衡量子系で実現される離散時間結晶の例により、この非自明な動的位相の完全な低レベルキャラクタリゼーションをビットストリングのみを処理し、量子ビット相関関数の計算に基づく以前の研究の代替として価値あるものと考えることができる。

A rich variety of non-equilibrium dynamical phenomena and processes unambiguously calls for the development of general numerical techniques to probe and estimate a complex interplay between spatial and temporal degrees of freedom in many-body systems of completely different nature. In this work we provide a solution to this problem by adopting a structural complexity measure to quantify spatio-temporal patterns in the time-dependent digital representation of a system. On the basis of very limited amount of data our approach allows to distinguish different dynamical regimes and define critical parameters in both classical and quantum systems. By the example of the discrete time crystal realized in non-equilibrium quantum systems we provide a complete low-level characterization of this nontrivial dynamical phase with only processing bitstrings, which can be considered as a valuable alternative to previous studies based on the calculations of qubit correlation functions.
翻訳日:2023-09-25 19:14:10 公開日:2023-09-22
# n-ary事実のマイナショットリンク予測

Few-shot Link Prediction on N-ary Facts ( http://arxiv.org/abs/2305.06104v2 )

ライセンス: Link先を確認
Jiyao Wei, Saiping Guan, Xiaolong Jin, Jiafeng Guo, and Xueqi Cheng(参考訳) 実世界知識グラフ(kgs)では、一次三重項(ヘッドエンティティ、リレーションエンティティ、テールエンティティ)と任意の数の補助属性値ペアからなるn項事実が一般的である。 n-項事実のリンク予測は、n-項事実の欠落要素を予測することである。 これはkgの投入と濃縮に役立ち、さらに多くの下流アプリケーションを促進する。 先行研究は通常、n-ary事実の要素を理解するためにかなりの量の高品質なデータを必要とする。 しかし、これらの研究は、ラベル付きインスタンスが限定されている少数のショットの関係を見落としているが、現実のシナリオでは一般的である。 そこで本稿では,n-ary 事実に対する新しいタスク,n-shot リンク予測を提案する。 ラベル付きインスタンスに制限のあるn-aryファクトで欠落したエンティティを予測することを目的としている。 さらに,N-ary 事実に基づく Few-shot Link prEdict モデルを提案する。FLEN は関係学習,サポート特化調整,クエリ推論モジュールの3つのモジュールから構成される。 flenはリレーショナルメタ情報を限定インスタンスからキャプチャし、クエリインスタンス内の行方不明エンティティを予測する。 FLENの有効性を検証するため,既存のベンチマークデータに基づく3つのデータセットを構築した。 実験の結果, FLEN は n-ary 事実と二項事実の連関予測において, 既存の関連モデルよりも有意に優れていた。

N-ary facts composed of a primary triple (head entity, relation, tail entity) and an arbitrary number of auxiliary attribute-value pairs, are prevalent in real-world knowledge graphs (KGs). Link prediction on n-ary facts is to predict a missing element in an n-ary fact. This helps populate and enrich KGs and further promotes numerous downstream applications. Previous studies usually require a substantial amount of high-quality data to understand the elements in n-ary facts. However, these studies overlook few-shot relations, which have limited labeled instances, yet are common in real-world scenarios. Thus, this paper introduces a new task, few-shot link prediction on n-ary facts. It aims to predict a missing entity in an n-ary fact with limited labeled instances. We further propose a model for Few-shot Link prEdict on N-ary facts, thus called FLEN, which consists of three modules: the relation learning, support-specific adjusting, and query inference modules. FLEN captures relation meta information from limited instances to predict a missing entity in a query instance. To validate the effectiveness of FLEN, we construct three datasets based on existing benchmark data. Our experimental results show that FLEN significantly outperforms existing related models in both few-shot link prediction on n-ary facts and binary facts.
翻訳日:2023-09-25 19:06:40 公開日:2023-09-22
# 乳癌の免疫組織化学的画像生成 : ベンチマークデータセットとチャレンジレビュー

Breast Cancer Immunohistochemical Image Generation: a Benchmark Dataset and Challenge Review ( http://arxiv.org/abs/2305.03546v2 )

ライセンス: Link先を確認
Chuang Zhu, Shengjie Liu, Zekuan Yu, Feng Xu, Arpit Aggarwal, Germ\'an Corredor, Anant Madabhushi, Qixun Qu, Hongwei Fan, Fangda Li, Yueheng Li, Xianchao Guan, Yongbing Zhang, Vivek Kumar Singh, Farhan Akram, Md. Mostafa Kamal Sarker, Zhongyue Shi, Mulan Jin(参考訳) 浸潤乳癌では、免疫組織化学(ihc)技術が乳腺組織におけるヒト上皮成長因子受容体(her2)の発現レベルを検出し、正確な治療計画を作成するためにしばしば用いられる。 人力、材料、時間コストの節約の観点からは、ヘマトキシリンおよびエオシン(h&e)染色画像から直接igc染色画像を生成することは貴重な研究方向である。 そこで我々は,病理画像生成における深層学習技術の新たなアイデアを探求し,この分野の研究を促進するために,乳癌免疫組織化学画像生成課題を行った。 この課題は、登録されたH&EとIHCステインイメージペアを提供し、参加者はこれらのイメージを使用して、対応するH&EステインイメージからIHCステインイメージを直接生成できるモデルをトレーニングする必要がある。 我々は,PSNRとSSIMの指標に基づいて,上位5つの手法を選択し,レビューし,対応するパイプラインと実装の概要を示した。 本稿では、乳がんの免疫組織化学的画像生成領域における現在の限界を更に分析し、この領域の今後の発展を予測する。 リリースされたデータセットと課題によって、より多くの学者が、高品質なIHCによる画像生成を共同で研究できることを期待しています。

For invasive breast cancer, immunohistochemical (IHC) techniques are often used to detect the expression level of human epidermal growth factor receptor-2 (HER2) in breast tissue to formulate a precise treatment plan. From the perspective of saving manpower, material and time costs, directly generating IHC-stained images from Hematoxylin and Eosin (H&E) stained images is a valuable research direction. Therefore, we held the breast cancer immunohistochemical image generation challenge, aiming to explore novel ideas of deep learning technology in pathological image generation and promote research in this field. The challenge provided registered H&E and IHC-stained image pairs, and participants were required to use these images to train a model that can directly generate IHC-stained images from corresponding H&E-stained images. We selected and reviewed the five highest-ranking methods based on their PSNR and SSIM metrics, while also providing overviews of the corresponding pipelines and implementations. In this paper, we further analyze the current limitations in the field of breast cancer immunohistochemical image generation and forecast the future development of this field. We hope that the released dataset and the challenge will inspire more scholars to jointly study higher-quality IHC-stained image generation.
翻訳日:2023-09-25 19:06:16 公開日:2023-09-22
# モデル予測経路積分制御を用いた自律オフロードラリー駆動のための地形認識キノダイナミックモデル学習

Learning Terrain-Aware Kinodynamic Model for Autonomous Off-Road Rally Driving With Model Predictive Path Integral Control ( http://arxiv.org/abs/2305.00676v2 )

ライセンス: Link先を確認
Hojin Lee, Taekyung Kim, Jungwi Mun, Wonsuk Lee(参考訳) オフロード環境での高速自動運転は、様々な応用に多大な可能性があるが、車両と陸上の相互作用の複雑さによる課題もある。 このような環境では、車両が動きを予測し、地形の標高の変動など環境の変化に応じて積極的に制御を調整することが重要である。 そこで本研究では, 固有受容情報と外受容情報の両方に基づいて, 地形認識型キノダイナミックモデルを学ぶ手法を提案する。 提案モデルでは,6自由度運動の信頼度予測が生成され,訓練中に接点間相互作用を推定できる。 これにより、不安定な動き、不安定な相互作用、モデルから派生した高い不確実性を伴うサンプル軌道をペナルティ化する適切なコスト関数設計により、安全で堅牢なモデル予測コントローラの設計が可能になる。 本手法の有効性をシミュレーションしたオフロード軌道実験により実証し,提案するモデル・コントローラペアがベースラインを上回り,制御障害のない堅牢な高速運転性能を確保できることを示す。

High-speed autonomous driving in off-road environments has immense potential for various applications, but it also presents challenges due to the complexity of vehicle-terrain interactions. In such environments, it is crucial for the vehicle to predict its motion and adjust its controls proactively in response to environmental changes, such as variations in terrain elevation. To this end, we propose a method for learning terrain-aware kinodynamic model which is conditioned on both proprioceptive and exteroceptive information. The proposed model generates reliable predictions of 6-degree-of-freedom motion and can even estimate contact interactions without requiring ground truth force data during training. This enables the design of a safe and robust model predictive controller through appropriate cost function design which penalizes sampled trajectories with unstable motion, unsafe interactions, and high levels of uncertainty derived from the model. We demonstrate the effectiveness of our approach through experiments on a simulated off-road track, showing that our proposed model-controller pair outperforms the baseline and ensures robust high-speed driving performance without control failure.
翻訳日:2023-09-25 19:05:06 公開日:2023-09-22
# Search-in-the-Chain:知識集約型タスクのための精度、信頼性、トレース可能な大規模言語モデルを目指して

Search-in-the-Chain: Towards Accurate, Credible and Traceable Large Language Models for Knowledge-intensive Tasks ( http://arxiv.org/abs/2304.14732v6 )

ライセンス: Link先を確認
Shicheng Xu, Liang Pang, Huawei Shen, Xueqi Cheng, Tat-Seng Chua(参考訳) chatgptのような大規模言語モデル(llm)によって生成されたコンテンツの正確性、信頼性、トレーサブル性は、特に複数ステップの推論を必要とする複雑な知識集約型タスクにおいて重要である。 外部知識を LLM に提供するための情報検索 (IR) の導入は,この問題の解決に有効である。 しかし、LLMにIRを導入する方法と場所は大きな課題です。 これまでの研究では、IRが取得した誤った知識がLLMを誤解させたり、LLMの推論連鎖を壊したりするという欠点があった。 本稿では LLM と IR の相互作用を解消するための新しいフレームワークである Search-in-the-Chain (SearChain) を提案する。 まず、LLMはChain-of-Query(CoQ)と呼ばれるグローバルな推論チェーンを生成し、各ノードはIR指向のクエリとクエリへの応答で構成される。 第2に、IRは、CoQの各ノードの回答を検証し、IRが高い信頼を与えるときに取得した情報と一致しない回答を補正し、信頼性を向上させる。 第3に、LLMはCoQにおける不足した知識をマークすることができ、IRはLLMにこの知識を提供することができる。 これら3つの操作は、推論能力と知識の観点から、複雑な知識集約タスクに対するllmの精度を向上させる。 最後に、searchainは推論プロセスを生成し、各推論ステップでサポートドキュメントへの参照をマークする。 searchainは推論のトポロジーをチェーンからツリーに変換し、推論の方向を変更することができる。 実験の結果,マルチホップ質問応答,スロット充填,ファクトチェック,ロングフォーム質問応答など,複雑な知識集約タスクのベースラインを検索ainが上回っていることがわかった。

Making the contents generated by Large Language Model (LLM) such as ChatGPT, accurate, credible and traceable is crucial, especially in complex knowledge-intensive tasks that require multi-step reasoning and each of which needs knowledge to solve. Introducing Information Retrieval (IR) to provide LLM with external knowledge is good potential to solve this problem. However, where and how to introduce IR into LLM is a big challenge. Previous work has the disadvantage that the wrong knowledge retrieved by IR misleads the LLM or breaks the reasoning chain of LLM. In this paper, we propose a novel framework called Search-in-the-Chain (SearChain) for the interaction between LLM and IR to solve the challenges. First, LLM generates the global reasoning chain called Chain-of-Query (CoQ) where each node consists of an IR-oriented query and the answer to the query. Second, IR verifies the answer of each node of CoQ, it corrects the answer that is not consistent with the retrieved information when IR gives high confidence, which improves the credibility. Third, LLM can mark its missing knowledge in CoQ and IR can provide this knowledge to LLM. These three operations improve the accuracy of LLM for complex knowledge-intensive tasks in terms of reasoning ability and knowledge. Finally, SearChain generates the reasoning process and marks references to supporting documents for each reasoning step, which improves traceability. SearChain transforms the topology of reasoning from chain to tree, which can modify the reasoning direction. Experiment shows that SearChain outperforms baselines on complex knowledge-intensive tasks including multi-hop question-answering, slot filling, fact checking, and long-form question-answering.
翻訳日:2023-09-25 19:04:19 公開日:2023-09-22
# 自己教師付き学習と連合学習による機械状態監視のためのモデル一般化

Maximizing Model Generalization for Machine Condition Monitoring with Self-Supervised Learning and Federated Learning ( http://arxiv.org/abs/2304.14398v2 )

ライセンス: Link先を確認
Matthew Russell and Peng Wang(参考訳) deep learning (dl)は、手動で統計的特徴を設計せずに、障害を診断し、生の状態監視データからマシンヘルスを評価することができる。 しかし, 既存のDL法では, 実用化が極めて困難である。 マシンデータはしばしばラベルが付けられておらず、ごく少数の健康状態(例:通常の運用データのみ)からである。 さらに、プロセスパラメータが変化し、新しい障害カテゴリが出現するにつれて、モデルはドメインの変化に遭遇することが多い。 伝統的な教師付き学習は、特徴空間を決定境界で分割する豊富なクラスを持つことに依存するため、これらの目に見えない対象領域に一般化するコンパクトで差別的な表現を学ぶのに苦労する。 ドメイン適応型トランスファーラーニング(TL)は、これらのモデルをラベルのないターゲットドメインに適応させようとするが、新しい障害が出現しても存在しないような基盤構造を仮定する。 本研究は,対象領域にモデルをコピーするために,ソース領域における特徴一般化の最大化と重み移動によるTLの適用に焦点をあてる。 具体的には、Barlow Twinsによる自己監視学習(SSL)は、データのセマンティックな性質に焦点を当てることで、教師付き学習よりも、健康状態を監視するための差別的な特徴を生み出す可能性がある。 さらに、分散トレーニングのための連合学習(fl)は、複数のクライアントマシン間で情報を共有することにより、トレーニングデータの有効サイズと多様性を効率良く拡大することにより、一般化を改善できる。 以上の結果から,Barlow Twins は未ラベルの目標領域における教師あり学習において,ソーストレーニングデータがほとんど異なるカテゴリを含む場合,モータ障害が出現する傾向を示した。 FLを組み込むことは、マシン間で健康状態の知識を拡散させることで、わずかに有利になる。

Deep Learning (DL) can diagnose faults and assess machine health from raw condition monitoring data without manually designed statistical features. However, practical manufacturing applications remain extremely difficult for existing DL methods. Machine data is often unlabeled and from very few health conditions (e.g., only normal operating data). Furthermore, models often encounter shifts in domain as process parameters change and new categories of faults emerge. Traditional supervised learning may struggle to learn compact, discriminative representations that generalize to these unseen target domains since it depends on having plentiful classes to partition the feature space with decision boundaries. Transfer Learning (TL) with domain adaptation attempts to adapt these models to unlabeled target domains but assumes similar underlying structure that may not be present if new faults emerge. This study proposes focusing on maximizing the feature generality on the source domain and applying TL via weight transfer to copy the model to the target domain. Specifically, Self-Supervised Learning (SSL) with Barlow Twins may produce more discriminative features for monitoring health condition than supervised learning by focusing on semantic properties of the data. Furthermore, Federated Learning (FL) for distributed training may also improve generalization by efficiently expanding the effective size and diversity of training data by sharing information across multiple client machines. Results show that Barlow Twins outperforms supervised learning in an unlabeled target domain with emerging motor faults when the source training data contains very few distinct categories. Incorporating FL may also provide a slight advantage by diffusing knowledge of health conditions between machines.
翻訳日:2023-09-25 19:03:46 公開日:2023-09-22
# 格子材料の逆設計のための微分可能なグラフ構造モデル

Differentiable graph-structured models for inverse design of lattice materials ( http://arxiv.org/abs/2304.05422v2 )

ライセンス: Link先を確認
Dominik Dold, Derek Aranguren van Egmond(参考訳) 異なる環境条件に適応可能な物理化学的性質を有する建築材料は、破壊的な新しい材料科学の領域を具現化する。 デジタルデザインと製造の進歩により、格子トポロジに形作られた材料は、バルク素材に適さないような特性のカスタマイズを可能にする。 彼らのデザインにインスピレーションを与える有望な場所は、不規則な自然のマイクロアーキテクチャである。 しかし、そのような不規則性によって解き放たれる膨大な設計変動は、分析的に調査することが困難である。 本稿では,正則および不規則格子材料に対するグラフ表現を用いた新しい計算手法を提案する。 そこで本手法では, 異なるメッセージパッシングアルゴリズムを用いて機械的特性を計算し, 個々の格子要素の幾何学的構造と局所特性の両方を自動微分することで, 所望の特性を持つ逆設計材料を実現する。 さらに,大規模構造解析のためのグラフニューラルネットワークサロゲートモデルについても紹介する。 この方法論は、異種グラフとして表現可能な任意のシステムに一般化できる。

Architected materials possessing physico-chemical properties adaptable to disparate environmental conditions embody a disruptive new domain of materials science. Fueled by advances in digital design and fabrication, materials shaped into lattice topologies enable a degree of property customization not afforded to bulk materials. A promising venue for inspiration toward their design is in the irregular micro-architectures of nature. However, the immense design variability unlocked by such irregularity is challenging to probe analytically. Here, we propose a new computational approach using graph-based representation for regular and irregular lattice materials. Our method uses differentiable message passing algorithms to calculate mechanical properties, therefore allowing automatic differentiation with surrogate derivatives to adjust both geometric structure and local attributes of individual lattice elements to achieve inversely designed materials with desired properties. We further introduce a graph neural network surrogate model for structural analysis at scale. The methodology is generalizable to any system representable as heterogeneous graphs.
翻訳日:2023-09-25 19:03:18 公開日:2023-09-22
# 軸距離と組合せを用いたロバスト楕円型フィッティング

Robust Ellipsoid Fitting Using Axial Distance and Combination ( http://arxiv.org/abs/2304.00517v2 )

ライセンス: Link先を確認
Min Han, Jiangming Kan, Gongping Yang, and Xinghui Li(参考訳) ランダムサンプルコンセンサス (RANSAC) では, モデルスコアの最大化によって実現される点間距離の最小化問題として楕円体フィッティングの問題を定式化することができる。 したがって、楕円型フィッティングの性能は距離計量に影響される。 本稿では,代数的距離の非幾何学的問題を解くためのスケーリング係数を導入することで,代数的距離から変換される軸距離と呼ばれる新しい距離メトリックを提案する。 サンプルコンセンサスのモデルスコアと重み付き最小二乗(WLS)フィッティングの重みを計算する際に、それらの組み合わせがより厳密な計量であるため、軸距離とサンプソン距離の間に相補性がある。 次に, 軸方向距離とサンプソン距離(CAS)の組合せを用いて, 試料集束型楕円体フィッティング法を提案する。 提案手法を,合成および実データを用いた実験により,いくつかの代表的フィッティング法と比較した。 その結果,提案手法は異常値に対するロバスト性が高く,一貫して精度が高く,サンプルコンセンサスに基づく手法に近い速度を示した。

In random sample consensus (RANSAC), the problem of ellipsoid fitting can be formulated as a problem of minimization of point-to-model distance, which is realized by maximizing model score. Hence, the performance of ellipsoid fitting is affected by distance metric. In this paper, we proposed a novel distance metric called the axial distance, which is converted from the algebraic distance by introducing a scaling factor to solve nongeometric problems of the algebraic distance. There is complementarity between the axial distance and Sampson distance because their combination is a stricter metric when calculating the model score of sample consensus and the weight of the weighted least squares (WLS) fitting. Subsequently, a novel sample-consensus-based ellipsoid fitting method is proposed by using the combination between the axial distance and Sampson distance (CAS). We compare the proposed method with several representative fitting methods through experiments on synthetic and real datasets. The results show that the proposed method has a higher robustness against outliers, consistently high accuracy, and a speed close to that of the method based on sample consensus.
翻訳日:2023-09-25 19:03:04 公開日:2023-09-22
# 協調学習と最適化における競争相手の正直感

Incentivizing Honesty among Competitors in Collaborative Learning and Optimization ( http://arxiv.org/abs/2305.16272v2 )

ライセンス: Link先を確認
Florian E. Dorner, Nikola Konstantinov, Georgi Pashaliev, Martin Vechev(参考訳) 協調学習技術は、単一のエンティティのデータでトレーニングされたモデルよりも優れた機械学習モデルのトレーニングを可能にする可能性がある。 しかし、多くの場合、このような協力的なスキームの潜在的な参加者は、最善のレコメンデーションを提供することで顧客を引き付けようとする企業のような下流のタスクの競合である。 これは他の参加者のモデルを傷つける不名誉なアップデートをインセンティブにし、コラボレーションのメリットを損なう可能性がある。 本研究では,このようなインタラクションをモデル化したゲームを定式化し,このフレームワークにおける2つの学習タスクについて検討する。 プレイヤーアクションの自然なクラスについて、合理的なクライアントは、その更新を強く操作し、学習を妨げていることを示す。 次に、正直なコミュニケーションを動機づけ、完全協調に匹敵する学習品質を確保するメカニズムを提案する。 最後に、標準の非凸フェデレーション学習ベンチマークにおけるインセンティブスキームの有効性を実証的に実証する。 私たちの研究は、不正なクライアントのインセンティブや行動を明確にモデル化し、悪意のあるクライアントと仮定するのではなく、協調学習のための強力な堅牢性を保証することを示しています。

Collaborative learning techniques have the potential to enable training machine learning models that are superior to models trained on a single entity's data. However, in many cases, potential participants in such collaborative schemes are competitors on a downstream task, such as firms that each aim to attract customers by providing the best recommendations. This can incentivize dishonest updates that damage other participants' models, potentially undermining the benefits of collaboration. In this work, we formulate a game that models such interactions and study two learning tasks within this framework: single-round mean estimation and multi-round SGD on strongly-convex objectives. For a natural class of player actions, we show that rational clients are incentivized to strongly manipulate their updates, preventing learning. We then propose mechanisms that incentivize honest communication and ensure learning quality comparable to full cooperation. Lastly, we empirically demonstrate the effectiveness of our incentive scheme on a standard non-convex federated learning benchmark. Our work shows that explicitly modeling the incentives and actions of dishonest clients, rather than assuming them malicious, can enable strong robustness guarantees for collaborative learning.
翻訳日:2023-09-25 18:57:31 公開日:2023-09-22
# 競合間の戦略的データ共有

Strategic Data Sharing between Competitors ( http://arxiv.org/abs/2305.16052v2 )

ライセンス: Link先を確認
Nikita Tsoy and Nikola Konstantinov(参考訳) 協調学習技術は近年大きく進歩し、複数の組織にまたがってプライベートモデルトレーニングを可能にしている。 この機会にもかかわらず、競合他社とのデータ共有を考えると、企業はジレンマに直面する。コラボレーションは企業の機械学習モデルを改善することができるが、競合他社に利益をもたらし、利益を減少させる可能性がある。 本稿では,このデータ共有トレードオフを分析するための汎用フレームワークを提案する。 フレームワークは3つのコンポーネントで構成されており、それぞれ、企業の生産決定、モデル品質に対する追加データの影響、データ共有交渉プロセスである。 次に,従来の経済理論に基づく市場モデルに基づく枠組みのインスタンス化を行い,協調的インセンティブに影響を与える重要な要因を明らかにする。 その結果,市場条件がデータ共有インセンティブに与える影響が示唆された。 特に、企業の製品間の類似性や、難しい学習タスクがコラボレーションを促進するという点で、競争が減少していることが分かりました。

Collaborative learning techniques have significantly advanced in recent years, enabling private model training across multiple organizations. Despite this opportunity, firms face a dilemma when considering data sharing with competitors -- while collaboration can improve a company's machine learning model, it may also benefit competitors and hence reduce profits. In this work, we introduce a general framework for analyzing this data-sharing trade-off. The framework consists of three components, representing the firms' production decisions, the effect of additional data on model quality, and the data-sharing negotiation process, respectively. We then study an instantiation of the framework, based on a conventional market model from economic theory, to identify key factors that affect collaboration incentives. Our findings indicate a profound impact of market conditions on the data-sharing incentives. In particular, we find that reduced competition, in terms of the similarities between the firms' products, and harder learning tasks foster collaboration.
翻訳日:2023-09-25 18:57:04 公開日:2023-09-22
# 強い帰納バイアスを伴わない子どもの視点からの高次視覚表現の学習

Learning high-level visual representations from a child's perspective without strong inductive biases ( http://arxiv.org/abs/2305.15372v2 )

ライセンス: Link先を確認
A. Emin Orhan, Brenden M. Lake(参考訳) 幼児は視覚経験に基づいて世界の洗練された内部モデルを開発する。 そのようなモデルは、強い帰納バイアスを伴わずに、子供の視覚経験から学べるか? そこで我々は,子どもの視覚体験のリアルなプロキシ上で,明示的な監督やドメイン固有の帰納バイアスを伴わずに,最先端のニューラルネットワークを訓練する。 具体的には,2年以上にわたって収集した1人の子どもから200時間分のヘッドカメラ映像に対して,組込みモデルと生成モデルの両方を訓練し,様々な参照モデルを用いて下流課題における性能を総合的に評価した。 平均すると、最高の埋め込みモデルは、トレーニングデータにかなりの違いがあるにもかかわらず、高性能なImageNet訓練モデルの70%で実行されます。 また、明示的な監督なしに幅広い意味カテゴリーやオブジェクトのローカライゼーション機能を学ぶが、それらはimagenetでトレーニングされたモデルよりもオブジェクト中心ではない。 同じデータでトレーニングされた生成モデルは、粗いアウトライン、テクスチャ、色、方向といった、部分的にマスキングされたオブジェクトの単純な特性を外挿することに成功しました。 我々は他の2人の子供と実験を再現し、顕著に一貫した結果を得た。 広範に有用な高次視覚表現は、強い帰納バイアスを伴わずに、子供の視覚経験の代表例から頑健に学習できる。

Young children develop sophisticated internal models of the world based on their visual experience. Can such models be learned from a child's visual experience without strong inductive biases? To investigate this, we train state-of-the-art neural networks on a realistic proxy of a child's visual experience without any explicit supervision or domain-specific inductive biases. Specifically, we train both embedding models and generative models on 200 hours of headcam video from a single child collected over two years and comprehensively evaluate their performance in downstream tasks using various reference models as yardsticks. On average, the best embedding models perform at a respectable 70% of a high-performance ImageNet-trained model, despite substantial differences in training data. They also learn broad semantic categories and object localization capabilities without explicit supervision, but they are less object-centric than models trained on all of ImageNet. Generative models trained with the same data successfully extrapolate simple properties of partially masked objects, like their rough outline, texture, color, or orientation, but struggle with finer object details. We replicate our experiments with two other children and find remarkably consistent results. Broadly useful high-level visual representations are thus robustly learnable from a representative sample of a child's visual experience without strong inductive biases.
翻訳日:2023-09-25 18:56:42 公開日:2023-09-22
# ウェーブレット領域への属性の一般化によるモデル決定の信頼性の評価

Assessment of the Reliablity of a Model's Decision by Generalizing Attribution to the Wavelet Domain ( http://arxiv.org/abs/2305.14979v2 )

ライセンス: Link先を確認
Gabriel Kasmi and Laurent Dubus and Yves-Marie Saint Drenan and Philippe Blanc(参考訳) ニューラルネットワークはコンピュータビジョンにおいて顕著な性能を示しているが、そのブラックボックスの性質から、多くの科学および技術分野への展開は困難である。 科学者や実践者は、意思決定の信頼性、すなわちモデルが関連する特徴に依存しているかどうか、そしてそれらの特徴が画像の腐敗に対して堅牢であるかどうかを同時に知る必要がある。 既存の属性法は、画像領域の重要な領域を強調することで、人間の理解可能な説明を提供することを目的としている。 このギャップを埋めるために、ウェーブレット変換を用いた画素領域から空間スケール領域への属性の一般化であるWavelet sCale Attribution Method (WCAM)を導入する。 ウェーブレット領域の属性は、モデルがどのスケールに焦点を当てているかを明らかにし、決定が信頼できるかどうかを評価する。

Neural networks have shown remarkable performance in computer vision, but their deployment in numerous scientific and technical fields is challenging due to their black-box nature. Scientists and practitioners need to evaluate the reliability of a decision, i.e., to know simultaneously if a model relies on the relevant features and whether these features are robust to image corruptions. Existing attribution methods aim to provide human-understandable explanations by highlighting important regions in the image domain, but fail to fully characterize a decision process's reliability. To bridge this gap, we introduce the Wavelet sCale Attribution Method (WCAM), a generalization of attribution from the pixel domain to the space-scale domain using wavelet transforms. Attribution in the wavelet domain reveals where {\it and} on what scales the model focuses, thus enabling us to assess whether a decision is reliable.
翻訳日:2023-09-25 18:56:19 公開日:2023-09-22
# slotdiffusion:拡散モデルを用いたオブジェクト中心生成モデル

SlotDiffusion: Object-Centric Generative Modeling with Diffusion Models ( http://arxiv.org/abs/2305.11281v2 )

ライセンス: Link先を確認
Ziyi Wu, Jingyu Hu, Wuyue Lu, Igor Gilitschenski, Animesh Garg(参考訳) オブジェクト中心学習は、視覚データを一連のオブジェクトエンティティ(つまりスロット)で表現することを目的としており、体系的な一般化を可能にする構造化表現を提供する。 トランスフォーマーのような高度なアーキテクチャを活用することで、最近のアプローチは教師なしオブジェクト発見において大きな進歩を遂げている。 さらに、スロットベースの表現は、制御可能な画像生成や画像編集におけるオブジェクト操作など、生成モデルに大きな可能性を秘めている。 しかし、現在のスロットベースの方法は、しばしばぼやけた画像や歪んだオブジェクトを生成し、生成的モデリング能力に乏しい。 本稿では,高品質な視覚生成のための重要な側面であるスロット・ツー・イメージデコードの改善に焦点をあてる。 SlotDiffusion - 画像データとビデオデータの両方に設計されたオブジェクト中心の潜在拡散モデル(LDM)を紹介する。 LDMの強力なモデリング能力のおかげで、SlotDiffusionは6つのデータセットにわたる教師なしオブジェクトセグメンテーションと視覚生成において、以前のスロットモデルを上回っている。 さらに,学習対象の特徴を既存のオブジェクト中心ダイナミクスモデルで活用し,映像予測品質と下流時間推論タスクを改善する。 最後に,自己教師付き事前学習画像エンコーダと統合した場合,pascal vocやcocoなどの無拘束実世界データセットへのslotdiffusionのスケーラビリティを示す。

Object-centric learning aims to represent visual data with a set of object entities (a.k.a. slots), providing structured representations that enable systematic generalization. Leveraging advanced architectures like Transformers, recent approaches have made significant progress in unsupervised object discovery. In addition, slot-based representations hold great potential for generative modeling, such as controllable image generation and object manipulation in image editing. However, current slot-based methods often produce blurry images and distorted objects, exhibiting poor generative modeling capabilities. In this paper, we focus on improving slot-to-image decoding, a crucial aspect for high-quality visual generation. We introduce SlotDiffusion -- an object-centric Latent Diffusion Model (LDM) designed for both image and video data. Thanks to the powerful modeling capacity of LDMs, SlotDiffusion surpasses previous slot models in unsupervised object segmentation and visual generation across six datasets. Furthermore, our learned object features can be utilized by existing object-centric dynamics models, improving video prediction quality and downstream temporal reasoning tasks. Finally, we demonstrate the scalability of SlotDiffusion to unconstrained real-world datasets such as PASCAL VOC and COCO, when integrated with self-supervised pre-trained image encoders.
翻訳日:2023-09-25 18:55:33 公開日:2023-09-22
# FACE: クロスエントロピーのフーリエ解析による自然言語生成の評価

FACE: Evaluating Natural Language Generation with Fourier Analysis of Cross-Entropy ( http://arxiv.org/abs/2305.10307v3 )

ライセンス: Link先を確認
Zuhao Yang, Yingfang Yuan, Yang Xu, Shuo Zhan, Huajun Bai, Kefan Chen(参考訳) 機械生成言語と人間の言語の距離を測定することは重要なオープン問題である。 言語におけるエントロピーの周期性に関する心理言語学からの実証的知見に触発されて,モデル生成言語と人文言語の類似性を測定するために,推定された言語交叉エントロピーのフーリエ解析に基づく一連の指標であるfaceを提案する。 オープンエンド生成課題と先行研究の実験データに基づいて, 顔は, モデルのギャップを効果的に識別し, モデルサイズをスケールし, 復号のための異なるサンプリング手法の結果を反映し, 他の評価指標や人間の判断スコアとよく相関することがわかった。 FACEは計算効率が高く、直感的な解釈を提供する。

Measuring the distance between machine-produced and human language is a critical open problem. Inspired by empirical findings from psycholinguistics on the periodicity of entropy in language, we propose FACE, a set of metrics based on Fourier Analysis of the estimated Cross-Entropy of language, for measuring the similarity between model-generated and human-written languages. Based on an open-ended generation task and the experimental data from previous studies, we find that FACE can effectively identify the human-model gap, scales with model size, reflects the outcomes of different sampling methods for decoding, correlates well with other evaluation metrics and with human judgment scores. FACE is computationally efficient and provides intuitive interpretations.
翻訳日:2023-09-25 18:55:12 公開日:2023-09-22
# 跳躍不連続な障壁とコンパクトな支持を有する滑らかな障壁を横断するトラバース時間とトンネル時間

Traversal and tunneling time across barriers with jump discontinuities, and smooth barriers with compact support ( http://arxiv.org/abs/2305.09260v3 )

ライセンス: Link先を確認
Philip Caesar M. Flores, Dean Alvin L. Pablico, and Eric A. Galapon(参考訳) 時空作用素の理論を用いて,入力ウェーブパック$\tilde{\psi}(k)$をジャンプ不連続な障壁を越え,コンパクトな支持を持つ滑らかな障壁を越えて通過時間とトンネル時間を決定するために, \textit{partial} と \textit{full-tunneling} の概念を導入する。 これら2つの 'times' は必ずしも等しいとは限らない。 \textit{full-tunneling} プロセスは、$\tilde{\psi}(k)$ のサポートがバリアの最小高さ以下であるときに起こり、瞬時にトンネル時間が発生する。 一方、textit{partial-tunneling}プロセスは、$\tilde{\psi}(k)$のサポートまたはサポートセグメントが障壁の最小高さと最大高さの間にあるときに発生する。 この場合、粒子は障壁系全体を通して「完全に」トンネルを通らず、非零トラバーサル時間となる。 ジャンプの不連続性を持つ潜在的な障壁は \textit{full tunneling} と \textit{partial tunneling} を示し、コンパクトな支持を持つ滑らかな障壁は \textit{partial tunneling} のみを示す。 次に,これらの結果がトンネル時間問題の解決に与える影響について考察する。

Using the theory of time-of-arrival operators, we introduce the concept of \textit{partial} and \textit{full-tunneling} to determine the traversal and tunneling time of an incident wavepacket $\tilde{\psi}(k)$ across barriers with jump discontinuities, and smooth barriers with compact support. These two `times' are not necessarily equal. The \textit{full-tunneling} process occurs when the support of $\tilde{\psi}(k)$ is below the minimum height of the barrier, resulting to an instantaneous tunneling time. Meanwhile, the \textit{partial-tunneling} process occurs when the support or a segment of the support of $\tilde{\psi}(k)$ lies between the minimum and maximum height of the barrier. For this case, the particle does not ``fully'' tunnel through the entire barrier system resulting to a non-zero traversal time. We will show that potential barriers with jump discontinuities exhibit \textit{full tunneling} and \textit{partial tunneling}, while smooth barriers with compact support only exhibit \textit{partial tunneling}. The implications of these results on the resolution of the tunneling time problem are then discussed.
翻訳日:2023-09-25 18:54:58 公開日:2023-09-22
# 勧告基礎モデルの項目IDの索引付け方法

How to Index Item IDs for Recommendation Foundation Models ( http://arxiv.org/abs/2305.06569v5 )

ライセンス: Link先を確認
Wenyue Hua, Shuyuan Xu, Yingqiang Ge, Yongfeng Zhang(参考訳) Recommendation foundation modelは、リコメンデーションタスクを自然言語タスクに変換することで、リコメンデーションのために大きな言語モデル(LLM)を利用する。 従来のレコメンデーションモデルでは、各候補項目と各候補項目のランキングスコアを計算するのではなく、アイテムを直接生成する生成レコメンデーションを可能にし、マルチステージフィルタリングからシングルステージフィルタリングまでのレコメンデーションパイプラインを簡素化する。 推奨すべき項目を決定する際に、過度に長いテキストや幻覚的なレコメンデーションが発生しないようにし、レコメンデーション基礎モデルにおいて、各項目を一意に識別するためのllm互換アイテムidを作成する。 本研究では,バックボーンモデルの例としてp5を用いた推薦基礎モデルの項目索引化問題を体系的に検討する。 項目インデクシングの重要性を強調するため,まず,独立したインデクシング,タイトルインデクシング,ランダムインデクシングなど,いくつかの自明な項目インデクシング手法の問題について論じる。 次に,シーケンシャルインデクシング,協調インデクシング,セマンティック(コンテンツベース)インデクシング,ハイブリッドインデクシングという,シンプルかつ効果的な4つのソリューションを提案する。 本研究は, LLMに基づくレコメンデーションにおける項目索引付け手法の有意な影響を強調し, 提案手法の有効性を実世界のデータセットで検証した。 この研究はまた、言語モデリングとインデックス化のような従来のir原則の最近の進歩が、学習と推論の改善にどのように役立つかを実証している。

Recommendation foundation model utilizes large language models (LLM) for recommendation by converting recommendation tasks into natural language tasks. It enables generative recommendation which directly generates the item(s) to recommend rather than calculating a ranking score for each and every candidate item in traditional recommendation models, simplifying the recommendation pipeline from multi-stage filtering to single-stage filtering. To avoid generating excessively long text and hallucinated recommendation when deciding which item(s) to recommend, creating LLM-compatible item IDs to uniquely identify each item is essential for recommendation foundation models. In this study, we systematically examine the item indexing problem for recommendation foundation models, using P5 as an example of backbone model. To emphasize the importance of item indexing, we first discuss the issues of several trivial item indexing methods, such as independent indexing, title indexing, and random indexing. We then propose four simple yet effective solutions, including sequential indexing, collaborative indexing, semantic (content-based) indexing, and hybrid indexing. Our study highlights the significant influence of item indexing methods on the performance of LLM-based recommendation, and our results on real-world datasets validate the effectiveness of our proposed solutions. The research also demonstrates how recent advances on language modeling and traditional IR principles such as indexing can help each other for better learning and inference.
翻訳日:2023-09-25 18:54:11 公開日:2023-09-22
# イオン結晶のサイドバンド温度測定

Sideband thermometry of ion crystals ( http://arxiv.org/abs/2306.07880v2 )

ライセンス: Link先を確認
Ivan Vybornyi, Laura S. Dreissen, Dominik Kiesenhofer, Helene Hainzer, Matthias Bock, Tuomas Ollikainen, Daniel Vadlejch, Christian F. Roos, Tanja E. Mehlst\"aubler, Klemens Hammerer(参考訳) コールドトラップイオンのクーロン結晶は、量子プロセッサと量子シミュレーションの実現のための主要なプラットフォームであり、量子メトロロジーでは、光学原子時計の構築と標準モデルの基本的なテストのためのものである。 これらの応用のためには、イオン結晶を全ての自由度で量子基底状態まで冷却するだけでなく、高い精度で温度を決定することが不可欠である。 しかし、大きな基底状態冷却結晶が熱測定のために尋問されると、複雑な多体相互作用が起こり、確立された技術で正確な温度推定が困難になる。 本研究では,イオン結晶に適した新しい温度測定法を提案する。 この方法は、全ての通常の運動モードに適用可能であり、大きなイオン結晶に適用すると計算ボトルネックを負わない。 温度推定を4イオンの1次元線形鎖と19イオンの2次元結晶という2つの実験で検証し、他の方法を用いて可能な限りの結果を検証する。 その結果,新手法はイオン結晶の熱測定の精度と効率が向上した。

Coulomb crystals of cold trapped ions are a leading platform for the realisation of quantum processors and quantum simulations and, in quantum metrology, for the construction of optical atomic clocks and for fundamental tests of the Standard Model. For these applications, it is not only essential to cool the ion crystal in all its degrees of freedom down to the quantum ground state, but also to be able to determine its temperature with a high accuracy. However, when a large ground-state cooled crystal is interrogated for thermometry, complex many-body interactions take place, making it challenging to accurately estimate the temperature with established techniques. In this work we present a new thermometry method tailored for ion crystals. The method is applicable to all normal modes of motion and does not suffer from a computational bottleneck when applied to large ion crystals. We test the temperature estimate with two experiments, namely with a 1D linear chain of 4 ions and a 2D crystal of 19 ions and verify the results, where possible, using other methods. The results show that the new method is an accurate and efficient tool for thermometry of ion crystals.
翻訳日:2023-09-25 18:47:12 公開日:2023-09-22
# AIアートキュレーション: ヘルシンキ市をバイエニアル時代に備えて再想像する

AI Art Curation: Re-imagining the city of Helsinki in occasion of its Biennial ( http://arxiv.org/abs/2306.03753v3 )

ライセンス: Link先を確認
Ludovica Schaerf, Pepe Ballesteros, Valentine Bernasconi, Iacopo Neri, Dario Negueruela del Castillo(参考訳) 美術カリキュラムの実践は、知識のある方法で美術コレクションを提示することによって特徴づけられる。 マシンプロセスは、大量のデータを管理し分析する能力によって特徴づけられる。 本稿では,aiのキュレーションとオーディエンスインタラクションを考察し,現代機械学習モデルがキュレーション世界に与える影響について考察する。 このプロジェクトは、2023年のヘルシンキ美術二年祭(New Directions May Emerge)のために開発された。 我々はヘルシンキ美術館(HAM)のコレクションを使って、機械認識のレンズを通してヘルシンキ市を再想像する。 視覚テキストモデルを用いて,室内アートワークを公共空間に配置し,類似度スコアに基づいて架空の座標を割り当てる。 人工的な360度パノラマを制作することで、各芸術作品が市内に居住する空間を変革する。 本研究は,360パノラマ画像からの深度推定値の生成と,各アートの機械的生成プロンプトを導出する。 このプロジェクトの成果は、アートワークを想像上の物理的な空間に配置し、アートワーク、コンテキスト、マシン知覚の行をぼかすAIキュレーションである。 この研究は事実上、このリンク上のwebベースのインストールとして提示されている。http://newlyformedcity.net/(リンク)では、ユーザーが都市の代替バージョンをナビゲートしながら、その文化的遺産を大規模に探求し、対話することができる。

Art curatorial practice is characterized by the presentation of an art collection in a knowledgeable way. Machine processes are characterized by their capacity to manage and analyze large amounts of data. This paper envisages AI curation and audience interaction to explore the implications of contemporary machine learning models for the curatorial world. This project was developed for the occasion of the 2023 Helsinki Art Biennial, entitled New Directions May Emerge. We use the Helsinki Art Museum (HAM) collection to re-imagine the city of Helsinki through the lens of machine perception. We use visual-textual models to place indoor artworks in public spaces, assigning fictional coordinates based on similarity scores. We transform the space that each artwork inhabits in the city by generating synthetic 360 art panoramas. We guide the generation estimating depth values from 360 panoramas at each artwork location, and machine-generated prompts of the artworks. The result of this project is an AI curation that places the artworks in their imagined physical space, blurring the lines of artwork, context, and machine perception. The work is virtually presented as a web-based installation on this link http://newlyformedcity.net/, where users can navigate an alternative version of the city while exploring and interacting with its cultural heritage at scale.
翻訳日:2023-09-25 18:45:40 公開日:2023-09-22
# GENTLE: 英語NLPと言語学的評価のための汎用多層チャレンジセット

GENTLE: A Genre-Diverse Multilayer Challenge Set for English NLP and Linguistic Evaluation ( http://arxiv.org/abs/2306.01966v2 )

ライセンス: Link先を確認
Tatsuya Aoyama, Shabnam Behzad, Luke Gessler, Lauren Levine, Jessica Lin, Yang Janet Liu, Siyao Peng, Yilun Zhu, Amir Zeldes(参考訳) 今回,17kトークンを集計し,辞書項目,eスポーツ解説書,法的文書,医用ノート,詩,数学的証明,syllabuses,脅威文字という,ドメイン評価のための8種類の特殊なテキストタイプからなる,新しい混合型英語チャレンジコーパスを提示する。 GENTLEは、構文依存解析、エンティティ認識、コア参照解決、談話解析など、さまざまなNLPタスクに手動で注釈付けされている。 現状のnlpシステムを評価し,少なくともいくつかのジャンルにおいて,すべてのタスクにおけるパフォーマンスの低下がみられ,nlpシステム評価データセットとしてのsweetの有用性が示唆された。

We present GENTLE, a new mixed-genre English challenge corpus totaling 17K tokens and consisting of 8 unusual text types for out-of domain evaluation: dictionary entries, esports commentaries, legal documents, medical notes, poetry, mathematical proofs, syllabuses, and threat letters. GENTLE is manually annotated for a variety of popular NLP tasks, including syntactic dependency parsing, entity recognition, coreference resolution, and discourse parsing. We evaluate state-of-the-art NLP systems on GENTLE and find severe degradation for at least some genres in their performance on all tasks, which indicates GENTLE's utility as an evaluation dataset for NLP systems.
翻訳日:2023-09-25 18:44:59 公開日:2023-09-22
# 漸近テンソルランクの離散性

Discreteness of asymptotic tensor ranks ( http://arxiv.org/abs/2306.01718v2 )

ライセンス: Link先を確認
Jop Bri\"et, Matthias Christandl, Itai Leigh, Amir Shpilka, Jeroen Zuiddam(参考訳) テンソルのパラメータは、しばしば「漸近的」テンソルパラメータと呼ばれ、代数的複雑性理論(高速な行列乗算アルゴリズムを構築する)、量子情報(絡み合いコストと蒸留可能な絡み合い)、加法組合せ(キャップセット上の束縛、ひまわりなし集合など)など、いくつかの分野において中心的な役割を果たす。 例えば、漸近テンソルランク、漸近スライスランク、漸近サブランクなどである。 最近の研究 (Costa-Dalai, Blatter-Draisma-Rupniewski, Christandl-Gesmundo-Zuiddam) では、そのようなテンソルパラメータの値における離散性(累積点を持たない)や「ギャップ」の概念が研究されている。 我々は、次数3テンソルの漸近テンソルパラメータに対する一般離散性定理を証明し、(1)任意の有限体上の(そして実際に任意の体における任意の有限個の係数の集合)漸近部分ランクと漸近スライスランクが蓄積点を持たず、(2)複素数上、漸近スライスランクは蓄積点を持たないことを証明するためにこれを用いる。 我々のアプローチの中心はテンソルの漸近部分ランクの2つの新しい一般下界であり、テンソルがどれだけ対角化できるかを測定する。 最初の下限は、簡潔な3つのテンソルの漸近部分ランクが少なくとも最小次元の立方根であることを示している。 2つ目の下限は、(他の2よりはるかに小さい1次元を持つ)「十分小さい」簡潔な3つのテンソルは極大漸近部分ランクを持つことを示している。 我々の証明は、行列部分空間の最大階数に対する新しい下界に依存し、3つの異なる方向に3つのテンソルをスライスすることで得られる。 任意の簡潔テンソルに対して、そのような2つの最大ランクの積は大きいものでなければならず、その結果、常に2つの異なる方向があり、最大ランクが大きいことが証明される。

Tensor parameters that are amortized or regularized over large tensor powers, often called "asymptotic" tensor parameters, play a central role in several areas including algebraic complexity theory (constructing fast matrix multiplication algorithms), quantum information (entanglement cost and distillable entanglement), and additive combinatorics (bounds on cap sets, sunflower-free sets, etc.). Examples are the asymptotic tensor rank, asymptotic slice rank and asymptotic subrank. Recent works (Costa-Dalai, Blatter-Draisma-Rupniewski, Christandl-Gesmundo-Zuiddam) have investigated notions of discreteness (no accumulation points) or "gaps" in the values of such tensor parameters. We prove a general discreteness theorem for asymptotic tensor parameters of order-three tensors and use this to prove that (1) over any finite field (and in fact any finite set of coefficients in any field), the asymptotic subrank and the asymptotic slice rank have no accumulation points, and (2) over the complex numbers, the asymptotic slice rank has no accumulation points. Central to our approach are two new general lower bounds on the asymptotic subrank of tensors, which measures how much a tensor can be diagonalized. The first lower bound says that the asymptotic subrank of any concise three-tensor is at least the cube-root of the smallest dimension. The second lower bound says that any concise three-tensor that is "narrow enough" (has one dimension much smaller than the other two) has maximal asymptotic subrank. Our proofs rely on new lower bounds on the maximum rank in matrix subspaces that are obtained by slicing a three-tensor in the three different directions. We prove that for any concise tensor, the product of any two such maximum ranks must be large, and as a consequence there are always two distinct directions with large max-rank.
翻訳日:2023-09-25 18:44:44 公開日:2023-09-22
# 仮想粒子の確率近似によるsvgdの高速有限粒子変種

Provably Fast Finite Particle Variants of SVGD via Virtual Particle Stochastic Approximation ( http://arxiv.org/abs/2305.17558v3 )

ライセンス: Link先を確認
Aniket Das and Dheeraj Nagaraj(参考訳) Stein Variational Gradient Descent (SVGD) は、相互作用する粒子系をターゲット分布からおよそサンプルにシミュレートし、様々な領域にわたる印象的な経験的性能を持つ、一般的な変分推論アルゴリズムである。 理論的には、その個体群(すなわち無限粒子)の極限ダイナミクスはよく研究されているが、有限粒子状態におけるSVGDの挙動は理解されていない。 本研究では,計算効率の良い2種類のSVGD,すなわちVP-SVGDとGB-SVGDを,高速な有限粒子収束速度で設計する。 仮想粒子の概念を導入し、有限個の粒子を用いて正確に実装可能な確率測度の空間における人口制限svgdダイナミクスの新たな確率近似を考案する。 我々のアルゴリズムは、通常のSVGDよりも計算効率が高いSVGDの特定のランダムバッチ近似と見なすことができる。 VP-SVGD と GB-SVGD によって出力される$n$ 粒子は、バッチサイズ$K$ で$T$ のステップで実行され、標準仮定の下では最大$O\left(\tfrac{d^{1/3}}{(KT)^{1/6}}\right)$であるような分布から得られるサンプルと同等の値であることを示す。 また, ポテンシャル関数に対する温和な成長条件下では, イソペリメトリック(ポインケア不等式など)や情報伝達条件(例えば, タラグランの不等式$\mathsf{t}_1$)よりもかなり弱い。 本稿では,実験値(VP-SVGDとGB-SVGDによって出力される粒子)の目標分布への収束を考察し,最もよく知られたSVGDの有限粒子解析よりも2倍の指数関数的改善を示す。 さらに、この結果から多項式次元に依存するこの集合に対する最初の既知のオラクル複素量を示す。

Stein Variational Gradient Descent (SVGD) is a popular variational inference algorithm which simulates an interacting particle system to approximately sample from a target distribution, with impressive empirical performance across various domains. Theoretically, its population (i.e, infinite-particle) limit dynamics is well studied but the behavior of SVGD in the finite-particle regime is much less understood. In this work, we design two computationally efficient variants of SVGD, namely VP-SVGD and GB-SVGD, with provably fast finite-particle convergence rates. We introduce the notion of virtual particles and develop novel stochastic approximations of population-limit SVGD dynamics in the space of probability measures, which are exactly implementable using a finite number of particles. Our algorithms can be viewed as specific random-batch approximations of SVGD, which are computationally more efficient than ordinary SVGD. We show that the $n$ particles output by VP-SVGD and GB-SVGD, run for $T$ steps with batch-size $K$, are at-least as good as i.i.d samples from a distribution whose Kernel Stein Discrepancy to the target is at most $O\left(\tfrac{d^{1/3}}{(KT)^{1/6}}\right)$ under standard assumptions. Our results also hold under a mild growth condition on the potential function, which is much weaker than the isoperimetric (e.g. Poincare Inequality) or information-transport conditions (e.g. Talagrand's Inequality $\mathsf{T}_1$) generally considered in prior works. As a corollary, we consider the convergence of the empirical measure (of the particles output by VP-SVGD and GB-SVGD) to the target distribution and demonstrate a double exponential improvement over the best known finite-particle analysis of SVGD. Beyond this, our results present the first known oracle complexities for this setting with polynomial dimension dependence.
翻訳日:2023-09-25 18:43:22 公開日:2023-09-22
# 時間整合ヒトアニメーションのための双方向時間拡散モデル

Bidirectional Temporal Diffusion Model for Temporally Consistent Human Animation ( http://arxiv.org/abs/2307.00574v3 )

ライセンス: Link先を確認
Tserendorj Adiya, Sanghun Kim, Jung Eun Lee, Jae Shin Yoon and Hwasup Lim(参考訳) 本稿では,映像,映像,無作為な雑音から時間的コヒーレントな人間のアニメーションを生成する手法を提案する。 この問題は、過去のフレームを後退させて将来のフレームをデコードする自動回帰生成のモデリングとして定式化されている。 しかし、このような一方向生成は時間とともに動きが漂う傾向が高く、外観歪みのような重要な人工物を持つ非現実的な人間のアニメーションを生成する。 双方向の時間的モデリングは,人間の顔の運動のあいまいさをほとんど抑制することにより,生成ネットワーク上で時間的コヒーレンスを強制する。 ニューラルネットワークは、中間結果を連続フレーム間で双方向に条件付けした時相ガウス雑音を復調することにより、人の画像を生成することを学習する。 実験では,実時間的コヒーレンスを持つ既存一方向アプローチと比較して強い性能を示す。

We introduce a method to generate temporally coherent human animation from a single image, a video, or a random noise. This problem has been formulated as modeling of an auto-regressive generation, i.e., to regress past frames to decode future frames. However, such unidirectional generation is highly prone to motion drifting over time, generating unrealistic human animation with significant artifacts such as appearance distortion. We claim that bidirectional temporal modeling enforces temporal coherence on a generative network by largely suppressing the motion ambiguity of human appearance. To prove our claim, we design a novel human animation framework using a denoising diffusion model: a neural network learns to generate the image of a person by denoising temporal Gaussian noises whose intermediate results are cross-conditioned bidirectionally between consecutive frames. In the experiments, our method demonstrates strong performance compared to existing unidirectional approaches with realistic temporal coherence
翻訳日:2023-09-25 18:36:44 公開日:2023-09-22
# 自動運転車の意思決定のためのデータセットに関する調査

A Survey on Datasets for Decision-making of Autonomous Vehicle ( http://arxiv.org/abs/2306.16784v2 )

ライセンス: Link先を確認
Yuning Wang, Zeyu Han, Yining Xing, Shaobing Xu, Jianqiang Wang(参考訳) 自動運転車(av)は将来の輸送システムを再構築することが期待されており、意思決定は高レベルの自動運転に向けた重要なモジュールの1つである。 ルールベースの手法がうまく対応できないような複雑なシナリオを克服するために、データ駆動型意思決定アプローチはますます焦点を絞っている。 データ駆動手法の開発に使用されるデータセットは、意思決定のパフォーマンスに劇的に影響を与えるため、既存のデータセットに関する包括的な洞察を得ることが必要である。 収集源の観点からは、運転データを車、環境、運転者関連データに分割することができる。 本研究では,これら3つのカテゴリの最先端データセットを比較し,使用するセンサ,アノテーション,運転シナリオなどの特徴を要約する。 データセットの特徴に基づいて、av意思決定のさまざまな側面におけるデータセットの潜在的応用も結論付け、研究者が独自の研究を支援する適切なデータセットを見つけるのを支援する。 avデータセット開発の今後の動向を概説する。

Autonomous vehicles (AV) are expected to reshape future transportation systems, and decision-making is one of the critical modules toward high-level automated driving. To overcome those complicated scenarios that rule-based methods could not cope with well, data-driven decision-making approaches have aroused more and more focus. The datasets to be used in developing data-driven methods dramatically influences the performance of decision-making, hence it is necessary to have a comprehensive insight into the existing datasets. From the aspects of collection sources, driving data can be divided into vehicle, environment, and driver related data. This study compares the state-of-the-art datasets of these three categories and summarizes their features including sensors used, annotation, and driving scenarios. Based on the characteristics of the datasets, this survey also concludes the potential applications of datasets on various aspects of AV decision-making, assisting researchers to find appropriate ones to support their own research. The future trends of AV dataset development are summarized.
翻訳日:2023-09-25 18:36:10 公開日:2023-09-22
# 時間局所非リンドブラドマスター方程式の量子軌道

Quantum trajectories for time-local non-Lindblad master equations ( http://arxiv.org/abs/2306.14876v3 )

ライセンス: Link先を確認
Tobias Becker and Ch\'e Netzer and Andr\'e Eckardt(参考訳) 開量子系の効率的なシミュレーションには、基底となるマスター方程式の力学を解くために確率的に進化する純粋状態によって与えられる量子ジャンプ軌道を使うことが多い。 マルコフ系では、ゴリニ・コサコフスキ・スダールシャン・リンドブラド (gksl) のマスター方程式によって力学が記述されるとき、この手順はモンテカルロ波動関数 (mcwf) アプローチとして知られている。 しかし、超弱系-バス結合を超えて、系の力学はGKSL型の方程式ではなく、擬Lindblad形式に変換できるレッドフィールド方程式によって記述される。 ここで負の散逸強度は従来のアプローチを禁止する。 この問題を解決するために、擬似Lindblad quantum trajectory (PLQT) の解法を提案する。 他のアプローチと同様に、単一の古典的なビットを追加する以外は、状態空間の効果的な拡張を必要としない。 熱浴に結合した単一の量子ビットと相互作用するフェルミハバード鎖の永遠非マルコフマスター方程式に対するplqtをテストし、その計算労力を全マスター方程式の解と比較した。

For the efficient simulation of open quantum systems we often use quantum jump trajectories given by pure states that evolve stochastically to unravel the dynamics of the underlying master equation. In the Markovian regime, when the dynamics is described by a Gorini-Kossakowski-Sudarshan-Lindblad (GKSL) master equation, this procedure is known as Monte-Carlo wavefunction (MCWF) approach . However, beyond ultraweak system-bath coupling, the dynamics of the system is not described by an equation of GKSL type, but rather by the Redfield equation, which can be brought into pseudo-Lindblad form. Here negative dissipation strengths prohibit the conventional approach. To overcome this problem, we propose a pseudo-Lindblad quantum trajectory (PLQT) unraveling. It does not require an effective extension of the state space, like other approaches, except for the addition of a single classical bit. We test the PLQT for the eternal non-Markovian master equation for a single qubit and an interacting Fermi Hubbard chain coupled to a thermal bath and discuss its computational effort compared to solving the full master equation.
翻訳日:2023-09-25 18:35:54 公開日:2023-09-22
# 密度推定における中央プライバシーのコストについて

About the Cost of Central Privacy in Density Estimation ( http://arxiv.org/abs/2306.14535v2 )

ライセンス: Link先を確認
Cl\'ement Lalanne (ENS de Lyon, OCKHAM), Aur\'elien Garivier (UMPA-ENSL, MC2), R\'emi Gribonval (OCKHAM)(参考訳) リプシッツ空間とソボレフ空間における密度の非パラメトリック密度推定を中心的プライバシー下で検討した。 特に,プライバシ予算が一定でないことを想定した体制について検討する。 我々は、中央微分プライバシの古典的な定義だけでなく、中央微分プライバシのより最近の概念も考慮している。 我々は barber \& duchi (2014) の結果を復元し、ヒストグラム推定器は l2 のリスクに対してリプシッツ分布に対して最適であり、通常の微分プライバシー下では、それを他の規範やプライバシー概念に拡張する。 まず, 一定のプライバシー予算(wasserman \& zhou, 2010) に対して, プライバシを強制することで, ソボレフ密度に対する推定の極小化リスクを低下させるような制度が存在する。 第2に、いわゆるプロジェクション推定器は、純粋な差分プライバシーを備えたこの新しい設定において、同じ密度のクラスに対してほぼ最適だが、一定のプライバシー予算のケースとは対照的に、緩和のコストがかかる。 偏微分プライバシーはゼロであり、緩和する必要はなく、推定が最適であることが証明される。

We study non-parametric density estimation for densities in Lipschitz and Sobolev spaces, and under central privacy. In particular, we investigate regimes where the privacy budget is not supposed to be constant. We consider the classical definition of central differential privacy, but also the more recent notion of central concentrated differential privacy. We recover the result of Barber \& Duchi (2014) stating that histogram estimators are optimal against Lipschitz distributions for the L2 risk, and under regular differential privacy, and we extend it to other norms and notions of privacy. Then, we investigate higher degrees of smoothness, drawing two conclusions: First, and contrary to what happens with constant privacy budget (Wasserman \& Zhou, 2010), there are regimes where imposing privacy degrades the regular minimax risk of estimation on Sobolev densities. Second, so-called projection estimators are near-optimal against the same classes of densities in this new setup with pure differential privacy, but contrary to the constant privacy budget case, it comes at the cost of relaxation. With zero concentrated differential privacy, there is no need for relaxation, and we prove that the estimation is optimal.
翻訳日:2023-09-25 18:35:32 公開日:2023-09-22
# the false dawn: チップマクロ配置のためのgoogleの強化学習の再評価

The False Dawn: Reevaluating Google's Reinforcement Learning for Chip Macro Placement ( http://arxiv.org/abs/2306.09633v6 )

ライセンス: Link先を確認
Igor L. Markov(参考訳) Google 2021 Natureの論文で、シリコンチップの物理的設計のための強化学習(RL)が論争を引き起こした。 論文は、重要な方法論のステップと結果の再現に必要な入力を保留した。 我々のメタ分析は、2つの異なる評価がギャップを埋め、Google RLが遅れていることを示す。 (i)人間デザイナー。 (ii)よく知られたアルゴリズム(Simulated Annealing)、及び (iii) 一般的に利用可能な商用ソフトウェアは遅いが,2023年のオープンリサーチコンテストでは,rlメソッドはトップ5には含まれていなかった。 クロスチェックデータによると、Nature論文の完全性は、行動、分析、報告の誤りによって著しく損なわれている。 発表前、Googleは内部告発を却下した。 チップ設計におけるポリシーの影響と結論に留意する。

Reinforcement learning (RL) for physical design of silicon chips in a Google 2021 Nature paper stirred controversy due to poorly documented claims that raised eyebrows and drew critical media coverage. The paper withheld critical methodology steps and most inputs needed to reproduce results. Our meta-analysis shows how two separate evaluations filled in the gaps and demonstrated that Google RL lags behind (i) human designers, (ii) a well-known algorithm (Simulated Annealing), and (iii) generally-available commercial software, while being slower; and in a 2023 open research contest, RL methods weren't in top 5. Crosschecked data indicate that the integrity of the Nature paper is substantially undermined owing to errors in conduct, analysis and reporting. Before publishing, Google rebuffed internal allegations of fraud. We note policy implications and conclusions for chip design.
翻訳日:2023-09-25 18:35:09 公開日:2023-09-22
# 実世界の知覚入力による動き予測に向けて:エンドツーエンドアプローチは競争的であるか?

Towards Motion Forecasting with Real-World Perception Inputs: Are End-to-End Approaches Competitive? ( http://arxiv.org/abs/2306.09281v3 )

ライセンス: Link先を確認
Yihong Xu, Lo\"ick Chambon, \'Eloi Zablocki, Micka\"el Chen, Alexandre Alahi, Matthieu Cord, Patrick P\'erez(参考訳) 動き予測は、自動運転車が周囲のエージェントの将来の軌道を予測できるようにするのに不可欠である。 そのためには、マッピング、検出、追跡、そして問題予測を、マルチステップパイプラインで解決する必要がある。 この複雑なシステムでは, 完全地図, 検出, 追跡を前提に, キュレーションデータを用いて従来の予測手法の進歩がみられた。 しかし、このパラダイムは上流モジュールからのエラーを無視する。 一方、アーキテクチャの認識と予測を緊密に統合したエンドツーエンドパラダイムは、この問題を解決することを約束している。 しかし,2手法間の評価プロトコルは相容れないため,比較は不可能であった。 実際、おそらく意外なことに、従来の予測手法は通常、実世界のパイプライン(上流検出、追跡、マッピングモジュールなど)でトレーニングやテストが行われません。 本研究は,実世界の展開に予測モデルを近づけることを目的としている。 まず,実世界の知覚入力を用いた予測手法の統一評価パイプラインを提案し,従来の手法とエンドツーエンドの手法のパフォーマンスを初めて比較する。 第2に、我々の詳細な研究は、キュレートされたデータから知覚ベースのデータへ移行する際の大きなパフォーマンスギャップを明らかにする。 特に、このギャップ(1)は、精度の差だけでなく、知覚モジュールが提供する不完全な入力の性質にも起因しており、(2)単に知覚出力を微調整するだけで、自明に減少しないことを示す。 広範にわたる実験に基づき,実世界におけるより堅牢な動き予測に向けた改善とガイダンスを必要とする重要な領域を推奨する。 標準および実用条件下でモデルをベンチマークするための評価ライブラリをリリースする。

Motion forecasting is crucial in enabling autonomous vehicles to anticipate the future trajectories of surrounding agents. To do so, it requires solving mapping, detection, tracking, and then forecasting problems, in a multi-step pipeline. In this complex system, advances in conventional forecasting methods have been made using curated data, i.e., with the assumption of perfect maps, detection, and tracking. This paradigm, however, ignores any errors from upstream modules. Meanwhile, an emerging end-to-end paradigm, that tightly integrates the perception and forecasting architectures into joint training, promises to solve this issue. So far, however, the evaluation protocols between the two methods were incompatible and their comparison was not possible. In fact, and perhaps surprisingly, conventional forecasting methods are usually not trained nor tested in real-world pipelines (e.g., with upstream detection, tracking, and mapping modules). In this work, we aim to bring forecasting models closer to real-world deployment. First, we propose a unified evaluation pipeline for forecasting methods with real-world perception inputs, allowing us to compare the performance of conventional and end-to-end methods for the first time. Second, our in-depth study uncovers a substantial performance gap when transitioning from curated to perception-based data. In particular, we show that this gap (1) stems not only from differences in precision but also from the nature of imperfect inputs provided by perception modules, and that (2) is not trivially reduced by simply finetuning on perception outputs. Based on extensive experiments, we provide recommendations for critical areas that require improvement and guidance towards more robust motion forecasting in the real world. We will release an evaluation library to benchmark models under standardized and practical conditions.
翻訳日:2023-09-25 18:34:53 公開日:2023-09-22
# AVIS:大規模言語モデルエージェントによる自律的な視覚情報検索

AVIS: Autonomous Visual Information Seeking with Large Language Model Agent ( http://arxiv.org/abs/2306.08129v2 )

ライセンス: Link先を確認
Ziniu Hu, Ahmet Iscen, Chen Sun, Kai-Wei Chang, Yizhou Sun, David A Ross, Cordelia Schmid, Alireza Fathi(参考訳) 本稿では,視覚的質問応答フレームワークAVISを提案する。 提案手法は,外部ツールの利用を動的に階層化し,それらのアウトプットを調査するための大規模言語モデル(llm)を活用する。 外部の知識を必要とする視覚的な質問に対して,“このイメージに描かれた建物で記念されるイベント”というような質問は,複雑な作業である。 このタスクは、apiの起動、応答の分析、インフォームドな意思決定など、一連のアクションを必要とする組合せ検索スペースを提供する。 この課題に直面すると,人間の意思決定のさまざまな事例を収集するために,ユーザ調査を実施します。 このデータは、次に使用するツールを動的に決定するLLMベースのプランナ、ツール出力からキー情報を分析して抽出するLLMベースの推論器、取得した情報をプロセスを通して保持するワーキングメモリコンポーネントの3つのコンポーネントで構成されるシステムの設計に使用される。 収集したユーザの振る舞いは、2つの重要な方法でシステムのガイドとなります。 まず,ユーザによる意思決定の順序を解析し,遷移グラフを作成する。 このグラフは、異なる状態を示し、各状態で利用できる一連のアクションを限定する。 第2に、ユーザ意思決定の例を用いて、LLMを利用するプランナーと推論者に関連するコンテキストインスタンスを提供し、情報的な意思決定を行う能力を高める。 AVISは、InfoseekやOK-VQAなどの知識集約型視覚質問応答ベンチマークにおいて、最先端の結果が得られることを示す。

In this paper, we propose an autonomous information seeking visual question answering framework, AVIS. Our method leverages a Large Language Model (LLM) to dynamically strategize the utilization of external tools and to investigate their outputs, thereby acquiring the indispensable knowledge needed to provide answers to the posed questions. Responding to visual questions that necessitate external knowledge, such as "What event is commemorated by the building depicted in this image?", is a complex task. This task presents a combinatorial search space that demands a sequence of actions, including invoking APIs, analyzing their responses, and making informed decisions. We conduct a user study to collect a variety of instances of human decision-making when faced with this task. This data is then used to design a system comprised of three components: an LLM-powered planner that dynamically determines which tool to use next, an LLM-powered reasoner that analyzes and extracts key information from the tool outputs, and a working memory component that retains the acquired information throughout the process. The collected user behavior serves as a guide for our system in two key ways. First, we create a transition graph by analyzing the sequence of decisions made by users. This graph delineates distinct states and confines the set of actions available at each state. Second, we use examples of user decision-making to provide our LLM-powered planner and reasoner with relevant contextual instances, enhancing their capacity to make informed decisions. We show that AVIS achieves state-of-the-art results on knowledge-intensive visual question answering benchmarks such as Infoseek and OK-VQA.
翻訳日:2023-09-25 18:34:27 公開日:2023-09-22
# TopP&R: 生成モデルの忠実度と多様性を評価するロバスト支援推定手法

TopP&R: Robust Support Estimation Approach for Evaluating Fidelity and Diversity in Generative Models ( http://arxiv.org/abs/2306.08013v3 )

ライセンス: Link先を確認
Pum Jun Kim, Yoojin Jang, Jisu Kim, Jaejun Yoo(参考訳) 本稿では,厳密な支持推定のためのトポロジカルおよび統計的処理を導入することにより,生成モデルに対する堅牢で信頼性の高い評価指標を提案する。 inception score (is), frechet inception distance (fid), and the variants of precision and recall (p&r)といった既存のメトリクスは、サンプル機能から推定されるサポートに大きく依存している。 しかし、評価の質が全く依存しているにもかかわらず、それらの評価の信頼性は真剣に議論されていない(そして見落としている)。 本稿では,位相的および統計的に重要な特徴のみをある程度の信頼度で保持し,サポートを推定するための体系的アプローチとして,位相的精度とリコール(topp&r,「topper」と発音する)を提案する。 これにより、TopP&Rはノイズの多い機能に対して強固になるだけでなく、統計的一貫性も提供する。 理論および実験結果から,TopP&Rは試料の真の変化傾向を正確に把握しつつ,非独立かつ同一に分布する(Non-IID)摂動に対して堅牢であることが示された。 我々の知る限りでは、これはサポートの堅牢な見積もりに焦点を当てた最初の評価基準であり、ノイズ下での統計的一貫性を提供する。

We propose a robust and reliable evaluation metric for generative models by introducing topological and statistical treatments for rigorous support estimation. Existing metrics, such as Inception Score (IS), Frechet Inception Distance (FID), and the variants of Precision and Recall (P&R), heavily rely on supports that are estimated from sample features. However, the reliability of their estimation has not been seriously discussed (and overlooked) even though the quality of the evaluation entirely depends on it. In this paper, we propose Topological Precision and Recall (TopP&R, pronounced 'topper'), which provides a systematic approach to estimating supports, retaining only topologically and statistically important features with a certain level of confidence. This not only makes TopP&R strong for noisy features, but also provides statistical consistency. Our theoretical and experimental results show that TopP&R is robust to outliers and non-independent and identically distributed (Non-IID) perturbations, while accurately capturing the true trend of change in samples. To the best of our knowledge, this is the first evaluation metric focused on the robust estimation of the support and provides its statistical consistency under noise.
翻訳日:2023-09-25 18:33:59 公開日:2023-09-22
# 天文望遠鏡のための点拡散関数モデリング--弱い重力レンズ研究を中心に

Point spread function modelling for astronomical telescopes: a review focused on weak gravitational lensing studies ( http://arxiv.org/abs/2306.07996v3 )

ライセンス: Link先を確認
Tobias Liaudat and Jean-Luc Starck and Martin Kilbinger(参考訳) ポイントスプレッド関数(PSF)の正確なモデリングは、望遠鏡や大気による歪みやぼやけの補正を可能にするため、天文学的な観測において最も重要である。 PSFモデリングは天体の性質を正確に測定するために重要である。 この数十年で、望遠鏡や機器のパワーと複雑さが着実に向上しました。 ユークリッドやLSSTのような今後の銀河探査では、前例のない量のデータと質が観測される。 これらの新しい施設と調査のためにPSFをモデル化するには、常に厳格なエラー要求に対応する新しいモデリング技術が必要である。 このレビューの目的は3つある。 まず,より物理的に動機づけられたpsfモデリングに必要な光学的背景を紹介するとともに,今後の展開のために再利用可能な観測モデルを提案する。 第2に,視・検出器レベルの貢献者と雰囲気を含むpsfのさまざまな物理的貢献者の概要について述べる。 概観は、モデル化された効果をよりよく理解するのに役立つと期待している。 第3に、地上及び宇宙望遠鏡のパラメトリックおよび非パラメトリックファミリーとpsfモデリングの異なる方法について、その利点と限界について論じる。 その後、PSFモデルの検証手法に対処し、弱レンズ化研究に関連するいくつかの指標を詳細に論じる。 最後に,天文望遠鏡のpsfモデリングにおける課題と今後の方向性について考察する。

The accurate modelling of the Point Spread Function (PSF) is of paramount importance in astronomical observations, as it allows for the correction of distortions and blurring caused by the telescope and atmosphere. PSF modelling is crucial for accurately measuring celestial objects' properties. The last decades brought us a steady increase in the power and complexity of astronomical telescopes and instruments. Upcoming galaxy surveys like Euclid and LSST will observe an unprecedented amount and quality of data. Modelling the PSF for these new facilities and surveys requires novel modelling techniques that can cope with the ever-tightening error requirements. The purpose of this review is three-fold. First, we introduce the optical background required for a more physically-motivated PSF modelling and propose an observational model that can be reused for future developments. Second, we provide an overview of the different physical contributors of the PSF, including the optic- and detector-level contributors and the atmosphere. We expect that the overview will help better understand the modelled effects. Third, we discuss the different methods for PSF modelling from the parametric and non-parametric families for ground- and space-based telescopes, with their advantages and limitations. Validation methods for PSF models are then addressed, with several metrics related to weak lensing studies discussed in detail. Finally, we explore current challenges and future directions in PSF modelling for astronomical telescopes.
翻訳日:2023-09-25 18:33:35 公開日:2023-09-22
# 光ツイーザーアレイにおける単一ジスプロシウム原子の追跡とイメージング

Trapping and imaging single dysprosium atoms in optical tweezer arrays ( http://arxiv.org/abs/2307.04689v2 )

ライセンス: Link先を確認
Damien Bloch, Britton Hofer, Sam R. Cohen, Antoine Browaeys, Igor Ferrier-Barbut(参考訳) 626nmの結合線上に532nmの波長の光学トワイザーを配置し,ダイスプロシウムの単一原子の合成と観察を行った。 我々は、ランタニド特有の異方性光シフト、特に、地表面と励起状態のテンソルとベクトル偏光率の大きな差を用いて、微分光シフトを調整し、ニアマグニックまたはマジック偏光におけるツイーザを生成する。 これにより、単一の原子が生成され、画像化できる体制を見つけることができる。 tweezer配列ツールボックスを使ってランタンを操作すれば、その豊富なスペクトル、大きなスピン、磁気双極子モーメントを利用して量子物理学研究の新しい研究方向を開くことができる。

We report the preparation and observation of single atoms of dysprosium in arrays of optical tweezers with a wavelength of 532 nm imaged on the intercombination line at 626 nm. We use the anisotropic light shift specific to lanthanides and in particular a large difference in tensor and vector polarizabilities between the ground and excited states to tune the differential light shift and produce tweezers in near-magic or magic polarization. This allows us to find a regime where single atoms can be produced and imaged. Using the tweezer array toolbox to manipulate lanthanides will open new research directions for quantum physics studies by taking advantage of their rich spectrum, large spin and magnetic dipole moment.
翻訳日:2023-09-25 18:24:37 公開日:2023-09-22
# MiVOLO: 年齢・性別推定用マルチ入力変換器

MiVOLO: Multi-input Transformer for Age and Gender Estimation ( http://arxiv.org/abs/2307.04616v2 )

ライセンス: Link先を確認
Maksim Kuprashevich and Irina Tolstykh(参考訳) 年齢と性別の認識は極めて困難な課題であり、条件の多様性、複雑なポーズ、画像の質の変化とは別に、顔が部分的にあるいは完全に隠されているケースもある。 最新の視覚変換器を用いた年齢・性別推定法であるMiVOLO(Multi Input VOLO)を提案する。 本手法は, 顔情報だけでなく, 人物画像データも活用し, 両タスクを統一的な入出力モデルに統合する。 これにより、画像に顔が見えない場合でも、モデルの一般化能力が向上し、良好な結果が得られる。 提案モデルを評価するために,4つのベンチマーク実験を行い,実時間処理性能を実証した。 さらに,open imagesデータセットの画像に基づく新しいベンチマークも導入する。 このベンチマークの根拠となる真理アノテーションは、人間のアノテーションによって慎重に生成され、投票のスマートアグリゲーションによって高い精度の回答が得られた。 さらに,本モデルにおける年齢認識性能と人間レベルの精度を比較し,大半が人間よりも優れていたことを示す。 最後に、バリデーションと推論のためのコードとともに、モデルへのパブリックアクセスを許可します。 さらに、使用済みデータセットに追加のアノテーションを提供し、新しいベンチマークを紹介します。

Age and gender recognition in the wild is a highly challenging task: apart from the variability of conditions, pose complexities, and varying image quality, there are cases where the face is partially or completely occluded. We present MiVOLO (Multi Input VOLO), a straightforward approach for age and gender estimation using the latest vision transformer. Our method integrates both tasks into a unified dual input/output model, leveraging not only facial information but also person image data. This improves the generalization ability of our model and enables it to deliver satisfactory results even when the face is not visible in the image. To evaluate our proposed model, we conduct experiments on four popular benchmarks and achieve state-of-the-art performance, while demonstrating real-time processing capabilities. Additionally, we introduce a novel benchmark based on images from the Open Images Dataset. The ground truth annotations for this benchmark have been meticulously generated by human annotators, resulting in high accuracy answers due to the smart aggregation of votes. Furthermore, we compare our model's age recognition performance with human-level accuracy and demonstrate that it significantly outperforms humans across a majority of age ranges. Finally, we grant public access to our models, along with the code for validation and inference. In addition, we provide extra annotations for used datasets and introduce our new benchmark.
翻訳日:2023-09-25 18:24:24 公開日:2023-09-22
# 六方晶窒化ホウ素のホウ素空孔量子センサに対する窒素同位体効果

Nitrogen isotope effects on boron vacancy quantum sensors in hexagonal boron nitride ( http://arxiv.org/abs/2307.04476v3 )

ライセンス: Link先を確認
Kento Sasaki, Takashi Taniguchi, Kensuke Kobayashi(参考訳) 量子技術のための六方晶窒化ホウ素(hbn)の研究への関心が高まっている。 本研究では, 量子センサの候補であるホウ素空孔(v$_\text{b}$)欠陥に対する窒素同位体効果を, メタセシス反応を用いて合成した^<15}$n同位体濃縮hbnを用いて検討した。 ラマンシフトは還元質量でスケールされ、ホウ素同位体の濃縮に関する以前の研究と一致する。 我々は,v$_\text{b}$欠陥の窒素同位体組成依存性磁気共鳴スペクトルを求め,$^{15}$nスピンの超微細構造相互作用パラメータの大きさを64mhzとする。 量子センシングのためのhBNの設計方針について検討する。

There has been growing interest in studying hexagonal boron nitride (hBN) for quantum technologies. Here, we investigate nitrogen isotope effects on boron vacancy (V$_\text{B}$) defects, one of the candidates for quantum sensors, in $^{15}$N isotopically enriched hBN synthesized using a metathesis reaction. The Raman shifts are scaled with the reduced mass, consistent with previous work on boron isotope enrichment. We obtain nitrogen isotopic composition-dependent magnetic resonance spectra of V$_\text{B}$ defects and determine the magnitude of the hyperfine interaction parameter of $^{15}$N spin to be 64 MHz. Our investigation provides a design policy for hBNs for quantum sensing.
翻訳日:2023-09-25 18:24:03 公開日:2023-09-22
# 大規模言語モデルの時代に忘れられる権利:含意、課題、解決策

Right to be Forgotten in the Era of Large Language Models: Implications, Challenges, and Solutions ( http://arxiv.org/abs/2307.03941v3 )

ライセンス: Link先を確認
Dawen Zhang, Pamela Finckenberg-Broman, Thong Hoang, Shidong Pan, Zhenchang Xing, Mark Staples, Xiwei Xu(参考訳) 忘れられる権利(rtbf)は、google spain sl、google inc. v aepd、mario costeja gonz\'alezの裁定によって最初に確立され、後に欧州連合の一般データ保護規則(gdpr)の下で消去する権利として含まれ、個人が個人に個人データを削除する権利が組織によって削除された。 特に検索エンジンに関しては,個人がクエリ結果から情報を除外するための要求を組織に送信することができる。 それは技術の進化の結果、重要な創発的な権利であった。 近年,Large Language Models (LLM) が開発され,チャットボットでの利用により,LLM対応ソフトウェアシステムが普及している。 しかし、RTBFから除外されることはない。 検索エンジンが使用するインデックス化手法と比較して、LLMは情報を全く異なる方法で保存し処理する。 これはRTBFへの準拠に新たな課題をもたらす。 本稿では,これらの課題を考察し,差分プライバシー,機械学習,モデル編集,プロンプトエンジニアリングなど,rtbfの技術的ソリューションの実装方法について考察する。 aiの急速な進歩と、この強力な技術を制御する必要性の増加により、rtbfの事例から学ぶことは、技術実務家、法律専門家、組織、当局にとって貴重な教訓となる。

The Right to be Forgotten (RTBF) was first established as the result of the ruling of Google Spain SL, Google Inc. v AEPD, Mario Costeja Gonz\'alez, and was later included as the Right to Erasure under the General Data Protection Regulation (GDPR) of European Union to allow individuals the right to request personal data be deleted by organizations. Specifically for search engines, individuals can send requests to organizations to exclude their information from the query results. It was a significant emergent right as the result of the evolution of technology. With the recent development of Large Language Models (LLMs) and their use in chatbots, LLM-enabled software systems have become popular. But they are not excluded from the RTBF. Compared with the indexing approach used by search engines, LLMs store, and process information in a completely different way. This poses new challenges for compliance with the RTBF. In this paper, we explore these challenges and provide our insights on how to implement technical solutions for the RTBF, including the use of differential privacy, machine unlearning, model editing, and prompt engineering. With the rapid advancement of AI and the increasing need of regulating this powerful technology, learning from the case of RTBF can provide valuable lessons for technical practitioners, legal experts, organizations, and authorities.
翻訳日:2023-09-25 18:23:48 公開日:2023-09-22
# FITS: 10k$パラメータによる時系列モデリング

FITS: Modeling Time Series with $10k$ Parameters ( http://arxiv.org/abs/2307.03756v2 )

ライセンス: Link先を確認
Zhijian Xu, Ailing Zeng, Qiang Xu(参考訳) 本稿では,時系列解析のための軽量かつ強力なモデルであるFITSを紹介する。 生の時間領域データを直接処理する既存のモデルとは異なり、FITSは複雑な周波数領域の補間によって時系列を操作できるという原理に基づいている。 時系列データにほとんど影響を与えない高周波成分を廃棄することにより、FITSは、約10k$のパラメータしか持たず、時系列予測や異常検出タスクの最先端モデルに匹敵する性能を達成する。 このような軽量なモデルは、簡単にトレーニングしてエッジデバイスにデプロイでき、さまざまなアプリケーションのための機会を生み出します。 匿名のコードリポジトリは以下の通りである。

In this paper, we introduce FITS, a lightweight yet powerful model for time series analysis. Unlike existing models that directly process raw time-domain data, FITS operates on the principle that time series can be manipulated through interpolation in the complex frequency domain. By discarding high-frequency components with negligible impact on time series data, FITS achieves performance comparable to state-of-the-art models for time series forecasting and anomaly detection tasks, while having a remarkably compact size of only approximately $10k$ parameters. Such a lightweight model can be easily trained and deployed in edge devices, creating opportunities for various applications. The anonymous code repo is available in: \url{https://anonymous.4open.science/r/FITS}
翻訳日:2023-09-25 18:23:24 公開日:2023-09-22
# 弾性決定変換器

Elastic Decision Transformer ( http://arxiv.org/abs/2307.02484v3 )

ライセンス: Link先を確認
Yueh-Hua Wu, Xiaolong Wang, Masashi Hamaya(参考訳) 本稿では,既存のDecision Transformer(DT)とその変種に対する大幅な進歩であるElastic Decision Transformer(EDT)を紹介する。 dtは最適軌道を生成することを主張するが、実験的な証拠は軌道縫いに苦しむことを示唆しており、これは一連の準最適軌道の最良の部分から最適軌道または至近軌道を生成する過程である。 提案するEMTは,DTに保持される履歴長を調整することにより,試験時間における動作推論時の軌跡縫合を容易にすることで,自分自身を識別する。 さらに、edtは、前回の軌道が最適であるときに長い履歴を保持し、副最適である場合にはより短い履歴を保持して軌道を最適化し、より最適な軌道で「固定」することができる。 広範な実験は、dtベースとqベースのアプローチのパフォーマンスギャップを橋渡しできるedtの能力を示している。 特に、EDTは、D4RLのローコモーションベンチマークとAtariゲームでマルチタスク方式でQ Learningベースの手法より優れている。 ビデオは、https://kristery.github.io/edt/で公開されている。

This paper introduces Elastic Decision Transformer (EDT), a significant advancement over the existing Decision Transformer (DT) and its variants. Although DT purports to generate an optimal trajectory, empirical evidence suggests it struggles with trajectory stitching, a process involving the generation of an optimal or near-optimal trajectory from the best parts of a set of sub-optimal trajectories. The proposed EDT differentiates itself by facilitating trajectory stitching during action inference at test time, achieved by adjusting the history length maintained in DT. Further, the EDT optimizes the trajectory by retaining a longer history when the previous trajectory is optimal and a shorter one when it is sub-optimal, enabling it to "stitch" with a more optimal trajectory. Extensive experimentation demonstrates EDT's ability to bridge the performance gap between DT-based and Q Learning-based approaches. In particular, the EDT outperforms Q Learning-based methods in a multi-task regime on the D4RL locomotion benchmark and Atari games. Videos are available at: https://kristery.github.io/edt/
翻訳日:2023-09-25 18:23:12 公開日:2023-09-22
# 医療研究における反現実的説明の爆発的展開

Beyond Known Reality: Exploiting Counterfactual Explanations for Medical Research ( http://arxiv.org/abs/2307.02131v4 )

ライセンス: Link先を確認
Toygar Tanyel, Serkan Ayvaz and Bilgin Keserci(参考訳) 人工知能(ai)における説明可能性の分野は、多くの研究と学術的関心の高まりを目の当たりにしている。 しかし、機械学習アルゴリズムの結果を説明する上での人間にやさしい個人的解釈の欠如は、臨床医による研究や臨床実践におけるこれらの方法の受容を著しく妨げている。 そこで本研究では, 医学研究における「もし」のシナリオを考察し, 小児後頭葉腫瘍の診断におけるMRI(MRI)の既存の領域を超えて, 理解を深めることを目的としている。 本ケーススタディにおいて,提案手法は,多様な状況下での予測の検証と変動の明確化を可能にする,パーソナライズ・コンテキスト固有の洞察を提供する代替意思決定シナリオを検討する新しい方法を提供する。 さらに,データ拡張のための偽物の利用の可能性について検討し,医療研究における代替的アプローチとしてその実現可能性を評価する。 その結果, 臨床研究におけるAI駆動手法の信頼と受容を高めるために, 反事実的説明を用いることが期待できる可能性が示された。

The field of explainability in artificial intelligence (AI) has witnessed a growing number of studies and increasing scholarly interest. However, the lack of human-friendly and individual interpretations in explaining the outcomes of machine learning algorithms has significantly hindered the acceptance of these methods by clinicians in their research and clinical practice. To address this, our study employs counterfactual explanations to explore "what if?" scenarios in medical research, aiming to expand our understanding beyond existing boundaries on magnetic resonance imaging (MRI) features for diagnosing pediatric posterior fossa brain tumors. In our case study, the proposed concept provides a novel way to examine alternative decision-making scenarios that offer personalized and context-specific insights, enabling the validation of predictions and clarification of variations under diverse circumstances. Additionally, we explore the potential use of counterfactuals for data augmentation and evaluate their feasibility as an alternative approach in our medical research case. The results demonstrate the promising potential of using counterfactual explanations to enhance trust and acceptance of AI-driven methods in clinical research.
翻訳日:2023-09-25 18:22:54 公開日:2023-09-22
# クロスウェイ拡散:自己教師型学習による拡散に基づくビジュモータ政策の改善

Crossway Diffusion: Improving Diffusion-based Visuomotor Policy via Self-supervised Learning ( http://arxiv.org/abs/2307.01849v2 )

ライセンス: Link先を確認
Xiang Li, Varun Belagali, Jinghuan Shang, Michael S. Ryoo(参考訳) シーケンスモデリングアプローチはロボット模倣学習において有望な結果を示している。 近年,複雑なデータ分布をモデル化する能力に特有な利点を生かして,行動のクローニングに拡散モデルが採用されている。 標準拡散ベースのポリシーは、入力状態に条件付けられたランダムノイズからアクションシーケンスを反復的に生成する。 それでも、拡散政策のモデルは、視覚的表現の観点からさらに改善することができる。 本研究では,注意深い状態デコーダと補助的自己教師付き学習(ssl)目標を用いて,拡散に基づくバイスモータポリシー学習を強化するための簡易かつ効果的な手法であるcrossway diffusionを提案する。 状態復号器は、逆拡散過程の中間表現から原画像画素その他の状態情報を再構成する。 モデル全体がSSL目標と元の拡散損失によって共同で最適化される。 シミュレーションおよび実世界のロボットタスクにおけるクロスウェイ拡散の有効性を実証し、標準拡散に基づくポリシーに対する一貫した優位性を確認し、ベースラインよりも大幅に改善した。

Sequence modeling approaches have shown promising results in robot imitation learning. Recently, diffusion models have been adopted for behavioral cloning in a sequence modeling fashion, benefiting from their exceptional capabilities in modeling complex data distributions. The standard diffusion-based policy iteratively generates action sequences from random noise conditioned on the input states. Nonetheless, the model for diffusion policy can be further improved in terms of visual representations. In this work, we propose Crossway Diffusion, a simple yet effective method to enhance diffusion-based visuomotor policy learning via a carefully designed state decoder and an auxiliary self-supervised learning (SSL) objective. The state decoder reconstructs raw image pixels and other state information from the intermediate representations of the reverse diffusion process. The whole model is jointly optimized by the SSL objective and the original diffusion loss. Our experiments demonstrate the effectiveness of Crossway Diffusion in various simulated and real-world robot tasks, confirming its consistent advantages over the standard diffusion-based policy and substantial improvements over the baselines.
翻訳日:2023-09-25 18:22:35 公開日:2023-09-22
# バイアス緩和:モデル説明の改善による画像分類の強化

Mitigating Bias: Enhancing Image Classification by Improving Model Explanations ( http://arxiv.org/abs/2307.01473v3 )

ライセンス: Link先を確認
Raha Ahmadi, Mohammad Javad Rajabi, Mohammad Khalooie, Mohammad Sabokrou(参考訳) ディープラーニングモデルは、トレーニングデータから複雑なパターンや概念を学ぶ際、顕著な能力を示した。 しかし、近年の研究では、これらのモデルは画像の背景に存在する単純で容易に識別できる特徴に大きく依存する傾向にあることが示されている。 この現象は、画像への関心の重要要素が隠蔽される可能性があるため、画像分類器に挑戦する。 本稿では,この問題に対処する新しいアプローチを提案し,画像分類器による主概念の学習を改善する。 我々の中心的な考え方は、分類作業中にモデルがフォアグラウンドに注意を向けるのを同時に導くことを中心に展開する。 関心の主対象をカプセル化した前景を強調することで,背景の優越的な影響からモデルの焦点を逸脱させることを目指している。 これを実現するために、モデルに十分な注意を前景に割り当てるよう促すメカニズムを導入する。 損失関数の変更や追加のアーキテクチャコンポーネントの導入など,さまざまな戦略を検討し,画像内の主概念を効果的に把握できるようにする。 さらに,様々な注意機構がモデル性能に与える影響について検討し,その効果について考察する。 ベンチマークデータセットの広範な実験を通じて,画像分類器の分類精度を向上させるための提案手法の有効性を実証する。 本研究は,画像内の主概念の理解と表現における前景的注意の重要性を浮き彫りにしたものである。 本研究は,画像分類分野の進展に寄与し,より堅牢で正確なディープラーニングモデルの開発に有用な知見を提供する。

Deep learning models have demonstrated remarkable capabilities in learning complex patterns and concepts from training data. However, recent findings indicate that these models tend to rely heavily on simple and easily discernible features present in the background of images rather than the main concepts or objects they are intended to classify. This phenomenon poses a challenge to image classifiers as the crucial elements of interest in images may be overshadowed. In this paper, we propose a novel approach to address this issue and improve the learning of main concepts by image classifiers. Our central idea revolves around concurrently guiding the model's attention toward the foreground during the classification task. By emphasizing the foreground, which encapsulates the primary objects of interest, we aim to shift the focus of the model away from the dominant influence of the background. To accomplish this, we introduce a mechanism that encourages the model to allocate sufficient attention to the foreground. We investigate various strategies, including modifying the loss function or incorporating additional architectural components, to enable the classifier to effectively capture the primary concept within an image. Additionally, we explore the impact of different foreground attention mechanisms on model performance and provide insights into their effectiveness. Through extensive experimentation on benchmark datasets, we demonstrate the efficacy of our proposed approach in improving the classification accuracy of image classifiers. Our findings highlight the importance of foreground attention in enhancing model understanding and representation of the main concepts within images. The results of this study contribute to advancing the field of image classification and provide valuable insights for developing more robust and accurate deep-learning models.
翻訳日:2023-09-25 18:22:16 公開日:2023-09-22
# マイクロエージェント強化学習における創発的戦略に対する環境効果

Environmental effects on emergent strategy in micro-scale multi-agent reinforcement learning ( http://arxiv.org/abs/2307.00994v2 )

ライセンス: Link先を確認
Samuel Tovey, David Zimmer, Christoph Lohrmann, Tobias Merkt, Simon Koppenhoefer, Veit-Lorenz Heuthe, Clemens Bechinger, Christian Holm(参考訳) MARL(Multi-Agent Reinforcement Learning)は、マイクロロボットがサブセットである微粒子の効率的な制御を実現するための候補である。 しかし、微視的な粒子の環境は、ブラウン運動のような十分に小さなスケールでの独特の課題を呈している。 本研究では,マイクロスケール環境の現実的表現として粒子ベースランゲヴィン分子動力学シミュレーションを用いて,MARLシステムにおける戦略の出現と有効性における温度の役割について検討する。 この目的のために,異なる温度の微視的環境下で2つの異なるマルチエージェントタスクを実験し,棒の濃度勾配と回転の源を検出する。 高い温度では、RLエージェントはこれらのタスクを達成するための新しい戦略を特定し、この体制を理解することの重要性を強調し、シミュレーションと現実の間の一般化ギャップを埋めるための最適なトレーニング戦略についての洞察を提供する。 また, 補強学習(RL)を用いて顕微鏡エージェントを研究するための新しいPythonパッケージも紹介した。

Multi-Agent Reinforcement Learning (MARL) is a promising candidate for realizing efficient control of microscopic particles, of which micro-robots are a subset. However, the microscopic particles' environment presents unique challenges, such as Brownian motion at sufficiently small length-scales. In this work, we explore the role of temperature in the emergence and efficacy of strategies in MARL systems using particle-based Langevin molecular dynamics simulations as a realistic representation of micro-scale environments. To this end, we perform experiments on two different multi-agent tasks in microscopic environments at different temperatures, detecting the source of a concentration gradient and rotation of a rod. We find that at higher temperatures, the RL agents identify new strategies for achieving these tasks, highlighting the importance of understanding this regime and providing insight into optimal training strategies for bridging the generalization gap between simulation and reality. We also introduce a novel Python package for studying microscopic agents using reinforcement learning (RL) to accompany our results.
翻訳日:2023-09-25 18:21:52 公開日:2023-09-22
# ctp:非感染性疾患進行予測のための因果解釈モデル

CTP:A Causal Interpretable Model for Non-Communicable Disease Progression Prediction ( http://arxiv.org/abs/2308.09735v2 )

ライセンス: Link先を確認
Zhoujian Sun, Wenzhuo Zhang, Zhengxing Huang, Nai Ding, Cheng Luo(参考訳) 非感染性疾患は死因の主要な原因であり、疾患の進行の正確な予測の必要性を強調し、臨床的な意思決定を知らせる。 機械学習(ML)モデルは、患者機能内の非線形パターンをキャプチャすることで、この領域で有望であることを示している。 しかし、既存のMLベースのモデルは因果的解釈可能な予測や治療効果を予測できないため、意思決定の視点は制限される。 本研究では,この限界に対応するために,因果軌道予測(CTP)と呼ばれる新しいモデルを提案する。 CTPモデルは、軌跡予測と因果発見を組み合わせて、疾患進行軌跡の正確な予測を可能にし、特徴間の因果関係を明らかにする。 因果グラフを予測プロセスに組み込むことで、CTPは祖先の特徴が子孫の特徴の扱いに影響されないことを保証し、モデルの解釈可能性を高める。 治療効果の限界を推定することにより、測定されていない共同創設者の存在下においても、CTPは臨床的意思決定に有用な洞察を提供する。 シミュレーションと実際の医療データを用いてctpの性能を評価する。 実験の結果,本モデルは良好な成績を得られ,臨床判断支援の可能性を強調した。 ソースコードは \href{https://github.com/DanielSun94/CFPA}{here} にある。

Non-communicable disease is the leading cause of death, emphasizing the need for accurate prediction of disease progression and informed clinical decision-making. Machine learning (ML) models have shown promise in this domain by capturing non-linear patterns within patient features. However, existing ML-based models cannot provide causal interpretable predictions and estimate treatment effects, limiting their decision-making perspective. In this study, we propose a novel model called causal trajectory prediction (CTP) to tackle the limitation. The CTP model combines trajectory prediction and causal discovery to enable accurate prediction of disease progression trajectories and uncover causal relationships between features. By incorporating a causal graph into the prediction process, CTP ensures that ancestor features are not influenced by the treatment of descendant features, thereby enhancing the interpretability of the model. By estimating the bounds of treatment effects, even in the presence of unmeasured confounders, the CTP provides valuable insights for clinical decision-making. We evaluate the performance of the CTP using simulated and real medical datasets. Experimental results demonstrate that our model achieves satisfactory performance, highlighting its potential to assist clinical decisions. Source code is in \href{https://github.com/DanielSun94/CFPA}{here}.
翻訳日:2023-09-25 18:16:26 公開日:2023-09-22
# 視覚言語モデルを用いた医用画像分割における転送学習の検討

Exploring Transfer Learning in Medical Image Segmentation using Vision-Language Models ( http://arxiv.org/abs/2308.07706v2 )

ライセンス: Link先を確認
Kanchan Poudel, Manish Dhakal, Prasiddha Bhandari, Rabin Adhikari, Safal Thapaliya, Bishesh Khanal(参考訳) 医学的画像分割とディープラーニングは, 診断, 予後, 手術計画, 理解に役立つ対象組織の大きさと形状の定量化を可能にするため, 重要かつ広く研究されている。 VLMとVLSMの自然な画像におけるセグメンテーションタスクへの適応は、入力として言語プロンプトを介して有用な情報を提供することのできる、潜在的に強力なセグメンテーションモデルの構築、プール化されたデータセットトレーニングによる他の医療画像データセットの広範囲の活用、新しいクラスへの適応、推論中の人間-イン・ループのプロンプトによるアウト・オブ・ディストリビューションデータに対する堅牢性、というユニークな機会を開いた。 画像のみのセグメンテーションモデルのための自然画像から医用画像へのトランスファー学習は研究されているが、セグメンテーション問題における視覚言語と医用画像の同時表現についての分析や、その潜在能力の活用におけるギャップの理解は行われていない。 本稿では,14の属性から9種類の言語プロンプトを注意深く提示した,既存の2次元医用画像データセット11点について,vlsmsの2次元医用画像への転送学習に関する最初のベンチマーク研究を行う。 以上の結果から,自然画像テキストペアで訓練されたvlsmsは,非放射線写真モダリティに対して適切に促された場合,ゼロショット設定で医療領域に合理的に転送されることが示唆された。 しかし、微調整中の言語プロンプトの付加的なメリットは制限され、画像機能はより支配的な役割を果たす。それらは、多様なモダリティを結合したプールデータセットのトレーニングをよりうまく処理することができ、従来のセグメンテーションモデルよりもドメインシフトに堅牢になる可能性がある。

Medical image segmentation with deep learning is an important and widely studied topic because segmentation enables quantifying target structure size and shape that can help in disease diagnosis, prognosis, surgery planning, and understanding. Recent advances in the foundation VLMs and their adaptation to segmentation tasks in natural images with VLSMs have opened up a unique opportunity to build potentially powerful segmentation models for medical images that enable providing helpful information via language prompt as input, leverage the extensive range of other medical imaging datasets by pooled dataset training, adapt to new classes, and be robust against out-of-distribution data with human-in-the-loop prompting during inference. Although transfer learning from natural to medical images for image-only segmentation models has been studied, no studies have analyzed how the joint representation of vision-language transfers to medical images in segmentation problems and understand gaps in leveraging their full potential. We present the first benchmark study on transfer learning of VLSMs to 2D medical images with thoughtfully collected 11 existing 2D medical image datasets of diverse modalities with carefully presented 9 types of language prompts from 14 attributes. Our results indicate that VLSMs trained in natural image-text pairs transfer reasonably to the medical domain in zero-shot settings when prompted appropriately for non-radiology photographic modalities; when finetuned, they obtain comparable performance to conventional architectures, even in X-rays and ultrasound modalities. However, the additional benefit of language prompts during finetuning may be limited, with image features playing a more dominant role; they can better handle training on pooled datasets combining diverse modalities and are potentially more robust to domain shift than the conventional segmentation models.
翻訳日:2023-09-25 18:15:46 公開日:2023-09-22
# FocusFlow: 自律運転のためのキーポイント光フロー推定の強化

FocusFlow: Boosting Key-Points Optical Flow Estimation for Autonomous Driving ( http://arxiv.org/abs/2308.07104v2 )

ライセンス: Link先を確認
Zhonghua Yi, Hao Shi, Kailun Yang, Qi Jiang, Yaozu Ye, Ze Wang, Huajian Ni, Kaiwei Wang(参考訳) キーポイントに基づくシーン理解は、自動運転アプリケーションの基本である。 同時に、光学フローは多くの視覚タスクにおいて重要な役割を果たす。 しかしながら、全ての点に等しく注目される暗黙のバイアスのため、古典的なデータ駆動光フロー推定手法はキーポイントにおける満足度の低い性能をもたらし、キーポイントクリティカルな安全関連シナリオの実装を制限する。 そこで本研究では,キーポイント関係の事前学習をモデルに要求するポイントベースモデリング手法を提案する。 モデリング手法に基づいて,FocusFlowというフレームワークを提案する。 1) 古典的測光損失関数と組み合わされた混合損失関数と,提案する条件点制御損失(cpcl)関数は,多様である。 2) 提案する条件制御エンコーダ(cce)により従来の特徴エンコーダを置き換える条件付き制御モデルを提案する。 CCEにはフレームから特徴を抽出するフレーム特徴エンコーダ(FFE)、キーポイントの情報を含む入力マスクからFFEの特徴抽出動作を制御することを学ぶ条件特徴エンコーダ(CFE)、FFEとCFEの間で制御情報を転送する融合モジュールが含まれている。 当社のfocusflowフレームワークは,orbやsift,さらには学習ベースのシルクなど,さまざまなポイントで最大44.5%の精度向上と,pwc-netやraft,flowformerといった既存のデータ駆動型光フローメソッドの例外的なスケーラビリティを実現しています。 特に、FocusFlowは、フレーム全体のオリジナルのモデルに匹敵する競争力または優れたパフォーマンスを得る。 ソースコードはhttps://github.com/ZhonghuaYi/FocusFlow_officialで入手できる。

Key-point-based scene understanding is fundamental for autonomous driving applications. At the same time, optical flow plays an important role in many vision tasks. However, due to the implicit bias of equal attention on all points, classic data-driven optical flow estimation methods yield less satisfactory performance on key points, limiting their implementations in key-point-critical safety-relevant scenarios. To address these issues, we introduce a points-based modeling method that requires the model to learn key-point-related priors explicitly. Based on the modeling method, we present FocusFlow, a framework consisting of 1) a mix loss function combined with a classic photometric loss function and our proposed Conditional Point Control Loss (CPCL) function for diverse point-wise supervision; 2) a conditioned controlling model which substitutes the conventional feature encoder by our proposed Condition Control Encoder (CCE). CCE incorporates a Frame Feature Encoder (FFE) that extracts features from frames, a Condition Feature Encoder (CFE) that learns to control the feature extraction behavior of FFE from input masks containing information of key points, and fusion modules that transfer the controlling information between FFE and CFE. Our FocusFlow framework shows outstanding performance with up to +44.5% precision improvement on various key points such as ORB, SIFT, and even learning-based SiLK, along with exceptional scalability for most existing data-driven optical flow methods like PWC-Net, RAFT, and FlowFormer. Notably, FocusFlow yields competitive or superior performances rivaling the original models on the whole frame. The source code will be available at https://github.com/ZhonghuaYi/FocusFlow_official.
翻訳日:2023-09-25 18:15:06 公開日:2023-09-22
# 動的量子相転移のための直交カタストロフィと量子速度制限

Orthogonality catastrophe and quantum speed limit for dynamical quantum phase transition ( http://arxiv.org/abs/2308.04686v2 )

ライセンス: Link先を確認
Zheng-Rong Zhu, Bin Shao, Jian Zou, Lian-Ao Wu(参考訳) 動的量子相転移のcreutzモデルにおける直交性カタストロフィーと量子速度限界について検討する。 我々は、特定の離散値に対して、ロシミットエコーの正確な零点が有限サイズ系に存在することを示した。 臨界点近傍のクエンチ力学解析におけるゼロエネルギーモードの役割を強調した。 また,Loschmidtエコーの第1完全零点の時間挙動と,システムサイズが大きくなるにつれて対応する量子速度制限時間についても検討する。 境界はタイトではないが、バンドギャップのスケーリング特性とシステムサイズに対するエネルギー分散に起因する可能性がある。 したがって、直交カタストロフィと量子速度制限の関係は、ロスキミットエコーの全形式を参照することによって確立される。 重要なこととして、静量子相転移の臨界点を検出するために量子速度制限を用いることと、ノイズ誘起量子速度制限の振幅の低下が考えられる。

We investigate the orthogonality catastrophe and quantum speed limit in the Creutz model for dynamical quantum phase transitions. We demonstrate that exact zeros of the Loschmidt echo can exist in finite-size systems for specific discrete values. We highlight the role of the zero-energy mode when analyzing quench dynamics near the critical point. We also examine the behavior of the time for the first exact zeros of the Loschmidt echo and the corresponding quantum speed limit time as the system size increases. While the bound is not tight, it can be attributed to the scaling properties of the band gap and energy variance with respect to system size. As such, we establish a relation between the orthogonality catastrophe and quantum speed limit by referencing the full form of the Loschmidt echo. Significantly, we find the possibility of using the quantum speed limit to detect the critical point of a static quantum phase transition, along with a decrease in the amplitude of noise induced quantum speed limit.
翻訳日:2023-09-25 18:14:35 公開日:2023-09-22
# 持続可能な開発指向型キャンパス自転車共有サイト評価モデル:ヘナン工科大学を事例として

Sustainable development-oriented campus bike-sharing site evaluation model: A case study of Henan Polytechnic University ( http://arxiv.org/abs/2308.04454v3 )

ライセンス: Link先を確認
Huimin Qi, Xianghong Li, Kai Yin, Xiangnan Song, Xufei Fang(参考訳) 持続可能な輸送手段の推進は、環境にやさしく効率的なキャンパス移動システムの追求においてますます重要になっている。 これらの選択肢の中で、自転車共有プログラムは交通渋滞を緩和し、二酸化炭素排出量を削減し、キャンパス全体の持続可能性を高める能力にかなりの注意を払っている。 しかし、自転車共有サイトの不適切な選択は、無秩序な駐車や自転車共有の無差別な配置など、キャンパスにおける持続不可能な慣行の問題を増大させている。 そこで本研究では,改良型Delphiとファジィ総合評価手法を統合した,持続可能な開発指向型自転車共有サイト評価モデルを提案する。 14の評価指標をまず4次元から選択し, 専門家経験とデルファイ法の改良により, パーキングスポットのユーザ特性, 利用特性, 環境持続可能性, 社会持続可能性について検討した。 次に, 分析階層法とエントロピー重み法を用いて, 評価指標の重み付けを決定し, 頑健で客観的な評価枠組みを確立する。 最後に, ファジィ包括的評価手法を実装し, 位置選択の質評価を行った。 提案する評価システムを用いたケーススタディとして,河南工科大学南キャンパスを選定した。 本研究は, 持続可能な開発原理に基づいて, キャンパス自転車共有のための総合的位置選択評価システムを提案することによって, 既存の知識体系に寄与する。

Promoting sustainable transportation options is increasingly crucial in the pursuit of environmentally friendly and efficient campus mobility systems. Among these options, bike-sharing programs have garnered substantial attention for their capacity to mitigate traffic congestion, decrease carbon emissions, and enhance overall campus sustainability. However, improper selection of bike-sharing sites has led to the growing problems of unsustainable practices in campus, including the disorderly parking and indiscriminate placement of bike-sharing. To this end, this paper proposes a novel sustainable development-oriented campus bike-sharing site evaluation model integrating the improved Delphi and fuzzy comprehensive evaluation approaches. Fourteen evaluation metrics are firstly selected from four dimensions: the user features, implementation and usage characteristics of parking spots, environmental sustainability, and social sustainability, through the combination of expert experience and the improved Delphi method. Then, the analytic hierarchy process and the entropy weight method are employed to determine the weights of the evaluation indices, ensuring a robust and objective assessment framework. The fuzzy comprehensive evaluation method is finally implemented to evaluate the quality of location selection. South Campus of Henan Polytechnic University is selected as a case study using the proposed evaluation system. This work contributes to the existing body of knowledge by presenting a comprehensive location selection evaluation system for campus bike-sharing, informed by the principles of sustainable development.
翻訳日:2023-09-25 18:13:55 公開日:2023-09-22
# 量子不協和状態の不斉半デバイス非依存性

Asymmetric One-Sided Semi-Device-Independent Steerability of Quantum Discordant States ( http://arxiv.org/abs/2307.09116v3 )

ライセンス: Link先を確認
Chellasamy Jebarathinam, Debarshi Das, R. Srikanth(参考訳) 超局所性と超非ステアビリティは、それぞれ特定の局所状態と非ステアブル状態における量子相関の操作的特徴を与える。 このような量子相関状態は非零量子不一致を持つ。 超局所性によって指摘される量子相関には、双方向の非零量子ディスコルドが必要である。 一方,本研究では,超unsteerabilityの証明には2方向非ゼロ量子ディスコドは不要であることを示す。 この目的のために、一方向量子不協和状態の超unsteerabilityを示す。 このことは、一方向超不安定の存在と超局所性のない超不安定の存在を暗示する。 非零量子不協和状態の超unsteerabilityは、片側半デバイス非依存な方法でのステアビリティの発生を意味する。 一方向ステアビリティがベル局所状態に対して一方向デバイス非依存的に発生するのと同じように、一方向ステアビリティは一方向半デバイス非依存な状態でも起こりうることを示した。

Superlocality and superunsteerability provide operational characterization of quantum correlations in certain local and unsteerable states respectively. Such quantum correlated states have a nonzero quantum discord. A two-way nonzero quantum discord is necessary for quantum correlations pointed out by superlocality. On the other hand, in this work, we demonstrate that a two-way nonzero quantum discord is not necessary to demonstrate superunsteerability. To this end, we demonstrate superunsteerability for one-way quantum discordant states. This in turn implies the existence of one-way superunsteerability and also the presence of superunsteerability without superlocality. Superunsteerability for nonzero quantum discord states implies the occurence of steerability in a one-sided semi-device-independent way. Just like one-way steerability occurs for certain Bell-local states in a one-sided device-independent way, our result shows that one-way steerability can also occur for certain nonsuperlocal states but in a one-sided semi-device-independent way.
翻訳日:2023-09-25 18:12:38 公開日:2023-09-22
# Mermin-Peres Magic Square Gameに基づくデバイス非依存量子鍵分布

Device-Independent Quantum Key Distribution Based on the Mermin-Peres Magic Square Game ( http://arxiv.org/abs/2308.14037v2 )

ライセンス: Link先を確認
Yi-Zheng Zhen and Yingqiu Mao and Yu-Zhe Zhang and Feihu Xu and Barry C. Sanders(参考訳) デバイス非依存の量子鍵分布(DIQKD)は、スケーラブルな量子コンピュータを持ち、悪意のある鍵確立システムを提供した敵に対して情報理論的に安全である。 その結果、量子非局所メルミン・ペレス魔法の正方形ゲームに基づくdiqkdスキームを考案する:我々のスキームは、ノイズであっても集団攻撃に対して漸近的にdiqkdを伝達する。 提案手法は,状態の可視性と検出効率の両立を前提として,ゲームラウンド数に対してClaus-Horne-Shimony-Holtゲームを用いてDIQKDより優れる。

Device-independent quantum key distribution (DIQKD) is information-theoretically secure against adversaries who possess a scalable quantum computer and who have supplied malicious key-establishment systems; however, the DIQKD key rate is currently too low. Consequently, we devise a DIQKD scheme based on the quantum nonlocal Mermin-Peres magic square game: our scheme asymptotically delivers DIQKD against collective attacks, even with noise. Our scheme outperforms DIQKD using the Clauser-Horne-Shimony-Holt game with respect to the number of game rounds, albeit not number of entangled pairs, provided that both state visibility and detection efficiency are high enough.
翻訳日:2023-09-25 18:05:04 公開日:2023-09-22
# マルチタスク学習におけるスケーラビリティの再考:理論的展望

Revisiting Scalarization in Multi-Task Learning: A Theoretical Perspective ( http://arxiv.org/abs/2308.13985v2 )

ライセンス: Link先を確認
Yuzheng Hu, Ruicheng Xian, Qilong Wu, Qiuling Fan, Lang Yin, Han Zhao(参考訳) 線形スカラー化、すなわち重み付き和ですべての損失関数を組み合わせることは、その開始以来、マルチタスク学習(mtl)の文献においてデフォルトの選択となっている。 近年,MTLを多目的最適化問題として扱うSMTO(Specialized Multi-Task Optimizers)の開発への関心が高まっている。 しかし、スカラー化に対してSMTOの根本的な優位性があるかどうかは不明である。 実際、この2つのタイプのアルゴリズムを比較するコミュニティには、熱烈な議論が存在している。 本稿では, 上記の問題にアプローチするため, 理論的観点からスカラー化を再考する。 線形mtlモデルに注目し,スカラー化がパレート前線を完全に探索できるかどうかを検討する。 この結果から,スカラー化のメリットを実証的に主張する最近の研究とは対照的に,スカラー化は本質的に完全な探索には不可能であることが明らかとなった。 より具体的には、モデルが過度にパラメータ化されると、実現可能な領域の多面構造を明らかにし、完全な探索に必要な十分な条件を特定する。 このことは、スカラー化が一般にパレートフロントを追跡できないという結論に繋がる。 我々の理論的結果は、Xin et al. (2021) のオープンな疑問に部分的に答え、スカラー化が非凸性を超えて失敗する理由についてより直感的な説明を提供する。 また、スキャラライズと最先端SMTOの両方を用いて実世界のデータセット上で実験を行う。 実験結果は理論的な知見と相関するだけでなく,スカラー化では達成できない平衡解の発見におけるSMTOの可能性も明らかにした。

Linear scalarization, i.e., combining all loss functions by a weighted sum, has been the default choice in the literature of multi-task learning (MTL) since its inception. In recent years, there is a surge of interest in developing Specialized Multi-Task Optimizers (SMTOs) that treat MTL as a multi-objective optimization problem. However, it remains open whether there is a fundamental advantage of SMTOs over scalarization. In fact, heated debates exist in the community comparing these two types of algorithms, mostly from an empirical perspective. To approach the above question, in this paper, we revisit scalarization from a theoretical perspective. We focus on linear MTL models and study whether scalarization is capable of fully exploring the Pareto front. Our findings reveal that, in contrast to recent works that claimed empirical advantages of scalarization, scalarization is inherently incapable of full exploration, especially for those Pareto optimal solutions that strike the balanced trade-offs between multiple tasks. More concretely, when the model is under-parametrized, we reveal a multi-surface structure of the feasible region and identify necessary and sufficient conditions for full exploration. This leads to the conclusion that scalarization is in general incapable of tracing out the Pareto front. Our theoretical results partially answer the open questions in Xin et al. (2021), and provide a more intuitive explanation on why scalarization fails beyond non-convexity. We additionally perform experiments on a real-world dataset using both scalarization and state-of-the-art SMTOs. The experimental results not only corroborate our theoretical findings, but also unveil the potential of SMTOs in finding balanced solutions, which cannot be achieved by scalarization.
翻訳日:2023-09-25 18:04:49 公開日:2023-09-22
# 計算流体力学のための完全量子インスピレーションフレームワーク

Complete quantum-inspired framework for computational fluid dynamics ( http://arxiv.org/abs/2308.12972v2 )

ライセンス: Link先を確認
Raghavendra D. Peddinti, Stefano Pisoni, Alessandro Marini, Philippe Lott, Henrique Argentieri, Egor Tiunov and Leandro Aolita(参考訳) 計算流体力学は、繁栄する研究分野であり、先進産業応用の鍵となるツールである。 中心的な課題は複雑な幾何学における乱流をシミュレートすることであり、これは離散化されたメッシュが必要とする大きなベクトル次元のために計算力の集中的なタスクである。 本稿では、メモリと実行時スケールをメッシュサイズに多義的に拡張した非圧縮性流体のフルスタック解法を提案する。 我々のフレームワークは、量子状態の強力な圧縮表現である行列生成状態に基づいている。 非自明な境界条件を持つ任意のジオメトリの没入対象のまわりのフローを解き、圧縮符号化から直接解を検索できること、すなわち高価な高密度ベクトル表現を通り抜けずに解くことは自矛盾である。 この機械は、より急進的に効率的な現実の流体問題を解く新しい世代の基盤となる。

Computational fluid dynamics is both a thriving research field and a key tool for advanced industry applications. The central challenge is to simulate turbulent flows in complex geometries, a compute-power intensive task due to the large vector dimensions required by discretized meshes. We present a full-stack method to solve for incompressible fluids with memory and runtime scaling poly-logarithmically in the mesh size. Our framework is based on matrix-product states, a powerful compressed representation of quantum states. It is complete in that it solves for flows around immersed objects of arbitrary geometries, with non-trivial boundary conditions, and self-consistent in that it can retrieve the solution directly from the compressed encoding, i.e. without ever passing through the expensive dense-vector representation. This machinery lays the foundations for a new generation of potentially radically more efficient solvers of real-life fluid problems.
翻訳日:2023-09-25 18:04:18 公開日:2023-09-22
# 簡単な注意:変圧器を用いた時系列再構成と予測のための簡単な自己注意機構

Easy attention: A simple self-attention mechanism for transformer-based time-series reconstruction and prediction ( http://arxiv.org/abs/2308.12874v2 )

ライセンス: Link先を確認
Marcial Sanchis-Agudo and Yuning Wang and Luca Guastoni and Karthik Duraisamy and Ricardo Vinuesa(参考訳) カオスシステムの時間力学予測に使用されるトランスフォーマーニューラルネットワークのロバスト性を改善するために,時系列再構成と予測で示すような,簡単な注意機構を提案する。 自己注意がクエリとキーの内部積のみを利用するという事実から、キー、クエリ、ソフトマックスは、時間的シーケンスにおける長期的な依存関係をキャプチャするために必要な注意スコアを得るのに必要ではないことが示される。 さらに,ソフトマックスアテンションスコアに特異値分解(svd)を導入することで,アテンションスコアのスパンドスペースにおけるクエリとキーの両方からの貢献を自己アテンションが圧縮するのをさらに観察する。 そこで,本提案手法は注意点を直接学習可能なパラメータとして扱う。 この手法は,カオスシステムの時間的ダイナミクスを再構築・予測する際に,自己注意やLSTM(Long-term memory)ネットワークよりも堅牢性が高く,複雑度が低い場合に優れた結果をもたらす。 より複雑な高次元力学系における応用の可能性を示す。 キーワード:機械学習、トランスフォーマー、自己注意、クープマン演算子、カオスシステム。

To improve the robustness of transformer neural networks used for temporal-dynamics prediction of chaotic systems, we propose a novel attention mechanism called easy attention which we demonstrate in time-series reconstruction and prediction. As a consequence of the fact that self attention only makes useof the inner product of queries and keys, it is demonstrated that the keys, queries and softmax are not necessary for obtaining the attention score required to capture long-term dependencies in temporal sequences. Through implementing singular-value decomposition (SVD) on the softmax attention score, we further observe that the self attention compresses contribution from both queries and keys in the spanned space of the attention score. Therefore, our proposed easy-attention method directly treats the attention scores as learnable parameters. This approach produces excellent results when reconstructing and predicting the temporal dynamics of chaotic systems exhibiting more robustness and less complexity than the self attention or the widely-used long short-term memory (LSTM) network. Our results show great potential for applications in more complex high-dimensional dynamical systems. Keywords: Machine Learning, Transformer, Self Attention, Koopman Operator, Chaotic System.
翻訳日:2023-09-25 18:03:46 公開日:2023-09-22
# Schr\"{o}dinger Bridgeによる生成モデルベース展開の改善

Improving Generative Model-based Unfolding with Schr\"{o}dinger Bridges ( http://arxiv.org/abs/2308.12351v2 )

ライセンス: Link先を確認
Sascha Diefenbacher, Guan-Horng Liu, Vinicius Mikuni, Benjamin Nachman, and Weili Nie(参考訳) 機械学習に基づく展開により、未結合かつ高次元の断面積測定が可能になった。 この研究領域では、識別モデルに基づくものと生成モデルに基づくものという2つの主要なアプローチが登場している。 判別モデルの主な利点は、開始シミュレーションに対する小さな補正を学習し、生成モデルは少ないデータで位相空間の領域に対してよりよくスケールする。 本研究では, シュレーディンガー橋と拡散モデルを用いて, 判別モデルと生成モデルの強みを結合した, sbunfold を作成することを提案する。 スバンフォールドの重要な特徴は、その生成モデルが流れの正規化や標準拡散モデルのように既知の確率密度を通さずに、ある事象の組を別の事象にマッピングすることである。 SBUnfoldは,合成Z+jetsデータセット上でのアート手法の状態と比較して優れた性能を示す。

Machine learning-based unfolding has enabled unbinned and high-dimensional differential cross section measurements. Two main approaches have emerged in this research area: one based on discriminative models and one based on generative models. The main advantage of discriminative models is that they learn a small correction to a starting simulation while generative models scale better to regions of phase space with little data. We propose to use Schroedinger Bridges and diffusion models to create SBUnfold, an unfolding approach that combines the strengths of both discriminative and generative models. The key feature of SBUnfold is that its generative model maps one set of events into another without having to go through a known probability density as is the case for normalizing flows and standard diffusion models. We show that SBUnfold achieves excellent performance compared to state of the art methods on a synthetic Z+jets dataset.
翻訳日:2023-09-25 18:03:26 公開日:2023-09-22
# Pre-gated MoE: 高速かつスケーラブルな混合スペクトル推論のためのアルゴリズムシステム共設計

Pre-gated MoE: An Algorithm-System Co-Design for Fast and Scalable Mixture-of-Expert Inference ( http://arxiv.org/abs/2308.12066v2 )

ライセンス: Link先を確認
Ranggi Hwang, Jianyu Wei, Shijie Cao, Changho Hwang, Xiaohu Tang, Ting Cao, Mao Yang(参考訳) 近年,トランスフォーマーをベースとした大規模言語モデル(LLM)が大きな進歩を遂げている。 高いアルゴリズム性能にもかかわらず、LLMの計算およびメモリ要求は前例のない課題を呈している。 llmsの高度な計算要件に対処するために、計算要件を比例的にスケールアップすることなくモデルサイズをスケールできるmixed-of-experts(moe)アーキテクチャが導入された。 残念ながら、MoEの高メモリ要求とスパース専門家の動的アクティベーションは、現実世界の問題への適用性を制限している。 MoEのメモリ不足の専門家パラメータをCPUメモリにオフロードする以前のソリューションでは、アクティベートされた専門家をCPUからGPUに移行するのにレイテンシがかかるため、パフォーマンス上のオーバーヘッドが発生する。 提案するPre-gated MoEシステムは,従来のMoEアーキテクチャの計算とメモリの課題に対して,アルゴリズム-システム共設計を用いて効果的に対処する。 プレゲートMOEは,スパースエキスパートアクティベーションの動的特性を緩和し,MoEの大規模なメモリフットプリントに対処し,高い性能を実現する。 我々は、Pre-gated MoEが、同じレベルのモデル品質を維持しながら、パフォーマンスを改善し、GPUメモリ消費を減らすことを実証した。 これらの機能により、Pre-gated MoEシステムは、高パフォーマンスの1つのGPUを使用して、大規模LLMをコスト効率よくデプロイできます。

Large language models (LLMs) based on transformers have made significant strides in recent years, the success of which is driven by scaling up their model size. Despite their high algorithmic performance, the computational and memory requirements of LLMs present unprecedented challenges. To tackle the high compute requirements of LLMs, the Mixture-of-Experts (MoE) architecture was introduced which is able to scale its model size without proportionally scaling up its computational requirements. Unfortunately, MoE's high memory demands and dynamic activation of sparse experts restrict its applicability to real-world problems. Previous solutions that offload MoE's memory-hungry expert parameters to CPU memory fall short because the latency to migrate activated experts from CPU to GPU incurs high performance overhead. Our proposed Pre-gated MoE system effectively tackles the compute and memory challenges of conventional MoE architectures using our algorithm-system co-design. Pre-gated MoE employs our novel pre-gating function which alleviates the dynamic nature of sparse expert activation, allowing our proposed system to address the large memory footprint of MoEs while also achieving high performance. We demonstrate that Pre-gated MoE is able to improve performance, reduce GPU memory consumption, while also maintaining the same level of model quality. These features allow our Pre-gated MoE system to cost-effectively deploy large-scale LLMs using just a single GPU with high performance.
翻訳日:2023-09-25 18:03:11 公開日:2023-09-22
# 短期水力プラント運用のための深層学習に基づく流動分散

Deep learning-based flow disaggregation for short-term hydropower plant operations ( http://arxiv.org/abs/2308.11631v2 )

ライセンス: Link先を確認
Duo Zhang(参考訳) 高時間分解能データは、短期的水力発電所の運用において重要な役割を担っている。 ノルウェーの水力発電システムの大部分では、インフローデータは測定装置を通じて毎日の解像度で収集される。 しかし、水力発電所における経営決定の精度を高めるためには、時間単位のデータのような日内解像度の水文データが必要であることが多い。 このギャップに対処するために、ディープラーニングを利用した時系列分散が有望なツールとして現れる。 本研究では,短期的水力プラント運用のための日中流入データから時間毎の流入データを導出する深層学習に基づく時系列分解モデルを提案する。 予備実験の結果,本手法の適用性が示され,さらなる改善が期待できる。

High temporal resolution data plays a vital role in effective short-term hydropower plant operations. In the majority of the Norwegian hydropower system, inflow data is predominantly collected at daily resolutions through measurement installations. However, for enhanced precision in managerial decision-making within hydropower plants, hydrological data with intraday resolutions, such as hourly data, are often indispensable. To address this gap, time series disaggregation utilizing deep learning emerges as a promising tool. In this study, we propose a deep learning-based time series disaggregation model to derive hourly inflow data from daily inflow data for short-term hydropower plant operations. Our preliminary results demonstrate the applicability of our method, with scope for further improvements.
翻訳日:2023-09-25 18:02:44 公開日:2023-09-22
# ハイパースペクトル画像再構成のためのPixel Adaptive Deep Unfolding Transformer

Pixel Adaptive Deep Unfolding Transformer for Hyperspectral Image Reconstruction ( http://arxiv.org/abs/2308.10820v2 )

ライセンス: Link先を確認
Miaoyu Li, Ying Fu, Ji Liu, Yulun Zhang(参考訳) ハイパースペクトル画像(HSI)の再構成は、問題をデータモジュールと事前モジュールに定式化することで、深い展開フレームワークで満足度を高めた。 それでも既存の手法は、HSIデータとのマッチングが不十分な問題に直面している。 問題は3つの側面にある。 1)データモジュールにおける一定の勾配降下ステップは,hsiの劣化は画素レベルでは不可知である。 2) 3次元hsi立方体に対する不適切な事前モジュール。 3)異なるステージにおける特徴の違いを無視したステージインタラクション。 これらの課題に対処するため,本研究では,HSI再構成のためのPixel Adaptive Deep Unfolding Transformer (PADUT)を提案する。 データモジュールでは、画素レベル非依存な分解にフォーカスするために画素適応降下ステップが用いられる。 先行モジュールでは、非局所スペクトル変換器(NST)を導入し、回復のためのHSIの3次元特性を強調する。 さらに、異なるステージと深さの特徴の多様な表現にインスパイアされ、Fast Fourier Transform (FFT) によってステージ相互作用が改善される。 シミュレーションおよび実シーンにおける実験結果は,現状のHSI再構成法と比較して,本手法の優れた性能を示す。 コードはhttps://github.com/MyuLi/PADUT.comで公開されている。

Hyperspectral Image (HSI) reconstruction has made gratifying progress with the deep unfolding framework by formulating the problem into a data module and a prior module. Nevertheless, existing methods still face the problem of insufficient matching with HSI data. The issues lie in three aspects: 1) fixed gradient descent step in the data module while the degradation of HSI is agnostic in the pixel-level. 2) inadequate prior module for 3D HSI cube. 3) stage interaction ignoring the differences in features at different stages. To address these issues, in this work, we propose a Pixel Adaptive Deep Unfolding Transformer (PADUT) for HSI reconstruction. In the data module, a pixel adaptive descent step is employed to focus on pixel-level agnostic degradation. In the prior module, we introduce the Non-local Spectral Transformer (NST) to emphasize the 3D characteristics of HSI for recovering. Moreover, inspired by the diverse expression of features in different stages and depths, the stage interaction is improved by the Fast Fourier Transform (FFT). Experimental results on both simulated and real scenes exhibit the superior performance of our method compared to state-of-the-art HSI reconstruction methods. The code is released at: https://github.com/MyuLi/PADUT.
翻訳日:2023-09-25 18:02:33 公開日:2023-09-22
# スパイキング拡散:スパイキングニューラルネットワークを用いたベクトル量子離散拡散モデル

Spiking-Diffusion: Vector Quantized Discrete Diffusion Model with Spiking Neural Networks ( http://arxiv.org/abs/2308.10187v4 )

ライセンス: Link先を確認
Mingxuan Liu, Jie Gan, Rui Wen, Tao Li, Yongli Chen, and Hong Chen(参考訳) スパイキングニューラルネットワーク(SNN)は、そのバイナリとイベント駆動アーキテクチャにより、エネルギー効率のよいニューロモルフィックチップに多大な可能性を持っている。 SNNは主に分類タスクで使用されているが、画像生成タスクの探索は限られている。 このギャップを埋めるために,ベクトル量子化離散拡散モデルに基づくスパイキング拡散モデルを提案する。 まず,SNN(VQ-SVAE)を用いたベクトル量子化変分オートエンコーダを開発し,画像の離散潜在空間を学習する。 VQ-SVAEでは、画像特徴はスパイク発火速度とシナプス後電位の両方を用いて符号化され、適応スパイク発生器はスパイク列車の形で埋め込み特徴を復元するように設計されている。 次に、離散潜在空間における吸収状態拡散を行い、SNNで拡散拡散画像デコーダ(SDID)を構築する。 私たちの仕事は、SNN層から完全に拡散モデルを構築する最初のものです。 MNIST、FMNIST、KMNIST、Leters、Cifar10の実験結果は、スパイキング拡散が既存のSNNベースの生成モデルより優れていることを示している。 上記のデータセット上で37.50, 91.98, 59.23, 67.41, 120.5のfidをそれぞれ達成し, 58.60\%, 18.75\%, 64.51\%, 29.75\%, 44.88\%の削減を行った。 私たちのコードは \url{https://github.com/Arktis2022/Spiking-Diffusion} で公開されます。

Spiking neural networks (SNNs) have tremendous potential for energy-efficient neuromorphic chips due to their binary and event-driven architecture. SNNs have been primarily used in classification tasks, but limited exploration on image generation tasks. To fill the gap, we propose a Spiking-Diffusion model, which is based on the vector quantized discrete diffusion model. First, we develop a vector quantized variational autoencoder with SNNs (VQ-SVAE) to learn a discrete latent space for images. In VQ-SVAE, image features are encoded using both the spike firing rate and postsynaptic potential, and an adaptive spike generator is designed to restore embedding features in the form of spike trains. Next, we perform absorbing state diffusion in the discrete latent space and construct a spiking diffusion image decoder (SDID) with SNNs to denoise the image. Our work is the first to build the diffusion model entirely from SNN layers. Experimental results on MNIST, FMNIST, KMNIST, Letters, and Cifar10 demonstrate that Spiking-Diffusion outperforms the existing SNN-based generation model. We achieve FIDs of 37.50, 91.98, 59.23, 67.41, and 120.5 on the above datasets respectively, with reductions of 58.60\%, 18.75\%, 64.51\%, 29.75\%, and 44.88\% in FIDs compared with the state-of-art work. Our code will be available at \url{https://github.com/Arktis2022/Spiking-Diffusion}.
翻訳日:2023-09-25 18:02:14 公開日:2023-09-22
# DSLOT-NN: Digit-Serial left-to-Right Neural NetworkAccelerator

DSLOT-NN: Digit-Serial Left-to-Right Neural Network Accelerator ( http://arxiv.org/abs/2309.06019v2 )

ライセンス: Link先を確認
Muhammad Sohail Ibrahim, Muhammad Usman, Malik Zohaib Nisar, Jeong-A Lee(参考訳) 本稿では,深部ニューラルネットワーク(DNN)における畳み込み操作の推論を高速化するために,DSLOT-NNという,Digital-Serialleft-tO-righT(DSLOT)演算に基づく処理手法を提案する。 提案手法は,膨大な電力と省エネルギーをもたらす非効率な畳み込みを評価・停止する能力を有する。 処理エンジンは低レイテンシの最も重要なデジタルファースト(MSDF)乗算器と、左から右へデータを処理する加算器で構成されており、その後の操作を桁のピペリン方式で実行することができる。 オンライン演算子の使用により、最大重み値の出力が最初に生成されるため、負のアクティベーションを識別する複雑なメカニズムの開発が不要になり、その結果の符号が最初のゼロ桁が生成されるとすぐに識別できる。 オンラインオペレータの精度は実行時に調整できるため、電力と省エネのために精度を損なうことができる状況では極めて有用である。 提案した設計はXilinx Virtex-7 FPGA上で実装されており、様々なパフォーマンス指標の最先端Stripeと比較されている。 その結果,提案設計では省電力化,サイクルタイムの短縮,ワット当たりの運用効率が約50%向上した。

We propose a Digit-Serial Left-tO-righT (DSLOT) arithmetic based processing technique called DSLOT-NN with aim to accelerate inference of the convolution operation in the deep neural networks (DNNs). The proposed work has the ability to assess and terminate the ineffective convolutions which results in massive power and energy savings. The processing engine is comprised of low-latency most-significant-digit-first (MSDF) (also called online) multipliers and adders that processes data from left-to-right, allowing the execution of subsequent operations in digit-pipelined manner. Use of online operators eliminates the need for the development of complex mechanism of identifying the negative activation, as the output with highest weight value is generated first, and the sign of the result can be identified as soon as first non-zero digit is generated. The precision of the online operators can be tuned at run-time, making them extremely useful in situations where accuracy can be compromised for power and energy savings. The proposed design has been implemented on Xilinx Virtex-7 FPGA and is compared with state-of-the-art Stripes on various performance metrics. The results show the proposed design presents power savings, has shorter cycle time, and approximately 50% higher OPS per watt.
翻訳日:2023-09-25 17:56:25 公開日:2023-09-22
# DropPos:ドロップ位置の再構成による事前学習型ビジョントランス

DropPos: Pre-Training Vision Transformers by Reconstructing Dropped Positions ( http://arxiv.org/abs/2309.03576v2 )

ライセンス: Link先を確認
Haochen Wang, Junsong Fan, Yuxi Wang, Kaiyou Song, Tong Wang, Zhaoxiang Zhang(参考訳) 視覚変換器(ViT)は入力トークンの順序に非常に敏感であることが実証的に観察されているため、ViTの位置認識を高めるための適切な自己教師型プレテキストタスクの必要性が顕在化しつつある。 そこで我々は,Dropped Positionsを再構築するための新しいプレテキストタスクDropPosを紹介する。 dropposの定式化は単純で、まず位置埋め込みの大きなランダムなサブセットをドロップし、その後、モデルは、その視覚的な外観のみに基づいて、重複しないパッチごとに実際の位置を分類する。 簡単な解決策を避けるために、パッチのサブセットだけを見えるようにすることで、このタスクの難しさを高めます。 また、類似した視覚的外観を持つパッチが存在する可能性があることから、このような分類問題を緩和するための位置平滑化および注意深い再構築戦略を提案する。 DropPosの実証評価は強力な能力を示している。 DropPosは教師付き事前トレーニングより優れており、幅広いダウンストリームベンチマークにおける最先端のセルフ教師付き代替手段と比較して、競争力がある。 これは、DropPosがしているように、空間的推論能力を明確に奨励することが、ViTsの位置認識の向上に寄与していることを示唆している。 コードはhttps://github.com/haochen-wang409/dropposで公開されている。

As it is empirically observed that Vision Transformers (ViTs) are quite insensitive to the order of input tokens, the need for an appropriate self-supervised pretext task that enhances the location awareness of ViTs is becoming evident. To address this, we present DropPos, a novel pretext task designed to reconstruct Dropped Positions. The formulation of DropPos is simple: we first drop a large random subset of positional embeddings and then the model classifies the actual position for each non-overlapping patch among all possible positions solely based on their visual appearance. To avoid trivial solutions, we increase the difficulty of this task by keeping only a subset of patches visible. Additionally, considering there may be different patches with similar visual appearances, we propose position smoothing and attentive reconstruction strategies to relax this classification problem, since it is not necessary to reconstruct their exact positions in these cases. Empirical evaluations of DropPos show strong capabilities. DropPos outperforms supervised pre-training and achieves competitive results compared with state-of-the-art self-supervised alternatives on a wide range of downstream benchmarks. This suggests that explicitly encouraging spatial reasoning abilities, as DropPos does, indeed contributes to the improved location awareness of ViTs. The code is publicly available at https://github.com/Haochen-Wang409/DropPos.
翻訳日:2023-09-25 17:56:00 公開日:2023-09-22
# FishMOT:IoUマッチングに基づく魚追跡の簡便かつ効果的な方法

FishMOT: A Simple and Effective Method for Fish Tracking Based on IoU Matching ( http://arxiv.org/abs/2309.02975v3 )

ライセンス: Link先を確認
Shuo Liu, Lulu Han, Xiaoyang Liu, Junli Ren, Fang Wang, YingLiu, Yuanshan Lin(参考訳) 魚類追跡は魚類の行動や生態を理解する上で重要な役割を果たす。 しかし, 魚の形態変化, 咬合, 複雑な環境により, 既存の追跡手法では精度や頑健性が課題となっている。 本報告では, 基本モジュール, 相互作用モジュール, 精製モジュールを含む, 物体検出とIoUマッチングを組み合わせた新しい魚追跡手法であるフィッシュモット(Multiple Object Tracking for Fish)を提案する。 一方、基本モジュールは、連続するフレーム間の検出ボックスのIoUに基づいて目標アソシエーションを行い、相互作用モジュールは、検出ボックスのIoUと魚の実体のIoUを結合して閉塞を処理する。 FishMOTは、複雑な特徴抽出や魚毎のアイデンティティ割り当てを必要とせず、連続するフレームの検出ボックスを予測するためにカルマンフィルタを必要としないため、計算の複雑さとメモリ消費を減らす。 実験結果は,MOTA,正確性,計算時間,メモリ消費などの観点から,最先端のマルチオブジェクトトラッカーや魚追跡ツールよりも優れていることを示す。 さらに, 各種環境および魚類数に対して優れたロバスト性および汎用性を示す。 単純化されたワークフローと強力なパフォーマンスは、魚の追跡に非常に効果的なアプローチである。 ソースコードと事前訓練されたモデルは以下の通りである。

Fish tracking plays a vital role in understanding fish behavior and ecology. However, existing tracking methods face challenges in accuracy and robustness dues to morphological change of fish, occlusion and complex environment. This paper proposes FishMOT(Multiple Object Tracking for Fish), a novel fish tracking approach combining object detection and IoU matching, including basic module, interaction module and refind module. Wherein, a basic module performs target association based on IoU of detection boxes between successive frames to deal with morphological change of fish; an interaction module combines IoU of detection boxes and IoU of fish entity to handle occlusions; a refind module use spatio-temporal information uses spatio-temporal information to overcome the tracking failure resulting from the missed detection by the detector under complex environment. FishMOT reduces the computational complexity and memory consumption since it does not require complex feature extraction or identity assignment per fish, and does not need Kalman filter to predict the detection boxes of successive frame. Experimental results demonstrate FishMOT outperforms state-of-the-art multi-object trackers and specialized fish tracking tools in terms of MOTA, accuracy, computation time, memory consumption, etc.. Furthermore, the method exhibits excellent robustness and generalizability for varying environments and fish numbers. The simplified workflow and strong performance make FishMOT as a highly effective fish tracking approach. The source codes and pre-trained models are available at: https://github.com/gakkistar/FishMOT
翻訳日:2023-09-25 17:55:39 公開日:2023-09-22
# LoGoPrompt:視覚言語モデルに最適な合成テキスト画像

LoGoPrompt: Synthetic Text Images Can Be Good Visual Prompts for Vision-Language Models ( http://arxiv.org/abs/2309.01155v2 )

ライセンス: Link先を確認
Cheng Shi and Sibei Yang(参考訳) Prompt Engineeringは、下流タスクでトレーニング済みモデルのパフォーマンスを向上させるために使用される強力なツールである。 例えば、"Let's Think by Step" というプロンプトで GPT-3 の推論精度を MutiArith 上で 63% に向上させ、クラス名で満たされた"写真" によって、CLIP は ImageNet 上で 80$\% のゼロショット精度を達成できる。 従来の研究では、視覚的モダリティの迅速な学習が検討されているが、画像認識に特有な視覚的プロンプトを構成するものの分析は限られている。 さらに、既存のビジュアルプロンプトチューニングメソッドの一般化能力は、テキストのみのプロンプトチューニングよりも悪い。 合成テキスト画像は視覚言語モデルのための優れた視覚的プロンプトです! そこで本研究では,分類対象を視覚的プロンプト選択に再構成し,合成テキストイメージをクラスワイズな視覚的プロンプトとして,あるいはクラスファーストで予測するというニワトリとエッグの課題に対処するLoGoPromptを提案する。 トレーニング可能な視覚的プロンプトパラメータがなければ、16のデータセットの実験結果から、我々の手法は、数ショットの学習、ベース・ツー・ニュージェネリゼーション、ドメインの一般化において、常に最先端の手法より優れていることが示される。

Prompt engineering is a powerful tool used to enhance the performance of pre-trained models on downstream tasks. For example, providing the prompt "Let's think step by step" improved GPT-3's reasoning accuracy to 63% on MutiArith while prompting "a photo of" filled with a class name enables CLIP to achieve $80$\% zero-shot accuracy on ImageNet. While previous research has explored prompt learning for the visual modality, analyzing what constitutes a good visual prompt specifically for image recognition is limited. In addition, existing visual prompt tuning methods' generalization ability is worse than text-only prompting tuning. This paper explores our key insight: synthetic text images are good visual prompts for vision-language models! To achieve that, we propose our LoGoPrompt, which reformulates the classification objective to the visual prompt selection and addresses the chicken-and-egg challenge of first adding synthetic text images as class-wise visual prompts or predicting the class first. Without any trainable visual prompt parameters, experimental results on 16 datasets demonstrate that our method consistently outperforms state-of-the-art methods in few-shot learning, base-to-new generalization, and domain generalization.
翻訳日:2023-09-25 17:54:53 公開日:2023-09-22
# 大規模言語モデルを用いた名前空間の文脈バイアス

Contextual Biasing of Named-Entities with Large Language Models ( http://arxiv.org/abs/2309.00723v2 )

ライセンス: Link先を確認
Chuanneng Sun, Zeeshan Ahmed, Yingyi Ma, Zhe Liu, Lucas Kabela, Yutong Pang, Ozlem Kalinli(参考訳) 本稿では,大言語モデル(LLMs)を用いた文脈バイアスについて検討し,LLMに追加の文脈情報を提供し,音声認識(ASR)性能を向上する。 本稿では, 仮説のスコアを計算する際に, バイアスリストと少数ショット例を組み込んで追加情報として役立てる再構成において, 微調整を行うことなく, LLMのプロンプトを活用することを提案する。 数発のプロンプト学習に加えて、エンティティクラスと次のトークンの両方を予測するために、LLMのマルチタスクトレーニングを提案する。 文脈バイアスの効率の向上とLLMの最大シーケンス長の超過を回避するために,クラスタグ予測を用いて最も可能性の高いクラスを選択し,次のトークン予測のコンテキストとして,このクラス内のエンティティのみを使用する動的プロンプトを提案する。 単語誤り率(WER)の評価を行う 一 内部呼出、メッセージング及びディクテーションデータセット ii) slue-voxpopuliデータセット。 その結果、バイアスリストと少数のサンプルは、最初のパスasrと比較して17.8%と9.6%の相対的な改善を達成でき、マルチタスクトレーニングと動的プロンプトはそれぞれ20.0%と11.3%の相対的な改善を達成できることがわかった。

This paper studies contextual biasing with Large Language Models (LLMs), where during second-pass rescoring additional contextual information is provided to a LLM to boost Automatic Speech Recognition (ASR) performance. We propose to leverage prompts for a LLM without fine tuning during rescoring which incorporate a biasing list and few-shot examples to serve as additional information when calculating the score for the hypothesis. In addition to few-shot prompt learning, we propose multi-task training of the LLM to predict both the entity class and the next token. To improve the efficiency for contextual biasing and to avoid exceeding LLMs' maximum sequence lengths, we propose dynamic prompting, where we select the most likely class using the class tag prediction, and only use entities in this class as contexts for next token prediction. Word Error Rate (WER) evaluation is performed on i) an internal calling, messaging, and dictation dataset, and ii) the SLUE-Voxpopuli dataset. Results indicate that biasing lists and few-shot examples can achieve 17.8% and 9.6% relative improvement compared to first pass ASR, and that multi-task training and dynamic prompting can achieve 20.0% and 11.3% relative WER improvement, respectively.
翻訳日:2023-09-25 17:54:23 公開日:2023-09-22
# 食品エネルギー推定のためのエンコーダデコーダフレームワークの改良

An Improved Encoder-Decoder Framework for Food Energy Estimation ( http://arxiv.org/abs/2309.00468v3 )

ライセンス: Link先を確認
Jack Ma and Jiangpeng He and Fengqing Zhu(参考訳) 健康な生活を維持するためには食事の評価が不可欠である。 自動画像ベースの食事評価は、画像キャプチャ装置(携帯電話など)の普及による研究分野の増大である。 そこで本研究では,単一の単眼画像から食品エネルギーを推定する。 そこで我々は,エネルギー推定のための改良されたエンコーダ・デコーダ・フレームワークを用いて,この画像を食品エネルギー情報に埋め込まれた表現に変換し,デコーダがエネルギー情報を抽出する。 そこで本研究では,食シーン画像,食感セグメンテーションマスク,地中カロリー値を含む登録栄養士が検証した高品質な食品画像データセットをコンパイルする。 本手法は,MAPE法とMAE法でそれぞれ10\%以上,30kCal以上のカロリー推定法を改良する。

Dietary assessment is essential to maintaining a healthy lifestyle. Automatic image-based dietary assessment is a growing field of research due to the increasing prevalence of image capturing devices (e.g. mobile phones). In this work, we estimate food energy from a single monocular image, a difficult task due to the limited hard-to-extract amount of energy information present in an image. To do so, we employ an improved encoder-decoder framework for energy estimation; the encoder transforms the image into a representation embedded with food energy information in an easier-to-extract format, which the decoder then extracts the energy information from. To implement our method, we compile a high-quality food image dataset verified by registered dietitians containing eating scene images, food-item segmentation masks, and ground truth calorie values. Our method improves upon previous caloric estimation methods by over 10\% and 30 kCal in terms of MAPE and MAE respectively.
翻訳日:2023-09-25 17:53:58 公開日:2023-09-22
# 神経予測に基づくゼロショットnasの有効性

Efficacy of Neural Prediction-Based Zero-Shot NAS ( http://arxiv.org/abs/2308.16775v3 )

ライセンス: Link先を確認
Minh Le, Nhan Nguyen, and Ngoc Hoang Luong(参考訳) 予測に基づくニューラルネットワーク探索(NAS)では,グラフ畳み込みネットワークから得られる性能指標が顕著に成功した。 これらの指標は、フィードフォワード構造を1ホット符号化によるコンポーネントグラフとして表現することで達成され、様々な検索空間でアーキテクチャ性能を評価することができない限界に直面している。 対照的に、ランダムな初期化を伴う同じアーキテクチャを使用する手作りパフォーマンスインジケータ(ゼロショットNAS)は、複数の検索空間にまたがって一般化することができる。 この制限に対処し、ディープラーニングを用いたゼロショットNASの新しいアプローチを提案する。 提案手法では,畳み込みカーネルを符号化した罪のフーリエ和を用いて,アーキテクチャに類似した構造を持つ計算フィードフォワードグラフの構築を可能にする。 これらのエンコーディングは学習可能であり、アーキテクチャのトポロジー情報の包括的なビューを提供する。 付随する多層パーセプトロン(MLP)は、それらのエンコーディングに基づいてこれらのアーキテクチャをランク付けする。 実験の結果,NAS-Bench-201データセットの相関関係から,グラフ畳み込みネットワークを用いた従来の手法よりも高い収束率を示した。 さらに,各NASベンチマークでトレーニングした特徴表現を他のNASベンチマークに転送可能とし,複数の検索空間にまたがる有望な一般化性を示す。 https://github.com/minh1409/DFT-NPZS-NAS

In prediction-based Neural Architecture Search (NAS), performance indicators derived from graph convolutional networks have shown remarkable success. These indicators, achieved by representing feed-forward structures as component graphs through one-hot encoding, face a limitation: their inability to evaluate architecture performance across varying search spaces. In contrast, handcrafted performance indicators (zero-shot NAS), which use the same architecture with random initialization, can generalize across multiple search spaces. Addressing this limitation, we propose a novel approach for zero-shot NAS using deep learning. Our method employs Fourier sum of sines encoding for convolutional kernels, enabling the construction of a computational feed-forward graph with a structure similar to the architecture under evaluation. These encodings are learnable and offer a comprehensive view of the architecture's topological information. An accompanying multi-layer perceptron (MLP) then ranks these architectures based on their encodings. Experimental results show that our approach surpasses previous methods using graph convolutional networks in terms of correlation on the NAS-Bench-201 dataset and exhibits a higher convergence rate. Moreover, our extracted feature representation trained on each NAS benchmark is transferable to other NAS benchmarks, showing promising generalizability across multiple search spaces. The code is available at: https://github.com/minh1409/DFT-NPZS-NAS
翻訳日:2023-09-25 17:53:44 公開日:2023-09-22
# 駆動活性化立方体相互作用によるボゾンモードの普遍制御

Universal control of a bosonic mode via drive-activated native cubic interactions ( http://arxiv.org/abs/2308.15320v2 )

ライセンス: Link先を確認
Axel M. Eriksson, Th\'eo S\'epulcre, Mikael Kervinen, Timo Hillmann, Marina Kudra, Simon Dupouy, Yong Lu, Maryam Khanahmadi, Jiaying Yang, Claudia Castillo Moreno, Per Delsing and Simone Gasparinetti(参考訳) 線形ボソニックモードは、量子情報処理のハードウェア効率の良い代替手段を提供するが、普遍制御にはいくつかの非線形性を必要とする。 フォトニクスにおける非線形性の欠如は、線形演算に依存するが立方晶相状態のような(非線形な)量子状態へのアクセスを必要とする、計測に基づく量子コンピューティングの符号化につながった。 対照的に、超伝導マイクロ波回路は設計可能な非線形性を提供するが、静的カー非線形性に苦しむ。 本稿では,超伝導非線形非対称誘導素子(SNAIL)共振器からなるボソニックモードの普遍制御を,SNAIL素子のネイティブ非線形性によって実現した。 我々は,Kerrフリー点付近でSNAILを動作させることで静的非線形性を抑え,高速フラックスパルスにより3次まで動的に非線形性を活性化する。 一般化されたスキューズ操作の普遍的集合と立方相ゲートを実験的に実現し,60 nsの立方相状態の定式化に利用した。 この結果から,ユニバーサル連続変数量子コンピューティングの実験分野が開始された。

Linear bosonic modes offer a hardware-efficient alternative for quantum information processing but require access to some nonlinearity for universal control. The lack of nonlinearity in photonics has led to encoded measurement-based quantum computing, which rely on linear operations but requires access to resourceful ('nonlinear') quantum states, such as cubic phase states. In contrast, superconducting microwave circuits offer engineerable nonlinearities but suffer from static Kerr nonlinearity. Here, we demonstrate universal control of a bosonic mode composed of a superconducting nonlinear asymmetric inductive element (SNAIL) resonator, enabled by native nonlinearities in the SNAIL element. We suppress static nonlinearities by operating the SNAIL in the vicinity of its Kerr-free point and dynamically activate nonlinearities up to third order by fast flux pulses. We experimentally realize a universal set of generalized squeezing operations, as well as the cubic phase gate, and exploit them to deterministically prepare a cubic phase state in 60 ns. Our results initiate the experimental field of universal continuous-variables quantum computing.
翻訳日:2023-09-25 17:53:22 公開日:2023-09-22
# 3D-MuPPET:3次元マルチピジョンポーズ推定と追跡

3D-MuPPET: 3D Multi-Pigeon Pose Estimation and Tracking ( http://arxiv.org/abs/2308.15316v2 )

ライセンス: Link先を確認
Urs Waldmann, Alex Hoi Hang Chan, Hemal Naik, M\'at\'e Nagy, Iain D. Couzin, Oliver Deussen, Bastian Goldluecke, Fumihiro Kano(参考訳) 動物の姿勢追跡のためのマーカーレス手法は近年開発が進んでいるが、3dで大きな動物集団を追跡するためのフレームワークやベンチマークはまだ不足している。 このギャップを克服するため、3D-MuPPETは最大10羽のハトをマルチビューで対話的に3Dポーズを推定・追跡するフレームワークである。 ポーズ推定器を訓練して、2Dのキーポイントと複数のハトのバウンディングボックスを推定し、キーポイントを3Dに三角測量する。 対応マッチングでは,まず第1フレームのグローバルIDに2D検出を動的にマッチングし,次に2Dトラッカーを用いて後続のフレームでの対応性を維持する。 我々は,根平均二乗誤差 (rmse) と正解率 (pck) に対する art 3d ポーズ推定器の状態と同等の精度を達成する。 また,単一ハトのデータでトレーニングしたモデルが,複数のハトを含むデータに対する比較結果を提供するという,新たなユースケースも紹介する。 これは、単一動物データへの注釈がマルチ動物データよりも労働集約性が低いため、新種へのドメインシフトを単純化することができる。 さらに,3D-MuPPETの推定速度を2Dで最大10fps,3Dで1.5fpsとベンチマークし,定量的な追跡評価を行い,その結果を得た。 最後に、3D-MuPPETは追加アノテーションの微調整をせずに自然環境でも動作することを示す。 我々の知る限りでは、室内と屋外の両方で機能する2D/3D姿勢と軌道追跡のためのフレームワークを最初に提示する。

Markerless methods for animal posture tracking have been developing recently, but frameworks and benchmarks for tracking large animal groups in 3D are still lacking. To overcome this gap in the literature, we present 3D-MuPPET, a framework to estimate and track 3D poses of up to 10 pigeons at interactive speed using multiple-views. We train a pose estimator to infer 2D keypoints and bounding boxes of multiple pigeons, then triangulate the keypoints to 3D. For correspondence matching, we first dynamically match 2D detections to global identities in the first frame, then use a 2D tracker to maintain correspondences accross views in subsequent frames. We achieve comparable accuracy to a state of the art 3D pose estimator for Root Mean Square Error (RMSE) and Percentage of Correct Keypoints (PCK). We also showcase a novel use case where our model trained with data of single pigeons provides comparable results on data containing multiple pigeons. This can simplify the domain shift to new species because annotating single animal data is less labour intensive than multi-animal data. Additionally, we benchmark the inference speed of 3D-MuPPET, with up to 10 fps in 2D and 1.5 fps in 3D, and perform quantitative tracking evaluation, which yields encouraging results. Finally, we show that 3D-MuPPET also works in natural environments without model fine-tuning on additional annotations. To the best of our knowledge we are the first to present a framework for 2D/3D posture and trajectory tracking that works in both indoor and outdoor environments.
翻訳日:2023-09-25 17:53:03 公開日:2023-09-22
# des-q:回帰と二分分類のための決定木を構築および効率的に再訓練する量子アルゴリズム

Des-q: a quantum algorithm to construct and efficiently retrain decision trees for regression and binary classification ( http://arxiv.org/abs/2309.09976v3 )

ライセンス: Link先を確認
Niraj Kumar, Romina Yalovetzky, Changhao Li, Pierre Minssen, and Marco Pistoia(参考訳) 決定木は、構築と解釈性の単純さのために機械学習で広く使われている。 しかし、データサイズが大きくなるにつれて、従来の決定木の構築と再学習の方法は徐々に遅くなり、学習例の数とともに多項式的にスケールする。 本研究では,回帰および二分分類タスクにおける決定木の構築と再訓練を行うために,des-qと呼ばれる新しい量子アルゴリズムを提案する。 データストリームが新たなトレーニングサンプルを小さなインクリメントで生成すると仮定すると、des-qアルゴリズムはツリーリトレーニングに必要な時間を大幅に削減し、トレーニングサンプル数における多対数時間の複雑さを実現し、新しいサンプルを量子アクセス可能なメモリにロードするのに必要な時間も考慮している。 提案手法では,各内部ノードで k 個の線形木分割を行う決定木アルゴリズムを構築する。 これらの分割は同時に複数の超平面を生成し、特徴空間を k 個の異なる領域に分割する。 これらの分割に適したk個のアンカーポイントを決定するために,kerenidis et alのq-meansアルゴリズムに基づく効率的な量子教師付きクラスタリング法を開発した。 des-qは、ピアソン相関を推定する新しい量子技術を用いて、まず各特徴量を効率的に推定する。 その後,重み付き距離推定を用いて,k個の非結合領域にトレーニングサンプルをクラスタ化し,同じ手順で木を拡大する。 数値的特徴を持つ複数データセットの回帰と二項分類のための古典的決定木に対して,本アルゴリズムのシミュレーション版の性能をベンチマークした。 さらに,提案アルゴリズムは,周期木再学習を著しく高速化しつつ,最先端の決定木と同等の性能を示すことを示す。

Decision trees are widely used in machine learning due to their simplicity in construction and interpretability. However, as data sizes grow, traditional methods for constructing and retraining decision trees become increasingly slow, scaling polynomially with the number of training examples. In this work, we introduce a novel quantum algorithm, named Des-q, for constructing and retraining decision trees in regression and binary classification tasks. Assuming the data stream produces small increments of new training examples, we demonstrate that our Des-q algorithm significantly reduces the time required for tree retraining, achieving a poly-logarithmic time complexity in the number of training examples, even accounting for the time needed to load the new examples into quantum-accessible memory. Our approach involves building a decision tree algorithm to perform k-piecewise linear tree splits at each internal node. These splits simultaneously generate multiple hyperplanes, dividing the feature space into k distinct regions. To determine the k suitable anchor points for these splits, we develop an efficient quantum-supervised clustering method, building upon the q-means algorithm of Kerenidis et al. Des-q first efficiently estimates each feature weight using a novel quantum technique to estimate the Pearson correlation. Subsequently, we employ weighted distance estimation to cluster the training examples in k disjoint regions and then proceed to expand the tree using the same procedure. We benchmark the performance of the simulated version of our algorithm against the state-of-the-art classical decision tree for regression and binary classification on multiple data sets with numerical features. Further, we showcase that the proposed algorithm exhibits similar performance to the state-of-the-art decision tree while significantly speeding up the periodic tree retraining.
翻訳日:2023-09-25 17:46:04 公開日:2023-09-22
# Talk2Care: 大規模言語モデルによる非同期患者プロバイダ通信の実現

Talk2Care: Facilitating Asynchronous Patient-Provider Communication with Large-Language-Model ( http://arxiv.org/abs/2309.09357v2 )

ライセンス: Link先を確認
Ziqi Yang, Xuhai Xu, Bingsheng Yao, Shao Zhang, Ethan Rogers, Stephen Intille, Nawar Shara, Guodong Gordon Gao, Dakuo Wang(参考訳) 在宅高齢者や医療提供者を支援するための遠隔医療アプリケーションが多いにもかかわらず、基本的なメッセージングや電話は依然として最も一般的なコミュニケーション方法であり、可用性や情報損失、プロセスの非効率に苦しんでいる。 患者と提供者のコミュニケーションを促進する有望な解決策の1つは、強力な自然会話と要約機能を備えた大規模言語モデル(llm)を活用することである。 しかし、通信におけるllmsの役割の理解は限られている。 まず,高齢者 (N=10) と医療提供者 (N=9) の2つのインタビュー研究を行い, 患者支援非同期コミュニケーションにおけるLSMの必要性と機会について検討した。 1)高齢者向けに音声アシスタント(vas)の利便性とアクセシビリティを活用し,効果的な情報収集のためにllmを利用したvaインターフェースを構築した。 2)健康提供者向けに,高齢者のvaとの会話に基づく重要な健康情報を要約し提示するための,llmベースのダッシュボードを構築した。 さらに,高齢者と提供者との2つのユーザスタディを行い,システムのユーザビリティを評価した。 その結果,Talk2Careはコミュニケーションプロセスを促進し,高齢者の健康情報を充実させ,提供者の努力と時間を著しく節約できることがわかった。 我々は,医療と対人コミュニケーションの交点におけるllmsの能力の探索として,我々の研究を期待する。

Despite the plethora of telehealth applications to assist home-based older adults and healthcare providers, basic messaging and phone calls are still the most common communication methods, which suffer from limited availability, information loss, and process inefficiencies. One promising solution to facilitate patient-provider communication is to leverage large language models (LLMs) with their powerful natural conversation and summarization capability. However, there is a limited understanding of LLMs' role during the communication. We first conducted two interview studies with both older adults (N=10) and healthcare providers (N=9) to understand their needs and opportunities for LLMs in patient-provider asynchronous communication. Based on the insights, we built an LLM-powered communication system, Talk2Care, and designed interactive components for both groups: (1) For older adults, we leveraged the convenience and accessibility of voice assistants (VAs) and built an LLM-powered VA interface for effective information collection. (2) For health providers, we built an LLM-based dashboard to summarize and present important health information based on older adults' conversations with the VA. We further conducted two user studies with older adults and providers to evaluate the usability of the system. The results showed that Talk2Care could facilitate the communication process, enrich the health information collected from older adults, and considerably save providers' efforts and time. We envision our work as an initial exploration of LLMs' capability in the intersection of healthcare and interpersonal communication.
翻訳日:2023-09-25 17:45:27 公開日:2023-09-22
# chatgpt v bard v bing v claude 2 v aria v human-expert。 科学書のAIチャットボットはどれくらい優れているか? (第23q3)

ChatGPT v Bard v Bing v Claude 2 v Aria v human-expert. How good are AI chatbots at scientific writing? (ver. 23Q3) ( http://arxiv.org/abs/2309.08636v2 )

ライセンス: Link先を確認
Edisa Lozi\'c and Benjamin \v{S}tular(参考訳) 歴史的には、有能な文章は人間の進歩に不可欠と考えられており、創造的な表現は人間の達成の目印の一つと見なされていた。 しかし、最近の生成aiの進歩は、科学的な執筆を含むこの物語の転換点となった。 本稿では,人文科学と考古学における6つのAIチャットボットの能力と限界について,包括的に分析する。 この手法は、人間の専門家による定量的精度と質的精度のために、AI生成されたコンテンツをタグ付けする。 定量的精度は事実の正確性を評価し、質的精度は科学的貢献度を測定した。 AIチャットボット、特にChatGPT-4は、既存の知識を再結合する能力を示したが、元の科学コンテンツを生成できなかった。 また,この結果から,ChatGPT-4ではLLMのサイズが減少していたことが示唆された。 さらに,本論文は,人間研究の複雑かつ再帰的な性質を強調する。 生データを洗練された知識に変換するこのプロセスは、AIチャットボットが科学的な文章の中で人間の独創性をエミュレートする上で直面する課題を浮き彫りにしている。 結論として、大規模な言語モデルはコンテンツ生成に革命をもたらしたが、人文科学における独自の科学的貢献を生み出す能力は限られている。 近い将来、LLMベースのAIチャットボットをLLMベースのソフトウェアに進化させることで、この状況は変わるものと期待している。

Historically, proficient writing was deemed essential for human advancement, with creative expression viewed as one of the hallmarks of human achievement. However, recent advances in generative AI have marked an inflection point in this narrative, including for scientific writing. This article provides a comprehensive analysis of the capabilities and limitations of six AI chatbots in scholarly writing in the humanities and archaeology. The methodology was based on tagging AI generated content for quantitative accuracy and qualitative precision by human experts. Quantitative accuracy assessed the factual correctness, while qualitative precision gauged the scientific contribution. While the AI chatbots, especially ChatGPT-4, demonstrated proficiency in recombining existing knowledge, they failed in generating original scientific content. As a side note, our results also suggest that with ChatGPT-4 the size of the LLMs has plateaued. Furthermore, the paper underscores the intricate and recursive nature of human research. This process of transforming raw data into refined knowledge is computationally irreducible, which highlights the challenges AI chatbots face in emulating human originality in scientific writing. In conclusion, while large language models have revolutionised content generation, their ability to produce original scientific contributions in the humanities remains limited. We expect that this will change in the near future with the evolution of current LLM-based AI chatbots towards LLM-powered software.
翻訳日:2023-09-25 17:44:20 公開日:2023-09-22
# OccupancyDETR: オブジェクト検出としてストレートフォワードとしてセマンティックシーンコンプリートを作成する

OccupancyDETR: Making Semantic Scene Completion as Straightforward as Object Detection ( http://arxiv.org/abs/2309.08504v2 )

ライセンス: Link先を確認
Yupeng Jia, Jie He, Runze Chen, Fang Zhao and Haiyong Luo(参考訳) 視覚ベースの3dセマンティック占有知覚(3dセマンティックシーン補完とも呼ばれる)は、自動運転のようなロボットアプリケーションのための新しい知覚パラダイムである。 バードアイビュー(Bird's Eye View, BEV)の知覚と比較すると、垂直方向を延長し、ロボットが周囲を理解する能力を大幅に向上させる。 しかし、この理由から、現在の3Dセマンティック占有感法に対する計算需要は、一般的にはBEV知覚法や2D知覚法を超越している。 我々は,DETRのようなオブジェクト検出モジュールと3D占有デコーダモジュールからなる,新しい3D意味的占有認識手法OccupancyDETRを提案する。 オブジェクト検出の統合は、各ボクセルのセマンティクスを予測する代わりに、シーン内のオブジェクトとその3D占有グリッドを識別する。 これにより,本手法を高速化し,必要なリソースを削減し,オブジェクト検出アルゴリズムを活用する。 我々は,提案手法の有効性をSemanticKITTIデータセットで示し,23のmIoUと毎秒6フレームの処理速度を示し,リアルタイムな3Dセマンティックシーンの完成に期待できる解決策を提示する。

Visual-based 3D semantic occupancy perception (also known as 3D semantic scene completion) is a new perception paradigm for robotic applications like autonomous driving. Compared with Bird's Eye View (BEV) perception, it extends the vertical dimension, significantly enhancing the ability of robots to understand their surroundings. However, due to this very reason, the computational demand for current 3D semantic occupancy perception methods generally surpasses that of BEV perception methods and 2D perception methods. We propose a novel 3D semantic occupancy perception method, OccupancyDETR, which consists of a DETR-like object detection module and a 3D occupancy decoder module. The integration of object detection simplifies our method structurally - instead of predicting the semantics of each voxels, it identifies objects in the scene and their respective 3D occupancy grids. This speeds up our method, reduces required resources, and leverages object detection algorithm, giving our approach notable performance on small objects. We demonstrate the effectiveness of our proposed method on the SemanticKITTI dataset, showcasing an mIoU of 23 and a processing speed of 6 frames per second, thereby presenting a promising solution for real-time 3D semantic scene completion.
翻訳日:2023-09-25 17:43:47 公開日:2023-09-22
# feddcsr: disentangled representation learningによるフェデレーションクロスドメインシーケンシャルレコメンデーション

FedDCSR: Federated Cross-domain Sequential Recommendation via Disentangled Representation Learning ( http://arxiv.org/abs/2309.08420v2 )

ライセンス: Link先を確認
Hongyu Zhang, Dongyi Zheng, Xu Yang, Jiyuan Feng, Qing Liao(参考訳) 近年,複数のドメインからのユーザシーケンスデータを活用するクロスドメインシーケンスレコメンデーション(CSR)が注目されている。 しかし、既存のCSRメソッドは、GDPR(General Data Protection Regulation)に違反しているドメイン間で元のユーザデータを共有する必要がある。 したがって、データプライバシを保ちながら、異なるドメインからの知識を完全に活用するために、連邦学習(FL)とCSRを組み合わせる必要がある。 それでも、異なる領域間での配列の不均一性はFLの全体的な性能に大きな影響を及ぼす。 本稿では,連接表現学習による新しいフェデレーションクロスドメイン逐次推奨フレームワークfederated cross-domainについて述べる。 具体的には、ドメイン間のシーケンス特徴の不均一性に対処するために、ユーザシーケンス機能をドメイン共有機能とドメイン専用機能に分解するinter-intra domain sequence representation disentanglement(srd)というアプローチを導入する。 さらに、ユーザシーケンス上でデータ拡張を行うことで、よりリッチなドメイン排他的特徴を学習するためのドメイン内コントラッシブインフォマックス(CIM)戦略を設計する。 3つの実世界のシナリオに関する大規模な実験は、FedDCSRが既存のベースラインよりも大幅に改善されていることを示している。

Cross-domain Sequential Recommendation (CSR) which leverages user sequence data from multiple domains has received extensive attention in recent years. However, the existing CSR methods require sharing origin user data across domains, which violates the General Data Protection Regulation (GDPR). Thus, it is necessary to combine federated learning (FL) and CSR to fully utilize knowledge from different domains while preserving data privacy. Nonetheless, the sequence feature heterogeneity across different domains significantly impacts the overall performance of FL. In this paper, we propose FedDCSR, a novel federated cross-domain sequential recommendation framework via disentangled representation learning. Specifically, to address the sequence feature heterogeneity across domains, we introduce an approach called inter-intra domain sequence representation disentanglement (SRD) to disentangle the user sequence features into domain-shared and domain-exclusive features. In addition, we design an intra domain contrastive infomax (CIM) strategy to learn richer domain-exclusive features of users by performing data augmentation on user sequences. Extensive experiments on three real-world scenarios demonstrate that FedDCSR achieves significant improvements over existing baselines.
翻訳日:2023-09-25 17:43:24 公開日:2023-09-22
# 跳躍モノポッドの効率的な強化学習

Efficient Reinforcement Learning for Jumping Monopods ( http://arxiv.org/abs/2309.07038v2 )

ライセンス: Link先を確認
Riccardo Bussola, Michele Focchi, Andrea Del Prete, Daniele Fontanelli, Luigi Palopoli(参考訳) 本研究では,モノポッドをジャンプで目標に到達させるという複雑な制御問題を考察する。 モノポッドはあらゆる方向にジャンプでき、足の下の地形は不均一である。 これは、より広い種類の問題のテンプレートであり、標準の最適化ベース技術を使って解くのは非常に困難で計算コストが高い。 強化学習(Reinforcement Learning, RL)は興味深い方法かも知れないが、コントローラがすべてをゼロから学ばなければならないエンドツーエンドのアプローチの適用は現実的ではない。 本稿では,物理知識を注入することにより,RLフレームワーク内での学習プロセスをガイドする。 この迅速性は、学習時間の大幅な削減や、動作を実行する低レベルのコントローラで起こりうるエラーを学習し補償する機能など、幅広い利点をもたらす。 我々は、最適化ベースとエンドツーエンドのrlアプローチの両方に関して、このアプローチの利点を実証する。

In this work, we consider the complex control problem of making a monopod reach a target with a jump. The monopod can jump in any direction and the terrain underneath its foot can be uneven. This is a template of a much larger class of problems, which are extremely challenging and computationally expensive to solve using standard optimisation-based techniques. Reinforcement Learning (RL) could be an interesting alternative, but the application of an end-to-end approach in which the controller must learn everything from scratch, is impractical. The solution advocated in this paper is to guide the learning process within an RL framework by injecting physical knowledge. This expedient brings to widespread benefits, such as a drastic reduction of the learning time, and the ability to learn and compensate for possible errors in the low-level controller executing the motion. We demonstrate the advantage of our approach with respect to both optimization-based and end-to-end RL approaches.
翻訳日:2023-09-25 17:42:18 公開日:2023-09-22
# 推薦生態系のモデリング:メカニズム設計・強化学習・生成モデルにおける研究課題

Modeling Recommender Ecosystems: Research Challenges at the Intersection of Mechanism Design, Reinforcement Learning and Generative Models ( http://arxiv.org/abs/2309.06375v2 )

ライセンス: Link先を確認
Craig Boutilier, Martin Mladenov, Guy Tennenholtz(参考訳) 現代のレコメンダシステムは、ユーザ、コンテンツプロバイダ、広告主、その他のアクタの振る舞いを結合する複雑なエコシステムの中心にある。 それにもかかわらず、レコメンダラー研究の大多数(そしてあらゆる輸入の最も実用的なレコメンダ)の焦点は、個々のユーザーになされたレコメンデーションのローカルで明快な最適化である。 これは、リコメンデーターがユーザーのために生成できる長期的なユーティリティーにかなりのコストがかかる。 システム内のすべてのアクターのインセンティブと行動、そしてレコメンダのポリシーによって引き起こされる相互作用を明示的にモデル化することは、システムがこれらのアクターにもたらす価値を最大化し、全体のエコシステム「健康」を改善するために必要である、と我々は主張する。 Doing so requires: optimization over long horizons using techniques such as reinforcement learning; making inevitable tradeoffs in the utility that can be generated for different actors using the methods of social choice; reducing information asymmetry, while accounting for incentives and strategic behavior, using the tools of mechanism design; better modeling of both user and item-provider behaviors by incorporating notions from behavioral economics and psychology; and exploiting recent advances in generative and foundation models to make these mechanisms interpretable and actionable. 我々は、これらの要素を包含する概念的枠組みを提案し、これらの異なる分野の交点に現れる多くの研究課題を明確化する。

Modern recommender systems lie at the heart of complex ecosystems that couple the behavior of users, content providers, advertisers, and other actors. Despite this, the focus of the majority of recommender research -- and most practical recommenders of any import -- is on the local, myopic optimization of the recommendations made to individual users. This comes at a significant cost to the long-term utility that recommenders could generate for its users. We argue that explicitly modeling the incentives and behaviors of all actors in the system -- and the interactions among them induced by the recommender's policy -- is strictly necessary if one is to maximize the value the system brings to these actors and improve overall ecosystem "health". Doing so requires: optimization over long horizons using techniques such as reinforcement learning; making inevitable tradeoffs in the utility that can be generated for different actors using the methods of social choice; reducing information asymmetry, while accounting for incentives and strategic behavior, using the tools of mechanism design; better modeling of both user and item-provider behaviors by incorporating notions from behavioral economics and psychology; and exploiting recent advances in generative and foundation models to make these mechanisms interpretable and actionable. We propose a conceptual framework that encompasses these elements, and articulate a number of research challenges that emerge at the intersection of these different disciplines.
翻訳日:2023-09-25 17:41:48 公開日:2023-09-22
# CFGPT:大言語モデルによる中国の金融アシスタント

CFGPT: Chinese Financial Assistant with Large Language Model ( http://arxiv.org/abs/2309.10654v2 )

ライセンス: Link先を確認
Jiangtong Li, Yuxuan Bian, Guoxuan Wang, Yang Lei, Dawei Cheng, Zhijun Ding and Changjun Jiang(参考訳) 大規模言語モデル(LLM)は、金融分野における自然言語処理タスクにおいて大きな可能性を示している。 本稿では,CFGPTという中国の金融生成事前学習型トランスフォーマフレームワークについて紹介する。このフレームワークには,事前学習と教師付き微調整のためのデータセット~(CFData)と,財務テキストを適切に管理するための金融LLM〜(CFLLM)と,実際の金融アプリケーションをナビゲートするためのデプロイメントフレームワーク〜(CFAPP)とが含まれている。 事前トレーニングデータセットと教師付き微調整データセットの両方からなるcfdataは、事前トレーニングデータセットが中国の金融データと分析とを照合し、汎用テキストのごく一部に584m文書と141bトークンを合計し、教師付き微調整データセットは6つの異なる財務タスク向けに調整され、財務分析と意思決定のさまざまな面を、1.5m命令ペアと1.5bトークンで具現化している。 CFLLMは、モデル能力と大きさのバランスをとるためにInternLM-7Bをベースとして、CFDataで2段階の事前訓練と教師付き微調整を継続する。 CFAPPは、大規模言語モデル(LLM)を中心に、現実世界のアプリケーションで多面的な機能を保証するために追加モジュールを追加している。 私たちのコードはhttps://github.com/TongjiFinLab/CFGPTで公開されています。

Large language models (LLMs) have demonstrated great potential in natural language processing tasks within the financial domain. In this work, we present a Chinese Financial Generative Pre-trained Transformer framework, named CFGPT, which includes a dataset~(CFData) for pre-training and supervised fine-tuning, a financial LLM~(CFLLM) to adeptly manage financial texts, and a deployment framework~(CFAPP) designed to navigate real-world financial applications. The CFData comprising both a pre-training dataset and a supervised fine-tuning dataset, where the pre-training dataset collates Chinese financial data and analytics, alongside a smaller subset of general-purpose text with 584M documents and 141B tokens in total, and the supervised fine-tuning dataset is tailored for six distinct financial tasks, embodying various facets of financial analysis and decision-making with 1.5M instruction pairs and 1.5B tokens in total. The CFLLM, which is based on InternLM-7B to balance the model capability and size, is trained on CFData in two stage, continued pre-training and supervised fine-tuning. The CFAPP is centered on large language models (LLMs) and augmented with additional modules to ensure multifaceted functionality in real-world application. Our codes are released at https://github.com/TongjiFinLab/CFGPT.
翻訳日:2023-09-25 17:34:34 公開日:2023-09-22
# イオントラップ量子コンピュータにおけるFermi-Hubbardモデルの有限エネルギー特性に対するLoschmidt振幅の測定

Measuring the Loschmidt amplitude for finite-energy properties of the Fermi-Hubbard model on an ion-trap quantum computer ( http://arxiv.org/abs/2309.10552v2 )

ライセンス: Link先を確認
K\'evin H\'emery, Khaldoon Ghanem, Eleanor Crane, Sara L. Campbell, Joan M. Dreiling, Caroline Figgatt, Cameron Foltz, John P. Gaebler, Jacob Johansen, Michael Mills, Steven A. Moses, Juan M. Pino, Anthony Ransford, Mary Rowe, Peter Siegfried, Russell P. Stutz, Henrik Dreyer, Alexander Schuckert, Ramil Nigmatullin(参考訳) 凝縮物質系の平衡特性を計算することは、短期量子コンピューティングの有望な応用の1つである。 近年、ハイブリッド量子古典時系列アルゴリズムは、初期状態 $|\psi\rangle$ からLoschmidt振幅 $\langle \psi| e^{-i \hat H t}|\psi \rangle$ を測り、ハミルトンの$\hat H$ の時間発展から、これらの特性を効率的に抽出するために提案されている。 本研究では,現在の量子コンピュータ上でのこのアルゴリズムの動作について検討する。 具体的には,Fermi-Hubbardモデルに対するLoschmidt振幅をQuantinuum H2-1トラップイオンデバイス上の16$site ladder geometry(32軌道)で測定する。 雑音がLoschmidt振幅に与える影響を評価し,アルゴリズム固有の誤差軽減手法を実装した。 このように動機付けられた誤差モデルを用いて、有限エネルギーでの局所観測可能量の期待値を測定することにより、量子古典アルゴリズムの完全動作に対する雑音の影響を数値解析する。 最後に,アルゴリズムのスケールアップに必要なリソースを推定する。

Calculating the equilibrium properties of condensed matter systems is one of the promising applications of near-term quantum computing. Recently, hybrid quantum-classical time-series algorithms have been proposed to efficiently extract these properties from a measurement of the Loschmidt amplitude $\langle \psi| e^{-i \hat H t}|\psi \rangle$ from initial states $|\psi\rangle$ and a time evolution under the Hamiltonian $\hat H$ up to short times $t$. In this work, we study the operation of this algorithm on a present-day quantum computer. Specifically, we measure the Loschmidt amplitude for the Fermi-Hubbard model on a $16$-site ladder geometry (32 orbitals) on the Quantinuum H2-1 trapped-ion device. We assess the effect of noise on the Loschmidt amplitude and implement algorithm-specific error mitigation techniques. By using a thus-motivated error model, we numerically analyze the influence of noise on the full operation of the quantum-classical algorithm by measuring expectation values of local observables at finite energies. Finally, we estimate the resources needed for scaling up the algorithm.
翻訳日:2023-09-25 17:34:07 公開日:2023-09-22
# RadOnc-GPT:放射線腫瘍学のための大規模言語モデル

RadOnc-GPT: A Large Language Model for Radiation Oncology ( http://arxiv.org/abs/2309.10160v2 )

ライセンス: Link先を確認
Zhengliang Liu, Peilong Wang, Yiwei Li, Jason Holmes, Peng Shu, Lian Zhang, Chenbin Liu, Ninghao Liu, Dajiang Zhu, Xiang Li, Quanzheng Li, Samir H. Patel, Terence T. Sio, Tianming Liu, Wei Liu(参考訳) 本稿では,放射線オンコロジーに特化した大規模言語モデルRadOnc-GPTを提案する。 RadOnc-GPTは、アリゾナ州のマヨクリニックの放射線腫瘍学患者記録と臨床記録の大規模なデータセットに基づいて微調整された。 このモデルは、放射線治療のレギュラーを生成すること、最適な放射線モダリティを決定すること、患者診断の詳細に基づいて診断記述/ICDコードを提供する3つの重要なタスクを指導する。 RadOnc-GPT出力と一般大言語モデル出力を比較した結果,RadOnc-GPT出力は明瞭度,特異度,臨床関連性が有意に向上した。 この研究は、RadOnc-GPTのようなドメイン固有の知識を用いて、放射線腫瘍学のような高度に専門化された医療分野における変換能力を達成するために、大規模言語モデルを使用することの可能性を示した。

This paper presents RadOnc-GPT, a large language model specialized for radiation oncology through advanced tuning methods. RadOnc-GPT was finetuned on a large dataset of radiation oncology patient records and clinical notes from the Mayo Clinic in Arizona. The model employs instruction tuning on three key tasks - generating radiotherapy treatment regimens, determining optimal radiation modalities, and providing diagnostic descriptions/ICD codes based on patient diagnostic details. Evaluations conducted by comparing RadOnc-GPT outputs to general large language model outputs showed that RadOnc-GPT generated outputs with significantly improved clarity, specificity, and clinical relevance. The study demonstrated the potential of using large language models fine-tuned using domain-specific knowledge like RadOnc-GPT to achieve transformational capabilities in highly specialized healthcare fields such as radiation oncology.
翻訳日:2023-09-25 17:33:41 公開日:2023-09-22
# フォールトトレラント双曲フロッケ量子誤り訂正符号

Fault-tolerant hyperbolic Floquet quantum error correcting codes ( http://arxiv.org/abs/2309.10033v2 )

ライセンス: Link先を確認
Ali Fahimniya, Hossein Dehghani, Kishor Bharti, Sheryl Mathew, Alicia J. Koll\'ar, Alexey V. Gorshkov, Michael J. Gullans(参考訳) 量子誤差補正の中心的な目標は、ノイズしきい値を増やし、論理量子ビットを維持するのに必要な物理量子ビットの数を減らすことで、フォールトトレラント量子コンピューティングのオーバーヘッドを削減することである。 我々は、動的に生成された量子誤り訂正符号のファミリーに基づいて、この目標に向かっての潜在的な経路を導入する。 これらの符号は、負の曲率を持つ双曲多様体上の位相コードを安定させる周期的に配置された非可換な2体測定の特定の列によって定義される。 我々はn$ qubitsの格子群に焦点を当て、コードを定義する処方法によれば、有限符号化レート(1/8+2/n)$を達成し、深さ-3症候群抽出回路を持つ。 双曲曲面符号と同様に、各時間ステップにおけるコードの距離は、最も対数的に n$ でスケールする。 私たちが選択した格子の族は、このスケーリングが実際に実現可能であることを示している。 現象論的ノイズモデルにおいて,しきい値が0.1%に近いことを示す効率的なマッチングベースのデコーダを開発した。 重み2のチェック演算子と3つの量子ビット接続を利用することで、私たちの双曲的なフロッケ符号の1つは、400の物理量子ビットを使用して、コード距離8の52の論理量子ビットを符号化します。 小さなエラーレートでは、同じノイズモデルとデコーダを持つhoneycomb floquetコードを使用する場合、同様の論理エラー抑制は、物理キュービットの5倍 (1924) を必要とする。

A central goal in quantum error correction is to reduce the overhead of fault-tolerant quantum computing by increasing noise thresholds and reducing the number of physical qubits required to sustain a logical qubit. We introduce a potential path towards this goal based on a family of dynamically generated quantum error correcting codes that we call "hyperbolic Floquet codes." These codes are defined by a specific sequence of non-commuting two-body measurements arranged periodically in time that stabilize a topological code on a hyperbolic manifold with negative curvature. We focus on a family of lattices for $n$ qubits that, according to our prescription that defines the code, provably achieve a finite encoding rate $(1/8+2/n)$ and have a depth-3 syndrome extraction circuit. Similar to hyperbolic surface codes, the distance of the code at each time-step scales at most logarithmically in $n$. The family of lattices we choose indicates that this scaling is achievable in practice. We develop and benchmark an efficient matching-based decoder that provides evidence of a threshold near 0.1% in a phenomenological noise model. Utilizing weight-two check operators and a qubit connectivity of 3, one of our hyperbolic Floquet codes uses 400 physical qubits to encode 52 logical qubits with a code distance of 8, i.e., it is a $[[400,52,8]]$ code. At small error rates, comparable logical error suppression to this code requires 5x as many physical qubits (1924) when using the honeycomb Floquet code with the same noise model and decoder.
翻訳日:2023-09-25 17:33:01 公開日:2023-09-22
# 軽度外傷性脳損傷診断のための3次元多モード残差畳み込みニューラルネットワーク

Interpretable 3D Multi-Modal Residual Convolutional Neural Network for Mild Traumatic Brain Injury Diagnosis ( http://arxiv.org/abs/2309.12572v1 )

ライセンス: Link先を確認
Hanem Ellethy, Viktor Vegh and Shekhar S. Chandra(参考訳) 軽度外傷性脳損傷(mtbi)は、その高頻度と長期的健康影響の可能性から、公衆衛生上の重要な課題である。 CT(Computed Tomography)はmTBIの標準的な診断ツールであるが, 症状の証拠があるにもかかわらず, mTBI患者に正常な結果をもたらすことが多い。 この事実は正確な診断の複雑さを浮き彫りにする。 本研究では,オクルージョン感度マップ(osm)を用いたmtbi診断モデルのための,解釈可能な3次元マルチモーダル残差畳み込みニューラルネットワーク(mrcnn)を提案する。 mrcnnモデルは、mtbi診断において有望な性能を示し、平均精度82.4%、感度82.6%、特異度81.6%を5倍のクロスバリデーション法で検証した。 特に、CTベースのResidual Convolutional Neural Network (RCNN)モデルと比較して、MRCNNは特異性4.4%、精度9.0%の改善を示している。 osm は grad-cam アプローチと比較して,ct 画像に対する優れたデータ駆動的洞察を提供する。 これらの結果は,mTBIの診断精度を高めるために提案したマルチモーダルモデルの有効性を強調した。

Mild Traumatic Brain Injury (mTBI) is a significant public health challenge due to its high prevalence and potential for long-term health effects. Despite Computed Tomography (CT) being the standard diagnostic tool for mTBI, it often yields normal results in mTBI patients despite symptomatic evidence. This fact underscores the complexity of accurate diagnosis. In this study, we introduce an interpretable 3D Multi-Modal Residual Convolutional Neural Network (MRCNN) for mTBI diagnostic model enhanced with Occlusion Sensitivity Maps (OSM). Our MRCNN model exhibits promising performance in mTBI diagnosis, demonstrating an average accuracy of 82.4%, sensitivity of 82.6%, and specificity of 81.6%, as validated by a five-fold cross-validation process. Notably, in comparison to the CT-based Residual Convolutional Neural Network (RCNN) model, the MRCNN shows an improvement of 4.4% in specificity and 9.0% in accuracy. We show that the OSM offers superior data-driven insights into CT images compared to the Grad-CAM approach. These results highlight the efficacy of the proposed multi-modal model in enhancing the diagnostic precision of mTBI.
翻訳日:2023-09-25 16:23:44 公開日:2023-09-22
# 大規模言語モデル時代の創造性支援--創発的作家を巻き込んだ実証的研究

Creativity Support in the Age of Large Language Models: An Empirical Study Involving Emerging Writers ( http://arxiv.org/abs/2309.12570v1 )

ライセンス: Link先を確認
Tuhin Chakrabarty, Vishakh Padmakumar, Faeze Brahman, Smaranda Muresan(参考訳) 大規模言語モデル(llm)の開発は、命令に従うことができ、会話的な対話に関与できるようになり、様々なサポートツールへの利用への関心が高まった。 経験的ユーザスタディ (n=30) を通じて, プロのライターを支援するための現代LLMの有用性について検討する。 協調的な筆記インタフェースの設計は、書記を非線形認知活動(計画、翻訳、レビュー)を含む目標志向の思考プロセスとして考えることの認知プロセスモデルに根ざしている。 参加者は、LLMの潜在的および落とし穴に関するフィードバックを共同執筆者として提供するために、完成後調査を提出するよう求められている。 著者とLLMの相互作用を分析すると,LLMが3種類の認知活動にまたがって助けを求める一方で,LLMが翻訳やレビューに有用であることが分かる。 LLMを用いた創造的執筆支援における今後の研究の方向性を明らかにするために,インタラクションと調査回答の両方を分析した。

The development of large language models (LLMs) capable of following instructions and engaging in conversational interactions sparked increased interest in their utilization across various support tools. We investigate the utility of modern LLMs in assisting professional writers via an empirical user study (n=30). The design of our collaborative writing interface is grounded in the cognitive process model of writing that views writing as a goal-oriented thinking process encompassing non-linear cognitive activities: planning, translating, and reviewing. Participants are asked to submit a post-completion survey to provide feedback on the potential and pitfalls of LLMs as writing collaborators. Upon analyzing the writer-LLM interactions, we find that while writers seek LLM's help across all three types of cognitive activities, they find LLMs more helpful in translation and reviewing. Our findings from analyzing both the interactions and the survey responses highlight future research directions in creative writing assistance using LLMs.
翻訳日:2023-09-25 16:23:22 公開日:2023-09-22
# マルチモーダル知覚を用いたソーシャルロボットナビゲーションの学習に関する研究

A Study on Learning Social Robot Navigation with Multimodal Perception ( http://arxiv.org/abs/2309.12568v1 )

ライセンス: Link先を確認
Bhabaranjan Panigrahi, Amir Hossain Raj, Mohammad Nazeri and Xuesu Xiao(参考訳) 自律移動ロボットは、搭載されたセンサー(LiDARやRGBカメラなど)で環境を認識し、適切なナビゲーション決定を行う必要がある。 人の居住する公共空間をナビゲートするためには、そのようなナビゲーションタスクは単なる障害物回避以上のものとなるだけでなく、周囲の人間とその意図も考慮し、社会的な規範、すなわち社会に順応する社会規範に応じてナビゲーション行動を変える必要がある。 機械学習手法は、単純化されたモデルやコスト関数を明確に手作りすることなく、複雑な、微妙な社会的相互作用をデータ駆動で捉えるのに効果的であることが示されている。 本稿では,複数のセンサモードと学習方法の効率を考慮し,大規模実世界データセットを用いたマルチモーダル知覚によるソーシャルロボットナビゲーションの学習に関する包括的研究を行う。 本研究は,グローバルとローカルの両方の計画レベルでのソーシャルロボットナビゲーションの意思決定と,異なる社会シナリオにおける古典的ナビゲーションアプローチに対するユニモーダル学習とマルチモーダル学習の対比について検討するとともに,学習の観点からのトレーニングと一般化可能性のパフォーマンスも分析した。 また,マルチモーダル認知による学習が社会的コンプライアンスに与える影響について人間実験を行った。 その結果、マルチモーダル学習は、データセットと人間研究の両方において、ユニモーダル学習よりも明らかに有利であることが示された。 我々は,社会ロボットナビゲーション学習のためのマルチモーダル認識を研究するために,コミュニティの将来的な利用のためのコードをオープンソース化した。

Autonomous mobile robots need to perceive the environments with their onboard sensors (e.g., LiDARs and RGB cameras) and then make appropriate navigation decisions. In order to navigate human-inhabited public spaces, such a navigation task becomes more than only obstacle avoidance, but also requires considering surrounding humans and their intentions to somewhat change the navigation behavior in response to the underlying social norms, i.e., being socially compliant. Machine learning methods are shown to be effective in capturing those complex and subtle social interactions in a data-driven manner, without explicitly hand-crafting simplified models or cost functions. Considering multiple available sensor modalities and the efficiency of learning methods, this paper presents a comprehensive study on learning social robot navigation with multimodal perception using a large-scale real-world dataset. The study investigates social robot navigation decision making on both the global and local planning levels and contrasts unimodal and multimodal learning against a set of classical navigation approaches in different social scenarios, while also analyzing the training and generalizability performance from the learning perspective. We also conduct a human study on how learning with multimodal perception affects the perceived social compliance. The results show that multimodal learning has a clear advantage over unimodal learning in both dataset and human studies. We open-source our code for the community's future use to study multimodal perception for learning social robot navigation.
翻訳日:2023-09-25 16:23:07 公開日:2023-09-22
# 高度なロボットマニピュレーションを実現する機械学習

Machine Learning Meets Advanced Robotic Manipulation ( http://arxiv.org/abs/2309.12560v1 )

ライセンス: Link先を確認
Saeid Nahavandi, Roohallah Alizadehsani, Darius Nahavandi, Chee Peng Lim, Kevin Kelly, Fernando Bello(参考訳) 自動化された産業は高品質な生産、製造コストの低減、人材の活用に繋がる。 ロボットマニピュレータアームは、自動化プロセスにおいて大きな役割を果たす。 しかし、複雑な操作タスクでは、ハードコーディングが効率的で安全な軌道は困難であり、時間がかかる。 機械学習手法は、専門家によるデモンストレーションに基づいて、そのようなコントローラを学習する可能性がある。 有望な進歩にもかかわらず、トレーニングフェーズとデプロイメントフェーズの両方において、mlメソッドの安全性、信頼性、効率を改善するためのより良いアプローチが開発されなければならない。 本調査は,最先端技術と実世界の操作タスクに適用されるML手法の動向を概観することを目的とする。 MLに関する関連背景をレビューした後、残りの論文は、産業、医療、農業、宇宙、軍事、捜索・救助など、さまざまな分野におけるML応用に焦点を当てている。 この論文は将来の研究のために重要な研究の方向で締めくくられている。

Automated industries lead to high quality production, lower manufacturing cost and better utilization of human resources. Robotic manipulator arms have major role in the automation process. However, for complex manipulation tasks, hard coding efficient and safe trajectories is challenging and time consuming. Machine learning methods have the potential to learn such controllers based on expert demonstrations. Despite promising advances, better approaches must be developed to improve safety, reliability, and efficiency of ML methods in both training and deployment phases. This survey aims to review cutting edge technologies and recent trends on ML methods applied to real-world manipulation tasks. After reviewing the related background on ML, the rest of the paper is devoted to ML applications in different domains such as industry, healthcare, agriculture, space, military, and search and rescue. The paper is closed with important research directions for future works.
翻訳日:2023-09-25 16:22:38 公開日:2023-09-22
# 十分かつ必要な原因の確率による不変学習

Invariant Learning via Probability of Sufficient and Necessary Causes ( http://arxiv.org/abs/2309.12559v1 )

ライセンス: Link先を確認
Mengyue Yang, Zhen Fang, Yonggang Zhang, Yali Du, Furui Liu, Jean-Francois Ton, Jun Wang(参考訳) アウト・オブ・ディストリビューション(OOD)の一般化は、一般にテスト分布が未知であり、トレーニングとは異なる、野生のモデルの学習には不可欠である。 因果関係から導かれる最近の手法は、OOD一般化の実現に大きな可能性を示している。 しかし、既存の方法は主に原因の不変性に焦点を合わせ、主に \textit{sufficiency} と \textit{necessity} の条件の性質を見下ろしている。 すなわち、必要だが不十分な原因(特徴)は分布シフトに不変であるが、正確さは必要ではない。 対照的に、十分な不必要な原因(機能)は特定のデータによく適合する傾向があるが、新しいドメインに適応するリスクがある。 十分かつ必要な原因に関する情報を収集するために、我々は、必要かつ十分な原因であるかどうかを示す古典的な概念、充足確率と必要原因(PNS)を用いる。 PNS と OOD の一般化を関連付けるために,我々は PNS リスクを提案し,高い PNS 値で表現を学習するアルゴリズムを定式化する。 PNSリスクの一般化性を理論的に分析し,実証する。 合成および実世界のベンチマーク実験により,提案手法の有効性が示された。 実装の詳細はgithubリポジトリにある。 https://github.com/ymy4323460/casn。

Out-of-distribution (OOD) generalization is indispensable for learning models in the wild, where testing distribution typically unknown and different from the training. Recent methods derived from causality have shown great potential in achieving OOD generalization. However, existing methods mainly focus on the invariance property of causes, while largely overlooking the property of \textit{sufficiency} and \textit{necessity} conditions. Namely, a necessary but insufficient cause (feature) is invariant to distribution shift, yet it may not have required accuracy. By contrast, a sufficient yet unnecessary cause (feature) tends to fit specific data well but may have a risk of adapting to a new domain. To capture the information of sufficient and necessary causes, we employ a classical concept, the probability of sufficiency and necessary causes (PNS), which indicates the probability of whether one is the necessary and sufficient cause. To associate PNS with OOD generalization, we propose PNS risk and formulate an algorithm to learn representation with a high PNS value. We theoretically analyze and prove the generalizability of the PNS risk. Experiments on both synthetic and real-world benchmarks demonstrate the effectiveness of the proposed method. The details of the implementation can be found at the GitHub repository: https://github.com/ymy4323460/CaSN.
翻訳日:2023-09-25 16:22:24 公開日:2023-09-22
# 半監督セマンティックセグメンテーションのためのトリプルビュー知識蒸留

Triple-View Knowledge Distillation for Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2309.12557v1 )

ライセンス: Link先を確認
Ping Li and Junjie Chen and Li Yuan and Xianghua Xu and Mingli Song(参考訳) 高価な人間のラベル付けを緩和するため、半教師付きセマンティックセグメンテーションでは、いくつかのラベル付き画像と多くのラベルなし画像を用いて、同じ大きさのピクセルレベルのラベルマップを予測する。 従来の手法では、同じアーキテクチャを持つ2つの畳み込みネットワークを用いたコトレーニングを採用するが、初期化は異なる。 これにより、三重学習を用いて、異なるアーキテクチャのエンコーダを使用して多様な特徴を導き、知識蒸留技術を利用して、それらのエンコーダ間の相補的意味学を学ぶことができる。 さらに、既存のメソッドは、エンコーダとデコーダの両方から機能を結合するだけで、メモリコストが大きい冗長な機能を実現できる。 これにより、空間領域から周波数領域へ特徴を投影することで重要な特徴を選択するデュアル周波数デコーダを考案し、その特徴をモデル化するためのデュアル周波数チャネルアテンション機構を導入する。 そこで,我々は,トリプルビューエンコーダとデュアル周波数デコーダを含む半教師付き意味セグメンテーションのための三重ビュー知識蒸留フレームワークtrikdを提案する。 提案手法の精度と推定速度のトレードオフを良好に保ちながら, 提案手法の優位性を検証した, 2つのベンチマーク, \ie, Pascal VOC 2012, Cityscapes を用いて実験を行った。

To alleviate the expensive human labeling, semi-supervised semantic segmentation employs a few labeled images and an abundant of unlabeled images to predict the pixel-level label map with the same size. Previous methods often adopt co-training using two convolutional networks with the same architecture but different initialization, which fails to capture the sufficiently diverse features. This motivates us to use tri-training and develop the triple-view encoder to utilize the encoders with different architectures to derive diverse features, and exploit the knowledge distillation skill to learn the complementary semantics among these encoders. Moreover, existing methods simply concatenate the features from both encoder and decoder, resulting in redundant features that require large memory cost. This inspires us to devise a dual-frequency decoder that selects those important features by projecting the features from the spatial domain to the frequency domain, where the dual-frequency channel attention mechanism is introduced to model the feature importance. Therefore, we propose a Triple-view Knowledge Distillation framework, termed TriKD, for semi-supervised semantic segmentation, including the triple-view encoder and the dual-frequency decoder. Extensive experiments were conducted on two benchmarks, \ie, Pascal VOC 2012 and Cityscapes, whose results verify the superiority of the proposed method with a good tradeoff between precision and inference speed.
翻訳日:2023-09-25 16:22:02 公開日:2023-09-22
# planfitting: 大きな言語モデルでパーソナライズされたエクササイズプランを調整する

PlanFitting: Tailoring Personalized Exercise Plans with Large Language Models ( http://arxiv.org/abs/2309.12555v1 )

ライセンス: Link先を確認
Donghoon Shin, Gary Hsieh, Young-Ho Kim(参考訳) 個人が調整したエクササイズレジームは十分な身体活動を確保するために不可欠であるが、人々が複雑なスケジュールと考慮を持ち、計画の作成には専門家とのイテレーションを必要とするため、創造が困難である。 個人化された運動計画を支援する会話型AIであるPlanFittingを紹介する。 PlanFittingは、大規模言語モデルの生成機能を活用することで、ユーザーが自然言語で様々な制約やクエリを記述できるようにし、基本原則に根ざしながら、特定の状況に合った週ごとのエクササイズプランの作成と改善を容易にする。 参加者(N=18)がPlanFittingとExpert Planners(N=3)を用いてパーソナライズされたエクササイズプランを作成したユーザスタディを通じて、PlanFittingがパーソナライズされ、行動可能で、エビデンスに基づいたエクサプランを生成する可能性を確認した。 我々は、エクササイズ原則に合致し、個人的な制約に合致する計画を作成するための、aiアシスタントの将来の設計機会について論じる。

A personally tailored exercise regimen is crucial to ensuring sufficient physical activities, yet challenging to create as people have complex schedules and considerations and the creation of plans often requires iterations with experts. We present PlanFitting, a conversational AI that assists in personalized exercise planning. Leveraging generative capabilities of large language models, PlanFitting enables users to describe various constraints and queries in natural language, thereby facilitating the creation and refinement of their weekly exercise plan to suit their specific circumstances while staying grounded in foundational principles. Through a user study where participants (N=18) generated a personalized exercise plan using PlanFitting and expert planners (N=3) evaluated these plans, we identified the potential of PlanFitting in generating personalized, actionable, and evidence-based exercise plans. We discuss future design opportunities for AI assistants in creating plans that better comply with exercise principles and accommodate personal constraints.
翻訳日:2023-09-25 16:21:34 公開日:2023-09-22
# テキストをターゲット可読性レベルに修正することは可能か? ゼロショット大言語モデルを用いた初期検討

Is it Possible to Modify Text to a Target Readability Level? An Initial Investigation Using Zero-Shot Large Language Models ( http://arxiv.org/abs/2309.12551v1 )

ライセンス: Link先を確認
Asma Farajidizaji, Vatsal Raina, Mark Gales(参考訳) テキストの単純化は、テキストが理解しやすいように適応される一般的なタスクです。 同様に、テキストの精巧化は、文章をより洗練されたものにし、理解テストの読みの複雑さを制御する方法を提供する。 しかし、テキストの簡易化と詳細化のタスクは、テキストの可読性を変更するだけに限られている。 あらゆるテキストの可読性を直接ターゲットの可読性レベルに修正して、多様なオーディエンスに適応させることが有用である。 理想的には、可読性制御された生成テキストの可読性は、ソーステキストとは独立すべきである。 そこで本研究では,新しい可読性制御型テキスト修正タスクを提案する。 このタスクでは、入力テキストごとに、様々なターゲット可読レベルで8つのバージョンを生成する必要がある。 本稿では,新しい可読性制御型テキスト修正指標を提案する。 このタスクのベースラインはchatgptとllama-2を使用し、2段階のプロセス(言語モデルを2回通過することでパラフレーズを生成する)を導入する拡張アプローチを採用している。 ゼロショットアプローチはパラフレーズの可読性を所望の方向に押し上げることができるが、最終的な可読性は元のテキストの可読性と相関する。 また、ソーステキストとターゲットテキストのセマンティクスや語彙的類似性が大きく低下し、可読性が大きく変化した。

Text simplification is a common task where the text is adapted to make it easier to understand. Similarly, text elaboration can make a passage more sophisticated, offering a method to control the complexity of reading comprehension tests. However, text simplification and elaboration tasks are limited to only relatively alter the readability of texts. It is useful to directly modify the readability of any text to an absolute target readability level to cater to a diverse audience. Ideally, the readability of readability-controlled generated text should be independent of the source text. Therefore, we propose a novel readability-controlled text modification task. The task requires the generation of 8 versions at various target readability levels for each input text. We introduce novel readability-controlled text modification metrics. The baselines for this task use ChatGPT and Llama-2, with an extension approach introducing a two-step process (generating paraphrases by passing through the language model twice). The zero-shot approaches are able to push the readability of the paraphrases in the desired direction but the final readability remains correlated with the original text's readability. We also find greater drops in semantic and lexical similarity between the source and target texts with greater shifts in the readability.
翻訳日:2023-09-25 16:21:13 公開日:2023-09-22
# 質問生成のための自動応答性評価

Automatic Answerability Evaluation for Question Generation ( http://arxiv.org/abs/2309.12546v1 )

ライセンス: Link先を確認
Zifan Wang, Kotaro Funakoshi, Manabu Okumura(参考訳) 自然言語生成(nlg)タスク用に開発されたbleuやrougeなどの従来の自動評価指標は、生成されたテキストと参照テキストのn-gram重なりの測定に基づいている。 これらの単純なメトリクスは、質問生成(QG)のようなより複雑なタスクには不十分であり、参照された回答によって答えられる質問を生成する必要がある。 より高度な自動評価指標の開発は、QG研究において緊急の問題として残っている。 本研究は,qgタスクに対する基準回答によって生成された質問が回答可能かどうかを評価するための,新しい自動評価指標であるpman(progging-based metric on answerability)を提案する。 大規模な実験により、評価結果は信頼性が高く、人間の評価と一致していることが示された。 さらに,従来の指標を補完する指標であるQGモデルの性能評価に指標を適用した。 ChatGPTに基づくQGモデルの実装は,解答可能な質問を生成する上で,最先端(SOTA)性能を実現する。

Conventional automatic evaluation metrics, such as BLEU and ROUGE, developed for natural language generation (NLG) tasks, are based on measuring the n-gram overlap between the generated and reference text. These simple metrics may be insufficient for more complex tasks, such as question generation (QG), which requires generating questions that are answerable by the reference answers. Developing a more sophisticated automatic evaluation metric, thus, remains as an urgent problem in QG research. This work proposes a Prompting-based Metric on ANswerability (PMAN), a novel automatic evaluation metric to assess whether the generated questions are answerable by the reference answers for the QG tasks. Extensive experiments demonstrate that its evaluation results are reliable and align with human evaluations. We further apply our metric to evaluate the performance of QG models, which shows our metric complements conventional metrics. Our implementation of a ChatGPT-based QG model achieves state-of-the-art (SOTA) performance in generating answerable questions.
翻訳日:2023-09-25 16:20:53 公開日:2023-09-22
# ロバスト最適化によるニューラルネットワークのロバストで実現可能な反事実的説明

Provably Robust and Plausible Counterfactual Explanations for Neural Networks via Robust Optimisation ( http://arxiv.org/abs/2309.12545v1 )

ライセンス: Link先を確認
Junqi Jiang, Jianglin Lan, Francesco Leofante, Antonio Rago, Francesca Toni(参考訳) ニューラルネットワークの分類法を説明する主要な方法論として、CE(Counterfactual Explanations)が注目されている。 通常、入力出力対のCEは、出力と異なるラベルで分類された入力と最小距離のデータポイントとして定義される。 モデルパラメータが更新された場合(例えば再訓練)にCEが容易に無効になるという確固たる問題に対処するために、標準球で束縛されたモデルパラメータ変化の下でCEの堅牢性を証明する方法が提案されている。 しかし、このような頑丈さを目標とする既存の手法は、音や完全ではなく、不明瞭なCEを生成する可能性がある。 実際、ロバスト性保証を維持しつつ、近接性と可能性を同時に最適化する既存の方法は存在しない。 本稿では,文献の制約に対処するために,頑健な最適化技術を活用したPROPLACE(Provably RObust and PLAUSible Counterfactual Explanations)を提案する。 逐次アルゴリズムを定式化し,頑健なcesを計算し,その収束性,健全性,完全性を証明する。 6つのベースライン(うち5つはロバスト性)を対象とする比較実験により, ProPLACEが3つの評価面における測定値に対して最先端のパフォーマンスを達成することを示す。

Counterfactual Explanations (CEs) have received increasing interest as a major methodology for explaining neural network classifiers. Usually, CEs for an input-output pair are defined as data points with minimum distance to the input that are classified with a different label than the output. To tackle the established problem that CEs are easily invalidated when model parameters are updated (e.g. retrained), studies have proposed ways to certify the robustness of CEs under model parameter changes bounded by a norm ball. However, existing methods targeting this form of robustness are not sound or complete, and they may generate implausible CEs, i.e., outliers wrt the training dataset. In fact, no existing method simultaneously optimises for proximity and plausibility while preserving robustness guarantees. In this work, we propose Provably RObust and PLAusible Counterfactual Explanations (PROPLACE), a method leveraging on robust optimisation techniques to address the aforementioned limitations in the literature. We formulate an iterative algorithm to compute provably robust CEs and prove its convergence, soundness and completeness. Through a comparative experiment involving six baselines, five of which target robustness, we show that PROPLACE achieves state-of-the-art performances against metrics on three evaluation aspects.
翻訳日:2023-09-25 16:20:36 公開日:2023-09-22
# ターゲット平均治療効果の多元的ロバストフェデレーション推定

Multiply Robust Federated Estimation of Targeted Average Treatment Effects ( http://arxiv.org/abs/2309.12600v1 )

ライセンス: Link先を確認
Larry Han and Zhu Shen and Jose Zubizarreta(参考訳) フェデレートまたはマルチサイト研究は、一般化性の向上、低表示人口の研究能力、希少な露出と結果を研究する機会など、単一サイト研究よりも異なる利点がある。 しかし、これらの研究は個々のデータのプライバシーと共変量分布の不均一性を維持する必要があるため、困難である。 多地点データを用いた対象個体群に対する有効な因果推論を導出するための新しいフェデレーション手法を提案する。 多重ロバストおよびプライバシ保存ニュアサンス関数推定により,サイト間の共変量シフトと共変量ミスマッチの調整を行う。 提案手法では,移動学習を組み込んでアンサンブル重みを推定し,ソースサイトからの情報を組み合わせる。 これらの学習重量は異なるシナリオにおいて効率的かつ最適であることを示す。 従来のアプローチと比較して,効率と堅牢性の観点から,本手法の有限サンプル長所を示す。

Federated or multi-site studies have distinct advantages over single-site studies, including increased generalizability, the ability to study underrepresented populations, and the opportunity to study rare exposures and outcomes. However, these studies are challenging due to the need to preserve the privacy of each individual's data and the heterogeneity in their covariate distributions. We propose a novel federated approach to derive valid causal inferences for a target population using multi-site data. We adjust for covariate shift and covariate mismatch between sites by developing multiply-robust and privacy-preserving nuisance function estimation. Our methodology incorporates transfer learning to estimate ensemble weights to combine information from source sites. We show that these learned weights are efficient and optimal under different scenarios. We showcase the finite sample advantages of our approach in terms of efficiency and robustness compared to existing approaches.
翻訳日:2023-09-25 16:14:18 公開日:2023-09-22
# DeFormer: 単一画像からの3次元形状抽象化のための変形可能なモデルと変換器の統合

DeFormer: Integrating Transformers with Deformable Models for 3D Shape Abstraction from a Single Image ( http://arxiv.org/abs/2309.12594v1 )

ライセンス: Link先を確認
Di Liu, Xiang Yu, Meng Ye, Qilong Zhangli, Zhuowei Li, Zhixing Zhang, Dimitris N. Metaxas(参考訳) 単一の2d画像からの正確な3d形状の抽象化は、コンピュータビジョンとグラフィックスの長年の問題である。 対象形状を表すためにプリミティブのセットを活用することで、最近の手法は有望な結果を得た。 しかし、これらの手法は比較的多くのプリミティブを使用するか、プリミティブの表現可能性に制限があるため幾何学的柔軟性を欠いている。 本稿では,プリミティブの大域的および局所的な変形を同時に推定するために,パラメータ化された変形可能なモデルと統合した新しいバイチャネルトランスフォーマアーキテクチャを提案する。 このようにして、deformerは、より広い幾何学的範囲とより詳細な詳細を提供する少数のプリミティブを使いながら、複雑なオブジェクトの形状を抽象化することができる。 次に,プリミティブパラメータを最適化するために,力駆動型動的フィッティングとサイクル一貫性のある再射影損失を導入する。 様々な設定にわたるShapeNetに関する大規模な実験により、DeFormerは最先端の再現精度を向上し、一貫したセマンティック対応で可視化し、解釈可能性を向上させる。

Accurate 3D shape abstraction from a single 2D image is a long-standing problem in computer vision and graphics. By leveraging a set of primitives to represent the target shape, recent methods have achieved promising results. However, these methods either use a relatively large number of primitives or lack geometric flexibility due to the limited expressibility of the primitives. In this paper, we propose a novel bi-channel Transformer architecture, integrated with parameterized deformable models, termed DeFormer, to simultaneously estimate the global and local deformations of primitives. In this way, DeFormer can abstract complex object shapes while using a small number of primitives which offer a broader geometry coverage and finer details. Then, we introduce a force-driven dynamic fitting and a cycle-consistent re-projection loss to optimize the primitive parameters. Extensive experiments on ShapeNet across various settings show that DeFormer achieves better reconstruction accuracy over the state-of-the-art, and visualizes with consistent semantic correspondences for improved interpretability.
翻訳日:2023-09-25 16:14:01 公開日:2023-09-22
# 対人訓練による機械学習のロバスト性向上

Improving Machine Learning Robustness via Adversarial Training ( http://arxiv.org/abs/2309.12593v1 )

ライセンス: Link先を確認
Long Dang, Thushari Hapuarachchi, Kaiqi Xiong, Jing Lin(参考訳) 機械学習(ML)が現実世界のアプリケーションで様々なタスクを解くのにますます使われているため、MLアルゴリズムが最悪の場合のノイズや敵攻撃、設計時に非常に異常な状況に対して堅牢であることを保証することが不可欠である。 MLの堅牢性を研究することは、MLアルゴリズムの設計に大いに役立つだろう。 本稿では,複数のコンピュータでMLトレーニングとテストを行う集中型・分散型環境において,対向学習を用いたMLロバスト性について検討する。 集中環境では,Fast Gradient Sign Method と DeepFool によって生成された逆数例をそれぞれ分類すると,65.41% と 83.0% の試験精度が得られる。 これまでの研究では、FGSMでは18.41%、DeepFoolでは47%の改善が見られた。 分散環境では,cifar-10を用いて,独立分散(iid)と非iid(non-iid)データを用いた敵対的学習を用いて,連合学習(fl)の堅牢性について検討する。 IIDデータの場合, 実験結果から, 集中環境において得られたものと同等の精度を達成できることが示されている。 また、非iidデータの場合、自然精度は66.23%から57.82%に低下し、c&wおよび投影勾配降下(pgd)攻撃のロバスト精度は、それぞれiidデータケースと比較して25%、23.4%低下する。 さらに,c&w攻撃では85.04%,c&w攻撃では57%から72%,pgd攻撃では59%から67%に,自然精度を85.04%に向上させるiidデータ共有手法を提案する。

As Machine Learning (ML) is increasingly used in solving various tasks in real-world applications, it is crucial to ensure that ML algorithms are robust to any potential worst-case noises, adversarial attacks, and highly unusual situations when they are designed. Studying ML robustness will significantly help in the design of ML algorithms. In this paper, we investigate ML robustness using adversarial training in centralized and decentralized environments, where ML training and testing are conducted in one or multiple computers. In the centralized environment, we achieve a test accuracy of 65.41% and 83.0% when classifying adversarial examples generated by Fast Gradient Sign Method and DeepFool, respectively. Comparing to existing studies, these results demonstrate an improvement of 18.41% for FGSM and 47% for DeepFool. In the decentralized environment, we study Federated learning (FL) robustness by using adversarial training with independent and identically distributed (IID) and non-IID data, respectively, where CIFAR-10 is used in this research. In the IID data case, our experimental results demonstrate that we can achieve such a robust accuracy that it is comparable to the one obtained in the centralized environment. Moreover, in the non-IID data case, the natural accuracy drops from 66.23% to 57.82%, and the robust accuracy decreases by 25% and 23.4% in C&W and Projected Gradient Descent (PGD) attacks, compared to the IID data case, respectively. We further propose an IID data-sharing approach, which allows for increasing the natural accuracy to 85.04% and the robust accuracy from 57% to 72% in C&W attacks and from 59% to 67% in PGD attacks.
翻訳日:2023-09-25 16:13:41 公開日:2023-09-22
# blue birdsがx-tinctになる前:twitterの広告と広告ポリシーの遵守に対する体制変更の影響を理解する

Before Blue Birds Became X-tinct: Understanding the Effect of Regime Change on Twitter's Advertising and Compliance of Advertising Policies ( http://arxiv.org/abs/2309.12591v1 )

ライセンス: Link先を確認
Yash Vekaria (1), Zubair Shafiq (1), Savvas Zannettou (2) ((1) University of California, Davis, (2) Delft University of Technology)(参考訳) Twitter(現在のX)を含むソーシャルメディアプラットフォームには、安全で信頼できる広告環境を維持するためのポリシーがある。 しかし、これらの政策が遵守・施行される範囲は、依然として関心と関心の対象となっている。 本稿では,twitter上の広告の大規模な監査について,特に政治やアダルトコンテンツに関する広告ポリシーに準拠することに焦点を当てて紹介する。 当社は、twitter上の広告のコンプライアンスとプラットフォームに規定されたポリシー、および最近の買収がプラットフォームの広告活動に与える影響について調査する。 6ヶ月にわたって収集された約6億件のツイートから34万件の広告を分析することで、Twitterの政治・成人向けコンテンツ広告ポリシーに広く不適合な証拠を見出した。 また、elon muskによるtwitterの買収は広告界に大きな影響を与えており、既存の広告主は広告活動を完全に停止するか、あるいは縮小するかのどちらかだ。 主要ブランドはtwitterの広告を減らし、プラットフォームの広告収入に悪影響を及ぼすことを示唆した。 オンライン広告におけるコンプライアンスの監視と透明性向上のための外部監査の重要性を明らかにする。

Social media platforms, including Twitter (now X), have policies in place to maintain a safe and trustworthy advertising environment. However, the extent to which these policies are adhered to and enforced remains a subject of interest and concern. We present the first large-scale audit of advertising on Twitter focusing on compliance with the platform's advertising policies, particularly those related to political and adult content. We investigate the compliance of advertisements on Twitter with the platform's stated policies and the impact of recent acquisition on the advertising activity of the platform. By analyzing 34K advertisements from ~6M tweets, collected over six months, we find evidence of widespread noncompliance with Twitter's political and adult content advertising policies suggesting a lack of effective ad content moderation. We also find that Elon Musk's acquisition of Twitter had a noticeable impact on the advertising landscape, with most existing advertisers either completely stopping their advertising activity or reducing it. Major brands decreased their advertising on Twitter, suggesting a negative immediate effect on the platform's advertising revenue. Our findings underscore the importance of external audits to monitor compliance and improve transparency in online advertising.
翻訳日:2023-09-25 16:13:08 公開日:2023-09-22
# BGF-YOLO:脳腫瘍検出のためのマルチスケール注意機能融合によるYOLOv8の増強

BGF-YOLO: Enhanced YOLOv8 with Multiscale Attentional Feature Fusion for Brain Tumor Detection ( http://arxiv.org/abs/2309.12585v1 )

ライセンス: Link先を確認
Ming Kang, Chee-Ming Ting, Fung Fung Ting, Rapha\"el C.-W. Phan(参考訳) You Only Look Once (YOLO)ベースの物体検出器は、自動脳腫瘍検出に顕著な精度を示している。 本稿では,BRA(Bi-level Routing Attention),GFPN(Generalized Feature pyramid network),Forth Detection Head,GIoU(Generalized-IoU)バウンディングボックスの回帰損失をYOLOv8に組み込んだ新しいBGFG-YOLOアーキテクチャを開発する。 BGFG-YOLOには、重要な特徴をより重視するための注意機構と、高レベルのセマンティックな特徴と空間的詳細を融合して特徴表現を豊かにする特徴ピラミッドネットワークが含まれている。 さらに,脳腫瘍検出精度に異なる注意機構と特徴融合,検出ヘッドアーキテクチャが与える影響について検討した。 実験の結果、BGFG-YOLOは、YOLOv8xと比較して3.4%のmAP50の絶対的な増加を示し、脳腫瘍検出データセットBr35Hの最先端を達成している。 コードはhttps://github.com/mkang315/bgfg-yoloで入手できる。

You Only Look Once (YOLO)-based object detectors have shown remarkable accuracy for automated brain tumor detection. In this paper, we develop a novel BGFG-YOLO architecture by incorporating Bi-level Routing Attention (BRA), Generalized feature pyramid networks (GFPN), Forth detecting head, and Generalized-IoU (GIoU) bounding box regression loss into YOLOv8. BGFG-YOLO contains an attention mechanism to focus more on important features, and feature pyramid networks to enrich feature representation by merging high-level semantic features with spatial details. Furthermore, we investigate the effect of different attention mechanisms and feature fusions, detection head architectures on brain tumor detection accuracy. Experimental results show that BGFG-YOLO gives a 3.4% absolute increase of mAP50 compared to YOLOv8x, and achieves state-of-the-art on the brain tumor detection dataset Br35H. The code is available at https://github.com/mkang315/BGFG-YOLO.
翻訳日:2023-09-25 16:12:48 公開日:2023-09-22
# サンプリング周波数非依存な普遍音分離

Sampling-Frequency-Independent Universal Sound Separation ( http://arxiv.org/abs/2309.12581v1 )

ライセンス: Link先を確認
Tomohiko Nakamura and Kohei Yatabe(参考訳) 本稿では,未訓練サンプリング周波数(SF)を処理可能なユニバーサル音分離(USS)手法を提案する。 USSは、異なるタイプの任意のソースを分離することを目的としており、ダウンストリームタスクのプリプロセッサとして普遍的に使用できるソースセパレータを実現するための重要な技術である。 ユニバーサルソースセパレータを実現するには、ソースタイプと記録条件に関する普遍性という2つの重要な特性がある。 以前の特性はussの文献で研究されており、単一のニューラルネットワークで処理できるソースタイプの数は大幅に増加した。 しかし、後者の性質(例えばsf)は、その必要性にもかかわらずあまり注目されていない。 SFは下流のタスクによって大きく異なるため、ユニバーサルソースセパレータは様々なSFを扱う必要がある。 本稿では,この2つの特性を包含するために,計算効率の良い USS ネットワーク SuDoRM-RF の SF-independent (SFI) 拡張を提案する。 提案するネットワークは,提案するsfi畳み込み層を用いて,入力sfに応じて畳み込みカーネルを生成することにより,様々なsfを処理できる。 実験により, 信号再サンプリングはUSSの性能を劣化させることが可能であり, 提案手法は各種SFの信号再サンプリング法よりも一貫して動作することがわかった。

This paper proposes a universal sound separation (USS) method capable of handling untrained sampling frequencies (SFs). The USS aims at separating arbitrary sources of different types and can be the key technique to realize a source separator that can be universally used as a preprocessor for any downstream tasks. To realize a universal source separator, there are two essential properties: universalities with respect to source types and recording conditions. The former property has been studied in the USS literature, which has greatly increased the number of source types that can be handled by a single neural network. However, the latter property (e.g., SF) has received less attention despite its necessity. Since the SF varies widely depending on the downstream tasks, the universal source separator must handle a wide variety of SFs. In this paper, to encompass the two properties, we propose an SF-independent (SFI) extension of a computationally efficient USS network, SuDoRM-RF. The proposed network uses our previously proposed SFI convolutional layers, which can handle various SFs by generating convolutional kernels in accordance with an input SF. Experiments show that signal resampling can degrade the USS performance and the proposed method works more consistently than signal-resampling-based methods for various SFs.
翻訳日:2023-09-25 16:12:25 公開日:2023-09-22
# テキストからトレンドへ:近代農業の未来に関するユニークな庭分析

From Text to Trends: A Unique Garden Analytics Perspective on the Future of Modern Agriculture ( http://arxiv.org/abs/2309.12579v1 )

ライセンス: Link先を確認
Parag Saxena(参考訳) データ駆動の洞察は現代の農業に不可欠である。 本研究は,園芸分野の人々を教育し,リーチする方法を改善するために設計された機械学習フレームワークを提案する。 このフレームワークはHorticulture Online Help Desk(HOHD)のデータに依存している。これはガーデニングが大好きで、Extension Master Gardener Program(EMGP)の一部である人々からの質問のコレクションのようなものだ。 この枠組みには2つの主な部分がある。 まず、特別なコンピュータプログラム(機械学習モデル)を使用して質問をカテゴリに分類する。 これにより、各質問を適切な専門家に迅速に送ることができます。 第二に、質問がいつ送られて、その情報を使って、将来どれだけの質問が得られ、彼らが何を考えているのかを推測する。 これは本当に重要なトピックを計画するのに役立ちます。 それは、今後数ヶ月でどんな質問が人気になるかを知るようなものです。 また、zipコードを見て、質問の出所も考慮に入れています。 これは、異なる場所で庭師が直面する課題に合致する研究に役立ちます。 本稿では,住宅主からのテキストクエリを解析することにより,園芸のトレンドを予測する機械学習技術の可能性を実証する。 NLP, 分類, 時系列分析は, 住宅所有者の問い合わせのパターンを特定し, 園芸の今後の傾向を予測するのに有効であることを示す。 以上の結果から,機械学習が他の農業分野のトレンド予測にも活用できる可能性が示唆された。 大規模農業産業がテキストデータと同等のリポジトリをキュレートし維持すれば、トレンド予測と戦略的農業計画が変革する可能性がある。 この技術と農業の収束は、持続可能な農業とデータインフォームド農業の実践の将来に有望な経路を提供する

Data-driven insights are essential for modern agriculture. This research paper introduces a machine learning framework designed to improve how we educate and reach out to people in the field of horticulture. The framework relies on data from the Horticulture Online Help Desk (HOHD), which is like a big collection of questions from people who love gardening and are part of the Extension Master Gardener Program (EMGP). This framework has two main parts. First, it uses special computer programs (machine learning models) to sort questions into categories. This helps us quickly send each question to the right expert, so we can answer it faster. Second, it looks at when questions are asked and uses that information to guess how many questions we might get in the future and what they will be about. This helps us plan on topics that will be really important. It's like knowing what questions will be popular in the coming months. We also take into account where the questions come from by looking at the Zip Code. This helps us make research that fits the challenges faced by gardeners in different places. In this paper, we demonstrate the potential of machine learning techniques to predict trends in horticulture by analyzing textual queries from homeowners. We show that NLP, classification, and time series analysis can be used to identify patterns in homeowners' queries and predict future trends in horticulture. Our results suggest that machine learning could be used to predict trends in other agricultural sectors as well. If large-scale agriculture industries curate and maintain a comparable repository of textual data, the potential for trend prediction and strategic agricultural planning could be revolutionized. This convergence of technology and agriculture offers a promising pathway for the future of sustainable farming and data-informed agricultural practices
翻訳日:2023-09-25 16:12:06 公開日:2023-09-22
# SPION:畳み込み洪水充填による変圧器の層幅スパース訓練

SPION: Layer-Wise Sparse Training of Transformer via Convolutional Flood Filling ( http://arxiv.org/abs/2309.12578v1 )

ライセンス: Link先を確認
Bokyeong Yoon, Yoonsang Han, Gordon Euhyun Moon(参考訳) Transformerのトレーニングは非常に計算的に要求されているため、Transformerのスパース化は大きな関心を集めている。 従来、トランスフォーマーのスパーシフィケーションには、固定パターンまたはデータ駆動アプローチを使用して、トランスフォーマーの主要なボトルネックであるマルチヘッドアテンションの計算を含む操作数を削減する方法が用いられてきた。 しかし,既存の手法では,すべての層にまたがる均一な固定パターンによる本質的な配列の特徴の潜在的な喪失や,注意操作におけるスパーシティパターンの学習に追加パラメータを用いることによるモデルサイズの増加など,必然的な問題に悩まされている。 本稿では,畳み込みフィルタとフラッディング充填法を統合し,注意操作における層状スパースパターンを効率的に捕捉するトランスのスパルシフィケーション方式を提案する。 我々のスパーシフィケーションアプローチは、トレーニング中のTransformerの計算複雑性とメモリフットプリントを低減する。 GPU上でのレイヤーワイドな注意アルゴリズムの効率的な実装が開発され、既存の最先端スパーストランスフォーマーモデルよりも最大3.08倍のスピードアップを実現し、評価品質が向上した。

Sparsifying the Transformer has garnered considerable interest, as training the Transformer is very computationally demanding. Prior efforts to sparsify the Transformer have either used a fixed pattern or data-driven approach to reduce the number of operations involving the computation of multi-head attention, which is the main bottleneck of the Transformer. However, existing methods suffer from inevitable problems, such as the potential loss of essential sequence features due to the uniform fixed pattern applied across all layers, and an increase in the model size resulting from the use of additional parameters to learn sparsity patterns in attention operations. In this paper, we propose a novel sparsification scheme for the Transformer that integrates convolution filters and the flood filling method to efficiently capture the layer-wise sparse pattern in attention operations. Our sparsification approach reduces the computational complexity and memory footprint of the Transformer during training. Efficient implementations of the layer-wise sparsified attention algorithm on GPUs are developed, demonstrating a new SPION that achieves up to 3.08X speedup over existing state-of-the-art sparse Transformer models, with better evaluation quality.
翻訳日:2023-09-25 16:11:40 公開日:2023-09-22
# ネットワークアーキテクチャ探索におけるディープラーニングモデル進化のパターン理解

Understanding Patterns of Deep Learning ModelEvolution in Network Architecture Search ( http://arxiv.org/abs/2309.12576v1 )

ライセンス: Link先を確認
Robert Underwood, Meghana Madhastha, Randal Burns, Bogdan Nicolae(参考訳) Network Architecture Search and specifically Regularized Evolution is a common way to refine the structure of a deep learning model.However, little is known about how models empirically evolve over time which has design implications for designing caching policies, refining the search algorithm for particular applications, and other important use cases.In this work, we algorithmically analyze and quantitatively characterize the patterns of model evolution for a set of models from the Candle project and the Nasbench-201 search space.We show how the evolution of the model structure is influenced by the regularized evolution algorithm. 分散設定における進化的パターンの出現とキャッシュとスケジューリング改善の機会について述べる。 最後に,スライディングウインドウでドナーとして振る舞う頻度に基づいて,特定のモデルアーキテクチャが普及し,その人気が低下する場合に影響を及ぼす条件について述べる。

Network Architecture Search and specifically Regularized Evolution is a common way to refine the structure of a deep learning model.However, little is known about how models empirically evolve over time which has design implications for designing caching policies, refining the search algorithm for particular applications, and other important use cases.In this work, we algorithmically analyze and quantitatively characterize the patterns of model evolution for a set of models from the Candle project and the Nasbench-201 search space.We show how the evolution of the model structure is influenced by the regularized evolution algorithm. We describe how evolutionary patterns appear in distributed settings and opportunities for caching and improved scheduling. Lastly, we describe the conditions that affect when particular model architectures rise and fall in popularity based on their frequency of acting as a donor in a sliding window.
翻訳日:2023-09-25 16:11:16 公開日:2023-09-22
# 眼球追跡データを用いた深層学習によるアルツハイマー病の分類

Classification of Alzheimers Disease with Deep Learning on Eye-tracking Data ( http://arxiv.org/abs/2309.12574v1 )

ライセンス: Link先を確認
Harshinee Sriram, Cristina Conati, Thalia Field(参考訳) 既存の研究によると、アルツハイマー病(AD)は目追跡(ET)データからタスク固有の工学的特徴に依存する分類器に分類される可能性がある。 本稿では,生のETデータに基づいてエンドツーエンドに学習したDeep-Learning分類器を用いて既存の結果を改善することができるかを検討する。 この分類器(VTNet)は、GRUとCNNを並列に使用して、ETデータの視覚的(V)表現と時間的(T)表現の両方を活用する。 対象のAD分類タスクにVTNetを適用する上での大きな課題は、利用可能なETデータシーケンスが以前の混乱検出タスクよりもはるかに長いことであり、LSTMベースのモデルで管理できることの限界を押し上げることである。 本稿では,この課題にどう対処し,VTNetがAD分類における最先端のアプローチよりも優れており,ETデータから予測を行う上で,このモデルの汎用性を示す証拠を提供する。

Existing research has shown the potential of classifying Alzheimers Disease (AD) from eye-tracking (ET) data with classifiers that rely on task-specific engineered features. In this paper, we investigate whether we can improve on existing results by using a Deep-Learning classifier trained end-to-end on raw ET data. This classifier (VTNet) uses a GRU and a CNN in parallel to leverage both visual (V) and temporal (T) representations of ET data and was previously used to detect user confusion while processing visual displays. A main challenge in applying VTNet to our target AD classification task is that the available ET data sequences are much longer than those used in the previous confusion detection task, pushing the limits of what is manageable by LSTM-based models. We discuss how we address this challenge and show that VTNet outperforms the state-of-the-art approaches in AD classification, providing encouraging evidence on the generality of this model to make predictions from ET data.
翻訳日:2023-09-25 16:11:05 公開日:2023-09-22
# 将来の資産価値と投資ユニバースの自動削減を用いたポートフォリオ最適化のための量子コンピューティングシステム

A Quantum Computing-based System for Portfolio Optimization using Future Asset Values and Automatic Reduction of the Investment Universe ( http://arxiv.org/abs/2309.12627v1 )

ライセンス: Link先を確認
Eneko Osaba, Guillaume Gelabert, Esther Villar-Rodriguez, Ant\'on Asla and Izaskun Oregi(参考訳) 量的金融の最も注目されている問題の1つはポートフォリオ最適化の問題である。 その解法については、量子コンピューティングに関連するものは近年特に多作であるなど、様々な技術を用いてこの問題にアプローチされている。 本研究では,将来的な資産価値と自動宇宙還元(q4futurepop)を備えたポートフォリオ最適化のための量子コンピューティングベースのシステムを提案する。 一 開発済みのツールは、歴史的価値ではなく、将来の資産の予測を扱うためにモデル化され、かつ ii)Q4FuturePOPは、問題の複雑さを知的に低減するために考案された自動宇宙還元モジュールを含む。 また、Q4FuturePOPのプロトタイプバージョンを構成する異なるモジュールの予備性能に関する簡単な議論も紹介する。

One of the problems in quantitative finance that has received the most attention is the portfolio optimization problem. Regarding its solving, this problem has been approached using different techniques, with those related to quantum computing being especially prolific in recent years. In this study, we present a system called Quantum Computing-based System for Portfolio Optimization with Future Asset Values and Automatic Universe Reduction (Q4FuturePOP), which deals with the Portfolio Optimization Problem considering the following innovations: i) the developed tool is modeled for working with future prediction of assets, instead of historical values; and ii) Q4FuturePOP includes an automatic universe reduction module, which is conceived to intelligently reduce the complexity of the problem. We also introduce a brief discussion about the preliminary performance of the different modules that compose the prototypical version of Q4FuturePOP.
翻訳日:2023-09-25 16:04:24 公開日:2023-09-22
# 知識提供言語モデルに基づく建設契約リスクの同定

Construction contract risk identification based on knowledge-augmented language model ( http://arxiv.org/abs/2309.12626v1 )

ライセンス: Link先を確認
Saika Wong, Chunmo Zheng, Xing Su, Yinqiu Tang(参考訳) 建設プロジェクトでは、潜在的な損失を防ぐための契約審査が重要なステップです。 しかし、建設契約をレビューする現在の方法は、有効性と信頼性に欠けており、時間がかかりエラーが発生しやすい。 大規模言語モデル(LLM)は自然言語処理(NLP)のタスクに革命をもたらす可能性を示しているが、ドメイン固有の知識に苦慮し、特殊な問題に対処する。 本稿では,人的専門家による契約審査の過程をエミュレートするために,LLMと建設契約知識を活用する新しい手法を提案する。 我々のチューニングフリーアプローチは、建設契約のドメイン知識を取り入れ、建設契約のリスクを特定するための言語モデルを強化する。 ドメイン知識ベースを構築する際に自然言語を使うことは、実用的な実装を促進する。 本手法を実際の建設契約で評価し,高い性能を得た。 さらに,大規模言語モデルがタスク中に論理的思考をどのように採用するかを調査し,今後の研究への洞察と勧告を提供する。

Contract review is an essential step in construction projects to prevent potential losses. However, the current methods for reviewing construction contracts lack effectiveness and reliability, leading to time-consuming and error-prone processes. While large language models (LLMs) have shown promise in revolutionizing natural language processing (NLP) tasks, they struggle with domain-specific knowledge and addressing specialized issues. This paper presents a novel approach that leverages LLMs with construction contract knowledge to emulate the process of contract review by human experts. Our tuning-free approach incorporates construction contract domain knowledge to enhance language models for identifying construction contract risks. The use of a natural language when building the domain knowledge base facilitates practical implementation. We evaluated our method on real construction contracts and achieved solid performance. Additionally, we investigated how large language models employ logical thinking during the task and provide insights and recommendations for future research.
翻訳日:2023-09-25 16:04:01 公開日:2023-09-22
# DRG-LLaMA : LLaMAモデルによる入院患者の診断関連集団の予測

DRG-LLaMA : Tuning LLaMA Model to Predict Diagnosis-related Group for Hospitalized Patients ( http://arxiv.org/abs/2309.12625v1 )

ライセンス: Link先を確認
Hanyin Wang, Chufan Gao, Christopher Dantona, Bryan Hull, Jimeng Sun(参考訳) 米国の入院医療システムでは、診断関連グループ(DRG)が重要な役割を果たすが、現在の割り当てプロセスは時間がかかる。 DRG予測の改善のために臨床ノートに微調整した大言語モデル(LLM)であるDRG-LLaMAを導入する。 メタのLLaMAをベースモデルとして, 236,192 MIMIC-IV放電サマリー上でローランド適応(LoRA)を最適化した。 drg-llama-7bは入力トークンの長さが512で、マクロ平均f1スコアが0.327、トップ1予測精度が52.0%、マクロ平均面積が0.986である。 興味深いことに、DRG-LLaMA-7Bはこのタスクの先行モデルを上回っ、マクロ平均F1スコアの40.3%、CAMLと比較して35.7%改善した。 DRG-LLaMAをベースDRGとコンプリケーション(CC)/メジャーコンプリケーション(MCC)の予測に適用すると、トップ-1予測精度はベースDRGでは67.8%、CC/MCCでは67.5%に達した。 DRG-LLaMAの性能は、より大きなモデルパラメータと長い入力コンテキスト長との相関性の向上を示す。 さらに、LoRAを使用することで、48GBのVRAMを持つ小さなGPUでもトレーニングが可能となり、DRGの予測にLLMを適用することが可能になった。

In the U.S. inpatient payment system, the Diagnosis-Related Group (DRG) plays a key role but its current assignment process is time-consuming. We introduce DRG-LLaMA, a large language model (LLM) fine-tuned on clinical notes for improved DRG prediction. Using Meta's LLaMA as the base model, we optimized it with Low-Rank Adaptation (LoRA) on 236,192 MIMIC-IV discharge summaries. With an input token length of 512, DRG-LLaMA-7B achieved a macro-averaged F1 score of 0.327, a top-1 prediction accuracy of 52.0% and a macro-averaged Area Under the Curve (AUC) of 0.986. Impressively, DRG-LLaMA-7B surpassed previously reported leading models on this task, demonstrating a relative improvement in macro-averaged F1 score of 40.3% compared to ClinicalBERT and 35.7% compared to CAML. When DRG-LLaMA is applied to predict base DRGs and complication or comorbidity (CC) / major complication or comorbidity (MCC), the top-1 prediction accuracy reached 67.8% for base DRGs and 67.5% for CC/MCC status. DRG-LLaMA performance exhibits improvements in correlation with larger model parameters and longer input context lengths. Furthermore, usage of LoRA enables training even on smaller GPUs with 48 GB of VRAM, highlighting the viability of adapting LLMs for DRGs prediction.
翻訳日:2023-09-25 16:03:35 公開日:2023-09-22
# 時間的基準付き複数基準ソーティングのためのデータ駆動型選好学習手法

Data-driven Preference Learning Methods for Multiple Criteria Sorting with Temporal Criteria ( http://arxiv.org/abs/2309.12620v1 )

ライセンス: Link先を確認
Li Yijun, Guo Mengzhuo, Zhang Qingpeng(参考訳) 予測手法の出現は、さまざまなドメインにわたるデータ駆動意思決定サポートの出現を触媒している。 しかし、入力時系列データを効果的に処理できるモデルの開発は永続的な課題である。 本研究は,時間的基準の存在下での複数の条件分類問題に対する新しい選好学習手法を提案する。 まず,固定時間ディスカウント係数を特徴とする凸二次計画モデルを正規化フレームワーク内で定式化する。 さらに,並列計算によって効率的に実行される複数の,潜在的に弱いオプティマイザの出力を集約するアンサンブル学習アルゴリズムを提案する。 スケーラビリティを向上し、学習可能な時間割引要素に対応するため、新しいモノトニックリカレントニューラルネットワーク(mRNN)を導入する。 標準単調性、選好独立性、クラスの自然順序付けなど、MCS問題に固有の重要な特性を保ちながら、時間とともに嗜好の進化するダイナミクスを捉えるように設計されている。 提案するmrnnは,時間とともに限界値関数とパーソナライズされた時間ディスカウント因子を表現し,従来のmcs法の解釈可能性と,深い選好学習モデルが提供する予測可能性とを効果的に融合することにより,選好ダイナミクスを記述することができる。 提案モデルに関する総合的な評価を行い, モバイルゲームアプリにおいて, 過去の動作シーケンスに基づいて, 有用なユーザを分類することを目的とした実例調査を行った。 実験的な知見は、ベースライン手法のスペクトル、機械学習、ディープラーニング、従来の複数の基準ソートアプローチと比較して、提案モデルが達成した顕著な性能改善を裏付けている。

The advent of predictive methodologies has catalyzed the emergence of data-driven decision support across various domains. However, developing models capable of effectively handling input time series data presents an enduring challenge. This study presents novel preference learning approaches to multiple criteria sorting problems in the presence of temporal criteria. We first formulate a convex quadratic programming model characterized by fixed time discount factors, operating within a regularization framework. Additionally, we propose an ensemble learning algorithm designed to consolidate the outputs of multiple, potentially weaker, optimizers, a process executed efficiently through parallel computation. To enhance scalability and accommodate learnable time discount factors, we introduce a novel monotonic Recurrent Neural Network (mRNN). It is designed to capture the evolving dynamics of preferences over time while upholding critical properties inherent to MCS problems, including criteria monotonicity, preference independence, and the natural ordering of classes. The proposed mRNN can describe the preference dynamics by depicting marginal value functions and personalized time discount factors along with time, effectively amalgamating the interpretability of traditional MCS methods with the predictive potential offered by deep preference learning models. Comprehensive assessments of the proposed models are conducted, encompassing synthetic data scenarios and a real-case study centered on classifying valuable users within a mobile gaming app based on their historical in-app behavioral sequences. Empirical findings underscore the notable performance improvements achieved by the proposed models when compared to a spectrum of baseline methods, spanning machine learning, deep learning, and conventional multiple criteria sorting approaches.
翻訳日:2023-09-25 16:02:38 公開日:2023-09-22
# 縮退モデルによるニューラルテキスト生成の多様化

Learning to Diversify Neural Text Generation via Degenerative Model ( http://arxiv.org/abs/2309.12619v1 )

ライセンス: Link先を確認
Jimin Hong, ChaeHun Park, Jaegul Choo(参考訳) ニューラルネットワークモデルは多様で情報的なテキストを生成するのに失敗し、実世界の問題に適用性を制限する。 従来のアプローチでは、言語モデルから望ましくない振る舞い(繰り返し、頻繁な単語の過剰使用など)を識別し、ペナルティを課すことでこれらの問題に対処することが提案されているが、このアプローチは観察に基づく代替案を提案する。 そこで本研究では, 2つのモデルをトレーニングすることで, 再生不良を防止する新しい手法を提案する。 具体的には、まず、望ましくないパターンを増幅するように設計されたモデルをトレーニングする。 次に、第1のモデルが学べないパターンに注目して、第2のモデルの多様性を高めます。 2つのタスク、すなわち言語モデリングと対話生成に関する広範な実験が、このアプローチの有効性を示しています。

Neural language models often fail to generate diverse and informative texts, limiting their applicability in real-world problems. While previous approaches have proposed to address these issues by identifying and penalizing undesirable behaviors (e.g., repetition, overuse of frequent words) from language models, we propose an alternative approach based on an observation: models primarily learn attributes within examples that are likely to cause degeneration problems. Based on this observation, we propose a new approach to prevent degeneration problems by training two models. Specifically, we first train a model that is designed to amplify undesirable patterns. We then enhance the diversity of the second model by focusing on patterns that the first model fails to learn. Extensive experiments on two tasks, namely language modeling and dialogue generation, demonstrate the effectiveness of our approach.
翻訳日:2023-09-25 16:02:04 公開日:2023-09-22
# 不等式制約下におけるゼロレグレット実効予測

Zero-Regret Performative Prediction Under Inequality Constraints ( http://arxiv.org/abs/2309.12618v1 )

ライセンス: Link先を確認
Wenjing Yan and Xuanyu Cao(参考訳) performanceative predictionは、最近提案されたフレームワークで、予測は意思決定を導き、将来のデータ分布に影響を与える。 このような行動現象は、交通、金融、公共政策、レコメンデーションシステムなど、様々な分野で広く見られる。 現在まで、パフォーマンス予測の研究は制約のないシナリオにのみ焦点を合わせており、現実の学習問題の多くが制約の対象となっているという事実を無視している。 本稿では,不等式制約下での性能予測を研究することにより,このギャップを埋める。 性能安定点のみを提供する既存の作業とは異なり、最適解を見つけることを目指している。 パフォーマンス勾配の予測は、データ分布に対する非依存なパフォーマンス効果のため、難しい課題である。 この問題に対処するために,我々はまず,一定の精度まで近似勾配しか必要とせず,かつ,確率的プライマル・デュアルアルゴリズムと同等の性能を提供するロバストなプリマル・デュアル・フレームワークを開発した。 この枠組みに基づき,位置族に対する適応的原始双対アルゴリズムを提案する。 解析により,提案アルゴリズムは,時間的地平線が$T$である場合,$\sqrt{T} + 2T$サンプルのみを用いて,後悔と制約違反に対して$\ca{O}(\sqrt{T})を達成できることが示されている。 最善の知識は,不等式制約下における実効予測問題の最適性に関する最初の研究と解析である。 最後に,数値シミュレーションによりアルゴリズムの有効性と理論的結果を検証する。

Performative prediction is a recently proposed framework where predictions guide decision-making and hence influence future data distributions. Such performative phenomena are ubiquitous in various areas, such as transportation, finance, public policy, and recommendation systems. To date, work on performative prediction has only focused on unconstrained scenarios, neglecting the fact that many real-world learning problems are subject to constraints. This paper bridges this gap by studying performative prediction under inequality constraints. Unlike most existing work that provides only performative stable points, we aim to find the optimal solutions. Anticipating performative gradients is a challenging task, due to the agnostic performative effect on data distributions. To address this issue, we first develop a robust primal-dual framework that requires only approximate gradients up to a certain accuracy, yet delivers the same order of performance as the stochastic primal-dual algorithm without performativity. Based on this framework, we then propose an adaptive primal-dual algorithm for location families. Our analysis demonstrates that the proposed adaptive primal-dual algorithm attains $\ca{O}(\sqrt{T})$ regret and constraint violations, using only $\sqrt{T} + 2T$ samples, where $T$ is the time horizon. To our best knowledge, this is the first study and analysis on the optimality of the performative prediction problem under inequality constraints. Finally, we validate the effectiveness of our algorithm and theoretical results through numerical simulations.
翻訳日:2023-09-25 16:01:40 公開日:2023-09-22
# Unlocking Model Insights: 自動モデルカード生成のためのデータセット

Unlocking Model Insights: A Dataset for Automated Model Card Generation ( http://arxiv.org/abs/2309.12616v1 )

ライセンス: Link先を確認
Shruti Singh, Hitesh Lodwal, Husain Malwat, Rakesh Thakur, Mayank Singh(参考訳) 言語モデル(LM)はもはやMLコミュニティに限定されておらず、命令チューニングされたLMは自律AIエージェントの増加につながっている。 lmsのアクセシビリティが向上するにつれ、その能力、意図的な利用、開発サイクルの理解も向上することが不可欠である。 モデルカードは、MLモデルに関する詳細な情報を文書化する一般的なプラクティスである。 モデルカード生成を自動化するために,25mlモデルに対して500の質問応答ペアのデータセットを導入し,モデルのトレーニング構成,データセット,バイアス,アーキテクチャの詳細,トレーニングリソースなど,モデルの重要な側面をカバーする。 元の論文から回答を抽出するためにアノテーションを使用します。 さらに,質問に答えることで,モデルカード生成におけるLMの能力について検討する。 ChatGPT-3.5, LLaMa, Galacticaによる最初の実験では, これらのLMによる研究論文の理解と, 実際のテキスト応答の生成に大きなギャップが見られた。 我々のデータセットは、紙のテキストからモデルカードを自動生成し、モデルカードのキュレーションプロセスにおける人的労力を減らすためにモデルをトレーニングするのに利用できると仮定する。 完全なデータセットはhttps://osf.io/hqt7p/? view_only=3b9114e3904c4443bcd9f5c270158d37

Language models (LMs) are no longer restricted to ML community, and instruction-tuned LMs have led to a rise in autonomous AI agents. As the accessibility of LMs grows, it is imperative that an understanding of their capabilities, intended usage, and development cycle also improves. Model cards are a popular practice for documenting detailed information about an ML model. To automate model card generation, we introduce a dataset of 500 question-answer pairs for 25 ML models that cover crucial aspects of the model, such as its training configurations, datasets, biases, architecture details, and training resources. We employ annotators to extract the answers from the original paper. Further, we explore the capabilities of LMs in generating model cards by answering questions. Our initial experiments with ChatGPT-3.5, LLaMa, and Galactica showcase a significant gap in the understanding of research papers by these aforementioned LMs as well as generating factual textual responses. We posit that our dataset can be used to train models to automate the generation of model cards from paper text and reduce human effort in the model card curation process. The complete dataset is available on https://osf.io/hqt7p/?view_only=3b9114e3904c4443bcd9f5c270158d37
翻訳日:2023-09-25 16:01:15 公開日:2023-09-22
# WattScope: データセンターにおける非侵入的アプリケーションレベルの電力分散

WattScope: Non-intrusive Application-level Power Disaggregation in Datacenters ( http://arxiv.org/abs/2309.12612v1 )

ライセンス: Link先を確認
Xiaoding Guan, Noman Bashir, David Irwin, Prashant Shenoy(参考訳) データセンタのキャパシティは指数関数的に増加しており、ディープラーニングのような計算集約的なアプリケーションに対する需要の増加に応えている。 この傾向は、データセンターのエネルギー消費の増加と炭素フットプリントに関する懸念につながった。 データセンターのエネルギー効率とカーボン効率を最適化するための基本的な前提条件は、特定のユーザやアプリケーションに対するエネルギー消費量の正確な監視と帰属である。 データセンタサーバはマルチテナントである傾向があるため、サーバやラックレベルの電力監視だけでは、居住者のアプリケーションのエネルギー使用量や二酸化炭素排出量に関する洞察が得られない。 同時に、現在のアプリケーションレベルのエネルギーモニタリングと帰属技術は侵入的です。それらはサーバへの特権的なアクセスを必要とし、ハードウェアとソフトウェアで協調的なサポートを必要とします。 この問題に対処するために,サーバのオペレーティングシステムやアプリケーションに直接アクセスすることなく,サーバの集合電力使用量の外部測定を用いて,個々のアプリケーションの消費電力を非侵襲的に推定するシステムWattScopeを設計する。 私たちのキーとなる洞察は、運用トレースの分析に基づいて、低変数、低等級、高周期といったデータセンターのワークロードの電力特性は、サーバの総電力消費をアプリケーション固有の値に分解することができるということです。 wattscopeは、ビルディングパワーを分解する機械学習ベースの技術を採用して拡張し、データセンターのサーバーレベルおよびラックレベルの電力メータ計測に適用する。 例えば、10%の正規化平均絶対誤差を発生させるため、アプリケーションレベルの電力使用を外部から監視する上で、データセンタにとって潜在的に有用なツールである。

Datacenter capacity is growing exponentially to satisfy the increasing demand for emerging computationally-intensive applications, such as deep learning. This trend has led to concerns over datacenters' increasing energy consumption and carbon footprint. The basic prerequisite for optimizing a datacenter's energy- and carbon-efficiency is accurately monitoring and attributing energy consumption to specific users and applications. Since datacenter servers tend to be multi-tenant, i.e., they host many applications, server- and rack-level power monitoring alone does not provide insight into their resident applications' energy usage and carbon emissions. At the same time, current application-level energy monitoring and attribution techniques are intrusive: they require privileged access to servers and require coordinated support in hardware and software, which is not always possible in cloud. To address the problem, we design WattScope, a system for non-intrusively estimating the power consumption of individual applications using external measurements of a server's aggregate power usage without requiring direct access to the server's operating system or applications. Our key insight is that, based on an analysis of production traces, the power characteristics of datacenter workloads, e.g., low variability, low magnitude, and high periodicity, are highly amenable to disaggregation of a server's total power consumption into application-specific values. WattScope adapts and extends a machine learning-based technique for disaggregating building power and applies it to server- and rack-level power meter measurements in data centers. We evaluate WattScope's accuracy on a production workload and show that it yields high accuracy, e.g., often <10% normalized mean absolute error, and is thus a potentially useful tool for datacenters in externally monitoring application-level power usage.
翻訳日:2023-09-25 16:00:54 公開日:2023-09-22
# グラフェンモエビウス帯に閉じ込められたワイヤ上のディラックフェルミオン

Dirac fermions on wires confined to the graphene Moebius strip ( http://arxiv.org/abs/2309.12609v1 )

ライセンス: Link先を確認
L. N. Monteiro, J. E. G. Silva, and C. A. S. Almeida(参考訳) この曲線形状がモエビウスストリップ形状のグラフェンストリップに拘束された無質量相対論的電子に与える影響について検討した。 モエビウスバンドの異方性とパリティに違反する幾何学は、これらの特徴を継承する幾何学的ポテンシャルを生み出す。 ストリップ幅とストリップ長さに沿ったワイヤを考えることで、ディラック方程式の厳密な解と電子に対する幾何学的ポテンシャルの影響を考察した。 どちらの場合も、幾何学的ポテンシャルは波動関数上の幾何学的位相に生じる。 ストリップ幅に沿って、状態の密度はワイヤに選択された方向に依存するが、これは軸対称の欠如の結果である。 さらに、パリティ対称性の破断により、電子状態は帯の内部または外側に集中することができる。 ストリップ長に沿ったワイヤに対して、非自明なトポロジーはその周期性を変更することによって固有関数に影響を与える。 基底状態は4\pi$の周期を持つのに対し、最初の励起状態は2\pi$の周期関数である。 さらに、エネルギー準位は基底状態のエネルギーの半整数倍であることが判明した。

We investigate the effects of the curved geometry on a massless relativistic electron constrained to a graphene strip with a Moebius strip shape. The anisotropic and parity-violating geometry of the Moebius band produces a geometric potential that inherits these features. By considering wires along the strip width and the strip length, we find exact solutions for the Dirac equation and the effects of the geometric potential on the electron were explored. In both cases, the geometric potential yields to a geometric phase on the wave function. Along the strip width, the density of states depends on the direction chosen for the wire, a consequence of the lack of axial symmetry. Moreover, the breaking of the parity symmetry enables the electronic states to be concentrated on the inner or on the outer portion of the strip. For wires along the strip length, the nontrivial topology influences the eigenfunctions by modifying their periodicity. It turns out that the ground state has a period of $4\pi$ whereas the first excited state is a $2\pi$ periodic function. Moreover, we found that the energy levels are half-integer multiples of the energy of the ground state.
翻訳日:2023-09-25 16:00:21 公開日:2023-09-22
# プライバシ保存型量子二者幾何交叉

Privacy-Preserving Quantum Two-Party Geometric Intersection ( http://arxiv.org/abs/2309.12605v1 )

ライセンス: Link先を確認
Wen-Jie Liu, Yong Xu, James C. N. Yang, Wen-Bin Yu, and Lian-Hua Chi(参考訳) プライバシ保存型計算幾何学は、セキュアマルチパーティ計算(SMC)と計算幾何学の領域の交差に関する研究領域である。 重要な分野として、プライバシ保存幾何学的交叉(PGI)問題は、複数のパーティがそれぞれプライベートな幾何学的グラフを持ち、それぞれのグラフがプライベートな情報を公開することなく相互に交わるか否かを判断しようとするときに発生する。 本研究では,Alice (Bob's) のプライベート幾何グラフ G_A (G_B) を数値格子 S_A (S_B) の集合として表現することにより,PQGIプロトコルを提案する。 S_A=(a_0,a_1,...,a_(M-1))(S_B=(b_0,b_1,...,b_(N-1))のプライベート要素を量子状態に符号化するために、オラクル演算O_A(O_B)を用いて、S_AとS_Bの各要素間のXOR結果を含む新しい量子状態を得る。 最後に、量子カウントを導入して |a_i+b_j> の状態の量 (t) を |0> に等しくし、t>0 を判定することで交叉結果が得られる。 従来のPGIプロトコルと比較して,提案プロトコルはセキュリティが高いだけでなく,通信の複雑さも低い。

Privacy-preserving computational geometry is the research area on the intersection of the domains of secure multi-party computation (SMC) and computational geometry. As an important field, the privacy-preserving geometric intersection (PGI) problem is when each of the multiple parties has a private geometric graph and seeks to determine whether their graphs intersect or not without revealing their private information. In this study, through representing Alice's (Bob's) private geometric graph G_A (G_B) as the set of numbered grids S_A (S_B), an efficient privacy-preserving quantum two-party geometric intersection (PQGI) protocol is proposed. In the protocol, the oracle operation O_A (O_B) is firstly utilized to encode the private elements of S_A=(a_0, a_1, ..., a_(M-1)) (S_B=(b_0, b_1, ..., b_(N-1))) into the quantum states, and then the oracle operation O_f is applied to obtain a new quantum state which includes the XOR results between each element of S_A and S_B. Finally, the quantum counting is introduced to get the amount (t) of the states |a_i+b_j> equaling to |0>, and the intersection result can be obtained by judging t>0 or not. Compared with classical PGI protocols, our proposed protocol not only has higher security, but also holds lower communication complexity.
翻訳日:2023-09-25 16:00:03 公開日:2023-09-22
# RHINO: ハッシュベースの命令型ニューラル表現の正規化

RHINO: Regularizing the Hash-based Implicit Neural Representation ( http://arxiv.org/abs/2309.12642v1 )

ライセンス: Link先を確認
Hao Zhu, Fengyi Liu, Qi Zhang, Xun Cao, Zhan Ma(参考訳) Inlicit Neural Representation (INR) のハッシュテーブルによる使用は、複雑な信号の特徴付けにおいて顕著な効果と効率性を示した。 しかし、現在の最先端の手法では正規化が不十分であり、補間中に信頼できない結果やノイズが発生することが多い。 この問題は、チェーンルールが連続座標ではなく離散ハッシュキーをモデル化しようとする、入力座標とインデックス付きハッシュキーの間の勾配流れの破れに起因することが分かる。 そこで本研究では,入力座標とネットワークを接続し,現在のハッシュベースのinrsのアーキテクチャを変更することなく正規化を容易にするために,連続解析関数が組み込まれているrhinoを紹介する。 この接続により、ネットワークの出力から入力座標への勾配のシームレスなバックプロパゲーションが保証され、正規化が向上する。 我々の実験結果は、DINERやInstant NGPのような異なるハッシュベースのINRにまたがるより広い正規化能力を示すだけでなく、画像整合、符号付き距離関数の表現、および5次元静的/6次元動的ニューラル放射場の最適化といった様々なタスクにも及んでいる。 特にRHINOは、現在の最先端技術を品質とスピードの両方で上回り、その優位性を確認している。

The use of Implicit Neural Representation (INR) through a hash-table has demonstrated impressive effectiveness and efficiency in characterizing intricate signals. However, current state-of-the-art methods exhibit insufficient regularization, often yielding unreliable and noisy results during interpolations. We find that this issue stems from broken gradient flow between input coordinates and indexed hash-keys, where the chain rule attempts to model discrete hash-keys, rather than the continuous coordinates. To tackle this concern, we introduce RHINO, in which a continuous analytical function is incorporated to facilitate regularization by connecting the input coordinate and the network additionally without modifying the architecture of current hash-based INRs. This connection ensures a seamless backpropagation of gradients from the network's output back to the input coordinates, thereby enhancing regularization. Our experimental results not only showcase the broadened regularization capability across different hash-based INRs like DINER and Instant NGP, but also across a variety of tasks such as image fitting, representation of signed distance functions, and optimization of 5D static / 6D dynamic neural radiance fields. Notably, RHINO outperforms current state-of-the-art techniques in both quality and speed, affirming its superiority.
翻訳日:2023-09-25 15:54:30 公開日:2023-09-22
# 表面欠陥の軽量度検出のためのグローバルコンテキスト集約ネットワーク

Global Context Aggregation Network for Lightweight Saliency Detection of Surface Defects ( http://arxiv.org/abs/2309.12641v1 )

ライセンス: Link先を確認
Feng Yan, Xiaoheng Jiang, Yang Lu, Lisha Cui, Shupan Li, Jiale Cao, Mingliang Xu, and Dacheng Tao(参考訳) 表面欠陥検査は、表面欠陥が通常、複雑な背景の下で弱い外観を示す非常に難しい課題である。 ほとんどの高精度な欠陥検出手法は、高価な計算とストレージオーバーヘッドを必要とするため、リソース制約のある欠陥検出アプリケーションでは実用的ではない。 いくつかの軽量な手法はパラメータが少なくてリアルタイムの推論速度を達成したが、複雑な欠陥シナリオでは検出精度が低かった。 そこで我々は,エンコーダ・デコーダ構造上の表面欠陥を簡易に検出するGCANet(Global Context Aggregation Network)を開発した。 まず、軽量バックボーンの上部層に新しいトランスフォーマーエンコーダを導入し、DSA(Depth-wise Self-Attention)モジュールを通じてグローバルなコンテキスト情報をキャプチャする。 提案したDSAは, 線形複雑度を維持しつつ, チャネル次元の要素的類似性を実現する。 さらに,各デコーダブロックの前に新しいChannel Reference Attention (CRA)モジュールを導入し,ボトムアップパスにおけるマルチレベル特徴の表現を強化する。 提案するcraは,異なるレイヤの特徴間のチャネル相関を利用して,特徴表現を適応的に拡張する。 3つのパブリック欠陥データセットにおける実験結果から,提案手法は他の17の最先端手法と比較して精度と実行効率のトレードオフが良好であることが判明した。 具体的には、GCANetはSD- Saliency-900上で競合精度(91.79%$F_{\beta}^{w}$、93.55%$S_\alpha$、97.35%$E_\phi$)を達成する。

Surface defect inspection is a very challenging task in which surface defects usually show weak appearances or exist under complex backgrounds. Most high-accuracy defect detection methods require expensive computation and storage overhead, making them less practical in some resource-constrained defect detection applications. Although some lightweight methods have achieved real-time inference speed with fewer parameters, they show poor detection accuracy in complex defect scenarios. To this end, we develop a Global Context Aggregation Network (GCANet) for lightweight saliency detection of surface defects on the encoder-decoder structure. First, we introduce a novel transformer encoder on the top layer of the lightweight backbone, which captures global context information through a novel Depth-wise Self-Attention (DSA) module. The proposed DSA performs element-wise similarity in channel dimension while maintaining linear complexity. In addition, we introduce a novel Channel Reference Attention (CRA) module before each decoder block to strengthen the representation of multi-level features in the bottom-up path. The proposed CRA exploits the channel correlation between features at different layers to adaptively enhance feature representation. The experimental results on three public defect datasets demonstrate that the proposed network achieves a better trade-off between accuracy and running efficiency compared with other 17 state-of-the-art methods. Specifically, GCANet achieves competitive accuracy (91.79% $F_{\beta}^{w}$, 93.55% $S_\alpha$, and 97.35% $E_\phi$) on SD-saliency-900 while running 272fps on a single gpu.
翻訳日:2023-09-25 15:54:07 公開日:2023-09-22
# CINFormer:多段CNN機能注入による表面欠陥分割のためのトランスフォーマーネットワーク

CINFormer: Transformer network with multi-stage CNN feature injection for surface defect segmentation ( http://arxiv.org/abs/2309.12639v1 )

ライセンス: Link先を確認
Xiaoheng Jiang, Kaiyi Guo, Yang Lu, Feng Yan, Hao Liu, Jiale Cao, Mingliang Xu, and Dacheng Tao(参考訳) 表面欠陥検査は工業生産と製造にとって非常に重要である。 深層学習に基づく欠陥検査手法は大きな進歩を遂げているが,その背景には識別不能な欠陥や欠陥のような干渉など,いくつかの課題が残っている。 これらの問題に対処するため,多段CNN (Convolutional Neural Network) 機能注入による表面欠陥分割のためのトランスフォーマネットワークを提案する。 CINFormerは、入力画像のマルチレベルCNN機能をエンコーダ内のトランスフォーマーネットワークの異なるステージに注入する、シンプルだが効果的な機能統合機構を提供する。 これにより、CNNが詳細な特徴を捉え、バックグラウンドでノイズを抑える変換器の利点を維持でき、正確な欠陥検出が容易になる。 さらに、CINFormerはTop-Kセルフアテンションモジュールを提供し、欠陥に関するより重要な情報を持つトークンに焦点を当て、冗長なバックグラウンドの影響をさらに軽減する。 表面欠陥データセット dagm 2007, 磁気タイルおよびneu を用いた広範な実験により, 提案するcinformer は欠陥検出において最先端の性能を達成できた。

Surface defect inspection is of great importance for industrial manufacture and production. Though defect inspection methods based on deep learning have made significant progress, there are still some challenges for these methods, such as indistinguishable weak defects and defect-like interference in the background. To address these issues, we propose a transformer network with multi-stage CNN (Convolutional Neural Network) feature injection for surface defect segmentation, which is a UNet-like structure named CINFormer. CINFormer presents a simple yet effective feature integration mechanism that injects the multi-level CNN features of the input image into different stages of the transformer network in the encoder. This can maintain the merit of CNN capturing detailed features and that of transformer depressing noises in the background, which facilitates accurate defect detection. In addition, CINFormer presents a Top-K self-attention module to focus on tokens with more important information about the defects, so as to further reduce the impact of the redundant background. Extensive experiments conducted on the surface defect datasets DAGM 2007, Magnetic tile, and NEU show that the proposed CINFormer achieves state-of-the-art performance in defect detection.
翻訳日:2023-09-25 15:53:34 公開日:2023-09-22
# 新型コロナウイルス(covid-19)検出に先立って, 新しい強度ダークチャネルを用いた自動リズネーションセグメンテーション

Auto-Lesion Segmentation with a Novel Intensity Dark Channel Prior for COVID-19 Detection ( http://arxiv.org/abs/2309.12638v1 )

ライセンス: Link先を確認
Basma Jumaa Saleh, Zaid Omar, Vikrant Bhateja, Lila Iznita Izhar(参考訳) 新型コロナウイルス(COVID-19)のパンデミックの間、CT(Computed Tomography)スキャンのような医療画像技術は、ウイルスの急速な拡散に対抗する効果を示した。 そのため,ct画像を用いたcovid-19検出のためのコンピュータモデルの研究が重要である。 新型コロナウイルスのCT診断を支援するため,放射線学的特徴を利用した新しい処理法が開発された。 本研究の目的は, 肺疾患の異なる原因を区別する伝統的な特徴の低い特異性から, その他の肺疾患との鑑別のためのCTベースの放射線治療フレームワークを開発することである。 このモデルは、新型コロナウイルス(COVID-19)の病変を概説することに焦点を当てている。 このモデルは、画像をcovid-19、non-covid-19、 normalの3つのクラスに分類する。 定義された分析しきい値の範囲内で、強化ダークチャネル事前(IDCP)とディープニューラルネットワーク(ALS-IDCP-DNN)を使用して自動分離の原則を強化する。 提案モデルの有効性を検証するために、covid-19, normal, non-covid-19クラスを含む一般公開データセットが利用された。 最も優れた分類モデルである50層(resnet-50)の残留ニューラルネットワークは、それぞれ98.8%、99%、98%、98%の平均精度、精度、リコール、およびf1-scoreを達成した。 これらの結果から, 放射線科医が新型コロナウイルスの疑いのある患者を診断するのに役立つ, covid-19画像を正確に分類するモデルの有用性が示された。 さらに,本モデルの性能は,同一データセット上で実施した10以上の最先端研究を上回っている。

During the COVID-19 pandemic, medical imaging techniques like computed tomography (CT) scans have demonstrated effectiveness in combating the rapid spread of the virus. Therefore, it is crucial to conduct research on computerized models for the detection of COVID-19 using CT imaging. A novel processing method has been developed, utilizing radiomic features, to assist in the CT-based diagnosis of COVID-19. Given the lower specificity of traditional features in distinguishing between different causes of pulmonary diseases, the objective of this study is to develop a CT-based radiomics framework for the differentiation of COVID-19 from other lung diseases. The model is designed to focus on outlining COVID-19 lesions, as traditional features often lack specificity in this aspect. The model categorizes images into three classes: COVID-19, non-COVID-19, or normal. It employs enhancement auto-segmentation principles using intensity dark channel prior (IDCP) and deep neural networks (ALS-IDCP-DNN) within a defined range of analysis thresholds. A publicly available dataset comprising COVID-19, normal, and non-COVID-19 classes was utilized to validate the proposed model's effectiveness. The best performing classification model, Residual Neural Network with 50 layers (Resnet-50), attained an average accuracy, precision, recall, and F1-score of 98.8%, 99%, 98%, and 98% respectively. These results demonstrate the capability of our model to accurately classify COVID-19 images, which could aid radiologists in diagnosing suspected COVID-19 patients. Furthermore, our model's performance surpasses that of more than 10 current state-of-the-art studies conducted on the same dataset.
翻訳日:2023-09-25 15:53:13 公開日:2023-09-22
# ログポーラ型センサによる注意集中の学習行動と制御

Learning Actions and Control of Focus of Attention with a Log-Polar-like Sensor ( http://arxiv.org/abs/2309.12634v1 )

ライセンス: Link先を確認
Robin G\"oransson and Volker Krueger(参考訳) 本稿では,自律移動ロボットにおける画像処理時間の長期化を念頭に,視線制御による対数極性的な画像データの利用について検討する。 視線制御は、カルト画像上ではなく、対数極性的な画像データ上で行われる。 そのため、Atariゲームにおける古典的な深層強化学習アプローチから出発する。 我々は,lstmネットワークを用いてa3c deep rlアプローチを拡張し,atariゲーム3ゲームプレイのポリシーと視線制御のポリシーを学習する。 Atariゲームはすでに80×80ピクセルの解像度の低解像度画像を使用しているが、ゲーム性能を損なうことなく5倍の解像度の画像を撮影することができる。

With the long-term goal of reducing the image processing time on an autonomous mobile robot in mind we explore in this paper the use of log-polar like image data with gaze control. The gaze control is not done on the Cartesian image but on the log-polar like image data. For this we start out from the classic deep reinforcement learning approach for Atari games. We extend an A3C deep RL approach with an LSTM network, and we learn the policy for playing three Atari games and a policy for gaze control. While the Atari games already use low-resolution images of 80 by 80 pixels, we are able to further reduce the amount of image pixels by a factor of 5 without losing any gaming performance.
翻訳日:2023-09-25 15:52:46 公開日:2023-09-22
# CTスキャンの深層学習分類は公正かつ解釈可能か?

Are Deep Learning Classification Results Obtained on CT Scans Fair and Interpretable? ( http://arxiv.org/abs/2309.12632v1 )

ライセンス: Link先を確認
Mohamad M.A. Ashames, Ahmet Demir, Omer N. Gerek, Mehmet Fidan, M. Bilginer Gulmezoglu, Semih Ergin, Mehmet Koc, Atalay Barkana, Cuneyt Calisir(参考訳) 画像と物体の分類における様々な深層学習法の成功に続いて、バイオメディカル画像処理学会も様々な自動診断への応用に圧倒されている。 残念ながら、この文献における深層学習に基づく分類の試みのほとんどは、解釈可能性や患者によるトレーニングとテストデータの分離を考慮せずに、極端な精度スコアの目的のみに焦点を当てている。 例えば、ディープラーニングを用いたほとんどの肺結節分類論文は、ランダムにシャッフルしたデータをトレーニング、検証、テストセットに分割し、ある人のCTスキャンからある画像がトレーニングセットに含まれ、同じ人の他の画像が検証またはテストイメージセットに含まれている。 これは誤った精度と無関係な特徴の学習を報告し、最終的にこれらのモデルの現実のユーザビリティを低下させる。 従来の不公平なデータシャッフル法で訓練されたディープニューラルネットワークに新たな患者画像が提示された場合、トレーニングされたモデルの性能が低下することが観察される。 対照的に、厳格な患者レベルの分離で訓練されたディープニューラルネットワークは、新しい患者画像がテストされた場合でも精度を維持する。 厳密な患者レベルの分離で訓練されたディープニューラルネットワークの活性化のヒートマップの可視化は、関連する結節に対する集中度が高いことを示している。 本研究は,深層ニューラルネットワークが患者セットの検証と検査から厳格に隔離された患者の画像で訓練されている場合にのみ,本題の課題が肯定的な答えとなることを論じる。

Following the great success of various deep learning methods in image and object classification, the biomedical image processing society is also overwhelmed with their applications to various automatic diagnosis cases. Unfortunately, most of the deep learning-based classification attempts in the literature solely focus on the aim of extreme accuracy scores, without considering interpretability, or patient-wise separation of training and test data. For example, most lung nodule classification papers using deep learning randomly shuffle data and split it into training, validation, and test sets, causing certain images from the CT scan of a person to be in the training set, while other images of the exact same person to be in the validation or testing image sets. This can result in reporting misleading accuracy rates and the learning of irrelevant features, ultimately reducing the real-life usability of these models. When the deep neural networks trained on the traditional, unfair data shuffling method are challenged with new patient images, it is observed that the trained models perform poorly. In contrast, deep neural networks trained with strict patient-level separation maintain their accuracy rates even when new patient images are tested. Heat-map visualizations of the activations of the deep neural networks trained with strict patient-level separation indicate a higher degree of focus on the relevant nodules. We argue that the research question posed in the title has a positive answer only if the deep neural networks are trained with images of patients that are strictly isolated from the validation and testing patient sets.
翻訳日:2023-09-25 15:52:34 公開日:2023-09-22
# 古典影を用いた量子力学の固有構造学習

Learning the eigenstructure of quantum dynamics using classical shadows ( http://arxiv.org/abs/2309.12631v1 )

ライセンス: Link先を確認
Atithi Acharya, Siddhartha Saha, Shagesh Sridharan, Yanis Bahroun and Anirvan M. Sengupta(参考訳) オープン量子系の時間進化の繰り返し観測から力学を学習すること、すなわち量子プロセストモグラフィーの問題は重要な課題である。 この作業は一般的には難しいが、追加の制約があれば扱いやすい。 これは観測からリンドブラッド・オペレーターの発見の問題を考察する動機となっている。 我々は、適度な大きさのヒルベルト空間、チャネルのクラウスランク、短い時間ステップに対して、チャネルに対応するchoi行列の固有値には特別な構造が存在することを指摘した。 我々は、固定入力に対して古典的な影による出力を推定するチャネル推定に最小二乗法を用いる。 その結果、チャネルのノイズ推定は、名目choi行列の対角化、いくつかの固有値の切り換え、真のchoi行列への変更によって、推論することができる。 この処理されたチョイ行列は元の行列と比較される。 サンプルの数が増えるにつれて、再構築がより正確になる。 また,推定チェイ行列の固有スペクトルにおける推定雑音の影響を理解するために,ランダム行列理論のツールを用いる。

Learning dynamics from repeated observation of the time evolution of an open quantum system, namely, the problem of quantum process tomography is an important task. This task is difficult in general, but, with some additional constraints could be tractable. This motivates us to look at the problem of Lindblad operator discovery from observations. We point out that for moderate size Hilbert spaces, low Kraus rank of the channel, and short time steps, the eigenvalues of the Choi matrix corresponding to the channel have a special structure. We use the least-square method for the estimation of a channel where, for fixed inputs, we estimate the outputs by classical shadows. The resultant noisy estimate of the channel can then be denoised by diagonalizing the nominal Choi matrix, truncating some eigenvalues, and altering it to a genuine Choi matrix. This processed Choi matrix is then compared to the original one. We see that as the number of samples increases, our reconstruction becomes more accurate. We also use tools from random matrix theory to understand the effect of estimation noise in the eigenspectrum of the estimated Choi matrix.
翻訳日:2023-09-25 15:52:08 公開日:2023-09-22
# 欠陥分類のための知覚微調整による決定融合ネットワーク

Decision Fusion Network with Perception Fine-tuning for Defect Classification ( http://arxiv.org/abs/2309.12630v1 )

ライセンス: Link先を確認
Xiaoheng Jiang, Shilong Tian, Zhiwen Zhu, Yang Lu, Hao Liu, Li Chen, Shupan Li, Mingliang Xu(参考訳) 表面欠陥検査は産業検査において重要な課題である。 ディープラーニングベースの手法はこの領域で有望なパフォーマンスを示している。 しかしながら、これらの手法は、低コントラスト欠陥や複雑な背景といった課題に直面する際にも、いまだに誤った判断に苦しむ。 これらの課題を克服するために、意味決定と特徴決定を組み込んだ決定融合ネットワーク(DFNet)を提案し、ネットワークの意思決定能力を強化する。 特に,semantic decisionブランチから意味ベクトルを抽出するdecision fusion module(dfm)と,特徴決定ブランチのためのfeature vectorを導入し,それらを融合して最終的な分類決定を行う。 さらに,セグメンテーション段階において,前景と背景を微調整する知覚微調整モジュール(PFM)を提案する。 PFMは、分類決定段階に送られる意味と特徴の出力を生成する。 さらに,セグメンテーション管理におけるラベルエッジの不確かさの影響に対処する内外分離重み行列を提案する。 KolektorSDD2 (96.1% AP) やMagnetic-tile-defect-datasets (94.6% mAP) などの公開データセットに対する実験結果から,提案手法の有効性が示された。

Surface defect inspection is an important task in industrial inspection. Deep learning-based methods have demonstrated promising performance in this domain. Nevertheless, these methods still suffer from misjudgment when encountering challenges such as low-contrast defects and complex backgrounds. To overcome these issues, we present a decision fusion network (DFNet) that incorporates the semantic decision with the feature decision to strengthen the decision ability of the network. In particular, we introduce a decision fusion module (DFM) that extracts a semantic vector from the semantic decision branch and a feature vector for the feature decision branch and fuses them to make the final classification decision. In addition, we propose a perception fine-tuning module (PFM) that fine-tunes the foreground and background during the segmentation stage. PFM generates the semantic and feature outputs that are sent to the classification decision stage. Furthermore, we present an inner-outer separation weight matrix to address the impact of label edge uncertainty during segmentation supervision. Our experimental results on the publicly available datasets including KolektorSDD2 (96.1% AP) and Magnetic-tile-defect-datasets (94.6% mAP) demonstrate the effectiveness of the proposed method.
翻訳日:2023-09-25 15:51:50 公開日:2023-09-22
# 雑音の存在下での電磁界センシングと通信の最適絡み合い

Optimal entanglement-assisted electromagnetic sensing and communication in the presence of noise ( http://arxiv.org/abs/2309.12629v1 )

ライセンス: Link先を確認
Haowei Shi, Bingzhi Zhang, Jeffrey H. Shapiro, Zheshen Zhang and Quntao Zhuang(参考訳) 独立に分布する2モード圧縮真空(tmsv)状態からなる高時間幅製品信号とアイドラーパルスは自発的パラメトリックダウンコンバージョンにより容易に生成される。 これらのパルスは、損失とノイズが最初の絡み合いを損なうシナリオにおいて、最高の古典国家の競合相手よりも量子パフォーマンスの利点を提供するという点で、絡み合った状態の中で事実上ユニークである。 ブロードバンドTMSV状態の量子優位性は、その信号とアイドラーの強い非古典的な位相感受性の相互相関を持ち、同じ伝達エネルギーの古典状態系から得られるものよりも強い損失、雑音のシナリオのシグネチャを持つ情報をもたらす。 従来のブロードバンドTMSV受信アーキテクチャでは,位相依存性のクロス相関を位相非感度のクロス相関に変換することに重点を置いていた。 しかし、一般にこれらの受信機は、たとえ理想的な機器で実装されたとしても、ブロードバンドTMSV状態の完全な量子優位性を提供できない。 本稿では,広帯域tmsvが絡み合う損失やノイズに対して頑健な量子長所を提供する既知のセンシングおよび通信プロトコルにおいて,量子最適性能を達成するように構成可能な相関-転置変換器,プログラマブルモードセレクタ,コヒーレント状態情報抽出器からなる新しいアーキテクチャである相関-転置受信機を提案する。

High time-bandwidth product signal and idler pulses comprised of independent identically distributed two-mode squeezed vacuum (TMSV) states are readily produced by spontaneous parametric downconversion. These pulses are virtually unique among entangled states in that they offer quantum performance advantages -- over their best classical-state competitors -- in scenarios whose loss and noise break their initial entanglement. Broadband TMSV states' quantum advantage derives from its signal and idler having a strongly nonclassical phase-sensitive cross correlation, which leads to information bearing signatures in lossy, noisy scenarios stronger than what can be obtained from classical-state systems of the same transmitted energy. Previous broadband TMSV receiver architectures focused on converting phase-sensitive cross correlation into phase-insensitive cross correlation, which can be measured in second-order interference. In general, however, these receivers fail to deliver broadband TMSV states' full quantum advantage, even if they are implemented with ideal equipment. This paper introduces the correlation-to-displacement receiver -- a new architecture comprised of a correlation-to-displacement converter, a programmable mode selector, and a coherent-state information extractor -- that can be configured to achieve quantum optimal performance in known sensing and communication protocols for which broadband TMSV provides quantum advantage that is robust against entanglement-breaking loss and noise.
翻訳日:2023-09-25 15:51:30 公開日:2023-09-22
# 強化学習のための逐次行動誘発不変表現

Sequential Action-Induced Invariant Representation for Reinforcement Learning ( http://arxiv.org/abs/2309.12628v1 )

ライセンス: Link先を確認
Dayang Liang, Qihang Chen and Yunlong Liu(参考訳) 視覚障害を伴う高次元観察からタスク関連状態表現を正確に学習する方法は,視覚強化学習において現実的な課題である。 近年,バイシミュレーションメトリクス,コントラスト,予測,再構成に基づく教師なし表現学習手法がタスク関連情報抽出の能力を示している。 しかし、予測・コントラスト・再構成関連アプローチにおけるタスク情報抽出の適切なメカニズムの欠如や、疎報酬領域におけるバイシミュレーション関連手法の限界などにより、これらの手法を障害のある環境に効果的に拡張することは依然として困難である。 これらの問題を緩和するため,本稿では,タスク集約的な信号を含む動作シーケンスを表現学習に組み込む。 具体的には、逐次動作の制御信号に従うコンポーネントのみを保持するために、補助学習者によってエンコーダを最適化したシーケンスアクション誘発不変表現(SAR)法を提案する。 我々は,DeepMind Controlスイートのタスクに対して,強いベースライン上で最高のパフォーマンスを達成しつつ,邪魔を伴って広範な実験を行う。 また,現実のCARLAをベースとした自律運転にSARを配置することで,タスク非関連情報を無視する手法の有効性を示す。 最後に,一般化崩壊とt-sne可視化から得られた一般化の解析結果を提供する。 コードとデモビデオはhttps://github.com/DMU-XMU/SAR.git.comで公開されている。

How to accurately learn task-relevant state representations from high-dimensional observations with visual distractions is a realistic and challenging problem in visual reinforcement learning. Recently, unsupervised representation learning methods based on bisimulation metrics, contrast, prediction, and reconstruction have shown the ability for task-relevant information extraction. However, due to the lack of appropriate mechanisms for the extraction of task information in the prediction, contrast, and reconstruction-related approaches and the limitations of bisimulation-related methods in domains with sparse rewards, it is still difficult for these methods to be effectively extended to environments with distractions. To alleviate these problems, in the paper, the action sequences, which contain task-intensive signals, are incorporated into representation learning. Specifically, we propose a Sequential Action--induced invariant Representation (SAR) method, in which the encoder is optimized by an auxiliary learner to only preserve the components that follow the control signals of sequential actions, so the agent can be induced to learn the robust representation against distractions. We conduct extensive experiments on the DeepMind Control suite tasks with distractions while achieving the best performance over strong baselines. We also demonstrate the effectiveness of our method at disregarding task-irrelevant information by deploying SAR to real-world CARLA-based autonomous driving with natural distractions. Finally, we provide the analysis results of generalization drawn from the generalization decay and t-SNE visualization. Code and demo videos are available at https://github.com/DMU-XMU/SAR.git.
翻訳日:2023-09-25 15:51:02 公開日:2023-09-22
# モデルを微調整する方法:統一モデルシフトとモデルバイアスポリシー最適化

How to Fine-tune the Model: Unified Model Shift and Model Bias Policy Optimization ( http://arxiv.org/abs/2309.12671v1 )

ライセンス: Link先を確認
Hai Zhang, Hang Yu, Junqiao Zhao, Di Zhang, ChangHuang, Hongtu Zhou, Xiao Zhang, Chen Ye(参考訳) 効果的なモデルベース強化学習(mbrl)アルゴリズムの設計と導出は、主にモデル学習とポリシー最適化の結合度が高いことが原因で困難である。 モデル学習を導くためにリターンの相違に依存する多くの先行手法は、モデル変更の影響を無視しており、過剰なモデル更新によるパフォーマンス劣化につながる可能性がある。 他のメソッドでは、モデルシフトを明示的に考慮するためにパフォーマンス差分を使用する。 しかし、これらの手法はモデルシフトを制約するために一定のしきい値に依存するため、しきい値に大きく依存し、トレーニングプロセス中に適応性に欠ける。 本稿では,モデルシフトとモデルバイアスを統一し,微調整プロセスを定式化する最適化目標を理論的に導出する。 このプロセスはモデル更新を適応的に調整し、モデルオーバーフィットを避けながら、パフォーマンス向上の保証を得る。 そこで我々は,USB-PO (Unified model Shift and model Bias Policy Optimization) という簡単なアルゴリズムを開発した。 実験の結果,USB-POはいくつかの課題のあるベンチマークタスクにおいて,最先端のパフォーマンスを実現することがわかった。

Designing and deriving effective model-based reinforcement learning (MBRL) algorithms with a performance improvement guarantee is challenging, mainly attributed to the high coupling between model learning and policy optimization. Many prior methods that rely on return discrepancy to guide model learning ignore the impacts of model shift, which can lead to performance deterioration due to excessive model updates. Other methods use performance difference bound to explicitly consider model shift. However, these methods rely on a fixed threshold to constrain model shift, resulting in a heavy dependence on the threshold and a lack of adaptability during the training process. In this paper, we theoretically derive an optimization objective that can unify model shift and model bias and then formulate a fine-tuning process. This process adaptively adjusts the model updates to get a performance improvement guarantee while avoiding model overfitting. Based on these, we develop a straightforward algorithm USB-PO (Unified model Shift and model Bias Policy Optimization). Empirical results show that USB-PO achieves state-of-the-art performance on several challenging benchmark tasks.
翻訳日:2023-09-25 15:42:10 公開日:2023-09-22
# hrot:テーブルとテキストのハイブリッド質問応答のためのハイブリッドプロンプト戦略と思考の検索

HRoT: Hybrid prompt strategy and Retrieval of Thought for Table-Text Hybrid Question Answering ( http://arxiv.org/abs/2309.12669v1 )

ライセンス: Link先を確認
Tongxu Luo, Fangyu Lei, Jiahe Lei, Weihao Liu, Shihu He, Jun Zhao and Kang Liu(参考訳) 与えられたテーブルとテキスト(TextTableQA)からハイブリッドコンテンツに関する数値的な疑問に答えることは難しい課題である。 近年,NLPコミュニティにおいてLarge Language Models (LLMs) が注目されている。 大規模言語モデルが出現し、文脈内学習と思考の連鎖的促進がこの分野で特に人気のある2つの研究トピックとなっている。 本稿では,TextTableQAのためのHybrid prompt strategyとRetrieval of Thoughtという新たなプロンプト戦略を提案する。 コンテキスト内学習を通じて,ハイブリッドデータを扱う際に,モデルが思考を検索する能力を開発するように促す。 本手法は,MultiHierttデータセットのフル教師付きSOTAと比較して,数ショット設定で優れた性能を実現する。

Answering numerical questions over hybrid contents from the given tables and text(TextTableQA) is a challenging task. Recently, Large Language Models (LLMs) have gained significant attention in the NLP community. With the emergence of large language models, In-Context Learning and Chain-of-Thought prompting have become two particularly popular research topics in this field. In this paper, we introduce a new prompting strategy called Hybrid prompt strategy and Retrieval of Thought for TextTableQA. Through In-Context Learning, we prompt the model to develop the ability of retrieval thinking when dealing with hybrid data. Our method achieves superior performance compared to the fully-supervised SOTA on the MultiHiertt dataset in the few-shot setting.
翻訳日:2023-09-25 15:41:53 公開日:2023-09-22
# ランジュバン準モンテカルロ

Langevin Quasi-Monte Carlo ( http://arxiv.org/abs/2309.12664v1 )

ライセンス: Link先を確認
Sifan Liu(参考訳) ランゲヴィン・モンテカルロ(LMC)とその確率勾配バージョンは複雑な高次元分布からサンプリングする強力なアルゴリズムである。 密度 $\pi(\theta)\propto \exp(-U(\theta)) $ の分布からサンプリングするために、LCC はガウス摂動を加えて勾配方向 $\nabla U$ のステップを踏んで次のサンプルを反復的に生成する。 目標分布$\pi$に対する期待値は、LCCサンプルの平均化によって推定される。 通常のモンテカルロでは、独立ランダムサンプルを低分解配列のような準ランダムサンプルに置き換えることで、推定誤差が大幅に低減できることが知られている。 本研究では,準ランダムサンプルを用いてLCCの推定誤差を低減できることを示す。 具体的には,ガウス摂動を生成するために,ある種の低分散特性を持つ完全均一分布(CUD)シーケンスを提案する。 滑らかさと凸性条件下では,低分解能CUDシーケンスのLCCが標準LCCよりも誤差が小さいことを証明した。 理論解析は,本手法の有効性を示す説得力のある数値実験によって支援されている。

Langevin Monte Carlo (LMC) and its stochastic gradient versions are powerful algorithms for sampling from complex high-dimensional distributions. To sample from a distribution with density $\pi(\theta)\propto \exp(-U(\theta)) $, LMC iteratively generates the next sample by taking a step in the gradient direction $\nabla U$ with added Gaussian perturbations. Expectations w.r.t. the target distribution $\pi$ are estimated by averaging over LMC samples. In ordinary Monte Carlo, it is well known that the estimation error can be substantially reduced by replacing independent random samples by quasi-random samples like low-discrepancy sequences. In this work, we show that the estimation error of LMC can also be reduced by using quasi-random samples. Specifically, we propose to use completely uniformly distributed (CUD) sequences with certain low-discrepancy property to generate the Gaussian perturbations. Under smoothness and convexity conditions, we prove that LMC with a low-discrepancy CUD sequence achieves smaller error than standard LMC. The theoretical analysis is supported by compelling numerical experiments, which demonstrate the effectiveness of our approach.
翻訳日:2023-09-25 15:41:40 公開日:2023-09-22
# 位置依存非可換性空間における長さの量子化

Quantization of Length in Spaces with Position-Dependent Noncommutativity ( http://arxiv.org/abs/2309.12663v1 )

ライセンス: Link先を確認
Jishnu Aryampilly, Muthukumar Balasundaram, Aamir Rashid(参考訳) 位置依存非可換性を持つ非可換空間における長さを定量化する新しい手法を提案する。 この方法は、平面に沿った長さだけでなく、標準/ワイル・モヤル型とリー代数型の組合せである非可換パラメータによる3番目の方向も変化させるラダー演算子を構築することを含む。 正準型非可換空間における長さの一次量子化は平面上でのみ行われ、この場合は3つの方向全てで起こる。 我々は、長さの二乗に対応する作用素の固有値の昇降を可能にする作用素代数を確立する。 また、得られたラダー作用素が異なる状態にどのように作用するかを判断し、ラダー演算子に対応する固有値の観点から長さ演算子の正方形の固有値を求める。 得られた結果を議論して結論付ける。

We present a novel approach to quantizing the length in noncommutative spaces with positional-dependent noncommutativity. The method involves constructing ladder operators that change the length not only along a plane but also along the third direction due to a noncommutative parameter that is a combination of canonical/Weyl-Moyal type and Lie algebraic type. The primary quantization of length in canonical-type noncommutative space takes place only on a plane, while in the present case, it happens in all three directions. We establish an operator algebra that allows for the raising or lowering of eigenvalues of the operator corresponding to the square of the length. We also attempt to determine how the obtained ladder operators act on different states and work out the eigenvalues of the square of the length operator in terms of eigenvalues corresponding to the ladder operators. We conclude by discussing the results obtained.
翻訳日:2023-09-25 15:41:18 公開日:2023-09-22
# OneNet:オンライン構築によるコンセプトドリフト下での時系列予測モデルの強化

OneNet: Enhancing Time Series Forecasting Models under Concept Drift by Online Ensembling ( http://arxiv.org/abs/2309.12659v1 )

ライセンス: Link先を確認
Yi-Fan Zhang, Qingsong Wen, Xue Wang, Weiqi Chen, Liang Sun, Zhang Zhang, Liang Wang, Rong Jin, Tieniu Tan(参考訳) 時系列予測モデルのオンライン更新は,ストリーミングデータに基づく予測モデルを効率的に更新することにより,概念の漂流問題に対処することを目的としている。 多くのアルゴリズムはオンライン時系列予測のために設計されており、一部は変数間の独立性を前提としている。 すべてのデータ仮定がオンライン時系列モデリングにおいて独自の長所と短所を持つ場合、我々は \textbf{on}line \textbf{e}nsembling \textbf{net}work (onenet)を提案する。 動的に更新され、2つのモデルを組み合わせる。ひとつは時間次元の依存性をモデリングすること、もうひとつは変数間の依存性をモデリングすることに焦点を当てる。 本手法は,従来のオンライン凸プログラミングフレームワークに強化学習に基づくアプローチを取り入れ,動的に重み付けを調整した2つのモデルの線形結合を可能にする。 OneNetは、コンセプトドリフトへの適応が遅い傾向にある古典的なオンライン学習方法の主な欠点に対処する。 実験の結果,OneNet は State-Of-The-Art (SOTA) 法と比較して,オンライン予測誤差を $\mathbf{50\%}$ 以上削減することがわかった。 コードは \url{https://github.com/yfzhang114/onenet} で入手できる。

Online updating of time series forecasting models aims to address the concept drifting problem by efficiently updating forecasting models based on streaming data. Many algorithms are designed for online time series forecasting, with some exploiting cross-variable dependency while others assume independence among variables. Given every data assumption has its own pros and cons in online time series modeling, we propose \textbf{On}line \textbf{e}nsembling \textbf{Net}work (OneNet). It dynamically updates and combines two models, with one focusing on modeling the dependency across the time dimension and the other on cross-variate dependency. Our method incorporates a reinforcement learning-based approach into the traditional online convex programming framework, allowing for the linear combination of the two models with dynamically adjusted weights. OneNet addresses the main shortcoming of classical online learning methods that tend to be slow in adapting to the concept drift. Empirical results show that OneNet reduces online forecasting error by more than $\mathbf{50\%}$ compared to the State-Of-The-Art (SOTA) method. The code is available at \url{https://github.com/yfzhang114/OneNet}.
翻訳日:2023-09-25 15:41:01 公開日:2023-09-22
# 深いガウス過程に対する正規化スタイン差分に基づくニューラル演算子変分推定

Neural Operator Variational Inference based on Regularized Stein Discrepancy for Deep Gaussian Processes ( http://arxiv.org/abs/2309.12658v1 )

ライセンス: Link先を確認
Jian Xu, Shian Du, Junmei Yang, Qianli Ma, Delu Zeng(参考訳) ディープガウス過程(DGP)モデルはベイズ推論に強力な非パラメトリックなアプローチを提供するが、正確な推論は通常難解であり、様々な近似の使用を動機付けている。 しかし、平均場ガウスの仮定のような既存のアプローチはDGPモデルの表現性と有効性を制限し、確率近似は計算的に高価である。 これらの課題に取り組むため,我々は深いガウス過程に対してニューラル演算子変分推論(novi)を導入する。 NOVIは、ニューラルジェネレータを使用してサンプリング装置を取得し、生成された分布と真の後部の間のL2空間における正規化スタインの離散性を最小化する。 モンテカルロ推定とサブサンプリング確率最適化手法を用いてミニマックス問題を解く。 提案手法によって導入されたバイアスは、フィッシャーの発散を定数に乗じることで制御できることを実証し、堅牢な誤差制御とアルゴリズムの安定性と精度を保証する。 数百から数万のデータセットに対する実験により,提案手法の有効性と収束速度の高速化が示された。 CIFAR10データセットの分類精度は93.56であり,SOTAガウス法よりも優れている。 さらに,提案手法はDGPモデルの理論的に制御された予測誤差を保証し,各種データセット上での顕著な性能を示す。 noviは深いベイズ型非パラメトリックモデルの性能を高める可能性があり、様々な実用的応用に大きな影響を与える可能性があると楽観的です。

Deep Gaussian Process (DGP) models offer a powerful nonparametric approach for Bayesian inference, but exact inference is typically intractable, motivating the use of various approximations. However, existing approaches, such as mean-field Gaussian assumptions, limit the expressiveness and efficacy of DGP models, while stochastic approximation can be computationally expensive. To tackle these challenges, we introduce Neural Operator Variational Inference (NOVI) for Deep Gaussian Processes. NOVI uses a neural generator to obtain a sampler and minimizes the Regularized Stein Discrepancy in L2 space between the generated distribution and true posterior. We solve the minimax problem using Monte Carlo estimation and subsampling stochastic optimization techniques. We demonstrate that the bias introduced by our method can be controlled by multiplying the Fisher divergence with a constant, which leads to robust error control and ensures the stability and precision of the algorithm. Our experiments on datasets ranging from hundreds to tens of thousands demonstrate the effectiveness and the faster convergence rate of the proposed method. We achieve a classification accuracy of 93.56 on the CIFAR10 dataset, outperforming SOTA Gaussian process methods. Furthermore, our method guarantees theoretically controlled prediction error for DGP models and demonstrates remarkable performance on various datasets. We are optimistic that NOVI has the potential to enhance the performance of deep Bayesian nonparametric models and could have significant implications for various practical applications
翻訳日:2023-09-25 15:40:38 公開日:2023-09-22
# マルチモーダルマニピュレーション検出と接地のための爆発的モダリティ特性

Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding ( http://arxiv.org/abs/2309.12657v1 )

ライセンス: Link先を確認
Jiazhen Wang, Bin Liu, Changtao Miao, Zhiwei Zhao, Wanyi Zhuang, Qi Chu, Nenghai Yu(参考訳) ai合成テキストと画像は、特にインターネット上でマルチモーダル操作が広く普及し、社会に多くのネガティブな影響を与えたために、注目を集めている。 既存のマルチモーダルな操作検出とグラウンドディングの方法は、主に視覚言語の特徴を融合させて予測することに焦点を当て、モダリティ固有の特徴の重要性を見越して、準最適結果をもたらす。 本稿では,マルチモーダル操作検出と接地タスクを行うための,単純で新しいトランスフォーマーベースのフレームワークを構築する。 本フレームワークは,マルチモーダルアライメント機能を維持しつつ,モダリティ特有の特徴を同時に探索する。 これを実現するために、視覚/言語事前学習エンコーダとデュアルブランチ・クロスアテンション(DCA)を導入し、モダリティ・ユニクティックな特徴を抽出し、融合する。 さらに,非結合型細粒度分類器(DFC)を設計し,モダリティ固有の特徴マイニングとモダリティ競争を緩和する。 さらに,学習可能なクエリを用いて各モーダリティ内のグローバルコンテキストの手がかりを適応的に集約する,暗黙的操作クエリ(imq)を提案する。 dgm^4$データセットの広範囲な実験は、最先端のアプローチと比較して提案モデルの優れた性能を示している。

AI-synthesized text and images have gained significant attention, particularly due to the widespread dissemination of multi-modal manipulations on the internet, which has resulted in numerous negative impacts on society. Existing methods for multi-modal manipulation detection and grounding primarily focus on fusing vision-language features to make predictions, while overlooking the importance of modality-specific features, leading to sub-optimal results. In this paper, we construct a simple and novel transformer-based framework for multi-modal manipulation detection and grounding tasks. Our framework simultaneously explores modality-specific features while preserving the capability for multi-modal alignment. To achieve this, we introduce visual/language pre-trained encoders and dual-branch cross-attention (DCA) to extract and fuse modality-unique features. Furthermore, we design decoupled fine-grained classifiers (DFC) to enhance modality-specific feature mining and mitigate modality competition. Moreover, we propose an implicit manipulation query (IMQ) that adaptively aggregates global contextual cues within each modality using learnable queries, thereby improving the discovery of forged details. Extensive experiments on the $\rm DGM^4$ dataset demonstrate the superior performance of our proposed model compared to state-of-the-art approaches.
翻訳日:2023-09-25 15:40:14 公開日:2023-09-22
# 自然改正は即時条件付き改訂である

Natural revision is contingently-conditionalized revision ( http://arxiv.org/abs/2309.12655v1 )

ライセンス: Link先を確認
Paolo Liberatore(参考訳) 自然のリビジョンはとても自然なように思える。新しい情報を組み込むのにできる限り信念を変える。 しかし、いくつかの反例は間違っている。 保守的であるので、完全には信じない。 現在の状況だけを信じている。 これは、あるケースでは正しいし、別のケースでは間違っている。 どちらですか? この答えは、普遍真理を表す単純な公式(何かが成り立つ)から条件真理を表す条件(ある条件で成り立つもの)まで、自然修正を延長する必要がある。 この拡張は、自然リビジョンが下記の基本的な原則に基づいており、最小限の変更、無関心、ナイーブティとして認識されている: 変更の信念は可能な限り少なく、シナリオの類似性はデフォルトで同等である。 この拡張は、自然の修正が現在の条件の変更を制限すると言っている。 制限のないリビジョンと比較すると、現在の条件が正確に何であるかが分かる。 もしそれが新しい情報と矛盾するならば、現在考えていることは事実ではない。 それは、新しい情報が少なくとも可能になるまで、もっとありそうにないものを含んでいる。

Natural revision seems so natural: it changes beliefs as little as possible to incorporate new information. Yet, some counterexamples show it wrong. It is so conservative that it never fully believes. It only believes in the current conditions. This is right in some cases and wrong in others. Which is which? The answer requires extending natural revision from simple formulae expressing universal truths (something holds) to conditionals expressing conditional truth (something holds in certain conditions). The extension is based on the basic principles natural revision follows, identified as minimal change, indifference and naivety: change beliefs as little as possible; equate the likeliness of scenarios by default; believe all until contradicted. The extension says that natural revision restricts changes to the current conditions. A comparison with an unrestricting revision shows what exactly the current conditions are. It is not what currently considered true if it contradicts the new information. It includes something more and more unlikely until the new information is at least possible.
翻訳日:2023-09-25 15:39:50 公開日:2023-09-22
# FP-PET:大規模モデル、複数損失、集中型プラクティス

FP-PET: Large Model, Multiple Loss And Focused Practice ( http://arxiv.org/abs/2309.12650v1 )

ライセンス: Link先を確認
Yixin Chen, Ourui Fu, Wenrui Shao, Zhaoheng Xie(参考訳) 本研究は,CTおよびPET画像に焦点をあてた医用画像セグメンテーションへの包括的アプローチであるFP-PETを提案する。 autopet2023チャレンジのデータセットを利用して、研究はstunet-large、swiinunetr、vnetを含むさまざまな機械学習モデルを使用して、最先端のセグメンテーション性能を達成している。 本稿では,Dice score, false positive volume (FPV), false negative volume (FNV) などの複数の評価指標を組み合わせて,モデルの有効性を総合的に評価する集計スコアを提案する。 また、高性能gpu上で実施したモデルトレーニングに関する計算上の課題と解決策についても論じた。 ガウス重み付けスキームやモルフォロジー演算を含む前処理および後処理技術について検討し,さらにセグメンテーション出力を改良する。 この研究は、高度な医療画像セグメンテーションの課題と解決策に関する貴重な洞察を提供する。

This study presents FP-PET, a comprehensive approach to medical image segmentation with a focus on CT and PET images. Utilizing a dataset from the AutoPet2023 Challenge, the research employs a variety of machine learning models, including STUNet-large, SwinUNETR, and VNet, to achieve state-of-the-art segmentation performance. The paper introduces an aggregated score that combines multiple evaluation metrics such as Dice score, false positive volume (FPV), and false negative volume (FNV) to provide a holistic measure of model effectiveness. The study also discusses the computational challenges and solutions related to model training, which was conducted on high-performance GPUs. Preprocessing and postprocessing techniques, including gaussian weighting schemes and morphological operations, are explored to further refine the segmentation output. The research offers valuable insights into the challenges and solutions for advanced medical image segmentation.
翻訳日:2023-09-25 15:39:35 公開日:2023-09-22
# ディヤド会話におけるデコードの影響 : 文埋め込みによる意味的類似性の利用

Decoding Affect in Dyadic Conversations: Leveraging Semantic Similarity through Sentence Embedding ( http://arxiv.org/abs/2309.12646v1 )

ライセンス: Link先を確認
Chen-Wei Yu, Yun-Shiuan Chuang, Alexandros N. Lotsos, and Claudia M. Haase(参考訳) 自然言語処理(NLP)の最近の進歩は、意味的類似性の測定における文埋め込みの可能性を強調している。 しかし、現実世界のディヤド相互作用の分析や、会話参加者の影響の予測におけるその応用は、いまだに目立たない。 このギャップを埋めるために,本研究では,紛争や楽しい活動について語る50人の夫婦の会話を利用した。 変換器を用いた全MiniLM-L6-v2モデルを用いて各話者からの発話の埋め込みを得た。 会話の全体的な類似度は、隣接する発話の埋め込みの平均コサイン類似度によって定量された。 その結果、意味的類似性は、対立中の(しかし楽しい)会話における妻の感情と肯定的な関係を示した。 また,会話の種類によらず,夫の影響は認められなかった。 2つの検証チェックにより、類似度尺度の妥当性がさらに向上し、観測されたパターンが単なるデータのアーティファクトではないことを示した。 本研究は,感情科学と関係科学の革新的応用に向けて,対人的ダイナミクスと個人的影響の関連性を理解する上で,文の埋め込みが有効であることを示すものである。

Recent advancements in Natural Language Processing (NLP) have highlighted the potential of sentence embeddings in measuring semantic similarity. Yet, its application in analyzing real-world dyadic interactions and predicting the affect of conversational participants remains largely uncharted. To bridge this gap, the present study utilizes verbal conversations within 50 married couples talking about conflicts and pleasant activities. Transformer-based model all-MiniLM-L6-v2 was employed to obtain the embeddings of the utterances from each speaker. The overall similarity of the conversation was then quantified by the average cosine similarity between the embeddings of adjacent utterances. Results showed that semantic similarity had a positive association with wives' affect during conflict (but not pleasant) conversations. Moreover, this association was not observed with husbands' affect regardless of conversation types. Two validation checks further provided support for the validity of the similarity measure and showed that the observed patterns were not mere artifacts of data. The present study underscores the potency of sentence embeddings in understanding the association between interpersonal dynamics and individual affect, paving the way for innovative applications in affective and relationship sciences.
翻訳日:2023-09-25 15:39:18 公開日:2023-09-22
# 繰り返し発生する時間的リビジョングラフネットワーク

Recurrent Temporal Revision Graph Networks ( http://arxiv.org/abs/2309.12694v1 )

ライセンス: Link先を確認
Yizhou Chen, Anxiang Zeng, Guangda Huzhang, Qingtao Yu, Kerui Zhang, Cao Yuanpeng, Kangle Wu, Han Yu, Zhiming Zhou(参考訳) 時間グラフは静的グラフよりも多くの実世界のシナリオの正確なモデリングを提供する。 しかし、時間グラフのためのグラフネットワークの重要なビルディングブロックであるnearby aggregateは、現在静的グラフから簡単に拡張されている。 このような集約中にすべての歴史的な隣人を巻き込む場合、計算コストがかかる。 実際には、通常は最新の隣人のごく一部しか関与していない。 しかし、このようなサブサンプリングは、不完全で偏った隣の情報を導く。 この制限に対処するために,ノード単位の隠れ状態を持つリカレントニューラルネットワークを用いて,各ノードのすべての履歴隣人からの情報を統合して,完全な隣接情報を取得する,時間的隣人集約のための新しいフレームワークを提案する。 提案するフレームワークの優れた理論的表現性および実世界のアプリケーションにおける最先端性能を示す。 特に、2層モデル上の既存のメソッドよりも、現実のEコマースデータセットにおける平均精度が9.6%向上している。

Temporal graphs offer more accurate modeling of many real-world scenarios than static graphs. However, neighbor aggregation, a critical building block of graph networks, for temporal graphs, is currently straightforwardly extended from that of static graphs. It can be computationally expensive when involving all historical neighbors during such aggregation. In practice, typically only a subset of the most recent neighbors are involved. However, such subsampling leads to incomplete and biased neighbor information. To address this limitation, we propose a novel framework for temporal neighbor aggregation that uses the recurrent neural network with node-wise hidden states to integrate information from all historical neighbors for each node to acquire the complete neighbor information. We demonstrate the superior theoretical expressiveness of the proposed framework as well as its state-of-the-art performance in real-world applications. Notably, it achieves a significant +9.6% improvement on averaged precision in a real-world Ecommerce dataset over existing methods on 2-layer models.
翻訳日:2023-09-25 15:33:35 公開日:2023-09-22
# ローカルおよびクラウド計算による環境のグラフ表現の強化

Enhancing Graph Representation of the Environment through Local and Cloud Computation ( http://arxiv.org/abs/2309.12692v1 )

ライセンス: Link先を確認
Francesco Argenziano, Vincenzo Suriani and Daniele Nardi(参考訳) 動作環境のロボット表現を充実させることは,低レベルのセンサ読み取りと高レベルのセマンティック理解のギャップを埋めることを目的とした課題である。 リッチな表現を持つには、しばしば計算的に要求されるアーキテクチャと、ロボットが処理しなければならない日常的なオブジェクトを扱うのに苦労する純粋なポイントクラウドベースの検出システムが必要である。 これらの問題を克服するために,複数のソースからロボット環境を意味的に表現することで,このギャップに対処するグラフ表現を提案する。 実際、環境から情報を取得するために、このフレームワークは古典的なコンピュータビジョンツールとモダンなコンピュータビジョンクラウドサービスを組み合わせることで、オンボードハードウェア上での計算可能性を確保する。 800以上のオブジェクトクラスを持つオントロジー階層を組み込むことで、フレームワークはクロスドメイン適応性を実現し、環境固有のツールの必要性をなくす。 提案されたアプローチにより、小さなオブジェクトも処理でき、それらを環境のセマンティックな表現に統合することができます。 このアプローチは、環境表現にrvizビジュアライザを使用してロボットオペレーティングシステム(ros)に実装されている。 この作業は、直感的なインタラクションと異なるドメイン間のナビゲーションを容易にする汎用フレームワークの開発に向けた第一歩です。

Enriching the robot representation of the operational environment is a challenging task that aims at bridging the gap between low-level sensor readings and high-level semantic understanding. Having a rich representation often requires computationally demanding architectures and pure point cloud based detection systems that struggle when dealing with everyday objects that have to be handled by the robot. To overcome these issues, we propose a graph-based representation that addresses this gap by providing a semantic representation of robot environments from multiple sources. In fact, to acquire information from the environment, the framework combines classical computer vision tools with modern computer vision cloud services, ensuring computational feasibility on onboard hardware. By incorporating an ontology hierarchy with over 800 object classes, the framework achieves cross-domain adaptability, eliminating the need for environment-specific tools. The proposed approach allows us to handle also small objects and integrate them into the semantic representation of the environment. The approach is implemented in the Robot Operating System (ROS) using the RViz visualizer for environment representation. This work is a first step towards the development of a general-purpose framework, to facilitate intuitive interaction and navigation across different domains.
翻訳日:2023-09-25 15:33:21 公開日:2023-09-22
# AMPLIFY:Attention-based Mixup for Performance Improvement and Label Smoothing in Transformer

AMPLIFY:Attention-based Mixup for Performance Improvement and Label Smoothing in Transformer ( http://arxiv.org/abs/2309.12689v1 )

ライセンス: Link先を確認
Leixin Yang, Yaping Zhang, Haoyu Xiong, Yu Xiang(参考訳) mixupは、異なるオリジナルサンプルの線形結合を集約することで、新しい拡張サンプルを生成する効果的なデータ拡張手法である。 しかし、元のサンプルにノイズや異常な特徴がある場合、Mixupはそれらを拡張されたサンプルに伝達し、モデルがこれらの外れ値に過敏になる可能性がある。 そこで本稿では, amplify と呼ばれる新しいミックスアップ手法を提案する。 本手法は, 変圧器自体の注意機構を用いて, 学習可能なパラメータを増加させることなく, 予測結果に対する原試料のノイズや異常値の影響を低減し, 計算コストが極めて低く, 文混合などの一般的な混合手法における資源消費の問題を回避できる。 実験の結果, AMPLIFYは, 計算資源のコストが小さく, 7つのベンチマークデータセット上でのテキスト分類タスクにおいて他のmixupメソッドよりも優れており, BERT, ALBERT, RoBERTa, GPTなどのアテンション機構に基づく事前学習モデルの性能向上のための新しいアイデアと新しい方法が得られた。 私たちのコードはhttps://github.com/kiwi-lilo/amplifyで取得できます。

Mixup is an effective data augmentation method that generates new augmented samples by aggregating linear combinations of different original samples. However, if there are noises or aberrant features in the original samples, Mixup may propagate them to the augmented samples, leading to over-sensitivity of the model to these outliers . To solve this problem, this paper proposes a new Mixup method called AMPLIFY. This method uses the Attention mechanism of Transformer itself to reduce the influence of noises and aberrant values in the original samples on the prediction results, without increasing additional trainable parameters, and the computational cost is very low, thereby avoiding the problem of high resource consumption in common Mixup methods such as Sentence Mixup . The experimental results show that, under a smaller computational resource cost, AMPLIFY outperforms other Mixup methods in text classification tasks on 7 benchmark datasets, providing new ideas and new ways to further improve the performance of pre-trained models based on the Attention mechanism, such as BERT, ALBERT, RoBERTa, and GPT. Our code can be obtained at https://github.com/kiwi-lilo/AMPLIFY.
翻訳日:2023-09-25 15:33:01 公開日:2023-09-22
# eWand:ワイドベースラインフレームとイベントベースカメラシステムのための校正フレームワーク

eWand: A calibration framework for wide baseline frame-based and event-based camera systems ( http://arxiv.org/abs/2309.12685v1 )

ライセンス: Link先を確認
Thomas Gossard, Andreas Ziegler, Levin Kolmar, Jonas Tebbe and Andreas Zell(参考訳) 複数のカメラを使って物体の位置を正確に三角測量するには正確な校正が不可欠である。 しかし、カメラの変位毎に繰り返し必要となる、時間を要するプロセスでもある。 標準的なアプローチは、既知の幾何学を持つ印刷パターンを使用して、カメラの固有パラメータと外部パラメータを推定する。 同じアイデアはイベントベースのカメラにも適用可能だが、追加作業が必要になる。 イベントからのフレーム再構成を使用することで、印刷パターンを検出することができる。 点滅パターンを画面に表示することもできる。 そして、そのパターンをイベントから直接検出することができる。 このようなキャリブレーション手法は、フレームベースのカメラとイベントベースのカメラの両方に正確な固有キャリブレーションを提供することができる。 しかし、2Dパターンの使用には、カメラが高度に異なる視点と広いベースラインを持ちながら、マルチカメラの外部キャリブレーションにいくつかの制限がある。 2Dパターンは1つの方向からしか検出できず、カメラまでの距離を補うためにかなりの大きさが必要である。 これにより、外因性キャリブレーションの時間と手間がかかる。 このような制約を克服するために,印刷や表示のパターンの代わりに不透明な球体内でLEDを点滅させる新しい方法であるeWandを提案する。 本手法は,イベントベースカメラとフレームベースカメラの両方において,高精度なキャリブレーション手法を提案する。

Accurate calibration is crucial for using multiple cameras to triangulate the position of objects precisely. However, it is also a time-consuming process that needs to be repeated for every displacement of the cameras. The standard approach is to use a printed pattern with known geometry to estimate the intrinsic and extrinsic parameters of the cameras. The same idea can be applied to event-based cameras, though it requires extra work. By using frame reconstruction from events, a printed pattern can be detected. A blinking pattern can also be displayed on a screen. Then, the pattern can be directly detected from the events. Such calibration methods can provide accurate intrinsic calibration for both frame- and event-based cameras. However, using 2D patterns has several limitations for multi-camera extrinsic calibration, with cameras possessing highly different points of view and a wide baseline. The 2D pattern can only be detected from one direction and needs to be of significant size to compensate for its distance to the camera. This makes the extrinsic calibration time-consuming and cumbersome. To overcome these limitations, we propose eWand, a new method that uses blinking LEDs inside opaque spheres instead of a printed or displayed pattern. Our method provides a faster, easier-to-use extrinsic calibration approach that maintains high accuracy for both event- and frame-based cameras.
翻訳日:2023-09-25 15:32:38 公開日:2023-09-22
# パラメータ化量子回路の高次境界からQGANにおけるバレンプラトーの存在まで

From Tight Gradient Bounds for Parameterized Quantum Circuits to the Absence of Barren Plateaus in QGANs ( http://arxiv.org/abs/2309.12681v1 )

ライセンス: Link先を確認
Alistair Letcher, Stefan Woerner, Christa Zoufal(参考訳) バレンプラトーは変分量子アルゴリズム(VQA)のスケーラビリティにおいて中心的なボトルネックであり、回路深度やハードウェアノイズから大域観測可能まで、様々な方法で発生することが知られている。 しかしながら、最も既存の結果の注意事項は、一般的に実際には満足できないt設計回路の仮定の必要性である。 本研究では、これらの仮定を完全に緩和し、大きなパラメータ化量子回路と任意の観測可能量に対して、勾配濃度の厳密な上下境界を導出する。 建設的かつ容易に検証できる設計選択を2つだけ必要とすることで、明示的な回路と混成可観測器、すなわち、不要な局所項を含む可観測器のバレンプラトーを排除できる。 この洞察は、局所的およびグローバル的用語からなる観測可能なVQAとして再構成できる生成モデルであるハイブリッド量子生成逆ネットワーク(qGANs)に直接的な意味を持つ。 判別器の設計は、判別器の深さによらず、キュービット数に一定な1局所的な重みをもたらすことが証明される。 私たちの最初の貢献と組み合わせると、これはqganと浅いジェネレータを組み合わせることで、不毛の高原に苦しむことなく大規模にトレーニングできることを意味します。 この結果は、最大16キュービットのガウス分布の2次元混合を学習するためにqganを訓練し、勾配への大域的な寄与が、当初は指数関数的に小さいが、トレーニングの過程で実質的に開始される可能性があることを数値的証拠として示す。

Barren plateaus are a central bottleneck in the scalability of variational quantum algorithms (VQAs), and are known to arise in various ways, from circuit depth and hardware noise to global observables. However, a caveat of most existing results is the requirement of t-design circuit assumptions that are typically not satisfied in practice. In this work, we loosen these assumptions altogether and derive tight upper and lower bounds on gradient concentration, for a large class of parameterized quantum circuits and arbitrary observables. By requiring only a couple of design choices that are constructive and easily verified, our results can readily be leveraged to rule out barren plateaus for explicit circuits and mixed observables, namely, observables containing a non-vanishing local term. This insight has direct implications for hybrid Quantum Generative Adversarial Networks (qGANs), a generative model that can be reformulated as a VQA with an observable composed of local and global terms. We prove that designing the discriminator appropriately leads to 1-local weights that stay constant in the number of qubits, regardless of discriminator depth. Combined with our first contribution, this implies that qGANs with shallow generators can be trained at scale without suffering from barren plateaus -- making them a promising candidate for applications in generative quantum machine learning. We demonstrate this result by training a qGAN to learn a 2D mixture of Gaussian distributions with up to 16 qubits, and provide numerical evidence that global contributions to the gradient, while initially exponentially small, may kick in substantially over the course of training.
翻訳日:2023-09-25 15:32:16 公開日:2023-09-22
# QAL-BP: ビンパッケージ問題に対する拡張ラグランジアン量子アプローチ

QAL-BP: An Augmented Lagrangian Quantum Approach for Bin Packing Problem ( http://arxiv.org/abs/2309.12678v1 )

ライセンス: Link先を確認
Lorenzo Cellini, Antonio Macaluso, Michele Lombardi(参考訳) ビンパッキングは人工知能の分野でよく知られたNP-Hard問題であり、効率的なソリューションを見つける上で大きな課題となっている。 逆に、量子技術における最近の進歩は、特に組合せ最適化のような特定の問題クラスにおいて、計算の大幅な高速化を達成する可能性を示している。 本研究では, ビンパッキングに特化して設計され, 量子計算に適した新奇な非拘束バイナリ最適化(QUBO)の定式化であるQAL-BPを紹介する。 qal-bpは拡張ラグランジアン法を用いて、ビンパッキング制約を目的関数に組み込むと同時に、ヒューリスティックだが経験的にロバストなペナルティ乗算器の分析的推定も行う。 このアプローチはより汎用的で一般化可能なモデルとなり、類似した問題に対する代替QUBOの定式化でよく見られる、インスタンス依存ラグランジュ係数を経験的に計算する必要がなくなる。 提案手法の有効性を評価するため,実量子アニーリング装置を用いてビンパックインスタンスの集合について実験を行った。 さらに, シミュレーションアニーリングとグロビの2種類の古典解法から得られた結果と比較した。 提案した定式化の正しさを確かめるだけでなく、特に信頼性の高い量子技術が利用可能になると、ビン包装問題を効果的に解決する量子計算の可能性を示す。

The bin packing is a well-known NP-Hard problem in the domain of artificial intelligence, posing significant challenges in finding efficient solutions. Conversely, recent advancements in quantum technologies have shown promising potential for achieving substantial computational speedup, particularly in certain problem classes, such as combinatorial optimization. In this study, we introduce QAL-BP, a novel Quadratic Unconstrained Binary Optimization (QUBO) formulation designed specifically for bin packing and suitable for quantum computation. QAL-BP utilizes the augmented Lagrangian method to incorporate the bin packing constraints into the objective function while also facilitating an analytical estimation of heuristic, but empirically robust, penalty multipliers. This approach leads to a more versatile and generalizable model that eliminates the need for empirically calculating instance-dependent Lagrangian coefficients, a requirement commonly encountered in alternative QUBO formulations for similar problems. To assess the effectiveness of our proposed approach, we conduct experiments on a set of bin-packing instances using a real Quantum Annealing device. Additionally, we compare the results with those obtained from two different classical solvers, namely simulated annealing and Gurobi. The experimental findings not only confirm the correctness of the proposed formulation but also demonstrate the potential of quantum computation in effectively solving the bin-packing problem, particularly as more reliable quantum technology becomes available.
翻訳日:2023-09-25 15:31:46 公開日:2023-09-22
# TrTr:自動車人口の軌跡多様性を捉える変圧器を用いた多目的事前訓練大型交通モデル

TrTr: A Versatile Pre-Trained Large Traffic Model based on Transformer for Capturing Trajectory Diversity in Vehicle Population ( http://arxiv.org/abs/2309.12677v1 )

ライセンス: Link先を確認
Ruyi Feng, Zhibin Li, Bowen Liu, Yan Ding and Ou Zheng(参考訳) 軌道の多様性を理解することは、現実的な交通課題に対処する基本的な側面である。 しかしながら、トラジェクタの多様性を捉えることは、特に大規模パラメータの要求により、従来の機械学習やリカレントニューラルネットワークにおいて問題となる。 数億のパラメータを持つモデルの利用を可能にする並列計算能力で有名である、新しいトランスフォーマー技術は、有望なソリューションを提供する。 本研究では,トランスフォーマーアーキテクチャを交通タスクに適用し,車内における軌道の多様性を学習することを目的とした。 本稿では,トランスフォーマーの注意機構と交通タスクの目標への適応性を分析し,その後,特定の事前学習タスクを設計する。 これを実現するために、注意機構に合わせたデータ構造を作成し、事前学習プロセス中に構造化データに組み込まれた時空間的要求に対応する一連のノイズを導入する。 設計した事前学習モデルは, 車両の空間分布の把握に優れた性能を示し, 車両重なりの事例はなく, RMSEは0.6059である。 時系列予測の文脈では、予測された軌道速度の95%は7.5144m/sで真の速度と密接に一致している。 さらに、安定性テストでは、入力シーケンスより10倍長い時系列を連続的に予測し、滑らかな軌道を提供し、多様な運転行動を示すことによってロバスト性を示す。 事前訓練されたモデルは、下流の微調整タスクに良い基礎を提供する。 私たちのモデルのパラメータの数は5000万以上です。

Understanding trajectory diversity is a fundamental aspect of addressing practical traffic tasks. However, capturing the diversity of trajectories presents challenges, particularly with traditional machine learning and recurrent neural networks due to the requirement of large-scale parameters. The emerging Transformer technology, renowned for its parallel computation capabilities enabling the utilization of models with hundreds of millions of parameters, offers a promising solution. In this study, we apply the Transformer architecture to traffic tasks, aiming to learn the diversity of trajectories within vehicle populations. We analyze the Transformer's attention mechanism and its adaptability to the goals of traffic tasks, and subsequently, design specific pre-training tasks. To achieve this, we create a data structure tailored to the attention mechanism and introduce a set of noises that correspond to spatio-temporal demands, which are incorporated into the structured data during the pre-training process. The designed pre-training model demonstrates excellent performance in capturing the spatial distribution of the vehicle population, with no instances of vehicle overlap and an RMSE of 0.6059 when compared to the ground truth values. In the context of time series prediction, approximately 95% of the predicted trajectories' speeds closely align with the true speeds, within a deviation of 7.5144m/s. Furthermore, in the stability test, the model exhibits robustness by continuously predicting a time series ten times longer than the input sequence, delivering smooth trajectories and showcasing diverse driving behaviors. The pre-trained model also provides a good basis for downstream fine-tuning tasks. The number of parameters of our model is over 50 million.
翻訳日:2023-09-25 15:31:22 公開日:2023-09-22
# JCoLA:日本語アクセプティビリティのコーパス

JCoLA: Japanese Corpus of Linguistic Acceptability ( http://arxiv.org/abs/2309.12676v1 )

ライセンス: Link先を確認
Taiga Someya, Yushi Sugimoto, Yohei Oseki(参考訳) ニューラルネットワークモデルは、ダウンストリームタスクで優れたパフォーマンスを示している。 しかし、これらのモデルが構文知識を内在化する程度に関しての理解は限られており、言語間の言語モデルの統語的評価を容易にするために、最近様々なデータセットが構築されている。 本稿では,二元受容性判定を付記した10,020文からなるjcola(日本語言語受容性コーパス)を紹介する。 具体的には、これらの文を言語教科書、ハンドブック、ジャーナル記事から手作業で抽出し、ドメイン内データ(86%、教科書、ハンドブックから抽出した比較的単純な受容性判定)とドメイン外データ(14%、ジャーナル記事から抽出した理論的に重要な受容性判定)に分割し、後者を12の言語現象に分類する。 JCoLAにおける9種類の日本語モデルの構文的知識を評価する。 その結果、複数のモデルがドメイン内データの人間性能を上回り、一方、ドメイン外データの人間性能を上回り得るモデルはないことが示された。 言語現象によるエラー分析により、言語モデルは引数構造のような局所的な構文依存を扱うのに適しているが、それらの性能は言語合意やnpiライセンスのような長距離構文依存と向き合うと低下することが明らかとなった。

Neural language models have exhibited outstanding performance in a range of downstream tasks. However, there is limited understanding regarding the extent to which these models internalize syntactic knowledge, so that various datasets have recently been constructed to facilitate syntactic evaluation of language models across languages. In this paper, we introduce JCoLA (Japanese Corpus of Linguistic Acceptability), which consists of 10,020 sentences annotated with binary acceptability judgments. Specifically, those sentences are manually extracted from linguistics textbooks, handbooks and journal articles, and split into in-domain data (86 %; relatively simple acceptability judgments extracted from textbooks and handbooks) and out-of-domain data (14 %; theoretically significant acceptability judgments extracted from journal articles), the latter of which is categorized by 12 linguistic phenomena. We then evaluate the syntactic knowledge of 9 different types of Japanese language models on JCoLA. The results demonstrated that several models could surpass human performance for the in-domain data, while no models were able to exceed human performance for the out-of-domain data. Error analyses by linguistic phenomena further revealed that although neural language models are adept at handling local syntactic dependencies like argument structure, their performance wanes when confronted with long-distance syntactic dependencies like verbal agreement and NPI licensing.
翻訳日:2023-09-25 15:30:56 公開日:2023-09-22
# コンピュータgo用視覚トランスフォーマー

Vision Transformers for Computer Go ( http://arxiv.org/abs/2309.12675v1 )

ライセンス: Link先を確認
Amani Sagri and Tristan Cazenave and J\'er\^ome Arjonilla and Abdallah Saffidine(参考訳) 言語理解や画像解析など,さまざまな分野におけるトランスフォーマーの成功に動機づけられたこの調査は,goゲームにおける彼らの応用を探求するものだ。 特に,視覚におけるトランスフォーマーの分析に焦点を当てた。 予測精度,勝利率,メモリ,スピード,サイズ,さらには学習率など,多数のポイントの詳細な分析を通じて,トランスフォーマーがGoのゲームで果たす重要な役割を明らかにすることができた。 本研究は,通常の残差ネットワークと比較することにより行った。

Motivated by the success of transformers in various fields, such as language understanding and image analysis, this investigation explores their application in the context of the game of Go. In particular, our study focuses on the analysis of the Transformer in Vision. Through a detailed analysis of numerous points such as prediction accuracy, win rates, memory, speed, size, or even learning rate, we have been able to highlight the substantial role that transformers can play in the game of Go. This study was carried out by comparing them to the usual Residual Networks.
翻訳日:2023-09-25 15:30:29 公開日:2023-09-22
# スパース近代ホップフィールドモデルについて

On Sparse Modern Hopfield Model ( http://arxiv.org/abs/2309.12673v1 )

ライセンス: Link先を確認
Jerry Yao-Chieh Hu, Donglin Yang, Dennis Wu, Chenwei Xu, Bo-Yu Chen, Han Liu(参考訳) 現代のホップフィールドモデルのスパース拡張として、スパース近代ホップフィールドモデルを導入する。 密度の高いホップフィールドモデルと同様に、スパース・ホップフィールドモデルも1ステップ近似がスパース・アテンション・メカニズムに対応するメモリ・リトリーバル・ダイナミクスを備える。 理論的には、我々の重要な貢献は、スパースエントロピー正則化器の凸共役を用いた閉形スパースホップフィールドエネルギーの原理的導出である。 これに基づいて、スパースエネルギー関数からスパースメモリ検索ダイナミクスを導出し、その1ステップ近似がスパース構造の注意と等価であることを示す。 重要なこととして、我々は、その密度の高いアナログよりも確実に厳密な、スパーシティ依存型メモリ検索誤差境界を提供する。 そこで, スパーシティのメリットが生じる条件を特定し, 議論する。 さらに, 比較的現代的なホップフィールドモデルでは, 高速不動点収束や指数的メモリ容量など, 密接な理論特性を維持していることを示す。 実証的に、我々は合成と実世界の両方のデータセットを使用して、スパースホップフィールドモデルが多くの状況においてその密接なデータセットよりも優れていることを示す。

We introduce the sparse modern Hopfield model as a sparse extension of the modern Hopfield model. Like its dense counterpart, the sparse modern Hopfield model equips a memory-retrieval dynamics whose one-step approximation corresponds to the sparse attention mechanism. Theoretically, our key contribution is a principled derivation of a closed-form sparse Hopfield energy using the convex conjugate of the sparse entropic regularizer. Building upon this, we derive the sparse memory retrieval dynamics from the sparse energy function and show its one-step approximation is equivalent to the sparse-structured attention. Importantly, we provide a sparsity-dependent memory retrieval error bound which is provably tighter than its dense analog. The conditions for the benefits of sparsity to arise are therefore identified and discussed. In addition, we show that the sparse modern Hopfield model maintains the robust theoretical properties of its dense counterpart, including rapid fixed point convergence and exponential memory capacity. Empirically, we use both synthetic and real-world datasets to demonstrate that the sparse Hopfield model outperforms its dense counterpart in many situations.
翻訳日:2023-09-25 15:30:20 公開日:2023-09-22
# 教師なし表現による音声認識における教師なし学習の改善

Unsupervised Representations Improve Supervised Learning in Speech Emotion Recognition ( http://arxiv.org/abs/2309.12714v1 )

ライセンス: Link先を確認
Amirali Soltani Tehrani, Niloufar Faridani, Ramin Toosi(参考訳) 音声感情認識(ser)は、幅広いアプリケーションにわたって感情状態をより深く理解し、より共感的で効果的なコミュニケーションに寄与することで、人間とコンピュータの相互作用を強化する上で重要な役割を担っている。 本研究は,小型音声セグメントからの感情認識のための教師付き特徴抽出と教師付き特徴抽出を統合する革新的な手法を提案する。 プリプロセッシングステップでは,音声特徴の製作を不要にするため,wav2vecモデルに基づく自己教師付き特徴抽出器を用いて,音声データから音響特徴を抽出した。 次に、前処理ステップの出力特徴マップを、カスタム設計の畳み込みニューラルネットワーク(CNN)ベースのモデルに入力し、感情分類を行う。 提案手法は,ShEMOデータセットを試験基盤として,ベクトルマシン分類器のサポートと事前訓練したCNNの転送学習という,2つのベースライン手法を超越する。 提案手法をSERタスクの最先端手法と比較すると,提案手法の優位性を示す。 本研究は,人間とコンピュータの相互作用の領域における感情理解の強化を目的として,serの景観向上における教師なし機能学習の重要な役割を強調する。

Speech Emotion Recognition (SER) plays a pivotal role in enhancing human-computer interaction by enabling a deeper understanding of emotional states across a wide range of applications, contributing to more empathetic and effective communication. This study proposes an innovative approach that integrates self-supervised feature extraction with supervised classification for emotion recognition from small audio segments. In the preprocessing step, to eliminate the need of crafting audio features, we employed a self-supervised feature extractor, based on the Wav2Vec model, to capture acoustic features from audio data. Then, the output featuremaps of the preprocessing step are fed to a custom designed Convolutional Neural Network (CNN)-based model to perform emotion classification. Utilizing the ShEMO dataset as our testing ground, the proposed method surpasses two baseline methods, i.e. support vector machine classifier and transfer learning of a pretrained CNN. comparing the propose method to the state-of-the-art methods in SER task indicates the superiority of the proposed method. Our findings underscore the pivotal role of deep unsupervised feature learning in elevating the landscape of SER, offering enhanced emotional comprehension in the realm of human-computer interactions.
翻訳日:2023-09-25 15:21:31 公開日:2023-09-22
# ハードオーディオのみのビッグモデル:効率的な推論のためのサンプル依存ウィスパーモデル選択

Big model only for hard audios: Sample dependent Whisper model selection for efficient inferences ( http://arxiv.org/abs/2309.12712v1 )

ライセンス: Link先を確認
Hugo Malard, Salah Zaiem, Robin Algayres(参考訳) 近年のASR(Automatic Speech Recognition)の進歩は,数十億のパラメータを含むモデルサイズの増加と相まって,適応ハードウェアにおいても推論が遅くなっている。 この文脈では、様々なサイズのASRモデルが存在し、異なる推論コストが異なるパフォーマンスレベルにつながる。 実験コーパスの大部分で小さなモデルが最適に動作するという観測に基づいて,オーディオサンプルが与えられた場合,十分な最小のモデルを用いて良好な書き起こしを行うための決定モジュールを訓練することを提案する。 サイズが異なる2つのWhisperモデルにアプローチを適用する。 決定プロセスの計算効率を保ちながら,性能低下を低減し,計算コストを大幅に削減できる決定モジュールを構築した。

Recent progress in Automatic Speech Recognition (ASR) has been coupled with a substantial increase in the model sizes, which may now contain billions of parameters, leading to slow inferences even with adapted hardware. In this context, several ASR models exist in various sizes, with different inference costs leading to different performance levels. Based on the observation that smaller models perform optimally on large parts of testing corpora, we propose to train a decision module, that would allow, given an audio sample, to use the smallest sufficient model leading to a good transcription. We apply our approach to two Whisper models with different sizes. By keeping the decision process computationally efficient, we build a decision module that allows substantial computational savings with reduced performance drops.
翻訳日:2023-09-25 15:21:09 公開日:2023-09-22
# 数学ゲーム

The Mathematical Game ( http://arxiv.org/abs/2309.12711v1 )

ライセンス: Link先を確認
Marc Pierre and Quentin Cohen-Solal and Tristan Cazenave(参考訳) モンテカルロ木探索は、定理の自動証明に使うことができる。 holophrasmは、ポリシーと評価のためにmctとニューラルネットワークを組み合わせた神経定理証明器である。 本稿では,他のゲームツリー探索アルゴリズムを用いて,ホロフラズム定理証明器の性能向上を提案する。

Monte Carlo Tree Search can be used for automated theorem proving. Holophrasm is a neural theorem prover using MCTS combined with neural networks for the policy and the evaluation. In this paper we propose to improve the performance of the Holophrasm theorem prover using other game tree search algorithms.
翻訳日:2023-09-25 15:20:57 公開日:2023-09-22
# PointSSC: セマンティックシーンコンプリートのための協調車両・インフラクラウドベンチマーク

PointSSC: A Cooperative Vehicle-Infrastructure Point Cloud Benchmark for Semantic Scene Completion ( http://arxiv.org/abs/2309.12708v1 )

ライセンス: Link先を確認
Yuxiang Yan, Boda Liu, Jianfei Ai, Qinbu Li, Ru Wan, Jian Pu(参考訳) Semantic Scene Completion (SSC)は、複雑な3Dシーンのための空間占有とセマンティックラベルを共同で生成することを目的としている。 既存のSSCモデルは、大きな屋外空間においてメモリ非効率なボリューム表現に焦点をあてている。 ポイントクラウドは軽量な代替手段を提供するが、既存のベンチマークにはセマンティックラベルを備えた屋外ポイントクラウドシーンがない。 そこで本研究では,セマンティックシーン補完のための最初の協調型車両・インフラ間点クラウドベンチマークであるPointSSCを紹介する。 これらのシーンは長距離の知覚と最小限の閉塞を示す。 Segment Anythingを利用してセマンティクスを効率的に割り当てる自動アノテーションパイプラインを開発する。 本稿では,グローバルかつローカルな特徴抽出のための空間認識変換器と,共同補完とセグメント化のためのコンプリート・セグメンテーション協調モジュールを用いたLiDARモデルを提案する。 PointSSCは、現実世界のナビゲーションのためのセマンティックポイントクラウド補完の進歩を駆動するための挑戦的なテストベッドを提供する。

Semantic Scene Completion (SSC) aims to jointly generate space occupancies and semantic labels for complex 3D scenes. Most existing SSC models focus on volumetric representations, which are memory-inefficient for large outdoor spaces. Point clouds provide a lightweight alternative but existing benchmarks lack outdoor point cloud scenes with semantic labels. To address this, we introduce PointSSC, the first cooperative vehicle-infrastructure point cloud benchmark for semantic scene completion. These scenes exhibit long-range perception and minimal occlusion. We develop an automated annotation pipeline leveraging Segment Anything to efficiently assign semantics. To benchmark progress, we propose a LiDAR-based model with a Spatial-Aware Transformer for global and local feature extraction and a Completion and Segmentation Cooperative Module for joint completion and segmentation. PointSSC provides a challenging testbed to drive advances in semantic point cloud completion for real-world navigation.
翻訳日:2023-09-25 15:20:52 公開日:2023-09-22
# ラベル相関を用いたマルチラベル雑音遷移行列推定:理論とアルゴリズム

Multi-Label Noise Transition Matrix Estimation with Label Correlations: Theory and Algorithm ( http://arxiv.org/abs/2309.12706v1 )

ライセンス: Link先を確認
Shikun Li, Xiaobo Xia, Hansong Zhang, Shiming Ge, Tongliang Liu(参考訳) 騒がしいマルチレーベル学習は、大規模な正確なラベルを収集し、ノイズラベルをより実用的な代替手段にすることで生じる課題により、注目を集めている。 ノイズの多いマルチクラス学習によって動機付けられた遷移行列の導入は、マルチラベルノイズをモデル化し、ノイズの多いマルチラベル学習のための統計的に一貫したアルゴリズムの開発を可能にする。 しかし,マルチラベル音遷移行列の推定は難解な課題であり,ノイズ多層学習における既存の推定者はアンカーポイントとノイズクラス後方の正確な適合に依存しており,ノイズ多層学習では満足できない。 本稿では,まず,ノイズの多い複数ラベル学習におけるクラス依存遷移行列の識別可能性について検討する。 そこで本研究では, アンカーポイントを必要とせず, ノイズのあるクラス後部を正確に適合させることなく, ラベル相関を利用した新しい推定器を提案する。 具体的には,まず2つの雑音ラベルの発生確率を推定し,雑音ラベル相関を捉える。 その後,クリーンラベル相関を示す情報を抽出するためにサンプル選択手法を用い,あるクリーンラベルが出現したときのノイズラベルの発生確率を推定する。 これらの発生確率が示唆するラベル相関のミスマッチを利用して, 遷移行列が同定可能となり, 双線型分解問題を解くことで得られることを示す。 理論的には,多ラベル遷移行列推定器に対して推定誤差を定め,統計的に一貫したアルゴリズムに対して一般化誤差を導出する。 実験により,マルチラベル雑音遷移行列の推定における推定器の有効性を検証することにより,分類性能が向上した。

Noisy multi-label learning has garnered increasing attention due to the challenges posed by collecting large-scale accurate labels, making noisy labels a more practical alternative. Motivated by noisy multi-class learning, the introduction of transition matrices can help model multi-label noise and enable the development of statistically consistent algorithms for noisy multi-label learning. However, estimating multi-label noise transition matrices remains a challenging task, as most existing estimators in noisy multi-class learning rely on anchor points and accurate fitting of noisy class posteriors, which is hard to satisfy in noisy multi-label learning. In this paper, we address this problem by first investigating the identifiability of class-dependent transition matrices in noisy multi-label learning. Building upon the identifiability results, we propose a novel estimator that leverages label correlations without the need for anchor points or precise fitting of noisy class posteriors. Specifically, we first estimate the occurrence probability of two noisy labels to capture noisy label correlations. Subsequently, we employ sample selection techniques to extract information implying clean label correlations, which are then used to estimate the occurrence probability of one noisy label when a certain clean label appears. By exploiting the mismatches in label correlations implied by these occurrence probabilities, we demonstrate that the transition matrix becomes identifiable and can be acquired by solving a bilinear decomposition problem. Theoretically, we establish an estimation error bound for our multi-label transition matrix estimator and derive a generalization error bound for our statistically consistent algorithm. Empirically, we validate the effectiveness of our estimator in estimating multi-label noise transition matrices, leading to excellent classification performance.
翻訳日:2023-09-25 15:20:34 公開日:2023-09-22
# 高忠実度散逸安定化二量体鎖の高速生成

Rapid generation of high fidelity, dissipation-stabilized dimerized chain ( http://arxiv.org/abs/2309.12705v1 )

ライセンス: Link先を確認
Kian Hwee Lim, Wai-Keong Mok, Jia-Bin You, Jian Feng Kong, Davit Aghamalyan(参考訳) 長寿命の絡み合い状態を作成するための資源として散逸を使用する多くの提案にもかかわらず、このような絡み合い生成の速度は通常摂動的に小さい駆動強度の要求によって制限される。 本研究では,浴槽内への散布により安定化した1次元浴槽に結合した複数スピン間の多体絡み合いを高速に生成する新しい方式を提案する。 私たちの研究は、非常に長い時間を要する1d浴槽と結合したスピンの絡み合い生成のための現在のよく知られた定常状態プロトコルとは対照的に、最先端のプロトコルを数桁もスピードアップしている。 重要なことに、このプロトコルは局所制御ハミルトニアンでも動作し、時間スケールはシステムサイズから独立している。 提案手法は,多数のスピン二量体対を同時に生成するために適用でき,量子気象学やテレポーテーションに基づく情報処理のための貴重な資源となる。

Despite the many proposals to use dissipation as a resource to prepare long-lived entangled states, the speed of such entanglement generation is usually limited by the requirement of perturbatively small driving strengths. We propose a new scheme to rapidly generate many-body entanglement between multiple spins coupled to a 1D bath stabilized by the dissipation into the bath. Our work stands in contrast to the current well known steady state protocols for entanglement generation in spins coupled to 1D baths that take a prohibitively long time, and exhibits a speedup over state-of-the-art protocols by several orders of magnitude. Importantly, the protocol works even with a local control Hamiltonian, and the timescale is independent of the system size. Our scheme can be applied to simultaneously generate a large number of spin dimer pairs, which can serve as a valuable resource for quantum metrology and teleportation-based information processing.
翻訳日:2023-09-25 15:20:04 公開日:2023-09-22
# 動的プログラミングによる決定木の解釈可能性-性能パレットフロントの発見

Discovering the Interpretability-Performance Pareto Front of Decision Trees with Dynamic Programming ( http://arxiv.org/abs/2309.12701v1 )

ライセンス: Link先を確認
Hector Kohler, Riad Akrour, Philippe Preux(参考訳) 決定木は人間によって検査され解釈されるため、本質的に解釈可能であることが知られている。 さらに、最近のハードウェアの進歩は、通常よりも正確な木を生成する最適な決定木アルゴリズムへの関心を再燃させた。 しかし、これらの最適アルゴリズムは、決定ノードの最大数を指定することで得られる、手の定義した解釈可能性性能トレードオフを最適化する単一のツリーを返す。 本稿では,最適決定木を求めるための新しいマルコフ決定問題(mdp)を提案する。 この定式化の主な関心は、単一の動的プログラムを解くことで、複数の解釈可能性-性能トレードオフに対する最適決定木を計算し、ユーザがニーズに最も適した木を後部木に選択できるようにすることである。 実験により,本手法は精度と実行時間の観点から最先端のアルゴリズムと競合し,解釈可能性向上のPareto面に木全体の集合を返却することを示す。

Decision trees are known to be intrinsically interpretable as they can be inspected and interpreted by humans. Furthermore, recent hardware advances have rekindled an interest for optimal decision tree algorithms, that produce more accurate trees than the usual greedy approaches. However, these optimal algorithms return a single tree optimizing a hand defined interpretability-performance trade-off, obtained by specifying a maximum number of decision nodes, giving no further insights about the quality of this trade-off. In this paper, we propose a new Markov Decision Problem (MDP) formulation for finding optimal decision trees. The main interest of this formulation is that we can compute the optimal decision trees for several interpretability-performance trade-offs by solving a single dynamic program, letting the user choose a posteriori the tree that best suits their needs. Empirically, we show that our method is competitive with state-of-the-art algorithms in terms of accuracy and runtime while returning a whole set of trees on the interpretability-performance Pareto front.
翻訳日:2023-09-25 15:19:48 公開日:2023-09-22
# 多種産業異常検出のための混合注意オートエンコーダ

mixed attention auto encoder for multi-class industrial anomaly detection ( http://arxiv.org/abs/2309.12700v1 )

ライセンス: Link先を確認
Jiangqi Liu, Feng Wang(参考訳) 既存の産業異常検出手法のほとんどは、対象カテゴリーごとに個別のモデルを訓練している。 この種のアプローチは、カテゴリ固有の特徴分布を簡単にキャプチャできるが、高いストレージコストと低いトレーニング効率をもたらす。 本稿では,単一モデルを用いたマルチクラス異常検出を実現するために,MAAE(Mixed-attention Auto Encoder)を提案する。 異なるカテゴリの多様な分布パターンによる性能低下を緩和するために,空間的注意とチャネル的注意を用い,グローバルカテゴリ情報を効果的に捉え,複数のクラスの特徴分布をモデル化する。 さらに,特徴の現実的なノイズをシミュレートし,微妙な異常検出に必須なカテゴリの異なる物体の表面意味を保存すべく,事前学習した特徴に対する適応型雑音発生器とマルチスケール核融合モジュールを提案する。 MAAEは、最先端の手法と比較して、ベンチマークデータセットで顕著なパフォーマンスを提供する。

Most existing methods for unsupervised industrial anomaly detection train a separate model for each object category. This kind of approach can easily capture the category-specific feature distributions, but results in high storage cost and low training efficiency. In this paper, we propose a unified mixed-attention auto encoder (MAAE) to implement multi-class anomaly detection with a single model. To alleviate the performance degradation due to the diverse distribution patterns of different categories, we employ spatial attentions and channel attentions to effectively capture the global category information and model the feature distributions of multiple classes. Furthermore, to simulate the realistic noises on features and preserve the surface semantics of objects from different categories which are essential for detecting the subtle anomalies, we propose an adaptive noise generator and a multi-scale fusion module for the pre-trained features. MAAE delivers remarkable performances on the benchmark dataset compared with the state-of-the-art methods.
翻訳日:2023-09-25 15:19:29 公開日:2023-09-22
# 意味的類似性予測は他の意味的類似性尺度よりも優れている

Semantic similarity prediction is better than other semantic similarity measures ( http://arxiv.org/abs/2309.12697v1 )

ライセンス: Link先を確認
Steffen Herbold(参考訳) 自然言語テキスト間の意味的類似性は通常、サブシーケンス間の重複(BLEUなど)を見るか、埋め込み(BERTScore、S-BERTなど)を使って測定される。 本稿では,意味的類似度のみを測ることに関心がある場合,その類似度を直接予測するために,微調整モデルを用いて予測した方がよいと論じる。 GLUEベンチマークからSTS-Bの微調整モデルを用いて、STSScoreアプローチを定義し、その結果の類似性は他のアプローチよりもロバストなセマンティックな類似性尺度に対する期待と一致していることを示す。

Semantic similarity between natural language texts is typically measured either by looking at the overlap between subsequences (e.g., BLEU) or by using embeddings (e.g., BERTScore, S-BERT). Within this paper, we argue that when we are only interested in measuring the semantic similarity, it is better to directly predict the similarity using a fine-tuned model for such a task. Using a fine-tuned model for the STS-B from the GLUE benchmark, we define the STSScore approach and show that the resulting similarity is better aligned with our expectations on a robust semantic similarity measure than other approaches.
翻訳日:2023-09-25 15:19:13 公開日:2023-09-22
# オフラインマルチエージェント強化学習のための反実的保守的Q学習

Counterfactual Conservative Q Learning for Offline Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2309.12696v1 )

ライセンス: Link先を確認
Jianzhun Shao, Yun Qu, Chen Chen, Hongchang Zhang, Xiangyang Ji(参考訳) オフラインマルチエージェント強化学習は、オフライン設定に共通する分布シフト問題とマルチエージェント設定に共通する高次元問題の両方の結合効果により困難であり、アクションアウト・オブ・ディストリビューション(OOD)と価値過大評価現象を過度に重くする。 そこで,本稿では,CFCQL (CounterFactual Conservative Q-Learning) と呼ばれる新しいマルチエージェントオフラインRLアルゴリズムを提案する。 CFCQLは、高次元の単一エージェントとして全てのエージェントを考慮し、それに直接単一のエージェントメソッドを適用するのではなく、カウンターファクトな方法で各エージェントの保守的正規化を計算し、それらを線形に組み合わせて全体的な保守的価値推定を実現する。 我々は,これらの単一エージェントの保守的手法と同様に,過大評価特性と性能保証を享受していることを証明しているが,誘導正規化と安全政策改善の限界はエージェント番号から独立しているため,特にエージェント数が大きい場合には,理論的に上回っている。 我々はさらに,既存のデータセットと人工データセットの両方に対して,離散的および連続的なアクション設定を含む4つの環境で実験を行い,cfcqlが既存のメソッドよりも優れており,それらのいくつかには顕著なマージンがあることを示した。

Offline multi-agent reinforcement learning is challenging due to the coupling effect of both distribution shift issue common in offline setting and the high dimension issue common in multi-agent setting, making the action out-of-distribution (OOD) and value overestimation phenomenon excessively severe. Tomitigate this problem, we propose a novel multi-agent offline RL algorithm, named CounterFactual Conservative Q-Learning (CFCQL) to conduct conservative value estimation. Rather than regarding all the agents as a high dimensional single one and directly applying single agent methods to it, CFCQL calculates conservative regularization for each agent separately in a counterfactual way and then linearly combines them to realize an overall conservative value estimation. We prove that it still enjoys the underestimation property and the performance guarantee as those single agent conservative methods do, but the induced regularization and safe policy improvement bound are independent of the agent number, which is therefore theoretically superior to the direct treatment referred to above, especially when the agent number is large. We further conduct experiments on four environments including both discrete and continuous action settings on both existing and our man-made datasets, demonstrating that CFCQL outperforms existing methods on most datasets and even with a remarkable margin on some of them.
翻訳日:2023-09-25 15:19:00 公開日:2023-09-22
# 産業アプリケーションにおけるXAIのためのMLOpsアーキテクチャを目指して

Towards an MLOps Architecture for XAI in Industrial Applications ( http://arxiv.org/abs/2309.12756v1 )

ライセンス: Link先を確認
Leonhard Faubel, Thomas Woudsma, Leila Methnani, Amir Ghorbani Ghezeljhemeidan, Fabian Buelow, Klaus Schmid, Willem D. van Driel, Benjamin Kloepper, Andreas Theodorou, Mohsen Nosratinia, and Magnus B\r{a}ng(参考訳) 機械学習(ML)は、業務の改善、効率の向上、コスト削減を支援するため、産業分野で人気の高いツールとなっている。 しかし、本番環境におけるmlモデルのデプロイと管理は複雑である。 これが機械学習オペレーション(MLOps)の出番です。 MLOpsはこのデプロイメントと管理プロセスの合理化を目指している。 残りのMLOpsの課題のひとつは、説明の必要性だ。 これらの説明は、MLが理由をどうモデル化するかを理解するのに不可欠である。 エラーのより良い識別とモデルの精度の改善は、結果として生じる2つの利点にすぎない。 しばしば無視される事実は、デプロイされたモデルは、正確性、特に説明可能性がユーザの期待を満たさない場合に、実際にバイパスされる。 我々はMLOpsソフトウェアアーキテクチャを開発し、ML開発とデプロイメントプロセスに説明とフィードバック機能を統合するという課題に対処した。 プロジェクトEXPLAINでは、アーキテクチャを一連の産業ユースケースで実装しています。 提案されたmlopsソフトウェアアーキテクチャにはいくつかの利点がある。 プロダクション環境でMLモデルを効率的に管理する方法を提供する。 さらに、開発プロセスとデプロイメントプロセスに説明を統合することもできる。

Machine learning (ML) has become a popular tool in the industrial sector as it helps to improve operations, increase efficiency, and reduce costs. However, deploying and managing ML models in production environments can be complex. This is where Machine Learning Operations (MLOps) comes in. MLOps aims to streamline this deployment and management process. One of the remaining MLOps challenges is the need for explanations. These explanations are essential for understanding how ML models reason, which is key to trust and acceptance. Better identification of errors and improved model accuracy are only two resulting advantages. An often neglected fact is that deployed models are bypassed in practice when accuracy and especially explainability do not meet user expectations. We developed a novel MLOps software architecture to address the challenge of integrating explanations and feedback capabilities into the ML development and deployment processes. In the project EXPLAIN, our architecture is implemented in a series of industrial use cases. The proposed MLOps software architecture has several advantages. It provides an efficient way to manage ML models in production environments. Further, it allows for integrating explanations into the development and deployment processes.
翻訳日:2023-09-25 15:13:10 公開日:2023-09-22
# 量子スピン液体$Tb_{2}Ti_{2}O_{7}$における軌道波動関数のコヒーレント制御

Coherent control of orbital wavefunctions in the quantum spin liquid $Tb_{2}Ti_{2}O_{7}$ ( http://arxiv.org/abs/2309.12751v1 )

ライセンス: Link先を確認
R. Mankowsky, M. M\"uller, M. Sander, S. Zerdane, X. Liu, D. Babich, H. Ueda, Y. Deng, R. Winkler, B. Strudwick, M. Savoini, F. Giorgianni, S. L. Johnson, E. Pomjakushina, P. Beaud1, T. Fennel, H.T. Lemke, U. Staub(参考訳) コヒーレントレーザー源による電子遷移の共鳴駆動は、関連する電子状態の量子コヒーレント重ね合わせを生成する。 ほとんどの時間分解研究は絶縁性固体に埋め込まれたガスや孤立したサブシステムに焦点を当てており、量子情報への応用を目指している。 ここでは、相互作用するスピン基底状態を形成するピロクロア$Tb_{2}Ti_{2}O_{7}$における軌道波動関数のコヒーレント制御を実証する。 強いthzパルスによる共鳴励起は、磁気相互作用が最終的に崩壊する前に最低エネルギーのtb 4f状態のコヒーレントな重ね合わせを生じさせる。 このコヒーレンスは、超高速共鳴x線回折によって検出される巨視的な振動磁気双極子として表される。 誘導された量子コヒーレンスは、量子物質の超高速操作と研究のための新しいツールである軌道波関数のコヒーレント制御を示す。

Resonant driving of electronic transitions with coherent laser sources creates quantum coherent superpositions of the involved electronic states. Most time-resolved studies have focused on gases or isolated subsystems embedded in insulating solids, aiming for applications in quantum information. Here, we demonstrate coherent control of orbital wavefunctions in pyrochlore $Tb_{2}Ti_{2}O_{7}$, which forms an interacting spin liquid ground state. We show that resonant excitation with a strong THz pulse creates a coherent superposition of the lowest energy Tb 4f states before the magnetic interactions eventually dephase them. The coherence manifests itself as a macroscopic oscillating magnetic dipole, which is detected by ultrafast resonant x-ray diffraction. The induced quantum coherence demonstrates coherent control of orbital wave functions, a new tool for the ultrafast manipulation and investigation of quantum materials.
翻訳日:2023-09-25 15:12:47 公開日:2023-09-22
# UDAにおけるUを作る: 教師なしドメイン適応のための不変一貫性学習

Make the U in UDA Matter: Invariant Consistency Learning for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2309.12742v1 )

ライセンス: Link先を確認
Zhongqi Yue, Hanwang Zhang, Qianru Sun(参考訳) ドメイン適応(da)は常に、対象ドメインに一般化しないドメイン不変特徴(例えば、クラスid)とドメイン固有特徴(例えば、環境)との散発的な相関によって挑戦される。 残念ながら、教師なしのターゲットドメインが加わったとしても、既存の教師なしDA(Unsupervised DA)メソッドはそれに苦しむ。 これは、ソースドメインの監督がターゲットドメインのサンプルを補助データ(例:擬似ラベル付け)としてのみ考慮しているが、ターゲットドメインの固有の分布 -- 重要なデコリレーションの手がかりが隠されている -- は無視されているためである。 2つのドメインに等しい地位を与えることで、UDAにおけるUの実現を提案する。 具体的には、ソースドメイン内のラベルとターゲットドメイン内のクラスタとの同時一致を予測した不変な分類器を学習し、ターゲットドメイン内の急激な相関を除去する。 不変一貫性学習(invariant consistency learning, icon)と呼ぶ。 大規模な実験により、ICON は古典的な UDA ベンチマークである Office-Home と VisDA-2017 で最先端のパフォーマンスを達成し、挑戦的な WILDS 2.0 ベンチマークで従来の手法を上回ります。 コードはhttps://github.com/yue-zhongqi/ICON。

Domain Adaptation (DA) is always challenged by the spurious correlation between domain-invariant features (e.g., class identity) and domain-specific features (e.g., environment) that does not generalize to the target domain. Unfortunately, even enriched with additional unsupervised target domains, existing Unsupervised DA (UDA) methods still suffer from it. This is because the source domain supervision only considers the target domain samples as auxiliary data (e.g., by pseudo-labeling), yet the inherent distribution in the target domain -- where the valuable de-correlation clues hide -- is disregarded. We propose to make the U in UDA matter by giving equal status to the two domains. Specifically, we learn an invariant classifier whose prediction is simultaneously consistent with the labels in the source domain and clusters in the target domain, hence the spurious correlation inconsistent in the target domain is removed. We dub our approach "Invariant CONsistency learning" (ICON). Extensive experiments show that ICON achieves the state-of-the-art performance on the classic UDA benchmarks: Office-Home and VisDA-2017, and outperforms all the conventional methods on the challenging WILDS 2.0 benchmark. Codes are in https://github.com/yue-zhongqi/ICON.
翻訳日:2023-09-25 15:12:20 公開日:2023-09-22
# ブロックチェーンリソースの最適動的料金

Optimal Dynamic Fees for Blockchain Resources ( http://arxiv.org/abs/2309.12735v1 )

ライセンス: Link先を確認
Davide Crapis, Ciamac C. Moallemi, Shouqiao Wang(参考訳) 複数のブロックチェーンリソースに対する動的課金機構の最適設計の問題に対処する汎用的で実用的なフレームワークを開発する。 当社のフレームワークは,資源価格の調整と永続的な需要シフトの処理,あるいは観測されたブロック需要の局所的な騒音に対する堅牢性とのトレードオフを最適に計算することができる。 複数のリソースを持つ一般的な場合、最適ポリシーはリソース要求における相互効果(相補性と置換性)を正しく扱う。 また、これらのクロスエフェクトがリソース設計にどのように役立つか、すなわち、需要側のクロスエフェクトの低いバンドルにリソースを組み合わせることで、よりシンプルで効率的な価格更新ルールが得られるかを示す。 また,EIP-1559 や EIP-4844 などのヒューリスティックな料金更新規則の設計を2つのケーススタディで洗練・通知する方法を実証する。 次に、Ethereumブロックチェーンの実際の市場データを用いて、モデルの1次元バージョンを推定し、最適なポリシのパフォーマンスをEIP-1559と経験的に比較する。

We develop a general and practical framework to address the problem of the optimal design of dynamic fee mechanisms for multiple blockchain resources. Our framework allows to compute policies that optimally trade-off between adjusting resource prices to handle persistent demand shifts versus being robust to local noise in the observed block demand. In the general case with more than one resource, our optimal policies correctly handle cross-effects (complementarity and substitutability) in resource demands. We also show how these cross-effects can be used to inform resource design, i.e. combining resources into bundles that have low demand-side cross-effects can yield simpler and more efficient price-update rules. Our framework is also practical, we demonstrate how it can be used to refine or inform the design of heuristic fee update rules such as EIP-1559 or EIP-4844 with two case studies. We then estimate a uni-dimensional version of our model using real market data from the Ethereum blockchain and empirically compare the performance of our optimal policies to EIP-1559.
翻訳日:2023-09-25 15:11:25 公開日:2023-09-22
# OpenAiのコーディングアシスタントとしてのGPT4

OpenAi's GPT4 as coding assistant ( http://arxiv.org/abs/2309.12732v1 )

ライセンス: Link先を確認
Lefteris Moussiades and George Zografos(参考訳) 近年、Large Language Modelsはコード生成に広く使われている。 GPT4はOpenaiから最も強力な大規模言語モデルと考えられている。 本稿では,コーディングアシスタントとしてのGPT3.5とGPT4について検討する。 より具体的には、2つのシステムが可能であるかどうかを確認するための適切なテストを構築した。 a) コード開発中に起こりうる典型的な質問に答えること。 b) 信頼できるコードを作成し、 c) コードのデバッグに寄与する。 テスト結果は印象的だ。 GPT4の性能は優れており、プログラマの生産性の向上とこれらの新しいツールに基づいたソフトウェア開発手順の再編成を示唆している。

Lately, Large Language Models have been widely used in code generation. GPT4 is considered the most potent Large Language Model from Openai. In this paper, we examine GPT3.5 and GPT4 as coding assistants. More specifically, we have constructed appropriate tests to check whether the two systems can a) answer typical questions that can arise during the code development, b) produce reliable code, and c) contribute to code debugging. The test results are impressive. The performance of GPT4 is outstanding and signals an increase in the productivity of programmers and the reorganization of software development procedures based on these new tools.
翻訳日:2023-09-25 15:10:58 公開日:2023-09-22
# 知識グラフを用いた難解な推論

Defeasible Reasoning with Knowledge Graphs ( http://arxiv.org/abs/2309.12731v1 )

ライセンス: Link先を確認
Dave Raggett(参考訳) 人間の知識には不確実性、不正確性、不完全性、矛盾がある。 また、日常用語の意味は文脈によって異なる。 これはセマンティックウェブにとって大きな課題となる。 本稿では,不完全な知識を持つ難解な推論のための直観的表記法とモデルについて紹介し,議論理論に関する以前の研究と関連付ける。 PKN は N3 に縮退論理であるからである。 推論戦略と戦術を宣言的用語で記述するための直感的な構文に関するさらなる作業は、インスピレーションのためのAIFオントロジーを参考にする必要がある。 この論文は、大規模言語モデルの時代における象徴的アプローチの観察を締めくくっている。

Human knowledge is subject to uncertainties, imprecision, incompleteness and inconsistencies. Moreover, the meaning of many everyday terms is dependent on the context. That poses a huge challenge for the Semantic Web. This paper introduces work on an intuitive notation and model for defeasible reasoning with imperfect knowledge, and relates it to previous work on argumentation theory. PKN is to N3 as defeasible reasoning is to deductive logic. Further work is needed on an intuitive syntax for describing reasoning strategies and tactics in declarative terms, drawing upon the AIF ontology for inspiration. The paper closes with observations on symbolic approaches in the era of large language models.
翻訳日:2023-09-25 15:10:40 公開日:2023-09-22
# チャット型大規模言語モデルにおけるコンテキスト内干渉

In-context Interference in Chat-based Large Language Models ( http://arxiv.org/abs/2309.12727v1 )

ライセンス: Link先を確認
Eric Nuertey Coleman, Julio Hurtado, Vincenzo Lomonaco(参考訳) 大きな言語モデル(LLM)は、その印象的な能力と世界の膨大な知識により、社会に大きな影響を与えた。 ブラックボックスのシナリオでこれらのモデルと対話できるさまざまなアプリケーションやツールが作成されている。 しかし、このシナリオの1つの制限は、ユーザがモデルの内部知識を変更できないことである。 この学習プロセスは、コンテキスト内トレーニングと呼ばれ、ユーザの現在のセッションやコンテキストに限定されたトレーニングを指す。 インコンテキスト学習には大きな応用があるが、ほとんど研究されない制限もある。 本稿では,モデルがコンテキスト内を連続的に流れる情報間の干渉に苦しむ可能性を示し,学習済みの知識を忘れた結果,モデルの性能が低下することを示す。 問題を示すとともに,bAbIデータセットに基づく評価ベンチマークを提案する。

Large language models (LLMs) have had a huge impact on society due to their impressive capabilities and vast knowledge of the world. Various applications and tools have been created that allow users to interact with these models in a black-box scenario. However, one limitation of this scenario is that users cannot modify the internal knowledge of the model, and the only way to add or modify internal knowledge is by explicitly mentioning it to the model during the current interaction. This learning process is called in-context training, and it refers to training that is confined to the user's current session or context. In-context learning has significant applications, but also has limitations that are seldom studied. In this paper, we present a study that shows how the model can suffer from interference between information that continually flows in the context, causing it to forget previously learned knowledge, which can reduce the model's performance. Along with showing the problem, we propose an evaluation benchmark based on the bAbI dataset.
翻訳日:2023-09-25 15:10:31 公開日:2023-09-22
# bell状態を用いた効率良くセキュアなnパーティ量子鍵アグリーメントプロトコル

An Efficient and Secure Arbitrary N-Party Quantum Key Agreement Protocol Using Bell States ( http://arxiv.org/abs/2309.12719v1 )

ライセンス: Link先を確認
Wen-Jie Liu, Yong Xu, Ching-Nung Yang, Pei-Pei Gao and Wen-Bin Yu(参考訳) ベル状態とベル測定を用いた2つの量子鍵合意プロトコルが最近Shuklaらによって提案された。 (Quantum Inf)。 プロセス。 13(11), 2391-2405, 2014). しかし、Zhuらはいくつかのセキュリティ欠陥があることを指摘し、改良版(Quantum Inf)を提案した。 プロセス。 14(11), 4245-4254, 2015). 本研究は、Zhuらによる改善は、まだいくつかのセキュリティ問題が存在しており、その効率は十分ではないことを示す。 これらの問題を解決するため、4つのpauli演算 {i, z, x, y } を使って元の2つの演算 {i, x} の代わりに2ビットを符号化し、1ビットを符号化し、効率良く安全な任意のnパーティ量子鍵合意プロトコルを提案する。 このプロトコルでは、盗聴者のフリップアタックを避けるために、デコイ単一光子によるチャネルチェックが導入され、結束攻撃を防止するために測定後メカニズムが使用される。 セキュリティ分析によれば、このプロトコルは量子鍵合意の正確性、セキュリティ、プライバシー、公平性を保証することができる。

Two quantum key agreement protocols using Bell states and Bell measurement were recently proposed by Shukla et al.(Quantum Inf. Process. 13(11), 2391-2405, 2014). However, Zhu et al. pointed out that there are some security flaws and proposed an improved version (Quantum Inf. Process. 14(11), 4245-4254, 2015). In this study, we will show Zhu et al.'s improvement still exists some security problems, and its efficiency is not high enough. For solving these problems, we utilize four Pauli operations {I, Z, X, Y } to encode two bits instead of the original two operations {I,X} to encode one bit, and then propose an efficient and secure arbitrary N-party quantum key agreement protocol. In the protocol, the channel checking with decoy single photons is introduced to avoid the eavesdropper's flip attack, and a post-measurement mechanism is used to prevent against the collusion attack. The security analysis shows the present protocol can guarantee the correctness, security, privacy and fairness of quantum key agreement.
翻訳日:2023-09-25 15:10:18 公開日:2023-09-22
# 可変画像品質オブジェクトを用いたトランスフォーマーによる画像圧縮

Transformer-based Image Compression with Variable Image Quality Objectives ( http://arxiv.org/abs/2309.12717v1 )

ライセンス: Link先を確認
Chia-Hao Kao, Yi-Hsin Chen, Cheng Chien, Wei-Chen Chiu, Wen-Hsiao Peng(参考訳) 本稿では,利用者の好みに応じて可変な画質目標を実現するトランスフォーマチック画像圧縮システムを提案する。 学習したコーデックを異なる品質目標に最適化すると、様々な視覚特性を持つ再構成画像が得られる。 本手法は,2つの画像品質目標間のトレードオフを,単一の共有モデルを用いて選択する柔軟性を提供する。 プロンプトチューニング技術の成功により、トランスフォーマーベースのオートエンコーダを条件にプロンプトトークンを導入する。 これらのプロンプトトークンは、プロンプト生成ネットワークを学習することにより、ユーザの好みと入力画像に基づいて適応的に生成される。 一般的な品質指標に関する大規模な実験は、符号化および/または復号処理を可変品質目標に適応させる際の方法の有効性を示す。 さらなる柔軟性を提供する一方で,提案手法は単目的法と相容れない速度・歪み性能を示す。

This paper presents a Transformer-based image compression system that allows for a variable image quality objective according to the user's preference. Optimizing a learned codec for different quality objectives leads to reconstructed images with varying visual characteristics. Our method provides the user with the flexibility to choose a trade-off between two image quality objectives using a single, shared model. Motivated by the success of prompt-tuning techniques, we introduce prompt tokens to condition our Transformer-based autoencoder. These prompt tokens are generated adaptively based on the user's preference and input image through learning a prompt generation network. Extensive experiments on commonly used quality metrics demonstrate the effectiveness of our method in adapting the encoding and/or decoding processes to a variable quality objective. While offering the additional flexibility, our proposed method performs comparably to the single-objective methods in terms of rate-distortion performance.
翻訳日:2023-09-25 15:09:56 公開日:2023-09-22
# H2O+: ダイナミックギャップを備えたハイブリッドオフラインオンラインRLフレームワーク

H2O+: An Improved Framework for Hybrid Offline-and-Online RL with Dynamics Gaps ( http://arxiv.org/abs/2309.12716v1 )

ライセンス: Link先を確認
Haoyi Niu, Tianying Ji, Bingqi Liu, Haocheng Zhao, Xiangyu Zhu, Jianying Zheng, Pengfei Huang, Guyue Zhou, Jianming Hu, Xianyuan Zhan(参考訳) 高忠実度シミュレーション環境や大量のオフラインデータなしで強化学習(rl)を使って、現実世界の複雑なタスクを解決することは、非常に難しい。 不完全なシミュレーション環境で訓練されたオンラインrlエージェントは、深刻なsim-to-real問題に苦しむことがある。 オフラインRLのアプローチはシミュレータの必要性を回避しているが、オフラインデータセットのサイズと品質に関する要求が頻繁に発生する。 最近登場したハイブリッドオフラインオンラインRLは、限られたオフラインデータと、転送可能なポリシー学習のための不完全なシミュレータを併用できる魅力的なフレームワークを提供する。 本稿では,オフラインとオンラインの学習方法の様々な選択を橋渡しするための柔軟性と,実環境とシミュレーション環境のダイナミクスギャップを考慮に入れた,h2o+と呼ばれる新しいアルゴリズムを開発した。 シミュレーションや実世界のロボティクス実験を通じて、高度なクロスドメインオンラインおよびオフラインRLアルゴリズムよりも優れた性能と柔軟性を示す。

Solving real-world complex tasks using reinforcement learning (RL) without high-fidelity simulation environments or large amounts of offline data can be quite challenging. Online RL agents trained in imperfect simulation environments can suffer from severe sim-to-real issues. Offline RL approaches although bypass the need for simulators, often pose demanding requirements on the size and quality of the offline datasets. The recently emerged hybrid offline-and-online RL provides an attractive framework that enables joint use of limited offline data and imperfect simulator for transferable policy learning. In this paper, we develop a new algorithm, called H2O+, which offers great flexibility to bridge various choices of offline and online learning methods, while also accounting for dynamics gaps between the real and simulation environment. Through extensive simulation and real-world robotics experiments, we demonstrate superior performance and flexibility over advanced cross-domain online and offline RL algorithms.
翻訳日:2023-09-25 15:09:42 公開日:2023-09-22
# noc:セグメンテーションを3dで持ち上げる高品質なニューラルオブジェクトのクローニング

NOC: High-Quality Neural Object Cloning with 3D Lifting of Segment Anything ( http://arxiv.org/abs/2309.12790v1 )

ライセンス: Link先を確認
Xiaobao Wei, Renrui Zhang, Jiarui Wu, Jiaming Liu, Ming Lu, Yandong Guo, Shanghang Zhang(参考訳) ニューラルネットワークの開発に伴い,多視点入力から対象物体の3次元モデルを再構築することが最近,コミュニティの注目を集めている。 既存の手法は通常、シーン全体のニューラルフィールドを学習するが、ユーザーがオンザフライで示す特定のオブジェクトを再構築する方法はまだ未熟である。 本稿では,2次元画像のセグメンテーションに有効なセグメンテーションモデル (SAM) を提案するとともに,2つの側面からニューラルネットワークとSAMの利点を生かした,新しい高品質な3次元オブジェクト再構成手法であるニューラルオブジェクトクローニング (NOC) を提案する。 まず,対象オブジェクトをシーンから分離するために,samのマルチビュー2dセグメンテーションマスクを統一された3d変動フィールドへ持ち上げる新しい戦略を提案する。 3d変分フィールドは2d空間に投影され、samの新しいプロンプトを生成する。 このプロセスは、対象のオブジェクトをシーンから分離するために収束するまで反復的です。 そして, 2次元マスクとは別に, SAMエンコーダの2次元特徴を3次元SAMフィールドに引き上げ, 対象物体の再現性を向上させる。 NOCはSAMの2Dマスクと特徴を3Dニューラルフィールドに持ち上げ、高品質なターゲットオブジェクト再構成を行う。 提案手法の利点を実証するため,いくつかのベンチマークデータセットの詳細な実験を行った。 コードはリリースされます。

With the development of the neural field, reconstructing the 3D model of a target object from multi-view inputs has recently attracted increasing attention from the community. Existing methods normally learn a neural field for the whole scene, while it is still under-explored how to reconstruct a certain object indicated by users on-the-fly. Considering the Segment Anything Model (SAM) has shown effectiveness in segmenting any 2D images, in this paper, we propose Neural Object Cloning (NOC), a novel high-quality 3D object reconstruction method, which leverages the benefits of both neural field and SAM from two aspects. Firstly, to separate the target object from the scene, we propose a novel strategy to lift the multi-view 2D segmentation masks of SAM into a unified 3D variation field. The 3D variation field is then projected into 2D space and generates the new prompts for SAM. This process is iterative until convergence to separate the target object from the scene. Then, apart from 2D masks, we further lift the 2D features of the SAM encoder into a 3D SAM field in order to improve the reconstruction quality of the target object. NOC lifts the 2D masks and features of SAM into the 3D neural field for high-quality target object reconstruction. We conduct detailed experiments on several benchmark datasets to demonstrate the advantages of our method. The code will be released.
翻訳日:2023-09-25 15:02:14 公開日:2023-09-22
# ems: 単視点画像からの3次元アイブロウモデリング

EMS: 3D Eyebrow Modeling from Single-view Images ( http://arxiv.org/abs/2309.12787v1 )

ライセンス: Link先を確認
Chenghong Li, Leyang Jin, Yujian Zheng, Yizhou Yu, Xiaoguang Han(参考訳) まばたきは表情と外観において重要な役割を担っている。 顔の3次元デジタル化はよく研究されているが、3Dアイブロウモデリングにはあまり注目されていない。 本研究では,シングルビュー3D視線再構成のための最初の学習ベースフレームワークであるEMSを提案する。 また,頭皮の毛髪再建の方法に従い,アイブロウを繊維曲線の集合として表現し,その再構成を繊維成長問題に変換する。 RootFinderはまず成長の場所を示す繊維根の位置をローカライズし、OriPredictorは繊維の成長を導くために3D空間の配向場を予測し、FiberEnderは繊維の成長をいつ止めるかを決定するように設計されている。 我々のOriPredictorは、髪の復元に使われる方法を直接借りています。 毛髪と毛髪の違いを考慮すると、RootFinderとFiberEnderの両方が新たに提案されている。 具体的には,根源の位置が著しく遮蔽されているという課題に対処するため,根源位置を密度マップ推定タスクとして定式化する。 予測密度写像を考えると、根を見つけるために密度に基づくクラスタリング法がさらに用いられる。 各繊維について、成長は根点から始まり、末尾までステップバイステップで進み、各ステップは予測された配向場に応じて一定長さの配向線として定義される。 終了時期を決定するため、ピクセル対応のRNNアーキテクチャはバイナリ分類器として設計され、成長する各ステップで停止するか否かを出力する。 提案するすべてのネットワークのトレーニングをサポートするために,アーティストが手作業で作成した400の高品質アイブロウモデルを含む,最初の3d合成アイブロウデータセットを構築した。 広範囲な実験により、提案したEMSパイプラインが、短いものから疎いものから長い毛むくじゃらのものまで、様々なアイブロウのスタイルと長さに対して有効であることが示された。

Eyebrows play a critical role in facial expression and appearance. Although the 3D digitization of faces is well explored, less attention has been drawn to 3D eyebrow modeling. In this work, we propose EMS, the first learning-based framework for single-view 3D eyebrow reconstruction. Following the methods of scalp hair reconstruction, we also represent the eyebrow as a set of fiber curves and convert the reconstruction to fibers growing problem. Three modules are then carefully designed: RootFinder firstly localizes the fiber root positions which indicates where to grow; OriPredictor predicts an orientation field in the 3D space to guide the growing of fibers; FiberEnder is designed to determine when to stop the growth of each fiber. Our OriPredictor is directly borrowing the method used in hair reconstruction. Considering the differences between hair and eyebrows, both RootFinder and FiberEnder are newly proposed. Specifically, to cope with the challenge that the root location is severely occluded, we formulate root localization as a density map estimation task. Given the predicted density map, a density-based clustering method is further used for finding the roots. For each fiber, the growth starts from the root point and moves step by step until the ending, where each step is defined as an oriented line with a constant length according to the predicted orientation field. To determine when to end, a pixel-aligned RNN architecture is designed to form a binary classifier, which outputs stop or not for each growing step. To support the training of all proposed networks, we build the first 3D synthetic eyebrow dataset that contains 400 high-quality eyebrow models manually created by artists. Extensive experiments have demonstrated the effectiveness of the proposed EMS pipeline on a variety of different eyebrow styles and lengths, ranging from short and sparse to long bushy eyebrows.
翻訳日:2023-09-25 15:01:51 公開日:2023-09-22
# lmc:トレーニングフリーオープンセット物体認識のためのクロスアセスメントによる大規模モデル協調

LMC: Large Model Collaboration with Cross-assessment for Training-Free Open-Set Object Recognition ( http://arxiv.org/abs/2309.12780v1 )

ライセンス: Link先を確認
Haoxuan Qu, Xiaofei Hui, Yujun Cai, Jun Liu(参考訳) オープンセットオブジェクト認識は、トレーニング中に遭遇したクラスからオブジェクトを識別することを目的としている。 オープンセットオブジェクト認識を正確に行うためには、素早い識別的特徴への依存を減らすかが課題である。 本稿では,異なるパラダイムを通じて事前学習された異なる大規模モデルが,異なる暗黙の知識を持つことができることを動機として,この課題に対処する新たなフレームワークであるLarge Model Collaboration(LMC)を提案する。 さらに,提案フレームワークをいくつかの新しい設計に組み込んで,大規模モデルから暗黙的な知識を効果的に抽出する。 広範な実験により,提案手法の有効性が実証された。 コードは href{https://github.com/Harryqu123/LMC}{here} で入手できる。

Open-set object recognition aims to identify if an object is from a class that has been encountered during training or not. To perform open-set object recognition accurately, a key challenge is how to reduce the reliance on spurious-discriminative features. In this paper, motivated by that different large models pre-trained through different paradigms can possess very rich while distinct implicit knowledge, we propose a novel framework named Large Model Collaboration (LMC) to tackle the above challenge via collaborating different off-the-shelf large models in a training-free manner. Moreover, we also incorporate the proposed framework with several novel designs to effectively extract implicit knowledge from large models. Extensive experiments demonstrate the efficacy of our proposed framework. Code is available \href{https://github.com/Harryqu123/LMC}{here}.
翻訳日:2023-09-25 15:01:20 公開日:2023-09-22
# 量子誤り訂正プロトコルの動的サブセットサンプリング

Dynamical subset sampling of quantum error correcting protocols ( http://arxiv.org/abs/2309.12774v1 )

ライセンス: Link先を確認
Sascha Heu{\ss}en, Don Winter, Manuel Rispler, Markus M\"uller(参考訳) 量子誤り訂正(QEC)安定化符号は、記憶および処理中のエラーに対する量子情報の保護を可能にする。 ノイズqec符号のシミュレーションは、現実的な量子コンピューティングアーキテクチャにおける論理量子ビットの有利な操作に必要なノイズパラメータを特定するために用いられる。 典型的な量子誤差補正技術には、プロトコルを実行する場合の実際のノイズ回路シーケンスを決定する中間的な測定と古典的なフィードバックが含まれる。 動的サブセットサンプリングは、任意の種類の量子回路と低強度の不整合雑音に対する非決定論的量子誤り訂正プロトコルの効率的なシミュレーションを可能にする。 重要なサンプリング手法として、動的サブセットサンプリング(dynamical subset sampling)は、量子回路の最も関連するシーケンスのみをサンプリングする計算資源を効果的に活用し、よく定義されたエラーバーを用いてプロトコルの論理故障率を推定することができる。 本稿では, 耐故障性QECの例を例に, 動的サブセットサンプリングの機能を示す。 本手法は,不整合パウリ雑音を強度$p = 10^{-3}$とする典型的な安定化器シミュレーションにおいて,直接モンテカルロシミュレーションよりも2桁少ないサンプル数で,論理的故障率で必要なサンプリング精度に達することを示す。 さらに、動的サブセットサンプリングは、故障量子プロセッサを記述する現実的なマルチパラメータノイズモデルの効率的なシミュレーションを可能にする。 回路モデルにおけるqecだけでなく、測定に基づく量子計算や量子ネットワークなど、一貫性のないフォールト演算子を持つノイズ量子コンピューティングフレームワークにも適用できる。

Quantum error correcting (QEC) stabilizer codes enable protection of quantum information against errors during storage and processing. Simulation of noisy QEC codes is used to identify the noise parameters necessary for advantageous operation of logical qubits in realistic quantum computing architectures. Typical quantum error correction techniques contain intermediate measurements and classical feedback that determine the actual noisy circuit sequence in an instance of performing the protocol. Dynamical subset sampling enables efficient simulation of such non-deterministic quantum error correcting protocols for any type of quantum circuit and incoherent noise of low strength. As an importance sampling technique, dynamical subset sampling allows one to effectively make use of computational resources to only sample the most relevant sequences of quantum circuits in order to estimate a protocol's logical failure rate with well-defined error bars. We demonstrate the capabilities of dynamical subset sampling with examples from fault-tolerant (FT) QEC. We show that, in a typical stabilizer simulation with incoherent Pauli noise of strength $p = 10^{-3}$, our method can reach a required sampling accuracy on the logical failure rate with two orders of magnitude fewer samples than direct Monte Carlo simulation. Furthermore, dynamical subset sampling naturally allows for efficient simulation of realistic multi-parameter noise models describing faulty quantum processors. It can be applied not only for QEC in the circuit model but any noisy quantum computing framework with incoherent fault operators including measurement-based quantum computation and quantum networks.
翻訳日:2023-09-25 15:01:01 公開日:2023-09-22
# WiCV@CVPR2023: The 11th Women in Computer Vision Workshop at the Annual CVPR Conference

WiCV@CVPR2023: The Eleventh Women In Computer Vision Workshop at the Annual CVPR Conference ( http://arxiv.org/abs/2309.12768v1 )

ライセンス: Link先を確認
Doris Antensteiner, Marah Halawa, Asra Aslam, Ivaxi Sheth, Sachini Herath, Ziqi Huang, Sunnie S. Y. Kim, Aparna Akula, Xin Wang(参考訳) 本稿では,カナダのバンクーバーにあるハイブリッドcvpr 2023と共に組織されたコンピュータビジョンワークショップwicv 2023における女性について述べる。 wicvは、コンピュータビジョンコミュニティで過小評価された女性の声を増幅することを目的としており、学界と産業の両方における可視性を高めている。 このような出来事は、フィールド内の男女不均衡に対処する上で重要な役割を担っていると考えています。 毎年開催されるWiCV@CVPRワークショップ イ 少数集団の研究者間の協力の機会 b)女性ジュニア研究者の指導 c) 財務上の負担を軽減するためのプレゼンターへの財政的支援 d) キャリアの初期段階において若い研究者に刺激を与える様々な役割モデル。 本稿では,ワークショッププログラムに関する総合的な報告,過去のWiCV@CVPRイベントの過去の動向,およびWiCV 2023ワークショップのプレゼンター,参加者,スポンサーに関する統計の要約を紹介する。

In this paper, we present the details of Women in Computer Vision Workshop - WiCV 2023, organized alongside the hybrid CVPR 2023 in Vancouver, Canada. WiCV aims to amplify the voices of underrepresented women in the computer vision community, fostering increased visibility in both academia and industry. We believe that such events play a vital role in addressing gender imbalances within the field. The annual WiCV@CVPR workshop offers a) opportunity for collaboration between researchers from minority groups, b) mentorship for female junior researchers, c) financial support to presenters to alleviate finanacial burdens and d) a diverse array of role models who can inspire younger researchers at the outset of their careers. In this paper, we present a comprehensive report on the workshop program, historical trends from the past WiCV@CVPR events, and a summary of statistics related to presenters, attendees, and sponsorship for the WiCV 2023 workshop.
翻訳日:2023-09-25 15:00:36 公開日:2023-09-22
# プランアセスメントによる最も深い推論--検索型大規模言語モデルを用いた安定した推論経路

Furthest Reasoning with Plan Assessment: Stable Reasoning Path with Retrieval-Augmented Large Language Models ( http://arxiv.org/abs/2309.12767v1 )

ライセンス: Link先を確認
Yin Zhu, Zhiling Luo, Gong Cheng(参考訳) 大きな言語モデル(LLM)は強力な推論器とジェネレータとして機能し、質問応答(QA)など、様々な自然言語タスクで素晴らしいパフォーマンスを示す。 これらの課題の中で、Multi-Hop Question Answering (MHQA) は広く議論されているカテゴリであり、LLM間のシームレスな統合と外部知識の検索が必要である。 既存の手法では LLM を用いて推論経路と計画を生成し、IR を用いて関連知識を反復的に検索するが、これらの手法には固有の欠点がある。 一方、情報検索(IR)はLLMによって生成されたクエリの低品質化によって妨げられる。 一方、LLMはIRによる無関係な知識によって容易に誤解される。 これらの不正確さは、IRとLLMの反復的な相互作用によって蓄積され、最終的に効率の低下につながる。 上記の障壁を克服するため,本稿では,改良された枠組み(ファーザー推論)と付属モジュール(プラン評価器)を含む,furthest-reasoning-with-plan-assessment(furepa)と呼ばれるmhqaの新しいパイプラインを提案する。 1) 従来の推論経路をマスキングし, LLMのクエリを生成することにより, 各イテレーションのスクラッチからLLMの思考連鎖を生成する。 このアプローチにより、LLMは以前の誤解を招く考えやクエリ(もしあれば)によって構築されたシャクルを壊すことができる。 2)Plan Assessorは、LLMが提案する候補計画群から適切なプランを選択する訓練された評価器である。 提案手法は,広く認知されている3つのマルチホップ質問応答データセットを用いて評価し,ほとんどの指標(解答精度が10%-12%)において最先端であることを示す。

Large Language Models (LLMs), acting as a powerful reasoner and generator, exhibit extraordinary performance across various natural language tasks, such as question answering (QA). Among these tasks, Multi-Hop Question Answering (MHQA) stands as a widely discussed category, necessitating seamless integration between LLMs and the retrieval of external knowledge. Existing methods employ LLM to generate reasoning paths and plans, and utilize IR to iteratively retrieve related knowledge, but these approaches have inherent flaws. On one hand, Information Retriever (IR) is hindered by the low quality of generated queries by LLM. On the other hand, LLM is easily misguided by the irrelevant knowledge by IR. These inaccuracies, accumulated by the iterative interaction between IR and LLM, lead to a disaster in effectiveness at the end. To overcome above barriers, in this paper, we propose a novel pipeline for MHQA called Furthest-Reasoning-with-Plan-Assessment (FuRePA), including an improved framework (Furthest Reasoning) and an attached module (Plan Assessor). 1) Furthest reasoning operates by masking previous reasoning path and generated queries for LLM, encouraging LLM generating chain of thought from scratch in each iteration. This approach enables LLM to break the shackle built by previous misleading thoughts and queries (if any). 2) The Plan Assessor is a trained evaluator that selects an appropriate plan from a group of candidate plans proposed by LLM. Our methods are evaluated on three highly recognized public multi-hop question answering datasets and outperform state-of-the-art on most metrics (achieving a 10%-12% in answer accuracy).
翻訳日:2023-09-25 15:00:20 公開日:2023-09-22
# 深部CNNと教師なし手法に基づく遠心ポンプの新しい故障クラス検出のためのインテリジェントアプローチ

An Intelligent Approach to Detecting Novel Fault Classes for Centrifugal Pumps Based on Deep CNNs and Unsupervised Methods ( http://arxiv.org/abs/2309.12765v1 )

ライセンス: Link先を確認
Mahdi Abdollah Chalaki, Daniyal Maroufi, Mahdi Robati, Mohammad Javad Karimi, Ali Sadighi(参考訳) 近年、回転機械のデータ駆動型故障診断の成功にもかかわらず、この分野にはまだ課題が残っている。 対処すべき問題のひとつは、システムが現場で遭遇する可能性のあるさまざまな障害に関する情報の欠如だ。 本稿では,システム障害の部分的知識を仮定し,それに対応するデータを用いて畳み込みニューラルネットワークを訓練する。 t-SNE法とクラスタリング法を組み合わせて新しい断層を検出する。 検知すると、ネットワークは新しいデータを使って拡張される。 最後に, この2段法を遠心ポンプで検証するために試験装置を用い, 実験結果から新しい故障の検出精度が向上した。

Despite the recent success in data-driven fault diagnosis of rotating machines, there are still remaining challenges in this field. Among the issues to be addressed, is the lack of information about variety of faults the system may encounter in the field. In this paper, we assume a partial knowledge of the system faults and use the corresponding data to train a convolutional neural network. A combination of t-SNE method and clustering techniques is then employed to detect novel faults. Upon detection, the network is augmented using the new data. Finally, a test setup is used to validate this two-stage methodology on a centrifugal pump and experimental results show high accuracy in detecting novel faults.
翻訳日:2023-09-25 14:59:46 公開日:2023-09-22
# 減量・再利用・リサイクル:低リソース自己監督音声モデルにおける他の言語拡張よりも摂動データが優れているか

Reduce, Reuse, Recycle: Is Perturbed Data better than Other Language augmentation for Low Resource Self-Supervised Speech Models ( http://arxiv.org/abs/2309.12763v1 )

ライセンス: Link先を確認
Asad Ullah, Alessandro Ragano, Andrew Hines(参考訳) self-supervised representation learning (ssrl) は下流音素認識と教師付きモデルのパフォーマンスを改善した。 SSRLモデルのトレーニングには大量の事前学習データが必要である。 一般的なアプローチは、知識を他の言語から移すことである。 そこで本研究では,低リソース条件下でのSSRLモデルの事前学習に音声拡張を用い,音素認識をダウンストリームタスクとして評価する。 ピッチ変動,雑音付加,アクセント付き目標言語音声,その他の言語音声の強調法について体系的に比較した。 アクセントと言語知識の伝達に優れた拡張戦略として,複合拡張(ノイズ/ピッチ)が最適であった。 各種の事前学習データとの比較を行った。 対象領域音声で事前学習したモデルと同等の性能を達成するために,拡張データのスケーリング係数を検討した。 本研究は,資源制約言語において,アクセントや他の言語音声からの知識伝達よりもドメイン内合成拡張が優れていることを示唆する。

Self-supervised representation learning (SSRL) has improved the performance on downstream phoneme recognition versus supervised models. Training SSRL models requires a large amount of pre-training data and this poses a challenge for low resource languages. A common approach is transferring knowledge from other languages. Instead, we propose to use audio augmentation to pre-train SSRL models in a low resource condition and evaluate phoneme recognition as downstream task. We performed a systematic comparison of augmentation techniques, namely: pitch variation, noise addition, accented target-language speech and other language speech. We found combined augmentations (noise/pitch) was the best augmentation strategy outperforming accent and language knowledge transfer. We compared the performance with various quantities and types of pre-training data. We examined the scaling factor of augmented data to achieve equivalent performance to models pre-trained with target domain speech. Our findings suggest that for resource constrained languages, in-domain synthetic augmentation can outperform knowledge transfer from accented or other language speech.
翻訳日:2023-09-25 14:59:35 公開日:2023-09-22
# S3TC:非教師なしSTDPに基づく行動認識学習による空間的・時間的畳み込みのスパイキング

S3TC: Spiking Separated Spatial and Temporal Convolutions with Unsupervised STDP-based Learning for Action Recognition ( http://arxiv.org/abs/2309.12761v1 )

ライセンス: Link先を確認
Mireille El-Assal and Pierre Tirilly and Ioan Marius Bilasco(参考訳) ビデオ分析はコンピュータビジョンの主要なタスクであり、近年多くの注目を集めている。 ビデオ解析の最先端性能は、高い計算コストと大量のラベル付きデータを必要とするディープニューラルネットワーク(DNN)によって達成されている。 スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックハードウェア上で実装される場合、通常の非スパイキングネットワークよりも計算コスト(数倍)が著しく低い。 それらは3D Convolutional Spiking Neural Networks (3D CSNNs)のような方法でビデオ解析に使われている。 しかし、これらのネットワークは2D CSNNよりもはるかに多くのパラメータを持つ。 これは計算コストを増加させるだけでなく、ニューロモルフィックなハードウェアでこれらのネットワークを実装するのを難しくする。 本研究では,spike timing-dependent plasticity (stdp) の規則に従って教師なしで訓練されたcsnnを用いて,映像解析に必要なパラメータ数を減らすために,s3tcs(spike separated spatial and temporal convolutions)を初めて導入する。 この教師なし学習は、トレーニングに大量のラベル付きデータを必要としないという利点がある。 空間的および時間的スパイク畳み込みに単一の時空間スパイク畳み込みを分解することで、ネットワークのパラメータの数を減少させる。 我々は、KTH、Weizmann、IXMASデータセットを用いてネットワークをテストし、S3TCがビデオから時空間情報を抽出し、出力スパイク活性を増大させ、3Dコンボリューションよりも優れていることを示す。

Video analysis is a major computer vision task that has received a lot of attention in recent years. The current state-of-the-art performance for video analysis is achieved with Deep Neural Networks (DNNs) that have high computational costs and need large amounts of labeled data for training. Spiking Neural Networks (SNNs) have significantly lower computational costs (thousands of times) than regular non-spiking networks when implemented on neuromorphic hardware. They have been used for video analysis with methods like 3D Convolutional Spiking Neural Networks (3D CSNNs). However, these networks have a significantly larger number of parameters compared with spiking 2D CSNN. This, not only increases the computational costs, but also makes these networks more difficult to implement with neuromorphic hardware. In this work, we use CSNNs trained in an unsupervised manner with the Spike Timing-Dependent Plasticity (STDP) rule, and we introduce, for the first time, Spiking Separated Spatial and Temporal Convolutions (S3TCs) for the sake of reducing the number of parameters required for video analysis. This unsupervised learning has the advantage of not needing large amounts of labeled data for training. Factorizing a single spatio-temporal spiking convolution into a spatial and a temporal spiking convolution decreases the number of parameters of the network. We test our network with the KTH, Weizmann, and IXMAS datasets, and we show that S3TCs successfully extract spatio-temporal information from videos, while increasing the output spiking activity, and outperforming spiking 3D convolutions.
翻訳日:2023-09-25 14:59:18 公開日:2023-09-22
# マスキングはコンブネットのコントラスト的自己教師付き学習を改善する

Masking Improves Contrastive Self-Supervised Learning for ConvNets, and Saliency Tells You Where ( http://arxiv.org/abs/2309.12757v1 )

ライセンス: Link先を確認
Zhi-Yi Chin, Chieh-Ming Jiang, Ching-Chun Huang, Pin-Yu Chen, Wei-Chen Chiu(参考訳) While image data starts to enjoy the simple-but-effective self-supervised learning scheme built upon masking and self-reconstruction objective thanks to the introduction of tokenization procedure and vision transformer backbone, convolutional neural networks as another important and widely-adopted architecture for image data, though having contrastive-learning techniques to drive the self-supervised learning, still face the difficulty of leveraging such straightforward and general masking operation to benefit their learning process significantly. 本研究では,畳み込みニューラルネットワークのためのコントラスト学習フレームワークにマスキング操作を付加する負担を軽減することを目的としている。 先行研究により議論されてきた,マスキング操作による付加的かつ不必要なエッジ(仮面領域と未マスク領域の間)や他の悪影響に加えて,対照サンプルペアにおいて,ランダムにサンプリングされたマスキング領域が重要・不十分な物体に過度に集中し,他方の視点とミスリーディングなコントラスト性をもたらす可能性のある問題を特に特定する。 そこで本稿では,マスキングによる拡張を実現するために,マスキング領域が前景と背景に均等に分散されていることを考慮に入れた。 さらに,入力画像内のサレジエントパッチの大きな領域をマスキングすることにより,硬い負のサンプルを導入する。 各種データセット,コントラスト学習機構,下流タスクで実施した広範囲な実験により,提案手法の有効性と,いくつかの最先端ベースラインに対する優れた性能が検証された。

While image data starts to enjoy the simple-but-effective self-supervised learning scheme built upon masking and self-reconstruction objective thanks to the introduction of tokenization procedure and vision transformer backbone, convolutional neural networks as another important and widely-adopted architecture for image data, though having contrastive-learning techniques to drive the self-supervised learning, still face the difficulty of leveraging such straightforward and general masking operation to benefit their learning process significantly. In this work, we aim to alleviate the burden of including masking operation into the contrastive-learning framework for convolutional neural networks as an extra augmentation method. In addition to the additive but unwanted edges (between masked and unmasked regions) as well as other adverse effects caused by the masking operations for ConvNets, which have been discussed by prior works, we particularly identify the potential problem where for one view in a contrastive sample-pair the randomly-sampled masking regions could be overly concentrated on important/salient objects thus resulting in misleading contrastiveness to the other view. To this end, we propose to explicitly take the saliency constraint into consideration in which the masked regions are more evenly distributed among the foreground and background for realizing the masking-based augmentation. Moreover, we introduce hard negative samples by masking larger regions of salient patches in an input image. Extensive experiments conducted on various datasets, contrastive learning mechanisms, and downstream tasks well verify the efficacy as well as the superior performance of our proposed method with respect to several state-of-the-art baselines.
翻訳日:2023-09-25 14:58:48 公開日:2023-09-22
# 準最適計算基底状態遷移

Almost-Optimal Computational Basis State Transpositions ( http://arxiv.org/abs/2309.12820v1 )

ライセンス: Link先を確認
Steven Herbert and Julien Sorci and Yao Tang(参考訳) 我々は、$\theta(n)$ gatesを使って、任意の$n$-qubitの計算基底状態遷移を実行する明示的な構成を与える。 これは下限の$\omega(n/\log(nd))$が最悪のケースと平均ケースのゲートの複雑さで、$d$-element のゲート集合を使って転送を行うのとほぼ一致する。

We give an explicit construction to perform any $n$-qubit computational basis state transposition using $\Theta(n)$ gates. This nearly coincides with the lower bound $\Omega(n/\log(nd))$ on worst-case and average-case gate complexity to perform transpositions using a $d$-element gate-set, which we also prove.
翻訳日:2023-09-25 14:52:48 公開日:2023-09-22
# 連続治療のための2重ロバストな近位因果学習

Doubly Robust Proximal Causal Learning for Continuous Treatments ( http://arxiv.org/abs/2309.12819v1 )

ライセンス: Link先を確認
Yong Wu, Yanwei Fu, Shouyan Wang, Xinwei Sun(参考訳) 近位因果学習は、測定されていない共同創設者の存在下で因果効果を特定するための有望な枠組みである。 このフレームワーク内では、二重ロバスト(DR)推定器が導出され、特にモデル仮定に違反した場合に、その推定の有効性が示された。 しかし、DR推定器の現在の形態はバイナリ処理に限定され、実際の多くの応用において連続的な処理が可能である。 連続処理の主な障害は、元のDR推定器に存在するデルタ関数に存在し、因果効果の推定が不可能となり、ニュアンス関数推定において重い計算負担が生じる。 これらの課題に対処するために,カーネルベースのDR推定器を提案する。 その滑らかさを備え、そのオラクル形式は影響関数の一貫した近似であることを示す。 さらに,ニュアンス関数を効率的に解くための新しい手法を提案する。 次に,平均二乗誤差の観点から包括的収束解析を行う。 我々は,合成データセットと実世界のアプリケーションにおける推定器の有用性を実証する。

Proximal causal learning is a promising framework for identifying the causal effect under the existence of unmeasured confounders. Within this framework, the doubly robust (DR) estimator was derived and has shown its effectiveness in estimation, especially when the model assumption is violated. However, the current form of the DR estimator is restricted to binary treatments, while the treatment can be continuous in many real-world applications. The primary obstacle to continuous treatments resides in the delta function present in the original DR estimator, making it infeasible in causal effect estimation and introducing a heavy computational burden in nuisance function estimation. To address these challenges, we propose a kernel-based DR estimator that can well handle continuous treatments. Equipped with its smoothness, we show that its oracle form is a consistent approximation of the influence function. Further, we propose a new approach to efficiently solve the nuisance functions. We then provide a comprehensive convergence analysis in terms of the mean square error. We demonstrate the utility of our estimator on synthetic datasets and real-world applications.
翻訳日:2023-09-25 14:52:40 公開日:2023-09-22
# 模倣学習におけるデータ強化によるゲームエージェントの一般化改善

Improving Generalization in Game Agents with Data Augmentation in Imitation Learning ( http://arxiv.org/abs/2309.12815v1 )

ライセンス: Link先を確認
Derek Yadgaroff, Alessandro Sestini, Konrad Tollmar, Linus Gissl\'en(参考訳) 模倣学習は、ゲームプレイングエージェントを訓練し、その結果、効率的なゲーム生産のための効果的なアプローチである。 しかし、一般化 - 関連するが見えないシナリオでうまく機能する能力 - は、ゲームAIにとって未解決の課題である。 アルゴリズムがトレーニング分布外の有意義な行動を取る必要があるため、模倣学習エージェントには一般化が難しい。 本稿では,この問題に対する解決策を提案する。 教師あり学習におけるデータ強化の成功に触発されて、トレーニングデータを拡張し、データセット内の状態と行動の分布が実際の状態-行動分布をより良く表現できるようにします。 本研究は, 模倣学習エージェントの一般化を改善するため, データの強化を観察に応用する方法を評価・評価する。 また、複数の3D環境にまたがるこれらの拡張のパフォーマンスベンチマークも提供する。 これらの結果は、データ拡張が模倣学習エージェントの一般化を改善するための有望なフレームワークであることを示している。

Imitation learning is an effective approach for training game-playing agents and, consequently, for efficient game production. However, generalization - the ability to perform well in related but unseen scenarios - is an essential requirement that remains an unsolved challenge for game AI. Generalization is difficult for imitation learning agents because it requires the algorithm to take meaningful actions outside of the training distribution. In this paper we propose a solution to this challenge. Inspired by the success of data augmentation in supervised learning, we augment the training data so the distribution of states and actions in the dataset better represents the real state-action distribution. This study evaluates methods for combining and applying data augmentations to observations, to improve generalization of imitation learning agents. It also provides a performance benchmark of these augmentations across several 3D environments. These results demonstrate that data augmentation is a promising framework for improving generalization in imitation learning agents.
翻訳日:2023-09-25 14:52:23 公開日:2023-09-22
# ドメイン適応型マイナショットオープンセット学習

Domain Adaptive Few-Shot Open-Set Learning ( http://arxiv.org/abs/2309.12814v1 )

ライセンス: Link先を確認
Debabrata Pal, Deeptej More, Sai Bhargav, Dipesh Tamboli, Vaneet Aggarwal, Biplab Banerjee(参考訳) ターゲットクエリセット内の新しいクラスから未知のサンプルを認識し、ドメイン間の視覚的シフトを管理するという、重要な課題に対処する上で、ショットラーニングはほとんど大きな進歩を遂げた。 しかし、既存のテクニックは、ソースドメインからの擬似外乱を拒否することを学ぶことによって、ドメインシフトの下でターゲット外乱を識別することに関して不足している。 これらの課題に包括的に対処するために,DA-FSOS(Domain Adaptive Few-Shot Open Set Recognition)と呼ばれる新しいアプローチを提案し,DAFOSNETというメタラーニングに基づくアーキテクチャを導入する。 トレーニング中,本モデルは,完全教師付きソースドメインとラベル非結合な少数ショットターゲットドメインを与えられた擬似オープンスペース決定境界を作成しながら,共有かつ差別的な埋め込み空間を学習する。 データ密度を高めるために、可変ノイズ分散を持つ条件付き対の逆数ネットワークを用いて、閉領域と擬似オープン空間を拡大する。 さらに,新しい計量目標によるクラス識別性を確保しつつ,両ドメインをグローバルに整列させるドメイン固有バッチ正規化クラスプロトタイプアライメント戦略を提案する。 我々のトレーニングアプローチは、DAFOS-NETがターゲットドメインの新しいシナリオにうまく適応できるようにします。 Office-Home、mini-ImageNet/CUB、DomainNetデータセットに基づくDA-FSOSの3つのベンチマークを行い、広範囲な実験を通してDAFOS-NETの有効性を実証する。

Few-shot learning has made impressive strides in addressing the crucial challenges of recognizing unknown samples from novel classes in target query sets and managing visual shifts between domains. However, existing techniques fall short when it comes to identifying target outliers under domain shifts by learning to reject pseudo-outliers from the source domain, resulting in an incomplete solution to both problems. To address these challenges comprehensively, we propose a novel approach called Domain Adaptive Few-Shot Open Set Recognition (DA-FSOS) and introduce a meta-learning-based architecture named DAFOSNET. During training, our model learns a shared and discriminative embedding space while creating a pseudo open-space decision boundary, given a fully-supervised source domain and a label-disjoint few-shot target domain. To enhance data density, we use a pair of conditional adversarial networks with tunable noise variances to augment both domains closed and pseudo-open spaces. Furthermore, we propose a domain-specific batch-normalized class prototypes alignment strategy to align both domains globally while ensuring class-discriminativeness through novel metric objectives. Our training approach ensures that DAFOS-NET can generalize well to new scenarios in the target domain. We present three benchmarks for DA-FSOS based on the Office-Home, mini-ImageNet/CUB, and DomainNet datasets and demonstrate the efficacy of DAFOS-NET through extensive experimentation
翻訳日:2023-09-25 14:52:07 公開日:2023-09-22
# 可変射影角対状態を持つフラクタル量子ホール状態:ボソニック・ハーパーホフスタッターモデルの研究

Fractional quantum Hall states with variational Projected Entangled-Pair States: a study of the bosonic Harper-Hofstadter model ( http://arxiv.org/abs/2309.12811v1 )

ライセンス: Link先を確認
Erik Lennart Weerda, Matteo Rizzi(参考訳) 物質の位相相を調べるためのモデルハミルトニアンの重要なクラスは、ボソニック・ハーパー・ホフシュタットラーモデルによって例示されるような、半古典的ゲージ場に属する格子上の移動可能な相互作用する粒子からなる。 2次元量子系の研究のための一意な方法は、位相構造を変化させる散発的な有限サイズの効果を避けるため、無限射影エンタングル対状態(ipep)である。 しかし、関連する場合のノーゴー定理により、これは過去には不可能であるとしばしば予想された。 このレターでは、ボソニック・ハーパー・ホフシュタッターモデルにおける分数ホール状態を特定することにより、無限射影対状態の変動最適化により、この目的に利用できることを示す。 得られた状態は、バルクギャップによって予測されるバルク相関の指数的崩壊と、エンタングルメントスペクトルを介してキラルエッジモードを示すことを特徴とする。

An important class of model Hamiltonians for investigation of topological phases of matter consists of mobile, interacting particles on a lattice subject to a semi-classical gauge field, as exemplified by the bosonic Harper-Hofstadter model. A unique method for investigations of two-dimensional quantum systems are the infinite projected-entangled pair states (iPEPS), as they avoid spurious finite size effects that can alter the phase structure. However, due to no-go theorems in related cases this was often conjectured to be impossible in the past. In this letter, we show that upon variational optimization the infinite projected-entangled pair states can be used to this end, by identifying fractional Hall states in the bosonic Harper-Hofstadter model. The obtained states are characterized by showing exponential decay of bulk correlations, as dictated by a bulk gap, as well as chiral edge modes via the entanglement spectrum.
翻訳日:2023-09-25 14:51:38 公開日:2023-09-22
# StyloMetrix: スティロメトリックベクトルを表現するためのオープンソースの多言語ツール

StyloMetrix: An Open-Source Multilingual Tool for Representing Stylometric Vectors ( http://arxiv.org/abs/2309.12810v1 )

ライセンス: Link先を確認
Inez Okulska, Daria Stetsenko, Anna Ko{\l}os, Agnieszka Karli\'nska, Kinga G{\l}\k{a}bi\'nska, Adam Nowakowski(参考訳) この作業は、StyloMetrixと呼ばれるオープンソースの多言語ツールの概要を提供することを目的としている。 文法、構文、語彙の様々な側面をカバーするスタイル的テキスト表現を提供する。 スタイロメトリクスはポーランド語、英語、ウクライナ語、ロシア語の4つの言語をカバーしている。 それぞれの機能の正規化された出力は、機械学習モデルにとって実りあるコースとなり、どんなディープラーニングアルゴリズムにも埋め込み層に価値ある追加となる。 我々は,StyloMetrixベクトルの適用について,簡潔ながら網羅的な概要と,発達した言語的特徴の集合を説明することに努めている。 実験では,ランダムフォレスト分類器,投票分類器,ロジスティック回帰など,単純なアルゴリズムを用いた教師付きコンテンツ分類において有望な結果が得られた。 ディープラーニングアセスメントは、Transformerアーキテクチャから抽出した埋め込み層を強化する上で、StyloMetrixベクトルの有用性を明らかにした。 StyloMetrixは、異なる分類タスクを実行するための機械学習とディープラーニングアルゴリズムにとって、恐ろしいソースであることが証明されている。

This work aims to provide an overview on the open-source multilanguage tool called StyloMetrix. It offers stylometric text representations that cover various aspects of grammar, syntax and lexicon. StyloMetrix covers four languages: Polish as the primary language, English, Ukrainian and Russian. The normalized output of each feature can become a fruitful course for machine learning models and a valuable addition to the embeddings layer for any deep learning algorithm. We strive to provide a concise, but exhaustive overview on the application of the StyloMetrix vectors as well as explain the sets of the developed linguistic features. The experiments have shown promising results in supervised content classification with simple algorithms as Random Forest Classifier, Voting Classifier, Logistic Regression and others. The deep learning assessments have unveiled the usefulness of the StyloMetrix vectors at enhancing an embedding layer extracted from Transformer architectures. The StyloMetrix has proven itself to be a formidable source for the machine learning and deep learning algorithms to execute different classification tasks.
翻訳日:2023-09-25 14:51:17 公開日:2023-09-22
# chatprcs: chatgptに基づく英語読解のためのパーソナライズされたサポートシステム

ChatPRCS: A Personalized Support System for English Reading Comprehension based on ChatGPT ( http://arxiv.org/abs/2309.12808v1 )

ライセンス: Link先を確認
Xizhe Wang, Yihua Zhong, Changqin Huang, and Xiaodi Huang(参考訳) 英語を学ぶ一般的なアプローチとして、読解は主に記事を読んで関連する質問に答えることである。 しかし、効果的な演習を設計する複雑さは、標準化された質問に遭遇する結果となり、個別の学習者の読解能力との整合が困難になる。 本稿では,ChatGPTによって実証された大規模言語モデルによって提供される高度な機能を活用することにより,近近開発領域理論に基づく,ChatPRCSと呼ばれる読解支援システムを提案する。 ChatPRCSでは,読解能力予測や質問生成,自動評価などの手法を用いて,読解能力の向上を図る。 まず,難易度の高い質問を生成するための基盤として,履歴データを用いて学習者の読解能力を予測する新しいアルゴリズムを開発した。 第2に,質問生成と自動評価という,理解目的の2つの重要な側面に対処するために,一連の新しいChatGPTプロンプトパターンを提案する。 これらのパターンは、生成した質問の品質をさらに向上させる。 最後に、パーソナライズされた能力と理解プロンプトパターンの統合により、chatprcは実験を通じて体系的に検証される。 実験結果から, 学習者に対して, 統計的レベルにおいて, 専門家による質問に広く適合した, 質の高い読解質問が提供されることがわかった。

As a common approach to learning English, reading comprehension primarily entails reading articles and answering related questions. However, the complexity of designing effective exercises results in students encountering standardized questions, making it challenging to align with individualized learners' reading comprehension ability. By leveraging the advanced capabilities offered by large language models, exemplified by ChatGPT, this paper presents a novel personalized support system for reading comprehension, referred to as ChatPRCS, based on the Zone of Proximal Development theory. ChatPRCS employs methods including reading comprehension proficiency prediction, question generation, and automatic evaluation, among others, to enhance reading comprehension instruction. First, we develop a new algorithm that can predict learners' reading comprehension abilities using their historical data as the foundation for generating questions at an appropriate level of difficulty. Second, a series of new ChatGPT prompt patterns is proposed to address two key aspects of reading comprehension objectives: question generation, and automated evaluation. These patterns further improve the quality of generated questions. Finally, by integrating personalized ability and reading comprehension prompt patterns, ChatPRCS is systematically validated through experiments. Empirical results demonstrate that it provides learners with high-quality reading comprehension questions that are broadly aligned with expert-crafted questions at a statistical level.
翻訳日:2023-09-25 14:51:02 公開日:2023-09-22
# 視野間の空間的関係による監視による心磁気共鳴画像の自動ビュープレーン処方

Automatic view plane prescription for cardiac magnetic resonance imaging via supervision by spatial relationship between views ( http://arxiv.org/abs/2309.12805v1 )

ライセンス: Link先を確認
Dong Wei, Yawen Huang, Donghuan Lu, Yuexiang Li, and Yefeng Zheng(参考訳) 背景: 心臓磁気共鳴(CMR)画像取得の展望は, 臨床実践において要求される課題である。 目的: 既存の自動化アプローチは、クリニックルーチンでは通常取得されないボリュームイメージの追加か、心臓構造ランドマークの面倒な手動アノテーションに依存していた。 本研究は,cmrビュー自動計画のためのクリニック互換アノテーションフリーシステムを提案する。 方法: 本システムは, 空間的関係, 特に, 対象平面とソースビューの間の交差線の位置をマイニングし, 交差線からの距離で定義された熱マップを復元する深層ネットワークを訓練する。 交点線は、心臓ランドマークを用いた画像取得時に技術者が処方した処方線であり、空間的関係から遡及的に識別される。 空間関係が適切に格納されたデータに自己完結するので、追加の手動アノテーションが不要となる。 さらに、ソースビューで予測される複数のターゲット面の相互作用を積み重ねた時間ガラスアーキテクチャで利用し、徐々にレグレッションを改善する。 そこで,対象平面のすべてのソースビューに対して予測されたヒートマップから情報を集約する多視点計画戦略を提案し,熟練したヒトの加入者による同様の戦略を模倣して,グローバルに最適な処方則を提案する。 結果: 実験は181回のCMR試験を含む。 システムの平均角差と点-面距離はそれぞれ5.68度と3.12mmである。 従来のアトラスベースやより新しいディープラーニングベースの4つの標準cmrプレーンを規定するアプローチよりも優れた精度を実現するだけでなく、ボディ指向スカウトによる最初の心臓解剖指向プレーン(s)の処方も示す。

Background: View planning for the acquisition of cardiac magnetic resonance (CMR) imaging remains a demanding task in clinical practice. Purpose: Existing approaches to its automation relied either on an additional volumetric image not typically acquired in clinic routine, or on laborious manual annotations of cardiac structural landmarks. This work presents a clinic-compatible, annotation-free system for automatic CMR view planning. Methods: The system mines the spatial relationship, more specifically, locates the intersecting lines, between the target planes and source views, and trains deep networks to regress heatmaps defined by distances from the intersecting lines. The intersection lines are the prescription lines prescribed by the technologists at the time of image acquisition using cardiac landmarks, and retrospectively identified from the spatial relationship. As the spatial relationship is self-contained in properly stored data, the need for additional manual annotation is eliminated. In addition, the interplay of multiple target planes predicted in a source view is utilized in a stacked hourglass architecture to gradually improve the regression. Then, a multi-view planning strategy is proposed to aggregate information from the predicted heatmaps for all the source views of a target plane, for a globally optimal prescription, mimicking the similar strategy practiced by skilled human prescribers. Results: The experiments include 181 CMR exams. Our system yields the mean angular difference and point-to-plane distance of 5.68 degrees and 3.12 mm, respectively. It not only achieves superior accuracy to existing approaches including conventional atlas-based and newer deep-learning-based in prescribing the four standard CMR planes but also demonstrates prescription of the first cardiac-anatomy-oriented plane(s) from the body-oriented scout.
翻訳日:2023-09-25 14:50:38 公開日:2023-09-22
# 深層学習によるサンゴ礁のスケーラブルな3dマッピング

Scalable Semantic 3D Mapping of Coral Reefs with Deep Learning ( http://arxiv.org/abs/2309.12804v1 )

ライセンス: Link先を確認
Jonathan Sauder, Guilhem Banc-Prandi, Anders Meibom, Devis Tuia(参考訳) サンゴ礁は地球上で最も多様な生態系の1つであり、何億人もの人々が依存している。 残念なことに、ほとんどのサンゴ礁は、地球規模の気候変動と現地の人為的な圧力に脅かされている。 サンゴ礁の劣化をよく理解するには,高い空間分解能と時間分解能でのモニタリングが重要である。 しかしながら,サンゴや種多様性を定量化するための従来のモニタリング手法は,広範囲な手作業を必要とするため,大規模に限定されている。 このプロセスを支援するためにコンピュータビジョンツールが採用されているが、特に3DマッピングのためのSfMフォトグラムと画像セグメンテーションのためのディープニューラルネットワークは、データ製品の分析がボトルネックを生み出し、スケーラビリティを効果的に制限している。 本稿では,エゴモーション映像から水中環境をマッピングする新たなパラダイムを提案する。機械学習を用いて水中の困難な環境に適応する3次元マッピングシステムと,画像の意味的セグメンテーションの現代的アプローチを組み合わせる。 この方法は,赤海,アカバ湾北部のサンゴ礁で実証され,高精度な3Dセマンティックマッピングを前例のない規模で実施し,必要な作業コストを大幅に削減した。 本手法は,サンゴ礁のサンゴ礁モニタリングを,完全自動解析に向けて飛躍的にスケールアップする。 この方法は、労働、設備、物流、計算コストを削減してサンゴ礁横断物を民主化する。 これにより、より効率的に保全政策を通知できる。 学習に基づく構造から運動への計算手法は、サンゴ礁以外の水中環境の高速低コストマッピングに広く影響している。

Coral reefs are among the most diverse ecosystems on our planet, and are depended on by hundreds of millions of people. Unfortunately, most coral reefs are existentially threatened by global climate change and local anthropogenic pressures. To better understand the dynamics underlying deterioration of reefs, monitoring at high spatial and temporal resolution is key. However, conventional monitoring methods for quantifying coral cover and species abundance are limited in scale due to the extensive manual labor required. Although computer vision tools have been employed to aid in this process, in particular SfM photogrammetry for 3D mapping and deep neural networks for image segmentation, analysis of the data products creates a bottleneck, effectively limiting their scalability. This paper presents a new paradigm for mapping underwater environments from ego-motion video, unifying 3D mapping systems that use machine learning to adapt to challenging conditions under water, combined with a modern approach for semantic segmentation of images. The method is exemplified on coral reefs in the northern Gulf of Aqaba, Red Sea, demonstrating high-precision 3D semantic mapping at unprecedented scale with significantly reduced required labor costs: a 100 m video transect acquired within 5 minutes of diving with a cheap consumer-grade camera can be fully automatically analyzed within 5 minutes. Our approach significantly scales up coral reef monitoring by taking a leap towards fully automatic analysis of video transects. The method democratizes coral reef transects by reducing the labor, equipment, logistics, and computing cost. This can help to inform conservation policies more efficiently. The underlying computational method of learning-based Structure-from-Motion has broad implications for fast low-cost mapping of underwater environments other than coral reefs.
翻訳日:2023-09-25 14:50:06 公開日:2023-09-22
# テキスト書き起こしモデルへの自動音声認識訓練のためのデータ拡張手法としてのdeepfake audio

Deepfake audio as a data augmentation technique for training automatic speech to text transcription models ( http://arxiv.org/abs/2309.12802v1 )

ライセンス: Link先を確認
Alexandre R. Ferreira, Cl\'audio E. C. Campelo(参考訳) 堅牢な結果を生成するトランスクリプトーモデルをトレーニングするには、大規模で多様なラベル付きデータセットが必要である。 このようなデータを必要な特性で見つけることは、特に英語ほど人気がない言語では難しい課題である。 さらに、このようなデータの作成には多大な労力と資金が必要です。 したがって、この問題を軽減する戦略は、データ拡張技術の利用である。 本研究では,deepfake音声に基づくデータ拡張にアプローチするフレームワークを提案する。 作成したフレームワークを検証するため,既存のディープフェイクおよび転写モデルを用いて実験を行った。 インド人(英語)が生成した音声クローンとデータセットが選択され、データセットに1つのアクセントが存在することが保証された。 その後、拡張データは様々なシナリオで音声からテキストモデルへの訓練に使用された。

To train transcriptor models that produce robust results, a large and diverse labeled dataset is required. Finding such data with the necessary characteristics is a challenging task, especially for languages less popular than English. Moreover, producing such data requires significant effort and often money. Therefore, a strategy to mitigate this problem is the use of data augmentation techniques. In this work, we propose a framework that approaches data augmentation based on deepfake audio. To validate the produced framework, experiments were conducted using existing deepfake and transcription models. A voice cloner and a dataset produced by Indians (in English) were selected, ensuring the presence of a single accent in the dataset. Subsequently, the augmented data was used to train speech to text models in various scenarios.
翻訳日:2023-09-25 14:49:37 公開日:2023-09-22
# DeepOPF-U: 複数のネットワークで交流最適潮流を解く統合ディープニューラルネットワーク

DeepOPF-U: A Unified Deep Neural Network to Solve AC Optimal Power Flow in Multiple Networks ( http://arxiv.org/abs/2309.12849v1 )

ライセンス: Link先を確認
Heng Liang, Changhong Zhao(参考訳) 最適電力フロー(OPF)を解決する従来の機械学習モデルは、主に所定の電力ネットワークのために訓練されており、様々なトポロジを持ち、プラグアンドプレイの分散エネルギーリソース(DER)が増加する今日の電力ネットワークに一般化性がない。 本稿では,1つの統合ディープニューラルネットワーク(DNN)を用いて,異なる電力ネットワークにおける交流(AC)OPF問題を解決するDeepOPF-Uを提案する。 具体的には,与えられた負荷とopf 解のベクトルに対して,異なるネットワークで異なる長さの弾性入力層と出力層を設計する。 提案手法は, 単一統一DNNを用いて, バス, ライン, ロード, および DER の多種多様な数に対応可能である。 IEEE 57/118/300バステストシステムと73から118バスのネットワークのシミュレーションにより、既存のDNNベースのソリューション手法と比較してDeepOPF-Uの性能改善が検証された。

The traditional machine learning models to solve optimal power flow (OPF) are mostly trained for a given power network and lack generalizability to today's power networks with varying topologies and growing plug-and-play distributed energy resources (DERs). In this paper, we propose DeepOPF-U, which uses one unified deep neural network (DNN) to solve alternating-current (AC) OPF problems in different power networks, including a set of power networks that is successively expanding. Specifically, we design elastic input and output layers for the vectors of given loads and OPF solutions with varying lengths in different networks. The proposed method, using a single unified DNN, can deal with different and growing numbers of buses, lines, loads, and DERs. Simulations of IEEE 57/118/300-bus test systems and a network growing from 73 to 118 buses verify the improved performance of DeepOPF-U compared to existing DNN-based solution methods.
翻訳日:2023-09-25 14:42:39 公開日:2023-09-22
# SRFNet:フレームとイベントの空間的信頼性を指向した融合による微細構造単眼深度推定

SRFNet: Monocular Depth Estimation with Fine-grained Structure via Spatial Reliability-oriented Fusion of Frames and Events ( http://arxiv.org/abs/2309.12842v1 )

ライセンス: Link先を確認
Tianbo Pan, Zidong Cao, Lin Wang(参考訳) 単眼深度推定は、ロボットナビゲーションや自動運転などのアプリケーションにとって重要な、カメラに対する距離を測定するための重要なタスクである。 従来のフレームベースの手法は、ダイナミックレンジの制限と動きのぼかしによる性能低下に悩まされる。 そのため、近年の研究では、新しいイベントカメラを活用して、フレームイベント機能融合によるフレームモダリティを補完またはガイドしている。 しかし、イベントストリームは空間的スパーシティを示し、特に光が変化している地域では、一部の領域は知覚できない。 したがって、直接融合法(例えばramnet)は、各モダリティの最も自信のある領域の寄与をしばしば無視する。 これにより、モダリティ融合過程における構造的曖昧性が生じ、深さ推定性能が低下する。 本稿では,昼夜ともに細粒度構造の深さを推定できる空間信頼度指向型核融合ネットワーク(srfnet)を提案する。 本手法は2つの重要な技術要素からなる。 まず,初期マスクとしてイベントやフレームの空間的先行を応用したアテンションベースインタラクティブフュージョン(AIF)モジュールを提案し,そのコンセンサス領域を学習し,モーダル間特徴フュージョンを導出する。 融合した機能は、フレームとイベントの特徴学習を強化するために送り返される。 一方、出力ヘッドを利用して融合マスクを生成し、そのマスクを反復的に更新してコンセンサス空間の事前学習を行う。 第二に, 融解した特徴とマスクに基づいて, きめ細粒度構造で深度を推定する信頼性指向深度微細化(RDR)モジュールを提案する。 本手法は合成および実世界のデータセット上での有効性を評価し,事前学習を行わなくても従来の手法,例えばramnet,特に夜間シーンよりも優れていることを示す。 プロジェクトのホームページはhttps://vlislab22.github.io/srfnet。

Monocular depth estimation is a crucial task to measure distance relative to a camera, which is important for applications, such as robot navigation and self-driving. Traditional frame-based methods suffer from performance drops due to the limited dynamic range and motion blur. Therefore, recent works leverage novel event cameras to complement or guide the frame modality via frame-event feature fusion. However, event streams exhibit spatial sparsity, leaving some areas unperceived, especially in regions with marginal light changes. Therefore, direct fusion methods, e.g., RAMNet, often ignore the contribution of the most confident regions of each modality. This leads to structural ambiguity in the modality fusion process, thus degrading the depth estimation performance. In this paper, we propose a novel Spatial Reliability-oriented Fusion Network (SRFNet), that can estimate depth with fine-grained structure at both daytime and nighttime. Our method consists of two key technical components. Firstly, we propose an attention-based interactive fusion (AIF) module that applies spatial priors of events and frames as the initial masks and learns the consensus regions to guide the inter-modal feature fusion. The fused feature are then fed back to enhance the frame and event feature learning. Meanwhile, it utilizes an output head to generate a fused mask, which is iteratively updated for learning consensual spatial priors. Secondly, we propose the Reliability-oriented Depth Refinement (RDR) module to estimate dense depth with the fine-grained structure based on the fused features and masks. We evaluate the effectiveness of our method on the synthetic and real-world datasets, which shows that, even without pretraining, our method outperforms the prior methods, e.g., RAMNet, especially in night scenes. Our project homepage: https://vlislab22.github.io/SRFNet.
翻訳日:2023-09-25 14:42:20 公開日:2023-09-22
# 強化学習による群衆シミュレーションのための報酬関数設計

Reward Function Design for Crowd Simulation via Reinforcement Learning ( http://arxiv.org/abs/2309.12841v1 )

ライセンス: Link先を確認
Ariel Kwiatkowski, Vicky Kalogeiton, Julien Pettr\'e, Marie-Paule Cani(参考訳) 群衆シミュレーションは、仮想世界を人間のような方法でナビゲートする自律的なアバターで配置できるため、ビデオゲームの設計において重要である。 強化学習は仮想群衆をシミュレートする大きな可能性を示したが、報酬関数の設計は効果的かつ効率的な結果を達成するために重要である。 本研究では,強化学習に基づく群衆シミュレーションのための報酬関数の設計について検討する。 我々は,特定の報酬関数を解析的性質に応じて妥当性を理論的に把握し,エネルギー効率を指標として,様々なシナリオを用いて経験的に評価する。 実験の結果, エネルギー使用量を直接最小化することは, 適切なスケールの誘導電位と組み合わせれば可能であり, シミュレーションされた群衆の行動に異なる報酬成分が与える影響を研究することができることがわかった。 以上の知見は,新しい群集シミュレーション手法の開発に役立ち,人間型ナビゲーションのより広範な研究に寄与する。

Crowd simulation is important for video-games design, since it enables to populate virtual worlds with autonomous avatars that navigate in a human-like manner. Reinforcement learning has shown great potential in simulating virtual crowds, but the design of the reward function is critical to achieving effective and efficient results. In this work, we explore the design of reward functions for reinforcement learning-based crowd simulation. We provide theoretical insights on the validity of certain reward functions according to their analytical properties, and evaluate them empirically using a range of scenarios, using the energy efficiency as the metric. Our experiments show that directly minimizing the energy usage is a viable strategy as long as it is paired with an appropriately scaled guiding potential, and enable us to study the impact of the different reward components on the behavior of the simulated crowd. Our findings can inform the development of new crowd simulation techniques, and contribute to the wider study of human-like navigation.
翻訳日:2023-09-25 14:41:48 公開日:2023-09-22
# 一般応答型に対するモデルベース因果的特徴選択

Model-based causal feature selection for general response types ( http://arxiv.org/abs/2309.12833v1 )

ライセンス: Link先を確認
Lucas Kook, Sorawit Saengkyongam, Anton Rask Lundborg, Torsten Hothorn, Jonas Peters(参考訳) 観測データから因果関係を発見することは、基本的には難しい課題である。 一部のアプリケーションでは、基礎となる因果構造全体を学習するのではなく、与えられた応答変数の因果的特徴を学習することが十分である。 Invariant causal prediction (ICP, Peters et al., 2016) は、異種設定のデータを必要とする因果的特徴選択の手法である。 ICPは、その直接的な原因から応答を生成するメカニズムがすべての設定で同じであると仮定し、この不変性を利用して因果的特徴のサブセットを出力する。 ICPのフレームワークは、一般的な付加雑音モデルや条件付き独立性テストを用いた非パラメトリック設定にまで拡張されている。 しかし、非パラメトリックな条件付き独立性テストは、しばしば低電力(または悪いタイプiのエラー制御)に苦しめられ、前述のパラメトリックモデルは、応答を連続的なスケールで測定するのではなく、カテゴリやカウントを反映するアプリケーションに適している。 このギャップを埋めるために、我々は変換モデル(TRAM)の文脈でICPを開発し、連続的、分類的、カウントタイプ、および非形式的に検閲された応答を可能にする(一般に、これらのモデルクラスは外生異種性がない場合に識別可能でない)。 本稿では,一様漸近レベル保証を満たす環境とスコア残差の条件共分散に基づいて,共変量のサブセットの不変性をテストするTRAM-GCMを提案する。 線形シフトTRAMの特別な場合については、ウォルド統計に基づくさらなる不変性試験TRAM-Waldを提案する。 提案手法をオープンソース r パッケージ "tramicp" に実装し,適切なモデル仕様の下で条件付き独立性テストに基づく非パラメトリック icp よりも高いパワーを実証的に得ることをシミュレーションで示す。

Discovering causal relationships from observational data is a fundamental yet challenging task. In some applications, it may suffice to learn the causal features of a given response variable, instead of learning the entire underlying causal structure. Invariant causal prediction (ICP, Peters et al., 2016) is a method for causal feature selection which requires data from heterogeneous settings. ICP assumes that the mechanism for generating the response from its direct causes is the same in all settings and exploits this invariance to output a subset of the causal features. The framework of ICP has been extended to general additive noise models and to nonparametric settings using conditional independence testing. However, nonparametric conditional independence testing often suffers from low power (or poor type I error control) and the aforementioned parametric models are not suitable for applications in which the response is not measured on a continuous scale, but rather reflects categories or counts. To bridge this gap, we develop ICP in the context of transformation models (TRAMs), allowing for continuous, categorical, count-type, and uninformatively censored responses (we show that, in general, these model classes do not allow for identifiability when there is no exogenous heterogeneity). We propose TRAM-GCM, a test for invariance of a subset of covariates, based on the expected conditional covariance between environments and score residuals which satisfies uniform asymptotic level guarantees. For the special case of linear shift TRAMs, we propose an additional invariance test, TRAM-Wald, based on the Wald statistic. We implement both proposed methods in the open-source R package "tramicp" and show in simulations that under the correct model specification, our approach empirically yields higher power than nonparametric ICP based on conditional independence testing.
翻訳日:2023-09-25 14:41:33 公開日:2023-09-22
# AxOCS:構成スーパーサンプリングを用いたFPGAベースの近似演算子のスケーリング

AxOCS: Scaling FPGA-based Approximate Operators using Configuration Supersampling ( http://arxiv.org/abs/2309.12830v1 )

ライセンス: Link先を確認
Siva Satyendra Sahoo and Salim Ullah and Soumyo Bhattacharjee and Akash Kumar(参考訳) アプリケーションドメインにおけるAIとMLベースの処理の利用が増加し、特にリソース制約のある組み込みシステムにおいて、低コストのML実装の必要性が高まっている。 この目的のために、近似コンピューティングは、組み込み機械学習を実装するための解決策として、パワー、パフォーマンス、エリア(PPA)、行動精度(BEHAV)のトレードオフを探求するアプローチである。 MLにおけるMAC操作の優位性のため、プラットフォーム固有の近似演算子を設計することは、近似計算における主要な研究問題の1つである。 近年,近似演算子の実装にAI/MLに基づく設計空間探索技術の利用が増加している。 しかしながら、これらのアプローチのほとんどは、関連する設計決定の集合に対するPPAとBEHAVの影響を予測するためのMLベースの代理関数の使用に限られている。 このアプローチはMLメソッドの回帰機能を活用するが、MLのより高度なアプローチは利用しない。 そこで本稿では,MLに基づくスーパーサンプリングによる近似演算子の設計手法であるAxOCSを提案する。 具体的には、異なるビット幅の演算子間でのPPAとBEHAVの相関を利用して、より大きなビット幅演算子を生成する方法を提案する。 提案手法では,より小さなビット幅演算子の比較的小さな設計空間をトラバースし,それに関連する設計-PPA-BEHAV関係を用いて,大規模演算子に対するメタヒューリスティックスに基づく最適化の初期解を生成する。 fpga最適化近似演算子に対するaxocsの実験的評価により,提案手法は8x8符号付き近似乗算器の多目的最適化のための品質保証ハイパーボリュームを大幅に改善することを示した。

The rising usage of AI and ML-based processing across application domains has exacerbated the need for low-cost ML implementation, specifically for resource-constrained embedded systems. To this end, approximate computing, an approach that explores the power, performance, area (PPA), and behavioral accuracy (BEHAV) trade-offs, has emerged as a possible solution for implementing embedded machine learning. Due to the predominance of MAC operations in ML, designing platform-specific approximate arithmetic operators forms one of the major research problems in approximate computing. Recently there has been a rising usage of AI/ML-based design space exploration techniques for implementing approximate operators. However, most of these approaches are limited to using ML-based surrogate functions for predicting the PPA and BEHAV impact of a set of related design decisions. While this approach leverages the regression capabilities of ML methods, it does not exploit the more advanced approaches in ML. To this end, we propose AxOCS, a methodology for designing approximate arithmetic operators through ML-based supersampling. Specifically, we present a method to leverage the correlation of PPA and BEHAV metrics across operators of varying bit-widths for generating larger bit-width operators. The proposed approach involves traversing the relatively smaller design space of smaller bit-width operators and employing its associated Design-PPA-BEHAV relationship to generate initial solutions for metaheuristics-based optimization for larger operators. The experimental evaluation of AxOCS for FPGA-optimized approximate operators shows that the proposed approach significantly improves the quality-resulting hypervolume for multi-objective optimization-of 8x8 signed approximate multipliers.
翻訳日:2023-09-25 14:40:57 公開日:2023-09-22
# 合成ブースト:心エコー図における視覚言語セグメンテーション強化のための合成データの利用

Synthetic Boost: Leveraging Synthetic Data for Enhanced Vision-Language Segmentation in Echocardiography ( http://arxiv.org/abs/2309.12829v1 )

ライセンス: Link先を確認
Rabin Adhikari, Manish Dhakal, Safal Thapaliya, Kanchan Poudel, Prasiddha Bhandari, Bishesh Khanal(参考訳) 心血管疾患(CVD)の心エコーによる評価には,正確なセグメンテーションが不可欠である。 しかし、ソノグラフィーの多様性と超音波画像の固有の課題は、正確なセグメンテーションを妨げている。 VLSM(Vision-Language Segmentation Models)は、画像とテキストのモダリティの合同表現を活用することで、リッチなコンテキスト情報を組み込んで、正確で説明可能なセグメンテーションを支援する。 しかし, 心エコー図におけるデータ不足は, VLSMの訓練を妨げている。 本研究では,セマンティック拡散モデル(SDM)の合成データセットを用いて心エコー区分けのためのVLSMを強化する。 心エコー画像,セグメンテーションマスク,およびそれらのメタデータから自動的に抽出される,いくつかの属性から派生した7種類の言語プロンプトを用いて,人気のVLSM (CLIPSeg と CRIS) の評価を行った。 実画像の微調整前に,SDM合成画像上でのVLSMの事前学習において,測定値の改善と収束の高速化が得られた。 コード、設定、プロンプトはhttps://github.com/naamiinepal/synthetic-boost.comで入手できる。

Accurate segmentation is essential for echocardiography-based assessment of cardiovascular diseases (CVDs). However, the variability among sonographers and the inherent challenges of ultrasound images hinder precise segmentation. By leveraging the joint representation of image and text modalities, Vision-Language Segmentation Models (VLSMs) can incorporate rich contextual information, potentially aiding in accurate and explainable segmentation. However, the lack of readily available data in echocardiography hampers the training of VLSMs. In this study, we explore using synthetic datasets from Semantic Diffusion Models (SDMs) to enhance VLSMs for echocardiography segmentation. We evaluate results for two popular VLSMs (CLIPSeg and CRIS) using seven different kinds of language prompts derived from several attributes, automatically extracted from echocardiography images, segmentation masks, and their metadata. Our results show improved metrics and faster convergence when pretraining VLSMs on SDM-generated synthetic images before finetuning on real images. The code, configs, and prompts are available at https://github.com/naamiinepal/synthetic-boost.
翻訳日:2023-09-25 14:40:31 公開日:2023-09-22
# 不均質駆動場によるランダム横フィールドイジング鎖の欠陥生成の低減

Reducing defect production in random transverse-field Ising chains by inhomogeneous driving fields ( http://arxiv.org/abs/2309.12827v1 )

ライセンス: Link先を確認
R. Juh\'asz, G. Ro\'osz(参考訳) 横磁場イジングモデルでは、カップリングの障害は臨界エネルギーギャップの劇的な減少をもたらし、従ってシステムが量子臨界点を通り抜けるときに生じる欠陥の密度の非好ましくない、非代数的スケーリングを引き起こす。 キブル・ズレーク理論と数値計算を応用し, 1次元モデルにおいて, 結合障害と不均質な駆動場とのバランスをとることで, 欠陥密度とアニーリング時間とのスケーリングを代数的にできることを示した。 ゼロでのカップリング分布の尾部に依存すると、バランスは完全であり、等質系のよく知られた逆二乗法則、あるいは部分的法則は依然として代数的減少をもたらすが、より小さいユニバーサル指数を持つ。 また, システムの量子臨界点までゆっくりと冷却されるモデルにおいて, 環境温度のクエンチ中の欠陥生成について検討した。 我々のスケーリングと数値的な結果によると、バランス障害は再び、欠陥密度の代数的時間的減少に繋がる。

In transverse-field Ising models, disorder in the couplings gives rise to a drastic reduction of the critical energy gap and, accordingly, to an unfavorable, slower-than-algebraic scaling of the density of defects produced when the system is driven through its quantum critical point. By applying Kibble-Zurek theory and numerical calculations, we demonstrate in the one-dimensional model that the scaling of defect density with annealing time can be made algebraic by balancing the coupling disorder with suitably chosen inhomogeneous driving fields. Depending on the tail of the coupling distribution at zero, balancing can be either perfect, leading to the well-known inverse-square law of the homogeneous system, or partial, still resulting in an algebraic decrease but with a smaller, non-universal exponent. We also study defect production during an environment-temperature quench of the open variant of the model in which the system is slowly cooled down to its quantum critical point. According to our scaling and numerical results, balanced disorder leads again to an algebraic temporal decrease of the defect density.
翻訳日:2023-09-25 14:40:11 公開日:2023-09-22
# スパースハミルトンの分解に基づくポアソン方程式の変分量子アルゴリズム

Variational quantum algorithms for Poisson equations based on the decomposition of sparse Hamiltonians ( http://arxiv.org/abs/2309.12826v1 )

ライセンス: Link先を確認
Hui-Min Li, Zhi-Xi Wang, Shao-Ming Fei(参考訳) ポアソン方程式の解法は、一般に、離散化されたポアソン方程式から a_{ij}$, $i,j=1,2, ...,n$ の成分の係数行列を持つ線型系を解くことに還元される。 変分量子アルゴリズムは離散化されたポアソン方程式を解くために有望なアルゴリズムであるが、損失関数を効率的に評価するためには、一般に$A$を$O[\text{poly}(\text{log}_2n)]$単純作用素の和に分解する必要がある。 A$ と $2\text{log}_2n+1$ のテンソル積分解は、以前の研究で検討されている。 本稿では、スパースハミルトニアンの分解に基づいて、項数を大幅に削減する。 まず、損失関数を演算子 $\sigma_x\otimes A$ with $\sigma_x$ で記述し、標準パウリ演算子を示す。 次に、異なる境界条件を持つ1次元ポアソン方程式とディリクレ境界条件を持つd$-次元ポアソン方程式に対して、それぞれ 7 と $(4d+1)$ hermitian, one-sparse, and self-inverse operator の和に $\sigma_x\otimes a$ を分解する。 損失関数を効率的に評価するために量子回路を明示的に設計する。 分解法と量子回路の設計は、$a_{i,i+c}=a_{c}$ for $c=0,1,\cdots,n-1$および$i=0,\cdots,n-1-c$を満たすエルミート行列とスパース係数行列を持つ線形系にも容易に拡張できる。

Solving a Poisson equation is generally reduced to solving a linear system with a coefficient matrix $A$ of entries $a_{ij}$, $i,j=1,2,...,n$, from the discretized Poisson equation. Although the variational quantum algorithms are promising algorithms to solve the discretized Poisson equation, they generally require that $A$ be decomposed into a sum of $O[\text{poly}(\text{log}_2n)]$ simple operators in order to evaluate efficiently the loss function. A tensor product decomposition of $A$ with $2\text{log}_2n+1$ terms has been explored in previous works. In this paper, based on the decomposition of sparse Hamiltonians we greatly reduce the number of terms. We first write the loss function in terms of the operator $\sigma_x\otimes A$ with $\sigma_x$ denoting the standard Pauli operator. Then for the one-dimensional Poisson equations with different boundary conditions and for the $d$-dimensional Poisson equations with Dirichlet boundary conditions, we decompose $\sigma_x\otimes A$ into a sum of at most 7 and $(4d+1)$ Hermitian, one-sparse, and self-inverse operators, respectively. We design explicitly the quantum circuits to evaluate efficiently the loss function. The decomposition method and the design of quantum circuits can also be easily extended to linear systems with Hermitian and sparse coefficient matrices satisfying $a_{i,i+c}=a_{c}$ for $c=0,1,\cdots,n-1$ and $i=0,\cdots,n-1-c$.
翻訳日:2023-09-25 14:39:51 公開日:2023-09-22
# OmniDrones: ドローン制御における強化学習のための効率的で柔軟なプラットフォーム

OmniDrones: An Efficient and Flexible Platform for Reinforcement Learning in Drone Control ( http://arxiv.org/abs/2309.12825v1 )

ライセンス: Link先を確認
Botian Xu, Feng Gao, Chao Yu, Ruize Zhang, Yi Wu, Yu Wang(参考訳) 本研究では,NvidiaのOmniverse Isaac Simをベースとした,ドローン制御の強化学習に適した,効率的で柔軟なプラットフォームであるOmniDronesを紹介する。 ボトムアップ設計アプローチを採用しており、GPU並列化シミュレーション上に、さまざまなアプリケーションシナリオを設計し、実験することができる。 また、シングルドローンホバリングから過度に作動するシステムトラッキングまで、さまざまなベンチマークタスクも提供する。 まとめると、我々は、ドローン学習のための幅広いツールセットを備えた、オープンソースのドローンシミュレーションプラットフォームを提案する。 4つのドローンモデル、5つのセンサーモード、4つのコントロールモード、10以上のベンチマークタスク、そして広く使われているRLベースラインの選択が含まれる。 OmniDronesの能力を実証し、今後の研究を支援するため、これらのベンチマークタスクの予備的な結果も提供する。 このプラットフォームは、実用的なドローンシステムにRLを適用するためのさらなる研究を促進することを願っている。

In this work, we introduce OmniDrones, an efficient and flexible platform tailored for reinforcement learning in drone control, built on Nvidia's Omniverse Isaac Sim. It employs a bottom-up design approach that allows users to easily design and experiment with various application scenarios on top of GPU-parallelized simulations. It also offers a range of benchmark tasks, presenting challenges ranging from single-drone hovering to over-actuated system tracking. In summary, we propose an open-sourced drone simulation platform, equipped with an extensive suite of tools for drone learning. It includes 4 drone models, 5 sensor modalities, 4 control modes, over 10 benchmark tasks, and a selection of widely used RL baselines. To showcase the capabilities of OmniDrones and to support future research, we also provide preliminary results on these benchmark tasks. We hope this platform will encourage further studies on applying RL to practical drone systems.
翻訳日:2023-09-25 14:39:14 公開日:2023-09-22
# ニューラル予測とアライメントのスペクトル理論

A Spectral Theory of Neural Prediction and Alignment ( http://arxiv.org/abs/2309.12821v1 )

ライセンス: Link先を確認
Abdulkadir Canatar, Jenelle Feather, Albert Wakhloo, SueYeon Chung(参考訳) ニューラルネットワークの表現は、ニューラルネットワーク応答と生体システムからの測定値の間の回帰を行うことで、生体システムの表現と比較されることが多い。 最先端のディープニューラルネットの多くは、類似のニューラル予測を生成するが、ニューラル応答の予測に等しく優れたモデル間を区別する方法はまだ不明である。 この知見を得るためには,回帰からの一般化誤差とモデル活性化のスペクトルバイアス,モデルの学習可能な部分空間への神経応答のアライメントを関連づけた,最近の理論的枠組みを用いる。 この理論をモデル活性化と神経応答の間の回帰の場合に拡張し、誤差埋め込み幾何を記述する幾何学的性質を定義する。 我々は、視覚皮質活動を予測するディープニューラルネットワークを多数テストし、回帰によって測定された低ニューラルネットワーク予測誤差をもたらす複数のタイプのジオメトリーが存在することを示す。 この研究は、表現的メトリクスを慎重に分解することで、モデルがどのように神経活動を取り込むかの解釈可能性を提供し、神経活動のモデルを改善する方法を示している。

The representations of neural networks are often compared to those of biological systems by performing regression between the neural network responses and those measured from biological systems. Many different state-of-the-art deep neural networks yield similar neural predictions, but it remains unclear how to differentiate among models that perform equally well at predicting neural responses. To gain insight into this, we use a recent theoretical framework that relates the generalization error from regression to the spectral bias of the model activations and the alignment of the neural responses onto the learnable subspace of the model. We extend this theory to the case of regression between model activations and neural responses, and define geometrical properties describing the error embedding geometry. We test a large number of deep neural networks that predict visual cortical activity and show that there are multiple types of geometries that result in low neural prediction error as measured via regression. The work demonstrates that carefully decomposing representational metrics can provide interpretability of how models are capturing neural activity and points the way towards improved models of neural activity.
翻訳日:2023-09-25 14:38:58 公開日:2023-09-22
# CHSHテストは量子コンテキストを観測するのに十分である

The CHSH Test is Sufficient to Observe Quantum Contextuality ( http://arxiv.org/abs/2309.12868v1 )

ライセンス: Link先を確認
Firat Diker(参考訳) 本研究では,chshと呼ばれる有名なベルテストが,非局所相関だけでなく文脈相関も示していることを示す。 この目的のために、KCBS型(非)コンテキスト性を示すクォート状態(3レベル量子状態)に対応する2量子状態の対称部分群について検討する。 その後、CHSHテストを適用し、このテストに拘束される新しい非コンテキスト性を見つける。 このことは、CHSHの不等式は文脈性テストとして使用する限界を変更することで変更可能であることを示している。 また、必要な測定数は4つであり、kcbsテストの計測数より少ない(5つ)。

In this work, we show that the well-known Bell test called Clauser-Horne-Shimony-Holt (CHSH) does not only exhibit non-local correlations but also contextual ones. For this purpose, we investigate the symmetric subgroup of two-qubit states corresponding to qutrit states (three-level quantum states), which exhibit the KCBS-type (non-)contextuality. Later, we apply the CHSH test to them and find a new non-contextuality bound for this test. This shows us that the CHSH inequality can be modified by changing the limit to use it as a contextuality test. Also, the number of measurements required is four, less than the number of measurements in the KCBS test (That is five).
翻訳日:2023-09-25 14:33:10 公開日:2023-09-22
# 高精度・高速圧縮ビデオキャプション

Accurate and Fast Compressed Video Captioning ( http://arxiv.org/abs/2309.12867v1 )

ライセンス: Link先を確認
Yaojie Shen, Xin Gu, Kai Xu, Heng Fan, Longyin Wen, Libo Zhang(参考訳) 既存のビデオキャプションアプローチでは、デコードされたビデオから最初にビデオフレームをサンプリングし、その後のプロセス(例えば特徴抽出やキャプションモデル学習)を実行する必要がある。 このパイプラインでは、手動のフレームサンプリングはビデオのキー情報を無視し、性能を低下させる。 さらに、サンプルフレーム内の冗長な情報は、ビデオキャプションの推論において、低効率をもたらす可能性がある。 これに対処するために,圧縮領域の異なる視点からビデオキャプションを研究し,既存のパイプラインに対して多面的なアドバンテージをもたらす。 1) 復号映像の原画像と比較すると,iフレーム,動きベクトル,残差からなる圧縮映像は,高度に識別可能であり,特殊なモデル設計により,手作業でサンプリングすることなく映像全体を学習することができる。 2)キャプションモデルは,より小さく,冗長な情報が処理されるので,推論においてより効率的である。 本稿では,ビデオキャプションの圧縮領域において,ビデオキャプションの圧縮領域から学習できる簡易かつ効果的なエンドツーエンド変換器を提案する。 簡単な設計であっても,既存手法の約2倍高速に動作しながら,異なるベンチマーク上で最先端のパフォーマンスを実現することができることを示す。 コードはhttps://github.com/acherstyx/CoCapで入手できる。

Existing video captioning approaches typically require to first sample video frames from a decoded video and then conduct a subsequent process (e.g., feature extraction and/or captioning model learning). In this pipeline, manual frame sampling may ignore key information in videos and thus degrade performance. Additionally, redundant information in the sampled frames may result in low efficiency in the inference of video captioning. Addressing this, we study video captioning from a different perspective in compressed domain, which brings multi-fold advantages over the existing pipeline: 1) Compared to raw images from the decoded video, the compressed video, consisting of I-frames, motion vectors and residuals, is highly distinguishable, which allows us to leverage the entire video for learning without manual sampling through a specialized model design; 2) The captioning model is more efficient in inference as smaller and less redundant information is processed. We propose a simple yet effective end-to-end transformer in the compressed domain for video captioning that enables learning from the compressed video for captioning. We show that even with a simple design, our method can achieve state-of-the-art performance on different benchmarks while running almost 2x faster than existing approaches. Code is available at https://github.com/acherstyx/CoCap.
翻訳日:2023-09-25 14:32:57 公開日:2023-09-22
# ハイパースペクトル画像分類のための単一方向調整によるブリジングセンサギャップ

Bridging Sensor Gaps via Single-Direction Tuning for Hyperspectral Image Classification ( http://arxiv.org/abs/2309.12865v1 )

ライセンス: Link先を確認
Xizhe Xue and Haokui Zhang and Ying Li and Liuwei Wan and Zongwen Bai and Mike Zheng Shou(参考訳) 近年,一部の研究者がhsi分類におけるvitsの利用を探求し,顕著な結果を得た。 しかし、ViTモデルのトレーニングにはかなりの数のトレーニングサンプルが必要であるが、ハイパースペクトルデータは高いアノテーションコストのため、通常は比較的少数のトレーニングサンプルを持っている。 この矛盾は事実上解決されていない。 本稿では,橋梁として機能する単一方向チューニング(SDT)戦略を提案し,既存のラベル付きHSIデータセットをRGBデータセットでも活用し,限られたサンプルを持つ新しいHSIデータセットの性能を向上させる。 提案するsdtはプロンプトチューニングの考え方を継承しており、新しいタスクに適応するために最小限の変更で事前学習されたモデルを再利用することを目的としている。 しかし、即時チューニングとは異なり、SDTはHSIの特性に対応するためにカスタム設計されている。 提案したSDTは,並列アーキテクチャ,非同期コールドホット勾配更新戦略,一方向インタラクションを利用する。 異種、あるいはクロスモーダルなデータセットのトレーニングに由来する強力な表現学習能力をフル活用することを目的としている。 また,新しいトリプレット構造トランス(tri-former)を導入し,スペクトル注意と空間注意モジュールを並列に結合してトークン混合成分を構築し,計算コストを低減し,3次元畳み込み型チャネルミキサモジュールを統合して安定性を高め,構造情報を保持する。 異なるセンサによってキャプチャされた3つの代表的HSIデータセットの比較実験により、提案したTri-Formerは、いくつかの最先端手法と比較して、より良い性能を発揮することが示された。 ホモロジカル,ヘテロジロジカル,クロスモーダルチューニング実験により,提案するsdtの有効性が検証された。

Recently, some researchers started exploring the use of ViTs in tackling HSI classification and achieved remarkable results. However, the training of ViT models requires a considerable number of training samples, while hyperspectral data, due to its high annotation costs, typically has a relatively small number of training samples. This contradiction has not been effectively addressed. In this paper, aiming to solve this problem, we propose the single-direction tuning (SDT) strategy, which serves as a bridge, allowing us to leverage existing labeled HSI datasets even RGB datasets to enhance the performance on new HSI datasets with limited samples. The proposed SDT inherits the idea of prompt tuning, aiming to reuse pre-trained models with minimal modifications for adaptation to new tasks. But unlike prompt tuning, SDT is custom-designed to accommodate the characteristics of HSIs. The proposed SDT utilizes a parallel architecture, an asynchronous cold-hot gradient update strategy, and unidirectional interaction. It aims to fully harness the potent representation learning capabilities derived from training on heterologous, even cross-modal datasets. In addition, we also introduce a novel Triplet-structured transformer (Tri-Former), where spectral attention and spatial attention modules are merged in parallel to construct the token mixing component for reducing computation cost and a 3D convolution-based channel mixer module is integrated to enhance stability and keep structure information. Comparison experiments conducted on three representative HSI datasets captured by different sensors demonstrate the proposed Tri-Former achieves better performance compared to several state-of-the-art methods. Homologous, heterologous and cross-modal tuning experiments verified the effectiveness of the proposed SDT.
翻訳日:2023-09-25 14:32:39 公開日:2023-09-22
# アラビア語機械翻訳のためのドメイン適応:財務文書の場合

Domain Adaptation for Arabic Machine Translation: The Case of Financial Texts ( http://arxiv.org/abs/2309.12863v1 )

ライセンス: Link先を確認
Emad A. Alghamdi, Jezia Zakraoui, Fares A. Abanmy(参考訳) ニューラルマシン翻訳(NMT)は,大規模コーパスの訓練において,優れた性能を示した。 しかし、汎用NMTシステムはドメイン外翻訳の性能が劣っている。 この問題を軽減するために、遺伝的nmtシステムよりも優れた翻訳品質をもたらすいくつかのドメイン適応法が最近提案されている。 英語や他のヨーロッパ諸言語ではnmtの進歩が続いているが、アラビア語の領域適応は文献にはほとんど注目されていない。 そこで本研究では,アラビア語 MT (AMT) に対するドメイン固有適応の有効性について,未調査領域である金融ニュース記事を用いて検討する。 そこで我々は,異なるドメイン適応手法のベンチマークを行うために,金融分野においてアラビア英語(AR-EN)翻訳のための並列コーパスを慎重に開発した。 その後、データセット上でChatGPT-3.5 Turboを含む、事前訓練されたNMTおよびLarge Languageモデルを微調整した。 これらの結果から,ドメイン内AR-ENセグメントの整合性は良好であった。 ChatGPT翻訳の品質は, 自動評価および人的評価に基づく他のモデルよりも優れていた。 私たちの知る限りでは、これはChatGPTを金融ドメイン移行学習に向けて微調整する最初の試みです。 ドメイン翻訳の研究に貢献するために、データセットと微調整モデルをhttps://huggingface.co/asas-ai/で公開しました。

Neural machine translation (NMT) has shown impressive performance when trained on large-scale corpora. However, generic NMT systems have demonstrated poor performance on out-of-domain translation. To mitigate this issue, several domain adaptation methods have recently been proposed which often lead to better translation quality than genetic NMT systems. While there has been some continuous progress in NMT for English and other European languages, domain adaption in Arabic has received little attention in the literature. The current study, therefore, aims to explore the effectiveness of domain-specific adaptation for Arabic MT (AMT), in yet unexplored domain, financial news articles. To this end, we developed carefully a parallel corpus for Arabic-English (AR- EN) translation in the financial domain for benchmarking different domain adaptation methods. We then fine-tuned several pre-trained NMT and Large Language models including ChatGPT-3.5 Turbo on our dataset. The results showed that the fine-tuning is successful using just a few well-aligned in-domain AR-EN segments. The quality of ChatGPT translation was superior than other models based on automatic and human evaluations. To the best of our knowledge, this is the first work on fine-tuning ChatGPT towards financial domain transfer learning. To contribute to research in domain translation, we made our datasets and fine-tuned models available at https://huggingface.co/asas-ai/.
翻訳日:2023-09-25 14:32:08 公開日:2023-09-22
# Associative Transformerはスパース表現学習者

Associative Transformer Is A Sparse Representation Learner ( http://arxiv.org/abs/2309.12862v1 )

ライセンス: Link先を確認
Yuwei Sun, Hideya Ochiai, Zhirong Wu, Stephen Lin, Ryota Kanai(参考訳) 従来のトランスフォーマーモデルのモノリシックなペアワイズアテンション機構から生まれ、生物学的原理とより密接に一致する疎結合な相互作用を活用することへの関心が高まっている。 セットトランスやパーセプタを含むアプローチでは、潜在空間とクロスアテンションが統合され、限られた容量で注意のボトルネックとなる。 近年のグローバルワークスペース理論と連想記憶の神経科学研究に基づいて,AiT(Associative Transformer)を提案する。 AiTは、共有ワークスペースにおけるボトルネックの注意とホップフィールドネットワークの連想メモリ内のアトラクタを導くために、両方の先行として機能する低ランクな明示メモリを誘導する。 エンドツーエンドの合同トレーニングを通じて、これらの優先順位はモジュールの特殊化を自然に発展させ、それぞれが注意のボトルネックを形成するために異なる帰納的バイアスをもたらします。 ボトルネックは、情報をメモリに書き込む際の入力間の競合を促進する。 AiTはスパース表現学習者であり、入力量や次元に複雑性不変なボトルネックを通じて、異なる事前学習を行う。 AiTは、様々な視覚タスクにおいて、Set Transformer、Vision Transformer、Coordinationなどのメソッドよりも優れていることを示す。

Emerging from the monolithic pairwise attention mechanism in conventional Transformer models, there is a growing interest in leveraging sparse interactions that align more closely with biological principles. Approaches including the Set Transformer and the Perceiver employ cross-attention consolidated with a latent space that forms an attention bottleneck with limited capacity. Building upon recent neuroscience studies of Global Workspace Theory and associative memory, we propose the Associative Transformer (AiT). AiT induces low-rank explicit memory that serves as both priors to guide bottleneck attention in the shared workspace and attractors within associative memory of a Hopfield network. Through joint end-to-end training, these priors naturally develop module specialization, each contributing a distinct inductive bias to form attention bottlenecks. A bottleneck can foster competition among inputs for writing information into the memory. We show that AiT is a sparse representation learner, learning distinct priors through the bottlenecks that are complexity-invariant to input quantities and dimensions. AiT demonstrates its superiority over methods such as the Set Transformer, Vision Transformer, and Coordination in various vision tasks.
翻訳日:2023-09-25 14:31:49 公開日:2023-09-22
# 逐次勧告のための拡散増強

Diffusion Augmentation for Sequential Recommendation ( http://arxiv.org/abs/2309.12858v1 )

ライセンス: Link先を確認
Qidong Liu, Fan Yan, Xiangyu Zhao, Zhaocheng Du, Huifeng Guo, Ruiming Tang and Feng Tian(参考訳) シーケンシャルレコメンデーション(SRS)は近年,ユーザの過去のインタラクションに基づいて次の項目を推奨することを目的として,多くのアプリケーションにおいて技術基盤となっている。 しかし、逐次レコメンデーションは、レコメンデーションシステムで広く存在するデータスパーシティの問題に直面することが多い。 加えて、ほとんどのユーザーはいくつかのアイテムしか操作しないが、既存のSRSモデルはこれらのユーザーを過小評価することが多い。 このような問題は、ロングテールユーザー問題という名前で解決される。 データ拡張は、これら2つの問題を緩和するための明確な方法であるが、しばしば製造されたトレーニング戦略を必要とする。 これらの問題に対処するために、より高品質な生成のためのDiffuASR(Diffusion Augmentation for Sequential Recommendation)を提案する。 DiffuASRによる強化データセットは、複雑なトレーニング手順なしで、シーケンシャルレコメンデーションモデルを直接トレーニングするために使用することができる。 拡散モデルの生成能力を最大限に活用するために,まず画像とシーケンス間のギャップを埋める拡散に基づく擬似シーケンス生成フレームワークを提案する。 次に、拡散雑音予測モデルu-netを離散シーケンス生成タスクに適応するように順次u-netを設計する。 最後に,生成配列と起源配列の選好を同一化するための2つのガイド戦略を考案する。 提案したDiffuASRを検証するために、3つのシーケンシャルレコメンデーションモデルを用いて3つの実世界のデータセットについて広範な実験を行った。 実験結果はDiffuASRの有効性を示した。 私たちが知る限りでは、DiffuASRは拡散モデルを推奨に導入するパイオニアの1人です。

Sequential recommendation (SRS) has become the technical foundation in many applications recently, which aims to recommend the next item based on the user's historical interactions. However, sequential recommendation often faces the problem of data sparsity, which widely exists in recommender systems. Besides, most users only interact with a few items, but existing SRS models often underperform these users. Such a problem, named the long-tail user problem, is still to be resolved. Data augmentation is a distinct way to alleviate these two problems, but they often need fabricated training strategies or are hindered by poor-quality generated interactions. To address these problems, we propose a Diffusion Augmentation for Sequential Recommendation (DiffuASR) for a higher quality generation. The augmented dataset by DiffuASR can be used to train the sequential recommendation models directly, free from complex training procedures. To make the best of the generation ability of the diffusion model, we first propose a diffusion-based pseudo sequence generation framework to fill the gap between image and sequence generation. Then, a sequential U-Net is designed to adapt the diffusion noise prediction model U-Net to the discrete sequence generation task. At last, we develop two guide strategies to assimilate the preference between generated and origin sequences. To validate the proposed DiffuASR, we conduct extensive experiments on three real-world datasets with three sequential recommendation models. The experimental results illustrate the effectiveness of DiffuASR. As far as we know, DiffuASR is one pioneer that introduce the diffusion model to the recommendation.
翻訳日:2023-09-25 14:31:26 公開日:2023-09-22
# 実証からのロバスト学習による適合食品のロボットハンドリング

Robotic Handling of Compliant Food Objects by Robust Learning from Demonstration ( http://arxiv.org/abs/2309.12856v1 )

ライセンス: Link先を確認
Ekrem Misimi, Alexander Olofsson, Aleksander Eilertsen, Elling Ruud {\O}ye, John Reidar Mathiassen(参考訳) 共役・変形可能な食品原料のロボットハンドリングは、高い生物学的変異、複雑な幾何学的3d形状、機械的構造とテクスチャを特徴とし、現在、海洋空間、農業、食品産業において大きな需要を集めている。 これらの産業における多くのタスクは、作業の煩雑で退屈な性質のため、実行のバラエティが高く、結果も様々である人手作業によって行われる。 多くの複雑な処理タスクに対するロボット自動化の導入は、現在のロボット学習ポリシーのために困難である。 熟練した演算子を含むより一貫した学習方針が望まれる。 本稿では,無矛盾なデモを提示する場合のロボット学習の問題に対処する。 そこで本研究では,食品に適合する物体のロボット把持のための実演学習(lfd)に基づく頑健な学習方針を提案する。 提案手法では,RGB-D画像と触覚データを組み合わせることで,グリップ,グリップフィンガー構成,およびオブジェクトに作用する力の必要なポーズを推定し,効果的なロボットハンドリングを実現する。 lfdトレーニング中、グリッパーポーズ、指の形状、指の触覚値、およびrgb-d画像が保存される。 教師の意図した方針を推定し,無矛盾な実演を自動的に除去するLfD学習ポリシーを提案する。 また, 3次元形状の複雑な食品に対して, その性能を検証し, 実証した。 提案されたアプローチは、前述の業界セクターで幅広い応用が期待できる。

The robotic handling of compliant and deformable food raw materials, characterized by high biological variation, complex geometrical 3D shapes, and mechanical structures and texture, is currently in huge demand in the ocean space, agricultural, and food industries. Many tasks in these industries are performed manually by human operators who, due to the laborious and tedious nature of their tasks, exhibit high variability in execution, with variable outcomes. The introduction of robotic automation for most complex processing tasks has been challenging due to current robot learning policies. A more consistent learning policy involving skilled operators is desired. In this paper, we address the problem of robot learning when presented with inconsistent demonstrations. To this end, we propose a robust learning policy based on Learning from Demonstration (LfD) for robotic grasping of food compliant objects. The approach uses a merging of RGB-D images and tactile data in order to estimate the necessary pose of the gripper, gripper finger configuration and forces exerted on the object in order to achieve effective robot handling. During LfD training, the gripper pose, finger configurations and tactile values for the fingers, as well as RGB-D images are saved. We present an LfD learning policy that automatically removes inconsistent demonstrations, and estimates the teacher's intended policy. The performance of our approach is validated and demonstrated for fragile and compliant food objects with complex 3D shapes. The proposed approach has a vast range of potential applications in the aforementioned industry sectors.
翻訳日:2023-09-25 14:31:00 公開日:2023-09-22
# 生存分析のためのクロスモーダル翻訳とアライメント

Cross-Modal Translation and Alignment for Survival Analysis ( http://arxiv.org/abs/2309.12855v1 )

ライセンス: Link先を確認
Fengtao Zhou, Hao Chen(参考訳) 高スループットシークエンシング技術の急速な進歩により、生存分析の焦点は臨床指標から病理画像にゲノムプロファイルを取り入れることに移行した。 しかし、既存の手法では、生存予測のために病的特徴とゲノムプロファイルの直接的な融合を直接採用するか、病的画像の特徴を統合するためのガイダンスとしてゲノムプロファイルを採用するかのどちらかである。 前者は本質的交叉関係を見落としていた。 後者は遺伝子発現と無関係に病理情報を破棄する。 これらの問題に対処するために,我々は,本質的クロスモーダル相関と潜在的な補完的情報を伝達するためのクロスモーダル翻訳・アライメント(cmta)フレームワークを提案する。 具体的には、マルチモーダルデータのための2つの並列エンコーダデコーダ構造を構築し、モーダル内情報を統合し、モーダル間表現を生成する。 生成したクロスモーダル表現を用いてイントラモーダル表現を増強し再調整することは、包括的生存分析のための識別を大幅に改善することができる。 さらに,本質的クロスモーダル相関を探究するため,クロスモーダルアテンションモジュールを異なるモーダル間の情報ブリッジとして設計し,クロスモーダル相互作用を行い,補完的情報を転送する。 5つの公開TCGAデータセットに関する広範な実験により、提案したフレームワークが最先端の手法より優れていることが示された。

With the rapid advances in high-throughput sequencing technologies, the focus of survival analysis has shifted from examining clinical indicators to incorporating genomic profiles with pathological images. However, existing methods either directly adopt a straightforward fusion of pathological features and genomic profiles for survival prediction, or take genomic profiles as guidance to integrate the features of pathological images. The former would overlook intrinsic cross-modal correlations. The latter would discard pathological information irrelevant to gene expression. To address these issues, we present a Cross-Modal Translation and Alignment (CMTA) framework to explore the intrinsic cross-modal correlations and transfer potential complementary information. Specifically, we construct two parallel encoder-decoder structures for multi-modal data to integrate intra-modal information and generate cross-modal representation. Taking the generated cross-modal representation to enhance and recalibrate intra-modal representation can significantly improve its discrimination for comprehensive survival analysis. To explore the intrinsic crossmodal correlations, we further design a cross-modal attention module as the information bridge between different modalities to perform cross-modal interactions and transfer complementary information. Our extensive experiments on five public TCGA datasets demonstrate that our proposed framework outperforms the state-of-the-art methods.
翻訳日:2023-09-25 14:30:36 公開日:2023-09-22
# thinresnet:構造化畳み込みネットワークのプルーニングのための新しいベースライン

ThinResNet: A New Baseline for Structured Convolutional Networks Pruning ( http://arxiv.org/abs/2309.12854v1 )

ライセンス: Link先を確認
Hugo Tessier, Ghouti Boukli Hacene, Vincent Gripon(参考訳) プルーニング(pruning)は、高い性能を維持しつつパラメータの数を減らすことで、ニューラルネットワークの効率を向上させることを目的とした圧縮手法である。 特に興味深いのは構造的な刈り取り技術であり、パラメータの全体を削除することで、シュリンクアーキテクチャの活用が容易になる。 近年の人気が高まって以来、プルーニングは数え切れないほどの論文やコントリビューションを生み出し、結果の比較方法においてまず重要な矛盾を生じさせ、続いて標準化されたベンチマークを確立するための集団的な努力に繋がった。 しかし、これらのベンチマークは数年前からのトレーニングプラクティスに基づいており、現在のプラクティスと一致していない。 本研究は,最先端のトレーニング手法と自明なモデルスケーリングを併用したネットワークに対して,最近のプルーニングの成果を実証するものである。 後者は、標準的なプルーニングベンチマークを更新し、古典的なメソッドを光で再評価することが絶対的に必要であることを示す。 そこで我々は,構造化プルーニングをthinresnetと比較する新しい課題ベースラインを提案する。

Pruning is a compression method which aims to improve the efficiency of neural networks by reducing their number of parameters while maintaining a good performance, thus enhancing the performance-to-cost ratio in nontrivial ways. Of particular interest are structured pruning techniques, in which whole portions of parameters are removed altogether, resulting in easier to leverage shrunk architectures. Since its growth in popularity in the recent years, pruning gave birth to countless papers and contributions, resulting first in critical inconsistencies in the way results are compared, and then to a collective effort to establish standardized benchmarks. However, said benchmarks are based on training practices that date from several years ago and do not align with current practices. In this work, we verify how results in the recent literature of pruning hold up against networks that underwent both state-of-the-art training methods and trivial model scaling. We find that the latter clearly and utterly outperform all the literature we compared to, proving that updating standard pruning benchmarks and re-evaluating classical methods in their light is an absolute necessity. We thus introduce a new challenging baseline to compare structured pruning to: ThinResNet.
翻訳日:2023-09-25 14:30:14 公開日:2023-09-22
# 不確実性下における在庫管理のためのシミュレーションベースハイブリダイゼーションと自己適応によるアンサンブル微分進化

Ensemble Differential Evolution with Simulation-Based Hybridization and Self-Adaptation for Inventory Management Under Uncertainty ( http://arxiv.org/abs/2309.12852v1 )

ライセンス: Link先を確認
Sarit Maitra, Vivek Mishra, Sukanya Kundu(参考訳) 本研究は,インベントリーマネジメント(IM)のためのシミュラオンベースハイブリッド化と自己適応(EDESH-SA)アプローチを用いたアンサンブル微分進化法を提案する。 本研究では,複数回実行したDEとシミュレーションに基づくハイブリダイゼーション手法を組み合わせることで,各イテレーションの成功や失敗に基づいて動的に突然変異や交叉率を変化させる自己適応機構を含む。 適応性のため、このアルゴリズムはIMに存在する複雑さと不確実性を扱うことができる。 モンテカルロシミュレーション(MCS)を用いることで、確率性や様々な需要シナリオを考慮した継続的レビュー(CR)在庫戦略を除外する。 このシミュレーションに基づくアプローチは,IMが直面する課題を現実的に解決する上で,提案するアルゴリズムの適用性を現実的に評価することを可能にする。 実験により,IMの財務性能を向上し,大規模検索空間を最適化する手法の可能性を示す。 本研究は, ackley関数によるパフォーマンステストと摂動による感度解析を用いて, 変数の変化が客観的値に与える影響を検討する。 この分析は、アルゴリズムの振る舞いと堅牢性に関する貴重な洞察を提供する。

This study proposes an Ensemble Differential Evolution with Simula-tion-Based Hybridization and Self-Adaptation (EDESH-SA) approach for inven-tory management (IM) under uncertainty. In this study, DE with multiple runs is combined with a simulation-based hybridization method that includes a self-adaptive mechanism that dynamically alters mutation and crossover rates based on the success or failure of each iteration. Due to its adaptability, the algorithm is able to handle the complexity and uncertainty present in IM. Utilizing Monte Carlo Simulation (MCS), the continuous review (CR) inventory strategy is ex-amined while accounting for stochasticity and various demand scenarios. This simulation-based approach enables a realistic assessment of the proposed algo-rithm's applicability in resolving the challenges faced by IM in practical settings. The empirical findings demonstrate the potential of the proposed method to im-prove the financial performance of IM and optimize large search spaces. The study makes use of performance testing with the Ackley function and Sensitivity Analysis with Perturbations to investigate how changes in variables affect the objective value. This analysis provides valuable insights into the behavior and robustness of the algorithm.
翻訳日:2023-09-25 14:29:52 公開日:2023-09-22
# 量子ネットワークのトポロジーの証明:理論と実験

Certifying the topology of quantum networks: theory and experiment ( http://arxiv.org/abs/2309.12907v1 )

ライセンス: Link先を確認
Lisa T. Weinbrenner, Nidhin Prasannan, Kiara Hansenne, Sophia Denker, Jan Sperling, Benjamin Brecht, Christine Silberhorn, Otfried G\"uhne(参考訳) ネットワーク内の分散量子情報は、グローバルセキュアな量子通信において最重要である。 さらに、クロック同期、磁場センシング、ブラインド量子計算などの関連するタスクのためのリソースとして応用されている。 しかし、量子ネットワーク解析と実装のベンチマークでは、絡み合いが確実に分散できるノードを明らかにする方法でネットワークのトポロジーを特徴付けることが重要である。 ここでは、このトポロジ認証の効率的なスキームを示す。 提案方式では,2部構成と複数部構成の絡み合いの異なるネットワークを,測定装置とネットワークノードの信頼性の異なるレベルで区別することが可能である。 偏光子で生成された6量子ビットネットワークのトポロジを検証し,アクティブフィードフォワードと時間多重化を用いて実験を行った。 本手法は,複数の仮説の一般同時テストにほとんど測定せず,量子技術における他の認証シナリオにも有用である。

Distributed quantum information in networks is paramount for global secure quantum communication. Moreover, it finds applications as a resource for relevant tasks, such as clock synchronization, magnetic field sensing, and blind quantum computation. For quantum network analysis and benchmarking of implementations, however, it is crucial to characterize the topology of networks in a way that reveals the nodes between which entanglement can be reliably distributed. Here, we demonstrate an efficient scheme for this topology certification. Our scheme allows for distinguishing, in a scalable manner, different networks consisting of bipartite and multipartite entanglement sources, for different levels of trust in the measurement devices and network nodes. We experimentally demonstrate our approach by certifying the topology of different six-qubit networks generated with polarized photons, employing active feed-forward and time multiplexing. Our methods can be used for general simultaneous tests of multiple hypotheses with few measurements, being useful for other certification scenarios in quantum technologies.
翻訳日:2023-09-25 14:22:35 公開日:2023-09-22
# 周期駆動を有する金属表面近傍の非断熱的ダイナミクス:フロッケ表現における一般化表面ホッピング

Nonadiabatic dynamics near metal surfaces with periodic drivings: A generalized surface hopping in Floquet representation ( http://arxiv.org/abs/2309.12905v1 )

ライセンス: Link先を確認
Yu Wang, Vahid Mosallanejad, Wei Liu, Wenjie Dou(参考訳) レーザー技術の急速な発展とともに、光と物質との相互作用が強くなり、時間的摂動を受けるシステムは広く注目を集めている。 フロッケ定理とフロッケ時間独立ハミルトニアンは、時間周期駆動に従属する系を研究するための強力な理論的枠組みである。 本研究では,金属表面近傍の一般化SHアルゴリズム(J. Chem. Theory Comput. 2017, 13, 6, 6, 2430-2439)をフロケ空間に拡張し,一般化Floquet表現に基づく表面ホッピング(FR-SH)アルゴリズムを開発した。 ここでは、高速駆動を持つオープン量子システムについて考察する。 本アルゴリズムは金属表面近傍の時間周期駆動下での分子の化学過程を理解するのに有用であると考えられる。

With light-matter interaction extending into strong regime, as well as rapid development of laser technology, systems subjecting to a time-periodic perturbation are attracted broad attention. Floquet theorem and Floquet time-independent Hamiltonian are powerful theoretical framework to investigate the systems subjecting to time-periodic drivings. In this study, we extend the previous generalized SH algorithm near metal surface (J. Chem. Theory Comput. 2017, 13, 6, 2430-2439) to the Floquet space, and hence, we develop a generalized Floquet representation based surface hopping (FR-SH) algorithm. Here, we consider open quantum system with fast drivings. We expect that the present algorithm will be useful for understanding the chemical processes of molecules under time-periodic drivings near the metal surface.
翻訳日:2023-09-25 14:22:07 公開日:2023-09-22
# ProtoEM: イベント関係抽出のためのプロトタイプ強化マッチングフレームワーク

ProtoEM: A Prototype-Enhanced Matching Framework for Event Relation Extraction ( http://arxiv.org/abs/2309.12892v1 )

ライセンス: Link先を確認
Zhilei Hu, Zixuan Li, Daozhu Xu, Long Bai, Cheng Jin, Xiaolong Jin, Jiafeng Guo, Xueqi Cheng(参考訳) イベント関係抽出(ere)は、テキスト中のイベント間の複数の種類の関係を抽出することを目的としている。 しかし、既存の手法では、イベント関係を異なるクラスに分類し、これらの関係の本質的な意味を不適切に捉えている。 本稿では,それらの意味を包括的に理解するために,イベント関係の各タイプに対するプロトタイプ表現を求め,複数種類のイベント関係の同時抽出のためのprotoem(protoem)フレームワークを提案する。 具体的には、ProtoEMは2段階の方法でイベント関係、すなわちプロトタイプ表現とプロトタイプマッチングを抽出する。 最初のステップでは、異なる事象関係の意味を捉えるために、ProtoEMはこれらの関係に対応するプロトタイプを表現するために例を利用する。 その後、イベント間の相互依存を捉えるために、これらの関係に対応するプロトタイプの依存性グラフを構築し、グラフニューラルネットワーク(GNN)ベースのモデリングモジュールを使用した。 第2のステップでは、新しいイベントペアの表現を取得し、第1のステップで得られたプロトタイプと類似度を計算し、それらが属するイベント関係のタイプを評価する。 MAVEN-EREデータセットの実験結果から,提案するProtoEMフレームワークはイベント関係のプロトタイプを効果的に表現し,ベースラインモデルよりも大幅な改善が得られた。

Event Relation Extraction (ERE) aims to extract multiple kinds of relations among events in texts. However, existing methods singly categorize event relations as different classes, which are inadequately capturing the intrinsic semantics of these relations. To comprehensively understand their intrinsic semantics, in this paper, we obtain prototype representations for each type of event relation and propose a Prototype-Enhanced Matching (ProtoEM) framework for the joint extraction of multiple kinds of event relations. Specifically, ProtoEM extracts event relations in a two-step manner, i.e., prototype representing and prototype matching. In the first step, to capture the connotations of different event relations, ProtoEM utilizes examples to represent the prototypes corresponding to these relations. Subsequently, to capture the interdependence among event relations, it constructs a dependency graph for the prototypes corresponding to these relations and utilized a Graph Neural Network (GNN)-based module for modeling. In the second step, it obtains the representations of new event pairs and calculates their similarity with those prototypes obtained in the first step to evaluate which types of event relations they belong to. Experimental results on the MAVEN-ERE dataset demonstrate that the proposed ProtoEM framework can effectively represent the prototypes of event relations and further obtain a significant improvement over baseline models.
翻訳日:2023-09-25 14:21:41 公開日:2023-09-22
# 量子グラフによる複雑性の新しいアプローチ

New Approaches to Complexity via Quantum Graphs ( http://arxiv.org/abs/2309.12887v1 )

ライセンス: Link先を確認
Eric Culf and Arthur Mehta(参考訳) グラフの構造に基づく問題(例えば、クランク、独立集合、彩色など)は、古典的複雑性において重要な問題である。 グラフの作用素系一般化である量子グラフに関する同様の問題を考える動機は十分にある。 量子グラフに対するよく定式化された決定問題の定義はいくつかの技術的課題に直面しており、量子グラフと複雑性の関連性は過小評価されている。 本研究では,量子グラフの傾き問題を紹介し,研究する。 この手法は量子グラフと量子チャネル間のよく知られた接続を利用する。 この問題の入力は回路によって誘導される量子チャネルとして提示され、対応する量子グラフを暗黙的に決定する。 また、この手法を用いて、古典グラフの斜めおよび独立な集合問題を再定義し、その入力を可算性グラフを暗黙的に決定する決定的あるいはノイズの多いチャネルの回路とする。 言語内のチャネルのコレクションを変更することで、これらはクラス$\textsf{NP}$, $\textsf{MA}$, $\textsf{QMA}$, $\textsf{QMA}(2)$の完全な問題を引き起こす。 このようにして、自然量子化が一般に仮定される$\textsf{qma}$ではなく$\textsf{qma}(2)$である古典的な複雑性問題を示す。 量子の場合の結果を証明するために、自己検査にインスパイアされた手法を用いる。 この手法の有用性を説明するために、量子グラフのクリックスによる$\textsf{QMA}(k)$から$\textsf{QMA}(2)$への還元の新たな証明を含む。 また,量子グラフの独立集合問題の複雑性についても検討し,クランク問題と独立集合問題とが等価である古典的な場合とは対照的に,複雑性が一般に弱いという予備的な証拠を与える。

Problems based on the structure of graphs -- for example finding cliques, independent sets, or colourings -- are of fundamental importance in classical complexity. It is well motivated to consider similar problems about quantum graphs, which are an operator system generalisation of graphs. Defining well-formulated decision problems for quantum graphs faces several technical challenges, and consequently the connections between quantum graphs and complexity have been underexplored. In this work, we introduce and study the clique problem for quantum graphs. Our approach utilizes a well-known connection between quantum graphs and quantum channels. The inputs for our problems are presented as quantum channels induced by circuits, which implicitly determine a corresponding quantum graph. We also use this approach to reimagine the clique and independent set problems for classical graphs, by taking the inputs to be circuits of deterministic or noisy channels which implicitly determine confusability graphs. We show that, by varying the collection of channels in the language, these give rise to complete problems for the classes $\textsf{NP}$, $\textsf{MA}$, $\textsf{QMA}$, and $\textsf{QMA}(2)$. In this way, we exhibit a classical complexity problem whose natural quantisation is $\textsf{QMA}(2)$, rather than $\textsf{QMA}$, which is commonly assumed. To prove the results in the quantum case, we make use of methods inspired by self-testing. To illustrate the utility of our techniques, we include a new proof of the reduction of $\textsf{QMA}(k)$ to $\textsf{QMA}(2)$ via cliques for quantum graphs. We also study the complexity of a version of the independent set problem for quantum graphs, and provide preliminary evidence that it may be in general weaker in complexity, contrasting to the classical case where the clique and independent set problems are equivalent.
翻訳日:2023-09-25 14:20:59 公開日:2023-09-22
# デジタルジョブにはイメージフィルターが必要か? 否定的態度に寄与する要因

Do Digital Jobs Need an Image Filter? Factors Contributing to Negative Attitudes ( http://arxiv.org/abs/2309.12885v1 )

ライセンス: Link先を確認
Paul H. P. Hanel, Gabriel Lins de Holanda Coelho, Jennifer Haase(参考訳) 高速インターネットの急速な拡大は、サブスクリプションベースのソーシャルメディアプラットフォームでコンテンツを共有するデジタルインフルエンサー、フィットネスモデル、成人モデルといった新しいデジタルジョブの出現につながった。 1,002人の参加者を巻き込んだ2つの実験において、社会心理学と情報システムの両方の理論を組み合わせて、一致した定職に対するデジタルジョブの知覚と、デジタルジョブに対する態度の予測者(象徴的脅威、接触、知覚的有用性)を比較した。 デジタル職業の個人は、マッチした定職の個人よりも好ましくない、ハードワークが少ないと認識されていた。 デジタルの仕事は社会的価値を脅かし、役に立たないと見なされた。 職種と職に対する態度の関係は,仕事に従事している人との接触,有用性,勤勉感,象徴的脅威などによって部分的に仲介された。 これらの効果は、新しい経験、デジタル化に対する態度、政治的指向、年齢への開放性に一貫していた。 調査対象の9職中,講師が最も好意的であり,成人モデルが最も好意的であった。 その結果,社会心理学と情報システムから理論を統合することで,態度形成の理解を深めることができた。

The rapid expansion of high-speed internet has led to the emergence of new digital jobs, such as digital influencers, fitness models, and adult models who share content on subscription-based social media platforms. Across two experiments involving 1,002 participants, we combined theories from both social psychology and information systems to investigate perceptions of digital jobs compared to matched established jobs, and predictors of attitudes toward digital jobs (e.g., symbolic threat, contact, perceived usefulness). We found that individuals in digital professions were perceived as less favorably and as less hard-working than those in matched established jobs. Digital jobs were also regarded as more threatening to societal values and less useful. The relation between job type and attitudes toward these jobs was partially mediated by contact with people working in these jobs, perceived usefulness, perception of hard-working, and symbolic threat. These effects were consistent across openness to new experiences, attitudes toward digitalization, political orientation, and age. Among the nine jobs examined, lecturers were perceived as the most favorable, while adult models were viewed least favorably. Overall, our findings demonstrate that integrating theories from social psychology and information systems can enhance our understanding of how attitudes are formed.
翻訳日:2023-09-25 14:20:10 公開日:2023-09-22
# 大規模言語モデルを用いた会話における影響認識

Affect Recognition in Conversations Using Large Language Models ( http://arxiv.org/abs/2309.12881v1 )

ライセンス: Link先を確認
Shutong Feng, Guangzhi Sun, Nurul Lubis, Chao Zhang, Milica Ga\v{s}i\'c(参考訳) 感情、気分、感情を含む影響認識は、人間のコミュニケーションにおいて重要な役割を果たす。 会話人工知能(AI)の領域では、人間の感情的な手がかりを識別し、反応する能力が、エンゲージメントと共感の相互作用を生み出す重要な要素である。 本研究では,オープンドメインのチャット対話とタスク指向対話の両方に焦点をあて,会話における人間の影響を認識するための言語モデル(LLM)の能力について考察する。 IEMOCAP, EmoWOZ, DAIC-WOZの3つの多種多様なデータセットを用いて, カジュアルな会話から臨床面接までの対話を網羅し, LLMの性能評価と評価を行った。 本研究は,テキスト内学習(ICL)によるLCMのゼロショットと少数ショット能力,およびタスク固有の微調整によるモデル能力について検討する。 さらに,自動音声認識(ASR)誤差がLLM予測に与える影響についても検討した。 本研究は,LLMが会話における人間のような感情認識能力を再現できる程度に光を当てることを目的としている。

Affect recognition, encompassing emotions, moods, and feelings, plays a pivotal role in human communication. In the realm of conversational artificial intelligence (AI), the ability to discern and respond to human affective cues is a critical factor for creating engaging and empathetic interactions. This study delves into the capacity of large language models (LLMs) to recognise human affect in conversations, with a focus on both open-domain chit-chat dialogues and task-oriented dialogues. Leveraging three diverse datasets, namely IEMOCAP, EmoWOZ, and DAIC-WOZ, covering a spectrum of dialogues from casual conversations to clinical interviews, we evaluated and compared LLMs' performance in affect recognition. Our investigation explores the zero-shot and few-shot capabilities of LLMs through in-context learning (ICL) as well as their model capacities through task-specific fine-tuning. Additionally, this study takes into account the potential impact of automatic speech recognition (ASR) errors on LLM predictions. With this work, we aim to shed light on the extent to which LLMs can replicate human-like affect recognition capabilities in conversations.
翻訳日:2023-09-25 14:19:44 公開日:2023-09-22
# 絡み合い・ステアリング・ベル非局所性ポテンシャルによる単一量子状態の非古典性の実験的階層

Experimental hierarchy of the nonclassicality of single-qubit states via potentials of entanglement, steering, and Bell nonlocality ( http://arxiv.org/abs/2309.12878v1 )

ライセンス: Link先を確認
Josef Kadlec, Karol Bartkiewicz, Anton\'in \v{C}ernoch, Karel Lemr and Adam Miranowicz(参考訳) 絡み合いポテンシャルは単モード状態の非古典性を定量化する有望な方法である。 これらは、検査された単一モード状態と純粋に古典的な状態(真空状態やコヒーレント状態など)を混合した後に得られる絡み合い(例えばウーター共起)の量によって定義される。 我々は、エンタングルメントポテンシャルと他の量子相関(eprステアリングとベル非局所性)の概念を一般化し、これらの非古典的ポテンシャルの相互階層の研究を可能にした。 通常の真空状態と1光子重畳状態の代わりに、特別な偏光エンコードされた単光子状態を用いてこの概念を実験的に検証する。 1つの分極は与えられた非古典的単一モード状態を符号化し、もう1つは真空プレースホルダーとして機能する。 この手法は真空検出を必要としないため、真空と1光子重畳よりも実験的に有用であることが証明されている。

Entanglement potentials are a promising way to quantify the nonclassicality of single-mode states. They are defined by the amount of entanglement (expressed by, e.g., the Wooters concurrence) obtained after mixing the examined single-mode state with a purely classical state; such as the vacuum or a coherent state. We generalize the idea of entanglement potentials to other quantum correlations: the EPR steering and Bell nonlocality, thus enabling us to study mutual hierarchies of these non-classicality potentials. Instead of the usual vacuum and one-photon superposition states, we experimentally test this concept using specially tailored polarization-encoded single-photon states. One polarization encodes a given non-classical single-mode state, while the other serves as the vacuum place-holder. This technique proves to be experimentally more convenient in comparison to the vacuum and a one-photon superposition as it does not require the vacuum detection.
翻訳日:2023-09-25 14:19:25 公開日:2023-09-22
# FairComp:ユビキタスコンピューティングのための機械学習における公正性とロバスト性に関するワークショップ

FairComp: Workshop on Fairness and Robustness in Machine Learning for Ubiquitous Computing ( http://arxiv.org/abs/2309.12877v1 )

ライセンス: Link先を確認
Sofia Yfantidou and Dimitris Spathis and Marios Constantinides and Tong Xia and Niels van Berkel(参考訳) ユビキタスコンピューティング(UbiComp)の研究成果が倫理的かつ公正であることを保証するにはどうすればいいのか? 近年、機械学習(ml)の公平性が注目されているが、ubicompの公平性は未調査のままである。 本ワークショップは,ユビコン研究の公正性とその社会的,技術的,法的意味について議論することを目的とする。 社会的観点から、公正性とユビコン研究の関係を調べ、ユビキタステクノロジーが個人の権利を害したり侵害したりしないようにするための道筋を特定する。 技術的観点から、UbiCompリサーチに適したバイアス緩和アプローチを開発するために、データプラクティスに関する議論を開始する。 法的観点からは,新しい政策がコミュニティの仕事や今後の研究をどのように形作るかを検討する。 我々は、責任あるUbiCompのトピックを中心とした活気あるコミュニティを育成するとともに、この分野における今後の研究課題の明確な道筋を図示することを目的としている。

How can we ensure that Ubiquitous Computing (UbiComp) research outcomes are both ethical and fair? While fairness in machine learning (ML) has gained traction in recent years, fairness in UbiComp remains unexplored. This workshop aims to discuss fairness in UbiComp research and its social, technical, and legal implications. From a social perspective, we will examine the relationship between fairness and UbiComp research and identify pathways to ensure that ubiquitous technologies do not cause harm or infringe on individual rights. From a technical perspective, we will initiate a discussion on data practices to develop bias mitigation approaches tailored to UbiComp research. From a legal perspective, we will examine how new policies shape our community's work and future research. We aim to foster a vibrant community centered around the topic of responsible UbiComp, while also charting a clear path for future research endeavours in this field.
翻訳日:2023-09-25 14:19:06 公開日:2023-09-22
# 終末小病変検出のための重力ネットワーク

Gravity Network for end-to-end small lesion detection ( http://arxiv.org/abs/2309.12876v1 )

ライセンス: Link先を確認
Ciro Russo, Alessandro Bria, Claudio Marrocco(参考訳) 本稿では,医療画像の小さな病変を特異的に検出するワンステージエンド・ツー・エンド検出器を提案する。 小さな病変の正確な局在は、その外観とそれらが見つかる様々な背景により困難を呈している。 これに対処するために,我々は,検出対象の病変に向かって動的に移動する新しいタイプの画素ベースのアンカーを導入する。 我々はこの新しいアーキテクチャを重力ネットと呼び,新しいアンカーを重力点と呼ぶ。 提案手法の有効性を評価するために, デジタルマンモグラムにおける微小石灰化検出と, デジタル眼底画像における微小動脈瘤検出の2つの確立された医療課題について実験を行った。 本手法は,これらの医療画像の小さな病変を効果的に検出する上で有望な結果を示す。

This paper introduces a novel one-stage end-to-end detector specifically designed to detect small lesions in medical images. Precise localization of small lesions presents challenges due to their appearance and the diverse contextual backgrounds in which they are found. To address this, our approach introduces a new type of pixel-based anchor that dynamically moves towards the targeted lesion for detection. We refer to this new architecture as GravityNet, and the novel anchors as gravity points since they appear to be "attracted" by the lesions. We conducted experiments on two well-established medical problems involving small lesions to evaluate the performance of the proposed approach: microcalcifications detection in digital mammograms and microaneurysms detection in digital fundus images. Our method demonstrates promising results in effectively detecting small lesions in these medical imaging tasks.
翻訳日:2023-09-25 14:18:48 公開日:2023-09-22
# 角度最適化テキスト埋め込み

AnglE-Optimized Text Embeddings ( http://arxiv.org/abs/2309.12871v1 )

ライセンス: Link先を確認
Xianming Li, Jing Li(参考訳) 高品質なテキスト埋め込みは、Large Language Model (LLM) アプリケーションにおいて重要なコンポーネントであるセマンティックテキスト類似性(STS)タスクの改善に重要である。 しかし、既存のテキスト埋め込みモデルが直面する共通の課題は、主に飽和ゾーンを持つ最適化目的におけるコサイン関数に依存することによる勾配の消失の問題である。 本稿では,AnglEと呼ばれる新しい角度最適化テキスト埋め込みモデルを提案する。 AnglEの中核となる考え方は、複素空間に角度最適化を導入することである。 この手法は、勾配を阻害し最適化を妨げうるコサイン関数における飽和域の悪影響を効果的に軽減する。 包括的なSTS評価を設定するために、既存の短文STSデータセットとGitHub Issuesから新たに収集された長文STSデータセットを試した。 さらに、ラベル付きデータに制限のあるドメイン固有のstsシナリオを検討し、アングルがllmアノテートデータとどのように連携するかを検討する。 短文STS、長文STS、ドメイン固有のSTSタスクなど、さまざまなタスクで大規模な実験が行われた。 その結果、AnglEはコサイン飽和ゾーンを無視したSOTA(State-of-the-art STS)モデルよりも優れていた。 これらの結果は、AnglEが高品質なテキスト埋め込みを生成する能力と、STSにおける角度最適化の有用性を示している。

High-quality text embedding is pivotal in improving semantic textual similarity (STS) tasks, which are crucial components in Large Language Model (LLM) applications. However, a common challenge existing text embedding models face is the problem of vanishing gradients, primarily due to their reliance on the cosine function in the optimization objective, which has saturation zones. To address this issue, this paper proposes a novel angle-optimized text embedding model called AnglE. The core idea of AnglE is to introduce angle optimization in a complex space. This novel approach effectively mitigates the adverse effects of the saturation zone in the cosine function, which can impede gradient and hinder optimization processes. To set up a comprehensive STS evaluation, we experimented on existing short-text STS datasets and a newly collected long-text STS dataset from GitHub Issues. Furthermore, we examine domain-specific STS scenarios with limited labeled data and explore how AnglE works with LLM-annotated data. Extensive experiments were conducted on various tasks including short-text STS, long-text STS, and domain-specific STS tasks. The results show that AnglE outperforms the state-of-the-art (SOTA) STS models that ignore the cosine saturation zone. These findings demonstrate the ability of AnglE to generate high-quality text embeddings and the usefulness of angle optimization in STS.
翻訳日:2023-09-25 14:18:36 公開日:2023-09-22
# コード品質の問題に不満? LLMs can Help!

Frustrated with Code Quality Issues? LLMs can Help! ( http://arxiv.org/abs/2309.12938v1 )

ライセンス: Link先を確認
Nalin Wadhwa, Jui Pradhan, Atharv Sonwane, Surya Prakash Sahu, Nagarajan Natarajan, Aditya Kanade, Suresh Parthasarathy, Sriram Rajamani(参考訳) ソフトウェアプロジェクトが進むにつれて、コードの質はソフトウェアの信頼性、保守性、セキュリティに影響を与えるため、最重要視される。 このため、静的解析ツールは開発者のワークフローでコード品質の問題にフラグを付けるために使われます。 しかし、開発者はツールの発見に基づいてコード品質を改善するために、コード修正に余計な労力を費やす必要がある。 本研究では,コード品質の問題を解決するためのコード修正を支援するため,大規模言語モデル (LLM) の使用について検討する。 提案ツールであるcore(コードリビジョンの略)を,提案者とランク付け者からなるデュオとして構成した2つのllmを用いて設計する。 静的解析ツールのプロバイダは、ツール警告を緩和する方法を推奨し、開発者はコードを修正するためにそれに従う。 coreの \emph{proposer llm} は同じレコメンデーションを受け取り、それらを適用して候補コードリビジョンを生成する。 静的品質チェックをパスする候補は保持される。 しかし、LSMは、静的解析によって検出されない微妙で意図しない機能変更を導入するかもしれない。 emph{ranker LLM} は、開発者が強制する受け入れ基準に忠実に従うルーリックを使用して、提案者が行った変更を評価します。 CORE はランサー LLM によって割り当てられたスコアを使用して、候補のリビジョンを開発者が提示する前にランク付けする。 COREは59.2%のPythonファイル(52品質チェック)を修正でき、ツールと人間レビュアーの両方による精査をパスできる。 LLMはこれらの場合、偽陽性を25.8%減らすことができる。 coreは、特別なプログラム修復ツールの78.3%に相当する76.8%のjavaファイル(品質チェック)で静的解析ツールに合格したリビジョンを作成しました。

As software projects progress, quality of code assumes paramount importance as it affects reliability, maintainability and security of software. For this reason, static analysis tools are used in developer workflows to flag code quality issues. However, developers need to spend extra efforts to revise their code to improve code quality based on the tool findings. In this work, we investigate the use of (instruction-following) large language models (LLMs) to assist developers in revising code to resolve code quality issues. We present a tool, CORE (short for COde REvisions), architected using a pair of LLMs organized as a duo comprised of a proposer and a ranker. Providers of static analysis tools recommend ways to mitigate the tool warnings and developers follow them to revise their code. The \emph{proposer LLM} of CORE takes the same set of recommendations and applies them to generate candidate code revisions. The candidates which pass the static quality checks are retained. However, the LLM may introduce subtle, unintended functionality changes which may go un-detected by the static analysis. The \emph{ranker LLM} evaluates the changes made by the proposer using a rubric that closely follows the acceptance criteria that a developer would enforce. CORE uses the scores assigned by the ranker LLM to rank the candidate revisions before presenting them to the developer. CORE could revise 59.2% Python files (across 52 quality checks) so that they pass scrutiny by both a tool and a human reviewer. The ranker LLM is able to reduce false positives by 25.8% in these cases. CORE produced revisions that passed the static analysis tool in 76.8% Java files (across 10 quality checks) comparable to 78.3% of a specialized program repair tool, with significantly much less engineering efforts.
翻訳日:2023-09-25 14:13:07 公開日:2023-09-22
# toproberta: トポロジーを意識したdeepfakeテキストの著者シップ

TopRoBERTa: Topology-Aware Authorship Attribution of Deepfake Texts ( http://arxiv.org/abs/2309.12934v1 )

ライセンス: Link先を確認
Adaku Uchendu, Thai Le, Dongwon Lee(参考訳) 近年のLarge Language Models (LLM) の進歩により、人間の文章と区別しにくい、オープンエンドの高品質なテキストの生成が可能になった。 このような LLM 生成テキストを \emph{deepfake texts} と呼ぶ。 hugingfaceモデルリポジトリには、現在1k以上のテキスト生成モデルがある。 そのため、悪意のある意図を持ったユーザは、これらのオープンソース LLM を利用して、有害なテキストや誤報を大規模に生成することができる。 この問題を緩和するため、あるテキストがディープフェイクテキストであるか否かを判定する計算手法、すなわちチューリングテスト(TT)が望まれる。 特に,本研究では,テキストがディープフェイクテキストであるか否かを判断するだけでなく,どの LLM が著者であるかを特定できる多クラス設定において,この問題のより一般的なバージョンである 'emph{Authorship Attribution (AA)} について検討する。 我々は,RoBERTaモデルにトポロジカルデータ解析(TDA)層を含むディープフェイクテキストのより言語的なパターンを取り込み,既存のAAソリューションを改善するために,textbf{TopRoBERTa}を提案する。 入力としてRoBERTaの$pooled\_output$からTDA特徴を抽出することにより、ノイズ、不均衡、異種データセットを扱う際にTDA層を持つことの利点を示す。 我々はRoBERTaを用いて文脈表現(意味的・統語的特徴)をキャプチャし、TDAを用いてデータの形状と構造(言語構造)をキャプチャする。 最後に、 \textbf{TopRoBERTa}は、2/3データセットでバニラRoBERTaを上回り、マクロF1スコアの最大7%上昇を達成する。

Recent advances in Large Language Models (LLMs) have enabled the generation of open-ended high-quality texts, that are non-trivial to distinguish from human-written texts. We refer to such LLM-generated texts as \emph{deepfake texts}. There are currently over 11K text generation models in the huggingface model repo. As such, users with malicious intent can easily use these open-sourced LLMs to generate harmful texts and misinformation at scale. To mitigate this problem, a computational method to determine if a given text is a deepfake text or not is desired--i.e., Turing Test (TT). In particular, in this work, we investigate the more general version of the problem, known as \emph{Authorship Attribution (AA)}, in a multi-class setting--i.e., not only determining if a given text is a deepfake text or not but also being able to pinpoint which LLM is the author. We propose \textbf{TopRoBERTa} to improve existing AA solutions by capturing more linguistic patterns in deepfake texts by including a Topological Data Analysis (TDA) layer in the RoBERTa model. We show the benefits of having a TDA layer when dealing with noisy, imbalanced, and heterogeneous datasets, by extracting TDA features from the reshaped $pooled\_output$ of RoBERTa as input. We use RoBERTa to capture contextual representations (i.e., semantic and syntactic linguistic features), while using TDA to capture the shape and structure of data (i.e., linguistic structures). Finally, \textbf{TopRoBERTa}, outperforms the vanilla RoBERTa in 2/3 datasets, achieving up to 7\% increase in Macro F1 score.
翻訳日:2023-09-25 14:12:34 公開日:2023-09-22
# ランダムな翻訳不変ハミルトニアンの進化によるフェルミオン相関の学習

Learning fermionic correlations by evolving with random translationally invariant Hamiltonians ( http://arxiv.org/abs/2309.12933v1 )

ライセンス: Link先を確認
Janek Denzler, Antonio Anna Mele, Ellen Derbyshire, Tommaso Guaita, and Jens Eisert(参考訳) デジタル量子デバイスの読み出しを容易にするために古典的な影のスキームが開発されているが、アナログ量子シミュレータのための同様のツールは希少で実験的に実用的ではない。 本研究では,2次および4次相関関数を,自由フェルミオン,翻訳的不変な進化 – あるいはクエンチ – を用いて推定し,モード占有数に基づいて測定するフェルミオン量子デバイスの測定手法を提案する。 相関関数を正確に評価し,厳密な境界を標本の複雑度に当てはめるとともに,測定が遅い合理的な実験プラットフォームにおいて,適切な統計値を得るのが困難であることから,特に重要な特徴である。 最後に,本手法を最も近い範囲で,翻訳的に不変なホッピングクエンチを用いて近似的に実装し,現在の実験条件下では極めて妥当な手順であることを示すとともに,単一固有ハミルトニアンに対してランダムな時間変化のみを要求できることを示す。 概念的なレベルでは、この研究は古典影の概念を大規模アナログ量子シミュレータの領域にもたらしている。

Schemes of classical shadows have been developed to facilitate the read-out of digital quantum devices, but similar tools for analog quantum simulators are scarce and experimentally impractical. In this work, we provide a measurement scheme for fermionic quantum devices that estimates second and fourth order correlation functions by means of free fermionic, translationally invariant evolutions - or quenches - and measurements in the mode occupation number basis. We precisely characterize what correlation functions can be recovered and equip the estimates with rigorous bounds on sample complexities, a particularly important feature in light of the difficulty of getting good statistics in reasonable experimental platforms, with measurements being slow. Finally, we demonstrate how our procedure can be approximately implemented with just nearest-neighbour, translationally invariant hopping quenches, a very plausible procedure under current experimental requirements, and requiring only random time-evolution with respect to a single native Hamiltonian. On a conceptual level, this work brings the idea of classical shadows to the realm of large scale analog quantum simulators.
翻訳日:2023-09-25 14:12:00 公開日:2023-09-22
# 自己教師形変圧器における分離正規化について

On Separate Normalization in Self-supervised Transformers ( http://arxiv.org/abs/2309.12931v1 )

ライセンス: Link先を確認
Xiaohui Chen, Yinkai Wang, Yuanqi Du, Soha Hassoun, Li-Ping Liu(参考訳) 変圧器の自己指導訓練法は,様々な領域で顕著な性能を示した。 マスク付きオートエンコーダ(MAE)のような以前のトランスフォーマーベースのモデルは、通常、[CLS]シンボルとトークンの両方に単一の正規化層を使用する。 本稿では,トークンの正規化レイヤと[CLS]シンボルを分離して,それらの特徴をよりよく把握し,下流タスク性能を向上させるための簡単な修正を提案する。 本手法は,両トークン型に対して同一の正規化統計値を使用することによる潜在的負の効果を緩和することを目的としている。 我々は,別の正規化層を利用することで,[CLS]埋め込みがグローバルな文脈情報をよりよく符号化し,異方性空間に均一に分散できることを実証的に示す。 従来の正規化層を2つの別々の層に置き換える場合、画像、自然言語、グラフドメインに対する平均2.7%のパフォーマンス改善が観察される。

Self-supervised training methods for transformers have demonstrated remarkable performance across various domains. Previous transformer-based models, such as masked autoencoders (MAE), typically utilize a single normalization layer for both the [CLS] symbol and the tokens. We propose in this paper a simple modification that employs separate normalization layers for the tokens and the [CLS] symbol to better capture their distinct characteristics and enhance downstream task performance. Our method aims to alleviate the potential negative effects of using the same normalization statistics for both token types, which may not be optimally aligned with their individual roles. We empirically show that by utilizing a separate normalization layer, the [CLS] embeddings can better encode the global contextual information and are distributed more uniformly in its anisotropic space. When replacing the conventional normalization layer with the two separate layers, we observe an average 2.7% performance improvement over the image, natural language, and graph domains.
翻訳日:2023-09-25 14:11:39 公開日:2023-09-22
# ベル非局在性、量子ステアリング、絡み合いのポテンシャルによる真空1光子重ね合わせの非古典性の定量化

Quantifying nonclassicality of vacuum-one-photon superpositions via potentials for Bell nonlocality, quantum steering, and entanglement ( http://arxiv.org/abs/2309.12930v1 )

ライセンス: Link先を確認
Adam Miranowicz, Josef Kadlec, Karol Bartkiewicz, Anton\'in \v{C}ernoch, Yueh-Nan Chen, Karel Lemr, Franco Nori(参考訳) 絡み合いポテンシャルは単モード光学場の非古典性の一般的な測度である。 これらのポテンシャルは、バランスビームスプリッター上の単一モードフィールドと真空を混合して生じる2モードフィールドの絡み合い量(例えば、ネガティビティまたは共起度)によって定義される。 この概念を一般化して、ベル非局所性と量子ステアリングのポテンシャルを特定の測定シナリオで定義し、より洗練された方法でシングルモード非古典性を定量化する。 したがって、対応する2モード量子相関のよく知られた階層と類似した3種類のポテンシャルの階層を研究できる。 本稿では,任意の真空1光子重ね合わせ (vopss) に対して,光子数量子ビットに対応する非古典性ポテンシャルの解析に着目する。 本稿では,単一モードvops状態の生成,平衡ビームスプリッタ上の真空との混合,ホモダイントモグラフィを用いた2モードウィグナー関数再構成の実験的実装について検討する。 位相減衰および非平衡ビーム分割を含む不完全性が再建された2モード状態と非古典性電位の品質に及ぼす影響を解析した。 VOPS状態の解析に焦点をあてるが、単一モードポテンシャルは立方体や連続変数系の非古典性の研究にも適用できる。

Entanglement potentials are popular measures of the nonclassicality of single-mode optical fields. These potentials are defined by the amount of entanglement (measured by, e.g., the negativity or concurrence) of the two-mode field generated by mixing a given single-mode field with the vacuum on a balanced beam splitter. We generalize this concept to define the potentials for Bell nonlocality and quantum steering in specific measurement scenarios, in order to quantify single-mode nonclassicality in a more refined way. Thus, we can study the hierarchy of three types of potentials in close analogy to the well-known hierarchy of the corresponding two-mode quantum correlations. For clarity of our presentation, we focus on the analysis of the nonclassicality potentials for arbitrary vacuum-one-photon superpositions (VOPSs), corresponding to a photon-number qubit. We discuss experimentally feasible implementations for the generation of single-mode VOPS states, their mixing with the vacuum on a balanced beam splitter, and their two-mode Wigner-function reconstruction using homodyne tomography to determine the potentials. We analyze the effects of imperfections, including phase damping and unbalanced beam splitting on the quality of the reconstructed two-mode states and nonclassicality potentials. Although we focus on the analysis of VOPS states, single-mode potentials can also be applied to study the nonclassicality of qudits or continuous-variable systems.
翻訳日:2023-09-25 14:11:23 公開日:2023-09-22
# BayesDLL: Bayesian Deep Learning Library

BayesDLL: Bayesian Deep Learning Library ( http://arxiv.org/abs/2309.12928v1 )

ライセンス: Link先を確認
Minyoung Kim, Timothy Hospedales(参考訳) 大規模ディープネットワークのためのPyTorch用の新しいベイズニューラルネットワークライブラリをリリースする。 本ライブラリでは,変分推論,MCドロップアウト,確率勾配MCMC,ラプラス近似といったベイズ近似アルゴリズムを実装している。 他の既存のベイズ型ニューラルネットワークライブラリとの主な違いは次のとおりである。 1)本ライブラリは視覚変換器(ViT)を含む大規模ディープネットワークを扱うことができる。 2) ユーザには事実上ゼロのコード修正が必要です(例えば、バックボーンネットワーク定義コードは変更する必要はまったくありません)。 3)本ライブラリは,事前学習したモデル重みを事前平均として機能させることも可能であり,vitsのような大規模基礎モデルでベイズ推論を行う上で非常に有用であり,下流データだけではスクラッチから最適化することが困難である。 当社のコードは以下に公開されています。 \url{https://github.com/SamsungLabs/BayesDLL}\footnote{A mirror repository }.

We release a new Bayesian neural network library for PyTorch for large-scale deep networks. Our library implements mainstream approximate Bayesian inference algorithms: variational inference, MC-dropout, stochastic-gradient MCMC, and Laplace approximation. The main differences from other existing Bayesian neural network libraries are as follows: 1) Our library can deal with very large-scale deep networks including Vision Transformers (ViTs). 2) We need virtually zero code modifications for users (e.g., the backbone network definition codes do not neet to be modified at all). 3) Our library also allows the pre-trained model weights to serve as a prior mean, which is very useful for performing Bayesian inference with the large-scale foundation models like ViTs that are hard to optimise from scratch with the downstream data alone. Our code is publicly available at: \url{https://github.com/SamsungLabs/BayesDLL}\footnote{A mirror repository is also available at: \url{https://github.com/minyoungkim21/BayesDLL}.}.
翻訳日:2023-09-25 14:10:59 公開日:2023-09-22
# 長期学習のための創発的メカニズムは訓練カリキュラムに依存し、記憶タスクのパフォーマンスに影響を及ぼす

Emergent mechanisms for long timescales depend on training curriculum and affect performance in memory tasks ( http://arxiv.org/abs/2309.12927v1 )

ライセンス: Link先を確認
Sina Khajehabdollahi, Roxana Zeraati, Emmanouil Giannakakis, Tim Jakob Sch\"afer, Georg Martius, Anna Levina(参考訳) 脳とシリコのリカレントニューラルネットワーク(recurrent neural networks, rnns)は、時間的依存性を持つ複雑なタスクの解決に優れている。 このような課題を解決するのに必要な長い時間スケールは、個々のニューロンの特性(単一ニューロンの時間スケール、例えば生物学的ニューロンの膜時間定数など)や、それらの間の反復的な相互作用(ネットワーク経由の時間スケール)から生じる。 しかし、メモリ依存タスクを最適に解くための各メカニズムの貢献は、まだ理解されていない。 ここで、rnnをトレーニングして、リカレントウェイトと$\tau$sを同時に最適化することで、n$で制御されるメモリ要件の増加による、n$-parityとn$-delayed match-to-sampleタスクを解決する。 どちらのタスクにおいても、RNNはより長い時間スケールでN$を増大させるが、学習目標によって異なるメカニズムを使用する。 2つの異なるカリキュラムは学習目標を定義する: 単一のN$(シングルヘッド)の逐次学習または複数のN$(マルチヘッド)の同時学習。 シングルヘッドネットワークは、$n$で$\tau$を増加させ、大きな$n$でタスクを解決できるが、壊滅的な忘れに苦しむ。 しかし、複数の同時メモリを明示的に保持するために要求されるマルチヘッドネットワークは、$\tau$を一定に保ち、繰り返し接続を通じてより長い時間スケールを開発する。 さらに,マルチヘッドカリキュラムは,トレーニング速度とネットワーク安定性を向上し,緩和や摂動に寄与し,RNNがトレーニング体制を超えたタスクにもっと一般化できることを示す。 このカリキュラムは、大規模なN$タスクのためのGRUとLSTMのトレーニングも大幅に改善する。 この結果から,タスク要求に対する時間スケールの適用により,より複雑な目標を学習し,RNNの性能を向上させることが示唆された。

Recurrent neural networks (RNNs) in the brain and in silico excel at solving tasks with intricate temporal dependencies. Long timescales required for solving such tasks can arise from properties of individual neurons (single-neuron timescale, $\tau$, e.g., membrane time constant in biological neurons) or recurrent interactions among them (network-mediated timescale). However, the contribution of each mechanism for optimally solving memory-dependent tasks remains poorly understood. Here, we train RNNs to solve $N$-parity and $N$-delayed match-to-sample tasks with increasing memory requirements controlled by $N$ by simultaneously optimizing recurrent weights and $\tau$s. We find that for both tasks RNNs develop longer timescales with increasing $N$, but depending on the learning objective, they use different mechanisms. Two distinct curricula define learning objectives: sequential learning of a single-$N$ (single-head) or simultaneous learning of multiple $N$s (multi-head). Single-head networks increase their $\tau$ with $N$ and are able to solve tasks for large $N$, but they suffer from catastrophic forgetting. However, multi-head networks, which are explicitly required to hold multiple concurrent memories, keep $\tau$ constant and develop longer timescales through recurrent connectivity. Moreover, we show that the multi-head curriculum increases training speed and network stability to ablations and perturbations, and allows RNNs to generalize better to tasks beyond their training regime. This curriculum also significantly improves training GRUs and LSTMs for large-$N$ tasks. Our results suggest that adapting timescales to task requirements via recurrent interactions allows learning more complex objectives and improves the RNN's performance.
翻訳日:2023-09-25 14:10:42 公開日:2023-09-22
# 光学ラマン格子における非アベリア力学ゲージ場とトポロジカル超流動

Non-Abelian dynamical gauge field and topological superfluids in optical Raman lattice ( http://arxiv.org/abs/2309.12923v1 )

ライセンス: Link先を確認
Xin-Chi Zhou, Tian-Hua Yang, Zhi-Yuan Wang and Xiong-Jun Liu(参考訳) 超低温フェルミオンの非可換動的ゲージ場を実現するための実験的スキームを提案し,位相超流動の新しいペアリング機構を導出する。 動的ゲージ場は、2次元(2次元)光学ラマン格子の強いゼーマン分割とハバード相互作用の間の非自明な相互作用効果から生じる。 スピンフリップ遷移は大きなゼーマンデチューニングによって禁止されるが、ゼーマン分裂がハバード相互作用によって補償されるときに復元される。 このスキームにより、局所状態の設定に依存するディラック型相関2次元スピン軌道相互作用に繋がる動的非可換ゲージ場を生成することができる。 2次元力学ゲージ場によって駆動される新しい対のトポロジカル超流動に到達し,解析的および数値的結果を得た。 我々の研究は非可換力学ゲージ場をエミュレートするドアを開く可能性があり、位相位相相と実験的実現可能性との相関が考えられる。

We propose an experimental scheme to realize non-Abelian dynamical gauge field for ultracold fermions, which induces a novel pairing mechanism of topological superfluidity. The dynamical gauge fields arise from nontrivial interplay effect between the strong Zeeman splitting and Hubbard interaction in a two-dimensional (2D) optical Raman lattice. The spin-flip transitions are forbidden by the large Zeeman detuning, but are restored when the Zeeman splitting is compensated by Hubbard interaction. This scheme allows to generate a dynamical non-Abelian gauge field that leads to a Dirac type correlated 2D spin-orbit interaction depending on local state configurations. The topological superfluid from a novel pairing driven by 2D dynamical gauge fields is reached, with analytic and numerical results being obtained. Our work may open up a door to emulate non-Abelian dynamical gauge fields and correlated topological phases with experimental feasibility.
翻訳日:2023-09-25 14:10:10 公開日:2023-09-22
# 態度の問題:正と活の勾配に着目してサリエンシマップを強化する

A matter of attitude: Focusing on positive and active gradients to boost saliency maps ( http://arxiv.org/abs/2309.12913v1 )

ライセンス: Link先を確認
Oscar Llorente, Jaime Boal and Eugenio F. S\'anchez-\'Ubeda(参考訳) サリエンシーマップは、畳み込みニューラルネットワーク(cnn)の単純さと提供する洞察の質から、最も広く使われている解釈技術の一つである。 しかし、これらの洞察がCNNが予測を思いつくために使っていることの信頼できる表現であるかどうかには疑問が残る。 本稿では,勾配図から勾配の徴候を解くことで,階層分類問題の理解を深める方法について考察する。 トレーニング済みのcnnとトレーニング済みのcnnの両方を使用することで、正しいクラスだけでなく、他のクラスの影響も考慮すれば、ネットワークが本当に注目しているイメージのピクセルをより正確に識別できるようになる、ということを明らかにします。 さらに、これらのピクセルの排除や変更が結果に与える影響も明確になる。

Saliency maps have become one of the most widely used interpretability techniques for convolutional neural networks (CNN) due to their simplicity and the quality of the insights they provide. However, there are still some doubts about whether these insights are a trustworthy representation of what CNNs use to come up with their predictions. This paper explores how rescuing the sign of the gradients from the saliency map can lead to a deeper understanding of multi-class classification problems. Using both pretrained and trained from scratch CNNs we unveil that considering the sign and the effect not only of the correct class, but also the influence of the other classes, allows to better identify the pixels of the image that the network is really focusing on. Furthermore, how occluding or altering those pixels is expected to affect the outcome also becomes clearer.
翻訳日:2023-09-25 14:09:54 公開日:2023-09-22
# KG-MDL: MDL原理による知識グラフにおけるグラフパターンのマイニング

KG-MDL: Mining Graph Patterns in Knowledge Graphs with the MDL Principle ( http://arxiv.org/abs/2309.12908v1 )

ライセンス: Link先を確認
Francesco Bariatti, Peggy Cellier, S\'ebastien Ferr\'e(参考訳) 現在、知識グラフ(KG)として、より多くのデータが利用可能になっている。 このデータモデルは高度な推論とクエリをサポートしているが、サイズと複雑さのためマイニングが難しい。 グラフマイニング手法は、KGからパターンを抽出するために用いられる。 しかし、主な問題は2つある。 まず、グラフマイニングのアプローチは、人間の分析者が解釈する(パターン爆発)にはあまりにも多くのパターンを抽出する傾向がある。 第二に、現実のKGはグラフマイニングで扱われるグラフとは異なる傾向があり、それらは多グラフであり、頂点度はパワー・ローに従う傾向にあり、知識をモデル化する方法は素早いパターンを生み出す。 近年,最小記述長(MDL)原理を用いて,グラフマイニング手法としてGraphMDL+が提案されている。 しかし、他のグラフマイニング手法と同様に、GraphMDL+は適応のないKGには適していない。 本稿では,MDL原理に基づくグラフパターンマイニング手法であるKG-MDLを提案する。 提案手法は,人間によって解釈できるほど小さく,かつkgを記述可能なパターン群を生成できることを示す中型kgs実験を報告した。 抽出されたパターンは、データの作成に使用されるスキーマと、データに含まれる具体的な事実の両方に関連のある特性を強調する。 また,他の種類のグラフデータとは対照的に,知識グラフ上のグラフパターンのマイニングに関する問題についても論じる。

Nowadays, increasingly more data are available as knowledge graphs (KGs). While this data model supports advanced reasoning and querying, they remain difficult to mine due to their size and complexity. Graph mining approaches can be used to extract patterns from KGs. However this presents two main issues. First, graph mining approaches tend to extract too many patterns for a human analyst to interpret (pattern explosion). Second, real-life KGs tend to differ from the graphs usually treated in graph mining: they are multigraphs, their vertex degrees tend to follow a power-law, and the way in which they model knowledge can produce spurious patterns. Recently, a graph mining approach named GraphMDL+ has been proposed to tackle the problem of pattern explosion, using the Minimum Description Length (MDL) principle. However, GraphMDL+, like other graph mining approaches, is not suited for KGs without adaptations. In this paper we propose KG-MDL, a graph pattern mining approach based on the MDL principle that, given a KG, generates a human-sized and descriptive set of graph patterns, and so in a parameter-less and anytime way. We report on experiments on medium-sized KGs showing that our approach generates sets of patterns that are both small enough to be interpreted by humans and descriptive of the KG. We show that the extracted patterns highlight relevant characteristics of the data: both of the schema used to create the data, and of the concrete facts it contains. We also discuss the issues related to mining graph patterns on knowledge graphs, as opposed to other types of graph data.
翻訳日:2023-09-25 14:09:38 公開日:2023-09-22
# 単純錯体上のフラワーペタルラプラシアンを用いた高次グラフ畳み込みネットワーク

Higher-order Graph Convolutional Network with Flower-Petals Laplacians on Simplicial Complexes ( http://arxiv.org/abs/2309.12971v1 )

ライセンス: Link先を確認
Yiming Huang, Yujie Zeng, Qiang Wu, Linyuan L\"u(参考訳) 最近の多くのタスクにおけるバニラグラフニューラルネットワーク(GNN)の成功にもかかわらず、彼らのペアワイド相互作用ネットワークの基盤は本質的に、複雑なシステムにおける潜在的な高次相互作用を識別する能力を制限する。 この能力ギャップを埋めるために,高次相互作用をモデル化するための頑健なツールであるsimplicial Complex (SCs) のリッチな数学的理論を活用する新しい手法を提案する。 現在のSCベースのGNNは、複雑さと剛性に悩まされており、高次相互作用強度の定量化は依然として難しい。 本稿では,FPラプラシアンをSCに組み込んだ高次フラワー・ペタールス(FP)モデルを提案する。 さらに, fpラプラシアンに接地した高次グラフ畳み込みネットワーク (higcn) を導入することで, 様々な位相スケールで固有特徴を識別できる。 各fpラプラシアン領域内のパラメータ群である学習可能なグラフフィルタを用いることで、フィルタの重みが高次相互作用強度の定量化に寄与する多様なパターンを識別できる。 HiGCNの高度表現性の理論的基盤は厳密に示されている。 さらに,提案モデルがグラフタスクで最先端(sota)性能を達成し,グラフにおける高次インタラクションを探索するためのスケーラブルで柔軟なソリューションを提供することを示す。

Despite the recent successes of vanilla Graph Neural Networks (GNNs) on many tasks, their foundation on pairwise interaction networks inherently limits their capacity to discern latent higher-order interactions in complex systems. To bridge this capability gap, we propose a novel approach exploiting the rich mathematical theory of simplicial complexes (SCs) - a robust tool for modeling higher-order interactions. Current SC-based GNNs are burdened by high complexity and rigidity, and quantifying higher-order interaction strengths remains challenging. Innovatively, we present a higher-order Flower-Petals (FP) model, incorporating FP Laplacians into SCs. Further, we introduce a Higher-order Graph Convolutional Network (HiGCN) grounded in FP Laplacians, capable of discerning intrinsic features across varying topological scales. By employing learnable graph filters, a parameter group within each FP Laplacian domain, we can identify diverse patterns where the filters' weights serve as a quantifiable measure of higher-order interaction strengths. The theoretical underpinnings of HiGCN's advanced expressiveness are rigorously demonstrated. Additionally, our empirical investigations reveal that the proposed model accomplishes state-of-the-art (SOTA) performance on a range of graph tasks and provides a scalable and flexible solution to explore higher-order interactions in graphs.
翻訳日:2023-09-25 14:01:44 公開日:2023-09-22
# PI-RADS v2 協調学習型マルチタスクデュアルパスCNNによる前立腺領域の自動分割

PI-RADS v2 Compliant Automated Segmentation of Prostate Zones Using co-training Motivated Multi-task Dual-Path CNN ( http://arxiv.org/abs/2309.12970v1 )

ライセンス: Link先を確認
Arnab Das, Suhita Ghosh and Sebastian Stober(参考訳) MRIによる詳細な画像は前立腺癌の診断と治療のための生命クリティカルな情報を提供する。 複雑なMRI画像の標準的な取得、解釈、使用のために、PI-RADS v2ガイドラインが提案された。 ガイドラインに従う自動セグメンテーションは、一貫性と正確な病変の検出、ステージング、および治療を容易にする。 ガイドラインでは、前立腺をpz(peripheral zone)、tz(transition zone)、dpu(distal prostatic urethra)、afs(anterior fibromuscular stroma)の4つのゾーンに分割することを推奨している。 すべてのゾーンが他のゾーンと境界を共有し、すべてのスライスに存在するわけではない。 さらに、単一のモデルによってキャプチャされた表現は、すべてのゾーンに対して十分ではないかもしれない。 これにより、各ブランチが接続されたゾーンの表現を別々にキャプチャするデュアルブランチ畳み込みニューラルネットワーク(cnn)を設計することになった。 さらに、異なるブランチからの表現はトレーニングの第2段階で相互に補完的であり、教師なしの損失によって微調整される。 この損失は、同じクラスの2つのブランチからの予測の違いを解析する。 また,セグメンテーション精度を向上させるために,マルチタスク学習をフレームワークに組み込んだ。 提案手法は, PZ, TZ, DPU, AFSゾーンにおいて, それぞれ7.56%, 11.00%, 58.43%, 19.67%の偏差精度を向上する。

The detailed images produced by Magnetic Resonance Imaging (MRI) provide life-critical information for the diagnosis and treatment of prostate cancer. To provide standardized acquisition, interpretation and usage of the complex MRI images, the PI-RADS v2 guideline was proposed. An automated segmentation following the guideline facilitates consistent and precise lesion detection, staging and treatment. The guideline recommends a division of the prostate into four zones, PZ (peripheral zone), TZ (transition zone), DPU (distal prostatic urethra) and AFS (anterior fibromuscular stroma). Not every zone shares a boundary with the others and is present in every slice. Further, the representations captured by a single model might not suffice for all zones. This motivated us to design a dual-branch convolutional neural network (CNN), where each branch captures the representations of the connected zones separately. Further, the representations from different branches act complementary to each other at the second stage of training, where they are fine-tuned through an unsupervised loss. The loss penalises the difference in predictions from the two branches for the same class. We also incorporate multi-task learning in our framework to further improve the segmentation accuracy. The proposed approach improves the segmentation accuracy of the baseline (mean absolute symmetric distance) by 7.56%, 11.00%, 58.43% and 19.67% for PZ, TZ, DPU and AFS zones respectively.
翻訳日:2023-09-25 14:01:18 公開日:2023-09-22
# わずかな例ですべてのものを検出する

Detect Every Thing with Few Examples ( http://arxiv.org/abs/2309.12969v1 )

ライセンス: Link先を確認
Xinyu Zhang, Yuting Wang, Abdeslam Boularias(参考訳) オープンセットオブジェクト検出は、トレーニング中に見られる以上の任意のカテゴリを検出することを目的としている。 最近の進歩はオープン語彙パラダイムを採用しており、視覚言語バックボーンを利用して言語によるカテゴリを表現している。 本稿では,視覚のみのDINOv2バックボーンを用いたオープンセットオブジェクト検出器であるDE-ViTを紹介し,言語の代わりにサンプル画像を用いて新しいカテゴリを学習する。 一般化検出能力を向上させるために,クラスごとの推論をバイパスしながら,複数分類タスクを二分分類タスクに変換する手法を提案する。 オープンボキャブラリ,少数ショット,ワンショットオブジェクト検出ベンチマークにおいて,COCO,LVISを用いてDe-ViTを評価する。 COCOでは、De-ViTはオープン語彙のSoTAを6.9 AP50で上回り、新しいクラスでは50 AP50を達成した。 DE-ViTは10ショットで15mAP、30ショットで7.2mAP、1ショットで2.8AP50のSoTAを上回る。 LVISでは、De-ViTは2.2マスクAPでオープン語彙SoTAより優れ、34.3マスクAPrに達する。 コードはhttps://github.com/mlzxy/devitで入手できる。

Open-set object detection aims at detecting arbitrary categories beyond those seen during training. Most recent advancements have adopted the open-vocabulary paradigm, utilizing vision-language backbones to represent categories with language. In this paper, we introduce DE-ViT, an open-set object detector that employs vision-only DINOv2 backbones and learns new categories through example images instead of language. To improve general detection ability, we transform multi-classification tasks into binary classification tasks while bypassing per-class inference, and propose a novel region propagation technique for localization. We evaluate DE-ViT on open-vocabulary, few-shot, and one-shot object detection benchmark with COCO and LVIS. For COCO, DE-ViT outperforms the open-vocabulary SoTA by 6.9 AP50 and achieves 50 AP50 in novel classes. DE-ViT surpasses the few-shot SoTA by 15 mAP on 10-shot and 7.2 mAP on 30-shot and one-shot SoTA by 2.8 AP50. For LVIS, DE-ViT outperforms the open-vocabulary SoTA by 2.2 mask AP and reaches 34.3 mask APr. Code is available at https://github.com/mlzxy/devit.
翻訳日:2023-09-25 14:00:51 公開日:2023-09-22
# 例外直交多項式に付随するディラック・ローレンツスカラーポテンシャルの1つの連続パラメータ群

One continuous parameter family of Dirac Lorentz scalar potentials associated with exceptional orthogonal polynomials ( http://arxiv.org/abs/2309.12965v1 )

ライセンス: Link先を確認
Suman Banerjee and Rajesh Kumar Yadav(参考訳) 我々は、最近の研究を拡張します [Int. J. Mod. Phys. A 38 (2023) 2350069-1] と、有理拡張されたディラック・ローレンツスカラーポテンシャルの族を、X_{m}$例外直交多項式の項で明示的な解で取得します。 さらに、パラメータ $\lambda \rightarrow 0$ または $-1$ として、対応する有理拡張パーシーと、始スカラーポテンシャルよりも1つの有界な状態を持つ有理拡張エイブラハム・モーゼス型スカラーポテンシャルが得られることを示す。

We extend our recent works [ Int. J. Mod. Phys. A 38 (2023) 2350069-1] and obtain one parameter $(\lambda)$ family of rationally extended Dirac Lorentz scalar potentials with their explicit solutions in terms of $X_{m}$ exceptional orthogonal polynomials. We further show that as the parameter $\lambda \rightarrow 0$ or $-1$, we get the corresponding rationally extended Pursey and the rationally extended Abraham-Moses type of scalar potentials respectively, which have one bound state less than the starting scalar potentials.
翻訳日:2023-09-25 14:00:28 公開日:2023-09-22
# Pivot要素認識によるネストイベント抽出

Nested Event Extraction upon Pivot Element Recogniton ( http://arxiv.org/abs/2309.12960v1 )

ライセンス: Link先を確認
Weicheng Ren, Zixuan Li, Xiaolong Jin, Long Bai, Miao Su, Yantao Liu, Saiping Guan, Jiafeng Guo, Xueqi Cheng(参考訳) nested event extraction (nee) は、あるイベントが他のイベントを再帰的に含む複雑なイベント構造を抽出することを目的としている。 ネストイベントは、外部イベントの引数や内部イベントのトリガーとして同時に機能し、ネストされた構造に接続する、ある種のPivot Elements(PE)を含む。 PEのこの特別な特徴は、PEの二重同一性にうまく対応できないため、既存のNEEメソッドに課題をもたらす。 そこで本研究では,PEの認識に基づくネストイベントを抽出するPerNeeというモデルを提案する。 具体的には、PerNeeはまず内部イベントと外部イベントの両方のトリガを認識し、さらにトリガペア間の関係タイプを分類することでPEを認識する。 NEEパフォーマンスをさらに向上するために、トリガと引数の表現を改善するために、イベントタイプと引数ロールの両方の情報を、迅速な学習を通じてPerNeeに組み込む。 既存のNEEデータセット(例えばGenia11)は特定のドメインに限定されており、入れ子構造を持つイベントタイプが狭いため、ネストされたイベントを系統的にジェネリックドメインに分類し、新しいNEEデータセット、ACE2005-Nestを構築する。 実験の結果,PerNeeはACE2005-Nest,Genia11,Genia13の最先端性能を一貫して達成していることがわかった。

Nested Event Extraction (NEE) aims to extract complex event structures where an event contains other events as its arguments recursively. Nested events involve a kind of Pivot Elements (PEs) that simultaneously act as arguments of outer events and as triggers of inner events, and thus connect them into nested structures. This special characteristic of PEs brings challenges to existing NEE methods, as they cannot well cope with the dual identities of PEs. Therefore, this paper proposes a new model, called PerNee, which extracts nested events mainly based on recognizing PEs. Specifically, PerNee first recognizes the triggers of both inner and outer events and further recognizes the PEs via classifying the relation type between trigger pairs. In order to obtain better representations of triggers and arguments to further improve NEE performance, it incorporates the information of both event types and argument roles into PerNee through prompt learning. Since existing NEE datasets (e.g., Genia11) are limited to specific domains and contain a narrow range of event types with nested structures, we systematically categorize nested events in generic domain and construct a new NEE dataset, namely ACE2005-Nest. Experimental results demonstrate that PerNee consistently achieves state-of-the-art performance on ACE2005-Nest, Genia11 and Genia13.
翻訳日:2023-09-25 14:00:10 公開日:2023-09-22
# 協調車体知覚におけるデータ生成について:攻撃と対策

On Data Fabrication in Collaborative Vehicular Perception: Attacks and Countermeasures ( http://arxiv.org/abs/2309.12955v1 )

ライセンス: Link先を確認
Qingzhao Zhang, Shuowei Jin, Jiachen Sun, Xumiao Zhang, Ruiyang Zhu, Qi Alfred Chen, Z. Morley Mao(参考訳) 外部リソースからのデータを取り入れることで、コネクテッドおよび自律走行車(CAV)の知覚能力を大幅に向上させる協調認識は、潜在的なセキュリティリスクをもたらす。 CAVの運転決定は、遠隔の信頼できないデータに依存しており、共同認識システムにおける悪意ある参加者による攻撃の影響を受けやすい。 しかし、こうした脅威に対するセキュリティ分析や対策は欠落している。 この脆弱性の影響を理解するために,攻撃者が悪質なデータを被害者に届ける様々なリアルタイムデータ作成攻撃を提案して,その認識結果を妨害し,ハードブレーキや衝突リスクを増大させる。 本攻撃は,高忠実度シミュレーションシナリオにおいて86\%以上の成功率を示し,実世界実験で実現可能である。 この脆弱性を緩和するために、良性車両が悪質な製造を共同で明らかにできる系統的異常検出手法を提案する。 シミュレーションシナリオでは偽陽性率3%の攻撃の91.5%を検出し、実際のシナリオでは攻撃の影響を著しく軽減する。

Collaborative perception, which greatly enhances the sensing capability of connected and autonomous vehicles (CAVs) by incorporating data from external resources, also brings forth potential security risks. CAVs' driving decisions rely on remote untrusted data, making them susceptible to attacks carried out by malicious participants in the collaborative perception system. However, security analysis and countermeasures for such threats are absent. To understand the impact of the vulnerability, we break the ground by proposing various real-time data fabrication attacks in which the attacker delivers crafted malicious data to victims in order to perturb their perception results, leading to hard brakes or increased collision risks. Our attacks demonstrate a high success rate of over 86\% on high-fidelity simulated scenarios and are realizable in real-world experiments. To mitigate the vulnerability, we present a systematic anomaly detection approach that enables benign vehicles to jointly reveal malicious fabrication. It detects 91.5% of attacks with a false positive rate of 3% in simulated scenarios and significantly mitigates attack impacts in real-world scenarios.
翻訳日:2023-09-25 13:59:45 公開日:2023-09-22
# 不対画像変換を用いたCT再構成カーネルのベンダー間調和化

Inter-vendor harmonization of Computed Tomography (CT) reconstruction kernels using unpaired image translation ( http://arxiv.org/abs/2309.12953v1 )

ライセンス: Link先を確認
Aravind R. Krishnan, Kaiwen Xu, Thomas Li, Chenyu Gao, Lucas W. Remedios, Praitayini Kanakaraj, Ho Hin Lee, Shunxing Bao, Kim L. Sandler, Fabien Maldonado, Ivana Isgum, Bennett A. Landman(参考訳) CT生成における再構成カーネルは、画像のテクスチャを決定する。 再構成カーネルの一貫性は、基礎となるCTテクスチャが定量的画像解析における測定に影響を及ぼすため重要である。 調和化(カーネル変換)は、一貫性のない再構成カーネルによる測定の差を最小限にする。 既存の方法では, 単体または複数メーカーにおけるCTスキャンの調和化が検討されている。 しかし、これらの方法は、空間的および解剖学的に整列した硬質と軟質の再構成カーネルのペアスキャンを必要とする。 さらに、多数のモデルがメーカー内のさまざまなカーネルペアでトレーニングされる必要がある。 本研究では,マルチパスサイクル生成型敵ネットワーク(gan)の構築により,異なるメーカーのレコンストラクションカーネル間の調和を調べるために,非ペア画像変換手法を適用した。 我々は,全国肺スクリーニング試験データセットのsiemensおよびgeベンダーのハードおよびソフトレコンストラクションカーネルを使用している。 各レコンストラクションカーネルから50のスキャンを使用して、マルチパスサイクルganをトレーニングします。 レコンストラクション・カーネルに対するハーモニゼーションの効果を評価するために,siemens hard kernel,ge soft kernel,ge hard kernelから参照siemens soft kernel (b30f)への50のスキャンと,1%の気腫の評価を行った。 我々は,年齢,喫煙状況,性別,ベンダーを考慮した線形モデルに適合し,気腫スコアの変動(ANOVA)の分析を行う。 本手法は気腫測定の差異を最小限に抑え, 年齢, 性別, 喫煙状況, ベンダーが気腫定量に及ぼす影響を明らかにする。

The reconstruction kernel in computed tomography (CT) generation determines the texture of the image. Consistency in reconstruction kernels is important as the underlying CT texture can impact measurements during quantitative image analysis. Harmonization (i.e., kernel conversion) minimizes differences in measurements due to inconsistent reconstruction kernels. Existing methods investigate harmonization of CT scans in single or multiple manufacturers. However, these methods require paired scans of hard and soft reconstruction kernels that are spatially and anatomically aligned. Additionally, a large number of models need to be trained across different kernel pairs within manufacturers. In this study, we adopt an unpaired image translation approach to investigate harmonization between and across reconstruction kernels from different manufacturers by constructing a multipath cycle generative adversarial network (GAN). We use hard and soft reconstruction kernels from the Siemens and GE vendors from the National Lung Screening Trial dataset. We use 50 scans from each reconstruction kernel and train a multipath cycle GAN. To evaluate the effect of harmonization on the reconstruction kernels, we harmonize 50 scans each from Siemens hard kernel, GE soft kernel and GE hard kernel to a reference Siemens soft kernel (B30f) and evaluate percent emphysema. We fit a linear model by considering the age, smoking status, sex and vendor and perform an analysis of variance (ANOVA) on the emphysema scores. Our approach minimizes differences in emphysema measurement and highlights the impact of age, sex, smoking status and vendor on emphysema quantification.
翻訳日:2023-09-25 13:59:25 公開日:2023-09-22
# 弱教師付き物体定位と意味セグメンテーションに対する背景アクティベーション抑制

Background Activation Suppression for Weakly Supervised Object Localization and Semantic Segmentation ( http://arxiv.org/abs/2309.12943v1 )

ライセンス: Link先を確認
Wei Zhai, Pingyu Wu, Kai Zhu, Yang Cao, Feng Wu, Zheng-Jun Zha(参考訳) 弱教師付きオブジェクトローカライゼーションとセマンティックセグメンテーションは、画像レベルのラベルのみを使用してオブジェクトをローカライズすることを目的としている。 近年,画素レベルの局所化を実現するためにフォアグラウンド予測マップ(fpm)を生成する新しいパラダイムが登場している。 既設のfpmに基づく手法では,前景予測マップの評価と生成者の学習指導にクロスエントロピーを用いるが,本論文では,前景マスクが拡大するにつれて,学習対象の局所化学習過程に関する驚くべき2つの実験結果を示す。 1)前景マスクが対象領域の一部のみを覆うと、クロスエントロピーはゼロに収束する。 2)前景マスクがオブジェクト境界まで広がるまで、アクティベーション値は継続的に増加する。 したがって、より効果的なローカライズ性能を達成するために、より多くのオブジェクト領域を学ぶためにアクティベーション値を使うことを議論する。 本稿では,背景活動抑制法(BAS)を提案する。 具体的には、背景アクティベーション値を抑制して、ジェネレータの学習を容易にするように、アクティベーションマップ制約(amc)モジュールを設計する。 一方、前景領域ガイダンスと領域制約を用いることで、BASは対象領域全体を学ぶことができる。 推定フェーズでは,様々なカテゴリの予測マップを組み合わせることで,最終的な局所化結果を得る。 大規模な実験により、BASは CUB-200-2011 および ILSVRC データセットのベースライン法よりも顕著で一貫した改善を達成している。 さらに,本手法は,pascal voc 2012およびms coco 2014データセット上で,最先端の教師付き意味セグメンテーション性能を実現する。 コードとモデルはhttps://github.com/wpy1999/bas-extensionで入手できる。

Weakly supervised object localization and semantic segmentation aim to localize objects using only image-level labels. Recently, a new paradigm has emerged by generating a foreground prediction map (FPM) to achieve pixel-level localization. While existing FPM-based methods use cross-entropy to evaluate the foreground prediction map and to guide the learning of the generator, this paper presents two astonishing experimental observations on the object localization learning process: For a trained network, as the foreground mask expands, 1) the cross-entropy converges to zero when the foreground mask covers only part of the object region. 2) The activation value continuously increases until the foreground mask expands to the object boundary. Therefore, to achieve a more effective localization performance, we argue for the usage of activation value to learn more object regions. In this paper, we propose a Background Activation Suppression (BAS) method. Specifically, an Activation Map Constraint (AMC) module is designed to facilitate the learning of generator by suppressing the background activation value. Meanwhile, by using foreground region guidance and area constraint, BAS can learn the whole region of the object. In the inference phase, we consider the prediction maps of different categories together to obtain the final localization results. Extensive experiments show that BAS achieves significant and consistent improvement over the baseline methods on the CUB-200-2011 and ILSVRC datasets. In addition, our method also achieves state-of-the-art weakly supervised semantic segmentation performance on the PASCAL VOC 2012 and MS COCO 2014 datasets. Code and models are available at https://github.com/wpy1999/BAS-Extension.
翻訳日:2023-09-25 13:59:00 公開日:2023-09-22
# trusta: 形式的手法と大規模言語モデルによる保証ケースの推論

Trusta: Reasoning about Assurance Cases with Formal Methods and Large Language Models ( http://arxiv.org/abs/2309.12941v1 )

ライセンス: Link先を確認
Zezhong Chen, Yuxin Deng, Wenjie Du(参考訳) 保証ケースは、安全工学における製品の安全性を主張するのに使用できる。 安全クリティカルな地域では、保証ケースの構築は不可欠である。 TDT(Trustworthiness Derivation Trees)は、形式的手法を取り入れた保証ケースを強化し、保証ケースに関する自動推論を可能にする。 我々は,tdtの自動構築と検証を目的としたデスクトップアプリケーションであるtrusta(trustworthiness derivation tree analyzer)を提案する。 このツールはバックエンドにprologインタプリタを内蔵しており、制約解決ツールz3とmonaがサポートしている。 したがって、算術、集合、ホーン節などを含む論理式に関する制約を解くことができる。 Trustaはまた、大きな言語モデルを使用して、保証ケースの作成と評価をより便利にする。 対話的な人間による検査と修正が可能である。 chatgpt-3.5,chatgpt-4,palm 2などの言語モデルを用いて保証ケースの生成を行った。 実験では, マシン生成症例とヒト生成症例の50%-80%の類似性を示した。 加えて、trustaは自然言語のテキストから形式的な制約を抽出でき、解釈と検証のプロセスが容易になる。 この抽出は、人間のレビューと修正の対象であり、自動化された効率と人間の洞察を混ぜ合わせています。 私たちの知る限り、これは保証ケースの自動作成と推論における大規模な言語モデルの初めての統合であり、従来の課題に新しいアプローチをもたらす。 インダストリアルケーススタディを通じて、トラスタは手動検査で見落とされる微妙な問題を素早く発見し、保証ケースの開発プロセスを強化する実践的な価値を証明した。

Assurance cases can be used to argue for the safety of products in safety engineering. In safety-critical areas, the construction of assurance cases is indispensable. Trustworthiness Derivation Trees (TDTs) enhance assurance cases by incorporating formal methods, rendering it possible for automatic reasoning about assurance cases. We present Trustworthiness Derivation Tree Analyzer (Trusta), a desktop application designed to automatically construct and verify TDTs. The tool has a built-in Prolog interpreter in its backend, and is supported by the constraint solvers Z3 and MONA. Therefore, it can solve constraints about logical formulas involving arithmetic, sets, Horn clauses etc. Trusta also utilizes large language models to make the creation and evaluation of assurance cases more convenient. It allows for interactive human examination and modification. We evaluated top language models like ChatGPT-3.5, ChatGPT-4, and PaLM 2 for generating assurance cases. Our tests showed a 50%-80% similarity between machine-generated and human-created cases. In addition, Trusta can extract formal constraints from text in natural languages, facilitating an easier interpretation and validation process. This extraction is subject to human review and correction, blending the best of automated efficiency with human insight. To our knowledge, this marks the first integration of large language models in automatic creating and reasoning about assurance cases, bringing a novel approach to a traditional challenge. Through several industrial case studies, Trusta has proven to quickly find some subtle issues that are typically missed in manual inspection, demonstrating its practical value in enhancing the assurance case development process.
翻訳日:2023-09-25 13:58:28 公開日:2023-09-22
# 自己説明促進は大規模言語モデルにおける対話理解を改善する

Self-Explanation Prompting Improves Dialogue Understanding in Large Language Models ( http://arxiv.org/abs/2309.12940v1 )

ライセンス: Link先を確認
Haoyu Gao, Ting-En Lin, Hangyu Li, Min Yang, Yuchuan Wu, Wentao Ma, Yongbin Li(参考訳) タスク指向対話(TOD)システムは、マルチターンダイアログを通じて様々なアクティビティをユーザが実行できるようにするが、Large Language Models(LLM)は複雑なコンテキストを理解するのにしばしば苦労する。 本研究では,多段対話におけるllmの理解能力を高めるための新しい「自己説明」戦略を提案する。 このタスクに依存しないアプローチでは、各対話発話をタスク実行前に分析する必要があるため、さまざまな対話中心タスクのパフォーマンスが向上する。 6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトを一貫して上回り,数ショットプロンプトの有効性を上回り,複雑な対話タスクにおけるLLMの理解を高める強力なツールとしての可能性を示す。

Task-oriented dialogue (TOD) systems facilitate users in executing various activities via multi-turn dialogues, but Large Language Models (LLMs) often struggle to comprehend these intricate contexts. In this study, we propose a novel "Self-Explanation" prompting strategy to enhance the comprehension abilities of LLMs in multi-turn dialogues. This task-agnostic approach requires the model to analyze each dialogue utterance before task execution, thereby improving performance across various dialogue-centric tasks. Experimental results from six benchmark datasets confirm that our method consistently outperforms other zero-shot prompts and matches or exceeds the efficacy of few-shot prompts, demonstrating its potential as a powerful tool in enhancing LLMs' comprehension in complex dialogue tasks.
翻訳日:2023-09-25 13:58:02 公開日:2023-09-22
# 機械翻訳におけるオーディエンス固有の説明

Audience-specific Explanations for Machine Translation ( http://arxiv.org/abs/2309.12998v1 )

ライセンス: Link先を確認
Renhan Lou, Jan Niehues(参考訳) 機械翻訳において一般的な問題は、翻訳しても特定の単語の翻訳が、異なる文化的背景から対象言語オーディエンスの理解を損なうことである。 この問題を解決する解決策は、これらの単語に説明を加えることである。 最初のステップでは、これらの単語やフレーズを識別する必要があります。 本研究では,並列コーパスから説明例を抽出する手法を検討する。 しかし、説明すべき単語を含む文の空間性は、トレーニングデータセットの構築を極めて困難にしている。 本研究では,大規模並列コーパスからこれらの説明を抽出する半自動手法を提案する。 英語とドイツ語のペアを用いた実験では, 10%以上の文が説明文を含むように文を抽出することができるが, 原文の1.9%のみが説明文を含む。 また、英語とフランス語と中国語のペアの実験も同様の結論を示した。 したがって、これは説明データセットを作成するための重要な最初の自動ステップである。 さらに,この手法は3つの言語ペアすべてに対して堅牢であることを示す。

In machine translation, a common problem is that the translation of certain words even if translated can cause incomprehension of the target language audience due to different cultural backgrounds. A solution to solve this problem is to add explanations for these words. In a first step, we therefore need to identify these words or phrases. In this work we explore techniques to extract example explanations from a parallel corpus. However, the sparsity of sentences containing words that need to be explained makes building the training dataset extremely difficult. In this work, we propose a semi-automatic technique to extract these explanations from a large parallel corpus. Experiments on English->German language pair show that our method is able to extract sentence so that more than 10% of the sentences contain explanation, while only 1.9% of the original sentences contain explanations. In addition, experiments on English->French and English->Chinese language pairs also show similar conclusions. This is therefore an essential first automatic step to create a explanation dataset. Furthermore we show that the technique is robust for all three language pairs.
翻訳日:2023-09-25 13:51:51 公開日:2023-09-22
# ガウス混合モデルに基づくワッサーシュタイン情報行列のスケーリング限界

Scaling Limits of the Wasserstein information matrix on Gaussian Mixture Models ( http://arxiv.org/abs/2309.12997v1 )

ライセンス: Link先を確認
Wuchen Li and Jiaxi Zhao(参考訳) ガウス混合モデル(gmms)上のワッサーシュタイン計量(waserstein metric)は、有限第二モーメントを持つ滑らかな確率分布の空間上の完全なワッサーシュタイン計量の引き戻しとして定義される。 これは、GMM上のワッサーシュタイン計量のスケーリング極限を通して、1次元の有界同質格子上の確率単純性に関するワッサーシュタイン計量のクラスに由来する。 具体的には、分散が 0 となるような GMM の列に対して、ある再正規化の後にワッサーシュタイン計量の極限が存在することを証明する。 一般のGMMにおけるこの計量の一般化は、格子ギャップが同じではない不均質格子モデル、ガウス成分の平均パラメータも変更可能な拡張GMM、スケーリング限界の高次情報を含む2次計量を含む。 さらに,gmms上のワッサースタイン勾配流れを,ポテンシャル,内部エネルギー,相互作用エネルギーの3つの典型的な関数について検討した。 数値例は,wasserstein勾配流の近似に対するgmmモデルの有効性を示す。

We consider the Wasserstein metric on the Gaussian mixture models (GMMs), which is defined as the pullback of the full Wasserstein metric on the space of smooth probability distributions with finite second moment. It derives a class of Wasserstein metrics on probability simplices over one-dimensional bounded homogeneous lattices via a scaling limit of the Wasserstein metric on GMMs. Specifically, for a sequence of GMMs whose variances tend to zero, we prove that the limit of the Wasserstein metric exists after certain renormalization. Generalizations of this metric in general GMMs are established, including inhomogeneous lattice models whose lattice gaps are not the same, extended GMMs whose mean parameters of Gaussian components can also change, and the second-order metric containing high-order information of the scaling limit. We further study the Wasserstein gradient flows on GMMs for three typical functionals: potential, internal, and interaction energies. Numerical examples demonstrate the effectiveness of the proposed GMM models for approximating Wasserstein gradient flows.
翻訳日:2023-09-25 13:51:39 公開日:2023-09-22
# point cloud network: 線形層パラメータ数におけるマグニチュード改善の一手法

Point Cloud Network: An Order of Magnitude Improvement in Linear Layer Parameter Count ( http://arxiv.org/abs/2309.12996v1 )

ライセンス: Link先を確認
Charles Hetterich(参考訳) 本稿では、ディープラーニングネットワークにおける線形層の実装であるポイントクラウドネットワーク(PCN)アーキテクチャを導入し、線形層における多層パーセプトロン(MLP)よりも優先されることを示す実証的な証拠を提供する。 線形層を直接比較するために,MLPとPCNアーキテクチャの両方を用いて,元のAlexNetを含む複数のモデルを訓練する(Krizhevsky et al., 2012)。 得られた主な結果は、CIFAR-10とCIFAR-100データセット(Krizhevsky, 2009)のモデルパラメータ数とトップ1テスト精度である。 AlexNet と同等の PCN である AlexNet-PCN16 は,線形層におけるパラメータの 99.5% 削減により,元のアーキテクチャに匹敵する等価性(テスト精度)を達成する。 すべてのトレーニングはクラウドRTX 4090 GPU上で行われ、モデルの構築とトレーニングにpytorchを活用する。 この論文から治験を再現するコードは誰でも提供される。

This paper introduces the Point Cloud Network (PCN) architecture, a novel implementation of linear layers in deep learning networks, and provides empirical evidence to advocate for its preference over the Multilayer Perceptron (MLP) in linear layers. We train several models, including the original AlexNet, using both MLP and PCN architectures for direct comparison of linear layers (Krizhevsky et al., 2012). The key results collected are model parameter count and top-1 test accuracy over the CIFAR-10 and CIFAR-100 datasets (Krizhevsky, 2009). AlexNet-PCN16, our PCN equivalent to AlexNet, achieves comparable efficacy (test accuracy) to the original architecture with a 99.5% reduction of parameters in its linear layers. All training is done on cloud RTX 4090 GPUs, leveraging pytorch for model construction and training. Code is provided for anyone to reproduce the trials from this paper.
翻訳日:2023-09-25 13:51:22 公開日:2023-09-22
# 活性物質のディープラーニング確率流とエントロピー生成率

Deep learning probability flows and entropy production rates in active matter ( http://arxiv.org/abs/2309.12991v1 )

ライセンス: Link先を確認
Nicholas M. Boffi and Eric Vanden-Eijnden(参考訳) 自己推進コロイドから運動性細菌への活性物質系は、顕微鏡スケールで、自由エネルギーを有用な仕事に変換することで特徴づけられる。 これらの系は一般に平衡統計力学の範囲を超えて物理学を包含しており、その非平衡状態の性質を理解することが永続的な課題である。 エントロピー生成速度と定常確率電流の大きさは、時間反転対称性の崩壊と測度の非平衡輸送の強さを測定することによって定量的な方法をもたらす。 しかし、それらの効率的な計算は、システムの未知かつ高次元の確率密度に依存するため、解明され続けている。 本稿では,生成モデリングの最近の進歩に基づいて,この密度のスコアを推定するディープラーニングフレームワークを開発した。 その結果, 運動の微視的方程式とともに, エントロピー生成率, 確率電流, およびそれらの分解が, 個々の粒子, 空間領域, 自由度から局所的な寄与に直接アクセスできることがわかった。 そこで本稿では,粒子間の高次相互作用を学習し,その基礎となる置換対称性を尊重する新しい空間的局所的トランスフォーマーベースのネットワークアーキテクチャを提案する。 運動誘発相分離(MIPS)による相互作用する活性粒子の高次元システムに適用することにより,本手法の幅広い有用性と拡張性を示す。 一方の充填分率で4096個の粒子の系で訓練されたネットワークの単一インスタンスは、最大32768個の粒子を含む相図の他の領域に一般化できることを示した。 本研究では, 粒子数と充填率の関数として, MIPSにおける平衡からの離脱の空間構造を定量化する。

Active matter systems, from self-propelled colloids to motile bacteria, are characterized by the conversion of free energy into useful work at the microscopic scale. These systems generically involve physics beyond the reach of equilibrium statistical mechanics, and a persistent challenge has been to understand the nature of their nonequilibrium states. The entropy production rate and the magnitude of the steady-state probability current provide quantitative ways to do so by measuring the breakdown of time-reversal symmetry and the strength of nonequilibrium transport of measure. Yet, their efficient computation has remained elusive, as they depend on the system's unknown and high-dimensional probability density. Here, building upon recent advances in generative modeling, we develop a deep learning framework that estimates the score of this density. We show that the score, together with the microscopic equations of motion, gives direct access to the entropy production rate, the probability current, and their decomposition into local contributions from individual particles, spatial regions, and degrees of freedom. To represent the score, we introduce a novel, spatially-local transformer-based network architecture that learns high-order interactions between particles while respecting their underlying permutation symmetry. We demonstrate the broad utility and scalability of the method by applying it to several high-dimensional systems of interacting active particles undergoing motility-induced phase separation (MIPS). We show that a single instance of our network trained on a system of 4096 particles at one packing fraction can generalize to other regions of the phase diagram, including systems with as many as 32768 particles. We use this observation to quantify the spatial structure of the departure from equilibrium in MIPS as a function of the number of particles and the packing fraction.
翻訳日:2023-09-25 13:51:07 公開日:2023-09-22
# ウィグナーの友情シナリオと非古典的因果適合性, モノガミー関係, 微調整との関係

Relating Wigner's Friend scenarios to Nonclassical Causal Compatibility, Monogamy Relations, and Fine Tuning ( http://arxiv.org/abs/2309.12987v1 )

ライセンス: Link先を確認
Y\`il\`e Y\=ing, Marina Maciel Ansanelli, Andrea Di Biagio, Elie Wolfe, Eric Gama Cavalcanti(参考訳) 非古典的因果モデリングは、相対論的因果構造と忠実性に固執しながらベルの不平等の違反を説明するために開発された。 近年、ベルの定理より強いノーゴー定理が導出され、ウィグナーの友人の思考実験であるローカルフレンドリネス(LF)のノーゴー定理の拡張に基づいている。 ここでは、LFのノーゴー定理は、非古典的あるいは循環的因果的説明が考慮されたとしても、因果的モデリングの分野において重大な課題をもたらすことを主張する。 LF-go定理の重要な要素の一つであるLF不等式を、統計的辺縁問題から生じる単ガミー関係の特別な場合として、まず、LF不等式を非古典的辺縁問題から生じる因果整合不等式として再送する。 一般に確率論的理論(GPT)やさらにエキゾチックな因果整合性処方など,観測事象の潜伏原因が量子後記述を許容している場合でも,LF不等式は因果モデリングの観点から現れる。 非古典的因果モデルでは、様々な動機付けられた因果関係の仮定を拒絶したり、No Fine-Tuning原則に違反したりすることなく、LF不等式違反を説明できないことが証明された。 最後に、循環因果モデルに訴えても、これらの障害は克服できないことに留意する。

Nonclassical causal modeling was developed in order to explain violations of Bell inequalities while adhering to relativistic causal structure and faithfulness -- that is, avoiding fine-tuned causal explanations. Recently, a no-go theorem stronger than Bell's theorem has been derived, based on extensions of Wigner's friend thought experiment: the Local Friendliness (LF) no-go theorem. We herein contend that LF no-go theorem poses formidable challenges for the field of causal modeling, even when nonclassical and/or cyclic causal explanations are considered. We first recast the LF inequalities, one of the key elements of the LF no-go theorem, as special cases of monogamy relations stemming from a statistical marginal problem; we then further recast LF inequalities as causal compatibility inequalities emerging from a nonclassical causal marginal problem. We find that the LF inequalities emerge from the causal modeling perspective even when allowing the latent causes of observed events to admit post-quantum descriptions, such as Generalised Probabilistic Theories (GPT) or even more exotic causal compatibility prescriptions. We prove that no nonclassical causal model can explain violations of LF inequalities without both rejecting various well-motivated causal-metaphysical assumptions and violating the No Fine-Tuning principle. Finally, we note that these obstacles cannot be overcome even if one were to appeal to cyclic causal models.
翻訳日:2023-09-25 13:50:39 公開日:2023-09-22
# ディッケ型モデルの1つの一般化

One generalization of the Dicke-type models ( http://arxiv.org/abs/2309.12984v1 )

ライセンス: Link先を確認
Denis V. Kurlov, Aleksey K. Fedorov, Alexandr Garkun, Vladimir Gritsev(参考訳) ガウディン型モデルに関連する代数的ベーテアンサッツの技法を用いて、Jaynes-Cummings と Tavis-Cummings モデルの可能な一般化の族を論じる。 特に、パラダイム的量子光学モデルを一般化する(実際には)非エルミート・ハミルトンの族を示す。 本研究のさらなる方向性は、得られた一般化モデルの物理的特性の研究を含む。

We discuss one family of possible generalizations of the Jaynes-Cummings and the Tavis-Cummings models using the technique of algebraic Bethe ansatz related to the Gaudin-type models. In particular, we present a family of (generically) non-Hermitian Hamiltonians that generalize paradigmatic quantum-optical models. Further directions of our research include studying physical properties of the obtained generalized models.
翻訳日:2023-09-25 13:50:08 公開日:2023-09-22
# カオス多体量子系における固有状態の統計的性質

The statistical properties of eigenstates in chaotic many-body quantum systems ( http://arxiv.org/abs/2309.12982v1 )

ライセンス: Link先を確認
Dominik Hahn, David J. Luitz, J. T. Chalker(参考訳) カオス多体量子系における時間進化作用素の固有状態の統計的性質を考察する。 我々は,空間拡張系に固有な固有状態と,絡み合いダイナミクスと演算子の拡散を特徴付ける固有状態との相関に着目した。 局所保存法則の結果として生じる力学のこれらの側面を分離するために,保存密度のないフロッケ系を考察する。 量子情報のスクランブルに関連する相関は、固有状態熱化仮説(ETH)によって確立された標準枠組みの外側にある。 特に、ethは固有状態のペア間の局所作用素の行列要素の統計的記述を提供するが、我々が関心を持つ力学の側面は4つ以上の固有状態の集合間の相関から生じる。 これらの相関を捉えた最も単純な相関関数を確立し、遠距離と低エネルギーで普遍性が期待できる挙動の特徴について論じる。 また、小数$n$の固有状態の共分散に対する最大エントロピーアンサッツを提案する。 この場合、$n = 2$ この Ansatz は ETH を再現する。 $n = 4$の場合、時間進化演算子の純粋性によって特徴づけられるサブシステム間の絡み合いによる成長と、時間外相関子の振舞いによって特徴づけられる演算子拡散の両方をキャプチャする。 これらのアイデアを、アンサッツのモンテカルロサンプリングの結果と、フロッケ量子回路の正確な対角化の研究を比較して検証する。

We consider the statistical properties of eigenstates of the time-evolution operator in chaotic many-body quantum systems. Our focus is on correlations between eigenstates that are specific to spatially extended systems and that characterise entanglement dynamics and operator spreading. In order to isolate these aspects of dynamics from those arising as a result of local conservation laws, we consider Floquet systems in which there are no conserved densities. The correlations associated with scrambling of quantum information lie outside the standard framework established by the eigenstate thermalisation hypothesis (ETH). In particular, ETH provides a statistical description of matrix elements of local operators between pairs of eigenstates, whereas the aspects of dynamics we are concerned with arise from correlations amongst sets of four or more eigenstates. We establish the simplest correlation function that captures these correlations and discuss features of its behaviour that are expected to be universal at long distances and low energies. We also propose a maximum-entropy Ansatz for the joint distribution of a small number $n$ of eigenstates. In the case $n = 2$ this Ansatz reproduces ETH. For $n = 4$ it captures both the growth with time of entanglement between subsystems, as characterised by the purity of the time-evolution operator, and also operator spreading, as characterised by the behaviour of the out-of-time-order correlator. We test these ideas by comparing results from Monte Carlo sampling of our Ansatz with exact diagonalisation studies of Floquet quantum circuits.
翻訳日:2023-09-25 13:50:03 公開日:2023-09-22
# 環空洞における量子強化su(1,1)マター波干渉法

Quantum enhanced SU(1,1) matter wave interferometry in a ring cavity ( http://arxiv.org/abs/2309.12980v1 )

ライセンス: Link先を確認
Ivor Kre\v{s}i\'c and Thorsten Ackemann(参考訳) 量子圧縮状態は、古典的状態と比較してメトロロジー的な拡張を与える。 本稿では、環空洞内の超低温原子の準周期非線形波混合ダイナミクスを用いて、標準量子極限を超えたsu(1,1)干渉法を考案し、数値的に検討する。 この方法は、光子を介する光力学的相互作用によって多くの原子間の量子相関を生成することに基づいている。 干渉計動作の時間スケールは、フォトニックリコイル周波数の逆転によって与えられ、衝突スピン混合型干渉計の時間スケールよりも桁違いに短い。 このような短い時間スケールは、より高速な測定サイクルを可能にするだけでなく、測定中にトラップから原子の損失を減少させる。

Quantum squeezed states offer metrological enhancement as compared to their classical counterparts. Here, we devise and numerically explore a novel method for performing SU(1,1) interferometry beyond the standard quantum limit, using quasi-cyclic nonlinear wave mixing dynamics of ultracold atoms in a ring cavity. The method is based on generating quantum correlations between many atoms via photon mediated optomechanical interaction. Timescales of the interferometer operation are here given by the inverse of photonic recoil frequency, and are orders of magnitude shorter than the timescales of collisional spin-mixing based interferometers. Such shorter timescales should enable not only faster measurement cycles, but also lower atomic losses from the trap during measurement, which may lead to significant quantum metrological gain of matter wave interferometry in state of the art cavity setups.
翻訳日:2023-09-25 13:49:37 公開日:2023-09-22
# 強調と境界駆動を伴う自由フェルミオン:bethe ansatzの結果

Free fermions with dephasing and boundary driving: Bethe Ansatz results ( http://arxiv.org/abs/2309.12978v1 )

ライセンス: Link先を確認
Vincenzo Alba(参考訳) リンドブラッド方程式を用いることで、バルクデファス化と境界損失を受ける長さ$L$のフリーフェルミオン連鎖に対する2点相関器の進化を導出する。 我々は、Bethe ansatzを使って、Liouvillian ${\mathcal L}^{\scriptstyle(2)}$を対角化する。 エネルギー準位の大部分は複雑である。 正確には、$L(L-1)/2$複素エネルギーは、自明なシフトを除いて、デファーズに依存しない。 残りの複素レベルは、大きな$l$のデファスメント非依存レベルと摂動的に関係している。 長期間のダイナミクスは、広範囲のレベルを含む実エネルギーのバンドによって制御される。 これらは、境界を無視できる中間の時間に拡散的スケーリングを引き起こす。 さらに、漸近的に長い時間に拡散の破壊を符号化する。 興味深いことに、大きな損失率では、2つの境界モードがスペクトルに現れる。 実エネルギーはベーテ方程式の弦解に対応し、大きな鎖に対して効果的に扱うことができる。 これにより、フェルミオン密度のダイナミクスのコンパクトな公式を導出することができる。 私たちは結果を正確な対角化からチェックし、完全な合意を見つけます。

By employing the Lindblad equation, we derive the evolution of the two-point correlator for a free-fermion chain of length $L$ subject to bulk dephasing and boundary losses. We use the Bethe ansatz to diagonalize the Liouvillian ${\mathcal L}^{\scriptscriptstyle(2)}$ governing the dynamics of the correlator. The majority of its energy levels are complex. Precisely, $L(L-1)/2$ complex energies do not depend on dephasing, apart for a trivial shift. The remaining complex levels are perturbatively related to the dephasing-independent ones for large $L$. The long-time dynamics is governed by a band of real energies, which contains an extensive number of levels. They give rise to diffusive scaling at intermediate times, when boundaries can be neglected. Moreover, they encode the breaking of diffusion at asymptotically long times. Interestingly, for large loss rate two boundary modes appear in the spectrum. The real energies correspond to string solutions of the Bethe equations, and can be treated effectively for large chains. This allows us to derive compact formulas for the dynamics of the fermionic density. We check our results against exact diagonalization, finding perfect agreement.
翻訳日:2023-09-25 13:49:21 公開日:2023-09-22
# 多角ビューモデルに基づくライセンスプレート認識

License Plate Recognition Based On Multi-Angle View Model ( http://arxiv.org/abs/2309.12972v1 )

ライセンス: Link先を確認
Dat Tran-Anh, Khanh Linh Tran, Hoai-Nam Vu(参考訳) 研究の領域では、カメラが捉えた画像やビデオ内のテキストの検出と認識が、研究者にとって非常に難しい問題となっている。 精度の高いある程度の進歩にもかかわらず、現在の手法は実際的なシナリオに適用するためにかなりの改善が必要である。 本稿では,画像・ビデオのテキスト検出から分岐して,異なる視点の複数のフレームをマージすることで,ライセンスプレート内のテキスト検出の問題に対処する。 提案手法は,各視点において,ライセンスプレートのテキストコンポーネント,特にコーナーポイントとエリアを特徴付ける記述的特徴を抽出する。 具体的には、類似度レベルと距離の測定値に基づいて、同一のナンバープレートラインからテキストコンポーネントの復元を容易にする最も近いコンポーネントを特定するために、 View-1, view-2, view-3 の3つの視点を示す。 その後,ライセンスプレート内のテキスト認識にcnocr方式を採用する。 様々なシナリオで画像のペアを構成する自己収集データセット(PTITPlates)と、利用可能なStanford Cars Datasetの実験結果から、提案手法が既存手法よりも優れていることを示す。

In the realm of research, the detection/recognition of text within images/videos captured by cameras constitutes a highly challenging problem for researchers. Despite certain advancements achieving high accuracy, current methods still require substantial improvements to be applicable in practical scenarios. Diverging from text detection in images/videos, this paper addresses the issue of text detection within license plates by amalgamating multiple frames of distinct perspectives. For each viewpoint, the proposed method extracts descriptive features characterizing the text components of the license plate, specifically corner points and area. Concretely, we present three viewpoints: view-1, view-2, and view-3, to identify the nearest neighboring components facilitating the restoration of text components from the same license plate line based on estimations of similarity levels and distance metrics. Subsequently, we employ the CnOCR method for text recognition within license plates. Experimental results on the self-collected dataset (PTITPlates), comprising pairs of images in various scenarios, and the publicly available Stanford Cars Dataset, demonstrate the superiority of the proposed method over existing approaches.
翻訳日:2023-09-25 13:49:04 公開日:2023-09-22
# 動的asr経路:多言語asrモデルの効率的なpruningへの適応的マスキングアプローチ

Dynamic ASR Pathways: An Adaptive Masking Approach Towards Efficient Pruning of A Multilingual ASR Model ( http://arxiv.org/abs/2309.13018v1 )

ライセンス: Link先を確認
Jiamin Xie, Ke Li, Jinxi Guo, Andros Tjandra, Yuan Shangguan, Leda Sari, Chunyang Wu, Junteng Jia, Jay Mahadeokar, Ozlem Kalinli(参考訳) ニューラルネットワークプルーニングは、多言語自動音声認識(ASR)モデルを最小性能の損失で圧縮する有効な方法を提供する。 しかし、各言語で実行するためには、数ラウンドのプルーニングと再トレーニングが必要になる。 本研究では,多言語ASRモデルを効率的に刈り取るための2つのシナリオにおいて,適応マスキング手法を用いることを提案し,その結果,スパースモノリンガルモデルやスパースマルチリンガルモデル(Dynamic ASR Pathways)が得られた。 提案手法は,固定サブネットワーク構造に関する未熟な決定を回避し,動的にサブネットワークに適応する。 提案手法は, スパース単言語モデルを対象とした場合, 既存のプルーニング手法よりも優れていることを示す。 さらに、動的ASRパスウェイは、異なるサブネットワークの初期化から適応することで、単一のマルチ言語モデルのより優れたサブネットワーク(パス)を共同で発見し、訓練することにより、言語固有のプルーニングの必要性を低減する。

Neural network pruning offers an effective method for compressing a multilingual automatic speech recognition (ASR) model with minimal performance loss. However, it entails several rounds of pruning and re-training needed to be run for each language. In this work, we propose the use of an adaptive masking approach in two scenarios for pruning a multilingual ASR model efficiently, each resulting in sparse monolingual models or a sparse multilingual model (named as Dynamic ASR Pathways). Our approach dynamically adapts the sub-network, avoiding premature decisions about a fixed sub-network structure. We show that our approach outperforms existing pruning methods when targeting sparse monolingual models. Further, we illustrate that Dynamic ASR Pathways jointly discovers and trains better sub-networks (pathways) of a single multilingual model by adapting from different sub-network initializations, thereby reducing the need for language-specific pruning.
翻訳日:2023-09-25 13:41:20 公開日:2023-09-22
# 逆影響関数による深い勾配の漏洩の理解

Understanding Deep Gradient Leakage via Inversion Influence Functions ( http://arxiv.org/abs/2309.13016v1 )

ライセンス: Link先を確認
Haobo Zhang, Junyuan Hong, Yuyang Deng, Mehrdad Mahdavi, Jiayu Zhou(参考訳) Deep Gradient Leakage (DGL)は、勾配ベクトルからプライベートトレーニングイメージを復元する非常に効果的な攻撃である。 この攻撃は、クライアントが勾配を共有する必要がある機密データを持つクライアントからの分散学習に重大なプライバシー上の問題を引き起こす。 このような攻撃に対する防御は必要だが、特にディープネットワークのブラックボックス的性質のために、いつ、どのようにプライバシーの漏洩が起こるかの理解を欠いている。 本稿では,dgl問題を暗黙的に解くことにより,復元画像とプライベート勾配との閉形式接続を確立する新しい逆影響関数(i$^2$f)を提案する。 DGLと直接的に比較すると、I$^2$Fはディープネットワークを解析するのにスケーラブルであり、グラデーションやヤコビアンベクター製品へのオラクルアクセスのみを必要とする。 I$^2$Fは、一般的に異なるモデルアーキテクチャ、データセット、アタック実装、ノイズベースの防御に基づいてDGLを効果的に近似したことを実証的に実証した。 この新しいツールでは、効果的な勾配摂動方向、プライバシー保護の不公平性、およびプライバシ優先モデル初期化に関する洞察を提供する。 私たちのコードはhttps://github.com/illidanlab/inversion-influence-functionで提供される。

Deep Gradient Leakage (DGL) is a highly effective attack that recovers private training images from gradient vectors. This attack casts significant privacy challenges on distributed learning from clients with sensitive data, where clients are required to share gradients. Defending against such attacks requires but lacks an understanding of when and how privacy leakage happens, mostly because of the black-box nature of deep networks. In this paper, we propose a novel Inversion Influence Function (I$^2$F) that establishes a closed-form connection between the recovered images and the private gradients by implicitly solving the DGL problem. Compared to directly solving DGL, I$^2$F is scalable for analyzing deep networks, requiring only oracle access to gradients and Jacobian-vector products. We empirically demonstrate that I$^2$F effectively approximated the DGL generally on different model architectures, datasets, attack implementations, and noise-based defenses. With this novel tool, we provide insights into effective gradient perturbation directions, the unfairness of privacy protection, and privacy-preferred model initialization. Our codes are provided in https://github.com/illidanlab/inversion-influence-function.
翻訳日:2023-09-25 13:41:02 公開日:2023-09-22
# アルゴリズム, アーキテクチャ, データフロー共設計を用いた効率的なN:MスパースDNN訓練

Efficient N:M Sparse DNN Training Using Algorithm, Architecture, and Dataflow Co-Design ( http://arxiv.org/abs/2309.13015v1 )

ライセンス: Link先を確認
Chao Fang, Wei Sun, Aojun Zhou, Zhongfeng Wang(参考訳) スパーストレーニングは高い精度を維持しながらDNNの計算コストを削減するための有望な手法の1つである。 特に N:M の微細構造は, 連続する M 要素のうち N 個の N しかゼロにできないが, ハードウェアフレンドリーなパターンと高いスパース比を達成する能力により注目されている。 しかし、N:MスパースDNNトレーニングを加速する可能性は十分に活用されておらず、N:Mスパーストレーニングを効率的にサポートするハードウェアが不足している。 これらの課題に対処するために,アルゴリズム,アーキテクチャ,データフロー共設計を用いたN:MスパースDNNの計算効率向上学習手法を提案する。 アルゴリズムレベルでは、BDWPと呼ばれる双方向の重み付け法が提案され、DNNトレーニングの前後パスにおける重みのN:M間隔を利用して、モデル精度を維持しながら計算コストを大幅に削減できる。 アーキテクチャレベルでは、通常の高密度演算と計算効率のN:Mスパース演算の両方を適切にサポートするために、DNNトレーニング用のスパースアクセラレータSATが開発された。 データフローレベルでは、SATの計算効率を高めるために、インターリーブマッピング、N:Mスパース重みの事前生成、オフラインスケジューリングなど、複数の最適化手法が提案されている。 最後に,各種DNNモデルとデータセットを用いて,Xilinx VCU1525FPGAカード上でのトレーニング手法の有効性を評価する。 実験の結果, BDWPスパース訓練法を2:8スパース比で行うSAT加速器は, 高密度トレーニング法に比べて平均1.75倍の高速化を実現し, 平均0.56%の精度低下が認められた。 さらに,提案手法により,従来のFPGAアクセラレータよりも2.97~25.22x,エネルギー効率が1.36~3.58x向上した。

Sparse training is one of the promising techniques to reduce the computational cost of DNNs while retaining high accuracy. In particular, N:M fine-grained structured sparsity, where only N out of consecutive M elements can be nonzero, has attracted attention due to its hardware-friendly pattern and capability of achieving a high sparse ratio. However, the potential to accelerate N:M sparse DNN training has not been fully exploited, and there is a lack of efficient hardware supporting N:M sparse training. To tackle these challenges, this paper presents a computation-efficient training scheme for N:M sparse DNNs using algorithm, architecture, and dataflow co-design. At the algorithm level, a bidirectional weight pruning method, dubbed BDWP, is proposed to leverage the N:M sparsity of weights during both forward and backward passes of DNN training, which can significantly reduce the computational cost while maintaining model accuracy. At the architecture level, a sparse accelerator for DNN training, namely SAT, is developed to neatly support both the regular dense operations and the computation-efficient N:M sparse operations. At the dataflow level, multiple optimization methods ranging from interleave mapping, pre-generation of N:M sparse weights, and offline scheduling, are proposed to boost the computational efficiency of SAT. Finally, the effectiveness of our training scheme is evaluated on a Xilinx VCU1525 FPGA card using various DNN models and datasets. Experimental results show the SAT accelerator with the BDWP sparse training method under 2:8 sparse ratio achieves an average speedup of 1.75x over that with the dense training, accompanied by a negligible accuracy loss of 0.56% on average. Furthermore, our proposed training scheme significantly improves the training throughput by 2.97~25.22x and the energy efficiency by 1.36~3.58x over prior FPGA-based accelerators.
翻訳日:2023-09-25 13:40:43 公開日:2023-09-22
# 混合次元量子計算のためのグラフィカル言語 qufinite zxw calculus の完全性

Completeness of qufinite ZXW calculus, a graphical language for mixed-dimensional quantum computing ( http://arxiv.org/abs/2309.13014v1 )

ライセンス: Link先を確認
Quanlong Wang and Boldizs\'ar Po\'or(参考訳) 有限次元量子理論は、2次元量子ビット、d次元量子ビットとその相互作用に基づく量子情報と計算の理論的基礎となる。 定規のZX計算は混合次元量子コンピューティングの枠組みとして使われてきたが、完全性の重要な性質に欠けており、任意の方程式を証明するのに十分なルールが組み込まれている。 ZXW計算(ZXW calculus)は、チューイット量子コンピューティングのための完全な言語であり、これまではZXまたはZW計算のみでは適用できない。 本稿では,混合次元量子計算のための1つのフレームワークにおいて,すべてのqudit zxw計算の統一化である qufinite zxw calculus を紹介する。 我々は、有限次元量子論の計算を完結させる一連の書き換え規則と一意な正規形式を提供する。 この研究は、量子化学、コンパイル、量子多体システムを含む量子コンピューティングのさまざまな領域に現れる混合次元回路とテンソルネットワークの最適化の道を開いた。

Finite-dimensional quantum theory serves as the theoretical foundation for quantum information and computation based on 2-dimensional qubits, d-dimensional qudits, and their interactions. The qufinite ZX calculus has been used as a framework for mixed-dimensional quantum computing; however, it lacked the crucial property of completeness, which ensures that the calculus incorporates a set of rules rich enough to prove any equation. The ZXW calculus is a complete language for qudit quantum computing with applications previously unreachable solely with the ZX or ZW calculus. In this paper, we introduce the qufinite ZXW calculus, a unification of all qudit ZXW calculi in a single framework for mixed-dimensional quantum computing. We provide a set of rewrite rules and a unique normal form that make the calculus complete for finite-dimensional quantum theory. This work paves the way for the optimization of mixed dimensional circuits and tensor networks appearing in different areas of quantum computing including quantum chemistry, compilation, and quantum many-body systems.
翻訳日:2023-09-25 13:40:04 公開日:2023-09-22
# 医用画像分割のためのunetおよび変種の性能解析

Performance Analysis of UNet and Variants for Medical Image Segmentation ( http://arxiv.org/abs/2309.13013v1 )

ライセンス: Link先を確認
Walid Ehab and Yongmin Li(参考訳) 医療画像は、内部構造や異常を非侵襲的に可視化し、早期疾患の検出、正確な診断、治療計画を可能にすることで、現代医療において重要な役割を担っている。 本研究の目的は,深層学習モデル,特にUNetアーキテクチャとその変種に着目した医療画像セグメンテーションの応用を検討することである。 我々は,これらのモデルの性能を,画像正規化,再サイズ化,アーキテクチャの選択,損失関数設計,ハイパーパラメータチューニングといった課題に対処する,様々な課題のある医療画像セグメンテーションタスクで評価する。 以上の結果から, ディープネットワーク層を拡張した場合, 標準unetは熟練した医用画像セグメンテーションモデルであり, res-unet と attention res-unet アーキテクチャは, 特に詳細な画像詳細を扱う場合に, よりスムーズに収束し, 優れた性能を示す。 この研究は、注意深い前処理と損失関数定義によるハイクラス不均衡の課題にも対処している。 本研究の結果は,これらのモデルを新しい医用画像問題に適用し,その実施のためのガイダンスとベストプラクティスを提供する研究者に有用な洞察を与えるものと期待されている。

Medical imaging plays a crucial role in modern healthcare by providing non-invasive visualisation of internal structures and abnormalities, enabling early disease detection, accurate diagnosis, and treatment planning. This study aims to explore the application of deep learning models, particularly focusing on the UNet architecture and its variants, in medical image segmentation. We seek to evaluate the performance of these models across various challenging medical image segmentation tasks, addressing issues such as image normalization, resizing, architecture choices, loss function design, and hyperparameter tuning. The findings reveal that the standard UNet, when extended with a deep network layer, is a proficient medical image segmentation model, while the Res-UNet and Attention Res-UNet architectures demonstrate smoother convergence and superior performance, particularly when handling fine image details. The study also addresses the challenge of high class imbalance through careful preprocessing and loss function definitions. We anticipate that the results of this study will provide useful insights for researchers seeking to apply these models to new medical imaging problems and offer guidance and best practices for their implementation.
翻訳日:2023-09-25 13:39:46 公開日:2023-09-22
# ReConcile: 異種LDM間の合意によるラウンドテイブル会議の改善

ReConcile: Round-Table Conference Improves Reasoning via Consensus among Diverse LLMs ( http://arxiv.org/abs/2309.13007v1 )

ライセンス: Link先を確認
Justin Chih-Yao Chen, Swarnadeep Saha, Mohit Bansal(参考訳) 大規模言語モデル(LLM)は複雑な推論タスクに苦戦している。 心の社会に動機づけられたReConcile(1988年、ミンスキー)は、多種多様なLLMエージェント間のラウンドテーブル会議として設計されたマルチモデルマルチエージェントフレームワークで、多様な思考と議論を育成し、コンセンサスを改善する。 ReConcileは、複数の議論をし、他のエージェントを説得して回答を改善することを学び、自信に富んだ投票機構を採用することで、LCMの推論能力を高める。 各ラウンドにおいて、reconcileはエージェント間の議論を「議論のプロンプト」を通じて開始する。 (a)前ラウンドの各エージェントが生成したグループ化された回答及び説明 (b)不確実性、及び (c)他のエージェントを説得するために使用される回答訂正人間の説明のデモンストレーション。 この議論は各エージェントが他のエージェントからの洞察に基づいて応答を修正できるようにする。 合意に達し、議論が終わると、ReConcileは各エージェントの信頼を重み付けされた投票方式で活用することで最終回答を決定する。 3つのエージェントとして、ChatGPT、Bard、Claude2でReConcileを実装します。 様々なベンチマークを用いた実験の結果,reconcileはエージェント(個人とチームの両方)の推論性能を大幅に向上させ,先行するシングルエージェントとマルチエージェントのベースラインを7.7%上回り,これらのデータセットでgpt-4を上回った。 また、GPT-4自体をReConcileのエージェントとして実験し、その初期性能が他のエージェントからの議論やフィードバックによって絶対10.0%向上することが実証された。 最後に,ラウンド毎の正確性を分析し,マルチエージェントの議論ベースラインと比較して,コンセンサスがエージェント間のコンセンサスを良好かつ高速に達成することを確認する。 私たちのコードは、https://github.com/dinobby/ReConcileで利用可能です。

Large Language Models (LLMs) still struggle with complex reasoning tasks. Motivated by the society of minds (Minsky, 1988), we propose ReConcile, a multi-model multi-agent framework designed as a round table conference among diverse LLM agents to foster diverse thoughts and discussion for improved consensus. ReConcile enhances the reasoning capabilities of LLMs by holding multiple rounds of discussion, learning to convince other agents to improve their answers, and employing a confidence-weighted voting mechanism. In each round, ReConcile initiates discussion between agents via a 'discussion prompt' that consists of (a) grouped answers and explanations generated by each agent in the previous round, (b) their uncertainties, and (c) demonstrations of answer-rectifying human explanations, used for convincing other agents. This discussion prompt enables each agent to revise their responses in light of insights from other agents. Once a consensus is reached and the discussion ends, ReConcile determines the final answer by leveraging the confidence of each agent in a weighted voting scheme. We implement ReConcile with ChatGPT, Bard, and Claude2 as the three agents. Our experimental results on various benchmarks demonstrate that ReConcile significantly enhances the reasoning performance of the agents (both individually and as a team), surpassing prior single-agent and multi-agent baselines by 7.7% and also outperforming GPT-4 on some of these datasets. We also experiment with GPT-4 itself as one of the agents in ReConcile and demonstrate that its initial performance also improves by absolute 10.0% through discussion and feedback from other agents. Finally, we also analyze the accuracy after every round and observe that ReConcile achieves better and faster consensus between agents, compared to a multi-agent debate baseline. Our code is available at: https://github.com/dinobby/ReConcile
翻訳日:2023-09-25 13:39:24 公開日:2023-09-22
# Deep3DSketch+: シングルフリーハンドスケッチによる高速3Dモデリング

Deep3DSketch+: Rapid 3D Modeling from Single Free-hand Sketches ( http://arxiv.org/abs/2309.13006v1 )

ライセンス: Link先を確認
Tianrun Chen, Chenglong Fu, Ying Zang, Lanyun Zhu, Jia Zhang, Papa Mao, Lingyun Sun(参考訳) AR/VRの急速な発展は、3Dコンテンツに対する大きな需要をもたらします。 広く使われているCAD(Computer-Aided Design)法は、時間と労力を要するモデリングプロセスを必要とするが、スケッチベースの3Dモデリングは、コンピュータと人間のインタラクションの自然な形態として潜在的ソリューションを提供する。 しかし、スケッチの控えめさとあいまいさは、クリエイターの考えを反映した忠実なコンテンツを作ることを困難にしている。 複数のビューや戦略的なステップバイステップの図面からの正確な図面は、課題に取り組むために必要となることが多いが、初心者ユーザーには親しみやすいものではない。 本研究では,1つのフリーハンドスケッチのみを用いて,複数のスケッチやビュー情報を入力せずに3Dモデリングを行う,新しいエンドツーエンドアプローチであるDeep3DSketch+を紹介する。 具体的には、リアルタイムの効率的な推論のための軽量な生成ネットワークと、ストローク拡張モジュール(SEM)を用いた構造認識対向訓練手法を導入し、構造情報をキャプチャして、高忠実度性能のための現実的で詳細な形状構造の学習を容易にする。 広範な実験により,合成データと実データの両方において,最先端(sota)性能を用いたアプローチの有効性が実証された。

The rapid development of AR/VR brings tremendous demands for 3D content. While the widely-used Computer-Aided Design (CAD) method requires a time-consuming and labor-intensive modeling process, sketch-based 3D modeling offers a potential solution as a natural form of computer-human interaction. However, the sparsity and ambiguity of sketches make it challenging to generate high-fidelity content reflecting creators' ideas. Precise drawing from multiple views or strategic step-by-step drawings is often required to tackle the challenge but is not friendly to novice users. In this work, we introduce a novel end-to-end approach, Deep3DSketch+, which performs 3D modeling using only a single free-hand sketch without inputting multiple sketches or view information. Specifically, we introduce a lightweight generation network for efficient inference in real-time and a structural-aware adversarial training approach with a Stroke Enhancement Module (SEM) to capture the structural information to facilitate learning of the realistic and fine-detailed shape structures for high-fidelity performance. Extensive experiments demonstrated the effectiveness of our approach with the state-of-the-art (SOTA) performance on both synthetic and real datasets.
翻訳日:2023-09-25 13:38:51 公開日:2023-09-22
# ドメイン間のシーケンシャルオートエンコーダによる反事実公平性追求

Pursuing Counterfactual Fairness via Sequential Autoencoder Across Domains ( http://arxiv.org/abs/2309.13005v1 )

ライセンス: Link先を確認
Yujie Lin, Chen Zhao, Minglai Shao, Baoluo Meng, Xujiang Zhao, Haifeng Chen(参考訳) 機械学習における共通課題としてドメインシフトが広まることを認識し,アウト・オブ・ディストリビューション(ood)データを扱う機械学習システムの性能を高めるために,様々なドメイン一般化(dg)手法が開発されている。 さらに、実世界のシナリオでは、データ分散はシーケンシャルなドメインのシーケンス間で徐々に変化することができる。 現在の方法論は主にこれらの新しい領域におけるモデルの有効性の改善に焦点を当てているが、学習プロセス全体を通して公平性の問題を見落としていることが多い。 これに応答して,シーケンシャルオートエンコーダ(cdsae)を用いたファクトファクトフルフェアネスアウェアドメイン一般化という革新的な枠組みを提案する。 このアプローチは, 環境情報やセンシティブな属性を, 分類特徴の埋め込み表現から効果的に分離する。 この同時分離は、多様かつ不慣れな領域におけるモデルの一般化を大幅に改善するだけでなく、不公平な分類に関わる課題に効果的に対処する。 私たちの戦略は、これらの二重問題に取り組むための因果推論の原則に根ざしています。 セマンティクス情報とセンシティブな属性と環境要因の複雑な関係を調べるために,外因性不確実性因子を4つの潜在変数に体系的に分類する。 1)敏感な属性に影響された意味情報 2)機密属性の影響を受けない意味情報 3)敏感な属性に影響された環境基準 4) 環境基準は, 感度特性の影響を受けない。 公平性の正規化を組み込むことで、分類目的にのみ意味情報を用いる。 合成および実世界のデータセットに対する実証的検証は、我々のアプローチの有効性を裏付け、改善された精度レベルを示しながら、継続的なドメインの進化する景観における公正性の維持を保証する。

Recognizing the prevalence of domain shift as a common challenge in machine learning, various domain generalization (DG) techniques have been developed to enhance the performance of machine learning systems when dealing with out-of-distribution (OOD) data. Furthermore, in real-world scenarios, data distributions can gradually change across a sequence of sequential domains. While current methodologies primarily focus on improving model effectiveness within these new domains, they often overlook fairness issues throughout the learning process. In response, we introduce an innovative framework called Counterfactual Fairness-Aware Domain Generalization with Sequential Autoencoder (CDSAE). This approach effectively separates environmental information and sensitive attributes from the embedded representation of classification features. This concurrent separation not only greatly improves model generalization across diverse and unfamiliar domains but also effectively addresses challenges related to unfair classification. Our strategy is rooted in the principles of causal inference to tackle these dual issues. To examine the intricate relationship between semantic information, sensitive attributes, and environmental cues, we systematically categorize exogenous uncertainty factors into four latent variables: 1) semantic information influenced by sensitive attributes, 2) semantic information unaffected by sensitive attributes, 3) environmental cues influenced by sensitive attributes, and 4) environmental cues unaffected by sensitive attributes. By incorporating fairness regularization, we exclusively employ semantic information for classification purposes. Empirical validation on synthetic and real-world datasets substantiates the effectiveness of our approach, demonstrating improved accuracy levels while ensuring the preservation of fairness in the evolving landscape of continuous domains.
翻訳日:2023-09-25 13:38:28 公開日:2023-09-22
# 表現型変分量子回路は連合学習に固有のプライバシを提供する

Expressive variational quantum circuits provide inherent privacy in federated learning ( http://arxiv.org/abs/2309.13002v1 )

ライセンス: Link先を確認
Niraj Kumar, Jamie Heredge, Changhao Li, Shaltiel Eloul, Shree Hari Sureshbabu, and Marco Pistoia(参考訳) フェデレーション学習は、中央アグリゲータとデータを共有する必要なく、マシンラーニングモデルをトレーニングするための実行可能な分散ソリューションとして登場した。 しかし、標準的なニューラルネットワークベースのフェデレーション学習モデルは、サーバと共有される勾配からのデータ漏洩の影響を受けやすいことが示されている。 本研究では,過パラメータans\"atzeを結合した表現型エンコーディングマップを用いて,変動量子回路モデルを用いたフェデレート学習を提案する。 表現型マップは勾配反転攻撃に対して固有のプライバシをもたらし、過剰パラメータ化はモデルのトレーサビリティを保証する。 我々のプライバシーフレームワークは、量子回路の勾配によって生成される高次多変量チェビシェフ多項式のシステムを解く複雑さに焦点を当てている。 我々は,これらの方程式を完全かつ近似的に解くことの難しさを強調する説得力のある議論を行う。 さらに、機械学習に基づく攻撃戦略を考察し、元のフェデレーション学習モデルのオーバーパラメータ化と攻撃モデルのアンダーパラメータ化との直接的な関係を確立する。 さらに,攻撃モデルにおける表現型マップの過度パラメータ化が,指数関数的に多くの局所的最小点を持つ損失景観に繋がることを示すため,攻撃を成功させるのは非常に困難である。 これは、量子機械学習モデルの性質が本質的に連合学習におけるデータの漏洩を防ぐのに役立つという、初めて強い主張を与える。

Federated learning has emerged as a viable distributed solution to train machine learning models without the actual need to share data with the central aggregator. However, standard neural network-based federated learning models have been shown to be susceptible to data leakage from the gradients shared with the server. In this work, we introduce federated learning with variational quantum circuit model built using expressive encoding maps coupled with overparameterized ans\"atze. We show that expressive maps lead to inherent privacy against gradient inversion attacks, while overparameterization ensures model trainability. Our privacy framework centers on the complexity of solving the system of high-degree multivariate Chebyshev polynomials generated by the gradients of quantum circuit. We present compelling arguments highlighting the inherent difficulty in solving these equations, both in exact and approximate scenarios. Additionally, we delve into machine learning-based attack strategies and establish a direct connection between overparameterization in the original federated learning model and underparameterization in the attack model. Furthermore, we provide numerical scaling arguments showcasing that underparameterization of the expressive map in the attack model leads to the loss landscape being swamped with exponentially many spurious local minima points, thus making it extremely hard to realize a successful attack. This provides a strong claim, for the first time, that the nature of quantum machine learning models inherently helps prevent data leakage in federated learning.
翻訳日:2023-09-25 13:38:03 公開日:2023-09-22
# 縮合双極子-双極子相互作用による密度工学:軸閉じ込めと超固体

Density engineering via inter-condensate dipole-dipole interactions: axial confinement and supersolids ( http://arxiv.org/abs/2309.13000v1 )

ライセンス: Link先を確認
Pranay Nayak, Ratheejit Ghosh, Rejish Nath(参考訳) 双極子-双極子相互作用の長距離および異方性の性質をエクスプロットすることにより、双極子-アインシュタイン凝縮体の密度を、トラップされた双極子凝縮体を用いて設計し、軸に閉じ込めることができることを示す。 制御凝縮数の増加は、超固体や密度ピークの非一貫性配列を含むエキゾチックな基底状態構造をもたらす。 単一および二重ピーク周期構造は、制御凝縮物間の間隔の関数として観察される。 我々のアイデアは、他の双極子量子システムを同様の双極子キャラクタの1つを使って設計するために一般化されるかもしれない。 例えば、電気双極子モーメントを持つリドバーグ原子は、閉じ込められた極性分子で閉じ込められ、その逆は長距離双極子-双極子相互作用によって操作される。

Exploiting the long-range and anisotropic nature of dipole-dipole interactions, we show that the density of a {\em target} dipolar Bose-Einstein condensate can be engineered and axially confined using a trapped {\em control} dipolar condensate. Increasing the number of control condensates leads to exotic ground state structures, including supersolids and an incoherent array of density peaks. Single and double-peaked periodic structures are observed as a function of spacing between the control condensates. Our ideas may be generalized to engineer any other dipolar quantum system using another one of a similar dipole character. For instance, a Rydberg atom with electric dipole moment may be confined and manipulated using a trapped polar molecule and vice versa via long-range dipole-dipole interactions.
翻訳日:2023-09-25 13:37:38 公開日:2023-09-22
# ナビゲーションのためのE(2)-同変グラフ計画

E(2)-Equivariant Graph Planning for Navigation ( http://arxiv.org/abs/2309.13043v1 )

ライセンス: Link先を確認
Linfeng Zhao, Hongyu Li, Taskin Padir, Huaizu Jiang, Lawson L.S. Wong(参考訳) ロボットナビゲーションの学習は、重要かつ困難な課題である。 現実世界のデータセットの不足とコストは、効率的な学習アプローチを必要とします。 本稿では,基準フレーム間のユークリッド変換を起源としパラメータ共有を可能にする2次元ナビゲーション計画において,ユークリッド対称性を利用する。 非構造化環境の課題に対処するために,幾何学グラフの計画としてナビゲーション問題を定式化し,等価メッセージパッシングネットワークを開発し,値反復を行う。 さらに,マルチカメラ入力を処理するために,特徴を所望の空間に持ち上げるための学習可能な同変層を提案する。 構造化された環境と非構造化された環境を含む5つのタスクと、与えられたポイントゴールやセマンティックゴールのマップを総合的に評価する。 実験により, 訓練効率, 安定性, 一般化に有意な効果が確認できた。

Learning for robot navigation presents a critical and challenging task. The scarcity and costliness of real-world datasets necessitate efficient learning approaches. In this letter, we exploit Euclidean symmetry in planning for 2D navigation, which originates from Euclidean transformations between reference frames and enables parameter sharing. To address the challenges of unstructured environments, we formulate the navigation problem as planning on a geometric graph and develop an equivariant message passing network to perform value iteration. Furthermore, to handle multi-camera input, we propose a learnable equivariant layer to lift features to a desired space. We conduct comprehensive evaluations across five diverse tasks encompassing structured and unstructured environments, along with maps of known and unknown, given point goals or semantic goals. Our experiments confirm the substantial benefits on training efficiency, stability, and generalization.
翻訳日:2023-09-25 13:32:08 公開日:2023-09-22
# MosaicFusion:大語彙インスタンスセグメンテーションのためのデータオーグメンタとしての拡散モデル

MosaicFusion: Diffusion Models as Data Augmenters for Large Vocabulary Instance Segmentation ( http://arxiv.org/abs/2309.13042v1 )

ライセンス: Link先を確認
Jiahao Xie, Wei Li, Xiangtai Li, Ziwei Liu, Yew Soon Ong, Chen Change Loy(参考訳) MosaicFusionは、大語彙のインスタンスセグメンテーションのための、単純で効果的な拡散に基づくデータ拡張手法である。 本手法はトレーニングフリーであり,ラベル管理に依存しない。 2つの重要な設計により、既存のテキストから画像への拡散モデルを、オブジェクトインスタンスとマスクアノテーションのための有用なデータセットジェネレータとして利用することができます。 まず、画像キャンバスを複数の領域に分割し、1ラウンドの拡散処理を行い、複数のインスタンスを同時に生成し、異なるテキストプロンプトを条件とする。 第2に,オブジェクトプロンプトと拡散時間ステップに関連付けられたクロスアテンションマップを集約し,簡単なしきい値処理とエッジ認識精錬処理によって対応するインスタンスマスクを得る。 鐘や笛がなければ、MosaicFusionは珍しいカテゴリーと新しいカテゴリの両方で大量の合成ラベル付きデータを生成できます。 LVISロングテールおよびオープンボキャブラリベンチマークの実験結果から,MosaicFusionが既存のインスタンスセグメンテーションモデル,特にレアおよび新規カテゴリの性能を大幅に向上できることが示された。 コードはhttps://github.com/jiahao000/mosaicfusionでリリースされる。

We present MosaicFusion, a simple yet effective diffusion-based data augmentation approach for large vocabulary instance segmentation. Our method is training-free and does not rely on any label supervision. Two key designs enable us to employ an off-the-shelf text-to-image diffusion model as a useful dataset generator for object instances and mask annotations. First, we divide an image canvas into several regions and perform a single round of diffusion process to generate multiple instances simultaneously, conditioning on different text prompts. Second, we obtain corresponding instance masks by aggregating cross-attention maps associated with object prompts across layers and diffusion time steps, followed by simple thresholding and edge-aware refinement processing. Without bells and whistles, our MosaicFusion can produce a significant amount of synthetic labeled data for both rare and novel categories. Experimental results on the challenging LVIS long-tailed and open-vocabulary benchmarks demonstrate that MosaicFusion can significantly improve the performance of existing instance segmentation models, especially for rare and novel categories. Code will be released at https://github.com/Jiahao000/MosaicFusion.
翻訳日:2023-09-25 13:31:55 公開日:2023-09-22
# 価値表現によるインターネットビデオからのロボットオフラインRL

Robotic Offline RL from Internet Videos via Value-Function Pre-Training ( http://arxiv.org/abs/2309.13041v1 )

ライセンス: Link先を確認
Chethan Bhateja, Derek Guo, Dibya Ghosh, Anikait Singh, Manan Tomar, Quan Vuong, Yevgen Chebotar, Sergey Levine, Aviral Kumar(参考訳) インターネットデータの事前学習は、多くの現代のMLシステムにおいて、広範な一般化の鍵となる要素であることが証明されている。 ロボット強化学習(RL)でそのような機能を実現するには、何が必要か? ロボット体験のデータセットから学習するオフラインRLメソッドは、ロボット学習パイプラインに事前データを活用するための1つの方法を提供する。 しかし、これらの手法は、ロボティクスで利用可能な最大の先行データセットであるビデオデータ(ego4dなど)と「タイプミスマッチ」を持っている。 本稿では,時間差学習による学習価値関数に基づくロボットオフラインRLにおける大規模人間のビデオデータセットの活用システムを開発する。 ビデオデータセットにおける価値学習は,ビデオデータから学習する他の手法よりも下流のロボット・オフラインrlに通じる表現を学習する。 我々のシステムは、V-PTRと呼ばれ、ビデオデータに対する事前トレーニングの利点と、多様なロボットデータをトレーニングするロボットオフラインRLアプローチを組み合わせることで、より良いパフォーマンス、堅牢な動作、広範囲に一般化するタスクに対する価値関数とポリシーをもたらす。 実際のWidowXロボット上での操作タスクにおいて、我々のフレームワークは従来の方法よりも大幅に改善されたポリシーを生成する。 ビデオと追加情報はhttps://dibyaghosh.com/vptr/で確認できます。

Pre-training on Internet data has proven to be a key ingredient for broad generalization in many modern ML systems. What would it take to enable such capabilities in robotic reinforcement learning (RL)? Offline RL methods, which learn from datasets of robot experience, offer one way to leverage prior data into the robotic learning pipeline. However, these methods have a "type mismatch" with video data (such as Ego4D), the largest prior datasets available for robotics, since video offers observation-only experience without the action or reward annotations needed for RL methods. In this paper, we develop a system for leveraging large-scale human video datasets in robotic offline RL, based entirely on learning value functions via temporal-difference learning. We show that value learning on video datasets learns representations that are more conducive to downstream robotic offline RL than other approaches for learning from video data. Our system, called V-PTR, combines the benefits of pre-training on video data with robotic offline RL approaches that train on diverse robot data, resulting in value functions and policies for manipulation tasks that perform better, act robustly, and generalize broadly. On several manipulation tasks on a real WidowX robot, our framework produces policies that greatly improve over prior methods. Our video and additional details can be found at https://dibyaghosh.com/vptr/
翻訳日:2023-09-25 13:31:21 公開日:2023-09-22
# 強反発二層モデルにおける創発的feshbach共鳴からのペアリングドーム

Pairing dome from an emergent Feshbach resonance in a strongly repulsive bilayer model ( http://arxiv.org/abs/2309.13040v1 )

ライセンス: Link先を確認
Hannah Lange, Lukas Homeier, Eugene Demler, Ulrich Schollw\"ock, Annabelle Bohrdt and Fabian Grusdt(参考訳) 従来の超伝導を理解する鍵は、ドープ反強磁性体における移動電荷キャリアのペアリング機構を解き明かすことであり、強い反発性クーロン相互作用が存在する場合でも電荷間の効果的なアトラクションをもたらす。 本稿では, 有限ドーピング系において強く強化された, 強い結合エネルギーを持つ二層ニッケルの最小モデルにおけるペアリングについて検討する。 混合次元 (mixD) $t-J$ ladder は、小さな反発で密に束縛された穴 (閉チャネル) から、大きな反発でより空間的に拡張され、相関した個々の穴 (オープンチャネル) の対へと交差する。 我々は、原子Feshbach共鳴に類似して、アトラクションが閉じたチャネルによって媒介される、後者の効果的なモデルを引き出す。 密度行列再正規化群 (DMRG) シミュレーションを用いて, 約30 %$ドーピングで大きな結合エネルギーのドームを明らかにし, 隣接する2つのスピン電荷励起対からなるプラケットのテトラパルトン密度波の形成を観察した。 我々の研究は、ドープ量子磁石、特にni系超伝導体におけるペアリングの微視的理論への道を開くものであり、我々の予測は最先端の量子シミュレータで検証できる。

A key to understanding unconventional superconductivity lies in unraveling the pairing mechanism of mobile charge carriers in doped antiferromagnets, yielding an effective attraction between charges even in the presence of strong repulsive Coulomb interactions. Here, we study pairing in a minimal model of bilayer nickelates, featuring robust binding energies - despite dominant repulsive interactions - that are strongly enhanced in the finite doping regime. The mixed-dimensional (mixD) $t-J$ ladder we study features a crossover from tightly bound pairs of holes (closed channel) at small repulsion, to more spatially extended, correlated pairs of individual holes (open channel) at large repulsion. We derive an effective model for the latter, in which the attraction is mediated by the closed channel, in analogy to atomic Feshbach resonances. Using density matrix renormalization group (DMRG) simulations we reveal a dome of large binding energies at around $30\%$ doping and we observe the formation of a tetraparton density wave of plaquettes consisting of two spin-charge excitation pairs on neighboring rungs. Our work paves the way towards a microscopic theory of pairing in doped quantum magnets, in particular Ni-based superconductors, and our predictions can be tested in state-of-the-art quantum simulators.
翻訳日:2023-09-25 13:30:42 公開日:2023-09-22
# NeRRF: ニューラル屈折場を有する透明・特異物体の3次元再構成とビュー合成

NeRRF: 3D Reconstruction and View Synthesis for Transparent and Specular Objects with Neural Refractive-Reflective Fields ( http://arxiv.org/abs/2309.13039v1 )

ライセンス: Link先を確認
Xiaoxue Chen, Junchen Liu, Hao Zhao, Guyue Zhou, Ya-Qin Zhang(参考訳) ニューラル放射場(NeRF)は画像ベースビュー合成の分野に革命をもたらした。 しかし、NeRFは直線線を使用し、屈折や反射によって引き起こされる複雑な光路の変化に対処できない。 これにより、NeRFは、現実世界のロボティクスやA/VRアプリケーションにおいてユビキタスである透明またはスペキュラオブジェクトの合成に成功しない。 本稿では屈折反射場について紹介する。 対象シルエットを入力として、まずプログレッシブエンコーディングによるマーチング・テトラヘドラを用いて、非ランベルト的対象の幾何学を再構成し、フレネル項を用いた統一的な枠組みで物体の屈折と反射効果をモデル化する。 一方,効果的なアンチエイリアシングを実現するために,仮想コーンスーパーサンプリング手法を提案する。 本手法は,実世界と合成データの両方において異なる形状,背景,フレネル項で評価する。 また, 材料編集, オブジェクト置換・挿入, 環境照明推定など, 様々な編集アプリケーションのレンダリング結果を質的に定量的に評価する。 コードとデータはhttps://github.com/dawning77/NeRRFで公開されている。

Neural radiance fields (NeRF) have revolutionized the field of image-based view synthesis. However, NeRF uses straight rays and fails to deal with complicated light path changes caused by refraction and reflection. This prevents NeRF from successfully synthesizing transparent or specular objects, which are ubiquitous in real-world robotics and A/VR applications. In this paper, we introduce the refractive-reflective field. Taking the object silhouette as input, we first utilize marching tetrahedra with a progressive encoding to reconstruct the geometry of non-Lambertian objects and then model refraction and reflection effects of the object in a unified framework using Fresnel terms. Meanwhile, to achieve efficient and effective anti-aliasing, we propose a virtual cone supersampling technique. We benchmark our method on different shapes, backgrounds and Fresnel terms on both real-world and synthetic datasets. We also qualitatively and quantitatively benchmark the rendering results of various editing applications, including material editing, object replacement/insertion, and environment illumination estimation. Codes and data are publicly available at https://github.com/dawning77/NeRRF.
翻訳日:2023-09-25 13:30:12 公開日:2023-09-22
# 再構成画像のプライバシー評価:既存の評価基準は人間の知覚に忠実か?

Privacy Assessment on Reconstructed Images: Are Existing Evaluation Metrics Faithful to Human Perception? ( http://arxiv.org/abs/2309.13038v1 )

ライセンス: Link先を確認
Xiaoxiao Sun, Nidham Gazagnadou, Vivek Sharma, Lingjuan Lyu, Hongdong Li, Liang Zheng(参考訳) PSNRやSSIMなどの手作り画像品質指標は、リコンストラクション攻撃時のモデルプライバシリスクを評価するために一般的に使用される。 これらの指標の下では、元のものに似ていると判断された再構成された画像は、一般的によりプライバシーの漏洩を示す。 一方、全体的な類似点として決定された画像は、攻撃に対してより高い堅牢性を示している。 しかし、これらの指標が人間の意見をよく反映しているという保証はなく、モデルプライバシーリークの判断として、より信頼に値するものである。 本稿では,これらの手作りメトリクスの忠実さを,再構成画像からの人間のプライバシー情報の認識に包括的に研究する。 自然画像や顔から細粒度クラスまで,5つのデータセットにおいて,既存の4つの攻撃手法を用いて,様々な分類モデルから画像を再構成し,各再構成画像に対して,その画像が認識可能かどうかを複数の人間注釈者に対して評価する。 我々の研究によると、手作りのメトリクスは、人間のプライバシー漏洩評価と弱い相関しか持たず、これらの指標自体もしばしば矛盾している。 これらの観察は、コミュニティにおける現在のメトリクスのリスクを示唆している。 この潜在的なリスクに対処するために,SemSimと呼ばれる学習ベースの尺度を提案し,オリジナル画像と再構成画像のセマンティック類似性を評価する。 SemSimは、元のイメージをアンカーとして、認識可能な再構成イメージの1つを正のサンプルとして、認識できないイメージを負のサンプルとして、標準的な三重項損失で訓練されている。 人間のアノテーションをトレーニングすることで、SemSimはセマンティックレベルでのプライバシー漏洩をより深く反映する。 semsimは,既存の指標と比較して,人間の判断と有意に高い相関関係を示す。 さらに、この強い相関関係は、見えないデータセット、モデル、攻撃メソッドに一般化する。

Hand-crafted image quality metrics, such as PSNR and SSIM, are commonly used to evaluate model privacy risk under reconstruction attacks. Under these metrics, reconstructed images that are determined to resemble the original one generally indicate more privacy leakage. Images determined as overall dissimilar, on the other hand, indicate higher robustness against attack. However, there is no guarantee that these metrics well reflect human opinions, which, as a judgement for model privacy leakage, are more trustworthy. In this paper, we comprehensively study the faithfulness of these hand-crafted metrics to human perception of privacy information from the reconstructed images. On 5 datasets ranging from natural images, faces, to fine-grained classes, we use 4 existing attack methods to reconstruct images from many different classification models and, for each reconstructed image, we ask multiple human annotators to assess whether this image is recognizable. Our studies reveal that the hand-crafted metrics only have a weak correlation with the human evaluation of privacy leakage and that even these metrics themselves often contradict each other. These observations suggest risks of current metrics in the community. To address this potential risk, we propose a learning-based measure called SemSim to evaluate the Semantic Similarity between the original and reconstructed images. SemSim is trained with a standard triplet loss, using an original image as an anchor, one of its recognizable reconstructed images as a positive sample, and an unrecognizable one as a negative. By training on human annotations, SemSim exhibits a greater reflection of privacy leakage on the semantic level. We show that SemSim has a significantly higher correlation with human judgment compared with existing metrics. Moreover, this strong correlation generalizes to unseen datasets, models and attack methods.
翻訳日:2023-09-25 13:29:52 公開日:2023-09-22
# 超伝導トランスモン量子ドット上での量子機械学習の符号化最適化

Encoding optimization for quantum machine learning demonstrated on a superconducting transmon qutrit ( http://arxiv.org/abs/2309.13036v1 )

ライセンス: Link先を確認
Shuxiang Cao, Weixi Zhang, Jules Tilly, Abhishek Agarwal, Mustafa Bakr, Giulio Campanaro, Simone D Fasciati, James Wills, Boris Shteynas, Vivek Chidambaram, Peter Leek and Ivan Rungger(参考訳) 3レベル量子システムであるクトリットは、等価量子回路を構築するのに通常使用される2レベル量子ビットよりも少ない成分を必要とする可能性があるという利点がある。 本研究は,機械学習の分類応用における量子パラメトリック回路の可能性について検討する。 本研究では,クトリットに対して異なるデータエンコーディング方式を提案し評価し,使用するエンコーディングによって分類精度が著しく異なることを見出した。 そこで我々は,高い分類精度を一貫して達成できる符号化最適化のトレーニング手法を提案する。 理論的解析と数値シミュレーションにより, 量子ビットシステムよりも少ない成分を用いて高い分類精度が得られることを示す。 提案手法の実用性を示すため, 超電導トランスモンクトリット上での最適化符号化法を用いてクトリットの分類を行い, 提案手法の実用性を示す。 本研究は、より少ない回路要素を用いた高精度3次分類を実証し、量子機械学習応用のための実用的で効率的なツールとしてクォートパラメトリック量子回路を確立する。

Qutrits, three-level quantum systems, have the advantage of potentially requiring fewer components than the typically used two-level qubits to construct equivalent quantum circuits. This work investigates the potential of qutrit parametric circuits in machine learning classification applications. We propose and evaluate different data-encoding schemes for qutrits, and find that the classification accuracy varies significantly depending on the used encoding. We therefore propose a training method for encoding optimization that allows to consistently achieve high classification accuracy. Our theoretical analysis and numerical simulations indicate that the qutrit classifier can achieve high classification accuracy using fewer components than a comparable qubit system. We showcase the qutrit classification using the optimized encoding method on superconducting transmon qutrits, demonstrating the practicality of the proposed method on noisy hardware. Our work demonstrates high-precision ternary classification using fewer circuit elements, establishing qutrit parametric quantum circuits as a viable and efficient tool for quantum machine learning applications.
翻訳日:2023-09-25 13:29:24 公開日:2023-09-22
# 長期ASR改善のためのメモリ拡張コンバータ

Memory-augmented conformer for improved end-to-end long-form ASR ( http://arxiv.org/abs/2309.13029v1 )

ライセンス: Link先を確認
Carlos Carvalho and Alberto Abad(参考訳) コンフォーマーは、最近、自動音声認識(ASR)のための有望なモデリングアプローチとして提案され、リカレントニューラルネットワークベースのアプローチやトランスフォーマーよりも優れている。 しかしながら、一般にこれらのエンドツーエンドモデル、特に注意に基づくモデルの性能は、長い発話の場合特に劣化している。 この制限に対処するために、コンバータのエンコーダとデコーダの間に、完全微分可能なメモリ拡張ニューラルネットワークを追加することを提案する。 この外部メモリは、システムがより多くの情報を保存し、再帰的に取得できるため、より長い発話の一般化を強化することができる。 特に,ASR のための Conformer-NTM モデルアーキテクチャを提案するニューラルチューリングマシン (NTM) について検討する。 Librispeech train-clean-100 と Train-960 を用いた実験結果から,提案方式は長い発話の記憶のないベースラインコンバータよりも優れていた。

Conformers have recently been proposed as a promising modelling approach for automatic speech recognition (ASR), outperforming recurrent neural network-based approaches and transformers. Nevertheless, in general, the performance of these end-to-end models, especially attention-based models, is particularly degraded in the case of long utterances. To address this limitation, we propose adding a fully-differentiable memory-augmented neural network between the encoder and decoder of a conformer. This external memory can enrich the generalization for longer utterances since it allows the system to store and retrieve more information recurrently. Notably, we explore the neural Turing machine (NTM) that results in our proposed Conformer-NTM model architecture for ASR. Experimental results using Librispeech train-clean-100 and train-960 sets show that the proposed system outperforms the baseline conformer without memory for long utterances.
翻訳日:2023-09-25 13:29:07 公開日:2023-09-22
# 一様負荷下での強化パネルの応力予測のためのグラフニューラルネットワーク

Graph Neural Network for Stress Predictions in Stiffened Panels Under Uniform Loading ( http://arxiv.org/abs/2309.13022v1 )

ライセンス: Link先を確認
Yuecheng Cai, Jasmin Jelovica(参考訳) 機械学習(ml)とディープラーニング(dl)の技術は、有限要素分析(fea)のような計算コストの高い構造分析手法への縮小順序モデル(rom)として注目されている。 グラフニューラルネットワーク(GNN)は、グラフとして表現可能なデータを処理する特定のタイプのニューラルネットワークである。 これにより、構造や製品の概念設計中に変化する複雑な幾何学の効率的な表現が可能になる。 本研究では, 分割プレート領域を頂点として, 3次元剛化パネルを効率的に表現するための新しいグラフ埋め込み手法を提案する。 この手法はグラフサンプリング・アグリゲーション(GraphSAGE)を用いて、異なるジオメトリを持つ強化パネルの応力分布を予測する。 有限要素-頂点グラフ表現の比較を行い,提案手法の有効性を示す。 構造幾何学が予測性能に与える影響を総合的なパラメトリック研究により検討した。 本研究では,3次元構造に対するロバストな低次モデルとしてグラフ埋め込み法を用いて,グラフニューラルネットワークの膨大な可能性を示す。

Machine learning (ML) and deep learning (DL) techniques have gained significant attention as reduced order models (ROMs) to computationally expensive structural analysis methods, such as finite element analysis (FEA). Graph neural network (GNN) is a particular type of neural network which processes data that can be represented as graphs. This allows for efficient representation of complex geometries that can change during conceptual design of a structure or a product. In this study, we propose a novel graph embedding technique for efficient representation of 3D stiffened panels by considering separate plate domains as vertices. This approach is considered using Graph Sampling and Aggregation (GraphSAGE) to predict stress distributions in stiffened panels with varying geometries. A comparison between a finite-element-vertex graph representation is conducted to demonstrate the effectiveness of the proposed approach. A comprehensive parametric study is performed to examine the effect of structural geometry on the prediction performance. Our results demonstrate the immense potential of graph neural networks with the proposed graph embedding method as robust reduced-order models for 3D structures.
翻訳日:2023-09-25 13:28:48 公開日:2023-09-22
# ハイブリッド深層学習に基づく環境選択による最適遺伝子型決定手法

A Hybrid Deep Learning-based Approach for Optimal Genotype by Environment Selection ( http://arxiv.org/abs/2309.13021v1 )

ライセンス: Link先を確認
Zahra Khalilzadeh, Motahareh Kashanian, Saeed Khaki, Lizhi Wang(参考訳) 精密な収穫予測は、農業慣行を改善し、様々な気候における作物の弾力性を確保するために不可欠である。 気候データの統合は、特に様々な作物種において、気候変動に直面して適応性を理解する上で重要である。 MLCAS2021 Crop Yield Prediction Challengeでは、米国28州とカナダの159カ所を13年間にわたってカバーし、93,028のトレーニング記録を10,337件の試験記録の収量予測に利用した(2003-2015)。 このデータセットには、5,838の異なる遺伝子型と214日間の生育シーズンの日々の気象データが含まれており、包括的な分析を可能にしている。 優勝チームのひとつとして,CNNと完全接続ネットワークを組み合わせたCNN-DNNモデル,CNN-LSTM-DNNモデルという2つの新しい畳み込みニューラルネットワーク(CNN)アーキテクチャを開発した。 一般化アンサンブル法(gem)を用いて最適モデル重みを決定し,ベースラインモデルと比較して優れた性能を得た。 GEMモデルはRMSEを低く(5.55%から39.88%)、MAEを小さく(5.34%から43.76%)、相関係数を高く(1.1%から10.79%)した。 我々はcnn-dnnモデルを用いて,様々な場所や気象条件における最高パフォーマンス遺伝子型を同定し,気象変数に基づく遺伝子型選択を支援する。 データ駆動のアプローチは、テスト期間が限定されたシナリオに有用です。 さらに,RMSE変化を用いた特徴量分析では,気象変数MDNIとAPの重要性とともに,位置,MG,年,ジェノタイプの重要性が強調された。

Precise crop yield prediction is essential for improving agricultural practices and ensuring crop resilience in varying climates. Integrating weather data across the growing season, especially for different crop varieties, is crucial for understanding their adaptability in the face of climate change. In the MLCAS2021 Crop Yield Prediction Challenge, we utilized a dataset comprising 93,028 training records to forecast yields for 10,337 test records, covering 159 locations across 28 U.S. states and Canadian provinces over 13 years (2003-2015). This dataset included details on 5,838 distinct genotypes and daily weather data for a 214-day growing season, enabling comprehensive analysis. As one of the winning teams, we developed two novel convolutional neural network (CNN) architectures: the CNN-DNN model, combining CNN and fully-connected networks, and the CNN-LSTM-DNN model, with an added LSTM layer for weather variables. Leveraging the Generalized Ensemble Method (GEM), we determined optimal model weights, resulting in superior performance compared to baseline models. The GEM model achieved lower RMSE (5.55% to 39.88%), reduced MAE (5.34% to 43.76%), and higher correlation coefficients (1.1% to 10.79%) when evaluated on test data. We applied the CNN-DNN model to identify top-performing genotypes for various locations and weather conditions, aiding genotype selection based on weather variables. Our data-driven approach is valuable for scenarios with limited testing years. Additionally, a feature importance analysis using RMSE change highlighted the significance of location, MG, year, and genotype, along with the importance of weather variables MDNI and AP.
翻訳日:2023-09-25 13:28:31 公開日:2023-09-22
# FluentEditor:音響・韻律整合性を考慮したテキスト音声編集

FluentEditor: Text-based Speech Editing by Considering Acoustic and Prosody Consistency ( http://arxiv.org/abs/2309.11725v2 )

ライセンス: Link先を確認
Rui Liu, Jiatian Xi, Ziyue Jiang and Haizhou Li(参考訳) テキストベースの音声編集(TSE)技術は、ユーザが音声自体の代わりに入力テキストの書き起こしを変更することで出力オーディオを編集できるように設計されている。 ニューラルネットワークベースのTSE技術の進歩にもかかわらず、現在の技術は、生成した音声セグメントと編集領域の参照ターゲットとの差を減らし、文脈や本来の発話における局所的・グローバル的流布を無視している。 本稿では,TSE訓練における流速を考慮した訓練基準を考慮し,流速音声編集モデルである「textit{FluentEditor}」を提案する。 特に、 \textit{acoustic consistency constraints} は、編集された領域とその隣接する音響セグメント間の遷移を、基底の真理と整合させることを目的としており、一方 \textit{prosody consistency constraints} は、編集された領域内の韻律属性が元の発話の全体的なスタイルと一致し続けることを保証することを目的としている。 VCTKの主観的,客観的な実験結果から,我々の『textit{FluentEditor}』は自然さと流布度で全ての先進的ベースラインを上回ります。 オーディオサンプルとコードは \url{https://github.com/Ai-S2-Lab/FluentEditor} で公開されている。

Text-based speech editing (TSE) techniques are designed to enable users to edit the output audio by modifying the input text transcript instead of the audio itself. Despite much progress in neural network-based TSE techniques, the current techniques have focused on reducing the difference between the generated speech segment and the reference target in the editing region, ignoring its local and global fluency in the context and original utterance. To maintain the speech fluency, we propose a fluency speech editing model, termed \textit{FluentEditor}, by considering fluency-aware training criterion in the TSE training. Specifically, the \textit{acoustic consistency constraint} aims to smooth the transition between the edited region and its neighboring acoustic segments consistent with the ground truth, while the \textit{prosody consistency constraint} seeks to ensure that the prosody attributes within the edited regions remain consistent with the overall style of the original utterance. The subjective and objective experimental results on VCTK demonstrate that our \textit{FluentEditor} outperforms all advanced baselines in terms of naturalness and fluency. The audio samples and code are available at \url{https://github.com/Ai-S2-Lab/FluentEditor}.
翻訳日:2023-09-25 11:46:10 公開日:2023-09-22
# ハドロン電荷パリティ違反の次世代探索のための候補分子

Candidate Molecules for Next-Generation Searches of Hadronic Charge-Parity Violation ( http://arxiv.org/abs/2309.11633v2 )

ライセンス: Link先を確認
Aur\'elien Marc, Micka\"el Hubert and Timo Fleig(参考訳) レーザー可溶性原子からなる強極性ヘテロ原子二原子分子群をハドロン系物質の新しい電荷パリティ違反の感度プローブとして体系的に研究した。 relativistic general-excitation-rank configuration interaction theoryを用いて、この集合において最も有望な系としてフランシウム-シルバー(frag)分子を選択し、その核シッフ-モーメント相互作用定数をw^\mathrm{frag}_{sm}(\mathrm{fr}) = 30168 \pm 2504\mathrm{a.u.}$とする。 我々の研究は、各分子の標的原子に対するシステム調整原子ガウス基底セットの開発を含む。

We systematically study a set of strongly polar heteronuclear diatomic molecules composed of laser-coolable atoms for their suitability as sensitive probes of new charge-parity violation in the hadron sector of matter. Using relativistic general-excitation-rank configuration interaction theory we single out the molecule francium-silver (FrAg) as the most promising system in this set and calculate its nuclear Schiff-moment interaction constant to $W^\mathrm{FrAg}_{SM}(\mathrm{Fr}) = 30168 \pm 2504\mathrm{a.u.}$ for the target nucleus Fr. Our work includes the development of system-tailored atomic Gaussian basis sets for the target atom in each respective molecule.
翻訳日:2023-09-25 11:45:44 公開日:2023-09-22
# 神経表現のトポロジーと幾何学

The Topology and Geometry of Neural Representations ( http://arxiv.org/abs/2309.11028v2 )

ライセンス: Link先を確認
Baihan Lin, Nikolaus Kriegeskorte(参考訳) 神経科学の中心的な問題は、知覚的および認知的コンテンツの脳の表現をいかに特徴付けるかである。 理想的な特徴は、計算的差異に対応しない個々の脳のノイズや慣性に頑健な機能領域を区別すべきである。 これまでの研究では、個々のニューロン(または応答チャネル)の役割を抽象化し、刺激の識別性を特徴づける要約統計量である表現的相同性行列(RDM)によって定義される表現幾何学によって脳の表現を特徴付けてきた。 ここでは、幾何学から脳の表現のトポロジーまで、抽象のさらなるステップを探求する。 本稿では, rdmを一般化し, 幾何を強調しないトポロジーを特徴付けるジオトポロジカルな要約統計の族を用いた表現的類似性解析(rsa)の拡張であるtrsaを提案する。 シミュレーションと機能的MRI(fMRI)データの両方を用いて,モデル選択の感度と特異性の観点から,この新たな統計群を評価する。 シミュレーションでは、基底真理はニューラルネットワークモデルにおけるデータ生成層表現であり、モデルは異なるモデルインスタンス(異なるランダムシードから訓練)における他の層と同じである。 fMRIでは、基底真理は視覚領域であり、モデルは同一であり、他の領域は異なる被験者で測定される。 その結果,集団符号のトポロジに敏感な特徴はノイズや個人間変動に強く,異なるニューラルネットワーク層や脳領域のユニークな表現的シグネチャに対して優れた感度を維持していることがわかった。

A central question for neuroscience is how to characterize brain representations of perceptual and cognitive content. An ideal characterization should distinguish different functional regions with robustness to noise and idiosyncrasies of individual brains that do not correspond to computational differences. Previous studies have characterized brain representations by their representational geometry, which is defined by the representational dissimilarity matrix (RDM), a summary statistic that abstracts from the roles of individual neurons (or responses channels) and characterizes the discriminability of stimuli. Here we explore a further step of abstraction: from the geometry to the topology of brain representations. We propose topological representational similarity analysis (tRSA), an extension of representational similarity analysis (RSA) that uses a family of geo-topological summary statistics that generalizes the RDM to characterize the topology while de-emphasizing the geometry. We evaluate this new family of statistics in terms of the sensitivity and specificity for model selection using both simulations and functional MRI (fMRI) data. In the simulations, the ground truth is a data-generating layer representation in a neural network model and the models are the same and other layers in different model instances (trained from different random seeds). In fMRI, the ground truth is a visual area and the models are the same and other areas measured in different subjects. Results show that topology-sensitive characterizations of population codes are robust to noise and interindividual variability and maintain excellent sensitivity to the unique representational signatures of different neural network layers and brain regions.
翻訳日:2023-09-25 11:45:06 公開日:2023-09-22
# ALI-DPFL:適応的局所反復による個人的フェデレーション学習

ALI-DPFL: Differentially Private Federated Learning with Adaptive Local Iterations ( http://arxiv.org/abs/2308.10457v3 )

ライセンス: Link先を確認
Xinpeng Ling, Jie Fu, Kuncan Wang, Haitao Liu, Zhili Chen(参考訳) Federated Learning(FL)は、データではなくトレーニングパラメータを共有することで、複数のデバイスや組織間のモデルトレーニングを可能にする分散機械学習技術である。 しかし、敵はこれらの訓練パラメータの推論攻撃(例えば差分攻撃)を通じて個人情報を推論することができる。 その結果、ディファレンシャルプライバシ(dp)はそのような攻撃を防ぐためにflで広く使われている。 我々は、プライバシ予算とコミュニケーションラウンドの両方に制約があるリソース制約のあるシナリオにおいて、差分プライベートなフェデレーション学習を考察する。 この収束を理論的に解析することで、2つの逐次的なグローバル更新の間のクライアントに対する微分プライベートなローカルイテレーションの最適な数を見つけることができる。 そこで我々は,適応型局所反復法 (ALI-DPFL) を用いた差分プライベート・フェデレーション学習アルゴリズムを設計した。 fashionmnistとcifar10データセットでアルゴリズムを実験し、リソース・コンストラクティブ・シナリオにおける以前の作業よりも大幅に優れた性能を示す。

Federated Learning (FL) is a distributed machine learning technique that allows model training among multiple devices or organizations by sharing training parameters instead of raw data. However, adversaries can still infer individual information through inference attacks (e.g. differential attacks) on these training parameters. As a result, Differential Privacy (DP) has been widely used in FL to prevent such attacks. We consider differentially private federated learning in a resource-constrained scenario, where both privacy budget and communication round are constrained. By theoretically analyzing the convergence, we can find the optimal number of differentially private local iterations for clients between any two sequential global updates. Based on this, we design an algorithm of differentially private federated learning with adaptive local iterations (ALI-DPFL). We experiment our algorithm on the FashionMNIST and CIFAR10 datasets, and demonstrate significantly better performances than previous work in the resource-constraint scenario.
翻訳日:2023-09-25 11:44:21 公開日:2023-09-22
# 差分進化アルゴリズムに基づく負荷予測のための変圧器ニューラルネットワークモデルのハイパーパラメータ選択

Differential Evolution Algorithm based Hyper-Parameters Selection of Transformer Neural Network Model for Load Forecasting ( http://arxiv.org/abs/2307.15299v4 )

ライセンス: Link先を確認
Anuvab Sen, Arul Rhik Mazumder, Udayon Sen(参考訳) 多くの分野において、正確な負荷予測は重要な役割を果たすが、動的電力システムの複雑なダイナミクスを正確に捉えることは、伝統的な統計モデルにとって課題である。 これらの理由から、時系列モデル(ARIMA)とディープラーニングモデル(ANN、LSTM、GRUなど)が一般的にデプロイされ、しばしばより高い成功を経験する。 本稿では,最近開発されたTransformer-based Neural Network Modelの負荷予測における有効性について検討する。 トランスフォーマーモデルは、そのアテンションメカニズムから派生した長距離依存を学習できるため、ロード予測を改善する可能性がある。 本稿では,変圧器ベースニューラルネットワークの最適ハイパーパラメータを求めるために,微分進化というメタヒューリスティックスを適用した。 微分進化は、非微分可能、多目的、制約付き最適化問題に対するスケーラブルで堅牢なグローバルソリューションを提供する。 本研究では,mse(平均二乗誤差)やmape(平均絶対パーセンテージ誤差)などの数値指標に基づく負荷予測における性能と,様々なメタヒューリスティックアルゴリズムと統合したトランスフォーマティブニューラルネットワークモデルを比較した。 負荷予測におけるメタヒューリスティックなトランスフォーマーベースニューラルネットワークモデルの可能性を示し,各モデルに最適なハイパーパラメータを提供する。

Accurate load forecasting plays a vital role in numerous sectors, but accurately capturing the complex dynamics of dynamic power systems remains a challenge for traditional statistical models. For these reasons, time-series models (ARIMA) and deep-learning models (ANN, LSTM, GRU, etc.) are commonly deployed and often experience higher success. In this paper, we analyze the efficacy of the recently developed Transformer-based Neural Network model in Load forecasting. Transformer models have the potential to improve Load forecasting because of their ability to learn long-range dependencies derived from their Attention Mechanism. We apply several metaheuristics namely Differential Evolution to find the optimal hyperparameters of the Transformer-based Neural Network to produce accurate forecasts. Differential Evolution provides scalable, robust, global solutions to non-differentiable, multi-objective, or constrained optimization problems. Our work compares the proposed Transformer based Neural Network model integrated with different metaheuristic algorithms by their performance in Load forecasting based on numerical metrics such as Mean Squared Error (MSE) and Mean Absolute Percentage Error (MAPE). Our findings demonstrate the potential of metaheuristic-enhanced Transformer-based Neural Network models in Load forecasting accuracy and provide optimal hyperparameters for each model.
翻訳日:2023-09-25 11:43:59 公開日:2023-09-22
# Neural-BO:ディープニューラルネットワークを用いたブラックボックス最適化アルゴリズム

Neural-BO: A Black-box Optimization Algorithm using Deep Neural Networks ( http://arxiv.org/abs/2303.01682v3 )

ライセンス: Link先を確認
Dat Phan-Trong, Hung Tran-The, Sunil Gupta(参考訳) ベイズ最適化(BO)は,関数評価が高価である場合のブラックボックス関数のグローバル最適化に有効な手法である。 これまでのほとんどの研究では、ブラックボックス関数をモデル化するためにガウス的プロセスを使用していたが、ガウス的プロセスにおけるカーネルの使用は、2つの問題をもたらす。 そこで,ニューラルネットワークを用いてブラックボックス関数をモデル化した新しいブラックボックス最適化アルゴリズムを提案する。 本アルゴリズムは予測の不確かさを推定するためにベイズニューラルネットワークを必要としないため,計算上有利である。 我々はNTK理論の進歩を応用して,アルゴリズムの理論的挙動を後悔境界の観点から分析する。 合成および実世界の最適化タスクを用いて実験を行い、既存の手法と比較してアルゴリズムがよりサンプリング効率が高いことを示す。

Bayesian Optimization (BO) is an effective approach for global optimization of black-box functions when function evaluations are expensive. Most prior works use Gaussian processes to model the black-box function, however, the use of kernels in Gaussian processes leads to two problems: first, the kernel-based methods scale poorly with the number of data points and second, kernel methods are usually not effective on complex structured high dimensional data due to curse of dimensionality. Therefore, we propose a novel black-box optimization algorithm where the black-box function is modeled using a neural network. Our algorithm does not need a Bayesian neural network to estimate predictive uncertainty and is therefore computationally favorable. We analyze the theoretical behavior of our algorithm in terms of regret bound using advances in NTK theory showing its efficient convergence. We perform experiments with both synthetic and real-world optimization tasks and show that our algorithm is more sample efficient compared to existing methods.
翻訳日:2023-09-25 11:43:34 公開日:2023-09-22
# 低資源医療領域会話型電話音声のためのハイブリッドasrシステムの開発

Development of Hybrid ASR Systems for Low Resource Medical Domain Conversational Telephone Speech ( http://arxiv.org/abs/2210.13397v4 )

ライセンス: Link先を確認
Christoph L\"uscher and Mohammad Zeineldeen and Zijian Yang and Tina Raissi and Peter Vieting and Khai Le-Duc and Weiyue Wang and Ralf Schl\"uter and Hermann Ney(参考訳) 言語障壁は、ますます接続され、グローバルな世界で大きな課題をもたらします。 特に医療分野、例えば病院や救急室では、コミュニケーションの困難と遅延により、誤治療や非最適患者のケアにつながる可能性がある。 HYKISTプロジェクトにおいて,ドイツ語を話す医師とアラビア語またはベトナム語を話す患者とのコミュニケーションについて検討した。 現在、医師はTriaphonサービスを呼び出すことで、インタプリタから助けを受け、コミュニケーションを容易にすることができる。 HYKISTの目的は、通常非専門のバイリンガルインタプリタを自動翻訳システムでサポートし、患者のケアを改善し、言語障壁を克服することである。 本研究では,2つの言語対,データ収集,様々な音響モデルアーキテクチャ,方言による難易度について,この会話音声翻訳タスクのためのASRシステム開発作業について述べる。

Language barriers present a great challenge in our increasingly connected and global world. Especially within the medical domain, e.g. hospital or emergency room, communication difficulties and delays may lead to malpractice and non-optimal patient care. In the HYKIST project, we consider patient-physician communication, more specifically between a German-speaking physician and an Arabic- or Vietnamese-speaking patient. Currently, a doctor can call the Triaphon service to get assistance from an interpreter in order to help facilitate communication. The HYKIST goal is to support the usually non-professional bilingual interpreter with an automatic speech translation system to improve patient care and help overcome language barriers. In this work, we present our ASR system development efforts for this conversational telephone speech translation task in the medical domain for two languages pairs, data collection, various acoustic model architectures and dialect-induced difficulties.
翻訳日:2023-09-25 11:43:18 公開日:2023-09-22
# PanoVOS:ビデオセグメンテーションのためのトランスフォーマによる非パノラマおよびパノラマビューのブリッジ

PanoVOS: Bridging Non-panoramic and Panoramic Views with Transformer for Video Segmentation ( http://arxiv.org/abs/2309.12303v2 )

ライセンス: Link先を確認
Shilin Yan, Xiaohao Xu, Lingyi Hong, Wenchao Chen, Wenqiang Zhang and Wei Zhang(参考訳) パノラマビデオには、よりリッチな空間情報が含まれており、自動運転やバーチャルリアリティといった分野での特別な経験から、膨大な注目を集めている。 しかし、既存のビデオセグメンテーション用データセットは、従来の平面画像のみに焦点を当てている。 本論文では,パノラマビデオデータセットであるパノVOSを提案する。 データセットは150本のビデオに高解像度と多様なモーションを提供する。 2次元平面ビデオとパノラマビデオの領域ギャップを定量化するために,パノVOSを用いた15のオフ・ザ・シェルフビデオオブジェクトセグメンテーション(VOS)モデルを評価した。 エラー解析により、パノラマビデオの画素レベルのコンテンツ不連続に対処できないことが判明した。 そこで我々は,従来のフレームのセマンティック境界情報を,現在のフレームとの画素レベルのマッチングに有効活用できるパノラマ空間整合変換器(PSCFormer)を提案する。 我々のPSCFormerネットワークは,従来のSOTAモデルと比較して,パノラマ条件下でのセグメンテーション結果において大きな優位性を示す。 我々のデータセットはパノラマVOSに新たな課題をもたらしており、パノラマVOSがパノラマセグメンテーション/トラッキングの開発を前進させることを期待しています。

Panoramic videos contain richer spatial information and have attracted tremendous amounts of attention due to their exceptional experience in some fields such as autonomous driving and virtual reality. However, existing datasets for video segmentation only focus on conventional planar images. To address the challenge, in this paper, we present a panoramic video dataset, PanoVOS. The dataset provides 150 videos with high video resolutions and diverse motions. To quantify the domain gap between 2D planar videos and panoramic videos, we evaluate 15 off-the-shelf video object segmentation (VOS) models on PanoVOS. Through error analysis, we found that all of them fail to tackle pixel-level content discontinues of panoramic videos. Thus, we present a Panoramic Space Consistency Transformer (PSCFormer), which can effectively utilize the semantic boundary information of the previous frame for pixel-level matching with the current frame. Extensive experiments demonstrate that compared with the previous SOTA models, our PSCFormer network exhibits a great advantage in terms of segmentation results under the panoramic setting. Our dataset poses new challenges in panoramic VOS and we hope that our PanoVOS can advance the development of panoramic segmentation/tracking.
翻訳日:2023-09-25 11:38:33 公開日:2023-09-22
# metamath: 大きな言語モデルのための数学的質問をブートストラップする

MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models ( http://arxiv.org/abs/2309.12284v2 )

ライセンス: Link先を確認
Longhui Yu, Weisen Jiang, Han Shi, Jincheng Yu, Zhengying Liu, Yu Zhang, James T. Kwok, Zhenguo Li, Adrian Weller, Weiyang Liu(参考訳) 大規模言語モデル(llm)は自然言語理解の限界を押し上げ、優れた問題解決能力を示した。 大きな成功にもかかわらず、既存のオープンソース LLM (例: LLaMA-2) は、複雑な推論手順による数学的問題の解決にはまだ満足できない。 このギャップを埋めるために,数学的推論を専門とする微調整言語モデルMetaMathを提案する。 具体的には、余分な知識を伴わずに複数の視点から質問を書き換えることで、数学的質問をブートストラップすることから始めます。 次に、メタマスQA上でLLaMA-2モデルを微調整する。 数学的推論のための2つの人気のあるベンチマーク(GSM8KとMATH)の実験結果によると、MetaMathはオープンソースのLLMのスイートよりも大幅に優れていた。 我々のMetaMath-7Bモデルは、GSM8Kで66.4%、MATHで19.4%を達成し、同じサイズの最先端モデルの11.5%と8.7%を上回った。 特にMetaMath-70BはGSM8Kで82.3%の精度を達成しており、GPT-3.5-Turboより若干優れている。 MetaMathQAデータセット、異なるモデルサイズを持つMetaMathモデル、パブリック使用のためのトレーニングコードをリリースします。

Large language models (LLMs) have pushed the limits of natural language understanding and exhibited excellent problem-solving ability. Despite the great success, most existing open-source LLMs (e.g., LLaMA-2) are still far away from satisfactory for solving mathematical problem due to the complex reasoning procedures. To bridge this gap, we propose MetaMath, a fine-tuned language model that specializes in mathematical reasoning. Specifically, we start by bootstrapping mathematical questions by rewriting the question from multiple perspectives without extra knowledge, which results in a new dataset called MetaMathQA. Then we fine-tune the LLaMA-2 models on MetaMathQA. Experimental results on two popular benchmarks (i.e., GSM8K and MATH) for mathematical reasoning demonstrate that MetaMath outperforms a suite of open-source LLMs by a significant margin. Our MetaMath-7B model achieves 66.4% on GSM8K and 19.4% on MATH, exceeding the state-of-the-art models of the same size by 11.5% and 8.7%. Particularly, MetaMath-70B achieves an accuracy of 82.3% on GSM8K, slightly better than GPT-3.5-Turbo. We release the MetaMathQA dataset, the MetaMath models with different model sizes and the training code for public use.
翻訳日:2023-09-25 11:38:11 公開日:2023-09-22
# 薬物発見における溶媒構成予測のための中性原子を用いたアナログ量子コンピューティング

Leveraging Analog Quantum Computing with Neutral Atoms for Solvent Configuration Prediction in Drug Discovery ( http://arxiv.org/abs/2309.12129v2 )

ライセンス: Link先を確認
Mauro D'Arcangelo, Daniele Loco, Fresnel team, Nicola\"i Gouraud, Stanislas Angebault, Jules Sueiro, Pierre Monmarch\'e, J\'er\^ome For\^et, Louis-Paul Henry, Lo\"ic Henriet, Jean-Philip Piquemal(参考訳) アナログ量子コンピューティングにより,タンパク質中の平衡水溶剤分子構成をサンプリングできる量子アルゴリズムを導入する。 そこで我々は, 連続溶媒分布を予測可能な3次元参照相互作用サイトモデル(3D-RISM)に量子配置戦略を組み合わせる。 このようなカップリングの本質的な量子性は、分子同士が互いに親しすぎないように保証するものであり、古典的アプローチでは手によって課される制約である。 まず, 局所リドバーグハミルトニアンを用いて, 一般問題を反強磁性イジングモデルにキャストする, 完全な量子断熱進化モデルを提案する。 その解法は古典計算におけるNPハード問題であり、Rydberg atom array Quantum Processing Unit (QPU) に具体化されている。 古典的なエミュレータの実装に続いて、QPUポーテージは実際の量子コンピュータ上でのアルゴリズム性能を実験的に検証することができる。 次世代デバイスでの利用の観点からは、アルゴリズムの2つ目のハイブリッド量子古典版をエミュレートする。 このような変分量子アプローチ(VQA)は、古典的ベイズ最小化ルーチンを使用して最適なレーザーパラメータを求める。 全体として、これらのQuantum-3D-RISM (Q-3D-RISM) アルゴリズムは、分子モデリングと薬物設計におけるアナログ量子コンピューティングの応用への新たな道を開く。

We introduce quantum algorithms able to sample equilibrium water solvent molecules configurations within proteins thanks to analog quantum computing. To do so, we combine a quantum placement strategy to the 3D Reference Interaction Site Model (3D-RISM), an approach capable of predicting continuous solvent distributions. The intrinsic quantum nature of such coupling guarantees molecules not to be placed too close to each other, a constraint usually imposed by hand in classical approaches. We present first a full quantum adiabatic evolution model that uses a local Rydberg Hamiltonian to cast the general problem into an anti-ferromagnetic Ising model. Its solution, an NP-hard problem in classical computing, is embodied into a Rydberg atom array Quantum Processing Unit (QPU). Following a classical emulator implementation, a QPU portage allows to experimentally validate the algorithm performances on an actual quantum computer. As a perspective of use on next generation devices, we emulate a second hybrid quantum-classical version of the algorithm. Such a variational quantum approach (VQA) uses a classical Bayesian minimization routine to find the optimal laser parameters. Overall, these Quantum-3D-RISM (Q-3D-RISM) algorithms open a new route towards the application of analog quantum computing in molecular modelling and drug design.
翻訳日:2023-09-25 11:37:47 公開日:2023-09-22
# AceGPT, アラビア語における大規模言語モデル

AceGPT, Localizing Large Language Models in Arabic ( http://arxiv.org/abs/2309.12053v2 )

ライセンス: Link先を確認
Huang Huang, Fei Yu, Jianqing Zhu, Xuening Sun, Hao Cheng, Dingjie Song, Zhihong Chen, Abdulmohsen Alharthi, Bang An, Ziche Liu, Zhiyi Zhang, Junying Chen, Jianquan Li, Benyou Wang, Lian Zhang, Ruoyu Sun, Xiang Wan, Haizhou Li, Jinchao Xu(参考訳) 本稿では,ChatGPTのような現在の主流モデルでは適切に扱えない,独特の文化的特徴を持つ言語であるアラビア語に適した局所的大言語モデル(LLM)を開発するための命令的ニーズと方法論について考察する。 文化の敏感さと地域価値を考える際にも、重要な懸念が生じる。 そこで本論文では,アラビア文字による事前学習,ネイティブアラビア語命令を用いた微調整(SFT),アラビア語によるGPT-4応答,地域文化や価値観に敏感な報酬モデルを用いたAIフィードバックによる強化学習など,パッケージ化されたソリューションの概要を述べる。 その目的は、アラビア語話者コミュニティの多様なアプリケーション固有のニーズに応える、文化的に認識され価値に合ったアラビア語のllmを訓練することである。 広範な評価の結果、'acegpt' と呼ばれる llm は様々なベンチマークにおいて sota open arabic llm であり、命令追従ベンチマーク(アラビア語の vicuna-80 と arabic alpacaeval)、知識ベンチマーク(アラビア語の mmlu と試験)、そして新しく導入されたアラビア語の文化の \&value alignment benchmark がある。 特にacegptは、gpt-4で評価された場合の一般的なvicuna-80ベンチマークでchatgptを上回っている。 % Natural Language Understanding (NLU)ベンチマーク(ALUE) コード、データ、モデルはhttps://github.com/Freedom Intelligence/AceGPTにある。

This paper explores the imperative need and methodology for developing a localized Large Language Model (LLM) tailored for Arabic, a language with unique cultural characteristics that are not adequately addressed by current mainstream models like ChatGPT. Key concerns additionally arise when considering cultural sensitivity and local values. To this end, the paper outlines a packaged solution, including further pre-training with Arabic texts, supervised fine-tuning (SFT) using native Arabic instructions and GPT-4 responses in Arabic, and reinforcement learning with AI feedback (RLAIF) using a reward model that is sensitive to local culture and values. The objective is to train culturally aware and value-aligned Arabic LLMs that can serve the diverse application-specific needs of Arabic-speaking communities. Extensive evaluations demonstrated that the resulting LLM called `AceGPT' is the SOTA open Arabic LLM in various benchmarks, including instruction-following benchmark (i.e., Arabic Vicuna-80 and Arabic AlpacaEval), knowledge benchmark (i.e., Arabic MMLU and EXAMs), as well as the newly-proposed Arabic cultural \& value alignment benchmark. Notably, AceGPT outperforms ChatGPT in the popular Vicuna-80 benchmark when evaluated with GPT-4, despite the benchmark's limited scale. % Natural Language Understanding (NLU) benchmark (i.e., ALUE) Codes, data, and models are in https://github.com/FreedomIntelligence/AceGPT.
翻訳日:2023-09-25 11:36:55 公開日:2023-09-22
# LMSYS-Chat-1M:大規模実世界のLLM会話データセット

LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset ( http://arxiv.org/abs/2309.11998v2 )

ライセンス: Link先を確認
Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Tianle Li, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zhuohan Li, Zi Lin, Eric. P Xing, Joseph E. Gonzalez, Ion Stoica, Hao Zhang(参考訳) 大規模言語モデル(LLM)を現実のシナリオでどのように扱うかを研究することは、様々なアプリケーションで広く使われているため、ますます重要になっている。 本稿では,25の最先端llmと100万の会話を含む大規模データセットlmsys-chat-1mを紹介する。 このデータセットは、VicunaのデモとChatbot ArenaのWebサイトで、210KのユニークなIPアドレスから収集されています。 我々は、そのキュレーションプロセス、基礎統計、トピックの分布など、データセットの内容の概要を提供し、その多様性、独創性、スケールを強調します。 GPT-4と同様の動作を行うコンテンツモデレーションモデルの開発、安全性ベンチマークの構築、Vicunaと同様の動作を行う命令追従モデルのトレーニング、挑戦的なベンチマーク問題の作成である。 私たちは、このデータセットがLLMの機能を理解し、前進するための貴重なリソースになると信じています。 データセットはhttps://huggingface.co/datasets/lmsys/lmsys-chat-1mで公開されている。

Studying how people interact with large language models (LLMs) in real-world scenarios is increasingly important due to their widespread use in various applications. In this paper, we introduce LMSYS-Chat-1M, a large-scale dataset containing one million real-world conversations with 25 state-of-the-art LLMs. This dataset is collected from 210K unique IP addresses in the wild on our Vicuna demo and Chatbot Arena website. We offer an overview of the dataset's content, including its curation process, basic statistics, and topic distribution, highlighting its diversity, originality, and scale. We demonstrate its versatility through four use cases: developing content moderation models that perform similarly to GPT-4, building a safety benchmark, training instruction-following models that perform similarly to Vicuna, and creating challenging benchmark questions. We believe that this dataset will serve as a valuable resource for understanding and advancing LLM capabilities. The dataset is publicly available at https://huggingface.co/datasets/lmsys/lmsys-chat-1m.
翻訳日:2023-09-25 11:36:19 公開日:2023-09-22
# 強化学習エージェントのためのインセンティブとしての表現抽象化:ロボットグラスピングケーススタディ

Representation Abstractions as Incentives for Reinforcement Learning Agents: A Robotic Grasping Case Study ( http://arxiv.org/abs/2309.11984v2 )

ライセンス: Link先を確認
Panagiotis Petropoulakis, Ludwig Gr\"af, Josip Josifovski, Mohammadhossein Malmir, and Alois Knoll(参考訳) rlエージェントの基盤となる意思決定プロセスにおいて、環境の適切な表現を選択することは必ずしも簡単ではない。 状態表現は、エージェントがその行為を情報的に決定し、政策訓練のサンプル効率を高めるのに十分なコンパクト化を可能にするのに十分な包括性を持つべきである。 本研究は,ロボットの特定の課題を解決するためのインセンティブとして,様々な状態表現が与える影響について検討する。 状態表現抽象化の連続体は、完全なシステム知識を持つモデルベースアプローチから、手作りの数値を通して、誘導されたタスク固有の知識のレベルを減少させるイメージベース表現へと導かれる。 シミュレーションにおける課題を解決するエージェントの能力における各表現の効果と,学習方針の実際のロボットへの伝達性について検討した。 その結果, 数値状態を用いたRLエージェントは, 非学習ベースラインと同程度に動作可能であることがわかった。 さらに,事前学習した環境埋め込みベクターからのイメージベース表現を用いたエージェントは,エンドツーエンドの訓練エージェントよりも優れており,ロボット制御における収束と高い成功率を達成するためには,タスク固有の知識が必要であると仮定する。

Choosing an appropriate representation of the environment for the underlying decision-making process of the RL agent is not always straightforward. The state representation should be inclusive enough to allow the agent to informatively decide on its actions and compact enough to increase sample efficiency for policy training. Given this outlook, this work examines the effect of various state representations in incentivizing the agent to solve a specific robotic task: antipodal and planar object grasping. A continuum of state representation abstractions is defined, starting from a model-based approach with complete system knowledge, through hand-crafted numerical, to image-based representations with decreasing level of induced task-specific knowledge. We examine the effects of each representation in the ability of the agent to solve the task in simulation and the transferability of the learned policy to the real robot. The results show that RL agents using numerical states can perform on par with non-learning baselines. Furthermore, we find that agents using image-based representations from pre-trained environment embedding vectors perform better than end-to-end trained agents, and hypothesize that task-specific knowledge is necessary for achieving convergence and high success rates in robot control.
翻訳日:2023-09-25 11:36:02 公開日:2023-09-22
# AIシステムにおける自然言語理解のための評価フレームワークの再考:未来のメトリクスのコアとしての言語獲得

Rethinking the Evaluating Framework for Natural Language Understanding in AI Systems: Language Acquisition as a Core for Future Metrics ( http://arxiv.org/abs/2309.11981v2 )

ライセンス: Link先を確認
Patricio Vera, Pedro Moya and Lisa Barraza(参考訳) 人工知能(AI)の急成長分野において、自然言語処理(NLP)における大型言語モデル(LLM)の先例のない進歩は、フォームとコンテンツの両方において、従来の機械学習のメトリクスのアプローチ全体を再考する機会を提供する。 機械認知評価の領域はすでにImitationに達しており、次のステップは効率的な言語習得と理解である。 本稿では,LLMの最近の進歩から着想を得て,既存のチューリングテストから言語習得を基盤とした全包含フレームワークへのパラダイムシフトを提案する。 現在の貢献は、様々な分野の優れた成果の深い支流であり、学際的な橋を開いている必要性を指摘し、より堅牢で持続可能なアプローチを定めている。

In the burgeoning field of artificial intelligence (AI), the unprecedented progress of large language models (LLMs) in natural language processing (NLP) offers an opportunity to revisit the entire approach of traditional metrics of machine intelligence, both in form and content. As the realm of machine cognitive evaluation has already reached Imitation, the next step is an efficient Language Acquisition and Understanding. Our paper proposes a paradigm shift from the established Turing Test towards an all-embracing framework that hinges on language acquisition, taking inspiration from the recent advancements in LLMs. The present contribution is deeply tributary of the excellent work from various disciplines, point out the need to keep interdisciplinary bridges open, and delineates a more robust and sustainable approach.
翻訳日:2023-09-25 11:35:38 公開日:2023-09-22
# InstructERC:Retrieval Multi-task LLMs Frameworkを用いた会話における感情認識の再構築

InstructERC: Reforming Emotion Recognition in Conversation with a Retrieval Multi-task LLMs Framework ( http://arxiv.org/abs/2309.11911v2 )

ライセンス: Link先を確認
Shanglin Lei, Guanting Dong, Xiaoping Wang, Keheng Wang, Sirui Wang(参考訳) 対話における感情認識(ERC)の開発は、パイプライン設計の複雑さによって一貫して妨げられ、しばしば特定のデータセットや対話パターンに過度に適合するERCモデルに繋がる。 本研究では,差別的枠組みから大規模言語モデル(LLM)に基づく生成的枠組みへERCタスクを再構成する新しい手法,すなわちインストラクタCを提案する。 InstructERCには2つの重要なコントリビューションがある: まず、InstructERCはシンプルだが効果的なテンプレートモジュールを導入する。これは、歴史的ダイアログの内容、ラベル文、感情ドメインのデモを意味的類似度の高いものに結合することで、モデルが多言語対話の監督情報を明示的に統合するのに役立つ。 さらに,会話における対話の役割関係と今後の感情傾向を暗黙的にモデル化するために,話者識別タスクと感情予測タスクという2つの感情アライメントタスクを導入する。 LLMベースのプラグインフレームワークは,従来のすべてのモデルより大幅に優れており,一般的に使用されている3つのERCデータセットに対して包括的なSOTAを実現する。 パラメータ効率とデータスケーリングの実験の広範囲な分析は、実用的なシナリオでinstructercを適用するための経験的ガイダンスを提供する。 私たちのコードはブラインドレビュー後にリリースされます。

The development of emotion recognition in dialogue (ERC) has been consistently hindered by the complexity of pipeline designs, leading to ERC models that often overfit to specific datasets and dialogue patterns. In this study, we propose a novel approach, namely InstructERC, to reformulates the ERC task from a discriminative framework to a generative framework based on Large Language Models (LLMs) . InstructERC has two significant contributions: Firstly, InstructERC introduces a simple yet effective retrieval template module, which helps the model explicitly integrate multi-granularity dialogue supervision information by concatenating the historical dialog content, label statement, and emotional domain demonstrations with high semantic similarity. Furthermore, we introduce two additional emotion alignment tasks, namely speaker identification and emotion prediction tasks, to implicitly model the dialogue role relationships and future emotional tendencies in conversations. Our LLM-based plug-and-play plugin framework significantly outperforms all previous models and achieves comprehensive SOTA on three commonly used ERC datasets. Extensive analysis of parameter-efficient and data-scaling experiments provide empirical guidance for applying InstructERC in practical scenarios. Our code will be released after blind review.
翻訳日:2023-09-25 11:35:23 公開日:2023-09-22
# 音響コントラストに基づくファインチューニング

Audio Contrastive based Fine-tuning ( http://arxiv.org/abs/2309.11895v2 )

ライセンス: Link先を確認
Yang Wang, Qibin Liang, Chenghao Xiao, Yizhi Li, Noura Al Moubayed, Chenghua Lin(参考訳) 音声分類は幅広い用途で音声処理や音声処理において重要な役割を担っている。 モデルのトレーニングデータへの適合(オーバーフィッティングの回避)と、新たなドメインへの一般化との適切なバランスを打つという課題はまだ残っている。 コントラスト学習の伝達可能性を活用して,頑健な一般性に特徴付けられる効率的なアプローチであるオーディオコントラストベースファインチューニング(AudioConFit)を導入する。 様々な音声分類タスクにおける経験的実験により,様々な設定で最新の結果を得る手法の有効性と頑健性が示された。

Audio classification plays a crucial role in speech and sound processing tasks with a wide range of applications. There still remains a challenge of striking the right balance between fitting the model to the training data (avoiding overfitting) and enabling it to generalise well to a new domain. Leveraging the transferability of contrastive learning, we introduce Audio Contrastive-based Fine-tuning (AudioConFit), an efficient approach characterised by robust generalisability. Empirical experiments on a variety of audio classification tasks demonstrate the effectiveness and robustness of our approach, which achieves state-of-the-art results in various settings.
翻訳日:2023-09-25 11:35:00 公開日:2023-09-22
# 限られたデータを用いた超音波自動位置認識

Automatic Endoscopic Ultrasound Station Recognition with Limited Data ( http://arxiv.org/abs/2309.11820v2 )

ライセンス: Link先を確認
Abhijit Ramesh, Anantha Nandanan, Nikhil Boggavarapu, Priya Nair MD, Gilad Gressel(参考訳) 膵がんは致命的ながん形態であり、世界中のがん関連死亡に大きく貢献する。 早期発見は患者の予後と生存率を改善するために不可欠である。 医療画像技術の進歩にもかかわらず、膵癌は検出が困難な疾患である。 内視鏡的超音波検査(eus)は膵癌の診断に最も有効な診断ツールである。 しかし、信頼できる患者スキャンを完了させるためには、複雑な超音波画像の専門的な解釈が必要である。 膵の完全な画像を得るには、内視鏡を複数の「EUSステーション」(解剖学的位置)に誘導し、膵の異なるビューを提供する必要がある。 これは学ぶのが難しいスキルであり、経験豊富な医師の助けを借りて225以上のプロクターの手順が関与している。 我々は、深層学習技術を利用して、EUS手順中の胃のこれらのステーションをリアルタイムで識別するAI支援ツールを構築した。 このコンピュータ支援診断(CAD)は医師の訓練を効率化する。 歴史的に、そのようなツールを開発する上で直面する課題は、訓練された臨床医が必要とするレトロスペクティブのラベル付けの量である。 そこで我々は,EUSプロシージャにおけるアノテート処理のプロセスを,臨床医の最小限の努力で効率化する,オープンソースのユーザフレンドリーなラベリングWebアプリを開発した。 ハイパーパラメータの微調整を行わない43のプロシージャは,現在の技術に匹敵する90%のバランスの取れた精度を得た。 また,臨床医に解釈可能かつ説明可能な可視化を提供する可視化技術であるGrad-CAMを採用している。

Pancreatic cancer is a lethal form of cancer that significantly contributes to cancer-related deaths worldwide. Early detection is essential to improve patient prognosis and survival rates. Despite advances in medical imaging techniques, pancreatic cancer remains a challenging disease to detect. Endoscopic ultrasound (EUS) is the most effective diagnostic tool for detecting pancreatic cancer. However, it requires expert interpretation of complex ultrasound images to complete a reliable patient scan. To obtain complete imaging of the pancreas, practitioners must learn to guide the endoscope into multiple "EUS stations" (anatomical locations), which provide different views of the pancreas. This is a difficult skill to learn, involving over 225 proctored procedures with the support of an experienced doctor. We build an AI-assisted tool that utilizes deep learning techniques to identify these stations of the stomach in real time during EUS procedures. This computer-assisted diagnostic (CAD) will help train doctors more efficiently. Historically, the challenge faced in developing such a tool has been the amount of retrospective labeling required by trained clinicians. To solve this, we developed an open-source user-friendly labeling web app that streamlines the process of annotating stations during the EUS procedure with minimal effort from the clinicians. Our research shows that employing only 43 procedures with no hyperparameter fine-tuning obtained a balanced accuracy of 90%, comparable to the current state of the art. In addition, we employ Grad-CAM, a visualization technology that provides clinicians with interpretable and explainable visualizations.
翻訳日:2023-09-25 11:34:48 公開日:2023-09-22