このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231005となっている論文です。

PDF登録状況(公開日: 20231005)

TitleAuthorsAbstract論文公表日・翻訳日
# Ask for Alice: 強敵の存在下でのオンラインカバート距離信号

Ask for Alice: Online Covert Distress Signal in the Presence of a Strong Adversary ( http://arxiv.org/abs/2310.03237v1 )

ライセンス: Link先を確認
Hayyu Imanda, Kasper Rasmussen, (参考訳) 本稿では,敵がネットワークとユーザのデバイスの両方を監視していても,一見普通のWebサーバを通じて災害信号を隠蔽的に送信するプロトコルを提案する。 これにより、相手と同じ物理空間にいる場合でも、ユーザは助けを求めることができる。 我々は、ユーザのデバイスへの高いアクセスとネットワークの完全な制御をキャプチャする強力な敵モデルを導入することにより、そのようなシナリオをモデル化する。 我々のモデルは、ユーザーが監視されているシナリオに適合し、信頼できる関係者にその状況を伝えたいと願っている。 そこで本手法では,既存のWebサイトをユーザと信頼できるバックエンドの仲介役として利用し,アクティブな監視を行っても疑念を喚起することなく,災害信号を起動することができる。 私たちはTLSハンドシェイクを使用して追加情報を伝えることで、これを実現する。つまり、参加したいWebサイトは、最小限の努力で、トラフィックを監視している人は、共通のTLS接続を見ることができるのです。 このような機能をWebサイトがホストするためには、プロトコルは通常のTLSを使用するユーザと優雅に共存し、計算オーバーヘッドを最小限に抑える必要がある。 アーキテクチャの完全なセキュリティ分析を行い、相手が苦難コールを含む通信セットと通常の通信を区別できないことを示す。

In this paper we propose a protocol that can be used to covertly send a distress signal through a seemingly normal webserver, even if the adversary is monitoring both the network and the user's device. This allows a user to call for help even when they are in the same physical space as their adversaries. We model such a scenario by introducing a strong adversary model that captures a high degree of access to the user's device and full control over the network. Our model fits into scenarios where a user is under surveillance and wishes to inform a trusted party of the situation. To do this, our method uses existing websites to act as intermediaries between the user and a trusted backend; this enables the user to initiate the distress signal without arousing suspicion, even while being actively monitored. We accomplish this by utilising the TLS handshake to convey additional information; this means that any website wishing to participate can do so with minimal effort and anyone monitoring the traffic will just see common TLS connections. In order for websites to be willing to host such a functionality the protocol must coexist gracefully with users who use normal TLS and the computational overhead must be minimal. We provide a full security analysis of the architecture and prove that the adversary cannot distinguish between a set of communications which contains a distress call and a normal communication.
翻訳日:2024-03-19 03:12:08 公開日:2023-10-05
# StegGuard:Secrets EmbederとExtractorを通じて、自己管理型トレーニング済みエンコーダをフィンガープリント

StegGuard: Fingerprinting Self-supervised Pre-trained Encoders via Secrets Embeder and Extractor ( http://arxiv.org/abs/2310.03380v1 )

ライセンス: Link先を確認
Xingdong Ren, Tianxing Zhang, Hanzhou Wu, Xinpeng Zhang, Yinggui Wang, Guangling Sun, (参考訳) 本研究では、ステガノグラフィーを用いて、被疑者の事前訓練エンコーダの所有権を検証するための新しい指紋認証機構であるStegGuardを提案する。 StegGuardの批判的な見解は、事前訓練されたエンコーダによって実行される画像から埋め込みへの変換のユニークな特徴は、エンコーダが画像にシークレットを埋め込む方法と、シークレットがエンコーダのエンコーダの埋め込みからシークレットをエンコーダの変換を受けた後に許容エラーで抽出する方法と等価に露呈できるということである。 各独立エンコーダは別個の変換を持つが、海賊エンコーダは被害者と類似した変換を持つ。 これらに基づいて,被害者エンコーダの指紋として秘密埋め込み器と抽出器のペアを学習する。 本稿では,周波数領域のアテンションブロックを埋め込み器に導入し,シークレットを適切な周波数帯域に適応的に埋め込む。 検証中、被疑者エンコーダの埋め込みから問合せ画像に埋め込まれた秘密を許容誤差で抽出できる場合、被疑者エンコーダは海賊行為と判定される。 大規模な実験では、非常に限られた数のクエリイメージに依存するため、StegGuardはさまざまな独立したエンコーダを確実に識別することができ、モデル抽出、微調整、プルーニング、埋め込みノーミング、シャッフルを含む、モデル盗難に関連する攻撃に対して堅牢である。

In this work, we propose StegGuard, a novel fingerprinting mechanism to verify the ownership of the suspect pre-trained encoder using steganography. A critical perspective in StegGuard is that the unique characteristic of the transformation from an image to an embedding, conducted by the pre-trained encoder, can be equivalently exposed how an embeder embeds secrets into images and how an extractor extracts the secrets from encoder's embeddings with a tolerable error after the secrets are subjected to the encoder's transformation. While each independent encoder has a distinct transformation, the piracy encoder has a similar transformation to the victim. Based on these, we learn a pair of secrets embeder and extractor as the fingerprint for the victim encoder. We introduce a frequency-domain channel attention embedding block into the embeder to adaptively embed secrets into suitable frequency bands. During verification, if the secrets embedded into the query images can be extracted with an acceptable error from the suspect encoder's embeddings, the suspect encoder is determined as piracy, otherwise independent. Extensive experiments demonstrate that depending on a very limited number of query images, StegGuard can reliably identify across varied independent encoders, and is robust against model stealing related attacks including model extraction, fine-tuning, pruning, embedding noising and shuffle.
翻訳日:2024-03-19 03:12:08 公開日:2023-10-05
# IoTScent:IoTゲートウェイの法医学的機能向上

IoTScent: Enhancing Forensic Capabilities in Internet of Things Gateways ( http://arxiv.org/abs/2310.03401v1 )

ライセンス: Link先を確認
Antonio Boiano, Alessandro Enrico Cesare Redondi, Matteo Cesana, (参考訳) 消費者インターネット・オブ・モノ(Consumer Internet of Things)デバイスを人間の活動に近い場所に広く展開することで、日々の行動のデジタルオブザーバーになる。 これにより、IoTデバイスによって生成されたデジタルトレースが、法医学的な調査の重要な証拠となる、IoT Forensicsとして知られる新たなデジタル法医学分野が誕生した。 したがって、IoTエコシステムからネットワークトレースを効率的に取得、保存できるツールを開発する必要がある。 この記事では、IoTゲートウェイとホームオートメーションプラットフォームがIoTトラフィックのキャプチャと分析を行うことを可能にする、オープンソースのIoTフォーラムツールであるIoTScentを紹介する。 IPベースのプロトコルに焦点を当てた他の研究とは異なり、IoTScentは特にZigbeeや6LoWPAN、Threadといった多くのIoT固有のプロトコルの基礎であるIEEE 802.15.4ベースのトラフィックを操作するように設計されている。 IoTScentは、ライブトラフィックキャプチャと機能抽出機能を提供し、データ収集パイプラインのセットアップ、データ収集プロセスの自動化、および法医学的エビデンス抽出に使用可能な準備済み機能の提供を簡略化する、法医学的データ収集のためのフレームワークを提供する。 この作業は、Zigbeeトラフィックからデバイス識別を実行するためのツールの使用を実証する実用的なユースケースを含む、IoTScentツールの包括的な説明を提供する。 ここで発表された研究は、この分野で直面している課題に対処し、IoTScentツールを公開することによって、IoT Forensicsの継続的な研究に大きく貢献している。

The widespread deployment of Consumer Internet of Things devices in proximity to human activities makes them digital observers of our daily actions. This has led to a new field of digital forensics, known as IoT Forensics, where digital traces generated by IoT devices can serve as key evidence for forensic investigations. Thus, there is a need to develop tools that can efficiently acquire and store network traces from IoT ecosystems. This paper presents IoTScent, an open-source IoT forensic tool that enables IoT gateways and Home Automation platforms to perform IoT traffic capture and analysis. Unlike other works focusing on IP-based protocols, IoTScent is specifically designed to operate over IEEE 802.15.4-based traffic, which is the basis for many IoT-specific protocols such as Zigbee, 6LoWPAN and Thread. IoTScent offers live traffic capture and feature extraction capabilities, providing a framework for forensic data collection that simplifies the task of setting up a data collection pipeline, automating the data collection process, and providing ready-made features that can be used for forensic evidence extraction. This work provides a comprehensive description of the IoTScent tool, including a practical use case that demonstrates the use of the tool to perform device identification from Zigbee traffic. The study presented here significantly contributes to the ongoing research in IoT Forensics by addressing the challenges faced in the field and publicly releasing the IoTScent tool.
翻訳日:2024-03-19 03:12:08 公開日:2023-10-05
# 偽証の解剖--大規模フィッシングキャンペーンの技術的・人間的展望

The Anatomy of Deception: Technical and Human Perspectives on a Large-scale Phishing Campaign ( http://arxiv.org/abs/2310.03498v1 )

ライセンス: Link先を確認
Anargyros Chrysanthou, Yorgos Pantis, Constantinos Patsakis, (参考訳) デジタルインタラクションが支配する時代において、フィッシングキャンペーンは技術上の脆弱性だけでなく人間の特性も活用するように進化してきた。 本研究は,Metaユーザを対象とした大規模フィッシングキャンペーンを前例のない深く掘り下げ,技術力学と人的要素の両面から考察する。 全世界で2万5000人以上の犠牲者のデータを分析し、攻撃者が展開する複雑な技術から標的にされた人々の感情や行動まで、これらのキャンペーンのニュアンスを強調した。 制御された環境で実施された以前の研究とは異なり、この調査は活動的なフィッシングキャンペーンから直接抽出された膨大な、多様で、真のデータに基づいており、ドライバー、ファシリテーター、そして人間の要因をより包括的に理解することができる。 自然言語処理や機械学習などの高度な計算技術の応用を通じて、この研究は犠牲者の精神と現代フィッシングの進化的戦術に対する重要な洞察を明らかにする。 分析では、被害者のパスワード選択選択が極めて貧弱であることに加えて、利用者のかなりの部分を再活性化する上での永続性も示している。 最後に、被害者の反応の人口統計、タイミング、感情、感情、トーンに関する多くの相関関係を明らかにする。

In an era dominated by digital interactions, phishing campaigns have evolved to exploit not just technological vulnerabilities but also human traits. This study takes an unprecedented deep dive into large-scale phishing campaigns aimed at Meta's users, offering a dual perspective on the technical mechanics and human elements involved. Analysing data from over 25,000 victims worldwide, we highlight the nuances of these campaigns, from the intricate techniques deployed by the attackers to the sentiments and behaviours of those who were targeted. Unlike prior research conducted in controlled environments, this investigation capitalises on the vast, diverse, and genuine data extracted directly from active phishing campaigns, allowing for a more holistic understanding of the drivers, facilitators, and human factors. Through the application of advanced computational techniques, including natural language processing and machine learning, this work unveils critical insights into the psyche of victims and the evolving tactics of modern phishers. Our analysis illustrates very poor password selection choices from the victims but also persistence in the revictimisation of a significant part of the users. Finally, we reveal many correlations regarding demographics, timing, sentiment, emotion, and tone of the victims' responses.
翻訳日:2024-03-19 03:12:08 公開日:2023-10-05
# 6Gエッジ・オブ・モノネットワークのためのディジタルツイン駆動型スマートアタック検出システム

Digital Twin-Empowered Smart Attack Detection System for 6G Edge of Things Networks ( http://arxiv.org/abs/2310.03554v1 )

ライセンス: Link先を確認
Yagmur Yigit, Christos Chrysoulas, Gokhan Yurdakul, Leandros Maglaras, Berk Canberk, (参考訳) グローバルなモノのインターネット(IoT)デバイス接続が急増するにつれて、その大部分がエッジ・オブ・モノ(EoT)ネットワークに向かっている。 この変更により、企業はエンドユーザーに近いインフラをデプロイし、アクセシビリティを高めることができる。 しかし、拡大するEoTネットワークは攻撃面を拡張し、堅牢で積極的なセキュリティ対策を必要とする。 従来のソリューションは、動的なEoT脅威に対して不足しており、アクティブでインテリジェントなシステムの必要性を強調している。 6G EoTネットワークのためのディジタル双発型スマートアタック検出システムを提案する。 デジタルツインとエッジコンピューティングを活用して、物理的資産をリアルタイムで監視し、シミュレートし、セキュリティを高める。 提案システムにおけるオンライン学習モジュールは,ネットワーク性能を最適化する。 本システムは,6G EoTネットワークのセキュリティを確保するために,積極的に脅威検出を行う。 性能評価は、実データを用いた有効性、堅牢性、適応性を示す。

As global Internet of Things (IoT) devices connectivity surges, a significant portion gravitates towards the Edge of Things (EoT) network. This shift prompts businesses to deploy infrastructure closer to end-users, enhancing accessibility. However, the growing EoT network expands the attack surface, necessitating robust and proactive security measures. Traditional solutions fall short against dynamic EoT threats, highlighting the need for proactive and intelligent systems. We introduce a digital twin-empowered smart attack detection system for 6G EoT networks. Leveraging digital twin and edge computing, it monitors and simulates physical assets in real time, enhancing security. An online learning module in the proposed system optimizes the network performance. Our system excels in proactive threat detection, ensuring 6G EoT network security. The performance evaluations demonstrate its effectiveness, robustness, and adaptability using real datasets.
翻訳日:2024-03-19 03:12:08 公開日:2023-10-05
# 強化学習を用いた浸透経路解析の強化

Enhancing Exfiltration Path Analysis Using Reinforcement Learning ( http://arxiv.org/abs/2310.03667v1 )

ライセンス: Link先を確認
Riddam Rishu, Akshay Kakkar, Cheng Wang, Abdul Rahman, Christopher Redino, Dhruv Nandakumar, Tyler Cody, Ryan Clark, Daniel Radke, Edward Bowen, (参考訳) 本研究は, 拡張学習(RL)を用いて, 濾過経路の同定に焦点を合わせ, プロトコルやペイロードを考慮した方法論を拡張した。 最適経路の決定に報酬と状態が特に関連しているエミッションパス発見に対する以前のアプローチは、敵の行動のニュアンスを考慮に入れたこれらの追加的な現実的特徴を提示する。 生成されたパスは、通信ペイロードとプロトコルをマルコフ決定プロセス(MDP)に組み込むことで拡張され、ネットワークベースのフィルタイベントの属性をより現実的にエミュレートする。 提案手法は,時間とともにエクスポートされるペイロードのサイズや,その発生するプロトコルなど,複雑な敵の考慮事項をエミュレートする上で有効である。 そのため、様々なペイロードやプロトコルの仮定に基づいて、予想される敵行動の識別をより包括的に改善することができる。

Building on previous work using reinforcement learning (RL) focused on identification of exfiltration paths, this work expands the methodology to include protocol and payload considerations. The former approach to exfiltration path discovery, where reward and state are associated specifically with the determination of optimal paths, are presented with these additional realistic characteristics to account for nuances in adversarial behavior. The paths generated are enhanced by including communication payload and protocol into the Markov decision process (MDP) in order to more realistically emulate attributes of network based exfiltration events. The proposed method will help emulate complex adversarial considerations such as the size of a payload being exported over time or the protocol on which it occurs, as is the case where threat actors steal data over long periods of time using system native ports or protocols to avoid detection. As such, practitioners will be able to improve identification of expected adversary behavior under various payload and protocol assumptions more comprehensively.
翻訳日:2024-03-19 03:12:08 公開日:2023-10-05
# SIFT -- メタデータのないファイルフラグメント分類

SIFT -- File Fragment Classification Without Metadata ( http://arxiv.org/abs/2310.03831v1 )

ライセンス: Link先を確認
Shahid Alam, (参考訳) デジタル法医学におけるファイル彫刻の重要な問題は、ファイルシステムメタデータが欠落しているときに、ファイルフラグメントの型分類である。 過去数十年にわたり、ファイルのフラグメントを分類する手法を開発するためにいくつかの努力が続けられてきた。 本研究では,SIFT(Sifting File Types)と呼ばれる新しいシフティング手法を提案する。 SIFTは、他の最先端技術よりも少なくとも8%優れています。 1)SIFTと他との大きな違いの1つは、SIFTが1バイトを別個の特徴、すなわち合計256(0x00 - 0xFF)の特徴として使用していることである。 また、これを無意味な特徴(情報)抽出と呼びます。 2) もう1つの大きな違いは,特徴のクラス間情報ゲインとクラス内情報ゲインを推定する手法である。 他のものとは異なり、SIFTはこの目的のためにTF-IDFを適用し、断片(サンプル)内の各バイト(機能)に重みを計算し割り当てる。 これらの大きな違いとアプローチにより、SIFTは他の研究と比べて有望な結果をもたらす。

A vital issue of file carving in digital forensics is type classification of file fragments when the filesystem metadata is missing. Over the past decades, there have been several efforts for developing methods to classify file fragments. In this research, a novel sifting approach, named SIFT (Sifting File Types), is proposed. SIFT outperforms the other state-of-the-art techniques by at least 8%. (1) One of the significant differences between SIFT and others is that SIFT uses a single byte as a separate feature, i.e., a total of 256 (0x00 - 0xFF) features. We also call this a lossless feature (information) extraction, i.e., there is no loss of information. (2) The other significant difference is the technique used to estimate inter-Classes and intra-Classes information gain of a feature. Unlike others, SIFT adapts TF-IDF for this purpose, and computes and assigns weight to each byte (feature) in a fragment (sample). With these significant differences and approaches, SIFT produces promising (better) results compared to other works.
翻訳日:2024-03-19 03:12:08 公開日:2023-10-05
# サーバレスコンピューティングにおける深層強化学習の展望:機能スケジューリングとリソース自動スケーリング

A Review of Deep Reinforcement Learning in Serverless Computing: Function Scheduling and Resource Auto-Scaling ( http://arxiv.org/abs/2311.12839v1 )

ライセンス: Link先を確認
Amjad Yousef Majid, Eduard Marin(参考訳) サーバーレスコンピューティングの急速に進化する分野では、効率的な関数スケジューリングとリソーススケーリングがパフォーマンスとコストの最適化に不可欠である。 本稿では,これらの分野におけるDeep Reinforcement Learning(DRL)技術の応用に関する総合的なレビューを行う。 まずサーバレスコンピューティングの概要を提供し、そのメリットと課題を強調し、特に機能スケジューリングとリソーススケーリングに重点を置いています。 次に、深層強化学習(DRL)の原理と、これらの課題に対処する可能性を探る。 DRLをサーバレスコンピューティングに適用した最近の研究の体系的なレビューが、さまざまなアルゴリズム、モデル、パフォーマンスについて紹介されている。 我々の分析によると、DRLは環境から学び、適応する能力を持ち、サーバーレスコンピューティングにおける関数スケジューリングとリソーススケーリングの効率を改善する有望な結果を示す。 しかし、より現実的なシミュレーション環境の必要性、コールドスタートの扱い、学習時間とスケジューリング性能のトレードオフなど、いくつかの課題が残っている。 我々は、この研究領域の将来的な方向性について議論し、より堅牢なDRLモデルの必要性、より良いベンチマーク方法、より複雑なサーバーレスアーキテクチャのためのマルチエージェント強化学習の探求を強調した。 このレビューは、サーバーレスコンピューティングにおけるDRLの応用を理解し、前進させようとする研究者や実践者にとって貴重なリソースとなる。

In the rapidly evolving field of serverless computing, efficient function scheduling and resource scaling are critical for optimizing performance and cost. This paper presents a comprehensive review of the application of Deep Reinforcement Learning (DRL) techniques in these areas. We begin by providing an overview of serverless computing, highlighting its benefits and challenges, with a particular focus on function scheduling and resource scaling. We then delve into the principles of deep reinforcement learning (DRL) and its potential for addressing these challenges. A systematic review of recent studies applying DRL to serverless computing is presented, covering various algorithms, models, and performances. Our analysis reveals that DRL, with its ability to learn and adapt from an environment, shows promising results in improving the efficiency of function scheduling and resource scaling in serverless computing. However, several challenges remain, including the need for more realistic simulation environments, handling of cold starts, and the trade-off between learning time and scheduling performance. We conclude by discussing potential future directions for this research area, emphasizing the need for more robust DRL models, better benchmarking methods, and the exploration of multi-agent reinforcement learning for more complex serverless architectures. This review serves as a valuable resource for researchers and practitioners aiming to understand and advance the application of DRL in serverless computing.
翻訳日:2024-01-15 15:35:44 公開日:2023-10-05
# マルコフ決定過程における行動指標に関するカーネル視点

A Kernel Perspective on Behavioural Metrics for Markov Decision Processes ( http://arxiv.org/abs/2310.19804v1 )

ライセンス: Link先を確認
Pablo Samuel Castro, Tyler Kastner, Prakash Panangaden, Mark Rowland(参考訳) 行動指標は強化学習における表現構築に有効なメカニズムであることが示されている。 本稿では,マルコフ決定過程における行動指標に関する新しい視点を,正定値カーネルを用いて提示する。 我々はこの新たな視点を利用して、最近導入されたMICo距離(Castro et al., 2021)と同値である新しい距離を定義する。 カーネル・パースペクティブによってさらに新しい理論的な結果を提供できるようになり、これまでの先行研究から遠ざかっている。 これらには、我々の計量による有界値関数の差や、我々の計量が低歪み誤差の有限次元ユークリッド空間に証明可能に組み込まれることの実証が含まれる。 これらは強化学習表現に行動指標を使用する際の2つの重要な特性である。 我々は,これらの手法の有効性を実証する強力な実験結果を用いて,理論を補完する。

Behavioural metrics have been shown to be an effective mechanism for constructing representations in reinforcement learning. We present a novel perspective on behavioural metrics for Markov decision processes via the use of positive definite kernels. We leverage this new perspective to define a new metric that is provably equivalent to the recently introduced MICo distance (Castro et al., 2021). The kernel perspective further enables us to provide new theoretical results, which has so far eluded prior work. These include bounding value function differences by means of our metric, and the demonstration that our metric can be provably embedded into a finite-dimensional Euclidean space with low distortion error. These are two crucial properties when using behavioural metrics for reinforcement learning representations. We complement our theory with strong empirical results that demonstrate the effectiveness of these methods in practice.
翻訳日:2023-11-05 13:41:42 公開日:2023-10-05
# エネルギー効率の良い基地局セルスイッチングのための適応動的プログラミング

Adaptive Dynamic Programming for Energy-Efficient Base Station Cell Switching ( http://arxiv.org/abs/2310.12999v1 )

ライセンス: Link先を確認
Junliang Luo, Yi Tian Xu, Di Wu, Michael Jenkin, Xue Liu, Gregory Dudek(参考訳) 次世代セルラーネットワークの需要の増加、環境・規制上の懸念、地政学的緊張から生じる潜在的なエネルギー危機などにより、無線ネットワークにおける省エネルギーの重要性が高まっている。 本稿では,基地局のセルをオン/オフしてネットワーク電力消費量を削減し,qos(quality of service)メトリクスを維持しつつ,オンライン最適化と組み合わせた近似動的プログラミング(adp)ベースの手法を提案する。 各状態-動作ペアに与えられた多層パーセプトロン(mlp)を用いて消費電力を予測し、最適な期待電力を節約した動作を選択するためのadpの値関数を近似する。 QoSを劣化させることなく最大の電力消費を抑えるため、QoSを予測するための別のMLPとハンドオーバを予測するための長期短期メモリ(LSTM)をオンライン最適化アルゴリズムに組み込み、QoS履歴に基づいてセル切替動作をフィルタリングする適応QoS閾値を生成する。 本手法の性能は,動的トラヒックパターンを用いた実世界シナリオを用いた実用ネットワークシミュレータを用いて評価する。

Energy saving in wireless networks is growing in importance due to increasing demand for evolving new-gen cellular networks, environmental and regulatory concerns, and potential energy crises arising from geopolitical tensions. In this work, we propose an approximate dynamic programming (ADP)-based method coupled with online optimization to switch on/off the cells of base stations to reduce network power consumption while maintaining adequate Quality of Service (QoS) metrics. We use a multilayer perceptron (MLP) given each state-action pair to predict the power consumption to approximate the value function in ADP for selecting the action with optimal expected power saved. To save the largest possible power consumption without deteriorating QoS, we include another MLP to predict QoS and a long short-term memory (LSTM) for predicting handovers, incorporated into an online optimization algorithm producing an adaptive QoS threshold for filtering cell switching actions based on the overall QoS history. The performance of the method is evaluated using a practical network simulator with various real-world scenarios with dynamic traffic patterns.
翻訳日:2023-10-29 16:23:37 公開日:2023-10-05
# サラウンドビューカメラシステムに基づく駐車スポット分類

Parking Spot Classification based on surround view camera system ( http://arxiv.org/abs/2310.12997v1 )

ライセンス: Link先を確認
Andy Xiao, Deep Doshi, Lihao Wang, Harsha Gorantla, Thomas Heitzmann, and Peter Groth(参考訳) サラウンドビュー・フィッシュアイカメラは、都市運転やオートバレット駐車など、自動走行シナリオの近距離センシングに一般的に使用されている。 両側に1つずつの4つの魚眼カメラは、近距離領域全体を捉えるために360{\deg}をカバーするのに十分である。 近年,サラウンドビューカメラをベースとした駐車スロット検出に関する研究が盛んに行われているが,フリースロットがエゴ車両のミッションと互換性があるかどうかについては,ほとんど検討されていない。 例えば、一部のスポットはハンディキャップまたは電気自動車でしかアクセスできない。 本稿では,サラウンドビューカメラシステムに基づくパーキングスポット分類について検討する。 我々は,物体検出ニューラルネットワークYOLOv4を,傾斜駐車スロットなどの様々な形状の駐車スペースに適した,新しいポリゴンバウンディングボックスモデルで適応する。 我々の知る限り、自動駐車シナリオのための魚眼カメラによる駐車場所の検出と分類に関する最初の詳細な研究について述べる。 その結果, 提案手法は, 通常の, 電気自動車, およびハンディキャップ駐車場の区別に有効であることが証明された。

Surround-view fisheye cameras are commonly used for near-field sensing in automated driving scenarios, including urban driving and auto valet parking. Four fisheye cameras, one on each side, are sufficient to cover 360{\deg} around the vehicle capturing the entire near-field region. Based on surround view cameras, there has been much research on parking slot detection with main focus on the occupancy status in recent years, but little work on whether the free slot is compatible with the mission of the ego vehicle or not. For instance, some spots are handicap or electric vehicles accessible only. In this paper, we tackle parking spot classification based on the surround view camera system. We adapt the object detection neural network YOLOv4 with a novel polygon bounding box model that is well-suited for various shaped parking spaces, such as slanted parking slots. To the best of our knowledge, we present the first detailed study on parking spot detection and classification on fisheye cameras for auto valet parking scenarios. The results prove that our proposed classification approach is effective to distinguish between regular, electric vehicle, and handicap parking spots.
翻訳日:2023-10-29 16:23:16 公開日:2023-10-05
# 薬物検査における薬物反応予測のゼロショット学習

Zero-shot Learning of Drug Response Prediction for Preclinical Drug Screening ( http://arxiv.org/abs/2310.12996v1 )

ライセンス: Link先を確認
Kun Li, Yong Luo, Xiantao Cai, Wenbin Hu, Bo Du(参考訳) 従来のディープラーニング手法では、典型的には薬物反応予測(DRP)に教師付き学習を用いる。 これはモデルトレーニングのための薬物からのラベル付き応答データに依存する。 しかし、前臨床薬品スクリーニングフェーズにおける実用的な応用は、drpモデルが新規化合物に対する反応を予測することを要求する。 これはこのようなシナリオに適さない教師付きディープラーニングメソッドのレンダリングという課題を示す。 本稿では,前臨床薬物スクリーニングにおけるDRPタスクに対するゼロショット学習ソリューションを提案する。 具体的には、MSDAと呼ばれるマルチブランチマルチソースドメイン適応テスト拡張プラグインを提案する。 MSDAは従来のDRP法とシームレスに統合することができ、類似薬物の反応データから不変の特徴を学習し、ラベルのない化合物のリアルタイム予測を強化することができる。 GDSCv2とCellMinerのデータセットを用いて実験を行った。 以上の結果から,msdaは新規化合物の薬剤反応を効率的に予測し,前臨床薬品スクリーニング段階では5~10\%の性能改善が期待できることがわかった。 このソリューションの重要性は、薬物発見プロセスを加速し、薬物候補の評価を改善し、薬物発見の成功を促進する可能性にある。

Conventional deep learning methods typically employ supervised learning for drug response prediction (DRP). This entails dependence on labeled response data from drugs for model training. However, practical applications in the preclinical drug screening phase demand that DRP models predict responses for novel compounds, often with unknown drug responses. This presents a challenge, rendering supervised deep learning methods unsuitable for such scenarios. In this paper, we propose a zero-shot learning solution for the DRP task in preclinical drug screening. Specifically, we propose a Multi-branch Multi-Source Domain Adaptation Test Enhancement Plug-in, called MSDA. MSDA can be seamlessly integrated with conventional DRP methods, learning invariant features from the prior response data of similar drugs to enhance real-time predictions of unlabeled compounds. We conducted experiments using the GDSCv2 and CellMiner datasets. The results demonstrate that MSDA efficiently predicts drug responses for novel compounds, leading to a general performance improvement of 5-10\% in the preclinical drug screening phase. The significance of this solution resides in its potential to accelerate the drug discovery process, improve drug candidate assessment, and facilitate the success of drug discovery.
翻訳日:2023-10-29 16:22:57 公開日:2023-10-05
# SoK: ロールアップのための分散シーケンス

SoK: Decentralized Sequencers for Rollups ( http://arxiv.org/abs/2310.03616v1 )

ライセンス: Link先を確認
Shashank Motepalli and Luciano Freitas and Benjamin Livshits(参考訳) ブロックチェーンのスケーラビリティ向上のための有望なソリューションとしてロールアップが登場し、スループットの向上、レイテンシの低減、トランザクション手数料の低減などが実現されている。 しかし、現在はトランザクションの順序を決定するために集中型シーケンサに依存しており、ブロックチェーンシステムの分散原則を妥協している。 これを認識して、ロールアップにおける分散型シーケンサの必要性は明らかです。 しかし、そのようなシステムの設計は複雑である。 本稿では,ロールアップにおける分散シーケンサーの包括的探索,理想的な特性の定式化,コアコンポーネントの解剖,コミュニティの洞察の合成について述べる。 我々の発見は、アデプトシーケンサ設計の必須性を強調し、ブロックチェーンエコシステムの全体的目標と調和し、その後の研究への道筋を定めている。

Rollups have emerged as a promising solution to enhance blockchain scalability, offering increased throughput, reduced latency, and lower transaction fees. However, they currently rely on a centralized sequencer to determine transaction ordering, compromising the decentralization principle of blockchain systems. Recognizing this, there is a clear need for decentralized sequencers in rollups. However, designing such a system is intricate. This paper presents a comprehensive exploration of decentralized sequencers in rollups, formulating their ideal properties, dissecting their core components, and synthesizing community insights. Our findings emphasize the imperative for an adept sequencer design, harmonizing with the overarching goals of the blockchain ecosystem, and setting a trajectory for subsequent research endeavors.
翻訳日:2023-10-23 04:36:28 公開日:2023-10-05
# 相対論的ディラック真空状態に対するフェルミオンエンタングルメントエントロピーと領域法則

The Fermionic Entanglement Entropy and Area Law for the Relativistic Dirac Vacuum State ( http://arxiv.org/abs/2310.03493v1 )

ライセンス: Link先を確認
Felix Finster, Magdalena Lottner and Alexander Sobolev(参考訳) ミンコフスキー時空の有界空間領域における自由ディラック場に対するフェルミオンの絡み合いエントロピーを考える。 系の紫外線を有限にするために、正則化を導入する。 領域法則は、体積が無限大であり/または正規化の長さがゼロになるような制限ケースで証明される。 論文の技術的核心は、ハロルド・ウィドムの定理を、主要な記号が一つの点で特定の不連続性を持つ擬微分作用素に一般化することである。

We consider the fermionic entanglement entropy for the free Dirac field in a bounded spatial region of Minkowski spacetime. In order to make the system ultraviolet finite, a regularization is introduced. An area law is proven in the limiting cases where the volume tends to infinity and/or the regularization length tends to zero. The technical core of the paper is to generalize a theorem of Harold Widom to pseudo-differential operators whose principal symbols develop a specific discontinuity at a single point.
翻訳日:2023-10-23 04:36:01 公開日:2023-10-05
# メタバースアプリケーション依存性解析について

On Metaverse Application Dependability Analysis ( http://arxiv.org/abs/2310.03318v1 )

ライセンス: Link先を確認
Yingfan Zong, Jing Bai, Xiaolin Chang, Fumio Machida, Yingsi Zhao(参考訳) Metaverse as-a-Service(MaaS)は、MetaverseテナントがMetaverseサービス関数(MSF)の形式でMetaverseリソースを割り当てることで、アプリケーション(MetaAPP)を実行することを可能にする。 通常、それぞれのMSFは仮想マシン(VM)にデプロイされ、レジリエンスとセキュリティが向上する。 しかし、VMや仮想マシンモニタ(VMM)と共に動作しているこれらのMSFは、長時間の連続操作後にソフトウェア老化に遭遇する可能性がある。 次に、MetaAPPの信頼性、すなわちMetaAPPに割り当てられたMSFからなるMSFC(MSFC)の信頼性が低下する。 本稿では, アクティブコンポーネント(MSF, VM, VMM)とバックアップコンポーネントの両方がソフトウェア老化するシナリオにおいて, ソフトウェア老化と再活性化技術がMetaAPPの信頼性に与える影響を検討することを目的とする。 半マルコフ過程と信頼性ブロックダイアグラムを適用し,老化,故障,回復の挙動をキャプチャする階層モデルを開発した。 提案するモデルと信頼度指標の近似精度を評価するため,数値解析およびシミュレーション実験を行った。 次に、感度分析によりMetaAPP/MSFCの信頼性を向上させるための重要なパラメータを同定する。 また,MetaAPP/MSFCの信頼性に対する各種パラメータの影響についても検討した。

Metaverse as-a-Service (MaaS) enables Metaverse tenants to execute their APPlications (MetaAPP) by allocating Metaverse resources in the form of Metaverse service functions (MSF). Usually, each MSF is deployed in a virtual machine (VM) for better resiliency and security. However, these MSFs along with VMs and virtual machine monitors (VMM) running them may encounter software aging after prolonged continuous operation. Then, there is a decrease in MetaAPP dependability, namely, the dependability of the MSF chain (MSFC), consisting of MSFs allocated to MetaAPP. This paper aims to investigate the impact of both software aging and rejuvenation techniques on MetaAPP dependability in the scenarios, where both active components (MSF, VM and VMM) and their backup components are subject to software aging. We develop a hierarchical model to capture behaviors of aging, failure, and recovery by applying Semi-Markov process and reliability block diagram. Numerical analysis and simulation experiments are conducted to evaluate the approximation accuracy of the proposed model and dependability metrics. We then identify the key parameters for improving the MetaAPP/MSFC dependability through sensitivity analysis. The investigation is also made about the influence of various parameters on MetaAPP/MSFC dependability.
翻訳日:2023-10-23 04:35:52 公開日:2023-10-05
# Xcrum: エクストリームプログラミングをスクラムに統合するシナジスティックアプローチ

Xcrum: A Synergistic Approach Integrating Extreme Programming with Scrum ( http://arxiv.org/abs/2310.03248v1 )

ライセンス: Link先を確認
Siavash Hosseini(参考訳) 現代の世界では、ソフトウェアは重要な役割を果たす。 ソフトウェア開発は非常に複雑で時間のかかるプロセスであり、多次元的な努力を必要とする。 企業は要求を進化する環境に合わせて継続的に順応し、迅速なデリバリと要件変更の受け入れに特に重点を置いています。 計画駆動開発のような伝統的なモデルは、しばしばこれらの要求を満たすのに不足する。 ソフトウェア開発の世界では、アジャイルは研究者と開発者の両方にとってグローバルな議論の焦点となっている。 アジャイル開発は、開発プロセスのカスタマイズと合理化に適しており、効率的なソフトウェア開発に高度に柔軟で早期かつ迅速なデリバリライフサイクルを提供する。 この記事では、スクラムとExtreme Programming(XP)という2つの著名なアジャイル方法論の概要を提供する。 関連する出版物をレビューし、ソフトウェア開発への影響を分析し、それぞれの方法論の特徴を探求し、比較評価を行うことで、これを実現する。 さらに、この記事は個人的な洞察とレコメンデーションを提供する。 特に、XPプラクティスをスクラムに統合することで、そのアジリティを維持する"Xcrum"と呼ばれる新しいハイブリッド方法論が生まれました。 この新しいアプローチが両方のメソッドの強みを取り入れていることを考えると、オリジナルのフレームワークを上回る可能性を秘めている点に注意が必要だ。

In today's modern world, software plays a pivotal role. Software development is a highly complex and time-consuming process, demanding multidimensional efforts. Companies continually adapt their requirements to align with the evolving environment, with a specific emphasis on rapid delivery and the acceptance of changing requirements. Traditional models, such as plan-driven development, often fall short in meeting these demands. In the realm of software development, Agile has been the focal point of global discourse for both researchers and developers. Agile development is better suited to customize and streamline the development process, offering a highly flexible, early, and rapid delivery lifecycle conducive to efficient software development. This article aims to provide an overview of two prominent Agile methodologies: Scrum and Extreme Programming (XP). It achieves this by reviewing relevant publications, analyzing their impact on software development, exploring the distinctive features of each methodology, and conducting a comparative assessment. Furthermore, the article offers personal insights and recommendations. Notably, the integration of XP practices into Scrum has given rise to a novel hybrid methodology known as "Xcrum," which retains its agility. It should be highlighted that, given this new approach's incorporation of the strengths of both methods, it holds the potential to outperform the original frameworks.
翻訳日:2023-10-23 04:35:31 公開日:2023-10-05
# バージョン管理,継続的インテグレーション,品質保証を高校生に導入する

Introducing High School Students to Version Control, Continuous Integration, and Quality Assurance ( http://arxiv.org/abs/2310.03914v1 )

ライセンス: Link先を確認
Joseph Latessa, Aadi Huria, Deepak Raju(参考訳) バージョン管理、継続的統合、単体テストといったソフトウェア工学の概念は、いくつかのプログラムコースを修了した後、大学コンピュータサイエンスのカリキュラムで3年目まで提示されないことが多い。 2023年の夏を通して、2人の高校生がウェイン州立大学の研究室でボランティアを行い、私は大学院の研究助手とコンピュータサイエンスの博士課程の学生です。 学生たちはAP Computer Scienceを受講したが、ソフトウェア工学やソフトウェアテストの経験がなかった。 本稿では,我々の研究室で開発されたオープンソース科学計算プロジェクトに有意義に寄与する自動テストを実現するための,必要なソフトウェア工学スキルを習得するためのグループプロジェクトの開発経験について述べる。 私たちは、この初期のソフトウェア工学入門で書かれた概念、使用されるツール、ソフトウェアテストについて述べ、教育と我々の仕事の展開について共通の段階を維持しています。

Software Engineering concepts such as version control, continuous integration, and unit testing are often not presented in college computer science curriculums until the third year of study, after completing several semesters of programming courses. Throughout the summer of 2023, two high school students volunteered in our lab at Wayne State University where I'm a graduate research assistant and Ph.D. student in computer science. The students had taken AP Computer Science but had no prior experience with software engineering or software testing. This paper documents our experience devising a group project to teach the requisite software engineering skills to implement automated tests that meaningfully contribute to open-source scientific computing projects developed in connection with our lab. We describe the concepts covered, tools used, and software tests written in this early introduction to software engineering while maintaining shared emphases on education and the deployment of our work.
翻訳日:2023-10-23 04:24:27 公開日:2023-10-05
# hdna:htmlページにおけるグラフに基づく変更検出(deface attack detection)

HDNA: A graph-based change detection in HTML pages(Deface Attack Detection) ( http://arxiv.org/abs/2310.03891v1 )

ライセンス: Link先を確認
Mahdi Akhi, Nona Ghazizadeh(参考訳) 本稿では,HTML ページの違いを検出するために,文書オブジェクトモデル (DOM) ツリーの解析と比較を行う HDNA (HTML DNA) という新しい手法を提案する。 この方法は、その構造に基づいて各HTMLページに識別子を割り当て、サーバ側の更新やユーザインタラクション、潜在的なセキュリティリスクによるバリエーションを検出するのに特に有用であることを示す。 このプロセスでは、DOMツリーを生成するHTMLコンテンツを前処理し、2つ以上のツリー間の格差を計算する。 重みをノードに割り当てることで、その階層的重要性に関する貴重な洞察が得られる。 HDNAアプローチの有効性は、動的に生成されたコンテンツが関与している場合でも、DOMツリーの変化を特定する上で実証されている。 この方法は、Webページの進化に関する深い理解を提供することによって、Web開発者、テスタ、セキュリティアナリストに利益をもたらすものではない。 webアプリケーションの機能とパフォーマンスを保証するのにも役立ちます。 さらに、DOM構造の変更によって生じる脆弱性の検出と応答も可能になる。 Webエコシステムが進化を続けるにつれ、HDNAはWeb開発、テスト、セキュリティ分析に従事している個人のためのツールであることが証明されている。

In this paper, a new approach called HDNA (HTML DNA) is introduced for analyzing and comparing Document Object Model (DOM) trees in order to detect differences in HTML pages. This method assigns an identifier to each HTML page based on its structure, which proves to be particularly useful for detecting variations caused by server-side updates, user interactions or potential security risks. The process involves preprocessing the HTML content generating a DOM tree and calculating the disparities between two or more trees. By assigning weights to the nodes valuable insights about their hierarchical importance are obtained. The effectiveness of the HDNA approach has been demonstrated in identifying changes in DOM trees even when dynamically generated content is involved. Not does this method benefit web developers, testers, and security analysts by offering a deeper understanding of how web pages evolve. It also helps ensure the functionality and performance of web applications. Additionally, it enables detection and response to vulnerabilities that may arise from modifications in DOM structures. As the web ecosystem continues to evolve HDNA proves to be a tool, for individuals engaged in web development, testing, or security analysis.
翻訳日:2023-10-23 04:24:12 公開日:2023-10-05
# SQLクエリに対する自然言語の修復について

On Repairing Natural Language to SQL Queries ( http://arxiv.org/abs/2310.03866v1 )

ライセンス: Link先を確認
Aidan Z.H. Yang, Ricardo Brancas, Pedro Esteves, Sofia Aparicio, Joao Pedro Nadkarni, Miguel Terra-Neves, Vasco Manquinho, Ruben Martins(参考訳) データアナリストはSQLクエリを使用して、データベース上のデータにアクセスし、操作する。 しかし、これらのクエリは書き込みが難しく、小さなミスが予期しないデータ出力につながる可能性がある。 最近の研究は、ユーザが提供する仕様に基づいてクエリを自動的に合成する方法をいくつか検討している。 Text-to-SQLと呼ばれる有望なテクニックは、ユーザが意図した振る舞いとデータベースのスキーマを自然言語で記述することである。 テキストからSQLへのツールはより正確になっていますが、正しいクエリを生成できないケースはたくさんあります。 本稿では,text-to-sqlツールが正しいクエリを返さない場合を分析し,返されたクエリが正しいクエリに近い場合が多いことを示す。 我々は、使用するテキストからSQLツールに依存しない突然変異ベースのアプローチを用いて、これらのエラークエリを修復することを提案する。 RAT-SQLとSmBoPという2つの最近のテキスト-SQLツールに対する我々のアプローチを評価し、我々のアプローチが大量の失敗するクエリを修復できることを示す。

Data analysts use SQL queries to access and manipulate data on their databases. However, these queries are often challenging to write, and small mistakes can lead to unexpected data output. Recent work has explored several ways to automatically synthesize queries based on a user-provided specification. One promising technique called text-to-SQL consists of the user providing a natural language description of the intended behavior and the database's schema. Even though text-to-SQL tools are becoming more accurate, there are still many instances where they fail to produce the correct query. In this paper, we analyze when text-to-SQL tools fail to return the correct query and show that it is often the case that the returned query is close to a correct query. We propose to repair these failing queries using a mutation-based approach that is agnostic to the text-to-SQL tool being used. We evaluate our approach on two recent text-to-SQL tools, RAT-SQL and SmBoP, and show that our approach can repair a significant number of failing queries.
翻訳日:2023-10-23 04:23:56 公開日:2023-10-05
# 大規模言語モデルを用いたソーシャルメディアのシミュレーションによる代替ニュースフィードアルゴリズムの評価

Simulating Social Media Using Large Language Models to Evaluate Alternative News Feed Algorithms ( http://arxiv.org/abs/2310.05984v1 )

ライセンス: Link先を確認
Petter T\"ornberg, Diliara Valeeva, Justus Uitermark, Christopher Bail(参考訳) ソーシャルメディアはしばしば、有害な会話を増幅し、建設的な会話を妨げていると批判されている。 しかし、より良い会話を促進するためのソーシャルメディアプラットフォームを設計することは本質的に難しい。 本稿では,大規模言語モデル(llm)とエージェントベースモデリングの組み合わせによってソーシャルメディアをシミュレートすることで,異なるニュースフィードアルゴリズムがオンライン会話の品質をどのように形成するかを研究者が研究できるかどうかを問う。 アメリカの選挙調査のデータを使って、リアルなパーソナラを作り、シミュレーションされたソーシャルメディアプラットフォームを作ります。 次に、異なるニュースフィードアルゴリズムを使用する3つのプラットフォーム内で、エージェントにニュース記事を読んだり共有したり、お互いのメッセージにコメントしたりするように促します。 最初のプラットフォームでは、ユーザーはフォローしているユーザーから最も好まれ、コメントされた投稿を見る。 第二に、彼らはすべてのユーザーからの投稿を見る ― 自分のネットワークの外でさえ。 第3のプラットフォームは、反対の政治的見解を持つ人々が好む投稿を強調する、新しい「ブリッジング」アルゴリズムを採用している。 このブリッジングアルゴリズムは、他の2つのモデルよりも、より建設的で非有害な会話を促進する。 これらの知見を評価するためにはさらなる研究が必要であるが、LLMはソーシャルメディアやその他の複雑な社会環境におけるシミュレーション研究を改善する大きな可能性を秘めている。

Social media is often criticized for amplifying toxic discourse and discouraging constructive conversations. But designing social media platforms to promote better conversations is inherently challenging. This paper asks whether simulating social media through a combination of Large Language Models (LLM) and Agent-Based Modeling can help researchers study how different news feed algorithms shape the quality of online conversations. We create realistic personas using data from the American National Election Study to populate simulated social media platforms. Next, we prompt the agents to read and share news articles - and like or comment upon each other's messages - within three platforms that use different news feed algorithms. In the first platform, users see the most liked and commented posts from users whom they follow. In the second, they see posts from all users - even those outside their own network. The third platform employs a novel "bridging" algorithm that highlights posts that are liked by people with opposing political views. We find this bridging algorithm promotes more constructive, non-toxic, conversation across political divides than the other two models. Though further research is needed to evaluate these findings, we argue that LLMs hold considerable potential to improve simulation research on social media and many other complex social settings.
翻訳日:2023-10-23 03:55:41 公開日:2023-10-05
# マスター方程式の平方根としての量子進化

Quantum Evolution as a Square Root of the Master Equation ( http://arxiv.org/abs/2310.06782v1 )

ライセンス: Link先を確認
J.M.J. van Leeuwen(参考訳) 量子進化とマスター方程式の類似性について考察した。 量子進化の確率的性質を強調することで、量子力学の解釈における多くの概念的困難を回避できる。

The analogy between the quantum evolution and that of the master equation is explored. By stressing the stochastic nature of quantum evolution a number of conceptual difficulties in the interpretation of quantum mechanics are avoided.
翻訳日:2023-10-23 03:33:44 公開日:2023-10-05
# observatory:リレーショナルテーブルの埋め込みを特徴付ける

Observatory: Characterizing Embeddings of Relational Tables ( http://arxiv.org/abs/2310.07736v1 )

ライセンス: Link先を確認
Tianji Cong, Madelon Hulsebos, Zhenjie Sun, Paul Groth, H. V. Jagadish(参考訳) 言語モデルと特殊なテーブル埋め込みモデルは最近、表データよりも多くのタスクで強いパフォーマンスを示している。 研究者や実践者は、これらのモデルを多くの新しいアプリケーションコンテキストで活用したいと熱心に考えている。しかし、これらのモデルの強みと弱さ、そしてそれらが生成するテーブル表現について、試行錯誤に依存するタスクに適したモデルを見つけるプロセスは限られている。 下流利用における非効率性と失敗を最小限に抑えるために、これらのモデルの包括的な理解を得る必要がある。 そこで本稿では,関係表の埋め込み表現を体系的に解析する形式的フレームワークであるobservationを提案する。 関係データモデルの不変性とデータ分布に関する統計的考察の両方により動機づけられた8つの原始的性質と、これらの性質の表埋め込みを定量的に特徴付けるための対応する尺度を定義する。 これらの特性に基づき、言語および表埋め込みモデルを評価する拡張可能なフレームワークを定義する。 データセットの集合を収集、合成し、オブザーバを使用して7つのモデルを分析します。 我々の分析は、テーブル上の学習表現の強みと弱みに関する洞察を提供する。 例えば、列の順序のようなテーブル構造に敏感なモデルもあり、機能的依存関係は埋め込みにはほとんど反映されず、特殊なテーブル埋め込みモデルは比較的低いサンプル忠実度を持つ。 このような洞察は、研究者や実践者がモデルの振る舞いをよりよく予測し、下流のタスクに適したモデルを選択するのに役立つ。

Language models and specialized table embedding models have recently demonstrated strong performance on many tasks over tabular data. Researchers and practitioners are keen to leverage these models in many new application contexts; but limited understanding of the strengths and weaknesses of these models, and the table representations they generate, makes the process of finding a suitable model for a given task reliant on trial and error. There is an urgent need to gain a comprehensive understanding of these models to minimize inefficiency and failures in downstream usage. To address this need, we propose Observatory, a formal framework to systematically analyze embedding representations of relational tables. Motivated both by invariants of the relational data model and by statistical considerations regarding data distributions, we define eight primitive properties, and corresponding measures to quantitatively characterize table embeddings for these properties. Based on these properties, we define an extensible framework to evaluate language and table embedding models. We collect and synthesize a suite of datasets and use Observatory to analyze seven such models. Our analysis provides insights into the strengths and weaknesses of learned representations over tables. We find, for example, that some models are sensitive to table structure such as column order, that functional dependencies are rarely reflected in embeddings, and that specialized table embedding models have relatively lower sample fidelity. Such insights help researchers and practitioners better anticipate model behaviors and select appropriate models for their downstream tasks, while guiding researchers in the development of new models.
翻訳日:2023-10-23 03:14:47 公開日:2023-10-05
# 医用画像解析のためのドメイン一般化:調査

Domain Generalization for Medical Image Analysis: A Survey ( http://arxiv.org/abs/2310.08598v1 )

ライセンス: Link先を確認
Jee Seok Yoon, Kwanseok Oh, Yooseung Shin, Maciej A. Mazurowski, Heung-Il Suk(参考訳) 医学画像分析(MedIA)は, 疾患診断, 予後, 治療計画を支援する医療・医療において重要なツールとなり, 近年の深層学習(DL)の成功は, その進歩に大きく貢献している。 しかし、MedIAのDLモデルは実際の状況での展開が困難であり、分散シフト問題として知られるトレーニングとテストサンプルの分散ギャップの下での一般化には失敗している。 研究者は、未知の分散データ分布に頑健に適応し、実行するための様々なdl手法の開発に尽力している。 本稿では,MedIAに適した領域一般化研究を包括的にレビューする。 我々は,ドメインの一般化技術がより広範なMedIAシステム内でどのように作用するかを概観し,MedIAワークフロー全体の運用上の意味を考察する方法論を超えて検討する。 具体的には,ドメイン一般化手法をデータレベル,特徴レベル,モデルレベル,分析レベルに分類する。 本稿では,これらの手法がデータ取得とモデル予測と解析のためのDLを備えたMedIAワークフローの様々な段階でどのように使用できるかを示す。 さらに、これらのアプローチを評価し、様々な手法の長所と短所を分析し、将来の研究機会を明らかにするために使われるベンチマークデータセットやアプリケーションも含んでいる。

Medical Image Analysis (MedIA) has become an essential tool in medicine and healthcare, aiding in disease diagnosis, prognosis, and treatment planning, and recent successes in deep learning (DL) have made significant contributions to its advances. However, DL models for MedIA remain challenging to deploy in real-world situations, failing for generalization under the distributional gap between training and testing samples, known as a distribution shift problem. Researchers have dedicated their efforts to developing various DL methods to adapt and perform robustly on unknown and out-of-distribution data distributions. This paper comprehensively reviews domain generalization studies specifically tailored for MedIA. We provide a holistic view of how domain generalization techniques interact within the broader MedIA system, going beyond methodologies to consider the operational implications on the entire MedIA workflow. Specifically, we categorize domain generalization methods into data-level, feature-level, model-level, and analysis-level methods. We show how those methods can be used in various stages of the MedIA workflow with DL equipped from data acquisition to model prediction and analysis. Furthermore, we include benchmark datasets and applications used to evaluate these approaches and analyze the strengths and weaknesses of various methods, unveiling future research opportunities.
翻訳日:2023-10-23 02:51:38 公開日:2023-10-05
# 人工手指制御におけるEMGのマルチモーダル融合と人間のグラフインテント推論のためのビジョン

Multimodal Fusion of EMG and Vision for Human Grasp Intent Inference in Prosthetic Hand Control ( http://arxiv.org/abs/2104.03893v4 )

ライセンス: Link先を確認
Mehrshad Zandigohar, Mo Han, Mohammadreza Sharif, Sezen Yagmur Gunay, Mariusz P. Furmanek, Mathew Yarossi, Paolo Bonato, Cagdas Onal, Taskin Padir, Deniz Erdogmus, Gunar Schirner(参考訳) 目的: 下腕アンプでは、ロボット義手は日常の生活活動を行う能力を取り戻すことを約束する。 筋電図(EMG)などの生理的信号に基づく現在の制御手法は、運動アーチファクトや筋肉疲労などによる推論結果の低下を引き起こす傾向にある。 視覚センサーは環境状態に関する主要な情報源であり、実現可能で意図されたジェスチャーを推測する上で重要な役割を果たす。 しかし、視覚証拠は、しばしば物体の閉塞や照明の変化などにより、自身の人工物にも影響を受けやすい。 生理的および視覚的センサ計測を用いたマルチモーダルエビデンス融合は、これらのモダリティの相補的な強度による自然なアプローチである。 方法:本論文では,ニューラルネットワークモデルにより処理された前腕の視線映像,眼球運動,筋電図を用いた意図推定のためのベイズ証拠融合フレームワークを提案する。 我々は、手が物体に近づくと、時間関数として個人と融合のパフォーマンスを分析する。 この目的のために、ニューラルネットワークコンポーネントをトレーニングするための新しいデータ処理および拡張技術を開発した。 結果: 核融合は, 平均して, 到達相では13.66%, 14.8%, EMGおよび視覚的エビデンスに対して, 即時的な把握型分類精度が向上し, 全体の融合精度は95.3%であることが示唆された。 結論: 実験データ解析の結果,emgと視覚的なエビデンスは相補的な強みを示し,その結果,マルチモーダルなエビデンスの融合は,任意の時点において個々のエビデンスモダリティを上回る可能性がある。

Objective: For lower arm amputees, robotic prosthetic hands promise to regain the capability to perform daily living activities. Current control methods based on physiological signals such as electromyography (EMG) are prone to yielding poor inference outcomes due to motion artifacts, muscle fatigue, and many more. Vision sensors are a major source of information about the environment state and can play a vital role in inferring feasible and intended gestures. However, visual evidence is also susceptible to its own artifacts, most often due to object occlusion, lighting changes, etc. Multimodal evidence fusion using physiological and vision sensor measurements is a natural approach due to the complementary strengths of these modalities. Methods: In this paper, we present a Bayesian evidence fusion framework for grasp intent inference using eye-view video, eye-gaze, and EMG from the forearm processed by neural network models. We analyze individual and fused performance as a function of time as the hand approaches the object to grasp it. For this purpose, we have also developed novel data processing and augmentation techniques to train neural network components. Results: Our results indicate that, on average, fusion improves the instantaneous upcoming grasp type classification accuracy while in the reaching phase by 13.66% and 14.8%, relative to EMG and visual evidence individually, resulting in an overall fusion accuracy of 95.3%. Conclusion: Our experimental data analyses demonstrate that EMG and visual evidence show complementary strengths, and as a consequence, fusion of multimodal evidence can outperform each individual evidence modality at any given time.
翻訳日:2023-10-13 17:44:05 公開日:2023-10-05
# 部分ジャコビアンによる広域深層ニューラルネットワークの臨界初期化:一般理論と応用

Critical Initialization of Wide and Deep Neural Networks through Partial Jacobians: General Theory and Applications ( http://arxiv.org/abs/2111.12143v4 )

ライセンス: Link先を確認
Darshil Doshi, Tianyu He, Andrey Gromov(参考訳) ディープ・ニューラル・ネットワークは理論的治療に反する悪名高い。 しかし、各層内のパラメータ数が無限になる傾向がある場合、ネットワーク関数はガウス過程(gp)であり、定量的な予測記述が可能である。 ガウス近似は、ウェイトやバイアスのばらつきや学習率などのハイパーパラメータを選択するための基準を定式化することができる。 これらの基準は、ディープニューラルネットワークで定義される臨界の概念に依存している。 本稿では, 臨界度診断のための新しい実用的手法について述べる。 我々は、ネットワークの \emph{partial jacobians} を、$l_0\leq l$ 層のプリアクティベーションに関して、$l$ 層におけるプリアクティベーションの導出として定義する。 我々は、部分ジャコビアンのノルムに対する再帰関係を導出し、これらの関係を利用して層ノルムおよび/または残差接続を持つ深い完全連結ニューラルネットワークの臨界性を分析する。 我々は、完全連結、畳み込み、正規化層を含む、幅広いディープニューラルネットワークの最適な初期化を選択できる、単純で安価な数値テストの導出と実装を行う。 これらのツールを使用して、layernorm(プリアクティベーションに対応)と残差接続の適切な積み重ねが、任意の初期化に不可欠なアーキテクチャにつながることを定量的に示します。 最後に,ResNet および MLP-Mixer アーキテクチャの解析に本手法を適用し,至るところで臨界状態を示す。

Deep neural networks are notorious for defying theoretical treatment. However, when the number of parameters in each layer tends to infinity, the network function is a Gaussian process (GP) and quantitatively predictive description is possible. Gaussian approximation allows one to formulate criteria for selecting hyperparameters, such as variances of weights and biases, as well as the learning rate. These criteria rely on the notion of criticality defined for deep neural networks. In this work we describe a new practical way to diagnose criticality. We introduce \emph{partial Jacobians} of a network, defined as derivatives of preactivations in layer $l$ with respect to preactivations in layer $l_0\leq l$. We derive recurrence relations for the norms of partial Jacobians and utilize these relations to analyze criticality of deep fully connected neural networks with LayerNorm and/or residual connections. We derive and implement a simple and cheap numerical test that allows one to select optimal initialization for a broad class of deep neural networks; containing fully connected, convolutional and normalization layers. Using these tools we show quantitatively that proper stacking of the LayerNorm (applied to preactivations) and residual connections leads to an architecture that is critical for any initialization. Finally, we apply our methods to analyze ResNet and MLP-Mixer architectures; demonstrating the everywhere-critical regime.
翻訳日:2023-10-13 17:23:47 公開日:2023-10-05
# 変換リスク最小化を用いた学習拡大分布

Learning Augmentation Distributions using Transformed Risk Minimization ( http://arxiv.org/abs/2111.08190v2 )

ライセンス: Link先を確認
Evangelos Chatzipantazis, Stefanos Pertigkiozoglou, Kostas Daniilidis, Edgar Dobriban(参考訳) 本稿では,古典的リスク最小化の拡張として,新しいリスク最小化フレームワーク(TRM)を提案する。 TRMでは、予測モデルだけでなく、データ変換、特にその分布を最適化します。 重要な応用として,画像の適切な回転といった学習の強化に着目し,特定の予測器のクラスによる分類性能を向上させる。 本手法は,(1)emph{single training loop}において,変換とモデルを共同で学習し,(2)標準リスク最小化に適用可能なトレーニングアルゴリズムと連携し,(3)拡張の離散クラスや連続クラスといった任意の変換を処理する。 そこで本研究では,pac-bayes理論に基づく新しい正規化器を提案する。 画像の増補を学ぶために,幾何学的変換のブロックの確率的構成による増補空間の新しいパラメトリゼーションを提案する。 これにより、新しい \emph{Stochastic Compositional Augmentation Learning} (SCALE) アルゴリズムが作られる。 TRMとSCALEのパフォーマンスは、CIFAR10/100の以前の手法とよく比較できる。 さらに、SCALEはデータ分布の特定の対称性(回転MNIST上の回転の復元)を正しく学習でき、学習モデルの校正も改善できることを実証的に示す。

We propose a new \emph{Transformed Risk Minimization} (TRM) framework as an extension of classical risk minimization. In TRM, we optimize not only over predictive models, but also over data transformations; specifically over distributions thereof. As a key application, we focus on learning augmentations; for instance appropriate rotations of images, to improve classification performance with a given class of predictors. Our TRM method (1) jointly learns transformations and models in a \emph{single training loop}, (2) works with any training algorithm applicable to standard risk minimization, and (3) handles any transforms, such as discrete and continuous classes of augmentations. To avoid overfitting when implementing empirical transformed risk minimization, we propose a novel regularizer based on PAC-Bayes theory. For learning augmentations of images, we propose a new parametrization of the space of augmentations via a stochastic composition of blocks of geometric transforms. This leads to the new \emph{Stochastic Compositional Augmentation Learning} (SCALE) algorithm. The performance of TRM with SCALE compares favorably to prior methods on CIFAR10/100. Additionally, we show empirically that SCALE can correctly learn certain symmetries in the data distribution (recovering rotations on rotated MNIST) and can also improve calibration of the learned model.
翻訳日:2023-10-13 17:22:49 公開日:2023-10-05
# 資源配分の認知的計画

Deceptive Planning for Resource Allocation ( http://arxiv.org/abs/2206.01306v2 )

ライセンス: Link先を確認
Shenghui Chen, Yagiz Savas, Mustafa O. Karabag, Brian M. Sadler, Ufuk Topcu(参考訳) 我々は、敵環境をナビゲートする自律エージェントのチームが、目標とする場所のセットにリソースを割り当てることで、タスクを達成することを目指している。 環境の敵は、自律チームの行動を観察して目標を推測し、チームに対して反応する。 そこで本研究では,自律的なチームの密度を制御し,目的に対する敵意を欺き,望ましい最終資源配分を達成するための戦略を提案する。 まず,敵が期待するチームの振る舞いを表現するために,最大エントロピーの原理に基づく予測アルゴリズムを開発する。 そして,Kulback-Leiblerの発散による誤認性を測定することで,デコイアロケーション戦略に対する振る舞いを誇張したり,最終的なアロケーション戦略に関する曖昧さを創り出すことで,敵を欺く凸最適化に基づく計画アルゴリズムを考案する。 320ドルの参加者によるユーザ調査では、提案アルゴリズムが偽装に有効であることを実証し、近距離目標に対する参加者の固有のバイアスを明らかにする。

We consider a team of autonomous agents that navigate in an adversarial environment and aim to achieve a task by allocating their resources over a set of target locations. An adversary in the environment observes the autonomous team's behavior to infer their objective and responds against the team. In this setting, we propose strategies for controlling the density of the autonomous team so that they can deceive the adversary regarding their objective while achieving the desired final resource allocation. We first develop a prediction algorithm based on the principle of maximum entropy to express the team's behavior expected by the adversary. Then, by measuring the deceptiveness via Kullback-Leibler divergence, we devise convex optimization-based planning algorithms that deceive the adversary by either exaggerating the behavior towards a decoy allocation strategy or creating ambiguity regarding the final allocation strategy. A user study with $320$ participants demonstrates that the proposed algorithms are effective for deception and reveal the inherent biases of participants towards proximate goals.
翻訳日:2023-10-13 16:53:20 公開日:2023-10-05
# ターミネーターを用いた強化学習

Reinforcement Learning with a Terminator ( http://arxiv.org/abs/2205.15376v2 )

ライセンス: Link先を確認
Guy Tennenholtz, Nadav Merlis, Lior Shani, Shie Mannor, Uri Shalit, Gal Chechik, Assaf Hallak, and Gal Dalal(参考訳) 我々は,外因性終了を伴う強化学習の課題を提示する。 我々は,mdpフレームワークの拡張である終了マルコフ決定プロセス(termdp)を定義し,外部の非マルコフオブザーバによってエピソードを中断させることができる。 この定式化は、人間が不快な理由で自律運転エージェントを中断するなど、多くの現実世界の状況に対応している。 我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。 我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。 理論解析に動機づけられ、最適化(w.r.t.終了)と動的割引係数を組み合わせたスケーラブルなアプローチを設計・実装し、終了確率を組み込んだ。 我々は高次元駆動とMinAtarベンチマークに本手法をデプロイする。 さらに、運転環境において、人間のデータに対するアプローチをテストする。 その結果,様々なベースラインアプローチに対して高速収束と大幅な改善が得られた。

We present the problem of reinforcement learning with exogenous termination. We define the Termination Markov Decision Process (TerMDP), an extension of the MDP framework, in which episodes may be interrupted by an external non-Markovian observer. This formulation accounts for numerous real-world situations, such as a human interrupting an autonomous driving agent for reasons of discomfort. We learn the parameters of the TerMDP and leverage the structure of the estimation problem to provide state-wise confidence bounds. We use these to construct a provably-efficient algorithm, which accounts for termination, and bound its regret. Motivated by our theoretical analysis, we design and implement a scalable approach, which combines optimism (w.r.t. termination) and a dynamic discount factor, incorporating the termination probability. We deploy our method on high-dimensional driving and MinAtar benchmarks. Additionally, we test our approach on human data in a driving setting. Our results demonstrate fast convergence and significant improvement over various baseline approaches.
翻訳日:2023-10-13 16:52:11 公開日:2023-10-05
# ホップ代数で再訪した$\phi^4_3$測度の摂動理論

Perturbation theory for the $\Phi^4_3$ measure, revisited with Hopf algebras ( http://arxiv.org/abs/2207.08555v2 )

ライセンス: Link先を確認
Nils Berglund and Tom Klose(参考訳) 我々は、好ましく再正規化された$\Phi^4_3$測度の分配関数が漸近展開を許容するという事実を比較的短く、ほぼ自己完結した証明を与え、紫外線遮断によって収束する係数を除去する。 また,漸近級数のボレル和可能性の問題についても考察する。 証明はウィナーカオス展開、ホップ代数法、および BPHZ 再正規化によって得られるファインマン図形の値のバウンドに基づいている。

We give a relatively short, almost self-contained proof of the fact that the partition function of the suitably renormalised $\Phi^4_3$ measure admits an asymptotic expansion, the coefficients of which converge as the ultraviolet cut-off is removed. We also examine the question of Borel summability of the asymptotic series. The proofs are based on Wiener chaos expansions, Hopf-algebraic methods, and bounds on the value of Feynman diagrams obtained through BPHZ renormalisation.
翻訳日:2023-10-13 16:41:26 公開日:2023-10-05
# 任意の幾何学を持つテンソルネットワークの超最適化近似収縮

Hyper-optimized approximate contraction of tensor networks with arbitrary geometry ( http://arxiv.org/abs/2206.07044v2 )

ライセンス: Link先を確認
Johnnie Gray and Garnet Kin-Lic Chan(参考訳) テンソルネットワークの収縮は、多体物理学からコンピュータ科学まで幅広い問題の中心である。 任意のグラフ上の結合圧縮によりテンソルネットワークの収縮を近似する方法を述べる。 特に,圧縮・収縮戦略自体に対する過度な最適化を導入し,誤差とコストを最小化する。 我々は,本プロトコルが文献における手作り収縮戦略と,最近提案された正規格子およびランダム正則グラフ上の様々な合成および物理問題に関する一般収縮アルゴリズムの両方より優れていることを示す。 さらに, フラストレーション付き3次元格子分割関数に対するテンソルネットワークの近似収縮, ランダム正規グラフ上のダイマー数, および数万のテンソルを持つグラフにおけるランダムテンソルネットワークモデルの硬さ遷移にアクセスすることで, アプローチのパワーを実証する。

Tensor network contraction is central to problems ranging from many-body physics to computer science. We describe how to approximate tensor network contraction through bond compression on arbitrary graphs. In particular, we introduce a hyper-optimization over the compression and contraction strategy itself to minimize error and cost. We demonstrate that our protocol outperforms both hand-crafted contraction strategies in the literature as well as recently proposed general contraction algorithms on a variety of synthetic and physical problems on regular lattices and random regular graphs. We further showcase the power of the approach by demonstrating approximate contraction of tensor networks for frustrated three-dimensional lattice partition functions, dimer counting on random regular graphs, and to access the hardness transition of random tensor network models, in graphs with many thousands of tensors.
翻訳日:2023-10-13 16:39:19 公開日:2023-10-05
# 任意分布シフトを用いたオンライン予測のための共形推論

Conformal Inference for Online Prediction with Arbitrary Distribution Shifts ( http://arxiv.org/abs/2208.08401v3 )

ライセンス: Link先を確認
Isaac Gibbs and Emmanuel Cand\`es(参考訳) オンライン環境において,データ生成の分布が時間とともに変化するような予測集合の形成の問題を考える。 この問題に対するこれまでのアプローチは、過重な履歴データに悩まされており、基礎となるダイナミクスに迅速に対応できない可能性がある。 本稿では,この問題を修正し,与えられた幅のすべての局所的な時間間隔において,後悔の少ない新しい手順を考案する。 我々は、GibsとCand\`{e}s(2021)の適応型共形推論(ACI)アルゴリズムを変更して、ACIの勾配勾配更新のステップサイズパラメータを時間とともに調整する追加ステップを含む。 重要なことは、データ生成機構の変更率の知識を必要とするACIとは異なり、我々の新しい手順は分散シフトのサイズとタイプの両方に適応する。 提案手法は非常に柔軟であり, 分布仮定を必要とせず, 目標の点推定や推定量を生成する任意のベースライン予測アルゴリズムと組み合わせることができる。 株式市場のボラティリティ(変動性)と新型コロナウイルス(COVID-19)のケースカウント(ケースカウント)の予測を目的とした2つの実世界のデータセット上で、我々の技術をテストする。

We consider the problem of forming prediction sets in an online setting where the distribution generating the data is allowed to vary over time. Previous approaches to this problem suffer from over-weighting historical data and thus may fail to quickly react to the underlying dynamics. Here we correct this issue and develop a novel procedure with provably small regret over all local time intervals of a given width. We achieve this by modifying the adaptive conformal inference (ACI) algorithm of Gibbs and Cand\`{e}s (2021) to contain an additional step in which the step-size parameter of ACI's gradient descent update is tuned over time. Crucially, this means that unlike ACI, which requires knowledge of the rate of change of the data-generating mechanism, our new procedure is adaptive to both the size and type of the distribution shift. Our methods are highly flexible and can be used in combination with any baseline predictive algorithm that produces point estimates or estimated quantiles of the target without the need for distributional assumptions. We test our techniques on two real-world datasets aimed at predicting stock market volatility and COVID-19 case counts and find that they are robust and adaptive to real-world distribution shifts.
翻訳日:2023-10-13 16:31:39 公開日:2023-10-05
# テキスト・アタックにおけるセマンティクスの保存

Preserving Semantics in Textual Adversarial Attacks ( http://arxiv.org/abs/2211.04205v2 )

ライセンス: Link先を確認
David Herel and Hugo Cisneros and Tomas Mikolov(参考訳) ヘイトフルなオンラインコンテンツ(ヘイトスピーチ)の成長は、少数民族に対する暴力犯罪が世界的に増加している[23]。 有害なオンラインコンテンツは、自動的に、匿名で簡単に作成できる。 NLPのテキスト分類器によって何らかの自動検出がすでに達成されているが、敵攻撃によって騙されることがある。 既存のシステムを強化し、攻撃者に先んじるためには、より良い敵攻撃が必要である。 本稿では,敵対的攻撃によって生じる敵の事例の最大70%は,意味を保たないために破棄されるべきであることを示す。 この弱点に対処し,SPE(Semantics-Preserving-Encoder)と呼ばれる文埋め込み手法を提案する。 本手法は,既存の文エンコーダを1.2倍から5.1倍の実際の攻撃成功率で上回る。 既存の敵攻撃で使用可能なプラグインとしてコードをリリースし、その品質を改善し、実行を高速化します。

The growth of hateful online content, or hate speech, has been associated with a global increase in violent crimes against minorities [23]. Harmful online content can be produced easily, automatically and anonymously. Even though, some form of auto-detection is already achieved through text classifiers in NLP, they can be fooled by adversarial attacks. To strengthen existing systems and stay ahead of attackers, we need better adversarial attacks. In this paper, we show that up to 70% of adversarial examples generated by adversarial attacks should be discarded because they do not preserve semantics. We address this core weakness and propose a new, fully supervised sentence embedding technique called Semantics-Preserving-Encoder (SPE). Our method outperforms existing sentence encoders used in adversarial attacks by achieving 1.2x - 5.1x better real attack success rate. We release our code as a plugin that can be used in any existing adversarial attack to improve its quality and speed up its execution.
翻訳日:2023-10-13 16:00:23 公開日:2023-10-05
# ステアブルCNNのための暗黙の畳み込みカーネル

Implicit Convolutional Kernels for Steerable CNNs ( http://arxiv.org/abs/2212.06096v2 )

ライセンス: Link先を確認
Maksim Zhdanov, Nico Hoffmann and Gabriele Cesa(参考訳) ステアブル畳み込みニューラルネットワーク(Steerable Convolutional Neural Network, CNN)は、リフレクションや回転など、原点保存グループである$G$に属する翻訳や他の変換と等価なニューラルネットワークを構築するための一般的なフレームワークを提供する。 それらは、カーネル空間に課されるグループ固有の等分散制約を解析的に解いて得られる、$g$-steerable kernelの標準畳み込みに依存する。 解は特定の群 $g$ に調整されるので、カーネル基底の実装は、一般群同変モデルの開発を複雑にする他の対称性変換に一般化しない。 本稿では,多層パーセプトロン(MLP)による暗黙的神経表現を用いて,$G$-steerableカーネルのパラメータ化を提案する。 結果として得られるフレームワークは、ステアブルCNNの実装をシンプルで柔軟な方法で提供し、任意のグループ$G$に一般化し、$G$-equivariant MLPを構築できる。 我々は,N体シミュレーション,点雲分類,分子特性予測など,複数のタスクにおける本手法の有効性を実証する。

Steerable convolutional neural networks (CNNs) provide a general framework for building neural networks equivariant to translations and other transformations belonging to an origin-preserving group $G$, such as reflections and rotations. They rely on standard convolutions with $G$-steerable kernels obtained by analytically solving the group-specific equivariance constraint imposed onto the kernel space. As the solution is tailored to a particular group $G$, the implementation of a kernel basis does not generalize to other symmetry transformations, which complicates the development of general group equivariant models. We propose using implicit neural representation via multi-layer perceptrons (MLPs) to parameterize $G$-steerable kernels. The resulting framework offers a simple and flexible way to implement Steerable CNNs and generalizes to any group $G$ for which a $G$-equivariant MLP can be built. We prove the effectiveness of our method on multiple tasks, including N-body simulations, point cloud classification and molecular property prediction.
翻訳日:2023-10-13 15:39:19 公開日:2023-10-05
# 変分マイクロカノニカル推定器

Variational Microcanonical Estimator ( http://arxiv.org/abs/2301.04129v2 )

ライセンス: Link先を確認
Kl\'ee Pollock, Peter P. Orth and Thomas Iadecola(参考訳) 固有状態熱化仮説に従うモデルにおけるマイクロカノニカル期待値を推定するための変分量子アルゴリズムを提案する。 変動最適化ループの収束に緩和された基準を用いて、アルゴリズムは与えられた目標エネルギー密度で固有状態の弱い絡み合った重ね合わせを生成する。 これらの変分状態のアンサンブルは、局所作用素のマイクロカノニカル平均を推定するために使用され、アンサンブルの大きさのパワー則として最初に支配的な寄与が減少し、最終的には小さなバイアスによって制限される誤差を持つ。 このアルゴリズムを1次元混合場Isingモデルに適用し,システムサイズにほぼ線形な深さのアンザッツ回路に収束する。 最も正確な熱推定は中間エネルギー密度に対して行われる。 誤差解析では, 固有状態熱化仮説の基盤を解明する最近の研究とのつながりを見出した。 特に、局所作用素が \textit{independent} 確率変数として振る舞うためのエネルギー-ベイシ行列要素の失敗は、変分状態のアンサンブル上で平均化することでアルゴリズムが克服できる潜在的な誤差源である。

We propose a variational quantum algorithm for estimating microcanonical expectation values in models obeying the eigenstate thermalization hypothesis. Using a relaxed criterion for convergence of the variational optimization loop, the algorithm generates weakly entangled superpositions of eigenstates at a given target energy density. An ensemble of these variational states is then used to estimate microcanonical averages of local operators, with an error whose dominant contribution decreases initially as a power law in the size of the ensemble and is ultimately limited by a small bias. We apply the algorithm to the one-dimensional mixed-field Ising model, where it converges for ansatz circuits of depth roughly linear in system size. The most accurate thermal estimates are produced for intermediate energy densities. In our error analysis, we find connections with recent works investigating the underpinnings of the eigenstate thermalization hypothesis. In particular, the failure of energy-basis matrix elements of local operators to behave as \textit{independent} random variables is a potential source of error that the algorithm can overcome by averaging over an ensemble of variational states.
翻訳日:2023-10-13 15:29:59 公開日:2023-10-05
# rnn-tにおけるトークンワイズビーム探索アルゴリズム

A Token-Wise Beam Search Algorithm for RNN-T ( http://arxiv.org/abs/2302.14357v2 )

ライセンス: Link先を確認
Gil Keren(参考訳) 音声認識のための標準リカレントニューラルネットワークトランスデューサ(RNN-T)復号アルゴリズムは、次のタイムステップに移行する前に1つのタイムステップがデコードされるように、時間軸上で反復される。 これらのアルゴリズムは、以前の研究で示されていた、復号速度を低下させる重要な要因であるジョイントネットワークへの多数の呼び出しをもたらす。 提案アルゴリズムは, 連続したネットワークコールを時間ステップでバッチ化し, その結果, 実験したすべてのモデルや設定に対して, 20%~96%のデコード速度アップが得られる。 さらに,セグメント上でのエミッション確率の集約は,最も可能性の高いモデル出力の探索に適しており,セグメントサイズが大きくなるにつれて,オラクル単語の誤り率を最大11%向上させ,一般単語の誤り率をわずかに向上させる。

Standard Recurrent Neural Network Transducers (RNN-T) decoding algorithms for speech recognition are iterating over the time axis, such that one time step is decoded before moving on to the next time step. Those algorithms result in a large number of calls to the joint network, which were shown in previous work to be an important factor that reduces decoding speed. We present a decoding beam search algorithm that batches the joint network calls across a segment of time steps, which results in 20%-96% decoding speedups consistently across all models and settings experimented with. In addition, aggregating emission probabilities over a segment may be seen as a better approximation to finding the most likely model output, causing our algorithm to improve oracle word error rate by up to 11% relative as the segment size increases, and to slightly improve general word error rate.
翻訳日:2023-10-13 14:26:42 公開日:2023-10-05
# 移植後死亡原因分析のためのマルチタスク学習--肝移植を事例として

Multi-Task Learning for Post-transplant Cause of Death Analysis: A Case Study on Liver Transplant ( http://arxiv.org/abs/2304.00012v3 )

ライセンス: Link先を確認
Sirui Ding, Qiaoyu Tan, Chia-yuan Chang, Na Zou, Kai Zhang, Nathan R. Hoot, Xiaoqian Jiang, Xia Hu(参考訳) 臓器移植は、いくつかの末期疾患、例えば肝不全に対する重要な治療方法である。 臓器移植後の移植後死因(cod)の分析は、パーソナライズされた治療や臓器割り当てを含む、臨床意思決定のための強力なツールを提供する。 しかしながら、末期肝疾患モデル(meld)スコアや従来の機械学習(ml)法は、cod分析において2つの主要なデータとモデル関連の課題により制限されている。 そこで本研究では,多タスク学習を利用したCoD-MTLという新しいフレームワークを提案し,様々なCoD予測タスク間の意味関係をモデル化する。 具体的には,木モデルとマルチタスク学習の両方の強みを組み合わせたマルチタスク学習のための新しい木蒸留戦略を開発した。 本フレームワークの正確かつ信頼性の高いcod予測を示すために実験を行った。 本法が肝移植において臨床的に重要であることを示すため,本法を施行した。

Organ transplant is the essential treatment method for some end-stage diseases, such as liver failure. Analyzing the post-transplant cause of death (CoD) after organ transplant provides a powerful tool for clinical decision making, including personalized treatment and organ allocation. However, traditional methods like Model for End-stage Liver Disease (MELD) score and conventional machine learning (ML) methods are limited in CoD analysis due to two major data and model-related challenges. To address this, we propose a novel framework called CoD-MTL leveraging multi-task learning to model the semantic relationships between various CoD prediction tasks jointly. Specifically, we develop a novel tree distillation strategy for multi-task learning, which combines the strength of both the tree model and multi-task learning. Experimental results are presented to show the precise and reliable CoD predictions of our framework. A case study is conducted to demonstrate the clinical importance of our method in the liver transplant.
翻訳日:2023-10-13 13:54:32 公開日:2023-10-05
# あなたのように聞こえる: デバイス上で個人化された語彙を学ぶ

Now It Sounds Like You: Learning Personalized Vocabulary On Device ( http://arxiv.org/abs/2305.03584v2 )

ライセンス: Link先を確認
Sid Wang, Ashish Shenoy, Pierce Chuang, John Nguyen(参考訳) 近年,様々な自然言語処理(NLP)タスクの実行能力において,フェデレートラーニング(FL)が著しい進歩を見せている。 本研究は、オンデバイス言語モデリングにパーソナライズされたflを適用することに焦点を当てる。 メモリとレイテンシの制限のため、これらのモデルはサブワードトークン化やビームサーチデコーディングの複雑さをサポートできないため、クローズドボキャブラリ言語モデルをデプロイする決定が下される。 しかし、クローズド・ボキャブラリ・モデルは特定のユーザーに属する外語彙(OOV)を扱えない。 この問題に対処するために,メモリとレイテンシへの影響を最小限に抑えつつ,OOVのカバレッジを改善し,モデル精度を向上させる「OOV拡張」と呼ばれる新しい手法を提案する。 本手法では,知識を中央モデルから効果的に伝達し,単語埋め込みを学習する「oov adapter」を導入する。 OOV拡張は、一連の共通FLベンチマークにおいて標準FLパーソナライズ手法よりも大幅に優れている。

In recent years, Federated Learning (FL) has shown significant advancements in its ability to perform various natural language processing (NLP) tasks. This work focuses on applying personalized FL for on-device language modeling. Due to limitations of memory and latency, these models cannot support the complexity of sub-word tokenization or beam search decoding, resulting in the decision to deploy a closed-vocabulary language model. However, closed-vocabulary models are unable to handle out-of-vocabulary (OOV) words belonging to specific users. To address this issue, We propose a novel technique called "OOV expansion" that improves OOV coverage and increases model accuracy while minimizing the impact on memory and latency. This method introduces a personalized "OOV adapter" that effectively transfers knowledge from a central model and learns word embedding for personalized vocabulary. OOV expansion significantly outperforms standard FL personalization methods on a set of common FL benchmarks.
翻訳日:2023-10-13 13:04:36 公開日:2023-10-05
# 繰り返すか繰り返すか:Token-Crisis下でのLSMのスケーリングから

To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis ( http://arxiv.org/abs/2305.13230v2 )

ライセンス: Link先を確認
Fuzhao Xue, Yao Fu, Wangchunshu Zhou, Zangwei Zheng, Yang You(参考訳) 最近の研究は、スケールする言語モデルにおけるデータセットのサイズの重要性を強調している。 しかし、事前トレーニング中の大言語モデル(llm)はトークンに富むことで悪名高く、web上の高品質なテキストデータがllmのスケーリング限界に近づいている。 LLMをさらに強化するために、簡単なアプローチは、追加のエポックのために事前学習データを繰り返すことである。 本研究では,本研究における3つの重要な側面を実証的に検討する。 まず,事前学習データを繰り返した結果について検討し,モデルが過度に適合しやすいことを明らかにし,マルチ・エポック劣化を生じさせる。 第2に,マルチエピック劣化に寄与する重要な要因について検討し,データセットのサイズ,モデルパラメータ,トレーニング目標など重要な要因について検討した。 最後に、広く使われている正規化がマルチエピック劣化を緩和できるかどうかを考察する。 ほとんどの正規化技術では、ドロップアウトを除いて大幅な改善は行われないが、モデルサイズをスケールアップするには注意深いチューニングが必要である。 さらに,ME(Mixix-of-Experts)を利用することで,計算量の多い高密度LLMに対して,コスト効率,高効率なハイパーパラメータチューニングが可能であることが判明した。

Recent research has highlighted the importance of dataset size in scaling language models. However, large language models (LLMs) are notoriously token-hungry during pre-training, and high-quality text data on the web is approaching its scaling limit for LLMs. To further enhance LLMs, a straightforward approach is to repeat the pre-training data for additional epochs. In this study, we empirically investigate three key aspects under this approach. First, we explore the consequences of repeating pre-training data, revealing that the model is susceptible to overfitting, leading to multi-epoch degradation. Second, we examine the key factors contributing to multi-epoch degradation, finding that significant factors include dataset size, model parameters, and training objectives, while less influential factors consist of dataset quality and model FLOPs. Finally, we explore whether widely used regularization can alleviate multi-epoch degradation. Most regularization techniques do not yield significant improvements, except for dropout, which demonstrates remarkable effectiveness but requires careful tuning when scaling up the model size. Additionally, we discover that leveraging mixture-of-experts (MoE) enables cost-effective and efficient hyper-parameter tuning for computationally intensive dense LLMs with comparable trainable parameters, potentially impacting efficient LLM development on a broader scale.
翻訳日:2023-10-13 12:23:55 公開日:2023-10-05
# 自動探索空間生成ニューラルアーキテクチャ探索

Automated Search-Space Generation Neural Architecture Search ( http://arxiv.org/abs/2305.18030v3 )

ライセンス: Link先を確認
Tianyi Chen, Luming Liang, Tianyu Ding, Ilya Zharkov(参考訳) 汎用ディープニューラルネットワーク(DNN)内で最適なサブネットワークを探索するために、既存のニューラルネットワーク探索(NAS)手法は、通常、事前に検索空間を手作りすることに依存する。 このような要件は、人間の専門知識や手作業による介入なしに、一般的なシナリオにそれらを拡張することが難しくなります。 この制限を克服するために、我々は、おそらく、すべての候補接続と操作をカバーする一般的なdnnを訓練し、1ショットで高性能なサブネットワークを生成する最初の自動化システムである、サーチスペース生成ニューラルアーキテクチャサーチ(asgnas)を提案する。 技術的には、ASGNASは人間の努力を最小限にするために3つの顕著な貢献をしている。 (i)一般DNNのための検索空間の自動生成 (II)H2SPG(Hierarchical Half-Space Projected Gradient)は、生成した検索空間内の階層構造と依存性を利用して、最適化中のネットワークの妥当性を保証し、高性能かつ階層的なグループ間隔を持つ解を確実に生成する。 三) H2SPGソリューションによる自動サブネットワーク構築。 CIFAR10, Fashion-MNIST, ImageNet, STL-10 , SVNH などのベンチマークデータセットに対する RegNet, StackedUnets, SuperResNet, DARTS などの DNN に対する ASGNAS の有効性を数値的に示す。 ASGNASが計算したサブネットワークは、DNNや他の最先端技術と比較して、より優れたパフォーマンスを実現している。 ライブラリはhttps://github.com/tianyic/only_train_onceでリリースされる。

To search an optimal sub-network within a general deep neural network (DNN), existing neural architecture search (NAS) methods typically rely on handcrafting a search space beforehand. Such requirements make it challenging to extend them onto general scenarios without significant human expertise and manual intervention. To overcome the limitations, we propose Automated Search-Space Generation Neural Architecture Search (ASGNAS), perhaps the first automated system to train general DNNs that cover all candidate connections and operations and produce high-performing sub-networks in the one shot manner. Technologically, ASGNAS delivers three noticeable contributions to minimize human efforts: (i) automated search space generation for general DNNs; (ii) a Hierarchical Half-Space Projected Gradient (H2SPG) that leverages the hierarchy and dependency within generated search space to ensure the network validity during optimization, and reliably produces a solution with both high performance and hierarchical group sparsity; and (iii) automated sub-network construction upon the H2SPG solution. Numerically, we demonstrate the effectiveness of ASGNAS on a variety of general DNNs, including RegNet, StackedUnets, SuperResNet, and DARTS, over benchmark datasets such as CIFAR10, Fashion-MNIST, ImageNet, STL-10 , and SVNH. The sub-networks computed by ASGNAS achieve competitive even superior performance compared to the starting full DNNs and other state-of-the-arts. The library will be released at https://github.com/tianyic/only_train_once.
翻訳日:2023-10-13 11:52:33 公開日:2023-10-05
# オープンワールドにおけるタスク計画と状況処理のための行動知識とLLMの統合

Integrating Action Knowledge and LLMs for Task Planning and Situation Handling in Open Worlds ( http://arxiv.org/abs/2305.17590v2 )

ライセンス: Link先を確認
Yan Ding, Xiaohan Zhang, Saeid Amiri, Nieqing Cao, Hao Yang, Andy Kaminski, Chad Esselink, Shiqi Zhang(参考訳) タスク計画システムは、ロボットが人間の知識(行動に関する)を使って長期のタスクを完了するのを助けるために開発された。 それらの多くは「閉じた世界」のために開発され、ロボットが完全な世界知識を提供すると仮定している。 しかし、現実の世界は一般にオープンであり、ロボットは計画者の完全性を損なう可能性のある予期せぬ状況にしばしば遭遇する。 従来の計画システムが新しい状況に対処できるように、LLM(Large Language Models)の最近の進歩を活用できるだろうか? 本稿では,オープンワールドなタスク計画と状況処理のための新しいフレームワークであるCOWPを紹介する。 COWPは、タスク指向のコモンセンス知識によって、動作の前提条件や効果を含む、ロボットの行動知識を動的に増強する。 COWP は LLM から開放性を受け入れ、アクション知識を通じて特定のドメインに基盤を置いている。 体系的な評価のために,1,085の実行時状況を含むデータセットを収集した。 各状況は、通常動作するソリューションを使用して、ロボットがタスクを完了できない状態のインスタンスに対応する。 実験の結果,我々のアプローチは,サービスタスクの成功率において,文献の競合ベースラインを上回っていることがわかった。 さらに,移動マニピュレータを用いたCOWPの実証を行った。 追加資料は、https://cowplanning.github.io/で入手できる。

Task planning systems have been developed to help robots use human knowledge (about actions) to complete long-horizon tasks. Most of them have been developed for "closed worlds" while assuming the robot is provided with complete world knowledge. However, the real world is generally open, and the robots frequently encounter unforeseen situations that can potentially break the planner's completeness. Could we leverage the recent advances on pre-trained Large Language Models (LLMs) to enable classical planning systems to deal with novel situations? This paper introduces a novel framework, called COWP, for open-world task planning and situation handling. COWP dynamically augments the robot's action knowledge, including the preconditions and effects of actions, with task-oriented commonsense knowledge. COWP embraces the openness from LLMs, and is grounded to specific domains via action knowledge. For systematic evaluations, we collected a dataset that includes 1,085 execution-time situations. Each situation corresponds to a state instance wherein a robot is potentially unable to complete a task using a solution that normally works. Experimental results show that our approach outperforms competitive baselines from the literature in the success rate of service tasks. Additionally, we have demonstrated COWP using a mobile manipulator. Supplementary materials are available at: https://cowplanning.github.io/
翻訳日:2023-10-13 11:52:03 公開日:2023-10-05
# 仮想粒子の確率近似によるsvgdの高速有限粒子変種

Provably Fast Finite Particle Variants of SVGD via Virtual Particle Stochastic Approximation ( http://arxiv.org/abs/2305.17558v4 )

ライセンス: Link先を確認
Aniket Das and Dheeraj Nagaraj(参考訳) Stein Variational Gradient Descent (SVGD) は、相互作用する粒子系をターゲット分布からおよそサンプルにシミュレートし、様々な領域にわたる印象的な経験的性能を持つ、一般的な変分推論アルゴリズムである。 理論的には、その個体群(すなわち無限粒子)の極限ダイナミクスはよく研究されているが、有限粒子状態におけるSVGDの挙動は理解されていない。 本研究では,計算効率の良い2種類のSVGD,すなわちVP-SVGDとGB-SVGDを,高速な有限粒子収束速度で設計する。 仮想粒子の概念を導入し、有限個の粒子を用いて正確に実装可能な確率測度の空間における人口制限svgdダイナミクスの新たな確率近似を考案する。 我々のアルゴリズムは、通常のSVGDよりも計算効率が高いSVGDの特定のランダムバッチ近似と見なすことができる。 VP-SVGD と GB-SVGD によって出力される$n$ 粒子は、バッチサイズ$K$ で$T$ のステップで実行され、標準仮定の下では最大$O\left(\tfrac{d^{1/3}}{(KT)^{1/6}}\right)$であるような分布から得られるサンプルと同等の値であることを示す。 また, ポテンシャル関数に対する温和な成長条件下では, イソペリメトリック(ポインケア不等式など)や情報伝達条件(例えば, タラグランの不等式$\mathsf{t}_1$)よりもかなり弱い。 本稿では,実験値(VP-SVGDとGB-SVGDによって出力される粒子)の目標分布への収束を考察し,最もよく知られたSVGDの有限粒子解析よりも2倍の指数関数的改善を示す。 さらに、この結果から多項式次元に依存するこの集合に対する最初の既知のオラクル複素量を示す。

Stein Variational Gradient Descent (SVGD) is a popular variational inference algorithm which simulates an interacting particle system to approximately sample from a target distribution, with impressive empirical performance across various domains. Theoretically, its population (i.e, infinite-particle) limit dynamics is well studied but the behavior of SVGD in the finite-particle regime is much less understood. In this work, we design two computationally efficient variants of SVGD, namely VP-SVGD and GB-SVGD, with provably fast finite-particle convergence rates. We introduce the notion of virtual particles and develop novel stochastic approximations of population-limit SVGD dynamics in the space of probability measures, which are exactly implementable using a finite number of particles. Our algorithms can be viewed as specific random-batch approximations of SVGD, which are computationally more efficient than ordinary SVGD. We show that the $n$ particles output by VP-SVGD and GB-SVGD, run for $T$ steps with batch-size $K$, are at-least as good as i.i.d samples from a distribution whose Kernel Stein Discrepancy to the target is at most $O\left(\tfrac{d^{1/3}}{(KT)^{1/6}}\right)$ under standard assumptions. Our results also hold under a mild growth condition on the potential function, which is much weaker than the isoperimetric (e.g. Poincare Inequality) or information-transport conditions (e.g. Talagrand's Inequality $\mathsf{T}_1$) generally considered in prior works. As a corollary, we consider the convergence of the empirical measure (of the particles output by VP-SVGD and GB-SVGD) to the target distribution and demonstrate a double exponential improvement over the best known finite-particle analysis of SVGD. Beyond this, our results present the first known oracle complexities for this setting with polynomial dimension dependence.
翻訳日:2023-10-13 11:51:42 公開日:2023-10-05
# Polyak-{\L}ojasiewicz条件下での2レベル学習のための一般化交替法

A Generalized Alternating Method for Bilevel Learning under the Polyak-{\L}ojasiewicz Condition ( http://arxiv.org/abs/2306.02422v4 )

ライセンス: Link先を確認
Quan Xiao, Songtao Lu, Tianyi Chen(参考訳) ハイパーパラメータ最適化、メタラーニング、強化学習といった新しい機械学習分野への応用により、最近、バイレベル最適化への関心が高まっている。 近年, 単純な交互(単純)勾配に基づくアルゴリズムは, 両レベル問題に強い凸な低レベル目標で対処する際に, 単レベル勾配降下(GD)の収束率と一致することが示されている。 しかし、この結果がこの基本的な設定を超えた双レベル問題に一般化できるかどうかは不明である。 本稿ではまず,ポリアック-{\L}ojasiewicz (PL) 条件を満たす非凸な低レベル目的のために,既存の計量を一般化する二段階問題に対する定常計量を導入する。 次に,2値最適化(galet)の一般化手法を提案し,単値滑らかな非凸問題に対するgdの反復複雑性に適合する$\tilde{\cal o}(\epsilon^{-1})$の反復問題に対して,galet が$\epsilon$-stationary point を達成することを示す。

Bilevel optimization has recently regained interest owing to its applications in emerging machine learning fields such as hyperparameter optimization, meta-learning, and reinforcement learning. Recent results have shown that simple alternating (implicit) gradient-based algorithms can match the convergence rate of single-level gradient descent (GD) when addressing bilevel problems with a strongly convex lower-level objective. However, it remains unclear whether this result can be generalized to bilevel problems beyond this basic setting. In this paper, we first introduce a stationary metric for the considered bilevel problems, which generalizes the existing metric, for a nonconvex lower-level objective that satisfies the Polyak-{\L}ojasiewicz (PL) condition. We then propose a Generalized ALternating mEthod for bilevel opTimization (GALET) tailored to BLO with convex PL LL problem and establish that GALET achieves an $\epsilon$-stationary point for the considered problem within $\tilde{\cal O}(\epsilon^{-1})$ iterations, which matches the iteration complexity of GD for single-level smooth nonconvex problems.
翻訳日:2023-10-13 09:09:11 公開日:2023-10-05
# ランダム正則グラフ上のアンダーソンモデルの再正規化群解析

Renormalization Group Analysis of the Anderson Model on Random Regular Graphs ( http://arxiv.org/abs/2306.14965v2 )

ライセンス: Link先を確認
Carlo Vanoni, Boris L. Altshuler, Vladimir E. Kravtsov, Antonello Scardicchio(参考訳) 本稿では,abrahams, anderson, licciardello, ramakrishnanの再正規化群を無限次元グラフに一般化したランダム正則グラフ上のアンダーソン局在問題に関する再正規化群解析を行う。 再正規化群方程式は、必然的に2つのパラメータ(一つは部分木の連結性の変化)を含むが、固有状態とスペクトルの可観測性の両方において、十分大きなシステムサイズで1パラメータのスケーリング仮説が復元されることを示す。 また,動力学的およびスペクトル量の非単調な挙動を,異なる符号のフラクタル次元のベータ関数と関数依存の2つの項を同定することにより,遷移に近い障害の値に対するシステムサイズ関数として説明する。 本理論はアンダーソン模型の数値データと多体局在の異常なスケーリング挙動に関する最初のコヒーレントな説明を提供する。

We present a renormalization group analysis of the problem of the Anderson localization on a Random Regular Graph which generalizes the renormalization group of Abrahams, Anderson, Licciardello, and Ramakrishnan to infinite-dimensional graphs. The renormalization group equations necessarily involve two parameters (one being the changing connectivity of sub-trees), but we show that the one-parameter scaling hypothesis is recovered for sufficiently large system sizes for both eigenstates and spectrum observables. We also explain the non-monotonic behavior of dynamical and spectral quantities as a function of the system size for values of disorder close to the transition, by identifying two terms in the beta function of the running fractal dimension of different signs and functional dependence. Our theory provides the first coherent explanation for the unusual scaling behaviors observed in numerical data of the Anderson model and of Many-Body Localization.
翻訳日:2023-10-13 08:27:02 公開日:2023-10-05
# Reward Reweighing, Reselection, Retraining によるプロトタイプ部品ネットワークの改善

Improving Prototypical Part Networks with Reward Reweighing, Reselection, and Retraining ( http://arxiv.org/abs/2307.03887v2 )

ライセンス: Link先を確認
Robin Netzorg, Jiaxun Li, Bin Yu(参考訳) 近年、モデルの出力をデータの特定の特徴に明確に関連付ける画像分類のための深い解釈可能な手法の開発が進められている。 このような手法の1つにPrototypeal Part Network (ProtoPNet)があり、入力の有意義な部分に基づいて画像の分類を試みる。 この方法は解釈可能な分類をもたらすが、しばしば画像の散発的あるいは一貫性のない部分から分類を学ぶ。 これを改善するために、我々は近年のReinforcement Learning with Human Feedback (RLHF) からインスピレーションを得て、これらのプロトタイプを微調整する。 cub-200-2011データセットに1-5スケールでプロトタイプ品質のヒューマンアノテーションを収集することにより、人間の好みを学習し、非盗作プロトタイプを識別する報酬モデルを構築する。 完全なrlアップデートに代わり、prototypepical part network(r3-protopnet)の強化、再選択、再トレーニングを提案し、protopnetトレーニングループに3つのステップを追加します。 最初の2ステップは報酬ベースのリウェイトと再選択であり、プロトタイプと人間のフィードバックを一致させる。 最後のステップは、モデルの機能をアップデートされたプロトタイプで再トレーニングすることだ。 R3-ProtoPNetはプロトタイプの全体的な意味性を向上し、個々のモデル性能を維持・改善する。 複数の訓練されたR3-ProtoPNetをアンサンブルに組み込むと、解釈可能性と予測性能が増大する。

In recent years, work has gone into developing deep interpretable methods for image classification that clearly attributes a model's output to specific features of the data. One such of these methods is the Prototypical Part Network (ProtoPNet), which attempts to classify images based on meaningful parts of the input. While this method results in interpretable classifications, it often learns to classify from spurious or inconsistent parts of the image. Hoping to remedy this, we take inspiration from the recent developments in Reinforcement Learning with Human Feedback (RLHF) to fine-tune these prototypes. By collecting human annotations of prototypes quality via a 1-5 scale on the CUB-200-2011 dataset, we construct a reward model that learns human preferences and identify non-spurious prototypes. In place of a full RL update, we propose the Reweighed, Reselected, and Retrained Prototypical Part Network (R3-ProtoPNet), which adds an additional three steps to the ProtoPNet training loop. The first two steps are reward-based reweighting and reselection, which align prototypes with human feedback. The final step is retraining to realign the model's features with the updated prototypes. We find that R3-ProtoPNet improves the overall meaningfulness of the prototypes, and maintains or improves individual model performance. When multiple trained R3-ProtoPNets are incorporated into an ensemble, we find increases in both interpretability and predictive performance.
翻訳日:2023-10-13 08:06:41 公開日:2023-10-05
# 物理インフォームドニューラルネットワークにおけるスペクトルバイアスとカーネルタスクアライメント

Spectral-Bias and Kernel-Task Alignment in Physically Informed Neural Networks ( http://arxiv.org/abs/2307.06362v2 )

ライセンス: Link先を確認
Inbar Seroussi, Asaf Miron and Zohar Ringel(参考訳) 物理情報ニューラルネットワーク(PINN)は微分方程式の解法として有望である。 他の多くのディープラーニングアプローチと同様に、pinn設計とトレーニングプロトコルの選択には慎重なクラフトマンシップが必要です。 ここでは,この課題を浮き彫りにする包括的理論的枠組みを提案する。 無限にパラメータ化されたニューラルネットワークとガウス過程回帰(gpr)の等価性を利用して、大きなデータセットの限界 -- ニューラルネットワークが生成する方程式 -- でピン予測を制御する積分微分方程式を導出する。 この方程式は、アーキテクチャの選択を反映するカーネル項によって元の項を拡大し、元の微分方程式の原項のスペクトル分解を通じてネットワークによって誘導される暗黙のバイアスを定量化する。

Physically informed neural networks (PINNs) are a promising emerging method for solving differential equations. As in many other deep learning approaches, the choice of PINN design and training protocol requires careful craftsmanship. Here, we suggest a comprehensive theoretical framework that sheds light on this important problem. Leveraging an equivalence between infinitely over-parameterized neural networks and Gaussian process regression (GPR), we derive an integro-differential equation that governs PINN prediction in the large data-set limit -- the neurally-informed equation. This equation augments the original one by a kernel term reflecting architecture choices and allows quantifying implicit bias induced by the network via a spectral decomposition of the source term in the original differential equation.
翻訳日:2023-10-13 05:41:47 公開日:2023-10-05
# SkullGAN: 生成逆ネットワークを用いた合成スカルCT生成

SkullGAN: Synthetic Skull CT Generation with Generative Adversarial Networks ( http://arxiv.org/abs/2308.00206v2 )

ライセンス: Link先を確認
Kasra Naftchi-Ardebili, Karanpartap Singh, Reza Pourabolghasem, Pejman Ghanouni, Gerald R. Popelka, Kim Butts Pauly(参考訳) 深層学習は、人間の頭蓋骨を含む様々な医療応用の可能性を秘めている。 この課題を克服するために、合成頭蓋骨ctスライスの大規模なデータセットを作成し、実際の画像への依存度を低減し、機械学習と医療の統合を加速する、ジェネレーティブ・リバーサリー・ネットワーク(gan)であるscradganを提案する。 提案手法では,38名の被験者のCTスライスを2億以上のパラメータからなるニューラルネットワークであるSkullGANに供給した。 合成頭蓋骨画像は, 頭蓋密度比(SDR), 平均厚さ, 平均強度の3つの定量的特徴に基づいて評価した。 さらに t-distributed stochastic neighbor embedded (t-SNE) を用いて解析し, SkullGAN 識別器を分類器として適用した。 その結果,SkullGANにより生成された画像は,実際の頭蓋骨に類似した定量的な特徴を示した。 さらに、SkullGANの判別器を適用し、SkullGANの判別器は実頭蓋骨画像の56.5%、SkullGAN生成画像の55.9%を実数として分類し(理論的最適値50%)、SkullGAN生成した頭蓋骨セットが実頭蓋骨セットと区別できないことを示した。 そのため、SkullGANは人間の頭蓋骨を含む医療応用のためのニューラルネットワークのトレーニングに必要な大量の合成頭蓋骨CTセグメントを生成することができる。 これにより、アクセス、資本、時間、ドメイン専門知識の必要性など、大規模で高品質なトレーニングデータセットの作成に伴う課題が軽減される。

Deep learning offers potential for various healthcare applications involving the human skull but requires extensive datasets of curated medical images. To overcome this challenge, we propose SkullGAN, a generative adversarial network (GAN), to create large datasets of synthetic skull CT slices, reducing reliance on real images and accelerating the integration of machine learning into healthcare. In our method, CT slices of 38 subjects were fed to SkullGAN, a neural network comprising over 200 million parameters. The synthetic skull images generated were evaluated based on three quantitative radiological features: skull density ratio (SDR), mean thickness, and mean intensity. They were further analyzed using t-distributed stochastic neighbor embedding (t-SNE) and by applying the SkullGAN discriminator as a classifier. The results showed that SkullGAN-generated images demonstrated similar key quantitative radiological features to real skulls. Further definitive analysis was undertaken by applying the discriminator of SkullGAN, where the SkullGAN discriminator classified 56.5% of a test set of real skull images and 55.9% of the SkullGAN-generated images as reals (the theoretical optimum being 50%), demonstrating that the SkullGAN-generated skull set is indistinguishable from the real skull set - within the limits of our nonlinear classifier. Therefore, SkullGAN makes it possible to generate large numbers of synthetic skull CT segments, necessary for training neural networks for medical applications involving the human skull. This mitigates challenges associated with preparing large, high-quality training datasets, such as access, capital, time, and the need for domain expertise.
翻訳日:2023-10-13 05:11:12 公開日:2023-10-05
# Deep LearningがAdaptive Filteringと出会う: スタインの偏見のないリスク推定手法

Deep Learning Meets Adaptive Filtering: A Stein's Unbiased Risk Estimator Approach ( http://arxiv.org/abs/2307.16708v4 )

ライセンス: Link先を確認
Zahra Esmaeilbeig and Mojtaba Soltanalian(参考訳) 本稿では,再帰最小二乗法 (RLS) と等変適応ソース分離 (EASI) の2つの顕著な適応フィルタリングアルゴリズムを,アルゴリズムのアンローリングにより再検討する。 アンロール手法に基づいて,Deep RLSとDeep EASIと称される新しいタスクベースディープラーニングフレームワークを導入する。 これらのアーキテクチャは、元のアルゴリズムの繰り返しをディープニューラルネットワークの層に変換し、トレーニングプロセスを活用することで効率的なソース信号推定を可能にする。 そこで本研究では,stein の unbiased risk estimator (sure) に基づくサーロゲート損失関数を用いた,これらの深層未ロールネットワークのトレーニングを提案する。 実験により,Deep RLSとDeep EASIネットワークは,その基盤となるアルゴリズムより優れていることが示された。 また, 従来の平均二乗誤差損失に比べ, SURE に基づくトレーニングの有効性を数値実験により明らかにした。 本稿では, ニューラルネットワークの一般化性能評価指標として, 学習目的あるいは評価指標として, 将来的な確実性向上のための指標を定式化する。

This paper revisits two prominent adaptive filtering algorithms, namely recursive least squares (RLS) and equivariant adaptive source separation (EASI), through the lens of algorithm unrolling. Building upon the unrolling methodology, we introduce novel task-based deep learning frameworks, denoted as Deep RLS and Deep EASI. These architectures transform the iterations of the original algorithms into layers of a deep neural network, enabling efficient source signal estimation by leveraging a training process. To further enhance performance, we propose training these deep unrolled networks utilizing a surrogate loss function grounded on Stein's unbiased risk estimator (SURE). Our empirical evaluations demonstrate that the Deep RLS and Deep EASI networks outperform their underlying algorithms. Moreover, the efficacy of SURE-based training in comparison to conventional mean squared error loss is highlighted by numerical experiments. The unleashed potential of SURE-based training in this paper sets a benchmark for future employment of SURE either for training purposes or as an evaluation metric for generalization performance of neural networks.
翻訳日:2023-10-13 05:10:05 公開日:2023-10-05
# 強化学習の能動的学習:確率的最適制御アプローチ

Actively Learning Reinforcement Learning: A Stochastic Optimal Control Approach ( http://arxiv.org/abs/2309.10831v2 )

ライセンス: Link先を確認
Mohammad S. Ramadan, Mahmoud A. Hayajnh, Michael T. Tolley, Kyriakos G. Vamvoudakis(参考訳) 本稿では,2つの問題に対処する枠組みを提案する。 (i)制御実験・シミュレーションと実環境条件のミスマッチによる不確かさのモデル化による強化学習の脆弱さ (II)確率的最適制御の禁止的な計算コスト。 我々は、強化学習を用いて両方の問題にアプローチし、確率的動的プログラミング方程式を解く。 得られた強化学習コントローラは,いくつかの制約に対して安全であり,モデリングの不確実性について積極的に学習することができる。 探索と搾取とは異なり、探索と安全はコントローラ自身によって自動的に採用され、結果としてリアルタイムで学習される。 シミュレーション例では,提案手法の有効性を示す。

In this paper we provide a framework to cope with two problems: (i) the fragility of reinforcement learning due to modeling uncertainties because of the mismatch between controlled laboratory/simulation and real-world conditions and (ii) the prohibitive computational cost of stochastic optimal control. We approach both problems by using reinforcement learning to solve the stochastic dynamic programming equation. The resulting reinforcement learning controller is safe with respect to several types of constraints and it can actively learn about the modeling uncertainties. Unlike exploration and exploitation, probing and safety are employed automatically by the controller itself, resulting real-time learning. A simulation example demonstrates the efficacy of the proposed approach.
翻訳日:2023-10-13 03:40:20 公開日:2023-10-05
# データから自己改善を暗黙的に学べる言語モデル

Enable Language Models to Implicitly Learn Self-Improvement From Data ( http://arxiv.org/abs/2310.00898v2 )

ライセンス: Link先を確認
Ziqi Wang, Le Hou, Tianjian Lu, Yuexin Wu, Yunxuan Li, Hongkun Yu, Heng Ji(参考訳) 大規模言語モデル(LLM)は、オープンエンドテキスト生成タスクにおいて顕著な機能を示した。 しかし、これらのタスクの本質的にオープンな性質は、モデル応答の品質を改善する余地が常にあることを意味する。 この課題に対処するため、LLMの性能を高めるために様々なアプローチが提案されている。 LLMが応答品質を自己改善することに注力し、多種多様な高品質のトレーニングデータを収集するための広範囲な人的アノテーションへの依存を減らしている。 近年, その有効性, 効率, 利便性などにより, 自己改善手法としてプロンプトベースの手法が広く研究されている。 しかしながら、これらの手法は通常、LSMへの入力として明示的に完全に記述されたルーブリックを必要とする。 改善のための現実の複雑な目標(例えば、より有用で有害でない)を手動で導き、すべての必要なルーリックを提供するのは高価で難しい。 この目的のために,人間の嗜好データから改善目標を暗黙的に学習するImPlicit Self-ImprovemenT(PIT)フレームワークを提案する。 PITは、人間の余分な努力なしに報酬モデルを訓練するために使用される嗜好データのみを必要とする。 具体的には、人間のフィードバック(RLHF)からの強化学習のトレーニング目標を、与えられた入力に対する応答品質を最大化する代わりに、参照応答に条件付けられた応答の質的ギャップを最大化する。 このようにして、PITは人間の好みに合わせた改善目標を暗黙的に訓練する。 実世界の2つのデータセットと1つの合成データセットを用いた実験により,本手法がプロンプトベース手法よりも優れていることが示された。

Large Language Models (LLMs) have demonstrated remarkable capabilities in open-ended text generation tasks. However, the inherent open-ended nature of these tasks implies that there is always room for improvement in the quality of model responses. To address this challenge, various approaches have been proposed to enhance the performance of LLMs. There has been a growing focus on enabling LLMs to self-improve their response quality, thereby reducing the reliance on extensive human annotation efforts for collecting diverse and high-quality training data. Recently, prompting-based methods have been widely explored among self-improvement methods owing to their effectiveness, efficiency, and convenience. However, those methods usually require explicitly and thoroughly written rubrics as inputs to LLMs. It is expensive and challenging to manually derive and provide all necessary rubrics with a real-world complex goal for improvement (e.g., being more helpful and less harmful). To this end, we propose an ImPlicit Self-ImprovemenT (PIT) framework that implicitly learns the improvement goal from human preference data. PIT only requires preference data that are used to train reward models without extra human efforts. Specifically, we reformulate the training objective of reinforcement learning from human feedback (RLHF) -- instead of maximizing response quality for a given input, we maximize the quality gap of the response conditioned on a reference response. In this way, PIT is implicitly trained with the improvement goal of better aligning with human preferences. Experiments on two real-world datasets and one synthetic dataset show that our method significantly outperforms prompting-based methods.
翻訳日:2023-10-13 02:29:22 公開日:2023-10-05
# 特徴選択によるメモリ型マルウェア分類の効率とプライバシの向上

Enhancing Efficiency and Privacy in Memory-Based Malware Classification through Feature Selection ( http://arxiv.org/abs/2310.00516v2 )

ライセンス: Link先を確認
Salim Sazzed and Sharif Ullah(参考訳) マルウェアは、システムやデータを妥協することで、個人、組織、および重要なインフラストラクチャに重大なセキュリティリスクをもたらす。 コンピュータメモリのスナップショットを提供するメモリダンプの活用は、マルウェアを含む悪意のあるコンテンツの分析と検出に役立つ。 マルウェア分類システムにおける有効性とプライバシー問題に対処するため、最も関連する特徴を識別できるため、特徴の選択が重要な役割を果たすため、分類器に供給されるデータ量を最小限に抑えることができる。 本研究では,メモリの内容から重要な特徴を識別し,分類処理の性能とプライバシを向上させるために,多様な分類器を用いた3つの特徴選択手法を提案する。 総合的な実験は、マルウェア分類の3段階にわたる。 一 バイナリレベルの良性又はマルウェアの分類 二 マルウェアの種類分類(トロイの木馬、ランサムウェア及びスパイウェアを含む。)及び 三 各家族内のマルウェア家族の分類(各種の分類を含む。) その結果、相互情報や他の手法を組み込んだ特徴選択戦略は、すべてのタスクの分類器の性能を高めることが示される。 特に、相互情報を用いて入力特徴の25\%と50\%だけを選択し、ランダムフォレスト分類器を使用することで、最良の結果が得られる。 本研究は,マルウェア分類における特徴選択の重要性を高め,適切なアプローチを特定する上で貴重な知見を提供する。 本研究は,マルウェア分類システムの有効性とプライバシを推し進めることで,悪意あるソフトウェアによるセキュリティ脅威に対する保護に寄与する。

Malware poses a significant security risk to individuals, organizations, and critical infrastructure by compromising systems and data. Leveraging memory dumps that offer snapshots of computer memory can aid the analysis and detection of malicious content, including malware. To improve the efficacy and address privacy concerns in malware classification systems, feature selection can play a critical role as it is capable of identifying the most relevant features, thus, minimizing the amount of data fed to classifiers. In this study, we employ three feature selection approaches to identify significant features from memory content and use them with a diverse set of classifiers to enhance the performance and privacy of the classification task. Comprehensive experiments are conducted across three levels of malware classification tasks: i) binary-level benign or malware classification, ii) malware type classification (including Trojan horse, ransomware, and spyware), and iii) malware family classification within each family (with varying numbers of classes). Results demonstrate that the feature selection strategy, incorporating mutual information and other methods, enhances classifier performance for all tasks. Notably, selecting only 25\% and 50\% of input features using Mutual Information and then employing the Random Forest classifier yields the best results. Our findings reinforce the importance of feature selection for malware classification and provide valuable insights for identifying appropriate approaches. By advancing the effectiveness and privacy of malware classification systems, this research contributes to safeguarding against security threats posed by malicious software.
翻訳日:2023-10-13 02:27:03 公開日:2023-10-05
# BooookScore: LLM時代における書籍長要約の体系的研究

BooookScore: A systematic exploration of book-length summarization in the era of LLMs ( http://arxiv.org/abs/2310.00785v2 )

ライセンス: Link先を確認
Yapei Chang, Kyle Lo, Tanya Goyal, Mohit Iyyer(参考訳) 大規模言語モデル (LLM) のコンテキストウィンドウサイズを超える書籍の長さの文書 (>100Kトークン) を要約するには、まず入力文書を小さなチャンクに分割し、LLMにチャンクレベルの要約をマージ、更新、圧縮するよう促す必要がある。 このタスクの複雑さと重要性にもかかわらず、既存の書籍長要約データセット(例:BookSum)は、ほとんどの公共LCMの事前学習データであり、既存の評価手法は、現代のLCM要約器による誤りを捉えるのに苦労している。 本稿では,(1)チャンクレベルの要約を階層的にマージすること,(2)実行中の要約を段階的に更新すること,という2つのプロンプトワークフローによって実装される,llmベースの書籍要約サマリーの一貫性に関する最初の研究を行う。 我々は、最近出版された100冊のGPT-4生成した要約に対して、1193個の微粒な人間のアノテーションを取得し、LLMによる8種類のコヒーレンスエラーを同定した。 人間の評価は高価で時間を要するため、私たちは、特定されたエラータイプを一切含まない要約文における文の割合を測定する自動メトリクスであるboookscoreを開発した。 BooookScoreは、人間のアノテーションと高い合意を持ち、他の多くの重要なパラメータ(例えば、チャンクサイズ、ベースLSM)の影響を体系的に評価し、人的評価コストとして15Kと500時間節約することができる。 GPT-4 や Claude 2 のようなクローズソース LLM は、LLaMA 2 が生成したオフト反復式よりも BooookScore の高いサマリーを生成する。 増分更新によってBooookScoreは低下するが、階層的なマージよりも詳細度が高い。 私たちはブラインドレビュー後にコードとアノテーションをリリースし、本の長さの要約に関するより原則化された研究を刺激します。

Summarizing book-length documents (>100K tokens) that exceed the context window size of large language models (LLMs) requires first breaking the input document into smaller chunks and then prompting an LLM to merge, update, and compress chunk-level summaries. Despite the complexity and importance of this task, it has yet to be meaningfully studied due to the challenges of evaluation: existing book-length summarization datasets (e.g., BookSum) are in the pretraining data of most public LLMs, and existing evaluation methods struggle to capture errors made by modern LLM summarizers. In this paper, we present the first study of the coherence of LLM-based book-length summarizers implemented via two prompting workflows: (1) hierarchically merging chunk-level summaries, and (2) incrementally updating a running summary. We obtain 1193 fine-grained human annotations on GPT-4 generated summaries of 100 recently-published books and identify eight common types of coherence errors made by LLMs. Because human evaluation is expensive and time-consuming, we develop an automatic metric, BooookScore, that measures the proportion of sentences in a summary that do not contain any of the identified error types. BooookScore has high agreement with human annotations and allows us to systematically evaluate the impact of many other critical parameters (e.g., chunk size, base LLM) while saving $15K and 500 hours in human evaluation costs. We find that closed-source LLMs such as GPT-4 and Claude 2 produce summaries with higher BooookScore than the oft-repetitive ones generated by LLaMA 2. Incremental updating yields lower BooookScore but higher level of detail than hierarchical merging, a trade-off sometimes preferred by human annotators. We release code and annotations after blind review to spur more principled research on book-length summarization.
翻訳日:2023-10-13 02:17:46 公開日:2023-10-05
# Harvard Eye Fairness: 眼疾患の検診と身元確認のための大規模3D画像データセット

Harvard Eye Fairness: A Large-Scale 3D Imaging Dataset for Equitable Eye Diseases Screening and Fair Identity Scaling ( http://arxiv.org/abs/2310.02492v2 )

ライセンス: Link先を確認
Yan Luo, Yu Tian, Min Shi, Tobias Elze, Mengyu Wang(参考訳) 機械学習の公平性や公平性は社会的な幸福にとって非常に重要であるが、公共データセットの制限は、特に医学の分野でその進歩を妨げる。 医学におけるフェアネスが、フェアネス学習の応用にとって最も重要な分野であることは間違いない。 現在、フェアネス学習のための3Dイメージングデータを備えた大規模な医療データセットは存在せず、現代の診療所における3Dイメージングデータは、疾患診断の標準的なテストである。 さらに、既存の医療フェアネスデータセットは実際に再利用されたデータセットであるため、通常は年齢、性別、人種の3つのアイデンティティ属性を持つ人口統計学的アイデンティティ属性を持つ。 このギャップに対処するため,高齢者関連黄斑変性,糖尿病網膜症,緑内障など3大眼疾患を対象とする3万名(Harvard-EF)の眼フェアネスデータセットを導入した。 ハーバードefデータセットには、2d fundus写真と3d光コヒーレンス断層撮影の両方が含まれており、年齢、性別、人種、民族、好みの言語、配偶者ステータスの6つの属性がある。 また、モデルフェア性を改善するために、グループと個別のスケーリングを組み合わせるフェアアイデンティティスケーリング(fis)アプローチを提案する。 当社のfisアプローチは,2次元および3次元画像データを用いて,人種,性別,民族の公平性タスクにおいて優れたパフォーマンスを示す,最先端のフェアネス学習手法と比較し,ハーバード大学-efデータセットのフェアネス学習への応用を実証する。 そこで本研究では,各モデル間の公平性比較を容易にするために,性能尺度による不均等性尺度を提案する。 データセットとコードはhttps://ophai.hms.harvard.edu/datasets/harvard-ef30kで公開されている。

Fairness or equity in machine learning is profoundly important for societal well-being, but limited public datasets hinder its progress, especially in the area of medicine. It is undeniable that fairness in medicine is one of the most important areas for fairness learning's applications. Currently, no large-scale public medical datasets with 3D imaging data for fairness learning are available, while 3D imaging data in modern clinics are standard tests for disease diagnosis. In addition, existing medical fairness datasets are actually repurposed datasets, and therefore they typically have limited demographic identity attributes with at most three identity attributes of age, gender, and race for fairness modeling. To address this gap, we introduce our Eye Fairness dataset with 30,000 subjects (Harvard-EF) covering three major eye diseases including age-related macular degeneration, diabetic retinopathy, and glaucoma affecting 380 million patients globally. Our Harvard-EF dataset includes both 2D fundus photos and 3D optical coherence tomography scans with six demographic identity attributes including age, gender, race, ethnicity, preferred language, and marital status. We also propose a fair identity scaling (FIS) approach combining group and individual scaling together to improve model fairness. Our FIS approach is compared with various state-of-the-art fairness learning methods with superior performance in the racial, gender, and ethnicity fairness tasks with 2D and 3D imaging data, which demonstrate the utilities of our Harvard-EF dataset for fairness learning. To facilitate fairness comparisons between different models, we propose performance-scaled disparity measures, which can be used to compare model fairness accounting for overall performance levels. The dataset and code are publicly accessible via https://ophai.hms.harvard.edu/datasets/harvard-ef30k.
翻訳日:2023-10-13 02:00:20 公開日:2023-10-05
# 機械学習のための安全かつ効果的なデータ評価

Secure and Effective Data Appraisal for Machine Learning ( http://arxiv.org/abs/2310.02373v2 )

ライセンス: Link先を確認
Xu Ouyang, Changhong Yang, Felix Xiaozhu Lin, Yangfeng Ji(参考訳) データマーケットにとって不可欠なのは、データオーナとモデルオーナの間のトランザクションが完了する前にトレーニングデータを選択して評価する能力だ。 データとモデルの両方のプライバシを保護するため、このプロセスでは、Multi-Party Computation (MPC)を通じてターゲットモデルを精査する。 MPCを用いたTransformerモデルの評価は資源集約的だが,本研究では,データ選択を現実的に行う革新的なアプローチを提案する。 本研究の貢献は,(1) MPCを用いた秘密データ選択のためのグラウンディングパイプライン,(2) 関連するデータの限られたサブセットで訓練された簡易な低次元MLPによる複雑な高次元操作の複製,(3) MPCを同時かつ多相的に実装する3つの重要な要素を含む。 提案手法はトランスフォーマーモデルとNLP/CVベンチマークを用いて評価する。 対象モデルの直接的mpcベース評価と比較すると,本手法は,選択したデータを用いたトレーニングの精度が0.20%低下しただけで,数千時間からわずか数時間という,必要な時間を大幅に削減する。

Essential for an unfettered data market is the ability to discreetly select and evaluate training data before finalizing a transaction between the data owner and model owner. To safeguard the privacy of both data and model, this process involves scrutinizing the target model through Multi-Party Computation (MPC). While prior research has posited that the MPC-based evaluation of Transformer models is excessively resource-intensive, this paper introduces an innovative approach that renders data selection practical. The contributions of this study encompass three pivotal elements: (1) a groundbreaking pipeline for confidential data selection using MPC, (2) replicating intricate high-dimensional operations with simplified low-dimensional MLPs trained on a limited subset of pertinent data, and (3) implementing MPC in a concurrent, multi-phase manner. The proposed method is assessed across an array of Transformer models and NLP/CV benchmarks. In comparison to the direct MPC-based evaluation of the target model, our approach substantially reduces the time required, from thousands of hours to mere tens of hours, with only a nominal 0.20% dip in accuracy when training with the selected data.
翻訳日:2023-10-13 01:59:21 公開日:2023-10-05
# minigpt-5: 生成vokensによる視覚言語間生成

MiniGPT-5: Interleaved Vision-and-Language Generation via Generative Vokens ( http://arxiv.org/abs/2310.02239v2 )

ライセンス: Link先を確認
Kaizhi Zheng, Xuehai He, Xin Eric Wang(参考訳) 大規模言語モデル(llm)は、自然言語処理の進歩に多大な注意を払っており、テキスト理解と生成の非並列性を示している。 しかし、コヒーレントなテキスト物語を伴う画像の同時生成は、いまだ発展途上のフロンティアである。 これに対し,画像テキスト出力の橋梁として機能する「生成ヴォケンズ」の概念を取り入れた,革新的インターリーブな視覚・言語生成手法を提案する。 本手法は,画像の包括的記述を必要としない,記述自由なマルチモーダル生成に焦点を当てた2段階の訓練戦略を特徴とする。 モデル整合性を高めるため、分類器フリーガイダンスが組み込まれ、画像生成における発声の有効性を高める。 我々のモデルであるMiniGPT-5は、MDDialogデータセットのベースラインダイバータモデルよりも大幅に改善され、VISTデータセットの人間評価において、優れた、あるいは同等のマルチモーダル出力が一貫して提供され、様々なベンチマークでその有効性を強調している。

Large Language Models (LLMs) have garnered significant attention for their advancements in natural language processing, demonstrating unparalleled prowess in text comprehension and generation. Yet, the simultaneous generation of images with coherent textual narratives remains an evolving frontier. In response, we introduce an innovative interleaved vision-and-language generation technique anchored by the concept of "generative vokens," acting as the bridge for harmonized image-text outputs. Our approach is characterized by a distinctive two-staged training strategy focusing on description-free multimodal generation, where the training requires no comprehensive descriptions of images. To bolster model integrity, classifier-free guidance is incorporated, enhancing the effectiveness of vokens on image generation. Our model, MiniGPT-5, exhibits substantial improvement over the baseline Divter model on the MMDialog dataset and consistently delivers superior or comparable multimodal outputs in human evaluations on the VIST dataset, highlighting its efficacy across diverse benchmarks.
翻訳日:2023-10-13 01:59:01 公開日:2023-10-05
# インスタンスはもっと注意が必要だ:インスタンスのプロンプトを書き直すとゼロショットパフォーマンスが向上する

Instance Needs More Care: Rewriting Prompts for Instances Yields Better Zero-Shot Performance ( http://arxiv.org/abs/2310.02107v2 )

ライセンス: Link先を確認
Saurabh Srivastava, Chengyue Huang, Weiguo Fan, Ziyu Yao(参考訳) 大規模な言語モデル(llm)がゼロショットでタスクを実行することを可能にすることは、その労力削減(すなわちタスク固有のアノテーションを必要としない)による魅力的な目標だった。 LLMのゼロショットのパフォーマンスを改善するために、以前の作業はより効果的なタスク命令(例えば ``let's Think by Step'' など)の開発に重点を置いてきた。 しかし、LLMがゼロショットで正しく解決するためには、個別のテストインスタンスがより慎重に設計され、カスタマイズされた指示を必要とする。 そこで本研究では,PRoMPTdを提案する。PRoMPTdは,各テストインプットに対するタスクプロンプトを,より具体的で,曖昧で,かつ完全なものに書き換えることで,タスクLLMに対するより良いガイダンスを提供する。 GPT-4 をタスク LLM として,算術,論理的推論,コード生成を含む8つのタスクを対象とした PRoMPTd の評価を行った。 特に、PRoMPTdは、複雑なMATHデータセットで10%、HumanEvalでコード生成タスクで5%という絶対的な改善を実現し、従来のゼロショットメソッドよりも優れています。 さらに、書き換えプロンプトは、LLMが各テストインスタンスをどのように解決するかをよりよく理解し、敵のプロンプトに対する防御メカニズムとして活用できることを示した。 ソースコードとデータセットはhttps://github.com/salokr/PRoMPTdから取得できる。

Enabling large language models (LLMs) to perform tasks in zero-shot has been an appealing goal owing to its labor-saving (i.e., requiring no task-specific annotations); as such, zero-shot prompting approaches also enjoy better task generalizability. To improve LLMs' zero-shot performance, prior work has focused on devising more effective task instructions (e.g., ``let's think step by step'' ). However, we argue that, in order for an LLM to solve them correctly in zero-shot, individual test instances need more carefully designed and customized instructions. To this end, we propose PRoMPTd, an approach that rewrites the task prompt for each individual test input to be more specific, unambiguous, and complete, so as to provide better guidance to the task LLM. We evaluated PRoMPTd on eight datasets covering tasks including arithmetics, logical reasoning, and code generation, using GPT-4 as the task LLM. Notably, PRoMPTd achieves an absolute improvement of around 10% on the complex MATH dataset and 5% on the code generation task on HumanEval, outperforming conventional zero-shot methods. In addition, we also showed that the rewritten prompt can provide better interpretability of how the LLM resolves each test instance, which can potentially be leveraged as a defense mechanism against adversarial prompting. The source code and dataset can be obtained from https://github.com/salokr/PRoMPTd
翻訳日:2023-10-13 01:57:29 公開日:2023-10-05
# ハードアテンションのあるトランスフォーマーエンコーダが受け入れる論理言語

Logical Languages Accepted by Transformer Encoders with Hard Attention ( http://arxiv.org/abs/2310.03817v1 )

ライセンス: Link先を確認
Pablo Barcelo, Alexander Kozachinskiy, Anthony Widjaja Lin, Vladimir Podolskii(参考訳) 我々はトランスフォーマーエンコーダで認識できる形式言語の研究に貢献する。 本研究では,(1)UHAT(Unique Hard Attention Transformers)と(2)AHAT(Average Hard Attention Transformers)の2つの自己注意機構に着目した。 UHATエンコーダは回路複雑性クラス${\sf AC}^0$内の言語のみを認識することが知られている。 一方、ahatエンコーダは${\sf ac}^0$)以外の言語を認識できるが、その表現力は依然として、多数派ゲートによって拡張された${\sf ac}^0$-circuits というより大きな回路複雑性クラスである${\sf tc}^0$ にある。 まず、UHATエンコーダでは認識できない${\sf AC}^0$-言語が存在するという負の結果を示す。 正の面では、UHATエンコーダは${\sf AC}^0$-Languageの豊富な断片、すなわち任意の単項数値述語を持つ一階述語論理で定義可能な全ての言語を認識できることを示す。 この論理には、例えば${\sf ac}^0$の全ての正規言語が含まれる。 次に、AHATエンコーダは、数項で拡張しても、論理の全ての言語を認識できることを示す。 これらの結果を用いて,UHAT と AHAT の表現力の新たな成果を文字の置換(パリカー画像)に導出する。

We contribute to the study of formal languages that can be recognized by transformer encoders. We focus on two self-attention mechanisms: (1) UHAT (Unique Hard Attention Transformers) and (2) AHAT (Average Hard Attention Transformers). UHAT encoders are known to recognize only languages inside the circuit complexity class ${\sf AC}^0$, i.e., accepted by a family of poly-sized and depth-bounded boolean circuits with unbounded fan-ins. On the other hand, AHAT encoders can recognize languages outside ${\sf AC}^0$), but their expressive power still lies within the bigger circuit complexity class ${\sf TC}^0$, i.e., ${\sf AC}^0$-circuits extended by majority gates. We first show a negative result that there is an ${\sf AC}^0$-language that cannot be recognized by an UHAT encoder. On the positive side, we show that UHAT encoders can recognize a rich fragment of ${\sf AC}^0$-languages, namely, all languages definable in first-order logic with arbitrary unary numerical predicates. This logic, includes, for example, all regular languages from ${\sf AC}^0$. We then show that AHAT encoders can recognize all languages of our logic even when we enrich it with counting terms. We apply these results to derive new results on the expressive power of UHAT and AHAT up to permutation of letters (a.k.a. Parikh images).
翻訳日:2023-10-12 19:22:56 公開日:2023-10-05
# HandMeThat: 物理的・社会的環境における人間とロボットのコミュニケーション

HandMeThat: Human-Robot Communication in Physical and Social Environments ( http://arxiv.org/abs/2310.03779v1 )

ライセンス: Link先を確認
Yanming Wan, Jiayuan Mao, Joshua B. Tenenbaum(参考訳) 身体・社会環境における教示理解と追従の総合評価のためのベンチマークであるHandMeThatを紹介する。 以前のデータセットは主に言語基盤と計画に焦点を当てていたが、HandMeThatは物理的(状態と関係)と社会的(人間の行動と目標)情報に基づく曖昧さによる人間の指示の解決について検討している。 handmeは、人間とロボットのインタラクションの1万のエピソードを含む。 各エピソードで、ロボットはまず人間の行動の軌跡を自身の内部の目標に向かって観察する。 次に、ロボットは人間の指示を受け、命令を通じてサブゴールセットを達成するための行動をとる。 本稿では,ロボットがテキストコマンドによって仮想環境と対話する,ベンチマークのためのテキストインタフェースを提案する。 我々は、HandMeThatのベースラインモデルを評価し、オフラインとオンライン両方の強化学習アルゴリズムがHandMeThatで性能が劣っていることを示す。

We introduce HandMeThat, a benchmark for a holistic evaluation of instruction understanding and following in physical and social environments. While previous datasets primarily focused on language grounding and planning, HandMeThat considers the resolution of human instructions with ambiguities based on the physical (object states and relations) and social (human actions and goals) information. HandMeThat contains 10,000 episodes of human-robot interactions. In each episode, the robot first observes a trajectory of human actions towards her internal goal. Next, the robot receives a human instruction and should take actions to accomplish the subgoal set through the instruction. In this paper, we present a textual interface for our benchmark, where the robot interacts with a virtual environment through textual commands. We evaluate several baseline models on HandMeThat, and show that both offline and online reinforcement learning algorithms perform poorly on HandMeThat, suggesting significant room for future work on physical and social human-robot communications and interactions.
翻訳日:2023-10-12 19:22:25 公開日:2023-10-05
# 逆検証を用いたユーザ応答予測のための軽量ブースティングモデル

Lightweight Boosting Models for User Response Prediction Using Adversarial Validation ( http://arxiv.org/abs/2310.03778v1 )

ライセンス: Link先を確認
Hyeonwoo Kim and Wonsung Lee(参考訳) ShareChatが主催するACM RecSys Challenge 2023は、アプリがインストールされる確率を予測することを目的としている。 本稿では,この課題に対する軽量な解決策について述べる。 ユーザ応答予測タスクとしてタスクを定式化する。 タスクの迅速なプロトタイピングのために、以下のステップを含む軽量なソリューションを提案する。 1) 逆バリデーションを用いて,データセットから不正な特徴を効果的に排除する。 2) ノイズの多い連続的特徴や分類的特徴に多くのユニークな価値で対処するため,我々は特徴工学技術を採用している。 ; 3) 優れたパフォーマンスとスケーラビリティのために,GBDT(Gradient Boosted Decision Trees)を活用します。 実験によると、1つのlightgbmモデルは、追加のセンシングなしで非常によく機能する。 我々のチームは最終スコア6.059065の挑戦で9位を獲得しました。 このアプローチのコードは、https://github.com/choco9966/recsys-challenge-2023.comで参照できます。

The ACM RecSys Challenge 2023, organized by ShareChat, aims to predict the probability of the app being installed. This paper describes the lightweight solution to this challenge. We formulate the task as a user response prediction task. For rapid prototyping for the task, we propose a lightweight solution including the following steps: 1) using adversarial validation, we effectively eliminate uninformative features from a dataset; 2) to address noisy continuous features and categorical features with a large number of unique values, we employ feature engineering techniques.; 3) we leverage Gradient Boosted Decision Trees (GBDT) for their exceptional performance and scalability. The experiments show that a single LightGBM model, without additional ensembling, performs quite well. Our team achieved ninth place in the challenge with the final leaderboard score of 6.059065. Code for our approach can be found here: https://github.com/choco9966/recsys-challenge-2023.
翻訳日:2023-10-12 19:22:06 公開日:2023-10-05
# PrIeD-KIE:プライバシー保護文書鍵情報抽出を目指して

PrIeD-KIE: Towards Privacy Preserved Document Key Information Extraction ( http://arxiv.org/abs/2310.03777v1 )

ライセンス: Link先を確認
Saifullah Saifullah (1 and 2), Stefan Agne (2 and 3), Andreas Dengel (1 and 2), Sheraz Ahmed (2 and 3) ((1) Department of Computer Science, University of Kaiserslautern-Landau, Kaiserslautern, Rhineland-Palatinate, Germany, (2) German Research Center for Artificial Intelligence, DFKI GmbH, Kaiserslautern, Rhineland-Palatinate, Germany, (3) DeepReader GmbH, Kaiserlautern, Germany)(参考訳) 本稿では、差分プライバシー(dp)、フェデレーション学習(fl)、差分プライベートフェデレーション学習(dp-fl)と連携して、事前学習された大規模文書基盤モデルを活用することで、個人鍵情報抽出(kie)システムの開発戦略を提案する。 6つのベンチマークデータセット(FUNSD、CORD、SROIE、WildReceipts、XFUND、DOCILE)の広範な実験を通じて、大きなドキュメント基盤モデルは、プライベート設定下でKIEタスクに対して効果的に微調整され、高いプライバシー保証を維持しながら適切なパフォーマンスを達成することができることを示した。 さらに,様々なトレーニングやモデルパラメータがモデル性能に与える影響を徹底的に分析することにより,グローバルDPの下でのKIEタスクの最適プライバシー利用トレードオフを実現するための,シンプルかつ効果的なガイドラインを提案する。 最後に、スタンドアローンの状況からマルチクライアントのフェデレーション環境へのグローバルDPの効率的なスケールアップを可能にする新しいDP-FLアルゴリズムFeAm-DPを紹介する。 各種のクライアントおよびプライバシ設定にまたがってアルゴリズムを包括的に評価し,参加するクライアントの数が増えても,スタンドアローンDPに匹敵する性能とプライバシ保証を実現する能力を示す。 全体として、当社の研究では、プライベートなKIEシステムの開発に関する貴重な洞察を提供し、プライバシ保護されたドキュメントAIアプリケーションのためのドキュメント基盤モデルの可能性を強調している。 著者の知識を最大限に活用するため、これは文書基礎モデルを用いてプライバシーを保護した文書kieを探求する最初の作品である。

In this paper, we introduce strategies for developing private Key Information Extraction (KIE) systems by leveraging large pretrained document foundation models in conjunction with differential privacy (DP), federated learning (FL), and Differentially Private Federated Learning (DP-FL). Through extensive experimentation on six benchmark datasets (FUNSD, CORD, SROIE, WildReceipts, XFUND, and DOCILE), we demonstrate that large document foundation models can be effectively fine-tuned for the KIE task under private settings to achieve adequate performance while maintaining strong privacy guarantees. Moreover, by thoroughly analyzing the impact of various training and model parameters on model performance, we propose simple yet effective guidelines for achieving an optimal privacy-utility trade-off for the KIE task under global DP. Finally, we introduce FeAm-DP, a novel DP-FL algorithm that enables efficiently upscaling global DP from a standalone context to a multi-client federated environment. We conduct a comprehensive evaluation of the algorithm across various client and privacy settings, and demonstrate its capability to achieve comparable performance and privacy guarantees to standalone DP, even when accommodating an increasing number of participating clients. Overall, our study offers valuable insights into the development of private KIE systems, and highlights the potential of document foundation models for privacy-preserved Document AI applications. To the best of authors' knowledge, this is the first work that explores privacy preserved document KIE using document foundation models.
翻訳日:2023-10-12 19:21:54 公開日:2023-10-05
# 畳み込みニューラルネットワークを用いた関数型データ学習

Functional data learning using convolutional neural networks ( http://arxiv.org/abs/2310.03773v1 )

ライセンス: Link先を確認
Jose Galarza and Tamer Oraby(参考訳) 本稿では,畳み込みニューラルネットワーク(CNN)が,雑音や非雑音の関数データの回帰学習や分類学習にどのように利用できるかを示す。 主なアイデアは、関数データを28×28の画像に変換することである。 我々は,畳み込みニューラルネットワークの具体的だが典型的なアーキテクチャを用いて,パラメータ推定と関数型分類の回帰訓練を行う。 まず,無作為な雑音を伴わない,機能的データのいくつかの機能的ケーススタディを用いて,新しい手法の強みを示す。 特に,指数的成長と減衰率,サイン関数とコサイン関数の帯域幅,曲線ピークの大きさと幅を推定するために使用する。 また、関数データの単調性と曲率、代数的対指数的成長、関数データのピーク数についても分類する。 第2に,同じ畳み込みニューラルネットワークを,ノイズおよび非ノイズカオスデータにおけるリアプノフ指数推定に適用し,流行曲線から疾患の伝播率を推定し,薬物溶解プロファイルの類似性を検出する。 最後に,本手法を実生活データに適用し,パーキンソン病患者を分類問題で検出する。 この手法は単純ではあるが高い精度を示し、工学や医学における将来の用途に有望である。

In this paper, we show how convolutional neural networks (CNN) can be used in regression and classification learning problems of noisy and non-noisy functional data. The main idea is to transform the functional data into a 28 by 28 image. We use a specific but typical architecture of a convolutional neural network to perform all the regression exercises of parameter estimation and functional form classification. First, we use some functional case studies of functional data with and without random noise to showcase the strength of the new method. In particular, we use it to estimate exponential growth and decay rates, the bandwidths of sine and cosine functions, and the magnitudes and widths of curve peaks. We also use it to classify the monotonicity and curvatures of functional data, algebraic versus exponential growth, and the number of peaks of functional data. Second, we apply the same convolutional neural networks to Lyapunov exponent estimation in noisy and non-noisy chaotic data, in estimating rates of disease transmission from epidemic curves, and in detecting the similarity of drug dissolution profiles. Finally, we apply the method to real-life data to detect Parkinson's disease patients in a classification problem. The method, although simple, shows high accuracy and is promising for future use in engineering and medical applications.
翻訳日:2023-10-12 19:21:21 公開日:2023-10-05
# 臨床注記検査のための代替的特徴抽出パイプラインの検討

Investigating Alternative Feature Extraction Pipelines For Clinical Note Phenotyping ( http://arxiv.org/abs/2310.03772v1 )

ライセンス: Link先を確認
Neil Daniel(参考訳) 医療産業における一般的な実践は、詳細な患者観察からなる臨床ノートの使用である。 しかし、電子健康記録システムでは、これらの観察を構造化形式に含まないことが多いため、患者情報を自動評価することが困難である。 医療属性の抽出に計算システムを用いると,患者の経時的分析,リスク評価,病院評価など,多くの応用が期待できる。 最近の研究は、臨床ノートから医療属性を抽出する表現の方法を構築した。 BERTベースのモデルは、臨床ノートを一連の表現に変換するのに使用することができ、CLS埋め込みに基づいて単一の文書表現に凝縮され、LSTMに渡される(Mulyar et al., 2020)。 このパイプラインは、以前の結果よりもかなりパフォーマンスが向上するが、広範囲の収束時間を必要とする。 この方法は、臨床ノートでまだ特定されていない属性の予測もできない。 臨床ノートにみられる多種多様な医学的属性を考慮し,共通疾患の抽出にscispacy(neumann et al., 2019)を用いた代替パイプラインを提案する。 次に,様々な教師付き学習モデルを訓練し,これらの条件と患者の属性を関連付ける。 最後に、比較目的のために、臨床バート(alsentzer et al., 2019)とlstmベースのアプローチを再現した。 オルタナティブな手法は複製LSTMアプローチを適度に過小評価する。 しかし、精度と実行時間との複雑なトレードオフを考えると、この代替アプローチが臨床ノートに存在しない疾患の検出を可能にすることに加えて、確立された方法の補足としてその使用が考えられる。

A common practice in the medical industry is the use of clinical notes, which consist of detailed patient observations. However, electronic health record systems frequently do not contain these observations in a structured format, rendering patient information challenging to assess and evaluate automatically. Using computational systems for the extraction of medical attributes offers many applications, including longitudinal analysis of patients, risk assessment, and hospital evaluation. Recent work has constructed successful methods for phenotyping: extracting medical attributes from clinical notes. BERT-based models can be used to transform clinical notes into a series of representations, which are then condensed into a single document representation based on their CLS embeddings and passed into an LSTM (Mulyar et al., 2020). Though this pipeline yields a considerable performance improvement over previous results, it requires extensive convergence time. This method also does not allow for predicting attributes not yet identified in clinical notes. Considering the wide variety of medical attributes that may be present in a clinical note, we propose an alternative pipeline utilizing ScispaCy (Neumann et al., 2019) for the extraction of common diseases. We then train various supervised learning models to associate the presence of these conditions with patient attributes. Finally, we replicate a ClinicalBERT (Alsentzer et al., 2019) and LSTM-based approach for purposes of comparison. We find that alternative methods moderately underperform the replicated LSTM approach. Yet, considering a complex tradeoff between accuracy and runtime, in addition to the fact that the alternative approach also allows for the detection of medical conditions that are not already present in a clinical note, its usage may be considered as a supplement to established methods.
翻訳日:2023-10-12 19:21:00 公開日:2023-10-05
# WLST:3次元物体検出における弱教師付きドメイン適応のための弱ラベル自己学習

WLST: Weak Labels Guided Self-training for Weakly-supervised Domain Adaptation on 3D Object Detection ( http://arxiv.org/abs/2310.03821v1 )

ライセンス: Link先を確認
Tsung-Lin Tsou, Tsung-Han Wu, and Winston H. Hsu(参考訳) 3次元オブジェクト検出におけるドメイン適応(DA)の分野では、ほとんどの研究は教師なしドメイン適応(UDA)に向けられている。 しかし、ターゲットとなるアノテーションがなければ、UDAアプローチと完全に教師されたアプローチの間のパフォーマンスギャップは目立たずであり、現実のアプリケーションでは実用的ではない。 一方、弱教師付きドメイン適応(WDA)は、対象ドメインに対するラベル付けの労力をほとんど必要としない、過度に探索されているが実用的なタスクである。 低コストでDA性能を向上させるため,WDA用3次元オブジェクト検出のための汎用弱ラベルガイド型自己学習フレームワークWLSTを提案する。 2dバウンディングボックスから3d擬似ラベルを生成するautolabelerを、既存の自己学習パイプラインに組み込むことで、より堅牢で一貫性のある擬似ラベルを生成し、ターゲットドメインのトレーニングプロセスに利益をもたらすことができる。 我々のWLSTフレームワークの有効性,堅牢性,および検出器依存性を示す大規模な実験を行った。 特に、すべての評価タスクにおいて、以前の最先端メソッドよりも優れています。

In the field of domain adaptation (DA) on 3D object detection, most of the work is dedicated to unsupervised domain adaptation (UDA). Yet, without any target annotations, the performance gap between the UDA approaches and the fully-supervised approach is still noticeable, which is impractical for real-world applications. On the other hand, weakly-supervised domain adaptation (WDA) is an underexplored yet practical task that only requires few labeling effort on the target domain. To improve the DA performance in a cost-effective way, we propose a general weak labels guided self-training framework, WLST, designed for WDA on 3D object detection. By incorporating autolabeler, which can generate 3D pseudo labels from 2D bounding boxes, into the existing self-training pipeline, our method is able to generate more robust and consistent pseudo labels that would benefit the training process on the target domain. Extensive experiments demonstrate the effectiveness, robustness, and detector-agnosticism of our WLST framework. Notably, it outperforms previous state-of-the-art methods on all evaluation tasks.
翻訳日:2023-10-12 19:13:07 公開日:2023-10-05
# 弱い量子摂動のメトロロジー

Metrology of weak quantum perturbations ( http://arxiv.org/abs/2310.03820v1 )

ライセンス: Link先を確認
Sidali Mohammdi, Matteo Bina, Abdelhakim Gharbi, Matteo G. A. Paris(参考訳) 弱い摂動を含むハミルトニアンを持つ量子系、すなわち、$\boldsymbol{H=H_0} + \boldsymbol{\tilde{H}}$, $\boldsymbol{\lambda}= \{\lambda_1, \lambda_2,...\}$, $\boldsymbol{\tilde{H}}$= \{H_1, H_2,...\}$, $\left|\boldsymbol{\lambda}\right| \ll 1$, そして、$\boldsymbol{\tilde{H}}$が知られているが、結合の値が未知であり、システム上での測定によって決定されるべきである。 第1のシナリオでは、システムの所定の定常状態(例えば基底状態)で測定が行われ、第2のシナリオでは初期状態が準備され、進化後に測定されると仮定する。 いずれの場合も、結合を推定し、最終的な限界を精度で評価するために最適な測定値を求める。 特に, 1 と 2 のカップリングに対する一般結果の導出と,特定の量子ビットモデルの詳細解析を行う。 この結果から, 動的推定手法は, 初期準備と相互作用時間の適切な選択によって, 精度が向上する可能性が示唆された。

We consider quantum systems with a Hamiltonian containing a weak perturbation i.e. $\boldsymbol{H=H_0} + \boldsymbol{\lambda} \cdot \boldsymbol{\tilde{H}}$, $\boldsymbol{\lambda}= \{\lambda_1, \lambda_2,...\}$, $\boldsymbol{\tilde{H}}$ $= \{H_1, H_2,...\}$, $\left|\boldsymbol{\lambda}\right| \ll 1$, and address situations where $\boldsymbol{\tilde{H}}$ is known but the values of the couplings $\boldsymbol{\lambda}$ are unknown, and should be determined by performing measurements on the system. We consider two scenarios: in the first one we assume that measurements are performed on a given stationary state of the system, e.g., the ground state, whereas in the second one an initial state is prepared and then measured after evolution. In both cases, we look for the optimal measurements to estimate the couplings and evaluate the ultimate limits to precision. In particular, we derive general results for one and two couplings, and analyze in details some specific qubit models. Our results indicates that dynamical estimation schemes may provide enhanced precision upon a suitable choice of the initial preparation and the interaction time.
翻訳日:2023-10-12 19:12:48 公開日:2023-10-05
# fishnets: 情報最適でスケーラブルな集合とグラフ

Fishnets: Information-Optimal, Scalable Aggregation for Sets and Graphs ( http://arxiv.org/abs/2310.03812v1 )

ライセンス: Link先を確認
T. Lucas Makinen, Justin Alsing, Benjamin D. Wandelt(参考訳) セットベースの学習は、現代のディープラーニングとネットワーク科学の重要な要素である。 Graph Neural Networks(GNN)とそのエッジフリーのDeepsetsは、タグ付きでトポロジ的に困難なデータセットにおいて、極めて有用であることが証明されている。 集合メンバに対する情報埋め込みを学ぶための鍵は、特定の集約関数(通常は和、最大、平均)である。 ベイジアン推論とグラフ集約の両方のデータセットに対して,情報-最適埋め込みを学習するための集約戦略であるフィッシュネットを提案する。 私たちはそれを証明します 一 魚網神経要約は、任意の数のデータオブジェクトに最適にスケールすることができる。 二 魚網の集約は、標準の深層集合と異なり、データ分布の変化に頑健である。 三 魚網は、ベイズ情報を飽和させ、MCMC技術が失敗する体制にまで拡張する。 四 魚網は、GNN内のドロップインアグリゲーションスキームとして使用することができる。 メッセージパッシングにFishnetsアグリゲーション方式を採用することで、GNNは、学習可能なパラメータの少ない既存のベンチマーク上でogbnタンパク質データに対して、最先端のパフォーマンスとアーキテクチャサイズを達成できることを示す。

Set-based learning is an essential component of modern deep learning and network science. Graph Neural Networks (GNNs) and their edge-free counterparts Deepsets have proven remarkably useful on ragged and topologically challenging datasets. The key to learning informative embeddings for set members is a specified aggregation function, usually a sum, max, or mean. We propose Fishnets, an aggregation strategy for learning information-optimal embeddings for sets of data for both Bayesian inference and graph aggregation. We demonstrate that i) Fishnets neural summaries can be scaled optimally to an arbitrary number of data objects, ii) Fishnets aggregations are robust to changes in data distribution, unlike standard deepsets, iii) Fishnets saturate Bayesian information content and extend to regimes where MCMC techniques fail and iv) Fishnets can be used as a drop-in aggregation scheme within GNNs. We show that by adopting a Fishnets aggregation scheme for message passing, GNNs can achieve state-of-the-art performance versus architecture size on ogbn-protein data over existing benchmarks with a fraction of learnable parameters and faster training time.
翻訳日:2023-10-12 19:11:23 公開日:2023-10-05
# 散逸性準可積分系における保存量の反復的構成

Iterative construction of conserved quantities in dissipative nearly integrable systems ( http://arxiv.org/abs/2310.03809v1 )

ライセンス: Link先を確認
Iris Ul\v{c}akar and Zala Lenar\v{c}i\v{c}(参考訳) 可積分系は量子世界の可解多体問題の稀な例を提供する。 微調整構造のため、それらの自然と実験における実現は完全には正確ではないため、積分性の効果は過渡的にのみ観察される。 これを超える1つの方法は、ほぼ可積分なシステムをバスと運転に結合させることである:これらは、時間依存でエンコードされるような任意の時間までの可積分効果を安定化し、最終的に一般化されたギブスアンサンブルの静止状態を与える。 しかし、そのような駆動散逸的ほぼ可積分モデルの記述は困難であり、正確な解析方法が提案されていない。 ここでは, 可積分分解摂動 (baths) が, 切断された一般化ギブスアンサンブル記述に付加される最必要な保存量を決定する反復スキームを開発した。 我々の手法は問題の複雑さを著しく減らし、熱力学的結果の道を開く。

Integrable systems offer rare examples of solvable many-body problems in the quantum world. Due to the fine-tuned structure, their realization in nature and experiment is never completely accurate, therefore effects of integrability are observed only transiently. One way to surpass that is to couple nearly integrable systems to baths and driving: these will stabilize integrable effects up to arbitrary time, as encoded in the time dependent, and eventually, the stationary state of form of a generalized Gibbs ensemble. However, the description of such driven dissipative nearly integrable models is challenging and no exact analytical methods have been proposed so far. Here we develop an iterative scheme in which integrability breaking perturbations (baths) determine the most necessary conserved quantities to be added into a truncated generalized Gibbs ensemble description. Our scheme significantly reduces the complexity of the problem, paving the way for thermodynamic results.
翻訳日:2023-10-12 19:11:05 公開日:2023-10-05
# 2段ボソニックラダーの移動不純物

Mobile Impurity in a Two-Leg Bosonic Ladder ( http://arxiv.org/abs/2310.03793v1 )

ライセンス: Link先を確認
Naushad Ahmad Kamar, Adrian Kantian, and Thierry Giamarchi(参考訳) 2脚ボソニックラダーにおける移動不純物のダイナミクスについて検討した。 不純物は足に沿って移動し、はしごに存在する相互作用するボソニック粒子の浴と相互作用する。 我々は解析的(トモナガ・ラッティンガー液-TLL)法と数値的(密度行列再正規化群-DMRG)法の両方を用いて不純物のグリーン関数を計算する。 不純物と不純物との相互作用が小さい場合には、不純物の結合モードは、浴のギャップレスモードにのみ効果的に結合し、不純物のアンチボンディングモードは浴のガッピングモードとギャップレスモードの両方に結合する。 不純物のグリーン関数の時間依存性を、与えられた運動量で反結合モードまたは結合モードに生成する不純物に対して計算する。 後のケースでは、臨界運動量以下で指数関数的なパワーローとして崩壊し、前ケースは常に指数関数的に崩壊する。 本稿では,DMRGとクラスタ拡張を用いた解析結果を比較し,良好な一致を得た。 さらに, グリーン関数が指数関数的に崩壊した場合, dmrg を用いて準粒子の寿命を抽出する。 また、ボンディングモードとアンチボンディングモードの両方が系統的に影響を受ける無限の浴-不純物カップリングの場合についても扱う。 この場合、結合モードにおける不純物グリーンの関数はゼロ運動量でのパワー・ルーとして崩壊し、それに対応する指数は不純物の逆チューニングの増加とともに増加する。 この結果と他の不純物問題と比較し、不純物または浴槽の運動が1つの鎖に制限される。 最後に,超低温ガスを用いた実験の結果についてコメントする。

We study the dynamics of a mobile impurity in a two-leg bosonic ladder. The impurity moves both along and across the legs and interacts with a bath of interacting bosonic particles present in the ladder. We use both analytical (Tomonaga-Luttinger liquid - TLL) and numerical (Density Matrix Renormalization Group - DMRG) methods to compute the Green's function of the impurity. We find that for a small impurity-bath interaction, the bonding mode of the impurity effectively couples only to the gapless mode of the bath while the anti-bonding mode of the impurity couples to both gapped and gapless mode of the bath. We compute the time dependence of the Green's function of the impurity, for impurity created either in the anti-bonding or bonding mode with a given momentum. The later case leads to a decay as a power-law below a critical momentum and exponential above, while the former case always decays exponentially. We compare the DMRG results with analytical results using the linked cluster expansion and find a good agreement. In addition we use DMRG to extract the lifetime of the quasi-particle, when the Green's function decays exponentially. We also treat the case of an infinite bath-impurity coupling for which both the bonding and antibonding modes are systematically affected. For this case the impurity Green's function in the bonding mode decays as a power-law at zero momentum.The corresponding exponent increases with increasing transverse-tunneling of the impurity. We compare our results with the other impurity problems for which the motion of either the impurity or the bath is limited to a single chain. Finally we comments on the consequences of our findings for experiments with the ultracold gasses.
翻訳日:2023-10-12 19:10:48 公開日:2023-10-05
# 良表現の液滴:二層ネットワークにおける一階相転移としてのグロッキング

Droplets of Good Representations: Grokking as a First Order Phase Transition in Two Layer Networks ( http://arxiv.org/abs/2310.03789v1 )

ライセンス: Link先を確認
Noa Rubin, Inbar Seroussi, Zohar Ringel(参考訳) deep neural network(dnn)の重要な特性は、トレーニング中に新機能を学習する能力である。 このディープラーニングの興味深い側面は、最近報告されたGrokking現象で最も顕著である。 主にテスト精度の急上昇として反映されているが、Grokkingはまた、特徴学習を含む遅延学習/ガウス過程(GP)現象を超越していると考えられている。 本稿では, 機能学習理論, 適応カーネルアプローチの最近の発展を, 立方多項式とモジュラ付加の教師を持つ2つの教師学生モデルに適用する。 我々は,これらのモデルの特徴学習とグロッキング特性に関する解析的予測を行い,グロッキングと相転移の理論のマッピングを示す。 我々は、Grokkingの後、DNNの状態が1次相転移後の混合相と類似していることを示す。 この混合相において、dnnは、遷移前のものと鋭く異なる教師の有用な内部表現を生成する。

A key property of deep neural networks (DNNs) is their ability to learn new features during training. This intriguing aspect of deep learning stands out most clearly in recently reported Grokking phenomena. While mainly reflected as a sudden increase in test accuracy, Grokking is also believed to be a beyond lazy-learning/Gaussian Process (GP) phenomenon involving feature learning. Here we apply a recent development in the theory of feature learning, the adaptive kernel approach, to two teacher-student models with cubic-polynomial and modular addition teachers. We provide analytical predictions on feature learning and Grokking properties of these models and demonstrate a mapping between Grokking and the theory of phase transitions. We show that after Grokking, the state of the DNN is analogous to the mixed phase following a first-order phase transition. In this mixed phase, the DNN generates useful internal representations of the teacher that are sharply distinct from those before the transition.
翻訳日:2023-10-12 19:10:19 公開日:2023-10-05
# ヒューマンチュータスタイルプログラミングフィードバックの自動化:Hint生成のためのGPT-4チュータモデルとHint検証のためのGPT-3.5学生モデルを活用する

Automating Human Tutor-Style Programming Feedback: Leveraging GPT-4 Tutor Model for Hint Generation and GPT-3.5 Student Model for Hint Validation ( http://arxiv.org/abs/2310.03780v1 )

ライセンス: Link先を確認
Tung Phung, Victor-Alexandru P\u{a}durean, Anjali Singh, Christopher Brooks, Jos\'e Cambronero, Sumit Gulwani, Adish Singla, Gustavo Soares(参考訳) 生成型AIと大規模言語モデルは、学生に対する個別のフィードバックを自動的に生成することにより、プログラミング教育の強化に大いに貢献する。 学習者型プログラミングヒントの提供における生成型aiモデルの役割について検討し,学生のバギープログラムにおけるエラー解決を支援する。 最近の研究は、様々なフィードバック生成シナリオの最先端モデルをベンチマークしているが、その全体的な品質は、人間のチューターに劣り、実際の展開の準備が整っていない。 本稿では,生成型AIモデルの限界を高品質なプログラミングヒントの提供に推し進め,新しい技術であるGPT4Hints-GPT3.5Valを開発する。 最初のステップとして、GPT-4 を ``tutor'' モデルとして利用してヒントを生成する -- 失敗するテストケースのシンボル情報とプロンプト修正を使用することで、生成品質を向上させる。 次のステップとして、より弱いモデルである GPT-3.5 を ``student'' モデルとして活用して、ヒントの品質をさらに検証します。 基礎アルゴリズムから正規表現, pandasライブラリを用いたデータ解析まで,様々な概念をカバーするpythonプログラムの3つの実世界データセットを用いて,本手法の有効性を示す。

Generative AI and large language models hold great promise in enhancing programming education by automatically generating individualized feedback for students. We investigate the role of generative AI models in providing human tutor-style programming hints to help students resolve errors in their buggy programs. Recent works have benchmarked state-of-the-art models for various feedback generation scenarios; however, their overall quality is still inferior to human tutors and not yet ready for real-world deployment. In this paper, we seek to push the limits of generative AI models toward providing high-quality programming hints and develop a novel technique, GPT4Hints-GPT3.5Val. As a first step, our technique leverages GPT-4 as a ``tutor'' model to generate hints -- it boosts the generative quality by using symbolic information of failing test cases and fixes in prompts. As a next step, our technique leverages GPT-3.5, a weaker model, as a ``student'' model to further validate the hint quality -- it performs an automatic quality validation by simulating the potential utility of providing this feedback. We show the efficacy of our technique via extensive evaluation using three real-world datasets of Python programs covering a variety of concepts ranging from basic algorithms to regular expressions and data analysis using pandas library.
翻訳日:2023-10-12 19:10:05 公開日:2023-10-05
# 回路量子電磁力学における共鳴schr\"odinger cat状態

Resonant Schr\"odinger Cat States in Circuit Quantum Electrodynamics ( http://arxiv.org/abs/2310.03854v1 )

ライセンス: Link先を確認
M. Ayyash, X. Xu, M. Mariantoni(参考訳) 本研究では、分散機構や2光子駆動、あるいは2光子散逸を必要とせず、連続駆動の量子ビットを用いた超伝導共振器におけるschr\"odinger cat状態を生成する高速方式を提案する。 我々は、クビットが駆動からオン/オフ共振しているときの分析を行う。 我々は、弱いアンハーモニッククォートにおける第3のレベルを考慮に入れた分析を拡張した。 また,強いアンハーモニックなクトリットの事例についても考察する。 本稿では, 実測実験パラメータを用いて, 量子ビットと共振器のエネルギー緩和と劣化の有無を数値シミュレーションで解析した結果と相関する。

We propose a fast scheme to generate Schr\"odinger cat states in a superconducting resonator using a continuously driven qubit without resorting to the dispersive regime, two-photon drives, or engineered two-photon dissipation. We provide analysis for when the qubit is on and off resonance from the drive. We extend our analysis to account for a third level in a weakly-anharmonic qutrit. We also discuss the case of a strongly-anharmonic qutrit. Throughout the paper, we corroborate our analytical results with numerical simulations in the presence of energy relaxation and dephasing of the qubit and resonator using realistic experimental parameters.
翻訳日:2023-10-12 19:01:16 公開日:2023-10-05
# 予測ツールとしての「隠れ」変数の役割を弱値がいかに照らすか

How weak values illuminate the role of "hidden"-variables as predictive tools ( http://arxiv.org/abs/2310.03852v1 )

ライセンス: Link先を確認
Xabier Oianguren-Asua, Albert Sol\'e, Carlos F. Destefani, Xavier Oriols(参考訳) この章では、まず、実験的な決定を可能にするプロトコルの概要を説明し、次に、それらの相関関係を量子形式論で導き、最後に、異なる量子理論や解釈に基づいてそれらの存在論的意義について議論する。 弱い値は予測力を持ち、量子システムを特徴づける新しい方法を提供すると主張する。 我々は、これは進行中のオントロジな論争にかかわらず正しいことを示します。 さらに、ボヘミア力学のようなある種の「隠れた」変数理論は、情報的弱値やその関数を特定するための非常に貴重なヒューリスティックツールであると主張する。 これらの点を説明するために、量子熱化に関するケーススタディを示す。 ボーム力学によって物理的に関連づけられた特定の弱値は、特定の系の熱化時間を明らかにする上で重要な役割を果たすが、標準期待値は熱化の開始に「盲点」である。

In this chapter we offer an introduction to weak values from a three-fold perspective: first, outlining the protocols that enable their experimental determination; next, deriving their correlates in the quantum formalism and, finally, discussing their ontological significance according to different quantum theories or interpretations. We argue that weak values have predictive power and provide novel ways to characterise quantum systems. We show that this holds true regardless of ongoing ontological disputes. And, still, we contend that certain "hidden" variables theories like Bohmian mechanics constitute very valuable heuristic tools for identifying informative weak values or functions thereof. To illustrate these points, we present a case study concerning quantum thermalization. We show that certain weak values, singled out by Bohmian mechanics as physically relevant, play a crucial role in elucidating the thermalization time of certain systems, whereas standard expectation values are "blind" to the onset of thermalization.
翻訳日:2023-10-12 19:01:02 公開日:2023-10-05
# OpenIncrement: オープンセット認識とディープクラスインクリメンタル学習のための統一フレームワーク

OpenIncrement: A Unified Framework for Open Set Recognition and Deep Class-Incremental Learning ( http://arxiv.org/abs/2310.03848v1 )

ライセンス: Link先を確認
Jiawen Xu, Claas Grohnfeldt, Odej Kao(参考訳) ディープインクリメンタル学習研究のほとんどの研究において、新しいサンプルはニューラルネットワークの再トレーニングのために事前に同定されていると仮定されている。 しかし、実際の深層分類器はしばしばこれらのサンプルを誤識別し、誤った予測を導いた。 このような誤分類はモデルの性能を低下させる。 open set recognitionのような技術は、これらの新しいサンプルを検出する手段を提供し、機械学習領域の重要な領域を表している。 本稿では,オープンな集合認識と統合された深層学習フレームワークを提案する。 提案手法は,クラスに学習した特徴を改良し,距離に基づくオープンセット認識に適用する。 実験により,本手法は最先端の漸進的学習技術より優れ,ベースライン法よりもオープンセット認識において優れた性能を示した。

In most works on deep incremental learning research, it is assumed that novel samples are pre-identified for neural network retraining. However, practical deep classifiers often misidentify these samples, leading to erroneous predictions. Such misclassifications can degrade model performance. Techniques like open set recognition offer a means to detect these novel samples, representing a significant area in the machine learning domain. In this paper, we introduce a deep class-incremental learning framework integrated with open set recognition. Our approach refines class-incrementally learned features to adapt them for distance-based open set recognition. Experimental results validate that our method outperforms state-of-the-art incremental learning techniques and exhibits superior performance in open set recognition compared to baseline methods.
翻訳日:2023-10-12 19:00:46 公開日:2023-10-05
# Euclid:ディープラーニングを用いたシミュレーション画像中の小惑星ストリークの同定

Euclid: Identification of asteroid streaks in simulated images using deep learning ( http://arxiv.org/abs/2310.03845v1 )

ライセンス: Link先を確認
M. P\"ontinen (1), M. Granvik (1 and 2), A. A. Nucita (3 and 4 and 5), L. Conversi (6 and 7), B. Altieri (7), B. Carry (8), C. M. O'Riordan (9), D. Scott (10), N. Aghanim (11), A. Amara (12), L. Amendola (13), N. Auricchio (14), M. Baldi (15 and 14 and 16), D. Bonino (17), E. Branchini (18 and 19), M. Brescia (20 and 21), S. Camera (22 and 23 and 17), V. Capobianco (17), C. Carbone (24), J. Carretero (25 and 26), M. Castellano (27), S. Cavuoti (21 and 28), A. Cimatti (29), R. Cledassou (30 and 31), G. Congedo (32), Y. Copin (33), L. Corcione (17), F. Courbin (34), M. Cropper (35), A. Da Silva (36 and 37), H. Degaudenzi (38), J. Dinis (37 and 36), F. Dubath (38), X. Dupac (7), S. Dusini (39), S. Farrens (40), S. Ferriol (33), M. Frailis (41), E. Franceschi (14), M. Fumana (24), S. Galeotta (41), B. Garilli (24), W. Gillard (42), B. Gillis (32), C. Giocoli (14 and 16), A. Grazian (43), S. V. H. Haugan (44), W. Holmes (45), F. Hormuth (46), A. Hornstrup (47 and 48), K. Jahnke (49), M. K\"ummel (50), S. Kermiche (42), A. Kiessling (45), T. Kitching (35), R. Kohley (7), M. Kunz (51), H. Kurki-Suonio (1 and 52), S. Ligori (17), P. B. Lilje (44), I. Lloro (53), E. Maiorano (14), O. Mansutti (41), O. Marggraf (54), K. Markovic (45), F. Marulli (15 and 14 and 16), R. Massey (55), E. Medinaceli (14), S. Mei (56), M. Melchior (57), Y. Mellier (58 and 59 and 60), M. Meneghetti (14 and 16), G. Meylan (34), M. Moresco (15 and 14), L. Moscardini (15 and 14 and 16), E. Munari (41), S.-M. Niemi (61), T. Nutma (62 and 63), C. Padilla (25), S. Paltani (38), F. Pasian (41), K. Pedersen (64), V. Pettorino (40), S. Pires (65), G. Polenta (66), M. Poncet (30), F. Raison (67), A. Renzi (68 and 39), J. Rhodes (45), G. Riccio (21), E. Romelli (41), M. Roncarelli (14), E. Rossetti (69), R. Saglia (50 and 67), D. Sapone (70), B. Sartoris (50 and 41), P. Schneider (54), A. Secroun (42), G. Seidel (49), S. Serrano (71 and 72), C. Sirignano (68 and 39), G. Sirri (16), L. Stanco (39), P. Tallada-Cresp\'i (73 and 26), A. N. Taylor (32), I. Tereno (36 and 74), R. Toledo-Moreo (75), F. Torradeflot (26 and 73), I. Tutusaus (76), L. Valenziano (14 and 77), T. Vassallo (41), G. Verdoes Kleijn (62), Y. Wang (78), J. Weller (50 and 67), G. Zamorani (14), J. Zoubian (42), V. Scottez (58 and 79) ((1) Department of Physics, P.O. Box 64, 00014 University of Helsinki, Finland, (2) Division of Space Technology, Lule{\aa} University of Technology, Box 848, 98128 Kiruna, Sweden, (3) Department of Mathematics and Physics E. De Giorgi, University of Salento, Via per Arnesano, CP-I93, 73100, Lecce, Italy, (4) INAF-Sezione di Lecce, c/o Dipartimento Matematica e Fisica, Via per Arnesano, 73100, Lecce, Italy, (5) INFN, Sezione di Lecce, Via per Arnesano, CP-193, 73100, Lecce, Italy, (6) European Space Agency/ESRIN, Largo Galileo Galilei 1, 00044 Frascati, Roma, Italy, (7) ESAC/ESA, Camino Bajo del Castillo, s/n., Urb. Villafranca del Castillo, 28692 Villanueva de la Ca\~nada, Madrid, Spain, (8) Universit\'e C\^ote d'Azur, Observatoire de la C\^ote d'Azur, CNRS, Laboratoire Lagrange, Bd de l'Observatoire, CS 34229, 06304 Nice cedex 4, France, (9) Max-Planck-Institut f\"ur Astrophysik, Karl-Schwarzschild Str. 1, 85741 Garching, Germany, (10) Departement of Physics and Astronomy, University of British Columbia, Vancouver, BC V6T 1Z1, Canada, (11) Universit\'e Paris-Saclay, CNRS, Institut d'astrophysique spatiale, 91405, Orsay, France, (12) Institute of Cosmology and Gravitation, University of Portsmouth, Portsmouth PO1 3FX, UK, (13) Institut f\"ur Theoretische Physik, University of Heidelberg, Philosophenweg 16, 69120 Heidelberg, Germany, (14) INAF-Osservatorio di Astrofisica e Scienza dello Spazio di Bologna, Via Piero Gobetti 93/3, 40129 Bologna, Italy, (15) Dipartimento di Fisica e Astronomia "Augusto Righi" - Alma Mater Studiorum Universit\`a di Bologna, via Piero Gobetti 93/2, 40129 Bologna, Italy, (16) INFN-Sezione di Bologna, Viale Berti Pichat 6/2, 40127 Bologna, Italy, (17) INAF-Osservatorio Astrofisico di Torino, Via Osservatorio 20, 10025 Pino Torinese (TO), Italy, (18) Dipartimento di Fisica, Universit\`a di Genova, Via Dodecaneso 33, 16146, Genova, Italy, (19) INFN-Sezione di Genova, Via Dodecaneso 33, 16146, Genova, Italy, (20) Department of Physics "E. Pancini", University Federico II, Via Cinthia 6, 80126, Napoli, Italy, (21) INAF-Osservatorio Astronomico di Capodimonte, Via Moiariello 16, 80131 Napoli, Italy, (22) Dipartimento di Fisica, Universit\`a degli Studi di Torino, Via P. Giuria 1, 10125 Torino, Italy, (23) INFN-Sezione di Torino, Via P. Giuria 1, 10125 Torino, Italy, (24) INAF-IASF Milano, Via Alfonso Corti 12, 20133 Milano, Italy, (25) Institut de F\'isica d'Altes Energies (IFAE), The Barcelona Institute of Science and Technology, Campus UAB, 08193 Bellaterra (Barcelona), Spain, (26) Port d'Informaci\'o Cient\'ifica, Campus UAB, C. Albareda s/n, 08193 Bellaterra (Barcelona), Spain, (27) INAF-Osservatorio Astronomico di Roma, Via Frascati 33, 00078 Monteporzio Catone, Italy, (28) INFN section of Naples, Via Cinthia 6, 80126, Napoli, Italy, (29) Dipartimento di Fisica e Astronomia "Augusto Righi" - Alma Mater Studiorum Universit\`a di Bologna, Viale Berti Pichat 6/2, 40127 Bologna, Italy, (30) Centre National d'Etudes Spatiales -- Centre spatial de Toulouse, 18 avenue Edouard Belin, 31401 Toulouse Cedex 9, France, (31) Institut national de physique nucl\'eaire et de physique des particules, 3 rue Michel-Ange, 75794 Paris C\'edex 16, France, (32) Institute for Astronomy, University of Edinburgh, Royal Observatory, Blackford Hill, Edinburgh EH9 3HJ, UK, (33) University of Lyon, Univ Claude Bernard Lyon 1, CNRS/IN2P3, IP2I Lyon, UMR 5822, 69622 Villeurbanne, France, (34) Institute of Physics, Laboratory of Astrophysics, Ecole Polytechnique F\'ed\'erale de Lausanne (EPFL), Observatoire de Sauverny, 1290 Versoix, Switzerland, (35) Mullard Space Science Laboratory, University College London, Holmbury St Mary, Dorking, Surrey RH5 6NT, UK, (36) Departamento de F\'isica, Faculdade de Ci\^encias, Universidade de Lisboa, Edif\'icio C8, Campo Grande, PT1749-016 Lisboa, Portugal, (37) Instituto de Astrof\'isica e Ci\^encias do Espa\c{c}o, Faculdade de Ci\^encias, Universidade de Lisboa, Campo Grande, 1749-016 Lisboa, Portugal, (38) Department of Astronomy, University of Geneva, ch. d'Ecogia 16, 1290 Versoix, Switzerland, (39) INFN-Padova, Via Marzolo 8, 35131 Padova, Italy, (40) Universit\'e Paris-Saclay, Universit\'e Paris Cit\'e, CEA, CNRS, Astrophysique, Instrumentation et Mod\'elisation Paris-Saclay, 91191 Gif-sur-Yvette, France, (41) INAF-Osservatorio Astronomico di Trieste, Via G. B. Tiepolo 11, 34143 Trieste, Italy, (42) Aix-Marseille Universit\'e, CNRS/IN2P3, CPPM, Marseille, France, (43) INAF-Osservatorio Astronomico di Padova, Via dell'Osservatorio 5, 35122 Padova, Italy, (44) Institute of Theoretical Astrophysics, University of Oslo, P.O. Box 1029 Blindern, 0315 Oslo, Norway, (45) Jet Propulsion Laboratory, California Institute of Technology, 4800 Oak Grove Drive, Pasadena, CA, 91109, USA, (46) von Hoerner \& Sulger GmbH, Schlo{\ss}Platz 8, 68723 Schwetzingen, Germany, (47) Technical University of Denmark, Elektrovej 327, 2800 Kgs. Lyngby, Denmark, (48) Cosmic Dawn Center (DAWN), Denmark, (49) Max-Planck-Institut f\"ur Astronomie, K\"onigstuhl 17, 69117 Heidelberg, Germany, (50) Universit\"ats-Sternwarte M\"unchen, Fakult\"at f\"ur Physik, Ludwig-Maximilians-Universit\"at M\"unchen, Scheinerstrasse 1, 81679 M\"unchen, Germany, (51) Universit\'e de Gen\`eve, D\'epartement de Physique Th\'eorique and Centre for Astroparticle Physics, 24 quai Ernest-Ansermet, CH-1211 Gen\`eve 4, Switzerland, (52) Helsinki Institute of Physics, Gustaf H\"allstr\"omin katu 2, University of Helsinki, Helsinki, Finland, (53) NOVA optical infrared instrumentation group at ASTRON, Oude Hoogeveensedijk 4, 7991PD, Dwingeloo, The Netherlands, (54) Universit\"at Bonn, Argelander-Institut f\"ur Astronomie, Auf dem H\"ugel 71, 53121 Bonn, Germany, (55) Department of Physics, Institute for Computational Cosmology, Durham University, South Road, DH1 3LE, UK, (56) Universit\'e Paris Cit\'e, CNRS, Astroparticule et Cosmologie, 75013 Paris, France, (57) University of Applied Sciences and Arts of Northwestern Switzerland, School of Engineering, 5210 Windisch, Switzerland, (58) Institut d'Astrophysique de Paris, 98bis Boulevard Arago, 75014, Paris, France, (59) Institut d'Astrophysique de Paris, UMR 7095, CNRS, and Sorbonne Universit\'e, 98 bis boulevard Arago, 75014 Paris, France, (60) CEA Saclay, DFR/IRFU, Service d'Astrophysique, Bat. 709, 91191 Gif-sur-Yvette, France, (61) European Space Agency/ESTEC, Keplerlaan 1, 2201 AZ Noordwijk, The Netherlands, (62) Kapteyn Astronomical Institute, University of Groningen, PO Box 800, 9700 AV Groningen, The Netherlands, (63) Leiden Observatory, Leiden University, Niels Bohrweg 2, 2333 CA Leiden, The Netherlands, (64) Department of Physics and Astronomy, University of Aarhus, Ny Munkegade 120, DK-8000 Aarhus C, Denmark, (65) Universit\'e Paris-Saclay, Universit\'e Paris Cit\'e, CEA, CNRS, AIM, 91191, Gif-sur-Yvette, France, (66) Space Science Data Center, Italian Space Agency, via del Politecnico snc, 00133 Roma, Italy, (67) Max Planck Institute for Extraterrestrial Physics, Giessenbachstr. 1, 85748 Garching, Germany, (68) Dipartimento di Fisica e Astronomia "G. Galilei", Universit\`a di Padova, Via Marzolo 8, 35131 Padova, Italy, (69) Dipartimento di Fisica e Astronomia, Universit\`a di Bologna, Via Gobetti 93/2, 40129 Bologna, Italy, (70) Departamento de F\'isica, FCFM, Universidad de Chile, Blanco Encalada 2008, Santiago, Chile, (71) Institut d'Estudis Espacials de Catalunya (IEEC), Carrer Gran Capit\'a 2-4, 08034 Barcelona, Spain, (72) Institut de Ciencies de l'Espai (IEEC-CSIC), Campus UAB, Carrer de Can Magrans, s/n Cerdanyola del Vall\'es, 08193 Barcelona, Spain, (73) Centro de Investigaciones Energ\'eticas, Medioambientales y Tecnol\'ogicas (CIEMAT), Avenida Complutense 40, 28040 Madrid, Spain, (74) Instituto de Astrof\'isica e Ci\^encias do Espa\c{c}o, Faculdade de Ci\^encias, Universidade de Lisboa, Tapada da Ajuda, 1349-018 Lisboa, Portugal, (75) Universidad Polit\'ecnica de Cartagena, Departamento de Electr\'onica y Tecnolog\'ia de Computadoras, Plaza del Hospital 1, 30202 Cartagena, Spain, (76) Institut de Recherche en Astrophysique et Plan\'etologie (IRAP), Universit\'e de Toulouse, CNRS, UPS, CNES, 14 Av. Edouard Belin, 31400 Toulouse, France, (77) INFN-Bologna, Via Irnerio 46, 40126 Bologna, Italy, (78) Infrared Processing and Analysis Center, California Institute of Technology, Pasadena, CA 91125, USA, (79) Junia, EPA department, 41 Bd Vauban, 59800 Lille, France)(参考訳) 最大150万個の小惑星がESAのユークリッド宇宙望遠鏡の画像に映し出され、ユークリッドの観測機器は、近赤外光度計とスリットレススペクトルを多バンドで提供する。 ほとんどの小惑星は画像のストリークとして現れる。 多くの画像や小惑星のため、自動検出方法が必要である。 以前はstreakdetソフトウェアに基づく非機械学習アプローチがテストされていたが、短絡や短絡には最適ではなかった。 深層学習を用いてユークリッド画像中の小惑星のストリークを検出する能力を向上させることを試みた。 シミュレーションされたユークリッド画像を用いた3ステップの機械学習パイプラインを構築し、訓練し、テストしました。 まず、畳み込みニューラルネットワーク(cnn)は、検出の完全性(リコール)を最大化するために、ストレークとその座標をフルイメージで検出する。 その後、リカレントニューラルネットワーク(RNN)がCNNによって検出された長いストリークのスニペットをマージする。 最後に,xgboost (gradient-boosted trees) をリンクして,異なるユークリッド曝露間の歪みを検出し,偽陽性数を減少させ,試料の純度(精度)を向上させた。 ディープラーニングパイプラインは完全性を超え、StreakDetソフトウェアに基づいた非機械学習パイプラインの同じレベルの純粋度に達する。 さらに、ディープラーニングパイプラインは、streakdetよりも0.15-0.5等級の小惑星を検出できる。 ディープラーニングパイプラインは、StreakDetソフトウェアと比較して検出された小惑星の数が50%増加する可能性がある。 特にストリーク座標の精度の向上と、複数の露光をまたいだ検出のリンクを含むパイプラインの最終段階の完全性の向上には、さらなる改善の余地がある。

Up to 150000 asteroids will be visible in the images of the ESA Euclid space telescope, and the instruments of Euclid offer multiband visual to near-infrared photometry and slitless spectra of these objects. Most asteroids will appear as streaks in the images. Due to the large number of images and asteroids, automated detection methods are needed. A non-machine-learning approach based on the StreakDet software was previously tested, but the results were not optimal for short and/or faint streaks. We set out to improve the capability to detect asteroid streaks in Euclid images by using deep learning. We built, trained, and tested a three-step machine-learning pipeline with simulated Euclid images. First, a convolutional neural network (CNN) detected streaks and their coordinates in full images, aiming to maximize the completeness (recall) of detections. Then, a recurrent neural network (RNN) merged snippets of long streaks detected in several parts by the CNN. Lastly, gradient-boosted trees (XGBoost) linked detected streaks between different Euclid exposures to reduce the number of false positives and improve the purity (precision) of the sample. The deep-learning pipeline surpasses the completeness and reaches a similar level of purity of a non-machine-learning pipeline based on the StreakDet software. Additionally, the deep-learning pipeline can detect asteroids 0.25-0.5 magnitudes fainter than StreakDet. The deep-learning pipeline could result in a 50% increase in the number of detected asteroids compared to the StreakDet software. There is still scope for further refinement, particularly in improving the accuracy of streak coordinates and enhancing the completeness of the final stage of the pipeline, which involves linking detections across multiple exposures.
翻訳日:2023-10-12 19:00:34 公開日:2023-10-05
# 以下:Few-shotタスクへの転送時の事前訓練モデルの特徴冗長性について

Less is More: On the Feature Redundancy of Pretrained Models When Transferring to Few-shot Tasks ( http://arxiv.org/abs/2310.03843v1 )

ライセンス: Link先を確認
Xu Luo, Difan Zou, Lianli Gao, Zenglin Xu, Jingkuan Song(参考訳) 事前訓練されたモデルを下流タスクに移すことは、事前訓練されたモデルから抽出された凍結した特徴に線形分類器を訓練するターゲットデータに対して線形探索を行うのと同じくらい簡単である。 事前学習データセットと下流データセットの間に大きなギャップが存在する可能性があるため、事前学習された特徴のすべての次元が特定の下流タスクに役立つかどうかを問うことができる。 線形探索では, 下流データが少ない場合や, 少数ショットの場合, 事前学習した機能は極めて冗長であることを示す。 5-way 1-shotタスクのようないくつかのケースでは、最も重要な機能次元の1\%しか使用せず、完全な表現を使って達成したパフォーマンスを回復できる。 興味深いことに、ほとんどの次元は数ショット設定でのみ冗長であり、ショットの数が増えると徐々に有用になる。 本研究では, この現象を理論的に理解し, クラスセントロイド間の高分散と小距離の寸法が, 数ショット条件下での分類結果を著しく乱す要因となることを示す。 この問題を解決するために,少数のトレーニングサンプルを用いて,冗長な特徴を正確に識別することは困難であるが,その代わりに,推定特徴量に基づいてソフトマスクを用いて特徴量を調整することができる。 本手法は,様々な事前学習モデルおよび下流データセット間でのショット転送性能を向上できることを示す。

Transferring a pretrained model to a downstream task can be as easy as conducting linear probing with target data, that is, training a linear classifier upon frozen features extracted from the pretrained model. As there may exist significant gaps between pretraining and downstream datasets, one may ask whether all dimensions of the pretrained features are useful for a given downstream task. We show that, for linear probing, the pretrained features can be extremely redundant when the downstream data is scarce, or few-shot. For some cases such as 5-way 1-shot tasks, using only 1\% of the most important feature dimensions is able to recover the performance achieved by using the full representation. Interestingly, most dimensions are redundant only under few-shot settings and gradually become useful when the number of shots increases, suggesting that feature redundancy may be the key to characterizing the "few-shot" nature of few-shot transfer problems. We give a theoretical understanding of this phenomenon and show how dimensions with high variance and small distance between class centroids can serve as confounding factors that severely disturb classification results under few-shot settings. As an attempt at solving this problem, we find that the redundant features are difficult to identify accurately with a small number of training samples, but we can instead adjust feature magnitude with a soft mask based on estimated feature importance. We show that this method can generally improve few-shot transfer performance across various pretrained models and downstream datasets.
翻訳日:2023-10-12 19:00:06 公開日:2023-10-05
# オントロジーマッチングのための文脈化構造自己教師付き学習

Contextualized Structural Self-supervised Learning for Ontology Matching ( http://arxiv.org/abs/2310.03840v1 )

ライセンス: Link先を確認
Zhu Wang(参考訳) オントロジーマッチング(OM)は、2つ以上の知識グラフ(KG)内の概念間の意味的関係を識別し、様々な情報源からKGを統合する上で重要なステップとなる。 近年の深層omモデルの進歩は、トランスフォーマーベースの言語モデルのパワーと知識グラフ埋め込みの利点を生かしている。 それでもこれらのOMモデルは、参照アライメントの欠如、ランタイムレイテンシ、エンドツーエンドフレームワーク内で探索されていない異なるグラフ構造など、永続的な課題に直面している。 本研究では,LaKERMapと呼ばれる入力オントロジーを持つ自己教師型学習OMフレームワークを提案する。 この枠組みは暗黙の知識をトランスフォーマーに統合することで概念の文脈的・構造的情報を活用する。 具体的には、異なる学習目標を用いて、局所的およびグローバルな相互作用を包含する複数の構造的コンテキストを捉えることを目的とする。 提案手法を評価するために,Bio-MLデータセットとタスクを利用する。 我々の革新的なアプローチによる発見は、LaKERMapがアライメント品質と推論時間で最先端のシステムを上回っていることを示している。 私たちのモデルとコードはこちらで利用可能です。

Ontology matching (OM) entails the identification of semantic relationships between concepts within two or more knowledge graphs (KGs) and serves as a critical step in integrating KGs from various sources. Recent advancements in deep OM models have harnessed the power of transformer-based language models and the advantages of knowledge graph embedding. Nevertheless, these OM models still face persistent challenges, such as a lack of reference alignments, runtime latency, and unexplored different graph structures within an end-to-end framework. In this study, we introduce a novel self-supervised learning OM framework with input ontologies, called LaKERMap. This framework capitalizes on the contextual and structural information of concepts by integrating implicit knowledge into transformers. Specifically, we aim to capture multiple structural contexts, encompassing both local and global interactions, by employing distinct training objectives. To assess our methods, we utilize the Bio-ML datasets and tasks. The findings from our innovative approach reveal that LaKERMap surpasses state-of-the-art systems in terms of alignment quality and inference time. Our models and codes are available here: https://github.com/ellenzhuwang/lakermap.
翻訳日:2023-10-12 18:59:39 公開日:2023-10-05
# chameleon: アダプティブ中毒によるラベルのみのメンバシップリークの増加

Chameleon: Increasing Label-Only Membership Leakage with Adaptive Poisoning ( http://arxiv.org/abs/2310.03838v1 )

ライセンス: Link先を確認
Harsh Chaudhari, Giorgio Severi, Alina Oprea, Jonathan Ullman(参考訳) 多くの重要なアプリケーションにおける機械学習(ML)の統合は、モデルトレーニングのためにデータセットを提供する個人に対して、さまざまなプライバシー上の懸念をもたらす。 そのようなプライバシリスクの1つは、モデルのトレーニングデータセットに特定のデータサンプルが含まれているかどうかを攻撃者が判断するメンバーシップ推論(MI)である。 現在の最先端のmi攻撃は、モデルが予測した信頼度スコアにアクセスしてメンバーシップ推論を成功させ、データ中毒を利用してその効果をさらに高める。 本研究では,クエリしたサンプルに予測されたラベルのみを提供するという,より探索的で現実的なラベルのみの設定に注目する。 既存のラベルのみのMI攻撃は,低偽陽性率(FPR)体制の加入を推測する上で効果がないことを示す。 この課題に対処するために,新しい適応型データ中毒戦略と効率的なクエリ選択手法を活用し,既存のラベルオンリー攻撃,特に低fpr攻撃よりも高い精度でメンバシップ推定を実現する新しい攻撃用chameleonを提案する。

The integration of machine learning (ML) in numerous critical applications introduces a range of privacy concerns for individuals who provide their datasets for model training. One such privacy risk is Membership Inference (MI), in which an attacker seeks to determine whether a particular data sample was included in the training dataset of a model. Current state-of-the-art MI attacks capitalize on access to the model's predicted confidence scores to successfully perform membership inference, and employ data poisoning to further enhance their effectiveness. In this work, we focus on the less explored and more realistic label-only setting, where the model provides only the predicted label on a queried sample. We show that existing label-only MI attacks are ineffective at inferring membership in the low False Positive Rate (FPR) regime. To address this challenge, we propose a new attack Chameleon that leverages a novel adaptive data poisoning strategy and an efficient query selection method to achieve significantly more accurate membership inference than existing label-only attacks, especially at low FPRs.
翻訳日:2023-10-12 18:59:19 公開日:2023-10-05
# PU学習のためのディエンタングリング表現の学習

Learning A Disentangling Representation For PU Learning ( http://arxiv.org/abs/2310.03833v1 )

ライセンス: Link先を確認
Omar Zamzam, Haleh Akrami, Mahdi Soltanolkotabi, Richard Leahy(参考訳) 本稿では,pu学習と呼ばれる正・無ラベルデータに対して,二進分類器(正・負)を学習する問題に対処する。 クラスタリング,アウト・オブ・ディストリビューション検出,あるいは正密度推定といった初歩的な手法は,低次元環境での問題解決に有効であるが,データ分布の複雑さの増加により,その有効性は徐々に悪化する。 本稿では,ラベルのないデータを単純なクラスタリング手法で容易に識別できる2つの(正負の)クラスタに投影できるロス関数を用いて,ニューラルネットワークに基づくデータ表現を学習し,低次元設定で観測された現象を効果的にエミュレートする。 本研究では,学習表現のベクトル量子化手法を適用し,学習未ラベルデータクラスタ間の分離を増幅する。 提案手法の性能向上を示すシミュレーションPUデータについて, 現状の手法と比較して実験を行った。 また、2つのクラスタベースのアプローチとアルゴリズムの選択に関する理論的正当化も提供します。

In this paper, we address the problem of learning a binary (positive vs. negative) classifier given Positive and Unlabeled data commonly referred to as PU learning. Although rudimentary techniques like clustering, out-of-distribution detection, or positive density estimation can be used to solve the problem in low-dimensional settings, their efficacy progressively deteriorates with higher dimensions due to the increasing complexities in the data distribution. In this paper we propose to learn a neural network-based data representation using a loss function that can be used to project the unlabeled data into two (positive and negative) clusters that can be easily identified using simple clustering techniques, effectively emulating the phenomenon observed in low-dimensional settings. We adopt a vector quantization technique for the learned representations to amplify the separation between the learned unlabeled data clusters. We conduct experiments on simulated PU data that demonstrate the improved performance of our proposed method compared to the current state-of-the-art approaches. We also provide some theoretical justification for our two cluster-based approach and our algorithmic choices.
翻訳日:2023-10-12 18:59:00 公開日:2023-10-05
# マルチモーダルディープフェイク検出のための視聴覚機能の統合

Integrating Audio-Visual Features for Multimodal Deepfake Detection ( http://arxiv.org/abs/2310.03827v1 )

ライセンス: Link先を確認
Sneha Muppalla, Shan Jia, Siwei Lyu(参考訳) Deepfakesは、画像やビデオがデジタル修正されたAI生成メディアである。 ディープフェイク技術の進歩は、プライバシとセキュリティの問題につながった。 ほとんどのディープフェイク検出技術は単一モードの検出に依存している。 既存の視聴覚検出法は、単一のモダリティに基づく解析のそれを超えるとは限らない。 そこで本稿では,ディープフェイク識別とバイナリ分類を融合した,ディープフェイク検出のための音声ビジュアルベース手法を提案する。 サンプルは,各単一モダリティに特有のラベルを組み合わせることで,4つのタイプに分類する。 この方法は、ドメイン内およびクロスドメインテストにおける検出を強化する。

Deepfakes are AI-generated media in which an image or video has been digitally modified. The advancements made in deepfake technology have led to privacy and security issues. Most deepfake detection techniques rely on the detection of a single modality. Existing methods for audio-visual detection do not always surpass that of the analysis based on single modalities. Therefore, this paper proposes an audio-visual-based method for deepfake detection, which integrates fine-grained deepfake identification with binary classification. We categorize the samples into four types by combining labels specific to each single modality. This method enhances the detection under intra-domain and cross-domain testing.
翻訳日:2023-10-12 18:58:43 公開日:2023-10-05
# ECAvg: 平均ウェイトを用いたエッジクラウド協調学習アプローチ

ECAvg: An Edge-Cloud Collaborative Learning Approach using Averaged Weights ( http://arxiv.org/abs/2310.03823v1 )

ライセンス: Link先を確認
Atah Nuh Mih, Hung Cao, Asfia Kawnine, Monica Wachowicz(参考訳) エッジデバイスをクラウドと併用することで、両クラスのデバイス間での協調的な関係が、他方の欠点を補完する。 リソースに制約のあるエッジデバイスは、計算集約的なタスクをサーバにオフロードすることで、サーバが提供する豊富なコンピューティングパワーを享受することができる。 一方、エッジデバイスはデータソースに近接してデータに対する計算集約性の低いタスクを実行することができる。 本稿では,エッジデバイスがそれぞれのデータセット上でローカルモデルを事前訓練し,それをサーバに転送して微調整を行う,ECAvgと呼ばれる協調エッジクラウドパラダイムを提案する。 サーバは、トレーニング済みの重みをグローバルモデルに平均化し、様々なエッジデバイスの組み合わせデータに基づいて微調整する。 ローカル(エッジ)モデルは、グローバル(サーバ)モデルの重みで更新される。 我々は,MobileNetV2 を用いた CIFAR-10 分類タスク,ResNet50 を用いた CIFAR-100 分類タスク,ニューラルネットワークによる MNIST 分類を実装した。 我々は,CIFAR-10とCIFAR-100の分類タスクにおいて,平均重み付きサーバモデルの性能向上と,モデル更新後のエッジモデルの性能向上を観察した。 MNIST分類では、平均重み付けにより、負の転送学習によるサーバモデルとエッジモデルの両方のパフォーマンスが低下した。 実験結果から,単純なニューラルネットワークではなく,MobileNetV2やResNet50のようなディープニューラルネットワークに実装した場合に,我々のアプローチが成功すると結論した。

The use of edge devices together with cloud provides a collaborative relationship between both classes of devices where one complements the shortcomings of the other. Resource-constraint edge devices can benefit from the abundant computing power provided by servers by offloading computationally intensive tasks to the server. Meanwhile, edge devices can leverage their close proximity to the data source to perform less computationally intensive tasks on the data. In this paper, we propose a collaborative edge-cloud paradigm called ECAvg in which edge devices pre-train local models on their respective datasets and transfer the models to the server for fine-tuning. The server averages the pre-trained weights into a global model, which is fine-tuned on the combined data from the various edge devices. The local (edge) models are then updated with the weights of the global (server) model. We implement a CIFAR-10 classification task using MobileNetV2, a CIFAR-100 classification task using ResNet50, and an MNIST classification using a neural network with a single hidden layer. We observed performance improvement in the CIFAR-10 and CIFAR-100 classification tasks using our approach, where performance improved on the server model with averaged weights and the edge models had a better performance after model update. On the MNIST classification, averaging weights resulted in a drop in performance on both the server and edge models due to negative transfer learning. From the experiment results, we conclude that our approach is successful when implemented on deep neural networks such as MobileNetV2 and ResNet50 instead of simple neural networks.
翻訳日:2023-10-12 18:58:35 公開日:2023-10-05
# 変分バリセントリック座標

Variational Barycentric Coordinates ( http://arxiv.org/abs/2310.03861v1 )

ライセンス: Link先を確認
Ana Dodik, Oded Stein, Vincent Sitzmann, Justin Solomon(参考訳) そこで本研究では,既存のモデルに比較して付加的な制御を提供する一般化バリュセントリック座標を最適化する変分法を提案する。 事前の作業は、目的関数の選択を制限するために、メッシュやクローズドフォームの式を使って、バリセントリックな座標を表す。 対照的に、我々は、ポリトープの内部の任意の座標を、ニューラルネットワークを用いてバリ中心座標にマッピングする連続関数を直接パラメータ化する。 この定式化は、バリ中心座標の理論的特徴付けによって実現され、有効な座標の関数クラス全体をパラメータ化する神経場を構築することができる。 我々は,複数の滑らかさと変形認識エネルギーを含む様々な目的関数を用いて,モデルの柔軟性を実証すると同時に,不連続神経場における全変動などの対象を数学的に適切に測定し最小化する手法を提案する。 我々は,現実的な加速戦略を提供し,アルゴリズムの徹底的な検証を行い,いくつかの応用例を示す。

We propose a variational technique to optimize for generalized barycentric coordinates that offers additional control compared to existing models. Prior work represents barycentric coordinates using meshes or closed-form formulae, in practice limiting the choice of objective function. In contrast, we directly parameterize the continuous function that maps any coordinate in a polytope's interior to its barycentric coordinates using a neural field. This formulation is enabled by our theoretical characterization of barycentric coordinates, which allows us to construct neural fields that parameterize the entire function class of valid coordinates. We demonstrate the flexibility of our model using a variety of objective functions, including multiple smoothness and deformation-aware energies; as a side contribution, we also present mathematically-justified means of measuring and minimizing objectives like total variation on discontinuous neural fields. We offer a practical acceleration strategy, present a thorough validation of our algorithm, and demonstrate several applications.
翻訳日:2023-10-12 18:49:29 公開日:2023-10-05
# 同時次元削減:マルチモーダル表現学習のためのデータ効率的なアプローチ

Simultaneous Dimensionality Reduction: A Data Efficient Approach for Multimodal Representations Learning ( http://arxiv.org/abs/2310.04458v1 )

ライセンス: Link先を確認
Eslam Abdelaleem, Ahmed Roman, K. Michael Martini, Ilya Nemenman(参考訳) 本稿では,次元還元(DR)へのアプローチとして,独立次元化(IDR)と同時次元化(SDR)の2種類について検討する。 主成分分析がパラダイム的な例であるIDR法では、各モダリティは独立に圧縮され、可能な限り各モダリティに多くのばらつきを保とうとする。 対照的に、sdrでは、減った記述間の共変を最大化するために同時にモダリティを圧縮し、個々の変動がどれだけ保存されているかに注意を払わない。 パラダイマティックな例としては、部分最小正方形と正準相関解析がある。 これらのdrメソッドは統計学の定番ですが、相対的な正確さとデータセットのサイズ要件はよく分かっていません。 本稿では,既知の分散構造と共分散構造を持つマルチモーダルデータを合成する生成線形モデルを提案する。 本研究では,データ中のサンプル数,信号対雑音比,変動信号数および共変信号数の関数として,共分散構造の再構成精度を評価する。 数値実験により,線形sdr法が線形idr法を一貫して上回っており,より少ないデータセットでより高品質で簡潔な縮小次元表現が得られることを示す。 顕著なことに、正規化されたCAAは、サンプルの数がデータ次元よりもはるかに小さい場合でも、低次元の弱い共変構造を識別することができる。 我々の研究は、SDRがデータの共変パターンをより効果的に検出できるという文献における過去の観察を裏付け、説明します。 これらの結果は,共変量検出においては,変動の保存よりも,実世界データ解析においてsdrよりもsdrが好ましいことを示唆する。

We explore two primary classes of approaches to dimensionality reduction (DR): Independent Dimensionality Reduction (IDR) and Simultaneous Dimensionality Reduction (SDR). In IDR methods, of which Principal Components Analysis is a paradigmatic example, each modality is compressed independently, striving to retain as much variation within each modality as possible. In contrast, in SDR, one simultaneously compresses the modalities to maximize the covariation between the reduced descriptions while paying less attention to how much individual variation is preserved. Paradigmatic examples include Partial Least Squares and Canonical Correlations Analysis. Even though these DR methods are a staple of statistics, their relative accuracy and data set size requirements are poorly understood. We introduce a generative linear model to synthesize multimodal data with known variance and covariance structures to examine these questions. We assess the accuracy of the reconstruction of the covariance structures as a function of the number of samples, signal-to-noise ratio, and the number of varying and covarying signals in the data. Using numerical experiments, we demonstrate that linear SDR methods consistently outperform linear IDR methods and yield higher-quality, more succinct reduced-dimensional representations with smaller datasets. Remarkably, regularized CCA can identify low-dimensional weak covarying structures even when the number of samples is much smaller than the dimensionality of the data, which is a regime challenging for all dimensionality reduction methods. Our work corroborates and explains previous observations in the literature that SDR can be more effective in detecting covariation patterns in data. These findings suggest that SDR should be preferred to IDR in real-world data analysis when detecting covariation is more important than preserving variation.
翻訳日:2023-10-12 18:41:29 公開日:2023-10-05
# 二元化ニューラルネットワークと混合整数プログラムのモデリング

Taming Binarized Neural Networks and Mixed-Integer Programs ( http://arxiv.org/abs/2310.04469v1 )

ライセンス: Link先を確認
Johannes Aspman, Georgios Korpas, Jakub Marecek(参考訳) バイナリ化されたニューラルネットワークには、特にその説明可能性のために、近年多くの関心が寄せられている。 同時に、バックプロパゲーションのような自動微分アルゴリズムは二項化ニューラルネットワークでは失敗し、適用性が制限される。 二元化ニューラルネットワークを混合整数プログラムの副加法双対として訓練する問題を再構成することにより、二元化ニューラルネットワークが多元化表現を許容することを示す。 これにより、両立型ニューラルネットワークの文脈でバックプロパゲーションを実際に実装する可能性を提供する暗黙的な分化のために、bolteなどのフレームワークを使うことができる。 このアプローチは、AIなどに対する象徴的なアプローチで見られるように、二項化ニューラルネットワークのトレーニングを超えて、より広範な混合整数プログラムに使用することもできる。

There has been a great deal of recent interest in binarized neural networks, especially because of their explainability. At the same time, automatic differentiation algorithms such as backpropagation fail for binarized neural networks, which limits their applicability. By reformulating the problem of training binarized neural networks as a subadditive dual of a mixed-integer program, we show that binarized neural networks admit a tame representation. This, in turn, makes it possible to use the framework of Bolte et al. for implicit differentiation, which offers the possibility for practical implementation of backpropagation in the context of binarized neural networks. This approach could also be used for a broader class of mixed-integer programs, beyond the training of binarized neural networks, as encountered in symbolic approaches to AI and beyond.
翻訳日:2023-10-12 18:32:14 公開日:2023-10-05
# 現実医療における電子健康記録からのテキスト再アクションのためのトランスフォーマーの検証

Validating transformers for redaction of text from electronic health records in real-world healthcare ( http://arxiv.org/abs/2310.04468v1 )

ライセンス: Link先を確認
Zeljko Kraljevic, Anthony Shek, Joshua Au Yeung, Ewart Jonathan Sheldon, Mohammad Al-Agil, Haris Shuaib, Xi Bai, Kawsar Noor, Anoop D. Shah, Richard Dobson, James Teo(参考訳) 医療記録における患者のプライバシ保護は最優先事項であり、リアクションはテキストで直接特定可能な情報を隠蔽するための一般的な方法である。 規則に基づく手法は広く用いられてきたが、その精度は低く、テキストの過度な冗長性を引き起こし、非標準的あるいは非慣習的な個人の健康情報構造に適応できないことが多い。 深層学習技術は有望な解決策として現れてきたが、患者の記録構造や言語の違いにより、現実の環境においてそれらを実装することは困難である。 本研究では, トランスフォーマーベースモデルであるAnonCATと, 実世界の医療分野における特定モデルの展開方法に関する青写真を紹介する。 AnonCATは、異なる電子健康記録システムと3116の文書を持つ3つの英国病院の実際の文書を手動で修正するプロセスを通じて訓練された。 このモデルは3つの病院すべてで0.99, 0.99, 0.96のリコールで高い性能を達成した。 本研究は,グローバル医療データにおけるレッドアクションの効率と正確性を向上させるための深層学習手法の可能性を示し,これらのモデルを使用するだけでなく,そのアルゴリズムの性能を継続的に微調整・監査し,実環境における継続効果を確保するワークフロー構築の重要性を強調した。 このアプローチは、微調整とローカライゼーションを通じて、非識別アルゴリズムを現実的に使用するための青写真を提供し、チュートリアルと一緒にコードはGitHubで入手できる(https://github.com/CogStack/MedCAT)。

Protecting patient privacy in healthcare records is a top priority, and redaction is a commonly used method for obscuring directly identifiable information in text. Rule-based methods have been widely used, but their precision is often low causing over-redaction of text and frequently not being adaptable enough for non-standardised or unconventional structures of personal health information. Deep learning techniques have emerged as a promising solution, but implementing them in real-world environments poses challenges due to the differences in patient record structure and language across different departments, hospitals, and countries. In this study, we present AnonCAT, a transformer-based model and a blueprint on how deidentification models can be deployed in real-world healthcare. AnonCAT was trained through a process involving manually annotated redactions of real-world documents from three UK hospitals with different electronic health record systems and 3116 documents. The model achieved high performance in all three hospitals with a Recall of 0.99, 0.99 and 0.96. Our findings demonstrate the potential of deep learning techniques for improving the efficiency and accuracy of redaction in global healthcare data and highlight the importance of building workflows which not just use these models but are also able to continually fine-tune and audit the performance of these algorithms to ensure continuing effectiveness in real-world settings. This approach provides a blueprint for the real-world use of de-identifying algorithms through fine-tuning and localisation, the code together with tutorials is available on GitHub (https://github.com/CogStack/MedCAT).
翻訳日:2023-10-12 18:32:00 公開日:2023-10-05
# 生涯学習型AI加速器の設計原理

Design Principles for Lifelong Learning AI Accelerators ( http://arxiv.org/abs/2310.04467v1 )

ライセンス: Link先を確認
Dhireesha Kudithipudi, Anurag Daram, Abdullah M. Zyarah, Fatima Tuz Zohora, James B. Aimone, Angel Yanguas-Gil, Nicholas Soures, Emre Neftci, Matthew Mattina, Vincenzo Lomonaco, Clare D. Thiem, Benjamin Epstein(参考訳) 生涯学習 - 生涯にわたって学習するエージェントの能力 - は、生物学的学習システムの目印であり、人工知能(AI)における中心的な課題である。 生涯学習アルゴリズムの開発は、さまざまな新しいaiアプリケーションにつながる可能性があるが、これはまた、厳格なサイズ、重さ、電力制約のあるエッジプラットフォームにモデルがデプロイされる場合、適切なハードウェアアクセラレータの開発も必要となる。 本稿では,非テザリング環境での展開を目的とした,生涯学習型AIアクセラレータの設計について検討する。 我々は、生涯学習アクセラレーターにとって望ましい重要な能力を特定し、そうしたアクセラレーターを評価するための指標を強調する。 そして、さまざまな新興技術が果たす役割を考慮して、現在のエッジAIアクセラレータについて議論し、生涯学習アクセラレータの将来設計について検討する。

Lifelong learning - an agent's ability to learn throughout its lifetime - is a hallmark of biological learning systems and a central challenge for artificial intelligence (AI). The development of lifelong learning algorithms could lead to a range of novel AI applications, but this will also require the development of appropriate hardware accelerators, particularly if the models are to be deployed on edge platforms, which have strict size, weight, and power constraints. Here, we explore the design of lifelong learning AI accelerators that are intended for deployment in untethered environments. We identify key desirable capabilities for lifelong learning accelerators and highlight metrics to evaluate such accelerators. We then discuss current edge AI accelerators and explore the future design of lifelong learning accelerators, considering the role that different emerging technologies could play.
翻訳日:2023-10-12 18:31:34 公開日:2023-10-05
# HartleyMHA:高分解能・高効率3次元画像分割のための周波数領域における自己注意

HartleyMHA: Self-Attention in Frequency Domain for Resolution-Robust and Parameter-Efficient 3D Image Segmentation ( http://arxiv.org/abs/2310.04466v1 )

ライセンス: Link先を確認
Ken C. L. Wong, Hongzhi Wang, Tanveer Syeda-Mahmood(参考訳) トランスフォーマーの導入により、将来性のある画像分割のための異なる注意ベースモデルが提案されている。 セルフアテンションは長距離の依存関係をキャプチャできるが、特に3dでは画像サイズが2倍の複雑さに苦しむ。 トレーニング中のメモリ外エラーを避けるため、3dセグメンテーションには入力サイズ低減が必要となるが、トレーニングされたモデルが元の画像サイズに適用される場合、精度は最適ではない。 フーリエニューラル演算子(FNO)にインスパイアされたこの制限に対処するため、効率的な自己注意で画像解像度のトレーニングに頑健なHartleyMHAモデルを導入する。 FNOは偏微分方程式の関数間の写像を学習するための深層学習フレームワークであり、ゼロショット超解と大域受容場の魅力的な性質を持つ。 共用パラメータ付きハートレー変換を用いてfnoを修正し,モデルサイズを桁違いに削減し,より表現力の高い高次特徴の組合せに対して,周波数領域に自己照準を適用可能とした。 BraTS'19データセットでテストすると、モデルパラメータの1%未満の他のテストモデルよりも、画像解像度のトレーニングに優れた堅牢性を達成した。

With the introduction of Transformers, different attention-based models have been proposed for image segmentation with promising results. Although self-attention allows capturing of long-range dependencies, it suffers from a quadratic complexity in the image size especially in 3D. To avoid the out-of-memory error during training, input size reduction is usually required for 3D segmentation, but the accuracy can be suboptimal when the trained models are applied on the original image size. To address this limitation, inspired by the Fourier neural operator (FNO), we introduce the HartleyMHA model which is robust to training image resolution with efficient self-attention. FNO is a deep learning framework for learning mappings between functions in partial differential equations, which has the appealing properties of zero-shot super-resolution and global receptive field. We modify the FNO by using the Hartley transform with shared parameters to reduce the model size by orders of magnitude, and this allows us to further apply self-attention in the frequency domain for more expressive high-order feature combination with improved efficiency. When tested on the BraTS'19 dataset, it achieved superior robustness to training image resolution than other tested models with less than 1% of their model parameters.
翻訳日:2023-10-12 18:31:22 公開日:2023-10-05
# 反ユダヤ主義はどれほど有毒か? オンラインコンテンツにおける自動毒性スコアリングの可能性と限界

How toxic is antisemitism? Potentials and limitations of automated toxicity scoring for antisemitic online content ( http://arxiv.org/abs/2310.04465v1 )

ライセンス: Link先を確認
Helena Mihaljevi\'c and Elisabeth Steffen(参考訳) GoogleとJigsawによる人気のテキスト毒性評価サービスであるAspective APIは、コンテンツモデレーション、監視、ソーシャルメディア研究など、いくつかのアプリケーション領域で広く採用されている。 我々は、その可能性と、毒性傘の用語に該当する反ユダヤ的オンラインコンテンツの検出の限界について検討する。 telegramとtwitterの約3600の投稿からなる手作業でアノテートされたドイツ語のデータセットを用いて、有害な反ユダヤ主義的な文章の格付けと、反ユダヤ主義の異なるサブフォームとテキストに表されるスタンスに対する毒性スコアの違いについて検討する。 基本レベルでは、パースペクティブAPIは、反ユダヤ主義的内容が有毒であると認識するが、非明示的な反ユダヤ主義とそれに対する批判的な姿勢をとるテキストの形式に関して、重大な弱点を示す。 さらに,単純なテキスト操作を用いることで,広範に散在するアンチセミティックコードを使用することで,APIのスコアを大幅に低減し,サービスの結果に基づいてコンテンツモデレーションを回避できることが実証された。

The Perspective API, a popular text toxicity assessment service by Google and Jigsaw, has found wide adoption in several application areas, notably content moderation, monitoring, and social media research. We examine its potentials and limitations for the detection of antisemitic online content that, by definition, falls under the toxicity umbrella term. Using a manually annotated German-language dataset comprising around 3,600 posts from Telegram and Twitter, we explore as how toxic antisemitic texts are rated and how the toxicity scores differ regarding different subforms of antisemitism and the stance expressed in the texts. We show that, on a basic level, Perspective API recognizes antisemitic content as toxic, but shows critical weaknesses with respect to non-explicit forms of antisemitism and texts taking a critical stance towards it. Furthermore, using simple text manipulations, we demonstrate that the use of widespread antisemitic codes can substantially reduce API scores, making it rather easy to bypass content moderation based on the service's results.
翻訳日:2023-10-12 18:30:58 公開日:2023-10-05
# 2段階の拡散と多重特性の最適化:望ましくない性質を持つ分子の生成への新しいアプローチ

Diffusing on Two Levels and Optimizing for Multiple Properties: A Novel Approach to Generating Molecules with Desirable Properties ( http://arxiv.org/abs/2310.04463v1 )

ライセンス: Link先を確認
Siyuan Guo and Jihong Guan and Shuigeng Zhou(参考訳) 過去10年間、人工知能による薬物の設計と発見はホットな研究のトピックであり、GANベースのモデルやVAEベースのモデルから最新の拡散ベースのモデルまで、生成モデルによる分子生成が重要な分岐である。 しかし、既存のモデルのほとんどは生成した分子の妥当性や一意性といった基本的な性質のみを追求しており、いくつかのモデルでは1つの重要な分子特性(例えばqedやplogp)を明示的に最適化している。 本稿では,複数の革新的な設計により拡散モデルフレームワークを拡張する,望ましい性質を持つ分子を生成する新しい手法を提案する。 新規性は2倍である。 一方、分子の構造は複雑で多様であり、分子の性質は通常いくつかのサブ構造(例えば、薬理泳動)によって決定されるため、逆拡散過程において混合ガウス分布が得られた分子と分子フラグメントの2つの構造レベルで拡散することを提案する。 望ましい分子フラグメントを得るために,新しい電子効果に基づくフラグメンテーション法を開発した。 一方,拡散モデルフレームワークでは,複数の分子特性を明示的に最適化する方法が2つ紹介されている。 まず, 薬物分子は化学的に有効でなければならないため, エネルギー誘導関数により分子の妥当性を最適化する。 第2に, 薬物分子は様々な性質において望ましいため, 複数の分子特性を同時に最適化する多目的機構を用いる。 2つのベンチマークデータセット QM9 と ZINC250k による大規模な実験により、提案手法により生成された分子は、現在のSOTAモデルで生成された分子よりも優れた妥当性、特異性、新規性、Fr\'echet ChemNet Distance (FCD)、QED、PlogP を有することが示された。

In the past decade, Artificial Intelligence driven drug design and discovery has been a hot research topic, where an important branch is molecule generation by generative models, from GAN-based models and VAE-based models to the latest diffusion-based models. However, most existing models pursue only the basic properties like validity and uniqueness of the generated molecules, a few go further to explicitly optimize one single important molecular property (e.g. QED or PlogP), which makes most generated molecules little usefulness in practice. In this paper, we present a novel approach to generating molecules with desirable properties, which expands the diffusion model framework with multiple innovative designs. The novelty is two-fold. On the one hand, considering that the structures of molecules are complex and diverse, and molecular properties are usually determined by some substructures (e.g. pharmacophores), we propose to perform diffusion on two structural levels: molecules and molecular fragments respectively, with which a mixed Gaussian distribution is obtained for the reverse diffusion process. To get desirable molecular fragments, we develop a novel electronic effect based fragmentation method. On the other hand, we introduce two ways to explicitly optimize multiple molecular properties under the diffusion model framework. First, as potential drug molecules must be chemically valid, we optimize molecular validity by an energy-guidance function. Second, since potential drug molecules should be desirable in various properties, we employ a multi-objective mechanism to optimize multiple molecular properties simultaneously. Extensive experiments with two benchmark datasets QM9 and ZINC250k show that the molecules generated by our proposed method have better validity, uniqueness, novelty, Fr\'echet ChemNet Distance (FCD), QED, and PlogP than those generated by current SOTA models.
翻訳日:2023-10-12 18:30:37 公開日:2023-10-05
# 隠れた動的プロセスの発見のためのAIベースの自動能動学習:光顕微鏡のユースケース

AI-based automated active learning for discovery of hidden dynamic processes: A use case in light microscopy ( http://arxiv.org/abs/2310.04461v1 )

ライセンス: Link先を確認
Nils Friederich, Angelo Yamachui Sitcheu, Oliver Neumann, S\"uheyla Ero\u{g}lu-Kay{\i}k\c{c}{\i}, Roshan Prizak, Lennart Hilbert, Ralf Mikut(参考訳) バイオメディカル環境では、動的プロセスを評価する実験は主に人間の獲得監督者によって行われる。 このような実験の現代の実装は、しばしば数百の並列、非同期プロセスから関連する事象の最大数を取得することを目的としている。 高スループット実験では、与えられたプロセスの1つまたは数つのインスタンスしか同時に観測できないため、効率的な獲得パラダイムを計画し実行するための戦略が不可欠である。 この問題に対処するため,本稿では2つの新しい手法を提案する。 最初の方法であるEncoded Dynamic Process (EDP)は、人工知能(AI)ベースの動的プロセスであり、単一の静止画像から擬似時間値の予測を可能にする。 第2に、動的プロセスのための実験自動化パイプライン(EAPDP)を用いて、EDPから抽出した知識を使用して、実際に動的プロセスのための生体実験における取得を効率的にスケジュールする機械学習操作(MLOps)ベースのパイプラインを提案する。 最初の実験では、事前訓練されたステートオフ・ザ・アート(SOTA)オブジェクトセグメンテーション手法であるContour Proposal Networks(CPN)がEAPDPのモジュールとして確実に機能し、取得した3次元画像スタックからEDPの関連オブジェクトを抽出することを示した。

In the biomedical environment, experiments assessing dynamic processes are primarily performed by a human acquisition supervisor. Contemporary implementations of such experiments frequently aim to acquire a maximum number of relevant events from sometimes several hundred parallel, non-synchronous processes. Since in some high-throughput experiments, only one or a few instances of a given process can be observed simultaneously, a strategy for planning and executing an efficient acquisition paradigm is essential. To address this problem, we present two new methods in this paper. The first method, Encoded Dynamic Process (EDP), is Artificial Intelligence (AI)-based and represents dynamic processes so as to allow prediction of pseudo-time values from single still images. Second, with Experiment Automation Pipeline for Dynamic Processes (EAPDP), we present a Machine Learning Operations (MLOps)-based pipeline that uses the extracted knowledge from EDP to efficiently schedule acquisition in biomedical experiments for dynamic processes in practice. In a first experiment, we show that the pre-trained State-Of-The- Art (SOTA) object segmentation method Contour Proposal Networks (CPN) works reliably as a module of EAPDP to extract the relevant object for EDP from the acquired three-dimensional image stack.
翻訳日:2023-10-12 18:30:02 公開日:2023-10-05
# ニューラルエンコーディングへのチューニング:人間の脳と人工的教師付き言語表現のリンク

Tuning In to Neural Encoding: Linking Human Brain and Artificial Supervised Representations of Language ( http://arxiv.org/abs/2310.04460v1 )

ライセンス: Link先を確認
Jingyuan Sun, Xiaohan Zhang and Marie-Francine Moens(参考訳) 人間の脳の言語表現を支援するアルゴリズムを理解するために、従来の研究では、ニューラルネットワーク(ANN)によって生成された埋め込みを用いて、言語刺激に対する神経応答を予測することを試みた。 しかしながら、これらの研究のほとんどは、英語などのゲルマン語の神経表現を教師なしのANNで探索することに焦点を当てている。 本稿では,人間の脳と中国語の教師付きANN表現とのギャップを埋めることを提案する。 具体的には,ニューラルエンコーディングのための予備的トランスフォーマーにタスクチューニングがどのように影響し,どのタスクが最高のエンコーディング性能をもたらすかを検討する。 我々は,言語のためのニューラルエンコーディングにおいてほとんど探索されない手法であるプロンプトチューニングを用いて,8つの自然言語理解(NLU)タスクの教師付き表現を生成する。 プロンプトチューニングは、従来の4つのタスクの微調整よりも、中国の刺激に対する神経反応を予測できる表現をもたらすことを実証する。 さらに、概念や実体のきめ細かい処理を必要とするタスクが、脳の活性化パターンを最も予測する表現につながることを発見した。 さらに、調整パラメータの比率が微調整モデルのニューラルエンコーディング性能に大きく影響することを明らかにする。 全体として、我々の実験結果は、教師付き人工言語と脳言語表現の関係をよりよく理解するのに役立ちます。

To understand the algorithm that supports the human brain's language representation, previous research has attempted to predict neural responses to linguistic stimuli using embeddings generated by artificial neural networks (ANNs), a process known as neural encoding. However, most of these studies have focused on probing neural representations of Germanic languages, such as English, with unsupervised ANNs. In this paper, we propose to bridge the gap between human brain and supervised ANN representations of the Chinese language. Specifically, we investigate how task tuning influences a pretained Transformer for neural encoding and which tasks lead to the best encoding performances. We generate supervised representations on eight Natural Language Understanding (NLU) tasks using prompt-tuning, a technique that is seldom explored in neural encoding for language. We demonstrate that prompt-tuning yields representations that better predict neural responses to Chinese stimuli than traditional fine-tuning on four tasks. Furthermore, we discover that tasks that require a fine-grained processing of concepts and entities lead to representations that are most predictive of brain activation patterns. Additionally, we reveal that the proportion of tuned parameters highly influences the neural encoding performance of fine-tuned models. Overall, our experimental findings could help us better understand the relationship between supervised artificial and brain language representations.
翻訳日:2023-10-12 18:29:36 公開日:2023-10-05
# Sorryより安全: ターゲットデータに対するCLIPの事前トレーニングとバックドア攻撃

Better Safe than Sorry: Pre-training CLIP against Targeted Data Poisoning and Backdoor Attacks ( http://arxiv.org/abs/2310.05862v1 )

ライセンス: Link先を確認
Wenhan Yang, Jingdong Gao, Baharan Mirzasoleiman(参考訳) 大規模な画像キャプチャデータセット上でのコントラスト型言語イメージプリトレーニング(clip)は,ゼロショット分類において著しく成功し,新たなドメインへの転送性を実現している。 しかし、CLIPは教師付き学習と比較して、ターゲットデータ中毒やバックドア攻撃に対して極めて脆弱である。 意外なことに、CLIP事前トレーニングデータの0.0001%を汚染することは、ターゲットデータ中毒攻撃を成功させるのに十分である。 これは、監督されたモデルに毒を盛るために必要なものよりも4桁小さい。 この脆弱性にもかかわらず、既存のメソッドは事前トレーニング中にCLIPモデルを保護するために非常に制限されている。 本研究は、ターゲットデータ中毒やバックドア攻撃に対するCLIPの訓練を安全に行うための強力な防御策であるSAFECLIPを提案する。 SAFECLIPは画像とテキストのモダリティに一元的コントラスト学習(CL)を適用してモデルをウォームアップする。 そして、データを安全に危険なサブセットに慎重に分割する。 SAFECLIPは、画像とテキストのモダリティに一元的CLを適用してリスクデータをトレーニングし、CLIP損失を使用して安全なデータをトレーニングする。 トレーニング中の安全なサブセットのサイズを徐々に大きくすることで、SAFECLIPはCLIPのパフォーマンスを損なうことなく、ターゲットデータ中毒やバックドア攻撃を効果的に破壊する。 広範囲にわたる実験により,safeclipは標的データ中毒攻撃の攻撃成功率を93.75%から0%に,バックドア攻撃を100%から0%に低下させた。

Contrastive Language-Image Pre-training (CLIP) on large image-caption datasets has achieved remarkable success in zero-shot classification and enabled transferability to new domains. However, CLIP is extremely more vulnerable to targeted data poisoning and backdoor attacks, compared to supervised learning. Perhaps surprisingly, poisoning 0.0001% of CLIP pre-training data is enough to make targeted data poisoning attacks successful. This is four orders of magnitude smaller than what is required to poison supervised models. Despite this vulnerability, existing methods are very limited in defending CLIP models during pre-training. In this work, we propose a strong defense, SAFECLIP, to safely pre-train CLIP against targeted data poisoning and backdoor attacks. SAFECLIP warms up the model by applying unimodal contrastive learning (CL) on image and text modalities separately. Then, it carefully divides the data into safe and risky subsets. SAFECLIP trains on the risky data by applying unimodal CL to image and text modalities separately, and trains on the safe data using the CLIP loss. By gradually increasing the size of the safe subset during the training, SAFECLIP effectively breaks targeted data poisoning and backdoor attacks without harming the CLIP performance. Our extensive experiments show that SAFECLIP decrease the attack success rate of targeted data poisoning attacks from 93.75% to 0% and that of the backdoor attacks from 100% to 0%, without harming the CLIP performance on various datasets.
翻訳日:2023-10-11 00:18:31 公開日:2023-10-05
# 信頼できる正式な自然言語仕様

Trustworthy Formal Natural Language Specifications ( http://arxiv.org/abs/2310.03885v1 )

ライセンス: Link先を確認
Colin S. Gordon, Sergey Matskevich(参考訳) 対話型証明アシスタントは、人間によって設計された数学的クレームの証明を、実装に高い信頼性で確認するために、慎重に構築されたコンピュータプログラムである。 しかし、これは、自然言語でなされた主張から誤訳されたかもしれない形式的主張の真理のみを証明している。 証明アシスタントを使用して自然言語仕様に関してソフトウェアの正当性を正式に検証する場合、これは特に問題となる。 形式的から形式的への翻訳は、正確さの監査が難しい困難で時間を要するプロセスであり続けている。 本稿では,自然言語の表現豊かなサブセットで記述された仕様を,既存の証明アシスタント内で構築することが可能であり,証明アシスタント自身で信頼と監査性を確立するための原則と一致していることを示す。 モジュール的に拡張可能な英語の形式的なサブセットで仕様を提供する手段を実装し、それらが自動的に形式的なクレームに変換されるようにします。 提案手法は拡張可能であり(文法構造に恒久的な制限はない)、モジュラー(図書館にまたがる新しい単語に関する情報を配布できる)、各単語の解釈方法と文構造を用いて意味を計算したことを示す証明証明書を生成する。 われわれのプロトタイプは、一般的な教科書からリーン形式への形式的仕様の様々な英語記述の翻訳に適用するが、すべては、レキシコンサイズに関する小さな修正しか持たない、控えめなレキシコンで正しく翻訳できる。

Interactive proof assistants are computer programs carefully constructed to check a human-designed proof of a mathematical claim with high confidence in the implementation. However, this only validates truth of a formal claim, which may have been mistranslated from a claim made in natural language. This is especially problematic when using proof assistants to formally verify the correctness of software with respect to a natural language specification. The translation from informal to formal remains a challenging, time-consuming process that is difficult to audit for correctness. This paper shows that it is possible to build support for specifications written in expressive subsets of natural language, within existing proof assistants, consistent with the principles used to establish trust and auditability in proof assistants themselves. We implement a means to provide specifications in a modularly extensible formal subset of English, and have them automatically translated into formal claims, entirely within the Lean proof assistant. Our approach is extensible (placing no permanent restrictions on grammatical structure), modular (allowing information about new words to be distributed alongside libraries), and produces proof certificates explaining how each word was interpreted and how the sentence's structure was used to compute the meaning. We apply our prototype to the translation of various English descriptions of formal specifications from a popular textbook into Lean formalizations; all can be translated correctly with a modest lexicon with only minor modifications related to lexicon size.
翻訳日:2023-10-10 06:35:31 公開日:2023-10-05
# 作業情報理論のための情報幾何学

Information Geometry for the Working Information Theorist ( http://arxiv.org/abs/2310.03884v1 )

ライセンス: Link先を確認
Kumar Vijay Mishra, M. Ashok Kumar and Ting-Kam Leonard Wong(参考訳) 情報幾何学は、統計多様体、すなわち幾何学的な観点からの確率分布の空間の研究である。 その古典的な情報理論の応用は、フィッシャー情報、十分な統計、効率的な推定子といった統計概念に関係している。 今日、情報幾何はレーダーセンシング、アレイ信号処理、量子物理学、深層学習、最適輸送といった様々な分野の応用を見出す学際的分野として浮上している。 本稿では,このエキサイティングな研究領域に精通していない情報理論家にとって不可欠な情報幾何学の概要を紹介する。 統計多様体上の発散の概念、距離の一般化された概念、直交性、測地学を説明し、具体的な応用や新しい理論的研究の道筋を拓く。 また,情報理論コミュニティが興味を持っている最近の情報地理学の発展についても紹介する。

Information geometry is a study of statistical manifolds, that is, spaces of probability distributions from a geometric perspective. Its classical information-theoretic applications relate to statistical concepts such as Fisher information, sufficient statistics, and efficient estimators. Today, information geometry has emerged as an interdisciplinary field that finds applications in diverse areas such as radar sensing, array signal processing, quantum physics, deep learning, and optimal transport. This article presents an overview of essential information geometry to initiate an information theorist, who may be unfamiliar with this exciting area of research. We explain the concepts of divergences on statistical manifolds, generalized notions of distances, orthogonality, and geodesics, thereby paving the way for concrete applications and novel theoretical investigations. We also highlight some recent information-geometric developments, which are of interest to the broader information theory community.
翻訳日:2023-10-10 06:35:08 公開日:2023-10-05
# 小さなバッチによる深層強化学習

Small batch deep reinforcement learning ( http://arxiv.org/abs/2310.03882v1 )

ライセンス: Link先を確認
Johan Obando-Ceron, Marc G. Bellemare, Pablo Samuel Castro(参考訳) リプレイメモリを用いた値ベースの深層強化学習では、バッチサイズパラメータが、各勾配更新に対するサンプルへの遷移数を指定する。 学習プロセスには必須だが、この値は、新しいアルゴリズムを提案する際には通常調整されない。 本研究では,ニューラルネットワークをトレーニングする際の一般的な傾向がより大きなバッチサイズに傾き,性能の向上につながることを示唆する実験的な研究結果を示す。 この現象をよりよく理解するために,実験結果と実験分析のセットを補完する。

In value-based deep reinforcement learning with replay memories, the batch size parameter specifies how many transitions to sample for each gradient update. Although critical to the learning process, this value is typically not adjusted when proposing new algorithms. In this work we present a broad empirical study that suggests {\em reducing} the batch size can result in a number of significant performance gains; this is surprising, as the general tendency when training neural networks is towards larger batch sizes for improved performance. We complement our experimental findings with a set of empirical analyses towards better understanding this phenomenon.
翻訳日:2023-10-10 06:34:53 公開日:2023-10-05
# 振動による浮遊型マイクロ磁気シリンダの線形冷却

Linear cooling of a levitated micromagnetic cylinder by vibration ( http://arxiv.org/abs/2310.03880v1 )

ライセンス: Link先を確認
Chris Timberlake, Elliot Simcox and Hendrik Ulbricht(参考訳) マイクロマグネットシリンダの振動自由度と翻訳自由度のフィードバック冷却を行い,圧電アクチュエータを用いて高qメカニカルモードに線形フィードバックを適用する。 通常のモードは、直流squidに結合した超伝導ピックアップコイルで測定され、位相情報は圧電アクチュエータにフィードバックされ、中心質量モードを1.8 \pm 1$~kに、リブレーションモードを830 \pm 200$~mkにフィードバックする。 中心質量モードでは1.0 \times 10^7$のQ因子が評価される。 その結果, 振動分離の導入, ピックアップコイルの形状を最適化し, 特定の関心モードに焦点をあてることで, 重心モードの基底状態冷却が実現可能であることがわかった。

We report feedback cooling of translational and librational degrees of freedom of a levitated micromagnet cylinder, utilizing a piezoelectric actuator to apply linear feedback to high-Q mechanical modes. The normal modes are measured with a superconducting pick-up coil coupled to a DC SQUID, and phase information is fed back to the piezoelectric actuator to feedback cool a center-of-mass mode to $1.8 \pm 1$~K, and a librational mode to $830 \pm 200$~mK. Q-factors of $1.0 \times 10^7$ are evaluated for the center-of-mass mode. We find that ground state cooling of the center-of-mass mode is plausible by introducing vibration isolation and optimizing the geometry of the pick-up coil to focus on the specific mode of interest.
翻訳日:2023-10-10 06:34:44 公開日:2023-10-05
# ニューラルネットワークにおける非可換畳み込み信号モデル:小さな変形に対する安定性

Non Commutative Convolutional Signal Models in Neural Networks: Stability to Small Deformations ( http://arxiv.org/abs/2310.03879v1 )

ライセンス: Link先を確認
Alejandro Parada-Mayorga, Landon Butler, and Alejandro Ribeiro(参考訳) 本稿では,非可換代数に基づく代数信号モデル(ASM)とその畳み込みニューラルネットワークへの応用について,最近[1]で発表された結果について論じる。 代数信号処理(ASP)の一般的なツールを用いて,非可換畳み込みフィルタのフィルタ特性と安定性について検討する。 作用素空間上の小さな摂動に対して非可換フィルタが安定であることを示す。 また、非可換信号モデルにおけるフーリエ表現のスペクトル成分は1より大きい次元の空間に関連付けられるが、可換モデルで観測されるような安定性と選択性の間にはトレードオフが存在することを示す。 この結果は,グループニューラルネットワーク,マルチグラフニューラルネットワーク,四元系ニューラルネットワークなどの非可換アーキテクチャに直接的な意味を持つ。 数値実験によりこれらの結果を裏付ける。

In this paper we discuss the results recently published in~[1] about algebraic signal models (ASMs) based on non commutative algebras and their use in convolutional neural networks. Relying on the general tools from algebraic signal processing (ASP), we study the filtering and stability properties of non commutative convolutional filters. We show how non commutative filters can be stable to small perturbations on the space of operators. We also show that although the spectral components of the Fourier representation in a non commutative signal model are associated to spaces of dimension larger than one, there is a trade-off between stability and selectivity similar to that observed for commutative models. Our results have direct implications for group neural networks, multigraph neural networks and quaternion neural networks, among other non commutative architectures. We conclude by corroborating these results through numerical experiments.
翻訳日:2023-10-10 06:34:29 公開日:2023-10-05
# 自動および人間-ai対話型テキスト生成

Automatic and Human-AI Interactive Text Generation ( http://arxiv.org/abs/2310.03878v1 )

ライセンス: Link先を確認
Yao Dou, Philippe Laban, Claire Gardent, Wei Xu(参考訳) 本チュートリアルでは,テキストを入力とする自然言語生成(nlg)タスクのクラスであるtext-to-text generationに着目し,特定の基準(可読性や言語スタイルなど)に従って改良を加えたリビジョンを生成する。 これには、テキストの単純化、パラフレーズ生成、スタイル転送など、多くの有用なアプリケーションが含まれている。 テキスト要約やオープンエンドテキスト補完(ストーリーなど)とは対照的に,本チュートリアルで論じるテキストからテキストへの生成タスクは,意味的一貫性や言語スタイルの面で制約が強い。 このレベルの制御により、これらのタスクは、セマンティックに適切かつスタイリスティックに適したテキストを生成するモデルの能力を研究するのに理想的なテストベッドとなる。 さらに、これらのタスクは、語彙的および構文的変換、様式的制御、そして事実的知識への固執の複雑な組み合わせを必要とするため、技術的な観点から興味深い。 With a special focus on text simplification and revision, this tutorial aims to provide an overview of the state-of-the-art natural language generation research from four major aspects -- Data, Models, Human-AI Collaboration, and Evaluation -- and to discuss and showcase a few significant and recent advances: (1) the use of non-retrogressive approaches; (2) the shift from fine-tuning to prompting with large language models; (3) the development of new learnable metric and fine-grained human evaluation framework; (4) a growing body of studies and datasets on non-English languages; (5) the rise of HCI+NLP+Accessibility interdisciplinary research to create real-world writing assistant systems.

In this tutorial, we focus on text-to-text generation, a class of natural language generation (NLG) tasks, that takes a piece of text as input and then generates a revision that is improved according to some specific criteria (e.g., readability or linguistic styles), while largely retaining the original meaning and the length of the text. This includes many useful applications, such as text simplification, paraphrase generation, style transfer, etc. In contrast to text summarization and open-ended text completion (e.g., story), the text-to-text generation tasks we discuss in this tutorial are more constrained in terms of semantic consistency and targeted language styles. This level of control makes these tasks ideal testbeds for studying the ability of models to generate text that is both semantically adequate and stylistically appropriate. Moreover, these tasks are interesting from a technical standpoint, as they require complex combinations of lexical and syntactical transformations, stylistic control, and adherence to factual knowledge, -- all at once. With a special focus on text simplification and revision, this tutorial aims to provide an overview of the state-of-the-art natural language generation research from four major aspects -- Data, Models, Human-AI Collaboration, and Evaluation -- and to discuss and showcase a few significant and recent advances: (1) the use of non-retrogressive approaches; (2) the shift from fine-tuning to prompting with large language models; (3) the development of new learnable metric and fine-grained human evaluation framework; (4) a growing body of studies and datasets on non-English languages; (5) the rise of HCI+NLP+Accessibility interdisciplinary research to create real-world writing assistant systems.
翻訳日:2023-10-10 06:34:14 公開日:2023-10-05
# aapm tg-263報告に基づく構造名称の再ラベル能力に関する基礎llmのベンチマーク

Benchmarking a foundation LLM on its ability to re-label structure names in accordance with the AAPM TG-263 report ( http://arxiv.org/abs/2310.03874v1 )

ライセンス: Link先を確認
Jason Holmes, Lian Zhang, Yuzhen Ding, Hongying Feng, Zhengliang Liu, Tianming Liu, William W. Wong, Sujay A. Vora, Jonathan B. Ashman, Wei Liu(参考訳) 目的:米国医学会 (AAPM) タスクグループ (TG)-263 標準に従って, 大規模言語モデル (LLM) を用いて構造名をリラベルする概念を導入し, 今後の研究のためのベンチマークを確立すること。 方法と材料: 生成前訓練トランスフォーマ(gpt)-4 アプリケーションプログラミングインタフェース(api)は、dicom(digital imaging and communications in medicine)ストレージサーバとして実装され、構造セットdicomファイルを受信すると、apm tg-263に従って標的ボリュームと正常組織の両方の構造名をラベル付けするようにgpt-4に促される。 評価には前立腺, 頭頸部, 胸腺の3つの疾患部位が選択された。 各疾患部位では,手動で指示プロンプトを調整した患者150名(バッチ50名)をランダムに選択し,評価のためにランダムに50名とした。 構造名は、多くの患者にとって構造輪郭を利用した研究に最も関連があると考えられるものである。 結果: 前立腺, 頭頸部, 胸部に対する標的容積および正常組織は, それぞれ96.0%, 98.5%, 96.9%であった。 ターゲットボリュームの再ラベルは,100%,93.1%,91.1%の前立腺を除いて,平均では精度が低かった。 結論: 本研究で提示されているように, 標的体積と正常組織の両方の構造名の再ラベルにおけるgpt-4の精度を考えると, llmは放射線腫瘍学において構造名を標準化するための好適な方法であると考えられる。

Purpose: To introduce the concept of using large language models (LLMs) to re-label structure names in accordance with the American Association of Physicists in Medicine (AAPM) Task Group (TG)-263 standard, and to establish a benchmark for future studies to reference. Methods and Materials: The Generative Pre-trained Transformer (GPT)-4 application programming interface (API) was implemented as a Digital Imaging and Communications in Medicine (DICOM) storage server, which upon receiving a structure set DICOM file, prompts GPT-4 to re-label the structure names of both target volumes and normal tissues according to the AAPM TG-263. Three disease sites, prostate, head and neck, and thorax were selected for evaluation. For each disease site category, 150 patients were randomly selected for manually tuning the instructions prompt (in batches of 50) and 50 patients were randomly selected for evaluation. Structure names that were considered were those that were most likely to be relevant for studies utilizing structure contours for many patients. Results: The overall re-labeling accuracy of both target volumes and normal tissues for prostate, head and neck, and thorax cases was 96.0%, 98.5%, and 96.9% respectively. Re-labeling of target volumes was less accurate on average except for prostate - 100%, 93.1%, and 91.1% respectively. Conclusions: Given the accuracy of GPT-4 in re-labeling structure names of both target volumes and normal tissues as presented in this work, LLMs are poised to be the preferred method for standardizing structure names in radiation oncology, especially considering the rapid advancements in LLM capabilities that are likely to continue.
翻訳日:2023-10-10 06:33:45 公開日:2023-10-05
# FNOSeg3D:フーリエニューラル演算子を用いた分解能回転3次元画像分割

FNOSeg3D: Resolution-Robust 3D Image Segmentation with Fourier Neural Operator ( http://arxiv.org/abs/2310.03872v1 )

ライセンス: Link先を確認
Ken C. L. Wong, Hongzhi Wang, Tanveer Syeda-Mahmood(参考訳) 3次元医用画像セグメンテーションの計算複雑性のため、ダウンサンプル画像を用いたトレーニングはディープラーニングにおけるメモリ外エラーの一般的な対策である。 それにもかかわらず、標準的な空間畳み込みは画像解像度のばらつきに敏感であるため、ダウンサンプリングされた画像で訓練された畳み込みニューラルネットワークの精度は、元の解像度に適用すると最適となる。 この制限に対処するために、フーリエニューラル演算子(FNO)に基づく画像解像度のトレーニングに頑健な3次元セグメンテーションモデルであるFNOSeg3Dを導入する。 FNOは偏微分方程式の関数間の写像を学習するための深層学習フレームワークであり、ゼロショット超解と大域受容場の魅力的な性質を持つ。 パラメータ要求を減らし、残差接続や深い監視を通じて学習能力を向上させることによりFNOを改善し、パラメータ効率と解像度の堅牢なFNOSeg3Dモデルを実現する。 BraTS'19データセットでテストすると、モデルパラメータの1%未満の他のテストモデルよりも、画像解像度のトレーニングに優れた堅牢性を達成した。

Due to the computational complexity of 3D medical image segmentation, training with downsampled images is a common remedy for out-of-memory errors in deep learning. Nevertheless, as standard spatial convolution is sensitive to variations in image resolution, the accuracy of a convolutional neural network trained with downsampled images can be suboptimal when applied on the original resolution. To address this limitation, we introduce FNOSeg3D, a 3D segmentation model robust to training image resolution based on the Fourier neural operator (FNO). The FNO is a deep learning framework for learning mappings between functions in partial differential equations, which has the appealing properties of zero-shot super-resolution and global receptive field. We improve the FNO by reducing its parameter requirement and enhancing its learning capability through residual connections and deep supervision, and these result in our FNOSeg3D model which is parameter efficient and resolution robust. When tested on the BraTS'19 dataset, it achieved superior robustness to training image resolution than other tested models with less than 1% of their model parameters.
翻訳日:2023-10-10 06:33:09 公開日:2023-10-05
# 胎児 EPI MRI 時系列における胎盤分割の整合性正規化による改善

Consistency Regularization Improves Placenta Segmentation in Fetal EPI MRI Time Series ( http://arxiv.org/abs/2310.03870v1 )

ライセンス: Link先を確認
Yingcheng Liu, Neerav Karani, Neel Dey, S. Mazdak Abulnaga, Junshen Xu, P. Ellen Grant, Esra Abaci Turk, Polina Golland(参考訳) 胎盤は胎児の成長において重要な役割を担っている。 胎児 EPI MRI による3次元胎盤分割の自動化は出生前治療の進歩を約束する。 本稿では,胎児のEPI MRI時系列における胎盤分割を改善するための効果的な半教師付き学習法を提案する。 時系列における同一画像の空間的変換と近傍画像間の時間的一貫性の下での一貫性を促進する一貫性正規化損失を用いる。 実験結果から,本手法はセグメンテーション全体の精度が向上し,異常値やハードサンプルの性能が向上した。 また,本手法により予測の時間的コヒーレンシが向上し,時間的胎盤バイオマーカーの精度が向上する可能性が示唆された。 本研究は胎盤および出生前臨床決定に関する研究に寄与する。 コードはhttps://github.com/firstmover/cr-segで入手できる。

The placenta plays a crucial role in fetal development. Automated 3D placenta segmentation from fetal EPI MRI holds promise for advancing prenatal care. This paper proposes an effective semi-supervised learning method for improving placenta segmentation in fetal EPI MRI time series. We employ consistency regularization loss that promotes consistency under spatial transformation of the same image and temporal consistency across nearby images in a time series. The experimental results show that the method improves the overall segmentation accuracy and provides better performance for outliers and hard samples. The evaluation also indicates that our method improves the temporal coherency of the prediction, which could lead to more accurate computation of temporal placental biomarkers. This work contributes to the study of the placenta and prenatal clinical decision-making. Code is available at https://github.com/firstmover/cr-seg.
翻訳日:2023-10-10 06:32:49 公開日:2023-10-05
# プログラム相のモデル複雑度

Model Complexity of Program Phases ( http://arxiv.org/abs/2310.03865v1 )

ライセンス: Link先を確認
Arjun Karuvally, J. Eliot B. Moss(参考訳) リソース制限コンピューティングシステムでは、シーケンス予測モデルは厳密な制約の下で動作しなければならない。 これらの条件下で予測できる様々なモデルが利用可能であり、ある意味では実装コストの削減に重点を置いている。 これらのリソース制約付きシーケンス予測モデルは、実際には、実装コストと予測の品質との間に根本的なトレードオフを示す。 この根本的なトレードオフは、さまざまなタスクのモデルについてほとんど検討されていないようだ。 ここでは、ニューラルネットワークのような特定の機械学習モデルに対して、このトレードオフ空間を探索するために必要な理論と関連する経験的手順を定式化する。 このトレードオフの行動に関する知識は、資源制約されたタスクのためのモデルの作成と展開の理論的および実践的な限界を理解する上で有益であると予想する。

In resource limited computing systems, sequence prediction models must operate under tight constraints. Various models are available that cater to prediction under these conditions that in some way focus on reducing the cost of implementation. These resource constrained sequence prediction models, in practice, exhibit a fundamental tradeoff between the cost of implementation and the quality of its predictions. This fundamental tradeoff seems to be largely unexplored for models for different tasks. Here we formulate the necessary theory and an associated empirical procedure to explore this tradeoff space for a particular family of machine learning models such as deep neural networks. We anticipate that the knowledge of the behavior of this tradeoff may be beneficial in understanding the theoretical and practical limits of creation and deployment of models for resource constrained tasks.
翻訳日:2023-10-10 06:32:35 公開日:2023-10-05
# RTDK-BO:Reinforced Transformer Deep kernelを用いた高次元ベイズ最適化

RTDK-BO: High Dimensional Bayesian Optimization with Reinforced Transformer Deep kernels ( http://arxiv.org/abs/2310.03912v1 )

ライセンス: Link先を確認
Alexander Shmakov, Avisek Naug, Vineet Gundecha, Sahand Ghorbanpour, Ricardo Luna Gutierrez, Ashwin Ramesh Babu, Antonio Guillen and Soumyendu Sarkar(参考訳) gaussian process (gp) surrogates によって導かれたベイズ最適化 (bo) は、効率的で高次元のブラックボックス最適化のための貴重な技術であり、産業設計や科学計算のような多くの応用に固有の重要な問題である。 近年、単機能最適化と多目的最適化の両方において最適化性能を向上させるために強化学習(RL)を導入している。 しかし、数発のテクニックでさえ、密接に関連する目的間で共有される類似性を活用できない。 本稿では,近年のDeep Kernel Learning(DKL)とアテンションベースのTransformerモデルを組み合わせて,GPサロゲートとメタラーニングのモデリング能力を向上させる。 本稿では,dklに注意機構を組み込んで,boプロセス中に収集した文脈情報に適応させる新しいメタラーニングboサロゲート改善手法を提案する。 このトランスフォーマーディープカーネルと,連続的ソフトアクタ-クリティック強化学習を訓練した学習獲得関数を組み合わせることで,探索を支援する。 この強化変圧器ディープカーネル(rtdk-bo)アプローチは、最先端の結果を連続的な高次元最適化問題に導く。

Bayesian Optimization (BO), guided by Gaussian process (GP) surrogates, has proven to be an invaluable technique for efficient, high-dimensional, black-box optimization, a critical problem inherent to many applications such as industrial design and scientific computing. Recent contributions have introduced reinforcement learning (RL) to improve the optimization performance on both single function optimization and \textit{few-shot} multi-objective optimization. However, even few-shot techniques fail to exploit similarities shared between closely related objectives. In this paper, we combine recent developments in Deep Kernel Learning (DKL) and attention-based Transformer models to improve the modeling powers of GP surrogates with meta-learning. We propose a novel method for improving meta-learning BO surrogates by incorporating attention mechanisms into DKL, empowering the surrogates to adapt to contextual information gathered during the BO process. We combine this Transformer Deep Kernel with a learned acquisition function trained with continuous Soft Actor-Critic Reinforcement Learning to aid in exploration. This Reinforced Transformer Deep Kernel (RTDK-BO) approach yields state-of-the-art results in continuous high-dimensional optimization problems.
翻訳日:2023-10-10 06:24:22 公開日:2023-10-05
# 活性化ヒューロスによる深層CNN層の着色

Coloring Deep CNN Layers with Activation Hue Loss ( http://arxiv.org/abs/2310.03911v1 )

ライセンス: Link先を確認
Louis-Fran\c{c}ois Bouchard, Mohsen Ben Lazreg and Matthew Toews(参考訳) 本稿では,深層畳み込みニューラルネットワーク(cnn)の活性化空間("em activation hue}"と呼ばれる)の構造をモデル化し,より効果的な学習のためにモデルを正則化するための新しいhue様角パラメータを提案する。 アクティベーション・ハウは、標準3チャネルRGB強度空間におけるカラー・ハウ角の概念を、$N$チャネルアクティベーション・スペースに一般化する。 事前学習されたネットワークを持つアクティベーションベクトルの近辺のインデックス付けに基づく一連の観測は、クラスインフォーマティブなアクティベーションが$(x,y)$イメージプレーンとマルチチャネルアクティベーションスペースの両方において$\theta$の角度に集中していることを示している。 標準の1ホット損失を補うために、hue-like angular $\theta$ labels という形の正規化項が提案される。 ワンホット+アクティベーションの損失を組み合わせたスクラッチからのトレーニングは、ImageNetを含む幅広い分類タスクの分類性能を適度に改善する。

This paper proposes a novel hue-like angular parameter to model the structure of deep convolutional neural network (CNN) activation space, referred to as the {\em activation hue}, for the purpose of regularizing models for more effective learning. The activation hue generalizes the notion of color hue angle in standard 3-channel RGB intensity space to $N$-channel activation space. A series of observations based on nearest neighbor indexing of activation vectors with pre-trained networks indicate that class-informative activations are concentrated about an angle $\theta$ in both the $(x,y)$ image plane and in multi-channel activation space. A regularization term in the form of hue-like angular $\theta$ labels is proposed to complement standard one-hot loss. Training from scratch using combined one-hot + activation hue loss improves classification performance modestly for a wide variety of classification tasks, including ImageNet.
翻訳日:2023-10-10 06:24:00 公開日:2023-10-05
# PyDCM:持続可能性のための強化学習を備えたカスタムデータセンターモデル

PyDCM: Custom Data Center Models with Reinforcement Learning for Sustainability ( http://arxiv.org/abs/2310.03906v1 )

ライセンス: Link先を確認
Avisek Naug, Antonio Guillen, Ricardo Luna Guti\'errez, Vineet Gundecha, Dejan Markovikj, Lekhapriya Dheeraj Kashyap, Lorenz Krause, Sahand Ghorbanpour, Sajad Mousavi, Ashwin Ramesh Babu, Soumyendu Sarkar(参考訳) 持続可能性や二酸化炭素排出量削減の国際的重点化が進む中、政府や企業はデータセンターの設計と運用に対するアプローチを再考するよう迫られている。 高エネルギー消費と指数関数的に大きな計算ワークロードを考えると、データセンターは特に冷却やITエネルギー利用といった分野において、電力消費を最適化する主要な候補である。 この追求における重要な課題は、エンドツーエンドのパイプラインを提供する構成可能でスケーラブルな熱データセンターモデルがないことである。 データセンターは、幾何学的な構成と熱散逸が熱モデリングを困難にする複数のITコンポーネントで構成されている。 本稿では,Pythonで実装されたカスタマイズ可能なデータセンターモデルであるPyDCMを提案する。 ベクトル化熱計算を用いることで、pydcmのオーダーは現在のエネルギーとモデリングの実装よりも30倍速くなり、cpuの数とサブリニアにスケールできる。 また、pydcmは、gymnasiumラッパーを介して深層強化学習を使用してデータセンターの冷却を最適化し、様々なデータセンター設計プロトタイプをテストするユーザフレンドリーなプラットフォームを提供する。

The increasing global emphasis on sustainability and reducing carbon emissions is pushing governments and corporations to rethink their approach to data center design and operation. Given their high energy consumption and exponentially large computational workloads, data centers are prime candidates for optimizing power consumption, especially in areas such as cooling and IT energy usage. A significant challenge in this pursuit is the lack of a configurable and scalable thermal data center model that offers an end-to-end pipeline. Data centers consist of multiple IT components whose geometric configuration and heat dissipation make thermal modeling difficult. This paper presents PyDCM, a customizable Data Center Model implemented in Python, that allows users to create unique configurations of IT equipment with custom server specifications and geometric arrangements of IT cabinets. The use of vectorized thermal calculations makes PyDCM orders of magnitude faster (30 times) than current Energy Plus modeling implementations and scales sublinearly with the number of CPUs. Also, PyDCM enables the use of Deep Reinforcement Learning via the Gymnasium wrapper to optimize data center cooling and offers a user-friendly platform for testing various data center design prototypes.
翻訳日:2023-10-10 06:23:41 公開日:2023-10-05
# 大規模言語モデルにおけるマルチエージェント協調能力の評価

Evaluating Multi-Agent Coordination Abilities in Large Language Models ( http://arxiv.org/abs/2310.03903v1 )

ライセンス: Link先を確認
Saaket Agashe, Yue Fan, Xin Eric Wang(参考訳) 現代のai研究の重要な目的は、マルチエージェント協調に熟練したエージェントを開発し、人間と他のシステムとの効果的なコラボレーションを可能にすることである。 言語を人間のような方法で理解し、生成し、解釈する能力を持つ大規模言語モデル(llm)は、そのようなエージェントの開発に有望な候補として際立っている。 本研究では, 様々な調整シナリオにおいて, LLMを用いたエージェントの有効性を構築し, 評価する。 LLM-Coordination (LLM-Co) Frameworkを導入する。 llm-coフレームワークでは,3つのゲーム環境を用いて評価を行い,心の理論,位置推論,継続協調,パートナーに対する堅牢性,明示的な支援という5つの側面に評価を整理する。 第一に、心の理論と感性推論の評価は、LLMがパートナーの意図や理性的な行動を推論する能力を明らかにする。 そして、パートナーに対する継続的な調整と堅牢性に関する評価は、強化学習ベースラインよりも優れた、複雑なロングホライゾンタスクにおいて未知のパートナーと協調するllmの能力を示す。 最後に、エージェントが積極的に助けを提供する能力を示す明示的な支援をテストするために、過剰調理されたaiベンチマークに2つの新しいレイアウトを導入し、エージェントがパートナーを助けるのを優先できるかどうかを調べ、タスクに費やされた時間を犠牲にする。 本研究は、高度調整環境におけるLLMの有望な能力と、マルチエージェント協調のための強力な現実世界エージェント構築におけるLLMの可能性を明らかにする。

A pivotal aim in contemporary AI research is to develop agents proficient in multi-agent coordination, enabling effective collaboration with both humans and other systems. Large Language Models (LLMs), with their notable ability to understand, generate, and interpret language in a human-like manner, stand out as promising candidates for the development of such agents. In this study, we build and assess the effectiveness of agents crafted using LLMs in various coordination scenarios. We introduce the LLM-Coordination (LLM-Co) Framework, specifically designed to enable LLMs to play coordination games. With the LLM-Co framework, we conduct our evaluation with three game environments and organize the evaluation into five aspects: Theory of Mind, Situated Reasoning, Sustained Coordination, Robustness to Partners, and Explicit Assistance. First, the evaluation of the Theory of Mind and Situated Reasoning reveals the capabilities of LLM to infer the partner's intention and reason actions accordingly. Then, the evaluation around Sustained Coordination and Robustness to Partners further showcases the ability of LLMs to coordinate with an unknown partner in complex long-horizon tasks, outperforming Reinforcement Learning baselines. Lastly, to test Explicit Assistance, which refers to the ability of an agent to offer help proactively, we introduce two novel layouts into the Overcooked-AI benchmark, examining if agents can prioritize helping their partners, sacrificing time that could have been spent on their tasks. This research underscores the promising capabilities of LLMs in sophisticated coordination environments and reveals the potential of LLMs in building strong real-world agents for multi-agent coordination.
翻訳日:2023-10-10 06:23:21 公開日:2023-10-05
# 正規化定数推定のためのアニーリングの有用性:重要度サンプリング、ノイズコントラスト推定など

Provable benefits of annealing for estimating normalizing constants: Importance Sampling, Noise-Contrastive Estimation, and beyond ( http://arxiv.org/abs/2310.03902v1 )

ライセンス: Link先を確認
Omar Chehab, Aapo Hyvarinen, Andrej Risteski(参考訳) 近年の研究では、アニーリングのアイデアに基づいて正規化定数(分割関数)を推定するモンテカルロ法が開発されている。 これは、トラクタブルな「固有」分布と非正規化された「ターゲット」分布とを補間する分布の経路から連続的にサンプリングすることを意味する。 このファミリーの著名な推定者は、アニールの重要性のサンプリングとアニールされたノイズコントラスト推定 (nce) である。 このような手法は、どの推定器を使うか、どの分布の経路を使うか、どの経路を使うか、といった多くの設計上の選択に依存している。 本稿では,その設計選択を漸近的推定誤差によって評価する。 まず,NCE の使用はサンプリングの重要度よりも効率的であることを示すが,無限小経路ステップの制限により差は消える。 第2に,幾何学的経路を用いることで,指数関数から対象と提案分布との間のパラメータ距離の多項式関数への推定誤差を低減できることがわかった。 第3に、算術パスはめったに使われないが、普遍的に使用される幾何学パス上で最適性を提供することができる。 実際、特定の極限において、最適経路は算術である。 この理論に基づいて,最適経路を効率的に近似する2段階推定器を提案する。

Recent research has developed several Monte Carlo methods for estimating the normalization constant (partition function) based on the idea of annealing. This means sampling successively from a path of distributions that interpolate between a tractable "proposal" distribution and the unnormalized "target" distribution. Prominent estimators in this family include annealed importance sampling and annealed noise-contrastive estimation (NCE). Such methods hinge on a number of design choices: which estimator to use, which path of distributions to use and whether to use a path at all; so far, there is no definitive theory on which choices are efficient. Here, we evaluate each design choice by the asymptotic estimation error it produces. First, we show that using NCE is more efficient than the importance sampling estimator, but in the limit of infinitesimal path steps, the difference vanishes. Second, we find that using the geometric path brings down the estimation error from an exponential to a polynomial function of the parameter distance between the target and proposal distributions. Third, we find that the arithmetic path, while rarely used, can offer optimality properties over the universally-used geometric path. In fact, in a particular limit, the optimal path is arithmetic. Based on this theory, we finally propose a two-step estimator to approximate the optimal path in an efficient way.
翻訳日:2023-10-10 06:22:51 公開日:2023-10-05
# crysformer: 3次元パターソン写像によるタンパク質構造予測と部分構造注意

CrysFormer: Protein Structure Prediction via 3d Patterson Maps and Partial Structure Attention ( http://arxiv.org/abs/2310.03899v1 )

ライセンス: Link先を確認
Chen Dun, Qiutai Pan, Shikai Jin, Ria Stevens, Mitchell D. Miller, George N. Phillips, Jr., Anastasios Kyrillidis(参考訳) タンパク質の構造を決定することは、数十年にわたるオープンな問題である。 タンパク質の3次元構造は、古典的シミュレーションアルゴリズムが使用されるとき、しばしば非自明な計算コストをもたらす。 alphafold2のようなトランスフォーマーニューラルネットワークアーキテクチャの進歩は、シーケンス情報と対応するタンパク質構造の大規模なデータセットから学習することで、この問題に大きな改善を達成している。 しかし、このような手法は配列情報のみに焦点を当てており、タンパク質結晶学やアミノ酸の部分構造などの他の利用可能な事前知識を活用できる可能性がある。 我々は,タンパク質の電子密度マップを予測するために,タンパク質結晶学と部分構造情報を直接利用するトランスフォーマーモデルを提案する。 ペプチドフラグメントの2つの新しいデータセット(2-residueと15-residue)を用いて,より小さなデータセットサイズと計算コストの低減に基づいて,精度の高い予測を実現できることを示す。

Determining the structure of a protein has been a decades-long open question. A protein's three-dimensional structure often poses nontrivial computation costs, when classical simulation algorithms are utilized. Advances in the transformer neural network architecture -- such as AlphaFold2 -- achieve significant improvements for this problem, by learning from a large dataset of sequence information and corresponding protein structures. Yet, such methods only focus on sequence information; other available prior knowledge, such as protein crystallography and partial structure of amino acids, could be potentially utilized. To the best of our knowledge, we propose the first transformer-based model that directly utilizes protein crystallography and partial structure information to predict the electron density maps of proteins. Via two new datasets of peptide fragments (2-residue and 15-residue) , we demonstrate our method, dubbed \texttt{CrysFormer}, can achieve accurate predictions, based on a much smaller dataset size and with reduced computation costs.
翻訳日:2023-10-10 06:22:29 公開日:2023-10-05
# 時間認識正規化に基づく生成経験リプレイを用いた授業インクリメンタル学習

Class-Incremental Learning Using Generative Experience Replay Based on Time-aware Regularization ( http://arxiv.org/abs/2310.03898v1 )

ライセンス: Link先を確認
Zizhao Hu, Mohammad Rostami(参考訳) 新しいタスクを忘れずに蓄積的に学習することは、継続的な学習において重要な課題である。 生成的エクスペリエンスは、過去の学習タスクのための擬似データポイントを合成し、その後、新しいタスクのデータとともに、同時トレーニングのためにそれらを再生することで、この課題に対処する。 生成的リプレイは、一定の制約を満たす必要がある場合、厳密なクラスインクリメンタル設定の下で継続的な学習のための最良の戦略である。 (i)定数モデルサイズ (ii)事前学習データセットなし、及び (iii)過去のタスクのデータを保存するメモリバッファがない。 生体神経系機構に着想を得て, 教師付き学習, 潜時正規化, データ再構成の3つの学習目標語を動的に微調整する時間認識正規化手法を提案する。 評価実験の結果,脳に触発された連続学習者の限界を厳密な設定で押し上げ,メモリ保持を向上し,連続的なタスクよりも平均性能を向上させることが示唆された。

Learning new tasks accumulatively without forgetting remains a critical challenge in continual learning. Generative experience replay addresses this challenge by synthesizing pseudo-data points for past learned tasks and later replaying them for concurrent training along with the new tasks' data. Generative replay is the best strategy for continual learning under a strict class-incremental setting when certain constraints need to be met: (i) constant model size, (ii) no pre-training dataset, and (iii) no memory buffer for storing past tasks' data. Inspired by the biological nervous system mechanisms, we introduce a time-aware regularization method to dynamically fine-tune the three training objective terms used for generative replay: supervised learning, latent regularization, and data reconstruction. Experimental results on major benchmarks indicate that our method pushes the limit of brain-inspired continual learners under such strict settings, improves memory retention, and increases the average performance over continually arriving tasks.
翻訳日:2023-10-10 06:22:12 公開日:2023-10-05
# TWICEデータセット:制御された環境でのテストシナリオのディジタル双対

TWICE Dataset: Digital Twin of Test Scenarios in a Controlled Environment ( http://arxiv.org/abs/2310.03895v1 )

ライセンス: Link先を確認
Leonardo Novicki Neto, Fabio Reway, Yuri Poledna, Maikol Funk Drechsler, Eduardo Parente Ribeiro, Werner Huber and Christian Icking(参考訳) 悪天候下での自動運転車の安全で信頼性の高い運用を保証することは、依然として大きな課題である。 そこで我々は,実テストトラックで取得し,同じテストシナリオで実験室で再現したセンサデータからなる総合データセットを開発した。 提供されるデータセットには、カメラ、レーダー、LiDAR、慣性測定ユニット(IMU)、悪天候(雨、夜間、雪)で記録されたGPSデータが含まれる。 テストシナリオは、自動車、自転車、トラック、歩行者などの興味のあるオブジェクトを使って記録しました。 実験室で生成されたセンサデータは、実際のテストシナリオのデジタルツインと、ループ環境におけるシミュレーションベースのテストの実行によって取得される。 データセットには2時間以上の記録があり、合計280GB以上のデータが含まれている。 そのため、自動運転車分野の研究者は、悪天候下でアルゴリズムをテストし、改善し、シミュレーションと現実のギャップを探索する上で貴重な資源である。 データセットは、https://twicedataset.github.io/site/でダウンロードできる。

Ensuring the safe and reliable operation of autonomous vehicles under adverse weather remains a significant challenge. To address this, we have developed a comprehensive dataset composed of sensor data acquired in a real test track and reproduced in the laboratory for the same test scenarios. The provided dataset includes camera, radar, LiDAR, inertial measurement unit (IMU), and GPS data recorded under adverse weather conditions (rainy, night-time, and snowy conditions). We recorded test scenarios using objects of interest such as car, cyclist, truck and pedestrian -- some of which are inspired by EURONCAP (European New Car Assessment Programme). The sensor data generated in the laboratory is acquired by the execution of simulation-based tests in hardware-in-the-loop environment with the digital twin of each real test scenario. The dataset contains more than 2 hours of recording, which totals more than 280GB of data. Therefore, it is a valuable resource for researchers in the field of autonomous vehicles to test and improve their algorithms in adverse weather conditions, as well as explore the simulation-to-reality gap. The dataset is available for download at: https://twicedataset.github.io/site/
翻訳日:2023-10-10 06:21:55 公開日:2023-10-05
# 条件拡散確率モデルを用いた分裂図の特徴の同定

Characterizing the Features of Mitotic Figures Using a Conditional Diffusion Probabilistic Model ( http://arxiv.org/abs/2310.03893v1 )

ライセンス: Link先を確認
Cagla Deniz Bahadir, Benjamin Liechty, David J. Pisapia, Mert R. Sabuncu(参考訳) ヒストロジー画像におけるミオティックな図形検出は、病理学的な解釈でラベルを生成し、'gold-standard'の独立した接地が存在しないという、定義が難しいが臨床的に重要な課題である。 しかし、これらの解釈に基づくラベルは、専門知識のレベルや人間の主観性の違いから、信頼性に欠けることが多い。 本稿では,ミトーシスラベルの本質的な不確実性に光を当て,ヒトの解釈可能な方法でミトーシス図形分類タスクを特徴付けることを目的とする。 細胞核のパッチを所定のミトーシスラベル条件で合成するために,確率拡散モデルを訓練する。 このモデルを用いて、同じ核が分裂状態へ遷移するのに対応する合成画像のシーケンスを生成することができる。 これにより、細胞質の粒度、核密度、核の不規則性、核と細胞体の間の高いコントラストなど、分裂に関連する異なる画像の特徴を識別できる。 我々のアプローチは、病原体を識別する決定を下す特徴を解釈し、伝達する新しいツールを提供する。

Mitotic figure detection in histology images is a hard-to-define, yet clinically significant task, where labels are generated with pathologist interpretations and where there is no ``gold-standard'' independent ground-truth. However, it is well-established that these interpretation based labels are often unreliable, in part, due to differences in expertise levels and human subjectivity. In this paper, our goal is to shed light on the inherent uncertainty of mitosis labels and characterize the mitotic figure classification task in a human interpretable manner. We train a probabilistic diffusion model to synthesize patches of cell nuclei for a given mitosis label condition. Using this model, we can then generate a sequence of synthetic images that correspond to the same nucleus transitioning into the mitotic state. This allows us to identify different image features associated with mitosis, such as cytoplasm granularity, nuclear density, nuclear irregularity and high contrast between the nucleus and the cell body. Our approach offers a new tool for pathologists to interpret and communicate the features driving the decision to recognize a mitotic figure.
翻訳日:2023-10-10 06:21:37 公開日:2023-10-05
# 回転ロジスティック物体を用いた加速ニューラルネットワークトレーニング

Accelerated Neural Network Training with Rooted Logistic Objectives ( http://arxiv.org/abs/2310.03890v1 )

ライセンス: Link先を確認
Zhu Wang, Praveen Raj Veluswami, Harsh Mishra, Sathya N. Ravi(参考訳) 現実世界のシナリオにデプロイされた多くのニューラルネットワークは、クロスエントロピーベースの損失関数を使用してトレーニングされる。 最適化の観点からは,勾配降下などの一階法の挙動がデータセットの分離性に大きく依存していることが知られている。 実際、二項分類の最も単純な場合においても、収束率は(1)データ行列の条件数と(2)データセットの分離可能性の2つの要因に依存する。 過剰パラメータ化やデータ拡張など、さらなる前処理技術がなければ、分離性は検討中のデータ分散の本質的な量である。 我々は,ロジスティック関数のランドスケープ設計に注目し,少なくともロジスティック損失と同程度の厳密な凸関数の新たなシーケンスを導出する。 これらの関数の最小値は可能な限り最小ノルム解の最小値と一致する。 導出関数の厳密な凸性は、最先端のモデルや応用に拡張することができる。 実験的な実験分析では,提案したルートロジスティックな目的を,様々な分類ベンチマークにおいて,完全接続型ニューラルネットワークやトランスフォーマーなど複数の深層モデルに適用する。 この結果から,根付き損失関数による学習はより早く収束し,性能が向上することが示された。 さらに,根付き損失を伴うスタイルガンモデルの微調整など,生成モデルに基づく下流アプリケーションにおける新たな根付き損失関数の適用例を示す。 私たちの損失とモデルを実装するコードは、オープンソースソフトウェア開発の目的のためにここにある。

Many neural networks deployed in the real world scenarios are trained using cross entropy based loss functions. From the optimization perspective, it is known that the behavior of first order methods such as gradient descent crucially depend on the separability of datasets. In fact, even in the most simplest case of binary classification, the rate of convergence depends on two factors: (1) condition number of data matrix, and (2) separability of the dataset. With no further pre-processing techniques such as over-parametrization, data augmentation etc., separability is an intrinsic quantity of the data distribution under consideration. We focus on the landscape design of the logistic function and derive a novel sequence of {\em strictly} convex functions that are at least as strict as logistic loss. The minimizers of these functions coincide with those of the minimum norm solution wherever possible. The strict convexity of the derived function can be extended to finetune state-of-the-art models and applications. In empirical experimental analysis, we apply our proposed rooted logistic objective to multiple deep models, e.g., fully-connected neural networks and transformers, on various of classification benchmarks. Our results illustrate that training with rooted loss function is converged faster and gains performance improvements. Furthermore, we illustrate applications of our novel rooted loss function in generative modeling based downstream applications, such as finetuning StyleGAN model with the rooted loss. The code implementing our losses and models can be found here for open source software development purposes: https://anonymous.4open.science/r/rooted_loss.
翻訳日:2023-10-10 06:21:17 公開日:2023-10-05
# 時間的ミスマッチホモダイン測定の量子理論と光周波数コム計測への応用

A Quantum Theory of Temporally Mismatched Homodyne Measurements with Applications to Optical Frequency Comb Metrology ( http://arxiv.org/abs/2310.03934v1 )

ライセンス: Link先を確認
Noah Lordi, Eugene J. Tsao, Alexander J. Lind, Scott A. Diddams, and Joshua Combes(参考訳) 精密時間保存と分光の分野は、ますます光周波数コム干渉計に依存している。 しかし、コムに基づく測定は、大きなモードミスマッチと有限強度局所振動子の両方を示すため、既存の量子理論では説明されない。 この量子論を確立するために、任意のモード重なりを持つホモダインの測定演算子を導出する。 これらの演算子は、二次測定信号対雑音比を最大化するフィルタに知らせる二次測定と強度類似測定の組み合わせである。 さらに、これらの演算子は周波数コム干渉法を、光の非古典状態のメトロジーを含む幅広いシナリオに拡張する基盤を確立する。

The fields of precision timekeeping and spectroscopy increasingly rely on optical frequency comb interferometry. However, comb-based measurements are not described by existing quantum theory because they exhibit both large mode mismatch and finite strength local oscillators. To establish this quantum theory, we derive measurement operators for homodyne with arbitrary mode overlap. These operators are a combination of quadrature and intensity-like measurements, which inform a filter that maximizes the quadrature measurement signal-to-noise ratio. Furthermore, these operators establish a foundation to extend frequency-comb interferometry to a wide range of scenarios, including metrology with nonclassical states of light.
翻訳日:2023-10-10 06:15:47 公開日:2023-10-05
# 超伝導量子回路における原子スケール欠陥のフォノン工学

Phonon engineering of atomic-scale defects in superconducting quantum circuits ( http://arxiv.org/abs/2310.03929v1 )

ライセンス: Link先を確認
Mo Chen, John Clai Owens, Harald Putterman, Max Sch\"afer, Oskar Painter(参考訳) 低温における固体系内のノイズは、ホスト物質の自由度の多くが凍結され、通常低エネルギー励起を支える物質の欠陥に遡ることができる。 これらの欠陥は様々な微視的形態をとることができ、アモルファス材料についてはトンネル型2レベルシステム(tls)モデルのような汎用モデルを用いて広く記述される。 TLSの詳細や、1970年代から材料の低温挙動への影響は研究されているが、これらの状態は最近、超伝導量子量子回路のコヒーレンスに対する限界がTLSに支配される量子コンピューティングの分野におけるさらなる関連性に注目されている。 TLSの影響を軽減する努力は、これまで回路設計、材料選択、材料表面処理に重点を置いてきた。 本研究では,ナノスケール工学を用いてTLSの特性を直接修正する手法を提案する。 これは、ホスト材料を周期的に構造化し、トランスモン量子ビット超伝導量子回路の動作周波数付近のGHz幅の周波数帯におけるすべてのマイクロ波フォノンを抑圧する音響バンドギャップを形成することで達成される。 電気量子ビットに強く結合した組み込みTLSでは、TLS遷移周波数が音響バンドギャップ内にある場合の2桁の緩和時間の顕著な増加を計測し、最長のT_1$時間は5$ミリ秒を超える。 我々の研究は、アモルファス材料におけるノイズの理解を深め、固体量子デバイスを進化させるのに不可欠であるTLSの深い調査とコヒーレント制御の道を開く。

Noise within solid-state systems at low temperatures, where many of the degrees of freedom of the host material are frozen out, can typically be traced back to material defects that support low-energy excitations. These defects can take a wide variety of microscopic forms, and for amorphous materials are broadly described using generic models such as the tunneling two-level systems (TLS) model. Although the details of TLS, and their impact on the low-temperature behavior of materials have been studied since the 1970s, these states have recently taken on further relevance in the field of quantum computing, where the limits to the coherence of superconducting microwave quantum circuits are dominated by TLS. Efforts to mitigate the impact of TLS have thus far focused on circuit design, material selection, and material surface treatment. In this work, we take a new approach that seeks to directly modify the properties of TLS through nanoscale-engineering. This is achieved by periodically structuring the host material, forming an acoustic bandgap that suppresses all microwave-frequency phonons in a GHz-wide frequency band around the operating frequency of a transmon qubit superconducting quantum circuit. For embedded TLS that are strongly coupled to the electric qubit, we measure a pronounced increase in relaxation time by two orders of magnitude when the TLS transition frequency lies within the acoustic bandgap, with the longest $T_1$ time exceeding $5$ milliseconds. Our work paves the way for in-depth investigation and coherent control of TLS, which is essential for deepening our understanding of noise in amorphous materials and advancing solid-state quantum devices.
翻訳日:2023-10-10 06:15:35 公開日:2023-10-05
# 新型コロナウイルスパンデミックにおける研究トピックの進化を探る

Exploring the evolution of research topics during the COVID-19 pandemic ( http://arxiv.org/abs/2310.03928v1 )

ライセンス: Link先を確認
Francesco Invernici, Anna Bernasconi, Stefano Ceri(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、ほとんどの科学コミュニティの研究課題を変え、医学、ウイルス学、疫学、経済、心理学など様々な分野の研究論文が圧倒的に生産された。 新型コロナウイルスのオープンリサーチデータセット(CORD-19)は、100万以上の論文の収集と索引付けによって2.5年間、体系的に科学的貢献を集めてきた。 本稿では,CORD-19 Topic Visualizer (CORToViz)について紹介する。 提案手法は,最新の技術(大規模言語モデルを含む)を慎重に選択し,直交次元に沿って記事をクラスタリングするアーキテクチャと時間的トピックマイニングのための抽出技術を実現する。 トピックインスペクションは、対話型ダッシュボードによってサポートされ、単語クラウドとしてのトピック内容の高速かつワンクリック可視化と時系列としてのトピックトレンドを提供し、任意に選択された時間ウィンドウに沿ったトピックの出現の重要性を分析するための、容易に駆動可能な統計テストを備えている。 データ準備と結果の可視化のプロセスは、完全に汎用的で、テキスト文書のコーパスに事実上適用可能であるため、他のコンテキストへの効果的な適応に適している。

The COVID-19 pandemic has changed the research agendas of most scientific communities, resulting in an overwhelming production of research articles in a variety of domains, including medicine, virology, epidemiology, economy, psychology, and so on. Several open-access corpora and literature hubs were established; among them, the COVID-19 Open Research Dataset (CORD-19) has systematically gathered scientific contributions for 2.5 years, by collecting and indexing over one million articles. Here, we present the CORD-19 Topic Visualizer (CORToViz), a method and associated visualization tool for inspecting the CORD-19 textual corpus of scientific abstracts. Our method is based upon a careful selection of up-to-date technologies (including large language models), resulting in an architecture for clustering articles along orthogonal dimensions and extraction techniques for temporal topic mining. Topic inspection is supported by an interactive dashboard, providing fast, one-click visualization of topic contents as word clouds and topic trends as time series, equipped with easy-to-drive statistical testing for analyzing the significance of topic emergence along arbitrarily selected time windows. The processes of data preparation and results visualization are completely general and virtually applicable to any corpus of textual documents - thus suited for effective adaptation to other contexts.
翻訳日:2023-10-10 06:15:06 公開日:2023-10-05
# 近傍隣人を用いた分類器決定境界の改善

Improving classifier decision boundaries using nearest neighbors ( http://arxiv.org/abs/2310.03927v1 )

ライセンス: Link先を確認
Johannes Schneider(参考訳) ニューラルネットワークは最適な決定境界を学習していない。 意思決定の境界は低いトレーニングデータ密度の領域にあることを示す。 トレーニングサンプルがほとんどないため,過度に適合することが可能になる。 サンプルとその近傍の予測値の重み付け平均(潜在空間で計算される)を実行する単純なアルゴリズムを提供することにより、ニューラルネットワークの様々な重要な尺度において、あまり好ましくない結果をもたらす。 評価では、様々な自己学習型および事前学習型畳み込みニューラルネットワークを用いて、我々のアプローチが改善したことを示す。 (i)ラベルノイズに対する耐性。 (二)敵の攻撃に対する頑強さ (iii)分類精度及びある程度 (iv)解釈可能性。 改善は4つの領域すべてにおいて必ずしも大きいとは限りませんが、私たちのアプローチは概念的にはシンプルです。 さらに、それらは、しばしば4つの目的の間のトレードオフを必要とする、または価値ある、しかし実行不可能な洞察を提供する以前の作品とは全く対照的である。

Neural networks are not learning optimal decision boundaries. We show that decision boundaries are situated in areas of low training data density. They are impacted by few training samples which can easily lead to overfitting. We provide a simple algorithm performing a weighted average of the prediction of a sample and its nearest neighbors' (computed in latent space) leading to a minor favorable outcomes for a variety of important measures for neural networks. In our evaluation, we employ various self-trained and pre-trained convolutional neural networks to show that our approach improves (i) resistance to label noise, (ii) robustness against adversarial attacks, (iii) classification accuracy, and to some degree even (iv) interpretability. While improvements are not necessarily large in all four areas, our approach is conceptually simple, i.e., improvements come without any modification to network architecture, training procedure or dataset. Furthermore, they are in stark contrast to prior works that often require trade-offs among the four objectives or provide valuable, but non-actionable insights.
翻訳日:2023-10-10 06:14:42 公開日:2023-10-05
# 2次元畳み込みによる時系列データのマルチタスク学習

Multitask Learning for Time Series Data\\with 2D Convolution ( http://arxiv.org/abs/2310.03925v1 )

ライセンス: Link先を確認
Chin-Chia Michael Yeh, Xin Dai, Yan Zheng, Junpeng Wang, Huiyuan Chen, Yujie Fan, Audrey Der, Zhongfang Zhuang, Liang Wang, Wei Zhang(参考訳) マルチタスク学習(mtl)は、関連する一連のタスクを同時に処理できる統一モデルの開発を目的としている。 複数のタスクにまたがるモデルを最適化することで、MTLは一般に、一般化可能性の点で非MTLモデルを上回る。 mtlはコンピュータビジョン、自然言語処理、レコメンデーションシステムなどの様々な領域で広く研究されてきたが、時系列データへの応用は注目されていない。 本稿では,MTLの時系列分類(TSC)問題への適用について検討する。 しかし,最先端の1次元畳み込み型tscモデルとmtlを統合すると,tscモデルの性能が低下する。 1次元畳み込みに基づくモデルと動的時間ゆがみ(dtw)距離関数を比較した結果, 1次元畳み込み層の表現力の制限による影響がみられた。 この課題を克服するために,モデルの表現性を向上する2次元畳み込みモデルの設計を提案する。 この利点を生かして,提案手法は,ucrアーカイブと産業トランザクションtscデータセットの競合手法よりも優れている。

Multitask learning (MTL) aims to develop a unified model that can handle a set of closely related tasks simultaneously. By optimizing the model across multiple tasks, MTL generally surpasses its non-MTL counterparts in terms of generalizability. Although MTL has been extensively researched in various domains such as computer vision, natural language processing, and recommendation systems, its application to time series data has received limited attention. In this paper, we investigate the application of MTL to the time series classification (TSC) problem. However, when we integrate the state-of-the-art 1D convolution-based TSC model with MTL, the performance of the TSC model actually deteriorates. By comparing the 1D convolution-based models with the Dynamic Time Warping (DTW) distance function, it appears that the underwhelming results stem from the limited expressive power of the 1D convolutional layers. To overcome this challenge, we propose a novel design for a 2D convolution-based model that enhances the model's expressiveness. Leveraging this advantage, our proposed method outperforms competing approaches on both the UCR Archive and an industrial transaction TSC dataset.
翻訳日:2023-10-10 06:14:00 公開日:2023-10-05
# ノイズ量子コンピュータ上でのエネルギー輸送の問題解決シミュレーション

Problem-tailored Simulation of Energy Transport on Noisy Quantum Computers ( http://arxiv.org/abs/2310.03924v1 )

ライセンス: Link先を確認
I-Chi Chen, Kl\'ee Pollock, Yong-Xin Yao, Peter P. Orth, and Thomas Iadecola(参考訳) スピンや電荷のような保存された量の輸送は、量子多体系の挙動を特徴づけるのに基本的である。 このようなダイナミクスを数値的にシミュレートすることは、量子コンピューティング戦略の考察を動機付ける一般的な挑戦である。 しかし、今日の量子コンピュータの比較的高いゲートエラーと限定的なコヒーレンスタイムは、独自の課題を生じさせ、量子リソースと疎結合である必要性を強調している。 本研究は, 中間時間に様々な輸送挙動を示す多体系である混合場Ising鎖における無限温度エネルギー輸送の量子ハードウェアに関するシミュレーションを報告する。 我々は、L=12$のサイトを持つチェーンを考えて、90段以上のトロッターゲートを含む理想的な回路シミュレータの結果と広く一致している。 これらの結果を得るためには,2つの鍵となる問題解決の知見を用いる。 まず、無限温度のトレースをサンプリングするための便利な基底$\unicode{x2013}$the Pauli$Y$ basis$\unicode{x2013}$inを同定し、例えば計算基底に対するその効率に関する理論的および数値的な正当化を与える。 第2に、様々な問題非依存なエラー緩和戦略に加えて、デバイスノイズによるエネルギーのグローバルな非保存を補償する再正規化戦略を用いる。 これらの技術は、ここで検討した特定のアプリケーションを超えて役に立つと期待しています。

The transport of conserved quantities like spin and charge is fundamental to characterizing the behavior of quantum many-body systems. Numerically simulating such dynamics is generically challenging, which motivates the consideration of quantum computing strategies. However, the relatively high gate errors and limited coherence times of today's quantum computers pose their own challenge, highlighting the need to be frugal with quantum resources. In this work we report simulations on quantum hardware of infinite-temperature energy transport in the mixed-field Ising chain, a paradigmatic many-body system that can exhibit a range of transport behaviors at intermediate times. We consider a chain with $L=12$ sites and find results broadly consistent with those from ideal circuit simulators over 90 Trotter steps, containing up to 990 entangling gates. To obtain these results, we use two key problem-tailored insights. First, we identify a convenient basis$\unicode{x2013}$the Pauli $Y$ basis$\unicode{x2013}$in which to sample the infinite-temperature trace and provide theoretical and numerical justifications for its efficiency relative to, e.g., the computational basis. Second, in addition to a variety of problem-agnostic error mitigation strategies, we employ a renormalization strategy that compensates for global nonconservation of energy due to device noise. We expect that these techniques will prove useful beyond the specific application considered here.
翻訳日:2023-10-10 06:13:24 公開日:2023-10-05
# OpenFusion: リアルタイムオープンな3Dマッピングとクエリ可能なシーン表現

Open-Fusion: Real-time Open-Vocabulary 3D Mapping and Queryable Scene Representation ( http://arxiv.org/abs/2310.03923v1 )

ライセンス: Link先を確認
Kashu Yamazaki, Taisei Hanyu, Khoa Vo, Thang Pham, Minh Tran, Gianfranco Doretto, Anh Nguyen, Ngan Le(参考訳) 正確な3d環境マッピングはロボット工学において重要である。 既存のメソッドはトレーニング中に事前定義された概念に依存することが多いし、セマンティックマップを生成するのに時間を要する。 本稿では,RGB-Dデータを用いたリアルタイムオープンな3Dマッピングとクエリ可能なシーン表現のための基盤的アプローチであるOpen-Fusionを提案する。 Open-Fusionは、オープンセット意味理解のための事前学習された視覚言語基盤モデル(VLFM)のパワーを活用し、3Dシーンの迅速な再構築にTSDF(Trncated Signed Distance Function)を使用している。 VLFMを利用して、領域ベースの埋め込みとその関連する信頼マップを抽出する。 その後、ハンガリーの強化された特徴マッチング機構を使用して、TSDFの3D知識と統合される。 特にopen-fusionは、追加の3dトレーニングを必要とせずに、open-vocabularyのアノテーションフリーな3dセグメンテーションを提供する。 主要なゼロショットメソッドに対するScanNetデータセットのベンチマークテストは、Open-Fusionの優位性を強調している。 さらに、地域ベースのvlfmとtsdfの強みをシームレスに組み合わせ、オブジェクト概念とオープンワールドセマンティクスを含むリアルタイム3dシーン理解を促進する。 私たちは、プロジェクトのページでデモを見るよう読者に勧めています。

Precise 3D environmental mapping is pivotal in robotics. Existing methods often rely on predefined concepts during training or are time-intensive when generating semantic maps. This paper presents Open-Fusion, a groundbreaking approach for real-time open-vocabulary 3D mapping and queryable scene representation using RGB-D data. Open-Fusion harnesses the power of a pre-trained vision-language foundation model (VLFM) for open-set semantic comprehension and employs the Truncated Signed Distance Function (TSDF) for swift 3D scene reconstruction. By leveraging the VLFM, we extract region-based embeddings and their associated confidence maps. These are then integrated with 3D knowledge from TSDF using an enhanced Hungarian-based feature-matching mechanism. Notably, Open-Fusion delivers outstanding annotation-free 3D segmentation for open-vocabulary without necessitating additional 3D training. Benchmark tests on the ScanNet dataset against leading zero-shot methods highlight Open-Fusion's superiority. Furthermore, it seamlessly combines the strengths of region-based VLFM and TSDF, facilitating real-time 3D scene comprehension that includes object concepts and open-world semantics. We encourage the readers to view the demos on our project page: https://uark-aicv.github.io/OpenFusion
翻訳日:2023-10-10 06:12:57 公開日:2023-10-05
# 効率的なコンテンツベース時系列検索システム

An Efficient Content-based Time Series Retrieval System ( http://arxiv.org/abs/2310.03919v1 )

ライセンス: Link先を確認
Chin-Chia Michael Yeh, Huiyuan Chen, Xin Dai, Yan Zheng, Junpeng Wang, Vivian Lai, Yujie Fan, Audrey Der, Zhongfang Zhuang, Liang Wang, Wei Zhang, Jeff M. Phillips(参考訳) コンテンツベースの時系列検索システム(CTSR)は、金融、医療、製造業など複数の分野から出現した時系列と対話するための情報検索システムである。 例えば、時系列のソースについてもっと知りたいユーザは、CTSRシステムにクエリとして時系列を送信し、関連する時系列のリストと関連するメタデータを検索することができる。 検索したメタデータを分析することで、ユーザは時系列のソースに関するより多くの情報を集めることができる。 ctsrシステムは様々な領域の時系列データを扱う必要があるため、異なる時系列間の類似性を効果的に測定するための高容量モデルが必要である。 それに加えて、CTSRシステム内のモデルでは、ユーザがリアルタイムでシステムと対話するときに、類似度スコアを効率的に計算する必要がある。 本稿では,有効な推論ランタイムを提供しつつ,代替モデルを上回る効率的なctsrモデルを提案する。 ビジネス問題の解決における提案手法の有効性を示すため,本手法を社内トランザクションデータを用いた代替モデルと比較した。 その結果,提案モデルがトランザクションデータ問題に対して,他のモデルと比較して最も適したソリューションであることが判明した。

A Content-based Time Series Retrieval (CTSR) system is an information retrieval system for users to interact with time series emerged from multiple domains, such as finance, healthcare, and manufacturing. For example, users seeking to learn more about the source of a time series can submit the time series as a query to the CTSR system and retrieve a list of relevant time series with associated metadata. By analyzing the retrieved metadata, users can gather more information about the source of the time series. Because the CTSR system is required to work with time series data from diverse domains, it needs a high-capacity model to effectively measure the similarity between different time series. On top of that, the model within the CTSR system has to compute the similarity scores in an efficient manner as the users interact with the system in real-time. In this paper, we propose an effective and efficient CTSR model that outperforms alternative models, while still providing reasonable inference runtimes. To demonstrate the capability of the proposed method in solving business problems, we compare it against alternative models using our in-house transaction data. Our findings reveal that the proposed model is the most suitable solution compared to others for our transaction data problem.
翻訳日:2023-10-10 06:12:37 公開日:2023-10-05
# 時系列データの基礎モデルに向けて

Toward a Foundation Model for Time Series Data ( http://arxiv.org/abs/2310.03916v1 )

ライセンス: Link先を確認
Chin-Chia Michael Yeh, Xin Dai, Huiyuan Chen, Yan Zheng, Yujie Fan, Audrey Der, Vivian Lai, Zhongfang Zhuang, Junpeng Wang, Liang Wang, Wei Zhang(参考訳) ファンデーションモデルは、大規模で多様なデータセットに基づいてトレーニングされた機械学習モデルであり、一般的には、さまざまな下流タスクに適応可能な、自己教師付き学習ベースの事前学習技術を使用する。 しかしながら、現在の時系列事前トレーニングの研究は、主に単一のドメインのデータのみに基づいて事前トレーニングされたモデルに重点を置いているため、他のタイプの時系列に関する知識が不足している。 しかしながら、時系列事前学習に関する現在の研究は、主に単一のドメインのデータにのみ訓練されたモデルに焦点を当てている。 その結果、これらのモデルはドメイン固有の知識を持ち、他のドメインから時系列に簡単に転送できない。 本稿では,複数の領域からラベルなしサンプルを活用し,効率的な時系列基礎モデルの構築を目指す。 そこで本研究では,公開したudrアーカイブを再利用し,既存の自己教師あり学習に基づく事前学習手法4つと新しい手法をデータセット上で評価した。 これらの手法を4つのニューラルネットワークアーキテクチャを用いて時系列で検証し、事前学習手法が異なるネットワーク設計とどのように相互作用するかを理解する。 実験結果から, 微調整プロセスの収束性を高めることにより, 事前学習が下流分類タスクを改善することが示された。 さらに,提案手法をTransformerモデルと組み合わせた場合,提案手法が提案手法よりも優れていることがわかった。

A foundation model is a machine learning model trained on a large and diverse set of data, typically using self-supervised learning-based pre-training techniques, that can be adapted to various downstream tasks. However, current research on time series pre-training has mostly focused on models pre-trained solely on data from a single domain, resulting in a lack of knowledge about other types of time series. However, current research on time series pre-training has predominantly focused on models trained exclusively on data from a single domain. As a result, these models possess domain-specific knowledge that may not be easily transferable to time series from other domains. In this paper, we aim to develop an effective time series foundation model by leveraging unlabeled samples from multiple domains. To achieve this, we repurposed the publicly available UCR Archive and evaluated four existing self-supervised learning-based pre-training methods, along with a novel method, on the datasets. We tested these methods using four popular neural network architectures for time series to understand how the pre-training methods interact with different network designs. Our experimental results show that pre-training improves downstream classification tasks by enhancing the convergence of the fine-tuning process. Furthermore, we found that the proposed pre-training method, when combined with the Transformer model, outperforms the alternatives.
翻訳日:2023-10-10 06:12:18 公開日:2023-10-05
# ロバスト閉ループ制御のための低域とスパースリカレント接続性の改善

Leveraging Low-Rank and Sparse Recurrent Connectivity for Robust Closed-Loop Control ( http://arxiv.org/abs/2310.03915v1 )

ライセンス: Link先を確認
Neehal Tumma, Mathias Lechner, Noel Loo, Ramin Hasani, Daniela Rus(参考訳) 変化する環境と対話できる自律エージェントの開発は、機械学習におけるオープンな課題である。 エージェントは、しばしば専門家のデモンストレーションにオフラインで適合するが、環境内のクローズドフィードバックループに一般化しなくてはならないオンラインにデプロイされるため、これらの設定では特に重要である。 本研究では,この性質のタスクに対する再帰ニューラルネットワークの応用について検討し,その再帰接続のパラメータ化がクローズドループ設定におけるロバスト性にどのように影響するかを理解する。 具体的には、リカレント接続をランクとスパーシティの関数として表現し、これらの2変数の変調がネットワーク力学に望ましい影響があることを理論的および経験的に示す。 提案されている低ランクなスパース接続は、ネットワークに先立って解釈可能であり、クローズドフォーム連続時間ニューラルネットワーク(cfcs)として知られるモデル群にとって最も快適であることが証明される。 パラメータが少ないCfCは、分散シフトのオンライン設定において、フルランクで完全に接続されたCfCよりも優れていることが分かりました。 これにより、メモリ効率とロバストなエージェントが生まれ、接続を通じてネットワークのダイナミクスを制御できる新しい視点が開かれる。

Developing autonomous agents that can interact with changing environments is an open challenge in machine learning. Robustness is particularly important in these settings as agents are often fit offline on expert demonstrations but deployed online where they must generalize to the closed feedback loop within the environment. In this work, we explore the application of recurrent neural networks to tasks of this nature and understand how a parameterization of their recurrent connectivity influences robustness in closed-loop settings. Specifically, we represent the recurrent connectivity as a function of rank and sparsity and show both theoretically and empirically that modulating these two variables has desirable effects on network dynamics. The proposed low-rank, sparse connectivity induces an interpretable prior on the network that proves to be most amenable for a class of models known as closed-form continuous-time neural networks (CfCs). We find that CfCs with fewer parameters can outperform their full-rank, fully-connected counterparts in the online setting under distribution shift. This yields memory-efficient and robust agents while opening a new perspective on how we can modulate network dynamics through connectivity.
翻訳日:2023-10-10 06:11:55 公開日:2023-10-05
# メタモデリングによるリガンド-タンパク質結合親和性の予測

Improved prediction of ligand-protein binding affinities by meta-modeling ( http://arxiv.org/abs/2310.03946v1 )

ライセンス: Link先を確認
Ho-Joon Lee, Prashant S. Emani, and Mark B. Gerstein(参考訳) 計算的アプローチによる標的タンパク質に対する候補薬物リガンドの正確なスクリーニングは、潜在的な候補をフィルタリングすることで、薬物発見の時間と費用を節約できるため、医薬品開発に最も関心がある。 このような仮想スクリーニングは、リガンドとタンパク質の結合親和性を予測する方法に依存する。 そこで本研究では, 実験的な構造に基づくドッキングとシーケンスに基づくディープラーニングモデルを統合することで, ターゲット毎に異なる結果とアフィニティ予測を結合する多くの計算モデルを構築した。 このフレームワークの構築において、個々のモデル、データベースのトレーニング、線形および非線形メタモデリングアプローチの多くの組み合わせを評価する。 メタモデルの多くは、個々のベースモデルに対する親和性予測を大幅に改善している。 私たちの最高のメタモデルは、構造ベースのディープラーニングツールに匹敵するパフォーマンスを実現しています。 本研究では, 物理化学的特性や分子ディスクリプタなどの入力特性を制御しながら, 結合親和性予測の大幅な向上を図るために, 多様なモデリング手法を組み合せることを示した。

The accurate screening of candidate drug ligands against target proteins through computational approaches is of prime interest to drug development efforts, as filtering potential candidates would save time and expenses for finding drugs. Such virtual screening depends in part on methods to predict the binding affinity between ligands and proteins. Given many computational models for binding affinity prediction with varying results across targets, we herein develop a meta-modeling framework by integrating published empirical structure-based docking and sequence-based deep learning models. In building this framework, we evaluate many combinations of individual models, training databases, and linear and nonlinear meta-modeling approaches. We show that many of our meta-models significantly improve affinity predictions over individual base models. Our best meta-models achieve comparable performance to state-of-the-art exclusively structure-based deep learning tools. Overall, we demonstrate that diverse modeling approaches can be ensembled together to gain substantial improvement in binding affinity prediction while allowing control over input features such as physicochemical properties or molecular descriptors.
翻訳日:2023-10-10 04:06:53 公開日:2023-10-05
# ランダムベクトルのアフィン変換に対するワッサーシュタイン距離について

On Wasserstein distances for affine transformations of random vectors ( http://arxiv.org/abs/2310.03945v1 )

ライセンス: Link先を確認
Keaton Hamm, Andrzej Korzeniowski(参考訳) 我々は、$\mathbb{R}^n$ のランダムベクトル間の二次ワッサーシュタイン距離の既知の下界について、ワッサーシュタイン空間におけるデータの多様体学習で用いられるアフィン変換に重点を置いて述べる。 特に、共分散行列の間のバーズ計量を計算し、非相関成分を持つ$\mathbb{r}^2$ のランダムベクトルの回転したコピーに対する具体的な下限を与える。 また、初期データ測度に適用された有益な微分同相写像を生成するアフィン写像の合成に対する上限も導出する。 これらの境界を、$\mathbb{r}^2$ の 1-次元多様体上のものを含む様々な分布に適用し、境界の品質を示す。 最後に、多様体学習フレームワークに適用可能な手書きの数字やアルファベットのデータセットを模倣するフレームワークを提供する。

We expound on some known lower bounds of the quadratic Wasserstein distance between random vectors in $\mathbb{R}^n$ with an emphasis on affine transformations that have been used in manifold learning of data in Wasserstein space. In particular, we give concrete lower bounds for rotated copies of random vectors in $\mathbb{R}^2$ with uncorrelated components by computing the Bures metric between the covariance matrices. We also derive upper bounds for compositions of affine maps which yield a fruitful variety of diffeomorphisms applied to an initial data measure. We apply these bounds to various distributions including those lying on a 1-dimensional manifold in $\mathbb{R}^2$ and illustrate the quality of the bounds. Finally, we give a framework for mimicking handwritten digit or alphabet datasets that can be applied in a manifold learning framework.
翻訳日:2023-10-10 04:06:36 公開日:2023-10-05
# 量子ビットとゲートグラフ分割による分散量子コンピューティングを目指して

Towards Distributed Quantum Computing by Qubit and Gate Graph Partitioning Techniques ( http://arxiv.org/abs/2310.03942v1 )

ライセンス: Link先を確認
Marc Grau Davis, Joaquin Chung, Dirk Englund, Rajkumar Kettimuthu(参考訳) 分散量子コンピューティングは、大規模で個々の量子コンピュータを構築するのが難しいことが動機である。 この問題を解決するため、大きな量子回路を分割して小さな量子コンピュータに分散して実行する。 異なる量子コンピュータ上で動作するパーティションは、絡み合ったベルペアを使って量子情報を共有する。 しかし、絡み合いの生成と浄化は、分散量子コンピューティングにおけるランタイムとメモリオーバーヘッドの両方をもたらす。 本稿では,大きな量子回路を分割し,小さな量子コンピュータに分配する2つの手法を提案する。 我々の技術は量子回路をグラフ表現にマッピングする。 本稿では,ゲートテレポーテーションのみを考慮した方法と,ゲートと状態テレポーテーションの両方を考慮した分散実行を実現する方法について検討する。 次に、metisグラフ分割アルゴリズムを適用し、その分割とそれらの間の絡み合い要求数を求める。 本稿では,SeQUeNCe量子通信シミュレータを用いて,分散回路の実行に必要なすべての絡み合いを生成するのに必要な時間を測定する。 最適なパーティショニング手法は、特定の関心回路に依存することが判明した。

Distributed quantum computing is motivated by the difficulty in building large-scale, individual quantum computers. To solve that problem, a large quantum circuit is partitioned and distributed to small quantum computers for execution. Partitions running on different quantum computers share quantum information using entangled Bell pairs. However, entanglement generation and purification introduces both a runtime and memory overhead on distributed quantum computing. In this paper we study that trade-off by proposing two techniques for partitioning large quantum circuits and for distribution to small quantum computers. Our techniques map a quantum circuit to a graph representation. We study two approaches: one that considers only gate teleportation, and another that considers both gate and state teleportation to achieve the distributed execution. Then we apply the METIS graph partitioning algorithm to obtain the partitions and the number of entanglement requests between them. We use the SeQUeNCe quantum communication simulator to measure the time required for generating all the entanglements required to execute the distributed circuit. We find that the best partitioning technique will depend on the specific circuit of interest.
翻訳日:2023-10-10 04:06:20 公開日:2023-10-05
# LaTeX:パンデミック中の逆体験のための言語パターン対応トリガイベント検出

LaTeX: Language Pattern-aware Triggering Event Detection for Adverse Experience during Pandemics ( http://arxiv.org/abs/2310.03941v1 )

ライセンス: Link先を確認
Kaiqun Fu, Yangxiao Bai, Weiwei Zhang, Deepthi Kolady(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、米国の様々な人種と民族の社会経済的格差を強調させた。 従来,家計パルスサーベイ(HPS)のような従来の調査手法を用いてこれらの格差を解明してきたが,本稿ではこれらの課題の強調と対処におけるソーシャルメディアプラットフォームの役割について検討する。 twitterから収集したリアルタイムデータから、雇用所得の喪失(li)、食品不足(fs)、住宅安全(hi)、精神保健サービス(um)の未熟なニーズという4つの主な有害体験に関連する言語パターンを分析した。 まず,ソーシャルメディアのデータソースから低レベル言語特徴を抽出するスパーシティ最適化問題を定式化する。 次に,先行する言語パターンの類似性に関する知識を生かした特徴類似性に関する新たな制約を提案する。 提案法は,非凸性目的および非滑らか性罰則により解決が困難である。 本稿では,乗算器の交互方向法(ADMM)に基づくアルゴリズムを開発し,提案した定式化を解く。 実世界のソーシャルメディアにおける他のモデルとの広範な実験と比較と,モデルの有効性を正当化する悪質な経験の検出。

The COVID-19 pandemic has accentuated socioeconomic disparities across various racial and ethnic groups in the United States. While previous studies have utilized traditional survey methods like the Household Pulse Survey (HPS) to elucidate these disparities, this paper explores the role of social media platforms in both highlighting and addressing these challenges. Drawing from real-time data sourced from Twitter, we analyzed language patterns related to four major types of adverse experiences: loss of employment income (LI), food scarcity (FS), housing insecurity (HI), and unmet needs for mental health services (UM). We first formulate a sparsity optimization problem that extracts low-level language features from social media data sources. Second, we propose novel constraints on feature similarity exploiting prior knowledge about the similarity of the language patterns among the adverse experiences. The proposed problem is challenging to solve due to the non-convexity objective and non-smoothness penalties. We develop an algorithm based on the alternating direction method of multipliers (ADMM) framework to solve the proposed formulation. Extensive experiments and comparisons to other models on real-world social media and the detection of adverse experiences justify the efficacy of our model.
翻訳日:2023-10-10 04:06:06 公開日:2023-10-05
# コントラスト学習のためのハードビュー選択

Hard View Selection for Contrastive Learning ( http://arxiv.org/abs/2310.03940v1 )

ライセンス: Link先を確認
Fabio Ferreira, Ivo Rapant, Frank Hutter(参考訳) 多くのコントラスト学習(cl)法は、良いデータ拡張パイプラインが重要である画像入力の異なる「ビュー」に不変であるようにモデルを訓練する。 プリテキストタスク、アーキテクチャ、ロバスト性の改善(例えば、シームズネットワークや教師ソフトマックス中心化など)にかなりの努力が払われたが、これらの手法の大半は、ランダムな再サイズ作物や色歪み操作のような画像拡張パイプライン内の操作のランダムサンプリングに強く依存している。 本稿では,ビュー生成の役割とそのパフォーマンスへの影響が,これまでのところ十分注目されていないことを論じる。 これに対処するために,clトレーニング中にトレーニング済みモデルをより難しいサンプルに公開するために,ランダムビュー生成を拡張するように設計された,簡単で学習不要かつ強力なハードビュー選択(hvs)戦略を提案する。 以下の反復的なステップを含む。 1)複数のビューをランダムにサンプリングし、2つのビューのペアを作成する。 2) トレーニング済みのモデルでは,ビューペアごとに前方パスを実行します。 3) 反対に,最悪の損失をもたらすペアを選択し, 4) 選択したペアで後方パスを実行する。 実験分析の結果,hvsでは,事前学習中のビューの結合を制御し,タスクの難易度を高めることが示された。 300-epochプリトレインのみにより、hvsは800-epoch dinoベースラインと密接に競合することができ、これはhvsの追加のフォワードによって引き起こされる減速の要因としても非常に有利である。 さらに、HVSは、線形評価とDINO、SimSiam、SimCLRなどの複数のCLメソッド間の転送タスクにおける同様の改善で、イメージネットの0.55%から1.9%の精度の改善を一貫して達成している。

Many Contrastive Learning (CL) methods train their models to be invariant to different "views" of an image input for which a good data augmentation pipeline is crucial. While considerable efforts were directed towards improving pre-text tasks, architectures, or robustness (e.g., Siamese networks or teacher-softmax centering), the majority of these methods remain strongly reliant on the random sampling of operations within the image augmentation pipeline, such as the random resized crop or color distortion operation. In this paper, we argue that the role of the view generation and its effect on performance has so far received insufficient attention. To address this, we propose an easy, learning-free, yet powerful Hard View Selection (HVS) strategy designed to extend the random view generation to expose the pretrained model to harder samples during CL training. It encompasses the following iterative steps: 1) randomly sample multiple views and create pairs of two views, 2) run forward passes for each view pair on the currently trained model, 3) adversarially select the pair yielding the worst loss, and 4) run the backward pass with the selected pair. In our empirical analysis we show that under the hood, HVS increases task difficulty by controlling the Intersection over Union of views during pretraining. With only 300-epoch pretraining, HVS is able to closely rival the 800-epoch DINO baseline which remains very favorable even when factoring in the slowdown induced by the additional forwards of HVS. Additionally, HVS consistently achieves accuracy improvements on ImageNet between 0.55% and 1.9% on linear evaluation and similar improvements on transfer tasks across multiple CL methods, such as DINO, SimSiam, and SimCLR.
翻訳日:2023-10-10 04:05:46 公開日:2023-10-05
# マスクオーディオ学習者の拡散モデル

Diffusion Models as Masked Audio-Video Learners ( http://arxiv.org/abs/2310.03937v1 )

ライセンス: Link先を確認
Elvis Nunez, Yanzi Jin, Mohammad Rastegari, Sachin Mehta, Maxwell Horton(参考訳) 過去数年間、音声と視覚信号の同期を利用してよりリッチな視覚表現を学習してきた。 多くの教師なしのトレーニングフレームワークは、ラベルなしのビデオの大量利用を助長し、下流の様々なオーディオとビデオのタスクで印象的な結果を示している。 近年,Masked Audio-Video Learners (MAViL) が最先端のオーディオビデオ事前学習フレームワークとして登場した。 MAViLは、マスク付きオートエンコーディングと対照的な学習を結合し、両方のモダリティからの情報を融合することで、オーディオスペクトログラムとビデオフレームを共同で再構成する。 本稿では,拡散モデルとMAViLの相乗効果について検討し,これら2つのフレームワークの相互利益を導出する。 MAViLへの拡散は、マスキング比のカリキュラムと適応バッチサイズの利用を含む様々な訓練効率の手法と組み合わせて、トレーニング前浮動小数点演算(FLOPS)の顕著な32%の削減と、トレーニング前壁時計時間の18%の削減をもたらす。 重要なことに、この強化された効率は、MAViLの性能と比較して下流オーディオ分類タスクにおけるモデルの性能を損なうことはない。

Over the past several years, the synchronization between audio and visual signals has been leveraged to learn richer audio-visual representations. Aided by the large availability of unlabeled videos, many unsupervised training frameworks have demonstrated impressive results in various downstream audio and video tasks. Recently, Masked Audio-Video Learners (MAViL) has emerged as a state-of-the-art audio-video pre-training framework. MAViL couples contrastive learning with masked autoencoding to jointly reconstruct audio spectrograms and video frames by fusing information from both modalities. In this paper, we study the potential synergy between diffusion models and MAViL, seeking to derive mutual benefits from these two frameworks. The incorporation of diffusion into MAViL, combined with various training efficiency methodologies that include the utilization of a masking ratio curriculum and adaptive batch sizing, results in a notable 32% reduction in pre-training Floating-Point Operations (FLOPS) and an 18% decrease in pre-training wall clock time. Crucially, this enhanced efficiency does not compromise the model's performance in downstream audio-classification tasks when compared to MAViL's performance.
翻訳日:2023-10-10 04:05:17 公開日:2023-10-05
# スマートMOPを用いたスウィーピング不均一性:LLMタスク適応のためのプロンプトの混合

Sweeping Heterogeneity with Smart MoPs: Mixture of Prompts for LLM Task Adaptation ( http://arxiv.org/abs/2310.02842v2 )

ライセンス: Link先を確認
Chen Dun, Mirian Hipolito Garcia, Guoqing Zheng, Ahmed Hassan Awadallah, Anastasios Kyrillidis, Robert Sim(参考訳) 大規模言語モデル(LLM)は、テキスト要約や数学的問題など、さまざまなタスクをすぐに解決できる能力を持っているが、それらは単一のタスクを念頭に置いて訓練されることが多い。 計算コストが高いため、現在のトレンドは、プロンプトインストラクションチューニングを使用して、モノリシックで事前訓練されたLLMを、新しい-しかししばしば個別の-下流タスクのためによりよく調整することである。 したがって、いかにプロンプトチューニングを -- 同時的に - ヘテロジェンスなタスクとデータ分散を扱うように拡張するかは、広くオープンな疑問である。 このギャップに対処するために、スマートゲーティング機能に関連する「emph{Mixture of Prompts}」または「MoPs」の使用を提案する。後者は、この論文のコントリビューションの1つであるデザインで、異なるグループに埋め込まれた関連するスキルを特定し、ターゲットタスクに基づいて、統合された専門家(すなわち、プロンプトの収集)を動的に割り当てることができる。 さらに、MoPは(効率上の理由から)適用されたモデル圧縮技術や、命令データソースやタスクコンポジションを経験的に知らない。 実際には、mopsはマルチタスク、マルチソースシナリオ(例えば、ソース間のタスクとデータの不均一性)におけるプロンプトトレーニングの"干渉"を緩和すると同時に、モデルの近似による影響も軽減できる。 強調として、MoPsは最終的な難易度を、ベースラインと比較して$\sim20\%$から$\sim70\%$に下げ、中央集権シナリオでは$\sim 3\%$から$\sim30\%$に下げる。

Large Language Models (LLMs) have the ability to solve a variety of tasks, such as text summarization and mathematical questions, just out of the box, but they are often trained with a single task in mind. Due to high computational costs, the current trend is to use prompt instruction tuning to better adjust monolithic, pretrained LLMs for new -- but often individual -- downstream tasks. Thus, how one would expand prompt tuning to handle -- concomitantly -- heterogeneous tasks and data distributions is a widely open question. To address this gap, we suggest the use of \emph{Mixture of Prompts}, or MoPs, associated with smart gating functionality: the latter -- whose design is one of the contributions of this paper -- can identify relevant skills embedded in different groups of prompts and dynamically assign combined experts (i.e., collection of prompts), based on the target task. Additionally, MoPs are empirically agnostic to any model compression technique applied -- for efficiency reasons -- as well as instruction data source and task composition. In practice, MoPs can simultaneously mitigate prompt training "interference" in multi-task, multi-source scenarios (e.g., task and data heterogeneity across sources), as well as possible implications from model approximations. As a highlight, MoPs manage to decrease final perplexity from $\sim20\%$ up to $\sim70\%$, as compared to baselines, in the federated scenario, and from $\sim 3\%$ up to $\sim30\%$ in the centralized scenario.
翻訳日:2023-10-09 10:30:53 公開日:2023-10-05
# USB-NeRF: シャッターバンドル調整ニューラルラジアンスフィールドの展開

USB-NeRF: Unrolling Shutter Bundle Adjusted Neural Radiance Fields ( http://arxiv.org/abs/2310.02687v2 )

ライセンス: Link先を確認
Moyang Li, Peng Wang, Lingzhe Zhao, Bangyan Liao and Peidong Liu(参考訳) neural radiance fields (nerf)は、3dシーンを表現し、新しいビューイメージを合成する素晴らしい能力により、近年注目を集めている。 既存の作業は通常、入力画像がグローバルシャッターカメラによってキャプチャされると仮定する。 したがって、ローリングシャッター(RS)画像は、新規なビュー合成のための既製のNeRFアルゴリズムに自明に適用できない。 ローリングシャッター効果はカメラポーズ推定の精度にも影響し(例えばCOLMAP)、RS画像によるNeRFアルゴリズムの成功をさらに防ぐことができる。 本稿では,USB-NeRF(Unrolling Shutter Bundle Adjusted Neural Radiance Fields)を提案する。 USB-NeRFは、RSカメラの物理的画像形成過程をモデル化することにより、回転シャッター歪みを補正し、NeRFの枠組みの下で同時に正確なカメラ運動軌跡を復元することができる。 実験結果から, RS効果除去, 新規視像合成, カメラモーション推定の両面で, USB-NeRFは従来よりも優れた性能を示した。 さらに,我々のアルゴリズムは,RS画像から高忠実度高フレームレートグローバルシャッター映像の復元にも利用できる。

Neural Radiance Fields (NeRF) has received much attention recently due to its impressive capability to represent 3D scene and synthesize novel view images. Existing works usually assume that the input images are captured by a global shutter camera. Thus, rolling shutter (RS) images cannot be trivially applied to an off-the-shelf NeRF algorithm for novel view synthesis. Rolling shutter effect would also affect the accuracy of the camera pose estimation (e.g. via COLMAP), which further prevents the success of NeRF algorithm with RS images. In this paper, we propose Unrolling Shutter Bundle Adjusted Neural Radiance Fields (USB-NeRF). USB-NeRF is able to correct rolling shutter distortions and recover accurate camera motion trajectory simultaneously under the framework of NeRF, by modeling the physical image formation process of a RS camera. Experimental results demonstrate that USB-NeRF achieves better performance compared to prior works, in terms of RS effect removal, novel view image synthesis as well as camera motion estimation. Furthermore, our algorithm can also be used to recover high-fidelity high frame-rate global shutter video from a sequence of RS images.
翻訳日:2023-10-09 10:30:16 公開日:2023-10-05
# MedDiffusion:拡散に基づくデータ拡張による健康リスク予測の促進

MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data Augmentation ( http://arxiv.org/abs/2310.02520v2 )

ライセンス: Link先を確認
Yuan Zhong, Suhan Cui, Jiaqi Wang, Xiaochen Wang, Ziyi Yin, Yaqing Wang, Houping Xiao, Mengdi Huai, Ting Wang, Fenglong Ma(参考訳) 健康リスク予測(Health Risk Prediction)は、医療領域における予測モデルの基本課題の一つであり、患者が将来直面する可能性のある健康リスクを、電子健康記録(EHR)を用いて予測することを目的としている。 研究者は、そのシーケンシャルな性質、高次元性、固有のノイズなど、EHRデータのユニークな課題を扱うために、いくつかのリスク予測モデルを開発した。 これらのモデルは印象的な結果をもたらした。 それでも、その効果を損なう重要な問題はデータ不足である。 基礎となるデータ分布の学習を通じて、トレーニングデータセットのサイズを拡大することにより、この問題を軽減するために、さまざまなデータ生成および拡張手法が導入されている。 しかし,これらの手法の性能はタスク非関連設計によって制限されることが多い。 これらの欠点に対処するため,本研究では,MedDiffusion という新たな拡散に基づくリスク予測モデルを提案する。 トレーニング中に合成患者データを作成してサンプル空間を拡大することにより、リスク予測性能を向上させる。 さらにmeddiffusionは、ステップワイズ・アテンション(step-wise attention)機構を用いて、患者の訪問間の隠れた関係を識別し、高品質データを生成する上で最も重要な情報を自動保持する。 4つの実世界の医療データセットに対する実験的評価は、MedDiffusionがPR-AUC、F1、Cohen's Kappaで14の最先端ベースラインを上回っていることを示している。 また、モデル設計の合理性と適応性をさらに検証するため、GANベースの代替案に対してアブレーション研究を行い、モデルをベンチマークする。 さらに,生成されたデータを分析し,モデルの解釈可能性に関する新たな洞察を提供する。

Health risk prediction is one of the fundamental tasks under predictive modeling in the medical domain, which aims to forecast the potential health risks that patients may face in the future using their historical Electronic Health Records (EHR). Researchers have developed several risk prediction models to handle the unique challenges of EHR data, such as its sequential nature, high dimensionality, and inherent noise. These models have yielded impressive results. Nonetheless, a key issue undermining their effectiveness is data insufficiency. A variety of data generation and augmentation methods have been introduced to mitigate this issue by expanding the size of the training data set through the learning of underlying data distributions. However, the performance of these methods is often limited due to their task-unrelated design. To address these shortcomings, this paper introduces a novel, end-to-end diffusion-based risk prediction model, named MedDiffusion. It enhances risk prediction performance by creating synthetic patient data during training to enlarge sample space. Furthermore, MedDiffusion discerns hidden relationships between patient visits using a step-wise attention mechanism, enabling the model to automatically retain the most vital information for generating high-quality data. Experimental evaluation on four real-world medical datasets demonstrates that MedDiffusion outperforms 14 cutting-edge baselines in terms of PR-AUC, F1, and Cohen's Kappa. We also conduct ablation studies and benchmark our model against GAN-based alternatives to further validate the rationality and adaptability of our model design. Additionally, we analyze generated data to offer fresh insights into the model's interpretability.
翻訳日:2023-10-09 10:29:54 公開日:2023-10-05
# MCPを用いたグラフラプラシアン学習

Learning Graph Laplacian with MCP ( http://arxiv.org/abs/2010.11559v2 )

ライセンス: Link先を確認
Yangjing Zhang, Kim-Chuan Toh, Defeng Sun(参考訳) 我々は,非凸ペナルティであるミニマックス・コンケーブペナルティ(MCP)でラプラシアン制約の下でグラフを学習する問題を考察する。 MCPペナル化グラフィカルモデルの解法として,不正確な近位差分法(DCA)を設計し,その臨界点への収束性を証明する。 近似 DCA の各部分プロブレムは、その双対問題における目的関数が半滑らか勾配で連続的に微分可能であるという良好な性質を享受する。 したがって, 効率的なセミムースニュートン法を近位dcaのサブプロブレムに適用する。 各種合成データと実データを用いた数値実験により,非凸ペナルティmcpの有効性が示された。 既存の最先端手法と比較して,本手法はmcpを用いたグラフラプラシアン学習において効率的かつ信頼性が高いことが証明された。

We consider the problem of learning a graph under the Laplacian constraint with a non-convex penalty: minimax concave penalty (MCP). For solving the MCP penalized graphical model, we design an inexact proximal difference-of-convex algorithm (DCA) and prove its convergence to critical points. We note that each subproblem of the proximal DCA enjoys the nice property that the objective function in its dual problem is continuously differentiable with a semismooth gradient. Therefore, we apply an efficient semismooth Newton method to subproblems of the proximal DCA. Numerical experiments on various synthetic and real data sets demonstrate the effectiveness of the non-convex penalty MCP in promoting sparsity. Compared with the existing state-of-the-art method, our method is demonstrated to be more efficient and reliable for learning graph Laplacian with MCP.
翻訳日:2023-10-06 23:50:07 公開日:2023-10-05
# データの粒度をまたぐリンク:多変量ホークプロセスと部分的間隔補正データ

Linking Across Data Granularity: Fitting Multivariate Hawkes Processes to Partially Interval-Censored Data ( http://arxiv.org/abs/2111.02062v3 )

ライセンス: Link先を確認
Pio Calderon, Alexander Soen, Marian-Andrei Rizoiu(参考訳) 多変量ホークスプロセス (multivariate hawkes process, mhp) は、互いに相互作用するデータストリームの分析に広く用いられ、そこではイベントが自身の次元内で(自励を通じて)新しいイベントを生成する。 しかし、特定の応用において、ある次元における個々の事象のタイムスタンプは観測不能であり、区間内の事象カウントのみが知られている。 MHPは、その推定にはイベントタイムスタンプを必要とするため、そのようなデータを扱うには適していない。 本研究では,mhpとパラメータ等価性を共有し,タイムスタンプデータと区間検閲データの両方を効果的にモデル化できる新しい点法である部分平均行動ポアソン法(pmbp法)を提案する。 合成および実世界のデータセットを用いたPMBPプロセスの能力を実証する。 まず,PMBPプロセスがMHPパラメータを近似し,合成事象履歴を用いてスペクトル半径を復元できることを示す。 次に、PMBPプロセスがYouTubeの人気を予測し、最先端の手法を超越していることを示す。 最後に、PMBPプロセスを利用して、複数の国から毎日の新型コロナウイルス感染者数と、その関連ニュース記事からなるデータセットから質的な洞察を得る。 PMBPをモデルとした国をクラスタ化することで、COVID-19の発生とニュースレポートとの間に隠れた相互作用パターンを明らかにする。

The multivariate Hawkes process (MHP) is widely used for analyzing data streams that interact with each other, where events generate new events within their own dimension (via self-excitation) or across different dimensions (via cross-excitation). However, in certain applications, the timestamps of individual events in some dimensions are unobservable, and only event counts within intervals are known, referred to as partially interval-censored data. The MHP is unsuitable for handling such data since its estimation requires event timestamps. In this study, we introduce the Partial Mean Behavior Poisson (PMBP) process, a novel point process which shares parameter equivalence with the MHP and can effectively model both timestamped and interval-censored data. We demonstrate the capabilities of the PMBP process using synthetic and real-world datasets. Firstly, we illustrate that the PMBP process can approximate MHP parameters and recover the spectral radius using synthetic event histories. Next, we assess the performance of the PMBP process in predicting YouTube popularity and find that it surpasses state-of-the-art methods. Lastly, we leverage the PMBP process to gain qualitative insights from a dataset comprising daily COVID-19 case counts from multiple countries and COVID-19-related news articles. By clustering the PMBP-modeled countries, we unveil hidden interaction patterns between occurrences of COVID-19 cases and news reporting.
翻訳日:2023-10-06 23:46:42 公開日:2023-10-05
# Colossal-AI:大規模並列トレーニングのための統合型ディープラーニングシステム

Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel Training ( http://arxiv.org/abs/2110.14883v3 )

ライセンス: Link先を確認
Shenggui Li and Hongxin Liu and Zhengda Bian and Jiarui Fang and Haichen Huang and Yuliang Liu and Boxiang Wang and Yang You(参考訳) Transformerモデルの成功により、ディープラーニングモデルのスケールは数十億のパラメータに拡大した。 しかし、単一のgpuのメモリ資源が限られているため、ディープラーニングと並列コンピューティングの両方にドメインの専門知識を必要とするため、最適な並列戦略を選択するためのベストプラクティスはまだ不足している。 Colossal-AIシステムは、モデルトレーニングのシーケンシャルコードを分散環境に拡張するための統一インターフェースを導入することで、上記の課題に対処した。 データ、パイプライン、テンソル、シーケンス並列化などの並列トレーニングメソッドと、ゼロ冗長性オプティマイザと統合された異種トレーニングメソッドをサポートする。 ベースラインシステムと比較すると、colossal-aiは大規模モデルで最大2.76倍のトレーニングスピードアップを達成できる。

The success of Transformer models has pushed the deep learning model scale to billions of parameters. Due to the limited memory resource of a single GPU, However, the best practice for choosing the optimal parallel strategy is still lacking, since it requires domain expertise in both deep learning and parallel computing. The Colossal-AI system addressed the above challenge by introducing a unified interface to scale your sequential code of model training to distributed environments. It supports parallel training methods such as data, pipeline, tensor, and sequence parallelism, as well as heterogeneous training methods integrated with zero redundancy optimizer. Compared to the baseline system, Colossal-AI can achieve up to 2.76 times training speedup on large-scale models.
翻訳日:2023-10-06 23:45:57 公開日:2023-10-05
# 分散SGDにおける差分プライバシーとビザンチンレジリエンスの組み合わせ

Combining Differential Privacy and Byzantine Resilience in Distributed SGD ( http://arxiv.org/abs/2110.03991v4 )

ライセンス: Link先を確認
Rachid Guerraoui, Nirupam Gupta, Rafael Pinot, Sebastien Rouault, and John Stephan(参考訳) プライバシとビザンチンレジリエンス(BR)は、現代の分散機械学習において重要な要件である。 この2つの概念は個別に広く研究されてきたが、どのように組み合わせるかという問題は未解決のままである。 本稿では, 分散sgdアルゴリズムが, 標準パラメータサーバアーキテクチャにおいて, 正確なモデルをどのように学習できるかを検討することで, この問題への対処に寄与する。 (a)悪意のある労働者のごく一部(ビザンチン) b) もう一つは、正直なところ、差分プライバシー(DP)を確保するためにサーバにノイズの多い情報を提供するものである。 まず,DP と BR における標準プラクティスの統合は容易ではないことを考察する。 実際、ビザンチン断層下の分散sgdの収束に関する既存の結果、特に(\alpha,f)$-byzantineレジリエンスに依存するものの多くは、正直な労働者がdpを強制すると無効にされる。 この欠点を回避するために、近似収束保証を得るために$(\alpha,f)$-BRの理論を再検討する。 我々の分析は、ハイパーパラメータ最適化を通じて、この保証を改善するための重要な洞察を提供する。 その結果,(1) dp と br に対する標準的アプローチの無作為な組み合わせは実効性に乏しいが,(2) 学習アルゴリズムを慎重に再調整することで,dp と br を同時に保証しながら,合理的な学習精度が得られることがわかった。

Privacy and Byzantine resilience (BR) are two crucial requirements of modern-day distributed machine learning. The two concepts have been extensively studied individually but the question of how to combine them effectively remains unanswered. This paper contributes to addressing this question by studying the extent to which the distributed SGD algorithm, in the standard parameter-server architecture, can learn an accurate model despite (a) a fraction of the workers being malicious (Byzantine), and (b) the other fraction, whilst being honest, providing noisy information to the server to ensure differential privacy (DP). We first observe that the integration of standard practices in DP and BR is not straightforward. In fact, we show that many existing results on the convergence of distributed SGD under Byzantine faults, especially those relying on $(\alpha,f)$-Byzantine resilience, are rendered invalid when honest workers enforce DP. To circumvent this shortcoming, we revisit the theory of $(\alpha,f)$-BR to obtain an approximate convergence guarantee. Our analysis provides key insights on how to improve this guarantee through hyperparameter optimization. Essentially, our theoretical and empirical results show that (1) an imprudent combination of standard approaches to DP and BR might be fruitless, but (2) by carefully re-tuning the learning algorithm, we can obtain reasonable learning accuracy while simultaneously guaranteeing DP and BR.
翻訳日:2023-10-06 23:45:45 公開日:2023-10-05
# 左クリックリカレントニューラルネットワークによる人間の文処理のモデル化

Modeling Human Sentence Processing with Left-Corner Recurrent Neural Network Grammars ( http://arxiv.org/abs/2109.04939v3 )

ライセンス: Link先を確認
Ryo Yoshida, Hiroshi Noji, Yohei Oseki(参考訳) 計算言語学では、階層構造が言語モデル(LM)をより人間らしくすることが示された。 しかし、以前の文献は階層モデルの解析戦略について無知である。 本稿では,階層構造がLMをより人間らしくするかどうかを考察し,その場合,どの解析戦略が最も認知的に妥当かを検討した。 この問題に対処するため,日本語の読解時間に対して,Long Short-Term Memory (LSTM) を逐次モデルとし,Long Short-Term Memory (LSTM) を階層モデル,Recurrent Neural Network Grammars (RNNGs) を階層モデルとして評価した。 計算モデルにより,左コーン型RNNGはトップダウン型RNNGやLSTMよりも優れており,階層型および左コーン型アーキテクチャの方がトップダウン型アーキテクチャやシーケンシャル型アーキテクチャよりも認知的な可能性が示唆された。 また,認知的妥当性と認知的妥当性の関係 (i)パープレキシティ(perplexity) (ii)パース、及び (iii)ビームサイズについても検討する。

In computational linguistics, it has been shown that hierarchical structures make language models (LMs) more human-like. However, the previous literature has been agnostic about a parsing strategy of the hierarchical models. In this paper, we investigated whether hierarchical structures make LMs more human-like, and if so, which parsing strategy is most cognitively plausible. In order to address this question, we evaluated three LMs against human reading times in Japanese with head-final left-branching structures: Long Short-Term Memory (LSTM) as a sequential model and Recurrent Neural Network Grammars (RNNGs) with top-down and left-corner parsing strategies as hierarchical models. Our computational modeling demonstrated that left-corner RNNGs outperformed top-down RNNGs and LSTM, suggesting that hierarchical and left-corner architectures are more cognitively plausible than top-down or sequential architectures. In addition, the relationships between the cognitive plausibility and (i) perplexity, (ii) parsing, and (iii) beam size will also be discussed.
翻訳日:2023-10-06 23:45:18 公開日:2023-10-05
# 多部交絡は2点連結相関関数によって特徴づけられるか?

Can multipartite entanglement be characterized by two-point connected correlation functions ? ( http://arxiv.org/abs/2108.03605v3 )

ライセンス: Link先を確認
Luca Lepori, Andrea Trombettoni, Domenico Giuliano, Johannes Kombe, Jorge Yago Malo, Andrew J. Daley, Augusto Smerzi, and Maria Luisa Chiofalo(参考訳) 混合量子状態における多部絡み合いは、純粋状態の場合のように、2点連結相関関数によってのみ特徴付けられるかについて議論する。 逆に、後者の相関は(分離された)1点と2点の相関関数の適切な組み合わせによって定義される。 純粋な状態の場合とは対照的に、満足すべき条件はかなり厳しいことが判明した。 しかし、密度行列の可算分解における一点相関の点独立性が有効である場合や、相関に参入する作用素が(半正/負の)定義されている場合など、いくつかの興味深いケースを特定できた。

We discuss under which conditions multipartite entanglement in mixed quantum states can be characterized only in terms of two-point connected correlation functions, as it is the case for pure states. In turn, the latter correlations are defined via a suitable combination of (disconnected) one- and two-point correlation functions. In contrast to the case of pure states, conditions to be satisfied turn out to be rather severe. However, we were able to identify some interesting cases, as when the point-independence is valid of the one-point correlations in each possible decomposition of the density matrix, or when the operators that enter in the correlations are (semi-)positive/negative defined.
翻訳日:2023-10-06 23:44:39 公開日:2023-10-05
# クエンチド量子宇宙論における熱化

Thermalization in Quenched Open Quantum Cosmology ( http://arxiv.org/abs/2104.10692v6 )

ライセンス: Link先を確認
Subhashish Banerjee, Sayantan Choudhury, Satyaki Chowdhury, Johannes Knaute, Sudhakar Panda, K.Shirish(参考訳) 本稿では,古典的重力場における2つのスカラー場間の相互作用を考慮した一般曲線時空におけるカルデイラ・レゲットモデルの量子場論的な一般化について検討する。 次に、経路統合効果から得られる1つのスカラー場モデルから量子クエンチを用いて得られたデ・ジッター溶液から熱化現象を研究する。 我々は、我々の関心分野の時間依存マスプロトコルにおける即時クエンチを考える。 電場後クエンチの力学は一般化されたカラブレス・カーディ (gCC) 形式の状態から説明することができ、この文脈で異なるタイプの2点相関関数を計算した。 我々は、ド・ジッター空間におけるクエンチの後の gcc 状態を表す $w_{\infty}$ algebra の保存電荷を明示的に見出し、平坦な時空結果とは大きく異なることを見出した。 本研究は, プレクエンチ状態を基底状態とするだけでなく, 圧縮状態も考慮して, 異なる2点相関関数について検討する。 プレクエンチ状態によらず, ポストクエンチ状態はGCC状態によって記述でき, 興味のサブシステムがド・ジッター空間で熱化することを示した。 さらに, 熱一般化ギブズアンサンブル (GGE) を考慮し, 2点相関器の一般表現を行い, 熱化過程を明示的に示す。 最後に, 2点相関器で得られた結果の等時間運動量依存性から, パワースペクトルの隠れた特徴を研究し, その量子初期条件の異なる選択に対する影響について検討した。

In this article, we study the quantum field theoretic generalization of the Caldeira-Leggett model in general curved space-time considering interactions between two scalar fields in a classical gravitational background. The thermalization phenomena is then studied from the obtained de Sitter solution using quantum quench from one scalar field model obtained from path integrated effective action. We consider an instantaneous quench in the time-dependent mass protocol of the field of our interest. We find that the dynamics of the field post-quench can be described in terms of the state of the generalized Calabrese-Cardy (gCC) form and computed the different types of two-point correlation functions in this context. We explicitly found the conserved charges of $W_{\infty}$ algebra that represents the gCC state after a quench in de Sitter space and found it to be significantly different from the flat space-time results. We extend our study for the different two-point correlation functions not only considering the pre-quench state as the ground state, but also a squeezed state. We found that irrespective of the pre-quench state, the post quench state can be written in terms of the gCC state showing that the subsystem of our interest thermalizes in de Sitter space. Furthermore, we provide a general expression for the two-point correlators and explicitly show the thermalization process by considering a thermal Generalized Gibbs ensemble (GGE). Finally, from the equal time momentum dependent counterpart of the obtained results for the two-point correlators, we have studied the hidden features of the power spectra and studied its consequences for different choices of the quantum initial conditions.
翻訳日:2023-10-06 23:44:01 公開日:2023-10-05
# 行列表現を用いたリカレントニューラルネットワークのメモリ容量

Memory Capacity of Recurrent Neural Networks with Matrix Representation ( http://arxiv.org/abs/2104.07454v3 )

ライセンス: Link先を確認
Animesh Renanse, Alok Sharma, Rohitash Chandra(参考訳) 長い短期記憶(LSTM)ネットワークでメモリ構造に対処された長期依存学習において、標準リカレントニューラルネットワーク(RNN)が制限に直面していることはよく知られている。 ニューラルチューリングマシン(英: Neural Turing Machine、NTM)は、単純なアルゴリズムタスクを学習できるニューラルネットワークコントローラを備えたプログラマブルコンピュータの概念を実装する新しいRNNである。 行列ニューラルネットワークは、ベクトルベース表現を使用する正準ニューラルネットワークと比較して、データ空間構造を本質的に保存する行列表現を特徴とする。 次に、行列表現を持つニューラルネットワークは、より良いメモリ容量を提供する可能性があると主張するかもしれない。 本稿では,行列ベースRNNにおけるフィッシャー情報に基づくメモリ容量の確率論的概念を定義し,検討する。 様々な仮説に基づくネットワークのメモリ容量の限界を見つけ、それらをベクトルのそれと比較する。 特に、そのようなネットワークのメモリ容量は、ベクトルネットワークで知られているものを一般化した$n^2$ for $n\times n$ state matrixで制限されていることを示す。 また,NTMなどの外部状態メモリの出現時に導入されるネットワークのメモリ容量の増加について,解析を行った。 その結果,外部メモリを行列ベースで表現した RNN コントローラを用いた NTM を構築し,行列 NTM を導入することができた。 本稿では,このクラスのメモリネットワークの性能を,コピーやリコールなどのアルゴリズム学習タスクで実証し,Matrix RNNと比較する。 マトリックスRNNと比較して,外部メモリの追加により,マトリックスNTMの性能が向上することがわかった。

It is well known that canonical recurrent neural networks (RNNs) face limitations in learning long-term dependencies which have been addressed by memory structures in long short-term memory (LSTM) networks. Neural Turing machines (NTMs) are novel RNNs that implement the notion of programmable computers with neural network controllers that can learn simple algorithmic tasks. Matrix neural networks feature matrix representation which inherently preserves the spatial structure of data when compared to canonical neural networks that use vector-based representation. One may then argue that neural networks with matrix representations may have the potential to provide better memory capacity. In this paper, we define and study a probabilistic notion of memory capacity based on Fisher information for matrix-based RNNs. We find bounds on memory capacity for such networks under various hypotheses and compare them with their vector counterparts. In particular, we show that the memory capacity of such networks is bounded by $N^2$ for $N\times N$ state matrix which generalizes the one known for vector networks. We also show and analyze the increase in memory capacity for such networks which is introduced when one exhibits an external state memory, such as NTMs. Consequently, we construct NTMs with RNN controllers with matrix-based representation of external memory, leading us to introduce Matrix NTMs. We demonstrate the performance of this class of memory networks under certain algorithmic learning tasks such as copying and recall and compare it with Matrix RNNs. We find an improvement in the performance of Matrix NTMs by the addition of external memory, in comparison to Matrix RNNs.
翻訳日:2023-10-06 23:43:17 公開日:2023-10-05
# グラフ畳み込みニューラルネットワークを用いた時空間関連表現とプロセスモニタリングへの応用

Spatial-temporal associations representation and application for process monitoring using graph convolution neural network ( http://arxiv.org/abs/2205.05250v2 )

ライセンス: Link先を確認
Hao Ren, Xiaojun Liang, Chunhua Yang, Zhiwen Chen, and Weihua Gui(参考訳) この作品における同僚や学者の注意と関心に感謝します。 専門家、編集者、レビュアーのコメントとガイダンスにより、この研究は『プロセス安全と環境保護』誌に掲載された。 本論文のテーマは,同一産業過程における多数の変数の空間-時間的関係に依存し,空間-時間的相関特性を持つ動的産業過程において得られる多数の変数,すなわちこれらの変数は時間的に高い相関を持つだけでなく,空間における相互関係も指す。 この問題に対処するには、変数特性モデリングと表現、グラフネットワーク構築(時間情報)、グラフ特性知覚という3つの重要な課題に対処する必要がある。 第1の問題は、ガウス分布を改良したものと仮定し、グラフネットワークは、その特性によって時間的に計算される監視変数とそのエッジによって定義できる。 最後に、異なるタイミングでプロセス状態に対応するこれらのネットワークをグラフ畳み込みニューラルネットワークに入力して、プロセス監視を実現するグラフ分類を実装する。 評価実験(tennessee eastman chemical process)と1つの応用実験(cobalt clean from zinc solution)を用いて,本論文の有効性と適用性を示す。

Thank you very much for the attention and concern of colleagues and scholars in this work. With the comments and guidance of experts, editors, and reviewers, this work has been accepted for publishing in the journal "Process Safety and Environmental Protection". The theme of this paper relies on the Spatial-temporal associations of numerous variables in the same industrial processes, which refers to numerous variables obtained in dynamic industrial processes with Spatial-temporal correlation characteristics, i.e., these variables are not only highly correlated in time but also interrelated in space. To handle this problem, three key issues need to be well addressed: variable characteristics modeling and representation, graph network construction (temporal information), and graph characteristics perception. The first issue is implemented by assuming the data follows one improved Gaussian distribution, while the graph network can be defined by the monitoring variables and their edges which are calculated by their characteristics in time. Finally, these networks corresponding to process states at different times are fed into a graph convolutional neural network to implement graph classification to achieve process monitoring. A benchmark experiment (Tennessee Eastman chemical process) and one application study (cobalt purification from zinc solution) are employed to demonstrate the feasibility and applicability of this paper.
翻訳日:2023-10-06 23:34:29 公開日:2023-10-05
# 正規化を用いたDenoisingによる自己教師型Deep Unrolled Reconstruction

Self-supervised Deep Unrolled Reconstruction Using Regularization by Denoising ( http://arxiv.org/abs/2205.03519v3 )

ライセンス: Link先を確認
Peizhou Huang, Chaoyi Zhang, Xiaoliang Zhang, Xiaojuan Li, Liang Dong, Leslie Ying(参考訳) 深層学習法は様々なコンピュータビジョンタスクでうまく使われている。 この成功にインスパイアされた深層学習は、磁気共鳴画像再構成(MRI)において研究されている。 特に、ディープラーニングとモデルに基づく最適化手法の統合は、大きな利点を示している。 しかし、多くのラベル付きトレーニングデータが高い再構成品質のために必要であり、一部のmri応用では困難である。 本稿では,MR画像再構成のための自己教師あり学習を自己教師ありネットワークとプラグ・アンド・プレイを組み合わせることで,新しい再構成手法であるDURED-Netを提案する。 MR再生におけるノイズ2ノイズの再構成性能を画像物理を利用した明示的な事前付加により向上することを目的としている。 具体的には、Denoising by Denoising (RED)を用いて、MRI再構成のためのデノナイジングネットワークの活用を実現する。 実験結果から, ノイズ2ノイズ法を用いたMR再建の最先端化には, トレーニングデータ量の削減が必要と考えられた。

Deep learning methods have been successfully used in various computer vision tasks. Inspired by that success, deep learning has been explored in magnetic resonance imaging (MRI) reconstruction. In particular, integrating deep learning and model-based optimization methods has shown considerable advantages. However, a large amount of labeled training data is typically needed for high reconstruction quality, which is challenging for some MRI applications. In this paper, we propose a novel reconstruction method, named DURED-Net, that enables interpretable self-supervised learning for MR image reconstruction by combining a self-supervised denoising network and a plug-and-play method. We aim to boost the reconstruction performance of Noise2Noise in MR reconstruction by adding an explicit prior that utilizes imaging physics. Specifically, the leverage of a denoising network for MRI reconstruction is achieved using Regularization by Denoising (RED). Experiment results demonstrate that the proposed method requires a reduced amount of training data to achieve high reconstruction quality among the state-of-art of MR reconstruction utilizing the Noise2Noise method.
翻訳日:2023-10-06 23:34:06 公開日:2023-10-05
# 大域最適化のための代数収束確率勾配降下アルゴリズム

An Algebraically Converging Stochastic Gradient Descent Algorithm for Global Optimization ( http://arxiv.org/abs/2204.05923v3 )

ライセンス: Link先を確認
Bj\"orn Engquist, Kui Ren and Yunan Yang(参考訳) 本研究では,非凸最適化問題のグローバルオプティマイザを求めるために,確率項を付加した新しい勾配降下アルゴリズムを提案する。 アルゴリズムの主要な構成要素は、目的関数の値に基づいてランダム性の適応的なチューニングである。 模擬アニーリングの言語では、温度は状態に依存している。 これにより、確率空間とパラメータ空間の両方において代数的速度を持つアルゴリズムの大域収束が証明される。 これは、ノイズ項をより直感的に制御することによる古典的な速度よりも顕著な改善である。 収束証明はアルゴリズムの実際の離散的な設定に基づいており、文献でしばしば行われるような連続的な限界だけではない。 また,複雑な対象関数に対するアルゴリズムの効率性とロバスト性を示す数値的な例をいくつか提示する。

We propose a new gradient descent algorithm with added stochastic terms for finding the global optimizers of nonconvex optimization problems. A key component in the algorithm is the adaptive tuning of the randomness based on the value of the objective function. In the language of simulated annealing, the temperature is state-dependent. With this, we prove the global convergence of the algorithm with an algebraic rate both in probability and in the parameter space. This is a significant improvement over the classical rate from using a more straightforward control of the noise term. The convergence proof is based on the actual discrete setup of the algorithm, not just its continuous limit as often done in the literature. We also present several numerical examples to demonstrate the efficiency and robustness of the algorithm for reasonably complex objective functions.
翻訳日:2023-10-06 23:33:51 公開日:2023-10-05
# GSDA:超音波画像分類のためのジェネレーティブ・ディバイサル・ネットワークに基づく半スーパービジョンデータ拡張

GSDA: Generative Adversarial Network-based Semi-Supervised Data Augmentation for Ultrasound Image Classification ( http://arxiv.org/abs/2203.06184v4 )

ライセンス: Link先を確認
Zhaoshan Liu, Qiujie Lv, Chau Hung Lee, Lei Shen(参考訳) 医用超音波(us)は臨床でもっとも広く使われている画像診断法の一つであるが、その使用は画像品質の変化など独特の課題を呈する。 ディープラーニング(dl)モデルは、高度な医療用us画像分析ツールとして機能するが、大規模なデータセットの不足により、そのパフォーマンスは大幅に制限される。 この共通データ不足を解決するため,GANに基づく半教師付きデータ拡張手法であるGSDAを開発した。 GSDA は GAN と Convolutional Neural Network (CNN) で構成されている。 GANは高解像度で高画質のUSイメージを合成し、実画像と合成画像の両方を利用してCNNを訓練する。 限られたデータでganとcnnの両方のトレーニング課題に対処するために、トレーニング中に転送学習技術を採用する。 また,分類精度と計算時間とのバランスをとる新しい評価基準を導入する。 本手法をBUSIデータセット上で評価し,GSDAが既存の最先端手法より優れていることを示す。 GSDAは高解像度で高品質な画像を合成し、わずか780枚の画像を使用して97.9%の精度を達成している。 これらの有望な結果を踏まえると、GSDAは米国における医療分析の補助的ツールとして潜在的に有益であると考えられる。

Medical Ultrasound (US) is one of the most widely used imaging modalities in clinical practice, but its usage presents unique challenges such as variable imaging quality. Deep Learning (DL) models can serve as advanced medical US image analysis tools, but their performance is greatly limited by the scarcity of large datasets. To solve the common data shortage, we develop GSDA, a Generative Adversarial Network (GAN)-based semi-supervised data augmentation method. GSDA consists of the GAN and Convolutional Neural Network (CNN). The GAN synthesizes and pseudo-labels high-resolution, high-quality US images, and both real and synthesized images are then leveraged to train the CNN. To address the training challenges of both GAN and CNN with limited data, we employ transfer learning techniques during their training. We also introduce a novel evaluation standard that balances classification accuracy with computational time. We evaluate our method on the BUSI dataset and GSDA outperforms existing state-of-the-art methods. With the high-resolution and high-quality images synthesized, GSDA achieves a 97.9% accuracy using merely 780 images. Given these promising results, we believe that GSDA holds potential as an auxiliary tool for medical US analysis.
翻訳日:2023-10-06 23:33:39 公開日:2023-10-05
# 深部生成モデルと生成AIの多様性

Diversity in deep generative models and generative AI ( http://arxiv.org/abs/2202.09573v3 )

ライセンス: Link先を確認
Gabriel Turinici(参考訳) Generative Adversarial Networks (GAN), Variational Auto-Encoders (VAE), Transformerなどのデコーダベースの機械学習生成アルゴリズムは,トレーニングアンサンブルに類似したオブジェクトを構築する際に,印象的な結果を示す。 しかし、新しいオブジェクトの生成は主にトレーニングデータセットの隠れ構造の理解に基づいて構築され、続いて多次元の正規変数からのサンプリングが行われる。 特に各サンプルは他のサンプルとは独立しており、同じ種類のオブジェクトを繰り返し提案することができる。 この欠点を解消するために、カーネルベースの測度量子化法を紹介し、その分布から既に引き出された要素から遠ざかることさえ可能とすることで、与えられた対象の測度から新しいオブジェクトを生成することができる。 これにより、生成されたオブジェクトの多様性が向上する。 この方法は古典的な機械学習ベンチマークでテストされる。

The decoder-based machine learning generative algorithms such as Generative Adversarial Networks (GAN), Variational Auto-Encoders (VAE), Transformers show impressive results when constructing objects similar to those in a training ensemble. However, the generation of new objects builds mainly on the understanding of the hidden structure of the training dataset followed by a sampling from a multi-dimensional normal variable. In particular each sample is independent from the others and can repeatedly propose same type of objects. To cure this drawback we introduce a kernel-based measure quantization method that can produce new objects from a given target measure by approximating it as a whole and even staying away from elements already drawn from that distribution. This ensures a better diversity of the produced objects. The method is tested on classic machine learning benchmarks.
翻訳日:2023-10-06 23:33:18 公開日:2023-10-05
# 次元縮小の確率的グラフ結合ビュー

A Probabilistic Graph Coupling View of Dimension Reduction ( http://arxiv.org/abs/2201.13053v3 )

ライセンス: Link先を確認
Hugues Van Assel, Thibault Espinasse, Julien Chiquet, Franck Picard(参考訳) t-SNEやUMAPのような一般的な次元還元(DR)法は、入力と潜在ペアの類似性の間のコストを最小化することに基づいている。 広く使われているが、これらのアプローチは、その特性と制限を完全に理解するための明確な確率的基盤を欠いている。 そこで我々は,クロスエントロピーを用いた隠れグラフの結合に基づく統一統計的枠組みを提案する。 これらのグラフは、入力空間と潜在空間の両方で観測されるマルコフ確率場依存性構造を誘導する。 既存のペアワイズ類似性DR法は,グラフの事前選択に際し,我々のフレームワークから検索可能であることを示す。 さらに, この手法は, 粗粒依存性の保存性能の低下を説明する統計学的欠陥に苦しむことが明らかとなった。 我々のモデルはこの問題に対処するために活用され拡張され、新しいリンクはラプラシア固有写像とPCAで描画される。

Most popular dimension reduction (DR) methods like t-SNE and UMAP are based on minimizing a cost between input and latent pairwise similarities. Though widely used, these approaches lack clear probabilistic foundations to enable a full understanding of their properties and limitations. To that extent, we introduce a unifying statistical framework based on the coupling of hidden graphs using cross entropy. These graphs induce a Markov random field dependency structure among the observations in both input and latent spaces. We show that existing pairwise similarity DR methods can be retrieved from our framework with particular choices of priors for the graphs. Moreover this reveals that these methods suffer from a statistical deficiency that explains poor performances in conserving coarse-grain dependencies. Our model is leveraged and extended to address this issue while new links are drawn with Laplacian eigenmaps and PCA.
翻訳日:2023-10-06 23:33:03 公開日:2023-10-05
# wganの最適1-wasserstein距離

Optimal 1-Wasserstein Distance for WGANs ( http://arxiv.org/abs/2201.02824v2 )

ライセンス: Link先を確認
Arthur St\'ephanovitch, Ugo Tanielian, Beno\^it Cadre, Nicolas Klutchnikoff, G\'erard Biau(参考訳) Generative Adversarial Networksを支える数学的な力は、挑戦的な理論的問題を提起する。 生成する分布の幾何学的性質を特徴づける重要な問題に動機づけられ,有限サンプルと漸近レジームの両方におけるwasserstein gans (wgans) の詳細な解析を行った。 潜在空間が不定値であり、出力空間の次元によらず導出結果が妥当な特定の場合について検討する。 特に, 固定標本サイズにおいて, 最適WGANは標本点間の2乗ユークリッド距離の和を最小化する連結経路と密接に関連していることを示す。 また, WGAN が (1-ワッサーシュタイン距離に対して) 対象分布に近づき, サンプルサイズが無限大になる傾向にあるという事実を強調し, 生成的リプシッツ関数の族が適切に成長することを示した。 半離散状態における最適輸送理論の新たな結果を導出する。

The mathematical forces at work behind Generative Adversarial Networks raise challenging theoretical issues. Motivated by the important question of characterizing the geometrical properties of the generated distributions, we provide a thorough analysis of Wasserstein GANs (WGANs) in both the finite sample and asymptotic regimes. We study the specific case where the latent space is univariate and derive results valid regardless of the dimension of the output space. We show in particular that for a fixed sample size, the optimal WGANs are closely linked with connected paths minimizing the sum of the squared Euclidean distances between the sample points. We also highlight the fact that WGANs are able to approach (for the 1-Wasserstein distance) the target distribution as the sample size tends to infinity, at a given convergence rate and provided the family of generative Lipschitz functions grows appropriately. We derive in passing new results on optimal transport theory in the semi-discrete setting.
翻訳日:2023-10-06 23:32:50 公開日:2023-10-05
# 潜伏共同設立者の時系列における因果祖先グラフの特徴

Characterization of causal ancestral graphs for time series with latent confounders ( http://arxiv.org/abs/2112.08417v2 )

ライセンス: Link先を確認
Andreas Gerhardus(参考訳) 本稿では,時間遅れ特有の因果関係や多変量時系列の非依存を表現するための新しいグラフィカルモデルについて紹介する。 これらのグラフを完全に特徴付け、現在使われているモデルクラスの適切なサブセットを構成することを示す。 このように、新しいグラフから、追加の仮定なしに、より強力な因果推論を引き出すことができる。 さらに,新しいグラフのマルコフ同値クラスの図式表現についても紹介する。 このグラフィカル表現は、現在最先端の因果発見アルゴリズムが学んでいるものよりも多くの因果知識を含んでいる。

In this paper, we introduce a novel class of graphical models for representing time lag specific causal relationships and independencies of multivariate time series with unobserved confounders. We completely characterize these graphs and show that they constitute proper subsets of the currently employed model classes. As we show, from the novel graphs one can thus draw stronger causal inferences -- without additional assumptions. We further introduce a graphical representation of Markov equivalence classes of the novel graphs. This graphical representation contains more causal knowledge than what current state-of-the-art causal discovery algorithms learn.
翻訳日:2023-10-06 23:32:32 公開日:2023-10-05
# フェデレーション平均ランゲヴィンダイナミクスの収束性について

On Convergence of Federated Averaging Langevin Dynamics ( http://arxiv.org/abs/2112.05120v4 )

ライセンス: Link先を確認
Wei Deng, Qian Zhang, Yi-An Ma, Zhao Song, Guang Lin(参考訳) 分散クライアントを用いた不確実性定量化と平均予測のための平均ランゲヴィンアルゴリズム(FA-LD)を提案する。 特に、通常の後続分布を超えて一般化し、モデルの一般クラスを考える。 非I.dデータを用いた強い対流分布に対するFA-LDの理論的保証を開発し、入射雑音と確率勾配雑音、データの均一性、学習速度の変化が収束に与える影響について検討する。 このような分析は、通信コストを最小限に抑えるためにローカル更新の最適選択に光を当てる。 提案手法では,Langevinアルゴリズムの入射雑音により通信効率が低下しない。 さらに、異なるクライアント上で使用される独立ノイズと相関ノイズの両方をFA-LDアルゴリズムで検討した。 コミュニケーション、正確性、データプライバシの2つの間のトレードオフがあるのを観察する。 ローカルデバイスはフェデレーションネットワークでは不活性になる可能性があるため、部分的なデバイス更新しかできない平均化方式に基づいて収束結果を示す。 そのような場合、ゼロに崩壊しない追加バイアスを発見する。

We propose a federated averaging Langevin algorithm (FA-LD) for uncertainty quantification and mean predictions with distributed clients. In particular, we generalize beyond normal posterior distributions and consider a general class of models. We develop theoretical guarantees for FA-LD for strongly log-concave distributions with non-i.i.d data and study how the injected noise and the stochastic-gradient noise, the heterogeneity of data, and the varying learning rates affect the convergence. Such an analysis sheds light on the optimal choice of local updates to minimize communication costs. Important to our approach is that the communication efficiency does not deteriorate with the injected noise in the Langevin algorithms. In addition, we examine in our FA-LD algorithm both independent and correlated noise used over different clients. We observe there is a trade-off between the pairs among communication, accuracy, and data privacy. As local devices may become inactive in federated networks, we also show convergence results based on different averaging schemes where only partial device updates are available. In such a case, we discover an additional bias that does not decay to zero.
翻訳日:2023-10-06 23:32:23 公開日:2023-10-05
# PMSSC:サブスペースクラスタリングのための並列化可能なマルチサブセットベース自己表現モデル

PMSSC: Parallelizable multi-subset based self-expressive model for subspace clustering ( http://arxiv.org/abs/2111.12232v2 )

ライセンス: Link先を確認
Katsuya Hotta, Takuya Akashi, Shogo Tokai, Chao Zhang(参考訳) データセット内の他のデータポイントの線形結合として各データポイントを表す自己表現モデルを採用するサブスペースクラスタリングは、強力な教師なし学習技術を提供する。 しかし、大規模なデータセットを扱う場合、辞書を通してすべてのデータポイントを参照して各データポイントの表現は高い計算複雑性に苦しむ。 この問題を軽減するために,複数のサブセットを結合して各データポイントを表す並列化可能なマルチサブセットベース自己表現モデル(pms)を提案する。 サブスペースクラスタリング(PMSSC)におけるPMSの導入は、各サブセットに分解された最適化問題が小さく、並列に効率的に解決できるため、計算上の優位性をもたらす。 さらに、PSMSSCはサブセットから得られる複数の自己表現係数ベクトルを組み合わせることができ、自己表現性の向上に寄与する。 総合的および実世界のデータセットに関する広範な実験は、他の手法と比較して、我々のアプローチの効率性と有効性を示している。

Subspace clustering methods which embrace a self-expressive model that represents each data point as a linear combination of other data points in the dataset provide powerful unsupervised learning techniques. However, when dealing with large datasets, representation of each data point by referring to all data points via a dictionary suffers from high computational complexity. To alleviate this issue, we introduce a parallelizable multi-subset based self-expressive model (PMS) which represents each data point by combining multiple subsets, with each consisting of only a small proportion of the samples. The adoption of PMS in subspace clustering (PMSSC) leads to computational advantages because the optimization problems decomposed over each subset are small, and can be solved efficiently in parallel. Furthermore, PMSSC is able to combine multiple self-expressive coefficient vectors obtained from subsets, which contributes to an improvement in self-expressiveness. Extensive experiments on synthetic and real-world datasets show the efficiency and effectiveness of our approach in comparison to other methods.
翻訳日:2023-10-06 23:32:07 公開日:2023-10-05
# 異常検出のための自己教師付きマスク畳み込み変圧器ブロック

Self-Supervised Masked Convolutional Transformer Block for Anomaly Detection ( http://arxiv.org/abs/2209.12148v2 )

ライセンス: Link先を確認
Neelu Madan, Nicolae-Catalin Ristea, Radu Tudor Ionescu, Kamal Nasrollahi, Fahad Shahbaz Khan, Thomas B. Moeslund, Mubarak Shah(参考訳) 産業生産ラインにおける製品故障の検出から、ビデオ監視におけるイベント検出の差し迫ったこと、医療スキャンにおける病変発見まで幅広い応用から、コンピュータビジョンの分野では近年、異常検出が注目されている。 ドメインに関係なく、異常検出は通常、通常の例でのみ学習が行われる1クラス分類タスクとしてフレーム化される。 成功した異常検出方法のファミリー全体は、マスクされた正規入力(パッチ、将来のフレームなど)を再構築し、異常レベルを示す指標として再構成誤差の大きさを行使する学習に基づいている。 他の再構成手法と異なり, コアアーキテクチャレベルでの再構成機能を備えた自己教師型マスク型畳み込み変圧器ブロック (SSMCTB) を提案する。 提案された自己教師ブロックは極めて柔軟で、ニューラルネットワークの任意の層で情報マスキングが可能で、幅広いニューラルネットワークアーキテクチャと互換性がある。 本研究では,従来の自己教師型予測畳み込み抑止ブロック(SSPCAB)を3次元マスク付き畳み込み層,チャンネルワイドアテンション用トランスフォーマー,ハマーロスに基づく新たな自己教師型目標を用いて拡張する。 さらに,我々のブロックは,RGB画像と監視ビデオに基づく従来検討されていたタスクに,医療画像やサーマルビデオの異常検出を加えることで,幅広いタスクに適用可能であることを示す。 我々は、SSMCTBの汎用性と柔軟性を、異常検出のための複数の最先端ニューラルネットワークに組み込むことで示し、5つのベンチマークでかなりの性能改善を実証する実験結果を得た。 コードとデータはオープンソースとして、https://github.com/ristea/ssmctbでリリースします。

Anomaly detection has recently gained increasing attention in the field of computer vision, likely due to its broad set of applications ranging from product fault detection on industrial production lines and impending event detection in video surveillance to finding lesions in medical scans. Regardless of the domain, anomaly detection is typically framed as a one-class classification task, where the learning is conducted on normal examples only. An entire family of successful anomaly detection methods is based on learning to reconstruct masked normal inputs (e.g. patches, future frames, etc.) and exerting the magnitude of the reconstruction error as an indicator for the abnormality level. Unlike other reconstruction-based methods, we present a novel self-supervised masked convolutional transformer block (SSMCTB) that comprises the reconstruction-based functionality at a core architectural level. The proposed self-supervised block is extremely flexible, enabling information masking at any layer of a neural network and being compatible with a wide range of neural architectures. In this work, we extend our previous self-supervised predictive convolutional attentive block (SSPCAB) with a 3D masked convolutional layer, a transformer for channel-wise attention, as well as a novel self-supervised objective based on Huber loss. Furthermore, we show that our block is applicable to a wider variety of tasks, adding anomaly detection in medical images and thermal videos to the previously considered tasks based on RGB images and surveillance videos. We exhibit the generality and flexibility of SSMCTB by integrating it into multiple state-of-the-art neural models for anomaly detection, bringing forth empirical results that confirm considerable performance improvements on five benchmarks. We release our code and data as open source at: https://github.com/ristea/ssmctb.
翻訳日:2023-10-06 23:26:16 公開日:2023-10-05
# チャネル集合体の非古典性に関する資源理論

The resource theory of nonclassicality of channel assemblages ( http://arxiv.org/abs/2209.10177v3 )

ライセンス: Link先を確認
Beata Zjawin, David Schmid, Matty J. Hoban, Ana Bel\'en Sainz(参考訳) アリスとボブの両者が相関量子系を共有し、アリスが局所的な測定を行うとき、アリスのボブ状態に関する最新の記述は非古典的相関の証拠を与えることができる。 アインシュタイン、ポドルスキー、ローゼン(EPR)によって導入されたこの単純なシナリオは、ボブを入力として古典的あるいは量子的システムを持つことで修正することができる。 この場合、アリスはボブの研究室で(状態ではなく)チャネルに関する知識を更新する。 本稿では,eprシナリオの様々な一般化の非古典性を研究するための統一フレームワークを提案する。 我々は、自由操作が局所演算と共有ランダム性(LOSR)である資源理論を用いて行う。 本研究では,EPRリソースの事前注文と,その間の変換の可能性を明らかにするための半定的なプログラムを導出する。 さらに,ポスト量子資源間の変換を解析的および数値的に検討した。

When two parties, Alice and Bob, share correlated quantum systems and Alice performs local measurements, Alice's updated description of Bob's state can provide evidence of nonclassical correlations. This simple scenario, famously introduced by Einstein, Podolsky and Rosen (EPR), can be modified by allowing Bob to also have a classical or quantum system as an input. In this case, Alice updates her knowledge of the channel (rather than of a state) in Bob's lab. In this paper, we provide a unified framework for studying the nonclassicality of various such generalizations of the EPR scenario. We do so using a resource theory wherein the free operations are local operations and shared randomness (LOSR). We derive a semidefinite program for studying the pre-order of EPR resources and discover possible conversions between the latter. Moreover, we study conversions between post-quantum resources both analytically and numerically.
翻訳日:2023-10-06 23:25:48 公開日:2023-10-05
# 非侵襲的脳波記録からの音声知覚の復号

Decoding speech perception from non-invasive brain recordings ( http://arxiv.org/abs/2208.12266v2 )

ライセンス: Link先を確認
Alexandre D\'efossez, Charlotte Caucheteux, J\'er\'emy Rapin, Ori Kabeli, Jean-R\'emi King(参考訳) 脳活動からスピーチを復号することは、医療と神経科学の両方において待望の目標である。 頭蓋内記録で訓練されたディープラーニングアルゴリズムは、現在、基本的な言語的特徴(例えば、文字、単語、分光図)をデコードし始めている。 しかし、このアプローチを自然言語や非侵襲的な脳記録に拡張することは大きな課題である。 本稿では,健常者の大きなコホートの非侵襲的記録から知覚音声の自己教師あり表現を解読するために,コントラスト学習で学習したモデルを紹介する。 本手法を評価するために,脳磁図(M/EEG)を収録したボランティア175名を対象に,短い話や孤立した文章を聴きながら4つの公開データセットをキュレートし,統合した。 その結果,本モデルでは,3秒間のMEG信号から最大41%の精度で,参加者間で平均1,000以上の異なる可能性を持つ音声区間を識別でき,80%以上の参加者が,トレーニングセットから欠落した単語やフレーズの復号を行うことができることがわかった。 モデルとさまざまなベースラインの比較は,その重要性を強調している。 (i)反対の目的,反対の目的. (ii)スピーチの事前学習表現、及び (iii)複数の参加者にまたがって同時に訓練された共通の畳み込みアーキテクチャ。 最後に、デコーダの予測の分析は、主に語彙的および文脈的意味表現に依存することを示唆している。 全体として、この非侵襲的な記録からの知覚音声の効果的な復号化は、患者を脳手術の危険に晒すことなく、言語を脳活動から復号する有望な道を示す。

Decoding speech from brain activity is a long-awaited goal in both healthcare and neuroscience. Invasive devices have recently led to major milestones in that regard: deep learning algorithms trained on intracranial recordings now start to decode elementary linguistic features (e.g. letters, words, spectrograms). However, extending this approach to natural speech and non-invasive brain recordings remains a major challenge. Here, we introduce a model trained with contrastive-learning to decode self-supervised representations of perceived speech from the non-invasive recordings of a large cohort of healthy individuals. To evaluate this approach, we curate and integrate four public datasets, encompassing 175 volunteers recorded with magneto- or electro-encephalography (M/EEG), while they listened to short stories and isolated sentences. The results show that our model can identify, from 3 seconds of MEG signals, the corresponding speech segment with up to 41% accuracy out of more than 1,000 distinct possibilities on average across participants, and more than 80% in the very best participants - a performance that allows the decoding of words and phrases absent from the training set. The comparison of our model to a variety of baselines highlights the importance of (i) a contrastive objective, (ii) pretrained representations of speech and (iii) a common convolutional architecture simultaneously trained across multiple participants. Finally, the analysis of the decoder's predictions suggests that they primarily depend on lexical and contextual semantic representations. Overall, this effective decoding of perceived speech from non-invasive recordings delineates a promising path to decode language from brain activity, without putting patients at risk for brain surgery.
翻訳日:2023-10-06 23:25:34 公開日:2023-10-05
# CANet:マルチ構造キドニーセグメンテーションのためのチャネル拡張と軸アテンションキャッチネットワーク

CANet: Channel Extending and Axial Attention Catching Network for Multi-structure Kidney Segmentation ( http://arxiv.org/abs/2208.05241v2 )

ライセンス: Link先を確認
Zhenyu Bu, Kai-Ni Wang, Guang-Quan Zhou(参考訳) 腎がんは世界で最も多いがんの1つである。 腎癌の臨床症状としては、血尿や腰痛などがあり、患者にとって非常に苦痛である。 腹腔鏡下部分腎摘出術などの腎癌治療は3D腎解析をCT(Computed tomography angiography, CTA)画像に頼っている。 腎臓の多構造セグメンテーションをより正確にするために、多くの自動セグメンテーション技術が提案されている。 腎臓解剖の3次元視覚モデルは、臨床医が手術前に正確な手術計画を立てるのに役立つだろう。 しかし、腎臓の内部構造と縁の低灰色レベルの多様性のためである。 腎臓の異なる部位を明確かつ正確な方法で分離することは依然として困難である。 本稿では,多組織腎セグメンテーションのためのチャネル延長および軸方向注意捕捉ネットワーク(CANet)を提案する。 我々のソリューションは、繁栄するnn-UNetアーキテクチャに基づいている。 まず,チャネルサイズを拡大することにより,より広い視点で複雑な構造情報の抽出を容易にするネットワークを提案する。 次に,デコーダにアキシャルアテンションキャッチ(AAC)モジュールを組み込み,エッジを精細化するための詳細な情報を得る。 我々は, 腎, 腫瘍, 動脈, 静脈の95.8%, 89.1%, 87.5%, 84.9%のダイススコアを達成し, 課題の4位獲得に役立てる。

Renal cancer is one of the most prevalent cancers worldwide. Clinical signs of kidney cancer include hematuria and low back discomfort, which are quite distressing to the patient. Some surgery-based renal cancer treatments like laparoscopic partial nephrectomy relys on the 3D kidney parsing on computed tomography angiography (CTA) images. Many automatic segmentation techniques have been put forward to make multi-structure segmentation of the kidneys more accurate. The 3D visual model of kidney anatomy will help clinicians plan operations accurately before surgery. However, due to the diversity of the internal structure of the kidney and the low grey level of the edge. It is still challenging to separate the different parts of the kidney in a clear and accurate way. In this paper, we propose a channel extending and axial attention catching Network(CANet) for multi-structure kidney segmentation. Our solution is founded based on the thriving nn-UNet architecture. Firstly, by extending the channel size, we propose a larger network, which can provide a broader perspective, facilitating the extraction of complex structural information. Secondly, we include an axial attention catching(AAC) module in the decoder, which can obtain detailed information for refining the edges. We evaluate our CANet on the KiPA2022 dataset, achieving the dice scores of 95.8%, 89.1%, 87.5% and 84.9% for kidney, tumor, artery and vein, respectively, which helps us get fourth place in the challenge.
翻訳日:2023-10-06 23:25:05 公開日:2023-10-05
# アンサンブルカルマン更新の非漸近的解析:有効次元と局在

Non-Asymptotic Analysis of Ensemble Kalman Updates: Effective Dimension and Localization ( http://arxiv.org/abs/2208.03246v3 )

ライセンス: Link先を確認
Omar Al Ghattas, Daniel Sanz-Alonso(参考訳) 逆問題やデータ同化のための現代のアルゴリズムの多くは、先行予測と観測データとをブレンドするために、アンサンブル・カルマンの更新に依存している。 アンサンブルカルマン法は小さなアンサンブルサイズでよく機能するが、これは各粒子の生成に費用がかかるアプリケーションに必須である。 本稿では,先行共分散が高速スペクトル崩壊や近似空間性により適度な有効次元を持つ場合,小さなアンサンブルサイズが十分である理由を,カルマンの更新の漸近的でない解析法を開発した。 本理論は,摂動観測,平方根フィルタリング,ローカライゼーションを用いたアンサンブルカルマン更新のいくつかの実装を比較し,統一的な枠組みで提案する。 解析の一環として,独立性のある約スパース行列に対する次元自由共分散推定境界を新たに開発した。

Many modern algorithms for inverse problems and data assimilation rely on ensemble Kalman updates to blend prior predictions with observed data. Ensemble Kalman methods often perform well with a small ensemble size, which is essential in applications where generating each particle is costly. This paper develops a non-asymptotic analysis of ensemble Kalman updates that rigorously explains why a small ensemble size suffices if the prior covariance has moderate effective dimension due to fast spectrum decay or approximate sparsity. We present our theory in a unified framework, comparing several implementations of ensemble Kalman updates that use perturbed observations, square root filtering, and localization. As part of our analysis, we develop new dimension-free covariance estimation bounds for approximately sparse matrices that may be of independent interest.
翻訳日:2023-10-06 23:24:39 公開日:2023-10-05
# 非平衡自己集合の核生成速度論におけるパターン認識

Pattern recognition in the nucleation kinetics of non-equilibrium self-assembly ( http://arxiv.org/abs/2207.06399v3 )

ライセンス: Link先を確認
Constantine Glen Evans, Jackson O'Brien, Erik Winfree, Arvind Murugan(参考訳) 生物学の最も洗練されたコンピュータ、脳にインスパイアされたニューラルネットワークは、計算原理の大幅な再構成を構成する。 驚くべきことに、類似した高次元、高度に相互接続された計算アーキテクチャは、シグナル伝達カスケードや遺伝的制御ネットワークなど、生きた細胞内の情報処理分子システム内でも発生する。 タンパク質合成、代謝、構造的自己組織化など、視覚的に非情報処理の役割を担っているものでさえ、他の物理的および化学的プロセスでより広く見られる。 本稿では,多成分構造の自己集合における核形成について検討し,高次元の濃度パターンをニューラルネットワーク計算に類似した方法で識別・分類できることを示す。 具体的には, 競合核生成が3つの構造内の高濃度タイルの共局在度に依存するように, 3つの代替方法で自己組織化可能な917個のdnaタイルの設計を行った。 このシステムは18グレースケールの30 x 30ピクセルの画像を3つのカテゴリに分類するために、シリコンで訓練された。 実験では、150時間のアニール中の蛍光と原子間力顕微鏡の観察により、すべての訓練された画像が正しく分類され、テストセットのイメージが結果の堅牢性を調査した。 従来の生化学ニューラルネットワークに比べて遅いが、このアプローチは驚くほどコンパクトで堅牢でスケーラブルである。 この成功は、核生成のようなユビキタスな物理現象が、高次元の多成分系としてスケールするときに強力な情報処理能力を持つ可能性を示唆している。

Inspired by biology's most sophisticated computer, the brain, neural networks constitute a profound reformulation of computational principles. Remarkably, analogous high-dimensional, highly-interconnected computational architectures also arise within information-processing molecular systems inside living cells, such as signal transduction cascades and genetic regulatory networks. Might neuromorphic collective modes be found more broadly in other physical and chemical processes, even those that ostensibly play non-information-processing roles such as protein synthesis, metabolism, or structural self-assembly? Here we examine nucleation during self-assembly of multicomponent structures, showing that high-dimensional patterns of concentrations can be discriminated and classified in a manner similar to neural network computation. Specifically, we design a set of 917 DNA tiles that can self-assemble in three alternative ways such that competitive nucleation depends sensitively on the extent of co-localization of high-concentration tiles within the three structures. The system was trained in-silico to classify a set of 18 grayscale 30 x 30 pixel images into three categories. Experimentally, fluorescence and atomic force microscopy monitoring during and after a 150-hour anneal established that all trained images were correctly classified, while a test set of image variations probed the robustness of the results. While slow compared to prior biochemical neural networks, our approach is surprisingly compact, robust, and scalable. This success suggests that ubiquitous physical phenomena, such as nucleation, may hold powerful information processing capabilities when scaled up as high-dimensional multicomponent systems.
翻訳日:2023-10-06 23:23:44 公開日:2023-10-05
# プログラマブルフォトニック量子プロセッサにおける連続可変量子近似最適化

Continuous-variable quantum approximate optimization on a programmable photonic quantum processor ( http://arxiv.org/abs/2206.07214v2 )

ライセンス: Link先を確認
Yutaro Enomoto, Keitaro Anai, Kenta Udagawa, Shuntaro Takeda(参考訳) 変分量子アルゴリズム(VQA)は、近時雑音型中間規模量子(NISQ)デバイスにおける実用的な問題に対する量子優位性を達成するための有望なアプローチを提供する。 これまでのところ、VQAsの研究は量子ビットベースのシステムに重点を置いているが、VQAsのパワーは無限次元連続変数(CV)システムを利用することによって増強される可能性がある。 本稿では,プログラマブルフォトニック量子コンピュータと古典コンピュータの協調計算システムを開発することにより,量子近似最適化アルゴリズムであるVQAのCV版を実装した。 このアルゴリズムは, 勾配降下の量子バージョンを実装し, 初期広く分布する波動関数を最小にローカライズすることにより, 単純連続関数の最小化問題を実験的に解くことを実証する。 この方法では、実用的なcv量子アルゴリズムを物理プラットフォーム上で実行することができる。 我々の研究は、より一般的な関数の最小化にまで拡張することができ、実用的な問題における量子的優位性を達成する代替手段を提供する。

Variational quantum algorithms (VQAs) provide a promising approach to achieving quantum advantage for practical problems on near-term noisy intermediate-scale quantum (NISQ) devices. Thus far, most studies on VQAs have focused on qubit-based systems, but the power of VQAs can be potentially boosted by exploiting infinite-dimensional continuous-variable (CV) systems. Here, we implement the CV version of one VQA, a quantum approximate optimization algorithm by developing an automated collaborative computing system between a programmable photonic quantum computer and a classical computer. We experimentally demonstrate that this algorithm solves the minimization problem of simple continuous functions by implementing the quantum version of gradient descent to localize an initially broadly-distributed wavefunction to the minimum. This method allows the execution of a practical CV quantum algorithm on a physical platform. Our work can be extended to the minimization of more general functions, providing an alternative to achieve the quantum advantage in practical problems.
翻訳日:2023-10-06 23:23:20 公開日:2023-10-05
# 決定ダイアグラムに基づくキャッシングによる支配とサブオプティリティ検出

Decision Diagram-Based Branch-and-Bound with Caching for Dominance and Suboptimality Detection ( http://arxiv.org/abs/2211.13118v3 )

ライセンス: Link先を確認
Vianney Copp\'e, Xavier Gillard, Pierre Schaus(参考訳) 2016年にBergmanらによって導入された決定図に基づく分岐とバウンドのアルゴリズムは、動的プログラミングの定式化によって離散最適化問題を解決するためのフレームワークである。 これは、任意の部分問題に対して下限と上限を提供する一連の有界幅決定ダイアグラムをコンパイルすることで機能する。 最終的には、検索空間のすべての部分がアルゴリズムによって探索または切断されるため、最適性が証明される。 本稿では動的プログラミングモデルの構造を利用して探索を高速化する新しい要素を提案する。 鍵となる考え方は、検索中にキャッシュされた拡張しきい値に問い合わせることで、同じ動的プログラミング状態に対応するノードの繰り返し拡張を防止することである。 これらのしきい値は、以前に発見された部分解と2021年にギラードらが導入したフィルタリング手法の不等式との間の支配関係に基づいている。 計算実験により、このキャッシング機構によって引き起こされるプルーニングにより、アルゴリズムによって拡張されたノードの数を大幅に削減できることが示された。 これにより、より狭い決定ダイアグラムを使いながら、より少ない時間で難しい最適化問題のベンチマークインスタンスが解決される。

The branch-and-bound algorithm based on decision diagrams introduced by Bergman et al. in 2016 is a framework for solving discrete optimization problems with a dynamic programming formulation. It works by compiling a series of bounded-width decision diagrams that can provide lower and upper bounds for any given subproblem. Eventually, every part of the search space will be either explored or pruned by the algorithm, thus proving optimality. This paper presents new ingredients to speed up the search by exploiting the structure of dynamic programming models. The key idea is to prevent the repeated expansion of nodes corresponding to the same dynamic programming states by querying expansion thresholds cached throughout the search. These thresholds are based on dominance relations between partial solutions previously found and on the pruning inequalities of the filtering techniques introduced by Gillard et al. in 2021. Computational experiments show that the pruning brought by this caching mechanism allows significantly reducing the number of nodes expanded by the algorithm. This results in more benchmark instances of difficult optimization problems being solved in less time while using narrower decision diagrams.
翻訳日:2023-10-06 23:14:39 公開日:2023-10-05
# BiViT:極端に圧縮されたバイナリビジョントランス

BiViT: Extremely Compressed Binary Vision Transformer ( http://arxiv.org/abs/2211.07091v2 )

ライセンス: Link先を確認
Yefei He, Zhenyu Lou, Luoming Zhang, Jing Liu, Weijia Wu, Hong Zhou, Bohan Zhuang(参考訳) モデルバイナライゼーションは、モデルサイズを著しく圧縮し、エネルギー消費を削減し、効率的なビット演算によって推論を加速することができる。 二項化畳み込みニューラルネットワークは広く研究されているが、視覚認識における最新のブレークスルーを支える視覚変換器の双項化を探求する研究はほとんどない。 この目的のために,両眼視変換器(BiViT)の水平方向を推し進めるための2つの基本的な課題を提案する。 第一に、従来の二分法はソフトマックスの長期分布を考慮に入れず、アテンションモジュールに大きな二項化誤差をもたらす。 そこで本研究では,データ分布に動的に適応し,二項化による誤差を低減するソフトマックス対応バイナリ化を提案する。 次に,事前学習したモデルの情報をよりよく保存し,精度を回復するために,自己結合と多層パーセプトロン(mlps)の双対化を分離するクロスレイヤー二元化スキームと,学習可能な重み付け因子を導入したパラメータ化ウェイトスケールを提案する。 全体として、この手法はTinyImageNetデータセットで19.8%向上した。 ImageNetでは、私たちのBiViTはSwin-Sモデルよりも75.6%のTop-1精度を実現しています。 さらに,COCOオブジェクト検出では,カスケードマスクR-CNNフレームワーク上でSwin-Tバックボーンを用いて40.8mAPを達成する。

Model binarization can significantly compress model size, reduce energy consumption, and accelerate inference through efficient bit-wise operations. Although binarizing convolutional neural networks have been extensively studied, there is little work on exploring binarization of vision Transformers which underpin most recent breakthroughs in visual recognition. To this end, we propose to solve two fundamental challenges to push the horizon of Binary Vision Transformers (BiViT). First, the traditional binary method does not take the long-tailed distribution of softmax attention into consideration, bringing large binarization errors in the attention module. To solve this, we propose Softmax-aware Binarization, which dynamically adapts to the data distribution and reduces the error caused by binarization. Second, to better preserve the information of the pretrained model and restore accuracy, we propose a Cross-layer Binarization scheme that decouples the binarization of self-attention and multi-layer perceptrons (MLPs), and Parameterized Weight Scales which introduce learnable scaling factors for weight binarization. Overall, our method performs favorably against state-of-the-arts by 19.8% on the TinyImageNet dataset. On ImageNet, our BiViT achieves a competitive 75.6% Top-1 accuracy over Swin-S model. Additionally, on COCO object detection, our method achieves an mAP of 40.8 with a Swin-T backbone over Cascade Mask R-CNN framework.
翻訳日:2023-10-06 23:14:22 公開日:2023-10-05
# SC-DepthV3:動的シーンに対するロバストな自己教師型単眼深度推定

SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for Dynamic Scenes ( http://arxiv.org/abs/2211.03660v2 )

ライセンス: Link先を確認
Libo Sun, Jia-Wang Bian, Huangying Zhan, Wei Yin, Ian Reid, Chunhua Shen(参考訳) 自己監督型単眼深度推定は静的な場面で顕著な結果を示した。 トレーニングネットワークのマルチビュー一貫性の仮定に依存しているが、ダイナミックなオブジェクト領域やオクルージョンでは違反している。 その結果、既存の手法ではダイナミックなシーンでは精度が悪く、推定された深度マップは、他のトレーニングビューでは無視されるため、オブジェクト境界でぼやけている。 本稿では,課題に対処するためのSC-DepthV3を提案する。 具体的には, 自己教師付き学習を促進させる新たな損失について提案する, 先行する単眼深度推定モデル, すなわち擬似深度モデルを提案する。 その結果,高度にダイナミックなシーンの単眼映像から訓練しても,シャープで正確な深度マップを予測できることがわかった。 提案手法は,6つの挑戦的データセットに対して,従来の手法よりもはるかに優れた性能を示し,提案手法について詳細なアブレーション研究を行った。 ソースコードとデータはhttps://github.com/JiawangBian/sc_depth_plで公開される。

Self-supervised monocular depth estimation has shown impressive results in static scenes. It relies on the multi-view consistency assumption for training networks, however, that is violated in dynamic object regions and occlusions. Consequently, existing methods show poor accuracy in dynamic scenes, and the estimated depth map is blurred at object boundaries because they are usually occluded in other training views. In this paper, we propose SC-DepthV3 for addressing the challenges. Specifically, we introduce an external pretrained monocular depth estimation model for generating single-image depth prior, namely pseudo-depth, based on which we propose novel losses to boost self-supervised training. As a result, our model can predict sharp and accurate depth maps, even when training from monocular videos of highly-dynamic scenes. We demonstrate the significantly superior performance of our method over previous methods on six challenging datasets, and we provide detailed ablation studies for the proposed terms. Source code and data will be released at https://github.com/JiawangBian/sc_depth_pl
翻訳日:2023-10-06 23:13:58 公開日:2023-10-05
# 自然運動中のEMGシミュレーションのための条件生成モデル

Conditional Generative Models for Simulation of EMG During Naturalistic Movements ( http://arxiv.org/abs/2211.01856v4 )

ライセンス: Link先を確認
Shihan Ma, Alexander Kenneth Clarke, Kostiantyn Maksymenko, Samuel Deslauriers-Gauthier, Xinjun Sheng, Xiangyang Zhu, Dario Farina(参考訳) 筋電図(EMG)信号の数値モデルは、人間の神経生理学の基本的な理解に大きく貢献し、運動神経科学の中心的柱と人間-機械界面の発達に留まっている。 しかし、有限要素法に基づく現代の生体物理シミュレーションは非常に正確であるが、計算コストが非常に高く、一般に等尺的に収縮する手足のような静的システムのモデル化に限られる。 この問題に対する解決策として,先進的な数値モデルの出力を模倣する条件付き生成モデルを訓練する伝達学習手法を提案する。 この目的のために,様々な体積導体パラメータの下で運動単位活性化電位波形を生成する条件付き生成ニューラルネットワークであるBioMimeを提案する。 このようなモデルが,より少ない数の数値モデルの出力を高精度に予測的に補間できることを実証する。 その結果、計算負荷は劇的に低減され、真に動的かつ自然に動きながらのemg信号の高速シミュレーションが可能となる。

Numerical models of electromyographic (EMG) signals have provided a huge contribution to our fundamental understanding of human neurophysiology and remain a central pillar of motor neuroscience and the development of human-machine interfaces. However, whilst modern biophysical simulations based on finite element methods are highly accurate, they are extremely computationally expensive and thus are generally limited to modelling static systems such as isometrically contracting limbs. As a solution to this problem, we propose a transfer learning approach, in which a conditional generative model is trained to mimic the output of an advanced numerical model. To this end, we present BioMime, a conditional generative neural network trained adversarially to generate motor unit activation potential waveforms under a wide variety of volume conductor parameters. We demonstrate the ability of such a model to predictively interpolate between a much smaller number of numerical model's outputs with a high accuracy. Consequently, the computational load is dramatically reduced, which allows the rapid simulation of EMG signals during truly dynamic and naturalistic movements.
翻訳日:2023-10-06 23:13:39 公開日:2023-10-05
# パルス効率量子機械学習

Pulse-efficient quantum machine learning ( http://arxiv.org/abs/2211.01383v2 )

ライセンス: Link先を確認
Andr\'e Melo, Nathan Earnest-Noble, Francesco Tacchino(参考訳) パラメータ化量子回路に基づく量子機械学習アルゴリズムは、短期的な量子優位性の候補である。 これらのアルゴリズムは現在の量子プロセッサと互換性があるが、デバイスノイズは、例えば損失景観の指数的平坦化を誘導することによって、その性能を制限する。 dynamical decouplingやpauli twirlingといったエラー抑制スキームは、ハードウェアレベルでのノイズを減らすことでこの問題を軽減している。 このツールボックスに最近追加されたのはパルス効率の伝送であり、ハードウェアとネイティブの相互共振相互作用を利用して回路のスケジュール時間を短縮する。 本研究では,パルス効率回路が量子機械学習の短期的アルゴリズムに与える影響について検討する。 量子ニューラルネットワークを用いた合成データセットのバイナリ分類と,量子カーネル推定を用いた手書き桁認識の2つの標準実験の結果を報告する。 いずれの場合も、パルス効率の変換は平均回路長を大幅に短縮し、その結果、分類精度が大幅に向上する。 ハミルトン変分アンサッツに対してパルス効率のよいトランスパイル法を適用し,ノイズ誘起不毛高原の発生を遅らせることを示した。

Quantum machine learning algorithms based on parameterized quantum circuits are promising candidates for near-term quantum advantage. Although these algorithms are compatible with the current generation of quantum processors, device noise limits their performance, for example by inducing an exponential flattening of loss landscapes. Error suppression schemes such as dynamical decoupling and Pauli twirling alleviate this issue by reducing noise at the hardware level. A recent addition to this toolbox of techniques is pulse-efficient transpilation, which reduces circuit schedule duration by exploiting hardware-native cross-resonance interaction. In this work, we investigate the impact of pulse-efficient circuits on near-term algorithms for quantum machine learning. We report results for two standard experiments: binary classification on a synthetic dataset with quantum neural networks and handwritten digit recognition with quantum kernel estimation. In both cases, we find that pulse-efficient transpilation vastly reduces average circuit durations and, as a result, significantly improves classification accuracy. We conclude by applying pulse-efficient transpilation to the Hamiltonian Variational Ansatz and show that it delays the onset of noise-induced barren plateaus.
翻訳日:2023-10-06 23:13:22 公開日:2023-10-05
# 自己組織化による空間流体適応サンプリング

Space-Fluid Adaptive Sampling by Self-Organisation ( http://arxiv.org/abs/2210.17505v4 )

ライセンス: Link先を確認
Roberto Casadei, Stefano Mariani, Danilo Pianini, Mirko Viroli, Franco Zambonelli(参考訳) 座標系におけるリカレントタスクは、分散センシングデータや計算結果など、空間的に異なる信号を管理する(推定、予測、制御)ことである。 特に大規模な環境では、ノードは局所的に知覚し、処理し、信号に作用し、近隣と協調して集団戦略を実装することができる。 そこで本研究では,協調型適応サンプリングによる空間現象推定のための分散協調戦略を考案する。 我々の設計は、空間を競合する領域に動的に分割し、正確な集計を行うという考え方に基づいている。 このような領域は、その構造が基礎となる現象によって作用する圧力に応じて適応するため、「流動」であるある種の仮想空間を定義する。 フィールドベースのコーディネーションフレームワークにおいて適応サンプリングアルゴリズムを提供し,自己安定化的で局所最適であることを証明した。 最後に,提案手法が精度と効率のトレードオフを維持しつつ,空間適応サンプリングを効果的に行うことをシミュレーションにより検証する。

A recurrent task in coordinated systems is managing (estimating, predicting, or controlling) signals that vary in space, such as distributed sensed data or computation outcomes. Especially in large-scale settings, the problem can be addressed through decentralised and situated computing systems: nodes can locally sense, process, and act upon signals, and coordinate with neighbours to implement collective strategies. Accordingly, in this work we devise distributed coordination strategies for the estimation of a spatial phenomenon through collaborative adaptive sampling. Our design is based on the idea of dynamically partitioning space into regions that compete and grow/shrink to provide accurate aggregate sampling. Such regions hence define a sort of virtualised space that is "fluid", since its structure adapts in response to pressure forces exerted by the underlying phenomenon. We provide an adaptive sampling algorithm in the field-based coordination framework, and prove it is self-stabilising and locally optimal. Finally, we verify by simulation that the proposed algorithm effectively carries out a spatially adaptive sampling while maintaining a tuneable trade-off between accuracy and efficiency.
翻訳日:2023-10-06 23:12:31 公開日:2023-10-05
# 凝縮体問題における量子古典クロスオーバーの探索

Hunting for quantum-classical crossover in condensed matter problems ( http://arxiv.org/abs/2210.14109v2 )

ライセンス: Link先を確認
Nobuyuki Yoshioka, Tsuyoshi Okubo, Yasunari Suzuki, Yuki Koizumi, Wataru Mizukami(参考訳) 計算複雑性の観点からの量子優位性の追求は、さらに近代化された決定的な問題へと繋がった: 量子コンピュータは、いつ、どのように古典的コンピュータより優れているのか? 次のマイルストーンは、実際的な問題における量子加速の実現であることは間違いない。 ここで、第一のターゲットが凝縮物質物理学である可能性が高いという明確な証拠と議論を与える。 主な貢献は以下の通りである。 1)テンソルネットワークに基づく最先端古典アルゴリズムの系統的誤り/実行時間解析の提案 2) 実行可能な論理命令のレベルで実行される量子資源の専用かつ高分解能な解析 3) 基底状態シミュレーションのための量子古典的クロスポイントの明確化は、2dハイゼンベルクモデルと2dフェルミ・ハバードモデルに対して数十万の物理キュービットしか使用せず、論理キュービットは物理エラー率$p=10^{-3}$で表面コードを介してエンコードされると仮定して数時間以内である。 我々の知識では、凝縮した物質問題は、量子ビット数と総実行時間の両方の観点から、既知の候補よりも高次である実効的な量子優位性の実証のための最も早いプラットフォームを提供すると論じている。

The intensive pursuit for quantum advantage in terms of computational complexity has further led to a modernized crucial question: {\it When and how will quantum computers outperform classical computers?} The next milestone is undoubtedly the realization of quantum acceleration in practical problems. Here we provide a clear evidence and arguments that the primary target is likely to be condensed matter physics. Our primary contributions are summarized as follows: 1) Proposal of systematic error/runtime analysis on state-of-the-art classical algorithm based on tensor networks; 2) Dedicated and high-resolution analysis on quantum resource performed at the level of executable logical instructions; 3) Clarification of quantum-classical crosspoint for ground-state simulation to be within runtime of hours using only a few hundreds of thousand physical qubits for 2d Heisenberg and 2d Fermi-Hubbard models, assuming that logical qubits are encoded via the surface code with the physical error rate of $p=10^{-3}$. To our knowledge, we argue that condensed matter problems offer the earliest platform for demonstration of practical quantum advantage that is order-of-magnitude more feasible than ever known candidates, in terms of both qubit counts and total runtime.
翻訳日:2023-10-06 23:12:14 公開日:2023-10-05
# 大規模合成グラフデータセット生成のためのフレームワーク

A Framework for Large Scale Synthetic Graph Dataset Generation ( http://arxiv.org/abs/2210.01944v4 )

ライセンス: Link先を確認
Sajad Darabi, Piotr Bigaj, Dawid Majchrowski, Artur Kasymov, Pawel Morkisz, Alex Fit-Florea(参考訳) 近年,不正検出やレコメンダシステムなど,多くのタスクにおいて,ディープグラフ学習アルゴリズムの開発とデプロイに対する関心が高まっている。 しかし、公開可能なグラフ構造化データセットの数は限られており、そのほとんどは本番サイズのアプリケーションに比べて小さいか、あるいはアプリケーションドメインに限られている。 この作業は、数十兆のエッジと数十億のノードを持つ実運用規模のグラフにデータセットをスケールするためのスケーラブルな合成グラフ生成ツールを提案することで、この欠点に対処する。 このツールは、プロプライエタリなデータセットから一連のパラメトリックモデルを学習し、プロトタイプ開発と新規アプリケーションの増加する合成データに関する様々なグラフ手法を研究するために研究者にリリースすることができる。 一連のデータセットにまたがるフレームワークの一般化性を実証し、構造的および特徴分布を模倣するとともに、ベンチマークやモデル開発に有用であることを示す様々なサイズに拡張する能力を示す。 コードはhttps://github.com/NVIDIA/DeepLearningExamples/tree/master/Tools/DGLPyTorch/SyntheticGraphGeneration で見ることができる。

Recently there has been increasing interest in developing and deploying deep graph learning algorithms for many tasks, such as fraud detection and recommender systems. Albeit, there is a limited number of publicly available graph-structured datasets, most of which are tiny compared to production-sized applications or are limited in their application domain. This work tackles this shortcoming by proposing a scalable synthetic graph generation tool to scale the datasets to production-size graphs with trillions of edges and billions of nodes. The tool learns a series of parametric models from proprietary datasets that can be released to researchers to study various graph methods on the synthetic data increasing prototype development and novel applications. We demonstrate the generalizability of the framework across a series of datasets, mimicking structural and feature distributions as well as the ability to scale them across varying sizes demonstrating their usefulness for benchmarking and model development. Code can be found on https://github.com/NVIDIA/DeepLearningExamples/tree/master/Tools/DGLPyTorch/SyntheticGraphGeneration .
翻訳日:2023-10-06 23:11:53 公開日:2023-10-05
# 過去と現在の間のギャップを埋めるための時変傾向スコア

Time-Varying Propensity Score to Bridge the Gap between the Past and Present ( http://arxiv.org/abs/2210.01422v4 )

ライセンス: Link先を確認
Rasool Fakoor and Jonas Mueller and Zachary C. Lipton and Pratik Chaudhari and Alexander J. Smola(参考訳) データが時間とともに進化するため、機械学習モデルの現実世界でのデプロイメントは難しい。 データが任意の方法で進化する際には、モデルが機能しないが、これらの変更に何らかのパターンがある場合、それに対応するメソッドを設計できるかもしれない。 本稿では,データが徐々に進化する状況に対処する。 我々は、データ分布の段階的な変化を検知し、過去のデータを選択的にサンプリングしてモデルを更新できる時間変化確率スコアを導入します。 時間変動確率スコアは非常に一般的で,教師付き学習(画像分類問題など)から,段階的な変化を連続的に行う,教師付き学習(画像分類問題など)から,方針やタスクの変化に伴ってデータがシフトする強化学習タスク(ロボット操作や連続制御など)まで,さまざまな問題に対して評価を行う。

Real-world deployment of machine learning models is challenging because data evolves over time. While no model can work when data evolves in an arbitrary fashion, if there is some pattern to these changes, we might be able to design methods to address it. This paper addresses situations when data evolves gradually. We introduce a time-varying propensity score that can detect gradual shifts in the distribution of data which allows us to selectively sample past data to update the model -- not just similar data from the past like that of a standard propensity score but also data that evolved in a similar fashion in the past. The time-varying propensity score is quite general: we demonstrate different ways of implementing it and evaluate it on a variety of problems ranging from supervised learning (e.g., image classification problems) where data undergoes a sequence of gradual shifts, to reinforcement learning tasks (e.g., robotic manipulation and continuous control) where data shifts as the policy or the task changes.
翻訳日:2023-10-06 23:11:34 公開日:2023-10-05
# 生体医学文献の細粒度意味インデクシングのための弱教師付き深層学習の大規模研究

Large-scale investigation of weakly-supervised deep learning for the fine-grained semantic indexing of biomedical literature ( http://arxiv.org/abs/2301.09350v2 )

ライセンス: Link先を確認
Anastasios Nentidis, Thomas Chatzopoulos, Anastasia Krithara, Grigorios Tsoumakas, Georgios Paliouras(参考訳) 目的: バイオメディカル文献のセマンティックインデックス化は通常、MeSH記述子のレベルで行われ、関連するが異なるいくつかの生体医学概念がまとめられ、単一のトピックとして扱われる。 本研究では,メッシュ概念のレベルにおける主題アノテーションの自動改良手法を提案する。 方法: ラベル付きデータの欠落は, 論文の要約における概念発生に基づく弱い監督に依存し, 辞書に基づくヒューリスティックスによって強化される。 さらに、ディープラーニングのアプローチを調査し、このタスクの特定の課題に取り組むためにデザインの選択を行います。 提案手法は,記述子に昇格した概念に基づいて,大規模なレトロスペクティブシナリオに基づいて評価する。 結果: 実験では複数のラベルで約0.63のマクロF1スコアを達成できた。 提案法によりさらに4pp以上改善した。 結論: 提案手法は,MeSH概念のレベルで粗粒度ラベルを精製する上で, 概念発生が強いヒューリスティックであることが示唆された。

Objective: Semantic indexing of biomedical literature is usually done at the level of MeSH descriptors with several related but distinct biomedical concepts often grouped together and treated as a single topic. This study proposes a new method for the automated refinement of subject annotations at the level of MeSH concepts. Methods: Lacking labelled data, we rely on weak supervision based on concept occurrence in the abstract of an article, which is also enhanced by dictionary-based heuristics. In addition, we investigate deep learning approaches, making design choices to tackle the particular challenges of this task. The new method is evaluated on a large-scale retrospective scenario, based on concepts that have been promoted to descriptors. Results: In our experiments concept occurrence was the strongest heuristic achieving a macro-F1 score of about 0.63 across several labels. The proposed method improved it further by more than 4pp. Conclusion: The results suggest that concept occurrence is a strong heuristic for refining the coarse-grained labels at the level of MeSH concepts and the proposed method improves it further.
翻訳日:2023-10-06 23:05:33 公開日:2023-10-05
# AIアライメント対話:サポートエージェントにおけるAIアライメントの対話的アプローチ

AI Alignment Dialogues: An Interactive Approach to AI Alignment in Support Agents ( http://arxiv.org/abs/2301.06421v2 )

ライセンス: Link先を確認
Pei-Yu Chen, Myrthe L. Tielman, Dirk K.J. Heylen, Catholijn M. Jonker, M. Birna van Riemsdijk(参考訳) AIアライメントとは、AIシステムが人間にとって有益な目標と活動のみを追求することである。 AIアライメントの現在のアプローチのほとんどは、人間が行動データから何を評価するかを学ぶことです。 本稿では,AIアライメント対話(AI Alignment Dialogues: ユーザとエージェントが対話を通じてアライメントを達成・維持しようとする対話)を導入することで,アライメントの概念の異なる方法を提案する。 我々は、アライメント・ダイアログはデータ駆動型アプローチと比較して、特に行動支援エージェントにおいて多くの利点があると主張している。 アライメント対話の利点は、ユーザーがエージェントに直接ハイレベルな概念を伝えることを可能にし、エージェントをより透明で信頼できるものにすることである。 本稿では,アライメント対話の概念と高レベル構造について概説する。 さらに,アライメント・ダイアログがユーザに与える影響を記述したモデルを開発し,AIアライメント・ダイアログの設計提案を行った。 これにより、aiアライメント対話の基礎を確立し、さらなる開発と研究を必要とするものを明らかにする。

AI alignment is about ensuring AI systems only pursue goals and activities that are beneficial to humans. Most of the current approach to AI alignment is to learn what humans value from their behavioural data. This paper proposes a different way of looking at the notion of alignment, namely by introducing AI Alignment Dialogues: dialogues with which users and agents try to achieve and maintain alignment via interaction. We argue that alignment dialogues have a number of advantages in comparison to data-driven approaches, especially for behaviour support agents, which aim to support users in achieving their desired future behaviours rather than their current behaviours. The advantages of alignment dialogues include allowing the users to directly convey higher-level concepts to the agent, and making the agent more transparent and trustworthy. In this paper we outline the concept and high-level structure of alignment dialogues. Moreover, we conducted a qualitative focus group user study from which we developed a model that describes how alignment dialogues affect users, and created design suggestions for AI alignment dialogues. Through this we establish foundations for AI alignment dialogues and shed light on what requires further development and research.
翻訳日:2023-10-06 23:05:15 公開日:2023-10-05
# データセット蒸留に関する総合調査

A Comprehensive Survey of Dataset Distillation ( http://arxiv.org/abs/2301.05603v3 )

ライセンス: Link先を確認
Shiye Lei and Dacheng Tao(参考訳) ディープラーニング技術は過去10年間に前例のない発展を遂げ、多くのアプリケーションドメインで主要な選択肢となっている。 この進歩は主に、急速に成長するコンピューティング資源が高度なアルゴリズムに大量のデータを扱うことを奨励する体系的なコラボレーションによるものである。 しかし、計算能力に制限のあるデータの無制限な成長を扱うことは徐々に困難になっている。 この目的のために、データ処理効率を改善するために様々なアプローチが提案されている。 データセット削減法であるデータセット蒸留は、重要なデータから小さな典型的なデータセットを合成することでこの問題に対処し、ディープラーニングコミュニティから多くの注目を集めている。 既存のデータセット蒸留法は、ターゲットデータのパフォーマンスを明示的に模倣するかどうかに応じて、メタラーニングとデータマッチングフレームワークに分類することができる。 データセットの蒸留は、データセットの圧縮において驚くべき性能を示したが、高解像度のデータや複雑なラベル空間を持つデータの蒸留など、いくつかの制限がある。 本稿では, 蒸留フレームワークとアルゴリズム, 因子化データセット蒸留, 性能比較, 応用など, 様々な側面からデータセット蒸留を総合的に理解する。 最後に,今後のデータセット蒸留研究の推進に向けた課題と今後の方向性について述べる。

Deep learning technology has developed unprecedentedly in the last decade and has become the primary choice in many application domains. This progress is mainly attributed to a systematic collaboration in which rapidly growing computing resources encourage advanced algorithms to deal with massive data. However, it has gradually become challenging to handle the unlimited growth of data with limited computing power. To this end, diverse approaches are proposed to improve data processing efficiency. Dataset distillation, a dataset reduction method, addresses this problem by synthesizing a small typical dataset from substantial data and has attracted much attention from the deep learning community. Existing dataset distillation methods can be taxonomized into meta-learning and data matching frameworks according to whether they explicitly mimic the performance of target data. Although dataset distillation has shown surprising performance in compressing datasets, there are still several limitations such as distilling high-resolution data or data with complex label spaces. This paper provides a holistic understanding of dataset distillation from multiple aspects, including distillation frameworks and algorithms, factorized dataset distillation, performance comparison, and applications. Finally, we discuss challenges and promising directions to further promote future studies on dataset distillation.
翻訳日:2023-10-06 23:04:49 公開日:2023-10-05
# 密度クラスタリングとセントロイド解析によるバックドア攻撃の普遍的検出

Universal Detection of Backdoor Attacks via Density-based Clustering and Centroids Analysis ( http://arxiv.org/abs/2301.04554v2 )

ライセンス: Link先を確認
Wei Guo, Benedetta Tondi, Mauro Barni(参考訳) 本稿では,クラスタリングとセントロイド分析(CCA-UD)に基づくバックドア攻撃に対するユニバーサルディフェンスを提案する。 防御の目的は、深層ニューラルネットワークモデルがトレーニングデータセットを検査することによってバックドア攻撃を受けるかどうかを明らかにすることである。 CCA-UDはまず、密度ベースのクラスタリングによってトレーニングセットのサンプルをクラスタ化する。 そして、有毒なクラスターの存在を検出するための新しい戦略を適用する。 提案手法は,分析クラスタの代表的な例の特徴を良質なサンプルに加えた際の一般的な誤分類行動に基づく。 誤分類エラーを誘発する能力は、有毒サンプルの一般的な特徴であるため、提案された防御は攻撃に依存しない。 これは、ある種類のバックドア攻撃のみを防御できるか、または中毒率の条件または攻撃者が使用するトリガー信号の種類が満たされる場合にのみ有効であるという、既存の防御に関して大きな違いを示す。 いくつかの分類タスクとネットワークアーキテクチャの実験を行い、異なる種類のバックドア攻撃(クリーンラベルまたは破損ラベルを含む)を考慮し、グローバルおよびローカルトリガー信号とサンプル固有およびソース固有トリガーを含むトリガー信号を考慮し、提案手法がすべてのケースにおいてバックドア攻撃に対する防御に非常に有効であることを明らかにした。

We propose a Universal Defence against backdoor attacks based on Clustering and Centroids Analysis (CCA-UD). The goal of the defence is to reveal whether a Deep Neural Network model is subject to a backdoor attack by inspecting the training dataset. CCA-UD first clusters the samples of the training set by means of density-based clustering. Then, it applies a novel strategy to detect the presence of poisoned clusters. The proposed strategy is based on a general misclassification behaviour observed when the features of a representative example of the analysed cluster are added to benign samples. The capability of inducing a misclassification error is a general characteristic of poisoned samples, hence the proposed defence is attack-agnostic. This marks a significant difference with respect to existing defences, that, either can defend against only some types of backdoor attacks, or are effective only when some conditions on the poisoning ratio or the kind of triggering signal used by the attacker are satisfied. Experiments carried out on several classification tasks and network architectures, considering different types of backdoor attacks (with either clean or corrupted labels), and triggering signals, including both global and local triggering signals, as well as sample-specific and source-specific triggers, reveal that the proposed method is very effective to defend against backdoor attacks in all the cases, always outperforming the state of the art techniques.
翻訳日:2023-10-06 23:04:31 公開日:2023-10-05
# 適応グラフ畳み込みネットワークを用いた複数ラベル画像分類:単一領域から複数の領域へ

Multi-label Image Classification using Adaptive Graph Convolutional Networks: from a Single Domain to Multiple Domains ( http://arxiv.org/abs/2301.04494v2 )

ライセンス: Link先を確認
Indel Pal Singh, Enjie Ghorbel, Oyebade Oyedotun, Djamila Aouada(参考訳) 本稿では,マルチラベル画像分類のための適応グラフベースアプローチを提案する。 グラフベースの手法はラベル相関をモデル化する能力から、マルチラベル分類の分野で広く利用されている。 特に、それらの効果は、単一のドメインを考える場合だけでなく、複数のドメインを考慮に入れる場合にも証明されている。 しかし、使用グラフの位相はヒューリスティックに定義されているため最適ではない。 さらに、連続的なグラフ畳み込みネットワーク(GCN)集約は、特徴の類似性を損なう傾向がある。 これらの問題を克服するために、エンドツーエンドでグラフ接続を学ぶためのアーキテクチャを導入する。 これは注意に基づくメカニズムと類似性保存戦略を統合することで実現される。 提案するフレームワークは,複数のドメインに拡張し,対戦型トレーニングスキームを用いて拡張する。 多くの実験が、よく知られた単一ドメインとマルチドメインのベンチマークで報告されている。 その結果,提案手法は平均精度 (mAP) とモデルサイズを,最先端技術と比較して比較して比較した結果を得た。 コードは公開される予定だ。

This paper proposes an adaptive graph-based approach for multi-label image classification. Graph-based methods have been largely exploited in the field of multi-label classification, given their ability to model label correlations. Specifically, their effectiveness has been proven not only when considering a single domain but also when taking into account multiple domains. However, the topology of the used graph is not optimal as it is pre-defined heuristically. In addition, consecutive Graph Convolutional Network (GCN) aggregations tend to destroy the feature similarity. To overcome these issues, an architecture for learning the graph connectivity in an end-to-end fashion is introduced. This is done by integrating an attention-based mechanism and a similarity-preserving strategy. The proposed framework is then extended to multiple domains using an adversarial training scheme. Numerous experiments are reported on well-known single-domain and multi-domain benchmarks. The results demonstrate that our approach achieves competitive results in terms of mean Average Precision (mAP) and model size as compared to the state-of-the-art. The code will be made publicly available.
翻訳日:2023-10-06 23:04:07 公開日:2023-10-05
# 強誘電体のキャビティ制御における局所的ゆらぎ

Local Fluctuations in Cavity Control of Ferroelectricity ( http://arxiv.org/abs/2301.01884v2 )

ライセンス: Link先を確認
Jonathan B. Curtis, Marios H. Michael, Eugene Demler(参考訳) 共振電磁キャビティによる量子物質の制御は、物質相と機能性の制御を確立するための有望な経路である。 量子パラ誘電体絶縁体(ほぼ強誘電体)は、電場に直接結合する集団モードが強く変動するため、この目的のために特に有望な候補システムである。 本研究では,2つの高品位金属鏡に挟まれた量子常電体を用いて,ファブリペロ型キャビティを実現するシステムについて検討する。 完全なマルチモードの連続的な記述を開発することで、様々なシステムサイズと温度に対して空間的に解決された方法でキャビティの効果を研究できる。 驚いたことに、横モードの連続体を含むと、空洞は強誘電性相関を抑制する。 この効果は、共振器境界における横光子のスクリーニングから生じ、結果としてパラ誘電体試料の表面に限られる。 また、この効果の温度依存性を探求し、高温で消滅し、純粋に量子力学的効果であることを示す。 この結果はカシミール力とファン・デル・ワールス力の計算と結びつけ、量子常電体の双極子揺らぎと密接に関連していると主張する。 この結果は一般的な定式化に基づいており、複数の材料と相を含むヘテロ構造の量子電気力学の研究への道を開くことが期待されている。

Control of quantum matter through resonant electromagnetic cavities is a promising route towards establishing control over material phases and functionalities. Quantum paraelectric insulators -- materials which are nearly ferroelectric -- are particularly promising candidate systems for this purpose since they have strongly fluctuating collective modes which directly couple to the electric field. In this work we explore this possibility in a system comprised of a quantum paraelectric sandwiched between two high-quality metal mirrors, realizing a Fabry-Perot type cavity. By developing a full multimode, continuum description we are able to study the effect of the cavity in a spatially resolved way for a variety of system sizes and temperatures. Surprisingly, we find that once a continuum of transverse modes are included the cavity ends up suppressing ferroelectric correlations. This effect arises from the screening out of transverse photons at the cavity boundaries and as a result is confined to the surface of the paraelectric sample. We also explore the temperature dependence of this effect and find it vanishes at high temperatures, indicating it is a purely quantum mechanical effect. We connect our result to calculations of Casimir and Van der Waals forces, which we argue are closely related to the dipolar fluctuations in the quantum paraelectric. Our results are based on a general formalism and are expected to be widely applicable, paving the way towards studies of the quantum electrodynamics of heterostructures featuring multiple materials and phases.
翻訳日:2023-10-06 23:03:54 公開日:2023-10-05
# 完全鍵のないワンタイムユニバーサルハッシュ量子デジタル署名

One-Time Universal Hashing Quantum Digital Signatures without Perfect Keys ( http://arxiv.org/abs/2301.01132v4 )

ライセンス: Link先を確認
Bing-Hong Li, Yuan-Mei Xie, Xiao-Yu Cao, Chen-Long Li, Yao Fu, Hua-Lei Yin, Zeng-Bing Chen(参考訳) 量子デジタルシグネチャ(QDS)は、量子法則により3つのリモートパーティ間で相関ビット列を生成し、非監査、認証、メッセージの整合性を保証する。 近年,量子非対称暗号化とユニバーサルハッシュ関数を利用した1回のユニバーサルハッシュqdsフレームワークが提案されており,長いメッセージのハッシュ値に直接署名することで署名率を大幅に向上させ,無条件のセキュリティを保証する。 しかし、量子鍵分布と同様に、このフレームワークは、厄介な行列演算を導入するプライバシ増幅を行い、大量の計算リソースを消費し、遅延を引き起こし、障害確率を増加させることで、完全な秘密性を持つ鍵を使用する。 本稿では,プライベート通信とは異なり,情報漏洩の少ない不完全な量子鍵を,セキュリティを損なうことなくディジタル署名や認証に使用できることを証明し,従来のシングルビット方式と比較して,メガビットメッセージ署名の署名率を8桁改善できることを示す。 本研究は,データ後処理の遅延を著しく低減し,任意の量子鍵生成プロトコルと互換性がある。 シミュレーションでは、2光子ツインフィールド鍵生成プロトコルを例として、QDSをシグナとレシーバ間の繊維距離650kmで実現することができる。 この研究は、量子鍵の暗号的応用と不完全な機密性を提供し、将来の量子ネットワークにおけるデジタルシグネチャの実践的かつアジャイルな実装の道を開く。

Quantum digital signatures (QDS), generating correlated bit strings among three remote parties for signatures through quantum law, can guarantee non-repudiation, authenticity, and integrity of messages. Recently, one-time universal hashing QDS framework, exploiting the quantum asymmetric encryption and universal hash functions, has been proposed to significantly improve the signature rate and ensure unconditional security by directly signing the hash value of long messages. However, similar to quantum key distribution, this framework utilizes keys with perfect secrecy by performing privacy amplification that introduces cumbersome matrix operations, thereby consuming large computational resources, causing delays and increasing failure probability. Here, we prove that, different from private communication, imperfect quantum keys with limited information leakage can be used for digital signatures and authentication without compromising the security while having eight orders of magnitude improvement on signature rate for signing a megabit message compared with conventional single-bit schemes. This study significantly reduces the delay for data postprocessing and is compatible with any quantum key generation protocols. In our simulation, taking two-photon twin-field key generation protocol as an example, QDS can be practically implemented over a fiber distance of 650 km between the signer and receiver. For the first time, this study offers a cryptographic application of quantum keys with imperfect secrecy and paves a way for the practical and agile implementation of digital signatures in a future quantum network.
翻訳日:2023-10-06 23:03:30 公開日:2023-10-05
# spuriosity rankings: バイアスの測定と軽減のためのデータのソート

Spuriosity Rankings: Sorting Data to Measure and Mitigate Biases ( http://arxiv.org/abs/2212.02648v2 )

ライセンス: Link先を確認
Mazda Moayeri, Wenxiao Wang, Sahil Singla, Soheil Feizi(参考訳) 本稿では,突発的手がかりに依存するモデルバイアスを簡易かつ効果的に測定・緩和する方法を提案する。 データやモデルのトレーニングにコストのかかる変更を必要とせず、既に持っているデータをソートすることでよりうまく利用します。 具体的には、解釈可能なネットワークの深い神経的特徴を介して、スプリシティー(一般的なスプリアスキューが存在する程度)に基づいて、クラス内の画像のランク付けを行う。 高頻度画像と低頻度画像の精度のギャップとしてモデルバイアスを評価することは、スプリオシティランキングにより、マイノリティサブポピュレーション(低頻度画像)の特定が容易である。 低精細度画像に分類ヘッドを微調整することで、モデルのバイアスを少ないコストで効率的に除去することさえ可能で、スプリソリティによらずサンプルを公平に処理することができる。 imagenet上で私たちのメソッドをデモし、5000ドルのクラスフィーチャ依存性に注釈を付けて(630ドル)、これらの機能に対して325k$のsoft segmentationのデータセットを作成しました。 同定されたスプリアス神経特徴を用いてスプリオシティのランキングを計算した結果、89ドルの多様なモデルに対するバイアスを評価し、クラス毎のバイアスがモデル間で高い相関関係にあることを見出した。 以上の結果から,スプリアス機能依存によるモデルバイアスは,モデルのトレーニング方法よりも,モデルがどのようなトレーニングを受けているかによって影響されることが示唆された。

We present a simple but effective method to measure and mitigate model biases caused by reliance on spurious cues. Instead of requiring costly changes to one's data or model training, our method better utilizes the data one already has by sorting them. Specifically, we rank images within their classes based on spuriosity (the degree to which common spurious cues are present), proxied via deep neural features of an interpretable network. With spuriosity rankings, it is easy to identify minority subpopulations (i.e. low spuriosity images) and assess model bias as the gap in accuracy between high and low spuriosity images. One can even efficiently remove a model's bias at little cost to accuracy by finetuning its classification head on low spuriosity images, resulting in fairer treatment of samples regardless of spuriosity. We demonstrate our method on ImageNet, annotating $5000$ class-feature dependencies ($630$ of which we find to be spurious) and generating a dataset of $325k$ soft segmentations for these features along the way. Having computed spuriosity rankings via the identified spurious neural features, we assess biases for $89$ diverse models and find that class-wise biases are highly correlated across models. Our results suggest that model bias due to spurious feature reliance is influenced far more by what the model is trained on than how it is trained.
翻訳日:2023-10-06 23:02:36 公開日:2023-10-05
# 深部運動量多角形schr\"odinger橋

Deep Momentum Multi-Marginal Schr\"odinger Bridge ( http://arxiv.org/abs/2303.01751v3 )

ライセンス: Link先を確認
Tianrong Chen, Guan-Horng Liu, Molei Tao, Evangelos A. Theodorou(参考訳) 粗い時間間隔の分布から非ラベル標本を用いて人口動態を再構築することは重要な課題である。 フローベースモデルやschr\"odinger bridge (sb) モデルのような最近のアプローチは魅力的な性能を示しているが、推定されたサンプルトラジェクタは、基礎となる確率性の説明に失敗するか、あるいは、時を超えて限界的な制約を満たす確率システムの滑らかな測度値のスプラインを学習する新しい計算フレームワークである$\underline{d}$eep $\underline{m}$omentum multi-marginal $\underline{s}$chr\"odinger $\underline{b}$ridge(dmsb)である。 有名なブレグマン・イテレーションを調整し、イテレーション・プロポーショナル・フィッティングを位相空間に拡張することにより、高次元マルチマルジナル軌道推論タスクを効率的に処理できる。 我々のアルゴリズムは、合成データセットと実世界の単一細胞RNA配列データセットの実験によって証明されたように、ベースラインを著しく上回る。 さらに,提案手法は位置スナップショットのみから,しかしながら到達不能な基底真理速度が存在する場合に,速度分布の進化を合理的に再構築することができる。

It is a crucial challenge to reconstruct population dynamics using unlabeled samples from distributions at coarse time intervals. Recent approaches such as flow-based models or Schr\"odinger Bridge (SB) models have demonstrated appealing performance, yet the inferred sample trajectories either fail to account for the underlying stochasticity or are $\underline{D}$eep $\underline{M}$omentum Multi-Marginal $\underline{S}$chr\"odinger $\underline{B}$ridge(DMSB), a novel computational framework that learns the smooth measure-valued spline for stochastic systems that satisfy position marginal constraints across time. By tailoring the celebrated Bregman Iteration and extending the Iteration Proportional Fitting to phase space, we manage to handle high-dimensional multi-marginal trajectory inference tasks efficiently. Our algorithm outperforms baselines significantly, as evidenced by experiments for synthetic datasets and a real-world single-cell RNA sequence dataset. Additionally, the proposed approach can reasonably reconstruct the evolution of velocity distribution, from position snapshots only, when there is a ground truth velocity that is nevertheless inaccessible.
翻訳日:2023-10-06 22:54:29 公開日:2023-10-05
# AdvRain: カメラベースのスマートビジョンシステムを攻撃する逆降雨

AdvRain: Adversarial Raindrops to Attack Camera-based Smart Vision Systems ( http://arxiv.org/abs/2303.01338v2 )

ライセンス: Link先を確認
Amira Guesmi, Muhammad Abdullah Hanif, and Muhammad Shafique(参考訳) 視覚ベースの知覚モジュールは多くのアプリケーション、特に自律走行車やインテリジェントロボットにますます導入されている。 これらのモジュールは周囲に関する情報を取得し、障害物を特定するために使用されている。 したがって、正確な検出と分類は適切な判断に達し、常に適切かつ安全な行動を取るために不可欠である。 最近の研究では、物理的敵攻撃として知られる「印刷された敵攻撃」が、物体検出器や画像分類器のような知覚モデルを誤認することに成功した。 しかし、これらの物理的攻撃のほとんどは、人目やテストドライブで特定・検出できるような、発生した摂動に対する目視パターンと目視パターンに基づいている。 本稿では,同じクラスのすべてのオブジェクトに対して,カメラベースの認識システムを騙すことができる,カメラベースの不明瞭な敵攻撃(\textbf{AdvRain})を提案する。 マスクベースのフェイクウェザー攻撃は、基盤となるコンピュータハードウェアやイメージメモリへのアクセスを必要とするが、この攻撃は、カメラのレンズの上に外部に配置される半透明のステッカーに印刷できる自然の気象条件(雨滴)の効果を模倣することに基づいている。 これを実現するために、重要位置を特定することを目的としたランダム探索を行い、目標分類器に対して変換が逆方向であることを確認するための反復的なプロセスを提案する。 この変換は,雨滴がカバーする領域に対応する撮像画像のぼやけた部分に基づいて行う。 平均モデルの精度は、ImageNetのVGG19とCaltech-101のResnet34で、それぞれ$45\%以上、$40\%以上、それぞれ$20$の降水量で低下します。

Vision-based perception modules are increasingly deployed in many applications, especially autonomous vehicles and intelligent robots. These modules are being used to acquire information about the surroundings and identify obstacles. Hence, accurate detection and classification are essential to reach appropriate decisions and take appropriate and safe actions at all times. Current studies have demonstrated that "printed adversarial attacks", known as physical adversarial attacks, can successfully mislead perception models such as object detectors and image classifiers. However, most of these physical attacks are based on noticeable and eye-catching patterns for generated perturbations making them identifiable/detectable by human eye or in test drives. In this paper, we propose a camera-based inconspicuous adversarial attack (\textbf{AdvRain}) capable of fooling camera-based perception systems over all objects of the same class. Unlike mask based fake-weather attacks that require access to the underlying computing hardware or image memory, our attack is based on emulating the effects of a natural weather condition (i.e., Raindrops) that can be printed on a translucent sticker, which is externally placed over the lens of a camera. To accomplish this, we provide an iterative process based on performing a random search aiming to identify critical positions to make sure that the performed transformation is adversarial for a target classifier. Our transformation is based on blurring predefined parts of the captured image corresponding to the areas covered by the raindrop. We achieve a drop in average model accuracy of more than $45\%$ and $40\%$ on VGG19 for ImageNet and Resnet34 for Caltech-101, respectively, using only $20$ raindrops.
翻訳日:2023-10-06 22:53:57 公開日:2023-10-05
# サンプリングのための勾配流:平均場モデル、ガウス近似およびアフィン不変性

Gradient Flows for Sampling: Mean-Field Models, Gaussian Approximations and Affine Invariance ( http://arxiv.org/abs/2302.11024v5 )

ライセンス: Link先を確認
Yifan Chen, Daniel Zhengyu Huang, Jiaoyang Huang, Sebastian Reich, Andrew M. Stuart(参考訳) 未知の正規化定数で確率分布をサンプリングすることは、計算科学と工学の基本的な問題である。 このタスクは全ての確率測度に対する最適化問題とみなすことができ、初期分布は勾配流を介して動的に所望の最小値へと発展させることができる。 平均場モデルは、確率測度の空間における勾配流によって法則が支配されるが、これらの平均場モデルの粒子近似はアルゴリズムの基盤を形成する。 勾配流のアプローチは変分推論のアルゴリズムの基礎にもなり、ガウスのような確率分布のパラメータ化された族上で最適化が行われ、基礎となる勾配流はパラメータ化された族に制限される。 勾配流の異なるエネルギー汎関数とメトリクスを選択することで、異なる収束特性を持つ異なるアルゴリズムが生じる。 本稿では,このエネルギー選択から生じる勾配流が正規化定数に依存しないという特異な性質を持つことを示した上で,Kulback-Leiblerの発散に着目する。 この指標について,fisher-rao,wasserstein,steinメトリクスの変種に注目し,勾配流と対応する平均場モデルに対するアフィン不変性を導入し,与えられた計量がアフィン不変性をもたらすかどうかを判定し,そうでない場合はアフィン不変量にするように修正する。 確率密度空間とガウス空間の両方における勾配流の研究を行った。 ガウス空間内の流れは、流れのガウス近似として理解することができる。 計量とモーメント閉包に基づくガウス近似が一致することを示し、それら間の接続を確立し、アフィン不変性の利点を示す長期収束特性について検討する。

Sampling a probability distribution with an unknown normalization constant is a fundamental problem in computational science and engineering. This task may be cast as an optimization problem over all probability measures, and an initial distribution can be evolved to the desired minimizer dynamically via gradient flows. Mean-field models, whose law is governed by the gradient flow in the space of probability measures, may also be identified; particle approximations of these mean-field models form the basis of algorithms. The gradient flow approach is also the basis of algorithms for variational inference, in which the optimization is performed over a parameterized family of probability distributions such as Gaussians, and the underlying gradient flow is restricted to the parameterized family. By choosing different energy functionals and metrics for the gradient flow, different algorithms with different convergence properties arise. In this paper, we concentrate on the Kullback-Leibler divergence after showing that, up to scaling, it has the unique property that the gradient flows resulting from this choice of energy do not depend on the normalization constant. For the metrics, we focus on variants of the Fisher-Rao, Wasserstein, and Stein metrics; we introduce the affine invariance property for gradient flows, and their corresponding mean-field models, determine whether a given metric leads to affine invariance, and modify it to make it affine invariant if it does not. We study the resulting gradient flows in both probability density space and Gaussian space. The flow in the Gaussian space may be understood as a Gaussian approximation of the flow. We demonstrate that the Gaussian approximation based on the metric and through moment closure coincide, establish connections between them, and study their long-time convergence properties showing the advantages of affine invariance.
翻訳日:2023-10-06 22:53:26 公開日:2023-10-05
# 単一非エルミート不純物を有するシステムにおける異常皮膚効果

Anomalous Skin Effects in Disordered Systems with a Single non-Hermitian Impurity ( http://arxiv.org/abs/2302.09081v2 )

ライセンス: Link先を確認
Paolo Molignini, Oscar Arandes, and Emil J. Bergholtz(参考訳) 非エルミート不純物における異常皮膚効果について, 潜在性障害との相互作用を研究し, 極小格子モデルを正確に解くことにより検討する。 可解性単重性モデルの特徴は、異方性ホッピング項の存在がバルクホッピング方向とは反対のすべての固有状態のスケールフリーな蓄積を誘導することができることであるが、非単調な挙動は微調整され、さらにそのホッピングが弱まり、最終的に効果が逆転する。 しかし、バルクポテンシャル障害との相互作用はこの現象学を質的に豊かにし、指向性ホッピング強度が調整されるにつれて、頑健な非単調な局在挙動をもたらす。 非単調性は、1つの非エルミート不純物を持つ完全エルミートバルクの極限においても持続する。

We explore anomalous skin effects at non-Hermitian impurities by studying their interplay with potential disorder and by exactly solving a minimal lattice model. A striking feature of the solvable single-impurity model is that the presence of anisotropic hopping terms can induce a scale-free accumulation of all eigenstates opposite to the bulk hopping direction, although the nonmonotonic behavior is fine tuned and further increasing such hopping weakens and eventually reverses the effect. The interplay with bulk potential disorder, however, qualitatively enriches this phenomenology leading to a robust nonmonotonic localization behavior as directional hopping strengths are tuned. Nonmonotonicity persists even in the limit of an entirely Hermitian bulk with a single non-Hermitian impurity.
翻訳日:2023-10-06 22:52:55 公開日:2023-10-05
# 機械学習研究の推論可能性に向けて

Towards Inferential Reproducibility of Machine Learning Research ( http://arxiv.org/abs/2302.04054v6 )

ライセンス: Link先を確認
Michael Hagmann, Philipp Meier and Stefan Riezler(参考訳) 機械学習評価の信頼性 -- 再現されたモデルトレーニング実行における観察された評価スコアの一貫性 -- は、測定ノイズと見なされる複数の非決定性源に影響される。 研究結果の再現性を強制するためにノイズを除去する現在の傾向は、実装レベルで固有の非決定性を無視し、アルゴリズム的ノイズ要因とデータ特性の間の重要な相互作用効果を無視している。 これはそのような実験から引き出すことができる結論の範囲を制限する。 ノイズを除去する代わりに、学習モデルの特定のインスタンスを超えて推論を引き出すことを目的とした、機械学習評価の重要度と信頼性の分析に、データ特性との相互作用を含む複数のばらつき源を組み込むことを提案する。 本稿では,線形混合効果モデル (LMEM) を用いて評価スコアを解析し,一般確率比テスト (GLRT) を用いて統計的推論を行う方法を示す。 これにより、メタパラメータの変動のような任意のノイズ源を統計的に有意なテストに組み込むことができ、データ特性に基づく性能差を評価することができる。 さらに、分散成分分析(VCA)により、ノイズ源の総合的な分散への寄与の分析と、全分散に対する実質的な比による信頼性係数の計算が可能となる。

Reliability of machine learning evaluation -- the consistency of observed evaluation scores across replicated model training runs -- is affected by several sources of nondeterminism which can be regarded as measurement noise. Current tendencies to remove noise in order to enforce reproducibility of research results neglect inherent nondeterminism at the implementation level and disregard crucial interaction effects between algorithmic noise factors and data properties. This limits the scope of conclusions that can be drawn from such experiments. Instead of removing noise, we propose to incorporate several sources of variance, including their interaction with data properties, into an analysis of significance and reliability of machine learning evaluation, with the aim to draw inferences beyond particular instances of trained models. We show how to use linear mixed effects models (LMEMs) to analyze performance evaluation scores, and to conduct statistical inference with a generalized likelihood ratio test (GLRT). This allows us to incorporate arbitrary sources of noise like meta-parameter variations into statistical significance testing, and to assess performance differences conditional on data properties. Furthermore, a variance component analysis (VCA) enables the analysis of the contribution of noise sources to overall variance and the computation of a reliability coefficient by the ratio of substantial to total variance.
翻訳日:2023-10-06 22:52:39 公開日:2023-10-05
# プライベートgan、再訪

Private GANs, Revisited ( http://arxiv.org/abs/2302.02936v2 )

ライセンス: Link先を確認
Alex Bie, Gautam Kamath, Guojun Zhang(参考訳) 以上の結果から, 個人差動型確率勾配降下法 (dpsgd) による識別器の更新は, 訓練の修正後, 有意に改善する可能性が示唆された。 具体的には,判別器更新にのみノイズを加えることで識別器の訓練が阻害され,生成器と識別器のバランスが損なわれることを考える。 単純な修正 -- ジェネレータステップ間でより差別的なステップを取る -- によって、ジェネレータと判別器のパリティが回復し、結果が向上することを示す。 さらに、パリティを回復する目的で、大きなバッチサイズと適応型判別器更新頻度といった他の変更を実験し、判別器のトレーニングを改善し、世代品質をさらに向上させる。 以上の結果から,標準画像合成ベンチマークでは,DPSGDは代替のGAN民営化方式よりも優れていた。 コード: https://github.com/alexbie98/dpgan-revisit。

We show that the canonical approach for training differentially private GANs -- updating the discriminator with differentially private stochastic gradient descent (DPSGD) -- can yield significantly improved results after modifications to training. Specifically, we propose that existing instantiations of this approach neglect to consider how adding noise only to discriminator updates inhibits discriminator training, disrupting the balance between the generator and discriminator necessary for successful GAN training. We show that a simple fix -- taking more discriminator steps between generator steps -- restores parity between the generator and discriminator and improves results. Additionally, with the goal of restoring parity, we experiment with other modifications -- namely, large batch sizes and adaptive discriminator update frequency -- to improve discriminator training and see further improvements in generation quality. Our results demonstrate that on standard image synthesis benchmarks, DPSGD outperforms all alternative GAN privatization schemes. Code: https://github.com/alexbie98/dpgan-revisit.
翻訳日:2023-10-06 22:52:18 公開日:2023-10-05
# ネットワークにおける2次元空間分割の生成モデル

Generative models for two-ground-truth partitions in networks ( http://arxiv.org/abs/2302.02787v3 )

ライセンス: Link先を確認
Lena Mangold and Camille Roth(参考訳) ネットワークのメソスケール構造を特徴付けるために、無数のアプローチが提案されている。 明らかに、異なる種類のパターンを検出するために設計された異なる手法は、ネットワークのメソスケール構造に様々な答えをもたらす可能性がある。 しかし、あるメソッドの複数の実行でさえ、多様で矛盾する結果をもたらすことがあるため、ネットワークの複数の(局所的に最適な)メソスケールの説明を含む、パーティションのランドスケープ全体を生成できる。 このような曖昧さは、ネットワーク内の複数の定性的に異なる「根拠真理」パーティションを見つけるためのこれらの方法の能力をより詳しく見る動機となる。 本稿では,1つのベンチマークネットワークのメソスケール構造に2つの異なるパーティションを組み込むことのできる生成モデルである確率的クロスブロックモデル(SCBM)を提案する。 本研究では,確率ブロックモデル (SBM) のパワーを推定し,異なる強度の両コミュニティとコア周辺構造を暗黙的に植え付けることで,ベンチマークモデルの適用例を示す。 モデル設計と実験的なセットアップから,2つのパーティションを個別に検出する能力はSBM変種によって異なり,両パーティションの共存は極めて限られたケースでのみ回復されることがわかった。 以上の結果から,ほとんどの例では,他のパーティションが存在する場合でも,ひとつの構造のみを検出できることが示唆された。 異なる競合する説明が存在する場合、分割の景観全体を考慮する必要性を強調し、分割共存検出法を前進させるために将来の研究を動機付ける。 また,ネットワークのメソスケール構造におけるあいまいさを検出するために,新しい手法や既存手法のさらなる探索を可能にすることで,ベンチマークネットワークの分野に寄与する。

A myriad of approaches have been proposed to characterise the mesoscale structure of networks - most often as a partition based on patterns variously called communities, blocks, or clusters. Clearly, distinct methods designed to detect different types of patterns may provide a variety of answers to the network's mesoscale structure. Yet, even multiple runs of a given method can sometimes yield diverse and conflicting results, producing entire landscapes of partitions which potentially include multiple (locally optimal) mesoscale explanations of the network. Such ambiguity motivates a closer look at the ability of these methods to find multiple qualitatively different 'ground truth' partitions in a network. Here, we propose the stochastic cross-block model (SCBM), a generative model which allows for two distinct partitions to be built into the mesoscale structure of a single benchmark network. We demonstrate a use case of the benchmark model by appraising the power of stochastic block models (SBMs) to detect implicitly planted coexisting bi-community and core-periphery structures of different strengths. Given our model design and experimental set-up, we find that the ability to detect the two partitions individually varies by SBM variant and that coexistence of both partitions is recovered only in a very limited number of cases. Our findings suggest that in most instances only one - in some way dominating - structure can be detected, even in the presence of other partitions. They underline the need for considering entire landscapes of partitions when different competing explanations exist and motivate future research to advance partition coexistence detection methods. Our model also contributes to the field of benchmark networks more generally by enabling further exploration of the ability of new and existing methods to detect ambiguity in the mesoscale structure of networks.
翻訳日:2023-10-06 22:51:58 公開日:2023-10-05
# Dual-Cycle Diffusionによる意味的画像編集のための文脈優先バイアスの除去

Eliminating Contextual Prior Bias for Semantic Image Editing via Dual-Cycle Diffusion ( http://arxiv.org/abs/2302.02394v3 )

ライセンス: Link先を確認
Zuopeng Yang, Tianshu Chu, Xin Lin, Erdun Gao, Daqing Liu, Jie Yang, Chaoyue Wang(参考訳) テキストから画像への拡散モデルの成功はセマンティック画像編集にも革命をもたらし、クエリ/ターゲットテキストに基づく画像操作を可能にした。 これらの進歩にもかかわらず、画像編集中に事前訓練されたモデルに文脈的事前バイアスを導入する可能性、例えば不適切な領域に予期せぬ修正を加えることが大きな課題である。 この問題に対処するために、画像編集をガイドするアンバイアスマスクを生成するDual-Cycle Diffusionと呼ばれる新しいアプローチを提案する。 提案手法では,前方経路と逆経路の両方からなるバイアス除去サイクルを取り入れ,それぞれに構造的一貫性サイクルを特徴とし,編集過程における画像コンテンツの保存を保証する。 フォワードパスは事前学習されたモデルを使用して編集された画像を生成し、反転されたパスは結果をソース画像に戻す。 処理されたソース画像と編集された画像の差を比較して、両者が同じ分布に適合することを保証する。 提案手法の有効性を実証し,D-CLIPスコアを0.272から0.283に改善した。 コードはhttps://github.com/JohnDreamer/DualCycleDiffsion.comから入手できる。

The recent success of text-to-image generation diffusion models has also revolutionized semantic image editing, enabling the manipulation of images based on query/target texts. Despite these advancements, a significant challenge lies in the potential introduction of contextual prior bias in pre-trained models during image editing, e.g., making unexpected modifications to inappropriate regions. To address this issue, we present a novel approach called Dual-Cycle Diffusion, which generates an unbiased mask to guide image editing. The proposed model incorporates a Bias Elimination Cycle that consists of both a forward path and an inverted path, each featuring a Structural Consistency Cycle to ensure the preservation of image content during the editing process. The forward path utilizes the pre-trained model to produce the edited image, while the inverted path converts the result back to the source image. The unbiased mask is generated by comparing differences between the processed source image and the edited image to ensure that both conform to the same distribution. Our experiments demonstrate the effectiveness of the proposed method, as it significantly improves the D-CLIP score from 0.272 to 0.283. The code will be available at https://github.com/JohnDreamer/DualCycleDiffsion.
翻訳日:2023-10-06 22:51:28 公開日:2023-10-05
# NISQデバイスにおけるMaxCut問題に対するQAOAの回路切断効果の検討

Investigating the effect of circuit cutting in QAOA for the MaxCut problem on NISQ devices ( http://arxiv.org/abs/2302.01792v2 )

ライセンス: Link先を確認
Marvin Bechtold, Johanna Barzen, Frank Leymann, Alexander Mandl, Julian Obst, Felix Truger, Benjamin Weder(参考訳) ノイズ中間スケール量子(NISQ)デバイスは、量子ビット数の制限と短いデコヒーレンス時間によって制限される。 これらの問題に対処するアプローチは量子回路切断である。 これは大きな量子回路の実行を複数の小さな量子回路に分解し、さらに古典的な後処理を行う。 これらの小さな量子回路は量子ビットやゲートを少なくするので、NISQデバイスに適している。 nisqデバイスを対象とした量子アルゴリズムにおける量子回路切断の効果を調べるために,最大カット(最大カット)問題に対する量子近似最適化アルゴリズム(qaoa)を用いた2つの実験を設計・実施した。 第1実験では,回路切断がQAOAの目的関数に与える影響について検討し,第2実験では,回路切断による全アルゴリズムによる結果の質を評価する。 その結果、回路切断はqaoaのノイズの影響を低減できるため、アルゴリズムはnisqデバイスにより良い解決策をもたらすことがわかった。

Noisy Intermediate-Scale Quantum (NISQ) devices are restricted by their limited number of qubits and their short decoherence times. An approach addressing these problems is quantum circuit cutting. It decomposes the execution of a large quantum circuit into the execution of multiple smaller quantum circuits with additional classical postprocessing. Since these smaller quantum circuits require fewer qubits and gates, they are more suitable for NISQ devices. To investigate the effect of quantum circuit cutting in a quantum algorithm targeting NISQ devices, we design two experiments using the Quantum Approximate Optimization Algorithm (QAOA) for the Maximum Cut (MaxCut) problem and conduct them on state-of-the-art superconducting devices. Our first experiment studies the influence of circuit cutting on the objective function of QAOA, and the second evaluates the quality of results obtained by the whole algorithm with circuit cutting. The results show that circuit cutting can reduce the effects of noise in QAOA, and therefore, the algorithm yields better solutions on NISQ devices.
翻訳日:2023-10-06 22:51:06 公開日:2023-10-05
# 大規模言語モデルに自己デバッグを教える

Teaching Large Language Models to Self-Debug ( http://arxiv.org/abs/2304.05128v2 )

ライセンス: Link先を確認
Xinyun Chen, Maxwell Lin, Nathanael Sch\"arli, Denny Zhou(参考訳) 大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。 しかし、複雑なプログラミングタスクでは、1つのgoで正しいソリューションを生成するのが難しくなり、コード生成性能を改善するためにプログラム修復アプローチを設計済みの作業もある。 本研究では,大規模な言語モデルに対して,数発のデモによる予測プログラムのデバッグを行うセルフデバッグを提案する。 特に,自己デバッグが大規模言語モデルにゴム製のアヒルデバッギングを実行することを実証する。つまり,コード正確性やエラーメッセージに対するフィードバックがなければ,実行結果を調査し,生成したコードを自然言語で説明することで,その誤りを識別することができる。 セルフデバッグは、テキストからSQL生成のためのSpiderデータセット、C++からPythonへの変換のためのTransCoder、テキストからPython生成のためのMBPPなど、いくつかのコード生成ベンチマークにおける最先端のパフォーマンスを実現する。 予測の正確性を検証するユニットテストが存在しないspiderベンチマークでは、コード説明による自己デバッグがベースラインを一貫して2-3%改善し、最も難しいレベルの問題の予測精度を9%向上している。 TransCoderとMBPPでは、ユニットテストが利用可能であり、Self-Debuggingはベースラインの精度を最大12%改善する。 一方、フィードバックメッセージの活用と失敗予測の再利用によって、セルフデバッグはサンプル効率が著しく向上し、10倍以上の候補プログラムを生成するベースラインモデルにマッチまたは性能が向上する。

Large language models (LLMs) have achieved impressive performance on code generation. However, for complex programming tasks, generating the correct solution in one go becomes challenging, thus some prior works have designed program repair approaches to improve code generation performance. In this work, we propose Self-Debugging, which teaches a large language model to debug its predicted program via few-shot demonstrations. In particular, we demonstrate that Self-Debugging can teach the large language model to perform rubber duck debugging; i.e., without any human feedback on the code correctness or error messages, the model is able to identify its mistakes by investigating the execution results and explaining the generated code in natural language. Self-Debugging achieves the state-of-the-art performance on several code generation benchmarks, including the Spider dataset for text-to-SQL generation, TransCoder for C++-to-Python translation, and MBPP for text-to-Python generation. On the Spider benchmark where there are no unit tests to verify the correctness of predictions, Self-Debugging with code explanation consistently improves the baseline by 2-3%, and improves the prediction accuracy on problems of the hardest level by 9%. On TransCoder and MBPP where unit tests are available, Self-Debugging improves the baseline accuracy by up to 12%. Meanwhile, by leveraging feedback messages and reusing failed predictions, Self-Debugging notably improves sample efficiency, and can match or outperform baseline models that generate more than 10x candidate programs.
翻訳日:2023-10-06 22:45:17 公開日:2023-10-05
# V3Det:Vast Vocabulary Visual Detectionデータセット

V3Det: Vast Vocabulary Visual Detection Dataset ( http://arxiv.org/abs/2304.03752v2 )

ライセンス: Link先を確認
Jiaqi Wang, Pan Zhang, Tao Chu, Yuhang Cao, Yujie Zhou, Tong Wu, Bin Wang, Conghui He, Dahua Lin(参考訳) 近年のオブジェクト検出技術は,比較的制限された語彙を持つオブジェクト検出データセットを用いて訓練・評価されている。 より一般的なビジュアルオブジェクト検出の開発を容易にするため,大規模画像上に正確に注釈付き有界ボックスを付加した膨大な語彙付き視覚検出データセットであるV3Detを提案する。 V3Detにはいくつかの魅力的な特性がある。 1)Vast Vocabulary: 実世界の画像上の13,204のカテゴリのオブジェクトのバウンディングボックスを含み、既存の大きな語彙オブジェクト検出データセット(例えばLVIS)の10倍の大きさである。 2) 階層的分類組織: V3Detの広大な語彙は階層的カテゴリー木によって構成され, カテゴリ間の包含関係を注釈し, 広範かつオープンな語彙オブジェクト検出におけるカテゴリ関係の探索を促進する。 3)リッチアノテーション:v3detは243k画像に正確にアノテートされたオブジェクトと、人間の専門家と強力なチャットボットによって書かれた各カテゴリの専門的な記述からなる。 広大な探索空間を提供することで、V3Detは、広大かつオープンな語彙オブジェクト検出の広範なベンチマークを可能にし、将来の研究のための新しい観察、プラクティス、洞察につながる。 より一般的な視覚知覚システムを開発するための基盤となるデータセットとして機能する可能性がある。 V3Detはhttps://v3det.openxlab.org.cn/で入手できる。

Recent advances in detecting arbitrary objects in the real world are trained and evaluated on object detection datasets with a relatively restricted vocabulary. To facilitate the development of more general visual object detection, we propose V3Det, a vast vocabulary visual detection dataset with precisely annotated bounding boxes on massive images. V3Det has several appealing properties: 1) Vast Vocabulary: It contains bounding boxes of objects from 13,204 categories on real-world images, which is 10 times larger than the existing large vocabulary object detection dataset, e.g., LVIS. 2) Hierarchical Category Organization: The vast vocabulary of V3Det is organized by a hierarchical category tree which annotates the inclusion relationship among categories, encouraging the exploration of category relationships in vast and open vocabulary object detection. 3) Rich Annotations: V3Det comprises precisely annotated objects in 243k images and professional descriptions of each category written by human experts and a powerful chatbot. By offering a vast exploration space, V3Det enables extensive benchmarks on both vast and open vocabulary object detection, leading to new observations, practices, and insights for future research. It has the potential to serve as a cornerstone dataset for developing more general visual perception systems. V3Det is available at https://v3det.openxlab.org.cn/.
翻訳日:2023-10-06 22:44:50 公開日:2023-10-05
# 空間ネットワークのための代数的および幾何学的モデル

Algebraic and Geometric Models for Space Networking ( http://arxiv.org/abs/2304.01150v2 )

ライセンス: Link先を確認
William Bernardoni, Robert Cardona, Jacob Cleveland, Justin Curry, Robert Green, Brian Heller, Alan Hylton, Tung Lam, Robert Kassouf-Short(参考訳) 本稿では,ネットワーク空間通信における代数的および幾何学的視点を紹介する。 我々の主な貢献は、実数直線 P(R) の部分集合の値を持つ行列の項で定義される時間変化グラフ(TVG)の新たな定義である。 我々は、P(R) の半環特性を利用して、行列乗算と切り離されたクリーネ星を用いたテレビGにおけるマルチホップ通信をモデル化する。 これにより、無作為に選択されたSTARLINK衛星の大規模なサンプルに対して、ライフタイムカーブと呼ばれるTVGの通信能力に関する新たな統計が生み出される。 トポロジカルデータ解析(TDA)にインスパイアされた新しい指標を用いて,STARLINKの大規模サブサンプルが時間的に強く連結されている場合の判定を行う。 地球と火星の間のネットワークシナリオをより良くモデル化するために,伝播遅延をモデル化できる様々なセミリングと,保存・フォワードなどの遅延耐性ネットワーク(DTN)に共通するプロトコルを導入する。 最後に,異なる宇宙ネットワークの実現に向けたzigzagの持続性の適用可能性を示し,k-nearest neighbors (knn) 分類による時変トポロジーのみを用いた地球・月衛星の識別の有効性を示す。

In this paper we introduce some new algebraic and geometric perspectives on networked space communications. Our main contribution is a novel definition of a time-varying graph (TVG), defined in terms of a matrix with values in subsets of the real line P(R). We leverage semi-ring properties of P(R) to model multi-hop communication in a TVG using matrix multiplication and a truncated Kleene star. This leads to novel statistics on the communication capacity of TVGs called lifetime curves, which we generate for large samples of randomly chosen STARLINK satellites, whose connectivity is modeled over day-long simulations. Determining when a large subsample of STARLINK is temporally strongly connected is further analyzed using novel metrics introduced here that are inspired by topological data analysis (TDA). To better model networking scenarios between the Earth and Mars, we introduce various semi-rings capable of modeling propagation delay as well as protocols common to Delay Tolerant Networking (DTN), such as store-and-forward. Finally, we illustrate the applicability of zigzag persistence for featurizing different space networks and demonstrate the efficacy of K-Nearest Neighbors (KNN) classification for distinguishing Earth-Mars and Earth-Moon satellite systems using time-varying topology alone.
翻訳日:2023-10-06 22:44:24 公開日:2023-10-05
# 抽象論と相互注意:変圧器の明示的関係推論における帰納的バイアス

Abstractors and relational cross-attention: An inductive bias for explicit relational reasoning in Transformers ( http://arxiv.org/abs/2304.00195v3 )

ライセンス: Link先を確認
Awni Altabaa, Taylor Webb, Jonathan Cohen, John Lafferty(参考訳) Transformerの拡張は、Abstractorと呼ばれる新しいモジュールを通じて明示的なリレーショナル推論を可能にする。 abstractorの中核は、relational cross-attentionと呼ばれる注意の変種である。 このアプローチは、関係学習のためのアーキテクチャ的帰納バイアスによって動機付けられ、個々のオブジェクトに関する外的特徴から関係情報を分離する。 これにより、明示的なリレーショナル推論が可能となり、限定データからの抽象化と一般化がサポートされる。 abstractorは、単純な判別関係タスクで最初に評価され、既存のリレーショナルアーキテクチャと比較される。 次に、Abstractorを純粋にリレーショナルなシーケンス・ツー・シーケンスタスクで評価し、標準のTransformerと比較してサンプル効率が劇的に改善される。 最後に、数理問題解決に基づくタスクの集合に基づいて、性能とサンプル効率の控えめだが一貫した改善が観察される。

An extension of Transformers is proposed that enables explicit relational reasoning through a novel module called the Abstractor. At the core of the Abstractor is a variant of attention called relational cross-attention. The approach is motivated by an architectural inductive bias for relational learning that disentangles relational information from extraneous features about individual objects. This enables explicit relational reasoning, supporting abstraction and generalization from limited data. The Abstractor is first evaluated on simple discriminative relational tasks and compared to existing relational architectures. Next, the Abstractor is evaluated on purely relational sequence-to-sequence tasks, where dramatic improvements are seen in sample efficiency compared to standard Transformers. Finally, Abstractors are evaluated on a collection of tasks based on mathematical problem solving, where modest but consistent improvements in performance and sample efficiency are observed.
翻訳日:2023-10-06 22:43:59 公開日:2023-10-05
# ラベル粒度事前学習の効果の解明に向けて

Towards Understanding the Effect of Pretraining Label Granularity ( http://arxiv.org/abs/2303.16887v2 )

ライセンス: Link先を確認
Guan Zhe Hong, Yin Cui, Ariel Fuxman, Stanley H. Chan, Enming Luo(参考訳) 本稿では,事前学習ラベルの粒度が画像分類タスクにおけるディープニューラルネットワークの一般化に与える影響について検討する。 我々は,事前学習ラベル空間が目標問題よりもきめ細かな「細粒度から粗い」伝達学習環境に焦点を当てた。 実験により,ImageNet21kの葉柄ラベルの事前学習は,他の粗粒度レベルの事前学習よりもImageNet1kの転送結果が良好であることが確認された。 理論的には,特定の階層条件を満たすデータ分布に対して,きめ細かい事前学習の利点を説明する。 1)粗粒度事前学習は、ニューラルネットワークが「共通」または「学習し易い」特徴をよく学べることのみを許す。 2) ネットワークの「粗い」機能や「きめ細かい」機能を学ぶのに役立ち, 共通の特徴の欠如や強度の弱いダウンストリームテストサンプルの精度を向上させる。 さらに,iNaturalist 2021のラベル階層を用いて包括的実験を行い,ラベルの粒度の適切な選択に加えて,次の条件が実際にうまく機能することを確認する。 1)プリトレーニングデータセットには有意義なラベル階層が必要である。 2)プリトレーニングとターゲットラベル機能は適切に調整する必要がある。

In this paper, we study how the granularity of pretraining labels affects the generalization of deep neural networks in image classification tasks. We focus on the "fine-to-coarse" transfer learning setting, where the pretraining label space is more fine-grained than that of the target problem. Empirically, we show that pretraining on the leaf labels of ImageNet21k produces better transfer results on ImageNet1k than pretraining on other coarser granularity levels, which supports the common practice used in the community. Theoretically, we explain the benefit of fine-grained pretraining by proving that, for a data distribution satisfying certain hierarchy conditions, 1) coarse-grained pretraining only allows a neural network to learn the "common" or "easy-to-learn" features well, while 2) fine-grained pretraining helps the network learn the "rarer" or "fine-grained" features in addition to the common ones, thus improving its accuracy on hard downstream test samples in which common features are missing or weak in strength. Furthermore, we perform comprehensive experiments using the label hierarchies of iNaturalist 2021 and observe that the following conditions, in addition to proper choice of label granularity, enable the transfer to work well in practice: 1) the pretraining dataset needs to have a meaningful label hierarchy, and 2) the pretraining and target label functions need to align well.
翻訳日:2023-10-06 22:43:44 公開日:2023-10-05
# GOAL: リアルタイムサッカー解説生成のための知識ベースビデオキャプションベンチマーク

GOAL: A Challenging Knowledge-grounded Video Captioning Benchmark for Real-time Soccer Commentary Generation ( http://arxiv.org/abs/2303.14655v2 )

ライセンス: Link先を確認
Ji Qi, Jifan Yu, Teng Tu, Kunyu Gao, Yifan Xu, Xinyu Guan, Xiaozhi Wang, Yuxiao Dong, Bin Xu, Lei Hou, Juanzi Li, Jie Tang, Weidong Guo, Hui Liu, Yu Xu(参考訳) 近年のビデオキャプションモデルが出現したにも拘わらず、背景知識に基づく鮮明できめ細かなビデオ記述(すなわち、適切な推論を伴うドメイン固有のシーンについての長い情報的解説)をいかに生成するかはまだ未解決であり、自動スポーツ物語などの優れた応用例がある。 本稿では,8.9k 以上のサッカー映像クリップ,22k文,42k 知識トリプルのベンチマークを行い,新たな課題設定を知識ベースビデオキャプション (kgvc) として提案する。 さらに,既存の手法を実験的に適用して,この課題の解決の難しさと可能性を示す。 データとコードはhttps://github.com/thu-keg/goal.com/で入手できる。

Despite the recent emergence of video captioning models, how to generate vivid, fine-grained video descriptions based on the background knowledge (i.e., long and informative commentary about the domain-specific scenes with appropriate reasoning) is still far from being solved, which however has great applications such as automatic sports narrative. In this paper, we present GOAL, a benchmark of over 8.9k soccer video clips, 22k sentences, and 42k knowledge triples for proposing a challenging new task setting as Knowledge-grounded Video Captioning (KGVC). Moreover, we conduct experimental adaption of existing methods to show the difficulty and potential directions for solving this valuable and applicable task. Our data and code are available at https://github.com/THU-KEG/goal.
翻訳日:2023-10-06 22:43:18 公開日:2023-10-05
# Prompt-MIL:タスク固有のPromptチューニングによるマルチインスタンス学習スキームの強化

Prompt-MIL: Boosting Multi-Instance Learning Schemes via Task-specific Prompt Tuning ( http://arxiv.org/abs/2303.12214v2 )

ライセンス: Link先を確認
Jingwei Zhang, Saarthak Kapse, Ke Ma, Prateek Prasanna, Joel Saltz, Maria Vakalopoulou, Dimitris Samaras(参考訳) ワイルスライド画像(WSI)分類は計算病理学において重要な課題であり、現在のディープラーニング手法では困難であるギガピクセルサイズの画像の処理を必要とする。 技術手法の現在の状況は、通常、インスタンスを表現するために事前訓練された機能に依存するマルチインスタンス学習スキーム(MIL)に基づいている。 タスク固有の注釈データがないため、これらの特徴は自然画像上の確立されたバックボーンから得られるか、より最近では病理組織学で訓練された自己監督モデルから得られる。 しかし、どちらのアプローチもタスクに依存しない機能をもたらし、可能であれば適切なタスク関連監督と比べてパフォーマンスが低下する。 本稿では,タスク固有のアノテーションが限定された場合,ダウンストリームタスクトレーニングにこのような監督を注入することで,タスクに依存しない機能とタスクに依存しない機能とのギャップを低減できることを示す。 本稿では,WSI 分類にプロンプトを統合する MIL フレームワーク Prompt-MIL を提案する。 Prompt-MILはプロンプトチューニング機構を採用しており、従来の完全な微調整アプローチではなく、事前訓練された特徴をキャリブレーションしてタスク固有の情報をエンコードする。 tcga-brca、tcga-crc、brightの3つのwsiデータセットに関する広範な実験により、従来のミル法よりもprompt-milが優れていることが示され、1.49%-4.03%の精度と0.25%-8.97%のaurocでの相対的な改善を達成した。 従来のフルチューニングアプローチと比較して、パラメータの1.3%未満を微調整するが、精度は1.29%-13.61%、AUROCは3.22%-27.18%向上し、GPUメモリ使用量を38%-45%削減し、21%-27%高速化した。 私たちのコードはhttps://github.com/cvlab-stonybrook/PromptMILで利用可能です。

Whole slide image (WSI) classification is a critical task in computational pathology, requiring the processing of gigapixel-sized images, which is challenging for current deep-learning methods. Current state of the art methods are based on multi-instance learning schemes (MIL), which usually rely on pretrained features to represent the instances. Due to the lack of task-specific annotated data, these features are either obtained from well-established backbones on natural images, or, more recently from self-supervised models pretrained on histopathology. However, both approaches yield task-agnostic features, resulting in performance loss compared to the appropriate task-related supervision, if available. In this paper, we show that when task-specific annotations are limited, we can inject such supervision into downstream task training, to reduce the gap between fully task-tuned and task agnostic features. We propose Prompt-MIL, an MIL framework that integrates prompts into WSI classification. Prompt-MIL adopts a prompt tuning mechanism, where only a small fraction of parameters calibrates the pretrained features to encode task-specific information, rather than the conventional full fine-tuning approaches. Extensive experiments on three WSI datasets, TCGA-BRCA, TCGA-CRC, and BRIGHT, demonstrate the superiority of Prompt-MIL over conventional MIL methods, achieving a relative improvement of 1.49%-4.03% in accuracy and 0.25%-8.97% in AUROC while using fewer than 0.3% additional parameters. Compared to conventional full fine-tuning approaches, we fine-tune less than 1.3% of the parameters, yet achieve a relative improvement of 1.29%-13.61% in accuracy and 3.22%-27.18% in AUROC and reduce GPU memory consumption by 38%-45% while training 21%-27% faster. Our code is available at https://github.com/cvlab-stonybrook/PromptMIL.
翻訳日:2023-10-06 22:43:03 公開日:2023-10-05
# 微分可能論理の論理:dlの一様意味論に向けて

Logic of Differentiable Logics: Towards a Uniform Semantics of DL ( http://arxiv.org/abs/2303.10650v4 )

ライセンス: Link先を確認
Natalia \'Slusarz, Ekaterina Komendantskaya, Matthew L. Daggitt, Robert Stewart, Kathrin Stark(参考訳) 近年、論理仕様を満たすためにニューラルネットワークをトレーニングする方法として微分論理(DL)が提案されている。 DLは仕様が記述される構文と、構文の式を損失関数に変換する解釈関数から構成される。 これらの損失関数は、標準勾配降下アルゴリズムでトレーニング中に使用できる。 既存のDLの多様性とそれらが扱われる形式レベルの違いは、それらの特性と実装に関する体系的な比較研究を困難にしている。 本稿では、微分可能論理学(LDL)と呼ばれるDLを定義するメタ言語を提案することにより、この問題を是正する。 構文的には、既存のDLの構文をFOLに一般化し、ベクトルと学習者について推論するフォーマリズムを初めて導入する。 意味的には、既存のDLから生じる損失関数を定義するためにインスタンス化できる一般的な解釈関数を導入する。 我々はLDLを用いて、既存のDLの理論的特性を確立し、ニューラルネットワーク検証における実証的研究を行う。

Differentiable logics (DL) have recently been proposed as a method of training neural networks to satisfy logical specifications. A DL consists of a syntax in which specifications are stated and an interpretation function that translates expressions in the syntax into loss functions. These loss functions can then be used during training with standard gradient descent algorithms. The variety of existing DLs and the differing levels of formality with which they are treated makes a systematic comparative study of their properties and implementations difficult. This paper remedies this problem by suggesting a meta-language for defining DLs that we call the Logic of Differentiable Logics, or LDL. Syntactically, it generalises the syntax of existing DLs to FOL, and for the first time introduces the formalism for reasoning about vectors and learners. Semantically, it introduces a general interpretation function that can be instantiated to define loss functions arising from different existing DLs. We use LDL to establish several theoretical properties of existing DLs, and to conduct their empirical study in neural network verification.
翻訳日:2023-10-06 22:42:25 公開日:2023-10-05
# NAISR: 解釈可能な形状表現のための3次元ニューラル付加モデル

NAISR: A 3D Neural Additive Model for Interpretable Shape Representation ( http://arxiv.org/abs/2303.09234v4 )

ライセンス: Link先を確認
Yining Jiao, Carlton Zdanski, Julia Kimbell, Andrew Prince, Cameron Worden, Samuel Kirse, Christopher Rutter, Benjamin Shields, William Dunn, Jisan Mahmud, Marc Niethammer(参考訳) 深暗黙の関数(DIF)は、3次元形状の再構成、生成、登録、完了、編集、理解といった多くのコンピュータビジョンタスクの強力なパラダイムとして登場した。 しかし、関連する共変量を持つ一連の3次元形状が与えられると、各共変量に対する個々の依存を捉えながら正確に形状を表現できる形状表現法は存在しない。 このような手法は、形状の集団に隠された知識を発見する研究者にとって有用である。 科学的な形状発見のための3次元ニューラルネットワークによる解釈可能な形状表現モデル(\texttt{NAISR}$)を提案する。 このアプローチは形状人口の傾向を捉え、形状伝達を通じて患者固有の予測を可能にする。 $\texttt{NAISR}$は、深い暗黙の形状表現の利点と特定の共変量に従って変形するアトラスを結合する最初のアプローチである。 形状再構成, 形状展開, 形状変化, 形状伝達について, 3つのデータセットで$\texttt{NAISR}$を評価する。 1) $\textit{Starman}$, シミュレーションされた2D形状データセット。 2)ADNI海馬3次元形状データセット,及び 3)小児気道3次元形状データセット。 実験の結果,$\textit{Starman}$は,解釈性を維持しながら優れた形状復元性能を発揮することがわかった。 私たちのコードは$\href{https://github.com/uncbiag/NAISR}{https://github.com/uncbiag/NAISR}$で利用可能です。

Deep implicit functions (DIFs) have emerged as a powerful paradigm for many computer vision tasks such as 3D shape reconstruction, generation, registration, completion, editing, and understanding. However, given a set of 3D shapes with associated covariates there is at present no shape representation method which allows to precisely represent the shapes while capturing the individual dependencies on each covariate. Such a method would be of high utility to researchers to discover knowledge hidden in a population of shapes. For scientific shape discovery, we propose a 3D Neural Additive Model for Interpretable Shape Representation ($\texttt{NAISR}$) which describes individual shapes by deforming a shape atlas in accordance to the effect of disentangled covariates. Our approach captures shape population trends and allows for patient-specific predictions through shape transfer. $\texttt{NAISR}$ is the first approach to combine the benefits of deep implicit shape representations with an atlas deforming according to specified covariates. We evaluate $\texttt{NAISR}$ with respect to shape reconstruction, shape disentanglement, shape evolution, and shape transfer on three datasets: 1) $\textit{Starman}$, a simulated 2D shape dataset; 2) the ADNI hippocampus 3D shape dataset; and 3) a pediatric airway 3D shape dataset. Our experiments demonstrate that $\textit{Starman}$ achieves excellent shape reconstruction performance while retaining interpretability. Our code is available at $\href{https://github.com/uncbiag/NAISR}{https://github.com/uncbiag/NAISR}$.
翻訳日:2023-10-06 22:42:08 公開日:2023-10-05
# バッチスタイル標準化によるドメイン不変自己教師付き学習に向けて

Towards domain-invariant Self-Supervised Learning with Batch Styles Standardization ( http://arxiv.org/abs/2303.06088v4 )

ライセンス: Link先を確認
Marin Scalbert and Maria Vakalopoulou and Florent Couzini\'e-Devy(参考訳) Self-Supervised Learning (SSL)では、モデルは通常、トレーニング済み、微調整され、同じドメインで評価される。 しかし、非監視ドメインの評価では性能が低下する傾向があり、unsupervised domain generalization (udg) が対処しようとしている。 現在のUDGメソッドは、収集が困難なドメインラベルと、多くのドメインに直面するとスケーラビリティに欠けるドメイン固有のアーキテクチャに依存しているため、現在の方法論は非現実的で厳密である。 同じドメインの例との比較を制限することで、スプリアス相関を緩和するコントラストベースのudg法に触発されて、バッチ内のスタイル変動の排除により、ドメインラベルを必要とせずにスプリアス相関を低減できる、より便利で柔軟な方法を提供できると仮定した。 この仮説を検証するために,我々は,UDGに対処するSSLメソッドとの統合に特化して設計されたバッチにおいて,画像のスタイルを標準化する比較的単純なFourierベースの手法であるBatch Styles Standardization (BSS)を紹介した。 既存のSSLメソッドとBSSを組み合わせることで、従来のUDGメソッドよりも大きなメリットがある。(1)SSL表現のドメイン不変性を高めるためにドメインラベルやドメイン固有のネットワークコンポーネントを不要にし、(2)BSSが多様なコントラストベースでも非コントラストベースのSSLメソッドとシームレスに統合できるため、柔軟性を提供する。 いくつかのudgデータセットにおける実験により、非シードドメインにおけるダウンストリームタスクのパフォーマンスが大幅に向上し、udgメソッドよりもパフォーマンスが向上するか、あるいは競合していることが示されている。 最後に、この研究は、SSL表現におけるドメイン不変性の改善におけるBSSの有効性に寄与する基盤メカニズムを明らかにします。

In Self-Supervised Learning (SSL), models are typically pretrained, fine-tuned, and evaluated on the same domains. However, they tend to perform poorly when evaluated on unseen domains, a challenge that Unsupervised Domain Generalization (UDG) seeks to address. Current UDG methods rely on domain labels, which are often challenging to collect, and domain-specific architectures that lack scalability when confronted with numerous domains, making the current methodology impractical and rigid. Inspired by contrastive-based UDG methods that mitigate spurious correlations by restricting comparisons to examples from the same domain, we hypothesize that eliminating style variability within a batch could provide a more convenient and flexible way to reduce spurious correlations without requiring domain labels. To verify this hypothesis, we introduce Batch Styles Standardization (BSS), a relatively simple yet powerful Fourier-based method to standardize the style of images in a batch specifically designed for integration with SSL methods to tackle UDG. Combining BSS with existing SSL methods offers serious advantages over prior UDG methods: (1) It eliminates the need for domain labels or domain-specific network components to enhance domain-invariance in SSL representations, and (2) offers flexibility as BSS can be seamlessly integrated with diverse contrastive-based but also non-contrastive-based SSL methods. Experiments on several UDG datasets demonstrate that it significantly improves downstream task performances on unseen domains, often outperforming or rivaling with UDG methods. Finally, this work clarifies the underlying mechanisms contributing to BSS's effectiveness in improving domain-invariance in SSL representations and performances on unseen domain.
翻訳日:2023-10-06 22:41:41 公開日:2023-10-05
# カーネル回帰として創発的インコンテキスト学習を説明する

Explaining Emergent In-Context Learning as Kernel Regression ( http://arxiv.org/abs/2305.12766v2 )

ライセンス: Link先を確認
Chi Han, Ziqi Wang, Han Zhao, Heng Ji(参考訳) 大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。 ダウンストリームの予測タスクにllmを使用するには、従来の事前トレーニング-then-finetuningプロシージャとは対照的に、既存のモデルパラメータの追加や更新を行わずに、コンテキスト内例として知られるいくつかのデモンストレーションを提供するだけでよい。 LLMのこの文脈内学習(ICL)能力は興味深いものであり、事前学習されたLLMがそのような能力を獲得する方法が完全には理解されていない。 本稿では,LLMが内部表現でカーネル回帰をシミュレートできるという仮説を1つ提案することにより,トランスフォーマーベース言語モデルが汎用言語コーパス上で事前学習後にコンテキスト内学習を達成できる理由を考察する。 より具体的には、インコンテキストプロンプトに対するベイズ的推論が、インコンテキストデモの数が増えるにつれて、カーネル回帰 $\hat y = \sum_i y_i K(x, x_i)/\sum_i K(x, x_i)$ として漸近的に理解できることを最初に証明する。 そして,言語モデルの文脈内挙動を実証的に検討する。 ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。 最後に,本理論は icl 領域で観測される複数の現象について考察する: 試験試料と同様の実証的なサンプルを検索することは,なぜ icl が出力形式に敏感なのか,なぜ icl の精度が分布内および代表的サンプルを選択することで得られるのか。

Large language models (LLMs) have initiated a paradigm shift in transfer learning. In contrast to the classic pretraining-then-finetuning procedure, in order to use LLMs for downstream prediction tasks, one only needs to provide a few demonstrations, known as in-context examples, without adding more or updating existing model parameters. This in-context learning (ICL) capability of LLMs is intriguing, and it is not yet fully understood how pretrained LLMs acquire such capabilities. In this paper, we investigate the reason why a transformer-based language model can accomplish in-context learning after pre-training on a general language corpus by proposing one hypothesis that LLMs can simulate kernel regression with internal representations when faced with in-context examples. More concretely, we first prove that Bayesian inference on in-context prompts can be asymptotically understood as kernel regression $\hat y = \sum_i y_i K(x, x_i)/\sum_i K(x, x_i)$ as the number of in-context demonstrations grows. Then, we empirically investigate the in-context behaviors of language models. We find that during ICL, the attention and hidden features in LLMs match the behaviors of a kernel regression. Finally, our theory provides insights into multiple phenomena observed in the ICL field: why retrieving demonstrative samples similar to test samples can help, why ICL performance is sensitive to the output formats, and why ICL accuracy benefits from selecting in-distribution and representative samples.
翻訳日:2023-10-06 22:34:08 公開日:2023-10-05
# MediTab: データ統合、強化、リファインメントによる医療用タブラルデータ予測器のスケーリング

MediTab: Scaling Medical Tabular Data Predictors via Data Consolidation, Enrichment, and Refinement ( http://arxiv.org/abs/2305.12081v2 )

ライセンス: Link先を確認
Zifeng Wang and Chufan Gao and Cao Xiao and Jimeng Sun(参考訳) 表データ予測は、患者の健康リスク予測のような医療応用に用いられてきた。 しかし、既存の手法は通常、データ工学の意義を軽視しながらアルゴリズム設計を中心に展開する。 医用表状データセットは、異なるソース間で大きな異質性を示し、ソースごとにサンプルサイズが制限されている。 このように、従来の予測子は、推論中にさまざまな表のデータセットを一般化するのに苦労する、手動でキュレートされた小さなデータセットでトレーニングされることが多い。 本稿では,医療用表データ予測器(medical tabular data predictor,meditab)を様々な特徴の表データ入力に拡張する。 この方法は、大きな言語モデル(LLM)を活用して表のサンプルを統合し、異なるスキーマでテーブル間の障壁を克服するデータエンジンを使用する。 また、"learn、annotate、refinement"パイプラインを使用して、ドメイン外のデータをターゲットタスクと調整する。 拡張されたトレーニングデータにより、トレーニング済みのMediTabは、微調整なしで、ドメイン内の任意の表型入力を推測することが可能となり、それぞれ7つの患者結果予測データセットの平均ランク1.57と1.00、トライアル結果予測データセット3という、教師付きベースラインよりも大幅に改善される。 教師付きXGBoostモデルでは2つの予測タスクで平均8.9%と17.2%を上回っている。 コードはhttps://github.com/RyanWangZf/MediTabで入手できる。

Tabular data prediction has been employed in medical applications such as patient health risk prediction. However, existing methods usually revolve around the algorithm design while overlooking the significance of data engineering. Medical tabular datasets frequently exhibit significant heterogeneity across different sources, with limited sample sizes per source. As such, previous predictors are often trained on manually curated small datasets that struggle to generalize across different tabular datasets during inference. This paper proposes to scale medical tabular data predictors (MediTab) to various tabular inputs with varying features. The method uses a data engine that leverages large language models (LLMs) to consolidate tabular samples to overcome the barrier across tables with distinct schema. It also aligns out-domain data with the target task using a "learn, annotate, and refinement" pipeline. The expanded training data then enables the pre-trained MediTab to infer for arbitrary tabular input in the domain without fine-tuning, resulting in significant improvements over supervised baselines: it reaches an average ranking of 1.57 and 1.00 on 7 patient outcome prediction datasets and 3 trial outcome prediction datasets, respectively. In addition, MediTab exhibits impressive zero-shot performances: it outperforms supervised XGBoost models by 8.9% and 17.2% on average in two prediction tasks, respectively. The code is available at https://github.com/RyanWangZf/MediTab.
翻訳日:2023-10-06 22:33:34 公開日:2023-10-05
# margolus-levitin量子速度限界に対する$\boldsymbol{\alpha_{>}(\epsilon) = \alpha_{<}(\epsilon)}$

$\boldsymbol{\alpha_{>}(\epsilon) = \alpha_{<}(\epsilon)}$ For The Margolus-Levitin Quantum Speed Limit Bound ( http://arxiv.org/abs/2305.10101v3 )

ライセンス: Link先を確認
H. F. Chau(参考訳) Margolus-Levitin (ML) バウンダリは、ある量子状態から別の量子状態へ進化するのに必要な時間は少なくとも$\pi \alpha(\epsilon) / (2 \langle E-E_0 \rangle)$であり、$\langle E-E_0 \rangle$はハミルトニアン基底状態に対する系の期待エネルギーであり、$\alpha(\epsilon)$は2つの状態の間の忠実度$\epsilon$の関数であると述べている。 長い間、上界の $\alpha_{>}(\epsilon)$ と下界の $\alpha_{<}(\epsilon)$ のみが知られているが、それらは少なくとも7つの重要な数字に一致する。 近年、H\"{o}rnedal and S\"{o}nnerbornは、ML境界を飽和させる進化時間を持つ完全に分類されたシステムである$\alpha(\epsilon)$の分析式を証明し、この境界をシンプレクティック幾何学的解釈を与えた。 ここでは、ML境界の初等証明により、同じ問題を解く。 明示的にML境界を飽和させるすべての状態を見つけることで、$\alpha_{>}(\epsilon)$が実際に$\alpha_{<}(\epsilon)$と等しいことを示す。 さらに重要なことに、$\alpha_{>}(\epsilon)$計算における数値安定性の問題を示し、効率的に正確に評価するための簡単な方法を報告します。

The Margolus-Levitin (ML) bound says that for any time-independent Hamiltonian, the time needed to evolve from one quantum state to another is at least $\pi \alpha(\epsilon) / (2 \langle E-E_0 \rangle)$, where $\langle E-E_0 \rangle$ is the expected energy of the system relative to the ground state of the Hamiltonian and $\alpha(\epsilon)$ is a function of the fidelity $\epsilon$ between the two state. For a long time, only a upper bound $\alpha_{>}(\epsilon)$ and lower bound $\alpha_{<}(\epsilon)$ are known although they agree up to at least seven significant figures. Lately, H\"{o}rnedal and S\"{o}nnerborn proved an analytical expression for $\alpha(\epsilon)$, fully classified systems whose evolution times saturate the ML bound, and gave this bound a symplectic-geometric interpretation. Here I solve the same problem through an elementary proof of the ML bound. By explicitly finding all the states that saturate the ML bound, I show that $\alpha_{>}(\epsilon)$ is indeed equal to $\alpha_{<}(\epsilon)$. More importantly, I point out a numerical stability issue in computing $\alpha_{>}(\epsilon)$ and report a simple way to evaluate it efficiently and accurately.
翻訳日:2023-10-06 22:33:08 公開日:2023-10-05
# 授業におけるchatgpt : 学部生のコンピュータ科学問題を解くための強みと弱みの分析

ChatGPT in the Classroom: An Analysis of Its Strengths and Weaknesses for Solving Undergraduate Computer Science Questions ( http://arxiv.org/abs/2304.14993v3 )

ライセンス: Link先を確認
Ishika Joshi, Ritvik Budhiraja, Harshal Dev, Jahnvi Kadia, M. Osama Ataullah, Sayan Mitra, Dhruv Kumar, Harshal D. Akolekar(参考訳) chatgptはopenaiが開発したai言語モデルで、人間のようなテキストを理解し、生成することができる。 言語生成、質問応答、テキスト要約、チャットボット開発、言語翻訳、感情分析、コンテンツ生成、パーソナライズ、テキスト補完、ストーリーテリングなど、さまざまなユースケースで使用することができる。 ChatGPTは大きな肯定的な注目を集めているが、学術界では理解と不確実性の感覚も生み出している。 学生はchatgptを利用して家庭での課題や試験を完了し、真に知識を得ることなく良い成績を得ることができるのではないかという懸念がある。 本稿では,学部生のコンピュータ科学における話題に関する多岐にわたる質問に対して,chatgptの信頼性の高まりを定量的に示す手法を提案する。 分析の結果,学生はチャットgptに依拠して自傷行為のリスクを負い,課題や試験を完遂する可能性が示唆された。 この分析に基づいて、学生とインストラクターの両方に建設的なレコメンデーションを提供する。

ChatGPT is an AI language model developed by OpenAI that can understand and generate human-like text. It can be used for a variety of use cases such as language generation, question answering, text summarization, chatbot development, language translation, sentiment analysis, content creation, personalization, text completion, and storytelling. While ChatGPT has garnered significant positive attention, it has also generated a sense of apprehension and uncertainty in academic circles. There is concern that students may leverage ChatGPT to complete take-home assignments and exams and obtain favorable grades without genuinely acquiring knowledge. This paper adopts a quantitative approach to demonstrate ChatGPT's high degree of unreliability in answering a diverse range of questions pertaining to topics in undergraduate computer science. Our analysis shows that students may risk self-sabotage by blindly depending on ChatGPT to complete assignments and exams. We build upon this analysis to provide constructive recommendations to both students and instructors.
翻訳日:2023-10-06 22:32:26 公開日:2023-10-05
# 制約ベイズ最適化を用いたネットワークカスケード脆弱性

Network Cascade Vulnerability using Constrained Bayesian Optimization ( http://arxiv.org/abs/2304.14420v2 )

ライセンス: Link先を確認
Albert Lam, Mihai Anitescu, Anirudh Subramanyam(参考訳) 電力網の脆弱性の度合いは、敵のネットワーク上のダメージの量によって評価されることが多い。 しかし、このような攻撃によるカスケードの影響は、カスケードが大規模停電の主な原因の1つであるにもかかわらず、しばしば見過ごされている。 本稿では,ネットワーク平衡状態が変わらなければ検出不能であり得る対向攻撃の候補として送電線保護設定の変更を検討する。 これはベイズ最適化におけるブラックボックス関数の基礎となり、カスケードによるネットワーク劣化を最大化する保護設定を見つけることが目的である。 特に,提案手法はカスケードシミュレータの選択とその基礎となる仮定と無関係である。 数値実験により、従来の知恵に反して、全てのネットワークラインの保護設定を極大に誤設定することは、最もカスケードの原因にならないことが判明した。 さらに驚くことに、リソースの制約のために設定ミスの程度が制限されている場合でも、リソース制約のないインスタンスに匹敵するシデンシャルを生成する設定を見つけることが可能である。

Measures of power grid vulnerability are often assessed by the amount of damage an adversary can exact on the network. However, the cascading impact of such attacks is often overlooked, even though cascades are one of the primary causes of large-scale blackouts. This paper explores modifications of transmission line protection settings as candidates for adversarial attacks, which can remain undetectable as long as the network equilibrium state remains unaltered. This forms the basis of a black-box function in a Bayesian optimization procedure, where the objective is to find protection settings that maximize network degradation due to cascading. Notably, our proposed method is agnostic to the choice of the cascade simulator and its underlying assumptions. Numerical experiments reveal that, against conventional wisdom, maximally misconfiguring the protection settings of all network lines does not cause the most cascading. More surprisingly, even when the degree of misconfiguration is limited due to resource constraints, it is still possible to find settings that produce cascades comparable in severity to instances where there are no resource constraints.
翻訳日:2023-10-06 22:32:08 公開日:2023-10-05
# 局所粒子軌道のモンテカルロ生成

Monte Carlo generation of localised particle trajectories ( http://arxiv.org/abs/2304.10518v2 )

ライセンス: Link先を確認
Ivan Ahumada and James P. Edwards(参考訳) 我々は,局所的相互作用のサンプリングを改善するファインマン経路積分のモンテカルロシミュレーションの修正を導入する。 新しいアルゴリズムは、重要なサンプリングを思い起こさせる相互作用領域に集中するように設計された単純な背景電位で軌道を生成する。 これはシステムの統計的サンプリングを改善し、ブラウン運動に固有の空間拡散に起因する長年の「アンダーサンプリング問題」を克服する。 我々は、経路積分軌道上のウィルソン線の値分布に関する以前の分析研究を用いて、このアプローチの有効性を証明し、いくつかの単純な量子力学系の改良を示す。

We introduce modifications to Monte Carlo simulations of the Feynman path integral that improve sampling of localised interactions. The new algorithms generate trajectories in simple background potentials designed to concentrate them about the interaction region, reminiscent of importance sampling. This improves statistical sampling of the system and overcomes a long-time "undersampling problem" caused by the spatial diffusion inherent in Brownian motion. We prove the validity of our approach using previous analytic work on the distribution of values of the Wilson line over path integral trajectories and illustrate the improvements on some simple quantum mechanical systems
翻訳日:2023-10-06 22:31:34 公開日:2023-10-05
# 信用できるのか? ChatGPTの信頼性の測定と評価

In ChatGPT We Trust? Measuring and Characterizing the Reliability of ChatGPT ( http://arxiv.org/abs/2304.08979v2 )

ライセンス: Link先を確認
Xinyue Shen and Zeyuan Chen and Michael Backes and Yang Zhang(参考訳) ユーザが情報を取得する方法は、ChatGPTの出現とともにパラダイムシフトを経ている。 従来の検索エンジンとは異なり、ChatGPTはモデル自体から知識を取得し、ユーザに対して回答を生成する。 ChatGPTの印象的なQA(QA)機能は、短期間で1億人以上のユーザを惹きつけたが、信頼性に関する懸念も持ち上がっている。 本稿では,10個のデータセットと8つのドメインにまたがる5,695の質問を慎重に整理し,ChatGPTの信頼性を総合的なQAシナリオで評価する。 ChatGPTの信頼性はドメインによって異なり、特に法律や科学の質問では性能が低かった。 また,ChatGPTの動作をユーザが操作できるようにOpenAIが設計したシステムロールが,ChatGPTの信頼性に影響を与えることを実証した。 さらに,ChatGPTは敵の事例に対して脆弱であり,単一文字の変更でもその信頼性に悪影響を及ぼす可能性があることを示す。 われわれはChatGPTの信頼性に関する貴重な知見を提供し、大規模言語モデル(LLM)の信頼性とセキュリティを強化する必要性を強調している。

The way users acquire information is undergoing a paradigm shift with the advent of ChatGPT. Unlike conventional search engines, ChatGPT retrieves knowledge from the model itself and generates answers for users. ChatGPT's impressive question-answering (QA) capability has attracted more than 100 million users within a short period of time but has also raised concerns regarding its reliability. In this paper, we perform the first large-scale measurement of ChatGPT's reliability in the generic QA scenario with a carefully curated set of 5,695 questions across ten datasets and eight domains. We find that ChatGPT's reliability varies across different domains, especially underperforming in law and science questions. We also demonstrate that system roles, originally designed by OpenAI to allow users to steer ChatGPT's behavior, can impact ChatGPT's reliability in an imperceptible way. We further show that ChatGPT is vulnerable to adversarial examples, and even a single character change can negatively affect its reliability in certain cases. We believe that our study provides valuable insights into ChatGPT's reliability and underscores the need for strengthening the reliability and security of large language models (LLMs).
翻訳日:2023-10-06 22:31:05 公開日:2023-10-05
# 説明不変性と等分散による解釈可能性法のロバスト性評価

Evaluating the Robustness of Interpretability Methods through Explanation Invariance and Equivariance ( http://arxiv.org/abs/2304.06715v3 )

ライセンス: Link先を確認
Jonathan Crabb\'e, Mihaela van der Schaar(参考訳) 解釈可能性の手法は、説明が説明されたモデルを忠実に記述している場合にのみ有用である。 本研究では,特定の対称性群の下での予測が不変であるニューラルネットワークについて考察する。 これには畳み込みからグラフニューラルネットワークまで、一般的なアーキテクチャが含まれている。 この種のモデルを忠実に説明する説明は、この不変性と一致する必要がある。 我々は,幾何学的深層学習の形式化を活かし,説明不変性と等分散の概念を通して,この直観を定式化する。 この厳密な形式主義を通じて、(1)モデル対称性群に関する任意の解釈可能性法のロバスト性を測定するための2つの指標、(2)一般的な解釈可能性法の理論的堅牢性を保証すること、(3)対称性群に関する任意の解釈可能性法の不変性を高めるための体系的なアプローチを導出する。 様々なモダリティや対称性グループに関連するモデルの説明のためのメトリクスを実証的に測定することにより、ユーザと開発者が堅牢な説明を作成できる5つのガイドラインを導出する。

Interpretability methods are valuable only if their explanations faithfully describe the explained model. In this work, we consider neural networks whose predictions are invariant under a specific symmetry group. This includes popular architectures, ranging from convolutional to graph neural networks. Any explanation that faithfully explains this type of model needs to be in agreement with this invariance property. We formalize this intuition through the notion of explanation invariance and equivariance by leveraging the formalism from geometric deep learning. Through this rigorous formalism, we derive (1) two metrics to measure the robustness of any interpretability method with respect to the model symmetry group; (2) theoretical robustness guarantees for some popular interpretability methods and (3) a systematic approach to increase the invariance of any interpretability method with respect to a symmetry group. By empirically measuring our metrics for explanations of models associated with various modalities and symmetry groups, we derive a set of 5 guidelines to allow users and developers of interpretability methods to produce robust explanations.
翻訳日:2023-10-06 22:30:14 公開日:2023-10-05
# 注意に基づくグラフニューラルネットワークにおけるデマイチグオーバースムーシング

Demystifying Oversmoothing in Attention-Based Graph Neural Networks ( http://arxiv.org/abs/2305.16102v2 )

ライセンス: Link先を確認
Xinyi Wu, Amir Ajorlou, Zihui Wu, Ali Jadbabaie(参考訳) グラフニューラルネットワーク(gnns)では、ネットワークの深さの増加が均質なノード表現につながる現象を指す。 グラフ畳み込みネットワーク(gcns)は指数関数的に表現力を失うことがこれまでの研究で証明されているが、グラフの注意機構が過小評価を緩和できるかどうかについては議論が残る。 本研究では,非線形時間変化力学系として注意に基づくGNNを考察し,不均質行列の積の理論と合同放射半径のツールと技法を取り入れることで,厳密な数学的解析を通じてこの問題に対する決定的な回答を提供する。 一般に信じられているように,グラフの注意機構は過剰な動きを防げず,指数関数的に表現力を失うことを立証する。 提案フレームワークは, ランダムウォークGCN, Graph Attention Networks (GAT) および (グラフ) トランスフォーマーを含む, 対称GCNのオーバースムース化に関する既存の結果を, GNNモデルのかなり広いクラスに拡張する。 特に,本解析では,非対称,状態依存,時間変化のアグリゲーション演算子と,relu, leakyrelu,gelu,siluといった非線形アクティベーション関数の多種にわたる。

Oversmoothing in Graph Neural Networks (GNNs) refers to the phenomenon where increasing network depth leads to homogeneous node representations. While previous work has established that Graph Convolutional Networks (GCNs) exponentially lose expressive power, it remains controversial whether the graph attention mechanism can mitigate oversmoothing. In this work, we provide a definitive answer to this question through a rigorous mathematical analysis, by viewing attention-based GNNs as nonlinear time-varying dynamical systems and incorporating tools and techniques from the theory of products of inhomogeneous matrices and the joint spectral radius. We establish that, contrary to popular belief, the graph attention mechanism cannot prevent oversmoothing and loses expressive power exponentially. The proposed framework extends the existing results on oversmoothing for symmetric GCNs to a significantly broader class of GNN models, including random walk GCNs, Graph Attention Networks (GATs) and (graph) transformers. In particular, our analysis accounts for asymmetric, state-dependent and time-varying aggregation operators and a wide range of common nonlinear activation functions, such as ReLU, LeakyReLU, GELU and SiLU.
翻訳日:2023-10-06 22:24:21 公開日:2023-10-05
# モデルミス種別に基づくシミュレーションに基づく推論のためのロバスト統計の学習

Learning Robust Statistics for Simulation-based Inference under Model Misspecification ( http://arxiv.org/abs/2305.15871v3 )

ライセンス: Link先を確認
Daolang Huang, Ayush Bharti, Amauri Souza, Luigi Acerbi, Samuel Kaski(参考訳) 近似ベイズ計算(abc)、合成可能性、ニューラル後方推定(npe)のようなシミュレーションベース推論(sbi)法は、統計をシミュレートし、難解な確率モデルのパラメータを推定する。 しかし、そのような手法はモデル不特定の下で不確実で誤解を招く推論結果をもたらすことが知られており、その適用性を妨げている。 本稿では,sbiメソッドの異なるクラスにまたがるモデル誤特定を扱うための,最初の一般的なアプローチを提案する。 統計の選択がSBIの誤識別の度合いを決定するという事実を活かして、データとモデル間のミスマッチを増加させる統計を解析する正規化損失関数を導入する。 実例として NPE と ABC を用いて, 人工的に不特定な高次元時系列モデルにおいて, 提案手法の優れた性能を示す。 また,提案手法を,モデルが不特定であることが知られている電波伝搬領域からの実データに適用する。 提案手法は,モデルが適切に特定された場合にも正確でありながら,不特定シナリオにおいて頑健な推論をもたらすことを示す。

Simulation-based inference (SBI) methods such as approximate Bayesian computation (ABC), synthetic likelihood, and neural posterior estimation (NPE) rely on simulating statistics to infer parameters of intractable likelihood models. However, such methods are known to yield untrustworthy and misleading inference outcomes under model misspecification, thus hindering their widespread applicability. In this work, we propose the first general approach to handle model misspecification that works across different classes of SBI methods. Leveraging the fact that the choice of statistics determines the degree of misspecification in SBI, we introduce a regularized loss function that penalises those statistics that increase the mismatch between the data and the model. Taking NPE and ABC as use cases, we demonstrate the superior performance of our method on high-dimensional time-series models that are artificially misspecified. We also apply our method to real data from the field of radio propagation where the model is known to be misspecified. We show empirically that the method yields robust inference in misspecified scenarios, whilst still being accurate when the model is well-specified.
翻訳日:2023-10-06 22:23:57 公開日:2023-10-05
# 画像超解像のための最適境界条件付き拡散モードの解法

Solving Diffusion ODEs with Optimal Boundary Conditions for Better Image Super-Resolution ( http://arxiv.org/abs/2305.15357v3 )

ライセンス: Link先を確認
Yiyang Ma, Huan Yang, Wenhan Yang, Jianlong Fu, Jiaying Liu(参考訳) 拡散モデルは、強力な生成モデルの一種であり、画像超解像(SR)タスクにおいて印象的な結果をもたらした。 しかし、拡散モデルの逆過程に導入されたランダム性により、拡散ベースのsrモデルの性能はサンプリングのたびに変動し、特にサンプリングされたステップがほとんどないサンプラーでは顕著である。 この拡散モデル固有のランダム性は非効率性と不安定性をもたらし、SR結果の品質を保証することは困難である。 しかし、我々の研究は、このランダム性を機会として捉えており、それを十分に分析し活用することで、一連の拡散ベースのSR手法の恩恵を受ける可能性を持つ効果的なプラグアンドプレイサンプリング手法の構築につながる。 より詳しくは、拡散常微分方程式(拡散ODE)を最適境界条件(BCs)で解くことにより、事前学習した拡散ベースSRモデルから高品質なSR画像を着実にサンプリングし、BCsの選択と対応するSR結果の特徴を分析することを提案する。 我々の分析は、空間全体における効率的な探索を通して、およそ最適なBCを得るための経路を示す。 提案手法で得られたsrの質は,事前学習した拡散ベースsrモデルとランダム性を持つ電流法で得られた結果の質を上回っており,本手法では追加のトレーニングを行わず,電流拡散ベースのsrモデルを「ブースト」する。

Diffusion models, as a kind of powerful generative model, have given impressive results on image super-resolution (SR) tasks. However, due to the randomness introduced in the reverse process of diffusion models, the performances of diffusion-based SR models are fluctuating at every time of sampling, especially for samplers with few resampled steps. This inherent randomness of diffusion models results in ineffectiveness and instability, making it challenging for users to guarantee the quality of SR results. However, our work takes this randomness as an opportunity: fully analyzing and leveraging it leads to the construction of an effective plug-and-play sampling method that owns the potential to benefit a series of diffusion-based SR methods. More in detail, we propose to steadily sample high-quality SR images from pre-trained diffusion-based SR models by solving diffusion ordinary differential equations (diffusion ODEs) with optimal boundary conditions (BCs) and analyze the characteristics between the choices of BCs and their corresponding SR results. Our analysis shows the route to obtain an approximately optimal BC via an efficient exploration in the whole space. The quality of SR results sampled by the proposed method with fewer steps outperforms the quality of results sampled by current methods with randomness from the same pre-trained diffusion-based SR model, which means that our sampling method "boosts" current diffusion-based SR models without any additional training.
翻訳日:2023-10-06 22:23:36 公開日:2023-10-05
# Neural Schr\"odinger Bridgeによる未ペア画像変換

Unpaired Image-to-Image Translation via Neural Schr\"odinger Bridge ( http://arxiv.org/abs/2305.15086v2 )

ライセンス: Link先を確認
Beomsu Kim, Gihyun Kwon, Kwanyoung Kim, Jong Chul Ye(参考訳) 拡散モデルは、確率微分方程式(SDE)をシミュレートしてノイズからデータを生成する強力な生成モデルである。 近年,拡散モデルは顕著な進歩を遂げているが,ガウスの前提により,画像から画像への変換作業に制限がある。 任意の2つの分布を変換するSDEを学習するSchr\"odinger Bridge (SB)は、この問題に対する魅力的な解決策として浮上している。 しかし、これまでのSBモデルは高解像度画像間の未ペア翻訳に成功していない。 本研究では,sb問題を逆学習問題の列として表現するunpaired neural schr\"odinger bridge (unsb)を提案する。 これにより、高度な識別器と正規化を組み込んで、障害のないデータ間でSBを学ぶことができる。 我々は、UNSBがスケーラブルであり、様々な画像間翻訳タスクをうまく解決できることを実証した。 コード: \url{https://github.com/cyclomon/UNSB}

Diffusion models are a powerful class of generative models which simulate stochastic differential equations (SDEs) to generate data from noise. Although diffusion models have achieved remarkable progress in recent years, they have limitations in the unpaired image-to-image translation tasks due to the Gaussian prior assumption. Schr\"odinger Bridge (SB), which learns an SDE to translate between two arbitrary distributions, have risen as an attractive solution to this problem. However, none of SB models so far have been successful at unpaired translation between high-resolution images. In this work, we propose the Unpaired Neural Schr\"odinger Bridge (UNSB), which expresses SB problem as a sequence of adversarial learning problems. This allows us to incorporate advanced discriminators and regularization to learn a SB between unpaired data. We demonstrate that UNSB is scalable and successfully solves various unpaired image-to-image translation tasks. Code: \url{https://github.com/cyclomon/UNSB}
翻訳日:2023-10-06 22:23:05 公開日:2023-10-05
# 予測を個人化するアノテーションインプテーション:分布ダイナミクスとモデル予測に関する初期研究

Annotation Imputation to Individualize Predictions: Initial Studies on Distribution Dynamics and Model Predictions ( http://arxiv.org/abs/2305.15070v3 )

ライセンス: Link先を確認
London Lowmanstone, Ruyuan Wan, Risako Owan, Jaehyung Kim, Dongyeop Kang(参考訳) クラウドソーシングによるデータアノテートには時間と費用がかかる。 これらのコストのため、データセットの作成者は、データの小さなサブセットだけをアノテータにラベル付けすることが多い。 これにより、少数のアノテーションによってマークされた例でデータセットがスパースされる。 このプロセスの欠点は、アノテータが特定の例をラベル付けできなければ、それに対する彼らの見解が失われてしまうことだ。 これは、単一の正しいラベルが存在しない主観的なNLPデータセットに特に関係している。 そこで本研究では,すべての例に対する注釈者の意見を生成するためにインプテーション法を用いることを提案し,注釈者の視点を一切残さないデータセットを作成する。 次に、インプットされたデータセットのデータを使用してモデルをトレーニングし、プロンプトし、レスポンスと個々のアノテーションの分布を予測します。 その結果,計算方法の選択がソフトラベルの変化や分布に大きく影響していることが判明した。 命令は元のデータセットの予測にノイズをもたらすが、プロンプト、特に低応答レートアノテータのショットを強化する可能性を示している。 すべてのコードとデータを公開しました。

Annotating data via crowdsourcing is time-consuming and expensive. Due to these costs, dataset creators often have each annotator label only a small subset of the data. This leads to sparse datasets with examples that are marked by few annotators. The downside of this process is that if an annotator doesn't get to label a particular example, their perspective on it is missed. This is especially concerning for subjective NLP datasets where there is no single correct label: people may have different valid opinions. Thus, we propose using imputation methods to generate the opinions of all annotators for all examples, creating a dataset that does not leave out any annotator's view. We then train and prompt models, using data from the imputed dataset, to make predictions about the distribution of responses and individual annotations. In our analysis of the results, we found that the choice of imputation method significantly impacts soft label changes and distribution. While the imputation introduces noise in the prediction of the original dataset, it has shown potential in enhancing shots for prompts, particularly for low-response-rate annotators. We have made all of our code and data publicly available.
翻訳日:2023-10-06 22:22:49 公開日:2023-10-05
# ウェーブレット領域への属性の一般化によるモデル決定の信頼性の評価

Assessment of the Reliablity of a Model's Decision by Generalizing Attribution to the Wavelet Domain ( http://arxiv.org/abs/2305.14979v3 )

ライセンス: Link先を確認
Gabriel Kasmi and Laurent Dubus and Yves-Marie Saint Drenan and Philippe Blanc(参考訳) ニューラルネットワークはコンピュータビジョンにおいて顕著な性能を示しているが、そのブラックボックスの性質から、多くの科学および技術分野への展開は困難である。 科学者や実践者は、意思決定の信頼性、すなわちモデルが関連する特徴に依存しているかどうか、そしてそれらの特徴が画像の腐敗に対して堅牢であるかどうかを同時に知る必要がある。 既存の属性法は、画像領域の重要な領域を強調することで、人間の理解可能な説明を提供することを目的としている。 このギャップを埋めるために、ウェーブレット変換を用いた画素領域から空間スケール領域への属性の一般化であるWavelet sCale Attribution Method (WCAM)を導入する。 ウェーブレット領域の属性は、モデルがどのスケールに焦点を当てているかを明らかにし、決定が信頼できるかどうかを評価する。

Neural networks have shown remarkable performance in computer vision, but their deployment in numerous scientific and technical fields is challenging due to their black-box nature. Scientists and practitioners need to evaluate the reliability of a decision, i.e., to know simultaneously if a model relies on the relevant features and whether these features are robust to image corruptions. Existing attribution methods aim to provide human-understandable explanations by highlighting important regions in the image domain, but fail to fully characterize a decision process's reliability. To bridge this gap, we introduce the Wavelet sCale Attribution Method (WCAM), a generalization of attribution from the pixel domain to the space-scale domain using wavelet transforms. Attribution in the wavelet domain reveals where {\it and} on what scales the model focuses, thus enabling us to assess whether a decision is reliable.
翻訳日:2023-10-06 22:22:30 公開日:2023-10-05
# BA-SOT:マルチ話者ASRのための境界対応シリアライズアウトプットトレーニング

BA-SOT: Boundary-Aware Serialized Output Training for Multi-Talker ASR ( http://arxiv.org/abs/2305.13716v3 )

ライセンス: Link先を確認
Yuhao Liang, Fan Yu, Yangze Li, Pengcheng Guo, Shiliang Zhang, Qian Chen, Lei Xie(参考訳) 最近提案されたシリアライズアウトプットトレーニング(SOT)は、特別なトークンで分離された話者書き起こしを生成することで、マルチストーカー自動音声認識(ASR)を単純化する。 しかし、頻繁な話者変化は話者変化予測を難しくする。 そこで本稿では,話者変化検出タスクと境界制約損失による境界知識をデコーダに明示的に組み込んだ境界対応直列出力トレーニング(BA-SOT)を提案する。 また、トークンレベルSOT CTCを組み込んだ2段階接続型時間分類(CTC)戦略を導入し、時間的文脈情報を復元する。 典型的な文字誤り率(CER)に加えて,話者変化予測の精度を高めるために発話依存文字誤り率(UD-CER)を導入する。 SOTと比較して、BA-SOTはCER/UD-CERを5.1%/14.0%削減し、BA-SOTモデルの初期化のために事前訓練されたASRモデルを活用することで、CER/UD-CERをさらに8.4%/19.9%削減する。

The recently proposed serialized output training (SOT) simplifies multi-talker automatic speech recognition (ASR) by generating speaker transcriptions separated by a special token. However, frequent speaker changes can make speaker change prediction difficult. To address this, we propose boundary-aware serialized output training (BA-SOT), which explicitly incorporates boundary knowledge into the decoder via a speaker change detection task and boundary constraint loss. We also introduce a two-stage connectionist temporal classification (CTC) strategy that incorporates token-level SOT CTC to restore temporal context information. Besides typical character error rate (CER), we introduce utterance-dependent character error rate (UD-CER) to further measure the precision of speaker change prediction. Compared to original SOT, BA-SOT reduces CER/UD-CER by 5.1%/14.0%, and leveraging a pre-trained ASR model for BA-SOT model initialization further reduces CER/UD-CER by 8.4%/19.9%.
翻訳日:2023-10-06 22:21:53 公開日:2023-10-05
# 言語モデルの物理:その1 文脈自由文法

Physics of Language Models: Part 1, Context-Free Grammar ( http://arxiv.org/abs/2305.13673v2 )

ライセンス: Link先を確認
Zeyuan Allen-Zhu, Yuanzhi Li(参考訳) 我々は、GPTのようなHOW生成言語モデルを研究するために制御された実験を設計し、自然言語、プログラム、論理の多くの側面を捉える木のような構造を持つ多様な言語システム(CFG)を学ぶ。 CFGはプッシュダウンオートマトンと同じくらい難しいため、文字列が規則を満たすかどうかを検証するためには、動的プログラミングが必要である。 合成データを構築し、難しい(長く曖昧な)CFGであっても、事前学習したトランスフォーマーは、ほぼ完璧な精度と印象的な多様性で文を生成することができることを示す。 さらに重要なのは、トランスフォーマーがCFGを学ぶ方法の背景にある物理的な原則を掘り下げることです。 トランスフォーマー内の隠れた状態が(木ノードの情報を正確にサブツリー境界に配置するなど)cfg構造を暗黙的に正確にエンコードし、動的プログラミングに似た"バウンダリからバウンダリへの"注意"を形成することを学ぶ。 また、cfgsの拡張や文法ミスに対するトランスフォーマーの堅牢性についても取り上げます。 全体として、我々の研究はトランスフォーマーがCFGをどう学習するかを包括的で実証的な理解を提供し、トランスフォーマーが言語の構造と規則を捉えている物理的メカニズムを明らかにする。

We design controlled experiments to study HOW generative language models, like GPT, learn context-free grammars (CFGs) -- diverse language systems with a tree-like structure capturing many aspects of natural languages, programs, and logics. CFGs are as hard as pushdown automata, and can be ambiguous so that verifying if a string satisfies the rules requires dynamic programming. We construct synthetic data and demonstrate that even for difficult (long and ambiguous) CFGs, pre-trained transformers can learn to generate sentences with near-perfect accuracy and impressive diversity. More importantly, we delve into the physical principles behind how transformers learns CFGs. We discover that the hidden states within the transformer implicitly and precisely encode the CFG structure (such as putting tree node information exactly on the subtree boundary), and learn to form "boundary to boundary" attentions resembling dynamic programming. We also cover some extension of CFGs as well as the robustness aspect of transformers against grammar mistakes. Overall, our research provides a comprehensive and empirical understanding of how transformers learn CFGs, and reveals the physical mechanisms utilized by transformers to capture the structure and rules of languages.
翻訳日:2023-10-06 22:21:32 公開日:2023-10-05
# PINNacle:PDEを解くための物理情報ニューラルネットワークの総合ベンチマーク

PINNacle: A Comprehensive Benchmark of Physics-Informed Neural Networks for Solving PDEs ( http://arxiv.org/abs/2306.08827v2 )

ライセンス: Link先を確認
Zhongkai Hao, Jiachen Yao, Chang Su, Hang Su, Ziao Wang, Fanzhi Lu, Zeyu Xia, Yichi Zhang, Songming Liu, Lu Lu, Jun Zhu(参考訳) 物理インフォームドニューラルネットワーク(PINN)では大きな進歩があったが、これらの手法の幅広い部分微分方程式(PDE)の包括的比較はいまだに不十分である。 このギャップを埋めるために設計されたベンチマークツールであるPINNacleを紹介する。 PINNacleは、熱伝導、流体力学、生物学、電磁学など、20以上の異なるPDEを含む多様なデータセットを提供する。 これらのpdesは、複素幾何学、多スケール現象、非線形性、高次元といった実世界の問題に固有の重要な課題をカプセル化する。 PINNacleはユーザフレンドリーなツールボックスも提供しており、システム評価と比較のために約10の最先端のPINNメソッドが組み込まれている。 我々はこれらの手法による広範な実験を行い、その強みと弱さに関する洞察を提供した。 パフォーマンスを評価するための標準化された手段を提供するだけでなく、pinnacleは将来の研究、特にマルチスケール問題や複雑な幾何学を扱うためのドメイン分割法や損失重み付けといった分野を導くための深い分析も提供している。 我々の知る限りでは、PINNのさらなる研究を促進するであろう多種多様な総合的な評価を伴う最大のベンチマークである。

While significant progress has been made on Physics-Informed Neural Networks (PINNs), a comprehensive comparison of these methods across a wide range of Partial Differential Equations (PDEs) is still lacking. This study introduces PINNacle, a benchmarking tool designed to fill this gap. PINNacle provides a diverse dataset, comprising over 20 distinct PDEs from various domains, including heat conduction, fluid dynamics, biology, and electromagnetics. These PDEs encapsulate key challenges inherent to real-world problems, such as complex geometry, multi-scale phenomena, nonlinearity, and high dimensionality. PINNacle also offers a user-friendly toolbox, incorporating about 10 state-of-the-art PINN methods for systematic evaluation and comparison. We have conducted extensive experiments with these methods, offering insights into their strengths and weaknesses. In addition to providing a standardized means of assessing performance, PINNacle also offers an in-depth analysis to guide future research, particularly in areas such as domain decomposition methods and loss reweighting for handling multi-scale problems and complex geometry. To the best of our knowledge, it is the largest benchmark with a diverse and comprehensive evaluation that will undoubtedly foster further research in PINNs.
翻訳日:2023-10-06 22:14:07 公開日:2023-10-05
# pytrial: 臨床試験アプリケーションのための機械学習ソフトウェアとベンチマーク

PyTrial: Machine Learning Software and Benchmark for Clinical Trial Applications ( http://arxiv.org/abs/2306.04018v2 )

ライセンス: Link先を確認
Zifeng Wang and Brandon Theodorou and Tianfan Fu and Cao Xiao and Jimeng Sun(参考訳) 臨床試験は、規制の承認のためにヒトの潜在的な薬物の有効性と安全性をテストするために行われる。 機械学習(ML)は最近、臨床試験を支援する新しいツールとして登場した。 この進歩にもかかわらず、ML研究コミュニティで利用可能なML4Trialアルゴリズムを文書化し、ベンチマークする取り組みはほとんど行われていない。 さらに、臨床試験関連データセットへのアクセシビリティは制限されており、新しいアルゴリズムの開発を容易にするための明確な臨床タスクが欠如している。 このギャップを埋めるために、臨床試験の設計と運用のための一連のMLアルゴリズムのベンチマークとオープンソース実装を提供するPyTrialを開発した。 本稿では, 患者結果予測, 臨床試験サイト選択, 治験結果予測, 患者と臨床のマッチング, トライアル類似性検索, 合成データ生成の6つのタスクを対象とした, 34 ML アルゴリズムを徹底的に検討する。 また、高速な実装とテストのために、23のML対応データセットとJupyter Notebooksのワーキングサンプルを収集し、準備しました。 PyTrialは、データローディング、モデル仕様、モデルトレーニング、モデル評価という、単純な4段階のプロセスで各タスクを定義します。 さらに,モジュール化されたapiアーキテクチャによって,新たなアルゴリズムやタスクをレスに組み込むためのフレームワークの拡張が可能になります。 コードはhttps://github.com/RyanWangZf/PyTrial.comで公開されている。

Clinical trials are conducted to test the effectiveness and safety of potential drugs in humans for regulatory approval. Machine learning (ML) has recently emerged as a new tool to assist in clinical trials. Despite this progress, there have been few efforts to document and benchmark ML4Trial algorithms available to the ML research community. Additionally, the accessibility to clinical trial-related datasets is limited, and there is a lack of well-defined clinical tasks to facilitate the development of new algorithms. To fill this gap, we have developed PyTrial that provides benchmarks and open-source implementations of a series of ML algorithms for clinical trial design and operations. In this paper, we thoroughly investigate 34 ML algorithms for clinical trials across 6 different tasks, including patient outcome prediction, trial site selection, trial outcome prediction, patient-trial matching, trial similarity search, and synthetic data generation. We have also collected and prepared 23 ML-ready datasets as well as their working examples in Jupyter Notebooks for quick implementation and testing. PyTrial defines each task through a simple four-step process: data loading, model specification, model training, and model evaluation, all achievable with just a few lines of code. Furthermore, our modular API architecture empowers practitioners to expand the framework to incorporate new algorithms and tasks effortlessly. The code is available at https://github.com/RyanWangZf/PyTrial.
翻訳日:2023-10-06 22:12:56 公開日:2023-10-05
# クラウドからの学習のためのアノテータおよびインスタンス依存遷移行列の転送

Transferring Annotator- and Instance-dependent Transition Matrix for Learning from Crowds ( http://arxiv.org/abs/2306.03116v2 )

ライセンス: Link先を確認
Shikun Li, Xiaobo Xia, Jiankang Deng, Shiming Ge, Tongliang Liu(参考訳) 群衆から学んだことは、トレーニングデータのアノテーションはクラウドソーシングサービスによって得られるということだ。 複数のアノテーションはそれぞれのアノテーションの小さな部分を完了し、アノテーションに依存するエラーのラベル付けが頻繁に発生する。 雑音遷移行列によるラベルノイズ生成過程のモデル化は、ラベルノイズに対処するためのパワーツールである。 実世界のクラウドソーシングシナリオでは、ノイズ遷移行列はアノテーションとインスタンスに依存します。 しかし、アノテータとインスタンス依存遷移行列(AIDTM)の複雑さが高いため、各アノテータはインスタンスのごく一部しかラベル付けしないため、AIDTMのモデリングは非常に困難である。 先行研究は、遷移行列がインスタンス非依存であるか、あるいは単純なパラメトリックな方法で仮定することで問題を単純化し、モデリングの一般性を失う。 これを受けて、我々はより現実的な問題をターゲットに、現実的な一般AIDTMを推定する。 モデリングの一般性を失うことなく、深いニューラルネットワークでAIDTMをパラメータ化する。 モデリングの課題を軽減するため、全てのアノテータが同様のアノテータとノイズパターンを共有し、知識伝達を介してAIDTMを推定する。 したがって、まずすべてのアノテータによるノイズパターンの混合をモデル化し、それから個々のアノテータにこのモデリングを転送する。 さらに、ノイズパターンの混合から個人への変換が、非常に異なるノイズ世代を持つ2つのアノテータ間の摂動を引き起こす可能性があることを考慮し、同定された隣り合うアノテータ間の知識伝達を用いてモデリングを校正する。 理論分析は、グローバルから個人への知識伝達と、近隣の個人間の知識伝達の両方が一般的なAIDTMのモデル化に役立つことを示す。 実世界のクラウドソーシングデータに対する提案手法の優位性を実証する実験を行った。

Learning from crowds describes that the annotations of training data are obtained with crowd-sourcing services. Multiple annotators each complete their own small part of the annotations, where labeling mistakes that depend on annotators occur frequently. Modeling the label-noise generation process by the noise transition matrix is a power tool to tackle the label noise. In real-world crowd-sourcing scenarios, noise transition matrices are both annotator- and instance-dependent. However, due to the high complexity of annotator- and instance-dependent transition matrices (AIDTM), annotation sparsity, which means each annotator only labels a little part of instances, makes modeling AIDTM very challenging. Prior works simplify the problem by assuming the transition matrix is instance-independent or using simple parametric ways, which lose modeling generality. Motivated by this, we target a more realistic problem, estimating general AIDTM in practice. Without losing modeling generality, we parameterize AIDTM with deep neural networks. To alleviate the modeling challenge, we suppose every annotator shares its noise pattern with similar annotators, and estimate AIDTM via knowledge transfer. We hence first model the mixture of noise patterns by all annotators, and then transfer this modeling to individual annotators. Furthermore, considering that the transfer from the mixture of noise patterns to individuals may cause two annotators with highly different noise generations to perturb each other, we employ the knowledge transfer between identified neighboring annotators to calibrate the modeling. Theoretical analyses are derived to demonstrate that both the knowledge transfer from global to individuals and the knowledge transfer between neighboring individuals can help model general AIDTM. Experiments confirm the superiority of the proposed approach on synthetic and real-world crowd-sourcing data.
翻訳日:2023-10-06 22:12:32 公開日:2023-10-05
# 視覚言語モデルにおける言語優先の役割の再考

Revisiting the Role of Language Priors in Vision-Language Models ( http://arxiv.org/abs/2306.01879v2 )

ライセンス: Link先を確認
Zhiqiu Lin, Xinyue Chen, Deepak Pathak, Pengchuan Zhang, Deva Ramanan(参考訳) 視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用できるため、影響を受けやすい。 画像から次の単語を生成するために訓練された$\textit{generative VLMs}$について検討する。 画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。 最初の観察は、画像に与えられた特定の文字列を生成するマッチスコアを単純に計算することで、識別的タスク(画像テキスト検索など)に再利用できることである。 この確率スコアを $\textit{Visual Generative Pre-Training Score}$ (VisualGPTScore) と呼ぶ。 VisualGPTScoreは、いくつかの検索ベンチマークでほぼ完璧な精度を生成するが、他のベンチマークでは精度が低い。 この動作を確率的レンズで解析し,不自然な言語分布を不注意に捉えたベンチマークが,逆行的だがありそうにないテキストキャプションを生成できる点を指摘した。 実際、画像証拠を無視した「盲語」言語モデルでさえ、長年の視覚的要求応答(VQA)コミュニティが直面してきた同様の課題を思い起こさせるような、すべての先行技術を上回ることがある。 モデルの再訓練や微調整を必要とせず、テスト時に生成vlmの言語バイアス量を制御する確率的後処理スキームを導出する。 visualgptscoreは、適切に偏りがなければ、視覚言語理解のための強力なゼロショットベースラインであり、しばしば最先端の精度を生み出す。

Vision-language models (VLMs) are impactful in part because they can be applied to a variety of visual understanding tasks in a zero-shot fashion, without any fine-tuning. We study $\textit{generative VLMs}$ that are trained for next-word generation given an image. We explore their zero-shot performance on the illustrative task of image-text retrieval across 8 popular vision-language benchmarks. Our first observation is that they can be repurposed for discriminative tasks (such as image-text retrieval) by simply computing the match score of generating a particular text string given an image. We call this probabilistic score the $\textit{Visual Generative Pre-Training Score}$ (VisualGPTScore). While the VisualGPTScore produces near-perfect accuracy on some retrieval benchmarks, it yields poor accuracy on others. We analyze this behavior through a probabilistic lens, pointing out that some benchmarks inadvertently capture unnatural language distributions by creating adversarial but unlikely text captions. In fact, we demonstrate that even a "blind" language model that ignores any image evidence can sometimes outperform all prior art, reminiscent of similar challenges faced by the visual-question answering (VQA) community many years ago. We derive a probabilistic post-processing scheme that controls for the amount of linguistic bias in generative VLMs at test time without having to retrain or fine-tune the model. We show that the VisualGPTScore, when appropriately debiased, is a strong zero-shot baseline for vision-language understanding, oftentimes producing state-of-the-art accuracy.
翻訳日:2023-10-06 22:12:01 公開日:2023-10-05
# 拡散モデルの隠れ言語

The Hidden Language of Diffusion Models ( http://arxiv.org/abs/2306.00966v3 )

ライセンス: Link先を確認
Hila Chefer, Oran Lang, Mor Geva, Volodymyr Polosukhin, Assaf Shocher, Michal Irani, Inbar Mosseri, Lior Wolf(参考訳) テキストから画像への拡散モデルでは、テキストのプロンプトから高品質で多様な画像を生成することができる。 しかし、これらのモデルによって学習された内部表現は謎のままである。 本稿では,拡散モデルを用いてテキスト概念の内部表現を解釈する新しい手法であるconceptorを提案する。 この解釈は、概念を人間の解釈可能なテキスト要素の小さなセットに分解することで得られる。 最先端の安定拡散モデルに応用すると、概念表現における非自明な構造を明らかにする。 例えば、テキストのセマンティクスを超越する、概念間の驚くべき視覚的なつながりを見つける。 我々はまた、模範的、偏見、名高い芸術様式、あるいはその概念の複数の意味の同時融合に依存する概念も発見する。 本研究では,多種多様な抽象的,具体的,複雑なテキスト概念に対して意味のある,頑健な,忠実な分解を提供する概念の能力を示すとともに,各分解要素を,生成した画像に対する視覚的影響に自然に結び付けることができる。 コードはhttps://hila-chefer.github.io/conceptor/。

Text-to-image diffusion models have demonstrated an unparalleled ability to generate high-quality, diverse images from a textual prompt. However, the internal representations learned by these models remain an enigma. In this work, we present Conceptor, a novel method to interpret the internal representation of a textual concept by a diffusion model. This interpretation is obtained by decomposing the concept into a small set of human-interpretable textual elements. Applied over the state-of-the-art Stable Diffusion model, Conceptor reveals non-trivial structures in the representations of concepts. For example, we find surprising visual connections between concepts, that transcend their textual semantics. We additionally discover concepts that rely on mixtures of exemplars, biases, renowned artistic styles, or a simultaneous fusion of multiple meanings of the concept. Through a large battery of experiments, we demonstrate Conceptor's ability to provide meaningful, robust, and faithful decompositions for a wide variety of abstract, concrete, and complex textual concepts, while allowing to naturally connect each decomposition element to its corresponding visual impact on the generated images. Our code will be available at: https://hila-chefer.github.io/Conceptor/
翻訳日:2023-10-06 22:11:34 公開日:2023-10-05
# チャットによる画像検索が完璧に

Chatting Makes Perfect: Chat-based Image Retrieval ( http://arxiv.org/abs/2305.20062v2 )

ライセンス: Link先を確認
Matan Levy, Rami Ben-Ari, Nir Darshan, Dani Lischinski(参考訳) チャットは、情報検索の効果的なユーザフレンドリーなアプローチとして現れ、カスタマサービス、ヘルスケア、ファイナンスといった多くの領域でうまく採用されている。 しかし、既存の画像検索アプローチでは、単一のクエリーツー・イメージラウンドの場合が一般的であり、画像検索におけるチャットの使用はほとんど見過ごされている。 本稿では,チャットベースの画像検索システムであるchatirについて紹介する。チャットベースの画像検索システムで,ユーザの検索意図を明らかにするために,ユーザと会話して最初の問い合わせに加えて情報を引き出す。 今日の基盤モデルの能力に触発されて、私たちはLarge Language Modelsを利用して、最初のイメージ記述に対するフォローアップ質問を生成します。 これらの質問は、大きなコーパスから所望の画像を取得するために、ユーザとダイアログを形成する。 本研究では,大規模なデータセット上でテストするシステムの機能について検討し,ダイアログへの関与が画像検索において大きな利益をもたらすことを示す。 まず、既存の手動で生成されたデータセットから評価パイプラインを構築し、さまざまなモジュールとChatIRのトレーニング戦略を調査します。 我々の比較は強化学習で訓練された関連アプリケーションから得られた強いベースラインを含んでいる。 本システムでは、5回の対話で78%以上の成功率で50K画像のプールから目標画像を取得することができるが、人間からの質問では75%、単発のテキスト・画像検索では64%である。 広範囲な評価は、強い能力を明らかにし、異なる設定下でCharIRの限界を調べる。 プロジェクトリポジトリはhttps://github.com/levymsn/chatirで入手できる。

Chats emerge as an effective user-friendly approach for information retrieval, and are successfully employed in many domains, such as customer service, healthcare, and finance. However, existing image retrieval approaches typically address the case of a single query-to-image round, and the use of chats for image retrieval has been mostly overlooked. In this work, we introduce ChatIR: a chat-based image retrieval system that engages in a conversation with the user to elicit information, in addition to an initial query, in order to clarify the user's search intent. Motivated by the capabilities of today's foundation models, we leverage Large Language Models to generate follow-up questions to an initial image description. These questions form a dialog with the user in order to retrieve the desired image from a large corpus. In this study, we explore the capabilities of such a system tested on a large dataset and reveal that engaging in a dialog yields significant gains in image retrieval. We start by building an evaluation pipeline from an existing manually generated dataset and explore different modules and training strategies for ChatIR. Our comparison includes strong baselines derived from related applications trained with Reinforcement Learning. Our system is capable of retrieving the target image from a pool of 50K images with over 78% success rate after 5 dialogue rounds, compared to 75% when questions are asked by humans, and 64% for a single shot text-to-image retrieval. Extensive evaluations reveal the strong capabilities and examine the limitations of CharIR under different settings. Project repository is available at https://github.com/levymsn/ChatIR.
翻訳日:2023-10-06 22:10:45 公開日:2023-10-05
# 多目的学習における三段階貿易--最適化・一般化・衝突回避

Three-Way Trade-Off in Multi-Objective Learning: Optimization, Generalization and Conflict-Avoidance ( http://arxiv.org/abs/2305.20057v3 )

ライセンス: Link先を確認
Lisha Chen, Heshan Fernando, Yiming Ying, Tianyi Chen(参考訳) マルチオブジェクト学習(MOL)問題は、複数の学習基準、データモダリティ、学習タスクがある場合、機械学習の問題を発生させる。 単目的学習とは異なり、MOLにおける重要な課題の1つは、反復最適化プロセスにおける異なる目的間の潜在的な衝突である。 最近の研究はMGDAやその変種などのMOLのための様々な動的重み付けアルゴリズムを開発しており、そこでは目的間の衝突を避けるための更新方向を見つけることが中心となっている。 直感的には魅力的だが、実験的な研究は動的重み付け法が常に静的な方法よりも優れているとは限らないことを示している。 この理論と実践のギャップを理解するため,我々はmgdaの新しい確率的変種である二重サンプリング(modo)アルゴリズムに着目し,動的重み付けに基づくmodoの一般化性能とアルゴリズム安定性のレンズによる最適化に関する研究を行った。 おそらく、MGDAの背後にある重要な理論的根拠 -- 矛盾回避方向に沿って更新する -- は、最適な${\cal O}(1/\sqrt{n})$集団リスクを達成するための動的重み付けアルゴリズムを妨げる可能性がある。 さらに,molに特有の最適化,一般化,競合回避の3方向トレードオフに対する動的重みの変動性の影響を実証する。 本稿では,既存の確率的molアルゴリズムを解析することにより,理論フレームワークの汎用性を示す。 実用性を示すために,マルチタスク学習ベンチマーク実験を行った。 コードはhttps://github.com/heshandevaka/Trade-Off-MOLで公開されている。

Multi-objective learning (MOL) problems often arise in emerging machine learning problems when there are multiple learning criteria, data modalities, or learning tasks. Different from single-objective learning, one of the critical challenges in MOL is the potential conflict among different objectives during the iterative optimization process. Recent works have developed various dynamic weighting algorithms for MOL such as MGDA and its variants, where the central idea is to find an update direction that avoids conflicts among objectives. Albeit its appealing intuition, empirical studies show that dynamic weighting methods may not always outperform static ones. To understand this theory-practical gap, we focus on a new stochastic variant of MGDA - the Multi-objective gradient with Double sampling (MoDo) algorithm, and study the generalization performance of the dynamic weighting-based MoDo and its interplay with optimization through the lens of algorithm stability. Perhaps surprisingly, we find that the key rationale behind MGDA -- updating along conflict-avoidant direction - may hinder dynamic weighting algorithms from achieving the optimal ${\cal O}(1/\sqrt{n})$ population risk, where $n$ is the number of training samples. We further demonstrate the impact of the variability of dynamic weights on the three-way trade-off among optimization, generalization, and conflict avoidance that is unique in MOL. We showcase the generality of our theoretical framework by analyzing other existing stochastic MOL algorithms under the framework. Experiments on various multi-task learning benchmarks are performed to demonstrate the practical applicability. Code is available at https://github.com/heshandevaka/Trade-Off-MOL.
翻訳日:2023-10-06 22:10:20 公開日:2023-10-05
# One-Versus-Othersの注意:スケーラブルなマルチモーダル統合

One-Versus-Others Attention: Scalable Multimodal Integration ( http://arxiv.org/abs/2307.05435v2 )

ライセンス: Link先を確認
Michal Golovanevsky, Eva Schiller, Akira Nair, Ritambhara Singh, Carsten Eickhoff(参考訳) マルチモーダル学習モデルは、質問応答から自動運転まで、さまざまなタスクにおける単一モダリティアプローチを上回ってますます重要になっている。 マルチモーダル学習の重要性にもかかわらず、既存の取り組みはNLPアプリケーションに焦点を合わせており、モダリティの数は典型的には4つ未満である(オーディオ、ビデオ、テキスト、画像)。 しかし、医療分野などの他の分野のデータ入力には、X線、PETスキャン、MRI、遺伝子スクリーニング、臨床ノートなどが含まれ、効率的かつ正確な情報融合の必要性が生じる可能性がある。 多くの最先端モデルは、ペアワイズ・クロスモーダル・アテンションに依存しており、3つ以上のモダリティを持つアプリケーションではうまくスケールしない。 n$モダリティの場合、コンピューティングの注意はn \choose 2$オペレーションとなり、かなりの量の計算リソースが必要になる可能性がある。 そこで本研究では,モダリティ数に線形にスケールし,n$の注意操作しか必要とせず,既存のクロスモーダル注意アルゴリズムと比較して計算量を大幅に削減する,新たなドメイン中立的注意機構であるone-versus-others(ovo) attentionを提案する。 3つの多様な実世界のデータセットと追加のシミュレーション実験を用いて,本手法は計算コストを低減しつつ,一般的な融合技術と比較して性能を向上することを示した。

Multimodal learning models have become increasingly important as they surpass single-modality approaches on diverse tasks ranging from question-answering to autonomous driving. Despite the importance of multimodal learning, existing efforts focus on NLP applications, where the number of modalities is typically less than four (audio, video, text, images). However, data inputs in other domains, such as the medical field, may include X-rays, PET scans, MRIs, genetic screening, clinical notes, and more, creating a need for both efficient and accurate information fusion. Many state-of-the-art models rely on pairwise cross-modal attention, which does not scale well for applications with more than three modalities. For $n$ modalities, computing attention will result in $n \choose 2$ operations, potentially requiring considerable amounts of computational resources. To address this, we propose a new domain-neutral attention mechanism, One-Versus-Others (OvO) attention, that scales linearly with the number of modalities and requires only $n$ attention operations, thus offering a significant reduction in computational complexity compared to existing cross-modal attention algorithms. Using three diverse real-world datasets as well as an additional simulation experiment, we show that our method improves performance compared to popular fusion techniques while decreasing computation costs.
翻訳日:2023-10-06 22:03:33 公開日:2023-10-05
# スコアベース最適化による対向ロバスト性向上

Enhancing Adversarial Robustness via Score-Based Optimization ( http://arxiv.org/abs/2307.04333v2 )

ライセンス: Link先を確認
Boya Zhang, Weijian Luo, Zhihua Zhang(参考訳) 敵の攻撃は、わずかな摂動を導入することでディープニューラルネットワーク分類器を誤解させる可能性がある。 これらの攻撃の影響を軽減するアルゴリズムの開発は、人工知能の安全な利用を確保するために不可欠である。 近年の研究では、スコアベース拡散モデルが敵防御に有効であることが示唆されている。 しかし、既存の拡散ベースの防御は、計算効率が悪く最適でない拡散モデルの逆確率微分方程式の逐次シミュレーションに依存している。 本稿では,ScoreOptと呼ばれる新しい対向防御方式を提案する。これは,テスト時の対向サンプルを,スコアベースで導かれた方向の本来のクリーンデータに向けて最適化する。 我々は、CIFAR10、CIFAR100、ImageNetを含む複数のデータセットに関する包括的な実験を行う。 実験の結果,提案手法は,ロバスト性性能と推論速度の両方の観点から,既存の敵防御よりも優れていた。

Adversarial attacks have the potential to mislead deep neural network classifiers by introducing slight perturbations. Developing algorithms that can mitigate the effects of these attacks is crucial for ensuring the safe use of artificial intelligence. Recent studies have suggested that score-based diffusion models are effective in adversarial defenses. However, existing diffusion-based defenses rely on the sequential simulation of the reversed stochastic differential equations of diffusion models, which are computationally inefficient and yield suboptimal results. In this paper, we introduce a novel adversarial defense scheme named ScoreOpt, which optimizes adversarial samples at test-time, towards original clean data in the direction guided by score-based priors. We conduct comprehensive experiments on multiple datasets, including CIFAR10, CIFAR100 and ImageNet. Our experimental results demonstrate that our approach outperforms existing adversarial defenses in terms of both robustness performance and inference speed.
翻訳日:2023-10-06 22:03:04 公開日:2023-10-05
# 物体検出のための適応デコードを用いたフライ級FLIMベースCNNの構築

Building Flyweight FLIM-based CNNs with Adaptive Decoding for Object Detection ( http://arxiv.org/abs/2306.14840v2 )

ライセンス: Link先を確認
Leonardo de Melo Joao, Azael de Melo e Sousa, Bianca Martins dos Santos, Silvio Jamil Ferzoli Guimaraes, Jancarlo Ferreira Gomes, Ewa Kijak, Alexandre Xavier Falcao(参考訳) sota(state-of-the-art)オブジェクト検出手法は、重み付きニューラルネットワークに依存する価格で、いくつかのアプリケーションで成功している。 本研究では,代表画像の識別領域上のユーザ描画マーカーからオブジェクトを検出するために,畳み込みニューラルネットワーク(CNN)層を構築する手法を提案する。 糞便サンプルの顕微鏡画像におけるSchistosomiasis mansoni卵の検出と,衛星画像中の船舶の検出を応用例として扱う。 ごく少数の入力画像のバックプロパゲーションなしに、フライウェイトなCNNを作成することができる。 本研究では,画像マーカ(flim)から特徴学習を行い,マーカ画素から畳み込み特徴抽出器(エンコーダ)を構築する手法を提案する。 flimを拡張して、入力画像によって重みが異なる単層適応デコーダを含むようにした。 私たちのcnnはsomaオブジェクト検出器の何千倍も重く、cpuの実行に適しており、5つの尺度で3つの方法に匹敵する性能を示している。

State-of-the-art (SOTA) object detection methods have succeeded in several applications at the price of relying on heavyweight neural networks, which makes them inefficient and inviable for many applications with computational resource constraints. This work presents a method to build a Convolutional Neural Network (CNN) layer by layer for object detection from user-drawn markers on discriminative regions of representative images. We address the detection of Schistosomiasis mansoni eggs in microscopy images of fecal samples, and the detection of ships in satellite images as application examples. We could create a flyweight CNN without backpropagation from very few input images. Our method explores a recent methodology, Feature Learning from Image Markers (FLIM), to build convolutional feature extractors (encoders) from marker pixels. We extend FLIM to include a single-layer adaptive decoder, whose weights vary with the input image -- a concept never explored in CNNs. Our CNN weighs thousands of times less than SOTA object detectors, being suitable for CPU execution and showing superior or equivalent performance to three methods in five measures.
翻訳日:2023-10-06 22:02:20 公開日:2023-10-05
# モーション適応によるビデオフレーム補間

Boost Video Frame Interpolation via Motion Adaptation ( http://arxiv.org/abs/2306.13933v3 )

ライセンス: Link先を確認
Haoning Wu, Xiaoyun Zhang, Weidi Xie, Ya Zhang, Yanfeng Wang(参考訳) ビデオフレーム補間(VFI)は、2つの連続するフレーム間の中間フレームを生成することを目的とした課題である。 既存の学習ベースのvfi手法は大きな成功を収めているが、トレーニングデータセットの動作分布が限られているため、まだ一般化能力が限られている。 本稿では,テスト時に見えない動作に適応できる新しい最適化ベースのVFI手法を提案する。 本手法は,映像フレーム間の動き特性を活用するサイクル一貫性適応戦略に基づく。 また、既存のトレーニング済みVFIモデルの動作推定モジュールに挿入可能な軽量アダプタを導入し、適応効率を向上させる。 各種ベンチマーク実験により,提案手法は2フレームVFIモデルの性能を向上し,既存手法よりも優れた性能を発揮することが示された。

Video frame interpolation (VFI) is a challenging task that aims to generate intermediate frames between two consecutive frames in a video. Existing learning-based VFI methods have achieved great success, but they still suffer from limited generalization ability due to the limited motion distribution of training datasets. In this paper, we propose a novel optimization-based VFI method that can adapt to unseen motions at test time. Our method is based on a cycle-consistency adaptation strategy that leverages the motion characteristics among video frames. We also introduce a lightweight adapter that can be inserted into the motion estimation module of existing pre-trained VFI models to improve the efficiency of adaptation. Extensive experiments on various benchmarks demonstrate that our method can boost the performance of two-frame VFI models, outperforming the existing state-of-the-art methods, even those that use extra input.
翻訳日:2023-10-06 22:02:02 公開日:2023-10-05
# DISCO-10M: 大規模音楽データセット

DISCO-10M: A Large-Scale Music Dataset ( http://arxiv.org/abs/2306.13512v2 )

ライセンス: Link先を確認
Luca A. Lanzend\"orfer, Florian Gr\"otschla, Emil Funke, Roger Wattenhofer(参考訳) 音楽データセットは、音楽のための機械学習の研究を進める上で重要な役割を果たす。 しかし、既存の音楽データセットはサイズ、アクセシビリティ、オーディオリソースの不足に苦しんでいる。 これらの欠点に対処するために,従来で最大の楽曲データセットを桁違いに超える,斬新で広範な音楽データセットdisCO-10Mを提案する。 高品質なデータを保証するため,マルチステージフィルタリングプロセスを実装した。 このプロセスには、テキスト記述とオーディオ埋め込みに基づく類似性が含まれている。 さらに, DisCO-10M と併用して事前計算した CLAP 埋め込みを提供し, 様々な下流タスクへの直接適用を容易にする。 これらの埋め込みは、提供されたデータに基づく機械学習アプリケーションの効率的な探索を可能にする。 DISCO-10Mでは、音楽のための新しい機械学習モデルの開発を促進するために、新しい研究の民主化と促進を目的としている。

Music datasets play a crucial role in advancing research in machine learning for music. However, existing music datasets suffer from limited size, accessibility, and lack of audio resources. To address these shortcomings, we present DISCO-10M, a novel and extensive music dataset that surpasses the largest previously available music dataset by an order of magnitude. To ensure high-quality data, we implement a multi-stage filtering process. This process incorporates similarities based on textual descriptions and audio embeddings. Moreover, we provide precomputed CLAP embeddings alongside DISCO-10M, facilitating direct application on various downstream tasks. These embeddings enable efficient exploration of machine learning applications on the provided data. With DISCO-10M, we aim to democratize and facilitate new research to help advance the development of novel machine learning models for music.
翻訳日:2023-10-06 22:01:48 公開日:2023-10-05
# RedMotion:冗長化による動き予測

RedMotion: Motion Prediction via Redundancy Reduction ( http://arxiv.org/abs/2306.10840v2 )

ライセンス: Link先を確認
Royden Wagner, Omer Sahin Tas, Marvin Klemp, Carlos Fernandez Lopez(参考訳) 交通機関の将来の動きを予測することは、自動運転車の安全な運転を確保するために不可欠である。 2種類の冗長性低減を組み込んだ動作予測用トランスモデルであるredmotionを提案する。 第1の冗長性低減は、内部変圧器デコーダによって誘導され、エージェントデータ付き道路グラフなどの道路環境トークンの可変サイズのセットを固定サイズの埋め込みに還元する。 第2の冗長性低減は, 自己指導型学習目標であり, 道路環境の拡張ビューから生成された埋め込みに冗長性低減原理を適用した。 実験の結果,PreTraM,Traj-MAE,GraphDINOを半教師付き環境下で,表現学習手法が優れていることがわかった。 我々のRedMotionモデルは、Scene TransformerやMTR++と競合する結果を得る。 github(https://github.com/kit-mrt/red-motion)とcolab(https://colab.research.google.com/drive/1q-z9vdiqvfpfctng8oqzgm0lp3y1il)からアクセスできるオープンソース実装を提供する。

Predicting the future motion of traffic agents is vital for self-driving vehicles to ensure their safe operation. We introduce RedMotion, a transformer model for motion prediction that incorporates two types of redundancy reduction. The first type of redundancy reduction is induced by an internal transformer decoder and reduces a variable-sized set of road environment tokens, such as road graphs with agent data, to a fixed-sized embedding. The second type of redundancy reduction is a self-supervised learning objective and applies the redundancy reduction principle to embeddings generated from augmented views of road environments. Our experiments reveal that our representation learning approach can outperform PreTraM, Traj-MAE, and GraphDINO in a semi-supervised setting. Our RedMotion model achieves results that are competitive with those of Scene Transformer or MTR++. We provide an open source implementation that is accessible via GitHub (https://github.com/kit-mrt/red-motion) and Colab (https://colab.research.google.com/drive/1Q-Z9VdiqvfPfctNG8oqzPcgm0lP3y1il).
翻訳日:2023-10-06 22:01:36 公開日:2023-10-05
# クリフォードユニタリのループのホモトピー分類

Homotopy Classification of loops of Clifford unitaries ( http://arxiv.org/abs/2306.09903v2 )

ライセンス: Link先を確認
Roman Geiko and Yichen Hu(参考訳) クリフォード量子回路は、パウリ作用素をパウリ作用素に写像する量子システムの初等可逆変換である。 クリフォード回路の周期的な1パラメータ族、すなわちクリフォード回路のループを、素数$p$-次元四重項の$\mathsf{d}$-次元格子に作用させる。 代数的ホモトピーの概念を用いて位相的に等価なループを同定する。 そのようなループのホモトピー類を任意の奇数$p$と$\mathsf{d}=0,1,2,3$,4$で計算する。 我々の主なツールはエルミート k-理論であり、特にシンプレクティック幾何学からのマスロフ指数の一般化である。 我々は,$(\mathsf{d}+1)$-dimensions におけるクリフォード回路のループのホモトピークラスが,$\mathsf{d}$-dimensions におけるクリフォード量子セルオートマトンと格子変換の商と一致することを観測する。

Clifford quantum circuits are elementary invertible transformations of quantum systems that map Pauli operators to Pauli operators. We study periodic one-parameter families of Clifford circuits, called loops of Clifford circuits, acting on $\mathsf{d}$-dimensional lattices of prime $p$-dimensional qudits. We propose to use the notion of algebraic homotopy to identify topologically equivalent loops. We calculate homotopy classes of such loops for any odd $p$ and $\mathsf{d}=0,1,2,3$, and $4$. Our main tool is the Hermitian K-theory, particularly a generalization of the Maslov index from symplectic geometry. We observe that the homotopy classes of loops of Clifford circuits in $(\mathsf{d}+1)$-dimensions coincide with the quotient of the group of Clifford Quantum Cellular Automata modulo shallow circuits and lattice translations in $\mathsf{d}$-dimensions.
翻訳日:2023-10-06 22:01:08 公開日:2023-10-05
# トレーニング中のモジュール化: DNNモデルのモジュール化のための新しいパラダイム

Modularizing while Training: A New Paradigm for Modularizing DNN Models ( http://arxiv.org/abs/2306.09376v3 )

ライセンス: Link先を確認
Binhang Qi, Hailong Sun, Hongyu Zhang, Ruobing Zhao, Xiang Gao(参考訳) ディープニューラルネットワーク(DNN)モデルは、インテリジェントソフトウェアシステムにおいてますます重要なコンポーネントになりつつある。 しかし、DNNモデルのトレーニングは通常、時間とお金の両方の観点からコストがかかる。 この問題に対処するため、研究者は最近、既存のDNNモデルを再利用することに重点を置いている。 しかし、モデル全体の再利用は、余分なオーバーヘッドを引き起こしたり、望ましくない機能から弱点を継承する可能性がある。 したがって、既存の作業は、既に訓練済みのモデルをモジュール、すなわちモジュール化後のトレーニング、モジュールの再利用に分解することを提案する。 トレーニングされたモデルはモジュール化のために構築されていないため、モジュール化後トレーニングは膨大なオーバーヘッドとモデルの精度の損失をもたらす。 本稿では,モデル学習プロセス,すなわちmodularization-while-training (mwt) にモジュール化を組み込んだ新しい手法を提案する。 我々は、モジュール内凝集とモジュール間結合を最適化する2つの損失関数を通して、構造的にモジュラーとなるモデルを訓練する。 本研究では,畳み込みニューラルネットワーク(CNN)モデルをモジュール化するための提案手法を実装した。 代表モデルによる評価結果は,MwTが最先端アプローチよりも優れていることを示す。 具体的には、MwTによる精度損失は1.13ポイントであり、ベースラインよりも1.76ポイント少ない。 MwTが生成したモジュールのカーネル保持率は14.58%に過ぎず、最先端のアプローチでは74.31%削減された。 さらに、トレーニングとモジュール化に必要な総時間コストは、ベースラインの半分の108分に過ぎない。

Deep neural network (DNN) models have become increasingly crucial components in intelligent software systems. However, training a DNN model is typically expensive in terms of both time and money. To address this issue, researchers have recently focused on reusing existing DNN models - borrowing the idea of code reuse in software engineering. However, reusing an entire model could cause extra overhead or inherits the weakness from the undesired functionalities. Hence, existing work proposes to decompose an already trained model into modules, i.e., modularizing-after-training, and enable module reuse. Since trained models are not built for modularization, modularizing-after-training incurs huge overhead and model accuracy loss. In this paper, we propose a novel approach that incorporates modularization into the model training process, i.e., modularizing-while-training (MwT). We train a model to be structurally modular through two loss functions that optimize intra-module cohesion and inter-module coupling. We have implemented the proposed approach for modularizing Convolutional Neural Network (CNN) models in this work. The evaluation results on representative models demonstrate that MwT outperforms the state-of-the-art approach. Specifically, the accuracy loss caused by MwT is only 1.13 percentage points, which is 1.76 percentage points less than that of the baseline. The kernel retention rate of the modules generated by MwT is only 14.58%, with a reduction of 74.31% over the state-of-the-art approach. Furthermore, the total time cost required for training and modularizing is only 108 minutes, half of the baseline.
翻訳日:2023-10-06 22:00:47 公開日:2023-10-05
# 曲面符号の復号化アルゴリズム

Decoding algorithms for surface codes ( http://arxiv.org/abs/2307.14989v3 )

ライセンス: Link先を確認
Antonio deMarti iOlius, Patricio Fuentes, Rom\'an Or\'us, Pedro M. Crespo and Josu Etxezarreta Martinez(参考訳) 量子技術は古典的な方法で計算が難しい問題を解く可能性がある。 残念ながら、量子情報の不安定な性質はエラーを起こしやすい。 このため、量子誤り訂正は、量子情報を信頼できるものにし、フォールトトレラント量子コンピューティングの究極の目標を実現するための貴重なツールである。 表面符号は、2次元のアーキテクチャ、局所演算のみの要求、量子ノイズに対する高い耐性を考えると、誤り訂正量子ビットを構築する最も有望な候補である。 復号アルゴリズムは、任意の誤り訂正スキームの不可欠な要素であり、量子情報に影響を及ぼす誤差の正確な推定を生成することを任務としている。 アルゴリズムのデコーディングの重要な側面は、量子状態が時間経過とともに追加のエラーに直面するため、その速度である。 これは、複雑さと逆を犠牲にしてデコードのパフォーマンスが改善されるという、connundrumのようなトレードオフをもたらす。 本稿では,最先端表面コード復号アルゴリズムに関する詳細な議論を行う。 これらの手法の中核となる操作は、改善された結果の約束を示す既存の変種と共に記述される。 さらに,復号化性能,誤り訂正能力,復号化複雑性の両面を比較した。 コードデコードに関する既存のソフトウェアツールのレビューも提供されている。

Quantum technologies have the potential to solve computationally hard problems that are intractable via classical means. Unfortunately, the unstable nature of quantum information makes it prone to errors. For this reason, quantum error correction is an invaluable tool to make quantum information reliable and enable the ultimate goal of fault-tolerant quantum computing. Surface codes currently stand as the most promising candidates to build error corrected qubits given their two-dimensional architecture, a requirement of only local operations, and high tolerance to quantum noise. Decoding algorithms are an integral component of any error correction scheme, as they are tasked with producing accurate estimates of the errors that affect quantum information, so that it can subsequently be corrected. A critical aspect of decoding algorithms is their speed, since the quantum state will suffer additional errors with the passage of time. This poses a connundrum-like tradeoff, where decoding performance is improved at the expense of complexity and viceversa. In this review, a thorough discussion of state-of-the-art surface code decoding algorithms is provided. The core operation of these methods is described along with existing variants that show promise for improved results. In addition, both the decoding performance, in terms of error correction capability, and decoding complexity, are compared. A review of the existing software tools regarding surface code decoding is also provided.
翻訳日:2023-10-06 21:52:32 公開日:2023-10-05
# 説明可能なデュアルニューラルネットワークを用いた逆需要関数のモデル化

Modeling Inverse Demand Function with Explainable Dual Neural Networks ( http://arxiv.org/abs/2307.14322v2 )

ライセンス: Link先を確認
Zhiyu Cao, Zihan Chen, Prerna Mishra, Hamed Amini, Zachary Feinstein(参考訳) 金融の伝染は金融システムの基本的リスクとして広く認識されている。 特に強力なのが価格経由の感染であり、企業による強引な清算によって資産価格が下落し、金融ストレスが伝播し、危機は一見無関係な組織の範囲で拡大する。 価格の影響は現在、外因性逆需要関数によってモデル化されている。 しかし、現実のシナリオでは、初期ショックと最終均衡資産価格のみが観測可能であり、実際の資産の流動性はほとんど不明である。 この欠落したデータは、既存のモデルの校正に重大な制限を与える。 これらの課題に対処するため、第1のニューラルネットワークは初期ショックを予測された資産の流動にマッピングし、第2のニューラルネットワークはこれらの流動を利用して結果の平衡価格を導出する。 このデータ駆動型アプローチは、解析構造を事前に指定することなく、線形形式と非線形形式の両方をキャプチャすることができる。 シミュレーションデータセットを用いた実験により,本モデルは初期ショックのみに基づいて均衡資産価格を正確に予測し,予測値と真の清算値との整合性を示した。 我々の説明可能なフレームワークは、価格を媒介とする伝染の理解とモデリングに寄与し、金融当局が効果的なストレステストと規制ポリシーを構築するための貴重な洞察を提供します。

Financial contagion has been widely recognized as a fundamental risk to the financial system. Particularly potent is price-mediated contagion, wherein forced liquidations by firms depress asset prices and propagate financial stress, enabling crises to proliferate across a broad spectrum of seemingly unrelated entities. Price impacts are currently modeled via exogenous inverse demand functions. However, in real-world scenarios, only the initial shocks and the final equilibrium asset prices are typically observable, leaving actual asset liquidations largely obscured. This missing data presents significant limitations to calibrating the existing models. To address these challenges, we introduce a novel dual neural network structure that operates in two sequential stages: the first neural network maps initial shocks to predicted asset liquidations, and the second network utilizes these liquidations to derive resultant equilibrium prices. This data-driven approach can capture both linear and non-linear forms without pre-specifying an analytical structure; furthermore, it functions effectively even in the absence of observable liquidation data. Experiments with simulated datasets demonstrate that our model can accurately predict equilibrium asset prices based solely on initial shocks, while revealing a strong alignment between predicted and true liquidations. Our explainable framework contributes to the understanding and modeling of price-mediated contagion and provides valuable insights for financial authorities to construct effective stress tests and regulatory policies.
翻訳日:2023-10-06 21:52:12 公開日:2023-10-05
# トカマク磁気制御の実用的強化学習に向けて

Towards practical reinforcement learning for tokamak magnetic control ( http://arxiv.org/abs/2307.11546v2 )

ライセンス: Link先を確認
Brendan D. Tracey and Andrea Michi and Yuri Chervonyi and Ian Davies and Cosmin Paduraru and Nevena Lazic and Federico Felici and Timo Ewalds and Craig Donner and Cristian Galperti and Jonas Buchli and Michael Neunert and Andrea Huber and Jonathan Evens and Paula Kurylowicz and Daniel J. Mankowitz and Martin Riedmiller and The TCV Team(参考訳) 強化学習(rl)はプラズマ磁気制御の領域を含むリアルタイム制御システムにおいて有望な結果を示している。 しかし、磁気閉じ込めに対する従来のフィードバック制御手法と比較しても大きな欠点がある。 本研究では, RL法の重要な欠点に対処し, 所望のプラズマ特性に対する制御精度の向上, 定常誤差の低減, 新たなタスクの学習に必要な時間短縮を実現する。 我々は, \cite{degrave2022magnetic}上に構築し,エージェントアーキテクチャとトレーニング手順のアルゴリズム的改善を提案する。 本研究では, 形状精度が最大65\%向上し, プラズマ電流の長期バイアスが大幅に低減し, 新たなタスクの学習に要する訓練時間を3倍以上削減したシミュレーション結果を示す。 我々は,TCVトカマクに改良されたRLベースの制御器を用いた新しい実験を行い,シミュレーション結果を検証し,RLアプローチを用いて正確な放電を実現する方法を示す。

Reinforcement learning (RL) has shown promising results for real-time control systems, including the domain of plasma magnetic control. However, there are still significant drawbacks compared to traditional feedback control approaches for magnetic confinement. In this work, we address key drawbacks of the RL method; achieving higher control accuracy for desired plasma properties, reducing the steady-state error, and decreasing the required time to learn new tasks. We build on top of \cite{degrave2022magnetic}, and present algorithmic improvements to the agent architecture and training procedure. We present simulation results that show up to 65\% improvement in shape accuracy, achieve substantial reduction in the long-term bias of the plasma current, and additionally reduce the training time required to learn new tasks by a factor of 3 or more. We present new experiments using the upgraded RL-based controllers on the TCV tokamak, which validate the simulation results achieved, and point the way towards routinely achieving accurate discharges using the RL approach.
翻訳日:2023-10-06 21:51:27 公開日:2023-10-05
# 即席投票の適度に重み付けされた監査員:AWAIRE

Adaptively Weighted Audits of Instant-Runoff Voting Elections: AWAIRE ( http://arxiv.org/abs/2307.10972v2 )

ライセンス: Link先を確認
Alexander Ek, Philip B. Stark, Peter J. Stuckey, Damjan Vukcevic(参考訳) 選挙監査(英: election audit)とは、不正な選挙結果が認定される確率を監査が制限した場合のリスク限度である。 即時投票(IRV)選挙の監査方法は、リスク制限や、各投票における投票の電子的記録であるキャスト投票記録(CVR)を必要とするものではない。 例えば、IRVコンテストを手動で集計する管轄区域では、CVRは必ずしも利用できない。 我々は,CVRが利用できない場合に,適応的に重み付けされたテストスーパーマーチンガルを用いてIRV選挙を効率よく監査するRLA法(AWAIRE)を開発した。 適応重み付けの「学習」は、選挙結果を確認するための効率的な仮説のセットである。 正確なCVRが利用可能であれば、AWAIREはCVRを必要とする既存のメソッドのパフォーマンスに匹敵する効率を向上させるためにそれらを使用することができる。 最大6人の候補者で選挙を処理できるオープンソースのプロトタイプ実装を提供する。 実際の選挙のデータを用いたシミュレーションでは、AWAIREは実際に効率的であることが示されている。 我々は、より多くの候補者で選挙を扱うための計算手法を拡張する方法について論じる。 適応的に重み付けされたテストスーパーマーチンガルの平均は一般的なツールであり、選挙監査を超えて、家族ごとのエラー率を厳格に制御しながら仮説のコレクションをテストするのに有用である。

An election audit is risk-limiting if the audit limits (to a pre-specified threshold) the chance that an erroneous electoral outcome will be certified. Extant methods for auditing instant-runoff voting (IRV) elections are either not risk-limiting or require cast vote records (CVRs), the voting system's electronic record of the votes on each ballot. CVRs are not always available, for instance, in jurisdictions that tabulate IRV contests manually. We develop an RLA method (AWAIRE) that uses adaptively weighted averages of test supermartingales to efficiently audit IRV elections when CVRs are not available. The adaptive weighting 'learns' an efficient set of hypotheses to test to confirm the election outcome. When accurate CVRs are available, AWAIRE can use them to increase the efficiency to match the performance of existing methods that require CVRs. We provide an open-source prototype implementation that can handle elections with up to six candidates. Simulations using data from real elections show that AWAIRE is likely to be efficient in practice. We discuss how to extend the computational approach to handle elections with more candidates. Adaptively weighted averages of test supermartingales are a general tool, useful beyond election audits to test collections of hypotheses sequentially while rigorously controlling the familywise error rate.
翻訳日:2023-10-06 21:51:11 公開日:2023-10-05
# SMURF: 4次元イメージングレーダを用いた3次元物体検出のための空間多重表現融合

SMURF: Spatial Multi-Representation Fusion for 3D Object Detection with 4D Imaging Radar ( http://arxiv.org/abs/2307.10784v3 )

ライセンス: Link先を確認
Jianan Liu, Qiuchi Zhao, Weiyi Xiong, Tao Huang, Qing-Long Han, Bing Zhu(参考訳) 4Dミリ波レーダー(mmWave)は、悪天候条件下でのコスト効率と操作性から、車両の検知に有望な技術である。 しかし、この技術の採用は、レーダポイントクラウドデータにおけるスパーシリティとノイズの問題によって妨げられている。 本稿では,単一4次元イメージングレーダを用いた新しい3次元物体検出手法である空間多重表現融合(SMURF)を提案する。 SMURFは、カーネル密度推定(KDE)を通して多次元ガウス混合分布の柱化や密度特性を含むレーダー検出点の複数の表現を利用する。 KDEは、狭角分解能とレーダ信号のマルチパス伝搬による測定精度の低下を効果的に緩和する。 さらに、KDEは密度特性をキャプチャすることで、ポイントクラウドの分散を緩和する。 View-of-Delft(VoD)とTJ4DRadSetデータセットの実験的評価は、SMURFの有効性と一般化能力を示し、最近提案された4Dイメージングレーダベースの単一表現モデルよりも優れている。 さらに、4Dイメージングレーダのみを使用しながら、SMURFは最先端の4Dイメージングレーダとカメラ融合方式に匹敵する性能を保ち、TJ4DRadSetデータセットの鳥眼視の平均精度は1.22%、VoDデータセットの全注釈領域の平均精度は1.32%向上した。 提案手法は印象的な推論時間を示し,2つのデータセットのほとんどのスキャンにおいて0.05秒以内で,リアルタイム検出の課題に対処する。 本研究は、4DmmWaveレーダの利点を強調し、4Dイメージングレーダを用いた3次元物体検出に関するその後の研究の強力なベンチマークである。

The 4D Millimeter wave (mmWave) radar is a promising technology for vehicle sensing due to its cost-effectiveness and operability in adverse weather conditions. However, the adoption of this technology has been hindered by sparsity and noise issues in radar point cloud data. This paper introduces spatial multi-representation fusion (SMURF), a novel approach to 3D object detection using a single 4D imaging radar. SMURF leverages multiple representations of radar detection points, including pillarization and density features of a multi-dimensional Gaussian mixture distribution through kernel density estimation (KDE). KDE effectively mitigates measurement inaccuracy caused by limited angular resolution and multi-path propagation of radar signals. Additionally, KDE helps alleviate point cloud sparsity by capturing density features. Experimental evaluations on View-of-Delft (VoD) and TJ4DRadSet datasets demonstrate the effectiveness and generalization ability of SMURF, outperforming recently proposed 4D imaging radar-based single-representation models. Moreover, while using 4D imaging radar only, SMURF still achieves comparable performance to the state-of-the-art 4D imaging radar and camera fusion-based method, with an increase of 1.22% in the mean average precision on bird's-eye view of TJ4DRadSet dataset and 1.32% in the 3D mean average precision on the entire annotated area of VoD dataset. Our proposed method demonstrates impressive inference time and addresses the challenges of real-time detection, with the inference time no more than 0.05 seconds for most scans on both datasets. This research highlights the benefits of 4D mmWave radar and is a strong benchmark for subsequent works regarding 3D object detection with 4D imaging radar.
翻訳日:2023-10-06 21:50:47 公開日:2023-10-05
# 最適ニューラルネットワークを目指して:ハイパーパラメータ選択におけるサンプル分割の役割

Towards Optimal Neural Networks: the Role of Sample Splitting in Hyperparameter Selection ( http://arxiv.org/abs/2307.07726v2 )

ライセンス: Link先を確認
Shijin Gong and Xinyu Zhang(参考訳) 人工ニューラルネットワークが様々な領域で例外的な実践的成功をおさめたとき、その近似力、統計特性、一般化性能などの理論的特性の研究は同時に大きな進歩を遂げた。 本稿では,ニューラルネットワークの有効性を理解するための新しい理論を構築し,従来の研究と異なる視点を提供する。 具体的には,ニューラルネットワークモデル構築における共通プラクティスの根拠であるサンプル分割について検討する。 その結果, サンプル分割から得られる最適パラメータは, 漸近的に予測リスクを最小化するニューラルネットワークモデルを実現することができることがわかった。 異なるアプリケーションシナリオとネットワークアーキテクチャにわたる広範な実験を行い、その結果が我々の理論の有効性を示している。

When artificial neural networks have demonstrated exceptional practical success in a variety of domains, investigations into their theoretical characteristics, such as their approximation power, statistical properties, and generalization performance, have concurrently made significant strides. In this paper, we construct a novel theory for understanding the effectiveness of neural networks, which offers a perspective distinct from prior research. Specifically, we explore the rationale underlying a common practice during the construction of neural network models: sample splitting. Our findings indicate that the optimal hyperparameters derived from sample splitting can enable a neural network model that asymptotically minimizes the prediction risk. We conduct extensive experiments across different application scenarios and network architectures, and the results manifest our theory's effectiveness.
翻訳日:2023-10-06 21:50:19 公開日:2023-10-05
# 大規模言語モデルの包括的概要

A Comprehensive Overview of Large Language Models ( http://arxiv.org/abs/2307.06435v4 )

ライセンス: Link先を確認
Humza Naveed, Asad Ullah Khan, Shi Qiu, Muhammad Saqib, Saeed Anwar, Muhammad Usman, Naveed Akhtar, Nick Barnes, Ajmal Mian(参考訳) 大規模言語モデル(LLM)は、最近自然言語処理タスクなどにおいて顕著な機能を示した。 LLMの成功は、この方向に多くの研究貢献をもたらした。 これらの作業には、基盤となるニューラルネットワークのアーキテクチャ革新、コンテキスト長の改善、モデルアライメント、トレーニングデータセット、ベンチマーク、効率性など、さまざまなトピックが含まれている。 LLM研究における技術の急速な発展と定期的なブレークスルーにより、この方向の進歩の全体像を理解することは極めて困難になっている。 LLMに関する文献が急速に増えていることを考えると、研究コミュニティは、この分野の最近の発展の簡潔かつ包括的概要から恩恵を受けることができることが不可欠である。 本稿はその概要を研究コミュニティに提供します。 既存の文献の体系的な扱いをLLMに関する幅広い概念に焦点をあてるだけでなく、個々の既存モデル、データセット、および主要な洞察に関する広範な詳細を包括的な要約を提供することにも特に注意を払う。 また,本研究の今後の展望を概観する上でも,LLMのより広範な研究方向性のレビューを新たに実施することで,今後の展望を概観する。 llmの自己完結型包括的概要では,関連する背景概念と,この研究方向性のフロンティアにおける先進的トピックについて論じる。 本論文は, 体系的な調査を行うだけでなく, 研究者や実践者が, LLM研究の方向性を推し進めるために, 既存の研究の広範な情報的要約から洞察を引き出すための, 迅速な総合的な参照も意図している。

Large Language Models (LLMs) have recently demonstrated remarkable capabilities in natural language processing tasks and beyond. This success of LLMs has led to a large influx of research contributions in this direction. These works encompass diverse topics such as architectural innovations of the underlying neural networks, context length improvements, model alignment, training datasets, benchmarking, efficiency and more. With the rapid development of techniques and regular breakthroughs in LLM research, it has become considerably challenging to perceive the bigger picture of the advances in this direction. Considering the rapidly emerging plethora of literature on LLMs, it is imperative that the research community is able to benefit from a concise yet comprehensive overview of the recent developments in this field. This article provides that overview to the research community. It not only focuses on a systematic treatment of the existing literature on a broad range of LLM related concept, but also pays special attention to providing comprehensive summaries with extensive details about the individual existing models, datasets and major insights. We also pay heed to aligning our overview with the emerging outlook of this research direction by accounting for the other recently materializing reviews of the broader research direction of LLMs. Our self-contained comprehensive overview of LLMs discusses relevant background concepts along with covering the advanced topics at the frontier of this research direction. This review article is intended to not only provide a systematic survey, but also a quick comprehensive reference for the researchers and practitioners to draw insights from extensive informative summaries of the existing works to advance the LLM research direction.
翻訳日:2023-10-06 21:50:07 公開日:2023-10-05
# ディープニューラルネットワークにおける量的clt

Quantitative CLTs in Deep Neural Networks ( http://arxiv.org/abs/2307.06092v4 )

ライセンス: Link先を確認
Stefano Favaro, Boris Hanin, Domenico Marinucci, Ivan Nourdin, Giovanni Peccati(参考訳) ランダムなガウス重みとバイアスを持つ完全連結ニューラルネットワークの分布について検討し,隠れた層幅が大きな定数$n$に比例することを示した。 非線形性に関する穏やかな仮定の下では、正規近似の量的境界は、大きなが有限の n$ と任意の固定されたネットワーク深さで有効である。 この定理は有限次元分布と全過程の両方について示しており、ランダムな完全連結ネットワーク(とその微分)と対応する無限幅ガウス過程の間の距離は、例えば$n^{-\gamma}$ for $\gamma>0$ のようにスケールする。 我々の境界は、それまでの文献よりもネットワーク幅に依存しているという点で強く、一次元の場合、それらが最適であること、すなわち一致した下界を確立することを証明する。

We study the distribution of a fully connected neural network with random Gaussian weights and biases in which the hidden layer widths are proportional to a large constant $n$. Under mild assumptions on the non-linearity, we obtain quantitative bounds on normal approximations valid at large but finite $n$ and any fixed network depth. Our theorems show both for the finite-dimensional distributions and the entire process, that the distance between a random fully connected network (and its derivatives) to the corresponding infinite width Gaussian process scales like $n^{-\gamma}$ for $\gamma>0$, with the exponent depending on the metric used to measure discrepancy. Our bounds are strictly stronger in terms of their dependence on network width than any previously available in the literature; in the one-dimensional case, we also prove that they are optimal, i.e., we establish matching lower bounds.
翻訳日:2023-10-06 21:49:21 公開日:2023-10-05
# openins3d: 3d open-vocabulary instance segmentationのスナップとルックアップ

OpenIns3D: Snap and Lookup for 3D Open-vocabulary Instance Segmentation ( http://arxiv.org/abs/2309.00616v3 )

ライセンス: Link先を確認
Zhening Huang, Xiaoyang Wu, Xi Chen, Hengshuang Zhao, Lei Zhu, Joan Lasenby(参考訳) 現在の3次元オープンボキャブラリシーン理解手法は,3次元特徴を言語で学習するためのブリッジとして,よく整列した2次元画像を利用する。 しかし,2次元画像が欠落するシナリオでは,これらの手法の適用が困難になる。 本研究では,2次元画像入力を必要としないOpenIns3Dという新しいパイプラインを導入し,インスタンスレベルでの3次元オープン語彙シーン理解を実現する。 OpenIns3Dフレームワークは"Mask-Snap-Lookup"スキームを採用している。 mask"モジュールは、クラスに依存しないマスク提案を3dポイントクラウドで学習する。 Snap"モジュールは複数のスケールで合成シーンレベルの画像を生成し、2次元視覚言語モデルを利用して興味深いオブジェクトを抽出する。 ルックアップ」モジュールは、3dマスクと合成画像の正確な対応を含む「マスク2ピクセルマップ」の助けを借りて「スナップ」の結果を検索し、提案されたマスクにカテゴリ名を割り当てる。 この2Dインプットフリーでフレキシブルなアプローチは、広範囲の屋内および屋外データセットに対する最先端の成果を大きなマージンで達成する。 さらにOpenIns3Dでは、2D検出器を再トレーニングせずに簡単に切り替えることができる。 ODISE や GroundingDINO のような強力な2次元オープンワールドモデルと統合すると,オープンボキャブラリのインスタンスセグメンテーションにおいて優れた結果が得られた。 LLMを利用したLISAのような2Dモデルと統合すると、複雑な推論と世界知識を必要とする非常に複雑なテキストクエリを処理できることが顕著に示される。 プロジェクトページ: https://zheninghuang.github.io/OpenIns3D/

Current 3D open-vocabulary scene understanding methods mostly utilize well-aligned 2D images as the bridge to learn 3D features with language. However, applying these approaches becomes challenging in scenarios where 2D images are absent. In this work, we introduce a new pipeline, namely, OpenIns3D, which requires no 2D image inputs, for 3D open-vocabulary scene understanding at the instance level. The OpenIns3D framework employs a "Mask-Snap-Lookup" scheme. The "Mask" module learns class-agnostic mask proposals in 3D point clouds. The "Snap" module generates synthetic scene-level images at multiple scales and leverages 2D vision language models to extract interesting objects. The "Lookup" module searches through the outcomes of "Snap" with the help of Mask2Pixel maps, which contain the precise correspondence between 3D masks and synthetic images, to assign category names to the proposed masks. This 2D input-free and flexible approach achieves state-of-the-art results on a wide range of indoor and outdoor datasets by a large margin. Moreover, OpenIns3D allows for effortless switching of 2D detectors without re-training. When integrated with powerful 2D open-world models such as ODISE and GroundingDINO, excellent results were observed on open-vocabulary instance segmentation. When integrated with LLM-powered 2D models like LISA, it demonstrates a remarkable capacity to process highly complex text queries which require intricate reasoning and world knowledge. Project page: https://zheninghuang.github.io/OpenIns3D/
翻訳日:2023-10-06 21:43:35 公開日:2023-10-05
# 超音波画像における頸部リンパ節病変診断のための空間周波数領域ベースマルチブランチネットワークSFUSNet

SFUSNet: A Spatial-Frequency domain-based Multi-branch Network for diagnosis of Cervical Lymph Node Lesions in Ultrasound Images ( http://arxiv.org/abs/2308.16738v2 )

ライセンス: Link先を確認
Yubiao Yue, Jun Xue, Haihua Liang, Bingchun Luo, Zhenzhang Li(参考訳) 深層学習は超音波画像の多彩な病変の診断を大幅に改善させたが、頸部リンパ節病変に関する顕著な研究ギャップは依然として残っている。 本研究の目的は,深層学習モデルを用いて超音波画像の頸部リンパ節病変を診断することである。 この目的のために, 正常リンパ節, 良性リンパ節病変, 悪性原発リンパ節病変, 転移性リンパ節病変を含む3392個の頸部超音波像を採取した。 超音波画像が様々な生体組織にまたがる音波の反射・散乱によって生成されることを考慮し,conv-fftブロックを提案した。 畳み込み操作と高速フーリエ変換を統合し、画像をより正確にモデル化する。 この基盤に基づいて、SFUSNetという新しいアーキテクチャを設計しました。 SFUSNetは、空間領域から超音波画像のばらつきを識別するだけでなく、周波数領域の様々な病変の微構造変化を十分に捉えている。 SFUSNetの可能性を確認するため、私たちは5倍のクロスバリデーションを通じて、12のポピュラーアーキテクチャに対してベンチマークを行った。 その結果、SFUSNetは最先端のモデルであり、92.89%の精度が得られることがわかった。 さらに、4種類の病変の平均精度、平均感度、平均特異度はそれぞれ90.46%、89.95%、97.49%である。

Booming deep learning has substantially improved the diagnosis for diverse lesions in ultrasound images, but a conspicuous research gap concerning cervical lymph node lesions still remains. The objective of this work is to diagnose cervical lymph node lesions in ultrasound images by leveraging a deep learning model. To this end, we first collected 3392 cervical ultrasound images containing normal lymph nodes, benign lymph node lesions, malignant primary lymph node lesions, and malignant metastatic lymph node lesions. Given that ultrasound images are generated by the reflection and scattering of sound waves across varied bodily tissues, we proposed the Conv-FFT Block. It integrates convolutional operations with the fast Fourier transform to more astutely model the images. Building upon this foundation, we designed a novel architecture, named SFUSNet. SFUSNet not only discerns variances in ultrasound images from the spatial domain but also adeptly captures micro-structural alterations across various lesions in the frequency domain. To ascertain the potential of SFUSNet, we benchmarked it against 12 popular architectures through five-fold cross-validation. The results show that SFUSNet is the state-of-the-art model and can achieve 92.89% accuracy. Moreover, its average precision, average sensitivity and average specificity for four types of lesions achieve 90.46%, 89.95% and 97.49%, respectively.
翻訳日:2023-10-06 21:43:10 公開日:2023-10-05
# 自己構造的セマンティックアライメントによる現実的ゼロショット分類に向けて

Towards Realistic Zero-Shot Classification via Self Structural Semantic Alignment ( http://arxiv.org/abs/2308.12960v2 )

ライセンス: Link先を確認
Sheng Zhang, Muzammal Naseer, Guangyi Chen, Zhiqiang Shen, Salman Khan, Kun Zhang, Fahad Khan(参考訳) 大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。 成功したにもかかわらず、ほとんどの伝統的なvlmsベースの手法は、部分的ソース監督や理想的な語彙の仮定によって制限されている。 本稿では,アノテーションを使わずに幅広い語彙を想定した,より難易度の高い,現実的なゼロショット分類を目標とする。 そこで本研究では,無ラベルデータから構造的意味情報を抽出する自己構造的意味的アライメント(s^3a)フレームワークを提案する。 我々のS^3Aフレームワークは独自のCVPR(Cluster-Vote-Prompt-Realign)アルゴリズムを採用している。 我々のCVPRプロセスは、画像上の反復的クラスタリング、各クラスタ内で投票して、語彙から初期クラス候補を特定すること、混乱した候補を識別するために大きな言語モデルによる識別的プロンプトを生成し、構造的意味的アライメントとして画像と語彙を認識させることを含む。 最後に,CLIP画像エンコーダを教師と学生の学習戦略を通じて,個人的・構造的セマンティックアライメントで自己学習することを提案する。 s^3a法が既存のvlms法に比べて大幅に改善され,クリップ平均より15%以上精度が向上したことを示す。 私たちのコード、モデル、プロンプトはhttps://github.com/sheng-eatamath/s3aで公開されています。

Large-scale pre-trained Vision Language Models (VLMs) have proven effective for zero-shot classification. Despite the success, most traditional VLMs-based methods are restricted by the assumption of partial source supervision or ideal vocabularies, which rarely satisfy the open-world scenario. In this paper, we aim at a more challenging setting, Realistic Zero-Shot Classification, which assumes no annotation but instead a broad vocabulary. To address this challenge, we propose the Self Structural Semantic Alignment (S^3A) framework, which extracts the structural semantic information from unlabeled data while simultaneously self-learning. Our S^3A framework adopts a unique Cluster-Vote-Prompt-Realign (CVPR) algorithm, which iteratively groups unlabeled data to derive structural semantics for pseudo-supervision. Our CVPR process includes iterative clustering on images, voting within each cluster to identify initial class candidates from the vocabulary, generating discriminative prompts with large language models to discern confusing candidates, and realigning images and the vocabulary as structural semantic alignment. Finally, we propose to self-learn the CLIP image encoder with both individual and structural semantic alignment through a teacher-student learning strategy. Our comprehensive experiments across various generic and fine-grained benchmarks demonstrate that the S^3A method offers substantial improvements over existing VLMs-based approaches, achieving a more than 15% accuracy improvement over CLIP on average. Our codes, models, and prompts are publicly released at https://github.com/sheng-eatamath/S3A.
翻訳日:2023-10-06 21:42:15 公開日:2023-10-05
# BaDExpert: 正確なバックドア入力検出のためのバックドア機能の抽出

BaDExpert: Extracting Backdoor Functionality for Accurate Backdoor Input Detection ( http://arxiv.org/abs/2308.12439v2 )

ライセンス: Link先を確認
Tinghao Xie, Xiangyu Qi, Ping He, Yiming Li, Jiachen T. Wang, Prateek Mittal(参考訳) 本稿では,ディープニューラルネットワーク(dnn)に対するバックドア攻撃に対して,悪意のある行動(バックドア)をdnnに隠密に埋め込む新たな防御手法を提案する。 当社の防御は、モデルの生成方法とは独立に動作する、開発後防衛のカテゴリに分類される。 提案された防御は、与えられたバックドアモデルのバックドア機能をバックドアエキスパートモデルに直接抽出できる、新しいリバースエンジニアリングアプローチに基づいている。 バックドアの機能を保存しながら、通常の機能を解き放ち、バックドアの入力のみを認識できるモデル(バックドアのエキスパートモデル)になるように、バックドアのモデルを意図的に誤ってラベル付けされたクリーンなサンプルの小さなセットで微調整する。 抽出されたバックドアエキスパートモデルに基づき,モデル推論中にバックドア入力をフィルタする高精度なバックドア入力検出器の実現可能性を示す。 BaDExpert(Backdoor Input Detection with Backdoor Expert)は、17個のSOTAバックドア攻撃を効果的に軽減し、クリーンユーティリティに最小限の影響を与える。 BaDExpertの有効性は、さまざまなモデルアーキテクチャ(ResNet、VGG、MobileNetV2、Vision Transformer)にわたる複数のデータセット(CIFAR10、GTSRB、ImageNet)で検証されている。

We present a novel defense, against backdoor attacks on Deep Neural Networks (DNNs), wherein adversaries covertly implant malicious behaviors (backdoors) into DNNs. Our defense falls within the category of post-development defenses that operate independently of how the model was generated. The proposed defense is built upon a novel reverse engineering approach that can directly extract backdoor functionality of a given backdoored model to a backdoor expert model. The approach is straightforward -- finetuning the backdoored model over a small set of intentionally mislabeled clean samples, such that it unlearns the normal functionality while still preserving the backdoor functionality, and thus resulting in a model (dubbed a backdoor expert model) that can only recognize backdoor inputs. Based on the extracted backdoor expert model, we show the feasibility of devising highly accurate backdoor input detectors that filter out the backdoor inputs during model inference. Further augmented by an ensemble strategy with a finetuned auxiliary model, our defense, BaDExpert (Backdoor Input Detection with Backdoor Expert), effectively mitigates 17 SOTA backdoor attacks while minimally impacting clean utility. The effectiveness of BaDExpert has been verified on multiple datasets (CIFAR10, GTSRB and ImageNet) across various model architectures (ResNet, VGG, MobileNetV2 and Vision Transformer).
翻訳日:2023-10-06 21:41:47 公開日:2023-10-05
# Kadanoff-Baym方程式を用いたオープン量子システム

Open Quantum Systems with Kadanoff-Baym Equations ( http://arxiv.org/abs/2308.07659v2 )

ライセンス: Link先を確認
Tim Neidig, Jan Rais, Marcus Bleicher, Hendrik van Hees, and Carsten Greiner(参考訳) ボソニック粒子の熱浴中での1次元の魅力的な二乗ウェルポテンシャルの中で1つの束縛状態を示す量子力学的フェルミオン粒子の時間的発展について検討した。 この開量子系では、熱-熱粒子との相互作用を弾性 2-2 散乱とすることで、系粒子の非平衡カダノフ・ベイム方程式を定式化する。 一粒子グリーンズ関数に対する空間的に不均一な積分微分方程式を数値的に解く。 本研究では, 系粒子が熱浴と平衡し熱し, 密度行列の非対角要素が1粒子のエネルギー固有ベイシスでどのように表されるかを示し, 対角成分, すなわち占有数のみが存続することを示す。 さらに、(取り戻された)グリーン関数の時間発展は、様々な1粒子量子状態のスペクトル特性も決定する。

We study the temporal evolution of quantum mechanical fermionic particles exhibiting one bound state within a one-dimensional attractive square-well potential in a heat bath of bosonic particles. For this open quantum system we formulate the non-equilibrium Kadanoff-Baym equations for the system particles by taking the interactions to be elastic 2-2 scatterings with the heat-bath particles. The corresponding spatially imhomogeneous integro-differential equations for the one-particle Greens's function are solved numerically. We demonstrate how the system particles equilibrate and thermalize with the heat bath and how the off-diagonal elements of the density matrix, expressed in the one-particle energy eigenbasis, decohere, so that only the diagonal entries, i.e. the occupation numbers, survive. In addition, the time evolution of the (retarded) Green's function also determines the spectral properties of the various one-particle quantum states.
翻訳日:2023-10-06 21:41:23 公開日:2023-10-05
# ブルズアイ共振器における単一エミッタからの偏光・非偏光放射

Polarized and Un-Polarized Emission from a Single Emitter in a Bullseye Resonator ( http://arxiv.org/abs/2308.06231v2 )

ライセンス: Link先を確認
Giora Peniakov, Quirin Buchinger, Mohamed Helal, Simon Betzold, Yorick Reum, Michele B. Rota, Giuseppe Ronco, Mattia Beccaceci, Tobias M. Krieger, Saimon F. Covre Da Silva, Armando Rastelli, Rinaldo Trotta, Andreas Pfenning, Sven Hoefling, Tobias Huber-Loyola(参考訳) 偏極 |S|=0.99$\pm$0.01 と非偏極 |S|=0.03$\pm$0.01 を1つの円筒対称デバイス設計に埋め込まれた単一エミッタから放射する。 偏極は、円筒対称性を破るキャビティ中心に対する単一エミッタの位置オフセットと、共振器構造の周波数縮退固有モードに対する位置依存結合に由来することを示す。 実験結果は数値シミュレーションと偏光分解遠方界放出パターンの実験的マッピングを用いて解釈された。 2つの直交固有モードが完全に空間的に重なり合っていないナノフォトニック構造に一般化することができる。

We present polarized |S|=0.99$\pm$0.01, and unpolarized |S|=0.03$\pm$0.01 emission from a single emitter embedded in a single, cylindrically symmetric device design. We show that the polarization stems from a position offset of the single emitter with respect to the cavity center, which breaks the cylindrical symmetry, and a position-dependent coupling to the frequency degenerate eigenmodes of the resonator structure. The experimental results are interpreted by using numerical simulations and by experimental mapping of the polarization-resolved far-field emission patterns. Our findings can be generalized to any nanophotonic structure where two orthogonal eigenmodes are not fully spatially overlapping.
翻訳日:2023-10-06 21:41:09 公開日:2023-10-05
# SelfCheck:LDMを使って独自のステップバイステップ推論をゼロショットする

SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning ( http://arxiv.org/abs/2308.00436v3 )

ライセンス: Link先を確認
Ning Miao, Yee Whye Teh, Tom Rainforth(参考訳) 大規模言語モデル(LLM)の最近の進歩、特にチェーン・オブ・シンセサイザーの発明は、段階的に推論することで自動的に質問に答えることを可能にする。 しかし、非線形思考を必要とするより複雑な問題に直面した場合、最強のllmでさえ誤りを犯す。 そこで本研究では,LLMが外部リソースを使わずに,ステップバイステップの推論でエラーを認識できるかどうかを考察する。 そこで本研究では,このような誤りを認識可能な汎用ゼロショット検証スキーマであるSelfCheckを提案する。 次に,複数の解に対する重み付け投票を行うことで,質問応答性能を向上させるために,これらのチェックの結果を利用する。 我々は,3つのデータセット(GSM8K,MathQA,MATH)上でSelfCheckをテストし,エラーの認識に成功し,最終的な回答精度が向上することを確認した。

The recent progress in large language models (LLMs), especially the invention of chain-of-thought prompting, has made it possible to automatically answer questions by stepwise reasoning. However, when faced with more complicated problems that require non-linear thinking, even the strongest LLMs make mistakes. To address this, we explore whether LLMs are able to recognize errors in their own step-by-step reasoning, without resorting to external resources. To this end, we propose SelfCheck, a general-purpose zero-shot verification schema for recognizing such errors. We then use the results of these checks to improve question-answering performance by conducting weighted voting on multiple solutions to the question. We test SelfCheck on three datasets (GSM8K, MathQA, and MATH) and find that it successfully recognizes errors and, in turn, increases final answer accuracies.
翻訳日:2023-10-06 21:40:31 公開日:2023-10-05
# リアクティブシステム内のニューラルネットワークの形式的説明

Formally Explaining Neural Networks within Reactive Systems ( http://arxiv.org/abs/2308.00143v3 )

ライセンス: Link先を確認
Shahaf Bassan, Guy Amir, Davide Corsi, Idan Refaeli, Guy Katz(参考訳) ディープニューラルネットワーク(DNN)は、リアクティブシステムのコントローラとしてますます利用されている。 しかし、DNNは非常に不透明であり、その動作の説明と正当化が難しい。 この問題を軽減するため、DNNが動作させた入力機能を特定できる、説明可能なAI(XAI)技術への関心が高まっている。 既存のXAI技術には2つの制限がある。 (i)彼らはヒューリスティックであり、説明が正しいという正式な保証を与えていない。 (ii) リアクティブシステムとは対照的に、過去の呼び出しとは独立してDNNが呼び出される‘one-shot’システムによく適用されます。 そこで我々は,このギャップを埋め始め,多段階のリアクティブシステムを推論するための形式的DNN検証ベースのXAI手法を提案する。 本稿では,システムの遷移制約を利用して,検証者が探索する探索空間を短縮し,簡潔な説明を効率的に計算する方法を提案する。 自動ナビゲーションの領域における2つの一般的なベンチマークに対するアプローチを評価し,本手法が最小限,最小限の説明の効率的な計算を可能にしたことを観察した。 また,本手法が競合する非検証型XAI技術よりも信頼性の高い形式的説明を生成することを示す。

Deep neural networks (DNNs) are increasingly being used as controllers in reactive systems. However, DNNs are highly opaque, which renders it difficult to explain and justify their actions. To mitigate this issue, there has been a surge of interest in explainable AI (XAI) techniques, capable of pinpointing the input features that caused the DNN to act as it did. Existing XAI techniques typically face two limitations: (i) they are heuristic, and do not provide formal guarantees that the explanations are correct; and (ii) they often apply to ``one-shot'' systems, where the DNN is invoked independently of past invocations, as opposed to reactive systems. Here, we begin bridging this gap, and propose a formal DNN-verification-based XAI technique for reasoning about multi-step, reactive systems. We suggest methods for efficiently calculating succinct explanations, by exploiting the system's transition constraints in order to curtail the search space explored by the underlying verifier. We evaluate our approach on two popular benchmarks from the domain of automated navigation; and observe that our methods allow the efficient computation of minimal and minimum explanations, significantly outperforming the state of the art. We also demonstrate that our methods produce formal explanations that are more reliable than competing, non-verification-based XAI techniques.
翻訳日:2023-10-06 21:40:15 公開日:2023-10-05
# レベルインパインティングによる既存レベルの再構築

Reconstructing Existing Levels through Level Inpainting ( http://arxiv.org/abs/2309.09472v3 )

ライセンス: Link先を確認
Johor Jara Gonzalez, Matthew Guzdial(参考訳) プロシージャコンテンツ生成 (PCG) とプロシージャコンテンツ生成 (PCGML) は, 様々なゲームにおいて, 先行研究に用いられている。 本稿では,ゲームレベルの再構築と拡張を伴うレベルインペインティングのサブプロブレムに着目し,コンテンツ拡張について述べる。 イメージインペインティングからインスピレーションを得て、このドメインから2つのテクニックを適用して、特定のユースケースに対処します。 本稿では,オートエンコーダとU-netの2つのレベルインペイント手法を提案する。 包括的ケーススタディを通じて,ベースライン法と比較して優れた性能を示し,それらの相対的メリットについて議論する。 さらに, レベルインペインティングタスクのアプローチを実践的に実証し, 今後の研究の方向性について考察する。

Procedural Content Generation (PCG) and Procedural Content Generation via Machine Learning (PCGML) have been used in prior work for generating levels in various games. This paper introduces Content Augmentation and focuses on the subproblem of level inpainting, which involves reconstructing and extending video game levels. Drawing inspiration from image inpainting, we adapt two techniques from this domain to address our specific use case. We present two approaches for level inpainting: an Autoencoder and a U-net. Through a comprehensive case study, we demonstrate their superior performance compared to a baseline method and discuss their relative merits. Furthermore, we provide a practical demonstration of both approaches for the level inpainting task and offer insights into potential directions for future research.
翻訳日:2023-10-06 21:32:05 公開日:2023-10-05
# bggan: アルツハイマー病の脳構造-機能接続を表現可能な生成ai

BGGAN: Generative AI Enables Representing Brain Structure-Function Connections for Alzheimer's Disease ( http://arxiv.org/abs/2309.08916v2 )

ライセンス: Link先を確認
Chen Ding, Shuqiang Wang(参考訳) 脳の構造と機能の関係は、アルツハイマー病(AD)を含む脳疾患の病因を明らかにするために重要である。 しかし、様々な理由から、脳の構造-機能接続をマッピングすることは大きな課題である。 本研究では,脳構造-機能結合を表すために,双方向グラフ生成対向ネットワーク(BGGAN)を提案する。 具体的には、内部グラフ畳み込みネットワーク(InnerGCN)を組み込んだモジュールを設計することにより、BGGANのジェネレータは、直接および間接的な脳領域の機能を用いて、構造ドメインと機能ドメインの間のマッピング機能を学ぶことができる。 さらに、新しいモジュールである balancer は、ジェネレータと判別器の間の最適化を偽装するように設計されている。 バランサをBGGANに導入することで、構造発電機と機能発電機の両方がモード崩壊の問題を軽減するだけでなく、構造的および機能的特徴の相補性を学ぶことができる。 ADNIデータセットを用いた実験結果から、生成された構造接続と生成された関数接続の両方がADの識別精度を向上させることが示された。 さらに,提案モデルに基づき,脳の構造と機能の関係は完全な1対1対応ではないことがわかった。 脳構造は脳機能の基礎である。 強い構造接続は、ほとんど強い機能接続を伴っている。

The relationship between brain structure and function is critical for revealing the pathogenesis of brain disease, including Alzheimer's disease (AD). However, it is a great challenge to map brain structure-function connections due to various reasons. In this work, a bidirectional graph generative adversarial networks (BGGAN) is proposed to represent brain structure-function connections. Specifically, by designing a module incorporating inner graph convolution network (InnerGCN), the generators of BGGAN can employ features of direct and indirect brain regions to learn the mapping function between structural domain and functional domain. Besides, a new module named Balancer is designed to counterpoise the optimization between generators and discriminators. By introducing the Balancer into BGGAN, both the structural generator and functional generator can not only alleviate the issue of mode collapse but also learn complementarity of structural and functional features. Experimental results using ADNI datasets show that the both the generated structure connections and generated function connections can improve the identification accuracy of AD. More importantly, based the proposed model, it is found that the relationship between brain structure and function is not a complete one-to-one correspondence. Brain structure is the basis of brain function. The strong structural connections are almost accompanied by strong functional connections.
翻訳日:2023-10-06 21:31:52 公開日:2023-10-05
# scrufにおけるレコメンデーションフェアネスのための社会的選択メカニズムの検討

Exploring Social Choice Mechanisms for Recommendation Fairness in SCRUF ( http://arxiv.org/abs/2309.08621v2 )

ライセンス: Link先を確認
Amanda Aird, Cassidy All, Paresha Farastu, Elena Stefancova, Joshua Sun, Nicholas Mattei, Robin Burke(参考訳) レコメンダシステムにおける公平性問題は、しばしば単純化された研究の定式化では不十分な複雑さを持っている。 フェアネスに関するマルチエージェントアーキテクチャ内で機能するフェアネス問題の社会的選択形式は、フェアネスを意識した推奨アプローチに代わる、柔軟で多アスペクトなアプローチを提供する。 社会的選択の活用は、一般性の向上と、複数の競合する公正な関心事の間の緊張を解決するための、よく研究された社会的選択アルゴリズムの活用を可能にする。 本稿では,実データと合成データの両方を用いてマルチスペクトル・フェアネス・アプリケーションにおける選択機構の選択肢を探究し,選択機構と割り当て機構の異なるクラスは異なるが一貫性のあるフェアネス/精度のトレードオフをもたらすことを示した。 また,マルチエージェントの定式化により,ユーザ人口動態に適応できることを示す。

Fairness problems in recommender systems often have a complexity in practice that is not adequately captured in simplified research formulations. A social choice formulation of the fairness problem, operating within a multi-agent architecture of fairness concerns, offers a flexible and multi-aspect alternative to fairness-aware recommendation approaches. Leveraging social choice allows for increased generality and the possibility of tapping into well-studied social choice algorithms for resolving the tension between multiple, competing fairness concerns. This paper explores a range of options for choice mechanisms in multi-aspect fairness applications using both real and synthetic data and shows that different classes of choice and allocation mechanisms yield different but consistent fairness / accuracy tradeoffs. We also show that a multi-agent formulation offers flexibility in adapting to user population dynamics.
翻訳日:2023-10-06 21:31:29 公開日:2023-10-05
# 可視赤外人物再同定のためのモダリティ統一ネットワーク

Modality Unifying Network for Visible-Infrared Person Re-Identification ( http://arxiv.org/abs/2309.06262v2 )

ライセンス: Link先を確認
Hao Yu, Xu Cheng, Wei Peng, Weihao Liu, Guoying Zhao(参考訳) vi-reid (visible-infrared person re-identification) は大きなクロスモダリティの不一致とクラス内変異のため難しい課題である。 既存の方法は主に、異なるモダリティを同じ特徴空間に埋め込むことで、モダリティ共有表現の学習に焦点を当てている。 その結果、学習した特徴は、モダリティにまたがる共通パターンを強調しつつ、Re-IDに有用なモダリティ特化情報やアイデンティティ認識情報を抑圧する。 そこで本研究では,vi-reidのロバストな補助的モダリティを探索するための新しいモダリティ統一ネットワーク(mun)を提案する。 まず,提案したモダリティ学習者とモダリティ内学習者を組み合わせることで,モダリティ固有表現とモダリティ共有表現を動的にモデル化し,モダリティ内およびモダリティ内変動を緩和する。 第二に、3つのモードにまたがってアイデンティティセンターを整列させることにより、識別的特徴表現を発見するためにアイデンティティアライメント損失関数を提案する。 第3に、モダリティ・プロトタイプ・モデリングにより可視画像と赤外線画像の分布距離を一貫して減少させるモダリティアライメント損失を導入する。 複数の公開データセットに対する大規模な実験により、提案手法が現在の最先端手法をはるかに上回ることを示す。

Visible-infrared person re-identification (VI-ReID) is a challenging task due to large cross-modality discrepancies and intra-class variations. Existing methods mainly focus on learning modality-shared representations by embedding different modalities into the same feature space. As a result, the learned feature emphasizes the common patterns across modalities while suppressing modality-specific and identity-aware information that is valuable for Re-ID. To address these issues, we propose a novel Modality Unifying Network (MUN) to explore a robust auxiliary modality for VI-ReID. First, the auxiliary modality is generated by combining the proposed cross-modality learner and intra-modality learner, which can dynamically model the modality-specific and modality-shared representations to alleviate both cross-modality and intra-modality variations. Second, by aligning identity centres across the three modalities, an identity alignment loss function is proposed to discover the discriminative feature representations. Third, a modality alignment loss is introduced to consistently reduce the distribution distance of visible and infrared images by modality prototype modeling. Extensive experiments on multiple public datasets demonstrate that the proposed method surpasses the current state-of-the-art methods by a significant margin.
翻訳日:2023-10-06 21:30:51 公開日:2023-10-05
# ビザンチンMLにおける一様アグリゲーション

Practical Homomorphic Aggregation for Byzantine ML ( http://arxiv.org/abs/2309.05395v3 )

ライセンス: Link先を確認
Antoine Choffrut, Rachid Guerraoui, Rafael Pinot, Renaud Sirdey, John Stephan, and Martin Zuber(参考訳) 大規模なデータ可用性のため、機械学習(ML)アルゴリズムは分散トポロジにデプロイされており、各ノードは中央サーバとモデル関連情報(例えば勾配)を交換することで、個々のデータ上でMLモデルをトレーニングする。 しかし、分散学習スキームは2つの脅威に対して特に脆弱である。 まず、Byzantineノードは誤った情報をサーバに送信することで学習をシングルハンドで破壊することができる。 このような振る舞いを緩和するための標準的なアプローチは、サーバで非線形ロバストアグリゲーションメソッドを使用することである。 第二に、サーバはノードのプライバシーを侵害することができる。 最近の攻撃は、(暗号化されていない)グラデーションを交換することで、好奇心の強いサーバがノードのデータの総量を回復できることを示している。 金の標準セキュリティプリミティブである準同型暗号(he)の使用は、非ビザンチンシナリオにおける分散学習に対するプライバシー保護ソリューションとして広く研究されてきた。 しかし、特に高次元MLモデルに対するHEの計算要求が大きいため、非線形ロバストアグリゲータに対して純粋に同型演算子を設計する試みはまだ行われていない。 本稿では,最初の完全準同型でビザンチンロバストな分散学習アルゴリズムであるsableを提案する。 SABLEは基本的に,バッチ処理に適したBGVに対して,ロバストなアグリゲータを実装可能な,新しい平文符号化方式に依存している。 さらに、この符号化方式は、セキュリティマージンが大きく、暗号文サイズが小さい最先端の同型ソートを高速化する。 画像分類タスクに関する広範囲な実験を行い,非プライベートなml性能に適合しながら,実用的な実行時間を実現することを示す。

Due to the large-scale availability of data, machine learning (ML) algorithms are being deployed in distributed topologies, where different nodes collaborate to train ML models over their individual data by exchanging model-related information (e.g., gradients) with a central server. However, distributed learning schemes are notably vulnerable to two threats. First, Byzantine nodes can single-handedly corrupt the learning by sending incorrect information to the server, e.g., erroneous gradients. The standard approach to mitigate such behavior is to use a non-linear robust aggregation method at the server. Second, the server can violate the privacy of the nodes. Recent attacks have shown that exchanging (unencrypted) gradients enables a curious server to recover the totality of the nodes' data. The use of homomorphic encryption (HE), a gold standard security primitive, has extensively been studied as a privacy-preserving solution to distributed learning in non-Byzantine scenarios. However, due to HE's large computational demand especially for high-dimensional ML models, there has not yet been any attempt to design purely homomorphic operators for non-linear robust aggregators. In this work, we present SABLE, the first completely homomorphic and Byzantine robust distributed learning algorithm. SABLE essentially relies on a novel plaintext encoding method that enables us to implement the robust aggregator over batching-friendly BGV. Moreover, this encoding scheme also accelerates state-of-the-art homomorphic sorting with larger security margins and smaller ciphertext size. We perform extensive experiments on image classification tasks and show that our algorithm achieves practical execution times while matching the ML performance of its non-private counterpart.
翻訳日:2023-10-06 21:30:27 公開日:2023-10-05
# ブリッジング感情ロールラベリングと評価に基づく感情分析

Bridging Emotion Role Labeling and Appraisal-based Emotion Analysis ( http://arxiv.org/abs/2309.02092v2 )

ライセンス: Link先を確認
Roman Klinger(参考訳) テキストにおける感情分析という用語は、コンピュータが感情を理解するための共通の目標を持つ様々な自然言語処理タスクを仮定する。 最も人気のある感情分類は、1つまたは複数の感情が予め定義されたテキスト単位に割り当てられる感情分類である。 このような設定は読者または著者の感情を特定するのに適しているが、感情役割ラベル付けは言及された実体の視点を追加し、感情の原因に対応するテキストスパンを抽出する。 感情は内的または外部的な出来事によって引き起こされ、主観的感情や認知的評価を含むいくつかのサブコンポーネントから構成される。 したがって、感情と出来事は2つの方法で関連していると論じる。 1)感情は出来事であり,この視点は感情役割のラベル付けのためのNLPの基盤である。 2)感情は事象によって引き起こされるものであり,NLPモデルに心理的評価理論を組み込んで事象を解釈する方法が研究によって明らかにされている。 これら2つの研究方向、すなわちロールラベリングと(イベント中心の)感情分類は、個別に取り組まれている。 我々は,SEAT (Structured Multi-Domain Emotion Analysis from Text) とCEAT (Computational Event Evaluation based on Appraisal Theories for Emotion Analysis) をドイツ研究財団から出資した。 本稿では,研究結果を整理し,オープンな研究の方向性について議論する。

The term emotion analysis in text subsumes various natural language processing tasks which have in common the goal to enable computers to understand emotions. Most popular is emotion classification in which one or multiple emotions are assigned to a predefined textual unit. While such setting is appropriate to identify the reader's or author's emotion, emotion role labeling adds the perspective of mentioned entities and extracts text spans that correspond to the emotion cause. The underlying emotion theories agree on one important point; that an emotion is caused by some internal or external event and comprises several subcomponents, including the subjective feeling and a cognitive evaluation. We therefore argue that emotions and events are related in two ways. (1) Emotions are events; and this perspective is the fundament in NLP for emotion role labeling. (2) Emotions are caused by events; a perspective that is made explicit with research how to incorporate psychological appraisal theories in NLP models to interpret events. These two research directions, role labeling and (event-focused) emotion classification, have by and large been tackled separately. We contributed to both directions with the projects SEAT (Structured Multi-Domain Emotion Analysis from Text) and CEAT (Computational Event Evaluation based on Appraisal Theories for Emotion Analysis), both funded by the German Research Foundation. In this paper, we consolidate the findings and discuss open research directions.
翻訳日:2023-10-06 21:29:56 公開日:2023-10-05
# ラムダの自己浄化と絡み合いの復活

Self-Purification and Entanglement Revival in Lambda Matter ( http://arxiv.org/abs/2309.01054v2 )

ライセンス: Link先を確認
Dongni Chen, Stefano Chesi, Mahn-Soo Choi(参考訳) 本研究では,シングルモードボソンと相互作用するラムダ型階層構造を持つ3レベルシステム群における絡み合いのダイナミクスについて検討する。 本研究は、完全対称波動関数の部分空間内のゼロエネルギー状態に焦点を当てる。 驚くべきことに, 興味をそそる再現行動を伴う絡み合いの普遍的な二段階ダイナミクスを観察した。 絡み合いの復活は、量子状態が緩和され、システム内の特別な暗黒状態に普遍的に収束する自己純化過程の結果である。

In this study, we explore the dynamics of entanglement in an ensemble of three-level systems with a lambda-type level structure interacting with single-mode bosons. Our investigation focuses on zero-energy states within the subspace of totally symmetric wave functions. Remarkably, we observe a universal two-stage dynamics of entanglement with intriguing revival behavior. The revival of entanglement is a consequence of the self-purification process, where the quantum state relaxes and converges universally to a special dark state within the system.
翻訳日:2023-10-06 21:28:42 公開日:2023-10-05
# AnglE最適化テキスト埋め込み

AnglE-optimized Text Embeddings ( http://arxiv.org/abs/2309.12871v2 )

ライセンス: Link先を確認
Xianming Li, Jing Li(参考訳) 高品質なテキスト埋め込みは、Large Language Model (LLM) アプリケーションにおいて重要なコンポーネントであるセマンティックテキスト類似性(STS)タスクの改善に重要である。 しかし、既存のテキスト埋め込みモデルが直面する共通の課題は、主に飽和ゾーンを持つ最適化目的におけるコサイン関数に依存することによる勾配の消失の問題である。 本稿では,AnglEと呼ばれる新しい角度最適化テキスト埋め込みモデルを提案する。 AnglEの中核となる考え方は、複素空間に角度最適化を導入することである。 この手法は、勾配を阻害し最適化を妨げうるコサイン関数における飽和域の悪影響を効果的に軽減する。 包括的なSTS評価を設定するために、既存の短文STSデータセットとGitHub Issuesから新たに収集された長文STSデータセットを試した。 さらに、ラベル付きデータに制限のあるドメイン固有のstsシナリオを検討し、アングルがllmアノテートデータとどのように連携するかを検討する。 短文STS、長文STS、ドメイン固有のSTSタスクなど、さまざまなタスクで大規模な実験が行われた。 その結果、AnglEはコサイン飽和ゾーンを無視したSOTA(State-of-the-art STS)モデルよりも優れていた。 これらの結果は、AnglEが高品質なテキスト埋め込みを生成する能力と、STSにおける角度最適化の有用性を示している。

High-quality text embedding is pivotal in improving semantic textual similarity (STS) tasks, which are crucial components in Large Language Model (LLM) applications. However, a common challenge existing text embedding models face is the problem of vanishing gradients, primarily due to their reliance on the cosine function in the optimization objective, which has saturation zones. To address this issue, this paper proposes a novel angle-optimized text embedding model called AnglE. The core idea of AnglE is to introduce angle optimization in a complex space. This novel approach effectively mitigates the adverse effects of the saturation zone in the cosine function, which can impede gradient and hinder optimization processes. To set up a comprehensive STS evaluation, we experimented on existing short-text STS datasets and a newly collected long-text STS dataset from GitHub Issues. Furthermore, we examine domain-specific STS scenarios with limited labeled data and explore how AnglE works with LLM-annotated data. Extensive experiments were conducted on various tasks including short-text STS, long-text STS, and domain-specific STS tasks. The results show that AnglE outperforms the state-of-the-art (SOTA) STS models that ignore the cosine saturation zone. These findings demonstrate the ability of AnglE to generate high-quality text embeddings and the usefulness of angle optimization in STS.
翻訳日:2023-10-06 21:21:58 公開日:2023-10-05
# シャープネス認識の最小化と安定性の限界

Sharpness-Aware Minimization and the Edge of Stability ( http://arxiv.org/abs/2309.12488v3 )

ライセンス: Link先を確認
Philip M. Long and Peter L. Bartlett(参考訳) 最近の実験では、ステップサイズ$\eta$の勾配降下(gd)を持つニューラルネットワークを訓練する場合、損失のヘッセンの演算子ノルムはおよそ2/\eta$に達するまで増加することが示されている。 2/\eta$の量は、損失の局所二次近似を考慮して「安定性の最先端」と呼ばれる。 我々は,GD の変種である SAM (Sharpness-Aware Minimization) の「安定性の端」に到達するための同様の計算を行う。 GDの場合とは異なり、結果のSAM-辺は勾配のノルムに依存する。 3つのディープラーニングトレーニングタスクを用いて、SAMは、この分析によって同定された安定性の端で動作していることを実証的に確認する。

Recent experiments have shown that, often, when training a neural network with gradient descent (GD) with a step size $\eta$, the operator norm of the Hessian of the loss grows until it approximately reaches $2/\eta$, after which it fluctuates around this value. The quantity $2/\eta$ has been called the "edge of stability" based on consideration of a local quadratic approximation of the loss. We perform a similar calculation to arrive at an "edge of stability" for Sharpness-Aware Minimization (SAM), a variant of GD which has been shown to improve its generalization. Unlike the case for GD, the resulting SAM-edge depends on the norm of the gradient. Using three deep learning training tasks, we see empirically that SAM operates on the edge of stability identified by this analysis.
翻訳日:2023-10-06 21:21:35 公開日:2023-10-05
# デジタル社会における子どもの安全 -権利と研究倫理のアプローチ-

Security for Children in the Digital Society -- A Rights-based and Research Ethics Approach ( http://arxiv.org/abs/2309.12340v2 )

ライセンス: Link先を確認
Laura Schelenz, Ingrid Stapf, Jessica Heesen(参考訳) 本稿では,デジタルワールドにおける子どもの安全に関するプロジェクト「SIKID-Security for Children in the Digital World」の初歩的な視点と研究成果について述べる。 このプロジェクトは、人工知能の開発のためのヨーロッパのフレームワークと、アルゴリズムによるオンラインコミュニケーションの過程で生じるセキュリティリスクから子どもを守ることに焦点を当てた、ドイツの状況にある。 このプロジェクトは、関連する利害関係者のネットワークを強化し、規制措置を探求し、政策立案者に通知し、子どもの安全問題に対する子どもの権利アプローチをオンラインで開発するとともに、児童に対するサイバーグルームや性的暴力などのオンライン被害について子供と研究を行うための研究倫理的アプローチを開発する。

In this position paper, we present initial perspectives and research results from the project "SIKID - Security for Children in the Digital World." The project is situated in a German context with a focus on European frameworks for the development of Artificial Intelligence and the protection of children from security risks arising in the course of algorithm-mediated online communication. The project strengthens networks of relevant stakeholders, explores regulatory measures and informs policy makers, and develops a children's rights approach to questions of security for children online while also developing a research ethics approach for conducting research with children on online harms such as cybergrooming and sexual violence against children.
翻訳日:2023-10-06 21:21:20 公開日:2023-10-05
# AIシステムにおける自然言語理解のための評価フレームワークの再考:未来のメトリクスのコアとしての言語獲得

Rethinking the Evaluating Framework for Natural Language Understanding in AI Systems: Language Acquisition as a Core for Future Metrics ( http://arxiv.org/abs/2309.11981v3 )

ライセンス: Link先を確認
Patricio Vera, Pedro Moya and Lisa Barraza(参考訳) 人工知能(AI)の急成長分野において、自然言語処理(NLP)における大型言語モデル(LLM)の先例のない進歩は、フォームとコンテンツの両方において、従来の機械学習のメトリクスのアプローチ全体を再考する機会を提供する。 機械認知評価の領域はすでにImitationに達しており、次のステップは効率的な言語習得と理解である。 本稿では,LLMの最近の進歩から着想を得て,既存のチューリングテストから言語習得を基盤とした全包含フレームワークへのパラダイムシフトを提案する。 現在の貢献は、様々な分野の優れた成果の深い支流であり、学際的な橋を開いている必要性を指摘し、より堅牢で持続可能なアプローチを定めている。

In the burgeoning field of artificial intelligence (AI), the unprecedented progress of large language models (LLMs) in natural language processing (NLP) offers an opportunity to revisit the entire approach of traditional metrics of machine intelligence, both in form and content. As the realm of machine cognitive evaluation has already reached Imitation, the next step is an efficient Language Acquisition and Understanding. Our paper proposes a paradigm shift from the established Turing Test towards an all-embracing framework that hinges on language acquisition, taking inspiration from the recent advancements in LLMs. The present contribution is deeply tributary of the excellent work from various disciplines, point out the need to keep interdisciplinary bridges open, and delineates a more robust and sustainable approach.
翻訳日:2023-10-06 21:21:07 公開日:2023-10-05
# PIE:進行画像編集による疾患進行のシミュレーション

PIE: Simulating Disease Progression via Progressive Image Editing ( http://arxiv.org/abs/2309.11745v2 )

ライセンス: Link先を確認
Kaizhao Liang, Xu Cao, Kuei-Da Liao, Tianren Gao, Wenqian Ye, Zhengyu Chen, Jianguo Cao, Tejas Nama, Jimeng Sun(参考訳) 疾患進行シミュレーションは、臨床診断、予後、治療に重要な意味を持つ研究の重要な領域である。 この分野での大きな課題は、個々の患者の連続的な医療画像モニタリングの欠如である。 そこで本研究では, 疾患関連画像の操作を制御し, 高精度かつ現実的な疾患進行シミュレーションを実現する, プログレッシブ画像編集 (pie) と呼ばれる新しい枠組みを開発した。 具体的には,テキストから画像への生成モデルの最近の進歩を利用して,疾患の進行を正確にシミュレーションし,患者ごとにパーソナライズする。 我々は,指数関数的に減衰した学習率の勾配降下として,フレームワークの反復精製過程を理論的に解析する。 この枠組みを検証するため、3つの医用画像領域で実験を行った。 以上の結果から,CLIPスコア(リアリズム)と病因分類信頼度(アライメント)に基づく安定拡散歩行法やスタイルベースマニフォールド外挿法などの既存手法よりもPIEの方が優れていることが示された。 以上の結果から,35名の老年医からのフィードバックを得た。 驚くべきことに、フィードバックの76.2%は、生成した進歩の忠実さに同意している。 われわれの知る限り、pieは現実世界の標準を満たした病気の進行画像を生成する最初の製品だ。 医療研究と臨床実践のための有望なツールであり、医療提供者が時間をかけて疾患の軌跡をモデル化し、将来の治療反応を予測し、患者の結果を改善できる可能性がある。

Disease progression simulation is a crucial area of research that has significant implications for clinical diagnosis, prognosis, and treatment. One major challenge in this field is the lack of continuous medical imaging monitoring of individual patients over time. To address this issue, we develop a novel framework termed Progressive Image Editing (PIE) that enables controlled manipulation of disease-related image features, facilitating precise and realistic disease progression simulation. Specifically, we leverage recent advancements in text-to-image generative models to simulate disease progression accurately and personalize it for each patient. We theoretically analyze the iterative refining process in our framework as a gradient descent with an exponentially decayed learning rate. To validate our framework, we conduct experiments in three medical imaging domains. Our results demonstrate the superiority of PIE over existing methods such as Stable Diffusion Walk and Style-Based Manifold Extrapolation based on CLIP score (Realism) and Disease Classification Confidence (Alignment). Our user study collected feedback from 35 veteran physicians to assess the generated progressions. Remarkably, 76.2% of the feedback agrees with the fidelity of the generated progressions. To our best knowledge, PIE is the first of its kind to generate disease progression images meeting real-world standards. It is a promising tool for medical research and clinical practice, potentially allowing healthcare providers to model disease trajectories over time, predict future treatment responses, and improve patient outcomes.
翻訳日:2023-10-06 21:20:52 公開日:2023-10-05
# クロス共振駆動による3ビットパリティゲート

Three-qubit Parity Gate via Simultaneous Cross Resonance Drives ( http://arxiv.org/abs/2309.11287v2 )

ライセンス: Link先を確認
Toshinari Itoko, Moein Malekakhlagh, Naoki Kanazawa, and Maika Takita(参考訳) ネイティブマルチキュービットパリティゲートは、量子誤り訂正における絡み合い生成、論理状態符号化、パリティ測定など、様々な潜在的な量子コンピューティング応用を持つ。 ここでは、共通目標を持つ2つの制御量子ビット上の同時共振駆動を用いて、3量子パリティゲートの効率的な実装を示す。 我々は,エコー型相互共振ゲートを用いたキャリブレーション手法を開発した。 我々は2つの連続CNOTゲートを持つ単純実装よりも、同時駆動を使用することで、インターリーブされたランダム化ベンチマーク忠実度が高くなることを確認した。 また,我々の同時パリティゲートは,全マイクロウェーブ制御を持つ7つの超伝導量子ビットを用いて,ibm量子プロセッサ上のヘキサゴンコードのパリティ測定誤差を著しく改善できることを実証した。

Native multi-qubit parity gates have various potential quantum computing applications, such as entanglement creation, logical state encoding and parity measurement in quantum error correction. Here, using simultaneous cross-resonance drives on two control qubits with a common target, we demonstrate an efficient implementation of a three-qubit parity gate. We have developed a calibration procedure based on the one for the echoed cross-resonance gate. We confirm that our use of simultaneous drives leads to higher interleaved randomized benchmarking fidelities than a naive implementation with two consecutive CNOT gates. We also demonstrate that our simultaneous parity gates can significantly improve the parity measurement error probability for the heavy-hexagon code on an IBM Quantum processor using seven superconducting qubits with all-microwave control.
翻訳日:2023-10-06 21:20:25 公開日:2023-10-05
# 量子忠実性の簡易表現法

A Simplified Expression for Quantum Fidelity ( http://arxiv.org/abs/2309.10565v3 )

ライセンス: Link先を確認
Adrian M\"uller(参考訳) 量子忠実度は混合量子状態間の類似性の最も重要な尺度の1つである。 しかし、通常の定式化は面倒で、初めて遭遇したときは理解しにくい。 この研究は、表現がより簡潔であるだけでなく、対称性の性質もより明確になるような形式に書き換えられるという、新しいエレガントな証明で示している。 さらに、より単純な表現は、完全な分解を避けることによって、以前の最良の方法よりも計算効率が高いことが示される定式化をもたらす。 将来の研究は、他の定理が影響を受ける方法を探したり、忠実性が計算のボトルネックである再構成を利用するかもしれない。

Quantum fidelity is one of the most important measures of similarity between mixed quantum states. However, the usual formulation is cumbersome and hard to understand when encountering the first time. This work shows in a novel, elegant proof that the expression can be rewritten into a form, which is not only more concise but also makes its symmetry property more obvious. Further, the simpler expression gives rise to a formulation that is subsequently shown to be more computationally efficient than the best previous methods by avoiding any full decomposition. Future work might look for ways in which other theorems could be affected or utilize the reformulation where fidelity is the computational bottleneck.
翻訳日:2023-10-06 21:20:14 公開日:2023-10-05
# 部分特定因果シミュレーション

Partially Specified Causal Simulations ( http://arxiv.org/abs/2309.10514v2 )

ライセンス: Link先を確認
A. Zamanian, L. Mareis, N. Ahmidi(参考訳) シミュレーション研究は因果推論手法の検証において重要な役割を果たす。 シミュレーションの結果は,試験の実施条件に応じて設計した場合にのみ信頼性が高い。 それでも、多くの因果推論文献は、過度に制限された、あるいは不特定の研究を設計する傾向がある。 本稿では,因果法に対する不適切なシミュレーション設計の問題点を詳述し,効果的なシミュレーションフレームワークのためのデシデラタの一覧をコンパイルする。 次に,それらのデシデラタに対応するシミュレーションフレームワークである部分ランダム因果シミュレーション(parcs)を導入する。 PARCSはグラフィカル因果モデルと幅広い調整可能なパラメータに基づいてデータを合成する。 通常の因果的仮定からパラメータへの正当なマッピングがあるので、ユーザーは関連するパラメータのサブセットを識別および指定し、残りのパラメータをランダム化することで、因果的メソッドのためのデータ生成プロセスの範囲を作成できる。 その結果は、因果的主張に対するより包括的で包括的な実証的調査となる。 PARCSを用いて、2つのよく知られた因果発見と欠落データ解析論文のシミュレーション研究を再現・拡張し、適切なシミュレーション設計の必要性を強調する。 その結果,PARCSをシミュレーションに用いた場合,これらの論文は結果を改善し,拡張したと考えられる。 フレームワークもpythonパッケージとして実装されている。 PARCSの包括性と透明性について論じることで、因果推論研究者に今後の研究の標準ツールとして活用することを奨励する。

Simulation studies play a key role in the validation of causal inference methods. The simulation results are reliable only if the study is designed according to the promised operational conditions of the method-in-test. Still, many causal inference literature tend to design over-restricted or misspecified studies. In this paper, we elaborate on the problem of improper simulation design for causal methods and compile a list of desiderata for an effective simulation framework. We then introduce partially randomized causal simulation (PARCS), a simulation framework that meets those desiderata. PARCS synthesizes data based on graphical causal models and a wide range of adjustable parameters. There is a legible mapping from usual causal assumptions to the parameters, thus, users can identify and specify the subset of related parameters and randomize the remaining ones to generate a range of complying data-generating processes for their causal method. The result is a more comprehensive and inclusive empirical investigation for causal claims. Using PARCS, we reproduce and extend the simulation studies of two well-known causal discovery and missing data analysis papers to emphasize the necessity of a proper simulation design. Our results show that those papers would have improved and extended the findings, had they used PARCS for simulation. The framework is implemented as a Python package, too. By discussing the comprehensiveness and transparency of PARCS, we encourage causal inference researchers to utilize it as a standard tool for future works.
翻訳日:2023-10-06 21:20:03 公開日:2023-10-05
# mechanic maker 2.0: 生成ルール評価のための強化学習

Mechanic Maker 2.0: Reinforcement Learning for Evaluating Generated Rules ( http://arxiv.org/abs/2309.09476v3 )

ライセンス: Link先を確認
Johor Jara Gonzalez, Seth Cooper, Matthew Guzdial(参考訳) ゲームの自動生成に関する研究であるautomated game design(agd)は、技術ゲーム研究において長い歴史を持つ。 agdアプローチは一般に、客観的機能またはaiエージェントの人間の遊びの近似に依存する。 それにもかかわらず、これらの近似値は静的であり、ゲームにおける人間の学習能力や改善能力を反映していない。 本稿では,ルール生成のための人間遊びの近似器として強化学習(RL)の適用について検討する。 従来のAGD環境であるMechanic Maker in Unityを,新たなオープンソースルール生成フレームワークとして再現する。 以上の結果から,RLはA*エージェントのベースラインから異なるルールセットを生成することが明らかとなった。

Automated game design (AGD), the study of automatically generating game rules, has a long history in technical games research. AGD approaches generally rely on approximations of human play, either objective functions or AI agents. Despite this, the majority of these approximators are static, meaning they do not reflect human player's ability to learn and improve in a game. In this paper, we investigate the application of Reinforcement Learning (RL) as an approximator for human play for rule generation. We recreate the classic AGD environment Mechanic Maker in Unity as a new, open-source rule generation framework. Our results demonstrate that RL produces distinct sets of rules from an A* agent baseline, which may be more usable by humans.
翻訳日:2023-10-06 21:19:41 公開日:2023-10-05
# インシシットポイントグラフネットワークによる肺木構造の効率的な解剖学的ラベリング

Efficient Anatomical Labeling of Pulmonary Tree Structures via Implicit Point-Graph Networks ( http://arxiv.org/abs/2309.17329v2 )

ライセンス: Link先を確認
Kangxian Xie, Jiancheng Yang, Donglai Wei, Ziqiao Weng, Pascal Fua(参考訳) 肺疾患は世界中で死の主な原因となっている。 それらの治療には、気道、動脈、静脈など、肺系の複雑な3d木のような構造をよりよく理解する必要がある。 理論上は、高解像度のイメージスタックを使ってモデル化することができる。 残念ながら、高密度のボクセルグリッドで動作する標準CNNアプローチは、違法に高価である。 そこで本研究では,木骨格のグラフ接続を保ち,暗黙的表面表現を組み込んだポイントベースアプローチを提案する。 SOTAの精度を低い計算コストで提供し、結果として得られるモデルは使用可能な表面を持つ。 公開アクセス可能なデータが不足しているため、我々のアプローチを評価するために広範なデータセットをキュレートし、公開する予定です。

Pulmonary diseases rank prominently among the principal causes of death worldwide. Curing them will require, among other things, a better understanding of the many complex 3D tree-shaped structures within the pulmonary system, such as airways, arteries, and veins. In theory, they can be modeled using high-resolution image stacks. Unfortunately, standard CNN approaches operating on dense voxel grids are prohibitively expensive. To remedy this, we introduce a point-based approach that preserves graph connectivity of tree skeleton and incorporates an implicit surface representation. It delivers SOTA accuracy at a low computational cost and the resulting models have usable surfaces. Due to the scarcity of publicly accessible data, we have also curated an extensive dataset to evaluate our approach and will make it public.
翻訳日:2023-10-06 21:11:49 公開日:2023-10-05
# DyVal: 大規模言語モデルのグラフインフォームド動的評価

DyVal: Graph-informed Dynamic Evaluation of Large Language Models ( http://arxiv.org/abs/2309.17167v2 )

ライセンス: Link先を確認
Kaijie Zhu, Jiaao Chen, Jindong Wang, Neil Zhenqiang Gong, Diyi Yang, Xing Xie(参考訳) 大規模言語モデル (LLM) は様々な評価ベンチマークで顕著な性能を達成した。 しかし、その性能に関する懸念は、膨大な量のトレーニングコーパスにおける潜在的なデータ汚染に起因している。 さらに、現在のベンチマークの静的な性質と固定された複雑さは、LLMの進行能力を不適切に評価することができる。 本稿では,LLMの動的評価のための新しい,汎用的で柔軟な評価プロトコルであるDyValを紹介する。 提案する動的評価フレームワークに基づき,有向非巡回グラフの構造的利点を利用して,制御可能な複雑度を有する評価サンプルを動的に生成する。 DyValは、数学、論理的推論、アルゴリズム問題を含む推論タスクに関する挑戦的な評価セットを生成する。 Flan-T5-large から ChatGPT , GPT4 まで様々な LLM の評価を行った。 実験により, 複雑度が異なるDyVal生成評価試料では, LLMが悪化し, 動的評価の重要性が強調された。 また,異なるプロンプト手法の故障事例と結果についても分析した。 さらに、DyValの生成したサンプルは評価セットだけではなく、既存のベンチマーク上でのLCMの性能向上のための微調整に役立つデータでもある。 我々はDyValが将来のLCMの評価研究に光を当てられることを願っている。

Large language models (LLMs) have achieved remarkable performance in various evaluation benchmarks. However, concerns about their performance are raised on potential data contamination in their considerable volume of training corpus. Moreover, the static nature and fixed complexity of current benchmarks may inadequately gauge the advancing capabilities of LLMs. In this paper, we introduce DyVal, a novel, general, and flexible evaluation protocol for dynamic evaluation of LLMs. Based on our proposed dynamic evaluation framework, we build graph-informed DyVal by leveraging the structural advantage of directed acyclic graphs to dynamically generate evaluation samples with controllable complexities. DyVal generates challenging evaluation sets on reasoning tasks including mathematics, logical reasoning, and algorithm problems. We evaluate various LLMs ranging from Flan-T5-large to ChatGPT and GPT4. Experiments demonstrate that LLMs perform worse in DyVal-generated evaluation samples with different complexities, emphasizing the significance of dynamic evaluation. We also analyze the failure cases and results of different prompting methods. Moreover, DyVal-generated samples are not only evaluation sets, but also helpful data for fine-tuning to improve the performance of LLMs on existing benchmarks. We hope that DyVal can shed light on the future evaluation research of LLMs.
翻訳日:2023-10-06 21:11:37 公開日:2023-10-05
# 質的分析に大規模言語モデルを使うことは深刻なバイアスをもたらす

Using Large Language Models for Qualitative Analysis can Introduce Serious Bias ( http://arxiv.org/abs/2309.17147v2 )

ライセンス: Link先を確認
Julian Ashwin, Aditya Chhabra and Vijayendra Rao(参考訳) 大規模言語モデル(llm)は急速に普及しているが、社会科学研究の意義はまだよく分かっていない。 本稿では, バングラデシュのコックス・バザールにおけるロヒンギャ難民へのインタビューの書き起こしを応用して, オープンエンドインタビューから大規模Nの質的データを分析できるかどうかを問う。 LLMを使ってテキストに注釈を付けるには、誤解を招く可能性のあるバイアスを導入するリスクがあるため、非常に注意が必要である。 ここでは,LLMが注釈付インタビューの書き起こしで犯す誤りが,インタビュー対象の特性に関してランダムではない,という技術的意味の偏りを述べる。 フレキシブルコーディングによる高品質なヒューマンアノテーションの教師付きモデルのトレーニングは、LLMアノテーションよりも測定エラーやバイアスが少なくなる。 したがって、LLMがバイアスを生じさせるかどうかを評価するためには、いくつかの高品質なアノテーションが必要であることを考慮し、アノテーションにLLMを使用するよりも、これらのアノテーションでbespokeモデルをトレーニングすることが望ましいと論じる。

Large Language Models (LLMs) are quickly becoming ubiquitous, but the implications for social science research are not yet well understood. This paper asks whether LLMs can help us analyse large-N qualitative data from open-ended interviews, with an application to transcripts of interviews with Rohingya refugees in Cox's Bazaar, Bangladesh. We find that a great deal of caution is needed in using LLMs to annotate text as there is a risk of introducing biases that can lead to misleading inferences. We here mean bias in the technical sense, that the errors that LLMs make in annotating interview transcripts are not random with respect to the characteristics of the interview subjects. Training simpler supervised models on high-quality human annotations with flexible coding leads to less measurement error and bias than LLM annotations. Therefore, given that some high quality annotations are necessary in order to asses whether an LLM introduces bias, we argue that it is probably preferable to train a bespoke model on these annotations than it is to use an LLM for annotation.
翻訳日:2023-10-06 21:11:20 公開日:2023-10-05
# 脳構造Functional Deep Fusing Networkによるアルツハイマー病の予測

Alzheimer's Disease Prediction via Brain Structural-Functional Deep Fusing Network ( http://arxiv.org/abs/2309.16206v2 )

ライセンス: Link先を確認
Qiankun Zuo, Junren Pan, and Shuqiang Wang(参考訳) 脳の構造機能画像の融合は、アルツハイマー病(AD)の悪化を分析する大きな可能性を示している。 しかし,マルチモーダル画像からの相関情報と補完情報を効果的に融合させることは大きな課題である。 本稿では,機能的磁気共鳴画像(fMRI)や拡散テンソル画像(DTI)に含まれる機能的・構造的情報を効果的に融合させるため,CT-GANと呼ばれる新しいモデルを提案する。 CT-GANは、位相的特徴を学習し、効率的なエンドツーエンドでマルチモーダルイメージングデータからマルチモーダル接続を生成する。 さらに、スワッピングバイアテンション機構は、共通の特徴を徐々に整列させ、モダリティ間の相補的特徴を効果的に強化するように設計されている。 生成した接続特性を解析することにより,AD関連脳接続を同定することができる。 パブリックADNIデータセットの評価から,提案したCT-GANは予測性能を劇的に向上し,AD関連脳領域を効果的に検出できることが示された。 提案モデルはまた、AD関連異常神経回路を検出するための新たな洞察を提供する。

Fusing structural-functional images of the brain has shown great potential to analyze the deterioration of Alzheimer's disease (AD). However, it is a big challenge to effectively fuse the correlated and complementary information from multimodal neuroimages. In this paper, a novel model termed cross-modal transformer generative adversarial network (CT-GAN) is proposed to effectively fuse the functional and structural information contained in functional magnetic resonance imaging (fMRI) and diffusion tensor imaging (DTI). The CT-GAN can learn topological features and generate multimodal connectivity from multimodal imaging data in an efficient end-to-end manner. Moreover, the swapping bi-attention mechanism is designed to gradually align common features and effectively enhance the complementary features between modalities. By analyzing the generated connectivity features, the proposed model can identify AD-related brain connections. Evaluations on the public ADNI dataset show that the proposed CT-GAN can dramatically improve prediction performance and detect AD-related brain regions effectively. The proposed model also provides new insights for detecting AD-related abnormal neural circuits.
翻訳日:2023-10-06 21:11:00 公開日:2023-10-05
# 科学シミュレーションと設計を加速するニューラル演算子

Neural Operators for Accelerating Scientific Simulations and Design ( http://arxiv.org/abs/2309.15325v2 )

ライセンス: Link先を確認
Kamyar Azzizadenesheli, Nikola Kovachki, Zongyi Li, Miguel Liu-Schiaffini, Jean Kossaifi, Anima Anandkumar(参考訳) 科学的発見と工学的設計は、物理実験の時間とコストによって制限されており、主にドメインの深い専門知識を必要とする試行錯誤と直観によって選択されている。 数値シミュレーションは物理実験に代わるものであるが、既存の数値手法の計算要件のため、通常複雑な実世界領域では実現不可能である。 人工知能(AI)は、高速なデータ駆動サロゲートモデルを開発することによって、潜在的なパラダイムシフトを示す。 特に、ニューラル演算子として知られるAIフレームワークは、例えば時空間過程や偏微分方程式(PDE)など、連続領域上で定義された関数間の写像を学習するための原則化されたフレームワークを提供する。 トレーニング中に見つからない新しい場所で、すなわちゼロショット超解像を行うソリューションを外挿し、予測することができる。 ニューラル演算子は、計算流体力学、天気予報、物質モデリングなど、多くのアプリケーションで既存のシミュレータを拡張または置き換えることができるが、4-5桁高速である。 さらに、神経演算子は、より細かい解像度で強制される物理学やその他の領域の制約と統合でき、高忠実性ソリューションと良好な一般化を得ることができる。 ニューラル演算子は微分可能であるため、逆設計や他の逆問題に対するパラメータを直接最適化することができる。 ニューラルオペレーターは、シミュレーションと設計に対する変革的なアプローチを示し、迅速な研究と開発を可能にしていると信じている。

Scientific discovery and engineering design are currently limited by the time and cost of physical experiments, selected mostly through trial-and-error and intuition that require deep domain expertise. Numerical simulations present an alternative to physical experiments but are usually infeasible for complex real-world domains due to the computational requirements of existing numerical methods. Artificial intelligence (AI) presents a potential paradigm shift by developing fast data-driven surrogate models. In particular, an AI framework, known as neural operators, presents a principled framework for learning mappings between functions defined on continuous domains, e.g., spatiotemporal processes and partial differential equations (PDE). They can extrapolate and predict solutions at new locations unseen during training, i.e., perform zero-shot super-resolution. Neural operators can augment or even replace existing simulators in many applications, such as computational fluid dynamics, weather forecasting, and material modeling, while being 4-5 orders of magnitude faster. Further, neural operators can be integrated with physics and other domain constraints enforced at finer resolutions to obtain high-fidelity solutions and good generalization. Since neural operators are differentiable, they can directly optimize parameters for inverse design and other inverse problems. We believe that neural operators present a transformative approach to simulation and design, enabling rapid research and development.
翻訳日:2023-10-06 21:10:13 公開日:2023-10-05
# 潜在変数構造方程式モデルの最大確率推定:ニューラルネットワークによるアプローチ

Maximum Likelihood Estimation of Latent Variable Structural Equation Models: A Neural Network Approach ( http://arxiv.org/abs/2309.14073v2 )

ライセンス: Link先を確認
Mehrzad Saremi(参考訳) 線形性とガウス性仮定の下での限界化下で安定な構造方程式モデルのグラフィカル構造を提案する。 このモデルの最大確率推定の計算は、ニューラルネットワークのトレーニングと等価であることを示す。 これらのモデルの最大確率推定を計算するgpuベースのアルゴリズムを実装した。

We propose a graphical structure for structural equation models that is stable under marginalization under linearity and Gaussianity assumptions. We show that computing the maximum likelihood estimation of this model is equivalent to training a neural network. We implement a GPU-based algorithm that computes the maximum likelihood estimation of these models.
翻訳日:2023-10-06 21:09:03 公開日:2023-10-05
# 機械学習システムの認証のための形式的および実践的要素

Formal and Practical Elements for the Certification of Machine Learning Systems ( http://arxiv.org/abs/2310.03217v1 )

ライセンス: Link先を確認
Jean-Guillaume Durand, Arthur Dubois, Robert J. Moss(参考訳) 過去10年間、機械学習は目覚ましい結果を示し、しばしば自律飛行に関連するタスクを検知する人間の能力を上回ってきた。 従来の航空宇宙ソフトウェアとは異なり、機械学習モデルのパラメータは手書きコードや物理からではなく、データから学習される。 トレーニング期間中に自動的に調整され、その値は通常は物理的な要件に対応しない。 その結果、要件を直接コード行にトレースすることはできず、現在のボトムアップの航空宇宙認証パラダイムを妨げることになる。 本稿では,このギャップに対処しようと試みる。 1)機械学習モデルを構築するための内部作業やプロセスのデミステレーション。 2)これらの過程によって与えられる理論的保証を正式に確立すること,及び 3)これらの形式的要素を実践的な考察で補完し,安全クリティカルな機械学習システムに対する完全な認証引数を開発する。 スケーラブルな統計的検証に基づいて,提案するフレームワークはモデルに依存しないツールに依存しないため,業界内の多くのユースケースに適応できる。 我々は、自律飛行における広範囲な応用、すなわち視覚ベースの着陸の結果を実証する。

Over the past decade, machine learning has demonstrated impressive results, often surpassing human capabilities in sensing tasks relevant to autonomous flight. Unlike traditional aerospace software, the parameters of machine learning models are not hand-coded nor derived from physics but learned from data. They are automatically adjusted during a training phase, and their values do not usually correspond to physical requirements. As a result, requirements cannot be directly traced to lines of code, hindering the current bottom-up aerospace certification paradigm. This paper attempts to address this gap by 1) demystifying the inner workings and processes to build machine learning models, 2) formally establishing theoretical guarantees given by those processes, and 3) complementing these formal elements with practical considerations to develop a complete certification argument for safety-critical machine learning systems. Based on a scalable statistical verifier, our proposed framework is model-agnostic and tool-independent, making it adaptable to many use cases in the industry. We demonstrate results on a widespread application in autonomous flight: vision-based landing.
翻訳日:2023-10-06 20:03:28 公開日:2023-10-05
# FreshLLMs: 検索エンジン拡張による大規模言語モデルのリフレッシュ

FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation ( http://arxiv.org/abs/2310.03214v1 )

ライセンス: Link先を確認
Tu Vu, Mohit Iyyer, Xuezhi Wang, Noah Constant, Jerry Wei, Jason Wei, Chris Tar, Yun-Hsuan Sung, Denny Zhou, Quoc Le, Thang Luong(参考訳) ほとんどの大規模言語モデル(llm)は一度だけトレーニングされ、決して更新されない。 本研究では,現在の世界の知識をテストする質問に答える文脈において,llm生成テキストの事実性に関する詳細な研究を行う。 具体的には、世界知識の急激な変化を必要とする質問や、説明が必要な虚偽の前提に関する質問を含む、多様な質問と回答のタイプを含む、新しい動的QAベンチマークであるFreshQAを紹介する。 我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚を計測する。 例えば、すべてのモデル(モデルサイズに関係なく)は、迅速な知識の交換と誤った前提に関する問題に苦労しています。 これらの結果に感銘を受けたFreshPromptは,検索エンジンから取得した関連情報と最新情報をプロンプトに組み込むことで,FreshQA上のLLMの性能を大幅に向上させる,シンプルな数発プロンプト方式である。 実験の結果,Self-Ask(Press et al., 2022)やPerplexity.AI(Perplexity.AI)など,競合する検索エンジンによるプロンプト手法よりも優れていることがわかった。 FreshPromptのさらなる分析により、抽出された証拠の数とそれらの順序の両方が、LCM生成された回答の正しさに影響を与える重要な役割を果たすことが明らかになった。 加えて、LLMに簡潔で直接的な回答を生成するように指示することは、より冗長な回答を奨励するよりも幻覚を減らすのに役立つ。 今後の作業を容易にするため、github.com/freshllms/freshqaでFreshQAをリリースし、定期的に更新します。

Most large language models (LLMs) are trained once and never updated; thus, they lack the ability to dynamically adapt to our ever-changing world. In this work, we perform a detailed study of the factuality of LLM-generated text in the context of answering questions that test current world knowledge. Specifically, we introduce FreshQA, a novel dynamic QA benchmark encompassing a diverse range of question and answer types, including questions that require fast-changing world knowledge as well as questions with false premises that need to be debunked. We benchmark a diverse array of both closed and open-source LLMs under a two-mode evaluation procedure that allows us to measure both correctness and hallucination. Through human evaluations involving more than 50K judgments, we shed light on limitations of these models and demonstrate significant room for improvement: for instance, all models (regardless of model size) struggle on questions that involve fast-changing knowledge and false premises. Motivated by these results, we present FreshPrompt, a simple few-shot prompting method that substantially boosts the performance of an LLM on FreshQA by incorporating relevant and up-to-date information retrieved from a search engine into the prompt. Our experiments show that FreshPrompt outperforms both competing search engine-augmented prompting methods such as Self-Ask (Press et al., 2022) as well as commercial systems such as Perplexity.AI. Further analysis of FreshPrompt reveals that both the number of retrieved evidences and their order play a key role in influencing the correctness of LLM-generated answers. Additionally, instructing the LLM to generate concise and direct answers helps reduce hallucination compared to encouraging more verbose answers. To facilitate future work, we release FreshQA at github.com/freshllms/freshqa and commit to updating it at regular intervals.
翻訳日:2023-10-06 20:03:12 公開日:2023-10-05
# 大規模言語モデルは良いパスプランナーになれるか? 時空間推論のベンチマークと検討

Can Large Language Models be Good Path Planners? A Benchmark and Investigation on Spatial-temporal Reasoning ( http://arxiv.org/abs/2310.03249v1 )

ライセンス: Link先を確認
Mohamed Aghzal, Erion Plaku, Ziyu Yao(参考訳) 大規模言語モデル(LLM)は幅広いタスクで顕著な成功を収めているが、長期的な計画や空間的推論を必要とするシナリオでは制限に直面している。 この一連の研究を容易にするため、本研究では、$\textbf{P}$ath $\textbf{P}$lanning from $\textbf{N}$atural $\textbf{L}$anguage$\textbf{PPNL}$lanningという新しいベンチマークを提案する。 本ベンチマークでは, LLMの目標地点への移動に必要な「経路計画」タスクを定式化し, 障害物を回避し, 制約を順守することにより, LLMの時空間推論を評価する。 本ベンチマークを応用し, GPT-4 や BART , T5 など,様々なサイズの LLM を微調整により系統的に検討した。 実験の結果, 長期の時間的推論には至っていないものの, 空間的推論におけるgpt-4の有望性が示唆された。 対照的に、微調整されたllmは分散推論タスクで素晴らしい結果を得たが、より障害のあるより大きな環境や環境への一般化に苦労した。

Large language models (LLMs) have achieved remarkable success across a wide spectrum of tasks; however, they still face limitations in scenarios that demand long-term planning and spatial reasoning. To facilitate this line of research, in this work, we propose a new benchmark, termed $\textbf{P}$ath $\textbf{P}$lanning from $\textbf{N}$atural $\textbf{L}$anguage ($\textbf{PPNL}$). Our benchmark evaluates LLMs' spatial-temporal reasoning by formulating ''path planning'' tasks that require an LLM to navigate to target locations while avoiding obstacles and adhering to constraints. Leveraging this benchmark, we systematically investigate LLMs including GPT-4 via different few-shot prompting methodologies and BART and T5 of various sizes via fine-tuning. Our experimental results show the promise of few-shot GPT-4 in spatial reasoning, when it is prompted to reason and act interleavedly, although it still fails to make long-term temporal reasoning. In contrast, while fine-tuned LLMs achieved impressive results on in-distribution reasoning tasks, they struggled to generalize to larger environments or environments with more obstacles.
翻訳日:2023-10-06 19:51:18 公開日:2023-10-05
# 時系列データのためのスパースディープラーニング:理論と応用

Sparse Deep Learning for Time Series Data: Theory and Applications ( http://arxiv.org/abs/2310.03243v1 )

ライセンス: Link先を確認
Mingxuan Zhang, Yan Sun, and Faming Liang(参考訳) スパースディープラーニングは、不確実性定量化、変数選択、大規模ネットワーク圧縮といった分野におけるディープニューラルネットワークの性能を向上させるための一般的な技術となっている。 しかしながら、既存のほとんどの研究は、観測が独立で同一に分散している問題(すなわち、d)に焦点を当てており、時系列データや自然言語処理におけるシーケンシャルデータなど、観測が依存している問題についてはほとんど研究されていない。 本稿では,従属データを用いたスパース深層学習の理論を研究することにより,このギャップを解消することを目的とする。 sparse recurrent neural network (rnn) を一貫して推定でき、その予測は適切な仮定の下で漸近的に分布し、予測の不確かさを正しく定量化できることを示した。 数値計算の結果,連続予測などの最先端手法よりも,時系列データに対する不確かさの予測に優れることがわかった。 さらに,提案手法は時系列データに対する自己回帰順序を一貫して同定し,大規模モデル圧縮において既存手法より優れていることを示す。 提案手法は,正確な点推定と予測の不確実性定量化の両方が懸念される金融,医療,エネルギーといった分野において重要な実践的意味を持つ。

Sparse deep learning has become a popular technique for improving the performance of deep neural networks in areas such as uncertainty quantification, variable selection, and large-scale network compression. However, most existing research has focused on problems where the observations are independent and identically distributed (i.i.d.), and there has been little work on the problems where the observations are dependent, such as time series data and sequential data in natural language processing. This paper aims to address this gap by studying the theory for sparse deep learning with dependent data. We show that sparse recurrent neural networks (RNNs) can be consistently estimated, and their predictions are asymptotically normally distributed under appropriate assumptions, enabling the prediction uncertainty to be correctly quantified. Our numerical results show that sparse deep learning outperforms state-of-the-art methods, such as conformal predictions, in prediction uncertainty quantification for time series data. Furthermore, our results indicate that the proposed method can consistently identify the autoregressive order for time series data and outperform existing methods in large-scale model compression. Our proposed method has important practical implications in fields such as finance, healthcare, and energy, where both accurate point estimates and prediction uncertainty quantification are of concern.
翻訳日:2023-10-06 19:50:50 公開日:2023-10-05
# リレーショナル畳み込みネットワーク:階層的関係の表現を学習するためのフレームワーク

Relational Convolutional Networks: A framework for learning representations of hierarchical relations ( http://arxiv.org/abs/2310.03240v1 )

ライセンス: Link先を確認
Awni Altabaa, John Lafferty(参考訳) ディープラーニングにおける成熟した研究領域は、関係的特徴の明示的な表現を学習できるアーキテクチャの開発である。 本稿では,階層的関係の表現を学習する問題に着目し,関係的畳み込みネットワーク(relational convolutional network)と呼ぶアーキテクチャフレームワークを提案する。 対象の列が与えられたとき、「多次元内積関係」加群はすべての対関係を記述する関係テンソルを生成する。 リレーショナル畳み込み」層はその後、関係テンソルを新しい対象の列に変換し、それぞれ前層のオブジェクト群内の関係を記述する。 畳み込みニューラルネットワークのフィルタに類似したグラフレットフィルタは、関係テンソルが各グループで比較される関係のテンプレートを表す。 これを繰り返すと、上位階層関係の表現が得られる。 アーキテクチャのモチベーションと詳細、およびリレーショナル畳み込みネットワークが階層構造を持つリレーショナルタスクをモデル化するための効果的なフレームワークを提供するための一連の実験を示す。

A maturing area of research in deep learning is the development of architectures that can learn explicit representations of relational features. In this paper, we focus on the problem of learning representations of hierarchical relations, proposing an architectural framework we call "relational convolutional networks". Given a sequence of objects, a "multi-dimensional inner product relation" module produces a relation tensor describing all pairwise relations. A "relational convolution" layer then transforms the relation tensor into a sequence of new objects, each describing the relations within some group of objects at the previous layer. Graphlet filters, analogous to filters in convolutional neural networks, represent a template of relations against which the relation tensor is compared at each grouping. Repeating this yields representations of higher-order, hierarchical relations. We present the motivation and details of the architecture, together with a set of experiments to demonstrate how relational convolutional networks can provide an effective framework for modeling relational tasks that have hierarchical structure.
翻訳日:2023-10-06 19:50:28 公開日:2023-10-05
# 非スムース弱凸有限サム結合合成最適化

Non-Smooth Weakly-Convex Finite-sum Coupled Compositional Optimization ( http://arxiv.org/abs/2310.03234v1 )

ライセンス: Link先を確認
Quanqi Hu, Dixian Zhu, Tianbao Yang(参考訳) 本稿では,新しい合成最適化問題である$\underline{\bf n}$on-$\underline{\bf s}$mooth $\underline{\bf w}$eakly-$\underline{\bf c}$onvex $\underline{\bf f}$inite-sum $\underline{\bf c}$oupled $\underline{\bf c}$ompositional $\underline{\bf o}$ptimization (NSWC FCCO)について検討する。 機械学習とAIの幅広い応用と、経験的リスク最小化に基づく確率的アルゴリズムの欠点に対処する能力により、FCCOへの関心が高まっている。 しかし、FCCOの最近の研究は、内部関数と外部関数の両方が滑らかであり、より多様な問題に取り組む可能性を制限すると仮定している。 本研究は,外関数が弱凸で非減少し,内関数が弱凸である非滑らかなFCCOを調べることにより,この領域を拡大する。 単一ループアルゴリズムを解析し、目的関数のモロー包絡の $\epsilon$-stationary point を見つけるための複雑さを確立する。 さらに,3つの関数の入れ子配置を特徴とする,新しい非スムース弱凸三レベル有限サム結合合成最適化問題にもアルゴリズムを拡張した。 最後に,2方向部分AUC最大化と多方向部分AUC最大化のためのディープラーニングにおけるアルゴリズムの適用について検討し,提案アルゴリズムの有効性を示す実験的検討を行った。

This paper investigates new families of compositional optimization problems, called $\underline{\bf n}$on-$\underline{\bf s}$mooth $\underline{\bf w}$eakly-$\underline{\bf c}$onvex $\underline{\bf f}$inite-sum $\underline{\bf c}$oupled $\underline{\bf c}$ompositional $\underline{\bf o}$ptimization (NSWC FCCO). There has been a growing interest in FCCO due to its wide-ranging applications in machine learning and AI, as well as its ability to address the shortcomings of stochastic algorithms based on empirical risk minimization. However, current research on FCCO presumes that both the inner and outer functions are smooth, limiting their potential to tackle a more diverse set of problems. Our research expands on this area by examining non-smooth weakly-convex FCCO, where the outer function is weakly convex and non-decreasing, and the inner function is weakly-convex. We analyze a single-loop algorithm and establish its complexity for finding an $\epsilon$-stationary point of the Moreau envelop of the objective function. Additionally, we also extend the algorithm to solving novel non-smooth weakly-convex tri-level finite-sum coupled compositional optimization problems, which feature a nested arrangement of three functions. Lastly, we explore the applications of our algorithms in deep learning for two-way partial AUC maximization and multi-instance two-way partial AUC maximization, using empirical studies to showcase the effectiveness of the proposed algorithms.
翻訳日:2023-10-06 19:50:12 公開日:2023-10-05
# 抑うつ症状の予測のための1人称代名詞の深い表現

Deep Representations of First-person Pronouns for Prediction of Depression Symptom Severity ( http://arxiv.org/abs/2310.03232v1 )

ライセンス: Link先を確認
Xinyang Ren, Hannah A Burkhardt, Patricia A Are\'an, Thomas D Hull, Trevor Cohen(参考訳) 先行研究は、一人称単数代名詞の使用を分析することで、個人の精神状態、特にうつ症状の重症度に関する洞察が得られることを示した。 これらの知見は、テキストデータ中の1人称単数代名詞の頻度を数えて得られた。 しかし、カウントはこれらの代名詞の使い方を捉えていない。 ニューラルネットワークモデリングの最近の進歩は、文脈埋め込みを生成する手法を活用している。 本研究では,文脈化言語表現モデルから得られた一人称代名詞の埋め込みを用いて,これらの代名詞の使用法を捉え,精神状態を分析することを試みた。 抑うつ重症度を毎週評価するオンライン心理療法中に送信された未確認テキストを評価に用いた。 その結果、標準分類トークン埋め込みと頻度に基づく代名詞分析より文脈化された第一人称代名詞埋め込みの利点が示され、うつ病症状の重症度を予測する。 これは、1人称代名詞の文脈表現が抑うつ症状のある人が使用する言語の予測的有用性を高めることを示唆している。

Prior work has shown that analyzing the use of first-person singular pronouns can provide insight into individuals' mental status, especially depression symptom severity. These findings were generated by counting frequencies of first-person singular pronouns in text data. However, counting doesn't capture how these pronouns are used. Recent advances in neural language modeling have leveraged methods generating contextual embeddings. In this study, we sought to utilize the embeddings of first-person pronouns obtained from contextualized language representation models to capture ways these pronouns are used, to analyze mental status. De-identified text messages sent during online psychotherapy with weekly assessment of depression severity were used for evaluation. Results indicate the advantage of contextualized first-person pronoun embeddings over standard classification token embeddings and frequency-based pronoun analysis results in predicting depression symptom severity. This suggests contextual representations of first-person pronouns can enhance the predictive utility of language used by people with depression symptoms.
翻訳日:2023-10-06 19:49:38 公開日:2023-10-05
# 時空間データパラメータを用いたデータ空間インバージョンを用いた地質炭素貯蔵の履歴マッチング

History Matching for Geological Carbon Storage using Data-Space Inversion with Spatio-Temporal Data Parameterization ( http://arxiv.org/abs/2310.03228v1 )

ライセンス: Link先を確認
Su Jiang, Louis J. Durlofsky(参考訳) モニタリングデータに基づく履歴マッチングは,産業規模の炭素貯蔵業務において不確実性低減を可能にし,帯水層管理を改善する。 従来のモデルに基づくデータ同化では、ジオモデルパラメータはフローシミュレーション結果と観測結果の一致を強制するために修正される。 data-space inversion (dsi) では、後続のジオモデルを構築することなく、後続の圧力や飽和場など、履歴にマッチした興味の量を直接推測する。 これは、ベイズ設定内のO(1000)事前シミュレーション結果、データパラメータ化、および後続サンプリングのセットを用いて効率よく達成される。 本研究では,一組の時間ステップで時空間圧力とCO2飽和場を表現するための深層学習に基づくパラメータ化(DSI)を開発し,実装する。 新たなパラメータ化では、次元縮小のための対向オートエンコーダ(AAE)と畳み込み長短期メモリ(convLSTM)ネットワークを使用して、圧力場と飽和場の空間分布と時間的進化を表す。 このパラメータ化は、DSIフレームワークの複数のデータ同化(ESMDA)を備えたスムーズなアンサンブルを用いて、後続予測を可能にする。 様々な地質シナリオから得られた事前の地質学的実現を特徴とする現実的な3次元システムを考える。 履歴マッチングの定式化に現れる誤差共分散項を推定するために、局所グリッドリファインメント手順を導入する。 複数の合成真理モデルに対して, 広範囲な履歴マッチング結果が様々な量に対して提示される。 後圧および飽和場の実質的不確実性低減は, いずれの場合も達成される。 このフレームワークは、様々なエラー共分散仕様の後方予測を効率的に行う。 このような評価はモデルベースのアプローチで費用がかかるでしょう。

History matching based on monitoring data will enable uncertainty reduction, and thus improved aquifer management, in industrial-scale carbon storage operations. In traditional model-based data assimilation, geomodel parameters are modified to force agreement between flow simulation results and observations. In data-space inversion (DSI), history-matched quantities of interest, e.g., posterior pressure and saturation fields conditioned to observations, are inferred directly, without constructing posterior geomodels. This is accomplished efficiently using a set of O(1000) prior simulation results, data parameterization, and posterior sampling within a Bayesian setting. In this study, we develop and implement (in DSI) a deep-learning-based parameterization to represent spatio-temporal pressure and CO2 saturation fields at a set of time steps. The new parameterization uses an adversarial autoencoder (AAE) for dimension reduction and a convolutional long short-term memory (convLSTM) network to represent the spatial distribution and temporal evolution of the pressure and saturation fields. This parameterization is used with an ensemble smoother with multiple data assimilation (ESMDA) in the DSI framework to enable posterior predictions. A realistic 3D system characterized by prior geological realizations drawn from a range of geological scenarios is considered. A local grid refinement procedure is introduced to estimate the error covariance term that appears in the history matching formulation. Extensive history matching results are presented for various quantities, for multiple synthetic true models. Substantial uncertainty reduction in posterior pressure and saturation fields is achieved in all cases. The framework is applied to efficiently provide posterior predictions for a range of error covariance specifications. Such an assessment would be expensive using a model-based approach.
翻訳日:2023-10-06 19:49:23 公開日:2023-10-05
# 強化学習における安全な探索--一般化された定式化とアルゴリズム

Safe Exploration in Reinforcement Learning: A Generalized Formulation and Algorithms ( http://arxiv.org/abs/2310.03225v1 )

ライセンス: Link先を確認
Akifumi Wachi, Wataru Hashimoto, Xun Shen, Kazumune Hashimoto(参考訳) 多くの実世界のシナリオで強化学習(RL)を実践するためには,安全な探索が不可欠である。 本稿では,共通安全探査問題の統一的な定式化として,gse(generalized safe exploration)問題を提案する。 そこで本研究では,安全探査のためのメタアルゴリズムであるmaseの形でgse問題の解法を提案する。このmaseは,制約のないrlアルゴリズムと不確実性定量化器を組み合わせることで,本エピソードにおける安全性を保証し,実際の安全性に違反する前に安全でない探索を適切に罰し,今後のエピソードではそれを妨げている。 MASEの利点は、適切な前提の下で安全制約を犯さないことを高い確率で保証しながら、ポリシーを最適化できるということです。 具体的には,不確かさ量化器の構成が異なるmaseの2つの変種を提示する。1つは安全性と近似最適性を理論的に保証した一般化線形モデルに基づくもので,もう1つはガウス過程を組み合わせることで安全性を最大化するための深いrlアルゴリズムと組み合わせたものである。 最後に,提案アルゴリズムは,トレーニング中であっても安全制約に違反することなく,グリッドワールドおよびセーフティガイムベンチマークの最先端アルゴリズムよりも優れた性能を実現することを示す。

Safe exploration is essential for the practical use of reinforcement learning (RL) in many real-world scenarios. In this paper, we present a generalized safe exploration (GSE) problem as a unified formulation of common safe exploration problems. We then propose a solution of the GSE problem in the form of a meta-algorithm for safe exploration, MASE, which combines an unconstrained RL algorithm with an uncertainty quantifier to guarantee safety in the current episode while properly penalizing unsafe explorations before actual safety violation to discourage them in future episodes. The advantage of MASE is that we can optimize a policy while guaranteeing with a high probability that no safety constraint will be violated under proper assumptions. Specifically, we present two variants of MASE with different constructions of the uncertainty quantifier: one based on generalized linear models with theoretical guarantees of safety and near-optimality, and another that combines a Gaussian process to ensure safety with a deep RL algorithm to maximize the reward. Finally, we demonstrate that our proposed algorithm achieves better performance than state-of-the-art algorithms on grid-world and Safety Gym benchmarks without violating any safety constraints, even during training.
翻訳日:2023-10-06 19:48:53 公開日:2023-10-05
# TacoGFN:構造に基づく医薬品設計のためのターゲット条件付きGFlowNet

TacoGFN: Target Conditioned GFlowNet for Structure-Based Drug Design ( http://arxiv.org/abs/2310.03223v1 )

ライセンス: Link先を確認
Tony Shen, Mohit Pandey and Martin Ester(参考訳) 我々は,特定のタンパク質ポケットターゲットに調和した薬物様化合物の自動生成を目指している。 現在の方法のほとんどは有限データセットのタンパク質-分子分布を近似しており、トレーニングデータセットよりも結合性が大幅に向上した分子を生成するのに苦労している。 代わりに、ポケットコンディショニングされた分子生成タスクをRL問題とし、ターゲット条件生成フローネットワークモデルであるTacoGFNを開発する。 本手法は,既存のデータ分布に適合するのに対して,所望の特性を持つ分子を生成することを強く推奨する。 そこで本研究では,ドッキングスコア計算を高速化するトランスフォーマーベースのドッキングスコア予測を開発し,分子空間を効率的に探索するTacoGFNを提案する。 さらに,ドッキングスコア予測を改善するために,ドッキングオラクルを用いて生成されたサンプルを検索する,アクティブラーニングのラウンドを複数組み込んだ。 このアプローチによって、計算で得る限りの分子の景観を正確に探索することができます。 経験上、tacogfnとその変異体を用いて生成された分子は、全ての特性(ドッキングスコア、qed、sa、リピンスキー)における全てのベースラインメソッドを著しく上回っているが、桁違いに速い。

We seek to automate the generation of drug-like compounds conditioned to specific protein pocket targets. Most current methods approximate the protein-molecule distribution of a finite dataset and, therefore struggle to generate molecules with significant binding improvement over the training dataset. We instead frame the pocket-conditioned molecular generation task as an RL problem and develop TacoGFN, a target conditional Generative Flow Network model. Our method is explicitly encouraged to generate molecules with desired properties as opposed to fitting on a pre-existing data distribution. To this end, we develop transformer-based docking score prediction to speed up docking score computation and propose TacoGFN to explore molecule space efficiently. Furthermore, we incorporate several rounds of active learning where generated samples are queried using a docking oracle to improve the docking score prediction. This approach allows us to accurately explore as much of the molecule landscape as we can afford computationally. Empirically, molecules generated using TacoGFN and its variants significantly outperform all baseline methods across every property (Docking score, QED, SA, Lipinski), while being orders of magnitude faster.
翻訳日:2023-10-06 19:48:30 公開日:2023-10-05
# Know2BIO: バイオメディカル知識グラフの進化のための総合的なデュアルビューベンチマーク

Know2BIO: A Comprehensive Dual-View Benchmark for Evolving Biomedical Knowledge Graphs ( http://arxiv.org/abs/2310.03221v1 )

ライセンス: Link先を確認
Yijia Xiao, Dylan Steinecke, Alexander Russell Pelletier, Yushi Bai, Peipei Ping, Wei Wang(参考訳) 知識グラフ(KG)は、複雑な生体情報の表現と統合のための強力なフレームワークとして登場した。 しかし、さまざまなソースからkgを組み立てることは、エンティティのアライメント、スケーラビリティ、科学的な進歩に対応する継続的更新の必要性など、いくつかの面で大きな課題である。 さらに、KGsの代表的なパワーは、マルチモーダルデータ統合の不足によって制限されることが多い。 これらの課題を克服するために,バイオメディカルドメインのための汎用ヘテロジニアスKGベンチマークである Know2BIO を提案する。 Know2BIOは、30の多様なソースからのデータを統合する。 現在は219,000のノードと6200,000のエッジで構成されている。 Know2BIOは、バイオメディカルサイエンスの最新の知識を反映して、ユーザー指向の自動更新を行うことができる。 さらに、Know2BIOにはマルチモーダルデータがある: テキスト記述、タンパク質、複合配列、構造を含むノード機能により、出現する自然言語処理手法とマルチモーダルデータ統合戦略の利用が可能になる。 バイオメディカル分野におけるKG表現学習のベンチマークとしての有効性を実証し,KG表現モデルの評価を行った。 Know2BIOのデータとソースコードはhttps://github.com/Yijia-Xiao/Know2BIO/で入手できる。

Knowledge graphs (KGs) have emerged as a powerful framework for representing and integrating complex biomedical information. However, assembling KGs from diverse sources remains a significant challenge in several aspects, including entity alignment, scalability, and the need for continuous updates to keep pace with scientific advancements. Moreover, the representative power of KGs is often limited by the scarcity of multi-modal data integration. To overcome these challenges, we propose Know2BIO, a general-purpose heterogeneous KG benchmark for the biomedical domain. Know2BIO integrates data from 30 diverse sources, capturing intricate relationships across 11 biomedical categories. It currently consists of ~219,000 nodes and ~6,200,000 edges. Know2BIO is capable of user-directed automated updating to reflect the latest knowledge in biomedical science. Furthermore, Know2BIO is accompanied by multi-modal data: node features including text descriptions, protein and compound sequences and structures, enabling the utilization of emerging natural language processing methods and multi-modal data integration strategies. We evaluate KG representation models on Know2BIO, demonstrating its effectiveness as a benchmark for KG representation learning in the biomedical field. Data and source code of Know2BIO are available at https://github.com/Yijia-Xiao/Know2BIO/.
翻訳日:2023-10-06 19:48:09 公開日:2023-10-05
# 拡散補正MCMCを用いた学習エネルギーベース事前モデル

Learning Energy-Based Prior Model with Diffusion-Amortized MCMC ( http://arxiv.org/abs/2310.03218v1 )

ライセンス: Link先を確認
Peiyu Yu, Yaxuan Zhu, Sirui Xie, Xiaojian Ma, Ruiqi Gao, Song-Chun Zhu, Ying Nian Wu(参考訳) 潜在空間エネルギーベースモデル(英: latent space energy-based models、ebms)は、エネルギーベースの事前モデルとしても知られ、潜在空間の定式化と強力なモデリング能力の柔軟性から、生成モデリングの分野における関心が高まっている。 しかし,非収束短絡MCMCを用いた非収束短絡EMMを前・後サンプリングで学習する一般的な実践は,モデルがさらなる進歩を妨げている。 本稿では,このサンプリング問題を改善するために,長期MCMCサンプリングのための簡易かつ効果的な拡散ベース補正法を提案し,それに基づく潜伏空間EMMのための新しい学習アルゴリズムを開発した。 MCMCの学習的アモーティゼーションが,MCMCサンプルの有効長期化であることを示す理論的証拠を提供する。 複数の画像モデリングベンチマークデータセットを用いた実験により,本手法の優れた性能を示す。

Latent space Energy-Based Models (EBMs), also known as energy-based priors, have drawn growing interests in the field of generative modeling due to its flexibility in the formulation and strong modeling power of the latent space. However, the common practice of learning latent space EBMs with non-convergent short-run MCMC for prior and posterior sampling is hindering the model from further progress; the degenerate MCMC sampling quality in practice often leads to degraded generation quality and instability in training, especially with highly multi-modal and/or high-dimensional target distributions. To remedy this sampling issue, in this paper we introduce a simple but effective diffusion-based amortization method for long-run MCMC sampling and develop a novel learning algorithm for the latent space EBM based on it. We provide theoretical evidence that the learned amortization of MCMC is a valid long-run MCMC sampler. Experiments on several image modeling benchmark datasets demonstrate the superior performance of our method compared with strong counterparts
翻訳日:2023-10-06 19:47:46 公開日:2023-10-05
# 転送可能なグラフオートエンコーダによるネットワークアライメント

Network Alignment with Transferable Graph Autoencoders ( http://arxiv.org/abs/2310.03272v1 )

ライセンス: Link先を確認
Jiashu He, Charilaos I. Kanatsoulis, Alejandro Ribeiro(参考訳) ネットワークアライメントは、異なるグラフのノード間の1対1の対応を確立し、ハイインパクトなドメインで多くのアプリケーションを見つけるタスクである。 しかし、このタスクはNPハードであることが知られており、既存のアルゴリズムはグラフのサイズが大きくなるにつれてスケールアップしない。 そこで我々は,アライメントタスクに適合した,強力でロバストなノード埋め込みを抽出することを目的とした,新しい一般化グラフオートエンコーダアーキテクチャを提案する。 生成した埋め込みはグラフの固有値と固有ベクトルに関連付けられ、古典的なスペクトル法と比較してより正確なアライメントが得られることが証明される。 また,提案フレームワークでは,転送学習とデータ拡張を利用して,再トレーニングすることなく大規模ネットワークアライメントを実現している。 実世界のグラフとのネットワークとサブネットワークの連携に関する広範囲な実験は、提案手法の有効性とスケーラビリティを裏付ける証拠を提供する。

Network alignment is the task of establishing one-to-one correspondences between the nodes of different graphs and finds a plethora of applications in high-impact domains. However, this task is known to be NP-hard in its general form, and existing algorithms do not scale up as the size of the graphs increases. To tackle both challenges we propose a novel generalized graph autoencoder architecture, designed to extract powerful and robust node embeddings, that are tailored to the alignment task. We prove that the generated embeddings are associated with the eigenvalues and eigenvectors of the graphs and can achieve more accurate alignment compared to classical spectral methods. Our proposed framework also leverages transfer learning and data augmentation to achieve efficient network alignment at a very large scale without retraining. Extensive experiments on both network and sub-network alignment with real-world graphs provide corroborating evidence supporting the effectiveness and scalability of the proposed approach.
翻訳日:2023-10-06 19:41:52 公開日:2023-10-05
# efficientdm:効率的な量子化-低ビット拡散モデルの微調整

EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models ( http://arxiv.org/abs/2310.03270v1 )

ライセンス: Link先を確認
Yefei He, Jing Liu, Weijia Wu, Hong Zhou, Bohan Zhuang(参考訳) 拡散モデルは画像合成と関連する生成タスクにおいて顕著な能力を示している。 しかしながら、低レイテンシな実世界のアプリケーションに対する実用性は、かなりの計算コストとレイテンシの問題によって制約されている。 量子化は拡散モデルを圧縮し加速する主要な方法であり、後学習量子化(PTQ)と量子化認識訓練(QAT)は2つの主要なアプローチであり、それぞれが独自の性質を持つ。 PTQは時間とデータの両方の効率を示すが、低ビット幅では性能が低下する可能性がある。 一方、QATはパフォーマンスの劣化を軽減することができるが、計算やデータリソースに対するかなりの要求がある。 それぞれの欠点を回避しつつ利点を生かし、低ビット拡散モデルのためのデータフリーでパラメータ効率の良い微調整フレームワーク、EfficientDMを導入し、PTQライクな効率でQATレベルの性能を実現する。 具体的には,低ランクアダプタ (QALoRA) の量子化を意識した変種を提案する。 微調整プロセスは、完全精度モデルの復調能力を定量化したものに蒸留し、データトレーニングの必要をなくす。 また, スケールアウェア最適化を導入し, 時間学習ステップサイズ量子化により, さらなる性能向上を図る。 実験結果から,本手法はPTQに基づく拡散モデルよりも有意に優れ,時間とデータ効率は良好であることがわかった。 具体的には、imagenet 256x256のldm-4から4ビットまでの重みとアクティベーションの両方を定量化すると0.05 sfidが増加するだけである。 QATベースの手法と比較して、EfficientDMは16.2倍高速な量子化速度で生成品質を比較できる。

Diffusion models have demonstrated remarkable capabilities in image synthesis and related generative tasks. Nevertheless, their practicality for low-latency real-world applications is constrained by substantial computational costs and latency issues. Quantization is a dominant way to compress and accelerate diffusion models, where post-training quantization (PTQ) and quantization-aware training (QAT) are two main approaches, each bearing its own properties. While PTQ exhibits efficiency in terms of both time and data usage, it may lead to diminished performance in low bit-width. On the other hand, QAT can alleviate performance degradation but comes with substantial demands on computational and data resources. To capitalize on the advantages while avoiding their respective drawbacks, we introduce a data-free and parameter-efficient fine-tuning framework for low-bit diffusion models, dubbed EfficientDM, to achieve QAT-level performance with PTQ-like efficiency. Specifically, we propose a quantization-aware variant of the low-rank adapter (QALoRA) that can be merged with model weights and jointly quantized to low bit-width. The fine-tuning process distills the denoising capabilities of the full-precision model into its quantized counterpart, eliminating the requirement for training data. We also introduce scale-aware optimization and employ temporal learned step-size quantization to further enhance performance. Extensive experimental results demonstrate that our method significantly outperforms previous PTQ-based diffusion models while maintaining similar time and data efficiency. Specifically, there is only a marginal 0.05 sFID increase when quantizing both weights and activations of LDM-4 to 4-bit on ImageNet 256x256. Compared to QAT-based methods, our EfficientDM also boasts a 16.2x faster quantization speed with comparable generation quality.
翻訳日:2023-10-06 19:41:38 公開日:2023-10-05
# InstructProtein:知識教育による人間とタンパク質の言語調整

InstructProtein: Aligning Human and Protein Language via Knowledge Instruction ( http://arxiv.org/abs/2310.03269v1 )

ライセンス: Link先を確認
Zeyuan Wang, Qiang Zhang, Keyan Ding, Ming Qin, Xiang Zhuang, Xiaotong Li, Huajun Chen(参考訳) 大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらしたが、タンパク質のような生物学的配列の理解に乏しい。 この課題に対処するために、人間とタンパク質言語の両方で双方向生成機能を持つ革新的なLCMであるInstructProteinを提案する。 (i)タンパク質配列を入力として、そのテキスト機能記述を予測すること、及び (ii) 自然言語を用いてタンパク質配列を生成する。 そこで我々はまず,タンパク質と自然言語コーパスの両方でLLMを事前学習し,個々の言語を理解できるようにした。 次に、これら2つの異なる言語のアライメントを容易にするために教師付き命令チューニングを用いる。 本稿では,既存のタンパク質文コーパスにおけるアノテーションの不均衡と命令欠陥に対処する,高品質な命令データセットを構築するための知識グラフベースの命令生成フレームワークを提案する。 特に、知識グラフにおけるタンパク質と関数アノテーションの構造的関係を継承し、自然言語の連鎖過程に類似したタンパク質機能の因果モデリングに我々のモデルが関与できるようにする。 双方向タンパク質テキスト生成タスクに関する広範な実験により、instructproteinは最先端のllmを大きなマージンで上回っていることが示されている。 さらにinstructproteinは、テキストベースのタンパク質機能予測と配列設計への先駆的なステップとなり、タンパク質と人間の言語理解の間のギャップを効果的に橋渡しする。

Large Language Models (LLMs) have revolutionized the field of natural language processing, but they fall short in comprehending biological sequences such as proteins. To address this challenge, we propose InstructProtein, an innovative LLM that possesses bidirectional generation capabilities in both human and protein languages: (i) taking a protein sequence as input to predict its textual function description and (ii) using natural language to prompt protein sequence generation. To achieve this, we first pre-train an LLM on both protein and natural language corpora, enabling it to comprehend individual languages. Then supervised instruction tuning is employed to facilitate the alignment of these two distinct languages. Herein, we introduce a knowledge graph-based instruction generation framework to construct a high-quality instruction dataset, addressing annotation imbalance and instruction deficits in existing protein-text corpus. In particular, the instructions inherit the structural relations between proteins and function annotations in knowledge graphs, which empowers our model to engage in the causal modeling of protein functions, akin to the chain-of-thought processes in natural languages. Extensive experiments on bidirectional protein-text generation tasks show that InstructProtein outperforms state-of-the-art LLMs by large margins. Moreover, InstructProtein serves as a pioneering step towards text-based protein function prediction and sequence design, effectively bridging the gap between protein and human language understanding.
翻訳日:2023-10-06 19:41:05 公開日:2023-10-05
# UniPredict: 大規模言語モデルはユニバーサルタブラル予測子である

UniPredict: Large Language Models are Universal Tabular Predictors ( http://arxiv.org/abs/2310.03266v1 )

ライセンス: Link先を確認
Ruiyu Wang, Zifeng Wang, Jimeng Sun(参考訳) タブラルデータ予測は多くのアプリケーションにとって基本的な機械学習タスクである。 既存の手法では、主に識別モデリングを採用し、固定された目標列の仮定の下で動作し、新しい予測タスクごとに再訓練する必要がある。 大規模言語モデル(LLM)の生成力に触発された本論文は、生成モデル(UniPredict)に基づく普遍的な表型データ予測器を構築するというアイデアを活用する。 ここでは,多種多様な表型入力を解釈し,入力命令に従って対象変数を予測することで,LLMを広範な表型データセットにスケールアップすることを示す。 具体的には、1つのLCMを169個の表付きデータセットのアグリゲーションでトレーニングし、そのパフォーマンスを各データセットで個別にトレーニングされたベースラインと比較する。 この汎用的なUniPredictモデルは、それぞれ最高のツリーブースティングベースラインと最高のニューラルネットワークベースラインと比較して、5.4%から13.4%の範囲で、他のモデルよりも有利であることを示す。 さらに、62のグラフデータセット上で、数ショットの学習設定でUniPredictをテストする。 提案手法は,低リソース環境においてXGBoostを100%以上上回り,全てのベースラインに対して有意な差を示すため,新しいタスクに迅速に適応する上で高い性能を発揮する。 ユニプレディクトは、大規模データから学習し、幅広い予測タスクをこなすユニバーサルな表型データ予測システムの開発に光を当てることを期待している。

Tabular data prediction is a fundamental machine learning task for many applications. Existing methods predominantly employ discriminative modeling and operate under the assumption of a fixed target column, necessitating re-training for every new predictive task. Inspired by the generative power of large language models (LLMs), this paper exploits the idea of building universal tabular data predictors based on generative modeling, namely UniPredict. Here, we show that scaling up an LLM to extensive tabular datasets with the capability of comprehending diverse tabular inputs and predicting for target variables following the input instructions. Specifically, we train a single LLM on an aggregation of 169 tabular datasets with diverse targets and compare its performance against baselines that are trained on each dataset separately. We observe this versatile UniPredict model demonstrates an advantage over other models, ranging from 5.4% to 13.4%, when compared with the best tree-boosting baseline and the best neural network baseline, respectively. We further test UniPredict in few-shot learning settings on another 62 tabular datasets. Our method achieves strong performance in quickly adapting to new tasks, where our method outperforms XGBoost over 100% on the low-resource setup and shows a significant margin over all baselines. We envision that UniPredict sheds light on developing a universal tabular data prediction system that learns from data at scale and serves a wide range of prediction tasks.
翻訳日:2023-10-06 19:40:40 公開日:2023-10-05
# ビットフリップ符号を用いたバイアス保存計算

Bias-preserving computation with the bit-flip code ( http://arxiv.org/abs/2310.03264v1 )

ライセンス: Link先を確認
Shoichiro Tsutsui and Keita Kanno(参考訳) ビットフリップ誤りのみ発生可能なバイアスドノイズチャネルにおいて,ビットフリップ反復符号を用いたフォールトトレラント量子計算の実現可能性を検討する。 いくつかの論理ゲートは、そのようなチャネルでも位相フリップエラーを発生させることができるが、$S$、$H$、$\mathrm{CZ}$、$R_z$ gatesのバイアス保存実装を提案する。 本稿では,量子系の時間発展や変分量子固有解法など,いくつかのタスクにおける計算精度の向上を実証する。

We explore the feasibility of fault-tolerant quantum computation using the bit-flip repetition code in a biased noise channel where only the bit-flip error can occur. While several logic gates can potentially produce phase-flip errors even in such a channel, we propose bias-preserving implementation of $S$, $H$, $\mathrm{CZ}$, and $R_z$ gates. We demonstrate that our scheme improves the computational precision in several tasks such as the time evolution of quantum systems and variational quantum eigensolver.
翻訳日:2023-10-06 19:40:14 公開日:2023-10-05
# 創発能力からのアンロック予測可能なスケーリング

Unlock Predictable Scaling from Emergent Abilities ( http://arxiv.org/abs/2310.03262v1 )

ライセンス: Link先を確認
Shengding Hu, Xin Liu, Xu Han, Xinrong Zhang, Chaoqun He, Weilin Zhao, Yankai Lin, Ning Ding, Zebin Ou, Guoyang Zeng, Zhiyuan Liu, Maosong Sun(参考訳) 大規模言語モデル(llms)の科学的スケールアップは、そのスケーリング特性の包括的理解を必要とする。 しかし、既存のスケーリング特性に関する文献では、モデルのサイズが大きくなるにつれて最適化損失は予測通りに減少するが、タスクのスケーリング法則は確立されておらず、スケーリング中にタスクパフォーマンスが予測できないという不完全な答えしか得られていない。 タスクパフォーマンスは通常、モデルがサイズしきい値を超えると劇的に改善するまで小さなモデルで小さな改善を示し、‘緊急能力’を例示する。 そこで本研究では,小型モデルでは小さな性能を示すが,従来の評価手法では測定精度の不十分さから捉えられていない,クリティカルで一貫性のあるタスク性能改善を示す。 このような改善を評価するために,復号フェーズにおける大規模なサンプリングによる評価戦略であるPassUntilを導入する。 タスクパフォーマンスのスケーリング法則を定量的に検討する。 まず、厳密なタスクスケーリング則を特定し、タスクパフォーマンスの予測可能性を高める。 注目すべきは、トレーニング開始前にわずか0.05\%の偏差でコード生成における2.4Bモデルのパフォーマンスを予測できることです。 第二に, パシュンティルに基礎を置き, 創発能力の具体的証拠を観察し, 性能改善の継続性と矛盾していないことを確かめる。 彼らのブレークスルーへのセマンランスは、スケーリング曲線が標準スケーリング法則関数によって適合できないことである。 次に,創発能力に対する数学的定義を導入する。 この定義を通じて,創発能力の発生に関する一般的な「多段階推論仮説」を反論し,観測されたスケーリング曲線に適合する新しい仮説を提案する。

The scientific scale-up of large language models (LLMs) necessitates a comprehensive understanding of their scaling properties. However, the existing literature on the scaling properties only yields an incomplete answer: optimization loss decreases predictably as the model size increases, in line with established scaling law; yet no scaling law for task has been established and the task performances are far from predictable during scaling. Task performances typically show minor gains on small models until they improve dramatically once models exceed a size threshold, exemplifying the ``emergent abilities''. In this study, we discover that small models, although they exhibit minor performance, demonstrate critical and consistent task performance improvements that are not captured by conventional evaluation strategies due to insufficient measurement resolution. To measure such improvements, we introduce PassUntil, an evaluation strategy through massive sampling in the decoding phase. We conduct quantitative investigations into the scaling law of task performance. Firstly, a strict task scaling law is identified, enhancing the predictability of task performances. Remarkably, we are able to predict the performance of the 2.4B model on code generation with merely 0.05\% deviation before training starts. Secondly, underpinned by PassUntil, we observe concrete evidence of emergent abilities and ascertain that they are not in conflict with the continuity of performance improvement. Their semblance to break-through is that their scaling curve cannot be fitted by standard scaling law function. We then introduce a mathematical definition for the emergent abilities. Through the definition, we refute a prevalent ``multi-step reasoning hypothesis'' regarding the genesis of emergent abilities and propose a new hypothesis with a satisfying fit to the observed scaling curve.
翻訳日:2023-10-06 19:40:05 公開日:2023-10-05
# 大規模停電データを用いたトランスファーファファクトラーニングによる電力サービスエクイティ問題の検出

Detecting Electricity Service Equity Issues with Transfer Counterfactual Learning on Large-Scale Outage Datasets ( http://arxiv.org/abs/2310.03258v1 )

ライセンス: Link先を確認
Song Wei, Xiangrui Kong, Sarah A Huestis-Mitchell, Shixiang Zhu, Yao Xie, Alinson Santos Xavier, Feng Qiu(参考訳) エネルギー正義は学際的なエネルギー研究への関心が高まっている。 しかしながら、エネルギーセクターにおける系統的バイアスの特定は、変数の相違、治療効果の不均一性の複雑化、データ可用性の制限により、依然として困難である。 これらの課題に対処するため,エネルギー正義を中心とした反事実因果解析の新たなアプローチを導入する。 サブグループ分析を用いて多様な要因を管理し,各サブグループにおけるデータ不足を軽減するためにトランスファー学習の考え方を活用する。 本研究では,本手法を大規模顧客レベルでの停電データに適用し,人口の所得や年齢といった人口統計学的要因が停電期間に与える影響について検討した。 以上の結果から,低所得地域と高齢者地域は,気象条件によらず,常に停電が長くなることが示唆された。 これは、電力システムの既存のバイアスを指摘し、経済的課題のある領域における集中的な改善の必要性を強調している。

Energy justice is a growing area of interest in interdisciplinary energy research. However, identifying systematic biases in the energy sector remains challenging due to confounding variables, intricate heterogeneity in treatment effects, and limited data availability. To address these challenges, we introduce a novel approach for counterfactual causal analysis centered on energy justice. We use subgroup analysis to manage diverse factors and leverage the idea of transfer learning to mitigate data scarcity in each subgroup. In our numerical analysis, we apply our method to a large-scale customer-level power outage data set and investigate the counterfactual effect of demographic factors, such as income and age of the population, on power outage durations. Our results indicate that low-income and elderly-populated areas consistently experience longer power outages, regardless of weather conditions. This points to existing biases in the power system and highlights the need for focused improvements in areas with economic challenges.
翻訳日:2023-10-06 19:39:36 公開日:2023-10-05
# 潜時プロンプト変圧器による分子設計

Molecule Design by Latent Prompt Transformer ( http://arxiv.org/abs/2310.03253v1 )

ライセンス: Link先を確認
Deqian Kong, Yuhao Huang, Jianwen Xie, Ying Nian Wu(参考訳) 本稿では,分子設計などの課題を解決するために,既存のソフトウェアで計算可能な化学・生物特性の最適値を持つ分子を探索することを目的とした,潜在プロンプトトランスフォーマモデルを提案する。 提案モデルは3成分からなる。 1) 先行分布がガウス白色雑音ベクトルのUnet変換によってモデル化された潜在ベクトル。 2)(1)の潜在ベクトル上の条件付き分子の文字列に基づく表現を生成する分子生成モデル。 我々は(1) の潜伏ベクトルをプロンプトとする因果変換器モデルを採用する。 3)(1)の潜在ベクトルに対する非線形回帰に基づく分子のターゲット特性の値を予測する特性予測モデル。 我々は提案したモデルを遅延プロンプトトランスフォーマーモデルと呼ぶ。 モデルが既存の分子とそれらの性質値について初期訓練を行った後、分子設計の目的のために対象特性の所望値を支持する領域へモデルを徐々にシフトさせる。 実験により,提案モデルが複数のベンチマーク分子設計タスクにおいて,技術性能の状態を達成できることが判明した。

This paper proposes a latent prompt Transformer model for solving challenging optimization problems such as molecule design, where the goal is to find molecules with optimal values of a target chemical or biological property that can be computed by an existing software. Our proposed model consists of three components. (1) A latent vector whose prior distribution is modeled by a Unet transformation of a Gaussian white noise vector. (2) A molecule generation model that generates the string-based representation of molecule conditional on the latent vector in (1). We adopt the causal Transformer model that takes the latent vector in (1) as prompt. (3) A property prediction model that predicts the value of the target property of a molecule based on a non-linear regression on the latent vector in (1). We call the proposed model the latent prompt Transformer model. After initial training of the model on existing molecules and their property values, we then gradually shift the model distribution towards the region that supports desired values of the target property for the purpose of molecule design. Our experiments show that our proposed model achieves state of the art performances on several benchmark molecule design tasks.
翻訳日:2023-10-06 19:39:19 公開日:2023-10-05
# インターネットアクセスにおける年齢関連パターンの探索:ニュージーランドのサーベイデータの二次分析から

Exploring age-related patterns in internet access: Insights from a secondary analysis of New Zealand survey data ( http://arxiv.org/abs/2310.03252v1 )

ライセンス: Link先を確認
Edgar Pacheco(参考訳) 20年以上もの間、インターネットアクセスは研究と議論のトピックだった。 オンラインメディアへのアクセスの複雑さだけでなく、インターネットの常に変化する性質を考えると、年齢などの重要な予測器に関する最新の証拠が重要である。 本稿では,ニュージーランドにおけるインターネット・アクセスの現在の傾向と年齢との関連性について紹介する。 これは、1,001人の成人ユーザーによる大規模なオンラインパネル調査のデータ二次分析に依存している。 独立とクレイマーのVの2乗検定は分析に使われた。 鍵となる発見は、インターネットアクセスの品質の新たなギャップを明らかにするものだ。 ファイバーは家庭におけるブロードバンド接続の主流である一方、高齢者はそれを持つ確率がかなり低く、ワイヤレスブロードバンドを採用する可能性も高い。 また、すべての年齢層の大多数がインターネットを肯定的に見ている。 興味深いことに、オンライン上の個人情報のセキュリティに関する懸念が、昨年より高まっているといわれている高齢者の間では、これは高い傾向にある。 この結果の意義について考察し,今後の研究の方向性について述べる。

For over two decades Internet access has been a topic of research and debate. Up-to-date evidence about key predictors such as age is important considering not only the complexities of access to the online medium but also the ever-changing nature of the Internet. This paper attempts to provide a stocktake of current trends in Internet access in New Zealand and their association with age. It relies on secondary analysis of data from a larger online panel survey of 1,001 adult users. Chi-square test of Independence and Cramer's V were used for analysis. A key finding uncovers an emerging gap in the quality of Internet access. While fibre is the predominant type of broadband connection at home, older adults are significantly less likely to have it, and more likely to adopt wireless broadband. Also, a large majority across all age groups have a positive view of the Internet. This was higher among older adults who, interestingly, were slightly more likely to say that their concern about the security of their personal details online has increased in the last year. The implications of the results are discussed and some directions for future research are proposed.
翻訳日:2023-10-06 19:39:03 公開日:2023-10-05
# Loihi 2による効率的なビデオ・オーディオ処理

Efficient Video and Audio processing with Loihi 2 ( http://arxiv.org/abs/2310.03251v1 )

ライセンス: Link先を確認
Sumit Bam Shrestha, Jonathan Timcheck, Paxon Frady, Leobardo Campos-Macias, Mike Davies(参考訳) Loihi 2は、第1世代のLoihiの限界に対応するために、イベント駆動スパイクと通信するステートフルニューロンモデルのような、ニューロモルフィックアーキテクチャの基本的な要素を一般化する、非同期で脳にインスパイアされた研究プロセッサである。 ここでは、標準的なビデオ、オーディオ、信号処理タスクに適用された、シグマデルタカプセル化、共振および発火ニューロン、整数値スパイクなど、これらの一般化のいくつかを探索し、特徴付ける。 これらのニューロモルフィックなアプローチは,映像,音声,スペクトル変換に適用されるフィードフォワードおよび畳み込みニューラルネットワークの効率とレイテンシ(エネルギー遅延生成)を,最先端のソリューションと比較して桁違いに向上させることができる。

Loihi 2 is an asynchronous, brain-inspired research processor that generalizes several fundamental elements of neuromorphic architecture, such as stateful neuron models communicating with event-driven spikes, in order to address limitations of the first generation Loihi. Here we explore and characterize some of these generalizations, such as sigma-delta encapsulation, resonate-and-fire neurons, and integer-valued spikes, as applied to standard video, audio, and signal processing tasks. We find that these new neuromorphic approaches can provide orders of magnitude gains in combined efficiency and latency (energy-delay-product) for feed-forward and convolutional neural networks applied to video, audio denoising, and spectral transforms compared to state-of-the-art solutions.
翻訳日:2023-10-06 19:38:49 公開日:2023-10-05
# SimVLG:ビジュアル言語生成モデルのシンプルで効率的な事前学習

SimVLG: Simple and Efficient Pretraining of Visual Language Generative Models ( http://arxiv.org/abs/2310.03291v1 )

ライセンス: Link先を確認
Yiren Jian, Tingkai Liu, Yunzhe Tao, Soroush Vosoughi, HX Yang(参考訳) 本稿では,計算集約型視覚言語生成モデルの事前学習を行うための,凍結事前学習型大規模言語モデル(LLM)を利用した合理化フレームワークである `SimVLG' を提案する。 視覚言語プレトレーニング(vlp)の一般的なパラダイムは、一般的に2段階の最適化プロセスを含む: 汎用視覚言語表現学習に特化した最初のリソース集約型フェーズで、関連する視覚特徴の抽出と統合を目標とし、その後、視覚と言語モダリティのエンドツーエンドアライメントに焦点を当てたフェーズである。 私たちのワンステージシングルロスフレームワークは、トレーニング中に類似した視覚トークンを徐々にマージすることによって、前述の計算要求の第一段階を回避します。 この段階的なマージ処理は、セマンティックコンテンツの豊かさを保ちながら視覚情報を効果的にコンパクト化し、性能を犠牲にすることなく迅速に収束する。 実験の結果,本手法は視覚言語モデルのトレーニングを,全体の性能に顕著な影響を与えることなく,1因子$\times 5$で高速化できることがわかった。 さらに、我々のモデルは、現在のビジョン言語モデルと同等の性能を、わずか1/10ドルのデータで実現できることを示す。 最後に,新たなソフトアテンポラルトークンマージモジュールを用いて,画像テキストモデルをビデオ言語生成タスクに容易に適用できることを実証する。

In this paper, we propose ``SimVLG'', a streamlined framework for the pre-training of computationally intensive vision-language generative models, leveraging frozen pre-trained large language models (LLMs). The prevailing paradigm in vision-language pre-training (VLP) typically involves a two-stage optimization process: an initial resource-intensive phase dedicated to general-purpose vision-language representation learning, aimed at extracting and consolidating pertinent visual features, followed by a subsequent phase focusing on end-to-end alignment between visual and linguistic modalities. Our one-stage, single-loss framework circumvents the aforementioned computationally demanding first stage of training by gradually merging similar visual tokens during training. This gradual merging process effectively compacts the visual information while preserving the richness of semantic content, leading to fast convergence without sacrificing performance. Our experiments show that our approach can speed up the training of vision-language models by a factor $\times 5$ without noticeable impact on the overall performance. Additionally, we show that our models can achieve comparable performance to current vision-language models with only $1/10$ of the data. Finally, we demonstrate how our image-text models can be easily adapted to video-language generative tasks through a novel soft attentive temporal token merging modules.
翻訳日:2023-10-06 19:31:34 公開日:2023-10-05
# PoseAction:Deep Learning Approach を用いた病棟患者の行動認識

PoseAction: Action Recognition for Patients in the Ward using Deep Learning Approaches ( http://arxiv.org/abs/2310.03288v1 )

ライセンス: Link先を確認
Zherui Li and Raye Chen-Hua Yeow(参考訳) 病棟では,被検者の行動,特に行動や行動のリアルタイムインテリジェントな検出と予測が重要である。 このアプローチは、病院内医療費の削減と、特に夜間やピーク時のシナリオに当てはまる医療従事者の効率の向上という利点を提供する。 そこで本研究では,コンピュータビジョン (cv) とディープラーニング (dl) を用いて被験者の検出と行動認識を行う手法を提案する。 映像ストリーム中の人体の位置を認識するために,OpenPoseを精度の高い被験者検出器として利用する。 さらに,AlphActionのAsynchronous Interaction Aggregation(AIA)ネットワークを用いて検出対象の動作を予測する。 この統合モデルはPoseActionと呼ばれ、提案されている。 同時に、NTU RGB+DおよびNTU RGB+D 120データセットの医療関連ビデオクリップを用いて、ステージング、胸痛、転倒などの病棟における12の共通行動を予測するために、提案モデルをさらに訓練した。 その結果、PoseActionは98.72%(IoU@0.5)の最高分類mAPを達成した。 さらに,本研究では,PoseActionの臨床翻訳を強く支援するオンライン行動認識モードを開発した。 さらに, 顔のキーポイントを認識するために OpenPose の機能を利用することで, 患者や医療従事者のプライバシー保護問題に対処するための, 顔のぼかしも実装する。 それでも、PoseActionのトレーニングデータは、特にラベルの多様性に関して制限されている。 したがって、その後のステップでは、より多様なデータセット(一般的なアクションを含む)を使用してモデルのパラメータをトレーニングし、一般化を改善する。

Real-time intelligent detection and prediction of subjects' behavior particularly their movements or actions is critical in the ward. This approach offers the advantage of reducing in-hospital care costs and improving the efficiency of healthcare workers, which is especially true for scenarios at night or during peak admission periods. Therefore, in this work, we propose using computer vision (CV) and deep learning (DL) methods for detecting subjects and recognizing their actions. We utilize OpenPose as an accurate subject detector for recognizing the positions of human subjects in the video stream. Additionally, we employ AlphAction's Asynchronous Interaction Aggregation (AIA) network to predict the actions of detected subjects. This integrated model, referred to as PoseAction, is proposed. At the same time, the proposed model is further trained to predict 12 common actions in ward areas, such as staggering, chest pain, and falling down, using medical-related video clips from the NTU RGB+D and NTU RGB+D 120 datasets. The results demonstrate that PoseAction achieves the highest classification mAP of 98.72% (IoU@0.5). Additionally, this study develops an online real-time mode for action recognition, which strongly supports the clinical translation of PoseAction. Furthermore, using OpenPose's function for recognizing face key points, we also implement face blurring, which is a practical solution to address the privacy protection concerns of patients and healthcare workers. Nevertheless, the training data for PoseAction is currently limited, particularly in terms of label diversity. Consequently, the subsequent step involves utilizing a more diverse dataset (including general actions) to train the model's parameters for improved generalization.
翻訳日:2023-10-06 19:31:11 公開日:2023-10-05
# 科学的ワークフローを用いたHPCと量子システム

Bridging HPC and Quantum Systems using Scientific Workflows ( http://arxiv.org/abs/2310.03286v1 )

ライセンス: Link先を確認
Samuel T. Bieberich, Ketan C. Maheshwari, Sean R. Wilkinson, Prasanna Date, In-Saeng Suh, Rafael Ferreira da Silva(参考訳) 量子コンピュータは、現代のコンピュータ科学において興味深い挑戦を提供する。 ムーアの法則の必然的な物理的制限により、量子ハードウェアは、サブ原子スケールでの量子力学特性を利用することで、より大きな問題を迅速に解決する手段を提供する。 これらの未来的なデバイスは、従来のHPCに取って代わることはないだろう。 科学的なワークフローの能力を活用して、従来のHPCと量子コンピュータを連携させます。 この性能を示すために,groverの探索アルゴリズム,shorのファクタリングアルゴリズム,および4ノードトラベルセールスマンアルゴリズムの3つのアルゴリズムを実装した。 アルゴリズムの実装と生成された入力は、ORNL HPCからIBMQに送信され、アルゴリズムはIBMQ上で実行される。 プロセス全体がワークフローとして自動化され、parslの並列スクリプティングとワークフロープラットフォームにエンコードされる。

Quantum Computers offer an intriguing challenge in modern Computer Science. With the inevitable physical limitations to Moore's Law, quantum hardware provides avenues to solve grander problems faster by utilizing Quantum Mechanical properties at subatomic scales. These futuristic devices will likely never replace traditional HPC, but rather work alongside them to perform complex tasks, utilizing the best of decades of HPC and quantum computing research. We leverage the capabilities of scientific workflows to make traditional HPC and Quantum Computers work together. To demonstrate this capability, we implemented three algorithms: Grover's Search Algorithm, Shor's Factoring Algorithm, and a 4-node Traveling Salesman Algorithm. The algorithms' implementation and generated inputs are sent from ORNL HPC to IBMQ, the algorithms run on IBMQ, and the results return. The entire process is automated as a workflow by encoding it into the Parsl parallel scripting and workflow platform.
翻訳日:2023-10-06 19:30:44 公開日:2023-10-05
# 敵橋を焼く:バイナリレベル変異に対するロバストなWindowsマルウェア検出

Burning the Adversarial Bridges: Robust Windows Malware Detection Against Binary-level Mutations ( http://arxiv.org/abs/2310.03285v1 )

ライセンス: Link先を確認
Ahmed Abusnaina, Yizhen Wang, Sunpreet Arora, Ke Wang, Mihai Christodorescu, David Mohaisen(参考訳) 本稿では,既存のマルウェア検出システムの攻撃面について検討する。 我々は,実用的なバイナリレベルブラックボックス・アドバーサリー・マルウェア例の根本原因解析を行う。 さらに,検出エンジン内の揮発性特徴の感度を明らかにし,その利用性を示す。 ソフトウェア内の揮発性情報チャネルに注目し,パディング除去,ソフトウェアストリッピング,セクション間情報再設定という,攻撃面を排除するための3つのソフトウェア前処理手順を導入する。 さらに,新たなセクションインジェクション攻撃に対抗するために,ソフトウェア表現のためのグラフベースのセクション依存情報抽出手法を提案する。 提案手法は,マルウェア検出のロバスト化と敵意の緩和のために,ソフトウェア内の各種セクションに集約された情報を活用する。 実験の結果,従来のマルウェア検出モデルは敵の脅威に対して効果がないことがわかった。 しかし、揮発性情報を排除して攻撃面を大幅に低減することができる。 そこで本研究では,バイナリ操作攻撃の影響を軽減するための簡易イエト効率な手法を提案する。 グラフベースのマルウェア検出手法では,曲線スコア88.32\%以下の領域と,バイナリ操作攻撃を併用して88.19%の精度でマルウェアを正確に検出し,提案手法の有効性を示す。

Toward robust malware detection, we explore the attack surface of existing malware detection systems. We conduct root-cause analyses of the practical binary-level black-box adversarial malware examples. Additionally, we uncover the sensitivity of volatile features within the detection engines and exhibit their exploitability. Highlighting volatile information channels within the software, we introduce three software pre-processing steps to eliminate the attack surface, namely, padding removal, software stripping, and inter-section information resetting. Further, to counter the emerging section injection attacks, we propose a graph-based section-dependent information extraction scheme for software representation. The proposed scheme leverages aggregated information within various sections in the software to enable robust malware detection and mitigate adversarial settings. Our experimental results show that traditional malware detection models are ineffective against adversarial threats. However, the attack surface can be largely reduced by eliminating the volatile information. Therefore, we propose simple-yet-effective methods to mitigate the impacts of binary manipulation attacks. Overall, our graph-based malware detection scheme can accurately detect malware with an area under the curve score of 88.32\% and a score of 88.19% under a combination of binary manipulation attacks, exhibiting the efficiency of our proposed scheme.
翻訳日:2023-10-06 19:30:27 公開日:2023-10-05
# リスク適応信頼スコアを用いた大規模言語モデルのロバスト性向上のための形式主義とアプローチ

A Formalism and Approach for Improving Robustness of Large Language Models Using Risk-Adjusted Confidence Scores ( http://arxiv.org/abs/2310.03283v1 )

ライセンス: Link先を確認
Ke Shen and Mayank Kejriwal(参考訳) ChatGPTのような大規模言語モデル(LLM)は、自然言語処理(NLP)において驚くべきマイルストーンを達成した。 優れた性能にもかかわらず、モデルには重要なリスクが伴うことが知られている。 これらのモデルが現実世界のアプリケーションにデプロイされるため、自然言語推論(nli)のようなタスクでこれらのモデルによってもたらされるさまざまなリスクを体系的に理解する必要がある。 本稿では,意思決定リスクと複合リスクの2つの異なるタイプのリスクを定義し,形式化する。 また,リスク中心評価フレームワークと4つの新しい指標を提案し,これらのリスクをドメイン内およびドメイン外の両方で評価する。 最後に,これらのリスクを最小限に抑えるために,dwdと呼ばれるリスク調整型キャリブレーション手法を提案する。 4つのNLIベンチマーク、3つのベースライン、2つのLLM(ChatGPTを含む)を用いた詳細な実験は、評価フレームワークの実用性とDwDの有効性の両方を示している。 例えば、dwdを使用する場合、基礎となるllmは20.1%の低リスク推論タスク(ただし、llmはリスク調整なしに高リスクを誤認している)を処理でき、さらに19.8%の高リスクタスクをスキップすることができる。

Large Language Models (LLMs), such as ChatGPT, have achieved impressive milestones in natural language processing (NLP). Despite their impressive performance, the models are known to pose important risks. As these models are deployed in real-world applications, a systematic understanding of different risks posed by these models on tasks such as natural language inference (NLI), is much needed. In this paper, we define and formalize two distinct types of risk: decision risk and composite risk. We also propose a risk-centric evaluation framework, and four novel metrics, for assessing LLMs on these risks in both in-domain and out-of-domain settings. Finally, we propose a risk-adjusted calibration method called DwD for helping LLMs minimize these risks in an overall NLI architecture. Detailed experiments, using four NLI benchmarks, three baselines and two LLMs, including ChatGPT, show both the practical utility of the evaluation framework, and the efficacy of DwD in reducing decision and composite risk. For instance, when using DwD, an underlying LLM is able to address an extra 20.1% of low-risk inference tasks (but which the LLM erroneously deems high-risk without risk adjustment) and skip a further 19.8% of high-risk tasks, which would have been answered incorrectly.
翻訳日:2023-10-06 19:30:08 公開日:2023-10-05
# 翻訳されていないmRNA領域と関数予測のための5' UTR言語モデル

A 5' UTR Language Model for Decoding Untranslated Regions of mRNA and Function Predictions ( http://arxiv.org/abs/2310.03281v1 )

ライセンス: Link先を確認
Yanyi Chu, Dan Yu, Yupeng Li, Kaixuan Huang, Yue Shen, Le Cong, Jason Zhang, Mengdi Wang(参考訳) 5' UTRはmRNA分子の開始時の調節領域であり、翻訳過程の制御において重要な役割を担い、タンパク質の発現レベルに影響を与える。 言語モデルは、タンパク質およびゲノム配列の機能の復号化においてその効果を示した。 本稿では,5' UTR の言語モデルを導入し,それを UTR-LM と呼ぶ。 UTR-LMは複数の種の内因性5' UTRで事前訓練され、二次構造や最小自由エネルギーを含む教師付き情報によってさらに増強される。 UTR-LMを様々な下流タスクで微調整した。 このモデルは、平均リボソーム負荷を予測するために最大42%、翻訳効率とmRNA発現レベルを予測するために最大60%で、最もよく知られたベンチマークを上回った。 このモデルはまた、未翻訳領域内で未記載のリボソームエントリサイトを識別し、最高のベースラインに比べてAUPRを0.37から0.52に改善する。 さらに,翻訳効率の予測値の高い211個の新規5' UTRのライブラリを設計し,ウェットラブ法による評価を行った。 実験の結果, 治療に最適化された5' UTRと比較して, トップデザインのタンパク質生産量は32.5%増加した。

The 5' UTR, a regulatory region at the beginning of an mRNA molecule, plays a crucial role in regulating the translation process and impacts the protein expression level. Language models have showcased their effectiveness in decoding the functions of protein and genome sequences. Here, we introduced a language model for 5' UTR, which we refer to as the UTR-LM. The UTR-LM is pre-trained on endogenous 5' UTRs from multiple species and is further augmented with supervised information including secondary structure and minimum free energy. We fine-tuned the UTR-LM in a variety of downstream tasks. The model outperformed the best-known benchmark by up to 42% for predicting the Mean Ribosome Loading, and by up to 60% for predicting the Translation Efficiency and the mRNA Expression Level. The model also applies to identifying unannotated Internal Ribosome Entry Sites within the untranslated region and improves the AUPR from 0.37 to 0.52 compared to the best baseline. Further, we designed a library of 211 novel 5' UTRs with high predicted values of translation efficiency and evaluated them via a wet-lab assay. Experiment results confirmed that our top designs achieved a 32.5% increase in protein production level relative to well-established 5' UTR optimized for therapeutics.
翻訳日:2023-10-06 19:29:44 公開日:2023-10-05
# スライド画像の分類:何が重要か?

Classifying Whole Slide Images: What Matters? ( http://arxiv.org/abs/2310.03279v1 )

ライセンス: Link先を確認
Long Nguyen, Aiden Nibali, Joshua Millward, Zhen He(参考訳) 近年,超高解像度全スライド画像(WSI)の分類に多くのアルゴリズムが提案されている。 これらの新しいアルゴリズムは主に、スライドから抽出された小さな局所的なパッチからの情報と、最終予測器のよりグローバルな情報を効果的に集約することに焦点を当てている。 本稿では,WSI分類アルゴリズムにおいて重要な設計選択を徹底的に検討し,高い精度を達成するために何が最も重要かを検討する。 驚くべきことに、グローバルコンテキスト情報の取得が必ずしもパフォーマンスの向上を意味するとは限らないことが分かりました。 最もグローバルな情報をキャプチャするモデルは、グローバル情報が少ないモデルよりも一貫してパフォーマンスが悪くなります。 さらに,グローバルな情報をキャプチャしない,非常にシンプルなマルチインスタンス学習手法も,グローバルな情報をキャプチャするモデルとほぼ同等に動作する。 以上の結果から,wsi分類の最も重要な特徴は,細胞および組織微小環境の細部が最も顕著である局所的なパッチレベルにあることが示唆された。 もうひとつの驚くべき発見は、33のがんのより大きなセットで教師なしの事前訓練が、7つのがん(標的がんを含む)の小さなデータセットでの事前訓練に比べてはるかに悪いパフォーマンスをもたらすことだ。 より小さく、より焦点を絞ったデータセットで事前トレーニングすることで、機能抽出器は限られた機能空間をより有効に利用し、入力パッチの微妙な違いを判別できると仮定する。

Recently there have been many algorithms proposed for the classification of very high resolution whole slide images (WSIs). These new algorithms are mostly focused on finding novel ways to combine the information from small local patches extracted from the slide, with an emphasis on effectively aggregating more global information for the final predictor. In this paper we thoroughly explore different key design choices for WSI classification algorithms to investigate what matters most for achieving high accuracy. Surprisingly, we found that capturing global context information does not necessarily mean better performance. A model that captures the most global information consistently performs worse than a model that captures less global information. In addition, a very simple multi-instance learning method that captures no global information performs almost as well as models that capture a lot of global information. These results suggest that the most important features for effective WSI classification are captured at the local small patch level, where cell and tissue micro-environment detail is most pronounced. Another surprising finding was that unsupervised pre-training on a larger set of 33 cancers gives significantly worse performance compared to pre-training on a smaller dataset of 7 cancers (including the target cancer). We posit that pre-training on a smaller, more focused dataset allows the feature extractor to make better use of the limited feature space to better discriminate between subtle differences in the input patch.
翻訳日:2023-10-06 19:29:22 公開日:2023-10-05
# 大規模MIMOシステムにおけるパイロット汚染の軽減とIoTスケーラビリティの実現

Mitigating Pilot Contamination and Enabling IoT Scalability in Massive MIMO Systems ( http://arxiv.org/abs/2310.03278v1 )

ライセンス: Link先を確認
Muhammad Kamran Saeed and Ahmed E. Kamal and Ashfaq Khokhar(参考訳) 大規模MIMOは5Gネットワークの開発において重要な役割を果たすことが期待されている。 大規模MIMOシステムにおけるパイロット汚染とスケーラビリティの問題に対処する。 隣接する細胞で直交パイロット配列を再利用するという現在の慣行は、細胞間パイロット配列と細胞内パイロット配列の区別が困難になる。 可能な1つの解決策は直交パイロットシーケンスの数を増やすことである。これにより、データ送信よりもパイロット送信にコヒーレンスブロックのスペースを割くことになる。 これにより、大規模なMIMOシステムのスケーラビリティ、特に多数のIoTデバイスをセル内に収容する際のスケーラビリティも阻害される。 これらの課題を克服するために,IoTデバイスのデータ転送パターンに基づいた,革新的なパイロットアロケーション方式を提案する。 このスキームでは、個々のデバイスではなく、デバイスクラスタに直交パイロットシーケンスを割り当て、複数のデバイスが定期的なデータ送信に同じパイロットを使用することができる。 さらに,パイロット割当問題をグラフカラー化問題として定式化し,最大kカットグラフ分割手法を用いてマルチセルMIMOシステムにおけるパイロット汚染を克服する。 提案手法はスペクトル効率を大幅に改善し,大規模なMIMOシステムのスケーラビリティを実現する。例えば,10個の直交パイロットシーケンスを用いることで,12.5%の省略率で200個のデバイスに対応できる。

Massive MIMO is expected to play an important role in the development of 5G networks. This paper addresses the issue of pilot contamination and scalability in massive MIMO systems. The current practice of reusing orthogonal pilot sequences in adjacent cells leads to difficulty in differentiating incoming inter- and intra-cell pilot sequences. One possible solution is to increase the number of orthogonal pilot sequences, which results in dedicating more space of coherence block to pilot transmission than data transmission. This, in turn, also hinders the scalability of massive MIMO systems, particularly in accommodating a large number of IoT devices within a cell. To overcome these challenges, this paper devises an innovative pilot allocation scheme based on the data transfer patterns of IoT devices. The scheme assigns orthogonal pilot sequences to clusters of devices instead of individual devices, allowing multiple devices to utilize the same pilot for periodically transmitting data. Moreover, we formulate the pilot assignment problem as a graph coloring problem and use the max k-cut graph partitioning approach to overcome the pilot contamination in a multicell massive MIMO system. The proposed scheme significantly improves the spectral efficiency and enables the scalability of massive MIMO systems; for instance, by using ten orthogonal pilot sequences, we are able to accommodate 200 devices with only a 12.5% omission rate.
翻訳日:2023-10-06 19:29:02 公開日:2023-10-05
# フラグメントに基づく分子グラフの事前学習と微調整

Fragment-based Pretraining and Finetuning on Molecular Graphs ( http://arxiv.org/abs/2310.03274v1 )

ライセンス: Link先を確認
Kha-Dinh Luong, Ambuj Singh(参考訳) 分子グラフ上の特性予測はグラフニューラルネットワーク(GNN)の重要な応用である。 近年、未ラベルの分子データが多くなり、化学領域におけるGNNの自己教師型学習が急速に進展している。 本稿では,ノードレベルおよびグラフレベルの事前学習の限界を克服するための有望な中間点として,フラグメントレベルでのgnnの事前トレーニングを提案する。 基本サブグラフマイニングに関する最近の研究から借用するテクニックを借用し,大規模な事前学習データセットにまたがる,一般的な断片のコンパクトな語彙を得る。 抽出した語彙から,いくつかのフラグメントベースのコントラスト型および予測型事前学習タスクを導入する。 対照的な学習課題は、分子グラフに基づくものと、分子内の高次接続を表すフラグメントグラフに基づく2つの異なるGNNを同時に事前訓練する。 フラグメント埋め込みと対応する原子の分子グラフからの集約埋め込みの一貫性を強制することにより、両方の埋め込みが複数の解像度で構造情報をキャプチャすることを保証する。 さらに、フラグメントグラフの構造情報を用いて、グラフレベルの予測事前学習のための補助ラベルを抽出する。 下流の予測には, 事前学習した分子型およびフラグメント型gnnを併用し, 微調整時のフラグメント情報を活用する。 我々のモデルは8つの共通分子ベンチマークのうち5つの性能を向上し、長距離生物学的ベンチマークのパフォーマンスを少なくとも11.5%向上させる。

Property prediction on molecular graphs is an important application of Graph Neural Networks (GNNs). Recently, unlabeled molecular data has become abundant, which facilitates the rapid development of self-supervised learning for GNNs in the chemical domain. In this work, we propose pretraining GNNs at the fragment level, which serves as a promising middle ground to overcome the limitations of node-level and graph-level pretraining. Borrowing techniques from recent work on principle subgraph mining, we obtain a compact vocabulary of prevalent fragments that span a large pretraining dataset. From the extracted vocabulary, we introduce several fragment-based contrastive and predictive pretraining tasks. The contrastive learning task jointly pretrains two different GNNs: one based on molecular graphs and one based on fragment graphs, which represents high-order connectivity within molecules. By enforcing the consistency between the fragment embedding and the aggregated embedding of the corresponding atoms from the molecular graphs, we ensure that both embeddings capture structural information at multiple resolutions. The structural information of the fragment graphs is further exploited to extract auxiliary labels for the graph-level predictive pretraining. We employ both the pretrained molecular-based and fragment-based GNNs for downstream prediction, thus utilizing the fragment information during finetuning. Our models advance the performances on 5 out of 8 common molecular benchmarks and improve the performances on long-range biological benchmarks by at least 11.5%.
翻訳日:2023-10-06 19:28:39 公開日:2023-10-05
# 多目的表現学習における対象セグメンテーションのメカニズム解明のためのアブレーション研究

Ablation Study to Clarify the Mechanism of Object Segmentation in Multi-Object Representation Learning ( http://arxiv.org/abs/2310.03273v1 )

ライセンス: Link先を確認
Takayuki Komatsu, Yoshiyuki Ohmura, Yasuo Kuniyoshi(参考訳) マルチオブジェクト表現学習は、複雑な実世界の視覚入力を複数のオブジェクトの合成を使って表現することを目的としている。 表現学習法はしばしば教師なし学習を用いて、入力画像を個々のオブジェクトに分割し、それらのオブジェクトを各潜在ベクトルにエンコードする。 しかし,従来の手法が個々のオブジェクトの適切なセグメンテーションを実現したかは明らかになっていない。 さらに、以前の手法の多くは変分オートエンコーダ(vae)を用いて潜在ベクトルを正則化する。 したがって、VAE正則化が適切な対象セグメンテーションに寄与するかどうかは不明である。 多目的表現学習におけるオブジェクトセグメンテーションのメカニズムを明らかにするために,典型的なMONetのアブレーション研究を行った。 MONetは、アテンションマスクとアテンションマスクに対応する潜在ベクトルからなるペアを使用して複数のオブジェクトを表す。 各潜伏ベクトルは、入力画像及び注目マスクから符号化される。 そして、各潜在ベクトルから成分画像及び注意マスクを復号する。 MONetの損失関数は 1)入力画像と復号化成分画像の間の復元損失の総和。 2)潜伏ベクトルのVOE正則化損失,及び 3) 形状情報を明示的に符号化するための注意マスクの復元損失。 これら3つの損失関数に対するアブレーション実験を行い,セグメンテーション性能への影響を検討した。 その結果,vae正規化損失はセグメンテーション性能に影響を与えず,他の損失も影響した。 この結果に基づいて、注目マスクに対応する単一の潜伏ベクトルで表現される画像領域の注目マスクを最大化することが重要であると仮定する。 この仮説を,仮説と同じ機構を持つ新たな損失関数の評価により検証した。

Multi-object representation learning aims to represent complex real-world visual input using the composition of multiple objects. Representation learning methods have often used unsupervised learning to segment an input image into individual objects and encode these objects into each latent vector. However, it is not clear how previous methods have achieved the appropriate segmentation of individual objects. Additionally, most of the previous methods regularize the latent vectors using a Variational Autoencoder (VAE). Therefore, it is not clear whether VAE regularization contributes to appropriate object segmentation. To elucidate the mechanism of object segmentation in multi-object representation learning, we conducted an ablation study on MONet, which is a typical method. MONet represents multiple objects using pairs that consist of an attention mask and the latent vector corresponding to the attention mask. Each latent vector is encoded from the input image and attention mask. Then, the component image and attention mask are decoded from each latent vector. The loss function of MONet consists of 1) the sum of reconstruction losses between the input image and decoded component image, 2) the VAE regularization loss of the latent vector, and 3) the reconstruction loss of the attention mask to explicitly encode shape information. We conducted an ablation study on these three loss functions to investigate the effect on segmentation performance. Our results showed that the VAE regularization loss did not affect segmentation performance and the others losses did affect it. Based on this result, we hypothesize that it is important to maximize the attention mask of the image region best represented by a single latent vector corresponding to the attention mask. We confirmed this hypothesis by evaluating a new loss function with the same mechanism as the hypothesis.
翻訳日:2023-10-06 19:28:18 公開日:2023-10-05
# 変分多変量情報ボトルネック-変分損失のためのフレームワーク

Deep Variational Multivariate Information Bottleneck -- A Framework for Variational Losses ( http://arxiv.org/abs/2310.03311v1 )

ライセンス: Link先を確認
Eslam Abdelaleem and Ilya Nemenman and K. Michael Martini(参考訳) 変動次元減少法は高い精度、生成能力、頑健さで知られている。 これらの方法には多くの理論的正当性がある。 ここでは,情報理論に根ざした統一原理を導入し,既存の変分法を改良・一般化し,新しいものを設計する。 我々は,2つのベイズネットワークを相互に交換する多変量情報ボトルネックの解釈に基づく。 第1のネットワークをエンコーダグラフとして解釈し,データ圧縮時に保持すべき情報を指定する。 我々は,データ生成モデルを指定するデコーダグラフとして,第2のネットワークを解釈する。 この枠組みを用いて,dvib (deep variational information bottleneck) やvae (beta variational auto-encoders) ,dvcca (deep variational canonical correlation analysis) といった既存の次元低減法を再検討する。 このフレームワークは自然にDVCCAファミリーのアルゴリズムで圧縮と再構成のトレードオフパラメータを導入し、結果として新しいβ-DVCCAファミリーとなる。 さらに,2変数を同時に圧縮して圧縮した表現間の情報を保存する,新しい変動次元低減手法DVSIB(Deep variational symmetric informational bottleneck)を考案した。 これらのアルゴリズムを全て実装し、修正ノイズMNISTデータセット上で共有低次元潜在空間を生成する能力を評価する。 本研究では,データ構造によく適合するアルゴリズム(beta-DVCCAとDVSIB)が,分類精度と潜伏変数の次元性から,より優れた潜伏空間を生成することを示す。 このフレームワークは、他のマルチビュー表現学習アルゴリズムの統合に利用できると信じている。 さらに、問題固有の損失関数を導出するための簡単なフレームワークを提供する。

Variational dimensionality reduction methods are known for their high accuracy, generative abilities, and robustness. These methods have many theoretical justifications. Here we introduce a unifying principle rooted in information theory to rederive and generalize existing variational methods and design new ones. We base our framework on an interpretation of the multivariate information bottleneck, in which two Bayesian networks are traded off against one another. We interpret the first network as an encoder graph, which specifies what information to keep when compressing the data. We interpret the second network as a decoder graph, which specifies a generative model for the data. Using this framework, we rederive existing dimensionality reduction methods such as the deep variational information bottleneck (DVIB), beta variational auto-encoders (beta-VAE), and deep variational canonical correlation analysis (DVCCA). The framework naturally introduces a trade-off parameter between compression and reconstruction in the DVCCA family of algorithms, resulting in the new beta-DVCCA family. In addition, we derive a new variational dimensionality reduction method, deep variational symmetric informational bottleneck (DVSIB), which simultaneously compresses two variables to preserve information between their compressed representations. We implement all of these algorithms and evaluate their ability to produce shared low dimensional latent spaces on a modified noisy MNIST dataset. We show that algorithms that are better matched to the structure of the data (beta-DVCCA and DVSIB) produce better latent spaces as measured by classification accuracy and the dimensionality of the latent variables. We believe that this framework can be used to unify other multi-view representation learning algorithms. Additionally, it provides a straightforward framework for deriving problem-specific loss functions.
翻訳日:2023-10-06 19:23:03 公開日:2023-10-05
# 縮退推論のための大規模言語モデルを実現する簡潔で組織化された知覚

Concise and Organized Perception Facilitates Large Language Models for Deductive Reasoning ( http://arxiv.org/abs/2310.03309v1 )

ライセンス: Link先を確認
Shaotian Yan, Chen Shen, Junjie Liu and Jieping Ye(参考訳) 大きな言語モデル(llm)を利用して推論に取り組み、注目を集めている。 多くの前提(すなわち事実や規則)がエンティティ間の複雑な関係を包含し、マルチホップな推論を必要とするのが特徴である。 直感的な解決策の1つは、元のタスクを小さなサブタスクに分解し、複数のカジュアルな推論ステップを前方(選択参照)または後方(ランバダなど)にまとめることである。 しかし、これらの技術は必然的に多くの全体的な段階を必要とし、計算コストのかかる操作と誤解を招くステップの可能性が高くなる。 段階分解に加えて,人間の問題解決の別の側面から着想を得ている。 人間は最も関連性の高い情報を蒸留し、体系的に思考を整理する傾向がある(例えばマインドマップの作成)。 そこで我々は,Concise and Organized Perception (COP) という新たな推論手法を提案する。 COPは与えられたステートメントを慎重に分析し、冗長性を排除しつつ、最も関連する情報を効率的に識別する。 その後、モデルの推論プロセスに適応するより組織化された形式でLLMを誘導する。 簡潔で組織化された証明を知覚することにより、llmの推論能力が向上し、過剰な推論段階に起因するエラーのリスクが軽減される。 さらに、上記のアプローチと組み合わせることで、パフォーマンスをさらに向上できます。 一般的な3つの推論ベンチマーク(例: proofwriter、prontoqa、prontoqa-ood)の広範な実験結果によると、copは以前の最先端の手法を大きく上回っている。

Exploiting large language models (LLMs) to tackle deductive reasoning has garnered growing attention. It still remains highly challenging to achieve satisfactory results in complex deductive problems, characterized by plenty of premises (i.e., facts or rules) entailing intricate relationships among entities and requiring multi-hop reasoning. One intuitive solution is to decompose the original task into smaller sub-tasks, and then chain the multiple casual reasoning steps together in a forward (e.g., Selection-Inference) or backward (e.g., LAMBADA) direction. However, these techniques inevitably necessitate a large number of overall stages, leading to computationally expensive operations and a higher possibility of making misleading steps. In addition to stage-by-stage decomposition, we draw inspiration from another aspect of human problem-solving. Humans tend to distill the most relevant information and organize their thoughts systematically (e.g., creating mind maps), which assists them in answering questions or drawing conclusions precisely and quickly. In light of this, we propose a novel reasoning approach named Concise and Organized Perception (COP). COP carefully analyzes the given statements to efficiently identify the most pertinent information while eliminating redundancy. It then prompts the LLMs in a more organized form that adapts to the model's inference process. By perceiving concise and organized proofs, the deductive reasoning abilities of LLMs can be better elicited, and the risk of acquiring errors caused by excessive reasoning stages is mitigated. Furthermore, our approach can be combined with the aforementioned ones to further boost their performance. Extensive experimental results on three popular deductive benchmarks (i.e., ProofWriter, PrOntoQA and PrOntoQA-OOD) show that COP significantly outperforms previous state-of-the-art methods.
翻訳日:2023-10-06 19:22:33 公開日:2023-10-05
# パーソナライズドストーリー評価の学習

Learning Personalized Story Evaluation ( http://arxiv.org/abs/2310.03304v1 )

ライセンス: Link先を確認
Danqing Wang, Kevin Yang, Hanlin Zhu, Xiaomeng Yang, Andrew Cohen, Lei Li, Yuandong Tian(参考訳) 大規模言語モデル(LLM)は,(1)データ汚染,(2)多次元評価基準,(3)レビュアーの個人的嗜好から生じる主観性などの理由から,オープンエンドテキスト生成の性能を評価することは容易ではない。 このような問題に対処するため,我々は汚染のないオープンエンド世代アセスメントにおいてパーソナライズをモデル化することを提案する。 既存のデータセットを適切な匿名化と新しいパーソナライズラベルで再提案することにより,mpst と per-doc の2つの新しいデータセットをパーソナライズストーリー評価用に作成する。 さらに,レビュー者の好みを推測するパーソナライズドストーリー評価モデルを開発し,パーソナライズドストーリー評価を提供する。 特に、あるレビュアーの模範的なレビューがいくつかあることを踏まえると、PERSEは、新しいテキスト入力に対するレビュアーの詳細なレビューまたはいくつかの側面(興味や驚きなど)の詳細な比較を予測している。 実験結果から, PERSEはGPT-4よりも15.8%, ストーリーレーティングのKendall相関は13.7%, ペア選択予測精度は13.7%向上した。 データセットとコードはhttps://github.com/dqwang122/PerSEでリリースされる。

While large language models (LLMs) have shown impressive results for more objective tasks such as QA and retrieval, it remains nontrivial to evaluate their performance on open-ended text generation for reasons including (1) data contamination; (2) multi-dimensional evaluation criteria; and (3) subjectiveness stemming from reviewers' personal preferences. To address such issues, we propose to model personalization in an uncontaminated open-ended generation assessment. We create two new datasets Per-MPST and Per-DOC for personalized story evaluation, by re-purposing existing datasets with proper anonymization and new personalized labels. We further develop a personalized story evaluation model PERSE to infer reviewer preferences and provide a personalized evaluation. Specifically, given a few exemplary reviews from a particular reviewer, PERSE predicts either a detailed review or fine-grained comparison in several aspects (such as interestingness and surprise) for that reviewer on a new text input. Experimental results show that PERSE outperforms GPT-4 by 15.8% on Kendall correlation of story ratings, and by 13.7% on pairwise preference prediction accuracy. Both datasets and code will be released at https://github.com/dqwang122/PerSE.
翻訳日:2023-10-06 19:22:03 公開日:2023-10-05
# AI研究エージェントとしての大規模言語モデルのベンチマーク

Benchmarking Large Language Models As AI Research Agents ( http://arxiv.org/abs/2310.03302v1 )

ライセンス: Link先を確認
Qian Huang, Jian Vora, Percy Liang, Jure Leskovec(参考訳) 科学的実験は仮説の作成、実験の設計、実験の実行、結果の分析を反復的に行う。 長期的なタスクを実行するAI研究エージェントを構築できるだろうか? このようなオープンな意思決定タスクで研究エージェントを構築し評価するために、タスク記述とデータセットが与えられた場合、我々は機械学習エンジニアリングの問題に焦点を当て、ハイパフォーマンスなモデルを構築します。 本稿では,AI研究エージェントをベンチマークするMLタスクスイートであるMLAgentBenchを提案する。 エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。 これらのアクションによって、エージェントは実験を実行し、結果を分析し、データ処理、アーキテクチャ、トレーニングプロセスなど、マシンラーニングパイプライン全体のコードを変更することができる。 ベンチマークはエージェントのパフォーマンスを、パフォーマンスと効率に関するさまざまな指標に対して客観的に評価する。 また、このような環境で実験ループを自動実行するLLMベースの研究エージェントを設計する。 実験により, GPT-4をベースとした研究エージェントは, MLAgentBenchの多くのタスクにおいて, 説得力のあるMLモデルを構築できることがわかった。 しかしながら、成功率は、確立された古いデータセットの90%近くから、最近のKaggle Challenge(LLMモデルの事前トレーニング中に利用できない)の10倍、BabyLMのような新しい研究課題の0倍まで、大きく異なる。 最後に, 長期計画や幻覚など, LLMをベースとした研究エージェントにとって重要な課題をいくつか挙げる。 私たちのコードはhttps://github.com/snap-stanford/mlagentbenchでリリースしています。

Scientific experimentation involves an iterative process of creating hypotheses, designing experiments, running experiments, and analyzing the results. Can we build AI research agents to perform these long-horizon tasks? To take a step towards building and evaluating research agents on such open-ended decision-making tasks, we focus on the problem of machine learning engineering: given a task description and a dataset, build a high-performing model. In this paper, we propose MLAgentBench, a suite of ML tasks for benchmarking AI research agents. Agents can perform actions like reading/writing files, executing code, and inspecting outputs. With these actions, agents could run experiments, analyze the results, and modify the code of entire machine learning pipelines, such as data processing, architecture, training processes, etc. The benchmark then automatically evaluates the agent's performance objectively over various metrics related to performance and efficiency. We also design an LLM-based research agent to automatically perform experimentation loops in such an environment. Empirically, we find that a GPT-4-based research agent can feasibly build compelling ML models over many tasks in MLAgentBench, displaying highly interpretable plans and actions. However, the success rates vary considerably; they span from almost 90\% on well-established older datasets to as low as 10\% on recent Kaggle Challenges -- unavailable during the LLM model's pretraining -- and even 0\% on newer research challenges like BabyLM. Finally, we identify several key challenges for LLM-based research agents such as long-term planning and hallucination. Our code is released at https://github.com/snap-stanford/MLAgentBench.
翻訳日:2023-10-06 19:21:38 公開日:2023-10-05
# GFlowNetの部分的推論のための学習エネルギー分解

Learning Energy Decompositions for Partial Inference of GFlowNets ( http://arxiv.org/abs/2310.03301v1 )

ライセンス: Link先を確認
Hyosoon Jang, Minsu Kim, Sungsoo Ahn(参考訳) 本稿では, ボルツマンエネルギー分布から生成フローネットワーク(GFlowNets)を解析し, 一連の動作を通して物体をサンプリングする。 特に、部分推論によるGFlowNetの改善に焦点を当て、中間状態や遷移の評価によるフロー関数のトレーニングを行う。 この目的のために、最近開発されたGFlowNetは、中間状態のエネルギー評価に基づいてフロー関数を再パラメータ化する。 しかし このような中間エネルギーの評価は (i)値段が高すぎる、または評価できない (II)行動の順序に沿って大きなエネルギー変動の下で誤った学習信号も提供する。 本稿では,GFlowNets(LED-GFN)の学習エネルギー分解手法を提案する。 私たちの主なアイデアは (i)状態遷移で定義される学習可能なポテンシャル関数に対象のエネルギーを分解する、及び (ii)ポテンシャル関数を用いて流れ関数を再パラメータ化する。 特に,情報に富む地域信用を創出するために,行動の順序をスムーズに変化させる可能性を定式化することを提案する。 また、学習したポテンシャルでGFlowNetをトレーニングすることで、最適なポリシーを維持できることも注目に値する。 分子グラフ,RNA配列などの非構造および最大独立集合の生成を含む5つの問題において,LED-GFNの優位性を実証的に検証した。

This paper studies generative flow networks (GFlowNets) to sample objects from the Boltzmann energy distribution via a sequence of actions. In particular, we focus on improving GFlowNet with partial inference: training flow functions with the evaluation of the intermediate states or transitions. To this end, the recently developed forward-looking GFlowNet reparameterizes the flow functions based on evaluating the energy of intermediate states. However, such an evaluation of intermediate energies may (i) be too expensive or impossible to evaluate and (ii) even provide misleading training signals under large energy fluctuations along the sequence of actions. To resolve this issue, we propose learning energy decompositions for GFlowNets (LED-GFN). Our main idea is to (i) decompose the energy of an object into learnable potential functions defined on state transitions and (ii) reparameterize the flow functions using the potential functions. In particular, to produce informative local credits, we propose to regularize the potential to change smoothly over the sequence of actions. It is also noteworthy that training GFlowNet with our learned potential can preserve the optimal policy. We empirically verify the superiority of LED-GFN in five problems including the generation of unstructured and maximum independent sets, molecular graphs, and RNA sequences.
翻訳日:2023-10-06 19:21:13 公開日:2023-10-05
# 非階層的マルチフィデリティ適応サンプリングのための潜在変数アプローチ

A Latent Variable Approach for Non-Hierarchical Multi-Fidelity Adaptive Sampling ( http://arxiv.org/abs/2310.03298v1 )

ライセンス: Link先を確認
Yi-Ping Chen, Liwei Wang, Yigitcan Comlek, Wei Chen(参考訳) MF(Multi-fidelity)法は、様々な低忠実度(LF)モデルのデータを組み込むことで、サロゲートモデリングと設計最適化の強化で人気を集めている。 既存のmf法は固定データセットを想定しているが、フィデリティモデル間で動的にリソースを割り当てる適応サンプリング手法は、設計空間の探索と活用において高い効率を達成することができる。 しかし、既存のMF法の多くは、階層的なフィデリティレベルの仮定に依存するか、複数のフィデリティレベルの相互相関を捉えず、将来のサンプル値の定量化と適応サンプリングのナビゲートに利用している。 このハードルに対処するために、異なる忠実度モデルに対する潜伏埋め込みとそれに関連する事前解析に基づくフレームワークを提案し、それらの相関関係を適応サンプリングに明示的に活用する。 このフレームワークでは、まず、高忠実度モデル(HF)モデルを用いて、興味のある場所を最大化し、次に、次のサンプルを全ての忠実度レベルにわたって探索し、第1ステップで特定した位置におけるユニットコスト当たりの改善を最大化する。 これは、異なる忠実度モデルを解釈可能な潜在空間にマッピングし、階層的忠実度レベルを仮定することなくそれらの相関を捕捉する単一の潜在可変ガウス過程(LVGP)モデルによって実現される。 lvgpにより,lfサンプリング候補がhf応答にどのように影響するかを事前分析により評価し,次のサンプルを最善の利得対コスト比で決定できる。 実験事例を通して,提案手法がmfグローバルフィッティング(gf)とベイズ最適化(bo)の収束率とロバスト性において,ベンチマーク手法よりも優れていることを示す。 さらに、この方法は、取得関数を単に変更するだけでGFとBOを切り替える柔軟性を提供する。

Multi-fidelity (MF) methods are gaining popularity for enhancing surrogate modeling and design optimization by incorporating data from various low-fidelity (LF) models. While most existing MF methods assume a fixed dataset, adaptive sampling methods that dynamically allocate resources among fidelity models can achieve higher efficiency in the exploring and exploiting the design space. However, most existing MF methods rely on the hierarchical assumption of fidelity levels or fail to capture the intercorrelation between multiple fidelity levels and utilize it to quantify the value of the future samples and navigate the adaptive sampling. To address this hurdle, we propose a framework hinged on a latent embedding for different fidelity models and the associated pre-posterior analysis to explicitly utilize their correlation for adaptive sampling. In this framework, each infill sampling iteration includes two steps: We first identify the location of interest with the greatest potential improvement using the high-fidelity (HF) model, then we search for the next sample across all fidelity levels that maximize the improvement per unit cost at the location identified in the first step. This is made possible by a single Latent Variable Gaussian Process (LVGP) model that maps different fidelity models into an interpretable latent space to capture their correlations without assuming hierarchical fidelity levels. The LVGP enables us to assess how LF sampling candidates will affect HF response with pre-posterior analysis and determine the next sample with the best benefit-to-cost ratio. Through test cases, we demonstrate that the proposed method outperforms the benchmark methods in both MF global fitting (GF) and Bayesian Optimization (BO) problems in convergence rate and robustness. Moreover, the method offers the flexibility to switch between GF and BO by simply changing the acquisition function.
翻訳日:2023-10-06 19:20:55 公開日:2023-10-05
# プレトレーニングモデルはデータセットの蒸留を支援するか?

Can pre-trained models assist in dataset distillation? ( http://arxiv.org/abs/2310.03295v1 )

ライセンス: Link先を確認
Yao Lu, Xuguang Chen, Yuchen Zhang, Jianyang Gu, Tianle Zhang, Yifan Zhang, Xiaoniu Yang, Qi Xuan, Kai Wang, Yang You(参考訳) Dataset Distillation (DD)は、大規模なオリジナルデータセットからの知識を、効率的なトレーニングのために小さな合成データセットにカプセル化する、優れたテクニックである。 一方、事前訓練モデル(PTM)は知識リポジトリとして機能し、元のデータセットからの広範な情報を含んでいる。 PTMは知識を合成データセットに効果的に転送し、DDを正確に導くことができますか? この目的のために予備実験を行い, PTMsのDDへの寄与を確認した。 その後、初期化パラメータ、モデルアーキテクチャ、エポックトレーニング、ドメイン知識など、さまざまなオプションをPTMで体系的に研究する。 1) モデル多様性の増大は、合成データセットの性能を向上させる。 2) 準最適モデルは,特定の場合においてDDを支援し,よく訓練されたモデルより優れる。 3)ドメイン固有のPTMはDDには必須ではないが,適切なドメインマッチングが不可欠である。 最後に、最適な選択肢を選択することで、ベースラインDD法よりもクロスアーキテクチャの一般化を大幅に改善する。 私たちの研究によって、より優れたDD技術の開発が促進されることを願っています。 私たちのコードはhttps://github.com/yaolu-zjut/DDInterpreter.comから入手可能です。

Dataset Distillation (DD) is a prominent technique that encapsulates knowledge from a large-scale original dataset into a small synthetic dataset for efficient training. Meanwhile, Pre-trained Models (PTMs) function as knowledge repositories, containing extensive information from the original dataset. This naturally raises a question: Can PTMs effectively transfer knowledge to synthetic datasets, guiding DD accurately? To this end, we conduct preliminary experiments, confirming the contribution of PTMs to DD. Afterwards, we systematically study different options in PTMs, including initialization parameters, model architecture, training epoch and domain knowledge, revealing that: 1) Increasing model diversity enhances the performance of synthetic datasets; 2) Sub-optimal models can also assist in DD and outperform well-trained ones in certain cases; 3) Domain-specific PTMs are not mandatory for DD, but a reasonable domain match is crucial. Finally, by selecting optimal options, we significantly improve the cross-architecture generalization over baseline DD methods. We hope our work will facilitate researchers to develop better DD techniques. Our code is available at https://github.com/yaolu-zjut/DDInterpreter.
翻訳日:2023-10-06 19:20:21 公開日:2023-10-05
# LightSeq:ロングコンテキストトランスの分散トレーニングのためのシーケンスレベル並列処理

LightSeq: Sequence Level Parallelism for Distributed Training of Long Context Transformers ( http://arxiv.org/abs/2310.03294v1 )

ライセンス: Link先を確認
Dacheng Li, Rulin Shao, Anze Xie, Eric P. Xing, Joseph E. Gonzalez, Ion Stoica, Xuezhe Ma, Hao Zhang(参考訳) 大きな言語モデル(LLM)のコンテキスト長の増大は、基本的な新機能を解放すると同時に、トレーニングのメモリフットプリントを大幅に向上させる。 従来のMegatron-LMパーティションや異なるアテンションヘッドの並列計算のようなモデル並列システムは、大きな通信量をもたらすため、アテンションヘッドの数を超えてスケールできないため、採用を妨げる。 本稿では,LLMの長期学習のための新しいアプローチLightSeqを紹介する。 LightSeqには多くの大きな利点がある。 第一に、lightseq はシーケンス次元を分割するので、モデルアーキテクチャには依存せず、マルチヘッド、マルチクエリ、グループクエリなどの様々な注意ヘッドを持つモデルにも容易に適用できる。 第二に、LightSeqは一般的なLLMのMegatron-LMよりも4.7倍の通信を必要とするだけでなく、計算による通信も必要としている。 トレーニング時間を短縮するため、LightSeqはメモリ効率の注意のためにフォワード計算をバイパスする新しい勾配チェックポイント方式を備えている。 Llama-7B 上の LightSeq と,32K から 512K までのシーケンス長の変動について評価した。 シングルノードとクロスノードのトレーニングに関する包括的な実験を通じて、lightseqは最大1.24-2.01xのエンドツーエンドのスピードアップを達成し、megatron-lmと比較して頭数が少ないモデルでは2-8倍長いシーケンス長を実現していることを示した。 コードはhttps://github.com/rulinshao/lightseqで入手できる。

Increasing the context length of large language models (LLMs) unlocks fundamentally new capabilities, but also significantly increases the memory footprints of training. Previous model-parallel systems such as Megatron-LM partition and compute different attention heads in parallel, resulting in large communication volumes, so they cannot scale beyond the number of attention heads, thereby hindering its adoption. In this paper, we introduce a new approach, LightSeq, for long-context LLMs training. LightSeq has many notable advantages. First, LightSeq partitions over the sequence dimension, hence is agnostic to model architectures and readily applicable for models with varying numbers of attention heads, such as Multi-Head, Multi-Query and Grouped-Query attention. Second, LightSeq not only requires up to 4.7x less communication than Megatron-LM on popular LLMs but also overlaps the communication with computation. To further reduce the training time, LightSeq features a novel gradient checkpointing scheme to bypass an forward computation for memory-efficient attention. We evaluate LightSeq on Llama-7B and its variants with sequence lengths from 32K to 512K. Through comprehensive experiments on single and cross-node training, we show that LightSeq achieves up to 1.24-2.01x end-to-end speedup, and a 2-8x longer sequence length on models with fewer heads, compared to Megatron-LM. Codes will be available at https://github.com/RulinShao/LightSeq.
翻訳日:2023-10-06 19:20:03 公開日:2023-10-05
# ユーザの意図検出のための質問による大規模言語モデルのための対話応答生成エージェント

A New Dialogue Response Generation Agent for Large Language Models by Asking Questions to Detect User's Intentions ( http://arxiv.org/abs/2310.03293v1 )

ライセンス: Link先を確認
Siwei Wu, Xiangqing Shen, and Rui Xia(参考訳) ChatGPTのような大規模言語モデル(LLM)は、最近、オープンドメイン生成機能のために様々なNLPタスクに適用されている。 しかし,対話タスクにllmを適用する際の問題点は2つある。 1. 対話の過程では, LLM で見落とされる暗黙の意図がある場合がある。 その結果、生成された応答はユーザの意図と一致しなかった。 2. LLM が全分野を包括的に包括する可能性は低い。 特定の分野において、それらの知識は不完全であり、LLMは最新の知識をリアルタイムで更新することはできない。 これらの問題に対処するために,我々は,ユーザによる\textbf{i}mplicit in\textbf{t}entions} (\textbf{edit}) を問うことで,llm を \textbf{e}nhance 対話応答生成のためのフレームワークを提案する。 第一に、editは、対話コンテキストに関するオープン質問を潜在的なユーザの意図として生成し、editは、それぞれ、llmと対話し、ドメイン固有の知識ベースで検索することで、これらの質問に回答し、llmを使用して、質問に対する適切な回答を余分な知識として選択し、editは、これらの余分な知識を明示的に統合することにより、応答生成を強化する。 さらに、過去の質問生成は、文脈における回答による質問のみに焦点を当てている。 オープンな質問をするために、コンテキストオープンクエスト(COQ)データセットを構築します。 タスク指向対話タスク(ウィザード・オブ・ウィキペディアとホール-E)では、EDITは他のLLMよりも優れていた。

Large Language Models (LLMs), such as ChatGPT, have recently been applied to various NLP tasks due to its open-domain generation capabilities. However, there are two issues with applying LLMs to dialogue tasks. 1. During the dialogue process, users may have implicit intentions that might be overlooked by LLMs. Consequently, generated responses couldn't align with the user's intentions. 2. It is unlikely for LLMs to encompass all fields comprehensively. In certain specific domains, their knowledge may be incomplete, and LLMs cannot update the latest knowledge in real-time. To tackle these issues, we propose a framework~\emph{using LLM to \textbf{E}nhance dialogue response generation by asking questions to \textbf{D}etect user's \textbf{I}mplicit in\textbf{T}entions} (\textbf{EDIT}). Firstly, EDIT generates open questions related to the dialogue context as the potential user's intention; Then, EDIT answers those questions by interacting with LLMs and searching in domain-specific knowledge bases respectively, and use LLMs to choose the proper answers to questions as extra knowledge; Finally, EDIT enhances response generation by explicitly integrating those extra knowledge. Besides, previous question generation works only focus on asking questions with answers in context. In order to ask open questions, we construct a Context-Open-Question (COQ) dataset. On two task-oriented dialogue tasks (Wizard of Wikipedia and Holl-E), EDIT outperformed other LLMs.
翻訳日:2023-10-06 19:19:34 公開日:2023-10-05
# SoK:高レベル自然言語要求からのアクセス制御ポリシーの生成

SoK: Access Control Policy Generation from High-level Natural Language Requirements ( http://arxiv.org/abs/2310.03292v1 )

ライセンス: Link先を確認
Sakuna Harinda Jayasundara, Nalin Asanka Gamagedara Arachchilage, Giovanni Russello(参考訳) 管理者中心のアクセス制御の障害はデータ漏洩を引き起こし、組織は金銭的損失と評判の損傷のリスクを負う。 既存のグラフィカルポリシー設定ツールと自動ポリシー生成フレームワークは、管理者がそのような障害を避けることでアクセス制御ポリシーの設定と生成を支援する。 しかし、グラフィカルなポリシー設定ツールはヒューマンエラーを起こしやすいため、使用できない。 一方、自動ポリシー生成フレームワークは誤った予測をしがちであり、信頼できない。 そこで,ユーザビリティと信頼性を向上させるために,49冊の出版物を分析し,それらのツールやフレームワーク,限界を特定する体系的な文献レビューを行った。 これらの制限を特定すれば、アクセス制御の障害を避けながら、効果的なアクセス制御ポリシー生成ソリューションの開発に役立つだろう。

Administrator-centered access control failures can cause data breaches, putting organizations at risk of financial loss and reputation damage. Existing graphical policy configuration tools and automated policy generation frameworks attempt to help administrators configure and generate access control policies by avoiding such failures. However, graphical policy configuration tools are prone to human errors, making them unusable. On the other hand, automated policy generation frameworks are prone to erroneous predictions, making them unreliable. Therefore, to find ways to improve their usability and reliability, we conducted a Systematic Literature Review analyzing 49 publications, to identify those tools, frameworks, and their limitations. Identifying those limitations will help develop effective access control policy generation solutions while avoiding access control failures.
翻訳日:2023-10-06 19:19:07 公開日:2023-10-05
# デノジング拡散ステップアウェアモデル

Denoising Diffusion Step-aware Models ( http://arxiv.org/abs/2310.03337v1 )

ライセンス: Link先を確認
Shuai Yang, Yukang Chen, Luozhou Wang, Shu Liu, Yingcong Chen(参考訳) Denoising Diffusion Probabilistic Models (DDPM) は、さまざまな領域にわたるデータ生成で人気を集めている。 しかし、大きなボトルネックは、生成プロセスのステップ毎にネットワーク全体の計算が必要であり、計算オーバーヘッドが高くなることである。 本稿では,この課題に対処するための新しいフレームワークDDSM(Denoising Diffusion Step-Aware Models)を提案する。 従来のアプローチとは異なり、DDSMは進化探索によって決定されるように、各生成ステップの重要性に応じてサイズが適応されるニューラルネットワークのスペクトルを用いる。 このステップワイズネットワークのばらつきは、冗長な計算作業を、特に批判の少ないステップで効果的に回避し、拡散モデルの効率を向上する。 さらに、ステップアウェア設計はDDIMや潜時拡散といった他の効率ゲージ拡散モデルとシームレスに統合することができ、計算節約の範囲を広げることができる。 実験的な評価では、DDSMはCIFAR-10で49%、CelebA-HQで61%、LSUN-bedroomで59%、AFHQで71%、ImageNetで76%の計算節約を達成した。 私たちのコードとモデルは公開されます。

Denoising Diffusion Probabilistic Models (DDPMs) have garnered popularity for data generation across various domains. However, a significant bottleneck is the necessity for whole-network computation during every step of the generative process, leading to high computational overheads. This paper presents a novel framework, Denoising Diffusion Step-aware Models (DDSM), to address this challenge. Unlike conventional approaches, DDSM employs a spectrum of neural networks whose sizes are adapted according to the importance of each generative step, as determined through evolutionary search. This step-wise network variation effectively circumvents redundant computational efforts, particularly in less critical steps, thereby enhancing the efficiency of the diffusion model. Furthermore, the step-aware design can be seamlessly integrated with other efficiency-geared diffusion models such as DDIMs and latent diffusion, thus broadening the scope of computational savings. Empirical evaluations demonstrate that DDSM achieves computational savings of 49% for CIFAR-10, 61% for CelebA-HQ, 59% for LSUN-bedroom, 71% for AFHQ, and 76% for ImageNet, all without compromising the generation quality. Our code and models will be publicly available.
翻訳日:2023-10-06 19:11:41 公開日:2023-10-05
# 動的サンプル選択による連続テスト時間領域適応

Continual Test-time Domain Adaptation via Dynamic Sample Selection ( http://arxiv.org/abs/2310.03335v1 )

ライセンス: Link先を確認
Yanshuo Wang, Jie Hong, Ali Cheraghian, Shafin Rahman, David Ahmedt-Aristizabal, Lars Petersson, Mehrtash Harandi(参考訳) 連続テスト時ドメイン適応(CTDA)の目的は、ソースデータにアクセスすることなく、トレーニング済みモデルをターゲットドメインのシーケンスに徐々に適応させることである。 本稿では,ctdaのための動的サンプル選択法を提案する。 dssは動的しきい値付け、正の学習、負の学習プロセスで構成される。 伝統的に、モデルはラベルのない未知の環境データから学び、自己学習を通じてパラメータを更新するために全てのサンプルの擬似ラベルに等しく依存する。 しかし、これらの擬似ラベルにはノイズ予測が存在するため、全てのサンプルは等しく信頼できない。 そこで,本手法では,まず動的しきい値決めモジュールを用いて,高品質なサンプルから疑わしい品質を選択する。 選択された低品質サンプルは、誤って予測される可能性が高い。 そこで,良質なサンプルと低品質のサンプルの両方に共同正負の学習を適用し,誤った情報を使用するリスクを低減した。 我々は,画像領域におけるCTDA法の有効性を実証する広範な実験を行い,その有効性を実証した。 さらに,このアプローチは3d point cloudドメインでも評価され,その汎用性とより広範な適用可能性を示している。

The objective of Continual Test-time Domain Adaptation (CTDA) is to gradually adapt a pre-trained model to a sequence of target domains without accessing the source data. This paper proposes a Dynamic Sample Selection (DSS) method for CTDA. DSS consists of dynamic thresholding, positive learning, and negative learning processes. Traditionally, models learn from unlabeled unknown environment data and equally rely on all samples' pseudo-labels to update their parameters through self-training. However, noisy predictions exist in these pseudo-labels, so all samples are not equally trustworthy. Therefore, in our method, a dynamic thresholding module is first designed to select suspected low-quality from high-quality samples. The selected low-quality samples are more likely to be wrongly predicted. Therefore, we apply joint positive and negative learning on both high- and low-quality samples to reduce the risk of using wrong information. We conduct extensive experiments that demonstrate the effectiveness of our proposed method for CTDA in the image domain, outperforming the state-of-the-art results. Furthermore, our approach is also evaluated in the 3D point cloud domain, showcasing its versatility and potential for broader applicability.
翻訳日:2023-10-06 19:11:17 公開日:2023-10-05
# リアルタイム深層学習に基づくネットワーク侵入検知システムにおけるヒューリスティック防御手法を用いた非目標ホワイトボックス攻撃

Untargeted White-box Adversarial Attack with Heuristic Defence Methods in Real-time Deep Learning based Network Intrusion Detection System ( http://arxiv.org/abs/2310.03334v1 )

ライセンス: Link先を確認
Khushnaseeb Roshan, Aasim Zafar, Sheikh Burhan Ul Haque(参考訳) ネットワーク侵入検知システム(NIDS)は、様々なサイバーセキュリティ脅威やネットワーク攻撃からコンピュータネットワークを保護するための重要なコンポーネントである。 しかし、NIDS自体が攻撃され、より具体的に脆弱である不運な状況を考えてみましょう。 . Adversarial Machine Learning (AML)では、悪意あるアクターは機械学習(ML)とディープラーニング(DL)モデルを騙して、意図的な敵の例で誤った予測を生成する。 これらの逆の摂動例は、MLとDLベースのシステムの最大の脆弱性となり、NIDSのようなリアルタイムおよびミッションクリティカルなアプリケーションで採用する上で大きな障害となっている。 AMLは新たな研究領域であり、様々なサイバーセキュリティスレッドからコンピュータネットワークを保護するために、敵攻撃とその防衛戦略の詳細な研究が必要である。 本研究は, NIDS, 敵攻撃, 防衛機構に関する重要な側面を網羅し, ML と DL をベースとした NIDS の堅牢性を高めることを目的とする。 我々は,FGSM(Fast Gradient Sign Method),JSMA(Jacobian Saliency Map Attack),PGD(Projected Gradient Descent),Cerini & Wagner(C&W)の4つの強力な攻撃手法を実装した。 さまざまなパフォーマンスメトリクスの観点から、パフォーマンスを詳細に分析しました。 さらに、敵の攻撃状況下でのNIDS堅牢性を改善するため、3つのヒューリスティックス防衛戦略(AT)、GDA(Gaussian Data Augmentation)、HC(High Confidence)が実施されている。 完全なワークフローは、データパケットフローを伴うリアルタイムネットワークで実証される。 この研究は、コンピュータネットワークのセキュリティの観点から、AMLとその実装に関心のある研究者に、全体的な背景を提供する。

Network Intrusion Detection System (NIDS) is a key component in securing the computer network from various cyber security threats and network attacks. However, consider an unfortunate situation where the NIDS is itself attacked and vulnerable more specifically, we can say, How to defend the defender?. In Adversarial Machine Learning (AML), the malicious actors aim to fool the Machine Learning (ML) and Deep Learning (DL) models to produce incorrect predictions with intentionally crafted adversarial examples. These adversarial perturbed examples have become the biggest vulnerability of ML and DL based systems and are major obstacles to their adoption in real-time and mission-critical applications such as NIDS. AML is an emerging research domain, and it has become a necessity for the in-depth study of adversarial attacks and their defence strategies to safeguard the computer network from various cyber security threads. In this research work, we aim to cover important aspects related to NIDS, adversarial attacks and its defence mechanism to increase the robustness of the ML and DL based NIDS. We implemented four powerful adversarial attack techniques, namely, Fast Gradient Sign Method (FGSM), Jacobian Saliency Map Attack (JSMA), Projected Gradient Descent (PGD) and Carlini & Wagner (C&W) in NIDS. We analyzed its performance in terms of various performance metrics in detail. Furthermore, the three heuristics defence strategies, i.e., Adversarial Training (AT), Gaussian Data Augmentation (GDA) and High Confidence (HC), are implemented to improve the NIDS robustness under adversarial attack situations. The complete workflow is demonstrated in real-time network with data packet flow. This research work provides the overall background for the researchers interested in AML and its implementation from a computer network security point of view.
翻訳日:2023-10-06 19:10:58 公開日:2023-10-05
# 規制コンプライアンス監視のためのリアルタイムマルチモーダルオブジェクト検出とエッジ追跡

Real-time Multi-modal Object Detection and Tracking on Edge for Regulatory Compliance Monitoring ( http://arxiv.org/abs/2310.03333v1 )

ライセンス: Link先を確認
Jia Syuen Lim, Ziwei Wang, Jiajun Liu, Abdelwahed Khamis, Reza Arablouei, Robert Barlow, Ryan McAllister(参考訳) 様々な産業領域にわたる規制コンプライアンス監査には、品質保証とトレーサビリティの強化が必要である。 このような監査に対する現在の手動および断続的なアプローチは大きな課題をもたらし、監視プロセスの監視につながる可能性がある。 これらの問題に対処するために,3次元飛行時間とRGBカメラを用いたリアルタイムマルチモーダルセンシングシステムと,エッジAIデバイスにおける教師なし学習技術を導入する。 これにより、連続的なオブジェクト追跡が可能になり、記録保持と手動介入の最小化の効率が向上する。 我々は,アグリフード施設内の包丁衛生状況において,rgbカメラによる閉塞や低照度問題に対する効果を強調しながら,その可能性を様々な産業監視環境にまたがる。

Regulatory compliance auditing across diverse industrial domains requires heightened quality assurance and traceability. Present manual and intermittent approaches to such auditing yield significant challenges, potentially leading to oversights in the monitoring process. To address these issues, we introduce a real-time, multi-modal sensing system employing 3D time-of-flight and RGB cameras, coupled with unsupervised learning techniques on edge AI devices. This enables continuous object tracking thereby enhancing efficiency in record-keeping and minimizing manual interventions. While we validate the system in a knife sanitization context within agrifood facilities, emphasizing its prowess against occlusion and low-light issues with RGB cameras, its potential spans various industrial monitoring settings.
翻訳日:2023-10-06 19:10:19 公開日:2023-10-05
# 文脈内学習を近似するファインチューン言語モデル

Fine-tune Language Models to Approximate Unbiased In-context Learning ( http://arxiv.org/abs/2310.03331v1 )

ライセンス: Link先を確認
Timothy Chu, Zhao Song, Chiwun Yang(参考訳) In-context Learning (ICL)は、大規模言語モデル(LLM)の驚くべき創発的能力である。 複数の入出力ペアを例に含むプロンプトを提示し、新しいクエリ入力を導入することで、モデルが対応する出力を生成することができる。 しかしながら、モデルのパフォーマンスは、コンテキスト内学習を実装する際の入力プロンプトの品質に大きく依存する。 バイアスや不均衡な入力プロンプトは言語モデルの性能を著しく低下させる。 この問題に対処するために、RICL(Reweighted In-context Learning)と呼ばれる再重み付きアルゴリズムを導入する。 このアルゴリズムは、不偏検証セットを用いて言語モデルを微調整し、各入力出力サンプルの最適な重み付けを決定し、非偏りの文脈学習を近似する。 さらに,低コスト再重み付けアルゴリズムであるlaricl(reweighted in-context learningの線形近似)という線形最適重み近似アルゴリズムも導入する。 このアルゴリズムは、効果的な結果を提供しながら、最小限のトレーニングコストを必要とする。 数値データセット上で行った実験により,アルゴリズムの収束を証明し,その性能を検証する。 実験結果から,カジュアルなインコンテキスト学習の性能や古典的な微調整手法の性能など,ベンチマークに比べて大幅に改善されていることがわかった。

In-context learning (ICL) is an astonishing emergent ability of large language models (LLMs). By presenting a prompt that includes multiple input-output pairs as examples and introducing a new query input, models can generate the corresponding output. However, the performance of models heavily relies on the quality of the input prompt when implementing in-context learning. Biased or imbalanced input prompts can significantly degrade the performance of language models. To address this issue, we introduce a reweighted algorithm called RICL (Reweighted In-context Learning). This algorithm fine-tunes language models using an unbiased validation set to determine the optimal weight for each input-output example to approximate unbiased in-context learning. Furthermore, we also introduce a low-cost reweighted algorithm, a linear optimal weight approximation algorithm called LARICL (Linear Approximation of Reweighted In-context Learning). This algorithm requires minimal training cost while providing effective results. We prove the convergence of our algorithm and validate its performance through experiments conducted on a numerical dataset. The experimental findings reveal a substantial improvement in comparison to benchmarks including the performance of casual prompt-based in-context learning and the performance of a classic fine-tuning method.
翻訳日:2023-10-06 19:09:32 公開日:2023-10-05
# 適応検索改訂による大規模言語モデルのドメイン適応の再構築

Reformulating Domain Adaptation of Large Language Models as Adapt-Retrieve-Revise ( http://arxiv.org/abs/2310.03328v1 )

ライセンス: Link先を確認
Zhen wan, Yating Zhang, Yexiang Wang, Fei Cheng, Sadao Kurohashi(参考訳) gpt-4のような大規模言語モデル(llm)は、最近、一般的なドメインタスクでゼロショット機能を驚くべきものにすることを示したが、中国の法則のような特定のドメインで幻覚を伴うコンテンツを生成することが多く、これらの領域での応用を妨げている。 これは通常、そのような特定のドメインを含むトレーニングデータがないためであり、GPT-4がドメイン内の知識を取得するのを妨げている。 強調すべき課題は、ドメイン内のデータでそのような規模のLLMをトレーニングし続けることが不可能であることです。 本稿では,GPT-4の簡易かつ効果的なドメイン適応フレームワークを提案する。 最初のステップは、ドメイン内のデータについて学び続けることで、ターゲットドメインに安価な7B LLMを \textbf{adapt} することです。 タスクを解く際には、順応したLCMを利用してタスククエリを与えられたドラフト回答を生成する。 次に、ドラフトの回答は、外部のドメイン内知識ベースから証拠候補をサポートする \textbf{retrieve} に使用される。 最後に、ドラフト回答と検索された証拠は、gpt-4に証拠を評価するための全プロンプトにまとめられ、最終回答を生成するためにドラフト回答を \textbf{revise} する。 本提案では,より小型の7BモデルとGPT-4のエビデンス評価能力を併用することにより,GPT-4の幻覚内容の生成を効果的に防止する。 4つの中国の法的タスクのゼロショット設定では、gpt-4による直接生成に比べて33.3\%精度が向上する。 2つのより強い検索ベースラインと比較すると、15.4\%と23.9\%に優れる。 私たちのコードはリリースされます

While large language models (LLMs) like GPT-4 have recently demonstrated astonishing zero-shot capabilities in general domain tasks, they often generate content with hallucinations in specific domains such as Chinese law, hindering their application in these areas. This is typically due to the absence of training data that encompasses such a specific domain, preventing GPT-4 from acquiring in-domain knowledge. A pressing challenge is that it's not plausible to continue training LLMs of such scale on in-domain data. This paper introduces a simple and effective domain adaptation framework for GPT-4 by reformulating generation as an \textbf{adapt-retrieve-revise} process. The initial step is to \textbf{adapt} an affordable 7B LLM to the target domain by continuing learning on in-domain data. When solving a task, we leverage the adapted LLM to generate a draft answer given a task query. Then, the draft answer will be used to \textbf{retrieve} supporting evidence candidates from an external in-domain knowledge base. Finally, the draft answer and retrieved evidence are concatenated into a whole prompt to let GPT-4 assess the evidence and \textbf{revise} the draft answer to generate the final answer. Our proposal combines the advantages of the efficiency of adapting a smaller 7B model with the evidence-assessing capability of GPT-4 and effectively prevents GPT-4 from generating hallucinatory content. In the zero-shot setting of four Chinese legal tasks, our method improves accuracy by 33.3\% compared to the direct generation by GPT-4. When compared to two stronger retrieval-based baselines, our method outperforms them by 15.4\% and 23.9\%. Our code will be released
翻訳日:2023-10-06 19:09:01 公開日:2023-10-05
# 視覚計画のための概念に基づく視覚因果遷移とシンボリック推論

Learning Concept-Based Visual Causal Transition and Symbolic Reasoning for Visual Planning ( http://arxiv.org/abs/2310.03325v1 )

ライセンス: Link先を確認
Yilue Qian, Peiyu Yu, Ying Nian Wu, Wei Wang, Lifeng Fan(参考訳) ビジュアルプランニングは、人間が望ましい目標を達成するための決定を、初期視覚状態と最終視覚目標状態の間の視覚因果遷移を探索する形でシミュレートする。 複雑な環境で日々の作業を行うエージェントの指導に長けており、エゴセントリックなビジョンにおいてますます重要になっている。 本稿では,解釈可能で汎用的な視覚計画フレームワークを提案する。 一 視覚入力を不整合概念表現に抽象化する新規な代替型概念学習者(SCL) 二 自己学習記号を通じてタスク計画を行う記号の抽象化及び推論 三 視覚因果遷移モデル(ViCT)で、視覚因果遷移を意味的に類似した現実世界の行動に基礎付ける。 初期状態が与えられた場合、学習された表現と因果遷移によって刺激される記号的推論手法を用いてゴール条件付き視覚計画を行う。 提案モデルの有効性を検証するため,CCTPと呼ばれるAI2-THORに基づく大規模視覚計画データセットを収集する。 この挑戦的なデータセットに対する大規模な実験は、視覚的タスク計画における我々の手法の優れた性能を示す。 経験的に、我々のフレームワークは、見えないタスク軌跡や見えないオブジェクトカテゴリに一般化できることを示す。

Visual planning simulates how humans make decisions to achieve desired goals in the form of searching for visual causal transitions between an initial visual state and a final visual goal state. It has become increasingly important in egocentric vision with its advantages in guiding agents to perform daily tasks in complex environments. In this paper, we propose an interpretable and generalizable visual planning framework consisting of i) a novel Substitution-based Concept Learner (SCL) that abstracts visual inputs into disentangled concept representations, ii) symbol abstraction and reasoning that performs task planning via the self-learned symbols, and iii) a Visual Causal Transition model (ViCT) that grounds visual causal transitions to semantically similar real-world actions. Given an initial state, we perform goal-conditioned visual planning with a symbolic reasoning method fueled by the learned representations and causal transitions to reach the goal state. To verify the effectiveness of the proposed model, we collect a large-scale visual planning dataset based on AI2-THOR, dubbed as CCTP. Extensive experiments on this challenging dataset demonstrate the superior performance of our method in visual task planning. Empirically, we show that our framework can generalize to unseen task trajectories and unseen object categories.
翻訳日:2023-10-06 19:08:30 公開日:2023-10-05
# CLIPモデルの限界を探る: 最悪のパフォーマンスカテゴリ

Investigating the Limitation of CLIP Models: The Worst-Performing Categories ( http://arxiv.org/abs/2310.03324v1 )

ライセンス: Link先を確認
Jie-Jing Shao, Jiang-Xin Shi, Xiao-Wen Yang, Lan-Zhe Guo, Yu-Feng Li(参考訳) Contrastive Language-Image Pre-Training (CLIP)は、自然言語を視覚概念に統合し、下流タスクでのゼロショット認識を可能にする基礎モデルを提供する。 通常、十分に設計されたテキストプロンプトによって、多くの領域で満足な全体的な精度が達成できると期待されている。 しかし、最悪のカテゴリにおけるパフォーマンスは、全体的なパフォーマンスよりも著しく劣っていることがわかった。 例えば、ImageNetでは、全体的なパフォーマンスが64.1\%に達したにもかかわらず、クラス単位での精度が0\%まで低い10のカテゴリがある。 この現象はクリップモデルの使用、特に特定のカテゴリが重要なリスクに敏感なアプリケーションにおける潜在的なリスクを明らかにする。 この問題に対処するために,CLIPモデルの2つのモード間のアライメントを調査し,推論の混乱を測定するためのクラスワイドマッチングマージン(\cmm)を提案する。 \cmm\ は、最もパフォーマンスの悪いカテゴリを効果的に識別し、候補プロンプトの潜在的なパフォーマンスを推定することができる。 さらに,大きな言語モデルに問い合わせて,パフォーマンスの悪いカテゴリの記述を豊かにするとともに,効率的なプロンプトを強調する重み付けアンサンブルを構築します。 実験の結果,ImageNet上の最悪の10カテゴリの精度は,手動のプロンプトエンジニアリング,精巧な最適化,ラベル付きバリデーションデータへのアクセスなしに5.2\%に向上した。

Contrastive Language-Image Pre-training (CLIP) provides a foundation model by integrating natural language into visual concepts, enabling zero-shot recognition on downstream tasks. It is usually expected that satisfactory overall accuracy can be achieved across numerous domains through well-designed textual prompts. However, we found that their performance in the worst categories is significantly inferior to the overall performance. For example, on ImageNet, there are a total of 10 categories with class-wise accuracy as low as 0\%, even though the overall performance has achieved 64.1\%. This phenomenon reveals the potential risks associated with using CLIP models, particularly in risk-sensitive applications where specific categories hold significant importance. To address this issue, we investigate the alignment between the two modalities in the CLIP model and propose the Class-wise Matching Margin (\cmm) to measure the inference confusion. \cmm\ can effectively identify the worst-performing categories and estimate the potential performance of the candidate prompts. We further query large language models to enrich descriptions of worst-performing categories and build a weighted ensemble to highlight the efficient prompts. Experimental results clearly verify the effectiveness of our proposal, where the accuracy on the worst-10 categories on ImageNet is boosted to 5.2\%, without manual prompt engineering, laborious optimization, or access to labeled validation data.
翻訳日:2023-10-06 19:08:09 公開日:2023-10-05
# BioBridge:知識グラフによるバイオメディカル基礎モデルのブリッジ

BioBridge: Bridging Biomedical Foundation Models via Knowledge Graph ( http://arxiv.org/abs/2310.03320v1 )

ライセンス: Link先を確認
Zifeng Wang, Zichen Wang, Balasubramaniam Srinivasan, Vassilis N. Ioannidis, Huzefa Rangwala, Rishita Anubhai(参考訳) 基盤モデル(fms)は、大量のラベルのないデータを活用し、幅広いタスクで優れたパフォーマンスを示すことができる。 しかし、生体医学領域向けに開発されたfmsは、独立に訓練され、タンパク質配列のみ、小分子構造のみ、臨床データのみのタスクに使用されている。 このようなバイオメディカルFMの限界を克服するため,新しいパラメータ効率学習フレームワークであるBioBridgeを提案し,独立に訓練された単調FMを橋渡しし,マルチモーダルな動作を確立する。 BioBridgeは、知識グラフ(KG)を使用して、基礎となる一助的FMを微調整することなく、1つの一助的FMともう1つの間の変換を学習する。 実験の結果,BioBridgeは,クロスモーダル検索タスクにおいて,最高のベースラインKG埋め込み手法(平均76.3%)を克服できることが示された。 また、BioBridgeは、未知のモダリティや関係を外挿することで、ドメイン外一般化能力を示す。 また,バイオブリッジは,生物医学的マルチモーダル質問応答を支援できる汎用レトリバーとして自らを提示し,新規医薬品の誘導生成を促進する。

Foundation models (FMs) are able to leverage large volumes of unlabeled data to demonstrate superior performance across a wide range of tasks. However, FMs developed for biomedical domains have largely remained unimodal, i.e., independently trained and used for tasks on protein sequences alone, small molecule structures alone, or clinical data alone. To overcome this limitation of biomedical FMs, we present BioBridge, a novel parameter-efficient learning framework, to bridge independently trained unimodal FMs to establish multimodal behavior. BioBridge achieves it by utilizing Knowledge Graphs (KG) to learn transformations between one unimodal FM and another without fine-tuning any underlying unimodal FMs. Our empirical results demonstrate that BioBridge can beat the best baseline KG embedding methods (on average by around 76.3%) in cross-modal retrieval tasks. We also identify BioBridge demonstrates out-of-domain generalization ability by extrapolating to unseen modalities or relations. Additionally, we also show that BioBridge presents itself as a general purpose retriever that can aid biomedical multimodal question answering as well as enhance the guided generation of novel drugs.
翻訳日:2023-10-06 19:07:44 公開日:2023-10-05
# 運動エネルギー演算子の量子近似時間進化のためのハミルトン符号化

Hamiltonian Encoding for Quantum Approximate Time Evolution of Kinetic Energy Operator ( http://arxiv.org/abs/2310.03319v1 )

ライセンス: Link先を確認
Mostafizur Rahaman Laskar, Kalyan Dasgputa, Amit Kumar Dutta, Atanu Bhattacharya(参考訳) 時間発展演算子は、量子コンピュータにおける化学実験の正確な計算において重要な役割を担っており、物理科学とコンピュータ科学の分野を進歩させ、量子シミュレーションと機械学習にまたがる応用に多大な期待を持っている。 しかし、大規模量子コンピュータの構築には大きな課題があり、革新的で資源効率のよい戦略の必要性が生じる。 位相推定や変分アルゴリズムのような伝統的な手法には、古典的最適化や複雑な量子回路の使用のような一定の限界がある。 成功した方法の1つは、量子シミュレーションに使用されるトロッター化技法であり、特にn-量子化のゲート複雑性がおよそO(n^2)である原子構造問題においてである。 本研究では,第一量子化レベルを考慮した対角ユニタリ作用素としての運動エネルギー演算子の量子化のための量子近似時間発展(qate)という新しい符号化法を提案する。 提案手法の理論的基礎を考察し,IBM量子マシンを用いた実験結果を得た。 提案手法は, 量子ビットサイズ$n$のサブ二次多項式におけるゲート複雑性を提供する。 さらに,ガウス波パケットの時間発展に対する忠実性向上も実証されている。

The time evolution operator plays a crucial role in the precise computation of chemical experiments on quantum computers and holds immense promise for advancing the fields of physical and computer sciences, with applications spanning quantum simulation and machine learning. However, the construction of large-scale quantum computers poses significant challenges, prompting the need for innovative and resource-efficient strategies. Traditional methods like phase estimation or variational algorithms come with certain limitations such as the use of classical optimization or complex quantum circuitry. One successful method is the Trotterization technique used for quantum simulation, specifically in atomic structure problems with a gate complexity of approximately O(n^2) for an n-qubit realization. In this work, we have proposed a new encoding method, namely quantum approximate time evolution (QATE) for the quantum implementation of the kinetic energy operator as a diagonal unitary operator considering the first quantization level. The theoretical foundations of our approach are discussed, and experimental results are obtained on an IBM quantum machine. Our proposed method offers gate complexity in sub-quadratic polynomial with qubit size $n$ which is an improvement over previous work. Further, the fidelity improvement for the time evolution of the Gaussian wave packet has also been demonstrated.
翻訳日:2023-10-06 19:07:22 公開日:2023-10-05
# 制約付き確率的人間運動予測を用いたロボット協調の強化

Enhanced Human-Robot Collaboration using Constrained Probabilistic Human-Motion Prediction ( http://arxiv.org/abs/2310.03314v1 )

ライセンス: Link先を確認
Aadi Kothari, Tony Tohme, Xiaotong Zhang, and Kamal Youcef-Toumi(参考訳) 人間の動作予測は、効率的で安全な人間とロボットのコラボレーションにとって不可欠なステップである。 現在の手法では、ニューラルネットワークベースのアーキテクチャで人間の関節を純粋に表現するか、人間の動きを包含するモデルを捉えるためにハイパーパラメータに合わせるために回帰モデルをオフラインで使用するかのどちらかである。 これらの手法は良い初期結果をもたらすが、よく研究された人体キネマティックモデルや、これらの予測フレームワークの有効性を高めるのに役立つ身体とシーンの制約を活用することに欠いている。 本研究では,GPR(Gaussian Process Regression)モデルにおいて,人間の関節の制約とシーンの制約を組み込んだ人間の動作予測フレームワークを提案する。 この定式化は、タスク依存の動作を活用するオンラインコンテキスト認識制約モデルと組み合わせられる。 人間の腕のキネマティックモデルを用いてテストを行い、UR5ロボットアームとの協調的な設定により、我々のアプローチのリアルタイム能力を実証する。 HA4MやAndYといったデータセットでもシミュレーションが行われた。 シミュレーションと実験結果から,これらの制約が明示的に考慮された場合,ガウスプロセスフレームワークの大幅な改善が示された。

Human motion prediction is an essential step for efficient and safe human-robot collaboration. Current methods either purely rely on representing the human joints in some form of neural network-based architecture or use regression models offline to fit hyper-parameters in the hope of capturing a model encompassing human motion. While these methods provide good initial results, they are missing out on leveraging well-studied human body kinematic models as well as body and scene constraints which can help boost the efficacy of these prediction frameworks while also explicitly avoiding implausible human joint configurations. We propose a novel human motion prediction framework that incorporates human joint constraints and scene constraints in a Gaussian Process Regression (GPR) model to predict human motion over a set time horizon. This formulation is combined with an online context-aware constraints model to leverage task-dependent motions. It is tested on a human arm kinematic model and implemented on a human-robot collaborative setup with a UR5 robot arm to demonstrate the real-time capability of our approach. Simulations were also performed on datasets like HA4M and ANDY. The simulation and experimental results demonstrate considerable improvements in a Gaussian Process framework when these constraints are explicitly considered.
翻訳日:2023-10-06 19:07:00 公開日:2023-10-05
# 頑健なグラフコントラスト学習

Certifiably Robust Graph Contrastive Learning ( http://arxiv.org/abs/2310.03312v1 )

ライセンス: Link先を確認
Minhua Lin, Teng Xiao, Enyan Dai, Xiang Zhang, Suhang Wang(参考訳) グラフコントラスト学習(GCL)は、教師なしグラフ表現学習法として人気がある。 しかし、GCLはグラフ構造とノード属性の両方に対する敵攻撃に対して脆弱であることが示されている。 GCLのロバスト性を高めるための実証的なアプローチが提案されているが、GCLの証明可能なロバスト性はまだ未解明のままである。 本稿では,GCLにおける最初の堅牢なフレームワークを開発する。 具体的には,まず,GCLの堅牢性を評価するための統一基準を提案する。 そこで我々は,任意のGCLモデルに対して証明可能なロバスト性を確保するための新しい手法RES(Randomized Edgedrop Smoothing)を導入する。 さらに,ロバストgclに対して効果的なトレーニング手法を提案する。 実世界のデータセットに対する大規模な実験により,提案手法の有効性を実証し, 有効な証明可能なロバスト性を提供し, 任意のGCLモデルのロバスト性を高める。 RESのソースコードはhttps://github.com/ventr1c/RES-GCLで公開されている。

Graph Contrastive Learning (GCL) has emerged as a popular unsupervised graph representation learning method. However, it has been shown that GCL is vulnerable to adversarial attacks on both the graph structure and node attributes. Although empirical approaches have been proposed to enhance the robustness of GCL, the certifiable robustness of GCL is still remain unexplored. In this paper, we develop the first certifiably robust framework in GCL. Specifically, we first propose a unified criteria to evaluate and certify the robustness of GCL. We then introduce a novel technique, RES (Randomized Edgedrop Smoothing), to ensure certifiable robustness for any GCL model, and this certified robustness can be provably preserved in downstream tasks. Furthermore, an effective training method is proposed for robust GCL. Extensive experiments on real-world datasets demonstrate the effectiveness of our proposed method in providing effective certifiable robustness and enhancing the robustness of any GCL model. The source code of RES is available at https://github.com/ventr1c/RES-GCL.
翻訳日:2023-10-06 19:06:41 公開日:2023-10-05
# 顔に先行した発話条件付き潜在拡散モデルによる現実的な音声対面生成

Realistic Speech-to-Face Generation with Speech-Conditioned Latent Diffusion Model with Face Prior ( http://arxiv.org/abs/2310.03363v1 )

ライセンス: Link先を確認
Jinting Wang, Li Liu, Jun Wang, Hei Victor Cheng(参考訳) 音声対面生成は、話者の音声に基づく現実的な顔画像の生成に焦点を当てた興味深い研究分野である。 しかし、GANアーキテクチャを用いた最先端の手法は安定性に欠け、現実的な顔画像を生成することができない。 このギャップを埋めるために,scldmと呼ばれる音声条件付き潜在拡散モデルを活用した音声対面生成フレームワークを提案する。 我々の知る限り、これは音声対面生成のための拡散モデルの例外的モデリング能力を利用する最初の試みである。 現実的な結果を生成するためには,音声と顔の共有ID情報を保存することが重要である。 そこで,音声エンコーダと顔エンコーダの両方に対して,コントラストプリトレーニングを行う。 この事前学習戦略は、年齢や性別といった音声の属性と、顔画像中の対応する顔特性との効果的なアライメントを促進する。 さらに,拡散モデルによる合成過程における過剰な多様性による課題に対処する。 この課題を克服するために,拡散過程に先立って統計面を統合することにより,残差の概念を導入する。 この追加は、顔間で共有されるコンポーネントを排除し、音声条件によって捕捉される微妙な変化を強化するのに役立つ。 広汎な定量的,定性的,ユーザスタディ実験により,我々の手法は,最先端の手法よりも話者のアイデンティティを保ちながら,よりリアルな顔画像を生成することができることを示した。 AVSpeechデータセットとVoxcelebデータセットのすべての指標において,注目すべき改善点として,両データセットのコサイン距離測定における32.17と32.72の改善点を挙げる。

Speech-to-face generation is an intriguing area of research that focuses on generating realistic facial images based on a speaker's audio speech. However, state-of-the-art methods employing GAN-based architectures lack stability and cannot generate realistic face images. To fill this gap, we propose a novel speech-to-face generation framework, which leverages a Speech-Conditioned Latent Diffusion Model, called SCLDM. To the best of our knowledge, this is the first work to harness the exceptional modeling capabilities of diffusion models for speech-to-face generation. Preserving the shared identity information between speech and face is crucial in generating realistic results. Therefore, we employ contrastive pre-training for both the speech encoder and the face encoder. This pre-training strategy facilitates effective alignment between the attributes of speech, such as age and gender, and the corresponding facial characteristics in the face images. Furthermore, we tackle the challenge posed by excessive diversity in the synthesis process caused by the diffusion model. To overcome this challenge, we introduce the concept of residuals by integrating a statistical face prior to the diffusion process. This addition helps to eliminate the shared component across the faces and enhances the subtle variations captured by the speech condition. Extensive quantitative, qualitative, and user study experiments demonstrate that our method can produce more realistic face images while preserving the identity of the speaker better than state-of-the-art methods. Highlighting the notable enhancements, our method demonstrates significant gains in all metrics on the AVSpeech dataset and Voxceleb dataset, particularly noteworthy are the improvements of 32.17 and 32.72 on the cosine distance metric for the two datasets, respectively.
翻訳日:2023-10-06 17:17:02 公開日:2023-10-05
# CSI: 破壊に対する3Dポイントクラウド認識のロバスト性を高める

CSI: Enhancing the Robustness of 3D Point Cloud Recognition against Corruption ( http://arxiv.org/abs/2310.03360v1 )

ライセンス: Link先を確認
Zhuoyuan Wu, Jiachen Sun, Chaowei Xiao(参考訳) ポイントクラウド認識のためのディープニューラルネットワークの最近の進歩にもかかわらず、現実世界の安全クリティカルなアプリケーションは、避けられないデータ破損による課題を提示している。 現在のモデルは、予期せぬ分布シフトへの一般化においてしばしば不足する。 本研究では,ポイントクラウドデータ固有の設定特性を利用して,データ破損に直面した認識の堅牢性を高めることを目的とした,新たなクリティカルサブセット識別(CSI)手法を提案する。 我々のCSIフレームワークは,密度認識サンプリング (DAS) と自己エントロピー最小化 (SEM) の2つの重要なコンポーネントを統合している。 dasは局所密度のファクタリングによる効率的なロバストアンカーポイントサンプリングを保証し、一方semは最も有意義なポイントツーポイント注意を強調するためにトレーニング中に使用される。 評価の結果、我々のcsiアプローチはmodelnet40-cとpointcloud-cでそれぞれ18.4\%と16.3\%のエラー率を示し、各ベンチマークで5.2\%と4.2\%のマージンで最先端の手法よりも著しく改善した。 コードは \href{https://github.com/masterwu2115/CSI/tree/main}{https://github.com/masterwu2115/CSI/tree/main} で公開されている。

Despite recent advancements in deep neural networks for point cloud recognition, real-world safety-critical applications present challenges due to unavoidable data corruption. Current models often fall short in generalizing to unforeseen distribution shifts. In this study, we harness the inherent set property of point cloud data to introduce a novel critical subset identification (CSI) method, aiming to bolster recognition robustness in the face of data corruption. Our CSI framework integrates two pivotal components: density-aware sampling (DAS) and self-entropy minimization (SEM), which cater to static and dynamic CSI, respectively. DAS ensures efficient robust anchor point sampling by factoring in local density, while SEM is employed during training to accentuate the most salient point-to-point attention. Evaluations reveal that our CSI approach yields error rates of 18.4\% and 16.3\% on ModelNet40-C and PointCloud-C, respectively, marking a notable improvement over state-of-the-art methods by margins of 5.2\% and 4.2\% on the respective benchmarks. Code is available at \href{https://github.com/masterwu2115/CSI/tree/main}{https://github.com/masterwu2115/CSI/tree/main}
翻訳日:2023-10-06 17:16:36 公開日:2023-10-05
# 非対称負のコントラストと逆注意によるロバスト表現学習

Robust Representation Learning via Asymmetric Negative Contrast and Reverse Attention ( http://arxiv.org/abs/2310.03358v1 )

ライセンス: Link先を確認
Nuoyan Zhou, Decheng Liu, Dawei Zhou, Xinbo Gao, Nannan Wang(参考訳) ディープニューラルネットワークは、敵のノイズに弱い。 敵の訓練(AT)は、ニューラルネットワークが騙されるのを防ぐ最も効果的な防衛戦略であることが示されている。 しかし、ATは頑健な特徴の学習を省略し、敵の頑健さの低下を招いた。 この問題に対処するために、(1)$\bf{exclusion}$: 自然例の特徴は他のクラスの特徴から遠ざかる; (2) $\bf{alignment}$: 自然例と対応する逆例の特徴は互いに近い。 これらのことは、非対称な負のコントラストと逆の注意によって、堅牢な表現を得るためのATの一般的なフレームワークを提案する動機である。 具体的には、予測確率に基づく非対称な負のコントラストを設計し、特徴空間における異なるクラスの例を除去する。 さらに,線形分類器のパラメータを逆の注意として重み付けし,クラス認識機能を取得し,同一クラスの特徴を引き出す。 3つのベンチマークデータセットの実証評価により,ATの堅牢性を大幅に向上し,最先端の性能を実現することができた。 コードはhttps://github.com/changzhang777/ancra>で入手できる。

Deep neural networks are vulnerable to adversarial noise. Adversarial training (AT) has been demonstrated to be the most effective defense strategy to protect neural networks from being fooled. However, we find AT omits to learning robust features, resulting in poor performance of adversarial robustness. To address this issue, we highlight two characteristics of robust representation: (1) $\bf{exclusion}$: the feature of natural examples keeps away from that of other classes; (2) $\bf{alignment}$: the feature of natural and corresponding adversarial examples is close to each other. These motivate us to propose a generic framework of AT to gain robust representation, by the asymmetric negative contrast and reverse attention. Specifically, we design an asymmetric negative contrast based on predicted probabilities, to push away examples of different classes in the feature space. Moreover, we propose to weight feature by parameters of the linear classifier as the reverse attention, to obtain class-aware feature and pull close the feature of the same class. Empirical evaluations on three benchmark datasets show our methods greatly advance the robustness of AT and achieve state-of-the-art performance. Code is available at <https://github.com/changzhang777/ANCRA>.
翻訳日:2023-10-06 17:16:12 公開日:2023-10-05
# クロスプレイ: 複合協調競技におけるグローバルナッシュ均衡の学習

Fictitious Cross-Play: Learning Global Nash Equilibrium in Mixed Cooperative-Competitive Games ( http://arxiv.org/abs/2310.03354v1 )

ライセンス: Link先を確認
Zelai Xu, Yancheng Liang, Chao Yu, Yu Wang, Yi Wu(参考訳) セルフプレイ(SP)は、競合ゲームを解決するために人気のあるマルチエージェント強化学習(MARL)フレームワークであり、各エージェントは、他のエージェントを環境の一部として扱うことでポリシーを最適化する。 経験的成功にもかかわらず、SP法の理論的性質は2プレイヤーゼロサムゲームに限定されている。 しかし、同一チームのエージェントが互いに協力する必要がある混合協調競争ゲームでは、SPベースの手法が高い確率でグローバルなナッシュ均衡(NE)に収束できない単純な反例を示すことができる。 あるいは、ポリシー空間対応オラクル(PSRO)はNEを学習するための反復的なフレームワークであり、各イテレーションで最も優れたレスポンスが学習される。 PSROは、すべての収束特性が変化せずに、共同でチームのベストレスポンスを学習することで、混合協調競合設定に直接拡張することができる。 しかしPSROは、スクラッチから収束までのジョイントポリシーを繰り返し訓練する必要があるため、複雑なゲームにスケールするのは困難である。 本研究では,両フレームワークの利点を継承する新しいアルゴリズムであるFctitious Cross-Play (FXP) を開発する。 FXPはSPベースのメインポリシーとベストレスポンスポリシーの対抗集団を同時に訓練する。 主な政策は、架空の自己再生と反人口に対するクロスプレイによって訓練され、反政策は、主政策の過去のバージョンに対する最良の反応として訓練される。 本手法を行列ゲームで検証し,SP法が失敗している間にFXPがグローバルNEに収束することを示す。 また、fxpがベースラインよりも高いエロレーティングと低いエクスプロイラビリティを達成し、さらにfxpが94%以上の勝率でsataモデルを打ち破る、より挑戦的なフットボールゲームも行っています。

Self-play (SP) is a popular multi-agent reinforcement learning (MARL) framework for solving competitive games, where each agent optimizes policy by treating others as part of the environment. Despite the empirical successes, the theoretical properties of SP-based methods are limited to two-player zero-sum games. However, for mixed cooperative-competitive games where agents on the same team need to cooperate with each other, we can show a simple counter-example where SP-based methods cannot converge to a global Nash equilibrium (NE) with high probability. Alternatively, Policy-Space Response Oracles (PSRO) is an iterative framework for learning NE, where the best responses w.r.t. previous policies are learned in each iteration. PSRO can be directly extended to mixed cooperative-competitive settings by jointly learning team best responses with all convergence properties unchanged. However, PSRO requires repeatedly training joint policies from scratch till convergence, which makes it hard to scale to complex games. In this work, we develop a novel algorithm, Fictitious Cross-Play (FXP), which inherits the benefits from both frameworks. FXP simultaneously trains an SP-based main policy and a counter population of best response policies. The main policy is trained by fictitious self-play and cross-play against the counter population, while the counter policies are trained as the best responses to the main policy's past versions. We validate our method in matrix games and show that FXP converges to global NEs while SP methods fail. We also conduct experiments in a gridworld domain, where FXP achieves higher Elo ratings and lower exploitabilities than baselines, and a more challenging football game, where FXP defeats SOTA models with over 94% win rate.
翻訳日:2023-10-06 17:15:49 公開日:2023-10-05
# アルツハイマー病進行における単調性制約による深部幾何学習

Deep Geometric Learning with Monotonicity Constraints for Alzheimer's Disease Progression ( http://arxiv.org/abs/2310.03353v1 )

ライセンス: Link先を確認
Seungwoo Jeong, Wonsik Jung, Junghyo Sohn, Heung-Il Suk(参考訳) アルツハイマー病( Alzheimer's disease, AD)は、進行性認知症と不可逆性認知症に先行する破壊的な神経変性疾患である。 AD進行をモデル化するための構造磁気共鳴画像(MRI)を多数実施し、3つの統合的な側面に注目している。 (i)時間変動性。 (ii)不完全な観察、及び (iii)時間幾何学的特徴。 しかし、データの多様性と空間性に関する深層学習に基づくアプローチは、いまだに本質的に幾何学的性質を十分に考慮していない。 常微分方程式に基づく幾何モデリング法(ode-rgru)は、リーマン空間における再帰ニューラルネットワークとodeを相互に絡んで時系列データをモデル化するための有望な戦略として最近登場している。 その成果にもかかわらず、ODE-RGRUは、不完全なサンプルから正定値の対称なメトリクスを外挿する際に制限に遭遇し、特に臨床領域で特に問題となる特徴的逆転が発生する。 そこで本研究では,位相空間シフト,ode-rgru,軌道推定の3つのモジュールを組み合わせることで,縦型mriバイオマーカーと認知スコアをモデル化する新しい幾何学習手法を提案する。 また,単調性制約と多様体マッピングを統合し,測定遷移の可逆性を反映した学習アルゴリズムを開発した。 臨床ラベルと認知スコアを定期的および不規則な設定で時間とともに予測することにより,提案手法の有効性を検証する。 さらに,提案手法をアブレーション研究により徹底的に解析した。

Alzheimer's disease (AD) is a devastating neurodegenerative condition that precedes progressive and irreversible dementia; thus, predicting its progression over time is vital for clinical diagnosis and treatment. Numerous studies have implemented structural magnetic resonance imaging (MRI) to model AD progression, focusing on three integral aspects: (i) temporal variability, (ii) incomplete observations, and (iii) temporal geometric characteristics. However, deep learning-based approaches regarding data variability and sparsity have yet to consider inherent geometrical properties sufficiently. The ordinary differential equation-based geometric modeling method (ODE-RGRU) has recently emerged as a promising strategy for modeling time-series data by intertwining a recurrent neural network and an ODE in Riemannian space. Despite its achievements, ODE-RGRU encounters limitations when extrapolating positive definite symmetric metrics from incomplete samples, leading to feature reverse occurrences that are particularly problematic, especially within the clinical facet. Therefore, this study proposes a novel geometric learning approach that models longitudinal MRI biomarkers and cognitive scores by combining three modules: topological space shift, ODE-RGRU, and trajectory estimation. We have also developed a training algorithm that integrates manifold mapping with monotonicity constraints to reflect measurement transition irreversibility. We verify our proposed method's efficacy by predicting clinical labels and cognitive scores over time in regular and irregular settings. Furthermore, we thoroughly analyze our proposed framework through an ablation study.
翻訳日:2023-10-06 17:15:16 公開日:2023-10-05
# 知識コンパイルによる非現実的クエリのトラクタブルバウンディング

Tractable Bounding of Counterfactual Queries by Knowledge Compilation ( http://arxiv.org/abs/2310.03352v1 )

ライセンス: Link先を確認
David Huber, Yizuo Chen, Alessandro Antonucci, Adnan Darwiche, Marco Zaffalon(参考訳) 本稿では,真珠構造因果モデルにおける偽事実などの部分識別クエリのバウンディング問題について議論する。 最近提案された反復EMスキームは初期化パラメータをサンプリングしてそれらの境界を内部近似する。 このような方法は、同じ構造方程式とトポロジーを共有するモデル上で複数の(ベイズネットワーク)クエリを必要とするが、異なる外因性確率を必要とする。 この設定により、基礎となるモデルを算術回路に有利にコンパイルし、スケール可能な推論スピードアップを誘導する。 一つのシンボル的知識コンパイルによって、異なるクエリを計算する際に、シンボル的パラメータを持つ回路構造を実際の値に置き換えることができることを示す。 また,並列化手法についても検討し,計算処理を高速化する。 標準的なベイズネットワーク推論に対する実験は、最大1桁のスピードアップで明らかな計算上の利点を示す。

We discuss the problem of bounding partially identifiable queries, such as counterfactuals, in Pearlian structural causal models. A recently proposed iterated EM scheme yields an inner approximation of those bounds by sampling the initialisation parameters. Such a method requires multiple (Bayesian network) queries over models sharing the same structural equations and topology, but different exogenous probabilities. This setup makes a compilation of the underlying model to an arithmetic circuit advantageous, thus inducing a sizeable inferential speed-up. We show how a single symbolic knowledge compilation allows us to obtain the circuit structure with symbolic parameters to be replaced by their actual values when computing the different queries. We also discuss parallelisation techniques to further speed up the bound computation. Experiments against standard Bayesian network inference show clear computational advantages with up to an order of magnitude of speed-up.
翻訳日:2023-10-06 17:14:46 公開日:2023-10-05
# ロバストで知覚不能な音声の逆解析のための統合アルゴリズム

An Integrated Algorithm for Robust and Imperceptible Audio Adversarial Examples ( http://arxiv.org/abs/2310.03349v1 )

ライセンス: Link先を確認
Armin Ettenhofer and Jan-Philipp Schulze and Karla Pizzi(参考訳) 音声相手の例は、人間のリスナーの良さを保ちながら、自動音声認識システム(ASR)を騙すために操作されたオーディオファイルである。 これらのサンプルを生成するほとんどの方法は、2段階のアルゴリズムに基づいている: まず、実行可能な逆オーディオファイルを生成し、その後、知覚性と頑健性に関して微調整する。 本稿では,生成過程における心理音響モデルと室内インパルス応答(rir)を用いた統合アルゴリズムを提案する。 RIRは、生成プロセス中にニューラルネットワークによって動的に生成され、物理的環境をシミュレートして、オーバー・ザ・エア攻撃で経験した変換に対するサンプルを強化します。 シミュレーションされた環境と現実的なオーバー・ザ・エアシナリオの3つの実験において、ロバスト性を評価するために異なるアプローチを比較し、人間の研究でその知覚性を評価する。 強靭性に加えて心理音響のみを考慮したアルゴリズムは, 単語誤り率(WER)の増大を犠牲にして, 信号-雑音比(SNR)および人間の知覚研究において改善したことを示す。

Audio adversarial examples are audio files that have been manipulated to fool an automatic speech recognition (ASR) system, while still sounding benign to a human listener. Most methods to generate such samples are based on a two-step algorithm: first, a viable adversarial audio file is produced, then, this is fine-tuned with respect to perceptibility and robustness. In this work, we present an integrated algorithm that uses psychoacoustic models and room impulse responses (RIR) in the generation step. The RIRs are dynamically created by a neural network during the generation process to simulate a physical environment to harden our examples against transformations experienced in over-the-air attacks. We compare the different approaches in three experiments: in a simulated environment and in a realistic over-the-air scenario to evaluate the robustness, and in a human study to evaluate the perceptibility. Our algorithms considering psychoacoustics only or in addition to the robustness show an improvement in the signal-to-noise ratio (SNR) as well as in the human perception study, at the cost of an increased word error rate (WER).
翻訳日:2023-10-06 17:14:33 公開日:2023-10-05
# 改良された核分割と分類のためのラベルの異なるデータセットの組み合わせ

Combining Datasets with Different Label Sets for Improved Nucleus Segmentation and Classification ( http://arxiv.org/abs/2310.03346v1 )

ライセンス: Link先を確認
Amruta Parulekar, Utkarsh Kanwat, Ravi Kant Gupta, Medha Chippa, Thomas Jacob, Tripti Bameta, Swapnil Rane, Amit Sethi(参考訳) 深層ニューラルネットワーク(dnn)を用いた病理画像における細胞核のセグメンテーションと分類は、細胞計数と形態計測の自動化により、がんを含む様々な疾患の診断に要する時間を短縮する。 現在、DNNの精度は、トレーニング用に利用可能な注釈付きデータセットのサイズによって増加することが知られている。 核アノテーションとクラスラベルを含む複数の病理像のデータセットが公開されているが、クラスラベルのセットはこれらのデータセットによって異なる。 本稿では,データセット間のクラスセットが関連しているが同一ではない複数のデータセットに対して,サンプルセグメンテーションと分類のためのDNNを訓練する方法を提案する。 具体的には,クラスが相互に排他的である限り,データセットにラベル付けおよび注釈付けされたクラスの集合が階層の任意のレベルにあるような,粗いクラス階層を利用するように設計されている。 データセット内では、クラスの集合はクラス階層ツリーと同じレベルである必要さえない。 その結果,データセットの分割テストで使用されるクラスに対するセグメンテーションと分類のメトリクスは,本手法で実現されるトレーニングセットの拡張により,異なるクラスセットを持つ可能性のある別のデータセットを事前トレーニングすることで改善できることが示された。 さらに、未発見のデータセットへの一般化は、トレーニングのために複数の他のデータセットと異なるクラスのセットを組み合わせることで改善される。 改善は質的かつ定量的である。 提案手法は,様々な損失関数,DNNアーキテクチャ,アプリケーションドメインに適用可能である。

Segmentation and classification of cell nuclei in histopathology images using deep neural networks (DNNs) can save pathologists' time for diagnosing various diseases, including cancers, by automating cell counting and morphometric assessments. It is now well-known that the accuracy of DNNs increases with the sizes of annotated datasets available for training. Although multiple datasets of histopathology images with nuclear annotations and class labels have been made publicly available, the set of class labels differ across these datasets. We propose a method to train DNNs for instance segmentation and classification on multiple datasets where the set of classes across the datasets are related but not the same. Specifically, our method is designed to utilize a coarse-to-fine class hierarchy, where the set of classes labeled and annotated in a dataset can be at any level of the hierarchy, as long as the classes are mutually exclusive. Within a dataset, the set of classes need not even be at the same level of the class hierarchy tree. Our results demonstrate that segmentation and classification metrics for the class set used by the test split of a dataset can improve by pre-training on another dataset that may even have a different set of classes due to the expansion of the training set enabled by our method. Furthermore, generalization to previously unseen datasets also improves by combining multiple other datasets with different sets of classes for training. The improvement is both qualitative and quantitative. The proposed method can be adapted for various loss functions, DNN architectures, and application domains.
翻訳日:2023-10-06 17:14:10 公開日:2023-10-05
# LESSON: オプションフレームワークによる強化学習のための探索戦略の統合学習

LESSON: Learning to Integrate Exploration Strategies for Reinforcement Learning via an Option Framework ( http://arxiv.org/abs/2310.03342v1 )

ライセンス: Link先を確認
Woojun Kim, Jeonghye Kim, Youngchul Sung(参考訳) 本稿では,選択肢批判モデルに基づく強化学習(RL)における探索のための統一的枠組みを提案する。 提案手法は多様な探索戦略を統合することを学び、エージェントが時間とともに最も効果的な探索戦略を適応的に選択し、各タスクに対して関連する探索・探索トレードオフを実現する。 提案手法の有効性は, minigrid および atari 環境における各種実験により実証された。

In this paper, a unified framework for exploration in reinforcement learning (RL) is proposed based on an option-critic model. The proposed framework learns to integrate a set of diverse exploration strategies so that the agent can adaptively select the most effective exploration strategy over time to realize a relevant exploration-exploitation trade-off for each given task. The effectiveness of the proposed exploration framework is demonstrated by various experiments in the MiniGrid and Atari environments.
翻訳日:2023-10-06 17:13:47 公開日:2023-10-05
# LSTMによる日頭電力価格の確率予測と変動性

Probabilistic Forecasting of Day-Ahead Electricity Prices and their Volatility with LSTMs ( http://arxiv.org/abs/2310.03339v1 )

ライセンス: Link先を確認
Julius Trebbien, Sebastian P\"utz, Benjamin Sch\"afer, Heidi S. Nyg{\aa}rd, Leonardo Rydin Gorj\~ao, Dirk Witthaut(参考訳) 電力価格の正確な予測は、電力システムの管理とスマートアプリケーションの開発に不可欠である。 ロシアがウクライナに侵攻した後、欧州の電力価格は大幅に上昇し、非常に不安定になった。 ここでは,ドイツ・ルクセンブルクの日頭電力価格に対する長期短期記憶モデル(lstm)を提案する。 lstmのリカレント構造はモデルがトレンドに適応することを可能にし、平均偏差と標準偏差の合同予測は確率的予測を可能にする。 物理学に着想を得たアプローチである超統計学を用いて、LSTMモデルは価格とボラティリティの両方を忠実に再現することを示す。

Accurate forecasts of electricity prices are crucial for the management of electric power systems and the development of smart applications. European electricity prices have risen substantially and became highly volatile after the Russian invasion of Ukraine, challenging established forecasting methods. Here, we present a Long Short-Term Memory (LSTM) model for the German-Luxembourg day-ahead electricity prices addressing these challenges. The recurrent structure of the LSTM allows the model to adapt to trends, while the joint prediction of both mean and standard deviation enables a probabilistic prediction. Using a physics-inspired approach - superstatistics - to derive an explanation for the statistics of prices, we show that the LSTM model faithfully reproduces both prices and their volatility.
翻訳日:2023-10-06 17:13:39 公開日:2023-10-05
# OpenPatch:Out-Of-Distribution Detectionpdfアイコン用の3Dパッチワーク

OpenPatch: a 3D patchwork for Out-Of-Distribution detectionpdf icon ( http://arxiv.org/abs/2310.03388v1 )

ライセンス: Link先を確認
Paolo Rabino, Antonio Alliegro, Francesco Cappio Borlino, Tatiana Tommasi(参考訳) ラボ環境からオープンワールドへのディープラーニングモデル移行には、予期せぬ状況に対処する準備が伴う。 いくつかのアプリケーションでは、デプロイ中に新しいクラスが発生することが重大な脅威となるため、効果的に検出することが不可欠である。 理想的には、このスキルは必要なときに、新しいタスクごとにさらなる計算訓練を必要とせずに使用するべきである。 分布外検出はここ数年で大きな注目を集めてきたが、研究の大半は現実世界の固有の3dの性質を無視し、しばしばドメインとセマンティックのノベルティを混同する2d画像を扱う。 本研究では,各領域によらず3次元点雲によって捕捉される物体の幾何学的構造を考慮し,後者に焦点をあてる。 我々は、大きな事前学習モデルの上に構築されたOpenPatchを導入し、その中間機能から、既知のクラスを記述したパッチ表現のセットを単純に抽出する。 新たなサンプルについて,1つの既知のクラスのパッチによって,あるいは複数のクラスのコントリビューションによって再構成できるかどうかを評価することにより,新規性スコアを得る。 本稿では,実世界の点雲サンプルにおける意味的新奇性検出の課題として,参照既知のデータが合成された場合のアプローチの広範な実験評価を行う。 我々はopenpatchが既知の全例と少数例の両方で優れていることを実証し、トレーニング対象とネットワークバックボーンにまたがる堅牢性を示す。 本手法の本質的なトレーニングフリーな性質は,実世界の幅広いタスクへの即時適用を可能にすると同時に,高価なリトレーニング作業を必要とするアプローチに対する説得力のあるアドバンテージを提供する。

Moving deep learning models from the laboratory setting to the open world entails preparing them to handle unforeseen conditions. In several applications the occurrence of novel classes during deployment poses a significant threat, thus it is crucial to effectively detect them. Ideally, this skill should be used when needed without requiring any further computational training effort at every new task. Out-of-distribution detection has attracted significant attention in the last years, however the majority of the studies deal with 2D images ignoring the inherent 3D nature of the real-world and often confusing between domain and semantic novelty. In this work, we focus on the latter, considering the objects geometric structure captured by 3D point clouds regardless of the specific domain. We advance the field by introducing OpenPatch that builds on a large pre-trained model and simply extracts from its intermediate features a set of patch representations that describe each known class. For any new sample, we obtain a novelty score by evaluating whether it can be recomposed mainly by patches of a single known class or rather via the contribution of multiple classes. We present an extensive experimental evaluation of our approach for the task of semantic novelty detection on real-world point cloud samples when the reference known data are synthetic. We demonstrate that OpenPatch excels in both the full and few-shot known sample scenarios, showcasing its robustness across varying pre-training objectives and network backbones. The inherent training-free nature of our method allows for its immediate application to a wide array of real-world tasks, offering a compelling advantage over approaches that need expensive retraining efforts.
翻訳日:2023-10-06 17:07:56 公開日:2023-10-05
# 空間的非コヒーレント回折ネットワークを用いた複素値普遍線形変換と画像暗号化

Complex-valued universal linear transformations and image encryption using spatially incoherent diffractive networks ( http://arxiv.org/abs/2310.03384v1 )

ライセンス: Link先を確認
Xilin Yang, Md Sadman Sakib Rahman, Bijie Bai, Jingxi Li, Aydogan Ozcan(参考訳) 光学プロセッサとして、D2NN(Diffractive Deep Neural Network)は、機械学習によって設計された回折曲面を用いて全光学情報処理を行い、そのタスクを薄い光層による光伝搬速度で完了する。 十分な自由度で、D2NNは空間コヒーレント光を用いて任意の複素値線形変換を行うことができる。 同様に、D2NNは空間的に非コヒーレントな照明で任意の線形強度変換を行うこともできるが、空間的に非コヒーレントな光の下では、これらの変換は非負であり、入力視野(FOV)における回折制限光強度パターンに作用する。 本稿では,空間的不整合D2NNを複素値情報処理に拡張し,空間的不整合光を用いて任意の複素値線形変換を実行する。 入力・出力空間幅積の乗算によるしきい値を超えて最適化された回折特性の数が増加すると、空間的に非コヒーレントな回折能のあるビジュアルプロセッサが任意の複素値線形変換を近似し、非コヒーレント照明を用いた全光学画像暗号化に使用できることを示す。 本研究は, 各種回折表面型光プロセッサを用いた自然光下での情報の全光処理において重要である。

As an optical processor, a Diffractive Deep Neural Network (D2NN) utilizes engineered diffractive surfaces designed through machine learning to perform all-optical information processing, completing its tasks at the speed of light propagation through thin optical layers. With sufficient degrees-of-freedom, D2NNs can perform arbitrary complex-valued linear transformations using spatially coherent light. Similarly, D2NNs can also perform arbitrary linear intensity transformations with spatially incoherent illumination; however, under spatially incoherent light, these transformations are non-negative, acting on diffraction-limited optical intensity patterns at the input field-of-view (FOV). Here, we expand the use of spatially incoherent D2NNs to complex-valued information processing for executing arbitrary complex-valued linear transformations using spatially incoherent light. Through simulations, we show that as the number of optimized diffractive features increases beyond a threshold dictated by the multiplication of the input and output space-bandwidth products, a spatially incoherent diffractive visual processor can approximate any complex-valued linear transformation and be used for all-optical image encryption using incoherent illumination. The findings are important for the all-optical processing of information under natural light using various forms of diffractive surface-based optical processors.
翻訳日:2023-10-06 17:07:27 公開日:2023-10-05
# 結合力学系における相互作用ネットワークの機械学習

Machine learning the interaction network in coupled dynamical systems ( http://arxiv.org/abs/2310.03378v1 )

ライセンス: Link先を確認
Pawan R. Bhure, M. S. Santhanam(参考訳) 相互作用する力学系の研究は、科学と工学の様々な分野に研究の関心を惹きつけ続けている。 相互作用する粒子の集合において、相互作用ネットワークは、様々なコンポーネントが相互にどのように相互作用するかに関する情報を含んでいる。 エージェントのダイナミクスからインタラクションネットワークに関する情報を推測することは、長年の関心の問題だ。 本研究では,自己教師付きニューラルネットワークモデルを用いて,インタラクションネットワークの回復と個々のエージェントのダイナミクスの予測という2つの結果を達成する。 これらの情報は、観測された軌跡データからのみ推測される。 この研究は、フークの法則相互作用と結合相(倉本)振動子を介する結合粒子の2つの力学系へのニューラルリレーショナル推論モデルの応用を示す。

The study of interacting dynamical systems continues to attract research interest in various fields of science and engineering. In a collection of interacting particles, the interaction network contains information about how various components interact with one another. Inferring the information about the interaction network from the dynamics of agents is a problem of long-standing interest. In this work, we employ a self-supervised neural network model to achieve two outcomes: to recover the interaction network and to predict the dynamics of individual agents. Both these information are inferred solely from the observed trajectory data. This work presents an application of the Neural Relational Inference model to two dynamical systems: coupled particles mediated by Hooke's law interaction and coupled phase (Kuramoto) oscillators.
翻訳日:2023-10-06 17:07:01 公開日:2023-10-05
# act-net:手術ビデオにおけるアンカーコンテキスト動作検出

ACT-Net: Anchor-context Action Detection in Surgery Videos ( http://arxiv.org/abs/2310.03377v1 )

ライセンス: Link先を確認
Luoying Hao, Yan Hu, Wenjun Lin, Qun Wang, Heng Li, Huazhu Fu, Jinming Duan, and Jiang Liu(参考訳) 手術の詳細な行動の認識と局所化は,文脈認識型意思決定支援システムの開発に不可欠な要素である。 しかし、既存の検出アルゴリズムの多くは、映像全体において手術手順の規則性を考慮していないため、位置を持つ場合でも高精度なアクションクラスを提供していない。 この制限は適用を妨げる。 さらに, 臨床応用における予測の実施には, 信頼感をモデルに伝える必要があるが, 手術行動予測には未検討である。 本稿では,各瞬間に発生するきめ細かい動作を正確に検出するために,アンカー・コンテキスト検出(ACD)モジュールとクラス条件拡散(CCD)モジュールを含むアンカー・コンテキスト・アクション検出ネットワーク(ACTNet)を提案する。 1) 行動が起こる場合 2) 行動とは何か 3)信頼度予測の程度。 具体的には,手術ビデオにおいて抽出されたアンカーと相互作用する領域を空間的および時間的に強調し,アンカーとコンテキストの相互作用に基づいて動作位置とそのクラス分布を求める。 ビデオ中のアクションクラスの完全な分布を考えると、CCDモジュールは、ACD推定器に条件付き拡散に基づく生成モデルを導入し、アクション予測をより正確に再構成する。 さらに, 拡散モデル出力の確率的性質を利用して, 予測毎にモデル信頼度にアクセスする。 手術用ビデオデータセットのベースラインに対して4.0%mAPの改善が得られた。

Recognition and localization of surgical detailed actions is an essential component of developing a context-aware decision support system. However, most existing detection algorithms fail to provide high-accuracy action classes even having their locations, as they do not consider the surgery procedure's regularity in the whole video. This limitation hinders their application. Moreover, implementing the predictions in clinical applications seriously needs to convey model confidence to earn entrustment, which is unexplored in surgical action prediction. In this paper, to accurately detect fine-grained actions that happen at every moment, we propose an anchor-context action detection network (ACTNet), including an anchor-context detection (ACD) module and a class conditional diffusion (CCD) module, to answer the following questions: 1) where the actions happen; 2) what actions are; 3) how confidence predictions are. Specifically, the proposed ACD module spatially and temporally highlights the regions interacting with the extracted anchor in surgery video, which outputs action location and its class distribution based on anchor-context interactions. Considering the full distribution of action classes in videos, the CCD module adopts a denoising diffusion-based generative model conditioned on our ACD estimator to further reconstruct accurately the action predictions. Moreover, we utilize the stochastic nature of the diffusion model outputs to access model confidence for each prediction. Our method reports the state-of-the-art performance, with improvements of 4.0% mAP against baseline on the surgical video dataset.
翻訳日:2023-10-06 17:06:49 公開日:2023-10-05
# 大規模言語モデルを用いた手続きテキストマイニング

Procedural Text Mining with Large Language Models ( http://arxiv.org/abs/2310.03376v1 )

ライセンス: Link先を確認
Anisa Rula and Jennifer D'Souza(参考訳) 自然言語処理分野の最近の進歩、特に膨大な知識に基づいて事前訓練された大規模言語モデルの開発は、知識工学の領域において新たな機会を生み出している。 本稿では,ゼロショットとインコンテクストの学習環境における大規模言語モデル (LLM) の利用について検討し,非構造化PDFテキストから段階的な質問応答方式でプロシージャを抽出する問題に対処する。 特に,現在最先端の GPT-4 (Generative Pre-trained Transformer 4) モデルと,手順定義と手順定義を含むオントロジーを含む2種類のコンテキスト内学習と,少数ショット学習の限られたサンプルを併用する。 この結果は、このアプローチの約束と、コンテキスト内学習のカスタマイズの価値の両方を強調している。 これらの修正は、十分なトレーニングデータを得るという課題に対処する可能性があり、これは、深層学習に基づく手続き抽出のための自然言語処理技術でしばしば発生するハードルである。

Recent advancements in the field of Natural Language Processing, particularly the development of large-scale language models that are pretrained on vast amounts of knowledge, are creating novel opportunities within the realm of Knowledge Engineering. In this paper, we investigate the usage of large language models (LLMs) in both zero-shot and in-context learning settings to tackle the problem of extracting procedures from unstructured PDF text in an incremental question-answering fashion. In particular, we leverage the current state-of-the-art GPT-4 (Generative Pre-trained Transformer 4) model, accompanied by two variations of in-context learning that involve an ontology with definitions of procedures and steps and a limited number of samples of few-shot learning. The findings highlight both the promise of this approach and the value of the in-context learning customisations. These modifications have the potential to significantly address the challenge of obtaining sufficient training data, a hurdle often encountered in deep learning-based Natural Language Processing techniques for procedure extraction.
翻訳日:2023-10-06 17:06:21 公開日:2023-10-05
# 制御可能な人体運動合成のための点ベース放射場

Point-Based Radiance Fields for Controllable Human Motion Synthesis ( http://arxiv.org/abs/2310.03375v1 )

ライセンス: Link先を確認
Haitao Yu, Deheng Zhang, Peiyuan Xie, Tianyi Zhang(参考訳) 本稿では,静的点に基づく放射場に基づく微粒度変形の制御可能な新しいヒューマンモーション合成法を提案する。 従来の編集可能なニューラルラディアンスフィールド法は、新しいビュー合成において印象的な結果を生成でき、ナイーブな変形を可能にするが、フォワードキネマティクスのような複雑な3D人間の編集を実現するアルゴリズムはほとんどない。 本手法では,明示的ポイントクラウドを利用して静的3dシーンを訓練し,変形mlpを用いてポイントクラウド変換を符号化することで変形を適用する。 レンダリング結果が正準空間トレーニングと一致していることを確認するため,svdを用いて局所回転を推定し,事前学習した放射場のクエリビュー方向に点単位回転を補間する。 広範な実験により,人間以外の3d文字に一般化できる超高次複素変形の最先端を著しく上回ることができることを示した。

This paper proposes a novel controllable human motion synthesis method for fine-level deformation based on static point-based radiance fields. Although previous editable neural radiance field methods can generate impressive results on novel-view synthesis and allow naive deformation, few algorithms can achieve complex 3D human editing such as forward kinematics. Our method exploits the explicit point cloud to train the static 3D scene and apply the deformation by encoding the point cloud translation using a deformation MLP. To make sure the rendering result is consistent with the canonical space training, we estimate the local rotation using SVD and interpolate the per-point rotation to the query view direction of the pre-trained radiance field. Extensive experiments show that our approach can significantly outperform the state-of-the-art on fine-level complex deformation which can be generalized to other 3D characters besides humans.
翻訳日:2023-10-06 17:06:04 公開日:2023-10-05
# 平面ソフト成長ロボットマニピュレータの設計最適化

Design Optimizer for Planar Soft-Growing Robot Manipulators ( http://arxiv.org/abs/2310.03374v1 )

ライセンス: Link先を確認
Fabio Stroppa(参考訳) ソフト成長ロボットは、植物にインスパイアされた環境をナビゲートする革新的なデバイスである。 彼らの環境に適応する具体化された知性と、アクチュエーションと製造における最新の革新のおかげで、特定の操作タスクにそれらを利用することができる。 これらの機器の応用には、繊細で危険な環境の探索、アイテムの操作、あるいは国内環境における支援が含まれる。 この研究は、ソフト成長ロボットの設計最適化のための新しいアプローチを提示している。これは、特定のタスクを解決するために構築されるロボットの最適な寸法であるエンジニア(あるいはロボットデザイナーの愛好家)を、製造前に使用する。 設計過程を多目的最適化問題としてモデル化し,ソフトマニピュレータのキネマティックチェーンを最適化して目標に到達し,材料や資源の過剰使用を回避する。 この手法は人口ベースの最適化アルゴリズム、特に進化アルゴリズムの利点を利用して、効率的な数学的定式化、新しいランク分割アルゴリズム、およびオプティマイザ演算子に統合された障害物回避性により、問題を多目的から単一目的に変換する。 提案手法を最適性にアクセスするために, 提案手法を検証したところ, 解法の性能は著しく向上した。 最後に,提案手法は文献上に存在するものよりも精度,資源消費,実行時間の点で優れていることを示した。

Soft-growing robots are innovative devices that feature plant-inspired growth to navigate environments. Thanks to their embodied intelligence of adapting to their surroundings and the latest innovation in actuation and manufacturing, it is possible to employ them for specific manipulation tasks. The applications of these devices include exploration of delicate/dangerous environments, manipulation of items, or assistance in domestic environments. This work presents a novel approach for design optimization of soft-growing robots, which will be used prior to manufacturing to suggest engineers -- or robot designer enthusiasts -- the optimal dimension of the robot to be built for solving a specific task. I modeled the design process as a multi-objective optimization problem, in which I optimize the kinematic chain of a soft manipulator to reach targets and avoid unnecessary overuse of material and resources. The method exploits the advantages of population-based optimization algorithms, in particular evolutionary algorithms, to transform the problem from multi-objective into a single-objective thanks to an efficient mathematical formulation, the novel rank-partitioning algorithm, and obstacle avoidance integrated within the optimizer operators. I tested the proposed method on different tasks to access its optimality, which showed significant performance in solving the problem. Finally, comparative experiments showed that the proposed method works better than the one existing in the literature in terms of precision, resource consumption, and run time.
翻訳日:2023-10-06 17:05:47 公開日:2023-10-05
# 超伝導電荷量子ネットワークのナノメカニカル操作

Nanomechanical manipulation of superconducting charge-qubit quantum networks ( http://arxiv.org/abs/2310.03373v1 )

ライセンス: Link先を確認
Danko Radi\'c, Leonid I. Gorelik, Sergei I. Kulinich, Robert I. Shekhter(参考訳) 超伝導電荷量子ネットワークのナノメカニカルな操作を実証するために, パラメータ制御のためのナノエレクトロメカニカルセットアップと対応する時間プロトコールを提案する。 ナノメカニクスによって促進される2つの電荷量子ビット間の量子情報の伝達である量子情報処理の重要なタスクを反映した例を示す。 設定は、バイアス電圧制御バルク超電導体と、クーパーペアボックスの配置で機械的に振動するメゾスコピック超電導粒子との間の交流ジョセフソン効果を利用した端子を、ゲート電圧で制御した端末に基づいている。 量子ネットワークの詳細な操作は、電荷量子ビット間の量子情報の変換と、量子ビット間の伝達を容易にする故意に構築されたナノメカニカルコヒーレント状態によって達成される。 この性能は、電気状態と機械状態の量子絡み合いによって達成される。

We suggest a nanoelectromechanical setup and corresponding time-protocol for controlling parameters in order to demonstrate nanomechanical manipulation of superconducting charge-qubit quantum network. We illustrate it on an example reflecting important task for quantum information processing - transmission of quantum information between two charge-qubits facilitated by nanomechanics. The setup is based on terminals utilizing the AC Josephson effect between bias voltage-controlled bulk superconductors and mechanically vibrating mesoscopic superconducting grain in the regime of the Cooper pair box, controlled by the gate voltage. The described manipulation of quantum network is achieved by transduction of quantum information between charge-qubits and intentionally built nanomechanical coherent states, which facilitate its transmission between qubits. This performance is achieved using quantum entanglement between electrical and mechanical states.
翻訳日:2023-10-06 17:05:23 公開日:2023-10-05
# 中国語大言語モデルにおける幻覚評価

Evaluating Hallucinations in Chinese Large Language Models ( http://arxiv.org/abs/2310.03368v1 )

ライセンス: Link先を確認
Qinyuan Cheng, Tianxiang Sun, Wenwei Zhang, Siyin Wang, Xiangyang Liu, Mozhi Zhang, Junliang He, Mianqiu Huang, Zhangyue Yin, Kai Chen, Xipeng Qiu(参考訳) 本稿では,中国大言語モデルにおける幻覚現象を測定するために,HaluQAというベンチマークを作成した。 HalluQAには450の厳密に設計された敵の質問が含まれており、複数のドメインにまたがっており、中国の歴史的文化、慣習、社会現象を考慮に入れている。 HalluQAの構築中,擬似偽造と事実誤りの2種類の幻覚を考察し,GLM-130B と ChatGPT に基づく敵対的サンプルを構築した。 評価のために,モデル出力が幻覚的かどうかを判定するために,GPT-4を用いた自動評価手法を設計する。 ERNIE-Bot、Baichuan2、ChatGLM、Qwen、SparkDeskなど、24の大規模言語モデルに関する広範な実験を行います。 24モデル中、18モデルは50%未満の非幻覚率を達成した。 これはHauQAが非常に難しいことを示している。 様々なモデルにおける幻覚の主なタイプとその原因を分析した。 さらに,様々なモデルに対してどの種類の幻覚を優先すべきかについて議論する。

In this paper, we establish a benchmark named HalluQA (Chinese Hallucination Question-Answering) to measure the hallucination phenomenon in Chinese large language models. HalluQA contains 450 meticulously designed adversarial questions, spanning multiple domains, and takes into account Chinese historical culture, customs, and social phenomena. During the construction of HalluQA, we consider two types of hallucinations: imitative falsehoods and factual errors, and we construct adversarial samples based on GLM-130B and ChatGPT. For evaluation, we design an automated evaluation method using GPT-4 to judge whether a model output is hallucinated. We conduct extensive experiments on 24 large language models, including ERNIE-Bot, Baichuan2, ChatGLM, Qwen, SparkDesk and etc. Out of the 24 models, 18 achieved non-hallucination rates lower than 50%. This indicates that HalluQA is highly challenging. We analyze the primary types of hallucinations in different types of models and their causes. Additionally, we discuss which types of hallucinations should be prioritized for different types of models.
翻訳日:2023-10-06 17:05:07 公開日:2023-10-05
# swin-tempo : swin transformer-enhanced unetを用いたctスキャンによる肺結節の検出

Swin-Tempo: Temporal-Aware Lung Nodule Detection in CT Scans as Video Sequences Using Swin Transformer-Enhanced UNet ( http://arxiv.org/abs/2310.03365v1 )

ライセンス: Link先を確認
Hossein Jafari, Karim Faez, Hamidreza Amindavar(参考訳) 肺癌は非常に致命的であり、早期発見の必要性を強調する。 しかし、肺結節の同定は、正確な診断のために専門知識と経験に重きを置き、放射線科医にとって大きな課題となる。 この問題に対処するために,ctスキャンによる肺結節の同定を支援するために,機械学習技術に基づくコンピュータ支援診断システムが出現した。 残念ながら、この領域の既存のネットワークは、しばしば計算の複雑さに悩まされ、偽陰性や偽陽性の頻度が高くなり、その効果が制限される。 これらの課題に対処するために,畳み込みニューラルネットワークと視覚トランスフォーマーの両方の長所を利用する革新的なモデルを提案する。 映像中の物体検出に触発されて,各3次元ct画像をビデオとして,個々のスライスをフレームとして,肺結節をオブジェクトとして扱い,時系列アプリケーションを可能にする。 本研究の主な目的は、モデルトレーニング中のハードウェアの限界を克服し、スライス間情報を利用して2次元データの効率的な処理を可能にすることである。 2016年の肺結節解析データセットに10倍のクロスバリデーション手法を適用し,提案ネットワークの検証を行った。 提案アーキテクチャは,平均感度基準が97.84%,競合性能指標(cpm)が96.0%であり,パラメータは少ない。 肺結節同定における最先端の進歩との比較分析は,提案モデルが達成した有意な精度を示している。

Lung cancer is highly lethal, emphasizing the critical need for early detection. However, identifying lung nodules poses significant challenges for radiologists, who rely heavily on their expertise and experience for accurate diagnosis. To address this issue, computer-aided diagnosis systems based on machine learning techniques have emerged to assist doctors in identifying lung nodules from computed tomography (CT) scans. Unfortunately, existing networks in this domain often suffer from computational complexity, leading to high rates of false negatives and false positives, limiting their effectiveness. To address these challenges, we present an innovative model that harnesses the strengths of both convolutional neural networks and vision transformers. Inspired by object detection in videos, we treat each 3D CT image as a video, individual slices as frames, and lung nodules as objects, enabling a time-series application. The primary objective of our work is to overcome hardware limitations during model training, allowing for efficient processing of 2D data while utilizing inter-slice information for accurate identification based on 3D image context. We validated the proposed network by applying a 10-fold cross-validation technique to the publicly available Lung Nodule Analysis 2016 dataset. Our proposed architecture achieves an average sensitivity criterion of 97.84% and a competition performance metrics (CPM) of 96.0% with few parameters. Comparative analysis with state-of-the-art advancements in lung nodule identification demonstrates the significant accuracy achieved by our proposed model.
翻訳日:2023-10-06 17:04:48 公開日:2023-10-05
# 圧縮センシングを用いた空中フェデレート学習:スパーシフィケーションは必要か?

Over-the-Air Federated Learning with Compressed Sensing: Is Sparsification Necessary? ( http://arxiv.org/abs/2310.03410v1 )

ライセンス: Link先を確認
Adrian Edin and Zheng Chen(参考訳) Over-the-Air (OtA) Federated Learning (FL)は、複数のエージェントが共通のエッジサーバにモデル更新を送信するためにOtA計算を適用するFLシステムである。 OtA計算の2つの重要な特徴、すなわち線形処理と信号レベルの重ね合わせは、チャネル越しに送信されるデータサンプルの数を減らすために、圧縮センシング(CS)法による線形圧縮の使用を動機付けている。 OtA FLにおけるCS法の適用に関する以前の研究は、オリジナルのモデル更新ベクターは、圧縮前にスパース化されていると想定していた。 しかし、csベースの再構成による線形圧縮が、スパルシファイド更新ベクトルの非ゼロ要素を同じ全パワー制約下で直接送るよりも有効であるかどうかは不明である。 本研究では,複数の通信設計と疎結合の有無を比較検討する。 以上の結果から,圧縮前のスパーシフィケーションは不要であることが判明した。 あるいは、線形圧縮のないスペーシフィケーションは、どちらも組み合わせた一般的な設定よりも優れたパフォーマンスが得られる。

Over-the-Air (OtA) Federated Learning (FL) refers to an FL system where multiple agents apply OtA computation for transmitting model updates to a common edge server. Two important features of OtA computation, namely linear processing and signal-level superposition, motivate the use of linear compression with compressed sensing (CS) methods to reduce the number of data samples transmitted over the channel. The previous works on applying CS methods in OtA FL have primarily assumed that the original model update vectors are sparse, or they have been sparsified before compression. However, it is unclear whether linear compression with CS-based reconstruction is more effective than directly sending the non-zero elements in the sparsified update vectors, under the same total power constraint. In this study, we examine and compare several communication designs with or without sparsification. Our findings demonstrate that sparsification before compression is not necessary. Alternatively, sparsification without linear compression can also achieve better performance than the commonly considered setup that combines both.
翻訳日:2023-10-06 16:56:30 公開日:2023-10-05
# RUSOpt: 面内および面外走査のためのベイズ最適化によるロボット超音波プローブの正規化

RUSOpt: Robotic UltraSound Probe Normalization with Bayesian Optimization for In-plane and Out-plane Scanning ( http://arxiv.org/abs/2310.03406v1 )

ライセンス: Link先を確認
Deepak Raina, Abhishek Mathur, Richard M. Voyles, Juan Wachs, SH Chandrashekhara, Subir Kumar Saha(参考訳) 自律型ロボット超音波システムで直面する重要な課題の1つは、さまざまな患者にまたがる高品質な画像を取得することだ。 ロボットプローブの適切な配向は,超音波画像の品質管理において重要な役割を担っている。 この課題に対処するため,超音波プローブを走査面上の接触点に向ける方向を自動的に調整し,プローブの音響的結合を改善し,画像品質を向上する試料効率向上手法を提案する。 本手法は, 走査面に基づくベイズ最適化(bo)を応用し, 正規化プローブ配向を効率的に探索する。 本稿では, 接触力測定と基盤力学を応用したBOの目的関数を定式化し, 正常値の同定を行う。 さらに,bo の正規化スキームを組み込んで,雑音を伴う対象関数を処理する。 提案手法の性能は膀胱ファントムの実験を通じて評価されている。 これらのファントムは平面,傾斜面,粗面を含んでおり,探索空間の限界が異なる線形プローブと凸プローブを用いて検討した。 さらに,3次元メッシュモデルを用いたシミュレーションに基づく研究も行われている。 結果は、ファントムと3dモデルで平均される平均($\pm$sd)絶対角誤差がそれぞれ$\boldsymbol{2.4\pm0.7^\circ}$と$\boldsymbol{2.1\pm1.3^\circ}$であることを示している。

The one of the significant challenges faced by autonomous robotic ultrasound systems is acquiring high-quality images across different patients. The proper orientation of the robotized probe plays a crucial role in governing the quality of ultrasound images. To address this challenge, we propose a sample-efficient method to automatically adjust the orientation of the ultrasound probe normal to the point of contact on the scanning surface, thereby improving the acoustic coupling of the probe and resulting image quality. Our method utilizes Bayesian Optimization (BO) based search on the scanning surface to efficiently search for the normalized probe orientation. We formulate a novel objective function for BO that leverages the contact force measurements and underlying mechanics to identify the normal. We further incorporate a regularization scheme in BO to handle the noisy objective function. The performance of the proposed strategy has been assessed through experiments on urinary bladder phantoms. These phantoms included planar, tilted, and rough surfaces, and were examined using both linear and convex probes with varying search space limits. Further, simulation-based studies have been carried out using 3D human mesh models. The results demonstrate that the mean ($\pm$SD) absolute angular error averaged over all phantoms and 3D models is $\boldsymbol{2.4\pm0.7^\circ}$ and $\boldsymbol{2.1\pm1.3^\circ}$, respectively.
翻訳日:2023-10-06 16:56:07 公開日:2023-10-05
# EAG-RS:地域間関係学習によるASD診断のための説明可能性誘導ROI選択フレームワーク

EAG-RS: A Novel Explainability-guided ROI-Selection Framework for ASD Diagnosis via Inter-regional Relation Learning ( http://arxiv.org/abs/2310.03404v1 )

ライセンス: Link先を確認
Wonsik Jung, Eunjin Jeon, Eunsong Kang, Heung-Il Suk(参考訳) 脳疾患、特に自閉症スペクトラム障害(ASD)の診断に、静止状態機能的MRI(rs-fMRI)に基づくディープラーニングモデルが広く用いられている。 既存の研究では、r-fMRIの機能的接続(FC)を活用し、顕著な分類性能を実現している。 しかし,ASD患者の個々の特徴(症状や重症度の違いなど)を考慮せず,線形低次FCをモデルへの入力として用いながら,適切な情報がないこと,意思決定プロセスの非説明性など,大きな制限がある。 これらの制限を補うために,説明可能な人工知能技術を利用して脳領域間の非線形高次機能関係を識別し,脳疾患識別のためのクラス識別領域を選択する新しい説明可能性誘導領域(roi)選択(eag-rs)フレームワークを提案する。 提案するフレームワークには3つのステップがある。 一 ランダムシード型ネットワークマスキングによる地域間関係学習による非線形関係の推定 (ii)機能的接続間の高次関係を探究するための説明可能な接続的関連度スコア推定 3)非線形高次FCベース診断型ROI選択と分類器によるASDの同定。 我々は,自閉症脳画像データベース(ABIDE)データセットを用いて実験を行い,提案手法の有効性を検証した。 さらに,選択したROIを質的に分析し,従来の神経科学研究に関連するALDサブタイプを同定した。

Deep learning models based on resting-state functional magnetic resonance imaging (rs-fMRI) have been widely used to diagnose brain diseases, particularly autism spectrum disorder (ASD). Existing studies have leveraged the functional connectivity (FC) of rs-fMRI, achieving notable classification performance. However, they have significant limitations, including the lack of adequate information while using linear low-order FC as inputs to the model, not considering individual characteristics (i.e., different symptoms or varying stages of severity) among patients with ASD, and the non-explainability of the decision process. To cover these limitations, we propose a novel explainability-guided region of interest (ROI) selection (EAG-RS) framework that identifies non-linear high-order functional associations among brain regions by leveraging an explainable artificial intelligence technique and selects class-discriminative regions for brain disease identification. The proposed framework includes three steps: (i) inter-regional relation learning to estimate non-linear relations through random seed-based network masking, (ii) explainable connection-wise relevance score estimation to explore high-order relations between functional connections, and (iii) non-linear high-order FC-based diagnosis-informative ROI selection and classifier learning to identify ASD. We validated the effectiveness of our proposed method by conducting experiments using the Autism Brain Imaging Database Exchange (ABIDE) dataset, demonstrating that the proposed method outperforms other comparative methods in terms of various evaluation metrics. Furthermore, we qualitatively analyzed the selected ROIs and identified ASD subtypes linked to previous neuroscientific studies.
翻訳日:2023-10-06 16:55:44 公開日:2023-10-05
# 微細微細化による超音波の補完的グローバル・ローカル知識ネットワーク

A Complementary Global and Local Knowledge Network for Ultrasound denoising with Fine-grained Refinement ( http://arxiv.org/abs/2310.03402v1 )

ライセンス: Link先を確認
Zhenyu Bu, Kai-Ni Wang, Fuxing Zhao, Shengxiao Li, Guang-Quan Zhou(参考訳) 超音波イメージングは、一般的に臨床検査に使用される効果的で非侵襲的な診断ツールである。 しかし、超音波画像におけるスペックルノイズの存在は、画像品質を劣化させ、セグメンテーションや分類といったその後のタスクのパフォーマンスを阻害する。 既存のスペックルノイズ低減法では、過剰な画像平滑化や詳細な情報を適切に保存できない場合が多い。 本稿では,微細な精細化を伴う超音波診断のための補完的グローバル・ローカル知識ネットワークを提案する。 当初、提案されたアーキテクチャはl-cswintransformerをエンコーダとしてグローバル情報をキャプチャし、cnnをデコーダとして組み込んでローカル機能を融合させた。 CSwin Transformer と比較して,様々な段階で特徴の解像度を拡大し,よりグローバルな情報を抽出する。 その後、スキップ接続ステージに細粒度リファインメントブロック(FRB)を統合し、機能拡張を行う。 HC18とBUSIの2つの公開データセットでモデルを検証する。 実験結果から, 定量的指標と視覚的性能の両面での競合性能が得られた。 私たちのコードはhttps://github.com/aalkaid/usdenoisingで利用できます。

Ultrasound imaging serves as an effective and non-invasive diagnostic tool commonly employed in clinical examinations. However, the presence of speckle noise in ultrasound images invariably degrades image quality, impeding the performance of subsequent tasks, such as segmentation and classification. Existing methods for speckle noise reduction frequently induce excessive image smoothing or fail to preserve detailed information adequately. In this paper, we propose a complementary global and local knowledge network for ultrasound denoising with fine-grained refinement. Initially, the proposed architecture employs the L-CSwinTransformer as encoder to capture global information, incorporating CNN as decoder to fuse local features. We expand the resolution of the feature at different stages to extract more global information compared to the original CSwinTransformer. Subsequently, we integrate Fine-grained Refinement Block (FRB) within the skip-connection stage to further augment features. We validate our model on two public datasets, HC18 and BUSI. Experimental results demonstrate that our model can achieve competitive performance in both quantitative metrics and visual performance. Our code will be available at https://github.com/AAlkaid/USDenoising.
翻訳日:2023-10-06 16:55:19 公開日:2023-10-05
# コンテンツモデレーションに大規模言語モデルを適用する - データエンジニアリングと教師付き微調整の落とし穴-

Adapting Large Language Models for Content Moderation: Pitfalls in Data Engineering and Supervised Fine-tuning ( http://arxiv.org/abs/2310.03400v1 )

ライセンス: Link先を確認
Huan Ma, Changqing Zhang, Huazhu Fu, Peilin Zhao, Bingzhe Wu(参考訳) 今日では何十億という人々がコミュニケーションに携わり、毎日インターネット上で意見を表明している。 残念なことに、これらすべての表現は友好的あるいは準拠的であり、コンテンツモデレーションは必須のタスクである。 近年、LLM(Large Language Models)の開発が成功し、LLMベースの手法が様々な分野のタスクを扱うための実現可能なソリューションとなった。 しかし、コンテンツモデレーションの分野では、実装の詳細を体系的に導入する詳細な作業がまだ残っていない。 本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLPMモデルを微調整する方法を紹介する。 具体的には、微調整プロセス中に理由を組み込む方が良いか、分類タスクとして直接扱うべきかについて議論する。 また、より強力なLCMが生成する理由を、より微調整されたプライベートデプロイモデルのために生み出す利点と、より強力なLCMが生成する回答が正しくない場合の異なる処理アプローチの影響についても検討する。 本論文では,研究プロセス全体と重要な成果を報告し,ドメイン固有の研究にプライベートにデプロイされたモデルを微調整している研究者に貴重な経験を提供することを期待する。

Nowadays, billions of people engage in communication and express their opinions on the internet daily. Unfortunately, not all of these expressions are friendly or compliant, making content moderation an indispensable task. With the successful development of Large Language Models (LLMs) in recent years, LLM-based methods have become a feasible solution for handling tasks in various domains. However, in the field of content moderation, there is still a lack of detailed work that systematically introduces implementation details. In this paper, we introduce how to fine-tune an LLM model that can be privately deployed for content moderation. Specifically, we discuss whether incorporating reasons during the fine-tuning process would be better or if it should be treated as a classification task directly. We also explore the benefits of utilizing reasons generated by more powerful LLMs for fine-tuning privately deployed models and the impact of different processing approaches when the answers generated by the more powerful LLMs are incorrect. We report the entire research process and the key findings in this paper, hoping to provide valuable experience for researchers who are fine-tuning privately deployed models in their domain-specific research.
翻訳日:2023-10-06 16:55:00 公開日:2023-10-05
# GRAPES: スケーラブルなグラフニューラルネットワークのためのグラフのサンプル学習

GRAPES: Learning to Sample Graphs for Scalable Graph Neural Networks ( http://arxiv.org/abs/2310.03399v1 )

ライセンス: Link先を確認
Taraneh Younesian, Thiviyan Thanapalasingam, Emile van Krieken, Daniel Daza, Peter Bloem(参考訳) グラフニューラルネットワーク(GNN)は、近隣情報を様々な方法で集約することで、グラフ内のノードの表現を学習する。 これらのネットワークが深く成長するにつれて、その受容野は近隣の規模の増加により指数関数的に増加し、高いメモリコストが生じる。 グラフサンプリングは、グラフ内のノードの小さな比率をサンプリングすることで、GNNのメモリ問題を解決する。 このように、gnnはもっと大きなグラフにスケールできる。 ほとんどのサンプリング方法は、異なる構造やタスクに一般化しない固定サンプリングヒューリスティックにフォーカスする。 本稿では,GNN分類器の訓練に有効なノードの集合を識別する適応型グラフサンプリング法GRAPESを紹介する。 GRAPESはGFlowNetを使用して、分類対象からノードサンプリング確率を学習する。 我々は,いくつかの小規模および大規模グラフベンチマークにおけるGRAPESを評価し,その精度と拡張性を示す。 既存のサンプリング手法とは対照的に、GRAPESは小さなサンプルサイズでも高い精度を維持しており、非常に大きなグラフにスケールすることができる。 私たちのコードはhttps://github.com/dfdazac/grapesで公開されています。

Graph neural networks (GNNs) learn the representation of nodes in a graph by aggregating the neighborhood information in various ways. As these networks grow in depth, their receptive field grows exponentially due to the increase in neighborhood sizes, resulting in high memory costs. Graph sampling solves memory issues in GNNs by sampling a small ratio of the nodes in the graph. This way, GNNs can scale to much larger graphs. Most sampling methods focus on fixed sampling heuristics, which may not generalize to different structures or tasks. We introduce GRAPES, an adaptive graph sampling method that learns to identify sets of influential nodes for training a GNN classifier. GRAPES uses a GFlowNet to learn node sampling probabilities given the classification objectives. We evaluate GRAPES across several small- and large-scale graph benchmarks and demonstrate its effectiveness in accuracy and scalability. In contrast to existing sampling methods, GRAPES maintains high accuracy even with small sample sizes and, therefore, can scale to very large graphs. Our code is publicly available at https://github.com/dfdazac/grapes.
翻訳日:2023-10-06 16:54:40 公開日:2023-10-05
# gromov-wassersteinによるクラスタリングと次元縮小の補間

Interpolating between Clustering and Dimensionality Reduction with Gromov-Wasserstein ( http://arxiv.org/abs/2310.03398v1 )

ライセンス: Link先を確認
Hugues Van Assel, C\'edric Vincent-Cuaz, Titouan Vayer, R\'emi Flamary, Nicolas Courty(参考訳) 本稿では,既存の次元還元(DR)目標を多目的に適応させ,サンプルと特徴の同時縮小を可能にする。 入力と埋め込みサンプルの対応は、半相対型gromov-wasserstein optimal transport (ot)問題によって計算される。 埋め込みサンプルサイズが入力の値と一致する場合、我々のモデルは古典的なDRモデルを復元する。 組込みの次元が拘束されない場合、otプランが競合的なハードクラスタリングをもたらすことを示す。 本稿では,実データを要約するためにdrとクラスタリングをブレンドする中間段階の重要性を強調し,画像のデータセットの可視化に本手法を適用する。

We present a versatile adaptation of existing dimensionality reduction (DR) objectives, enabling the simultaneous reduction of both sample and feature sizes. Correspondances between input and embedding samples are computed through a semi-relaxed Gromov-Wasserstein optimal transport (OT) problem. When the embedding sample size matches that of the input, our model recovers classical popular DR models. When the embedding's dimensionality is unconstrained, we show that the OT plan delivers a competitive hard clustering. We emphasize the importance of intermediate stages that blend DR and clustering for summarizing real data and apply our method to visualize datasets of images.
翻訳日:2023-10-06 16:54:24 公開日:2023-10-05
# 歩行分析における空間時間グラフの簡易化

Learning to Simplify Spatial-Temporal Graphs in Gait Analysis ( http://arxiv.org/abs/2310.03396v1 )

ライセンス: Link先を確認
Adrian Cosma and Emilian Radoi(参考訳) 歩行分析は、複数の領域にわたる個人識別と評価にユニークな歩行パターンを利用する。 歩行分析に用いられる手法のうち、スケルトンベースのアプローチは、その堅牢で解釈可能な特徴のために期待されている。 しかしながら、これらの手法はデータセットやタスクの特異性を無視した人間の解剖に基づく手作りの時空間グラフに依存することが多い。 本稿では,歩行に基づく性別推定のための空間時間グラフ表現を簡略化する手法を提案する。 提案手法では,上流モデルと下流モデルという2つのモデルを用いて,各ウォーキングインスタンスの隣接行列を調整し,グラフの固定特性を除去する。 Straight-Through Gumbel-Softmaxのトリックを利用することで、我々のモデルはエンドツーエンドでトレーニングできる。 歩行に基づく性別推定のためのCASIA-Bデータセットに対するアプローチの有効性を示す。 得られたグラフは解釈可能であり、既存のモデルで用いられる固定グラフと質的に異なる。 我々の研究は、歩行認識の説明可能性とタスク固有の適応性の向上に寄与し、より効率的で信頼性の高い歩行ベースのバイオメトリックスを促進する。

Gait analysis leverages unique walking patterns for person identification and assessment across multiple domains. Among the methods used for gait analysis, skeleton-based approaches have shown promise due to their robust and interpretable features. However, these methods often rely on hand-crafted spatial-temporal graphs that are based on human anatomy disregarding the particularities of the dataset and task. This paper proposes a novel method to simplify the spatial-temporal graph representation for gait-based gender estimation, improving interpretability without losing performance. Our approach employs two models, an upstream and a downstream model, that can adjust the adjacency matrix for each walking instance, thereby removing the fixed nature of the graph. By employing the Straight-Through Gumbel-Softmax trick, our model is trainable end-to-end. We demonstrate the effectiveness of our approach on the CASIA-B dataset for gait-based gender estimation. The resulting graphs are interpretable and differ qualitatively from fixed graphs used in existing models. Our research contributes to enhancing the explainability and task-specific adaptability of gait recognition, promoting more efficient and reliable gait-based biometrics.
翻訳日:2023-10-06 16:54:13 公開日:2023-10-05
# 深層学習に基づく高次元逆確率微分方程式の解法に対する不確実性定量化

Uncertainty quantification for deep learning-based schemes for solving high-dimensional backward stochastic differential equations ( http://arxiv.org/abs/2310.03393v1 )

ライセンス: Link先を確認
Lorenc Kapllani, Long Teng and Matthias Rottmann(参考訳) 高次元後方確率微分方程式(bsdes)を解くための深層学習に基づく数値スキームは、近年多くの科学的関心を集めている。 数値的な手法で非常に高次元bsdを近似できるが、その信頼性は研究されておらず、理解されていない。 本研究では,深層学習に基づくBSDEスキームのクラスに対する不確実性定量化(UQ)について検討する。 より正確には、スキームに関わる不確実性の原因をレビューし、異なるソースの影響を数値的に研究する。 通常、データセットの異なるアルゴリズムの複数の実行から得られる近似解の標準偏差(STD)を計算して不確実性に対処する。 このアプローチは非常に高価であり、特に高次元問題に対してである。 そこで我々は,アルゴリズムの単一実行のみを用いて近似解のSTDを効率的に推定するUQモデルを開発した。 モデルはまた近似解の平均を推定し、アルゴリズムを初期化し最適化プロセスを改善するために利用できる。 数値実験により、UQモデルは、深層学習に基づくBSDEスキームのクラスに対する近似解の平均とSTDの信頼度を推定できることを示した。 推定STDは複数の不確実性の源を捉え、不確実性の定量化の有効性を示す。 さらに、推定STD値に基づいて異なるスキームを比較する際に、改良された性能を示す。 さらに、スキームが良好な近似を達成するためのハイパーパラメータ値も特定できる。

Deep learning-based numerical schemes for solving high-dimensional backward stochastic differential equations (BSDEs) have recently raised plenty of scientific interest. While they enable numerical methods to approximate very high-dimensional BSDEs, their reliability has not been studied and is thus not understood. In this work, we study uncertainty quantification (UQ) for a class of deep learning-based BSDE schemes. More precisely, we review the sources of uncertainty involved in the schemes and numerically study the impact of different sources. Usually, the standard deviation (STD) of the approximate solutions obtained from multiple runs of the algorithm with different datasets is calculated to address the uncertainty. This approach is computationally quite expensive, especially for high-dimensional problems. Hence, we develop a UQ model that efficiently estimates the STD of the approximate solution using only a single run of the algorithm. The model also estimates the mean of the approximate solution, which can be leveraged to initialize the algorithm and improve the optimization process. Our numerical experiments show that the UQ model produces reliable estimates of the mean and STD of the approximate solution for the considered class of deep learning-based BSDE schemes. The estimated STD captures multiple sources of uncertainty, demonstrating its effectiveness in quantifying the uncertainty. Additionally, the model illustrates the improved performance when comparing different schemes based on the estimated STD values. Furthermore, it can identify hyperparameter values for which the scheme achieves good approximations.
翻訳日:2023-10-06 16:53:57 公開日:2023-10-05
# 安全臨界産業における人間とAIの相互作用の解き放つ : 体系的文献レビュー

Unpacking Human-AI Interaction in Safety-Critical Industries: A Systematic Literature Review ( http://arxiv.org/abs/2310.03392v1 )

ライセンス: Link先を確認
Tita A. Bach, Jenny K. Kristiansen, Aleksandar Babic, and Alon Jacovi(参考訳) 安全クリティカル産業における高品質な人間-AIインタラクション(HAII)の確保が不可欠である。 失敗は破滅的かつ致命的な結果をもたらす可能性がある。 この緊急性にもかかわらず、HAIIに関する研究はほとんど行われていない。 本稿では,その分野を改善するための文献と研究のベストプラクティスに関する提言を紹介する。 本研究は,(1) HAIIを記述するための用語,(2)AI対応システムの主要な役割,(3) HAIIに影響を与える要因,(4) HAIIの測定方法に分けた。 さらに,本論文で議論されている安全クリティカルな産業で使用されるai対応システムの能力と成熟度について述べる。 文献中にHAIIを記述する用語は存在せず,複数の意味を持つ用語もある。 私たちの文献によると、HAIIに影響を与える5つの要因は、ユーザ特性と背景(例えば、ユーザ個性、知覚)、AIインターフェースと特徴(例えば、インタラクティブUIデザイン)、AI出力(例えば、正確性、行動可能なレコメンデーション)、説明可能性と解釈可能性(例えば、詳細レベル、ユーザ理解)、AIの使用(例えば、環境とユーザニーズの不均一性)である。 HAIIは、ユーザ関連の主観的指標(例えば、ユーザ認識、信頼、態度)で最もよく測定され、AI支援意思決定はAI対応システムの最も一般的な役割である。 本レビューから,HAIIにはかなりの研究ギャップが存在すると結論づける。 研究者や開発者は、HAII用語を体系化し、AIライフサイクル全体(特に開発期間中)にユーザを巻き込み、ユーザや環境に対して安全クリティカルな産業におけるHAIIを調整する必要がある。

Ensuring quality human-AI interaction (HAII) in safety-critical industries is essential. Failure to do so can lead to catastrophic and deadly consequences. Despite this urgency, what little research there is on HAII is fragmented and inconsistent. We present here a survey of that literature and recommendations for research best practices that will improve the field. We divided our investigation into the following research areas: (1) terms used to describe HAII, (2) primary roles of AI-enabled systems, (3) factors that influence HAII, and (4) how HAII is measured. Additionally, we described the capabilities and maturity of the AI-enabled systems used in safety-critical industries discussed in these articles. We found that no single term is used across the literature to describe HAII and some terms have multiple meanings. According to our literature, five factors influence HAII: user characteristics and background (e.g., user personality, perceptions), AI interface and features (e.g., interactive UI design), AI output (e.g., accuracy, actionable recommendations), explainability and interpretability (e.g., level of detail, user understanding), and usage of AI (e.g., heterogeneity of environments and user needs). HAII is most commonly measured with user-related subjective metrics (e.g., user perception, trust, and attitudes), and AI-assisted decision-making is the most common primary role of AI-enabled systems. Based on this review, we conclude that there are substantial research gaps in HAII. Researchers and developers need to codify HAII terminology, involve users throughout the AI lifecycle (especially during development), and tailor HAII in safety-critical industries to the users and environments.
翻訳日:2023-10-06 16:53:35 公開日:2023-10-05
# 2023年におけるフォルモサ音声認識のノースシステム

The North System for Formosa Speech Recognition Challenge 2023 ( http://arxiv.org/abs/2310.03443v1 )

ライセンス: Link先を確認
Li-Wei Chen, Kai-Chen Cheng, Hung-Shin Lee(参考訳) 本報告では,台湾のハッカ語における単語・音節の自動認識の実現を目的とした,提案する北部システムの簡潔な概要について述べる。 このレポートでは、トレーニングデータの取得、構成、利用、モデルのアーキテクチャ、ハードウェア仕様と運用統計の3つの重要なコンポーネントについて概説している。 システムのデモはhttps://asrvm.iis.sinica.edu.tw/hakka_sixianで見ることができる。

This report provides a concise overview of the proposed North system, which aims to achieve automatic word/syllable recognition for Taiwanese Hakka (Sixian). The report outlines three key components of the system: the acquisition, composition, and utilization of the training data; the architecture of the model; and the hardware specifications and operational statistics. The demonstration of the system can be found at https://asrvm.iis.sinica.edu.tw/hakka_sixian.
翻訳日:2023-10-06 16:47:11 公開日:2023-10-05
# 一般化一様行列

Generalized unistochastic matrices ( http://arxiv.org/abs/2310.03436v1 )

ライセンス: Link先を確認
Ion Nechita, Zikun Ouyang, Anna Szczepanek(参考訳) 本稿では,一様行列を一般化するビストカスティック行列のクラスを紹介し,研究する。 複素二部ユニタリ作用素が与えられたとき、ブロックのフロベニウスノルムの正規化二乗のエントリーを持つ双正則行列を構成する。 一般化された非正則行列の集合の閉包はバーホフポリトープ全体であることを示す。 我々は、Birkhoffポリトープの端点を、我々の集合の族に属する与えられたレベルに属する点の特徴付け、異なる(非凸)レベルがリッチな包含構造を持つことを示す。 オルソステキスティック行列の対応する一般化についても検討する。 最後に,集合上で誘導される自然確率測度をユニタリ群のハール測度により導入し,研究する。 これらの確率測度は、一様行列の集合上の自然測度とファン・デル・ワーデン行列上で支えられるディラック測度とを補間する。

We introduce and study a class of bistochastic matrices generalizing unistochastic matrices. Given a complex bipartite unitary operator, we construct a bistochastic matrix having as entries the normalized squares of Frobenius norm of the blocks. We show that the closure of the set of generalized unistochastic matrices is the whole Birkhoff polytope. We characterize the points on the edges of the Birkhoff polytope that belong to a given level of our family of sets, proving that the different (non-convex) levels have a rich inclusion structure. We also study the corresponding generalization of orthostochastic matrices. Finally, we introduce and study the natural probability measures induced on our sets by the Haar measure of the unitary group. These probability measures interpolate between the natural measure on the set of unistochastic matrices and the Dirac measure supported on the van der Waerden matrix.
翻訳日:2023-10-06 16:47:03 公開日:2023-10-05
# GARCHファミリーモデルの変分推論

Variational Inference for GARCH-family Models ( http://arxiv.org/abs/2310.03435v1 )

ライセンス: Link先を確認
Martin Magris, Alexandros Iosifidis(参考訳) ガーチ族モデルのベイズ推定はモンテカルロサンプリングによって取り組まれている。 変分推論は、複雑な機械学習モデルにおけるベイズ推論の堅牢なアプローチとして人気と注目を集めている。 本稿では, 変分推論が, GARCH 様モデルにおけるベイズ推定のためのモンテカルロサンプリングの信頼性と実現可能な代替手段となる範囲について論じる。 S&P 500指数の構成、いくつかの変分推論オプティマイザ、様々なボラティリティモデル、そしてケーススタディを含む大規模な実験を通して、変分推論はベイズ学習にとって魅力的で、極めてよく校正され、競争的な方法であることを示した。

The Bayesian estimation of GARCH-family models has been typically addressed through Monte Carlo sampling. Variational Inference is gaining popularity and attention as a robust approach for Bayesian inference in complex machine learning models; however, its adoption in econometrics and finance is limited. This paper discusses the extent to which Variational Inference constitutes a reliable and feasible alternative to Monte Carlo sampling for Bayesian inference in GARCH-like models. Through a large-scale experiment involving the constituents of the S&P 500 index, several Variational Inference optimizers, a variety of volatility models, and a case study, we show that Variational Inference is an attractive, remarkably well-calibrated, and competitive method for Bayesian learning.
翻訳日:2023-10-06 16:46:50 公開日:2023-10-05
# 量子コンピューティングとコミュニケーションによる機械学習の相乗効果

Synergy of machine learning with quantum computing and communication ( http://arxiv.org/abs/2310.03434v1 )

ライセンス: Link先を確認
Debasmita Bhoumik, Susmita Sur-Kolay, Latesh Kumar K. J., Sundaraja Sitharama Iyengar(参考訳) 量子コンピューティングと通信における機械学習は、物理学、数学、計算機科学の分野に革命をもたらす大きな機会を提供する。 この学際的領域の背後には理解の穴があり、コア理解の欠如は、この分野の機械学習技術を探求する機会を与えている。 本稿では,人工知能と機械学習モデルを用いて,量子コンピューティングと量子通信における最先端のアプローチを概観する。 本稿では、量子誤り訂正、量子通信、量子暗号、量子アルゴリズムを既存のハードウェアにマッピングするなど、量子計算に様々な方法で用いられている古典的MLモデルをレビューする。 この論文は、現在の課題が将来の研究経路にどのように変換されるかについても説明している。

Machine learning in quantum computing and communication provides intensive opportunities for revolutionizing the field of Physics, Mathematics, and Computer Science. There exists an aperture of understanding behind this interdisciplinary domain and a lack of core understanding renders an opportunity to explore the machine learning techniques for this domain. This paper gives a comprehensive review of state-of-the-art approaches in quantum computing and quantum communication in the context of Artificial Intelligence and machine learning models. The paper reviews the classical ML models that have been employed in various ways for quantum computation such as quantum error correction, quantum communication, quantum cryptography, and mapping quantum algorithms to the existing hardware. The paper also illustrates how the relevant current challenges can be transformed into future research avenues.
翻訳日:2023-10-06 16:46:36 公開日:2023-10-05
# 皮膚病変分類における領域シフトの影響 : 皮膚内視鏡画像に対する教師なし領域適応法のベンチマーク研究

Mitigating the Influence of Domain Shift in Skin Lesion Classification: A Benchmark Study of Unsupervised Domain Adaptation Methods on Dermoscopic Images ( http://arxiv.org/abs/2310.03432v1 )

ライセンス: Link先を確認
Sireesha Chamarthi, Katharina Fogelberg, Roman C. Maron, Titus J. Brinker, Julia Niebling(参考訳) 皮膚病変分類におけるディープニューラルネットワークの可能性は、皮膚科医の診断に勝るものではないが、すでに実証されている。 しかし、これらのモデルの性能は通常、テストデータがトレーニングデータ(すなわちドメインシフト)と大きく異なるときに低下する。 現実世界の皮膚病変分類タスクで使用されるモデルに対するこの制限は、患者を危険にさらす。 例えば、異なる画像取得システムや、以前には見られなかった患者の解剖学的部位は、そのようなドメインシフトを引き起こすのに十分である。 このようなシフトの悪影響を緩和することは重要であるが、ドメインシフトに対処する効果的な方法の開発は困難であることが証明されている。 本研究では,8種類の非教師付き領域適応手法の詳細な解析を行い,その適用性を検討した。 結果のロバスト性を確保するため,各手法を合計10個の異なるデータセットでテストし,様々な領域シフトを網羅した。 さらに、ドメインシフトデータセットのどの要素がドメイン適応手法の有効性に影響を与えるかを検討した。 その結果,8つの領域適応手法のすべてが,分析データセットの大部分に対してAUPRCの改善をもたらすことがわかった。 これらの結果から,教師なし領域適応はドメインシフトの性質によらず,バイナリメラノーマ・ネバス分類タスクの性能向上につながることが示唆された。 しかし、これらの要因が手法の性能に与える影響により、小さな、あるいは非常に不均衡なデータセットは結果の適合性を低下させる。

The potential of deep neural networks in skin lesion classification has already been demonstrated to be on-par if not superior to the dermatologists diagnosis. However, the performance of these models usually deteriorates when the test data differs significantly from the training data (i.e. domain shift). This concerning limitation for models intended to be used in real-world skin lesion classification tasks poses a risk to patients. For example, different image acquisition systems or previously unseen anatomical sites on the patient can suffice to cause such domain shifts. Mitigating the negative effect of such shifts is therefore crucial, but developing effective methods to address domain shift has proven to be challenging. In this study, we carry out an in-depth analysis of eight different unsupervised domain adaptation methods to analyze their effectiveness in improving generalization for dermoscopic datasets. To ensure robustness of our findings, we test each method on a total of ten distinct datasets, thereby covering a variety of possible domain shifts. In addition, we investigated which factors in the domain shifted datasets have an impact on the effectiveness of domain adaptation methods. Our findings show that all of the eight domain adaptation methods result in improved AUPRC for the majority of analyzed datasets. Altogether, these results indicate that unsupervised domain adaptations generally lead to performance improvements for the binary melanoma-nevus classification task regardless of the nature of the domain shift. However, small or heavily imbalanced datasets lead to a reduced conformity of the results due to the influence of these factors on the methods performance.
翻訳日:2023-10-06 16:46:24 公開日:2023-10-05
# 二重被覆に基づく符号なし距離場からのロバストゼロレベルセット抽出

Robust Zero Level-Set Extraction from Unsigned Distance Fields Based on Double Covering ( http://arxiv.org/abs/2310.03431v1 )

ライセンス: Link先を確認
Fei Hou, Xuhui Chen, Wencheng Wang, Hong Qin, Ying He(参考訳) 本論文では、符号なし距離場(UDF)からゼロレベルセットを抽出するDoubleCoverUDFと呼ばれる新しい手法を提案する。 doublecoverudfは、学習済みudfとユーザ指定パラメータ$r$(小さな正の実数)を入力として、従来のマーチングキューブアルゴリズムを使用してiso値$r$でiso-surfaceを抽出する。 計算されたアイソ曲面は、目標零レベルセット$S$の$r$オフセット体積の境界であることを示し、これは、$S$の位相によらず、向き付け可能な多様体である。 次に、アルゴリズムはカバーマップを計算して境界メッシュを$s$に投影し、メッシュのトポロジを保持し、折りたたみを回避する。 もし$S$が向き付け可能な多様体表面であれば、我々のアルゴリズムは二層メッシュをロバストな最小カット後処理ステップを用いて単一層に分離する。 そうでなければ、二重層メッシュを出力として保持する。 オープンモデルの3次元表面を再構成してアルゴリズムの有効性を検証し, 合成モデルやベンチマークデータセット上での有効性と有効性を示す。 実験の結果,本手法は頑健であり,既存のudf方式よりも視覚的評価と定量的測定の両面で,優れた品質を有するメッシュを生成できることが確認された。 ソースコードはhttps://github.com/jjjkkyz/DCUDFで入手できる。

In this paper, we propose a new method, called DoubleCoverUDF, for extracting the zero level-set from unsigned distance fields (UDFs). DoubleCoverUDF takes a learned UDF and a user-specified parameter $r$ (a small positive real number) as input and extracts an iso-surface with an iso-value $r$ using the conventional marching cubes algorithm. We show that the computed iso-surface is the boundary of the $r$-offset volume of the target zero level-set $S$, which is an orientable manifold, regardless of the topology of $S$. Next, the algorithm computes a covering map to project the boundary mesh onto $S$, preserving the mesh's topology and avoiding folding. If $S$ is an orientable manifold surface, our algorithm separates the double-layered mesh into a single layer using a robust minimum-cut post-processing step. Otherwise, it keeps the double-layered mesh as the output. We validate our algorithm by reconstructing 3D surfaces of open models and demonstrate its efficacy and effectiveness on synthetic models and benchmark datasets. Our experimental results confirm that our method is robust and produces meshes with better quality in terms of both visual evaluation and quantitative measures than existing UDF-based methods. The source code is available at https://github.com/jjjkkyz/DCUDF.
翻訳日:2023-10-06 16:46:01 公開日:2023-10-05
# 自動音声認識のための言語モデルプルーニング

Neural Language Model Pruning for Automatic Speech Recognition ( http://arxiv.org/abs/2310.03424v1 )

ライセンス: Link先を確認
Leonardo Emili, Thiago Fraga-Silva, Ernest Pusateri, Markus Nu{\ss}baum-Thom, Youssef Oualil(参考訳) 本研究では,自動音声認識のためのトランスフォーマティブニューラルネットワークモデルに適用したモデルプルーニング手法について検討する。 プルーニングフレーム作業の3つの側面,すなわち基準,メソッド,スケジューラについて検討し,その貢献度を精度と推論速度の観点から分析した。 我々の知る限り、このような大規模認識システムに関する詳細な分析は文献には報告されていない。 さらに,増分圧縮モデルに適した低ランク近似の変種を提案し,ターゲットサイズが異なる複数のモデルを提供する。 その他の結果の中では a) データ駆動型プルーニングは,いくつかのシナリオにおいて大局的に機能する b) インクリメンタルプルーニングは,ワンショットプルーニングに比べて,特に小さいサイズをターゲットとした場合において,高い精度を達成している。 c) 低ランク近似は、適度な圧縮のためにサイズ縮小と推論スピードアップの最良のトレードオフを示す。

We study model pruning methods applied to Transformer-based neural network language models for automatic speech recognition. We explore three aspects of the pruning frame work, namely criterion, method and scheduler, analyzing their contribution in terms of accuracy and inference speed. To the best of our knowledge, such in-depth analyses on large-scale recognition systems has not been reported in the literature. In addition, we propose a variant of low-rank approximation suitable for incrementally compressing models, and delivering multiple models with varied target sizes. Among other results, we show that a) data-driven pruning outperforms magnitude-driven in several scenarios; b) incremental pruning achieves higher accuracy compared to one-shot pruning, especially when targeting smaller sizes; and c) low-rank approximation presents the best trade-off between size reduction and inference speed-up for moderate compression.
翻訳日:2023-10-06 16:45:37 公開日:2023-10-05
# FreeReg: 事前トレーニングされた拡散モデルと単眼深度推定器を活用するイメージツーポイントクラウド登録

FreeReg: Image-to-Point Cloud Registration Leveraging Pretrained Diffusion Models and Monocular Depth Estimators ( http://arxiv.org/abs/2310.03420v1 )

ライセンス: Link先を確認
Haiping Wang, Yuan Liu, Bing Wang, Yujing Sun, Zhen Dong, Wenping Wang, Bisheng Yang(参考訳) イメージとポイントクラウド間のクロスモダリティ機能をマッチングすることは、イメージツーポイントクラウド登録の根本的な問題である。 しかし,画像と点のモダリティの違いから,既存の特徴マッチングのための計量学習手法を用いて,頑健で差別的な異質な特徴を学習することは困難である。 そこで本研究では,まず画像と点雲のモダリティを事前学習した大規模モデルにより統一し,同じモダリティ内にロバストな対応性を確立することを提案する。 奥行き拡散モデルによって抽出された拡散特徴と呼ばれる中間特徴は画像と点雲の間で意味的に一貫性があり,粗いが頑健なクロスモダリティ対応の構築を可能にする。 さらに,単眼深度推定器によって生成された深度マップの幾何学的特徴を抽出する。 このような幾何学的特徴をマッチングすることにより、拡散特徴によって生成される粗い対応の精度を大幅に向上する。 広範な実験により、タスク固有のトレーニングがなければ、両方の機能を直接利用することで、正確なイメージからポイントへのクラウド登録が可能になる。 屋内および屋外の3つのベンチマークでは、提案手法はインリエ比が平均20.6%向上し、3倍のインリエ数、48.6%の登録リコールを実現している。

Matching cross-modality features between images and point clouds is a fundamental problem for image-to-point cloud registration. However, due to the modality difference between images and points, it is difficult to learn robust and discriminative cross-modality features by existing metric learning methods for feature matching. Instead of applying metric learning on cross-modality data, we propose to unify the modality between images and point clouds by pretrained large-scale models first, and then establish robust correspondence within the same modality. We show that the intermediate features, called diffusion features, extracted by depth-to-image diffusion models are semantically consistent between images and point clouds, which enables the building of coarse but robust cross-modality correspondences. We further extract geometric features on depth maps produced by the monocular depth estimator. By matching such geometric features, we significantly improve the accuracy of the coarse correspondences produced by diffusion features. Extensive experiments demonstrate that without any task-specific training, direct utilization of both features produces accurate image-to-point cloud registration. On three public indoor and outdoor benchmarks, the proposed method averagely achieves a 20.6 percent improvement in Inlier Ratio, a three-fold higher Inlier Number, and a 48.6 percent improvement in Registration Recall than existing state-of-the-arts.
翻訳日:2023-10-06 16:45:26 公開日:2023-10-05
# 事前学習および微調整型生成フローネットワーク

Pre-Training and Fine-Tuning Generative Flow Networks ( http://arxiv.org/abs/2310.03419v1 )

ライセンス: Link先を確認
Ling Pan and Moksh Jain and Kanika Madan and Yoshua Bengio(参考訳) Generative Flow Networks (GFlowNets) は、確率的ポリシーを学習し、与えられた非正規化された報酬分布から連続的に合成オブジェクトを生成するアモータイズされたサンプルである。 それらは、科学的な発見タスクにおいて重要な考慮事項である、様々な高次の物体のセットを生成することができる。 しかしながら、それらは通常、与えられた外部報酬関数から訓練されるため、ダウンストリームタスクへの効率的な適応のために教師なしの方法でフローネットの事前訓練と訓練のパワーをどのように活用するかという、重要なオープンチャレンジである。 各種領域における教師なし事前学習の成功に触発されて、GFlowNetの報酬なし事前学習のための新しいアプローチを導入する。 自己教師付き問題としてトレーニングをフレーミングすることで,候補空間の探索を学習する結果条件付きGFlowNet(OC-GFN)を提案する。 具体的には、OC-GFNは強化学習における目標条件付きポリシーと同様に、対象とする結果に到達することを学ぶ。 事前学習したOC-GFNモデルにより、下流タスクにおける新しい報酬関数をサンプリングできるポリシーを直接抽出できることを示す。 それでも、OC-GFNを下流のタスク固有の報酬に適応させるには、起こりうる結果に対する難解な限界化が伴う。 本稿では,効率的な微調整が可能な償却予測器を学習することにより,この辺縁化を近似する新しい手法を提案する。 その結果, OC-GFNの事前学習の有効性と, 下流のタスクに迅速に適応し, より効率的にモードを発見できることが実証された。 この作業は、gflownetsのコンテキストにおける事前学習戦略のさらなる探求の基盤となるかもしれない。

Generative Flow Networks (GFlowNets) are amortized samplers that learn stochastic policies to sequentially generate compositional objects from a given unnormalized reward distribution. They can generate diverse sets of high-reward objects, which is an important consideration in scientific discovery tasks. However, as they are typically trained from a given extrinsic reward function, it remains an important open challenge about how to leverage the power of pre-training and train GFlowNets in an unsupervised fashion for efficient adaptation to downstream tasks. Inspired by recent successes of unsupervised pre-training in various domains, we introduce a novel approach for reward-free pre-training of GFlowNets. By framing the training as a self-supervised problem, we propose an outcome-conditioned GFlowNet (OC-GFN) that learns to explore the candidate space. Specifically, OC-GFN learns to reach any targeted outcomes, akin to goal-conditioned policies in reinforcement learning. We show that the pre-trained OC-GFN model can allow for a direct extraction of a policy capable of sampling from any new reward functions in downstream tasks. Nonetheless, adapting OC-GFN on a downstream task-specific reward involves an intractable marginalization over possible outcomes. We propose a novel way to approximate this marginalization by learning an amortized predictor enabling efficient fine-tuning. Extensive experimental results validate the efficacy of our approach, demonstrating the effectiveness of pre-training the OC-GFN, and its ability to swiftly adapt to downstream tasks and discover modes more efficiently. This work may serve as a foundation for further exploration of pre-training strategies in the context of GFlowNets.
翻訳日:2023-10-06 16:45:02 公開日:2023-10-05
# 主イベントビザ付きモノトンサブモジュールコンテンツ抽出によるLLMに基づくマルチドキュメント要約

LLM Based Multi-Document Summarization Exploiting Main-Event Biased Monotone Submodular Content Extraction ( http://arxiv.org/abs/2310.03414v1 )

ライセンス: Link先を確認
Litton J Kurisinkel, Nancy F. Chen(参考訳) マルチドキュメント要約は、DUC-2004参照サマリの中で、低アノテータROUGE-1スコアの0.4で強調される、固有の主観バイアスのため、難しい課題である。 本研究は,関連ニュース文書群の主要イベントに着目し,十分な文脈で協調して提示することで,ニュース要約の客観性を高めることを目的とする。 私たちの主な目的は、主イベントを簡潔に報告し、要約が客観的かつ情報的であることを保証することです。 これを実現するために,本手法では,コンテンツ選択に主イベントバイアスのモノトン-サブモジュール関数を組み込んだ抽出書き直し手法を用いる。 これにより、ドキュメントクラスタからメインイベントに関する最も重要な情報を抽出することができます。 コヒーレンスを確保するために,抽出したコンテンツをコヒーレントテキストに書き換えるために,微調整言語モデル(LLM)を用いる。 客観的指標と人的評価器を用いた評価は,本手法の有効性を確認し,コンテンツカバレッジ,コヒーレンス,インフォメーションの両面で優れていることを示す。

Multi-document summarization is a challenging task due to its inherent subjective bias, highlighted by the low inter-annotator ROUGE-1 score of 0.4 among DUC-2004 reference summaries. In this work, we aim to enhance the objectivity of news summarization by focusing on the main event of a group of related news documents and presenting it coherently with sufficient context. Our primary objective is to succinctly report the main event, ensuring that the summary remains objective and informative. To achieve this, we employ an extract-rewrite approach that incorporates a main-event biased monotone-submodular function for content selection. This enables us to extract the most crucial information related to the main event from the document cluster. To ensure coherence, we utilize a fine-tuned Language Model (LLM) for rewriting the extracted content into a coherent text. The evaluation using objective metrics and human evaluators confirms the effectiveness of our approach, as it surpasses potential baselines, demonstrating excellence in both content coverage, coherence, and informativeness.
翻訳日:2023-10-06 16:44:34 公開日:2023-10-05
# Tik-to-Tok: 言語モデルを一度に翻訳する: 効率的な言語適応のための埋め込み初期化戦略

Tik-to-Tok: Translating Language Models One Token at a Time: An Embedding Initialization Strategy for Efficient Language Adaptation ( http://arxiv.org/abs/2310.03477v1 )

ライセンス: Link先を確認
Fran\c{c}ois Remy, Pieter Delobelle, Bettina Berendt, Kris Demuynck, Thomas Demeester(参考訳) 低級および中級の言語を対象としたモノリンガル言語モデルのトレーニングは、限定的でしばしば不十分な事前学習データによって難しい。 本研究では,この問題に対処する新しいモデル変換戦略を提案し,高資源単言語モデルを新たなターゲット言語に適応させる。 ソース言語とターゲット言語の両方を含む単語翻訳辞書を一般化することにより、ターゲットトークン化者からのトークンをソース言語トークン化者からの意味的に類似したトークンにマッピングする。 この一対一のトークンマッピングは、ターゲット言語の埋め込みテーブルの初期化を大幅に改善します。 我々は、高リソースモデルを中低リソース言語、すなわちオランダ語とフリジア語に変換する実験を行っている。 これらの変換されたモデルは、様々なダウンストリームタスクにわたって、これらの言語で新しい最先端のパフォーマンスを達成する。 最先端モデルのトレーニングに必要なデータ量と時間を大幅に削減することで、新しいモデル変換戦略は世界中の多くの言語に利益をもたらす可能性がある。

Training monolingual language models for low and mid-resource languages is made challenging by limited and often inadequate pretraining data. In this study, we propose a novel model conversion strategy to address this issue, adapting high-resources monolingual language models to a new target language. By generalizing over a word translation dictionary encompassing both the source and target languages, we map tokens from the target tokenizer to semantically similar tokens from the source language tokenizer. This one-to-many token mapping improves tremendously the initialization of the embedding table for the target language. We conduct experiments to convert high-resource models to mid- and low-resource languages, namely Dutch and Frisian. These converted models achieve a new state-of-the-art performance on these languages across all sorts of downstream tasks. By reducing significantly the amount of data and time required for training state-of-the-art models, our novel model conversion strategy has the potential to benefit many languages worldwide.
翻訳日:2023-10-06 16:35:45 公開日:2023-10-05
# 制御可能なマルチドキュメント要約: 大きな言語モデルに基づく報酬によるカバレッジとコヒーレンス直観的なポリシー

Controllable Multi-document Summarization: Coverage & Coherence Intuitive Policy with Large Language Model Based Rewards ( http://arxiv.org/abs/2310.03473v1 )

ライセンス: Link先を確認
Litton J Kurisinkel, Nancy F chen(参考訳) メモリ効率の良い大規模言語モデルは、読みやすさを改善するためにテキスト入力を洗練するのに優れている。 しかし、マルチドキュメント要約のような長い入力を持つテキスト生成タスクに関しては、制御性が問題となる。 本研究では,LLMの機能を活かした多文書要約のための汎用的な制御可能な手法について検討する。 特に、LLMによって洗練されるテキストを抽出するために、制御可能なコンテンツ抽出スキームを訓練する。 このスキームは、新しいカバレッジとコヒーレンス直感的なポリシーで設計されており、受動的に訓練されたllmによって厳格に報いる。 提案手法は,ROUGE測定値を用いた評価において競争結果が得られ,コヒーレンスにおける潜在的なベースラインよりも優れる。

Memory-efficient large language models are good at refining text input for better readability. However, controllability is a matter of concern when it comes to text generation tasks with long inputs, such as multi-document summarization. In this work, we investigate for a generic controllable approach for multi-document summarization that leverages the capabilities of LLMs to refine the text. In particular, we train a controllable content extraction scheme to extract the text that will be refined by an LLM. The scheme is designed with a novel coverage and coherence intuitive policy, which is duly rewarded by a passively trained LLM. Our approach yields competitive results in the evaluation using ROUGE metrics and outperforms potential baselines in coherence, as per human evaluation.
翻訳日:2023-10-06 16:35:28 公開日:2023-10-05
# Ammonia-Net:マルチタスク共同学習モデル : 歯印舌診断におけるマルチクラスセグメンテーションと分類

Ammonia-Net: A Multi-task Joint Learning Model for Multi-class Segmentation and Classification in Tooth-marked Tongue Diagnosis ( http://arxiv.org/abs/2310.03472v1 )

ライセンス: Link先を確認
Shunkai Shi, Yuqi Wang, Qihui Ye, Yanran Wang, Yiming Zhu, Muhammad Hassan, Aikaterini Melliou, Dongmei Yu(参考訳) 伝統的な漢方医学では、長い歯の圧力から生じる舌の歯痕は、内臓の健康に本質的に関係しているqi欠損(yang)を評価する上で重要な指標となる。 歯印舌のマニュアル診断は経験にのみ依存する。 それでも、形状、色、種類の多様性は、診断精度と整合性に挑戦する。 そこで本研究では,アンモニアネットと呼ばれるマルチタスク共同学習モデルを提案する。 このモデルは畳み込みニューラルネットワークに基づくアーキテクチャを用いており、特に多クラスセグメンテーションと舌画像の分類のために設計されている。 アンモニアネットは舌画像のセマンティックセグメンテーションを行い、舌と歯跡を識別する。 セグメンテーション出力の助けを借りて、画像は、健全な舌、軽い舌、中程度の舌、厳しい舌という、望ましい数のクラスに分類される。 私たちが知る限りでは、歯のマークのセマンティックセグメンテーション結果を歯のマーク付き舌の分類に適用する最初の試みである。 アンモニアネットを訓練するために, 856名の被験者から856個の舌画像を収集した。 実験の結果, 提案手法は, 歯印付き舌識別の2つの分類課題において99.06%の精度を示し, 80.02%の精度を示した。 セグメンテーション作業に関しては、舌と歯跡のmIoUは71.65%である。

In Traditional Chinese Medicine, the tooth marks on the tongue, stemming from prolonged dental pressure, serve as a crucial indicator for assessing qi (yang) deficiency, which is intrinsically linked to visceral health. Manual diagnosis of tooth-marked tongue solely relies on experience. Nonetheless, the diversity in shape, color, and type of tooth marks poses a challenge to diagnostic accuracy and consistency. To address these problems, herein we propose a multi-task joint learning model named Ammonia-Net. This model employs a convolutional neural network-based architecture, specifically designed for multi-class segmentation and classification of tongue images. Ammonia-Net performs semantic segmentation of tongue images to identify tongue and tooth marks. With the assistance of segmentation output, it classifies the images into the desired number of classes: healthy tongue, light tongue, moderate tongue, and severe tongue. As far as we know, this is the first attempt to apply the semantic segmentation results of tooth marks for tooth-marked tongue classification. To train Ammonia-Net, we collect 856 tongue images from 856 subjects. After a number of extensive experiments, the experimental results show that the proposed model achieves 99.06% accuracy in the two-class classification task of tooth-marked tongue identification and 80.02%. As for the segmentation task, mIoU for tongue and tooth marks amounts to 71.65%.
翻訳日:2023-10-06 16:35:15 公開日:2023-10-05
# 国家独立QKD

State independent QKD ( http://arxiv.org/abs/2310.03468v1 )

ライセンス: Link先を確認
Robert Kindler, Johannes Handsteiner, Jaroslav Kysela, Kuntuo Zhu, Bo Liu, Anton Zeilinger(参考訳) 本稿では,参加者が共有する2量子状態の知識を必要とせず,量子非局所性実験を整合させるための適応手順を提案する。 ソースによって生成される量子状態、そのユニタリ進化、および実際の測定基盤は、常に双方に未知のままである。 量子状態の絡み合いは、2つの距離の個々の測定基準間の望ましい相関を確立するのに役立つ。 我々は、偏光束縛光子を用いたファイバーベースの量子鍵分布(QKD)において、この手順を実装し、レーザーや偏光子などの追加のアライメントツールに依存しない。 QKDのシナリオでは、プロシージャは、いかなる場合であっても、追加の計測をすることなく実行できる。

We present an adaptive procedure for aligning quantum non-locality experiments without any knowledge of the two-qudit state shared by the participating parties. The quantum state produced by the source, its unitary evolution as well as the actual measurement bases remain unknown to both parties at all times. The entanglement of the quantum state helps establish desired correlations between individual measurement bases of the two distant parties. We implement the procedure in a fiber-based quantum key distribution (QKD) setup with polarization-entangled photons, where we do not rely on any additional alignment tools such as lasers or polarizers. In a QKD scenario the procedure can be done without any additional measurements as those that are performed regardless.
翻訳日:2023-10-06 16:34:51 公開日:2023-10-05
# 地域説明の評価における責任問題と対処法

The Blame Problem in Evaluating Local Explanations, and How to Tackle it ( http://arxiv.org/abs/2310.03466v1 )

ライセンス: Link先を確認
Amir Hossein Akhavan Rahnama(参考訳) 近年,局所的なモデル非依存的な説明手法が急速に増えている。 一つの主な理由は、最適評価基準の欠如により、新しい説明可能性技術を開発するための基準が低いことである。 厳密な措置がなければ、新しい説明技術が前者を大きく上回るかどうかの具体的な証拠を得るのは難しい。 本研究は, 局所的な説明を評価するための新しい分類法を提案する: 頑健さ, 合成データセットと解釈可能なモデルからの基底的真理を用いた評価, モデルランダム化, 人為的評価。 提案した分類学を用いて,解釈可能なモデルによる基礎的真理に基づく評価方法を除くすべてのカテゴリーが,「ブレム問題」と呼ばれる問題に悩まされていることを強調した。 本研究は,この評価尺度は,局所モデル非依存な説明を評価する上で,より合理的な方法であると主張する。 しかし,この評価尺度でさえ,さらなる限界があることは明らかである。 局所的な説明の評価は依然としてオープンな研究課題である。

The number of local model-agnostic explanation techniques proposed has grown rapidly recently. One main reason is that the bar for developing new explainability techniques is low due to the lack of optimal evaluation measures. Without rigorous measures, it is hard to have concrete evidence of whether the new explanation techniques can significantly outperform their predecessors. Our study proposes a new taxonomy for evaluating local explanations: robustness, evaluation using ground truth from synthetic datasets and interpretable models, model randomization, and human-grounded evaluation. Using this proposed taxonomy, we highlight that all categories of evaluation methods, except those based on the ground truth from interpretable models, suffer from a problem we call the "blame problem." In our study, we argue that this category of evaluation measure is a more reasonable method for evaluating local model-agnostic explanations. However, we show that even this category of evaluation measures has further limitations. The evaluation of local explanations remains an open research problem.
翻訳日:2023-10-06 16:34:40 公開日:2023-10-05
# 連合学習にはどのモードがよいか? 中央集権化または分散化

Which mode is better for federated learning? Centralized or Decentralized ( http://arxiv.org/abs/2310.03461v1 )

ライセンス: Link先を確認
Yan Sun, Li Shen, Dacheng Tao(参考訳) 集中型と分散型の両方のアプローチは、フェデレートラーニング(FL)における優れたパフォーマンスと優れたアプリケーション価値を示している。 しかし、現在の研究では、どちらが優れているかを示す十分な証拠が得られていない。 最適化の観点からは、分散化手法はコミュニケーションの少ない集中型手法の同等の収束にアプローチできるが、そのテスト性能は経験的研究において常に非効率である。 FLにおけるそれらの挙動を包括的に調査するため,最適化と一般化の併用分析を含む余剰リスクについて検討した。 滑らかな非凸目的について証明する。 1) 集中型FL(CFL)は常に分散型FL(DFL)よりもよく一般化される。 2) CFLにおける過大なリスクとテストエラーの観点からは,部分的参加は完全参加よりも優れている。 3)DFLのトポロジには,トレーニングスケールが大きくなるにつれて性能が低下するのを避ける必要がある。 いくつかの単純なハードウェアメトリクスに基づいて、どのフレームワークが実際より優れているかを評価することができた。 FLの一般的な構成を用いて、我々の理論解析が実践シナリオにおいて文脈的に有効であることを示す。

Both centralized and decentralized approaches have shown excellent performance and great application value in federated learning (FL). However, current studies do not provide sufficient evidence to show which one performs better. Although from the optimization perspective, decentralized methods can approach the comparable convergence of centralized methods with less communication, its test performance has always been inefficient in empirical studies. To comprehensively explore their behaviors in FL, we study their excess risks, including the joint analysis of both optimization and generalization. We prove that on smooth non-convex objectives, 1) centralized FL (CFL) always generalizes better than decentralized FL (DFL); 2) from perspectives of the excess risk and test error in CFL, adopting partial participation is superior to full participation; and, 3) there is a necessary requirement for the topology in DFL to avoid performance collapse as the training scale increases. Based on some simple hardware metrics, we could evaluate which framework is better in practice. Extensive experiments are conducted on common setups in FL to validate that our theoretical analysis is contextually valid in practical scenarios.
翻訳日:2023-10-06 16:34:23 公開日:2023-10-05
# web 検索におけるコンテンツモデレーションに対するユーザの態度

User Attitudes to Content Moderation in Web Search ( http://arxiv.org/abs/2310.03458v1 )

ライセンス: Link先を確認
Aleksandra Urman, Aniko Hannak, Mykola Makhortykh(参考訳) インターネット利用者は、googleのようなウェブ検索エンジンに依存し、信頼し、関連する情報をオンラインで見つける。 しかし、研究者は検索結果のバイアスや不正確さを数多く記録している。 検索結果の品質を向上させるために、検索エンジンは、潜在的に危険なウェブサイトをユーザーに知らせるインターフェイス要素や、低品質の検索結果をダウングレードまたは削除するアルゴリズム機構など、様々なコンテンツモデレーションプラクティスを採用している。 ウェブ検索エンジンへの一般大衆の依存とモデレーションプラクティスの利用は確立されているが、これらのプラクティスに対するユーザの態度はまだ詳細は明らかにされていない。 このギャップに対処するために,我々はまず,検索エンジンが使用するコンテンツモデレーションの実践の概要を概説し,次に米国成人の代表例(N=398)を調査し,Web検索における誤解を招く可能性のあるコンテンツや攻撃的コンテンツに対する様々なモデレーションの実践に対するサポートレベルについて検討した。 また、ユーザ特性と特定のモデレーションプラクティスに対するサポートとの関係についても分析した。 最もサポートされたプラクティスは、誤解を招く可能性のあるコンテンツや不快なコンテンツをユーザーに知らせることであり、最もサポートされていないものは検索結果を完全に削除することである。 より保守的なユーザーやウェブ検索結果に対する信頼度が低いユーザーは、ウェブ検索におけるコンテンツモデレーションに反する傾向にある。

Internet users highly rely on and trust web search engines, such as Google, to find relevant information online. However, scholars have documented numerous biases and inaccuracies in search outputs. To improve the quality of search results, search engines employ various content moderation practices such as interface elements informing users about potentially dangerous websites and algorithmic mechanisms for downgrading or removing low-quality search results. While the reliance of the public on web search engines and their use of moderation practices is well-established, user attitudes towards these practices have not yet been explored in detail. To address this gap, we first conducted an overview of content moderation practices used by search engines, and then surveyed a representative sample of the US adult population (N=398) to examine the levels of support for different moderation practices applied to potentially misleading and/or potentially offensive content in web search. We also analyzed the relationship between user characteristics and their support for specific moderation practices. We find that the most supported practice is informing users about potentially misleading or offensive content, and the least supported one is the complete removal of search results. More conservative users and users with lower levels of trust in web search results are more likely to be against content moderation in web search.
翻訳日:2023-10-06 16:34:07 公開日:2023-10-05
# deep counterfactuals を用いたアルツハイマー病予測のための定量的解釈モデル

A Quantitatively Interpretable Model for Alzheimer's Disease Prediction Using Deep Counterfactuals ( http://arxiv.org/abs/2310.03457v1 )

ライセンス: Link先を確認
Kwanseok Oh, Da-Woon Heo, Ahmad Wisnu Mulyadi, Wonsik Jung, Eunsong Kang, Kun Ho Lee, Heung-Il Suk(参考訳) アルツハイマー病(AD)を予測するためのディープラーニング(DL)は、病気の進行にタイムリーに介入するが、DLモデルがどのように決定を下すかを説明するために注意深い解釈性を必要とする。 近年,医療研究において,洗練された視覚的説明地図を提供する能力から,反事実推論が注目されている。 しかし, 視覚検査のみに基づく視覚説明図は, 定量的特徴によって直感的にその医学的・神経科学的妥当性を示さない限り, 不十分である。 本研究では,提案する枠組みを用いて逆ラベル構造mriを合成し,それを灰色物質密度マップに変換し,関心領域(roi)における体積変化を測定した。 また,構築したroisの有効性を高め,定量的解釈を促進し,dl法に匹敵する予測性能を達成する軽量線形分類器を考案した。 これを通じて,本フレームワークは各ROIに対して「AD関連指数」を生成し,AD進行に関する患者グループ間および患者グループ間の脳状態の直感的な理解を提供する。

Deep learning (DL) for predicting Alzheimer's disease (AD) has provided timely intervention in disease progression yet still demands attentive interpretability to explain how their DL models make definitive decisions. Recently, counterfactual reasoning has gained increasing attention in medical research because of its ability to provide a refined visual explanatory map. However, such visual explanatory maps based on visual inspection alone are insufficient unless we intuitively demonstrate their medical or neuroscientific validity via quantitative features. In this study, we synthesize the counterfactual-labeled structural MRIs using our proposed framework and transform it into a gray matter density map to measure its volumetric changes over the parcellated region of interest (ROI). We also devised a lightweight linear classifier to boost the effectiveness of constructed ROIs, promoted quantitative interpretation, and achieved comparable predictive performance to DL methods. Throughout this, our framework produces an ``AD-relatedness index'' for each ROI and offers an intuitive understanding of brain status for an individual patient and across patient groups with respect to AD progression.
翻訳日:2023-10-06 16:33:40 公開日:2023-10-05
# 時間的行動定位のためのマルチリゾリューションオーディオ・ビジュアル特徴フュージョン

Multi-Resolution Audio-Visual Feature Fusion for Temporal Action Localization ( http://arxiv.org/abs/2310.03456v1 )

ライセンス: Link先を確認
Edward Fish, Jon Weinbren, Andrew Gilbert(参考訳) テンポラルアクションローカライゼーション(TAL)は、ビデオの開始、終了、およびクラスラベルを特定することを目的としている。 変換器ネットワークとFPN(Feature Pyramid Networks)を用いた最近の進歩は、TALタスクにおける視覚的特徴認識を強化しているが、そのようなフレームワークへの音声機能統合の進歩は少ない。 本稿では,異なる時間分解能にまたがって音声・視覚データを融合させる,MRAV-FF(Multi-Resolution Audio-Visual Feature Fusion)を提案する。 我々のアプローチの中心は階層的なゲート・クロスアテンション機構であり、多様な時間スケールでの音声情報の重要性を目立たせる。 このような手法は回帰境界の精度を洗練させるだけでなく、分類の信頼性を高める。 MRAV-FFは汎用性が高く、既存のFPN TALアーキテクチャと互換性があり、オーディオデータが利用できる場合の性能が大幅に向上する。

Temporal Action Localization (TAL) aims to identify actions' start, end, and class labels in untrimmed videos. While recent advancements using transformer networks and Feature Pyramid Networks (FPN) have enhanced visual feature recognition in TAL tasks, less progress has been made in the integration of audio features into such frameworks. This paper introduces the Multi-Resolution Audio-Visual Feature Fusion (MRAV-FF), an innovative method to merge audio-visual data across different temporal resolutions. Central to our approach is a hierarchical gated cross-attention mechanism, which discerningly weighs the importance of audio information at diverse temporal scales. Such a technique not only refines the precision of regression boundaries but also bolsters classification confidence. Importantly, MRAV-FF is versatile, making it compatible with existing FPN TAL architectures and offering a significant enhancement in performance when audio data is available.
翻訳日:2023-10-06 16:33:21 公開日:2023-10-05
# FLAIM: フェデレート設定におけるAIMに基づく合成データ生成

FLAIM: AIM-based Synthetic Data Generation in the Federated Setting ( http://arxiv.org/abs/2310.03447v1 )

ライセンス: Link先を確認
Samuel Maddock, Graham Cormode, Carsten Maple(参考訳) 個人のプライバシを維持しながら、協調的なデータ共有を可能にすることは、組織にとって重要です。 合成データ生成は、プライベートデータの統計特性を反映した人工データを生成する1つのソリューションである。 ディファレンシャルプライバシの下では、多くのテクニックが考案されているが、データの集中化を主に想定している。 しかし、データは複数のクライアントに分散して配布されることが多い。 本研究では,連合型合成表データ生成の研究を開始する。 AIM と呼ばれる SOTA 中央手法に基づいて,DistAIM と FLAIM を提示する。 我々はAIMの配布が簡単であることを示し、セキュアなマルチパーティ計算に基づく最近のアプローチを拡張し、追加のオーバーヘッドを必要とするため、フェデレーションシナリオには適さないことを示す。 以上の結果から, ナイーティブ・フェデレーション・AIMは, 不均一性の有無で実用性を大幅に劣化させる可能性が示唆された。 両問題を緩和するために、異質性のプライベートプロキシを維持する拡張FLAIMアプローチを提案する。 ヘテロジニティの度合いが異なるベンチマークデータセットの範囲でメソッドをシミュレートし、オーバーヘッドを減らしながら有効性を向上できることを示す。

Preserving individual privacy while enabling collaborative data sharing is crucial for organizations. Synthetic data generation is one solution, producing artificial data that mirrors the statistical properties of private data. While numerous techniques have been devised under differential privacy, they predominantly assume data is centralized. However, data is often distributed across multiple clients in a federated manner. In this work, we initiate the study of federated synthetic tabular data generation. Building upon a SOTA central method known as AIM, we present DistAIM and FLAIM. We show it is straightforward to distribute AIM, extending a recent approach based on secure multi-party computation which necessitates additional overhead, making it less suited to federated scenarios. We then demonstrate that naively federating AIM can lead to substantial degradation in utility under the presence of heterogeneity. To mitigate both issues, we propose an augmented FLAIM approach that maintains a private proxy of heterogeneity. We simulate our methods across a range of benchmark datasets under different degrees of heterogeneity and show this can improve utility while reducing overhead.
翻訳日:2023-10-06 16:33:03 公開日:2023-10-05
# rlに基づくリアルタイム経路追跡のためのステートフルニューラルネットワーク適応サンプリングとデノイジング

RL-based Stateful Neural Adaptive Sampling and Denoising for Real-Time Path Tracing ( http://arxiv.org/abs/2310.03507v1 )

ライセンス: Link先を確認
Antoine Scardigli, Lukas Cavigelli, Lorenz K. M\"uller(参考訳) モンテカルロ経路追跡は、現実的な画像合成のための強力な技術であるが、サンプル数の低い高いレベルのノイズに悩まされ、リアルタイムアプリケーションでの使用を制限している。 そこで本研究では,サンプリング重要度ネットワーク,潜時空間エンコーダネットワーク,デノイザネットワークをエンドツーエンドでトレーニングするフレームワークを提案する。 提案手法では,サンプリング重要度ネットワークの最適化に強化学習を用いる。 提案手法は,平均化によって1ピクセルあたりのサンプル値を集約するのではなく,遅延空間エンコーダに供給されるサンプル値を全て保持する。 エンコーダは、手作りの時空間的ヒューリスティックを潜在空間における学習表現に置き換える。 最後に、神経デノイザーを訓練して出力画像を洗練する。 我々のアプローチは、いくつかの挑戦的なデータセットの視覚的品質を高め、以前の最先端のアプリケーションに比べて1.6倍の画質のレンダリング時間を削減し、リアルタイムアプリケーションにとって有望なソリューションとなる。

Monte-Carlo path tracing is a powerful technique for realistic image synthesis but suffers from high levels of noise at low sample counts, limiting its use in real-time applications. To address this, we propose a framework with end-to-end training of a sampling importance network, a latent space encoder network, and a denoiser network. Our approach uses reinforcement learning to optimize the sampling importance network, thus avoiding explicit numerically approximated gradients. Our method does not aggregate the sampled values per pixel by averaging but keeps all sampled values which are then fed into the latent space encoder. The encoder replaces handcrafted spatiotemporal heuristics by learned representations in a latent space. Finally, a neural denoiser is trained to refine the output image. Our approach increases visual quality on several challenging datasets and reduces rendering times for equal quality by a factor of 1.6x compared to the previous state-of-the-art, making it a promising solution for real-time applications.
翻訳日:2023-10-06 16:27:05 公開日:2023-10-05
# Kandinsky: 画像優先拡散と遅延拡散によるテキスト・画像合成の改善

Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and Latent Diffusion ( http://arxiv.org/abs/2310.03502v1 )

ライセンス: Link先を確認
Anton Razzhigaev, Arseniy Shakhmatov, Anastasia Maltseva, Vladimir Arkhipkin, Igor Pavlov, Ilya Ryabov, Angelina Kuts, Alexander Panchenko, Andrey Kuznetsov and Denis Dimitrov(参考訳) テキストから画像への生成は現代のコンピュータビジョンにおいて重要な領域であり、生成アーキテクチャの進化を通じて大幅に改善されてきた。 中でも,本質的な品質向上を示す拡散モデルが存在する。 これらのモデルは一般的にピクセルレベルと潜在レベルという2つのカテゴリに分けられる。 本稿では,画像先行モデルの原理と潜在拡散手法を組み合わせた,潜在拡散アーキテクチャの新しい探索であるkandinsky1を提案する。 画像先行モデルは、CLIPのイメージ埋め込みにテキスト埋め込みをマッピングするために別々に訓練される。 提案モデルのもうひとつの特徴は、イメージオートエンコーダコンポーネントとして機能するMoVQ実装の改良である。 全体として、設計モデルは3.3Bパラメータを含む。 また,テキスト対画像生成,画像融合,テキストと画像の融合,画像変動生成,テキストガイド付きインパインティング/アウトパインティングといった多様な生成モードをサポートするユーザフレンドリなデモシステムも展開した。 さらに、Kandinskyモデルのソースコードとチェックポイントもリリースしました。 実験により,COCO-30Kデータセット上でのFIDスコアは8.03であり,測定可能な画像生成品質の面では,我々のモデルを最上位のオープンソースパフォーマーと評価した。

Text-to-image generation is a significant domain in modern computer vision and has achieved substantial improvements through the evolution of generative architectures. Among these, there are diffusion-based models that have demonstrated essential quality enhancements. These models are generally split into two categories: pixel-level and latent-level approaches. We present Kandinsky1, a novel exploration of latent diffusion architecture, combining the principles of the image prior models with latent diffusion techniques. The image prior model is trained separately to map text embeddings to image embeddings of CLIP. Another distinct feature of the proposed model is the modified MoVQ implementation, which serves as the image autoencoder component. Overall, the designed model contains 3.3B parameters. We also deployed a user-friendly demo system that supports diverse generative modes such as text-to-image generation, image fusion, text and image fusion, image variations generation, and text-guided inpainting/outpainting. Additionally, we released the source code and checkpoints for the Kandinsky models. Experimental evaluations demonstrate a FID score of 8.03 on the COCO-30K dataset, marking our model as the top open-source performer in terms of measurable image generation quality.
翻訳日:2023-10-06 16:26:46 公開日:2023-10-05
# 市民のためのデジタル投票システムの設計 : デジタル参加予算制度における公平性と正当性の実現

Designing Digital Voting Systems for Citizens: Achieving Fairness and Legitimacy in Digital Participatory Budgeting ( http://arxiv.org/abs/2310.03501v1 )

ライセンス: Link先を確認
Joshua C. Yang, Carina I. Hausladen, Dominik Peters, Evangelos Pournaras, Regula Haenggli Fricker, Dirk Helbing(参考訳) デジタル参加予算(pb)は、都市における資源配分の重要な民主的ツールとなっている。 デジタルプラットフォームによって実現され、新しい投票入力フォーマットとアグリゲーションが利用されている。 しかし、公平性と正当性を達成するための課題は続いている。 本研究では,デジタルpbにおける各種投票・集計方式におけるトレードオフについて検討する。 行動実験を通じて,認知負荷,比例性,正当性知覚の観点から,好ましい投票設計の組み合わせを特定した。 この研究は、デザインの選択が集団的な意思決定、市民の認識、成果の公平性にどのように影響するかを明らかにしている。 本研究は,人間とコンピュータの相互作用,機構設計,計算社会選択に有効な洞察を提供し,より公平でより透明なデジタルpbシステムの開発と,市民のためのマルチウィンナー集団意思決定プロセスに寄与する。

Digital Participatory Budgeting (PB) has become a key democratic tool for resource allocation in cities. Enabled by digital platforms, new voting input formats and aggregation have been utilised. Yet, challenges in achieving fairness and legitimacy persist. This study investigates the trade-offs in various voting and aggregation methods within digital PB. Through behavioural experiments, we identified favourable voting design combinations in terms of cognitive load, proportionality, and perceived legitimacy. The research reveals how design choices profoundly influence collective decision-making, citizen perceptions, and outcome fairness. Our findings offer actionable insights for human-computer interaction, mechanism design, and computational social choice, contributing to the development of fairer and more transparent digital PB systems and multi-winner collective decision-making process for citizens.
翻訳日:2023-10-06 16:26:25 公開日:2023-10-05
# 音楽期待の深部生成モデル

Deep Generative Models of Music Expectation ( http://arxiv.org/abs/2310.03500v1 )

ライセンス: Link先を確認
Ninon Liz\'e Masclef, T. Anderson Keller(参考訳) 音楽に対する感情的反応の顕著な理論は、超越性と期待の概念を中心に展開する。 先行研究において、この考え方は、以前の音楽や文化経験の「訓練セット」に基づいて、歌(あるいはノート・バイ・ノート)の確率を正確に計算できる音楽の確率モデルという形で運用されてきた。 しかし、これまでこれらのモデルは、手作りの特徴を通して正確な確率を計算するか、音楽に存在する複雑な条件分布を表現するのに十分でない線形モデルに制限されていた。 本研究では,現代的深部確率的生成モデルを拡散モデルとして使用し,音楽入力列の近似確率を計算することを提案する。 従来の研究とは異なり、ディープニューラルネットワークによってパラメータ化されたこのような生成モデルは、トレーニングセット自体から直接複雑な非線形特徴を学習することができる。 このようなモデルによって、人間の聴取者にとってより正確に音楽の「前提」を表現できることが期待できる。 文献から、その歌の「擬人化」と「擬人化」との間には、逆U字型の関係があることが知られている。 本研究では,事前に学習した拡散モデルが,被測定対象の「ライキング」評価と負の二次的関係を示す音楽的前提値を生成することを示し,この関係の質は,IDyOMなどの技術手法と競合することを示した。 そこで本モデルでは,音楽期待と主観的リクサビリティの現代的深層生成モデルを開発するための予備的ステップを提案する。

A prominent theory of affective response to music revolves around the concepts of surprisal and expectation. In prior work, this idea has been operationalized in the form of probabilistic models of music which allow for precise computation of song (or note-by-note) probabilities, conditioned on a 'training set' of prior musical or cultural experiences. To date, however, these models have been limited to compute exact probabilities through hand-crafted features or restricted to linear models which are likely not sufficient to represent the complex conditional distributions present in music. In this work, we propose to use modern deep probabilistic generative models in the form of a Diffusion Model to compute an approximate likelihood of a musical input sequence. Unlike prior work, such a generative model parameterized by deep neural networks is able to learn complex non-linear features directly from a training set itself. In doing so, we expect to find that such models are able to more accurately represent the 'surprisal' of music for human listeners. From the literature, it is known that there is an inverted U-shaped relationship between surprisal and the amount human subjects 'like' a given song. In this work we show that pre-trained diffusion models indeed yield musical surprisal values which exhibit a negative quadratic relationship with measured subject 'liking' ratings, and that the quality of this relationship is competitive with state of the art methods such as IDyOM. We therefore present this model a preliminary step in developing modern deep generative models of music expectation and subjective likability.
翻訳日:2023-10-06 16:26:12 公開日:2023-10-05
# IceCloudNet: スパース監視から学んだSEVIRI入力からの円周および混合相雲予測

IceCloudNet: Cirrus and mixed-phase cloud prediction from SEVIRI input learned from sparse supervision ( http://arxiv.org/abs/2310.03499v1 )

ライセンス: Link先を確認
Kai Jeggle, Mikolaj Czerkawski, Federico Serva, Bertrand Le Saux, David Neubauer, and Ulrike Lohmann(参考訳) 氷粒子を含む雲は、気候システムにおいて重要な役割を果たす。 しかし、気候モデルや将来の気候予測に大きな不確実性の原因となっている。 本研究では,静止衛星機器の時空間カバレッジと能動衛星検索の質において,レジーム依存の氷微物理特性の観測的制約を新たに作成する。 我々は、SEVIRIとDARDARデータセットの3年間にわたる畳み込みニューラルネットワークのトレーニングにより、これを実現する。 この研究により、新しい研究により、氷雲のプロセス理解が改善され、気候変動における不確実性が減少し、キュロス雲のジオエンジニアリング手法を評価するのに役立つ。

Clouds containing ice particles play a crucial role in the climate system. Yet they remain a source of great uncertainty in climate models and future climate projections. In this work, we create a new observational constraint of regime-dependent ice microphysical properties at the spatio-temporal coverage of geostationary satellite instruments and the quality of active satellite retrievals. We achieve this by training a convolutional neural network on three years of SEVIRI and DARDAR data sets. This work will enable novel research to improve ice cloud process understanding and hence, reduce uncertainties in a changing climate and help assess geoengineering methods for cirrus clouds.
翻訳日:2023-10-06 16:25:45 公開日:2023-10-05
# 深層強化学習におけるレベルサンプリングプロセスがゼロショット一般化に与える影響

How the level sampling process impacts zero-shot generalisation in deep reinforcement learning ( http://arxiv.org/abs/2310.03494v1 )

ライセンス: Link先を確認
Samuel Garcin, James Doran, Shangmin Guo, Christopher G. Lucas and Stefano V. Albrecht(参考訳) 深層強化学習(rl)によって訓練された自律エージェントが広く採用されることを妨げる鍵となる制限は、訓練中に遭遇する環境と同じような特性を持つ場合でも、新しい環境に一般化する能力の制限である。 本研究では,個々の環境インスタンスの非一様サンプリング戦略,すなわちレベルが,オーバーフィッティングとオーバージェネライゼーションという2つの障害モードを考慮して,rlエージェントのゼロショット一般化(zsg)能力にどのように影響するかを検討する。 最初のステップとして、エージェントの内部表現とトレーニングレベルのセットの間の相互情報(mi)を測定します。 均一サンプリングとは対照的に、値損失に基づく適応サンプリング戦略は、より低いMIを維持する上で有効であり、この手法の新たな理論的正当化を提供する。 そこで我々は、新しいトレーニングレベルを適応的に生成し、MIを固定セットからサンプリングする手法よりも効果的に最小化する、教師なし環境設計(UED)手法に注意を向ける。 しかし、UED法はトレーニング分布を著しく変化させ、その結果、関心の分布よりも過度に一般化され、ZSG性能が悪化することがわかった。 インスタンスオーバーフィッティングとオーバージェネレーションの両方を防止するため,自己管理型環境設計(SSED)を導入する。 SSEDは、変分オートエンコーダを用いてレベルを生成し、MIを効果的に低減し、関心の分布に伴うシフトを最小限にし、固定セットレベルサンプリング戦略やUED法よりも統計的に顕著なZSGの改善をもたらす。

A key limitation preventing the wider adoption of autonomous agents trained via deep reinforcement learning (RL) is their limited ability to generalise to new environments, even when these share similar characteristics with environments encountered during training. In this work, we investigate how a non-uniform sampling strategy of individual environment instances, or levels, affects the zero-shot generalisation (ZSG) ability of RL agents, considering two failure modes: overfitting and over-generalisation. As a first step, we measure the mutual information (MI) between the agent's internal representation and the set of training levels, which we find to be well-correlated to instance overfitting. In contrast to uniform sampling, adaptive sampling strategies prioritising levels based on their value loss are more effective at maintaining lower MI, which provides a novel theoretical justification for this class of techniques. We then turn our attention to unsupervised environment design (UED) methods, which adaptively generate new training levels and minimise MI more effectively than methods sampling from a fixed set. However, we find UED methods significantly shift the training distribution, resulting in over-generalisation and worse ZSG performance over the distribution of interest. To prevent both instance overfitting and over-generalisation, we introduce self-supervised environment design (SSED). SSED generates levels using a variational autoencoder, effectively reducing MI while minimising the shift with the distribution of interest, and leads to statistically significant improvements in ZSG over fixed-set level sampling strategies and UED methods.
翻訳日:2023-10-06 16:25:32 公開日:2023-10-05
# tpdr:新しい2段階変圧器に基づく製品とクラス記述マッチングおよび検索方法

TPDR: A Novel Two-Step Transformer-based Product and Class Description Match and Retrieval Method ( http://arxiv.org/abs/2310.03491v1 )

ライセンス: Link先を確認
Washington Cunha, Celso Fran\c{c}a, Leonardo Rocha, Marcos Andr\'e Gon\c{c}alves(参考訳) 他社向けの多種多様な製品の大量購入を仲介するニッチな企業が多く、その主な課題は、顧客によって記述された商品とカタログに記載された商品とをマッチングする製品記述標準化を行うことである。 クライアントの製品記述は、(1)潜在的に騒がしい、(2)短くて不規則な(例えば、モデルやサイズに関する情報の欠如)、(3)言語横断、などである。 本稿では,この問題をランク付けタスクとして定式化する。初期クライアント製品仕様(クエリ)を与えられた場合,最も適切な標準記述(応答)を返す。 本稿では,IS と SD のセマンティック対応を,注意機構とコントラスト学習を利用して探索できる2段階の変換器ベース製品とクラス記述検索手法である TPDR を提案する。 まず、TPDRは、埋め込みベクトル空間を共有する2つのエンコーダとして変換器を使用し、1つはISを符号化し、もう1つはSDを符号化し、対応するペア(IS, SD)はベクトル空間に近接しなければならない。 さらに、特殊損失関数を利用したコントラスト学習機構により、クローズネスをさらに強化する。 TPDRはまた、変換器によって無視されたかもしれない特定の製品の正確なマッチング(モデル、次元)において非常に重要な構文的特徴に基づく(第2の)再ランクのステップを利用する。 提案を評価するために,実企業からの11のデータセットを検討し,異なるアプリケーションコンテキストをカバーする。 提案手法では,71%のケースにおいて第5位の前に正しい商品を,80%の状況で第1位で正しいカテゴリを検索することができた。 さらに、純粋に構文的あるいは意味的ベースラインよりも有効性が3.7倍に向上し、分離されたアプローチが単独ではできないようなケースが解決される。

There is a niche of companies responsible for intermediating the purchase of large batches of varied products for other companies, for which the main challenge is to perform product description standardization, i.e., matching an item described by a client with a product described in a catalog. The problem is complex since the client's product description may be: (1) potentially noisy; (2) short and uninformative (e.g., missing information about model and size); and (3) cross-language. In this paper, we formalize this problem as a ranking task: given an initial client product specification (query), return the most appropriate standardized descriptions (response). In this paper, we propose TPDR, a two-step Transformer-based Product and Class Description Retrieval method that is able to explore the semantic correspondence between IS and SD, by exploiting attention mechanisms and contrastive learning. First, TPDR employs the transformers as two encoders sharing the embedding vector space: one for encoding the IS and another for the SD, in which corresponding pairs (IS, SD) must be close in the vector space. Closeness is further enforced by a contrastive learning mechanism leveraging a specialized loss function. TPDR also exploits a (second) re-ranking step based on syntactic features that are very important for the exact matching (model, dimension) of certain products that may have been neglected by the transformers. To evaluate our proposal, we consider 11 datasets from a real company, covering different application contexts. Our solution was able to retrieve the correct standardized product before the 5th ranking position in 71% of the cases and its correct category in the first position in 80% of the situations. Moreover, the effectiveness gains over purely syntactic or semantic baselines reach up to 3.7 times, solving cases that none of the approaches in isolation can do by themselves.
翻訳日:2023-10-06 16:25:04 公開日:2023-10-05
# BTDNet:脳腫瘍放射線ゲノム分類のためのマルチモーダルアプローチ

BTDNet: a Multi-Modal Approach for Brain Tumor Radiogenomic Classification ( http://arxiv.org/abs/2310.03485v1 )

ライセンス: Link先を確認
Dimitrios Kollias, Karanjot Vendal, Priyanka Gadhavi and Solomon Russom(参考訳) 脳腫瘍は世界中で重大な健康上の問題をもたらし、グリオブラスト腫は最も攻撃的な形態の1つである。 o6-メチルグアニン-dnaメチルトランスフェラーゼ(mgmt)プロモーターのメチル化状態の正確な決定は、パーソナライズされた治療戦略に不可欠である。 しかし、伝統的な方法は労働集約的で時間を要する。 本稿では,MTMTプロモーターメチル化状態を予測するために,FLAIR,T1w,T1wCE,T23Dボリュームを含むマルチパラメトリックMRIスキャンを利用する新しいマルチモーダル手法BTDNetを提案する。 BTDNetは、可変ボリューム長(各ボリュームは異なる数のスライスから構成される)とボリュームレベルのアノテーション(つまり、全3Dボリュームは注釈付きで、独立したスライスではない)の2つの主な課題に対処する。 BTDNetは4つのコンポーネントから構成される。 一 データ拡張処理(幾何学的変換、データ対の凸結合及びテスト時データ拡張を行う。) 二 三次元解析装置(CNN-RNNによるグローバル分析を行うもの) 三 ルーティング1(可変入力特徴長を扱うマスク層を含む。)及び 四 モダリティ融合(データ表現を効果的に強化し、あいまいさを低減し、データの不足を緩和する) 提案手法は, rsna-asnr-miccai brats 2021チャレンジの最先端手法を大差で上回り, 脳腫瘍の診断と治療に有望な手段を提供する。

Brain tumors pose significant health challenges worldwide, with glioblastoma being one of the most aggressive forms. Accurate determination of the O6-methylguanine-DNA methyltransferase (MGMT) promoter methylation status is crucial for personalized treatment strategies. However, traditional methods are labor-intensive and time-consuming. This paper proposes a novel multi-modal approach, BTDNet, leveraging multi-parametric MRI scans, including FLAIR, T1w, T1wCE, and T2 3D volumes, to predict MGMT promoter methylation status. BTDNet addresses two main challenges: the variable volume lengths (i.e., each volume consists of a different number of slices) and the volume-level annotations (i.e., the whole 3D volume is annotated and not the independent slices that it consists of). BTDNet consists of four components: i) the data augmentation one (that performs geometric transformations, convex combinations of data pairs and test-time data augmentation); ii) the 3D analysis one (that performs global analysis through a CNN-RNN); iii) the routing one (that contains a mask layer that handles variable input feature lengths), and iv) the modality fusion one (that effectively enhances data representation, reduces ambiguities and mitigates data scarcity). The proposed method outperforms by large margins the state-of-the-art methods in the RSNA-ASNR-MICCAI BraTS 2021 Challenge, offering a promising avenue for enhancing brain tumor diagnosis and treatment.
翻訳日:2023-10-06 16:24:27 公開日:2023-10-05
# 完全連結ReLU層の構造

The Geometric Structure of Fully-Connected ReLU-Layers ( http://arxiv.org/abs/2310.03482v1 )

ライセンス: Link先を確認
Jonatan Vallin, Karl Larsson, Mats G. Larson(参考訳) ニューラルネットワークにおいて,$d$次元完全連結ReLU層の幾何学構造を定式化し,解釈する。 ReLU層のパラメータは入力領域の自然な分割を誘導し、分割の各セクターにおいて、ReLU層を大幅に単純化することができる。 このことはReLU-層を多面体円錐への射影として幾何学的に解釈し、ReLU 活性化を伴う畳み込みネットワークの [doi:10.48550/arXiv. 1905.08922] の記述に従ってアフィン変換を行う。 さらに、この構造は分割セクタと超平面との交点の前画像の簡易表現を容易にし、分類設定において決定境界を記述する際に有用である。 本研究では,1つのReLU層を隠蔽したフィードフォワードネットワークにおいて,そのようなネットワークが生成する決定境界の幾何学的複雑さに関する結果を提供するとともに,アフィン変換を変調することにより,ネットワークが$d$の異なる決定境界しか生成できないことを示す。 最後に、ネットワークにさらにレイヤを追加する効果について論じる。

We formalize and interpret the geometric structure of $d$-dimensional fully connected ReLU-layers in neural networks. The parameters of a ReLU-layer induce a natural partition of the input domain, such that in each sector of the partition, the ReLU-layer can be greatly simplified. This leads to a geometric interpretation of a ReLU-layer as a projection onto a polyhedral cone followed by an affine transformation, in line with the description in [doi:10.48550/arXiv.1905.08922] for convolutional networks with ReLU activations. Further, this structure facilitates simplified expressions for preimages of the intersection between partition sectors and hyperplanes, which is useful when describing decision boundaries in a classification setting. We investigate this in detail for a feed-forward network with one hidden ReLU-layer, where we provide results on the geometric complexity of the decision boundary generated by such networks, as well as proving that modulo an affine transformation, such a network can only generate $d$ different decision boundaries. Finally, the effect of adding more layers to the network is discussed.
翻訳日:2023-10-06 16:23:57 公開日:2023-10-05
# cadenza icassp 2024グランドチャレンジ

The Cadenza ICASSP 2024 Grand Challenge ( http://arxiv.org/abs/2310.03480v1 )

ライセンス: Link先を確認
Gerardo Roa Dabike, Michael A. Akeroyd, Scott Bannister, Jon Barker, Trevor J. Cox, Bruno Fazenda, Jennifer Firth, Simone Graetzer, Alinka Greasley, Rebecca Vos, William Whitmer(参考訳) Cadenzaプロジェクトは、聴覚障害者のための音楽の質を高めることを目的としている。 このプロジェクトの一環として、ICASSP SP Cadenza Challenge: Music Demixing/Remixing for Hearing Aidsを組織している。 この課題は、補聴器のマイクで音楽をボーカル、ベース、ドラム、その他のコンポーネントに分解することで解決できる。 音声品質を改善するために、インテリジェントなリミックスをパーソナライズすることができる。 あるいは、エンドツーエンドのアプローチを使うこともできる。 プロセスは、音楽そのもの、各コンポーネントに適用される利得、リスナーの聴力損失を考慮する必要がある。 提出されたエントリは、侵入的客観的指標である聴覚支援オーディオ品質指標(HAAQI)を用いて評価される。 本稿ではその課題を概説する。

The Cadenza project aims to enhance the audio quality of music for individuals with hearing loss. As part of this, the project is organizing the ICASSP SP Cadenza Challenge: Music Demixing/Remixing for Hearing Aids. The challenge can be tackled by decomposing the music at the hearing aid microphones into vocals, bass, drums, and other components. These can then be intelligently remixed in a personalized manner to improve audio quality. Alternatively, an end-to-end approach could be used. Processes need to consider the music itself, the gain applied to each component, and the listener's hearing loss. The submitted entries will be evaluated using the intrusive objective metric, the Hearing Aid Audio Quality Index (HAAQI). This paper outlines the challenge.
翻訳日:2023-10-06 16:23:34 公開日:2023-10-05
# データパラメータ領域上の結合群不変関数はユニバーサルニューラルネットワークを誘導する

Joint Group Invariant Functions on Data-Parameter Domain Induce Universal Neural Networks ( http://arxiv.org/abs/2310.03530v1 )

ライセンス: Link先を確認
Sho Sonoda, Hideyuki Ishi, Isao Ishikawa, Masahiro Ikeda(参考訳) 入力データの対称性と幾何学は、ニューラルネットワーク内の内部データ表現にエンコードされると考えられているが、特定のエンコーディング規則は、あまり研究されていない。 データパラメータ領域上の結合群不変関数に着目して、データ領域上のグループアクションからパラメータ領域上の2つのグループアクションを見つけるための体系的なルールを示す。 さらに、結合不変関数から誘導される一般化ニューラルネットワークを導入し、シュルの補題を用いてそれらの普遍性定理の新しい群理論的証明を示す。 従来の普遍性定理は機能解析法に基づいて実証されたため、この研究は幾何学的深層学習と抽象調和解析を結びつける近似理論の群論的な側面に光を当てる。

The symmetry and geometry of input data are considered to be encoded in the internal data representation inside the neural network, but the specific encoding rule has been less investigated. By focusing on a joint group invariant function on the data-parameter domain, we present a systematic rule to find a dual group action on the parameter domain from a group action on the data domain. Further, we introduce generalized neural networks induced from the joint invariant functions, and present a new group theoretic proof of their universality theorems by using Schur's lemma. Since traditional universality theorems were demonstrated based on functional analytical methods, this study sheds light on the group theoretic aspect of the approximation theory, connecting geometric deep learning to abstract harmonic analysis.
翻訳日:2023-10-06 16:14:19 公開日:2023-10-05
# ディープリッジレット変換:koopman演算子による音声による形式的ディープネットワークの普遍性証明

Deep Ridgelet Transform: Voice with Koopman Operator Proves Universality of Formal Deep Networks ( http://arxiv.org/abs/2310.03529v1 )

ライセンス: Link先を確認
Sho Sonoda, Yuka Hashimoto, Isao Ishikawa, Masahiro Ikeda(参考訳) データ空間上のグループアクションを持つDNN内の隠れ層を特定し、グループアクションの線形表現であるクープマン演算子に対して、DNNを二重音声変換として定式化する。 群論的議論、特にシューアの補題を用いて、これらのdnnの普遍性の簡単な証明を示す。

We identify hidden layers inside a DNN with group actions on the data space, and formulate the DNN as a dual voice transform with respect to Koopman operator, a linear representation of the group action. Based on the group theoretic arguments, particularly by using Schur's lemma, we show a simple proof of the universality of those DNNs.
翻訳日:2023-10-06 16:14:06 公開日:2023-10-05
# 直交対ユニタリクロスオーバーアンサンブルの多重フラクタル次元

Multifractal dimensions for orthogonal-to-unitary crossover ensemble ( http://arxiv.org/abs/2310.03526v1 )

ライセンス: Link先を確認
Ayana Sarkar, Ashutosh Dheer and Santosh Kumar(参考訳) 多重フラクタル解析は、複素量子系における固有状態のエルゴード的あるいは局所的な性質を特徴づける強力なアプローチである。 この文脈では、不変アンサンブルに属するランダム行列の固有ベクトルはエルゴード状態のモデルとして自然に機能する。 しかし、これらの固有ベクトルに対する有限サイズの多重フラクタル次元は、システムサイズが$N$の増加とともに、単位対数的にゆっくりと収束することが判明した。 実際、この強い有限サイズ効果は直交およびユニタリ不変クラスのエルゴード性挙動を区別することができる。 本研究は,この観察に動機づけられ,直交対ユニタリクロスオーバーアンサンブルにおける固有ベクトルに付随するアンサンブル平均多重フラクタル次元の半解析的表現を提供する。 さらに、多フラクタル次元自体とは対照的に、シフトおよびスケールされた多フラクタル次元の変種を探索し、直交およびユニタリ極限における異なる値が$N\to\infty$として得られるので、クロスオーバーを研究するのに便利な尺度となる。 基礎となるクロスオーバー確率行列モデルのモンテカルロシミュレーションを用いて, 実験結果を裏付ける。 次に, 量子キックロータ, シナイビリヤード系, およびランダム場における相関スピン鎖モデルにおける多フラクタル次元の解析に本研究の結果を適用した。 これらの系における直交単位交叉は、関連する系パラメータを調整することによって実現され、クロスオーバー系では、観測された有限次元多重フラクタル次元は、我々の結果とよく一致している。

Multifractal analysis is a powerful approach for characterizing ergodic or localized nature of eigenstates in complex quantum systems. In this context, the eigenvectors of random matrices belonging to invariant ensembles naturally serve as models for ergodic states. However, it has been found that the finite-size versions of multifractal dimensions for these eigenvectors converge to unity logarithmically slowly with increase in the system size $N$. In fact, this strong finite-size effect is capable of distinguishing the ergodicity behavior of orthogonal and unitary invariant classes. Motivated by this observation, in this work, we provide semi-analytical expressions for the ensemble-averaged multifractal dimensions associated with eigenvectors in the orthogonal-to-unitary crossover ensemble. Additionally, we explore shifted and scaled variants of multifractal dimensions, which, in contrast to the multifractal dimensions themselves, yield distinct values in the orthogonal and unitary limits as $N\to\infty$ and therefore may serve as a convenient measure for studying the crossover. We substantiate our results using Monte Carlo simulations of the underlying crossover random matrix model. We then apply our results to analyze the multifractal dimensions in a quantum kicked rotor, a Sinai billiard system, and a correlated spin chain model in a random field. The orthogonal-to-unitary crossover in these systems is realized by tuning relevant system parameters, and we find that in the crossover regime, the observed finite-dimension multifractal dimensions can be captured very well with our results.
翻訳日:2023-10-06 16:13:57 公開日:2023-10-05
# 自動運転におけるV2X協調認識の最近の進歩と課題

V2X Cooperative Perception for Autonomous Driving: Recent Advances and Challenges ( http://arxiv.org/abs/2310.03525v1 )

ライセンス: Link先を確認
Tao Huang, Jianan Liu, Xi Zhou, Dinh C. Nguyen, Mostafa Rahimi Azghadi, Yuxuan Xia, Qing-Long Han, Sumei Sun(参考訳) 正確な認識は、現代の交通システムにおける自律運転の推進と安全上の課題への対処に不可欠である。 物体認識のためのコンピュータビジョンの進歩にもかかわらず、現在の認識手法は複雑な現実世界の交通環境において困難に直面している。 物理的閉塞や限定的なセンサー視野といった課題は、個々の車両システムに持続する。 V2X技術を用いた協調認識(CP)は、これらの障害を克服し、自動化システムを強化するソリューションとして登場した。 CPの基本アーキテクチャと重要なコンポーネントを探求する研究もあるが、最新のイノベーション、特にV2X通信技術の文脈において、包括的な要約は残っていない。 このギャップに対処するため,本論文では,V2X通信技術の発展など,初期の調査から最近の発展まで,CP技術の進化を包括的に概観する。 さらに、V2XベースのCPワークフローを記述し、CPシステムコンポーネントの構造的理解を支援するために、同時代の汎用フレームワークを提案する。 さらに本論文では,v2xベースのcp方法論を,その課題に基づいて分類する。 この分類学において、既存のデータセットとシミュレータを評価する広範な文献レビューが行われる。 最後に、自律運転におけるCPのオープン課題と今後の方向性について、知覚とV2X通信の進展を両立させることにより論じる。

Accurate perception is essential for advancing autonomous driving and addressing safety challenges in modern transportation systems. Despite significant advancements in computer vision for object recognition, current perception methods still face difficulties in complex real-world traffic environments. Challenges such as physical occlusion and limited sensor field of view persist for individual vehicle systems. Cooperative Perception (CP) with Vehicle-to-Everything (V2X) technologies has emerged as a solution to overcome these obstacles and enhance driving automation systems. While some research has explored CP's fundamental architecture and critical components, there remains a lack of comprehensive summaries of the latest innovations, particularly in the context of V2X communication technologies. To address this gap, this paper provides a comprehensive overview of the evolution of CP technologies, spanning from early explorations to recent developments, including advancements in V2X communication technologies. Additionally, a contemporary generic framework is proposed to illustrate the V2X-based CP workflow, aiding in the structured understanding of CP system components. Furthermore, this paper categorizes prevailing V2X-based CP methodologies based on the critical issues they address. An extensive literature review is conducted within this taxonomy, evaluating existing datasets and simulators. Finally, open challenges and future directions in CP for autonomous driving are discussed by considering both perception and V2X communication advancements.
翻訳日:2023-10-06 16:13:28 公開日:2023-10-05
# LambdaにPadlockを置く -- vTPMをAWS Firecrackerに統合する

Putting a Padlock on Lambda -- Integrating vTPMs into AWS Firecracker ( http://arxiv.org/abs/2310.03522v1 )

ライセンス: Link先を確認
Melker Veltman, Alexandra Parkegren, Victor Morel(参考訳) ソフトウェアサービスがワークロードを実行するためにクラウドプロバイダを使用するとき、明示的な信頼関係なしに、クラウドプロバイダへの暗黙の信頼を置く。 このようなコンピュータシステムへの明確な信頼を達成する一つの方法は、信頼されたコンピューティングのためのコプロセッサであるハードウェア信頼プラットフォームモジュール(TPM)を使用することである。 しかしながら、マネージドプラットフォーム・アズ・ア・サービス(PaaS)製品の場合、現時点ではTPM機能を公開するクラウドプロバイダはありません。 本稿では,amazon web servicesが開発したfirecrackerハイパーバイザに仮想tpmデバイスを統合することで,信頼度を向上させる。 これに加えて,複数のパフォーマンステストとアタックサーフェス解析を行い,導入した変更の影響を評価する。 結果について議論し、PaaS製品における信頼性の高いコンピューティングを実現するために、パフォーマンスの低下と攻撃面の増大が許容できるトレードオフであると結論付けた。

When software services use cloud providers to run their workloads, they place implicit trust in the cloud provider, without an explicit trust relationship. One way to achieve such explicit trust in a computer system is to use a hardware Trusted Platform Module (TPM), a coprocessor for trusted computing. However, in the case of managed platform-as-a-service (PaaS) offerings, there is currently no cloud provider that exposes TPM capabilities. In this paper, we improve trust by integrating a virtual TPM device into the Firecracker hypervisor, originally developed by Amazon Web Services. In addition to this, multiple performance tests along with an attack surface analysis are performed to evaluate the impact of the changes introduced. We discuss the results and conclude that the slight performance decrease and attack surface increase are acceptable trade-offs in order to enable trusted computing in PaaS offerings.
翻訳日:2023-10-06 16:13:10 公開日:2023-10-05
# ロバストと一般化可能なトレーニングに向けて:入力摂動に対する雑音性スロット充満の実証的研究

Towards Robust and Generalizable Training: An Empirical Study of Noisy Slot Filling for Input Perturbations ( http://arxiv.org/abs/2310.03518v1 )

ライセンス: Link先を確認
Jiachi Liu, Liwen Wang, Guanting Dong, Xiaoshuai Song, Zechen Wang, Zhengyang Wang, Shanglin Lei, Jinzheng Zhao, Keqing He, Bo Xiao, Weiran Xu(参考訳) 実際の対話シナリオでは、発話中に未知の入力ノイズがあるため、既存の教師付きスロット充填モデルは実用的な用途では性能が悪いことが多い。 ノイズロバストモデルに関する研究はいくつかあるが、これらの研究はルールベースの合成データセットでのみ評価されるため、ノイズロバスト法の研究を促進することは困難である。 本稿では,スロット充填作業のためのノイズロバスト性評価データセットである noise-sf を提案する。 提案したデータセットには,5種類の有意なノイズが含まれており,これらすべてのノイズは,提案フレームワークへのスロットフィリングの本格的な頑健な学習方法に正確に存在している。 ノイズ-SFの実験的評価実験により, ベースラインモデルはロバスト性評価において性能が劣り, 提案フレームワークはモデルのロバスト性を効果的に向上できることがわかった。 実験結果をもとに,この方向の研究を加速するために,先見的な提案を行う。 当社のデータセットであるNoss-SFはhttps://github.com/dongguanting/Noise-SFで公開される予定です。

In real dialogue scenarios, as there are unknown input noises in the utterances, existing supervised slot filling models often perform poorly in practical applications. Even though there are some studies on noise-robust models, these works are only evaluated on rule-based synthetic datasets, which is limiting, making it difficult to promote the research of noise-robust methods. In this paper, we introduce a noise robustness evaluation dataset named Noise-SF for slot filling task. The proposed dataset contains five types of human-annotated noise, and all those noises are exactly existed in real extensive robust-training methods of slot filling into the proposed framework. By conducting exhaustive empirical evaluation experiments on Noise-SF, we find that baseline models have poor performance in robustness evaluation, and the proposed framework can effectively improve the robustness of models. Based on the empirical experimental results, we make some forward-looking suggestions to fuel the research in this direction. Our dataset Noise-SF will be released at https://github.com/dongguanting/Noise-SF.
翻訳日:2023-10-06 16:12:56 公開日:2023-10-05
# PrototypeFormer:Few-shot画像分類のためのプロトタイプ関係の探索

PrototypeFormer: Learning to Explore Prototype Relationships for Few-shot Image Classification ( http://arxiv.org/abs/2310.03517v1 )

ライセンス: Link先を確認
Feihong He, Gang Li, Lingyu Si, Leilei Yan, Fanzhang Li, Fuchun Sun(参考訳) 画像分類の難易度は, 新規クラスに限られているため, 分類性能の低下が問題視されている。 しかし、多くの研究が高度な学習戦略と多様な特徴抽出手法を用いてこの問題に取り組んできた。 本稿では,プロトタイプ関係を探索し,従来の複数ショット画像分類手法を大幅に改善することを目的としたPrototypeFormerという手法を提案する。 具体的には、トランスフォーマーアーキテクチャを用いてプロトタイプ抽出モジュールを構築し、より識別性の高いクラス表現の抽出を目的としている。 さらに,モデルの学習過程において,少数の学習シナリオでプロトタイプ機能を最適化するための,対照的な学習に基づく最適化手法を提案する。 その単純さにもかかわらず、ベルや笛を使わずに驚くほどうまく機能する。 我々は,本手法が現在の最先端手法を上回っていることを示す,いくつかの人気数ショット画像分類ベンチマークデータセットに対して,本手法のアプローチを実験した。 特に,5-way 5-shotタスクと5-way 1-shotタスクで97.07%,90.88%を達成し,その精度は7.27%,8.72%であった。 コードは後でリリースされる。

Few-shot image classification has received considerable attention for addressing the challenge of poor classification performance with limited samples in novel classes. However, numerous studies have employed sophisticated learning strategies and diversified feature extraction methods to address this issue. In this paper, we propose our method called PrototypeFormer, which aims to significantly advance traditional few-shot image classification approaches by exploring prototype relationships. Specifically, we utilize a transformer architecture to build a prototype extraction module, aiming to extract class representations that are more discriminative for few-shot classification. Additionally, during the model training process, we propose a contrastive learning-based optimization approach to optimize prototype features in few-shot learning scenarios. Despite its simplicity, the method performs remarkably well, with no bells and whistles. We have experimented with our approach on several popular few-shot image classification benchmark datasets, which shows that our method outperforms all current state-of-the-art methods. In particular, our method achieves 97.07% and 90.88% on 5-way 5-shot and 5-way 1-shot tasks of miniImageNet, which surpasses the state-of-the-art results with accuracy of 7.27% and 8.72%, respectively. The code will be released later.
翻訳日:2023-10-06 16:12:37 公開日:2023-10-05
# グループテストによる高次元ベイズ最適化

High-dimensional Bayesian Optimization with Group Testing ( http://arxiv.org/abs/2310.03515v1 )

ライセンス: Link先を確認
Erik Orm Hellsten, Carl Hvarfner, Leonard Papenmeier, Luigi Nardi(参考訳) ベイズ最適化は、高価なブラックボックス関数を最適化する有効な方法である。 対象の代理モデルが次元の呪いに苦しむため、高次元の問題は特に困難であり、正確なモデリングは困難である。 我々は,これらの領域における効率的な最適化を容易にするために,アクティブ変数を識別するためのグループテスト手法を提案する。 提案するアルゴリズムであるgtbo(group testing bayesian optimization)は,まず,変数群を体系的に選択し,目的に影響を及ぼすかどうかをテストするテストフェーズを実行する。 この目的のために、群テストの確立された理論を連続範囲の関数に拡張する。 第2フェーズでは、gtboはアクティブ次元をより重要視することで最適化を導く。 軸整列部分空間の仮定を利用して、GTBOはいくつかの合成および実世界の高次元最適化タスクにおいて最先端の手法と競合する。 さらに、gtboはアプリケーションにおけるアクティブパラメータの発見を支援することで、手前の問題に対する実践者の理解を深める。

Bayesian optimization is an effective method for optimizing expensive-to-evaluate black-box functions. High-dimensional problems are particularly challenging as the surrogate model of the objective suffers from the curse of dimensionality, which makes accurate modeling difficult. We propose a group testing approach to identify active variables to facilitate efficient optimization in these domains. The proposed algorithm, Group Testing Bayesian Optimization (GTBO), first runs a testing phase where groups of variables are systematically selected and tested on whether they influence the objective. To that end, we extend the well-established theory of group testing to functions of continuous ranges. In the second phase, GTBO guides optimization by placing more importance on the active dimensions. By exploiting the axis-aligned subspace assumption, GTBO is competitive against state-of-the-art methods on several synthetic and real-world high-dimensional optimization tasks. Furthermore, GTBO aids in the discovery of active parameters in applications, thereby enhancing practitioners' understanding of the problem at hand.
翻訳日:2023-10-06 16:12:17 公開日:2023-10-05
# dinoを探索する:合成開口レーダ画像の創発的特性と限界

Exploring DINO: Emergent Properties and Limitations for Synthetic Aperture Radar Imagery ( http://arxiv.org/abs/2310.03513v1 )

ライセンス: Link先を確認
Joseph A. Gallego-Mejia, Anna Jungbluth, Laura Mart\'inez-Ferrer, Matt Allen, Francisco Dorr, Freddie Kalaitzis, Ra\'ul Ramos-Poll\'an(参考訳) 自己教師付き学習(SSL)モデルは最近、画像セグメンテーションを含む様々なタスクで顕著なパフォーマンスを示している。 本研究では,No Labels(DINO)アルゴリズムによる自己蒸留の創発的特性と合成開口レーダ(SAR)画像への応用について検討する。 非ラベルsarデータを用いた視覚トランスフォーマ(vit)ベースのdinoモデルを事前学習し,その後,高精度土地被覆マップの予測のためにモデルを微調整した。 本稿では,ViTバックボーンが生成したアテンションマップの有用性を厳格に評価し,モデルのトークン埋め込み空間と比較する。 我々は,スクラッチからのトレーニングと比較して,モデル性能の微妙な向上を観察し,リモートセンシングとランドカバーセグメンテーションにおけるSSLの限界と可能性について議論する。 少ない性能向上を超えて,vitアテンションマップはリモートセンシングに非常に本質的な価値を持ち,他のアルゴリズムに有用なインプットを提供することができることを示した。 これでわれわれの研究は、地球観測のためのより大型で優れたSSLモデルの土台を築いた。

Self-supervised learning (SSL) models have recently demonstrated remarkable performance across various tasks, including image segmentation. This study delves into the emergent characteristics of the Self-Distillation with No Labels (DINO) algorithm and its application to Synthetic Aperture Radar (SAR) imagery. We pre-train a vision transformer (ViT)-based DINO model using unlabeled SAR data, and later fine-tune the model to predict high-resolution land cover maps. We rigorously evaluate the utility of attention maps generated by the ViT backbone, and compare them with the model's token embedding space. We observe a small improvement in model performance with pre-training compared to training from scratch, and discuss the limitations and opportunities of SSL for remote sensing and land cover segmentation. Beyond small performance increases, we show that ViT attention maps hold great intrinsic value for remote sensing, and could provide useful inputs to other algorithms. With this, our work lays the ground-work for bigger and better SSL models for Earth Observation.
翻訳日:2023-10-06 16:11:59 公開日:2023-10-05
# シングルIMUと階層型機械学習モデルによる高齢者のオタゴ運動モニタリング

Otago Exercises Monitoring for Older Adults by a Single IMU and Hierarchical Machine Learning Models ( http://arxiv.org/abs/2310.03512v1 )

ライセンス: Link先を確認
Meng Shang, Lenore Dedeyne, Jolan Dupont, Laura Vercauteren, Nadjia Amini, Laurence Lapauw, Evelien Gielen, Sabine Verschueren, Carolina Varon, Walter De Raedt, and Bart Vanrumste(参考訳) オタゴ運動プログラム (Otago Exercise Program, OEP) は、高齢者の疲労、サルコニア、バランスを改善するためのリハビリテーションプログラムである。 OEPへの患者関与の正確なモニタリングは困難であり、自己申告(日記)は信頼できないことが多い。 ウェアラブルセンサーの開発に伴い、ウェアラブルセンサーを用いたヒューマンアクティビティ認識(HAR)システムは医療に革命をもたらした。 しかし、OEPの利用は依然として限られた性能を示している。 本研究の目的は,高齢者のためのOEPモニタリングシステムを構築することである。 imu(single waist-mounted inertial measurement unit)を装着した高齢者からデータを得た。 2つのデータセットが収集され、1つは実験室で、1つは患者の自宅で収集された。 階層システムには2つの段階がある。 1) 深層学習モデルを用いて,患者がoepを行うかどうか,又は10分間のスライディングウインドウを用いて日常生活(adls)のアクティビティを認識する。 2) ステージ1に基づいて6秒スライディングウィンドウを用いて,OEPサブクラスが実行されたことを認識した。 その結果、ステージ1では、OEPはウィンドウワイドのf1スコアが0.95以上、インターセクションオーバーユニオン(IoU)のf1スコアが0.85以上と認識できた。 ステージ2では, 足関節底屈筋, 膝屈筋, 座屈筋の4つの活動が, 0.8以上のf1スコアで認識された。 その結果, 日常生活における単一IMUを用いて, OEPのコンプライアンスを監視できる可能性が示唆された。 また、いくつかのOEPサブクラスはさらなる分析のために認識することができる。

Otago Exercise Program (OEP) is a rehabilitation program for older adults to improve frailty, sarcopenia, and balance. Accurate monitoring of patient involvement in OEP is challenging, as self-reports (diaries) are often unreliable. With the development of wearable sensors, Human Activity Recognition (HAR) systems using wearable sensors have revolutionized healthcare. However, their usage for OEP still shows limited performance. The objective of this study is to build an unobtrusive and accurate system to monitor OEP for older adults. Data was collected from older adults wearing a single waist-mounted Inertial Measurement Unit (IMU). Two datasets were collected, one in a laboratory setting, and one at the homes of the patients. A hierarchical system is proposed with two stages: 1) using a deep learning model to recognize whether the patients are performing OEP or activities of daily life (ADLs) using a 10-minute sliding window; 2) based on stage 1, using a 6-second sliding window to recognize the OEP sub-classes performed. The results showed that in stage 1, OEP could be recognized with window-wise f1-scores over 0.95 and Intersection-over-Union (IoU) f1-scores over 0.85 for both datasets. In stage 2, for the home scenario, four activities could be recognized with f1-scores over 0.8: ankle plantarflexors, abdominal muscles, knee bends, and sit-to-stand. The results showed the potential of monitoring the compliance of OEP using a single IMU in daily life. Also, some OEP sub-classes are possible to be recognized for further analysis.
翻訳日:2023-10-06 16:11:41 公開日:2023-10-05
# 逆神経放射場を用いたBID-NeRF:RGB-D画像のポーズ推定

BID-NeRF: RGB-D image pose estimation with inverted Neural Radiance Fields ( http://arxiv.org/abs/2310.03563v1 )

ライセンス: Link先を確認
\'Agoston Istv\'an Csehi, Csaba M\'at\'e J\'ozsa(参考訳) Inverted Neural Radiance Fields (iNeRF) アルゴリズムの改良を目標とし、画像ポーズ推定問題をNeRFに基づく反復線形最適化として定義する。 NeRFは、現実世界のシーンやオブジェクトのフォトリアリスティックな新しいビューを合成できる新しい空間表現モデルである。 Our contributions are as follows: we extend the localization optimization objective with a depth-based loss function, we introduce a multi-image based loss function where a sequence of images with known relative poses are used without increasing the computational complexity, we omit hierarchical sampling during volumetric rendering, meaning only the coarse model is used for pose estimation, and we how that by extending the sampling interval convergence can be achieved even or higher initial pose estimate errors. 提案した修正により収束速度が大幅に向上し,収束盆地が大幅に拡張された。

We aim to improve the Inverted Neural Radiance Fields (iNeRF) algorithm which defines the image pose estimation problem as a NeRF based iterative linear optimization. NeRFs are novel neural space representation models that can synthesize photorealistic novel views of real-world scenes or objects. Our contributions are as follows: we extend the localization optimization objective with a depth-based loss function, we introduce a multi-image based loss function where a sequence of images with known relative poses are used without increasing the computational complexity, we omit hierarchical sampling during volumetric rendering, meaning only the coarse model is used for pose estimation, and we how that by extending the sampling interval convergence can be achieved even or higher initial pose estimate errors. With the proposed modifications the convergence speed is significantly improved, and the basin of convergence is substantially extended.
翻訳日:2023-10-06 16:05:18 公開日:2023-10-05
# 大規模言語モデルによるデジタルヘルスインタフェースの再定義

Redefining Digital Health Interfaces with Large Language Models ( http://arxiv.org/abs/2310.03560v1 )

ライセンス: Link先を確認
Fergus Imrie, Paulius Rauba, Mihaela van der Schaar(参考訳) デジタルヘルスツールは、医療サービスのデリバリーを大幅に改善する可能性がある。 しかし、ユーザビリティと信頼に関わる課題のために、その使用は比較的限られている。 近年,大規模言語モデル(llm)が,複雑な情報を処理し,質の高いテキストを生成する汎用モデルとして登場し,医療分野に豊富な応用可能性を示している。 LLMを臨床環境で直接適用することは簡単ではない。 臨床医とデジタル技術との新たなインターフェースを実現するために,LCMが外部ツールを利用する方法を紹介する。 これにより、幻覚などの臨床設定でllmを使用する現在の問題に対処すると同時に、デジタルヘルスケアツールやaiモデルの実用性と実用性が向上する。 このアプローチを循環器疾患や糖尿病リスク予測の例で示し,デジタルツールの従来のインターフェースと比較して,そのメリットを強調する。

Digital health tools have the potential to significantly improve the delivery of healthcare services. However, their use remains comparatively limited due, in part, to challenges surrounding usability and trust. Recently, Large Language Models (LLMs) have emerged as general-purpose models with the ability to process complex information and produce human-quality text, presenting a wealth of potential applications in healthcare. Directly applying LLMs in clinical settings is not straightforward, with LLMs susceptible to providing inconsistent or nonsensical answers. We demonstrate how LLMs can utilize external tools to provide a novel interface between clinicians and digital technologies. This enhances the utility and practical impact of digital healthcare tools and AI models while addressing current issues with using LLM in clinical settings such as hallucinations. We illustrate our approach with examples from cardiovascular disease and diabetes risk prediction, highlighting the benefit compared to traditional interfaces for digital tools.
翻訳日:2023-10-06 16:05:04 公開日:2023-10-05
# MedSynV1:高忠実度3次元CT画像のテキスト誘導型解剖学的合成

MedSynV1: Text-guided Anatomy-aware Synthesis of High-Fidelity 3D CT Images ( http://arxiv.org/abs/2310.03559v1 )

ライセンス: Link先を確認
Yanwu Xu, Li Sun, Wei Peng, Shyam Visweswaran, and Kayhan Batmanghelich(参考訳) 本稿では,テキスト情報を用いた高品質な3次元肺CT画像作成手法を提案する。 拡散に基づく生成モデルが医療画像にますます使われている一方で、現在の最先端のアプローチは低解像度の出力に限られており、放射線学レポートの豊富な情報を不活用している。 放射線レポートは、追加のガイダンスを提供し、画像合成のきめ細かい制御を提供することで、生成プロセスを強化することができる。 それでも、高解像度の3D画像へのテキスト誘導生成の拡大は、重要な記憶と解剖学的詳細保存の課題を引き起こす。 メモリ問題に対処するため,UNetアーキテクチャを改良した階層型スキームを導入する。 まず,テキストに条件づけられた低解像度画像を合成し,それに続くボリュームデータ生成の基盤として機能する。 生成した試料の解剖学的可溶性を確保するため,ct画像と連動して血管,気道,球状分節マスクを作製し,さらなる指導を行う。 このモデルは、テキスト入力とセグメンテーションタスクを使用して合成画像を生成する能力を示す。 比較評価の結果,ganおよび拡散法に基づく最も先進的なモデルと比較して,特に断裂線,気道,血管構造などの重要な解剖学的特徴を正確に保持する手法が優れていることが示された。 この革新は新しい可能性をもたらす。 本研究は,(1)文章的プロンプトと解剖学的要素に基づく画像作成手法の開発,(2)解剖学的要素を条件とした新たな画像生成機能の開発,という2つの目的に焦点を当てた。 画像生成の進歩は、多くの下流タスクを強化するために応用できる。

This paper introduces an innovative methodology for producing high-quality 3D lung CT images guided by textual information. While diffusion-based generative models are increasingly used in medical imaging, current state-of-the-art approaches are limited to low-resolution outputs and underutilize radiology reports' abundant information. The radiology reports can enhance the generation process by providing additional guidance and offering fine-grained control over the synthesis of images. Nevertheless, expanding text-guided generation to high-resolution 3D images poses significant memory and anatomical detail-preserving challenges. Addressing the memory issue, we introduce a hierarchical scheme that uses a modified UNet architecture. We start by synthesizing low-resolution images conditioned on the text, serving as a foundation for subsequent generators for complete volumetric data. To ensure the anatomical plausibility of the generated samples, we provide further guidance by generating vascular, airway, and lobular segmentation masks in conjunction with the CT images. The model demonstrates the capability to use textual input and segmentation tasks to generate synthesized images. The results of comparative assessments indicate that our approach exhibits superior performance compared to the most advanced models based on GAN and diffusion techniques, especially in accurately retaining crucial anatomical features such as fissure lines, airways, and vascular structures. This innovation introduces novel possibilities. This study focuses on two main objectives: (1) the development of a method for creating images based on textual prompts and anatomical components, and (2) the capability to generate new images conditioning on anatomical elements. The advancements in image generation can be applied to enhance numerous downstream tasks.
翻訳日:2023-10-06 16:04:47 公開日:2023-10-05
# パンデミック介入時の移動度分離ダイナミクスと残留分離

Mobility Segregation Dynamics and Residual Isolation During Pandemic Interventions ( http://arxiv.org/abs/2310.03557v1 )

ライセンス: Link先を確認
Rafiazka Millanida Hilman, Manuel Garc\'ia-Herranz, Vedran Sekara and M\'arton Karsai(参考訳) 外部のショックは、人々の通常の生活に予期せぬ、破壊的な影響を具現化する。 新型コロナウイルス(covid-19)のパンデミックでは、都市部の典型的な移動パターンが急速に変化した。 それに応えて、人々は宇宙の至る所で毎日の用事を再編成した。 しかし、これらの変化は、パンデミックによる不平等に対する追加の有害な影響をもたらす社会経済的階級間では変わらないかもしれない。 本稿では,外的ショックによる移動性分離ネットワークの再編成について検討し,パンデミック時の移動性制限の実施によって,訪問先の場所や社会経済的地位の多様性が影響を受けることを示す。 我々は,いくつかの都市における自然実験としてcovid-19の事例を用いて,外部衝撃の影響だけでなく,その中間的影響や残留効果も観察する。 ボゴタ、ジャカルタ、ロンドン、ニューヨークという4つの都市で、匿名化とプライバシー保護のモビリティデータを構築しています。 モビリティデータを社会経済情報と組み合わせることで,社会経済グループ間のモビリティの不平等を把握し,ロックダウン期間の前後において,その変化を動的に把握する。 介入が中断されてから数週間経っても,モビリティ・ミキシングがパンデミック以前のレベルに完全に回復していないため,各都市におけるモビリティ・セグメンテーションの著しい増加は,モビリティ・リミディションの緩やか化が社会経済集団間の孤立を必ずしも減少させるわけではない。 以上の結果から,社会経済的にインフォームドな介入政策が求められるモビリティ調整の方法には,すべて適合した政策が等しく影響しないことが示唆された。

External shocks embody an unexpected and disruptive impact on the regular life of people. This was the case during the COVID-19 outbreak that rapidly led to changes in the typical mobility patterns in urban areas. In response, people reorganised their daily errands throughout space. However, these changes might not have been the same across socioeconomic classes leading to possibile additional detrimental effects on inequality due to the pandemic. In this paper we study the reorganisation of mobility segregation networks due to external shocks and show that the diversity of visited places in terms of locations and socioeconomic status is affected by the enforcement of mobility restriction during pandemic. We use the case of COVID-19 as a natural experiment in several cities to observe not only the effect of external shocks but also its mid-term consequences and residual effects. We build on anonymised and privacy-preserved mobility data in four cities: Bogota, Jakarta, London, and New York. We couple mobility data with socioeconomic information to capture inequalities in mobility among different socioeconomic groups and see how it changes dynamically before, during, and after different lockdown periods. We find that the first lockdowns induced considerable increases in mobility segregation in each city, while loosening mobility restrictions did not necessarily diminished isolation between different socioeconomic groups, as mobility mixing has not recovered fully to its pre-pandemic level even weeks after the interruption of interventions. Our results suggest that a one fits-all policy does not equally affect the way people adjust their mobility, which calls for socioeconomically informed intervention policies in the future.
翻訳日:2023-10-06 16:04:17 公開日:2023-10-05
# 最大ログ型オブジェクトの残差を用いた確率モデルの安定トレーニング

Stable Training of Probabilistic Models Using the Leave-One-Out Maximum Log-Likelihood Objective ( http://arxiv.org/abs/2310.03556v1 )

ライセンス: Link先を確認
Kutay B\"olat, Simon H. Tindemans, Peter Palensky(参考訳) 電力系統の運用と計画プロセスの確率論的モデリングは、十分な規模のデータセットを必要とするデータ駆動方式に依存する。 過去のデータが欠落している場合、データ生成メカニズムを確率分布としてモデル化し、データ品質を評価し、必要に応じてより多くのデータを生成することが望ましい。 カーネル密度推定(KDE)に基づくモデルは、このタスクの一般的な選択であるが、密度の異なるデータ領域に適応できない。 本稿では、適応KDEモデルを用いてこれを回避し、モデルの各カーネルが個別の帯域幅を持つようにする。 LOO-MLL(Leave-out-out maximum log-likelihood)基準は、通常のMLL基準がもたらす特異解を回避するために提案され、LOO-MLLがこれらを防ぐことが証明されている。 この保証された堅牢性に基づき、学習可能な重みをカーネルに割り当てることでモデルを拡張する。 また、最適化速度を確実に高速化するために、修正された期待最大化アルゴリズムを用いる。 提案手法とモデルの性能は, 異なる統計実験とガウス混合モデルとの比較により, 2つの電力系統データセットに示される。 その結果,提案モデルには特異性防止の保証に加えて,有望な性能が得られた。

Probabilistic modelling of power systems operation and planning processes depends on data-driven methods, which require sufficiently large datasets. When historical data lacks this, it is desired to model the underlying data generation mechanism as a probability distribution to assess the data quality and generate more data, if needed. Kernel density estimation (KDE) based models are popular choices for this task, but they fail to adapt to data regions with varying densities. In this paper, an adaptive KDE model is employed to circumvent this, where each kernel in the model has an individual bandwidth. The leave-one-out maximum log-likelihood (LOO-MLL) criterion is proposed to prevent the singular solutions that the regular MLL criterion gives rise to, and it is proven that LOO-MLL prevents these. Relying on this guaranteed robustness, the model is extended by assigning learnable weights to the kernels. In addition, a modified expectation-maximization algorithm is employed to accelerate the optimization speed reliably. The performance of the proposed method and models are exhibited on two power systems datasets using different statistical tests and by comparison with Gaussian mixture models. Results show that the proposed models have promising performance, in addition to their singularity prevention guarantees.
翻訳日:2023-10-06 16:03:48 公開日:2023-10-05
# ミスマッチ計測と先行モデルによるプラグアンドプレイ後サンプリング

Plug-and-Play Posterior Sampling under Mismatched Measurement and Prior Models ( http://arxiv.org/abs/2310.03546v1 )

ライセンス: Link先を確認
Marien Renaud, Jiaming Liu, Valentin de Bortoli, Andr\'es Almansa, Ulugbek S. Kamilov(参考訳) 後方サンプリングは、画像逆問題を解くための強力なベイズ的アプローチであることが示されている。 近年のPnP-ULA法はモンテカルロサンプリングと最小平均二乗誤差(MMSE)推定のための有望な手法として,物理測定モデルと画像デノイザを用いた深層学習先行手法を組み合わせた。 しかし,PnP-ULAのサンプリング分布とミスマッチしたデータ忠実度とデノイザの関係は理論的には解析されていない。 本研究は,PnP-ULAの後方分布に対する明示的誤差を定量化するために,後部L2擬似測度を提案することで,このギャップに対処する。 ガウス混合モデルからのサンプリングや画像デブラリングなど,いくつかの逆問題に関する理論を数値的に検証した。 以上の結果から, pnp-ulaのサンプリング分布が測定モデルとデノイザーのミスマッチに対する感度を精度良く評価できることが示唆された。

Posterior sampling has been shown to be a powerful Bayesian approach for solving imaging inverse problems. The recent plug-and-play unadjusted Langevin algorithm (PnP-ULA) has emerged as a promising method for Monte Carlo sampling and minimum mean squared error (MMSE) estimation by combining physical measurement models with deep-learning priors specified using image denoisers. However, the intricate relationship between the sampling distribution of PnP-ULA and the mismatched data-fidelity and denoiser has not been theoretically analyzed. We address this gap by proposing a posterior-L2 pseudometric and using it to quantify an explicit error bound for PnP-ULA under mismatched posterior distribution. We numerically validate our theory on several inverse problems such as sampling from Gaussian mixture models and image deblurring. Our results suggest that the sensitivity of the sampling distribution of PnP-ULA to a mismatch in the measurement model and the denoiser can be precisely characterized.
翻訳日:2023-10-06 16:03:27 公開日:2023-10-05
# 回帰型機械学習アルゴリズムの分散フリーリスク評価

Distribution-free risk assessment of regression-based machine learning algorithms ( http://arxiv.org/abs/2310.03545v1 )

ライセンス: Link先を確認
Sukrita Singh, Neeraj Sarna, Yuanyuan Li, Yang Li, Agni Orfanoudaki, Michael Berger(参考訳) 機械学習アルゴリズムは、長年にわたって洗練され、現実のアプリケーションにデプロイされてきている。 しかし,特に医学や工学などの高リスクアプリケーションにおいて,機械学習技術を用いた場合,予測モデルの故障確率は極めて重要である。 我々はこの問題をリスク評価タスクと呼んでいる。 我々は回帰アルゴリズムとモデル予測の周囲に定義された区間内に存在する真のラベルの確率を計算するリスク評価タスクに焦点をあてる。 本稿では,与えられた確率の真のラベルを含むことが保証される予測間隔を提供する共形予測手法を用いて,リスクアセスメント問題を解く。 このカバレッジ特性を用いて、我々の近似失敗確率は、MLアルゴリズムの真の失敗確率よりも低いという意味で保守的であることを証明した。 本研究では,共変量シフトを伴う問題に対する提案手法の精度を実験的に検討する。 本分析では,異なるモデリング手法,データセットサイズ,共形予測手法に着目した。

Machine learning algorithms have grown in sophistication over the years and are increasingly deployed for real-life applications. However, when using machine learning techniques in practical settings, particularly in high-risk applications such as medicine and engineering, obtaining the failure probability of the predictive model is critical. We refer to this problem as the risk-assessment task. We focus on regression algorithms and the risk-assessment task of computing the probability of the true label lying inside an interval defined around the model's prediction. We solve the risk-assessment problem using the conformal prediction approach, which provides prediction intervals that are guaranteed to contain the true label with a given probability. Using this coverage property, we prove that our approximated failure probability is conservative in the sense that it is not lower than the true failure probability of the ML algorithm. We conduct extensive experiments to empirically study the accuracy of the proposed method for problems with and without covariate shift. Our analysis focuses on different modeling regimes, dataset sizes, and conformal prediction methodologies.
翻訳日:2023-10-06 16:03:08 公開日:2023-10-05
# 局所超伝導近接効果のみを有する極小量子ドット型キタエフ鎖

A minimal quantum dot-based Kitaev chain with only local superconducting proximity effect ( http://arxiv.org/abs/2310.03536v1 )

ライセンス: Link先を確認
William Samuelson, Viktor Svensson, Martin Leijnse(参考訳) 超伝導体を介して結合された量子ドットでキタエフ連鎖を作る可能性は最近、トポロジカル超伝導とおそらくは非アーベル物理学への有望な道として浮上した。 ここでは、新しいj. physにおける提案の2ドット版に類似した幾何学における各量子ドットに対する局所的近接効果のみを用いることで、この経路における実験上のハードルのいくつかを回避できることを示す。 15 045020 (2013). 狭い超伝導カプラ、追加のアンドレフ結合状態、あるいは空間的に変化する磁場は不要であり、スピン軌道相互作用と一定の磁場と相まって、弾性コネネリングの相対強度を調整するための超伝導相の制御と、高次トンネルによって生成される効果的なクロス・アンドレフ反射のようなプロセスとの組み合わせである。 我々は、現実的なスピンフル相互作用モデルを用いて、高品質のマヨラナ境界状態が既に二重量子ドットで生成可能であることを示す。

The possibility to engineer a Kitaev chain in quantum dots coupled via superconductors has recently emerged as a promising path toward topological superconductivity and possibly nonabelian physics. Here, we show that it is possible to avoid some of the main experimental hurdles on this path by using only local proximity effect on each quantum dot in a geometry that resembles a two-dot version of the proposal in New J. Phys. 15 045020 (2013). There is no need for narrow superconducting couplers, additional Andreev bound states, or spatially varying magnetic fields; it suffices with spin-orbit interaction and a constant magnetic field, in combination with control of the superconducting phase to tune the relative strengths of elastic cotunneling and an effective crossed-Andreev-reflection-like process generated by higher-order tunneling. We use a realistic spinful, interacting model and show that high-quality Majorana bound states can be generated already in a double quantum dot.
翻訳日:2023-10-06 16:02:54 公開日:2023-10-05
# 統一されたDeep Derainingに向けて - 調査と新たなベンチマーク

Towards Unified Deep Image Deraining: A Survey and A New Benchmark ( http://arxiv.org/abs/2310.03535v1 )

ライセンス: Link先を確認
Xiang Chen, Jinshan Pan, Jiangxin Dong, Jinhui Tang(参考訳) 近年,効果的な画像優先法やディープラーニングモデルなどにより,画像参照の大幅な進歩がみられている。 各デライングアプローチには個別の設定(トレーニングとテストデータセット、評価基準など)があるため、既存のアプローチを包括的に評価する方法は簡単な作業ではない。 既存の調査は, 画像レーダ化アプローチを総合的に検討することを目的としているが, レーダ化能力と実用性を評価するための統一的な評価設定を提供することに焦点を絞ったものはほとんどない。 本稿では,既存の画像デライニング手法の総合的なレビューと,画像デライニング手法の性能評価のための統一評価設定を提案する。 我々は,5000対の高分解能合成画像と高調波とリアリズムからなるHQ-RAINという新しい高品質なベンチマークを構築し,さらなる評価を行う。 既存の課題についても議論し、探究する価値のあるいくつかの研究機会を強調します。 一般ユーザ向けの最新のデラミニング技術の再現と追跡を容易にするため,大規模な性能評価を含む市販ツールキットを提供するオンラインプラットフォームを構築した。 このオンラインプラットフォームと提案されている新しいベンチマークは公開されており、http://www.deraining.tech/で定期的に更新される。

Recent years have witnessed significant advances in image deraining due to the kinds of effective image priors and deep learning models. As each deraining approach has individual settings (e.g., training and test datasets, evaluation criteria), how to fairly evaluate existing approaches comprehensively is not a trivial task. Although existing surveys aim to review of image deraining approaches comprehensively, few of them focus on providing unify evaluation settings to examine the deraining capability and practicality evaluation. In this paper, we provide a comprehensive review of existing image deraining method and provide a unify evaluation setting to evaluate the performance of image deraining methods. We construct a new high-quality benchmark named HQ-RAIN to further conduct extensive evaluation, consisting of 5,000 paired high-resolution synthetic images with higher harmony and realism. We also discuss the existing challenges and highlight several future research opportunities worth exploring. To facilitate the reproduction and tracking of the latest deraining technologies for general users, we build an online platform to provide the off-the-shelf toolkit, involving the large-scale performance evaluation. This online platform and the proposed new benchmark are publicly available and will be regularly updated at http://www.deraining.tech/.
翻訳日:2023-10-06 16:02:36 公開日:2023-10-05
# 一般化可能な相対値推定のための3次元認識仮説と検証

3D-Aware Hypothesis & Verification for Generalizable Relative Object Pose Estimation ( http://arxiv.org/abs/2310.03534v1 )

ライセンス: Link先を確認
Chen Zhao, Tong Zhang, Mathieu Salzmann(参考訳) 一般化可能なオブジェクトの課題に対処する以前の方法は、目に見えないオブジェクトの高密度なビューに大きく依存する。 対照的に、オブジェクトの単一の参照ビューしか利用できないシナリオに対処する。 私たちのゴールは、この参照ビューと異なるポーズでオブジェクトを描写するクエリイメージの間の相対的なオブジェクトのポーズを推定することです。 このシナリオでは、テスト中に見当たらないオブジェクトが存在し、大規模なオブジェクトが参照とクエリの間に変化を起こすため、堅牢な一般化が不可欠である。 そこで本研究では,複数のポーズ仮説を生成・評価し,最も信頼度の高い仮説を相対対象として選択する新しい仮説・検証フレームワークを提案する。 信頼性を評価するために,2つの入力画像から得られた3Dオブジェクト表現に3D変換を明示的に適用する3D認識検証を導入する。 Objaverse, LINEMOD, CO3Dデータセットに関する包括的実験により, 相対的ポーズ推定におけるアプローチの精度が向上し, 大規模ポーズ変動におけるロバスト性も向上した。

Prior methods that tackle the problem of generalizable object pose estimation highly rely on having dense views of the unseen object. By contrast, we address the scenario where only a single reference view of the object is available. Our goal then is to estimate the relative object pose between this reference view and a query image that depicts the object in a different pose. In this scenario, robust generalization is imperative due to the presence of unseen objects during testing and the large-scale object pose variation between the reference and the query. To this end, we present a new hypothesis-and-verification framework, in which we generate and evaluate multiple pose hypotheses, ultimately selecting the most reliable one as the relative object pose. To measure reliability, we introduce a 3D-aware verification that explicitly applies 3D transformations to the 3D object representations learned from the two input images. Our comprehensive experiments on the Objaverse, LINEMOD, and CO3D datasets evidence the superior accuracy of our approach in relative pose estimation and its robustness in large-scale pose variations, when dealing with unseen objects.
翻訳日:2023-10-06 16:02:13 公開日:2023-10-05
# 散逸型量子発振器のエネルギー

Energetics of the dissipative quantum oscillator ( http://arxiv.org/abs/2310.03595v1 )

ライセンス: Link先を確認
Aritra Ghosh, Jasleen Kaur, Malay Bandyopadhyay(参考訳) 本稿では、高調波トラップ(散逸型量子発振器)に配置された量子ブラウン粒子のエネルギーのいくつかの側面について論じる。 ゆらぎ散逸定理に基づき、発振器に記述できる熱平均エネルギーの2つの異なる概念を解析した。 これらのエネルギー関数は、後に平均エネルギーと内部エネルギーと呼ばれるが、浴槽のスペクトル関数がドロード浴の場合のように有限なカットオフ周波数を持つ場合、任意の系-バス結合強度に対して不等である。 注目すべきは、どちらのエネルギー関数もエネルギー平衡定理の量子対を満足するが、熱浴の周波数領域における確率分布関数が異なることである。 さらに、ギブスの熱力学へのアプローチは、さらに別の熱的平均エネルギー関数を提供する。 弱結合極限では、上述の全てのエネルギー表現は$\epsilon = \frac{\hbar \omega_0}{2} \coth \big(\frac{ \hbar \omega_0}{2 k_b t}\big)$となる。 この解析を三次元散逸磁気振動子の場合、すなわち電荷散逸振動子を空間的一様磁場に配置する場合に一般化する。

In this paper, we discuss some aspects of the energetics of a quantum Brownian particle placed in a harmonic trap, also known as the dissipative quantum oscillator. Based on the fluctuation-dissipation theorem, we analyze two distinct notions of thermally-averaged energy that can be ascribed to the oscillator. These energy functions, respectively dubbed hereafter as the mean energy and the internal energy, are found to be unequal for arbitrary system-bath coupling strength, when the bath spectral function has a finite cutoff frequency, as in the case of a Drude bath. Remarkably, both the energy functions satisfy the quantum counterpart of the energy equipartition theorem, but with different probability distribution functions on the frequency domain of the heat bath. Moreover, the Gibbs approach to thermodynamics provides us with yet another thermally-averaged energy function. In the weak-coupling limit, all the above-mentioned energy expressions reduce to $\epsilon = \frac{\hbar \omega_0}{2} \coth \big(\frac{ \hbar \omega_0}{2 k_B T}\big)$, which is the familiar result. We generalize our analysis to the case of the three-dimensional dissipative magneto-oscillator, i.e., when a charged dissipative oscillator is placed in a spatially-uniform magnetic field.
翻訳日:2023-10-06 15:53:19 公開日:2023-10-05
# TimeGPT-1

TimeGPT-1 ( http://arxiv.org/abs/2310.03589v1 )

ライセンス: Link先を確認
Azul Garza, Max Mergenthaler-Canseco(参考訳) 本稿では、時系列の最初の基礎モデルであるTimeGPTを紹介し、トレーニング中に見られない多様なデータセットの正確な予測を生成する。 我々は,既存の統計,機械学習,深層学習に対して事前学習したモデルを評価し,TGPTゼロショット推論が性能,効率,単純さに優れていることを示す。 本研究は,他の人工知能分野からの洞察を時系列解析に効果的に適用できることを示す。 大規模時系列モデルは、現代のディープラーニングの進歩の能力を活用し、正確な予測へのアクセスを民主化し、不確実性を減らすエキサイティングな機会を提供すると結論づける。

In this paper, we introduce TimeGPT, the first foundation model for time series, capable of generating accurate predictions for diverse datasets not seen during training. We evaluate our pre-trained model against established statistical, machine learning, and deep learning methods, demonstrating that TimeGPT zero-shot inference excels in performance, efficiency, and simplicity. Our study provides compelling evidence that insights from other domains of artificial intelligence can be effectively applied to time series analysis. We conclude that large-scale time series models offer an exciting opportunity to democratize access to precise predictions and reduce uncertainty by leveraging the capabilities of contemporary advancements in deep learning.
翻訳日:2023-10-06 15:52:54 公開日:2023-10-05
# マイクロ細孔からのデザイナー量子反射

Designer quantum reflection from a micropore ( http://arxiv.org/abs/2310.03587v1 )

ライセンス: Link先を確認
Romuald Kilianski and Robert Bennett(参考訳) 簡単な平面反射器から離れることで、制御可能な量子反射の理論ツールボックスを拡張する。 静電画像電位を正確に計算できる可変サイズの円孔(マイクロ孔)を導入する。 これを任意の入射角度でのウェーブパケット伝播の2次元シミュレーションと組み合わせることで、量子反射確率が広い範囲の値で調整可能であることを示す。

We expand the theoretical toolbox for controllable quantum reflection by departing from a simple planar reflector. We introduce a circular hole (a micropore) of variable size, for which the electrostatic image potential can be exactly calculated. We combine this with two-dimensional simulations of wavepacket propagation at arbitrary angle of incidence to show that the quantum reflection probability can be tuned over a wide range of values.
翻訳日:2023-10-06 15:52:41 公開日:2023-10-05
# 条件分岐間の自動微分のための平滑化法

Smoothing Methods for Automatic Differentiation Across Conditional Branches ( http://arxiv.org/abs/2310.03585v1 )

ライセンス: Link先を確認
Justin N. Kreikemeyer and Philipp Andelfinger(参考訳) 制御フロー構造によって導入された不連続性を含むプログラムは、目的関数の応答面の滑らかさを仮定する数学的最適化法に挑戦する。 スムース解釈(Smooth interpretation, SI)は、プログラムの出力とガウス核との畳み込みを近似した抽象解釈の形式であり、その出力を原則的に滑らかにする。 本稿では,siと自動微分(ad)を組み合わせることで,プログラムの勾配を効率的に計算する。 通常のプログラム実行中のadとは対照的に、これらの勾配は代替制御フローパスの効果も捉えている。 siとadの組み合わせにより、分岐プログラムの直接勾配に基づくパラメータ合成が可能になり、シミュレーションモデルのキャリブレーションや、機械学習パイプラインにおけるニューラルネットワークモデルとの結合が可能になる。 SIにおけるトラクタビリティに対する近似の効果を詳述し、ADとサンプリングの組み合わせによる滑らかなプログラムの勾配を推定することにより、基礎となる仮定を回避できるモンテカルロ推定器を提案する。 単純なc++プログラムをスムーズな微分可能な形式に自動翻訳するツールであるdiscogradを使用することで,広範な評価を行う。 従来のシミュレーションベース最適化からニューラルネットワーク駆動制御まで,非自明で元来不連続な4つの問題に対して,SIとADとモンテカルロ推定器の組み合わせを,既存の勾配のない確率的手法と比較した。 siベースの推定器による最適化の進歩はプログラムの制御フローの複雑さに依存するが、モンテカルロ推定器は全ての問題において競争力があり、我々の最高次元問題のかなりのマージンで最速収束を示す。

Programs involving discontinuities introduced by control flow constructs such as conditional branches pose challenges to mathematical optimization methods that assume a degree of smoothness in the objective function's response surface. Smooth interpretation (SI) is a form of abstract interpretation that approximates the convolution of a program's output with a Gaussian kernel, thus smoothing its output in a principled manner. Here, we combine SI with automatic differentiation (AD) to efficiently compute gradients of smoothed programs. In contrast to AD across a regular program execution, these gradients also capture the effects of alternative control flow paths. The combination of SI with AD enables the direct gradient-based parameter synthesis for branching programs, allowing for instance the calibration of simulation models or their combination with neural network models in machine learning pipelines. We detail the effects of the approximations made for tractability in SI and propose a novel Monte Carlo estimator that avoids the underlying assumptions by estimating the smoothed programs' gradients through a combination of AD and sampling. Using DiscoGrad, our tool for automatically translating simple C++ programs to a smooth differentiable form, we perform an extensive evaluation. We compare the combination of SI with AD and our Monte Carlo estimator to existing gradient-free and stochastic methods on four non-trivial and originally discontinuous problems ranging from classical simulation-based optimization to neural network-driven control. While the optimization progress with the SI-based estimator depends on the complexity of the programs' control flow, our Monte Carlo estimator is competitive in all problems, exhibiting the fastest convergence by a substantial margin in our highest-dimensional problem.
翻訳日:2023-10-06 15:52:34 公開日:2023-10-05
# CyMed: 接続された医療機器のサイバーセキュリティをテストするフレームワーク

CyMed: A Framework for Testing Cybersecurity of Connected Medical Devices ( http://arxiv.org/abs/2310.03583v1 )

ライセンス: Link先を確認
Christopher Scherb and Adrian Hadayah and Luc Bryan Heitz(参考訳) コネクテッド・メディカル・デバイス(cmd)は、患者がより正常な生活を送ることを可能にするため、患者に大きな影響を与える。 CMDが提供する健康上の利益を除去するだけでなく、患者にさらなる害を与える可能性がある。 このため、CMDが市場に参入する前には、多くの安全規則を遵守しなければならない。 しかし、多くの詳細な安全規則が存在するが、CMDに適用できるサイバーセキュリティフレームワークの根本的な欠如がある。 近年、サイバーセキュリティの実践を強制する規制があるが、それらは曖昧であり、サイバーセキュリティを実装するために必要な具体的な手順を含まない。 本稿では,サイバー攻撃に対するCMDのレジリエンスを改善するための具体的な対策を含むベンダやユーザによって使用されるフレームワークであるCyMedを記述することで,そのギャップを埋めることを目的とする。 CyMedフレームワークはその後、実践的なテストと専門家のインタビューに基づいて評価される。

Connected Medical Devices (CMDs) have a large impact on patients as they allow them to lead a more normal life. Any malfunction could not only remove the health benefits the CMDs provide, they could also cause further harm to the patient. Due to this, there are many safety regulations which must be adhered to prior to a CMD entering the market. However, while many detailed safety regulations exist, there are a fundamental lack of cybersecurity frameworks applicable to CMDs. While there are recent regulations which aim to enforce cybersecurity practices, they are vague and do not contain the concrete steps necessary to implement cybersecurity. This paper aims to fill that gap by describing a framework, CyMed, to be used by vendors and ens-users, which contains concrete measures to improve the resilience of CMDs against cyber attack. The CyMed framework is subsequently evaluated based on practical tests as well as expert interviews.
翻訳日:2023-10-06 15:52:07 公開日:2023-10-05
# resilient legged local navigation: 端から端まで知覚を損なうトラバースへの学習

Resilient Legged Local Navigation: Learning to Traverse with Compromised Perception End-to-End ( http://arxiv.org/abs/2310.03581v1 )

ライセンス: Link先を確認
Jin Jin, Chong Zhang, Jonas Frey, Nikita Rudin, Matias Mattamala, Cesar Cadena, Marco Hutter(参考訳) 自律ロボットは、侵害された知覚や知覚不全の下でも、未知の環境で確実に移動しなければならない。 このような失敗は、厳しい環境が劣化した知覚を引き起こす場合や、認識アルゴリズムが限られた一般化のためにシーンを誤解釈する場合に発生する。 本稿では、認識障害を目に見えない障害物や落とし穴としてモデル化し、強化学習(RL)に基づく局所ナビゲーションポリシーを訓練し、ロボットを誘導する。 ナビゲーション情報を更新するためにヒューリスティックスや異常検出に頼る従来の作業と異なり、我々は潜在空間の環境情報を腐敗した知覚から再構築するためにナビゲーションポリシーを訓練し、エンドツーエンドで知覚不全に反応する。 この目的のために,当社の政策入力に固有受容とエクセプションの両方を組み込むことにより,異なる身体部位とピットの衝突を感知し,対応する反応を誘発する。 シミュレーションおよび実四足歩行ロボットANYmalをリアルタイム(10ms CPU推論)で動作させることで,本手法の有効性を検証した。 既存のヒューリスティックベースの局所反応性プランナーと定量的に比較すると、認識障害に直面した場合の成功率が30%以上上昇する。 プロジェクトページ: https://bit.ly/45NBTuh。

Autonomous robots must navigate reliably in unknown environments even under compromised exteroceptive perception, or perception failures. Such failures often occur when harsh environments lead to degraded sensing, or when the perception algorithm misinterprets the scene due to limited generalization. In this paper, we model perception failures as invisible obstacles and pits, and train a reinforcement learning (RL) based local navigation policy to guide our legged robot. Unlike previous works relying on heuristics and anomaly detection to update navigational information, we train our navigation policy to reconstruct the environment information in the latent space from corrupted perception and react to perception failures end-to-end. To this end, we incorporate both proprioception and exteroception into our policy inputs, thereby enabling the policy to sense collisions on different body parts and pits, prompting corresponding reactions. We validate our approach in simulation and on the real quadruped robot ANYmal running in real-time (<10 ms CPU inference). In a quantitative comparison with existing heuristic-based locally reactive planners, our policy increases the success rate over 30% when facing perception failures. Project Page: https://bit.ly/45NBTuh.
翻訳日:2023-10-06 15:51:52 公開日:2023-10-05
# GFlowNetを用いた遺伝子制御ネットワークにおける因果推論:大規模システムのスケーラビリティを目指して

Causal Inference in Gene Regulatory Networks with GFlowNet: Towards Scalability in Large Systems ( http://arxiv.org/abs/2310.03579v1 )

ライセンス: Link先を確認
Trang Nguyen, Alexander Tong, Kanika Madan, Yoshua Bengio and Dianbo Liu(参考訳) 遺伝子制御ネットワーク(GRN)における因果関係の理解は、細胞プロセスにおける遺伝子相互作用の解明に不可欠である。 しかし、GRNにおける因果発見は、循環フィードバックループの存在や様々な因果構造をもたらす不確実性など、複数の理由から難しい問題である。 この領域の以前の研究は、循環動力学を無視するか、拡張性に苦しむかのどちらかである。 我々はGRNにおける因果構造学習を拡張しつつ拡張性に対処する新しいフレームワークとしてSwift-DynGFNを紹介した。 具体的には、swift-dyngfnは並列化を促進し、計算コストを下げるために遺伝子独立性を利用する。 実シングルセルRNA速度と合成GRNデータセットの実験は、GRNにおける学習因果構造と大規模システムにおけるスケーラビリティの進歩を示す。

Understanding causal relationships within Gene Regulatory Networks (GRNs) is essential for unraveling the gene interactions in cellular processes. However, causal discovery in GRNs is a challenging problem for multiple reasons including the existence of cyclic feedback loops and uncertainty that yields diverse possible causal structures. Previous works in this area either ignore cyclic dynamics (assume acyclic structure) or struggle with scalability. We introduce Swift-DynGFN as a novel framework that enhances causal structure learning in GRNs while addressing scalability concerns. Specifically, Swift-DynGFN exploits gene-wise independence to boost parallelization and to lower computational cost. Experiments on real single-cell RNA velocity and synthetic GRN datasets showcase the advancement in learning causal structure in GRNs and scalability in larger systems.
翻訳日:2023-10-06 15:51:30 公開日:2023-10-05
# 一般化可能なニューラルラジアンスフィールドの標的対向攻撃

Targeted Adversarial Attacks on Generalizable Neural Radiance Fields ( http://arxiv.org/abs/2310.03578v1 )

ライセンス: Link先を確認
Andras Horvath, Csaba M. Jozsa(参考訳) Neural Radiance Fields (NeRF)は3Dシーンの表現とレンダリングのための強力なツールとして最近登場した。 これらのデータ駆動モデルは、スパース2D観測から高品質な画像を合成し、リアルでインタラクティブなシーン再構築を可能にする。 しかし、拡張現実、ロボティクス、仮想環境といった重要な応用におけるNeRFの利用の増加は、敵の攻撃によって脅かされる可能性がある。 本稿では,低強度対向攻撃と対向パッチの両方によって,一般化可能なNeRFが攻撃される可能性について述べる。 また、これらの攻撃によって特定の事前定義された出力シーンが生成されるターゲットアタックのデモも成功している。

Neural Radiance Fields (NeRFs) have recently emerged as a powerful tool for 3D scene representation and rendering. These data-driven models can learn to synthesize high-quality images from sparse 2D observations, enabling realistic and interactive scene reconstructions. However, the growing usage of NeRFs in critical applications such as augmented reality, robotics, and virtual environments could be threatened by adversarial attacks. In this paper we present how generalizable NeRFs can be attacked by both low-intensity adversarial attacks and adversarial patches, where the later could be robust enough to be used in real world applications. We also demonstrate targeted attacks, where a specific, predefined output scene is generated by these attack with success.
翻訳日:2023-10-06 15:51:17 公開日:2023-10-05
# 限られたサンプル複雑さからのフローベース生成モデル学習の解析

Analysis of learning a flow-based generative model from limited sample complexity ( http://arxiv.org/abs/2310.03575v1 )

ライセンス: Link先を確認
Hugo Cui, Florent Krzakala, Eric Vanden-Eijnden, Lenka Zdeborov\'a(参考訳) 本研究では,2層オートエンコーダによりパラメトリゼーションされたフローベース生成モデルを高次元ガウス混合液からの試料に訓練する問題について検討する。 我々はこの問題を鋭利なエンドツーエンド分析で分析する。 まず,対象分布から有限個のサンプル数n$で訓練された浅層消音オートエンコーダによってパラメータ化される場合,学習速度場の密閉型特性を示す。 この解析に基づいて, 基本ガウス密度を目標密度の近似に推し進める, 対応する生成フローの鮮明な記述を提供する。 特に、生成した混合物の平均とターゲット混合物の平均の間の距離に対する閉形式式を提供し、$\Theta_n(\frac{1}{n})$として崩壊を示す。 最後に、この値はベイズ最適であることが示されている。

We study the problem of training a flow-based generative model, parametrized by a two-layer autoencoder, to sample from a high-dimensional Gaussian mixture. We provide a sharp end-to-end analysis of the problem. First, we provide a tight closed-form characterization of the learnt velocity field, when parametrized by a shallow denoising auto-encoder trained on a finite number $n$ of samples from the target distribution. Building on this analysis, we provide a sharp description of the corresponding generative flow, which pushes the base Gaussian density forward to an approximation of the target density. In particular, we provide closed-form formulae for the distance between the mean of the generated mixture and the mean of the target mixture, which we show decays as $\Theta_n(\frac{1}{n})$. Finally, this rate is shown to be in fact Bayes-optimal.
翻訳日:2023-10-06 15:51:05 公開日:2023-10-05
# 残留多要素ニューラルネットワークコンピューティング

Residual Multi-Fidelity Neural Network Computing ( http://arxiv.org/abs/2310.03572v1 )

ライセンス: Link先を確認
Owen Davis, Mohammad Motamed, Raul Tempone(参考訳) 本研究では,マルチ忠実度情報を用いたニューラルネットワークサーロゲートモデルの構築に関する一般的な問題を検討する。 安価で高忠実な計算モデルが与えられた場合,モデル間の相関を残差関数として定式化した残差多忠実性計算フレームワークが提案される。 1) モデルの共有入力空間と低忠実度モデルの出力と 2)2つのモデル間の不一致。 これを実現するために、2つのニューラルネットワークをトレーニングし、協調作業を行います。 第1のネットワークは、少数の高忠実度および低忠実度データの残差関数を学習する。 訓練後、このネットワークは第2ネットワークのトレーニングに使用される合成高忠実度データを生成するために使用される。 この第2のネットワークは、一度訓練された時点で、高忠実な関心事のサロゲートとして機能します。 本稿では,提案手法のパワーを示す3つの数値例を示す。 特に、計算コストの劇的な節約は、小さな許容範囲内で出力予測が正確であると期待された場合に達成できることを示す。

In this work, we consider the general problem of constructing a neural network surrogate model using multi-fidelity information. Given an inexpensive low-fidelity and an expensive high-fidelity computational model, we present a residual multi-fidelity computational framework that formulates the correlation between models as a residual function, a possibly non-linear mapping between 1) the shared input space of the models together with the low-fidelity model output and 2) the discrepancy between the two model outputs. To accomplish this, we train two neural networks to work in concert. The first network learns the residual function on a small set of high-fidelity and low-fidelity data. Once trained, this network is used to generate additional synthetic high-fidelity data, which is used in the training of a second network. This second network, once trained, acts as our surrogate for the high-fidelity quantity of interest. We present three numerical examples to demonstrate the power of the proposed framework. In particular, we show that dramatic savings in computational cost may be achieved when the output predictions are desired to be accurate within small tolerances.
翻訳日:2023-10-06 15:50:49 公開日:2023-10-05
# CLASSify: 機械学習のためのWebベースのツール

CLASSify: A Web-Based Tool for Machine Learning ( http://arxiv.org/abs/2310.03618v1 )

ライセンス: Link先を確認
Aaron D. Mullen, Samuel E. Armstrong, Jeff Talbert, V.K. Cody Bumgardner(参考訳) 機械学習の分類問題はバイオインフォマティクスで広く研究されているが、モデルトレーニング、最適化、推論を行うために必要な技術知識は、研究者がこの技術を利用するのを防げる。 本稿では,機械学習の分類問題に対して,データの可視化と洞察を提供しながら,モデルのトレーニングと結果生成のプロセスを簡素化する自動ツールを提案する。 このツールはバイナリとマルチクラスの両方の分類問題をサポートし、さまざまなモデルやメソッドへのアクセスを提供する。 合成データはインターフェース内で生成され、欠落した値を埋めたり、クラスラベルをバランスさせたり、全く新しいデータセットを生成することができる。 また、機能評価をサポートし、どの機能が出力に最も影響するかを示す説明可能性スコアを生成する。 CLASSifyは、機械学習の知識を必要とせずに、分類問題のユーザエクスペリエンスを簡素化するオープンソースツールである。

Machine learning classification problems are widespread in bioinformatics, but the technical knowledge required to perform model training, optimization, and inference can prevent researchers from utilizing this technology. This article presents an automated tool for machine learning classification problems to simplify the process of training models and producing results while providing informative visualizations and insights into the data. This tool supports both binary and multiclass classification problems, and it provides access to a variety of models and methods. Synthetic data can be generated within the interface to fill missing values, balance class labels, or generate entirely new datasets. It also provides support for feature evaluation and generates explainability scores to indicate which features influence the output the most. We present CLASSify, an open-source tool for simplifying the user experience of solving classification problems without the need for knowledge of machine learning.
翻訳日:2023-10-06 15:45:28 公開日:2023-10-05
# Animatable Virtual Humans:インタラクティブなパフォーマンス合成のためのUV空間におけるポーズ依存人間表現の学習

Animatable Virtual Humans: Learning pose-dependent human representations in UV space for interactive performance synthesis ( http://arxiv.org/abs/2310.03615v1 )

ライセンス: Link先を確認
Wieland Morgenstern, Milena T. Bagdasarian, Anna Hilsmann, Peter Eisert(参考訳) リアルなリアルタイムアニメーションと3Dアプリケーションにおけるレンダリングのための仮想人間の新しい表現を提案する。 最先端のマルチビュー・ビデオ再構成から得られた高精度な動的メッシュシーケンスからポーズ依存の外観と形状を学ぶ。 メッシュシーケンスからポーズ依存の外観と幾何学を学ぶことは、人体の複雑な形状と関節の動きを学習するネットワークを必要とするため、大きな課題となる。 しかし、SMPLのような統計ボディーモデルは、探索空間の次元を制限し、より効率的で目標とする学習を可能にし、ポーズ依存を定義するために活用する価値のあるアプリオリ知識を提供する。 絶対ポーズ依存幾何を直接学習する代わりに、観測された幾何と装着されたSMPLモデルの違いを学習する。 これにより、ポーズ依存の外観と形状の両方を、smplモデルの一貫したuv空間にエンコードできる。 このアプローチは、高度なリアリズムを保証するだけでなく、リアルタイムシナリオにおける仮想人間の合理化とレンダリングを促進する。

We propose a novel representation of virtual humans for highly realistic real-time animation and rendering in 3D applications. We learn pose dependent appearance and geometry from highly accurate dynamic mesh sequences obtained from state-of-the-art multiview-video reconstruction. Learning pose-dependent appearance and geometry from mesh sequences poses significant challenges, as it requires the network to learn the intricate shape and articulated motion of a human body. However, statistical body models like SMPL provide valuable a-priori knowledge which we leverage in order to constrain the dimension of the search space enabling more efficient and targeted learning and define pose-dependency. Instead of directly learning absolute pose-dependent geometry, we learn the difference between the observed geometry and the fitted SMPL model. This allows us to encode both pose-dependent appearance and geometry in the consistent UV space of the SMPL model. This approach not only ensures a high level of realism but also facilitates streamlined processing and rendering of virtual humans in real-time scenarios.
翻訳日:2023-10-06 15:45:13 公開日:2023-10-05
# ソーシャル・グッドのためのadversarial machine learning: 敵を味方として振り返る

Adversarial Machine Learning for Social Good: Reframing the Adversary as an Ally ( http://arxiv.org/abs/2310.03614v1 )

ライセンス: Link先を確認
Shawqi Al-Maliki, Adnan Qayyum, Hassan Ali, Mohamed Abdallah, Junaid Qadir, Dinh Thai Hoang, Dusit Niyato, Ala Al-Fuqaha(参考訳) Deep Neural Networks(DNN)は、機械学習の最近の進歩の原動力となっている。 しかし、DNNは敵対的な例(DNNベースのモデルにエラーを発生させるよう強制された入力サンプル)に弱いことが研究で示されている。 その結果、AdvML(Adversarial Machine Learning)が注目され、研究者はこれらの脆弱性をさまざまな設定やモダリティで調査している。 さらに、DNNには埋め込みバイアスが組み込まれており、説明不能な予測がしばしば発生し、反社会的AIアプリケーションをもたらす可能性がある。 ChatGPTやGPT-4のような大規模言語モデル(LLM)を活用する新しいAI技術の出現は、大規模に反社会的アプリケーションを生成するリスクを高める。 AdvML for Social Good(AdvML4G)は、AdvMLバグを再利用して、プロ社会的なアプリケーションを発明する新興分野である。 規制当局、実践者、研究者は、反社会的アプリケーションの開発を奨励し、反社会的アプリケーションの開発を妨げるよう協力する必要がある。 本稿では,advml4gの新たな分野について,初めて包括的なレビューを行う。 本稿では,AdvML4Gの出現,AdvML4GとAdvMLの相違点と類似点の議論,社会的善関連概念と側面を包括する分類,ML4GとAdvMLの交差点におけるAdvML4Gの出現の背景にあるモチベーションの探索,そして,AdvML4Gを社会的な応用を革新するための補助ツールとして活用する作業の広範な要約を紹介する。 最後に,研究コミュニティからの注目を必要とする様々な課題とオープン研究課題について詳述する。

Deep Neural Networks (DNNs) have been the driving force behind many of the recent advances in machine learning. However, research has shown that DNNs are vulnerable to adversarial examples -- input samples that have been perturbed to force DNN-based models to make errors. As a result, Adversarial Machine Learning (AdvML) has gained a lot of attention, and researchers have investigated these vulnerabilities in various settings and modalities. In addition, DNNs have also been found to incorporate embedded bias and often produce unexplainable predictions, which can result in anti-social AI applications. The emergence of new AI technologies that leverage Large Language Models (LLMs), such as ChatGPT and GPT-4, increases the risk of producing anti-social applications at scale. AdvML for Social Good (AdvML4G) is an emerging field that repurposes the AdvML bug to invent pro-social applications. Regulators, practitioners, and researchers should collaborate to encourage the development of pro-social applications and hinder the development of anti-social ones. In this work, we provide the first comprehensive review of the emerging field of AdvML4G. This paper encompasses a taxonomy that highlights the emergence of AdvML4G, a discussion of the differences and similarities between AdvML4G and AdvML, a taxonomy covering social good-related concepts and aspects, an exploration of the motivations behind the emergence of AdvML4G at the intersection of ML4G and AdvML, and an extensive summary of the works that utilize AdvML4G as an auxiliary tool for innovating pro-social applications. Finally, we elaborate upon various challenges and open research issues that require significant attention from the research community.
翻訳日:2023-10-06 15:44:57 公開日:2023-10-05
# フェデレーション学習における非凸ミニマックス最適化の解法

Solving a Class of Non-Convex Minimax Optimization in Federated Learning ( http://arxiv.org/abs/2310.03613v1 )

ライセンス: Link先を確認
Xidong Wu, Jianhui Sun, Zhengmian Hu, Aidong Zhang, Heng Huang(参考訳) minimax問題は機械学習アプリケーション全体で発生し、強化学習における敵対的トレーニングや政策評価からオーロラの最大化まで幅広い。 コミュニケーション効率のよい分散トレーニングで、複数のクライアントにまたがる大規模なデータ課題に対処するために、フェデレートラーニング(FL)が人気を集めている。 ミニマックス問題に対する多くの最適化アルゴリズムは、一元的な設定(英語版)で開発されている。 それでも、FLの下でのミニマックス問題のアルゴリズムはまだ未定である。 本稿では,フェデレート非凸ミニマックス最適化問題のクラスについて検討する。 flアルゴリズム(fedsgda+およびfedersgda-m)を提案し、最も一般的なminimax問題に対する既存の複雑性を低減した。 非凸凹問題に対して、FedSGDA+を提案し、通信複雑性を$O(\varepsilon^{-6})$に下げる。 非凸凸および非凸PLミニマックス設定の下では、FedSGDA-Mが$O(\kappa^{3} N^{-1}\varepsilon^{-3})$と$O(\kappa^{2}\varepsilon^{-2})$の最もよく知られた通信複雑性を持つことを示す。 FedSGDA-M は、非凸強凹条件下で単一機械法により達成された最もよいサンプル複雑性 $O(\varepsilon^{-3})$ に適合する最初のアルゴリズムである。 公平な分類とAUROCの最大化に関する大規模な実験結果は,アルゴリズムの効率性を示している。

The minimax problems arise throughout machine learning applications, ranging from adversarial training and policy evaluation in reinforcement learning to AUROC maximization. To address the large-scale data challenges across multiple clients with communication-efficient distributed training, federated learning (FL) is gaining popularity. Many optimization algorithms for minimax problems have been developed in the centralized setting (\emph{i.e.} single-machine). Nonetheless, the algorithm for minimax problems under FL is still underexplored. In this paper, we study a class of federated nonconvex minimax optimization problems. We propose FL algorithms (FedSGDA+ and FedSGDA-M) and reduce existing complexity results for the most common minimax problems. For nonconvex-concave problems, we propose FedSGDA+ and reduce the communication complexity to $O(\varepsilon^{-6})$. Under nonconvex-strongly-concave and nonconvex-PL minimax settings, we prove that FedSGDA-M has the best-known sample complexity of $O(\kappa^{3} N^{-1}\varepsilon^{-3})$ and the best-known communication complexity of $O(\kappa^{2}\varepsilon^{-2})$. FedSGDA-M is the first algorithm to match the best sample complexity $O(\varepsilon^{-3})$ achieved by the single-machine method under the nonconvex-strongly-concave setting. Extensive experimental results on fair classification and AUROC maximization show the efficiency of our algorithms.
翻訳日:2023-10-06 15:44:24 公開日:2023-10-05
# GeneER:遺伝子発現データから遺伝子間相互作用を検出する並列層ディープラーニングネットワーク

GENER: A Parallel Layer Deep Learning Network To Detect Gene-Gene Interactions From Gene Expression Data ( http://arxiv.org/abs/2310.03611v1 )

ライセンス: Link先を確認
Ahmed Fakhry Elnaggar, Raneem Ali Khafagy, Adriaan-Alexander Ludl(参考訳) 既知の遺伝子発現と遺伝子相互作用データに基づく新しい遺伝子相互作用の検出と発見は重要な課題である。 様々な統計的・深層学習手法が、遺伝子相互作用のトポロジー構造と遺伝子発現パターンを利用して、新しい遺伝子相互作用を予測することで、この課題に挑戦しようと試みている。 対照的に、いくつかのアプローチは遺伝子発現プロファイルの活用に特化している。 本稿では,遺伝子発現データを用いた遺伝子関係の同定専用に設計された並列層深層学習ネットワークGENERを紹介する。 我々は2つのトレーニング実験を行い、既存の統計的および深層学習手法とネットワークの性能を比較した。 特に,BioGRIDとDREAM5の組み合わせによるAUROC平均スコア0.834を達成し,遺伝子間相互作用を予測する競合手法よりも優れていた。

Detecting and discovering new gene interactions based on known gene expressions and gene interaction data presents a significant challenge. Various statistical and deep learning methods have attempted to tackle this challenge by leveraging the topological structure of gene interactions and gene expression patterns to predict novel gene interactions. In contrast, some approaches have focused exclusively on utilizing gene expression profiles. In this context, we introduce GENER, a parallel-layer deep learning network designed exclusively for the identification of gene-gene relationships using gene expression data. We conducted two training experiments and compared the performance of our network with that of existing statistical and deep learning approaches. Notably, our model achieved an average AUROC score of 0.834 on the combined BioGRID&DREAM5 dataset, outperforming competing methods in predicting gene-gene interactions.
翻訳日:2023-10-06 15:43:57 公開日:2023-10-05
# 合成医療画像の良さは? 肺超音波による経験的研究

How Good Are Synthetic Medical Images? An Empirical Study with Lung Ultrasound ( http://arxiv.org/abs/2310.03608v1 )

ライセンス: Link先を確認
Menghan Yu, Sourabh Kulhare, Courosh Mehanian, Charles B Delahunt, Daniel E Shea, Zohreh Laverriere, Ishan Shah, Matthew P Horning(参考訳) 大量のデータやアノテーションを取得することは、ハイパフォーマンスなディープラーニングモデルの開発に有効であることは知られているが、医療現場で実施するのは困難で費用がかかる。 生成モデルを用いた合成トレーニングデータの追加は、データ不足の課題を効果的に扱うための低コストな方法であり、データの不均衡や患者のプライバシの問題にも対処できる。 本研究では,医療画像解析のためのモデル開発ワークフローにシームレスに適合する包括的フレームワークを提案する。 さまざまなサイズのデータセットで実証します。 (i)データ拡張法としての生成モデルの利点 (ii)データ置換による患者プライバシ保護の方法 (iii)実際のホールドアウトデータ上でモデルをテストすることにより、これらのユースケースでの新しいパフォーマンス指標を得る。 合成データと実データの両方によるトレーニングは、実際のデータだけでのトレーニングよりも優れており、合成データのみによるトレーニングは、実データにのみアプローチする。 コードはhttps://github.com/Global-Health-Labs/US-DCGANで入手できる。

Acquiring large quantities of data and annotations is known to be effective for developing high-performing deep learning models, but is difficult and expensive to do in the healthcare context. Adding synthetic training data using generative models offers a low-cost method to deal effectively with the data scarcity challenge, and can also address data imbalance and patient privacy issues. In this study, we propose a comprehensive framework that fits seamlessly into model development workflows for medical image analysis. We demonstrate, with datasets of varying size, (i) the benefits of generative models as a data augmentation method; (ii) how adversarial methods can protect patient privacy via data substitution; (iii) novel performance metrics for these use cases by testing models on real holdout data. We show that training with both synthetic and real data outperforms training with real data alone, and that models trained solely with synthetic data approach their real-only counterparts. Code is available at https://github.com/Global-Health-Labs/US-DCGAN.
翻訳日:2023-10-06 15:43:43 公開日:2023-10-05
# アフリカにおけるcovid-19感染予測のための研究論文における時系列分析手法の比較--文献レビュー

Comparing Time-Series Analysis Approaches Utilized in Research Papers to Forecast COVID-19 Cases in Africa: A Literature Review ( http://arxiv.org/abs/2310.03606v1 )

ライセンス: Link先を確認
Ali Ebadi and Ebrahim Sahafizadeh(参考訳) 本研究は、アフリカにおけるcovid-19感染者の予測に使用される様々な時系列分析手法を比較することを目的とした。 この研究は、2020年1月から2023年7月までに公表された英語の研究論文を体系的に検索し、特にアフリカにおけるCOVID-19データセットの時系列分析アプローチを利用した論文に焦点を当てた。 このプロセスにはPubMed、Google Scholar、Scopus、Web of Scienceなど、さまざまなデータベースが使用されている。 本研究は,時系列分析モデルの実装と性能に関する関連情報を抽出する評価プロセスを実施した。 研究は、ウイルス感染拡大予測における効果と限界を評価するため、採用されている方法の相違を強調した。 今後の研究は、時系列分析モデルの改善と、公衆衛生意思決定の強化のための様々なアプローチの統合を探るため、これらの知見を考察すべきである。

This literature review aimed to compare various time-series analysis approaches utilized in forecasting COVID-19 cases in Africa. The study involved a methodical search for English-language research papers published between January 2020 and July 2023, focusing specifically on papers that utilized time-series analysis approaches on COVID-19 datasets in Africa. A variety of databases including PubMed, Google Scholar, Scopus, and Web of Science were utilized for this process. The research papers underwent an evaluation process to extract relevant information regarding the implementation and performance of the time-series analysis models. The study highlighted the different methodologies employed, evaluating their effectiveness and limitations in forecasting the spread of the virus. The result of this review could contribute deeper insights into the field, and future research should consider these insights to improve time series analysis models and explore the integration of different approaches for enhanced public health decision-making.
翻訳日:2023-10-06 15:43:29 公開日:2023-10-05
# faser: 中間表現を用いたバイナリコードの類似性検索

FASER: Binary Code Similarity Search through the use of Intermediate Representations ( http://arxiv.org/abs/2310.03605v1 )

ライセンス: Link先を確認
Josh Collyer, Tim Watson and Iain Phillips(参考訳) クロスアーキテクチャソフトウェアに関心のある機能を特定できることは、マルウェアの分析、ソフトウェアサプライチェーンの確保、脆弱性調査の実施などにおいて有用である。 クロスアーキテクチャ バイナリコード類似性検索は、多くの研究で研究され、その目的を達成するために様々なデータソースを使用してきた。 データソースは通常、関数制御フローグラフやバイナリレベルのコールグラフ、分解プロセスの出力、動的解析アプローチの出力などのバイナリから派生した共通構造を描画する。 あまり注目されていないデータソースはバイナリ中間表現である。 バイナリ中間表現は2つの興味深い特性を持っている:それらは本質的にクロスアーキテクチャであり、下流の使用をサポートするために明示的に関数の意味をエンコードする。 本稿では,長い文書トランスフォーマーと中間表現を用いて,手作業による特徴処理や事前学習,動的解析のステップを必要とせずに,クロスアーキテクチャ機能探索が可能なモデルを作成する,文字列符号化表現(faser)としての関数を提案する。 提案手法は,汎用関数探索タスクとターゲット脆弱性探索タスクという,2つのタスクに対する一連のベースラインアプローチと比較した。 我々のアプローチは、両方のタスクにまたがって強力なパフォーマンスを示し、すべてのベースラインアプローチよりも優れたパフォーマンスを示します。

Being able to identify functions of interest in cross-architecture software is useful whether you are analysing for malware, securing the software supply chain or conducting vulnerability research. Cross-Architecture Binary Code Similarity Search has been explored in numerous studies and has used a wide range of different data sources to achieve its goals. The data sources typically used draw on common structures derived from binaries such as function control flow graphs or binary level call graphs, the output of the disassembly process or the outputs of a dynamic analysis approach. One data source which has received less attention is binary intermediate representations. Binary Intermediate representations possess two interesting properties: they are cross architecture by their very nature and encode the semantics of a function explicitly to support downstream usage. Within this paper we propose Function as a String Encoded Representation (FASER) which combines long document transformers with the use of intermediate representations to create a model capable of cross architecture function search without the need for manual feature engineering, pre-training or a dynamic analysis step. We compare our approach against a series of baseline approaches for two tasks; A general function search task and a targeted vulnerability search task. Our approach demonstrates strong performance across both tasks, performing better than all baseline approaches.
翻訳日:2023-10-06 15:43:11 公開日:2023-10-05
# ctrl-room: レイアウト制約付き制御可能なテキストから3次元ルームメッシュ

Ctrl-Room: Controllable Text-to-3D Room Meshes Generation with Layout Constraints ( http://arxiv.org/abs/2310.03602v1 )

ライセンス: Link先を確認
Chuan Fang, Xiaotao Hu, Kunming Luo, Ping Tan(参考訳) テキスト駆動の屋内シーン生成は、ゲーム、映画産業、AR/VRアプリケーションに有用である。 しかし、既存の手法では、部屋のレイアウトを忠実に捉えたり、部屋内の個々のオブジェクトを柔軟に編集したりすることはできない。 これらの問題に対処するために、Ctrl-Roomを提案する。Ctrl-Roomは、デザイナースタイルのレイアウトとテキストプロンプトから高忠実なテクスチャを持つ説得力のある3Dルームを生成することができる。 さらにctrl-roomでは,個々の家具項目のリサイズや移動など,多彩なインタラクティブな編集操作が可能だ。 私たちの重要な洞察は、レイアウトと外観のモデリングを分離することです。 % シーンテクスチャと幾何学の両方を同時に考慮した部屋をモデル化する方法。 この目的のために,提案手法は「レイアウト生成段階」と「出現生成段階」の2つの段階からなる。 layout generation stage'は、テキスト-条件拡散モデルを訓練して、総合的なシーンコードパラメータ化でレイアウト分布を学習します。 次に、3Dシーンレイアウトとテキストプロンプトでガイドされた部屋の鮮明なパノラマ画像を生成するために、制御ネットを微調整した。 このように,レイアウトやテクスチャを説得力のある高品質な3d空間を実現する。 シーンコードパラメータ化の利点は、高価な編集専用トレーニングを必要とせずに、マスク誘導編集モジュールを通じて生成されたルームモデルを編集することである。 structured3dデータセットに関する広範な実験により、自然言語プロンプトからより合理的で、ビュー一貫性があり、編集可能な3dルームを生成する方法が、既存の方法よりも優れていることが証明された。

Text-driven 3D indoor scene generation could be useful for gaming, film industry, and AR/VR applications. However, existing methods cannot faithfully capture the room layout, nor do they allow flexible editing of individual objects in the room. To address these problems, we present Ctrl-Room, which is able to generate convincing 3D rooms with designer-style layouts and high-fidelity textures from just a text prompt. Moreover, Ctrl-Room enables versatile interactive editing operations such as resizing or moving individual furniture items. Our key insight is to separate the modeling of layouts and appearance. %how to model the room that takes into account both scene texture and geometry at the same time. To this end, Our proposed method consists of two stages, a `Layout Generation Stage' and an `Appearance Generation Stage'. The `Layout Generation Stage' trains a text-conditional diffusion model to learn the layout distribution with our holistic scene code parameterization. Next, the `Appearance Generation Stage' employs a fine-tuned ControlNet to produce a vivid panoramic image of the room guided by the 3D scene layout and text prompt. In this way, we achieve a high-quality 3D room with convincing layouts and lively textures. Benefiting from the scene code parameterization, we can easily edit the generated room model through our mask-guided editing module, without expensive editing-specific training. Extensive experiments on the Structured3D dataset demonstrate that our method outperforms existing methods in producing more reasonable, view-consistent, and editable 3D rooms from natural language prompts.
翻訳日:2023-10-06 15:42:47 公開日:2023-10-05
# 確率測度空間における勾配流によるサンプリング

Sampling via Gradient Flows in the Space of Probability Measures ( http://arxiv.org/abs/2310.03597v1 )

ライセンス: Link先を確認
Yifan Chen, Daniel Zhengyu Huang, Jiaoyang Huang, Sebastian Reich, Andrew M Stuart(参考訳) 未知の正規化定数で目標確率分布をサンプリングすることは、計算科学と工学における根本的な課題である。 近年の研究では,確率測度空間における勾配流を考慮したアルゴリズムが,アルゴリズム開発の新たな道を開くことが示されている。 本稿では,これらの勾配流の設計成分を精査することにより,このサンプリング手法に3つの貢献を行う。 サンプリングのための勾配流のインスタンス化には、フローを決定するためのエネルギー関数と計量、およびアルゴリズムを導出するフローの数値近似が必要である。 第一の貢献は、エネルギー汎関数としてのクルバック・リーブラーの発散が、対象分布の正規化定数に依存しない勾配流の独特の性質(すべてのf-分岐)を持つことを示すことである。 第二の貢献は、不変性の観点から計量の選択を研究することである。 フィッシャー・ラオ計量は微分同相不変量である唯一の選択(スケーリングまで)として知られている。 計算可能な代替として,メトリクスと勾配流れに対する緩和されたアフィン不変性を導入する。 特に、様々なアフィン不変量wasersteinおよびstein勾配流を構成する。 アフィン不変勾配流は、理論上および粒子法を用いて高異方性分布をサンプリングする場合、非アフィン不変流よりも好ましく振る舞うことが示されている。 第3の貢献は、勾配流のガウス近似に基づく効率的なアルゴリズムの研究と開発であり、これは粒子法に代わるものである。 種々のガウス近似勾配流の接続を確立し,パラメトリック変分推論から生じる勾配法との関係を議論し,その収束特性を理論的および数値的に検討する。

Sampling a target probability distribution with an unknown normalization constant is a fundamental challenge in computational science and engineering. Recent work shows that algorithms derived by considering gradient flows in the space of probability measures open up new avenues for algorithm development. This paper makes three contributions to this sampling approach by scrutinizing the design components of such gradient flows. Any instantiation of a gradient flow for sampling needs an energy functional and a metric to determine the flow, as well as numerical approximations of the flow to derive algorithms. Our first contribution is to show that the Kullback-Leibler divergence, as an energy functional, has the unique property (among all f-divergences) that gradient flows resulting from it do not depend on the normalization constant of the target distribution. Our second contribution is to study the choice of metric from the perspective of invariance. The Fisher-Rao metric is known as the unique choice (up to scaling) that is diffeomorphism invariant. As a computationally tractable alternative, we introduce a relaxed, affine invariance property for the metrics and gradient flows. In particular, we construct various affine invariant Wasserstein and Stein gradient flows. Affine invariant gradient flows are shown to behave more favorably than their non-affine-invariant counterparts when sampling highly anisotropic distributions, in theory and by using particle methods. Our third contribution is to study, and develop efficient algorithms based on Gaussian approximations of the gradient flows; this leads to an alternative to particle methods. We establish connections between various Gaussian approximate gradient flows, discuss their relation to gradient methods arising from parametric variational inference, and study their convergence properties both theoretically and numerically.
翻訳日:2023-10-06 15:42:15 公開日:2023-10-05
# 力学における解釈可能なモデル発見のための物理増強ニューラルネットワークの極端スペーサー化

Extreme sparsification of physics-augmented neural networks for interpretable model discovery in mechanics ( http://arxiv.org/abs/2310.03652v1 )

ライセンス: Link先を確認
Jan N. Fuhg, Reese E. Jones, Nikolaos Bouklas(参考訳) ニューラルネットワークを用いたデータ駆動構成モデリングは、物理的および機械的制約を容易に組み込むことができ、観察された物質反応を正確に把握できる現象論的構成法を定式化する困難かつ時間を要するタスクを克服する能力により、近年、関心が高まりつつある。 しかしながら、ニューラルネットワークに基づく構成法則が十分に一般化することが示されているにもかかわらず、生成した表現は訓練可能なパラメータの多さのために容易に解釈できない。 解釈可能な表現を得るための疎回帰アプローチは存在するが、ユーザはライブラリで提供される機能形式に表現性を制限するモデルフォームのライブラリの作成を任されている。 そこで本研究では,$L^{0}$-regularizationのスムーズなバージョンを利用して,正規化された物理拡張ニューラルネットワークに基づく構成モデルを訓練することを提案する。 これは、物理的制約によって継承される信頼性を維持することを目的としているが、モデル形式がaプライマリと仮定されることなく実際に発見される機械学習ベースの構成モデルでは、これまで不可能だった解釈可能性を可能にする。 トレーニングプロセス中、ネットワークはトレーニングデータに同時に適合し、アクティブパラメータの数をペナライズすると同時に、熱力学的一貫性などの構成的制約も確保する。 本手法は, 圧縮性および非圧縮性超弾性, 降伏関数, 硬化性モデルによる合成および実験データを確実に得ることができることを示す。

Data-driven constitutive modeling with neural networks has received increased interest in recent years due to its ability to easily incorporate physical and mechanistic constraints and to overcome the challenging and time-consuming task of formulating phenomenological constitutive laws that can accurately capture the observed material response. However, even though neural network-based constitutive laws have been shown to generalize proficiently, the generated representations are not easily interpretable due to their high number of trainable parameters. Sparse regression approaches exist that allow to obtaining interpretable expressions, but the user is tasked with creating a library of model forms which by construction limits their expressiveness to the functional forms provided in the libraries. In this work, we propose to train regularized physics-augmented neural network-based constitutive models utilizing a smoothed version of $L^{0}$-regularization. This aims to maintain the trustworthiness inherited by the physical constraints, but also enables interpretability which has not been possible thus far on any type of machine learning-based constitutive model where model forms were not assumed a-priory but were actually discovered. During the training process, the network simultaneously fits the training data and penalizes the number of active parameters, while also ensuring constitutive constraints such as thermodynamic consistency. We show that the method can reliably obtain interpretable and trustworthy constitutive models for compressible and incompressible hyperelasticity, yield functions, and hardening models for elastoplasticity, for synthetic and experimental data.
翻訳日:2023-10-06 15:33:19 公開日:2023-10-05
# ヒューマン・aiコラボレーションのための公平性再考

Rethinking Fairness for Human-AI Collaboration ( http://arxiv.org/abs/2310.03647v1 )

ライセンス: Link先を確認
Haosen Ge, Hamsa Bastani, Osbert Bastani(参考訳) 既存のアルゴリズムフェアネスへのアプローチは、人間の意思決定者がアルゴリズム決定に完全に従えば、公平な結果を確保することを目的としている。 しかし、アルゴリズムへの完全準拠は、人間とAIのコラボレーションにおいて現実的あるいは望ましい結果になることはめったにない。 しかし、近年の研究では、公正なアルゴリズムによる選択的コンプライアンスは、以前の人間の方針に対する差別を増幅することができることが示されている。 結果として、公平な結果を保証するためには、決定者の(未知の)コンプライアンスパターンに対する堅牢性を保証するアルゴリズム設計原則を根本的に異なるものにする必要がある。 我々は,人間のコンプライアンスパターンによらず,意思決定の公平性を改善することが保証されるコンプライアンス・ロバスト的公正なアルゴリズム的推奨の概念を定義する。 本稿では,最善のパフォーマンス改善型コンプライアンス・ロバスト・フェア・ポリシーを特定するための簡単な最適化戦略を提案する。 しかし,人間とAIの協力関係の公平性と正確性を改善することが目的であるならば,従来の公正性制約を強制することが望ましいとは考えられない。

Existing approaches to algorithmic fairness aim to ensure equitable outcomes if human decision-makers comply perfectly with algorithmic decisions. However, perfect compliance with the algorithm is rarely a reality or even a desirable outcome in human-AI collaboration. Yet, recent studies have shown that selective compliance with fair algorithms can amplify discrimination relative to the prior human policy. As a consequence, ensuring equitable outcomes requires fundamentally different algorithmic design principles that ensure robustness to the decision-maker's (a priori unknown) compliance pattern. We define the notion of compliance-robustly fair algorithmic recommendations that are guaranteed to (weakly) improve fairness in decisions, regardless of the human's compliance pattern. We propose a simple optimization strategy to identify the best performance-improving compliance-robustly fair policy. However, we show that it may be infeasible to design algorithmic recommendations that are simultaneously fair in isolation, compliance-robustly fair, and more accurate than the human policy; thus, if our goal is to improve the equity and accuracy of human-AI collaboration, it may not be desirable to enforce traditional fairness constraints.
翻訳日:2023-10-06 15:32:51 公開日:2023-10-05
# TRAM:ブリッジングトラスト領域とシャープネスの最小化

TRAM: Bridging Trust Regions and Sharpness Aware Minimization ( http://arxiv.org/abs/2310.03646v1 )

ライセンス: Link先を確認
Tom Sherborne, Naomi Saphra, Pradeep Dasigi, Hao Peng(参考訳) パラメータ空間における損失面の曲率を小さくすることで、シャープネス認識最小化(SAM)はドメイン転送の下で広範囲に堅牢性向上をもたらす。 しかし、この研究はパラメータに焦点を当てる代わりに、微調整設定におけるドメイン外一般化の最適化対象として表現の転送可能性を考慮する。 伝達可能な表現の保持を促進するために,タスクに依存しない表現を事前学習から忘れずにタスク固有のスキルを活用する信頼領域ベースの微調整手法を検討する。 パラメータおよび表現空間の平滑化手法を信頼領域境界を用いて統一し、SAM型正規化器にこれらの最適化面を知らせる。 本稿では,フラットな最小値とスムーズな情報表現を事前学習された構造を忘れずに最適化する微調整アルゴリズムTRAMを提案する。 ドメイン転送と表現の汎用性が成功に不可欠であるクロスドメイン言語モデリングとクロスリンガルトランスファーにおいて、trampはシャープネス・アウェアネスと信頼領域に基づく最適化手法の両方よりも優れていることが分かりました。 TRAMは、最小限の計算量で一般化可能なモデルを訓練する新しい標準を確立している。

By reducing the curvature of the loss surface in the parameter space, Sharpness-aware minimization (SAM) yields widespread robustness improvement under domain transfer. Instead of focusing on parameters, however, this work considers the transferability of representations as the optimization target for out-of-domain generalization in a fine-tuning setup. To encourage the retention of transferable representations, we consider trust region-based fine-tuning methods, which exploit task-specific skills without forgetting task-agnostic representations from pre-training. We unify parameter- and representation-space smoothing approaches by using trust region bounds to inform SAM-style regularizers on both of these optimization surfaces. We propose Trust Region Aware Minimization (TRAM), a fine-tuning algorithm that optimizes for flat minima and smooth, informative representations without forgetting pre-trained structure. We find that TRAM outperforms both sharpness-aware and trust region-based optimization methods on cross-domain language modeling and cross-lingual transfer, where robustness to domain transfer and representation generality are critical for success. TRAM establishes a new standard in training generalizable models with minimal additional computation.
翻訳日:2023-10-06 15:32:32 公開日:2023-10-05
# ニサンの自然証明から学ぶ分布型PAC

Distributional PAC-Learning from Nisan's Natural Proofs ( http://arxiv.org/abs/2310.03641v1 )

ライセンス: Link先を確認
Ari Karchmer(参考訳) (橋渡し) Carmosino et al. (2016) は、 \Lambda の回路下界の自然な証明は \Lambda-circuits を学ぶための効率的なアルゴリズムを暗示するが、一様分布上のみであり、メンバーシップクエリを持ち、 \AC^0[p] \subseteq \Lambda を提供した。 この含意が \lambda \not\supseteq \ac^0[p] に一般化できるかどうかと、ランダムな例のみを使用して任意の例分布を学習するvaliantのpacモデルにおける学習アルゴリズムを考える。 正味と負味の両方の結果が得られます。 負の側では、すべての回路クラス \lambda に対して、\lambda の自然証明から valiant の pac モデルにおける学習 \lambda-circuits への含意が成立するならば、o(n^{1.5})-usvp (unique shortest vector problem) の多項式時間解と o(n^{1.5})-svp (shortest vector problem) と o(n^{1.5})-sivp (shortest independent vector problem) の多項式時間量子解が存在する。 このことは、バリアントのpacモデルにおける \lambda の自然証明が効率的な学習アルゴリズムを意味するかどうかが \lambda に依存する可能性があることを示している。 正の面では、通信複雑性の議論(例えば、深度2多数回路のNisan (1993) など)から生じる特定の自然証明は、新しい分散変種ValiantモデルのPAC学習アルゴリズムを示唆している。 分布pacモデルは,blum et al (1993) の平均ケース予測モデルやnanashima (2021) のヒューリスティックpacモデルよりも強力であり,boosting-friendly などの独立した特性を持つ。 本研究の主な用途は,深度2の多数回路,ポリトープ,DNFの自然分布に対する新しい分散PAC学習アルゴリズム,および深度2の多数回路で評価できるエンコードインプット弱PRFの非存在性である。

(Abridged) Carmosino et al. (2016) demonstrated that natural proofs of circuit lower bounds for \Lambda imply efficient algorithms for learning \Lambda-circuits, but only over the uniform distribution, with membership queries, and provided \AC^0[p] \subseteq \Lambda. We consider whether this implication can be generalized to \Lambda \not\supseteq \AC^0[p], and to learning algorithms in Valiant's PAC model, which use only random examples and learn over arbitrary example distributions. We give results of both positive and negative flavor. On the negative side, we observe that if, for every circuit class \Lambda, the implication from natural proofs for \Lambda to learning \Lambda-circuits in Valiant's PAC model holds, then there is a polynomial time solution to O(n^{1.5})-uSVP (unique Shortest Vector Problem), and polynomial time quantum solutions to O(n^{1.5})-SVP (Shortest Vector Problem) and O(n^{1.5})-SIVP (Shortest Independent Vector Problem). This indicates that whether natural proofs for \Lambda imply efficient learning algorithms for \Lambda in Valiant's PAC model may depend on \Lambda. On the positive side, our main result is that specific natural proofs arising from a type of communication complexity argument (e.g., Nisan (1993), for depth-2 majority circuits) imply PAC-learning algorithms in a new distributional variant of Valiant's model. Our distributional PAC model is stronger than the average-case prediction model of Blum et al (1993) and the heuristic PAC model of Nanashima (2021), and has several important properties which make it of independent interest, such as being boosting-friendly. The main applications of our result are new distributional PAC-learning algorithms for depth-2 majority circuits, polytopes and DNFs over natural target distributions, as well as the nonexistence of encoded-input weak PRFs that can be evaluated by depth-2 majority circuits.
翻訳日:2023-10-06 15:32:11 公開日:2023-10-05
# ネイティブアメリカン言語における自己教師あり音声表現の評価

Evaluating Self-Supervised Speech Representations for Indigenous American Languages ( http://arxiv.org/abs/2310.03639v1 )

ライセンス: Link先を確認
Chih-Chen Chen, William Chen, Rodolfo Zevallos, John Ortega(参考訳) 音声表現学習への自己スーパービジョンの適用は、大量のラベルなしデータへの拡張性のため、近年大きな関心を集めている。 しかし、事前学習と下流評価の両面での大きな進歩は、英語のみを考慮した単言語モデルに集中している。 他の言語を考えるモデルはほとんどなく、土着言語を考えるモデルも少なくない。 ASRU 2023 ML-SUPERB Challengeの新たな言語トラックへの投稿では、南アメリカの先住民であるケチュアのためのASRコーパスを提示する。 我々は、Kechua上の大規模なSSLモデルと、低リソースのASR上のGuaraniやBrbriといった6つのネイティブ言語の有効性をベンチマークした。 その結果,最先端sslモデルによる性能は驚くほど向上し,実データへの大規模モデルの一般化可能性も示された。

The application of self-supervision to speech representation learning has garnered significant interest in recent years, due to its scalability to large amounts of unlabeled data. However, much progress, both in terms of pre-training and downstream evaluation, has remained concentrated in monolingual models that only consider English. Few models consider other languages, and even fewer consider indigenous ones. In our submission to the New Language Track of the ASRU 2023 ML-SUPERB Challenge, we present an ASR corpus for Quechua, an indigenous South American Language. We benchmark the efficacy of large SSL models on Quechua, along with 6 other indigenous languages such as Guarani and Bribri, on low-resource ASR. Our results show surprisingly strong performance by state-of-the-art SSL models, showing the potential generalizability of large-scale models to real-world data.
翻訳日:2023-10-06 15:31:15 公開日:2023-10-05
# CLEVRER-Humans: 物理的事象と因果事象を人間的に記述する

CLEVRER-Humans: Describing Physical and Causal Events the Human Way ( http://arxiv.org/abs/2310.03635v1 )

ライセンス: Link先を確認
Jiayuan Mao, Xuelin Yang, Xikun Zhang, Noah D. Goodman, Jiajun Wu(参考訳) 物理的事象とその因果関係を推論できるマシンの構築は、物理的世界との柔軟な相互作用に不可欠である。 しかし、既存の物理的・因果的推論ベンチマークのほとんどは、因果関係の合成生成イベントと合成自然言語記述にのみ基づいている。 このデザインは2つの問題をもたらす。 第1に、イベントタイプと自然言語記述の両方に多様性の欠如があり、第2に、手動で定義されたヒューリスティックに基づく因果関係は、人間の判断とは異なる。 CLEVRER-Humansベンチマーク(CLEVRER-Humans benchmark)は、人間のラベルによる物理的事象の因果判定のためのビデオ推論データセットである。 まず,新しい反復型イベントクローゼタスクを用いて,ビデオ内のイベントの新たな表現を導出する手法であるcausal event graphs (cegs) と,ニューラルネットワーク生成モデルに基づくデータ拡張手法である。 収集したCEGを質問や回答に変換し、以前の作業と一致させます。 最後に,CLEVRER-Humansの質問回答に対するベースラインアプローチのコレクションについて検討し,ベンチマークによる大きな課題を明らかにする。

Building machines that can reason about physical events and their causal relationships is crucial for flexible interaction with the physical world. However, most existing physical and causal reasoning benchmarks are exclusively based on synthetically generated events and synthetic natural language descriptions of causal relationships. This design brings up two issues. First, there is a lack of diversity in both event types and natural language descriptions; second, causal relationships based on manually-defined heuristics are different from human judgments. To address both shortcomings, we present the CLEVRER-Humans benchmark, a video reasoning dataset for causal judgment of physical events with human labels. We employ two techniques to improve data collection efficiency: first, a novel iterative event cloze task to elicit a new representation of events in videos, which we term Causal Event Graphs (CEGs); second, a data augmentation technique based on neural language generative models. We convert the collected CEGs into questions and answers to be consistent with prior work. Finally, we study a collection of baseline approaches for CLEVRER-Humans question-answering, highlighting the great challenges set forth by our benchmark.
翻訳日:2023-10-06 15:31:01 公開日:2023-10-05
# 六角形スピンネットワークとトポロジカル量子ニューラルネットワークの正確な評価

The exact evaluation of hexagonal spin-networks and topological quantum neural networks ( http://arxiv.org/abs/2310.03632v1 )

ライセンス: Link先を確認
Matteo Lulli, Antonino Marciano and Emanuele Zappala(参考訳) スピンネットワーク間の物理的スカラー積は、量子機械学習の文脈で著者が以前に導入した量子ニューラルネットワークであるトポロジカル量子ニューラルネットワーク(TQNN)の理論において、基本的なツールであることが示されている。 しかし、スカラー生成物の効果的評価は、理論の適用可能性のボトルネックである。 本稿では,スピンネットワークとヘキサゴナル形状の間でnouiとperezが定義した物理スカラー積の評価アルゴリズムを提案する。 理論の再結合とハール積分の性質により、効率的なアルゴリズムが得られ、主要なステップに関するいくつかの証明が提供される。 スピンネットワークのある種のクラスにおけるTQNN評価の挙動を古典的および量子的再結合を用いて検討する。 すべての結果は ``idea.deploy" framework~\href{https://github.com/lullimat/idea.deploy}{\nolinkurl{https://github.com/lullimat/idea.deploy}} によって独立に再生できる。

The physical scalar product between spin-networks has been shown to be a fundamental tool in the theory of topological quantum neural networks (TQNN), which are quantum neural networks previously introduced by the authors in the context of quantum machine learning. However, the effective evaluation of the scalar product remains a bottleneck for the applicability of the theory. We introduce an algorithm for the evaluation of the physical scalar product defined by Noui and Perez between spin-network with hexagonal shape. By means of recoupling theory and the properties of the Haar integration we obtain an efficient algorithm, and provide several proofs regarding the main steps. We investigate the behavior of the TQNN evaluations on certain classes of spin-networks with the classical and quantum recoupling. All results can be independently reproduced through the ``idea.deploy" framework~\href{https://github.com/lullimat/idea.deploy}{\nolinkurl{https://github.com/lullimat/idea.deploy}}
翻訳日:2023-10-06 15:30:40 公開日:2023-10-05
# ワッサースタイン歪曲:忠実性とリアリズムの統一

Wasserstein Distortion: Unifying Fidelity and Realism ( http://arxiv.org/abs/2310.03629v1 )

ライセンス: Link先を確認
Yang Qiu and Aaron B. Wagner and Johannes Ball\'e and Lucas Theis(参考訳) 画像の歪み尺度であるワッサーシュタイン歪みを導入し,一方の画素レベルの忠実度と他方のリアリズムを同時に一般化する。 ワッサーシュタインの歪みが数学的に純粋忠実性制約やパラメータ選択の下で純粋現実性制約に還元されることを示す。 ワッサーシュタイン歪みの下で近い画像のペアは、その有用性を示している。 特に,画像の1つの位置における参照テクスチャに対する忠実度が高いランダムテクスチャを生成し,この点から離れるにつれて、スムーズにテクスチャの独立的な実現に遷移する。 ワッサースタイン歪と人間の視覚系のモデルとの関係が注目される。

We introduce a distortion measure for images, Wasserstein distortion, that simultaneously generalizes pixel-level fidelity on the one hand and realism on the other. We show how Wasserstein distortion reduces mathematically to a pure fidelity constraint or a pure realism constraint under different parameter choices. Pairs of images that are close under Wasserstein distortion illustrate its utility. In particular, we generate random textures that have high fidelity to a reference texture in one location of the image and smoothly transition to an independent realization of the texture as one moves away from this point. Connections between Wasserstein distortion and models of the human visual system are noted.
翻訳日:2023-10-06 15:30:23 公開日:2023-10-05
# ロボットの自己モデリングと運動計画のための高自由度動的ニューラルネットワーク

High-Degrees-of-Freedom Dynamic Neural Fields for Robot Self-Modeling and Motion Planning ( http://arxiv.org/abs/2310.03624v1 )

ライセンス: Link先を確認
Lennart Schulze, Hod Lipson(参考訳) ロボットの自己モデル(robot self-model)は、ロボットの物理的形態のタスクに依存しない表現であり、古典的な幾何学的運動モデルがなければ、動き計画のタスクに使用できる。 特に、ロボットのキネマティクスが予想外に変化する場合、人間の自由な自己モデリングは真に自律的なエージェントに必要な特徴である。 本研究では,カメラのポーズや構成を付加した2次元画像のみから学習したニューラルネットワーククエリモデルとして,ロボットがキネマティクスを自己モデル化するために,ニューラルネットワークを活用する。 これにより、深度画像や幾何学知識に依存する既存のアプローチよりもはるかに高い適用性が得られる。 そこで,本稿では,曲率データサンプリング手法と並行して,高い自由度 (dofs) を条件とした動的オブジェクト中心シーンのための,新しいエンコーダベースのニューラルネットワーク密度場アーキテクチャを提案する。 7-DOFロボットテストでは、学習した自己モデルは、ロボットのワークスペース次元の2%のChamfer-L2距離を達成する。 我々は,このモデルの動作計画タスクにおける性能を,模範的な下流アプリケーションとして実証する。

A robot self-model is a task-agnostic representation of the robot's physical morphology that can be used for motion planning tasks in absence of classical geometric kinematic models. In particular, when the latter are hard to engineer or the robot's kinematics change unexpectedly, human-free self-modeling is a necessary feature of truly autonomous agents. In this work, we leverage neural fields to allow a robot to self-model its kinematics as a neural-implicit query model learned only from 2D images annotated with camera poses and configurations. This enables significantly greater applicability than existing approaches which have been dependent on depth images or geometry knowledge. To this end, alongside a curricular data sampling strategy, we propose a new encoder-based neural density field architecture for dynamic object-centric scenes conditioned on high numbers of degrees of freedom (DOFs). In a 7-DOF robot test setup, the learned self-model achieves a Chamfer-L2 distance of 2% of the robot's workspace dimension. We demonstrate the capabilities of this model on a motion planning task as an exemplary downstream application.
翻訳日:2023-10-06 15:30:13 公開日:2023-10-05
# PeaTMOSS: オープンソースソフトウェアで事前トレーニングされたモデルをマイニング

PeaTMOSS: Mining Pre-Trained Models in Open-Source Software ( http://arxiv.org/abs/2310.03620v1 )

ライセンス: Link先を確認
Wenxin Jiang, Jason Jones, Jerin Yasmin, Nicholas Synovic, Rajeev Sashti, Sophie Chen, George K. Thiruvathukal, Yuan Tian, James C. Davis(参考訳) ディープラーニングモデルの開発とトレーニングは高価であるため、ソフトウェアエンジニアはトレーニング済みのディープラーニングモデル(PTM)を再利用し、下流タスクのために微調整し始めている。 PTMが広く使われているにもかかわらず、対応するソフトウェアエンジニアリングの振る舞いや課題についてはほとんど分かっていません。 PTMを用いたソフトウェアエンジニアリングの研究を可能にするため,オープンソースソフトウェアにおけるPeaTMOSSデータセット:事前学習モデルを提案する。 PeaTMOSSには,(1)281,638 PTMのスナップショット,(2)PTMを使用するオープンソースソフトウェアリポジトリ27,270,(3)PTMとそれを使用するプロジェクト間のマッピングの3つの部分がある。 私たちはPeaTMOSSの鉱山労働者に挑戦し、PTMに関するソフトウェアエンジニアリングの実践を見つけます。 完全なデータセットのデモとリンクは、https://github.com/PurdueDualityLab/PeaTMOSS-Demos.comで公開されている。

Developing and training deep learning models is expensive, so software engineers have begun to reuse pre-trained deep learning models (PTMs) and fine-tune them for downstream tasks. Despite the wide-spread use of PTMs, we know little about the corresponding software engineering behaviors and challenges. To enable the study of software engineering with PTMs, we present the PeaTMOSS dataset: Pre-Trained Models in Open-Source Software. PeaTMOSS has three parts: a snapshot of (1) 281,638 PTMs, (2) 27,270 open-source software repositories that use PTMs, and (3) a mapping between PTMs and the projects that use them. We challenge PeaTMOSS miners to discover software engineering practices around PTMs. A demo and link to the full dataset are available at: https://github.com/PurdueDualityLab/PeaTMOSS-Demos.
翻訳日:2023-10-06 15:29:56 公開日:2023-10-05
# 絡み合った量子状態における高次相互依存性の定量化

Quantifying High-Order Interdependencies in Entangled Quantum States ( http://arxiv.org/abs/2310.03681v1 )

ライセンス: Link先を確認
Marco Alberto Javarone, Fernando E. Rosas, Paolo Facchi, Saverio Pascazio, Sebastiano Stramaglia(参考訳) 本稿では,情報理論の最近の進歩を活かし,量子システムの高次依存性の主特性を特徴付ける新しい手法を考案する。 この目的のために、シナジーや冗長性に支配される量子状態の識別が可能な情報理論測度であるQ情報を導入する。 古典的システムとは対照的に、量子系は高次特性を示すために少なくとも4つの変数を必要とすることを発見した。 さらに, ユニタリ進化は, 対応するハミルトニアンに強く依存する形で, 内部情報組織に劇的な影響を与えうることを明らかにした。 全体として、q-informationは量子システムの内部構造とその時間発展の新しい側面に光を当て、いくつかの量子現象と関連する技術を研究するための新しい道を開いた。

Here, we leverage recent advances in information theory to develop a novel method to characterise the dominant character of the high-order dependencies of quantum systems. To this end, we introduce the Q-information: an information-theoretic measure capable of distinguishing quantum states dominated by synergy or redundancy. We illustrate the measure by investigating the properties of paradigmatic entangled Qubit states and find that -- in contrast to classical systems -- quantum systems need at least four variables to exhibit high-order properties. Furthermore, our results reveal that unitary evolution can radically affect the internal information organisation in a way that strongly depends on the corresponding Hamiltonian. Overall, the Q-information sheds light on novel aspects of the internal organisation of quantum systems and their time evolution, opening new avenues for studying several quantum phenomena and related technologies.
翻訳日:2023-10-06 15:24:24 公開日:2023-10-05
# インテガーを用いたクラスインクリメンタル量子学習のためのアダマールドメイントレーニング

Hadamard Domain Training with Integers for Class Incremental Quantized Learning ( http://arxiv.org/abs/2310.03675v1 )

ライセンス: Link先を確認
Martin Schiemer, Clemens JS Schaefer, Jayden Parker Vap, Mark James Horeni, Yu Emma Wang, Juan Ye, and Siddharth Joshi(参考訳) 継続的な学習は多くの現代の機械学習アプリケーションで望ましい機能であり、分散シフトの調整から微調整、新しいタスクの学習まで、フィールド内での適応と更新が可能である。 プライバシと低レイテンシ要件を持つアプリケーションでは、継続的な学習によって課される計算とメモリの要求は、リソース制約のあるエッジプラットフォームではコストを抑えることができる。 完全量子化トレーニング(FQT)による計算精度の低減は、同時にメモリフットプリントを削減し、トレーニングと推論の両方の計算効率を向上させる。 しかし、アグレッシブ量子化、特に整数 FQT はモデル精度を許容できないレベルに低下させる。 本稿では,安価なアダマール変換を応用して,整数行列の乗算のみによる低精度トレーニングを実現する手法を提案する。 さらに,どのテンソルに確率的丸めが必要なのかを判断し,低ビット幅アキュムレータを実現するためのタイル行列乗法を提案する。 本手法は,複数の人間行動認識データセットとcifar100を用いて,授業のインクリメンタル学習環境での有効性を示す。 行列乗算の入力を8ビットのアキュムレータで4ビットまで量子化しながら、0.5%未満と3%の精度劣化を達成する。

Continual learning is a desirable feature in many modern machine learning applications, which allows in-field adaptation and updating, ranging from accommodating distribution shift, to fine-tuning, and to learning new tasks. For applications with privacy and low latency requirements, the compute and memory demands imposed by continual learning can be cost-prohibitive for resource-constraint edge platforms. Reducing computational precision through fully quantized training (FQT) simultaneously reduces memory footprint and increases compute efficiency for both training and inference. However, aggressive quantization especially integer FQT typically degrades model accuracy to unacceptable levels. In this paper, we propose a technique that leverages inexpensive Hadamard transforms to enable low-precision training with only integer matrix multiplications. We further determine which tensors need stochastic rounding and propose tiled matrix multiplication to enable low-bit width accumulators. We demonstrate the effectiveness of our technique on several human activity recognition datasets and CIFAR100 in a class incremental learning setting. We achieve less than 0.5% and 3% accuracy degradation while we quantize all matrix multiplications inputs down to 4-bits with 8-bit accumulators.
翻訳日:2023-10-06 15:24:09 公開日:2023-10-05
# LumiNet: 知覚的知識蒸留の明るい側面

LumiNet: The Bright Side of Perceptual Knowledge Distillation ( http://arxiv.org/abs/2310.03669v1 )

ライセンス: Link先を確認
Md. Ismail Hossain, M M Lutfe Elahi, Sameera Ramasinghe, Ali Cheraghian, Fuad Rahman, Nabeel Mohammed, Shafin Rahman(参考訳) 知識蒸留研究において,広範な教員モデルに効果的にアクセスできるため,機能的手法が主流となっている。 対照的に、ロジットに基づくアプローチは教師から隠れた「暗黒の知識」を抽出するのに適さないと考えられている。 このギャップを埋めるために,我々はlogitベースの蒸留を強化するために設計された新しい知識伝達アルゴリズムluminetを提案する。 モデル表現能力に基づいた調整によりロジットの校正を目的とした知覚行列を導入する。 クラス内ダイナミクスを慎重に分析することにより、LumiNetはクラス間関係を再構築し、学生モデルがより豊富な知識を学習できるようにする。 教師モデルと生徒モデルの両方がこの洗練された行列にマッピングされ、生徒の目標は表現の相違を最小限にすることである。 ベンチマークデータセット(CIFAR-100、ImageNet、MSCOCO)の厳密なテストは、LumiNetの有効性を証明し、主要な機能ベースのメソッドよりも競争力があることを示している。 さらに, 転校学習の領域を探求するにあたって, 本手法を用いて学習した学生モデルが, いかに効果的に下流タスクに適応するかを評価する。 特に、Tiny ImageNetに適用すると、転送された機能は優れたパフォーマンスを示し、さまざまな設定におけるLumiNetの汎用性と堅牢性をさらに強調する。 LumiNetでは、ロジットベースの知識蒸留の潜在能力に新たな関心を向け、研究談話の推進を期待する。

In knowledge distillation research, feature-based methods have dominated due to their ability to effectively tap into extensive teacher models. In contrast, logit-based approaches are considered to be less adept at extracting hidden 'dark knowledge' from teachers. To bridge this gap, we present LumiNet, a novel knowledge-transfer algorithm designed to enhance logit-based distillation. We introduce a perception matrix that aims to recalibrate logits through adjustments based on the model's representation capability. By meticulously analyzing intra-class dynamics, LumiNet reconstructs more granular inter-class relationships, enabling the student model to learn a richer breadth of knowledge. Both teacher and student models are mapped onto this refined matrix, with the student's goal being to minimize representational discrepancies. Rigorous testing on benchmark datasets (CIFAR-100, ImageNet, and MSCOCO) attests to LumiNet's efficacy, revealing its competitive edge over leading feature-based methods. Moreover, in exploring the realm of transfer learning, we assess how effectively the student model, trained using our method, adapts to downstream tasks. Notably, when applied to Tiny ImageNet, the transferred features exhibit remarkable performance, further underscoring LumiNet's versatility and robustness in diverse settings. With LumiNet, we hope to steer the research discourse towards a renewed interest in the latent capabilities of logit-based knowledge distillation.
翻訳日:2023-10-06 15:23:49 公開日:2023-10-05
# GoLLIE: アノテーションガイドラインの改善によるゼロショット情報抽出

GoLLIE: Annotation Guidelines improve Zero-Shot Information-Extraction ( http://arxiv.org/abs/2310.03668v1 )

ライセンス: Link先を確認
Oscar Sainz, Iker Garc\'ia-Ferrero, Rodrigo Agerri, Oier Lopez de Lacalle, German Rigau, Eneko Agirre(参考訳) 大規模な言語モデル(llm)と命令チューニングが組み合わさって、未認識のタスクに一般化する際に大きな進歩を遂げた。 しかし、情報抽出(ie)では成功せず、タスク固有のモデルに遅れを取っている。 通常、IEタスクは、タスクを記述し、人間に例を示す複雑なガイドラインによって特徴づけられる。 このような情報を活用する以前の試みは、最大のモデルでも、最初からガイドラインに従うことができないため、失敗している。 本稿では、アノテーションガイドラインに適合するように微調整されたieタスクのゼロショット結果を改善するためのモデルであるgollie(guideline-following large language model for ie)を提案する。 包括的評価は、GoLLIEが目に見えないガイドラインを一般化し、フォローできることを実証的に示し、ゼロショット情報抽出における以前の試みよりも優れている。 アブレーション研究は、詳細なガイドラインが良い結果の鍵であることを示している。

Large Language Models (LLMs) combined with instruction tuning have made significant progress when generalizing to unseen tasks. However, they have been less successful in Information Extraction (IE), lagging behind task-specific models. Typically, IE tasks are characterized by complex annotation guidelines which describe the task and give examples to humans. Previous attempts to leverage such information have failed, even with the largest models, as they are not able to follow the guidelines out-of-the-box. In this paper we propose GoLLIE (Guideline-following Large Language Model for IE), a model able to improve zero-shot results on unseen IE tasks by virtue of being fine-tuned to comply with annotation guidelines. Comprehensive evaluation empirically demonstrates that GoLLIE is able to generalize to and follow unseen guidelines, outperforming previous attempts at zero-shot information extraction. The ablation study shows that detailed guidelines is key for good results.
翻訳日:2023-10-06 15:23:22 公開日:2023-10-05
# MapperGPT: エンティティのリンクとマッピングのための大規模言語モデル

MapperGPT: Large Language Models for Linking and Mapping Entities ( http://arxiv.org/abs/2310.03666v1 )

ライセンス: Link先を確認
Nicolas Matentzoglu, J. Harry Caufield, Harshad B. Hegde, Justin T. Reese, Sierra Moxon, Hyeongsik Kim, Nomi L. Harris, Melissa A Haendel, Christopher J. Mungall(参考訳) オントロジー、制御された語彙、分類学、価値セットなどの用語資源は、医療、化学、生物医学研究など多くの分野におけるデータ統合の重要な部分である。 エンティティマッピングは、遺伝子識別子、疾患の概念、化学エンティティ識別子など、これらのリソースにわたるエンティティ間の対応を決定するプロセスである。 共通構造特徴とラベルや同義語などの語彙情報に基づいてそのようなマッピングを計算するために多くのツールが開発されている。 特に語彙的アプローチは、語彙的曖昧さのために非常に高いリコールを提供するが、精度は低い。 この結果、マッピングの取り組みは、しばしば人間のキュレーターを通して、労働集約的な手動マッピングの洗練に頼りになる。 chatgptが採用しているような大規模言語モデル(llm)は、質問応答や情報抽出など、幅広いタスクを実行することができる。 そこで,本稿では,llmを用いて後処理ステップとしてマッピング関係をレビュー・洗練する手法であるmappergptと,語彙的・構造的ヒューリスティックに基づく既存のハイリコール手法について述べる。 解剖学, 発達生物学, 腎疾患など, さまざまな領域のアライメントタスクにおけるMapperGPTの評価を行った。 語彙的手法に特に難易度の高いタスクの集合を考案した。 ハイリコール法と組み合わせることで,mappergptはlogmapのような最先端(sota)メソッドよりも精度が大幅に向上することを示す。

Aligning terminological resources, including ontologies, controlled vocabularies, taxonomies, and value sets is a critical part of data integration in many domains such as healthcare, chemistry, and biomedical research. Entity mapping is the process of determining correspondences between entities across these resources, such as gene identifiers, disease concepts, or chemical entity identifiers. Many tools have been developed to compute such mappings based on common structural features and lexical information such as labels and synonyms. Lexical approaches in particular often provide very high recall, but low precision, due to lexical ambiguity. As a consequence of this, mapping efforts often resort to a labor intensive manual mapping refinement through a human curator. Large Language Models (LLMs), such as the ones employed by ChatGPT, have generalizable abilities to perform a wide range of tasks, including question-answering and information extraction. Here we present MapperGPT, an approach that uses LLMs to review and refine mapping relationships as a post-processing step, in concert with existing high-recall methods that are based on lexical and structural heuristics. We evaluated MapperGPT on a series of alignment tasks from different domains, including anatomy, developmental biology, and renal diseases. We devised a collection of tasks that are designed to be particularly challenging for lexical methods. We show that when used in combination with high-recall methods, MapperGPT can provide a substantial improvement in accuracy, beating state-of-the-art (SOTA) methods such as LogMap.
翻訳日:2023-10-06 15:23:07 公開日:2023-10-05
# 医用画像分割のための深層学習モデルの認定

Certification of Deep Learning Models for Medical Image Segmentation ( http://arxiv.org/abs/2310.03664v1 )

ライセンス: Link先を確認
Othmane Laousy, Alexandre Araujo, Guillaume Chassagnon, Nikos Paragios, Marie-Pierre Revel, Maria Vakalopoulou(参考訳) 医療画像では、セグメンテーションモデルは過去10年で著しく改善し、現在臨床で毎日使用されている。 しかし、分類モデルと同様、セグメンテーションモデルも敵攻撃の影響を受けている。 医療のような安全クリティカルな分野では、モデル予測の検証が最も重要です。 ランダムな平滑化は最近導入され、モデルの認証と理論的保証を得るためのフレームワークを提供する。 本稿では,ランダムな平滑化と拡散モデルに基づく医用画像のための認定セグメンテーションベースラインを初めて提示する。 この結果から,拡散確率モデルをデノナイズすることで,ランダムな平滑化の限界を克服できることが示唆された。 胸部X線,皮膚病変,大腸の5つの公的データセットについて広範な実験を行い,高精細度画像においても高いDiceスコアを維持できることを実証的に示す。 私たちの研究は、医用画像のセグメンテーションモデルを認定する最初の試みであり、この重要かつ大半がチャージされていない領域における将来のベンチマークの基礎を築きたいと考えています。

In medical imaging, segmentation models have known a significant improvement in the past decade and are now used daily in clinical practice. However, similar to classification models, segmentation models are affected by adversarial attacks. In a safety-critical field like healthcare, certifying model predictions is of the utmost importance. Randomized smoothing has been introduced lately and provides a framework to certify models and obtain theoretical guarantees. In this paper, we present for the first time a certified segmentation baseline for medical imaging based on randomized smoothing and diffusion models. Our results show that leveraging the power of denoising diffusion probabilistic models helps us overcome the limits of randomized smoothing. We conduct extensive experiments on five public datasets of chest X-rays, skin lesions, and colonoscopies, and empirically show that we are able to maintain high certified Dice scores even for highly perturbed images. Our work represents the first attempt to certify medical image segmentation models, and we aspire for it to set a foundation for future benchmarks in this crucial and largely uncharted area.
翻訳日:2023-10-06 15:22:39 公開日:2023-10-05
# データフリー量子化のためのロバストネス誘導画像合成

Robustness-Guided Image Synthesis for Data-Free Quantization ( http://arxiv.org/abs/2310.03661v1 )

ライセンス: Link先を確認
Jianhong Bai, Yuchen Yang, Huanpeng Chu, Hualiang Wang, Zuozhu Liu, Ruizhe Chen, Xiaoxuan He, Lianrui Mu, Chengfei Cai, Haoji Hu(参考訳) 量子化はモデル圧縮の有望な方向として現れている。 近年,データフリーな量子化は,実際のトレーニングデータに代わるイメージを合成するプライバシー問題を回避するための有望な手法として広く研究されている。 既存の手法では、合成画像の信頼性を確保するために分類損失を用いる。 残念なことに、これらの画像が事前訓練されたモデルによってうまく分類されているとしても、それでも低セマンティクスと均質化の問題に苦しんでいる。 直感的には、これらの低セマンティクス画像は摂動に敏感であり、事前訓練されたモデルは、生成器が低セマンティクスのイメージを合成する際に一貫性のない出力を持つ傾向がある。 そこで本研究では,合成画像のセマンティクスを豊かにし,画像多様性を向上させるための簡易かつ効果的な手法であるロバストネス誘導画像合成(ris)を提案する。 具体的には、まず入力とモデル重みの摂動を導入し、次に摂動前後の機能および予測レベルでの不整合メトリクスを定義する。 2つのレベルでの一貫性の欠如に基づいて,合成画像の意味性を高めるためのロバスト性最適化目標を考案する。 さらに,ラベル空間に小さな相関関係を持つ画像の合成をジェネレータに強制することで,多様性を意識するアプローチも行う。 RISにより、データフリー量子化の様々な設定に対して最先端の性能を実現し、他のデータフリー圧縮タスクにも拡張できる。

Quantization has emerged as a promising direction for model compression. Recently, data-free quantization has been widely studied as a promising method to avoid privacy concerns, which synthesizes images as an alternative to real training data. Existing methods use classification loss to ensure the reliability of the synthesized images. Unfortunately, even if these images are well-classified by the pre-trained model, they still suffer from low semantics and homogenization issues. Intuitively, these low-semantic images are sensitive to perturbations, and the pre-trained model tends to have inconsistent output when the generator synthesizes an image with poor semantics. To this end, we propose Robustness-Guided Image Synthesis (RIS), a simple but effective method to enrich the semantics of synthetic images and improve image diversity, further boosting the performance of downstream data-free compression tasks. Concretely, we first introduce perturbations on input and model weight, then define the inconsistency metrics at feature and prediction levels before and after perturbations. On the basis of inconsistency on two levels, we design a robustness optimization objective to enhance the semantics of synthetic images. Moreover, we also make our approach diversity-aware by forcing the generator to synthesize images with small correlations in the label space. With RIS, we achieve state-of-the-art performance for various settings on data-free quantization and can be extended to other data-free compression tasks.
翻訳日:2023-10-06 15:22:22 公開日:2023-10-05
# 自律性とアライメントのバランス:自律的llm駆動マルチエージェントアーキテクチャのための多次元分類法

Balancing Autonomy and Alignment: A Multi-Dimensional Taxonomy for Autonomous LLM-powered Multi-Agent Architectures ( http://arxiv.org/abs/2310.03659v1 )

ライセンス: Link先を確認
Thorsten H\"andler(参考訳) 大規模言語モデル(LLM)は、洗練された言語理解と生成能力を備えた人工知能の分野に革命をもたらした。 しかし、深く反復的な思考プロセスを必要とするより複雑で相互接続されたタスクに直面した場合、llmは固有の制限を明らかにする。 自律LDM方式のマルチエージェントシステムはこれらの課題に対する戦略的対応を示す。 このようなシステムは、管理可能なタスクに分割し、その実行と結果の合成を専門の知的エージェントの集合を通してまとめることで、ユーザによる自律的な目標達成を目指している。 llmを活用した推論機能を備えたこれらのエージェントは、ツールやデータセットといったコンテキストリソースを活用することで、仲間とコラボレーションする認知シナジーを活用する。 これらのアーキテクチャはAI能力を増幅する有望な可能性を秘めているが、さまざまなレベルの自律性と整合性の間の適切なバランスを打つことが、効果的な運用にとって重要な課題である。 本稿では,LLMを用いた自律型マルチエージェントシステムにおいて,目標駆動型タスク管理,エージェント構成,マルチエージェント協調,コンテキスト相互作用といったアーキテクチャ的視点に特有の,自律性とアライメントの動的相互作用がいかにバランスするかを,総合的に分析する。 基本的なアーキテクチャ概念を特定するドメインオントロジーモデルも含まれている。 私たちの分類学の目的は、研究者、エンジニア、AI実践者が、ますます普及しているAIシステムによって採用されるアーキテクチャのダイナミクスとバランス戦略を体系的に分析できるようにすることです。 選択されたLLMを用いたマルチエージェントシステムの探索的分類は、その実用性を示し、将来の研究開発の可能性を明らかにしている。

Large language models (LLMs) have revolutionized the field of artificial intelligence, endowing it with sophisticated language understanding and generation capabilities. However, when faced with more complex and interconnected tasks that demand a profound and iterative thought process, LLMs reveal their inherent limitations. Autonomous LLM-powered multi-agent systems represent a strategic response to these challenges. Such systems strive for autonomously tackling user-prompted goals by decomposing them into manageable tasks and orchestrating their execution and result synthesis through a collective of specialized intelligent agents. Equipped with LLM-powered reasoning capabilities, these agents harness the cognitive synergy of collaborating with their peers, enhanced by leveraging contextual resources such as tools and datasets. While these architectures hold promising potential in amplifying AI capabilities, striking the right balance between different levels of autonomy and alignment remains the crucial challenge for their effective operation. This paper proposes a comprehensive multi-dimensional taxonomy, engineered to analyze how autonomous LLM-powered multi-agent systems balance the dynamic interplay between autonomy and alignment across various aspects inherent to architectural viewpoints such as goal-driven task management, agent composition, multi-agent collaboration, and context interaction. It also includes a domain-ontology model specifying fundamental architectural concepts. Our taxonomy aims to empower researchers, engineers, and AI practitioners to systematically analyze the architectural dynamics and balancing strategies employed by these increasingly prevalent AI systems. The exploratory taxonomic classification of selected representative LLM-powered multi-agent systems illustrates its practical utility and reveals potential for future research and development.
翻訳日:2023-10-06 15:21:57 公開日:2023-10-05
# 深層学習を用いたX線画像における不正項目の視覚検査

Visual inspection for illicit items in X-ray images using Deep Learning ( http://arxiv.org/abs/2310.03658v1 )

ライセンス: Link先を確認
Ioannis Mademlis, Georgios Batsis, Adamantia Anna Rebolledo Chrysochoou, Georgios Th. Papadopoulos(参考訳) 空港や地下鉄、税関・郵便局などの警備員の精神的負担を軽減することで、x線画像中のコントラバンド項目の自動検出は公共の安全を大幅に向上させることができる。 ラッシュ時の乗客の大量かつ高スループット、郵便荷物等は、実際にはビッグデータの問題となっている。 ディープニューラルネットワーク(DNN)に依存した現代のコンピュータビジョンアルゴリズムは、高速で単一ステージのオブジェクト検出器の場合のように、リソース制約や組込み実行シナリオの下でも、このタスクを遂行できることが証明されている。 しかし、様々なDNNコンポーネント/メソッドの比較実験は共通の評価プロトコルの下で行われておらず、信頼性の高いクロスメソッド比較が欠落している。 本稿では,パブリックな関連データセットと,評価中の特定のdnnコンポーネント/モジュールを選択するための明確に定義された方法論を用いて,その比較評価を行う。 その結果、トランスフォーマー検出器の優位性、セキュリティ応用のためにここ数年開発されてきた補助神経モジュールの陳腐化した性質、CSP-DarkNetバックボーンCNNの効率性が示唆された。

Automated detection of contraband items in X-ray images can significantly increase public safety, by enhancing the productivity and alleviating the mental load of security officers in airports, subways, customs/post offices, etc. The large volume and high throughput of passengers, mailed parcels, etc., during rush hours practically make it a Big Data problem. Modern computer vision algorithms relying on Deep Neural Networks (DNNs) have proven capable of undertaking this task even under resource-constrained and embedded execution scenarios, e.g., as is the case with fast, single-stage object detectors. However, no comparative experimental assessment of the various relevant DNN components/methods has been performed under a common evaluation protocol, which means that reliable cross-method comparisons are missing. This paper presents exactly such a comparative assessment, utilizing a public relevant dataset and a well-defined methodology for selecting the specific DNN components/modules that are being evaluated. The results indicate the superiority of Transformer detectors, the obsolete nature of auxiliary neural modules that have been developed in the past few years for security applications and the efficiency of the CSP-DarkNet backbone CNN.
翻訳日:2023-10-06 15:21:27 公開日:2023-10-05
# 戦略的評価 : 課題,評価者,社会

Strategic Evaluation: Subjects, Evaluators, and Society ( http://arxiv.org/abs/2310.03655v1 )

ライセンス: Link先を確認
Benjamin Laufer, Jon Kleinberg, Karen Levy, Helen Nissenbaum(参考訳) アルゴリズムの現在の幅広い応用は、決定を下すために、形式的かつ定量的に不正な概念を計測することである。 これらの評価に戦略的に反応して良好な意思決定結果を得る場合、その行動は道徳的判断を受けることができる。 「システム」や「噛む」、あるいは(時には)「真剣な努力」や「改善」に投資したともいえる。 戦略行動に関する機械学習の文献は、より好ましい評価を期待する意思決定者による努力を強調して、これらのダイナミクスを記述しようと試みている。ある研究は、そのような操作をプリエンプあるいは防止する方法を提供し、ある研究は「改善」の振る舞いと「ゲーム」を区別する一方で、ある研究は、分類システムの労力の負担や異なる効果を計測することを目的としている。 評価自体の設計は、より広い社会的目標と不一致である可能性がある評価者によって達成される目標をさらに進めるものとして理解することができる。 評価対象は,評価対象と評価対象の両方が自己関心から外れた戦略的相互作用を表すものであるという考えを,意思決定対象,評価対象,社会の3つの相互作用エージェントを用いた評価プロセスを表現するモデルを提案し,評価対象と評価対象のセットと監視機構を表わす。 我々は,1人ないし2人のプレイヤーが他者の利益を戦略的に損なう社会システムへの我々のモデルの適用性を強調する。 評価者自身を戦略的に扱うことで、評価の制度設計を支えるインセンティブに向けて、意思決定対象に向けられた精査を再考することができる。 戦略的行動の道徳的立場は、しばしばそのような行動を引き起こす評価やインセンティブの道徳的立場に依存する。

A broad current application of algorithms is in formal and quantitative measures of murky concepts -- like merit -- to make decisions. When people strategically respond to these sorts of evaluations in order to gain favorable decision outcomes, their behavior can be subjected to moral judgments. They may be described as 'gaming the system' or 'cheating,' or (in other cases) investing 'honest effort' or 'improving.' Machine learning literature on strategic behavior has tried to describe these dynamics by emphasizing the efforts expended by decision subjects hoping to obtain a more favorable assessment -- some works offer ways to preempt or prevent such manipulations, some differentiate 'gaming' from 'improvement' behavior, while others aim to measure the effort burden or disparate effects of classification systems. We begin from a different starting point: that the design of an evaluation itself can be understood as furthering goals held by the evaluator which may be misaligned with broader societal goals. To develop the idea that evaluation represents a strategic interaction in which both the evaluator and the subject of their evaluation are operating out of self-interest, we put forward a model that represents the process of evaluation using three interacting agents: a decision subject, an evaluator, and society, representing a bundle of values and oversight mechanisms. We highlight our model's applicability to a number of social systems where one or two players strategically undermine the others' interests to advance their own. Treating evaluators as themselves strategic allows us to re-cast the scrutiny directed at decision subjects, towards the incentives that underpin institutional designs of evaluations. The moral standing of strategic behaviors often depend on the moral standing of the evaluations and incentives that provoke such behaviors.
翻訳日:2023-10-06 15:21:08 公開日:2023-10-05
# エージェントが大規模言語モデルにジェネラルゼロショット推論を指示

Agent Instructs Large Language Models to be General Zero-Shot Reasoners ( http://arxiv.org/abs/2310.03710v1 )

ライセンス: Link先を確認
Nicholas Crispino and Kyle Montgomery and Fankun Zeng and Dawn Song and Chenguang Wang(参考訳) 汎用言語理解タスクにおいて,大規模言語モデルのゼロショット推論能力を向上させる手法を提案する。 具体的には,大規模言語モデルの推論過程を指示する自律エージェントを構築する。 このアプローチは、大きな言語モデルのゼロショット推論能力を、より多くのタスクにさらに解き放ちます。 生成,分類,推論にまたがる幅広いデータセットに対して,本手法の性能について検討した。 提案手法は,多くのタスクに一般化され,評価した29のデータセットのうち20の最先端のゼロショット性能が得られることを示す。 例えば、Vicuna-13b (13.3%)、Llama-2-70b-chat (23.2%)、GPT-3.5 Turbo (17.0%)など、最先端の大規模言語モデルの性能が大幅に向上する。 ゼロショットの思考に比べれば、推論の改善は目覚ましいもので、平均して10.5%の増加です。 Llama-2-70b-chat はゼロショット GPT-3.5 Turbo を 10.2% 向上させる。

We introduce a method to improve the zero-shot reasoning abilities of large language models on general language understanding tasks. Specifically, we build an autonomous agent to instruct the reasoning process of large language models. We show this approach further unleashes the zero-shot reasoning abilities of large language models to more tasks. We study the performance of our method on a wide set of datasets spanning generation, classification, and reasoning. We show that our method generalizes to most tasks and obtains state-of-the-art zero-shot performance on 20 of the 29 datasets that we evaluate. For instance, our method boosts the performance of state-of-the-art large language models by a large margin, including Vicuna-13b (13.3%), Llama-2-70b-chat (23.2%), and GPT-3.5 Turbo (17.0%). Compared to zero-shot chain of thought, our improvement in reasoning is striking, with an average increase of 10.5%. With our method, Llama-2-70b-chat outperforms zero-shot GPT-3.5 Turbo by 10.2%.
翻訳日:2023-10-06 15:13:29 公開日:2023-10-05
# one-preference-for-allを超えて:多目的直接選好最適化

Beyond One-Preference-for-All: Multi-Objective Direct Preference Optimization ( http://arxiv.org/abs/2310.03708v1 )

ライセンス: Link先を確認
Zhanhui Zhou, Jie Liu, Chao Yang, Jing Shao, Yu Liu, Xiangyu Yue, Wanli Ouyang, Yu Qiao(参考訳) 言語モデル(LM)は、人間からのフィードバック(RLHF)からの強化学習を通じて平均的なラベラーと整合しているにもかかわらず、多種多様な人間の嗜好に普遍的に適合しないかもしれない。 したがって、近年のアプローチでは、多次元フィードバックを収集し、各次元(例えば、有用性、無害性、正直性)に対して異なる報酬を生み出すことでカスタマイズを選択できる。 LMは、異なる報酬重み付けを持つ多目的RL(MORL)を使用して、異なる好みに合わせて調整することができる。 しかし、RL微調整は不安定であり、特に多様で通常矛盾する目的を持つMORLHFにとって、資源重大である。 本稿では,複数のアライメント目的に対して直接参照最適化(DPO)を拡張するRLフリーアルゴリズムであるMODPOを提案する。 基本的に、MODPOは異なるLMを訓練し、全ての目的と特定の重み付けを組み合わせた異なる集団報酬モデルを表現する。 単純なクロスエントロピー損失により、MODPO目標に対して最適化されたLMは、元のMORLHF目標の正確な解である。 MORLHFに比べて3倍少ない計算資源で、様々な選好に適合するパレート最適のLMを効率よく生成し、MODPOが既存の手法と一致または性能を向上することを確認する。

Language models (LMs), despite aligning well with an average labeler through reinforcement learning from human feedback (RLHF), may not universally suit diverse human preferences. Recent approaches therefore opt for customization by collecting multi-dimensional feedback and creating distinct rewards for each dimension (e.g., helpfulness, harmlessness, honesty). LMs can then be tailored to different preferences using multi-objective RL (MORL) with different reward weightings. Yet, RL fine-tuning is unstable and resource-heavy, especially for MORLHF with diverse and usually conflicting objectives. In this paper, we present Multi-Objective Direct Preference Optimization (MODPO), an RL-free algorithm that extends Direct Preference Optimization (DPO) for multiple alignment objectives. Essentially, MODPO trains different LMs to represent different collective reward models that combine all objectives with specific weightings. With a simple cross-entropy loss, the LMs optimized against the MODPO objective are analytically the exact solutions of the original MORLHF objective. Empirical results in safety alignment and long-form question answering confirm that MODPO matches or outperforms existing methods, efficiently producing a Pareto-optimal set of LMs that cater to diverse preferences with 3 times less computational resources compared with MORLHF.
翻訳日:2023-10-06 15:13:12 公開日:2023-10-05
# OMG-ATTACK:トランスファー可能な侵入攻撃のセルフ・スーパービジョンオン・マンフォールド生成

OMG-ATTACK: Self-Supervised On-Manifold Generation of Transferable Evasion Attacks ( http://arxiv.org/abs/2310.03707v1 )

ライセンス: Link先を確認
Ofir Bar Tal, Adi Haviv, Amit H. Bermano(参考訳) Evasion Attacks (EA)は、入力データを歪め、モデルを誤った分類に誤導することによって、トレーニングされたニューラルネットワークの堅牢性をテストするために使用される。 これらの攻撃を作ることは、特にモデルやデータセットの複雑さが増す中で、難しい課題である。 そこで本研究では,ブラックボックス設定を想定した逆例生成のための自己教師あり,計算経済的な手法を提案する。 本手法は,表現学習の手法に適応し,データ分布に類似することが奨励される1次元EAを生成する。 これらの攻撃は、トレーニングされたモデルを攻撃する場合の最先端と同等の効果を持つが、モデル自体よりもデータに関連しているため、見えないモデルを攻撃する場合、はるかに効果的である。 実験では,様々なモデル,未認識データカテゴリ,さらには防御されたモデルにおいて,この手法が有効であることを一貫して実証した。

Evasion Attacks (EA) are used to test the robustness of trained neural networks by distorting input data to misguide the model into incorrect classifications. Creating these attacks is a challenging task, especially with the ever-increasing complexity of models and datasets. In this work, we introduce a self-supervised, computationally economical method for generating adversarial examples, designed for the unseen black-box setting. Adapting techniques from representation learning, our method generates on-manifold EAs that are encouraged to resemble the data distribution. These attacks are comparable in effectiveness compared to the state-of-the-art when attacking the model trained on, but are significantly more effective when attacking unseen models, as the attacks are more related to the data rather than the model itself. Our experiments consistently demonstrate the method is effective across various models, unseen data categories, and even defended models, suggesting a significant role for on-manifold EAs when targeting unseen models.
翻訳日:2023-10-06 15:12:47 公開日:2023-10-05
# 量子ビットアーキテクチャ上のスピン-1モデルの適応的変分基底状態準備

Adaptive variational ground state preparation for spin-1 models on qubit-based architectures ( http://arxiv.org/abs/2310.03705v1 )

ライセンス: Link先を確認
Jo\~ao C. Getelina, Cai-Zhuang Wang, Thomas Iadecola, Yong-Xin Yao, Peter P. Orth(参考訳) 1次元スピン$s=1$モデルの基底状態を作成するために適応変分量子虚時発展法(avqite)を適用する。 アルゴリズムの性能と量子資源コストに関して、異なるスピン-量子ビット符号化(標準バイナリ、グレイ、ユニアリ、および多重)を比較した。 状態ベクトルシミュレーションを用いて、逆場イジングスピンのBlume-Capelモデルと単一イオン異方性を持つXXZモデルという2つのよく知られたスピン-1モデルを研究する。 システムのサイズは最大$20$ qubitsで、これは10ドルまでのスピン1ドルのチェーンに相当する。 AVQITE状態生成回路におけるCNOTゲート数の符号化、初期状態、適応法における演算子プールの選択に対する依存性を決定する。 符号化の選択とは独立に,CNOTゲート数はBlume-Capelモデルのスピン数と正弦波XXZモデルのスピン数とで3次スケールすることがわかった。 しかし、多重とグレイのエンコーディングはスケーリング関係においてより小さいプレファクタを示す。 これらの結果は量子ハードウェア上でのAVQITEの実装に役立つ。

We apply the adaptive variational quantum imaginary time evolution (AVQITE) method to prepare ground states of one-dimensional spin $S=1$ models. We compare different spin-to-qubit encodings (standard binary, Gray, unary, and multiplet) with regard to the performance and quantum resource cost of the algorithm. Using statevector simulations we study two well-known spin-1 models: the Blume-Capel model of transverse-field Ising spins with single-ion anisotropy, and the XXZ model with single-ion anisotropy. We consider system sizes of up to $20$ qubits, which corresponds to spin-$1$ chains up to length $10$. We determine the dependence of the number of CNOT gates in the AVQITE state preparation circuit on the encoding, the initial state, and the choice of operator pool in the adaptive method. Independent on the choice of encoding, we find that the CNOT gate count scales cubically with the number of spins for the Blume-Capel model and quartically for the anistropic XXZ model. However, the multiplet and Gray encodings present smaller prefactors in the scaling relations. These results provide useful insights for the implementation of AVQITE on quantum hardware.
翻訳日:2023-10-06 15:12:28 公開日:2023-10-05
# ドラッグビュー:非ポーズ画像による一般的な新しいビュー合成

Drag View: Generalizable Novel View Synthesis with Unposed Imagery ( http://arxiv.org/abs/2310.03704v1 )

ライセンス: Link先を確認
Zhiwen Fan, Panwang Pan, Peihao Wang, Yifan Jiang, Hanwen Jiang, Dejia Xu, Zehao Zhu, Dilin Wang, Zhangyang Wang(参考訳) DragViewは、見えないシーンの新しいビューを生成するための、斬新でインタラクティブなフレームワークである。 DragViewは、新しいビューを単一のソースイメージから初期化し、レンダリングは、未ポーズのマルチビューイメージのスパースセットによってサポートされ、すべて単一のフィードフォワードパス内でシームレスに実行される。 我々のアプローチは、ユーザーがローカルな相対座標系を通してソースビューをドラッグすることから始まる。 サンプルした3d点を目標線に沿ってソースビューに投影して画素整合特徴を得る。 次に、ビュー依存変調層を組み込んでプロジェクション中の閉塞を効果的に処理する。 さらに、エピポーラアテンション機構を広め、すべてのソースピクセルを包含し、初期化座標整合点特徴を他の不適切なビューから集約する。 最後に、別の変換器を用いてレイ特徴を最終的なピクセル強度にデコードする。 重要なことは、我々のフレームワークは2D先行モデルやカメラポーズの明示的な推定に依存していない。 テスト中、dragviewはトレーニング中に目に見えない新しいシーンに一般化する能力を示し、また、サポート画像のみを活用して、フレキシブルなカメラトラジェクタによって特徴付けられるフォトリアリスティックな新しいビューの生成を可能にする。 提案実験では,ポーズフリー条件下でのドラッグビューと最近のシーン表現ネットワークの性能を総合的に比較した。 DragViewは、ビュー合成品質の優れたパフォーマンスを一貫して示すと同時に、ユーザフレンドリである。 プロジェクトページ: https://zhiwenfan.github.io/DragView/。

We introduce DragView, a novel and interactive framework for generating novel views of unseen scenes. DragView initializes the new view from a single source image, and the rendering is supported by a sparse set of unposed multi-view images, all seamlessly executed within a single feed-forward pass. Our approach begins with users dragging a source view through a local relative coordinate system. Pixel-aligned features are obtained by projecting the sampled 3D points along the target ray onto the source view. We then incorporate a view-dependent modulation layer to effectively handle occlusion during the projection. Additionally, we broaden the epipolar attention mechanism to encompass all source pixels, facilitating the aggregation of initialized coordinate-aligned point features from other unposed views. Finally, we employ another transformer to decode ray features into final pixel intensities. Crucially, our framework does not rely on either 2D prior models or the explicit estimation of camera poses. During testing, DragView showcases the capability to generalize to new scenes unseen during training, also utilizing only unposed support images, enabling the generation of photo-realistic new views characterized by flexible camera trajectories. In our experiments, we conduct a comprehensive comparison of the performance of DragView with recent scene representation networks operating under pose-free conditions, as well as with generalizable NeRFs subject to noisy test camera poses. DragView consistently demonstrates its superior performance in view synthesis quality, while also being more user-friendly. Project page: https://zhiwenfan.github.io/DragView/.
翻訳日:2023-10-06 15:12:06 公開日:2023-10-05
# 多変量非線形性を持つニューラルネットワークのバナッハ空間最適性

Banach Space Optimality of Neural Architectures With Multivariate Nonlinearities ( http://arxiv.org/abs/2310.03696v1 )

ライセンス: Link先を確認
Rahul Parhi and Michael Unser(参考訳) 多変量非線形性/活性化関数を持つ大規模ニューラルネットワークの変分最適性(具体的にはバナッハ空間最適性)について検討する。 そのため、正規化作用素と$k$平面変換によって定義されるバナッハ空間の新しい族を構築する。 これらのバナッハ空間上で生じる学習問題に対する解集合が、多変量非線形性を持つニューラルアーキテクチャによって完全に特徴づけられることを証明した。 これらの最適アーキテクチャはスキップ接続を持ち、直交重み正規化やマルチインデックスモデルと密に結びついており、どちらもニューラルネットワークコミュニティに大きな関心を集めている。 本手法は, 直交線形単位(relu)活性化関数, ノルム活性化関数, および薄板/多ハーモニックスプラインの理論に見られる放射基底関数を含む, 数多くの古典非線形性に適合する。 また、基底空間は、カーネルバナッハ空間と変分空間を再現する特別な例であることを示す。 その結果、特に多変量非線形性で訓練されたニューラルネットワークが学習した関数の規則性に光を当て、実際に見つかったいくつかのアーキテクチャ選択に対する新たな理論的動機を与えた。

We investigate the variational optimality (specifically, the Banach space optimality) of a large class of neural architectures with multivariate nonlinearities/activation functions. To that end, we construct a new family of Banach spaces defined via a regularization operator and the $k$-plane transform. We prove a representer theorem that states that the solution sets to learning problems posed over these Banach spaces are completely characterized by neural architectures with multivariate nonlinearities. These optimal architectures have skip connections and are tightly connected to orthogonal weight normalization and multi-index models, both of which have received considerable interest in the neural network community. Our framework is compatible with a number of classical nonlinearities including the rectified linear unit (ReLU) activation function, the norm activation function, and the radial basis functions found in the theory of thin-plate/polyharmonic splines. We also show that the underlying spaces are special instances of reproducing kernel Banach spaces and variation spaces. Our results shed light on the regularity of functions learned by neural networks trained on data, particularly with multivariate nonlinearities, and provide new theoretical motivation for several architectural choices found in practice.
翻訳日:2023-10-06 15:11:40 公開日:2023-10-05
# 確率補間子を用いたマルチマルジナル生成モデル

Multimarginal generative modeling with stochastic interpolants ( http://arxiv.org/abs/2310.03695v1 )

ライセンス: Link先を確認
Michael S. Albergo, Nicholas M. Boffi, Michael Lindsey, Eric Vanden-Eijnden(参考訳) 確率密度のセットをK$とすると、これらの密度を余剰値として回復する共同分布を学習するマルチマージ生成モデル問題を考える。 この結合分布の構造は、所定の辺縁間の多方向対応を識別すべきである。 我々は,確率的補間フレームワークの一般化において,この課題に対するアプローチを定式化し,測度の動的移動に基づく効率的な学習アルゴリズムを実現する。 我々の生成モデルは、単純な2次対象の最小値として特徴づけられる速度場とスコア場によって定義され、通常の動的輸送フレームワークにおける時間変数を一般化する単純な上で定義される。 その結果、単純集合上のトランスポートは全ての辺数に影響され、多方向対応を抽出できることを示した。 このような対応の同定は、スタイル転送、アルゴリズムの公正性、データの破壊に応用できる。 さらに,マルチマルジナル・パースペクティブは,通常の2つのマルジナル・セッティングにおける動的輸送コストを低減する効率的なアルゴリズムを実現する。 これらの容量をいくつかの数値例で示す。

Given a set of $K$ probability densities, we consider the multimarginal generative modeling problem of learning a joint distribution that recovers these densities as marginals. The structure of this joint distribution should identify multi-way correspondences among the prescribed marginals. We formalize an approach to this task within a generalization of the stochastic interpolant framework, leading to efficient learning algorithms built upon dynamical transport of measure. Our generative models are defined by velocity and score fields that can be characterized as the minimizers of simple quadratic objectives, and they are defined on a simplex that generalizes the time variable in the usual dynamical transport framework. The resulting transport on the simplex is influenced by all marginals, and we show that multi-way correspondences can be extracted. The identification of such correspondences has applications to style transfer, algorithmic fairness, and data decorruption. In addition, the multimarginal perspective enables an efficient algorithm for reducing the dynamical transport cost in the ordinary two-marginal setting. We demonstrate these capacities with several numerical examples.
翻訳日:2023-10-06 15:11:17 公開日:2023-10-05
# 微調整された調整された言語モデルは、ユーザが意図していない場合でも、安全性を損ないます!

Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To! ( http://arxiv.org/abs/2310.03693v1 )

ライセンス: Link先を確認
Xiangyu Qi, Yi Zeng, Tinghao Xie, Pin-Yu Chen, Ruoxi Jia, Prateek Mittal, Peter Henderson(参考訳) 下流のユースケースでllm(large language model)を最適化するには、事前学習されたllmのさらなる微調整によるカスタマイズがしばしば必要となる。 MetaのLlamaモデルとカスタムデータセット上で微調整されたGPT-3.5 Turbo用のOpenAIのAPIのオープンリリースも、このプラクティスを奨励している。 しかし、こうしたカスタムの微調整に伴う安全コストは何でしょうか。 既存の安全アライメントインフラは、推定時にLLMの有害な挙動を制限することができるが、細調整特権をエンドユーザに拡張した場合の安全性リスクをカバーしない。 当社のレッドチームの研究によると、llmの安全性アライメントは、いくつかの敵が設計したトレーニング例で微調整することで損なわれることが分かりました。 例えば、Jailbreak GPT-3.5 Turboの安全ガードレールは、OpenAIのAPIを通じて0.20ドル以下のコストで、わずか10つの例で微調整することで、ほぼあらゆる有害な命令に応答する。 また、悪意のある意図がなくても、単に良質で一般的なデータセットと微調整するだけで、llmの安全性アライメントを不用意に低下させる可能性があることもわかりました。 これらの結果から, モデルの初期安全アライメントが不適切であったとしても, カスタム微調整後の維持が必ずしも必要ではない, という新たな安全リスクが生じることが示唆された。 我々は、潜在的な軽減策を概説し批判的に分析し、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究の取り組みを提唱する。

Optimizing large language models (LLMs) for downstream use cases often involves the customization of pre-trained LLMs through further fine-tuning. Meta's open release of Llama models and OpenAI's APIs for fine-tuning GPT-3.5 Turbo on custom datasets also encourage this practice. But, what are the safety costs associated with such custom fine-tuning? We note that while existing safety alignment infrastructures can restrict harmful behaviors of LLMs at inference time, they do not cover safety risks when fine-tuning privileges are extended to end-users. Our red teaming studies find that the safety alignment of LLMs can be compromised by fine-tuning with only a few adversarially designed training examples. For instance, we jailbreak GPT-3.5 Turbo's safety guardrails by fine-tuning it on only 10 such examples at a cost of less than $0.20 via OpenAI's APIs, making the model responsive to nearly any harmful instructions. Disconcertingly, our research also reveals that, even without malicious intent, simply fine-tuning with benign and commonly used datasets can also inadvertently degrade the safety alignment of LLMs, though to a lesser extent. These findings suggest that fine-tuning aligned LLMs introduces new safety risks that current safety infrastructures fall short of addressing -- even if a model's initial safety alignment is impeccable, it is not necessarily to be maintained after custom fine-tuning. We outline and critically analyze potential mitigations and advocate for further research efforts toward reinforcing safety protocols for the custom fine-tuning of aligned LLMs.
翻訳日:2023-10-06 15:10:59 公開日:2023-10-05
# 発展途上国における手続き的ラウンドアバウト生成の確率論的生成モデル

Probabilistic Generative Modeling for Procedural Roundabout Generation for Developing Countries ( http://arxiv.org/abs/2310.03687v1 )

ライセンス: Link先を確認
Zarif Ikram, Ling Pan, Dianbo Liu(参考訳) 限られた資源と急速な経済成長のために、交通シミュレーションと検証をコスト効率の良い方法で行う最適な輸送路網の設計は、大規模な手動テストが高価であり、しばしば実現不可能である発展途上国にとって不可欠である。 現在のルールベースの道路設計ジェネレータには多様性がない。 生成フローネットワーク(gflownets)は、非正規化報酬分布からサンプリングするための確率的ポリシーを学習し、多様性を維持しながら高品質なソリューションを生成する。 本研究は,マルコフ決定プロセスにより,入射道路と円形道路の合流点を連結する問題を定式化し,GFlowNetsをジャンクション・アート道路ジェネレータとして活用する。 提案手法を関連手法と比較したところ,本手法は高い妥当性を保ちつつ,より良い多様性が得られることが示された。

Due to limited resources and fast economic growth, designing optimal transportation road networks with traffic simulation and validation in a cost-effective manner is vital for developing countries, where extensive manual testing is expensive and often infeasible. Current rule-based road design generators lack diversity, a key feature for design robustness. Generative Flow Networks (GFlowNets) learn stochastic policies to sample from an unnormalized reward distribution, thus generating high-quality solutions while preserving their diversity. In this work, we formulate the problem of linking incident roads to the circular junction of a roundabout by a Markov decision process, and we leverage GFlowNets as the Junction-Art road generator. We compare our method with related methods and our empirical results show that our method achieves better diversity while preserving a high validity score.
翻訳日:2023-10-06 15:10:30 公開日:2023-10-05
# DecoderLens: Encoder-Decoder変換子の階層的解釈

DecoderLens: Layerwise Interpretation of Encoder-Decoder Transformers ( http://arxiv.org/abs/2310.03686v1 )

ライセンス: Link先を確認
Anna Langedijk, Hosein Mohebbi, Gabriele Sarti, Willem Zuidema, Jaap Jumelet(参考訳) 近年、トランスフォーマーモデルの内部状態を様々な精度と複雑さで解釈するために、多くの解釈可能性法が提案されている。 本稿では,エンコーダ・デコーダ変換器を解析するために,単純で新しい手法を提案する。 LogitLens(デコーダのみのトランスフォーマー)にインスパイアされたこの手法は、デコーダがエンコーダ-デコーダモデルで通常行われているように、最終的なエンコーダ出力を使用する代わりに中間エンコーダ層を横断的に表現できるようにする。 この方法では、従来解釈できなかったベクトル表現を、単語や記号の人間の解釈可能なシーケンスにマップする。 質問応答,論理的推論,音声認識,機械翻訳を訓練したモデルに適用したDecoderLensの結果を報告する。 DecoderLensは、低層または中間層で解決されるいくつかの特定のサブタスクを明らかにし、この重要なモデルのエンコーダコンポーネント内の情報フローに新たな光を放つ。

In recent years, many interpretability methods have been proposed to help interpret the internal states of Transformer-models, at different levels of precision and complexity. Here, to analyze encoder-decoder Transformers, we propose a simple, new method: DecoderLens. Inspired by the LogitLens (for decoder-only Transformers), this method involves allowing the decoder to cross-attend representations of intermediate encoder layers instead of using the final encoder output, as is normally done in encoder-decoder models. The method thus maps previously uninterpretable vector representations to human-interpretable sequences of words or symbols. We report results from the DecoderLens applied to models trained on question answering, logical reasoning, speech recognition and machine translation. The DecoderLens reveals several specific subtasks that are solved at low or intermediate layers, shedding new light on the information flow inside the encoder component of this important class of models.
翻訳日:2023-10-06 15:10:13 公開日:2023-10-05
# SmoothLLM: 大規模な言語モデルを脱獄攻撃から守る

SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks ( http://arxiv.org/abs/2310.03684v1 )

ライセンス: Link先を確認
Alexander Robey and Eric Wong and Hamed Hassani and George J. Pappas(参考訳) 大きな言語モデル(LLM)を人間の価値観に合わせる努力にもかかわらず、GPT、Llama、Claude、PaLMといった広く使われているLLMはジェイルブレイク攻撃の影響を受けやすい。 この脆弱性に対処するために,LLMに対するジェイルブレーキング攻撃を軽減するために設計された最初のアルゴリズムであるSmoothLLMを提案する。 敵が生成したプロンプトが文字レベルの変更に対して脆弱であることから,我々はまず入力プロンプトの複数のコピーをランダムに摂動させ,対応する予測を集約して敵の入力を検出する。 SmoothLLMは、多くの人気のあるLCMの攻撃成功率を1パーセント以下に減らし、不要な保守性を避け、攻撃緩和の保証を認める。 さらに、我々の防御は、既存の攻撃よりも指数関数的に少ないクエリを使用し、あらゆるllmと互換性がある。

Despite efforts to align large language models (LLMs) with human values, widely-used LLMs such as GPT, Llama, Claude, and PaLM are susceptible to jailbreaking attacks, wherein an adversary fools a targeted LLM into generating objectionable content. To address this vulnerability, we propose SmoothLLM, the first algorithm designed to mitigate jailbreaking attacks on LLMs. Based on our finding that adversarially-generated prompts are brittle to character-level changes, our defense first randomly perturbs multiple copies of a given input prompt, and then aggregates the corresponding predictions to detect adversarial inputs. SmoothLLM reduces the attack success rate on numerous popular LLMs to below one percentage point, avoids unnecessary conservatism, and admits provable guarantees on attack mitigation. Moreover, our defense uses exponentially fewer queries than existing attacks and is compatible with any LLM.
翻訳日:2023-10-06 15:09:54 公開日:2023-10-05
# アンチレラキシエーション被覆および緩衝ガス充填アルカリ蒸気セルにおける光貯蔵の比較研究

Comparative study of light storage in antirelaxation-coated and buffer-gas-filled alkali vapor cells ( http://arxiv.org/abs/2310.03726v1 )

ライセンス: Link先を確認
Marin {\DH}uji\'c, D. Buhin, N. \v{S}anti\'c, D. Aumiler, and T. Ban(参考訳) 熱ルビジウム蒸気中における電磁誘導透過 (EIT) を用いた反緩和コーティングおよび緩衝ガス充填アルカリ気相セルの光貯蔵特性の比較検討を行った。 緩衝ガスを充填した細胞は、抗リラクゼーションコーティング細胞と比較して保存時間と効率が約10倍向上した。 今後のフィールド展開可能な高性能量子メモリの開発に寄与する。

We perform a comparative study of light storage in antirelaxation-coated and buffer-gas-filled alkali-vapor cells using electromagnetically induced transparency (EIT) in warm rubidium vapor. The use of a buffer-gas-filled cell resulted in $\approx$10-fold improvement in storage time and efficiency compared to antirelaxation coated cells. Our findings contribute to the development of future field-deployable high-performance quantum memories.
翻訳日:2023-10-06 13:18:10 公開日:2023-10-05
# データ依存結合を持つ確率補間体

Stochastic interpolants with data-dependent couplings ( http://arxiv.org/abs/2310.03725v1 )

ライセンス: Link先を確認
Michael S. Albergo, Mark Goldstein, Nicholas M. Boffi, Rajesh Ranganath, Eric Vanden-Eijnden(参考訳) フローや拡散のような測度の動的輸送にインスパイアされた生成モデルは、2つの確率密度の間の連続時間マップを構築する。 従来、これらのうちの1つはターゲット密度であり、サンプルを通してのみアクセス可能であり、もう1つはデータに依存しない単純なベース密度である。 本研究では,確率的補間の枠組みを用いて,基底と対象密度をどのように<textit{couple} するかを定式化する。 これにより、クラスラベルや連続埋め込みに関する情報を組み込んで、条件付き生成モデルとして機能する動的トランスポートマップを構築することができる。 これらのトランスポート写像は、標準独立集合に類似した単純な二乗損失回帰問題を解いて得られることを示す。 超高分解能および in-painting の実験を通じて, 実際に依存結合を構築することの有用性を示す。

Generative models inspired by dynamical transport of measure -- such as flows and diffusions -- construct a continuous-time map between two probability densities. Conventionally, one of these is the target density, only accessible through samples, while the other is taken as a simple base density that is data-agnostic. In this work, using the framework of stochastic interpolants, we formalize how to \textit{couple} the base and the target densities. This enables us to incorporate information about class labels or continuous embeddings to construct dynamical transport maps that serve as conditional generative models. We show that these transport maps can be learned by solving a simple square loss regression problem analogous to the standard independent setting. We demonstrate the usefulness of constructing dependent couplings in practice through experiments in super-resolution and in-painting.
翻訳日:2023-10-06 13:18:02 公開日:2023-10-05
# ゼロショットクロスモーダルトランスファーのためのモジュール音声-テキスト変換

Modular Speech-to-Text Translation for Zero-Shot Cross-Modal Transfer ( http://arxiv.org/abs/2310.03724v1 )

ライセンス: Link先を確認
Paul-Ambroise Duquenne, Holger Schwenk, Beno\^it Sagot(参考訳) 近年の研究では、独立に訓練されたエンコーダとデコーダは、共用固定サイズの表現によって結合され、音声からテキストへの翻訳において競争的性能を達成できることが示されている。 本研究では,多言語学習により,このようなアプローチをさらに改善できることを示す。 複数の言語に対するXLSRに基づく教師ありアプローチよりも優れているにもかかわらず、ゼロショット・クロスモーダル音声翻訳の大幅な改善が観察された。

Recent research has shown that independently trained encoders and decoders, combined through a shared fixed-size representation, can achieve competitive performance in speech-to-text translation. In this work, we show that this type of approach can be further improved with multilingual training. We observe significant improvements in zero-shot cross-modal speech translation, even outperforming a supervised approach based on XLSR for several languages.
翻訳日:2023-10-06 13:17:47 公開日:2023-10-05
# 未知分散を持つガウス平均の任意の時価t検定と信頼度列

Anytime-valid t-tests and confidence sequences for Gaussian means with unknown variance ( http://arxiv.org/abs/2310.03722v1 )

ライセンス: Link先を確認
Hongjian Wang and Aaditya Ramdas(参考訳) 1976年、ライは、未知分散 $\sigma$ を持つガウス分布の平均 $\mu$ に対する非自明な信頼列を構築した。 奇妙なことに、彼は$\sigma$以上の不適切な(右ハール)混合物と$\mu$以上の不適切な(フラット)混合物の両方を使用した。 ここでは、一般化された非可積分なマルティンゲールと拡張されたヴィルの不等式を用いる彼の構成の詳細を詳しく述べる。 これはシーケンシャルなt-テストをもたらすが、'e-process'(マルティンゲールの非可積分性のため)は得られない。 本稿では,同一設定のe-プロセスと信頼度シーケンスを2つ開発した。1つは縮小濾過におけるテストマルティンゲール,もう1つは標準データ濾過におけるe-プロセスである。 これらはそれぞれ、lai の平坦混合物をガウス混合物に交換し、右ハール混合物を $\sigma$ でヌルの最大推定値に置き換えることで得られる。 また、エラー確率$\alpha$に興味深い依存があるような、結果の信頼シーケンスの幅も分析する。 数値実験は、様々なアプローチを比較し、対比する過程で提供される。

In 1976, Lai constructed a nontrivial confidence sequence for the mean $\mu$ of a Gaussian distribution with unknown variance $\sigma$. Curiously, he employed both an improper (right Haar) mixture over $\sigma$ and an improper (flat) mixture over $\mu$. Here, we elaborate carefully on the details of his construction, which use generalized nonintegrable martingales and an extended Ville's inequality. While this does yield a sequential t-test, it does not yield an ``e-process'' (due to the nonintegrability of his martingale). In this paper, we develop two new e-processes and confidence sequences for the same setting: one is a test martingale in a reduced filtration, while the other is an e-process in the canonical data filtration. These are respectively obtained by swapping Lai's flat mixture for a Gaussian mixture, and swapping the right Haar mixture over $\sigma$ with the maximum likelihood estimate under the null, as done in universal inference. We also analyze the width of resulting confidence sequences, which have a curious dependence on the error probability $\alpha$. Numerical experiments are provided along the way to compare and contrast the various approaches.
翻訳日:2023-10-06 13:17:38 公開日:2023-10-05
# heap: llmsを使ったwebアクションの階層ポリシー

HeaP: Hierarchical Policies for Web Actions using LLMs ( http://arxiv.org/abs/2310.03720v1 )

ライセンス: Link先を確認
Paloma Sodhi, S.R.K. Branavan, Ryan McDonald(参考訳) 大規模言語モデル(LLM)は、少数かつゼロショット設定でタスクに続く命令を実行する際、顕著な機能を示した。 しかし、LLMにWeb上でタスクを実行するように教えることには、基本的な課題がある。 我々はLLMを活用してWebタスクをサブタスクの集合に分解し、それらを低レベルのクローズドループポリシーで解決する。 これらのポリシーは、タスク間の共通文法、すなわち、新しいwebタスクをこれらのポリシーの構成として表現することができる。 llms(heap)を用いたwebアクションのための階層ポリシーという新しいフレームワークを提案し,高レベルタスクを計画し,低レベルポリシのシーケンスを通じて実行するためのデモンストレーションから階層的llmプロンプトのセットを学習する。 我々は、MiniWoB++、WebArena、モック航空CRM、ライブWebサイトのインタラクションなど、一連のWebタスクのベースラインに対してHeaPを評価し、桁違いに少ないデータで先行作業より優れていることを示す。

Large language models (LLMs) have demonstrated remarkable capabilities in performing a range of instruction following tasks in few and zero-shot settings. However, teaching LLMs to perform tasks on the web presents fundamental challenges -- combinatorially large open-world tasks and variations across web interfaces. We tackle these challenges by leveraging LLMs to decompose web tasks into a collection of sub-tasks, each of which can be solved by a low-level, closed-loop policy. These policies constitute a shared grammar across tasks, i.e., new web tasks can be expressed as a composition of these policies. We propose a novel framework, Hierarchical Policies for Web Actions using LLMs (HeaP), that learns a set of hierarchical LLM prompts from demonstrations for planning high-level tasks and executing them via a sequence of low-level policies. We evaluate HeaP against a range of baselines on a suite of web tasks, including MiniWoB++, WebArena, a mock airline CRM, as well as live website interactions, and show that it is able to outperform prior works using orders of magnitude less data.
翻訳日:2023-10-06 13:17:16 公開日:2023-10-05
# ブラッグ回折とブロッホ振動を用いた弱曲線時空の原子干渉計

Atom interferometers in weakly curved spacetimes using Bragg diffraction and Bloch oscillations ( http://arxiv.org/abs/2310.03719v1 )

ライセンス: Link先を確認
Michael Werner, Philip K. Schwartz, Jan-Niclas Kirsten-Siem{\ss}, Naceur Gaaloul, Domenico Giulini and Klemens Hammerer(参考訳) 本研究では,光パルス原子干渉計において最大$\mathcal{o}(c^{-2})$までの相対論的位相を弾性散乱(ブラッグ回折)とブロッホ振動(ブロッホ振動)に基づく弱い曲がった時空で決定する系統的アプローチを提案する。 我々の分析は、パラメータ化ポストニュートン形式を用いた第一原理から導かれる。 ここでは、任意の干渉計ジオメトリに対する相対論的位相の代数的表現を自動的に導出する。 ケーススタディでは、対称および反対称ラムゼー・ボーデ波干渉計、および10mと100mの基線長を持つ対称二重回折干渉計について検討する。 我々は,マッハ・ツェンダー干渉計の計算結果と比較した。

We present a systematic approach to determine all relativistic phases up to $\mathcal{O}(c^{-2})$ in light-pulse atom interferometers in weakly curved spacetime that are based on elastic scattering, namely Bragg diffraction and Bloch oscillations. Our analysis is derived from first principles using the parameterized post-Newtonian formalism. In the treatment developed here, we derive algebraic expressions for relativistic phases for arbitrary interferometer geometries in an automated manner. As case studies, we consider symmetric and antisymmetric Ramsey-Bord\'e interferometers, as well as a symmetric double diffraction interferometer with baseline lengths of 10 m and 100 m. We compare our results to previous calculations conducted for a Mach-Zehnder interferometer.
翻訳日:2023-10-06 13:16:57 公開日:2023-10-05
# 安全強化学習のための制約条件付きポリシー最適化

Constraint-Conditioned Policy Optimization for Versatile Safe Reinforcement Learning ( http://arxiv.org/abs/2310.03718v1 )

ライセンス: Link先を確認
Yihang Yao, Zuxin Liu, Zhepeng Cen, Jiacheng Zhu, Wenhao Yu, Tingnan Zhang, Ding Zhao(参考訳) 安全強化学習(RL)は、事前定義された安全制約を受ける報酬最大化エージェントの訓練に焦点を当てる。 しかし、展開中のさまざまな安全制約に適応できる万能な安全ポリシーを、再訓練なしに学習することは、未調査で困難な領域である。 本研究では, 汎用安全RL問題を定式化し, トレーニング効率とゼロショット適応能力の2つの主要な要件について考察する。 そこで我々は,条件付き制約付き政策最適化 (CCPO) フレームワークを導入し,(1) 未知のしきい値条件下で値関数を近似するVersatile Value Estimation (VVE) と,(2) ポリシー最適化中の任意の制約しきい値の符号化を行う Conditioned Variational Inference (CVI) の2つの重要なモジュールについて述べる。 CCPOは安全性とタスク性能の点で基準線を上回り、ゼロショット適応能力はデータ効率の異なる制約閾値に保たれることを示した。 これにより、我々のアプローチは実世界の動的アプリケーションに適している。

Safe reinforcement learning (RL) focuses on training reward-maximizing agents subject to pre-defined safety constraints. Yet, learning versatile safe policies that can adapt to varying safety constraint requirements during deployment without retraining remains a largely unexplored and challenging area. In this work, we formulate the versatile safe RL problem and consider two primary requirements: training efficiency and zero-shot adaptation capability. To address them, we introduce the Conditioned Constrained Policy Optimization (CCPO) framework, consisting of two key modules: (1) Versatile Value Estimation (VVE) for approximating value functions under unseen threshold conditions, and (2) Conditioned Variational Inference (CVI) for encoding arbitrary constraint thresholds during policy optimization. Our extensive experiments demonstrate that CCPO outperforms the baselines in terms of safety and task performance while preserving zero-shot adaptation capabilities to different constraint thresholds data-efficiently. This makes our approach suitable for real-world dynamic applications.
翻訳日:2023-10-06 13:16:43 公開日:2023-10-05
# 長い道のり:RLHFにおける長さ相関の調査

A Long Way to Go: Investigating Length Correlations in RLHF ( http://arxiv.org/abs/2310.03716v1 )

ライセンス: Link先を確認
Prasann Singhal, Tanya Goyal, Jiacheng Xu, Greg Durrett(参考訳) 大規模な言語モデルを調整するために、Reinforcement Learning from Human Feedback (RLHF)を用いて大きな成功が報告されている。 オープンソースのプレファレンスデータセットと報酬モデルによって、一般的なチャット設定を超えて、より広範な実験が可能になった。 有用性を最適化する際、RLHFはより長い出力を生み出すためにモデルを動かすために一貫して観察されてきた。 本稿では, 応答長の最適化がRLHFが報告したこれらの設定改善の背景にある重要な要因であることを示す。 まず,3つのオープンソース嗜好データセットを用いて学習した報酬モデルに対する報酬と長さの関係について検討した。 ここでは、長さは報酬と強く相関し、出力長よりも分布をシフトすることで、報酬スコアの改善が大部分で駆動される。 次に、RLと報奨モデル学習の間の介入を探り、RLHFと同じ下流改善を長さを増すことなく達成できるかどうかを確かめる。 私たちの介入は長さを軽減しますが、設定毎に一様に有効ではありません。 さらに、RLHFを長さのみに基づいて実行しても、初期ポリシーモデルよりもダウンストリームの改善のほとんどを再現することができ、これらの設定での報酬モデルには長い道のりがあることが分かる。

Great successes have been reported using Reinforcement Learning from Human Feedback (RLHF) to align large language models. Open-source preference datasets and reward models have enabled wider experimentation beyond generic chat settings, particularly to make systems more "helpful" for tasks like web question answering, summarization, and multi-turn dialogue. When optimizing for helpfulness, RLHF has been consistently observed to drive models to produce longer outputs. This paper demonstrates that optimizing for response length is a significant factor behind RLHF's reported improvements in these settings. First, we study the relationship between reward and length for reward models trained on three open-source preference datasets for helpfulness. Here, length correlates strongly with reward, and improvements in reward score are driven in large part by shifting the distribution over output lengths. We then explore interventions during both RL and reward model learning to see if we can achieve the same downstream improvements as RLHF without increasing length. While our interventions mitigate length increases, they aren't uniformly effective across settings. Furthermore, we find that even running RLHF with a reward based solely on length can reproduce most of the downstream improvements over the initial policy model, showing that reward models in these settings have a long way to go.
翻訳日:2023-10-06 13:16:23 公開日:2023-10-05
# 人工知能指数2023年レポート

Artificial Intelligence Index Report 2023 ( http://arxiv.org/abs/2310.03715v1 )

ライセンス: Link先を確認
Nestor Maslej, Loredana Fattorini, Erik Brynjolfsson, John Etchemendy, Katrina Ligett, Terah Lyons, James Manyika, Helen Ngo, Juan Carlos Niebles, Vanessa Parli, Yoav Shoham, Russell Wald, Jack Clark, and Raymond Perrault(参考訳) AI Index Reportの第6版にようこそ。 今年レポートでは、AIに関する新たな章、より徹底した技術パフォーマンスの章、大規模言語とマルチモーダルモデルに関するオリジナル分析、グローバルAI規制記録の詳細なトレンド、AIシステムの環境影響の研究など、これまでのどのエディションよりも多くのオリジナルデータを紹介している。 AI Index Reportは、人工知能に関連するデータを追跡、照合、蒸留、可視化する。 私たちのミッションは、政策立案者、研究者、幹部、ジャーナリスト、および一般大衆に対して、aiの複雑な分野をより徹底的かつニュアンス的に理解するための、偏見のない、厳格な、広くソースされたデータを提供することです。 このレポートは、AIに関するデータと洞察の最も信頼性が高く権威のある情報源になることを目指している。

Welcome to the sixth edition of the AI Index Report. This year, the report introduces more original data than any previous edition, including a new chapter on AI public opinion, a more thorough technical performance chapter, original analysis about large language and multimodal models, detailed trends in global AI legislation records, a study of the environmental impact of AI systems, and more. The AI Index Report tracks, collates, distills, and visualizes data related to artificial intelligence. Our mission is to provide unbiased, rigorously vetted, broadly sourced data in order for policymakers, researchers, executives, journalists, and the general public to develop a more thorough and nuanced understanding of the complex field of AI. The report aims to be the world's most credible and authoritative source for data and insights about AI.
翻訳日:2023-10-06 13:16:01 公開日:2023-10-05
# DSPy:宣言型言語モデルコールを自己改善パイプラインにコンパイルする

DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines ( http://arxiv.org/abs/2310.03714v1 )

ライセンス: Link先を確認
Omar Khattab, Arnav Singhvi, Paridhi Maheshwari, Zhiyuan Zhang, Keshav Santhanam, Sri Vardhamanan, Saiful Haq, Ashutosh Sharma, Thomas T. Joshi, Hanna Moazam, Heather Miller, Matei Zaharia, Christopher Potts(参考訳) MLコミュニティは、言語モデル(LM)を推進し、それらを複雑なタスクを解決するパイプラインに積み上げるテクニックを急速に探求している。 残念ながら、既存のLMパイプラインは通常、ハードコードされた「プロンプトテンプレート」を使って実装されている。 lmパイプラインの開発と最適化のためのより体系的なアプローチとして,lmパイプラインをテキスト変換グラフとして抽象化するプログラミングモデルdspyを紹介する。 DSPyモジュールはパラメータ化され、即興性、微調整性、拡張性、推論技術の適用方法を学ぶことができる(デモの作成と収集)。 我々は、任意のDSPyパイプラインを最適化して、与えられたメトリックを最大化するコンパイラを設計する。 2つのケーススタディを実施し,簡潔なdspyプログラムが,数学用語問題に対する推論やマルチホップ検索,複雑な質問への回答,エージェントループの制御といった高度なlmパイプラインの表現と最適化が可能であることを示した。 コンパイル後数分で、数行のDSPyでGPT-3.5とllama2-13b-chatをセルフブートストラップパイプラインで使用でき、標準のショットプロンプト(それぞれ25%以上と65%以上)と専門家が作成したデモ(それぞれ5-46%と16-40%)のパイプラインより優れている。 さらに、770MパラメータT5やllama2-13b-chatのようなオープンかつ比較的小さなLMにコンパイルされたDSPyプログラムは、プロプライエタリなGPT-3.5のために専門家によるプロンプトチェーンに依存するアプローチと競合する。 DSPyはhttps://github.com/stanfordnlp/dspyで入手できる。

The ML community is rapidly exploring techniques for prompting language models (LMs) and for stacking them into pipelines that solve complex tasks. Unfortunately, existing LM pipelines are typically implemented using hard-coded "prompt templates", i.e. lengthy strings discovered via trial and error. Toward a more systematic approach for developing and optimizing LM pipelines, we introduce DSPy, a programming model that abstracts LM pipelines as text transformation graphs, i.e. imperative computational graphs where LMs are invoked through declarative modules. DSPy modules are parameterized, meaning they can learn (by creating and collecting demonstrations) how to apply compositions of prompting, finetuning, augmentation, and reasoning techniques. We design a compiler that will optimize any DSPy pipeline to maximize a given metric. We conduct two case studies, showing that succinct DSPy programs can express and optimize sophisticated LM pipelines that reason about math word problems, tackle multi-hop retrieval, answer complex questions, and control agent loops. Within minutes of compiling, a few lines of DSPy allow GPT-3.5 and llama2-13b-chat to self-bootstrap pipelines that outperform standard few-shot prompting (generally by over 25% and 65%, respectively) and pipelines with expert-created demonstrations (by up to 5-46% and 16-40%, respectively). On top of that, DSPy programs compiled to open and relatively small LMs like 770M-parameter T5 and llama2-13b-chat are competitive with approaches that rely on expert-written prompt chains for proprietary GPT-3.5. DSPy is available at https://github.com/stanfordnlp/dspy
翻訳日:2023-10-06 13:15:45 公開日:2023-10-05
# Visual Instruction Tuningによるベースラインの改善

Improved Baselines with Visual Instruction Tuning ( http://arxiv.org/abs/2310.03744v1 )

ライセンス: Link先を確認
Haotian Liu, Chunyuan Li, Yuheng Li, Yong Jae Lee(参考訳) 大規模マルチモーダルモデル(LMM)は近年,視覚的インストラクションチューニングの進歩を示す。 本稿では,llavaの視覚言語クロスモーダルコネクタが驚くほど強力でデータ効率が良いことを示す。 MLPプロジェクションによるCLIP-ViT-L-336pxによるLLaVAの簡単な修正と、シンプルな応答フォーマッティングプロンプトによる学術タスク指向VQAデータの追加により、11のベンチマークで最先端を達成するための強力なベースラインを確立する。 最後の13Bチェックポイントは1.2万の公開データしか使用せず、単一の8-A100ノードで1日以内で完全なトレーニングを終えます。 これにより、最先端のLMM研究がよりアクセスしやすくなることを願っています。 コードとモデルは公開されます。

Large multimodal models (LMM) have recently shown encouraging progress with visual instruction tuning. In this note, we show that the fully-connected vision-language cross-modal connector in LLaVA is surprisingly powerful and data-efficient. With simple modifications to LLaVA, namely, using CLIP-ViT-L-336px with an MLP projection and adding academic-task-oriented VQA data with simple response formatting prompts, we establish stronger baselines that achieve state-of-the-art across 11 benchmarks. Our final 13B checkpoint uses merely 1.2M publicly available data, and finishes full training in ~1 day on a single 8-A100 node. We hope this can make state-of-the-art LMM research more accessible. Code and model will be publicly available.
翻訳日:2023-10-06 13:09:53 公開日:2023-10-05
# 眠れないロボット:スニーカーの音像の定位化

The Un-Kidnappable Robot: Acoustic Localization of Sneaking People ( http://arxiv.org/abs/2310.03743v1 )

ライセンス: Link先を確認
Mengyu Yang, Patrick Grady, Samarth Brahmbhatt, Arun Balajee Vasudevan, Charles C. Kemp, James Hays(参考訳) ロボットに忍び寄るのは、どれくらい簡単か? 静かでいようとも、移動時に発生する偶発的な音のみを用いて人を検出することができるかどうかを検討する。 室内で動く人々の360度RGBデータと組み合わせて、高品質な4チャンネルオーディオのロボットデータセットを収集する。 音声のみを使用して、近くに動く人物と位置を予測できるモデルを訓練する。 本手法をロボットに実装することにより,受動的音声センサのみを用いて,一人の人物が静かに動くことを追跡できる。 デモビデオをご覧ください。 https://sites.google.com/view/unkidnappable-robot

How easy is it to sneak up on a robot? We examine whether we can detect people using only the incidental sounds they produce as they move, even when they try to be quiet. We collect a robotic dataset of high-quality 4-channel audio paired with 360 degree RGB data of people moving in different indoor settings. We train models that predict if there is a moving person nearby and their location using only audio. We implement our method on a robot, allowing it to track a single person moving quietly with only passive audio sensing. For demonstration videos, see our project page: https://sites.google.com/view/unkidnappable-robot
翻訳日:2023-10-06 13:09:38 公開日:2023-10-05
# ContactGen: Grasp生成のための生成的コンタクトモデリング

ContactGen: Generative Contact Modeling for Grasp Generation ( http://arxiv.org/abs/2310.03740v1 )

ライセンス: Link先を確認
Shaowei Liu, Yang Zhou, Jimei Yang, Saurabh Gupta, Shenlong Wang(参考訳) 本稿では,ハンド・オブジェクトインタラクションのための新しい物体中心接触表現コンタクトジェネレータを提案する。 コンタクトマップは、接触位置を示す接触マップと、接触ハンド部を表す部分マップと、各部分内の接触方向を示す方向マップと、の3つの構成からなる。 入力対象に与えられた条件付き生成モデルを用いてコンタクトゲンを予測し,モデルに基づく最適化を行い,多様かつ幾何学的に実現可能な把握を予測できる。 実験の結果,多種多様な物体に対して高い忠実度と多様な人間の把持を生成できることが実証された。 プロジェクトページ: https://stevenlsw.github.io/contactgen/

This paper presents a novel object-centric contact representation ContactGen for hand-object interaction. The ContactGen comprises three components: a contact map indicates the contact location, a part map represents the contact hand part, and a direction map tells the contact direction within each part. Given an input object, we propose a conditional generative model to predict ContactGen and adopt model-based optimization to predict diverse and geometrically feasible grasps. Experimental results demonstrate our method can generate high-fidelity and diverse human grasps for various objects. Project page: https://stevenlsw.github.io/contactgen/
翻訳日:2023-10-06 13:09:29 公開日:2023-10-05
# 逆バックプロパゲーションを用いたテキスト・画像拡散モデルの調整

Aligning Text-to-Image Diffusion Models with Reward Backpropagation ( http://arxiv.org/abs/2310.03739v1 )

ライセンス: Link先を確認
Mihir Prabhudesai and Anirudh Goyal and Deepak Pathak and Katerina Fragkiadaki(参考訳) テキストから画像への拡散モデルは、画像生成の最前線で最近登場しており、非常に大規模な教師なしまたは弱い教師なしのテキストから画像へのトレーニングデータセットを使用している。 教師なしの訓練のため、人間の知覚された画像品質、画像テキストアライメント、倫理的画像生成などの下流作業における行動を制御することは困難である。 近年のバニラ強化学習による下流の報酬関数への拡散モデルの研究は、勾配推定器の高分散で有名である。 本稿では,報奨勾配のエンド・ツー・エンドバックプロパゲーションを用いて,拡散モデルを下流報酬関数に整合させる手法であるアライメントプロップを提案する。 このようなバックプロパゲーションのナイーブな実装では、現代のテキストから画像へのモデルの部分的な派生を格納するための制限的なメモリリソースが必要となるが、allenpropは低ランクのアダプタ重みモジュールを微調整し、グラデーションチェックポイントを使用する。 画像テキストのセマンティックアライメント,美学,オブジェクト数の圧縮性と制御性,およびそれらの組み合わせなど,さまざまな目的に対する微調整拡散モデルでAlignPropをテストする。 また,AlignPropは,学習段階を減らしてより高い報酬を得られるが,概念的にはシンプルであり,興味のある報酬関数に対する拡散モデルを最適化するための簡単な選択であることを示す。 コードと視覚化の結果はhttps://align-prop.github.io/で確認できる。

Text-to-image diffusion models have recently emerged at the forefront of image generation, powered by very large-scale unsupervised or weakly supervised text-to-image training datasets. Due to their unsupervised training, controlling their behavior in downstream tasks, such as maximizing human-perceived image quality, image-text alignment, or ethical image generation, is difficult. Recent works finetune diffusion models to downstream reward functions using vanilla reinforcement learning, notorious for the high variance of the gradient estimators. In this paper, we propose AlignProp, a method that aligns diffusion models to downstream reward functions using end-to-end backpropagation of the reward gradient through the denoising process. While naive implementation of such backpropagation would require prohibitive memory resources for storing the partial derivatives of modern text-to-image models, AlignProp finetunes low-rank adapter weight modules and uses gradient checkpointing, to render its memory usage viable. We test AlignProp in finetuning diffusion models to various objectives, such as image-text semantic alignment, aesthetics, compressibility and controllability of the number of objects present, as well as their combinations. We show AlignProp achieves higher rewards in fewer training steps than alternatives, while being conceptually simpler, making it a straightforward choice for optimizing diffusion models for differentiable reward functions of interest. Code and Visualization results are available at https://align-prop.github.io/.
翻訳日:2023-10-06 13:09:19 公開日:2023-10-05
# Stylist:ロバストノベルティ検出のためのスタイル駆動機能ランキング

Stylist: Style-Driven Feature Ranking for Robust Novelty Detection ( http://arxiv.org/abs/2310.03738v1 )

ライセンス: Link先を確認
Stefan Smeu, Elena Burceanu, Emanuela Haller, Andrei Liviu Nicolicioiu(参考訳) 新規検出は、観察されたサンプルの分布と何らかの形で異なるサンプルを見つけることを目的としている。 しかし、すべての変更が等しく作成されるわけではない。 データは多岐にわたる分散シフトに苦しむ可能性があり、関連する変更の種類だけを検出したい場合もあります。 アウト・オブ・ディストリビューションの一般化における作業と同様に、我々のタスクと関係のある意味的・内容的変化と、無関係なスタイル変化の分離を形式化することを提案する。 この形式化の中で、ロバストな新規性検出は、スタイル分布シフトにロバストでありながら意味的変化を見つけるタスクとして定義する。 事前学習された大規模モデル表現を活用して,環境に偏りのある機能をドロップする,新しい手法であるstylistを提案する。 まず,環境間の特徴分布距離に基づいて特徴点ごとのスコアを計算する。 次に,この選択により,突発的相関の原因となる特徴を取り除き,新規検出性能を向上できることを示す。 評価のために、ドメイン一般化データセットをタスクに適用し、メソッドの振る舞いを分析する。 さらに、スプリアス相関度をコントロールする大規模な合成データセットを構築しました。 我々の選択メカニズムは、複数のデータセットにまたがる新規性検出アルゴリズムを改善し、スタイリスティックおよびコンテンツシフトの両方を含むことを示す。

Novelty detection aims at finding samples that differ in some form from the distribution of seen samples. But not all changes are created equal. Data can suffer a multitude of distribution shifts, and we might want to detect only some types of relevant changes. Similar to works in out-of-distribution generalization, we propose to use the formalization of separating into semantic or content changes, that are relevant to our task, and style changes, that are irrelevant. Within this formalization, we define the robust novelty detection as the task of finding semantic changes while being robust to style distributional shifts. Leveraging pretrained, large-scale model representations, we introduce Stylist, a novel method that focuses on dropping environment-biased features. First, we compute a per-feature score based on the feature distribution distances between environments. Next, we show that our selection manages to remove features responsible for spurious correlations and improve novelty detection performance. For evaluation, we adapt domain generalization datasets to our task and analyze the methods behaviors. We additionally built a large synthetic dataset where we have control over the spurious correlations degree. We prove that our selection mechanism improves novelty detection algorithms across multiple datasets, containing both stylistic and content shifts.
翻訳日:2023-10-06 13:08:50 公開日:2023-10-05
# フェルミガス中のトポロジー密度相関

Topological Density Correlations in a Fermi Gas ( http://arxiv.org/abs/2310.03737v1 )

ライセンス: Link先を確認
Pok Man Tam and Charles L. Kane(参考訳) 非相互作用電子のフェルミ気体(英: Fermi gas)は、フェルミ海として知られる運動量空間における占有領域によって定義される量子基底状態を持つ。 フェルミ海のオイラー特性$\chi_F$は、これらの隙間のないフェルミオン状態の位相的分類に役立つ。 D$次元フェルミ海の位相は、$D+1$点等しい時間密度相関関数に物理的に符号化される。 そこで本研究では, 相関関数の評価が, 点, リンク, 三角形の集まりとそれらの高次元の類似物によるフェルミ海の三角測量によって定式化できることを示すことによって, この事実の簡単な証明を示す。 次に、位相的$d+1$ポイント密度相関を用いて、d$ 次元フェルミ気体におけるより一般的な$m$ポイント密度相関関数の普遍構造を明らかにする。 これらの相関の観測には2つの実験方法が提案されている。 量子ガス顕微鏡で観察した低温の原子ガスでは、3次密度相関の測定が可能であり、そこから約100原子程度の系で$\chi_F$を確実に抽出することができる。 固体電子ガスに対する非線形X線散乱実験において, 強度変動のスペックルパターンの相関測定を提案する。

A Fermi gas of non-interacting electrons, or ultra-cold fermionic atoms, has a quantum ground state defined by a region of occupancy in momentum space known as the Fermi sea. The Euler characteristic $\chi_F$ of the Fermi sea serves to topologically classify these gapless fermionic states. The topology of a $D$ dimensional Fermi sea is physically encoded in the $D+1$ point equal time density correlation function. In this work, we first present a simple proof of this fact by showing that the evaluation of the correlation function can be formulated in terms of a triangulation of the Fermi sea with a collection of points, links and triangles and their higher dimensional analogs. We then make use of the topological $D+1$ point density correlation to reveal universal structures of the more general $M$ point density correlation functions in a $D$ dimensional Fermi gas. Two experimental methods are proposed for observing these correlations in $D=2$. In cold atomic gases imaged by quantum gas microscopy, our analysis supports the feasibility of measuring the third order density correlation, from which $\chi_F$ can be reliably extracted in systems with as few as around 100 atoms. For solid-state electron gases, we propose measuring correlations in the speckle pattern of intensity fluctuations in nonlinear X-ray scattering experiments.
翻訳日:2023-10-06 13:08:28 公開日:2023-10-05
# 曲線レット変換の不確実性原理と短い格子ベクトルを求める量子アルゴリズムの不実現性

An Uncertainty Principle for the Curvelet Transform, and the Infeasibility of Quantum Algorithms for Finding Short Lattice Vectors ( http://arxiv.org/abs/2310.03735v1 )

ライセンス: Link先を確認
Yi-Kai Liu(参考訳) 曲線変換は特別な種類のウェーブレット変換であり、ユークリッド空間で伝播する波の位置と向きを推定するのに有用である。 我々は、n次元のラジアル波動関数に対して、これらの推定の分散を下限とする不確実性原理を証明する。 この不確実性原理の適用例として、近似的最短ベクトル問題(近似-SVP)や境界距離復号法(BDD)といった格子問題の解法として量子アルゴリズムを構築する方法の有効性を示す。 これは、整数プログラミングのアルゴリズムや量子後暗号システムにおいて重要な役割を果たす近似SVPの計算難解性に関する洞察を与える。 格子問題を解くこのアプローチでは、格子点を中心とするガウス型波動関数の量子重ね合わせを準備する。 この手順の重要なステップは、量子曲線変換を用いて各ガウス型波動関数の中心を見つけることである。 ガウス波動関数の任意の選択に対して、このステップの誤差はBDDと近似SVPを解くのに必要なしきい値を超えていることが示される。

The curvelet transform is a special type of wavelet transform, which is useful for estimating the locations and orientations of waves propagating in Euclidean space. We prove an uncertainty principle that lower-bounds the variance of these estimates, for radial wave functions in n dimensions. As an application of this uncertainty principle, we show the infeasibility of one approach to constructing quantum algorithms for solving lattice problems, such as the approximate shortest vector problem (approximate-SVP), and bounded distance decoding (BDD). This gives insight into the computational intractability of approximate-SVP, which plays an important role in algorithms for integer programming, and in post-quantum cryptosystems. In this approach to solving lattice problems, one prepares quantum superpositions of Gaussian-like wave functions centered at lattice points. A key step in this procedure requires finding the center of each Gaussian-like wave function, using the quantum curvelet transform. We show that, for any choice of the Gaussian-like wave function, the error in this step will be above the threshold required to solve BDD and approximate-SVP.
翻訳日:2023-10-06 13:07:45 公開日:2023-10-05
# サイクル整合性による視覚言語生成モデルのための未ペアデータの活用

Leveraging Unpaired Data for Vision-Language Generative Models via Cycle Consistency ( http://arxiv.org/abs/2310.03734v1 )

ライセンス: Link先を確認
Tianhong Li, Sangnie Bhardwaj, Yonglong Tian, Han Zhang, Jarred Barber, Dina Katabi, Guillaume Lajoie, Huiwen Chang, Dilip Krishnan(参考訳) 現在の視覚言語生成モデルは、最適な性能と一般化能力を得るために、ペア画像テキストデータの拡張コーパスに依存している。 しかし、このようなデータを自動的に収集する(例えば、大規模なWebスクレイピング)と品質が低下し、画像とテキストの相関が低下する一方、人間のアノテーションはより正確であるが、かなりの手作業と費用を要する。 私たちは、$\textbf{itit}$ (\textbf{i}$n$\textbf{t}$egrating $\textbf{i}$mage $\textbf{t}$ext): 非ペア画像とテキストデータの視覚言語トレーニングを可能にする、サイクル一貫性の概念に基づく革新的なトレーニングパラダイムを紹介します。 ITITは、分離された画像とテキストデコーダを備えたジョイントな画像テキストエンコーダで構成され、単一のフレームワークで双方向の画像テキスト生成とテキスト画像生成を可能にする。 トレーニング中、ITITは小さな組のイメージテキストデータを活用し、その出力が両方の方向の入力と合理的に一致することを保証する。 同時に、モデルは画像やテキストのみを含むはるかに大きなデータセットでトレーニングされる。 これは、元のアンペアサンプルとサイクル生成サンプルの間のサイクル一貫性を強制することによって達成される。 例えば、与えられた入力画像のキャプションを生成し、そのキャプションを使用して出力画像を生成し、入力画像と出力画像の類似性を強制する。 実験の結果,非ペアデータセットを用いたITITは,高品質なペアデータを用いた場合と同様のスケーリング動作を示すことがわかった。 画像生成とキャプションのパフォーマンスは、最先端のテキスト対画像モデルや画像対テキストモデルと同等であり、画像対テキストデータの桁数が少ない(わずか3m)。

Current vision-language generative models rely on expansive corpora of paired image-text data to attain optimal performance and generalization capabilities. However, automatically collecting such data (e.g. via large-scale web scraping) leads to low quality and poor image-text correlation, while human annotation is more accurate but requires significant manual effort and expense. We introduce $\textbf{ITIT}$ ($\textbf{I}$n$\textbf{T}$egrating $\textbf{I}$mage $\textbf{T}$ext): an innovative training paradigm grounded in the concept of cycle consistency which allows vision-language training on unpaired image and text data. ITIT is comprised of a joint image-text encoder with disjoint image and text decoders that enable bidirectional image-to-text and text-to-image generation in a single framework. During training, ITIT leverages a small set of paired image-text data to ensure its output matches the input reasonably well in both directions. Simultaneously, the model is also trained on much larger datasets containing only images or texts. This is achieved by enforcing cycle consistency between the original unpaired samples and the cycle-generated counterparts. For instance, it generates a caption for a given input image and then uses the caption to create an output image, and enforces similarity between the input and output images. Our experiments show that ITIT with unpaired datasets exhibits similar scaling behavior as using high-quality paired data. We demonstrate image generation and captioning performance on par with state-of-the-art text-to-image and image-to-text models with orders of magnitude fewer (only 3M) paired image-text data.
翻訳日:2023-10-06 13:07:23 公開日:2023-10-05
# MathCoder: 拡張数学的推論のためのLLMにおけるシームレスコード統合

MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical Reasoning ( http://arxiv.org/abs/2310.03731v1 )

ライセンス: Link先を確認
Ke Wang, Houxing Ren, Aojun Zhou, Zimu Lu, Sichun Luo, Weikang Shi, Renrui Zhang, Linqi Song, Mingjie Zhan, Hongsheng Li(参考訳) 先日リリースされたGPT-4 Code Interpreterは、自然言語でシームレスに推論し、コードを生成し、コードを実行し、実行出力に基づいて推論を継続する能力に起因した、難解な数学問題の解決に優れた能力を示した。 本稿では,オープンソースの言語モデルを微調整し,数式をモデル化し導出するためのコードの利用を可能にし,その数学的推論能力を向上させる手法を提案する。 本稿では,数学問題とそのコードベースソリューションを用いた,新規かつ高品質なデータセットの生成法を提案する。 各ソリューションは自然言語、コード、実行結果をインターリーブする。 また,教師付き微調整と推論をカスタマイズしたアプローチも導入する。 このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。 印象的なことに、MathCoderモデルは、MATH (45.2%) と GSM8K (83.9%) のデータセット上のオープンソース LLM のうち、最先端のスコアを獲得し、他のオープンソース代替よりも大幅に上回っている。 特に、MathCoderモデルは、GSM8KとMATHでChatGPT-3.5とPaLM-2を上回るだけでなく、競合レベルのMATHデータセットでGPT-4を上回っている。 データセットとモデルはhttps://github.com/mathllm/mathcoderでリリースされる。

The recently released GPT-4 Code Interpreter has demonstrated remarkable proficiency in solving challenging math problems, primarily attributed to its ability to seamlessly reason with natural language, generate code, execute code, and continue reasoning based on the execution output. In this paper, we present a method to fine-tune open-source language models, enabling them to use code for modeling and deriving math equations and, consequently, enhancing their mathematical reasoning abilities. We propose a method of generating novel and high-quality datasets with math problems and their code-based solutions, referred to as MathCodeInstruct. Each solution interleaves natural language, code, and execution results. We also introduce a customized supervised fine-tuning and inference approach. This approach yields the MathCoder models, a family of models capable of generating code-based solutions for solving challenging math problems. Impressively, the MathCoder models achieve state-of-the-art scores among open-source LLMs on the MATH (45.2%) and GSM8K (83.9%) datasets, substantially outperforming other open-source alternatives. Notably, the MathCoder model not only surpasses ChatGPT-3.5 and PaLM-2 on GSM8K and MATH but also outperforms GPT-4 on the competition-level MATH dataset. The dataset and models will be released at https://github.com/mathllm/MathCoder.
翻訳日:2023-10-06 13:06:47 公開日:2023-10-05
# 単一電子源におけるタイミングノイズ誘起デコヒーレンスの特性と緩和

Characterizing and Mitigating Timing Noise-Induced Decoherence in Single Electron Sources ( http://arxiv.org/abs/2310.03728v1 )

ライセンス: Link先を確認
Sungguen Ryu, Rosa L\'opez, Lloren\c{c} Serra, David Sanchez, and Michael Moskalets(参考訳) 単一電子源(SES)におけるデコヒーレンスの同定と制御は、電子量子光学および量子情報処理への応用において重要である。 本稿では,最近の実験 (j. d. fletcher et al., nat. commun. 10, 5298 (2019)) において,sesがピコ秒波パケットを生成することに固有の比較的一般的なデコヒーレンス源,すなわち音源のタイミングノイズによるデコヒーレンスについて述べる。 特定の微視的な機構にかかわらず、タイミングノイズのある音源は、単一波パケットの代わりに時間シフト波パケットのアンサンブルを生成し、エネルギー基底の密度行列は対角線に沿って圧縮される。 この特徴により,SESをタイミングノイズで識別・特徴付けるプロトコルを提案することができる。 このプロトコルを用いて, ポテンシャル障壁によるエネルギーフィルタリングを用いることにより, タイミングノイズによる状態の純度が容易に向上できることを実証する。

Identifying and controlling decoherence in single electron sources (SES) is important for their applications in electron quantum optics and quantum information processing. Here we address a rather generic source of decoherence inherent to SES generating pico-second wave packets as in a recent experiment [J. D. Fletcher et al., Nat. Commun. 10, 5298 (2019)], namely, decoherence caused by timing noise in the source. Regardless of the specific microscopic mechanism, the source with timing noise generates an ensemble of temporally shifted wave packet instead of a single wave packet, and the density matrix in energy basis becomes squeezed along the diagonal. This distinctive feature allows us to propose a protocol to identify and characterize SES with timing noise. Using this protocol, we demonstrate that the purity of states decohered by timing noise can be readily enhanced by using an energy filtering via potential barriers.
翻訳日:2023-10-06 13:06:22 公開日:2023-10-05
# アダムの暗黙のバイアスについて

On the Implicit Bias of Adam ( http://arxiv.org/abs/2309.00079v3 )

ライセンス: Link先を確認
Matias D. Cattaneo and Jason M. Klusowski and Boris Shigida(参考訳) 前回の文献では、勾配降下軌道を近似する常微分方程式(odes)を見つけるために後方誤差解析が用いられた。 ODEに現れる項は損失勾配の2ノルムを罰するので、有限ステップサイズは解を暗黙的に正則化することがわかった。 rmsprop と adam における同様の暗黙的正規化の存在は、それらのハイパーパラメータと訓練段階に依存するが、異なる「ノルム」が関係している: 対応する ode 項は損失勾配の(摂動的な)1ノルムをペナルティ化するか、逆にその減少を阻害する(後者の場合が典型的である)。 また,数値実験を行い,証明された事実が一般化にどのように影響を与えるかについて議論する。

In previous literature, backward error analysis was used to find ordinary differential equations (ODEs) approximating the gradient descent trajectory. It was found that finite step sizes implicitly regularize solutions because terms appearing in the ODEs penalize the two-norm of the loss gradients. We prove that the existence of similar implicit regularization in RMSProp and Adam depends on their hyperparameters and the training stage, but with a different "norm" involved: the corresponding ODE terms either penalize the (perturbed) one-norm of the loss gradients or, on the contrary, hinder its decrease (the latter case being typical). We also conduct numerical experiments and discuss how the proven facts can influence generalization.
翻訳日:2023-10-06 11:22:38 公開日:2023-10-05
# エゴセントリックビデオにおける文脈認識予測のためのnext-active objectsの活用

Leveraging Next-Active Objects for Context-Aware Anticipation in Egocentric Videos ( http://arxiv.org/abs/2308.08303v3 )

ライセンス: Link先を確認
Sanket Thakur, Cigdem Beyan, Pietro Morerio, Vittorio Murino, Alessio Del Bue(参考訳) オブジェクトは、人間とオブジェクトの相互作用を理解するのに不可欠である。 関連するオブジェクトを特定することで、これらのオブジェクトで起こりうる潜在的な未来の相互作用やアクションを予測することもできる。 本稿では,短期的物体間相互作用予測 (sta) の問題について検討し,次にアクティブな物体 (nao) を予測し,最終的にモデルにコンテキスト認識の将来行動を予測するためのモデル誘導を行うマルチモーダル・エンドツーエンド・トランスフォーマーネットワークである naogat (next-active-object guided precipation transformer) を提案する。 このタスクは、アクションが発生するオブジェクトと、その相互作用が始まる時間、すなわち、接触する時間(ttc)とともに、将来のアクションを予測する必要があるため、難しい。 アクション予測のための既存のビデオモデリングアーキテクチャと比較して、NAOGATは、オブジェクトとグローバルシーンコンテキストの関係をキャプチャして、次のアクティブなオブジェクトの検出を予測し、これらの検出により関連する将来のアクションを予測する。 実際、我々のアプローチの重要な強みの1つは、与えられたクリップ内のオブジェクトの動作ダイナミクスを利用する能力です。 実験により,我々のモデルが既存の2つのデータセット(ego4dとepickitchens-100(unseen set))上の既存手法を上回っており,時間や接触,次にアクティブなオブジェクトのローカライズなど,いくつかの指標で測定した。 コードは受理後利用可能になる。

Objects are crucial for understanding human-object interactions. By identifying the relevant objects, one can also predict potential future interactions or actions that may occur with these objects. In this paper, we study the problem of Short-Term Object interaction anticipation (STA) and propose NAOGAT (Next-Active-Object Guided Anticipation Transformer), a multi-modal end-to-end transformer network, that attends to objects in observed frames in order to anticipate the next-active-object (NAO) and, eventually, to guide the model to predict context-aware future actions. The task is challenging since it requires anticipating future action along with the object with which the action occurs and the time after which the interaction will begin, a.k.a. the time to contact (TTC). Compared to existing video modeling architectures for action anticipation, NAOGAT captures the relationship between objects and the global scene context in order to predict detections for the next active object and anticipate relevant future actions given these detections, leveraging the objects' dynamics to improve accuracy. One of the key strengths of our approach, in fact, is its ability to exploit the motion dynamics of objects within a given clip, which is often ignored by other models, and separately decoding the object-centric and motion-centric information. Through our experiments, we show that our model outperforms existing methods on two separate datasets, Ego4D and EpicKitchens-100 ("Unseen Set"), as measured by several additional metrics, such as time to contact, and next-active-object localization. The code will be available upon acceptance.
翻訳日:2023-10-06 11:22:21 公開日:2023-10-05
# 単位球面上の学習表現:オンライン連続学習のための角ガウスとフォン・ミセス・フィッシャー分布の探索

Learning Representations on the Unit Sphere: Investigating Angular Gaussian and von Mises-Fisher Distributions for Online Continual Learning ( http://arxiv.org/abs/2306.03364v3 )

ライセンス: Link先を確認
Nicolas Michel, Giovanni Chierchia, Romain Negrel, Jean-Fran\c{c}ois Bercher(参考訳) 単位球上に分布する表現の学習には,最大アフター推定原理を用いる。 本研究では,単位球面上に投影されたガウス分布に対応する角ガウス分布を用い,それに伴う損失関数を導出する。 また、単位球面におけるガウスの条件であるフォン・ミセス=フィッシャー分布も考慮する。 学習された表現は、ガウスの以前の手段である固定方向に向かってプッシュされ、データドリフトに耐性のある学習戦略が実現される。 これにより、連続したデータストリーム上でニューラルネットワークをトレーニングする問題であるオンライン連続学習に適合する。複数の分類タスクが順次提示され、過去のタスクからのデータがアクセス不能になり、現在のタスクからのデータは1回だけ見ることができる。 この課題に対処するために,新たな損失関数を備えたメモリベース表現学習手法を提案する。 提案手法では,タスク境界に関する負のデータや知識は必要とせず,計算効率が向上し,バッチサイズも小さくなった。 提案手法は,標準的な評価シナリオと,ぼやけたタスク境界を持つ現実シナリオの両方において,現在の最先端手法よりも優れていることを示す。 再現性のために、比較対象のメソッド毎に同じトレーニングパイプラインを使用し、コードをhttps://t.ly/SQTj.orgで共有します。

We use the maximum a posteriori estimation principle for learning representations distributed on the unit sphere. We propose to use the angular Gaussian distribution, which corresponds to a Gaussian projected on the unit-sphere and derive the associated loss function. We also consider the von Mises-Fisher distribution, which is the conditional of a Gaussian in the unit-sphere. The learned representations are pushed toward fixed directions, which are the prior means of the Gaussians; allowing for a learning strategy that is resilient to data drift. This makes it suitable for online continual learning, which is the problem of training neural networks on a continuous data stream, where multiple classification tasks are presented sequentially so that data from past tasks are no longer accessible, and data from the current task can be seen only once. To address this challenging scenario, we propose a memory-based representation learning technique equipped with our new loss functions. Our approach does not require negative data or knowledge of task boundaries and performs well with smaller batch sizes while being computationally efficient. We demonstrate with extensive experiments that the proposed method outperforms the current state-of-the-art methods on both standard evaluation scenarios and realistic scenarios with blurry task boundaries. For reproducibility, we use the same training pipeline for every compared method and share the code at https://t.ly/SQTj.
翻訳日:2023-10-06 11:21:48 公開日:2023-10-05
# 画像統計と人間の知覚の関連性について

Disentangling the Link Between Image Statistics and Human Perception ( http://arxiv.org/abs/2303.09874v3 )

ライセンス: Link先を確認
Alexander Hepburn, Valero Laparra, Ra\'ul Santos-Rodriguez, Jes\'us Malo(参考訳) 1950年代、BarlowとAttneaveは生物学的ビジョンと情報の最大化の関係を仮説づけた。 シャノンの後、自然画像の確率を用いて情報を定義する。 多くの生理的・精神物理学的現象は、インフォマックス、効率的なコーディング、最適デノイジングといった原理から導かれてきた。 しかし、このリンクが画像の確率から数学的にどのように表現されるかは定かではない。 まず, 古典的導出は, 確率モデルとセンサの挙動に強い仮定を課した。 さらに, 仮説の直接評価は, 確率の正確な推定を行うために, 古典的画像モデルの不可能性によって制限された。 本研究では, 自然画像の高度な生成モデルを用いて画像の確率を直接評価し, 現状の主観的画像品質指標の感度を通じて, 確率関連因子を組み合わせて人間の知覚を予測する方法について分析する。 我々は情報理論と回帰分析を用いて主観的指標との0.8相関を達成する2つの確率関連因子の組合せを求める。 この確率に基づく感度は、コントラスト感度関数の基本的な傾向、その超越的な変動、ウェバーローとマスキングの傾向を再現して心理物理学的に検証される。

In the 1950s, Barlow and Attneave hypothesised a link between biological vision and information maximisation. Following Shannon, information was defined using the probability of natural images. A number of physiological and psychophysical phenomena have been derived ever since from principles like info-max, efficient coding, or optimal denoising. However, it remains unclear how this link is expressed in mathematical terms from image probability. First, classical derivations were subjected to strong assumptions on the probability models and on the behaviour of the sensors. Moreover, the direct evaluation of the hypothesis was limited by the inability of the classical image models to deliver accurate estimates of the probability. In this work we directly evaluate image probabilities using an advanced generative model for natural images, and we analyse how probability-related factors can be combined to predict human perception via sensitivity of state-of-the-art subjective image quality metrics. We use information theory and regression analysis to find a combination of just two probability-related factors that achieves 0.8 correlation with subjective metrics. This probability-based sensitivity is psychophysically validated by reproducing the basic trends of the Contrast Sensitivity Function, its suprathreshold variation, and trends of the Weber-law and masking.
翻訳日:2023-10-06 11:21:23 公開日:2023-10-05
# 能動学習による適応量子状態トモグラフィ

Adaptive Quantum State Tomography with Active Learning ( http://arxiv.org/abs/2203.15719v6 )

ライセンス: Link先を確認
Hannah Lange, Matja\v{z} Kebri\v{c}, Maximilian Buser, Ulrich Schollw\"ock, Fabian Grusdt and Annabelle Bohrdt(参考訳) 量子シミュレーションの異なるプラットフォームと量子コンピューティング(超伝導量子ビットから中性原子まで)は、前例のないほど大きなシステムに到達し始めている。 これらのシステムをベンチマークし、物理的洞察を得るために、効率的な量子状態を特徴付けるツールの必要性が生じる。 系の大きさでヒルベルト空間が指数関数的に成長すると、必要な測定値の数で禁止的に要求される量子状態の完全な再構成が生じる。 本稿では,能動学習を用いた量子状態トモグラフィの効率的な手法を提案する。 いくつかの初期測定に基づいて、アクティブラーニングプロトコルは、最大情報ゲインを得るように設計された次の測定基準を提案する。 能動学習量子状態トモグラフィー法を用いて、異なるマルチキュービット状態と1次元のXXZモデルの基底状態と運動的に制約されたスピン鎖を再構成する。 いずれの場合も、全く同じ測定値と測定値に基づいて、無作為に選択されたベース構成に基づいて、再構成よりも大幅に改善された再構築が得られる。 提案手法は, 量子多体系や, 量子シミュレーションなどの量子デバイスのベンチマークや特徴付け, スケーラブルな適応プロトコルによる量子システム探索, 準備, 操作の方法の整備など, 物理的洞察を得るために非常に重要である。

Recently, tremendous progress has been made in the field of quantum science and technologies: different platforms for quantum simulation as well as quantum computing, ranging from superconducting qubits to neutral atoms, are starting to reach unprecedentedly large systems. In order to benchmark these systems and gain physical insights, the need for efficient tools to characterize quantum states arises. The exponential growth of the Hilbert space with system size renders a full reconstruction of the quantum state prohibitively demanding in terms of the number of necessary measurements. Here we propose and implement an efficient scheme for quantum state tomography using active learning. Based on a few initial measurements, the active learning protocol proposes the next measurement basis, designed to yield the maximum information gain. We apply the active learning quantum state tomography scheme to reconstruct different multi-qubit states with varying degree of entanglement as well as to ground states of the XXZ model in 1D and a kinetically constrained spin chain. In all cases, we obtain a significantly improved reconstruction as compared to a reconstruction based on the exact same number of measurements and measurement configurations, but with randomly chosen basis configurations. Our scheme is highly relevant to gain physical insights in quantum many-body systems as well as for benchmarking and characterizing quantum devices, e.g. for quantum simulation, and paves the way for scalable adaptive protocols to probe, prepare, and manipulate quantum systems.
翻訳日:2023-10-06 11:20:33 公開日:2023-10-05
# sr-hetgnn:異種グラフニューラルネットワークを用いたセッションベースレコメンデーション

SR-HetGNN:Session-based Recommendation with Heterogeneous Graph Neural Network ( http://arxiv.org/abs/2108.05641v3 )

ライセンス: Link先を確認
Jinpeng Chen, Haiyang Li, Xudong Zhang, Fan Zhang, Senzhang Wang, Kaimin Wei and Jiaqi Ji(参考訳) Session-Based Recommendation Systemは、ユーザの次のクリックを以前のセッションシーケンスに基づいて予測することを目的としている。 本研究は一般に,ユーザのセッションシーケンスの項目の遷移に応じてユーザの好みを学習する。 しかし、セッションシーケンス内の他の効果的な情報、例えばユーザプロファイルは無視されているため、モデルがユーザの特定の好みを学習できない可能性がある。 本稿では,不均一なグラフニューラルネットワーク(HetGNN)を用いてセッション埋め込みを学習し,匿名ユーザの特定の好みを捉えるセッションレコメンデーション手法であるSR-HetGNNを提案する。 具体的には、SR-HetGNNはセッションシーケンスに従って、さまざまな種類のノードを含む異種グラフを構築し、アイテム、ユーザ、セッション間の依存関係をキャプチャする。 第二に、HetGNNはアイテム間の複雑な遷移を捉え、ユーザ情報を含むアイテムの埋め込みを学習する。 最後に、利用者の長期的および短期的嗜好の影響を考慮して、地域およびグローバルなセッション埋め込みと注意ネットワークを組み合わせて最終セッション埋め込みを得る。 SR-HetGNNは、DigineticaとTmallの2つの実際の大規模データセットに対する広範な実験を通じて、既存の最先端セッションベースのレコメンデーション手法よりも優れていることが示されている。

The Session-Based Recommendation System aims to predict the user's next click based on their previous session sequence. The current studies generally learn user preferences according to the transitions of items in the user's session sequence. However, other effective information in the session sequence, such as user profiles, are largely ignored which may lead to the model unable to learn the user's specific preferences. In this paper, we propose SR-HetGNN, a novel session recommendation method that uses a heterogeneous graph neural network (HetGNN) to learn session embeddings and capture the specific preferences of anonymous users. Specifically, SR-HetGNN first constructs heterogeneous graphs containing various types of nodes according to the session sequence, which can capture the dependencies among items, users, and sessions. Second, HetGNN captures the complex transitions between items and learns the item embeddings containing user information. Finally, local and global session embeddings are combined with the attentional network to obtain the final session embedding, considering the influence of users' long and short-term preferences. SR-HetGNN is shown to be superior to the existing state-of-the-art session-based recommendation methods through extensive experiments over two real large datasets Diginetica and Tmall.
翻訳日:2023-10-06 11:19:59 公開日:2023-10-05
# カーボンフットプリントシナリオのオープンおよびリンクデータモデル

Open and Linked Data Model for Carbon Footprint Scenarios ( http://arxiv.org/abs/2310.01278v2 )

ライセンス: Link先を確認
Boris Ruf and Marcin Detyniecki(参考訳) 炭素フットプリントの定量化は、個人と企業の両方にとって、炭素削減の可能性よりも優れた意思決定の鍵となる。 製品やサービスの多くの炭素フットプリントケース研究が最近流通している。 しかし、それぞれのシナリオにおける複雑な関係のため、基礎となる前提はしばしば理解しづらい。 また、シナリオをローカルや個別の状況に再利用し、適用するのは簡単な作業ではありません。 これらの課題を克服するため,我々は,設計によるデータ品質と透明性を向上させる炭素フットプリントシナリオのためのオープンでリンクされたデータモデルを提案する。 webベースのデータインタプリタプロトタイプを用いて,このアイデアの実装を実証する。

Carbon footprint quantification is key to well-informed decision making over carbon reduction potential, both for individuals and for companies. Many carbon footprint case studies for products and services have been circulated recently. Due to the complex relationships within each scenario, however, the underlying assumptions often are difficult to understand. Also, re-using and adapting a scenario to local or individual circumstances is not a straightforward task. To overcome these challenges, we propose an open and linked data model for carbon footprint scenarios which improves data quality and transparency by design. We demonstrate the implementation of our idea with a web-based data interpreter prototype.
翻訳日:2023-10-06 11:15:19 公開日:2023-10-05
# 雨条件下でのロバスト3次元物体検出に向けて

Towards Robust 3D Object Detection In Rainy Conditions ( http://arxiv.org/abs/2310.00944v2 )

ライセンス: Link先を確認
Aldi Piroli, Vinzenz Dallabetta, Johannes Kopp, Marc Walessa, Daniel Meissner, Klaus Dietmayer(参考訳) LiDARセンサーは、環境を正確に知覚するために自律運転アプリケーションに使用される。 しかし、雪、霧、雨などの悪天候の影響を受けている。 これらの日常的な現象は、測定に不要なノイズをもたらし、LiDARベースの知覚システムの性能を著しく劣化させる。 本研究では,道路噴霧に対するLiDARを用いた3次元物体検出装置のロバスト性向上のための枠組みを提案する。 提案手法は,lidar point cloudからの噴霧をフィルタリングし,対象物検知装置の入力として使用する,最先端の悪天候検知ネットワークを用いる。 このようにして検出された物体は、現場の悪天候の影響を受けにくくなり、環境に対するより正確な認識がもたらされる。 悪天候のフィルタリングに加えて,レーダーターゲットによる偽陽性検出のさらなるフィルタリングについて検討する。 実世界のデータを用いたテストでは, 一般的な3次元物体検出装置による道路噴霧の堅牢性の向上が示されている。

LiDAR sensors are used in autonomous driving applications to accurately perceive the environment. However, they are affected by adverse weather conditions such as snow, fog, and rain. These everyday phenomena introduce unwanted noise into the measurements, severely degrading the performance of LiDAR-based perception systems. In this work, we propose a framework for improving the robustness of LiDAR-based 3D object detectors against road spray. Our approach uses a state-of-the-art adverse weather detection network to filter out spray from the LiDAR point cloud, which is then used as input for the object detector. In this way, the detected objects are less affected by the adverse weather in the scene, resulting in a more accurate perception of the environment. In addition to adverse weather filtering, we explore the use of radar targets to further filter false positive detections. Tests on real-world data show that our approach improves the robustness to road spray of several popular 3D object detectors.
翻訳日:2023-10-06 11:15:08 公開日:2023-10-05
# TADIS: デモ事例のディープシンキングのためのステアリングモデル

TADIS: Steering Models for Deep-Thinking about Demonstration Examples ( http://arxiv.org/abs/2310.00901v2 )

ライセンス: Link先を確認
Tianci Xue, Ziqi Wang, Yixia Li, Yun Chen, Guanhua Chen(参考訳) 命令のチューニングは、目に見えないタスクに対してゼロショットの一般化能力を大幅に改善できることが実証されている。 微調整プロセス中に追加のコンテキスト(タスク定義、例など)を組み込むことで、LLM(Large Language Models)は以前よりもはるかに高いパフォーマンスを実現した。 しかし、近年の研究では、妄想的なタスク例は正しいタスク例とほぼ同等のパフォーマンスを達成できると報告されている。 この直観に反する観察から興味をそそられるのは、モデルが人間と同じ能力の錯覚を持っていることだ。 Therefore, we propose a novel method called TADIS that steers LLMs for "Deep-Thinking'' about demonstration examples instead of merely seeing. To alleviate the illusion of competence of models, we first ask the model to verify the correctness of shown examples. Then, using the verification results as conditions to elicit models for a better answer. Our experimental results show that TADIS consistently outperforms competitive baselines on in-domain and out-domain tasks (improving 2.79 and 4.03 average ROUGLE-L on out-domain and in-domain datasets, respectively). Despite the presence of generated examples (not all of the thinking labels are accurate), TADIS can notably enhance performance in zero-shot and few-shot settings. This also suggests that our approach can be adopted on a large scale to improve the instruction following capabilities of models without any manual labor. Moreover, we construct three types of thinking labels with different model sizes and find that small models learn from the format of TADIS but larger models can be steered for "Deep-Thinking''.

Instruction tuning has been demonstrated that could significantly improve the zero-shot generalization capability to unseen tasks by an apparent margin. By incorporating additional context (e.g., task definition, examples) during the fine-tuning process, Large Language Models (LLMs) achieved much higher performance than before. However, recent work reported that delusive task examples can achieve almost the same performance as correct task examples, indicating the input-label correspondence is less important than previously thought. Intrigued by this counter-intuitive observation, we suspect models have the same illusion of competence as humans. Therefore, we propose a novel method called TADIS that steers LLMs for "Deep-Thinking'' about demonstration examples instead of merely seeing. To alleviate the illusion of competence of models, we first ask the model to verify the correctness of shown examples. Then, using the verification results as conditions to elicit models for a better answer. Our experimental results show that TADIS consistently outperforms competitive baselines on in-domain and out-domain tasks (improving 2.79 and 4.03 average ROUGLE-L on out-domain and in-domain datasets, respectively). Despite the presence of generated examples (not all of the thinking labels are accurate), TADIS can notably enhance performance in zero-shot and few-shot settings. This also suggests that our approach can be adopted on a large scale to improve the instruction following capabilities of models without any manual labor. Moreover, we construct three types of thinking labels with different model sizes and find that small models learn from the format of TADIS but larger models can be steered for "Deep-Thinking''.
翻訳日:2023-10-06 11:14:53 公開日:2023-10-05
# ECG-SL:心電図(ECG)セグメンテーション学習 : 心電図信号の深部学習法

ECG-SL: Electrocardiogram(ECG) Segment Learning, a deep learning method for ECG signal ( http://arxiv.org/abs/2310.00818v2 )

ライセンス: Link先を確認
Han Yu, Huiyuan Yang, Akane Sano(参考訳) 心電図(ECG)は、心臓活動のモニタリングに必須の信号である。 深層学習モデルを用いた臨床応用におけるECG活用の有望な成果を達成した。 しかし、主流のディープラーニングアプローチは通常、心電図の心拍波形の周期的および形成的特性を無視する。 本研究では,ECG信号の周期的性質をモデル化する新しいECG-Segment Based Learning (ECG-SL) フレームワークを提案する。 より具体的には、心電図信号はまず心拍セグメントに分割され、次に各セグメントから構造的特徴が抽出される。 この構造的特徴に基づき, 時間的モデルを用いて, 各種臨床業務の時間的情報学習を行う。 さらに,ecg信号が大量に存在するがラベル付きデータは非常に限られているため,モデル事前学習のための自己教師あり学習戦略も検討し,ダウンストリームタスクにおいて大幅に改善した。 提案手法は,心疾患診断,睡眠時無呼吸検出,不整脈分類の3つの臨床応用において,基礎モデルに匹敵する性能を示し,タスク特定法と比較した。 さらに,ECG-SLは,サリエンシマップを可視化することにより,ResNetよりも心拍ピークとST範囲に注目する傾向にある。

Electrocardiogram (ECG) is an essential signal in monitoring human heart activities. Researchers have achieved promising results in leveraging ECGs in clinical applications with deep learning models. However, the mainstream deep learning approaches usually neglect the periodic and formative attribute of the ECG heartbeat waveform. In this work, we propose a novel ECG-Segment based Learning (ECG-SL) framework to explicitly model the periodic nature of ECG signals. More specifically, ECG signals are first split into heartbeat segments, and then structural features are extracted from each of the segments. Based on the structural features, a temporal model is designed to learn the temporal information for various clinical tasks. Further, due to the fact that massive ECG signals are available but the labeled data are very limited, we also explore self-supervised learning strategy to pre-train the models, resulting significant improvement for downstream tasks. The proposed method outperforms the baseline model and shows competitive performances compared with task-specific methods in three clinical applications: cardiac condition diagnosis, sleep apnea detection, and arrhythmia classification. Further, we find that the ECG-SL tends to focus more on each heartbeat's peak and ST range than ResNet by visualizing the saliency maps.
翻訳日:2023-10-06 11:14:27 公開日:2023-10-05
# スケーラブル量子情報処理のための3Dプリントマイクロイオントラップ技術

3D-Printed Micro Ion Trap Technology for Scalable Quantum Information Processing ( http://arxiv.org/abs/2310.00595v2 )

ライセンス: Link先を確認
Shuqi Xu, Xiaoxing Xia, Qian Yu, Sumanta Khan, Eli Megidish, Bingran You, Boerge Hemmerling, Andrew Jayich, Juergen Biener, Hartmut H\"affner(参考訳) 量子情報、精密測定、光学時計、質量分析などのトラップイオンの応用は、特殊な高性能イオントラップに依存している。 後者のアプリケーションは通常、マクロな3Dポールトラップをカスタマイズするために伝統的な加工を使用し、量子情報処理の実験は通常、トラップを小型化しスケーラビリティの要求を満たすためにフォトリソグラフィ技術に依存する。 しかし、フォトリソグラフィーを用いて最適な閉じ込めに必要な複雑な3次元電極構造を構築することは困難である。 本稿では,2光子重合による高分解能3d印刷技術を採用し,高性能な小型3dトラップの大量製造を支援する。 3dプリントイオントラップは,従来の3dトラップの利点と,1個のカルシウムイオンを2mhzから24mhzのラジアルトラップ周波数の小さな3dプリントイオントラップに閉じ込めることで,フォトリソグラフィによる小型化を組み合わせる。 この密閉は、イオン冷却要件を緩和し、ドップラー冷却のみで光学量子ビット上での高忠実性コヒーレント操作を示すことができる。 3dプリンティング技術により、設計の自由度はスケーラビリティと精度を犠牲にすることなく大幅に拡大され、イオントラップジオメトリはより高い性能と優れた機能性のために最適化される。

Trapped-ion applications, such as in quantum information, precision measurements, optical clocks, and mass spectrometry, rely on specialized high-performance ion traps. The latter applications typically employ traditional machining to customize macroscopic 3D Paul traps, while quantum information processing experiments usually rely on photo-lithographic techniques to miniaturize the traps and meet scalability requirements. Using photolithography, however, it is challenging to fabricate the complex three-dimensional electrode structures required for optimal confinement. Here we address these limitations by adopting a high-resolution 3D printing technology based on two-photon polymerization supporting fabrication of large arrays of high-performance miniaturized 3D traps. We show that 3D-printed ion traps combine the advantages of traditionally machined 3D traps with the miniaturization provided by photolithography by confining single calcium ions in a small 3D-printed ion trap with radial trap frequencies ranging from 2 MHz to 24 MHz. The tight confinement eases ion cooling requirements and allows us to demonstrate high-fidelity coherent operations on an optical qubit after only Doppler cooling. With 3D printing technology, the design freedom is drastically expanded without sacrificing scalability and precision so that ion trap geometries can be optimized for higher performance and better functionality.
翻訳日:2023-10-06 11:14:04 公開日:2023-10-05
# 移動最小化方式によるニューラルネットワークのモジュールワイドトレーニング

Module-wise Training of Neural Networks via the Minimizing Movement Scheme ( http://arxiv.org/abs/2309.17357v3 )

ライセンス: Link先を確認
Skander Karkar and Ibrahim Ayed and Emmanuel de B\'ezenac and Patrick Gallinari(参考訳) 階層的、あるいはモジュール的ニューラルネットワークのトレーニングは、エンドツーエンドのバックプロパゲーションの多くの問題を回避しているため、メモリが制限された制約付きデバイス上での設定において魅力的なものだ。 しかし、初期層が過剰に適合し、より深い層が特定の深さの後にテスト精度を高めるのを止めるという、停滞する問題に苦しむ。 分散空間における勾配流の最小化運動スキームに着想を得たモジュールワイズ正規化を導入することでこの問題を解決することを提案する。 本手法をTRGL(Transport Regularized Greedy Learning)と呼び,それを理論的に研究し,規則的かつ漸進的に課題を解決しているグリージーモジュールに繋がることを示す。 実験により,resnet,transformer,vggなどの各種アーキテクチャのモジュール単位でのトレーニングの精度が向上したことを示す。

Greedy layer-wise or module-wise training of neural networks is compelling in constrained and on-device settings where memory is limited, as it circumvents a number of problems of end-to-end back-propagation. However, it suffers from a stagnation problem, whereby early layers overfit and deeper layers stop increasing the test accuracy after a certain depth. We propose to solve this issue by introducing a module-wise regularization inspired by the minimizing movement scheme for gradient flows in distribution space. We call the method TRGL for Transport Regularized Greedy Learning and study it theoretically, proving that it leads to greedy modules that are regular and that progressively solve the task. Experimentally, we show improved accuracy of module-wise training of various architectures such as ResNets, Transformers and VGG, when our regularization is added, superior to that of other module-wise training methods and often to end-to-end training, with as much as 60% less memory usage.
翻訳日:2023-10-06 11:13:41 公開日:2023-10-05
# 効果的な生物プラズブル・アドバイサル・トレーニング

Efficient Biologically Plausible Adversarial Training ( http://arxiv.org/abs/2309.17348v3 )

ライセンス: Link先を確認
Matilde Tristany Farinha, Thomas Ortner, Giorgia Dellaferrera, Benjamin Grewe, Angeliki Pantazi(参考訳) バックプロパゲーション(BP)でトレーニングされた人工ニューラルネットワーク(ANN)は、驚くべきパフォーマンスを示し、日々のタスクの実行に頻繁に使用される。 しかし、ANNは敵攻撃に対して非常に脆弱であり、モデルの性能を劇的に破壊する小さな目標摂動で入力を変更する。 これらの攻撃に対してANNを堅牢にするための最も効果的な方法は、訓練データセットを模範的な対人サンプルで拡張する対人訓練である。 残念なことに、このアプローチは、対数サンプルの生成が非常に計算的に要求されるため、トレーニングの複雑さが増大する欠点がある。 ANNとは対照的に、人間は敵の攻撃を受けにくい。 そこで本研究では,生物工学的な学習アルゴリズムがBPよりも敵攻撃に対して堅牢であるかどうかを検討する。 特に,様々なコンピュータビジョンタスクにおいて,bpの対向的ロバスト性に関する広範囲な比較分析を行い,最近提案されている生物学的可読性学習アルゴリズムpepitaの入力を摂動させる誤差を提示する。 PEPITAは内向的対向性が高く, 対向的トレーニングでは, 同じ自然的アキュラシーに対して, PEPITAの対向的アキュラシーは平均0.26%減少し, BPは8.05%低下した。

Artificial Neural Networks (ANNs) trained with Backpropagation (BP) show astounding performance and are increasingly often used in performing our daily life tasks. However, ANNs are highly vulnerable to adversarial attacks, which alter inputs with small targeted perturbations that drastically disrupt the models' performance. The most effective method to make ANNs robust against these attacks is adversarial training, in which the training dataset is augmented with exemplary adversarial samples. Unfortunately, this approach has the drawback of increased training complexity since generating adversarial samples is very computationally demanding. In contrast to ANNs, humans are not susceptible to adversarial attacks. Therefore, in this work, we investigate whether biologically-plausible learning algorithms are more robust against adversarial attacks than BP. In particular, we present an extensive comparative analysis of the adversarial robustness of BP and Present the Error to Perturb the Input To modulate Activity (PEPITA), a recently proposed biologically-plausible learning algorithm, on various computer vision tasks. We observe that PEPITA has higher intrinsic adversarial robustness and, with adversarial training, has a more favourable natural-vs-adversarial performance trade-off as, for the same natural accuracies, PEPITA's adversarial accuracies decrease in average by 0.26% and BP's by 8.05%.
翻訳日:2023-10-06 11:13:19 公開日:2023-10-05
# PlaceNav: 位置認識によるトポロジカルナビゲーション

PlaceNav: Topological Navigation through Place Recognition ( http://arxiv.org/abs/2309.17260v3 )

ライセンス: Link先を確認
Lauri Suomela, Jussi Kalliola, Harry Edelman, Joni-Kristian K\"am\"ar\"ainen(参考訳) 近年,ロボット非依存およびロボット固有成分にトポロジカルナビゲーションを分割することで,ロボット非依存部分を異なるロボットタイプから収集したデータで訓練することにより,ナビゲーション性能が向上することが示唆された。 しかしながら、適切なトレーニングデータの不足により、ナビゲーション手法は依然として制限され、計算スケールの悪さに苦しめられている。 本研究では,ロボットに依存しない部分をナビゲーション固有かつ汎用的なコンピュータビジョンコンポーネントに分割して,placenavを提案する。 トポロジカルナビゲーションパイプラインのサブゴール選択に視覚的位置認識を利用する。 これにより、サブゴア選択の効率が向上し、非ロボットソースからの大規模データセットの活用が可能になり、トレーニングデータの可用性が向上する。 位置認識によって実現されるベイズフィルタは、サブゴールの時間的一貫性を高め、ナビゲーション性能をさらに向上させる。 実験の結果, 室内での成功率は76%, 屋外ナビゲーションで23%, 計算効率が高かった。

Recent results suggest that splitting topological navigation into robot-independent and robot-specific components improves navigation performance by enabling the robot-independent part to be trained with data collected by different robot types. However, the navigation methods are still limited by the scarcity of suitable training data and suffer from poor computational scaling. In this work, we present PlaceNav, subdividing the robot-independent part into navigation-specific and generic computer vision components. We utilize visual place recognition for the subgoal selection of the topological navigation pipeline. This makes subgoal selection more efficient and enables leveraging large-scale datasets from non-robotics sources, increasing training data availability. Bayesian filtering, enabled by place recognition, further improves navigation performance by increasing the temporal consistency of subgoals. Our experimental results verify the design and the new model obtains a 76% higher success rate in indoor and 23% higher in outdoor navigation tasks with higher computational efficiency.
翻訳日:2023-10-06 11:12:50 公開日:2023-10-05
# 視覚トランスフォーマーとライン統合によるファサード解析の改善

Improving Facade Parsing with Vision Transformers and Line Integration ( http://arxiv.org/abs/2309.15523v4 )

ライセンス: Link先を確認
Bowen Wang, Jiaxing Zhang, Ran Zhang, Yunqin Li, Liangzhi Li, Yuta Nakashima(参考訳) ファサード解析は重要なコンピュータビジョンタスクであり、アーキテクチャ、都市計画、エネルギー効率といった分野の幅広いアプリケーションを扱う。 ディープラーニングベースの手法が、特定のオープンソースデータセットで印象的な結果をもたらすことに成功しているにも関わらず、現実のアプリケーションに対するその生存性は、いまだに不明である。 現実世界のシナリオはかなり複雑で、計算効率が向上する。 既存のデータセットはこれらの設定を表現するのに不足することが多く、以前の手法は精度を高めるために余分なモデルに依存することが多い。 本稿では,実世界のファサード解析タスクの複雑さを網羅したデータセットであるComprehensive Facade Parsing (CFP)を紹介する。 合計602枚の高解像度ストリートビュー画像からなるこのデータセットは、傾斜角や密集した建物など、さまざまな難易度シナリオを捉え、各画像に注意深い注釈を付ける。 Revision-based Transformer Facade Parsing (RTFP) と呼ばれる新しいパイプラインを導入する。 これはファサード解析における視覚トランスフォーマー(vit)の先駆的利用を示し,その効果を実験的に検証した。 また、ファサードの事前知識を用いた単純な線検出のみでセグメント結果を改善することができる効率的かつ正確な修正アルゴリズムであるLine Acquisition, Filtering, Revision (LAFR) を設計する。 ECP 2011, RueMonge 2014およびCFPにおいて, 本手法の優位性を評価した。 データセットとコードはhttps://github.com/wbw520/rtfpで入手できる。

Facade parsing stands as a pivotal computer vision task with far-reaching applications in areas like architecture, urban planning, and energy efficiency. Despite the recent success of deep learning-based methods in yielding impressive results on certain open-source datasets, their viability for real-world applications remains uncertain. Real-world scenarios are considerably more intricate, demanding greater computational efficiency. Existing datasets often fall short in representing these settings, and previous methods frequently rely on extra models to enhance accuracy, which requires much computation cost. In this paper, we introduce Comprehensive Facade Parsing (CFP), a dataset meticulously designed to encompass the intricacies of real-world facade parsing tasks. Comprising a total of 602 high-resolution street-view images, this dataset captures a diverse array of challenging scenarios, including sloping angles and densely clustered buildings, with painstakingly curated annotations for each image. We introduce a new pipeline known as Revision-based Transformer Facade Parsing (RTFP). This marks the pioneering utilization of Vision Transformers (ViT) in facade parsing, and our experimental results definitively substantiate its merit. We also design Line Acquisition, Filtering, and Revision (LAFR), an efficient yet accurate revision algorithm that can improve the segment result solely from simple line detection using prior knowledge of the facade. In ECP 2011, RueMonge 2014, and our CFP, we evaluate the superiority of our method. The dataset and code are available at https://github.com/wbw520/RTFP.
翻訳日:2023-10-06 11:12:33 公開日:2023-10-05
# 胸部x線写真からの肺炎症診断のための微調整型inception-resnet深層学習モデル

Hybrid Inception Architecture with Residual Connection: Fine-tuned Inception-ResNet Deep Learning Model for Lung Inflammation Diagnosis from Chest Radiographs ( http://arxiv.org/abs/2310.02591v2 )

ライセンス: Link先を確認
Mehdi Neshat, Muktar Ahmed, Hossein Askari, Menasha Thilakaratne, Seyedali Mirjalili(参考訳) 肺炎症、特に肺炎の診断は、疾患を効果的に治療し、管理するために重要である。 肺炎は細菌、ウイルス、真菌によって引き起こされる一般的な呼吸器感染症であり、あらゆる年齢の人々に無差別に影響を及ぼす。 世界保健機関(WHO)が強調したように、この流行病は5歳未満の子どもの世界の死亡率の15%を悲劇的に占めている。 本稿では,胸部x線写真からの肺炎診断におけるinception-resnet deep learning modelの性能の比較検討を行った。 この研究は、ウイルス性肺炎と細菌性肺炎のx線画像を含む5856枚の2d画像を含むmendeleysの胸部x線画像データセットを活用する。 inception-resnetモデルは、他の7つの最先端畳み込みニューラルネットワーク(cnns)と比較され、本質的な特徴抽出と計算ランタイムの節約におけるinception-resnetモデルの優位性が実証された。 さらに,深層畳み込みモデルの性能向上における微調整による伝達学習の影響について検討した。 本研究は,肺炎診断における深層学習モデルの利用に関する貴重な知見を提供し,この分野でのInception-ResNetモデルの可能性を強調した。 分類精度において、Inception-ResNet-V2はResNet152V2、MobileNet-V3 (Large and Small)、EfficientNetV2 (Large and Small)、InceptionV3、NASNet-Mobileといった他のモデルと比較して優れた性能を示した。 それぞれ2.6%、6.5%、7.1%、13%、16.1%、3.9%、および1.6%を上回り、正確な分類において大きな優位性を示した。

Diagnosing lung inflammation, particularly pneumonia, is of paramount importance for effectively treating and managing the disease. Pneumonia is a common respiratory infection caused by bacteria, viruses, or fungi and can indiscriminately affect people of all ages. As highlighted by the World Health Organization (WHO), this prevalent disease tragically accounts for a substantial 15% of global mortality in children under five years of age. This article presents a comparative study of the Inception-ResNet deep learning model's performance in diagnosing pneumonia from chest radiographs. The study leverages Mendeleys chest X-ray images dataset, which contains 5856 2D images, including both Viral and Bacterial Pneumonia X-ray images. The Inception-ResNet model is compared with seven other state-of-the-art convolutional neural networks (CNNs), and the experimental results demonstrate the Inception-ResNet model's superiority in extracting essential features and saving computation runtime. Furthermore, we examine the impact of transfer learning with fine-tuning in improving the performance of deep convolutional models. This study provides valuable insights into using deep learning models for pneumonia diagnosis and highlights the potential of the Inception-ResNet model in this field. In classification accuracy, Inception-ResNet-V2 showed superior performance compared to other models, including ResNet152V2, MobileNet-V3 (Large and Small), EfficientNetV2 (Large and Small), InceptionV3, and NASNet-Mobile, with substantial margins. It outperformed them by 2.6%, 6.5%, 7.1%, 13%, 16.1%, 3.9%, and 1.6%, respectively, demonstrating its significant advantage in accurate classification.
翻訳日:2023-10-06 11:03:16 公開日:2023-10-05
# NLPにおける毒性の定義について

On the definition of toxicity in NLP ( http://arxiv.org/abs/2310.02357v2 )

ライセンス: Link先を確認
Sergey Berezin, Reza Farahbakhsh, Noel Crespi(参考訳) 毒性検出タスクの根本的な問題は、毒性が不定義であるという事実にある。 これにより、モデルトレーニングで主観的およびあいまいなデータに依存するようになり、それが非ロバストおよび非正確な結果になる: ガベージイン - ガベージアウト。 この研究は、客観的かつ文脈に配慮した新しいストレスレベルに基づく毒性の定義を示唆している。 それと同等に、この新たな定義をデータセットの作成とモデルトレーニングに適用する可能性についても説明します。

The fundamental problem in toxicity detection task lies in the fact that the toxicity is ill-defined. This causes us to rely on subjective and vague data in models' training, which results in non-robust and non-accurate results: garbage in - garbage out. This work suggests a new, stress-level-based definition of toxicity designed to be objective and context-aware. On par with it, we also describe possible ways of applying this new definition to dataset creation and model training.
翻訳日:2023-10-06 11:02:38 公開日:2023-10-05
# 感情表現のための音響特性を用いたプロンプトオーディオ

Prompting Audios Using Acoustic Properties For Emotion Representation ( http://arxiv.org/abs/2310.02298v2 )

ライセンス: Link先を確認
Hira Dhamyal, Benjamin Elizalde, Soham Deshmukh, Huaming Wang, Bhiksha Raj, Rita Singh(参考訳) 感情は連続体上に存在するが、現在のモデルは感情を有限値離散変数として扱う。 この表現は感情表現の多様性を捉えない。 感情をより良く表現するために、自然言語記述(あるいはプロンプト)の使用を提案する。 本稿では,これらのプロンプトを自動的に生成し,音声とプロンプトペアから感情表現を学習するためにモデルをトレーニングするという課題に対処する。 ピッチ,強度,発話速度,調音率などの感情と相関する音響特性を用いて,音のプロンプト,すなわち「音響プロンプト」を自動的に生成する。 コントラスト学習目的を用いて,音声をそれぞれの音響プロンプトにマッピングする。 我々は感情音声検索と音声感情認識のモデルを評価する。 以上の結果から, EARにおける音響的プロンプトは, 様々なPrecision@K測定値において, モデルの性能を著しく向上させることがわかった。 SERでは,Ravdessデータセットの相対精度が3.8%向上した。

Emotions lie on a continuum, but current models treat emotions as a finite valued discrete variable. This representation does not capture the diversity in the expression of emotion. To better represent emotions we propose the use of natural language descriptions (or prompts). In this work, we address the challenge of automatically generating these prompts and training a model to better learn emotion representations from audio and prompt pairs. We use acoustic properties that are correlated to emotion like pitch, intensity, speech rate, and articulation rate to automatically generate prompts i.e. 'acoustic prompts'. We use a contrastive learning objective to map speech to their respective acoustic prompts. We evaluate our model on Emotion Audio Retrieval and Speech Emotion Recognition. Our results show that the acoustic prompts significantly improve the model's performance in EAR, in various Precision@K metrics. In SER, we observe a 3.8% relative accuracy improvement on the Ravdess dataset.
翻訳日:2023-10-06 11:02:31 公開日:2023-10-05
# テンソルプログラムvi:無限深層ニューラルネットワークにおける特徴学習

Tensor Programs VI: Feature Learning in Infinite-Depth Neural Networks ( http://arxiv.org/abs/2310.02244v3 )

ライセンス: Link先を確認
Greg Yang, Dingli Yu, Chen Zhu, Soufiane Hayou(参考訳) 無限幅のニューラルネットワークを分類し、 *optimal* 限界を識別することで、テンソルプログラム iv と v は *widthwise hyperparameter transfer* に対して $\mu$p と呼ばれる普遍的な方法、すなわち狭いものから広いニューラルネットワークの最適ハイパーパラメータを予測することを証明した。 ここでは、深い残留ネットワーク(resnets)の*depthwise parametrization*の類似分類について検討する。 我々はブロック乗数と学習率の深さ方向のパラメトリゼーションを、その無限幅とその深度制限によって分類する。 各ブロックが1つの層しか持たないresnetsでは、深さ-$\mu$pと呼ばれる一意な最適パラメトリゼーションを識別し、深さ方向のハイパーパラメータ転送を経験的に示す。 深さ-$\mu$p は、特徴の学習と特徴の多様性の両方を最大化することが特徴である。 これを実行すると、すべての均質な非線形性の中で絶対値が特徴の多様性を最大化し、実際に経験的に性能が著しく向上することがわかった。 しかし、各ブロックがより深い(現代の変圧器のような)場合、そのようなパラメトリゼーションの可能な無限深度制限の基本的な制限を見つけ、これは理論上も経験的にも単純なネットワーク上でも、Common Crawlで訓練されたメガトロン変換器と同様に説明できる。

By classifying infinite-width neural networks and identifying the *optimal* limit, Tensor Programs IV and V demonstrated a universal way, called $\mu$P, for *widthwise hyperparameter transfer*, i.e., predicting optimal hyperparameters of wide neural networks from narrow ones. Here we investigate the analogous classification for *depthwise parametrizations* of deep residual networks (resnets). We classify depthwise parametrizations of block multiplier and learning rate by their infinite-width-then-depth limits. In resnets where each block has only one layer, we identify a unique optimal parametrization, called Depth-$\mu$P that extends $\mu$P and show empirically it admits depthwise hyperparameter transfer. We identify *feature diversity* as a crucial factor in deep networks, and Depth-$\mu$P can be characterized as maximizing both feature learning and feature diversity. Exploiting this, we find that absolute value, among all homogeneous nonlinearities, maximizes feature diversity and indeed empirically leads to significantly better performance. However, if each block is deeper (such as modern transformers), then we find fundamental limitations in all possible infinite-depth limits of such parametrizations, which we illustrate both theoretically and empirically on simple networks as well as Megatron transformer trained on Common Crawl.
翻訳日:2023-10-06 11:02:16 公開日:2023-10-05
# 確率的再接続型メッセージパッシングニューラルネットワーク

Probabilistically Rewired Message-Passing Neural Networks ( http://arxiv.org/abs/2310.02156v2 )

ライセンス: Link先を確認
Chendi Qian, Andrei Manolache, Kareem Ahmed, Zhe Zeng, Guy Van den Broeck, Mathias Niepert, Christopher Morris(参考訳) メッセージパッシンググラフニューラルネットワーク(MPNN)は、グラフ構造化入力を処理する強力なツールとして登場した。 しかし、それらは固定された入力グラフ構造で動作し、潜在的なノイズや情報不足を無視している。 さらに、それらの局所的な集約機構は、関連するグラフ構造を捕捉する際の過剰散乱や限定表現力などの問題を引き起こす可能性がある。 これらの課題に対する既存の解決策は主にヒューリスティックな手法に依存しており、基礎となるデータ分布を無視していることが多い。 したがって、与えられた予測タスクに関連するグラフ構造を推論する学習の原則的なアプローチを考案することは、未解決の課題である。 本研究では, 精度が高く, かつ異なる$k$-subsetサンプリングの最近の進歩を活用して, 確率論的に再構成されたMPNN(PR-MPNN)を考案する。 我々は,PR-MPNNが表現力を高める方法について初めて理論的解析を行い,それらが純粋にランダム化されたアプローチより優れている条件を同定した。 実証的に、我々のアプローチは、過剰な監視やアンダーリーチングといった問題を効果的に軽減します。 さらに,従来のMPNNモデルや最近のグラフトランスフォーマーアーキテクチャと比較して,既存の実世界のデータセットに対して,競合的あるいは優れた予測性能を示す。

Message-passing graph neural networks (MPNNs) emerged as powerful tools for processing graph-structured input. However, they operate on a fixed input graph structure, ignoring potential noise and missing information. Furthermore, their local aggregation mechanism can lead to problems such as over-squashing and limited expressive power in capturing relevant graph structures. Existing solutions to these challenges have primarily relied on heuristic methods, often disregarding the underlying data distribution. Hence, devising principled approaches for learning to infer graph structures relevant to the given prediction task remains an open challenge. In this work, leveraging recent progress in exact and differentiable $k$-subset sampling, we devise probabilistically rewired MPNNs (PR-MPNNs), which learn to add relevant edges while omitting less beneficial ones. For the first time, our theoretical analysis explores how PR-MPNNs enhance expressive power, and we identify precise conditions under which they outperform purely randomized approaches. Empirically, we demonstrate that our approach effectively mitigates issues like over-squashing and under-reaching. In addition, on established real-world datasets, our method exhibits competitive or superior predictive performance compared to traditional MPNN models and recent graph transformer architectures.
翻訳日:2023-10-06 11:01:45 公開日:2023-10-05
# ブロックワイズ変換器を用いた近無限文脈におけるリング注意

Ring Attention with Blockwise Transformers for Near-Infinite Context ( http://arxiv.org/abs/2310.01889v2 )

ライセンス: Link先を確認
Hao Liu, Matei Zaharia, Pieter Abbeel(参考訳) トランスフォーマーは多くの最先端AIモデルのアーキテクチャとして登場し、幅広いAIアプリケーションで例外的なパフォーマンスを示している。 しかし、Transformerが要求するメモリ要求は、長いシーケンスを扱う能力を制限するため、拡張シーケンスや長期依存関係を含むタスクの課題が生じる。 本稿では,複数のデバイスにまたがる長いシーケンスの分散に自己注意のブロックワイド計算を活用するとともに,ブロックワイドアテンションの計算とキーバリューブロックの通信を同時に重畳するRing Attentionを提案する。 メモリ効率を維持しながら、より長い入力シーケンスを処理することにより、Ring Attentionは、以前のメモリ効率のトランスフォーマーの倍長いデバイスカウントであるシーケンスのトレーニングと推論を可能にし、個々のデバイスに課されるメモリ制約を効果的に排除する。 言語モデリングタスクに関する広範な実験は、大きなシーケンス入力サイズとパフォーマンスの向上を可能にするリングアテンションの有効性を示している。

Transformers have emerged as the architecture of choice for many state-of-the-art AI models, showcasing exceptional performance across a wide range of AI applications. However, the memory demands imposed by Transformers limit their ability to handle long sequences, thereby creating challenges for tasks involving extended sequences or long-term dependencies. We present a distinct approach, Ring Attention, which leverages blockwise computation of self-attention to distribute long sequences across multiple devices while concurrently overlapping the communication of key-value blocks with the computation of blockwise attention. By processing longer input sequences while maintaining memory efficiency, Ring Attention enables training and inference of sequences that are device count times longer than those of prior memory-efficient Transformers, effectively eliminating the memory constraints imposed by individual devices. Extensive experiments on language modeling tasks demonstrate the effectiveness of Ring Attention in allowing large sequence input size and improving performance.
翻訳日:2023-10-06 11:01:00 公開日:2023-10-05
# COOLer: 外観に基づく複数物体追跡のためのクラスインクリメンタル学習

COOLer: Class-Incremental Learning for Appearance-Based Multiple Object Tracking ( http://arxiv.org/abs/2310.03006v2 )

ライセンス: Link先を確認
Zhizheng Liu, Mattia Segu, Fisher Yu(参考訳) 連続学習により、モデルは前のタスクのトレーニングデータなしで古い知識を維持しながら、連続的に複数のタスクを学習することができる。 本稿では,連続学習研究のスコープを,自律システムの継続的に進化するニーズに対応するために望ましいマルチオブジェクトトラッキング(mot)のためのクラスインクリメンタル学習に拡張する。 オブジェクト検出器の継続的な学習のためのこれまでの解決策は、外見に基づくトラッカーのデータ関連ステージには対応していない。 我々は,Contrastive- and cOntinual-LearningベースのトラッカーであるCOOLerを紹介した。これは過去の知識を保存しながら,過去のトラッカーが生成した擬似ラベルの組み合わせをトレーニングすることで,新たなカテゴリの追跡を段階的に学習する。 インスタンス表現の不整合をさらに悪化させるため,新しいクラスインクリメンタルなインスタンス表現学習手法を導入する。 最後に,MOTの連続学習のための実践的評価プロトコルを提案し,BDD100KおよびShiFTデータセット上で実験を行う。 実験の結果、COOLerは追跡と検出の両方の破滅的な忘れを効果的に解決しながら継続的に学習していることがわかった。 コードはhttps://github.com/BoSmallEar/COOLerで入手できる。

Continual learning allows a model to learn multiple tasks sequentially while retaining the old knowledge without the training data of the preceding tasks. This paper extends the scope of continual learning research to class-incremental learning for multiple object tracking (MOT), which is desirable to accommodate the continuously evolving needs of autonomous systems. Previous solutions for continual learning of object detectors do not address the data association stage of appearance-based trackers, leading to catastrophic forgetting of previous classes' re-identification features. We introduce COOLer, a COntrastive- and cOntinual-Learning-based tracker, which incrementally learns to track new categories while preserving past knowledge by training on a combination of currently available ground truth labels and pseudo-labels generated by the past tracker. To further exacerbate the disentanglement of instance representations, we introduce a novel contrastive class-incremental instance representation learning technique. Finally, we propose a practical evaluation protocol for continual learning for MOT and conduct experiments on the BDD100K and SHIFT datasets. Experimental results demonstrate that COOLer continually learns while effectively addressing catastrophic forgetting of both tracking and detection. The code is available at https://github.com/BoSmallEar/COOLer.
翻訳日:2023-10-06 10:54:33 公開日:2023-10-05
# IBCL:連続学習におけるタスクトレードオフのためのゼロショットモデル生成

IBCL: Zero-shot Model Generation for Task Trade-offs in Continual Learning ( http://arxiv.org/abs/2310.02995v2 )

ライセンス: Link先を確認
Pengyuan Lu and Michele Caprio and Eric Eaton and Insup Lee(参考訳) 一般的なマルチタスク学習と同様に、連続学習は多目的最適化の性質を持ち、異なるタスクのパフォーマンス間のトレードオフに直面します。 つまり、現在のタスク分散のために最適化するには、以前のタスクのパフォーマンスを損なう必要がある。 これは、異なるタイミングでパレート最適である複数のモデルが存在し、それぞれが異なるタスクパフォーマンストレードオフに対処することを意味する。 研究者は、特定のトレードオフ設定に対応するために、特定のモデルをトレーニングする方法について議論した。 しかし、既存のアルゴリズムでは、好みの数に比例するオーバーヘッドをトレーニングする必要があります。 その結果,Imrecise Bayesian Continual Learning (IBCL)を提案する。 IBCL(1)は,(1)モデルパラメータ分布の凸殻の形で知識ベースを更新し,(2)ゼロショットでタスクのトレードオフ設定に対処する特定のモデルを取得する。 すなわち、IBCLはその知識ベースから好み適応モデルを生成するために追加のトレーニングオーバーヘッドを必要としない。 IBCL で得られたモデルは,Pareto 最適パラメータの同定に有効であることを示す。 さらに、標準画像分類とNLPタスクの実験がこの保証を支持している。 統計的に、ibclは平均タスク毎の精度を最大23\%、ピーク毎の精度をベースライン法に対して最大15\%改善し、着実にゼロに近いか正の後方転送を行う。 最も重要なことは、IBCLがトレーニングのオーバーヘッドを、選好毎にトレーニング1モデルから、すべての選好に対して少なくとも3モデルに大幅に削減することです。

Like generic multi-task learning, continual learning has the nature of multi-objective optimization, and therefore faces a trade-off between the performance of different tasks. That is, to optimize for the current task distribution, it may need to compromise performance on some previous tasks. This means that there exist multiple models that are Pareto-optimal at different times, each addressing a distinct task performance trade-off. Researchers have discussed how to train particular models to address specific trade-off preferences. However, existing algorithms require training overheads proportional to the number of preferences -- a large burden when there are multiple, possibly infinitely many, preferences. As a response, we propose Imprecise Bayesian Continual Learning (IBCL). Upon a new task, IBCL (1) updates a knowledge base in the form of a convex hull of model parameter distributions and (2) obtains particular models to address task trade-off preferences with zero-shot. That is, IBCL does not require any additional training overhead to generate preference-addressing models from its knowledge base. We show that models obtained by IBCL have guarantees in identifying the Pareto optimal parameters. Moreover, experiments on standard image classification and NLP tasks support this guarantee. Statistically, IBCL improves average per-task accuracy by at most 23\% and peak per-task accuracy by at most 15\% with respect to the baseline methods, with steadily near-zero or positive backward transfer. Most importantly, IBCL significantly reduces the training overhead from training 1 model per preference to at most 3 models for all preferences.
翻訳日:2023-10-06 10:54:09 公開日:2023-10-05
# ペプチド表現学習のためのシーケンシャルおよびグラフィカル経路の共モデリング

Co-modeling the Sequential and Graphical Routes for Peptide Representation Learning ( http://arxiv.org/abs/2310.02964v2 )

ライセンス: Link先を確認
Zihan Liu, Ge Wang, Jiaqi Wang, Jiangbin Zheng, Stan Z. Li(参考訳) ペプチドは、複数のアミノ酸の脱水縮合によって形成される。 ペプチドの一次構造は、アミノ酸配列または原子と化学結合からなる分子グラフとして表現することができる。 従来の研究では、シーケンシャルおよびグラフィカルなペプチド形式に特有のディープラーニング経路が下流タスクに匹敵する性能を示すことが示されている。 これらのモデルがペプチドの同じモダリティの表現を学習しているにもかかわらず、それらの予測は異なる説明をしている。 異なる視点から推論を行う2つの専門家として、逐次的およびグラフィカルなモデルを考えると、私たちは、学習された表現を豊かにするために専門家の知識を融合させ、差別的性能を改善する。 これを実現するために、コントラスト学習に基づくフレームワークRepConというペプチド共モデリング手法を提案し、逐次的およびグラフィカルなエンドツーエンドモデルから表現の相互情報を強化する。 同じペプチドサンプルに対するシーケンシャルエンコーダとグラフィカルエンコーダからの表現を正のペアとして考慮し、正のサンプルペア間の表現の一貫性を高め、負のペア間の表現を撃退することを学ぶ。 repconおよび他の共同モデリング法に関する実証研究は、集約性、保持時間、抗菌ペプチドの予測、ペプチドデータベースからの家族分類など、オープンソースの識別データセットで行われている。 この結果から,コモデリング手法が独立モデルよりも優れていること,コモデリングフレームワークの他の手法よりもRepConの方が優れていることを示す。 さらに、RepConへの貢献は、モデル説明のレベルでアプローチの有効性をさらに裏付ける。

Peptides are formed by the dehydration condensation of multiple amino acids. The primary structure of a peptide can be represented either as an amino acid sequence or as a molecular graph consisting of atoms and chemical bonds. Previous studies have indicated that deep learning routes specific to sequential and graphical peptide forms exhibit comparable performance on downstream tasks. Despite the fact that these models learn representations of the same modality of peptides, we find that they explain their predictions differently. Considering sequential and graphical models as two experts making inferences from different perspectives, we work on fusing expert knowledge to enrich the learned representations for improving the discriminative performance. To achieve this, we propose a peptide co-modeling method, RepCon, which employs a contrastive learning-based framework to enhance the mutual information of representations from decoupled sequential and graphical end-to-end models. It considers representations from the sequential encoder and the graphical encoder for the same peptide sample as a positive pair and learns to enhance the consistency of representations between positive sample pairs and to repel representations between negative pairs. Empirical studies of RepCon and other co-modeling methods are conducted on open-source discriminative datasets, including aggregation propensity, retention time, antimicrobial peptide prediction, and family classification from Peptide Database. Our results demonstrate the superiority of the co-modeling approach over independent modeling, as well as the superiority of RepCon over other methods under the co-modeling framework. In addition, the attribution on RepCon further corroborates the validity of the approach at the level of model explanation.
翻訳日:2023-10-06 10:53:42 公開日:2023-10-05
# DQ-LoRe: 文脈内学習のための低ランク近似型デュアルクェリ

DQ-LoRe: Dual Queries with Low Rank Approximation Re-ranking for In-Context Learning ( http://arxiv.org/abs/2310.02954v2 )

ライセンス: Link先を確認
Jiong Xiong, Zixuan Li, Chuanyang Zheng, Zhijiang Guo, Yichun Yin, Enze Xie, Zhicheng Yang, Qingxing Cao, Haiming Wang, Xiongwei Han, Jing Tang, Chengming Li, Xiaodan Liang(参考訳) 自然言語処理の最近の進歩は、主にLarge Language Models (LLM) によって推進され、文脈内学習に根ざした顕著な能力を示している。 複雑な推論タスクにおいてLLMを導くための有望な道は、Chain-of-Thought(CoT)パラダイムにおける中間的推論ステップの利用である。 それでも、中核的な課題は、インコンテキスト学習を促進するための例題の効果的な選択にある。 本研究では、DQ-LoRe(Dual Queries and Low-rank approximation Re- rank)を利用して、文脈内学習のための例を自動選択するフレームワークを提案する。 Dual Queries はまず LLM に問い合わせて、COT などの LLM 生成した知識を取得し、次に検索者に対して質問と知識の両方を通して最終例を得る。 さらに第2の質問に対して,loreは,入力質問の知識との密接な一致を保証し,例題選択を洗練するために,次元性低減手法を採用している。 広汎な実験により,DQ-LoRe は GPT-4 の先行技術手法よりも優れた性能を示し,92.5\% から94.2\% に向上した。 総合分析の結果,dq-loreは,特に分布シフトを特徴とするシナリオにおいて,性能と適応性の両方において,検索ベースアプローチを一貫して上回っていることが明らかとなった。 DQ-LoReはコンテキスト内学習の境界を押し上げ、複雑な推論問題に対処するための新たな道を開く。 私たちはすぐにコードをリリースします。

Recent advances in natural language processing, primarily propelled by Large Language Models (LLMs), have showcased their remarkable capabilities grounded in in-context learning. A promising avenue for guiding LLMs in intricate reasoning tasks involves the utilization of intermediate reasoning steps within the Chain-of-Thought (CoT) paradigm. Nevertheless, the central challenge lies in the effective selection of exemplars for facilitating in-context learning. In this study, we introduce a framework that leverages Dual Queries and Low-rank approximation Re-ranking (DQ-LoRe) to automatically select exemplars for in-context learning. Dual Queries first query LLM to obtain LLM-generated knowledge such as CoT, then query the retriever to obtain the final exemplars via both question and the knowledge. Moreover, for the second query, LoRe employs dimensionality reduction techniques to refine exemplar selection, ensuring close alignment with the input question's knowledge. Through extensive experiments, we demonstrate that DQ-LoRe significantly outperforms prior state-of-the-art methods in the automatic selection of exemplars for GPT-4, enhancing performance from 92.5\% to 94.2\%. Our comprehensive analysis further reveals that DQ-LoRe consistently outperforms retrieval-based approaches in terms of both performance and adaptability, especially in scenarios characterized by distribution shifts. DQ-LoRe pushes the boundaries of in-context learning and opens up new avenues for addressing complex reasoning challenges. We will release the code soon.
翻訳日:2023-10-06 10:53:14 公開日:2023-10-05
# 暗号通貨の解読:暗号通貨による消費者の知識と嗜好

Deciphering the Crypto-shopper: Knowledge and Preferences of Consumers Using Cryptocurrencies for Purchases ( http://arxiv.org/abs/2310.02911v2 )

ライセンス: Link先を確認
Massimiliano Silenzi and Umut Can Cabuk(参考訳) 急速に成長する暗号通貨部門は、ビジネスと消費者の両方に挑戦と機会を与えている。 本研究では、暗号通貨で買い物をする人の知識、専門知識、購買習慣を調査した。 516名の被験者を対象に調査を行ったところ,知識レベルは初心者から専門家まで様々であった。 興味深いことに、回答者の30%近くが、限られた知識にもかかわらず高い購入頻度を示した。 回帰分析によると、専門知識が果たす役割は、購入頻度に影響を与える要因の11.6%に過ぎない。 K平均クラスタ分析により、回答者はさらに3つの異なるグループに分類された。 これらの結果は、幅広い知識を暗号通貨の利用の増加に結びつける従来の考え方に異議を唱え、他の要因を示唆している。 さまざまな暗号通貨購入者層を理解することは、ビジネスにとって重要な要素であり、適切な戦略とユーザーフレンドリーな体験の必要性を強調している。 この研究は、現在の暗号商取引行動に関する洞察を提供し、暗号商業界における幅広い影響と潜在的な変化を探求する将来の研究について論じる。

The fast-growing cryptocurrency sector presents both challenges and opportunities for businesses and consumers alike. This study investigates the knowledge, expertise, and buying habits of people who shop using cryptocurrencies. Our survey of 516 participants shows that knowledge levels vary from beginners to experts. Interestingly, a segment of respondents, nearly 30%, showed high purchase frequency despite their limited knowledge. Regression analyses indicated that while expertise plays a role, it only accounts for 11.6% of the factors affecting purchasing frequency. A K-means cluster analysis further segmented the respondents into three distinct groups, each having unique knowledge levels and purchasing tendencies. These results challenge the conventional idea linking extensive knowledge to increased cryptocurrency usage, suggesting other factors at play. Understanding this varying crypto-shopper demographic is pivotal for businesses, emphasizing the need for tailored strategies and user-friendly experiences. This study offers insights into current crypto-shopping behaviors and discusses future research exploring the broader impacts and potential shifts in the crypto-consumer landscape.
翻訳日:2023-10-06 10:52:44 公開日:2023-10-05
# レイリー商グラフニューラルネットワークによるグラフレベルの異常検出

Rayleigh Quotient Graph Neural Networks for Graph-level Anomaly Detection ( http://arxiv.org/abs/2310.02861v2 )

ライセンス: Link先を確認
Xiangyu Dong, Xingyi Zhang, Sibo Wang(参考訳) グラフレベルの異常検出は、がん診断や酵素の予測など、さまざまな領域で多くの応用が発見されているため、注目されている。 しかし、既存の手法はグラフ異常の基盤となる特性を捉えず、説明不能なフレームワーク設計と不満足なパフォーマンスをもたらす。 本稿では,異常グラフと正規グラフのスペクトル差を再検討する。 本研究の主観測は, この2つのクラス間で蓄積されたスペクトルエネルギーに有意差が認められた。 さらに、グラフ信号の蓄積したスペクトルエネルギーがレイリー・クオシエントによって表現できることを証明し、レイリー・クオシエントがグラフの異常特性の背後にある駆動因子であることを示す。 そこで本研究では,グラフレベルの異常検出のための最初のスペクトルgnnであるrayleigh quotient graph neural network (rqgnn)を提案する。 具体的には、Rayleigh Quotient Learning component (RQL)とChebyshev Wavelet GNN with RQ-pooling (CWGNN-RQ)の2つのコンポーネントからなる新しいフレームワークを紹介する。 RQLはグラフのRayleigh Quotientを明示的にキャプチャし、CWGNN-RQはグラフのスペクトル空間を暗黙的に探索する。 10の実世界のデータセットに対する大規模な実験により、RQGNNはMacro-F1スコアの6.74%、AUCの1.44%で最高のライバルを上回っ、我々のフレームワークの有効性を示している。

Graph-level anomaly detection has gained significant attention as it finds many applications in various domains, such as cancer diagnosis and enzyme prediction. However, existing methods fail to capture the underlying properties of graph anomalies, resulting in unexplainable framework design and unsatisfying performance. In this paper, we take a step back and re-investigate the spectral differences between anomalous and normal graphs. Our main observation shows a significant disparity in the accumulated spectral energy between these two classes. Moreover, we prove that the accumulated spectral energy of the graph signal can be represented by its Rayleigh Quotient, indicating that the Rayleigh Quotient is a driving factor behind the anomalous properties of graphs. Motivated by this, we propose Rayleigh Quotient Graph Neural Network (RQGNN), the first spectral GNN for graph-level anomaly detection, providing a new perspective on exploring the inherent spectral features of anomalous graphs. Specifically, we introduce a novel framework that consists of two components: the Rayleigh Quotient learning component (RQL) and Chebyshev Wavelet GNN with RQ-pooling (CWGNN-RQ). RQL explicitly captures the Rayleigh Quotient of graphs and CWGNN-RQ implicitly explores the spectral space of graphs. Extensive experiments on 10 real-world datasets show that RQGNN outperforms the best rival by 6.74% in Macro-F1 score and 1.44% in AUC, demonstrating the effectiveness of our framework.
翻訳日:2023-10-06 10:52:29 公開日:2023-10-05
# 確率ベース手法によるオピニオンダイナミクスモデルにおけるパラメータ推定の改善

Likelihood-Based Methods Improve Parameter Estimation in Opinion Dynamics Models ( http://arxiv.org/abs/2310.02766v2 )

ライセンス: Link先を確認
Jacopo Lenti, Corrado Monti, Gianmarco De Francisci Morales(参考訳) エージェントベースモデル (abms) におけるパラメータ推定の最大帰納法が, 典型的なシミュレーションベースアプローチよりも優れていることを示す。 シミュレーションに基づくアプローチでは、観測したパラメータに似たデータを生成する一連のパラメータを探索して、繰り返しモデルをシミュレートする。 対照的に、確率に基づくアプローチは、統計的に原理化された方法で未知のパラメータを観測データに接続する確率関数を導出する。 これらの2つのアプローチを、よく知られた意見力学の有界信頼モデルで比較する。 データ可用性に応じて複雑さを増大させる現実的なシナリオを3つ挙げる。 i) 完全に観察された意見と相互作用 (ii) 部分的に観察された相互作用 (iii)意見のノイズプロキシとの相互作用を観察した。 モデルとデータを結ぶ上で,観測変数と潜在変数の識別が基本である点を強調する。 確率に基づくアプローチを実現するために、我々はまずモデルを適切なデータ可能性をサポートする確率的生成ギーズにキャストする。 次に,確率的グラフィカルモデルを用いて3つのシナリオを説明し,モデルを翻訳するニュアンスを示す。 最後に,結果の確率モデルを自動微分フレームワーク(pytorch)で実装する。 このステップは、勾配降下による簡易かつ効率的な最大推定を可能にする。 実験の結果,最大確率推定値は最大4倍精度が高く,計算時間も最大200倍削減できることがわかった。

We show that a maximum likelihood approach for parameter estimation in agent-based models (ABMs) of opinion dynamics outperforms the typical simulation-based approach. Simulation-based approaches simulate the model repeatedly in search of a set of parameters that generates data similar enough to the observed one. In contrast, likelihood-based approaches derive a likelihood function that connects the unknown parameters to the observed data in a statistically principled way. We compare these two approaches on the well-known bounded-confidence model of opinion dynamics. We do so on three realistic scenarios of increasing complexity depending on data availability: (i) fully observed opinions and interactions, (ii) partially observed interactions, (iii) observed interactions with noisy proxies of the opinions. We highlight how identifying observed and latent variables is fundamental for connecting the model to the data. To realize the likelihood-based approach, we first cast the model into a probabilistic generative guise that supports a proper data likelihood. Then, we describe the three scenarios via probabilistic graphical models and show the nuances that go into translating the model. Finally, we implement the resulting probabilistic models in an automatic differentiation framework (PyTorch). This step enables easy and efficient maximum likelihood estimation via gradient descent. Our experimental results show that the maximum likelihood estimates are up to 4x more accurate and require up to 200x less computational time.
翻訳日:2023-10-06 10:52:02 公開日:2023-10-05
# lc-score:テキスト理解難易度の参照レス推定

LC-Score: Reference-less estimation of Text Comprehension Difficulty ( http://arxiv.org/abs/2310.02754v2 )

ライセンス: Link先を確認
Paul Tardy, Charlotte Roze, Paul Poupet(参考訳) 文章を読んだり理解したりすることは、デジタル時代において重要なことです。 しかし、調査の結果、人口の大多数は理解の問題を経験している。 この文脈では、オーディエンステキスト理解を改善するためにアクセシビリティのさらなる取り組みが必要である。 しかし、作家は容易に理解できるコンテンツを作るのをほとんど助けたり奨励したりしない。 さらに、自動テキスト簡易化(ats)モデルの開発は、正確な理解難易度を推定するためのメトリクスの欠如に苦しむ。ここでは、任意のフランス語テキストに対するテキスト理解度をトレーニングするための単純なアプローチである \textsc{lc-score} を紹介し、与えられたテキストが[0, 100]$スケールでどれだけ簡単に理解できるかを予測する。 このスケールの目的は、英語プレーン言語と密接に関連するフランスのイニシアチブである \textit{Langage Clair} (LC, \textit{Clear Language}) ガイドラインにテキストが適合する範囲を定量的に把握することである。 2つのアプローチを探求します 一 統計モデルの訓練に用いられる言語的動機付け指標を用いて、 (II)事前学習言語モデルを活用したテキストからのニューラルラーニング。 分類タスクとして,理解難易度学習のための簡易なプロキシタスクを提案する。 我々のモデルを評価するために、我々は2つの異なる人間のアノテーション実験を行い、両方のアプローチ(指標ベースとニューラル)が一般的に使用される可読性とFKGLのような理解的メトリクスより優れていることを発見した。

Being able to read and understand written text is critical in a digital era. However, studies shows that a large fraction of the population experiences comprehension issues. In this context, further initiatives in accessibility are required to improve the audience text comprehension. However, writers are hardly assisted nor encouraged to produce easy-to-understand content. Moreover, Automatic Text Simplification (ATS) model development suffers from the lack of metric to accurately estimate comprehension difficulty We present \textsc{LC-Score}, a simple approach for training text comprehension metric for any French text without reference \ie predicting how easy to understand a given text is on a $[0, 100]$ scale. Our objective with this scale is to quantitatively capture the extend to which a text suits to the \textit{Langage Clair} (LC, \textit{Clear Language}) guidelines, a French initiative closely related to English Plain Language. We explore two approaches: (i) using linguistically motivated indicators used to train statistical models, and (ii) neural learning directly from text leveraging pre-trained language models. We introduce a simple proxy task for comprehension difficulty training as a classification task. To evaluate our models, we run two distinct human annotation experiments, and find that both approaches (indicator based and neural) outperforms commonly used readability and comprehension metrics such as FKGL.
翻訳日:2023-10-06 10:51:45 公開日:2023-10-05
# PostRainBench: 包括的なベンチマークと降水予測の新しいモデル

PostRainBench: A comprehensive benchmark and a new model for precipitation forecasting ( http://arxiv.org/abs/2310.02676v2 )

ライセンス: Link先を確認
Yujin Tang, Jiaming Zhou, Xiang Pan, Zeying Gong, Junwei Liang(参考訳) 正確な降水予測は科学的・社会的に重要な課題である。 データ駆動アプローチは、この課題に対処するために広く使われているソリューションとして現れています。 しかし、データ駆動アプローチのみに依存することは、基礎となる物理学のモデル化に制限があり、正確な予測は困難である。 AIベースの後処理技術を従来の数値気象予測(NWP)手法と組み合わせることで、予測精度を向上させるためのより効果的なソリューションを提供する。 降雨量の予測は, 降雨量の不均衡や複数の気象変数の複雑な関係が原因で, 従来から行われてきた豪雨の正確な予測は困難である。 これらの制約に対処するため、我々は、NWP後処理に基づく降水予測のための3つのデータセットからなる包括的多変数NWP後処理ベンチマークであるPostRainBenchを紹介した。 重み付き損失関数を特別に設計した,シンプルで効果的なチャネル注意強化マルチタスク学習フレームワークであるCAMTを提案する。 フレキシブルなデザインで、様々なバックボーンと簡単にプラグ&プレイできる。 提案ベンチマークの広範な実験結果から,本手法は3つのデータセットの降雨csiの6.3%,4.7%,26.8%で最先端手法を上回った。 最も注目すべきは, 降水条件下での従来の数値気象予測(NWP)手法よりも優れた深層学習に基づく手法である。 各データセットの豪雨csiにおけるnwp予測に対する15.6%、17.4%、31.8%の改善を示している。 これらの結果から,極度の気象事象による深刻な影響を低減できる可能性が示唆された。

Accurate precipitation forecasting is a vital challenge of both scientific and societal importance. Data-driven approaches have emerged as a widely used solution for addressing this challenge. However, solely relying on data-driven approaches has limitations in modeling the underlying physics, making accurate predictions difficult. Coupling AI-based post-processing techniques with traditional Numerical Weather Prediction (NWP) methods offers a more effective solution for improving forecasting accuracy. Despite previous post-processing efforts, accurately predicting heavy rainfall remains challenging due to the imbalanced precipitation data across locations and complex relationships between multiple meteorological variables. To address these limitations, we introduce the PostRainBench, a comprehensive multi-variable NWP post-processing benchmark consisting of three datasets for NWP post-processing-based precipitation forecasting. We propose CAMT, a simple yet effective Channel Attention Enhanced Multi-task Learning framework with a specially designed weighted loss function. Its flexible design allows for easy plug-and-play integration with various backbones. Extensive experimental results on the proposed benchmark show that our method outperforms state-of-the-art methods by 6.3%, 4.7%, and 26.8% in rain CSI on the three datasets respectively. Most notably, our model is the first deep learning-based method to outperform traditional Numerical Weather Prediction (NWP) approaches in extreme precipitation conditions. It shows improvements of 15.6%, 17.4%, and 31.8% over NWP predictions in heavy rain CSI on respective datasets. These results highlight the potential impact of our model in reducing the severe consequences of extreme weather events.
翻訳日:2023-10-06 10:51:19 公開日:2023-10-05
# MagicDrive: 横3次元形状制御によるストリートビュー生成

MagicDrive: Street View Generation with Diverse 3D Geometry Control ( http://arxiv.org/abs/2310.02601v2 )

ライセンス: Link先を確認
Ruiyuan Gao, Kai Chen, Enze Xie, Lanqing Hong, Zhenguo Li, Dit-Yan Yeung, Qiang Xu(参考訳) 拡散モデルの最近の進歩は、2次元制御によるデータ合成を大幅に強化した。 しかし、ストリートビュー生成における正確な3d制御は、3d知覚タスクに欠かせない。 特に、Bird's-Eye View (BEV) を一次条件として利用すると、特に3次元物体検出タスクにおいて、知覚データ合成に不可欠な物体形状、閉塞パターン、路面標高の表現に影響を及ぼす幾何学的制御(高さなど)の課題につながることが多い。 本稿では,カメラポーズ,道路地図,および3dバウンディングボックスを含む多様な3次元形状制御を行う新しいストリートビュー生成フレームワークであるmagicdriveを紹介する。 さらに、当社の設計にはクロスビューアテンションモジュールが組み込まれており、複数のカメラビュー間の一貫性を確保しています。 MagicDriveで高忠実なストリートビュー合成を実現し、ニュアンスな3D幾何学と様々なシーン記述をキャプチャし、BEVセグメンテーションや3Dオブジェクト検出といったタスクを強化します。

Recent advancements in diffusion models have significantly enhanced the data synthesis with 2D control. Yet, precise 3D control in street view generation, crucial for 3D perception tasks, remains elusive. Specifically, utilizing Bird's-Eye View (BEV) as the primary condition often leads to challenges in geometry control (e.g., height), affecting the representation of object shapes, occlusion patterns, and road surface elevations, all of which are essential to perception data synthesis, especially for 3D object detection tasks. In this paper, we introduce MagicDrive, a novel street view generation framework offering diverse 3D geometry controls, including camera poses, road maps, and 3D bounding boxes, together with textual descriptions, achieved through tailored encoding strategies. Besides, our design incorporates a cross-view attention module, ensuring consistency across multiple camera views. With MagicDrive, we achieve high-fidelity street-view synthesis that captures nuanced 3D geometry and various scene descriptions, enhancing tasks like BEV segmentation and 3D object detection.
翻訳日:2023-10-06 10:50:52 公開日:2023-10-05