このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230825となっている論文です。

PDF登録状況(公開日: 20230825)

TitleAuthorsAbstract論文公表日・翻訳日
# ファサー磁場を用いた散乱媒質存在下での非視線イメージング

Non-line-of-sight imaging in the presence of scattering media using phasor fields ( http://arxiv.org/abs/2311.09223v1 )

ライセンス: Link先を確認
Pablo Luesia, Miguel Crespo, Adrian Jarabo, and Albert Redo-Sanchez(参考訳) 非視線画像(NLOS)は、部分的にあるいは完全に閉鎖されたシーンを再構成することを目的としている。 近年のアプローチでは、任意の反射、咬合、有意なマルチパス効果を伴う複雑なシーンの高品質な再構成が示されている。 しかし、以前の作品は表面散乱のみに焦点を当てており、散乱媒体に沈み込むシーンのようなより困難なシナリオで一般性が低下する。 本研究では,散乱媒質中に沈み込んだシーンを再構成するためのファザーフィールドに基づくnlosイメージング手法について検討する。 厚い散乱媒体に浸漬した複雑な合成シーンの再構成におけるファザーフィールドの能力について実験的に解析した。 また,本手法を実シーンに適用し,近年の拡散光トモグラフィ法と同様の性能を示す。

Non-line-of-sight (NLOS) imaging aims to reconstruct partially or completely occluded scenes. Recent approaches have demonstrated high-quality reconstructions of complex scenes with arbitrary reflectance, occlusions, and significant multi-path effects. However, previous works focused on surface scattering only, which reduces the generality in more challenging scenarios such as scenes submerged in scattering media. In this work, we investigate current state-of-the-art NLOS imaging methods based on phasor fields to reconstruct scenes submerged in scattering media. We empirically analyze the capability of phasor fields in reconstructing complex synthetic scenes submerged in thick scattering media. We also apply the method to real scenes, showing that it performs similarly to recent diffuse optical tomography methods.
翻訳日:2024-01-15 16:07:48 公開日:2023-08-25
# 量子力学の理解と解釈

Understanding and Interpretations of Quantum Mechanics ( http://arxiv.org/abs/2401.00975v1 )

ライセンス: Link先を確認
Dong Luo(参考訳) ハイゼンベルクとシュロディンガーの量子力学の理論をケーススタディとして、ド・レゲットの文脈理解理論は、正確な計算をせずに理論tの質的に特徴的な結果を認識することは科学的理解の基準であると主張している。 この理解理論の観点からすると、量子力学を理解する仕事は既に達成されたか、あるいは完成したものと思われる。 これは、リチャード・ファインマン(Richard Feynman)の有名なスローガン「私は、誰も量子力学を本当に理解していないと安全に言えると思う」と、量子力学の理解に対する物理学者の態度とは一致していないようである。 さらに、量子力学の理解作業が既に完了している場合、量子力学の理解に関する文脈理論と量子力学の解釈との間には矛盾がある。

Taking Heisenberg's and Schrodinger's theories of quantum mechanics as his case study, De Regt's contextual theory of understanding argues that recognizing qualitatively characteristic consequences of a theory T without performing exact calculations is a criterion for scientific understanding. From the perspective of this theory of understanding, the task of understanding quantum mechanics seems to have been achieved already or even finished. This appears to disagree with some physicists' attitude to the understanding of quantum mechanics in line with Richard Feynman's famous slogan "I think I can safely say that nobody really understands quantum mechanics." Moreover, if the task of understanding quantum mechanics has been finished already, there would be a conflict between the contextual theory of understanding of quantum mechanics and interpretations of quantum mechanics.
翻訳日:2024-01-15 12:18:59 公開日:2023-08-25
# ニューラルネットワークによるテスト Oracle生成: 大規模評価と教訓

Neural-Based Test Oracle Generation: A Large-scale Evaluation and Lessons Learned ( http://arxiv.org/abs/2307.16023v2 )

ライセンス: Link先を確認
Soneya Binta Hossain, Antonio Filieri, Matthew B. Dwyer, Sebastian Elbaum, Willem Visser(参考訳) テストオラクルの定義は、テスト開発において不可欠であり、中心となるが、手動でオークルを組み立てることは高価である。 最近のニューラルベース自動テストoracleジェネレーション技術は有望だが、実際の有効性はさらなる調査と理解を必要とする説得力のある疑問である。 本稿では,最近開発されたDinellaらによる自動テストオラクル生成法であるTOGAの有効性について検討する。 TOGAはEvoSuiteの生成したテスト入力を使用し、例外とアサーションの両方のオラクルを生成する。 Defects4jの研究では、TOGAは仕様、検索、神経ベースのテクニックよりも優れており、57のバグを検出した。 実環境における適用性についてより深く理解するために,TOGAの外部,拡張,概念的複製研究を行った。 実世界25のJavaシステム,223.5Kのテストケース,51Kのインジェクトされた障害を含む大規模研究において,TOGAは,最先端および最先端技術に対して,障害検出の有効性を向上する能力を評価する。 TOGAは24%の時間を必要とするオラクルのタイプを誤って分類し、その62%の時間で正しく分類すると、いかなるアサーション・オラクルも生成できる自信がないことがわかった。 アサーションオラクルを生成する場合、そのうち47%以上は偽陽性であり、真の正のアサーションは前処理に比べて障害検出を0.3%増加させるだけである。 これらの知見は、最先端のニューラルベースオラクル生成技術の限界を明らかにし、改善のための貴重な洞察を提供し、将来の自動オラクル生成方法を評価するための教訓を提供する。

Defining test oracles is crucial and central to test development, but manual construction of oracles is expensive. While recent neural-based automated test oracle generation techniques have shown promise, their real-world effectiveness remains a compelling question requiring further exploration and understanding. This paper investigates the effectiveness of TOGA, a recently developed neural-based method for automatic test oracle generation by Dinella et al. TOGA utilizes EvoSuite-generated test inputs and generates both exception and assertion oracles. In a Defects4j study, TOGA outperformed specification, search, and neural-based techniques, detecting 57 bugs, including 30 unique bugs not detected by other methods. To gain a deeper understanding of its applicability in real-world settings, we conducted a series of external, extended, and conceptual replication studies of TOGA. In a large-scale study involving 25 real-world Java systems, 223.5K test cases, and 51K injected faults, we evaluate TOGA's ability to improve fault-detection effectiveness relative to the state-of-the-practice and the state-of-the-art. We find that TOGA misclassifies the type of oracle needed 24% of the time and that when it classifies correctly around 62% of the time it is not confident enough to generate any assertion oracle. When it does generate an assertion oracle, more than 47% of them are false positives, and the true positive assertions only increase fault detection by 0.3% relative to prior work. These findings expose limitations of the state-of-the-art neural-based oracle generation technique, provide valuable insights for improvement, and offer lessons for evaluating future automated oracle generation methods.
翻訳日:2023-10-23 16:03:09 公開日:2023-08-25
# 効率的な記録と再生に向けて: wechatのケーススタディ

Towards Efficient Record and Replay: A Case Study in WeChat ( http://arxiv.org/abs/2308.06657v2 )

ライセンス: Link先を確認
Sidong Feng, Haochuan Lu, Ting Xiong, Yuetang Deng, Chunyang Chen(参考訳) 10億人以上の月間アクティブユーザーを抱える、広く使われているメッセンジャーアプリWeChatは、複雑な機能に対して効果的なアプリ品質保証を必要とする。 記録再生ツールは、この目標を達成する上で非常に重要です。 これらのツールの広範な開発にもかかわらず、リプレイイベントの待ち時間の影響はほとんど見過ごされている。 一方、完全にレンダリングされたGUI上でリプレイイベントを実行するのを待つ時間は、プロセスが遅くなる。 一方、短い待ち時間は部分的にレンダリングされたgui上で実行されるイベントにつながり、リプレイの有効性に悪影響を及ぼす。 最適な待ち時間は効率と効率のバランスを取るべきである。 GUIレンダリング状態に基づいてイベント間時間を動的に調整する,ライトウェイトなイメージベースアプローチであるWeReplayを導入する。 GUI上のリアルタイムストリーミングを考えると、WeReplayはレンダリング状態を推測し、再生ツールと同期するためにディープラーニングモデルを使用し、GUIが完全にレンダリングされた時に次のイベントをスケジューリングする。 WeChatアプリのGUIレンダリング状態を識別すると,92.1%の精度と93.3%のリコールが得られる。 23の一般的なWeChat使用シナリオのリプレイのパフォーマンスを評価することで、WeReplayは、同じデバイスと異なるデバイス上のすべてのシナリオを、実行時のベースラインよりも効率的に再生することに成功した。

WeChat, a widely-used messenger app boasting over 1 billion monthly active users, requires effective app quality assurance for its complex features. Record-and-replay tools are crucial in achieving this goal. Despite the extensive development of these tools, the impact of waiting time between replay events has been largely overlooked. On one hand, a long waiting time for executing replay events on fully-rendered GUIs slows down the process. On the other hand, a short waiting time can lead to events executing on partially-rendered GUIs, negatively affecting replay effectiveness. An optimal waiting time should strike a balance between effectiveness and efficiency. We introduce WeReplay, a lightweight image-based approach that dynamically adjusts inter-event time based on the GUI rendering state. Given the real-time streaming on the GUI, WeReplay employs a deep learning model to infer the rendering state and synchronize with the replaying tool, scheduling the next event when the GUI is fully rendered. Our evaluation shows that our model achieves 92.1% precision and 93.3% recall in discerning GUI rendering states in the WeChat app. Through assessing the performance in replaying 23 common WeChat usage scenarios, WeReplay successfully replays all scenarios on the same and different devices more efficiently than the state-of-the-practice baselines.
翻訳日:2023-10-23 14:29:47 公開日:2023-08-25
# 事前トレーニングされたモデルベースの自動ソフトウェア脆弱性修復: どこまであるのか?

Pre-trained Model-based Automated Software Vulnerability Repair: How Far are We? ( http://arxiv.org/abs/2308.12533v2 )

ライセンス: Link先を確認
Quanjun Zhang, Chunrong Fang, Bowen Yu, Weisong Sun, Tongke Zhang, Zhenyu Chen(参考訳) セキュリティ研究者がソフトウェアの脆弱性を検知し、分析するために、さまざまなアプローチが提案されている。 セキュリティ研究者が脆弱性を修正するには、信じられないほど時間と労力がかかります。 脆弱性の報告と修正の間のタイムラグにより、ソフトウェアシステムは、考えられる攻撃への重大な露出に苦しむことになる。 近年,セキュリティ脆弱性の修正に事前学習モデルを適用する手法が提案され,修理精度の向上に成功している。 しかし、既存の事前学習モデルの有効性は体系的に分析されておらず、その利点や欠点についてはほとんど知られていない。 このギャップを埋めるため,脆弱性修復にさまざまな事前学習モデルを適用するための,最初の詳細な調査を行った。 その結果、事前訓練されたモデルの研究は、予測精度32.94%〜44.96%の最先端技術であるVRepairを一貫して上回った。 また、脆弱性修復ワークフローにおける大きなフェーズの影響についても検討する。 驚くべきことに、転送学習を採用する単純なアプローチは、事前訓練されたモデルの予測精度を平均9.40%向上させる。 さらに、事前訓練されたモデルの能力と限界を説明するための追加の議論を行う。 最後に、事前訓練されたモデルベースの脆弱性修復を進めるための様々な実践的ガイドラインを見極める。 本研究は,実世界の脆弱性にパッチを当てるために事前訓練されたモデルを採用するという将来性を強調している。

Various approaches are proposed to help under-resourced security researchers to detect and analyze software vulnerabilities. It is still incredibly time-consuming and labor-intensive for security researchers to fix vulnerabilities. The time lag between reporting and fixing a vulnerability causes software systems to suffer from significant exposure to possible attacks. Recently, some techniques have proposed applying pre-trained models to fix security vulnerabilities and have proved their success in improving repair accuracy. However, the effectiveness of existing pre-trained models has not been systematically analyzed, and little is known about their advantages and disadvantages. To bridge this gap, we perform the first extensive study on applying various pre-trained models to vulnerability repair. The results show that studied pre-trained models consistently outperform the state-of-the-art technique VRepair with a prediction accuracy of 32.94%~44.96%. We also investigate the impact of major phases in the vulnerability repair workflow. Surprisingly, a simplistic approach adopting transfer learning improves the prediction accuracy of pre-trained models by 9.40% on average. Besides, we provide additional discussion to illustrate the capacity and limitations of pre-trained models. Finally, we further pinpoint various practical guidelines for advancing pre-trained model-based vulnerability repair. Our study highlights the promising future of adopting pre-trained models to patch real-world vulnerabilities.
翻訳日:2023-10-23 12:56:33 公開日:2023-08-25
# ソフトウェアエンジニアのための機械学習のグッドプラクティスを推薦する情報検索について

On Using Information Retrieval to Recommend Machine Learning Good Practices for Software Engineers ( http://arxiv.org/abs/2308.12095v2 )

ライセンス: Link先を確認
Laura Cabra-Acela and Anamaria Mojica-Hanke and Mario Linares-V\'asquez and Steffen Herbold(参考訳) 機械学習(ml)は現在、異なる目的といくつかの分野で広く使われている。 自動運転車から自動診断まで、機械学習モデルはユーザの日々の活動を広範囲にサポートし、ソフトウェアエンジニアリングタスクは例外ではない。 優れたMLプラクティスを受け入れないことは、MLシステムのパフォーマンスを妨げ、予期せぬ結果をもたらす落とし穴につながる可能性がある。 MLベストプラクティスに関するドキュメントや文献が存在するにも関わらず、多くの非ML専門家は、MLシステムを実装する際の助けやガイダンスを探す際に、ブログやQ&Aシステムのような灰色の文献に目を向ける。 このような情報源から関連する知識を蒸留するユーザを支援するために,ユーザのコンテキストに基づいてmlプラクティスを推奨するレコメンダシステムを提案する。 機械学習プラクティスのレコメンデーションシステムを構築するための第一歩として、Idakaを実装しました。 MLベストプラクティスの検索/生成に2つの異なるアプローチを提供するツール。 一 情報検索(IR)エンジン及び装置 ii) 大きな言語モデル。 irエンジンはプラクティス検索のアルゴリズムとしてbm25を使用し、alpacaでは大きな言語モデルを採用している。 このプラットフォームは、ベストプラクティス検索ツールの比較研究を可能にするように設計されている。 IdakaはGitHubで公開されている。 ビデオ: https://youtu.be/ceb-ahipxnm。

Machine learning (ML) is nowadays widely used for different purposes and in several disciplines. From self-driving cars to automated medical diagnosis, machine learning models extensively support users' daily activities, and software engineering tasks are no exception. Not embracing good ML practices may lead to pitfalls that hinder the performance of an ML system and potentially lead to unexpected results. Despite the existence of documentation and literature about ML best practices, many non-ML experts turn towards gray literature like blogs and Q&A systems when looking for help and guidance when implementing ML systems. To better aid users in distilling relevant knowledge from such sources, we propose a recommender system that recommends ML practices based on the user's context. As a first step in creating a recommender system for machine learning practices, we implemented Idaka. A tool that provides two different approaches for retrieving/generating ML best practices: i) an information retrieval (IR) engine and ii) a large language model. The IR-engine uses BM25 as the algorithm for retrieving the practices, and a large language model, in our case Alpaca. The platform has been designed to allow comparative studies of best practices retrieval tools. Idaka is publicly available at GitHub: https://bit.ly/idaka. Video: https://youtu.be/cEb-AhIPxnM.
翻訳日:2023-10-23 12:55:04 公開日:2023-08-25
# jisa: 多形テストおよび測定自動化ライブラリ

JISA: A Polymorphic Test-and-Measurement Automation Library ( http://arxiv.org/abs/2308.13127v1 )

ライセンス: Link先を確認
William Alexander Wood, Thomas Marsh, Henning Sirringhaus(参考訳) JISAはJavaで書かれたソフトウェアライブラリで、物理科学研究者のための実験的な制御ソフトウェアを作成するための簡単で柔軟な標準化された手段を提供することを目的としている。 具体的には、計測コードを機器に依存しない方法で記述できるようにすることに重点を置いており、このようなルーチンを変更せずに、複数の異なるセットアップで再利用することができる。 さらに、データの記録と処理の簡単な方法や、グラフィカルな制御システムの作成を比較的簡単にするためのGUI(GUI)の「ブロック」も提供する。 これらを組み合わせることで、ユーザはこのような経験をあまり必要とせずに、テストと測定プログラムをコヒーレントなユーザインターフェースで迅速にまとめることができる。

JISA is a software library, written in Java, aimed at providing an easy, flexible and standardised means of creating experimental control software for physical sciences researchers. Specifically, with an emphasis on enabling measurement code to be written in an instrument-agnostic way, allowing such routines to be reused across multiple different setups without requiring modification. Additionally, it provides a simple means of recording and handling data, as well as pre-built graphical user interface (GUI) "blocks" to enable the relatively easy creation of graphical control systems. Together these allow users to quickly piece together test-and-measurement programs with coherent user interfaces, without requiring much experience of such things.
翻訳日:2023-10-23 12:49:11 公開日:2023-08-25
# 欠陥見落としを考慮したオンライン学習によるソフトウェア欠陥予測

Software Defect Prediction by Online Learning Considering Defect Overlooking ( http://arxiv.org/abs/2308.13582v1 )

ライセンス: Link先を確認
Yuta Yamasaki, Nikolay Fedorov, Masateru Tsunoda, Akito Monden, Amjed Tahir, Kwabena Ebo Bennin, Koji Toda, Keitaro Nakasai(参考訳) オンライン学習に基づく欠陥予測モデルの構築は,予測精度を向上させる。 新しいデータポイントを追加すると、新しい予測モデルを継続的に再構築します。 しかし、モジュールを"非欠陥"(負の予測)として予測すると、そのようなモジュールのテストケースが少なくなる。 したがって、モジュールが欠陥している場合でも、テスト中に欠陥を見逃すことができる。 誤テスト結果は、オンライン学習による学習データとして使用され、予測精度に悪影響を及ぼす可能性がある。 本実験では,予測精度に対する負の影響を示す。

Building defect prediction models based on online learning can enhance prediction accuracy. It continuously rebuilds a new prediction model when adding a new data point. However, predicting a module as "non-defective" (i.e., negative prediction) can result in fewer test cases for such modules. Therefore, defects can be overlooked during testing, even when the module is defective. The erroneous test results are used as learning data by online learning, which could negatively affect prediction accuracy. In our experiment, we demonstrate this negative influence on prediction accuracy.
翻訳日:2023-10-23 12:37:12 公開日:2023-08-25
# ソフトウェア開発問題追跡におけるセキュリティのコミュニケート

Communicating on Security within Software Development Issue Tracking ( http://arxiv.org/abs/2308.13480v1 )

ライセンス: Link先を確認
L\'eon McGregor, Manuel Maarek, Hans-Wolfgang Loidl(参考訳) ソフトウェア開発では、セキュリティと非セキュリティのバランスをとることが難しい。 セキュリティを考慮したソフトウェア開発イシュートラッカを用いた,非セキュリティ専門家によるセキュリティ意識とアプローチに注目した。 まず、著名なイシュートラッカのインターフェースを分析して、セキュリティコミュニケーションのサポート方法とセキュリティスコアの統合方法を確認します。 そこで我々は,特にセキュリティに対する態度を観察する上で,開発者が問題を優先する場合の基準について,小規模なユーザ調査を通じて検討する。 CVSSサマリー (Common Vulnerability Scoring System) やCVEレポート (Common Vulnerabilities and Exposures) を参照するプロジェクトもあるが,イシュートラッカにはインターフェースが設計されていないことが多い。 本研究ではCVSS分析に満足しなかったが,CVSSと互換性のある推論が可能であった。 詳細な説明とアドバイスは、セキュリティ決定に役立ちました。 これは、問題追跡ソフトウェアにおけるcvsのような質問によるコミュニケーションの改善が、より優れたセキュリティインタラクションを誘発することを示唆している。

During software development, balancing security and non security issues is challenging. We focus on security awareness and approaches taken by non-security experts using software development issue trackers when considering security. We first analyse interfaces from prominent issue trackers to see how they support security communication and how they integrate security scoring. Then, we investigate through a small scale user study what criteria developers take when prioritising issues, in particular observing their attitudes to security. We find projects make reference to CVSS summaries (Common Vulnerability Scoring System), often alongside CVE reports (Common Vulnerabilities and Exposures), but issue trackers do not often have interfaces designed for this. Users in our study were not comfortable with CVSS analysis, though were able to reason in a manner compatible with CVSS. Detailed explanations and advice were seen as helpful in making security decisions. This suggests that adding improvements to communication through CVSS-like questioning in issue tracking software can elicit better security interactions.
翻訳日:2023-10-23 12:37:04 公開日:2023-08-25
# 語彙難易度とコード自然度がプログラム理解に及ぼす影響の検討

Investigating the Impact of Vocabulary Difficulty and Code Naturalness on Program Comprehension ( http://arxiv.org/abs/2308.13429v1 )

ライセンス: Link先を確認
Bin Lin, Gregorio Robles(参考訳) コンテキスト: 開発者はほとんどの時間をソフトウェア開発でソースコードを理解するのに費やします。 可読性と理解可能なソースコードの評価は、タスクのトリージングやコードレビューなど、さまざまなタスクでさまざまなメリットが期待できる。 いくつかの研究がソフトウェア可読性と可理解性を予測するアプローチを提案しているが、そのほとんどはソースコードの局所的な特性にのみ焦点を当てている。 さらに、可理解性予測のパフォーマンスは満足には程遠い。 目的:本研究では,言語習得の観点から可読性と可読性を評価することを目的とする。 より具体的には、コードの可読性と理解性がソースコードの自然性や語彙難易度と相関しているかどうかを検証したいと思います。 方法: コード自然性を評価するために, 単語の難易度を評価するために, コード要素のリストを手作業で作成するのに対して, クロスエントロピーの指標を採用した。 我々は,それらの相関関係を理解するために統計的解析を行い,コード可読性および可読性予測法の性能向上にコード自然性および語彙難易度を用いることができるか分析する。 研究は既存のデータセットで実施する。

Context: Developers spend most of their time comprehending source code during software development. Automatically assessing how readable and understandable source code is can provide various benefits in different tasks, such as task triaging and code reviews. While several studies have proposed approaches to predict software readability and understandability, most of them only focus on local characteristics of source code. Besides, the performance of understandability prediction is far from satisfactory. Objective: In this study, we aim to assess readability and understandability from the perspective of language acquisition. More specifically, we would like to investigate whether code readability and understandability are correlated with the naturalness and vocabulary difficulty of source code. Method: To assess code naturalness, we adopted the cross-entropy metric, while we use a manually crafted list of code elements with their assigned advancement levels to assess the vocabulary difficulty. We will conduct a statistical analysis to understand their correlations and analyze whether code naturalness and vocabulary difficulty can be used to improve the performance of code readability and understandability prediction methods. The study will be conducted on existing datasets.
翻訳日:2023-10-23 12:36:47 公開日:2023-08-25
# COCO: 拡張命令によるコード生成システムのテスト

COCO: Testing Code Generation Systems via Concretized Instructions ( http://arxiv.org/abs/2308.13319v1 )

ライセンス: Link先を確認
Ming Yan, Junjie Chen, Jie M. Zhang, Xuejie Cao, Chen Yang, Mark Harman(参考訳) 近年,自然言語命令に基づくソースコードを生成するために,コード生成システムが広く開発されている。 しかし、その進歩にもかかわらず、これらのシステムは、わずかに異なる命令であってもかなり異なるコードセマンティクスをもたらす可能性がある堅牢性の問題に直面している。 コード生成システムではロバスト性が重要であり、ソフトウェア開発、ソフトウェア品質、生成コードに対する信頼に大きな影響を与える可能性がある。 一般的なテキスト・テキスト・ソフトウェアの既存のテスト技術は、いくつかの堅牢性問題を検出することができるが、コード生成システムの特徴を無視して有効性に制限されている。 本研究では,コード生成システムのロバスト性をテストするための新しいCOCO手法を提案する。 コード生成システムの使用シナリオを利用して、元のコードに含まれると思われる機能を組み込むことで、元のプログラミング命令をより具体的にする。 堅牢なシステムは、concretized命令のためのコードセマンティクスを維持すべきであり、cocoは、そうでない場合のロバスト性不整合を検出する。 我々はCOCOをCopilotやChatGPTなどの商用ツールを含む8つの高度なコード生成システム上で2つの広く利用されているデータセットを用いて評価した。 その結果,コード生成システムのロバスト性テストにおけるCOCOの有効性が示され,一般的なテキスト・テキスト・ソフトウェア・テストでは,それぞれ466.66%,104.02%の2つの手法に優れていた。 さらに、COCOによって生成される減量命令は、微調整によって堅牢性の不整合を18.35%から53.91%減少させるのに役立つ。

Code generation systems have been extensively developed in recent years to generate source code based on natural language instructions. However, despite their advancements, these systems still face robustness issues where even slightly different instructions can result in significantly different code semantics. Robustness is critical for code generation systems, as it can have significant impacts on software development, software quality, and trust in the generated code. Although existing testing techniques for general text-to-text software can detect some robustness issues, they are limited in effectiveness due to ignoring the characteristics of code generation systems. In this work, we propose a novel technique COCO to test the robustness of code generation systems. It exploits the usage scenario of code generation systems to make the original programming instruction more concrete by incorporating features known to be contained in the original code. A robust system should maintain code semantics for the concretized instruction, and COCO detects robustness inconsistencies when it does not. We evaluated COCO on eight advanced code generation systems, including commercial tools such as Copilot and ChatGPT, using two widely-used datasets. Our results demonstrate the effectiveness of COCO in testing the robustness of code generation systems, outperforming two techniques adopted from general text-to-text software testing by 466.66% and 104.02%, respectively. Furthermore, concretized instructions generated by COCO can help reduce robustness inconsistencies by 18.35% to 53.91% through fine-tuning.
翻訳日:2023-10-23 12:36:29 公開日:2023-08-25
# がん登録支援システムの実用化に向けた課題

Challenges of Testing an Evolving Cancer Registration Support System in Practice ( http://arxiv.org/abs/2308.13306v1 )

ライセンス: Link先を確認
Christoph Laaber, Tao Yue, Shaukat Ali, Thomas Schwitalla, Jan F. Nyg{\aa}rd(参考訳) ノルウェーがん登録 (CRN) は、医師、患者、および政策立案者のための研究データと統計データへの統一的なアクセスを提供するために、がん患者のデータ履歴を収集し、管理する公共団体である。 この目的のために、CRNは複雑で絶え間なく進化し、社会技術的ソフトウェアシステムを開発し、運用している。 近年,機械学習(ML)アルゴリズムが導入され,学習モデルから自動決定支援を行う人間による手作業による決定が強化されている。 システムを正確かつ堅牢にするために、がん患者のデータは適切に処理され、プライバシー上の懸念に反しないよう、自動テストソリューションが開発されている。 本稿では,CRNで自動テストソリューションを開発する際の課題について紹介する。 このようなテストは、今後何年も癌データの品質に影響を与える可能性がある。 特定された課題は、CRNに固有のものではなく、他のヘルスケアレジストリの文脈でも有効である。 我々はまた、特定された課題を解決するために調査している初期ソリューションについて、いくつかの詳細を提供する。

The Cancer Registry of Norway (CRN) is a public body responsible for capturing and curating cancer patient data histories to provide a unified access to research data and statistics for doctors, patients, and policymakers. For this purpose, CRN develops and operates a complex, constantly-evolving, and socio-technical software system. Recently, machine learning (ML) algorithms have been introduced into this system to augment the manual decisions made by humans with automated decision support from learned models. To ensure that the system is correct and robust and cancer patients' data are properly handled and do not violate privacy concerns, automated testing solutions are being developed. In this paper, we share the challenges that we identified when developing automated testing solutions at CRN. Such testing potentially impacts the quality of cancer data for years to come, which is also used by the system's stakeholders to make critical decisions. The challenges identified are not specific to CRN but are also valid in the context of other healthcare registries. We also provide some details on initial solutions that we are investigating to solve the identified challenges.
翻訳日:2023-10-23 12:36:02 公開日:2023-08-25
# 野生におけるIoTセキュリティの脆弱性と脆弱性に関する大規模研究

A Large-Scale Study of IoT Security Weaknesses and Vulnerabilities in the Wild ( http://arxiv.org/abs/2308.13141v1 )

ライセンス: Link先を確認
Madhu Selvaraj, Gias Uddin(参考訳) モノのインターネット(モノのインターネット、Internet of Things、IoT)は、スマートコンピューティングデバイスを介してインターネットやネットワーク上での場所と物理的オブジェクト(物)の接続として定義される。 私たちはIoTソフトウェア開発者が,Stack Exchangeの3つのQ&Aサイト – Stack Overflow (SO), Arduino, Raspberry Pi – で,プログラミング問題に対するソリューションをコード例として公開しているのを観察しました。 以前の調査では、Stack Overflowで共有されたC/C++コードの例で脆弱性や脆弱性が見つかった。 しかし、研究はIoTに関連するC/C++コードの例を調査しなかった。 研究はコード例のみを調査した。 本稿では,3つのStack Exchangeサイトで共有されているIoT C/C++コード例,すなわちSO,Arduino,Raspberry Piに関する大規模な実証的研究を行う。 11,329個のサイトから得られたコードスニペットから、29種類のCWE(Common Weakness Enumeration)を609個のスニペットで同定した。 これらのCWEタイプは8つの一般的な弱点カテゴリに分類でき、評価、メモリ、初期化に関連する弱点は、プログラミングソリューションを投稿する際に最も一般的に導入される。 さらに、脆弱なコードスニペットの39.58%には、これらのCWEタイプの実際の発生(CVEインスタンス)にマッピング可能なCWE型のインスタンスが含まれていることが判明した。 最も脆弱なIoTコードの例はArduinoで、その後にSO、Raspberry Piが続いた。 メモリタイプの脆弱性がサイトを増加させています。 例えば、3595のマッピングされたcveインスタンスでは、28.99%がdos(denial of service)エラーを引き起こしており、これは特にスマートカーのようなネットワーク依存のiotデバイスに有害である。 我々の研究結果は、さまざまなIoT利害関係者がこのような脆弱なIoTコード例を認識し、IoT研究者に、脆弱性のあるコード例をサイト内で共有するのを防ぐツールの開発中に通知するように誘導することができる。 abridged (複数形 abridgeds)

Internet of Things (IoT) is defined as the connection between places and physical objects (i.e., things) over the internet/network via smart computing devices. We observed that IoT software developers share solutions to programming questions as code examples on three Stack Exchange Q&A sites: Stack Overflow (SO), Arduino, and Raspberry Pi. Previous research studies found vulnerabilities/weaknesses in C/C++ code examples shared in Stack Overflow. However, the studies did not investigate C/C++ code examples related to IoT. The studies investigated SO code examples only. In this paper, we conduct a large-scale empirical study of all IoT C/C++ code examples shared in the three Stack Exchange sites, i.e., SO, Arduino, and Raspberry Pi. From the 11,329 obtained code snippets from the three sites, we identify 29 distinct CWE (Common Weakness Enumeration) types in 609 snippets. These CWE types can be categorized into 8 general weakness categories, and we observe that evaluation, memory, and initialization related weaknesses are the most common to be introduced by users when posting programming solutions. Furthermore, we find that 39.58% of the vulnerable code snippets contain instances of CWE types that can be mapped to real-world occurrences of those CWE types (i.e. CVE instances). The most number vulnerable IoT code examples was found in Arduino, followed by SO, and Raspberry Pi. Memory type vulnerabilities are on the rise in the sites. For example, from the 3595 mapped CVE instances, we find that 28.99% result in Denial of Service (DoS) errors, which is particularly harmful for network reliant IoT devices such as smart cars. Our study results can guide various IoT stakeholders to be aware of such vulnerable IoT code examples and to inform IoT researchers during their development of tools that can help prevent developers the sharing of such vulnerable code examples in the sites. [Abridged].
翻訳日:2023-10-23 12:35:25 公開日:2023-08-25
# 並列バッチテストによる継続的インテグレーションの促進

Accelerating Continuous Integration with Parallel Batch Testing ( http://arxiv.org/abs/2308.13129v1 )

ライセンス: Link先を確認
Emad Fallahzadeh (1), Amir Hossein Bavand (1), and Peter C. Rigby (1) ((1) Concordia University, Montreal, Quebec, Canada)(参考訳) 大規模な継続的インテグレーションはコストがかかるが、ソフトウェア開発には不可欠だ。 テスト選択や優先順位付けなどの様々なテスト最適化手法は、コスト削減を目的としている。 テストバッチは効果的な代替手段ですが、見落としているテクニックです。 本研究では,テストバッチの機械数を調整することで並列化の効果を評価し,新しい2つのアプローチを提案する。 並列性とマシン数の影響がフィードバック時間に与える影響を研究するために、testallをベースラインとして確立する。 我々は、constantbatchingを再評価し、キューの残りの変更に基づいてバッチサイズに適応するdynamicbatchingを導入する。 また、テストの実行が完了する前に新しいビルドがバッチに加わることを可能にするtestcasebatchingも提案しています。 当社の評価では、エリクソンの結果と、オープンソースのchromeによる2億7600万のテスト結果を利用して、フィードバック時間、実行時間を評価し、chromeプロジェクトスクリプトとデータへのアクセスを提供する。 その結果、テストキュー全体にわたって各テストの遅延化合物として、テストの並列化がフィードバック時間に与える影響が明らかになった。 バッチサイズ4のConstantBatchingは、実際の平均フィードバック時間を維持するために、マシンを最大72%削減し、実行時間を最大75%削減する。 同様にDynamicBatchingは、最大91%のマシンで実際の平均フィードバック時間を維持し、最大99%の変数実行削減を示す。 TestCaseBatchingは、最大81%のマシンで実際の平均フィードバックタイムのラインを保持し、最大67%の変数実行削減を示す。 必要なテストマシンを効率的に削減するために、dynamicbatchingとtestcasebatchingを実践者に推奨する。 履歴データを分析して、より多くのマシンがフィードバック時間にほとんど影響を与えないしきい値を見つけることも、リソース効率のテストには不可欠である。

Continuous integration at scale is costly but essential to software development. Various test optimization techniques including test selection and prioritization aim to reduce the cost. Test batching is an effective alternative, but overlooked technique. This study evaluates parallelization's effect by adjusting machine count for test batching and introduces two novel approaches. We establish TestAll as a baseline to study the impact of parallelism and machine count on feedback time. We re-evaluate ConstantBatching and introduce DynamicBatching, which adapts batch size based on the remaining changes in the queue. We also propose TestCaseBatching, enabling new builds to join a batch before full test execution, thus speeding up continuous integration. Our evaluations utilize Ericsson's results and 276 million test outcomes from open-source Chrome, assessing feedback time, execution reduction, and providing access to Chrome project scripts and data. The results reveal a non-linear impact of test parallelization on feedback time, as each test delay compounds across the entire test queue. ConstantBatching, with a batch size of 4, utilizes up to 72% fewer machines to maintain the actual average feedback time and provides a constant execution reduction of up to 75%. Similarly, DynamicBatching maintains the actual average feedback time with up to 91% fewer machines and exhibits variable execution reduction of up to 99%. TestCaseBatching holds the line of the actual average feedback time with up to 81% fewer machines and demonstrates variable execution reduction of up to 67%. We recommend practitioners use DynamicBatching and TestCaseBatching to reduce the required testing machines efficiently. Analyzing historical data to find the threshold where adding more machines has minimal impact on feedback time is also crucial for resource-effective testing.
翻訳日:2023-10-23 12:34:54 公開日:2023-08-25
# DebtViz: 自己承認型技術的負債を識別、測定、可視化、監視するためのツール

DebtViz: A Tool for Identifying, Measuring, Visualizing, and Monitoring Self-Admitted Technical Debt ( http://arxiv.org/abs/2308.13128v1 )

ライセンス: Link先を確認
Yikun Li, Mohamed Soliman, Paris Avgeriou, Maarten van Ittersum(参考訳) 技術的負債、特にsatd(self-admitted technical debt)は、長期的ソフトウェア保守性に悪影響を及ぼす可能性があるため、ソフトウェア開発者やマネージャにとって重要な課題である。 SATDの特定には様々なアプローチがあるが、包括的管理のためのツールは特に欠落している。 本稿では,ソースコードコメントやイシュートラッキングシステムにおいて,様々なSATDを自動検出,分類,可視化,監視するための革新的なSATDツールであるDebtVizを提案する。 debtvizは畳み込みニューラルネットワークに基づく検出手法とキーワード抽出のためのデ畳み込み手法を採用している。 データ収集と前処理のためのバックエンドサービス、データ分類のためのSATD分類器、ユーザインタラクションのためのフロントエンドモジュールで構成されている。 DebtVizはSATDの管理をより効率的にするだけでなく、ソフトウェアシステム内のSATDの状態に関する詳細な洞察を提供する。 DebtVizのスケーラビリティとデプロイ性は、様々なソフトウェア開発環境における開発者とマネージャの両方にとって実用的なツールでもある。 DebtVizのソースコードはhttps://github.com/yikun-li/visdom-satd-management-systemで公開されている。

Technical debt, specifically Self-Admitted Technical Debt (SATD), remains a significant challenge for software developers and managers due to its potential to adversely affect long-term software maintainability. Although various approaches exist to identify SATD, tools for its comprehensive management are notably lacking. This paper presents DebtViz, an innovative SATD tool designed to automatically detect, classify, visualize and monitor various types of SATD in source code comments and issue tracking systems. DebtViz employs a Convolutional Neural Network-based approach for detection and a deconvolution technique for keyword extraction. The tool is structured into a back-end service for data collection and pre-processing, a SATD classifier for data categorization, and a front-end module for user interaction. DebtViz not only makes the management of SATD more efficient but also provides in-depth insights into the state of SATD within software systems, fostering informed decision-making on managing it. The scalability and deployability of DebtViz also make it a practical tool for both developers and managers in diverse software development environments. The source code of DebtViz is available at https://github.com/yikun-li/visdom-satd-management-system and the demo of DebtViz is at https://youtu.be/QXH6Bj0HQew.
翻訳日:2023-10-23 12:34:27 公開日:2023-08-25
# Human-in-the-loop Online Just-in-timeソフトウェア欠陥予測

Human-in-the-loop online just-in-time software defect prediction ( http://arxiv.org/abs/2308.13707v1 )

ライセンス: Link先を確認
Xutong Liu, Yufei Zhou, Yutian Tang, Junyan Qian, Yuming Zhou(参考訳) オンラインジャストインタイムソフトウェア欠陥予測(o-jit-sdp)は、オンラインモデルを使用して、新しいソフトウェア変更がバグを引き起こすかどうかを予測する。 しかし、既存の研究では、ソフトウェア品質保証(SQA)スタッフとモデルとの相互作用を無視しており、SQAスタッフからのフィードバックによって予測精度を改善する機会を逃す可能性がある。 この問題に対処するために,SQAスタッフからのフィードバックを統合し,予測プロセスを強化するHuman-In-The-Loop (HITL) O-JIT-SDPを提案する。 さらに,k-fold分散ブートストラップ法とwilcoxon符号付きランクテストを用いたパフォーマンス評価フレームワークを提案する。 このフレームワークは、前列的評価アプローチを用いて、代替分類アルゴリズムの完全なペアワイズ比較を容易にする。 本提案は,事前のプロセスを通じて連続的な統計テストを可能にし,ロバストな統計証拠に基づくリアルタイムな意思決定を可能にする。 10のGitHubプロジェクトを対象とした実験により,評価フレームワークがモデル評価の信頼性を高め,HITLフィードバックの導入によってオンラインJIT-SDPモデルの予測性能が向上することが実証された。 これらの進歩は、産業アプリケーションにおけるO-JIT-SDPの価値を大幅に向上させる可能性を秘めている。

Online Just-In-Time Software Defect Prediction (O-JIT-SDP) uses an online model to predict whether a new software change will introduce a bug or not. However, existing studies neglect the interaction of Software Quality Assurance (SQA) staff with the model, which may miss the opportunity to improve the prediction accuracy through the feedback from SQA staff. To tackle this problem, we propose Human-In-The-Loop (HITL) O-JIT-SDP that integrates feedback from SQA staff to enhance the prediction process. Furthermore, we introduce a performance evaluation framework that utilizes a k-fold distributed bootstrap method along with the Wilcoxon signed-rank test. This framework facilitates thorough pairwise comparisons of alternative classification algorithms using a prequential evaluation approach. Our proposal enables continuous statistical testing throughout the prequential process, empowering developers to make real-time decisions based on robust statistical evidence. Through experimentation across 10 GitHub projects, we demonstrate that our evaluation framework enhances the credibility of model evaluation, and the incorporation of HITL feedback elevates the prediction performance of online JIT-SDP models. These advancements hold the potential to significantly enhance the value of O-JIT-SDP for industrial applications.
翻訳日:2023-10-23 12:25:21 公開日:2023-08-25
# 分子特性予測のためのグラフとトランスの相乗的融合

Synergistic Fusion of Graph and Transformer Features for Enhanced Molecular Property Prediction ( http://arxiv.org/abs/2310.03027v1 )

ライセンス: Link先を確認
M V Sai Prakash, Siddartha Reddy N, Ganesh Parab, Varun V, Vishal Vaddina, Saisubramaniam Gopalakrishnan(参考訳) 分子特性予測は、計算薬物発見において重要な課題である。 グラフニューラルネットワーク(GNN)とトランスフォーマーの最近の進歩は効果的で有望であることが示されているが、それらは以下の制限に直面している。 このような制約に対処するため,GNNとTransformerの事前学習機能を相乗的に組み合わせたSynFUSIONを提案する。 このアプローチは包括的分子表現を提供し、大域分子構造と個々の原子特性の両方をキャプチャする。 MoleculeNetベンチマークの実験結果は,7つの分類データセット中5つ,6つの回帰データセット中4つに,以前のモデルよりも優れたパフォーマンスを示している。 Syn-FUSIONの性能は、変換器とグラフ特徴の組み合わせで共同で訓練された他のGraph-Transformerモデルと比較され、これらのモデルと性能の面で同等であることが判明した。 損失, 潜伏空間, 重量分布など, 学習した融合モデルの大規模解析により, シン融合の有効性がさらに検証される。 最後に、アブレーション研究は、Syman-FUSIONによって達成されたシナジーが個々のモデルコンポーネントとそのアンサンブルのパフォーマンスを上回り、分子特性の予測を大幅に改善することを示した。

Molecular property prediction is a critical task in computational drug discovery. While recent advances in Graph Neural Networks (GNNs) and Transformers have shown to be effective and promising, they face the following limitations: Transformer self-attention does not explicitly consider the underlying molecule structure while GNN feature representation alone is not sufficient to capture granular and hidden interactions and characteristics that distinguish similar molecules. To address these limitations, we propose SYN- FUSION, a novel approach that synergistically combines pre-trained features from GNNs and Transformers. This approach provides a comprehensive molecular representation, capturing both the global molecule structure and the individual atom characteristics. Experimental results on MoleculeNet benchmarks demonstrate superior performance, surpassing previous models in 5 out of 7 classification datasets and 4 out of 6 regression datasets. The performance of SYN-FUSION has been compared with other Graph-Transformer models that have been jointly trained using a combination of transformer and graph features, and it is found that our approach is on par with those models in terms of performance. Extensive analysis of the learned fusion model across aspects such as loss, latent space, and weight distribution further validates the effectiveness of SYN-FUSION. Finally, an ablation study unequivocally demonstrates that the synergy achieved by SYN-FUSION surpasses the performance of its individual model components and their ensemble, offering a substantial improvement in predicting molecular properties.
翻訳日:2023-10-23 04:45:25 公開日:2023-08-25
# マルチエージェント強化学習によるスクラッチからサイバー防衛戦術の学習

Learning Cyber Defence Tactics from Scratch with Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2310.05939v1 )

ライセンス: Link先を確認
Jacob Wiebe, Ranwa Al Mallah, Li Li(参考訳) 近年のディープラーニング技術の進歩は、自律型サイバー防衛のソリューションを設計する新たな可能性を開いた。 コンピュータネットワーク防衛の役割における知的エージェントのチームは、サイバーおよび運動的資産を保護するための有望な道を明らかにする可能性がある。 シミュレーションゲーム環境では、エージェントはホストベースの防衛シナリオにおける攻撃活動を共同で緩和する能力に基づいて評価される。 防御システムは、ネットワークの機密性、完全性、可用性を妥協する目的で、ヒューリスティック攻撃に対して評価される。 価値に基づく独立学習と集中型訓練 分散実行(CTDE)協調型マルチエージェント強化学習(MARL)法を比較し,両手法が単純なマルチエージェントヒューリスティックディフェンダーより優れていることを示した。 この研究は、様々な脅威に対して効果的なサイバー防衛戦術を学習するMARLの能力を示す。

Recent advancements in deep learning techniques have opened new possibilities for designing solutions for autonomous cyber defence. Teams of intelligent agents in computer network defence roles may reveal promising avenues to safeguard cyber and kinetic assets. In a simulated game environment, agents are evaluated on their ability to jointly mitigate attacker activity in host-based defence scenarios. Defender systems are evaluated against heuristic attackers with the goals of compromising network confidentiality, integrity, and availability. Value-based Independent Learning and Centralized Training Decentralized Execution (CTDE) cooperative Multi-Agent Reinforcement Learning (MARL) methods are compared revealing that both approaches outperform a simple multi-agent heuristic defender. This work demonstrates the ability of cooperative MARL to learn effective cyber defence tactics against varied threats.
翻訳日:2023-10-23 04:04:26 公開日:2023-08-25
# 大規模言語モデルにおける文化的アライメント:ホフステデの文化的次元に基づく説明的分析

Cultural Alignment in Large Language Models: An Explanatory Analysis Based on Hofstede's Cultural Dimensions ( http://arxiv.org/abs/2309.12342v1 )

ライセンス: Link先を確認
Reem I. Masoud, Ziquan Liu, Martin Ferianc, Philip Treleaven, Miguel Rodrigues(参考訳) 大規模言語モデル(LLM)の展開は、文化的不一致と、様々な文化的規範から個人への潜在的影響に関する懸念を提起する。 既存の研究は、文化的価値観よりも政治的・社会的偏見や世論を調査した。 この制限に対処するため,提案した文化的アライメントテスト(CAT)は,Hofstedeの文化的次元の枠組みを用いて文化的アライメントを定量化する。 chatgptやbardといった最先端llmに埋め込まれた文化的価値を評価するために,米国(米国),サウジアラビア,中国,スロバキアのさまざまな文化にまたがって,さまざまなプロンプトスタイルとハイパーパラメータ設定を用いて評価する。 その結果, LLMの文化的アライメントの定量化だけでなく, 説明的文化的側面におけるLCMの差異も明らかにした。 すべてのllmは文化価値の理解において満足のいく結果を与えなかったが、gpt-4はアメリカの文化価値において最も高い猫得点を示した。

The deployment of large language models (LLMs) raises concerns regarding their cultural misalignment and potential ramifications on individuals from various cultural norms. Existing work investigated political and social biases and public opinions rather than their cultural values. To address this limitation, the proposed Cultural Alignment Test (CAT) quantifies cultural alignment using Hofstede's cultural dimension framework, which offers an explanatory cross-cultural comparison through the latent variable analysis. We apply our approach to assess the cultural values embedded in state-of-the-art LLMs, such as: ChatGPT and Bard, across diverse cultures of countries: United States (US), Saudi Arabia, China, and Slovakia, using different prompting styles and hyperparameter settings. Our results not only quantify cultural alignment of LLMs with certain countries, but also reveal the difference between LLMs in explanatory cultural dimensions. While all LLMs did not provide satisfactory results in understanding cultural values, GPT-4 exhibited the highest CAT score for the cultural values of the US.
翻訳日:2023-10-01 13:05:27 公開日:2023-08-25
# 国家経済動員のためのHTNに基づくタスク割り当て計画

Task allocation planning based on HTN for national economic mobilization ( http://arxiv.org/abs/2309.12341v1 )

ライセンス: Link先を確認
Peng Zhao(参考訳) 国家経済動員におけるタスク割り当てに対応するために,階層型タスクネットワーク(HTN)に基づくタスク割り当て計画手法を提案する。 HTN計画アルゴリズムはタスク割り当てを解き、最適化するために設計され、リソース不足に対処する手法が検討されている。 最後に、国家経済動員における実際のタスク割当事例に基づいて、提案手法の有効性を検証する実験研究を行った。

In order to cope with the task allocation in national economic mobilization, a task allocation planning method based on Hierarchical Task Network (HTN) for national economic mobilization is proposed. An HTN planning algorithm is designed to solve and optimize task allocation, and a method is explored to deal with the resource shortage. Finally, based on a real task allocation case in national economic mobilization, an experimental study verifies the effectiveness of the proposed method.
翻訳日:2023-10-01 13:05:05 公開日:2023-08-25
# シークエンシングとマルチモーダル推論による対向的説明とバイアスの露呈

Antagonising explanation and revealing bias directly through sequencing and multimodal inference ( http://arxiv.org/abs/2309.12345v1 )

ライセンス: Link先を確認
Lu\'is Arandas, Mick Grierson and Miguel Carvalhais(参考訳) 深層生成モデル(deep generative models)は、可能なサンプルを近似計算するプロセスを通じて、学習した表現(例えば拡散モデル)に従ってデータを生成する。 近似は、再構成として理解することができ、データ構造(写真、オーディオ記録、原稿)で物理世界を表現するための一連の記録としてモデルをトレーニングするために使用される大きなデータセットである。 再構築の過程では、例えば、画像フレームが各時間ステップをテキスト入力記述に向けて展開する。 時間とともに進む一方で、フレームセットは学習されたバイアスとそれらの生産に基づいて形作られており、ここでは、後方拡散プロセスへのインスピレーションではなく、認識する文化が特に記録に刻まれている、と論じる。 生成モデリングの将来、すなわち映画やオーディオヴィジュアルアートは、特定の時間で視野を捉え、我々の有限メモリイデアルと相関する記録を認識すれば、必然的に過去と結びつくことによって未来を計算するプロセスとして拡散システムを扱うことで恩恵を受けることができる。 新しいデータ分布を生成するモデルは、信号プロセッサとしてビデオ生成をターゲットとし、タイムラインを通じてシーケンスを開発することによって、私たちはまた、10年前のアルゴリズムとマルチトラックの方法論を振り返って、コンポジションと説明的ではなく、動画像合成に対する現代的アプローチの実際の予測的失敗を明らかにする。

Deep generative models produce data according to a learned representation, e.g. diffusion models, through a process of approximation computing possible samples. Approximation can be understood as reconstruction and the large datasets used to train models as sets of records in which we represent the physical world with some data structure (photographs, audio recordings, manuscripts). During the process of reconstruction, e.g., image frames develop each timestep towards a textual input description. While moving forward in time, frame sets are shaped according to learned bias and their production, we argue here, can be considered as going back in time; not by inspiration on the backward diffusion process but acknowledging culture is specifically marked in the records. Futures of generative modelling, namely in film and audiovisual arts, can benefit by dealing with diffusion systems as a process to compute the future by inevitably being tied to the past, if acknowledging the records as to capture fields of view at a specific time, and to correlate with our own finite memory ideals. Models generating new data distributions can target video production as signal processors and by developing sequences through timelines we ourselves also go back to decade-old algorithmic and multi-track methodologies revealing the actual predictive failure of contemporary approaches to synthesis in moving image, both as relevant to composition and not explanatory.
翻訳日:2023-10-01 12:54:31 公開日:2023-08-25
# スマートシティにおけるIoTの探求 - 実践,課題,今後の展開

Exploring IoT in Smart Cities: Practices, Challenges and Way Forward ( http://arxiv.org/abs/2309.12344v1 )

ライセンス: Link先を確認
Kashif Ishaq, Syed Shah Farooq(参考訳) IoT(Internet of Things)技術の台頭は都市生活に革命をもたらし、スマートホーム、スマートインフラストラクチャ、スマート産業がインテリジェントな都市エコシステムの発展に寄与する重要な側面であるスマートな都市に、大きな可能性を秘めている。 スマートホーム技術の統合はデータのプライバシとセキュリティに関する懸念を提起する一方で、スマートインフラストラクチャの実装には堅牢なネットワークと相互運用性ソリューションが必要である。 同時に、IoTを産業環境でデプロイすることは、スケーラビリティ、標準化、データ管理に関連する課題に直面します。 本稿では,スマートシティにおけるiotの分野における公開研究の体系的文献レビューと,reputable journals and conferencesに掲載された55の関連する初等研究について紹介する。 この広範な文献レビューは、スマートホーム、スマートインフラストラクチャ、スマート産業のさまざまな側面と、セキュリティやプライバシ、スマートセンサー、相互運用性、標準化といった課題を調査し、評価する。 我々は、セキュリティ上の懸念を克服しつつ、スマートシティの効率性と有効性を高めるため、統一された視点を提供する。 その後、集団的統合の可能性とスマートシティ開発への影響を探求する。 さらに,各コンポーネントが個別に抱える課題に対処し,都市の効率性と持続可能性の向上に両立した影響を探求する。 セキュリティに関する包括的な分析を通じて、この研究はこれらのIoTコンポーネントを統一的なアプローチでうまく統合し、将来スマートシティを構築するための総合的なフレームワークを提供する。 スマートホーム、スマートインフラストラクチャ、スマート産業の統合 この研究は、スマートシティ開発における統合アプローチの重要性を強調している。

The rise of Internet of things (IoT) technology has revolutionized urban living, offering immense potential for smart cities in which smart home, smart infrastructure, and smart industry are essential aspects that contribute to the development of intelligent urban ecosystems. The integration of smart home technology raises concerns regarding data privacy and security, while smart infrastructure implementation demands robust networking and interoperability solutions. Simultaneously, deploying IoT in industrial settings faces challenges related to scalability, standardization, and data management. This research paper offers a systematic literature review of published research in the field of IoT in smart cities including 55 relevant primary studies that have been published in reputable journals and conferences. This extensive literature review explores and evaluates various aspects of smart home, smart infrastructure, and smart industry and the challenges like security and privacy, smart sensors, interoperability and standardization. We provide a unified perspective, as we seek to enhance the efficiency and effectiveness of smart cities while overcoming security concerns. It then explores their potential for collective integration and impact on the development of smart cities. Furthermore, this study addresses the challenges associated with each component individually and explores their combined impact on enhancing urban efficiency and sustainability. Through a comprehensive analysis of security concerns, this research successfully integrates these IoT components in a unified approach, presenting a holistic framework for building smart cities of the future. Integrating smart home, smart infrastructure, and smart industry, this research highlights the significance of an integrated approach in developing smart cities.
翻訳日:2023-10-01 12:54:07 公開日:2023-08-25
# 対話型学習システムにおける能力教育の統合

Integrating Competency-Based Education in Interactive Learning Systems ( http://arxiv.org/abs/2309.12343v1 )

ライセンス: Link先を確認
Maximilian S\"olch, Moritz Aberle, Stephan Krusche(参考訳) artemisは、コースを組織し、講義内容とインタラクティブなエクササイズをホストし、試験を行い、個別のフィードバックで自動評価を作成する対話型学習システムである。 研究によると、学生は独自の能力、過去の経験、期待を持っている。 しかし、Artemisを含む現在の学習システムにおけるコース内容は、学生の能力に合わせたものではない。 本論文の主な目的は、Artemisに能力に基づく教育を学べるようにし、各学生の独特な特徴に基づいて個別のコースコンテンツを提供することである。 教官が能力関係グラフを作成するための能力間の関係をどう定義するか、Artemisが生徒の能力の習得に向けての進捗を測ったり視覚化したり、関連する学習資源を推奨する生徒のための個別学習経路を生成するかを示す。 最後に,新たに設計した能力可視化のユーザビリティに関するユーザスタディの結果を提示し,改善の可能性と今後の展望について展望する。

Artemis is an interactive learning system that organizes courses, hosts lecture content and interactive exercises, conducts exams, and creates automatic assessments with individual feedback. Research shows that students have unique capabilities, previous experiences, and expectations. However, the course content on current learning systems, including Artemis, is not tailored to a student's competencies. The main goal of this paper is to describe how to make Artemis capable of competency-based education and provide individual course content based on the unique characteristics of every student. We show how instructors can define relations between competencies to create a competency relation graph, how Artemis measures and visualizes the student's progress toward mastering a competency, and how the progress can generate a personalized learning path for students that recommends relevant learning resources. Finally, we present the results of a user study regarding the usability of the newly designed competency visualization and give an outlook on possible improvements and future visions.
翻訳日:2023-10-01 12:53:41 公開日:2023-08-25
# 植物研究データの公平性向上のためのオントロジー

Ontologies for increasing the FAIRness of plant research data ( http://arxiv.org/abs/2309.07129v1 )

ライセンス: Link先を確認
Kathryn Dumschott, Hannah D\"orpholz, Marie-Ang\'elique Laporte, Dominik Brilhaus, Andrea Schrader, Bj\"orn Usadel, Steffen Neumann, Elizabeth Arnaud and Angela Kranz(参考訳) 研究データのFAIR性(ファイナビリティ、アクセシビリティ、相互運用性、再利用性)を改善することの重要性は、特に現在オミクス技術によって作成されている大規模で複雑なデータセットに直面しては、決定できない。 データセットと他の種類のデータを統合することは、再利用の可能性を高め、新しい研究課題に答える可能性を高める。 ontologiesは、関連するメタデータを追加することで、データの生成方法の理解を深め、相互運用性を高めるために、データセットを意味的にタグ付けする便利なツールである。 オントロジーは特定の領域の概念と概念間の関係を提供する。 オントロジー用語でデータをタグ付けすることで、データは人間と機械の両方で解釈可能になり、再利用と相互運用性が向上する。 しかしながら、特定の研究領域や技術に関連するオントロジーを特定するタスクは、特に基礎植物研究の多様な領域において困難である。 本稿では,植物基本科学に最も関係の深いオントロジーについて概説するとともに,それらのオントロジーを用いて,植物固有の実験をメタデータフレームワーク内でアノテートする方法について概説する。 また,適用可能なオントロジーの同定やオントロジー用語の検索に最も有用なリポジトリやプラットフォームについても概説する。

The importance of improving the FAIRness (findability, accessibility, interoperability, reusability) of research data is undeniable, especially in the face of large, complex datasets currently being produced by omics technologies. Facilitating the integration of a dataset with other types of data increases the likelihood of reuse, and the potential of answering novel research questions. Ontologies are a useful tool for semantically tagging datasets as adding relevant metadata increases the understanding of how data was produced and increases its interoperability. Ontologies provide concepts for a particular domain as well as the relationships between concepts. By tagging data with ontology terms, data becomes both human and machine interpretable, allowing for increased reuse and interoperability. However, the task of identifying ontologies relevant to a particular research domain or technology is challenging, especially within the diverse realm of fundamental plant research. In this review, we outline the ontologies most relevant to the fundamental plant sciences and how they can be used to annotate data related to plant-specific experiments within metadata frameworks, such as Investigation-Study-Assay (ISA). We also outline repositories and platforms most useful for identifying applicable ontologies or finding ontology terms.
翻訳日:2023-09-17 13:49:03 公開日:2023-08-25
# 誤情報のコンシェルジュ:covid-19ワクチン接種に関するtwitterデータセットによる概念実証

Misinformation Concierge: A Proof-of-Concept with Curated Twitter Dataset on COVID-19 Vaccination ( http://arxiv.org/abs/2309.00639v1 )

ライセンス: Link先を確認
Shakshi Sharma, Anwitaman Datta, Vigneshwaran Shankaran and Rajesh Sharma(参考訳) ソーシャルメディアで普及している誤情報に関する実用的な情報を提供する概念実証である誤情報コンシェルジュを実証する。 具体的には、言語処理と機械学習ツールを使用して、言論のサブトピックを識別し、非誤解の投稿を識別し、政策立案者に適切な誤報の全体像をタイムリーに理解するための統計レポートを提示し、データコーパス内から特定された特定の誤報に対する再送メッセージを推奨する。 https://demo-frontend-uy34.onrender.com/(英語)

We demonstrate the Misinformation Concierge, a proof-of-concept that provides actionable intelligence on misinformation prevalent in social media. Specifically, it uses language processing and machine learning tools to identify subtopics of discourse and discern non/misleading posts; presents statistical reports for policy-makers to understand the big picture of prevalent misinformation in a timely manner; and recommends rebuttal messages for specific pieces of misinformation, identified from within the corpus of data - providing means to intervene and counter misinformation promptly. The Misinformation Concierge proof-of-concept using a curated dataset is accessible at: https://demo-frontend-uy34.onrender.com/
翻訳日:2023-09-10 03:57:41 公開日:2023-08-25
# 内因性BCIトレーニングを促進する人・機械共同学習フレームワーク

A Human-Machine Joint Learning Framework to Boost Endogenous BCI Training ( http://arxiv.org/abs/2309.03209v1 )

ライセンス: Link先を確認
Hanwen Wang, Yu Qi, Lin Yao, Yueming Wang, Dario Farina, Gang Pan(参考訳) 脳-コンピューターインタフェース(bcis)は、脳から外部デバイスへの直接経路を提供し、補助的およびリハビリテーション技術に大きな可能性を示している。 脳波(EEG)信号に基づく内因性BCI、例えば運動画像(MI)BCIは、ある程度の制御を提供することができる。 しかし、自発的なbci制御をマスターするには、画像によって識別可能で安定した脳信号パターンを生成する必要がある。 そこで本研究では,人間の脳の歴史的信号から,デコーダが推定する最適な分布に向けて脳信号を生成するように誘導することにより,内因性bcisの学習プロセスを促進するための人間-機械共同学習フレームワークを提案する。 そこで我々はまず,一様定式化による人間と機械の協調学習プロセスをモデル化する。 次に,人間-機械共同学習の枠組みを提案する。 1) 人間の側では, 逐次的な試行錯誤シナリオで学習過程をモデル化し, 最適な分布に向けて, 被験者の信号生成を支援する新しい「コピー/ニュー」フィードバックパラダイムを提案する。 2) 機械側では,学習プロセスとともに最適な信号分布を学習するための適応学習アルゴリズムを提案する。 具体的には、デコーダは、被験者が生成した脳信号を「良い」サンプルに集中させ、被験者の学習プロセスに対処する。 健常者18名を対象にしたオンラインおよびプシュードオンラインBCI実験は, 学習効率と有効性の両方において, 協調学習プロセスの利点を示した。

Brain-computer interfaces (BCIs) provide a direct pathway from the brain to external devices and have demonstrated great potential for assistive and rehabilitation technologies. Endogenous BCIs based on electroencephalogram (EEG) signals, such as motor imagery (MI) BCIs, can provide some level of control. However, mastering spontaneous BCI control requires the users to generate discriminative and stable brain signal patterns by imagery, which is challenging and is usually achieved over a very long training time (weeks/months). Here, we propose a human-machine joint learning framework to boost the learning process in endogenous BCIs, by guiding the user to generate brain signals towards an optimal distribution estimated by the decoder, given the historical brain signals of the user. To this end, we firstly model the human-machine joint learning process in a uniform formulation. Then a human-machine joint learning framework is proposed: 1) for the human side, we model the learning process in a sequential trial-and-error scenario and propose a novel ``copy/new'' feedback paradigm to help shape the signal generation of the subject toward the optimal distribution; 2) for the machine side, we propose a novel adaptive learning algorithm to learn an optimal signal distribution along with the subject's learning process. Specifically, the decoder reweighs the brain signals generated by the subject to focus more on ``good'' samples to cope with the learning process of the subject. Online and psuedo-online BCI experiments with 18 healthy subjects demonstrated the advantages of the proposed joint learning process over co-adaptive approaches in both learning efficiency and effectiveness.
翻訳日:2023-09-10 03:36:41 公開日:2023-08-25
# グラフベースマルチエージェント強化学習による協調的情報伝達の学習

Learning Collaborative Information Dissemination with Graph-based Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2308.16198v1 )

ライセンス: Link先を確認
Raffaele Galliera, Kristen Brent Venable, Matteo Bassani, Niranjan Suri(参考訳) 現代の通信システムでは、災害対応、自動運転車、センサネットワークといったドメイン間の重要な操作をサポートするために、効率的で信頼性の高い情報伝達が不可欠である。 本稿では,より分散化され,効率的で協調的なソリューションを実現するために,MARL(Multi-Agent Reinforcement Learning)アプローチを提案する。 本稿では,情報伝達のための分散pomdp定式化を提案し,各エージェントがメッセージ転送を独立的に決定できるようにする。 これは、MPR(Multi-Point Relay)の選択に基づく従来のヒューリスティックスから重要なパラダイムシフトを構成する。 このアプローチはグラフ畳み込み強化学習(graph convolutional reinforcement learning,gat)を活用し,本質的ネットワークの特徴を動的に捉える。 エージェント間で交換される情報が異なる L-DGN と HL-DGN の2つのアプローチを提案する。 我々は,広く普及しているmprヒューリスティックと比較することにより,分散化手法の性能を評価するとともに,mprセット選択プロセスをバイパスしながらネットワークを効率的にカバーできることを示す。 このアプローチは,学習と協調による情報伝達を通じて,実世界の放送通信基盤のレジリエンスを強化するための第一歩を約束する。

In modern communication systems, efficient and reliable information dissemination is crucial for supporting critical operations across domains like disaster response, autonomous vehicles, and sensor networks. This paper introduces a Multi-Agent Reinforcement Learning (MARL) approach as a significant step forward in achieving more decentralized, efficient, and collaborative solutions. We propose a Decentralized-POMDP formulation for information dissemination, empowering each agent to independently decide on message forwarding. This constitutes a significant paradigm shift from traditional heuristics based on Multi-Point Relay (MPR) selection. Our approach harnesses Graph Convolutional Reinforcement Learning, employing Graph Attention Networks (GAT) with dynamic attention to capture essential network features. We propose two approaches, L-DGN and HL-DGN, which differ in the information that is exchanged among agents. We evaluate the performance of our decentralized approaches, by comparing them with a widely-used MPR heuristic, and we show that our trained policies are able to efficiently cover the network while bypassing the MPR set selection process. Our approach promises a first step toward bolstering the resilience of real-world broadcast communication infrastructures via learned, collaborative information dissemination.
翻訳日:2023-09-03 21:22:46 公開日:2023-08-25
# 拡散モデルにおける統一概念編集

Unified Concept Editing in Diffusion Models ( http://arxiv.org/abs/2308.14761v1 )

ライセンス: Link先を確認
Rohit Gandikota, Hadas Orgad, Yonatan Belinkov, Joanna Materzy\'nska, David Bau(参考訳) テキストから画像へのモデルは、デプロイに適合性を制限する様々な安全性の問題に苦しむ。 従来の手法では、テキストから画像へのモデルのバイアス、著作権、不快コンテンツといった個別の問題に別々に対処してきた。 しかし、現実の世界では、これらの問題はすべて同じモデルで同時に現れる。 一つのアプローチで全ての問題に取り組む方法を提案する。 本手法であるUnified Concept Editing (UCE) は, クローズドフォームソリューションを用いて学習せずにモデルを編集し, テキスト条件拡散モデル上での同時編集にシームレスにスケールする。 我々は,テキストから画像へのプロジェクションを編集することにより,スケーラブルな同時デバイアス,スタイル消去,コンテンツモデレーションを実演し,従来の作業よりも有効性と拡張性が向上することを示す広範な実験を行う。 私たちのコードはhttps://unified.baulab.infoで利用可能です。

Text-to-image models suffer from various safety issues that may limit their suitability for deployment. Previous methods have separately addressed individual issues of bias, copyright, and offensive content in text-to-image models. However, in the real world, all of these issues appear simultaneously in the same model. We present a method that tackles all issues with a single approach. Our method, Unified Concept Editing (UCE), edits the model without training using a closed-form solution, and scales seamlessly to concurrent edits on text-conditional diffusion models. We demonstrate scalable simultaneous debiasing, style erasure, and content moderation by editing text-to-image projections, and we present extensive experiments demonstrating improved efficacy and scalability over prior work. Our code is available at https://unified.baulab.info
翻訳日:2023-08-30 17:29:32 公開日:2023-08-25
# メタキャリブレーション:微分可能期待キャリブレーション誤差を用いたモデルキャリブレーションの学習

Meta-Calibration: Learning of Model Calibration Using Differentiable Expected Calibration Error ( http://arxiv.org/abs/2106.09613v3 )

ライセンス: Link先を確認
Ondrej Bohdal, Yongxin Yang, Timothy Hospedales(参考訳) ニューラルネットワークの校正はトピックの問題であり、ニューラルネットワークが現実の応用をますます支えているため、ますます重要になっている。 この問題は、モデルの信頼性と正しい予測の確率との間に有意な差がある現代のニューラルネットワークを使用する場合に特に顕著である。 キャリブレーションを改善するための様々な戦略が提案されているが、正確なキャリブレーションは難しいままである。 我々は,キャリブレーション品質を直接最適化する期待キャリブレーションエラー(dece)に対する新しい微分可能なサロゲートの導入と,モデルハイパーパラメータに対するバリデーションセットキャリブレーションの最適化にdeceを用いたメタラーニングフレームワークを提案する。 その結果,既存の校正手法による競合性能が得られた。 私たちのフレームワークは、キャリブレーションに対処するための新しい道とツールセットを開きます。

Calibration of neural networks is a topical problem that is becoming more and more important as neural networks increasingly underpin real-world applications. The problem is especially noticeable when using modern neural networks, for which there is a significant difference between the confidence of the model and the probability of correct prediction. Various strategies have been proposed to improve calibration, yet accurate calibration remains challenging. We propose a novel framework with two contributions: introducing a new differentiable surrogate for expected calibration error (DECE) that allows calibration quality to be directly optimised, and a meta-learning framework that uses DECE to optimise for validation set calibration with respect to model hyper-parameters. The results show that we achieve competitive performance with existing calibration approaches. Our framework opens up a new avenue and toolset for tackling calibration, which we believe will inspire further work on this important challenge.
翻訳日:2023-08-30 02:24:02 公開日:2023-08-25
# マルチレベル直交ボヒナー関数部分空間とロバスト機械学習への応用

Multilevel orthogonal Bochner function subspaces with applications to robust machine learning ( http://arxiv.org/abs/2110.01729v4 )

ライセンス: Link先を確認
Julio Enrique Castrillon-Candas, Dingning Liu, Sicheng Yang, Mark Kon(参考訳) このアプローチでは、データは関連するボヒナー空間内のランダムフィールドのインスタンスとみなす。 私たちのキーとなる観察は、クラスが主に2つの異なる部分空間に存在することである。 これらのクラス間の分離を明らかにするために、Karhunen-Loeve拡張を採用し、適切な部分空間を構築する。 これにより、クラス間の区別を効果的に明らかにできます。 上記の基盤を構成する新しい特徴は、異常検出のための最近の関数データ解析理論に基づく座標変換を適用することで構成される。 関連する信号分解は、有限次元函数空間を持つ確率過程(ランダム場)を近似するための既知の最適性を持つ正確な階層的テンソル積展開である。 名目クラスの階層的有限次元展開を用いて、異常信号成分を検出するために一連の直交ネスト付き部分空間を構築する。 これらの部分空間における入力データの投影係数は機械学習(ML分類器)の訓練に使用される。 しかし、信号が名目および異常な射影成分に分割されるため、クラスに対するより明確な分離面が生じる。 実際、名目クラスの共分散構造を十分に正確に推定することで、鋭い分類が得られることを示す。 これは大きなアンバランスなデータセットに対して特に有利である。 多数の高次元データセット上でこれを実証する。 このアプローチは、元の特徴データと同一のMLアルゴリズムを使用する場合と比較して、ML手法の精度を大幅に向上させる。 アルツハイマー病のadniデータセットに関するテストでは、精度が48%から89%に劇的に向上しています。 さらに、ベンチマークGCMデータセットから作成したアンバランスな半合成データセットを用いたテストでは、データセットのアンバランス化が進むにつれて、精度が向上することを確認した。

In our approach, we consider the data as instances of a random field within a relevant Bochner space. Our key observation is that the classes can predominantly reside in two distinct subspaces. To uncover the separation between these classes, we employ the Karhunen-Loeve expansion and construct the appropriate subspaces. This allows us to effectively reveal the distinction between the classes. The novel features forming the above bases are constructed by applying a coordinate transformation based on the recent Functional Data Analysis theory for anomaly detection. The associated signal decomposition is an exact hierarchical tensor product expansion with known optimality properties for approximating stochastic processes (random fields) with finite dimensional function spaces. Using a hierarchical finite dimensional expansion of the nominal class, a series of orthogonal nested subspaces is constructed for detecting anomalous signal components. Projection coefficients of input data in these subspaces are then used to train a Machine Learning (ML classifier. However, due to the split of the signal into nominal and anomalous projection components, clearer separation surfaces for the classes arise. In fact we show that with a sufficiently accurate estimation of the covariance structure of the nominal class, a sharp classification can be obtained. This is particularly advantageous for large unbalanced datasets. We demonstrate it on a number of high-dimensional datasets. This approach yields significant increases in accuracy of ML methods compared to using the same ML algorithm with the original feature data. Our tests on the Alzheimer's Disease ADNI dataset shows a dramatic increase in accuracy (from 48% to 89% accuracy). Furthermore, tests using unbalanced semi-synthetic datasets created from the benchmark GCM dataset confirm increased accuracy as the dataset becomes more unbalanced.
翻訳日:2023-08-30 02:13:24 公開日:2023-08-25
# GAN(Generative Adversarial Networks)を用いたコア画像分類の強化

Enhancing Core Image Classification Using Generative Adversarial Networks (GANs) ( http://arxiv.org/abs/2204.14224v2 )

ライセンス: Link先を確認
Galymzhan Abdimanap, Kairat Bostanbekov, Abdelrahman Abdallah, Anel Alimova, Darkhan Kurmangaliyev, Daniyar Nurseitov(参考訳) 石油探査の世界では、掘削コアサンプルが石油鉱床の発見に欠かせない地質情報を解き放つ鍵となる。 これらのサンプルの重要性にもかかわらず、伝統的なコアロギング技術は労力がかかり、なおかつ主観的であることが知られている。 ありがたいことに、業界は大量のドリルコアの非破壊的かつ非侵襲的な迅速なキャラクタリゼーションを可能にする革新的なソリューションコアイメージングを採用しています。 本研究は,コア検出と分類のプレス問題に取り組むことを目的としている。 最先端技術を用いて,産業を変革させる画期的なソリューションを提案する。 最初の課題はコアの検出と画像内のホールの分割であり、これらはそれぞれ、Faster RCNNとMask RCNNモデルを用いて達成する。 次に,コア画像のホールを埋めること,強力なGAN(Generative Adversarial Networks)を活用し,CRA(Contextual Residual Aggregation)を用いて,画像中の不足コンテンツに対する高頻度残差を生成する。 最後に, コア画像の分類に高度なテクスチャ認識モデルを適用し, 貴重油田の発見を目指して, 石油会社に重要な情報を明らかにする。 本稿では,コア検出と分類に関する複雑な問題に取り組むための革新的かつ画期的なアプローチを提案する。 最先端の技術と技術を活用することで、私たちは産業に革命をもたらし、石油探査の分野に多大な貢献をしようとしている。

In the thrilling world of oil exploration, drill core samples are key to unlocking geological information critical to finding lucrative oil deposits. Despite the importance of these samples, traditional core logging techniques are known to be laborious and, worse still, subjective. Thankfully, the industry has embraced an innovative solution core imaging that allows for nondestructive and noninvasive rapid characterization of large quantities of drill cores. Our preeminent research paper aims to tackle the pressing problem of core detection and classification. Using state-of-the-art techniques, we present a groundbreaking solution that will transform the industry. Our first challenge is detecting the cores and segmenting the holes in images, which we will achieve using the Faster RCNN and Mask RCNN models, respectively. Then, we will address the problem of filling the hole in the core image, utilizing the powerful Generative Adversarial Networks (GANs) and employing Contextual Residual Aggregation (CRA) to create high-frequency residuals for missing contents in images. Finally, we will apply sophisticated texture recognition models for the classification of core images, revealing crucial information to oil companies in their quest to uncover valuable oil deposits. Our research paper presents an innovative and groundbreaking approach to tackling the complex issues surrounding core detection and classification. By harnessing cutting-edge techniques and technologies, we are poised to revolutionize the industry and make significant contributions to the field of oil exploration.
翻訳日:2023-08-30 02:04:35 公開日:2023-08-25
# TE2Rules:ルールを使ってツリーアンサンブルを説明する

TE2Rules: Explaining Tree Ensembles using Rules ( http://arxiv.org/abs/2206.14359v4 )

ライセンス: Link先を確認
G Roshan Lal and Xiaotong Chen and Varun Mithal(参考訳) Tree Ensemble(TE)モデル(Gradient Boosted Treesなど)は、単一の決定木よりも高い予測性能を提供することが多い。 しかしながら、TEモデルは一般に透明性と解釈可能性に欠けており、人間は意思決定ロジックを理解するのが困難である。 本稿では、二項分類タスクのために訓練されたTEを、TEを近似して人間に解釈可能なルールリスト(RL)に変換する新しい手法を提案する。 このRLは、モデルによって予測されるマイノリティクラスでも効果的にモデルを説明することができる。 ベンチマークデータセットの実験では、 (i)TE2Rulesが生成したRLからの予測は、最先端の手法と比較して(元のTEに関して)忠実度が高い。 (ii)TE2Rulesのランタイムは他の類似のベースラインと同等である。 (iii)TE2Rulesアルゴリズムの実行時間はわずかに低い忠実度でトレードオフすることができる。

Tree Ensemble (TE) models (like Gradient Boosted Trees) often provide higher prediction performance compared to single decision trees. However, TE models generally lack transparency and interpretability, as humans have difficulty understanding their decision logic. This paper presents a novel approach to convert a TE trained for a binary classification task, to a rule list (RL) that closely approximates the TE and is interpretable for a human. This RL can effectively explain the model even on the minority class predicted by the model. Experiments on benchmark datasets demonstrate that, (i) predictions from the RL generated by TE2Rules have higher fidelity (with respect to the original TE) compared to state-of-the-art methods, (ii) the run-time of TE2Rules is comparable to that of some other similar baselines and (iii) the run-time of TE2Rules algorithm can be traded off at the cost of a slightly lower fidelity.
翻訳日:2023-08-30 01:55:37 公開日:2023-08-25
# 拡散GAN:拡散を伴うGANの訓練

Diffusion-GAN: Training GANs with Diffusion ( http://arxiv.org/abs/2206.02262v4 )

ライセンス: Link先を確認
Zhendong Wang, Huangjie Zheng, Pengcheng He, Weizhu Chen, Mingyuan Zhou(参考訳) generative adversarial network (gans) は安定的にトレーニングすることが困難であり、判別器入力にインスタンスノイズを注入する有望な治療は、実際にはあまり効果的ではない。 本稿では,前進拡散連鎖を利用してガウス混合分散インスタンスノイズを生成する新しいganフレームワークである diffusion-gan を提案する。 拡散GANは適応拡散過程、拡散時間に依存した判別器、および発生器を含む3つの成分からなる。 観測データと生成されたデータは、同じ適応拡散プロセスによって拡散される。 各拡散時間ステップには異なるノイズ対データ比があり、タイムステップ依存判別器は、拡散した実データと拡散した実データとを区別する。 生成器は、ノイズとデータレベルをバランスさせるために適応的に調整された前方拡散チェーンをバックプロパゲーションすることにより、判別器のフィードバックから学習する。 理論的には、判別器の時間ステップに依存した戦略は、生成器に一貫性のある補助的なガイダンスを与え、真のデータ分布と一致させることができることを示す。 各種データセット上での強力なGANベースラインよりもDiffusion-GANの利点を示し、最先端のGANよりも高い安定性とデータ効率でよりリアルな画像を生成することができることを示した。

Generative adversarial networks (GANs) are challenging to train stably, and a promising remedy of injecting instance noise into the discriminator input has not been very effective in practice. In this paper, we propose Diffusion-GAN, a novel GAN framework that leverages a forward diffusion chain to generate Gaussian-mixture distributed instance noise. Diffusion-GAN consists of three components, including an adaptive diffusion process, a diffusion timestep-dependent discriminator, and a generator. Both the observed and generated data are diffused by the same adaptive diffusion process. At each diffusion timestep, there is a different noise-to-data ratio and the timestep-dependent discriminator learns to distinguish the diffused real data from the diffused generated data. The generator learns from the discriminator's feedback by backpropagating through the forward diffusion chain, whose length is adaptively adjusted to balance the noise and data levels. We theoretically show that the discriminator's timestep-dependent strategy gives consistent and helpful guidance to the generator, enabling it to match the true data distribution. We demonstrate the advantages of Diffusion-GAN over strong GAN baselines on various datasets, showing that it can produce more realistic images with higher stability and data efficiency than state-of-the-art GANs.
翻訳日:2023-08-30 01:53:22 公開日:2023-08-25
# オフライン強化学習のための表現型政策クラスとしての拡散政策

Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning ( http://arxiv.org/abs/2208.06193v3 )

ライセンス: Link先を確認
Zhendong Wang, Jonathan J Hunt, Mingyuan Zhou(参考訳) オフライン強化学習(RL)は、以前に収集した静的データセットを用いて最適なポリシーを学習することを目的としており、RLの重要なパラダイムである。 標準rl法は、分散動作における関数近似誤差のため、この方法ではよく機能しない。 この問題を緩和するために様々な正規化法が提案されているが、それらはしばしば、高度に最適化された解につながるような表現性に制限されたポリシークラスによって制約される。 本稿では,近年の高度表現型深層生成モデルである拡散モデルとして政策を表現することを提案する。 本稿では,条件付き拡散モデルを用いた拡散q-learning(diffusion-ql)を提案する。 提案手法では,行動値関数を学習し,条件付き拡散モデルのトレーニング損失に行動値の最大化という用語を加え,行動方針に近い最適な行動を求める損失をもたらす。 本稿では,拡散モデルに基づく政策の表現性と,拡散モデルに基づく行動クローニングと政策改善の結合が,拡散-QLの卓越した性能に寄与することを示す。 マルチモーダルな動作ポリシーを持つ単純な2次元バンディットの例において,従来の手法と比較して,本手法の優位性について述べる。 そこで本手法は,D4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。

Offline reinforcement learning (RL), which aims to learn an optimal policy using a previously collected static dataset, is an important paradigm of RL. Standard RL methods often perform poorly in this regime due to the function approximation errors on out-of-distribution actions. While a variety of regularization methods have been proposed to mitigate this issue, they are often constrained by policy classes with limited expressiveness that can lead to highly suboptimal solutions. In this paper, we propose representing the policy as a diffusion model, a recent class of highly-expressive deep generative models. We introduce Diffusion Q-learning (Diffusion-QL) that utilizes a conditional diffusion model to represent the policy. In our approach, we learn an action-value function and we add a term maximizing action-values into the training loss of the conditional diffusion model, which results in a loss that seeks optimal actions that are near the behavior policy. We show the expressiveness of the diffusion model-based policy, and the coupling of the behavior cloning and policy improvement under the diffusion model both contribute to the outstanding performance of Diffusion-QL. We illustrate the superiority of our method compared to prior works in a simple 2D bandit example with a multimodal behavior policy. We then show that our method can achieve state-of-the-art performance on the majority of the D4RL benchmark tasks.
翻訳日:2023-08-30 01:43:40 公開日:2023-08-25
# DeS3: ViT類似性を利用した適応的注意駆動型自己およびソフトシャドウ除去

DeS3: Adaptive Attention-driven Self and Soft Shadow Removal using ViT Similarity ( http://arxiv.org/abs/2211.08089v3 )

ライセンス: Link先を確認
Yeying Jin, Wenhan Yang, Wei Ye, Yuan Yuan and Robby T. Tan(参考訳) 単一の画像から明確な境界を欠いているソフトとセルフの影を取り除くことは、依然として難しい。 自己影は、オブジェクト自体に投射される影である。 既存の方法の多くは、ソフトシャドウとセルフシャドウの境界を曖昧に考慮せずに、バイナリシャドウマスクに依存している。 本稿では,適応的注意とViT類似性に基づいて,ハード,ソフト,セルフシャドーを除去するDeS3を提案する。 我々の新しいViT類似度損失は、事前訓練された視覚変換器から抽出した特徴を利用する。 この損失は、リバースサンプリングをシーン構造の回復に導くのに役立つ。 我々の適応的な注意は、影領域を下層の物体と区別し、影領域を影を放つ物体と区別することができる。 この能力により、DeS3は影によって部分的に隠されている場合でも、オブジェクトの構造をよりよく回復することができる。 トレーニング段階での制約に依存する既存の方法とは異なり,サンプリング段階ではvit類似性が組み込まれている。 本手法は, SRD, AISTD, LRSS, USR, UIUCデータセットの最先端手法より優れ, ハード, ソフト, セルフシャドウを頑健に除去する。 具体的には、LRSSデータセット上の画像全体のRMSEの16%でSOTA法より優れている。

Removing soft and self shadows that lack clear boundaries from a single image is still challenging. Self shadows are shadows that are cast on the object itself. Most existing methods rely on binary shadow masks, without considering the ambiguous boundaries of soft and self shadows. In this paper, we present DeS3, a method that removes hard, soft and self shadows based on adaptive attention and ViT similarity. Our novel ViT similarity loss utilizes features extracted from a pre-trained Vision Transformer. This loss helps guide the reverse sampling towards recovering scene structures. Our adaptive attention is able to differentiate shadow regions from the underlying objects, as well as shadow regions from the object casting the shadow. This capability enables DeS3 to better recover the structures of objects even when they are partially occluded by shadows. Different from existing methods that rely on constraints during the training phase, we incorporate the ViT similarity during the sampling stage. Our method outperforms state-of-the-art methods on the SRD, AISTD, LRSS, USR and UIUC datasets, removing hard, soft, and self shadows robustly. Specifically, our method outperforms the SOTA method by 16% of the RMSE of the whole image on the LRSS dataset.
翻訳日:2023-08-30 01:25:46 公開日:2023-08-25
# グラフ上の生成拡散モデル:方法と応用

Generative Diffusion Models on Graphs: Methods and Applications ( http://arxiv.org/abs/2302.02591v3 )

ライセンス: Link先を確認
Chengyi Liu, Wenqi Fan, Yunqing Liu, Jiatong Li, Hang Li, Hui Liu, Jiliang Tang, Qing Li(参考訳) 拡散モデルは、新しい生成パラダイムとして、画像インペインティング、画像からテキストへの翻訳、ビデオ生成といった様々な画像生成タスクで顕著な成功を収めている。 グラフ生成は多くの実世界のアプリケーションを持つグラフ上で重要な計算タスクである。 与えられたグラフの分布を学習し、新しいグラフを生成することを目的としている。 画像生成における拡散モデルの大きな成功を考えると、近年、これらの技術を活用してグラフ生成を推し進める努力が増えている。 本稿ではまず,グラフ上の生成拡散モデルの概要について概説する。特に,グラフ拡散モデルの3つの変種,すなわち,Score Matching with Langevin Dynamics (SMLD), Denoising Diffusion Probabilistic Model (DDPM), Score-based Generative Model (SGM)の代表的なアルゴリズムについて述べる。 次に、分子とタンパク質のモデリングに特に焦点をあてたグラフ上の生成拡散モデルの主な応用を概説する。 最後に,グラフ構造データの生成拡散モデルにおける有望な方向について論じる。 この調査のために、私たちはまた、グラフ上の生成拡散モデルのサポートリソースをリンクで集めて、githubプロジェクトwebサイトを作成しました。

Diffusion models, as a novel generative paradigm, have achieved remarkable success in various image generation tasks such as image inpainting, image-to-text translation, and video generation. Graph generation is a crucial computational task on graphs with numerous real-world applications. It aims to learn the distribution of given graphs and then generate new graphs. Given the great success of diffusion models in image generation, increasing efforts have been made to leverage these techniques to advance graph generation in recent years. In this paper, we first provide a comprehensive overview of generative diffusion models on graphs, In particular, we review representative algorithms for three variants of graph diffusion models, i.e., Score Matching with Langevin Dynamics (SMLD), Denoising Diffusion Probabilistic Model (DDPM), and Score-based Generative Model (SGM). Then, we summarize the major applications of generative diffusion models on graphs with a specific focus on molecule and protein modeling. Finally, we discuss promising directions in generative diffusion models on graph-structured data. For this survey, we also created a GitHub project website by collecting the supporting resources for generative diffusion models on graphs, at the link: https://github.com/ChengyiLIU-cs/Generative-Diffusion-Models-on-Graphs
翻訳日:2023-08-30 00:57:06 公開日:2023-08-25
# Modular Successor Feature Approximatorによるタスク知識の構成

Composing Task Knowledge with Modular Successor Feature Approximators ( http://arxiv.org/abs/2301.12305v2 )

ライセンス: Link先を確認
Wilka Carvalho, Angelos Filos, Richard L. Lewis, Honglak lee, and Satinder Singh(参考訳) 近年,予測知識と行動の学習,構成,伝達の手段として,後継機能と一般化政策改善(sf&gpi)フレームワークが提案されている。 SF&GPIはエージェントに予測表現(SF)を学習させ、GPIで新しいタスクに移行させる。 しかし、このアプローチを効果的にするためには、予測に有用な状態機能が必要であり、これらの状態機能は通常手作業で設計される。 本研究では,新しいニューラルネットワークアーキテクチャである"Modular Successor Feature Approximator"(MSFA)を提案する。 SFやモジュールアーキテクチャを学習するベースラインアーキテクチャと比較して,MSFAがより一般化可能であることを示す。

Recently, the Successor Features and Generalized Policy Improvement (SF&GPI) framework has been proposed as a method for learning, composing, and transferring predictive knowledge and behavior. SF&GPI works by having an agent learn predictive representations (SFs) that can be combined for transfer to new tasks with GPI. However, to be effective this approach requires state features that are useful to predict, and these state-features are typically hand-designed. In this work, we present a novel neural network architecture, "Modular Successor Feature Approximators" (MSFA), where modules both discover what is useful to predict, and learn their own predictive representations. We show that MSFA is able to better generalize compared to baseline architectures for learning SFs and modular architectures
翻訳日:2023-08-30 00:55:53 公開日:2023-08-25
# ディープラーニングモデル再設計の課題と実践--コンピュータビジョンを事例として

Challenges and Practices of Deep Learning Model Reengineering: A Case Study on Computer Vision ( http://arxiv.org/abs/2303.07476v2 )

ライセンス: Link先を確認
Wenxin Jiang, Vishnu Banna, Naveen Vivek, Abhinav Goel, Nicholas Synovic, George K. Thiruvathukal, James C. Davis(参考訳) 多くのエンジニアリング組織は、ディープニューラルネットワークを研究コミュニティから再実装し、拡張している。 このプロセスはディープラーニングモデルの再設計である。 ディープラーニングモデルの再設計 – 再利用、再現、適応、最先端のディープラーニングアプローチの強化 – は、ドキュメント不足の参照モデル、要件の変更、実装とテストのコストといった理由から、難しい。 さらに、個々のエンジニアはソフトウェアエンジニアリングの専門知識を欠いているかもしれないが、チームはソフトウェアエンジニアリングとディープラーニングの知識を適用して成功させる必要がある。 以前の研究は"製品"の観点からDLシステムを調べ、エンジニアの目的に関係なくプロジェクトからの欠陥を調べてきた。 本研究は,「プロセス」の観点からのリエンジニアリング活動に注目し,リエンジニアリングプロセスに特に携わるエンジニアに焦点を当てた。 私たちの目標は、ディープラーニングモデルの再設計の特徴と課題を理解することです。 我々は,コンピュータビジョンの文脈に着目し,この現象の事例研究を行った。 この結果は,オープンソースの再設計プロジェクトで報告された欠陥と,オープンソースプロジェクトのコントリビュータと再設計チームのリーダによるインタビューの2つのデータソースから得られた。 本稿では,深層学習に基づくコンピュータビジョン技術の再設計方法を説明し,このプロセスにおける欠陥の分布を分析し,課題と実践について議論する。 定量的・定性的なデータを統合し,新しい再設計ワークフローを提案する。 モデル再設計の未知の側面を計測すること、再設計を容易にするためのエンジニアリングプラクティスの標準化、モデル再設計とモデル再利用を支援するツールの開発などである。

Many engineering organizations are reimplementing and extending deep neural networks from the research community. We describe this process as deep learning model reengineering. Deep learning model reengineering - reusing, reproducing, adapting, and enhancing state-of-the-art deep learning approaches - is challenging for reasons including under-documented reference models, changing requirements, and the cost of implementation and testing. In addition, individual engineers may lack expertise in software engineering, yet teams must apply knowledge of software engineering and deep learning to succeed. Prior work has examined on DL systems from a "product" view, examining defects from projects regardless of the engineers' purpose. Our study is focused on reengineering activities from a "process" view, and focuses on engineers specifically engaged in the reengineering process. Our goal is to understand the characteristics and challenges of deep learning model reengineering. We conducted a case study of this phenomenon, focusing on the context of computer vision. Our results draw from two data sources: defects reported in open-source reeengineering projects, and interviews conducted with open-source project contributors and the leaders of a reengineering team. Our results describe how deep learning-based computer vision techniques are reengineered, analyze the distribution of defects in this process, and discuss challenges and practices. Integrating our quantitative and qualitative data, we proposed a novel reengineering workflow. Our findings inform several future directions, including: measuring additional unknown aspects of model reengineering; standardizing engineering practices to facilitate reengineering; and developing tools to support model reengineering and model reuse.
翻訳日:2023-08-30 00:36:20 公開日:2023-08-25
# SIESTA: 睡眠を伴う効果的なオンライン連続学習

SIESTA: Efficient Online Continual Learning with Sleep ( http://arxiv.org/abs/2303.10725v2 )

ライセンス: Link先を確認
Md Yousuf Harun, Jhair Gallardo, Tyler L. Hayes, Ronald Kemker, Christopher Kanan(参考訳) 教師付き連続学習では、成長を続けるデータストリームでディープニューラルネットワーク(DNN)が更新される。 データがシャッフルされるオフライン設定とは異なり、データストリームに関する分散的な仮定はできません。 理想的には、計算効率のためにデータセットを通過するのは1つだけです。 しかし、既存の手法は不十分であり、現実のアプリケーションでは実現できない多くの仮定を下し、同時に計算効率の改善に失敗する。 本稿では,学習のためのwake/sleepフレームワークに基づくオンライン連続学習手法siestaを提案する。 SIESTAの主な目標は、DNNをはるかに少ない時間とエネルギーで効率的に更新できるように、計算効率のよい連続学習を進めることである。 SIESTAの主な革新は次のとおりである。 1)リハーサルフリー,バックプロパゲーションフリー,データ駆動型ネットワーク更新ルールによるオンライン更新の迅速化,及び 2) 睡眠時, 計算制限型リハーサルポリシーを用いた記憶強化の迅速化。 メモリ効率のために、SIESTAはREMINDのメモリインデックスを使用して潜時リハーサルを適応する。 REMINDや先行技術と比較して、SIESTAは計算的にはるかに効率的で、1つのGPU上で、ImageNet-1Kで2.4時間未満で連続的な学習を可能にする。

In supervised continual learning, a deep neural network (DNN) is updated with an ever-growing data stream. Unlike the offline setting where data is shuffled, we cannot make any distributional assumptions about the data stream. Ideally, only one pass through the dataset is needed for computational efficiency. However, existing methods are inadequate and make many assumptions that cannot be made for real-world applications, while simultaneously failing to improve computational efficiency. In this paper, we propose a novel online continual learning method, SIESTA based on wake/sleep framework for training, which is well aligned to the needs of on-device learning. The major goal of SIESTA is to advance compute efficient continual learning so that DNNs can be updated efficiently using far less time and energy. The principal innovations of SIESTA are: 1) rapid online updates using a rehearsal-free, backpropagation-free, and data-driven network update rule during its wake phase, and 2) expedited memory consolidation using a compute-restricted rehearsal policy during its sleep phase. For memory efficiency, SIESTA adapts latent rehearsal using memory indexing from REMIND. Compared to REMIND and prior arts, SIESTA is far more computationally efficient, enabling continual learning on ImageNet-1K in under 2.4 hours on a single GPU; moreover, in the augmentation-free setting it matches the performance of the offline learner, a milestone critical to driving adoption of continual learning in real-world applications.
翻訳日:2023-08-30 00:23:13 公開日:2023-08-25
# SAR2EO:高分解能画像翻訳フレームワーク

SAR2EO: A High-resolution Image Translation Framework with Denoising Enhancement ( http://arxiv.org/abs/2304.04760v2 )

ライセンス: Link先を確認
Jun Yu, Shenshen Du, Guochen Xie, Renjie Lu, Pengwei Li, Zhongpeng Cai, Keda Lu(参考訳) SAR(Synthetic Aperture Radar)からEO(Electro-optical Image Translation)への変換は、リモートセンシングにおける基本的なタスクであり、異なるソースからの情報を融合することでデータセットを強化できる。 近年,多くの手法が提案されているが,低解像度画像から高解像度画像への変換はいまだに困難である。 そこで我々は,この問題に対処するためのフレームワークSAR2EOを提案する。 まず, 高品質eo画像を生成するために, 粗視・細視・多スケール判別器を採用し, pix2pixhdモデルの逆損失を改善し, 合成品質の向上を図る。 次に,sar画像中のノイズを除去し,画像の構造情報を保存しながらノイズを抑制するための雑音除去モジュールを提案する。 提案手法の有効性を検証するため,大規模sar画像対とeo画像対からなるmavic(multi-modal aerial view image challenge)のデータセットについて実験を行った。 実験の結果,提案フレームワークの優位性が示され,cvpr pbvs 2023で開催されているmavicで初優勝を果たした。

Synthetic Aperture Radar (SAR) to electro-optical (EO) image translation is a fundamental task in remote sensing that can enrich the dataset by fusing information from different sources. Recently, many methods have been proposed to tackle this task, but they are still difficult to complete the conversion from low-resolution images to high-resolution images. Thus, we propose a framework, SAR2EO, aiming at addressing this challenge. Firstly, to generate high-quality EO images, we adopt the coarse-to-fine generator, multi-scale discriminators, and improved adversarial loss in the pix2pixHD model to increase the synthesis quality. Secondly, we introduce a denoising module to remove the noise in SAR images, which helps to suppress the noise while preserving the structural information of the images. To validate the effectiveness of the proposed framework, we conduct experiments on the dataset of the Multi-modal Aerial View Imagery Challenge (MAVIC), which consists of large-scale SAR and EO image pairs. The experimental results demonstrate the superiority of our proposed framework, and we win the first place in the MAVIC held in CVPR PBVS 2023.
翻訳日:2023-08-30 00:16:56 公開日:2023-08-25
# コンフォーマル予測を用いた確率センサの不確かさ下での安全知覚制御

Safe Perception-Based Control under Stochastic Sensor Uncertainty using Conformal Prediction ( http://arxiv.org/abs/2304.00194v2 )

ライセンス: Link先を確認
Shuo Yang, George J. Pappas, Rahul Mangharam, and Lars Lindemann(参考訳) 学習可能な知覚マップを用いて高次元センサ計測から得られる状態推定を用いた知覚に基づく制御について検討する。 しかし、これらの知覚地図は完全ではなく、システム動作の安全を損なう状態推定誤差をもたらす。 確率的センサノイズはより悪くなり、未知の分布に従う推定誤差が発生する。 我々は知覚に基づく制御フレームワークを提案する。 一 知覚地図の推定の不確かさを定量化し、 ii) これらの不確実性表現を制御設計に統合する。 そこで我々は,未知の状態を含む集合である有効な状態推定領域を計算するために,共形予測を用いる。 次に,ロバスト制御バリア関数の計測に基づく連続時間システムのためのサンプルデータコントローラを考案する。 制御器は自己トリガー制御のアイデアを用いており、確率計算の使用を避けることができる。 我々の枠組みは、知覚マップの選択、ノイズ分布の非依存、そして私たちの知る限り、そのような環境で確率論的安全保証を初めて提供するものである。 本稿では,LiDAR対応F1/10thカーに対する認識制御の有効性を示す。

We consider perception-based control using state estimates that are obtained from high-dimensional sensor measurements via learning-enabled perception maps. However, these perception maps are not perfect and result in state estimation errors that can lead to unsafe system behavior. Stochastic sensor noise can make matters worse and result in estimation errors that follow unknown distributions. We propose a perception-based control framework that i) quantifies estimation uncertainty of perception maps, and ii) integrates these uncertainty representations into the control design. To do so, we use conformal prediction to compute valid state estimation regions, which are sets that contain the unknown state with high probability. We then devise a sampled-data controller for continuous-time systems based on the notion of measurement robust control barrier functions. Our controller uses idea from self-triggered control and enables us to avoid using stochastic calculus. Our framework is agnostic to the choice of the perception map, independent of the noise distribution, and to the best of our knowledge the first to provide probabilistic safety guarantees in such a setting. We demonstrate the effectiveness of our proposed perception-based controller for a LiDAR-enabled F1/10th car.
翻訳日:2023-08-30 00:14:33 公開日:2023-08-25
# 仮面:ゼロショットマスク異常分割

Maskomaly:Zero-Shot Mask Anomaly Segmentation ( http://arxiv.org/abs/2305.16972v2 )

ライセンス: Link先を確認
Jan Ackermann, Christos Sakaridis and Fisher Yu(参考訳) マスコマリーと呼ばれる異常分割のための単純かつ実用的な枠組みを提案する。 マスクベースの標準的なセマンティックセグメンテーションネットワークを構築し、そのようなネットワークの生マスク出力を利用する単純な推論時間後処理ステップを追加する。 Maskomalyは追加のトレーニングを必要とせず、推論に小さな計算オーバーヘッドを追加するだけである。 最も重要なのは、トレーニング時に異常なデータを必要としないことだ。 smiyc, roadanomaly, streethazardにおいて,提案手法の上位結果を示す。 最も中心的なベンチマークであるSMIYCでは、Maskomalyが直接的に比較可能なアプローチよりも優れている。 さらに,ロバストな異常セグメンテーション手法の開発に資する新しい指標を導入し,その道路上の情報性を示す。

We present a simple and practical framework for anomaly segmentation called Maskomaly. It builds upon mask-based standard semantic segmentation networks by adding a simple inference-time post-processing step which leverages the raw mask outputs of such networks. Maskomaly does not require additional training and only adds a small computational overhead to inference. Most importantly, it does not require anomalous data at training. We show top results for our method on SMIYC, RoadAnomaly, and StreetHazards. On the most central benchmark, SMIYC, Maskomaly outperforms all directly comparable approaches. Further, we introduce a novel metric that benefits the development of robust anomaly segmentation methods and demonstrate its informativeness on RoadAnomaly.
翻訳日:2023-08-29 23:35:36 公開日:2023-08-25
# 手書き・印刷テキストセグメンテーション:署名事例研究

Handwritten and Printed Text Segmentation: A Signature Case Study ( http://arxiv.org/abs/2307.07887v3 )

ライセンス: Link先を確認
Sina Gholamian and Ali Vahdat(参考訳) スキャンされた文書を解析している間、手書きのテキストは印刷されたテキストと重なり合うことができる。 この重なり合いは、光学文字認識(OCR)および文書のデジタル化過程において困難を引き起こし、その後、下流のNLPタスクを損なう。 以前の研究は、手書きテキストのバイナリ分類のみに焦点を当てるか、文書の3クラスセグメンテーション、すなわち手書き文字、印刷文字、背景画素の認識を実行する。 このアプローチでは、手書きと印刷されたピクセルを1つのクラスのみに重ね合わせているため、他のクラスでは説明されない。 そこで本研究では,手書きテキストセグメンテーションと印刷テキストセグメンテーションの課題に対処する新しいアプローチを開発する。 我々の目的は、クラス全体からテキストを復元することであり、特に重なり合う部分のセグメンテーション性能を向上させることである。 このタスクを支援するために、実際の法的文書から収集された新しいデータセットSignaTR6Kと、手書きおよび印刷テキストセグメンテーションタスクのための新しいモデルアーキテクチャを導入する。 私たちの最高の設定は、以前の2つの異なるデータセットで17.9%、IoUスコアで7.3%のパフォーマンスを上回っています。 SignaTR6Kデータセットは、以下のリンクを通じてダウンロード可能である。

While analyzing scanned documents, handwritten text can overlap with printed text. This overlap causes difficulties during the optical character recognition (OCR) and digitization process of documents, and subsequently, hurts downstream NLP tasks. Prior research either focuses solely on the binary classification of handwritten text or performs a three-class segmentation of the document, i.e., recognition of handwritten, printed, and background pixels. This approach results in the assignment of overlapping handwritten and printed pixels to only one of the classes, and thus, they are not accounted for in the other class. Thus, in this research, we develop novel approaches to address the challenges of handwritten and printed text segmentation. Our objective is to recover text from different classes in their entirety, especially enhancing the segmentation performance on overlapping sections. To support this task, we introduce a new dataset, SignaTR6K, collected from real legal documents, as well as a new model architecture for the handwritten and printed text segmentation task. Our best configuration outperforms prior work on two different datasets by 17.9% and 7.3% on IoU scores. The SignaTR6K dataset is accessible for download via the following link: https://forms.office.com/r/2a5RDg7cAY.
翻訳日:2023-08-29 22:51:24 公開日:2023-08-25
# 質問分類へのアンサンブルアプローチ:エレクトラ変換器、GloVe、LSTMの統合

An Ensemble Approach to Question Classification: Integrating Electra Transformer, GloVe, and LSTM ( http://arxiv.org/abs/2308.06828v2 )

ライセンス: Link先を確認
Sanad Aburass and Osama Dorgham(参考訳) 自然言語処理(NLP)は人間の言語を理解し、生成するための重要な技術として登場し、機械翻訳や感情分析などのタスクにおいて重要な役割を担っている。 nlp内のサブフィールドとして、質問分類は要求される情報の種類を決定することに焦点を当て、質問応答システムのような下流アプリケーションのための基本的なステップである。 本研究では,Electra,GloVe,LSTMモデルの強みを組み合わせた質問分類のための革新的なアンサンブル手法を提案する。 このモデルは、よく認識されたTRECデータセットで厳密にテストされ、これらの異なる技術の統合がより優れた結果をもたらすことを示す。 Electraは複雑な言語理解のためのトランスフォーマーベースの機能を提供し、GloVeは単語レベルのセマンティクスをキャプチャするためのグローバルなベクトル表現を提供し、LSTMは長期依存をモデル化するためのシーケンス学習能力に貢献している。 これらの要素を戦略的に融合させることで、我々のアンサンブルモデルは質問分類の複雑なタスクに対して堅牢で効率的な解を提供する。 BERT、RoBERTa、DistilBERTといった有名なモデルとの厳密な比較を通じて、アンサンブルアプローチは、テストデータセットで80%の精度スコアを取得することによって、その有効性を検証する。

Natural Language Processing (NLP) has emerged as a crucial technology for understanding and generating human language, playing an essential role in tasks such as machine translation, sentiment analysis, and more pertinently, question classification. As a subfield within NLP, question classification focuses on determining the type of information being sought, a fundamental step for downstream applications like question answering systems. This study presents an innovative ensemble approach for question classification, combining the strengths of Electra, GloVe, and LSTM models. Rigorously tested on the well-regarded TREC dataset, the model demonstrates how the integration of these disparate technologies can lead to superior results. Electra brings in its transformer-based capabilities for complex language understanding, GloVe offers global vector representations for capturing word-level semantics, and LSTM contributes its sequence learning abilities to model long-term dependencies. By fusing these elements strategically, our ensemble model delivers a robust and efficient solution for the complex task of question classification. Through rigorous comparisons with well-known models like BERT, RoBERTa, and DistilBERT, the ensemble approach verifies its effectiveness by attaining an 80% accuracy score on the test dataset.
翻訳日:2023-08-29 20:56:41 公開日:2023-08-25
# クラッシュ・ナラティブの分析における大規模言語モデル-ChatGPT, BARD, GPT-4の比較検討

Large Language Models in Analyzing Crash Narratives -- A Comparative Study of ChatGPT, BARD and GPT-4 ( http://arxiv.org/abs/2308.13563v1 )

ライセンス: Link先を確認
Maroa Mumtarin, Md Samiullah Chowdhury, Jonathan Wood(参考訳) 交通安全研究においては,テキスト解析による衝突物語からの情報抽出が一般的である。 近年の大型言語モデル (LLM) の進歩により, 一般的なLLMインタフェースが, クラッシュの物語から情報の分類や抽出においてどのように機能するかを知ることが有用である。 そこで本研究では,ChatGPT,BARD,GPT4の3つのLLMインタフェースについて検討した。 本研究は,アイオワ州とカンザス州で発生した100件の事故事例から,情報抽出および事故関連質問への回答における有用性と境界について検討した。 調査期間中、それらの能力と制限を評価し、クエリに対する応答を比較した。 物語にまつわる5つの質問がある。 1)at-faultは誰ですか? 2)衝突の方法とは何か。 3)ワークゾーンで事故が発生しましたか? 4) 事故は歩行者を巻き込んだか? そして 5)事故における有害事象の系列はどのようなものか。 質問1~4では, LLMの総合的類似度はそれぞれ70%, 35%, 96%, 89%であった。 類似性は、二分反応を必要とする直接的な質問に答える一方で高く、複雑な質問では著しく低かった。 質問5に対する回答を比較するために,ネットワーク図と集中度尺度を分析した。 3つのLSMのネットワーク図は必ずしも似ているわけではないが、時折、高緯度、外緯度、中間度で同じ事象が起こることがある。 本研究は,複数のモデルを用いて物語から実行可能な情報を抽出することを提案する。 また、これらのインターフェースを使用して重要な安全関連情報を取得する際にも注意が必要である。

In traffic safety research, extracting information from crash narratives using text analysis is a common practice. With recent advancements of large language models (LLM), it would be useful to know how the popular LLM interfaces perform in classifying or extracting information from crash narratives. To explore this, our study has used the three most popular publicly available LLM interfaces- ChatGPT, BARD and GPT4. This study investigated their usefulness and boundaries in extracting information and answering queries related to accidents from 100 crash narratives from Iowa and Kansas. During the investigation, their capabilities and limitations were assessed and their responses to the queries were compared. Five questions were asked related to the narratives: 1) Who is at-fault? 2) What is the manner of collision? 3) Has the crash occurred in a work-zone? 4) Did the crash involve pedestrians? and 5) What are the sequence of harmful events in the crash? For questions 1 through 4, the overall similarity among the LLMs were 70%, 35%, 96% and 89%, respectively. The similarities were higher while answering direct questions requiring binary responses and significantly lower for complex questions. To compare the responses to question 5, network diagram and centrality measures were analyzed. The network diagram from the three LLMs were not always similar although they sometimes have the same influencing events with high in-degree, out-degree and betweenness centrality. This study suggests using multiple models to extract viable information from narratives. Also, caution must be practiced while using these interfaces to obtain crucial safety related information.
翻訳日:2023-08-29 20:39:03 公開日:2023-08-25
# エンドツーエンドモデルの適応性向上のための疎結合構造

Decoupled Structure for Improved Adaptability of End-to-End Models ( http://arxiv.org/abs/2308.13345v1 )

ライセンス: Link先を確認
Keqi Deng, Philip C. Woodland(参考訳) エンドツーエンド(e2e)学習可能な自動音声認識(asr)は音響情報と言語情報を同時に学習することで大きな成功を収めているが、それでもドメインシフトの影響に苦しんでおり、潜在的な応用を制限している。 The E2E ASR model implicitly learns an internal language model (LM) which characterises the training distribution of the source domain, and the E2E trainable nature makes the internal LM difficult to adapt to the target domain with text-only data To solve this problem, this paper proposes decoupled structures for attention-based encoder-decoder (Decoupled-AED) and neural transducer (Decoupled-Transducer) models, which can achieve flexible domain adaptation in both offline and online scenarios while maintaining robust intra-domain performance. この目的のために、E2Eモデルデコーダ(または予測ネットワーク)の音響的および言語的部分は分離され、言語的成分(内部LM)は置換可能である。 ドメインシフトに遭遇すると、内部lmは、再トレーニングやドメイン固有ペア音声テキストデータを使用することなく、ターゲットドメインlmによる推論中に直接置き換えることができる。 LibriSpeech-100hコーパスで訓練されたE2E ASRモデルの実験では、提案された分離された構造によりTED-Lium 2とAESRC2020コーパスでの単語誤り率の15.1%と17.2%が減少し、ドメイン内データの性能を維持した。

Although end-to-end (E2E) trainable automatic speech recognition (ASR) has shown great success by jointly learning acoustic and linguistic information, it still suffers from the effect of domain shifts, thus limiting potential applications. The E2E ASR model implicitly learns an internal language model (LM) which characterises the training distribution of the source domain, and the E2E trainable nature makes the internal LM difficult to adapt to the target domain with text-only data To solve this problem, this paper proposes decoupled structures for attention-based encoder-decoder (Decoupled-AED) and neural transducer (Decoupled-Transducer) models, which can achieve flexible domain adaptation in both offline and online scenarios while maintaining robust intra-domain performance. To this end, the acoustic and linguistic parts of the E2E model decoder (or prediction network) are decoupled, making the linguistic component (i.e. internal LM) replaceable. When encountering a domain shift, the internal LM can be directly replaced during inference by a target-domain LM, without re-training or using domain-specific paired speech-text data. Experiments for E2E ASR models trained on the LibriSpeech-100h corpus showed that the proposed decoupled structure gave 15.1% and 17.2% relative word error rate reductions on the TED-LIUM 2 and AESRC2020 corpora while still maintaining performance on intra-domain data.
翻訳日:2023-08-29 20:37:42 公開日:2023-08-25
# ビデオからのポーズ変調アバター

Pose Modulated Avatars from Video ( http://arxiv.org/abs/2308.11951v2 )

ライセンス: Link先を確認
Chunjin Song, Bastian Wandt, Helge Rhodin(参考訳) 基礎となる骨格によって駆動されるニューラル・レージアンス・フィールド(Near Radiance Fields,NeRF)を用いて、スパース・カメラ群から人間の動と形状を再構築することができる。 しかし、スケルトンポーズによる布や肌の変形をモデル化することが課題となっている。 暗黙的に学習したり、プロキシサーフェスに依存したりする既存のアバターモデルとは異なり、我々のアプローチは、異なるポーズがユニークな周波数割り当てを必要とするという観察によって動機づけられる。 この区別を無視すると、滑らかな領域でノイズの多いアーティファクトや、鋭い領域できめ細かいテクスチャや形状の詳細がぼやけてしまう。 周波数領域において適応的かつ明示的な2分岐ニューラルネットワークを開発する。 最初のブランチはグラフニューラルネットワークで、体の部分間の相関を局所的にモデル化し、骨格を入力とする。 第2のブランチは、これらの相関機能を一連のグローバル周波数に結合し、特徴エンコーディングを変調する。 実験により,ネットワークが最先端の手法よりも詳細保持と一般化能力の面で優れていることを実証した。

It is now possible to reconstruct dynamic human motion and shape from a sparse set of cameras using Neural Radiance Fields (NeRF) driven by an underlying skeleton. However, a challenge remains to model the deformation of cloth and skin in relation to skeleton pose. Unlike existing avatar models that are learned implicitly or rely on a proxy surface, our approach is motivated by the observation that different poses necessitate unique frequency assignments. Neglecting this distinction yields noisy artifacts in smooth areas or blurs fine-grained texture and shape details in sharp regions. We develop a two-branch neural network that is adaptive and explicit in the frequency domain. The first branch is a graph neural network that models correlations among body parts locally, taking skeleton pose as input. The second branch combines these correlation features to a set of global frequencies and then modulates the feature encoding. Our experiments demonstrate that our network outperforms state-of-the-art methods in terms of preserving details and generalization capabilities.
翻訳日:2023-08-29 20:36:00 公開日:2023-08-25
# ヒルベルト空間における水素様原子の生成と消滅作用素の導入による量子モデル

Quantum model of hydrogen-like atoms in hilbert space by introducing the creation and annihilation operators ( http://arxiv.org/abs/2308.13581v1 )

ライセンス: Link先を確認
Mehdi Miri(参考訳) 結合エネルギースペクトルと対応する波動関数を生成する水素様原子(hla)の半径方程式を解くための生成と消滅に関する純粋代数的手法は、量子物理学における多くの計算に適している。 しかし、一連の解析的アプローチは、多くの量子教科書で波動力学理論に基づいて広く使われている。 実際、シュル・オーディンガーの時間独立微分方程式(TISE)の古い解よりもはるかに完全であり、操作法を用いてシステムの全ての量子情報を得ることができる。 量子調和振動子と全角運動量を含む以前の2つのモデルに加えて、調和振動子に似たヒルベルト空間におけるhla系のシュル=オディンガーの固有値方程式を解くための3番目の基本モデルであることは疑いない。 我々は,コヒーレントな状態を発見するための適切な基礎を体系的に構築することで,行列表現に付随するエネルギー量子化と正規化ラジアル波関数を,追加の仮定なしで提供できることを示す。

The purely algebraic technique associated with the creation and annihilation operators to resolve the radial equation of Hydrogen-like atoms (HLA) for generating the bound energy spectrum and the corresponding wave functions is suitable for many calculations in quantum physics. However, the analytical approach with series is extensively used based on wave mechanics theory in most of quantum textbooks. Indeed, much More complete than the old solution of Schr\"odinger's time-independent differential equation (TISE), one can simply earn all quantum information of a system by using the operational method. In addition to earlier two models, including the quantum harmonic oscillator and the total angular momentum, it can undoubtedly be a third fundamental model to solve Schr\"odinger's eigenvalue equation of the HLA systems in Hilbert space similar to the harmonic oscillator. We will illustrate how systematically making an appropriate groundwork to discover the coherent states can lead to providing the energy quantization and normalized radial wave functions attached to the matrix representation without additional assumptions.
翻訳日:2023-08-29 20:29:49 公開日:2023-08-25
# 大規模言語モデルを用いたテキストスタイル転送評価

Text Style Transfer Evaluation Using Large Language Models ( http://arxiv.org/abs/2308.13577v1 )

ライセンス: Link先を確認
Phil Ostheimer, Mayank Nagda, Marius Kloft, Sophie Fellenz(参考訳) テキスト・スタイル・トランスファー(tst)は、生成したテキストの品質が、スタイル・トランスファーの正確性、コンテンツ保存性、テキスト全体の流動性など、個別に測定することが困難であるため、評価が困難である。 人体評価はTST評価における金の基準であるが,高価であり,再現は困難である。 これらの側面における性能評価には多数の自動メトリクスが使用され、人的評価の代用として機能する。 しかし、これらの自動測定と人的評価の相関関係はいまだ不明であり、信頼性の高いベンチマークとしての有効性に疑問を呈している。 近年のLarge Language Models (LLM) の進歩は、マッチするだけでなく、目に見えないタスクで平均的な人的パフォーマンスを上回る能力を示している。 このことは、LLMが人間の評価や他の自動メトリクスの代替となる可能性を持っていることを示唆している。 複数の入力プロンプトを用いてtst評価における異なるllmの性能を評価し,結果の比較を行った。 その結果、(ゼロショットであっても)人の評価と強く相関し、しばしば(他の)自動メトリクスのパフォーマンスを上回ることが示唆された。 さらに,本研究は,TST評価の堅牢性向上を図り,障害事例や制限の議論を含む多種多様なタスクにおけるLCM評価の取り組みに寄与する。

Text Style Transfer (TST) is challenging to evaluate because the quality of the generated text manifests itself in multiple aspects, each of which is hard to measure individually: style transfer accuracy, content preservation, and overall fluency of the text. Human evaluation is the gold standard in TST evaluation; however, it is expensive, and the results are difficult to reproduce. Numerous automated metrics are employed to assess performance in these aspects, serving as substitutes for human evaluation. However, the correlation between many of these automated metrics and human evaluations remains unclear, raising doubts about their effectiveness as reliable benchmarks. Recent advancements in Large Language Models (LLMs) have demonstrated their ability to not only match but also surpass the average human performance across a wide range of unseen tasks. This suggests that LLMs have the potential to serve as a viable alternative to human evaluation and other automated metrics. We assess the performance of different LLMs on TST evaluation by employing multiple input prompts and comparing their results. Our findings indicate that (even zero-shot) prompting correlates strongly with human evaluation and often surpasses the performance of (other) automated metrics. Additionally, we propose the ensembling of prompts and show it increases the robustness of TST evaluation.This work contributes to the ongoing efforts in evaluating LLMs on diverse tasks, which includes a discussion of failure cases and limitations.
翻訳日:2023-08-29 20:29:16 公開日:2023-08-25
# 専門家のための個人化リアルタイム予測書記へのアンサンブルアプローチ

An Ensemble Approach to Personalized Real Time Predictive Writing for Experts ( http://arxiv.org/abs/2308.13576v1 )

ライセンス: Link先を確認
Sourav Prosad and Viswa Datha Polavarapu and Shrutendra Harsola(参考訳) 数個の単語や文字をタイプした後、文やフレーズ、単語を完了することは、直感的な金融専門家にとって非常に有用であり、メモを取ったり、ユーザーとライブチャットを行ったりすることで、複雑な金融概念をより効率的かつ正確に1日に何度も書く必要がある。 本稿では,大規模言語モデルやマルコフモデル,チャリレベルモデルなど,さまざまなアプローチを結びつけて,個人化された文/単語の自動補完提案を専門家に提供するエンドツーエンドシステムを構築する。 提案するシステムは、パーソナライズされた文章やフレーズ、単語を自動補完することができ、より少ないデータやリソースで、効率良く訓練することができる。 提案システムは,効率的かつパーソナライズされただけでなく,複数の機械学習技術と伝達学習アプローチを利用して,Intuit固有のデータを用いて大規模言語モデルを微調整する。 これにより、まれなフレーズや珍しいフレーズであっても、システムはほぼリアルタイムで関連する自動補完提案を提供できる。 調査によると、このシステムは専門家のメモ取り時間を節約し、チームメイトやクライアントとのコミュニケーションに対する専門家の信頼を高める。 QBLiveの専門家にとってこの予測的な書き込み機能を有効にして以来、これらの提案に基づいて100万以上のキーストロークが保存されている。 我々はアンサンブルの選択について比較研究を行った。 さらに、この機能は、非常に短時間で書き込み機能を持つ任意の製品に統合することができる。

Completing a sentence, phrase or word after typing few words / characters is very helpful for Intuit financial experts, while taking notes or having a live chat with users, since they need to write complex financial concepts more efficiently and accurately many times in a day. In this paper, we tie together different approaches like large language models, traditional Markov Models and char level models to create an end-to-end system to provide personalised sentence/word auto-complete suggestions to experts, under strict latency constraints. Proposed system can auto-complete sentences, phrases or words while writing with personalisation and can be trained with very less data and resources with good efficiency. Our proposed system is not only efficient and personalized but also robust as it leverages multiple machine learning techniques along with transfer learning approach to fine tune large language model with Intuit specific data. This ensures that even in cases of rare or unusual phrases, the system can provide relevant auto-complete suggestions in near real time. Survey has showed that this system saves expert note-taking time and boosts expert confidence in their communication with teammates and clients. Since enabling this predictive writing feature for QBLive experts, more than a million keystrokes have been saved based on these suggestions. We have done comparative study for our ensemble choice. Moreover this feature can be integrated with any product which has writing facility within a very short period of time.
翻訳日:2023-08-29 20:28:26 公開日:2023-08-25
# ビジョントランスを用いた線形・非線形障害のFrFTによる推定

FrFT based estimation of linear and nonlinear impairments using Vision Transformer ( http://arxiv.org/abs/2308.13575v1 )

ライセンス: Link先を確認
Ting Jiang, Zheng Gao, Yizhao Chen, Zihe Hu, Ming Tang(参考訳) 光ファイバ通信システムの条件を総合的に評価するには,非線形信号対雑音比 (snrnl), 光信号対雑音比 (osnr), 色分散 (cd), 差動群遅延 (dgd) という4つの重要な障害の同時推定を行うことが不可欠である。 しかし、現在の研究では、ネットワーク能力の制限と障害の統一的な表現の欠如により、限られた範囲内で限られた数の障害を特定するのみである。 これらの課題に対処するため,分数フーリエ変換(FrFT)に基づく時間周波数信号処理を用いて障害の統一表現を実現し,Transformerベースのニューラルネットワーク(NN)を用いてネットワーク性能の限界を突破する。 提案手法の有効性を検証するため,snnl,osnr,cd,dgdの平均絶対誤差(mae)は0.091 db,0.058 db,117 ps/nm,038 ps,0~20 db,10~30 db,0~51000 ps/nm,0~100 psの5チャネル偏波多重化二次位相シフトキー方式(pdm-qpsk)を用いた数値シミュレーションを行った。 提案手法は,光学性能モニタリング(OPM)の分野における顕著な進歩を示すとともに,広い範囲にわたる線形および非線形障害の正確な推定を実現する。

To comprehensively assess optical fiber communication system conditions, it is essential to implement joint estimation of the following four critical impairments: nonlinear signal-to-noise ratio (SNRNL), optical signal-to-noise ratio (OSNR), chromatic dispersion (CD) and differential group delay (DGD). However, current studies only achieve identifying a limited number of impairments within a narrow range, due to limitations in network capabilities and lack of unified representation of impairments. To address these challenges, we adopt time-frequency signal processing based on fractional Fourier transform (FrFT) to achieve the unified representation of impairments, while employing a Transformer based neural networks (NN) to break through network performance limitations. To verify the effectiveness of the proposed estimation method, the numerical simulation is carried on a 5-channel polarization-division-multiplexed quadrature phase shift keying (PDM-QPSK) long haul optical transmission system with the symbol rate of 50 GBaud per channel, the mean absolute error (MAE) for SNRNL, OSNR, CD, and DGD estimation is 0.091 dB, 0.058 dB, 117 ps/nm, and 0.38 ps, and the monitoring window ranges from 0~20 dB, 10~30 dB, 0~51000 ps/nm, and 0~100 ps, respectively. Our proposed method achieves accurate estimation of linear and nonlinear impairments over a broad range, representing a significant advancement in the field of optical performance monitoring (OPM).
翻訳日:2023-08-29 20:27:52 公開日:2023-08-25
# 産業人工知能のための確率的構成機械

Stochastic Configuration Machines for Industrial Artificial Intelligence ( http://arxiv.org/abs/2308.13570v1 )

ライセンス: Link先を確認
Dianhui Wang and Matthew J. Felicetti(参考訳) ニューラルネットワークが重要な役割を果たす産業人工知能(IAI)では、望ましい精度でリアルタイム予測モデルが期待されている。 iaiのニューラルネットワークは、大量の浮動小数点データを操作するために強力な高性能コンピューティングデバイスを必要とする。 本稿では,確率的構成ネットワーク(scns)に基づいて,産業用途に有用で有用な効率的なモデリングとデータサイズ削減を強調する,確率的構成マシン(scms)と呼ばれる新しいランダム化学習モデルを提案する。 SCN とランダムベクトル汎関数リンク (RVFL) ネットを二項化した実装と比較すると,SCM のモデル記憶は良好な予測性能を維持しつつ大幅に圧縮できる。 SCM学習者モデルとその学習アルゴリズムのアーキテクチャに加えて、この貢献の重要な部分として、モデルの複雑さを分析することによって、SCMの学習能力に関する理論的基盤を提供する。 いくつかのベンチマークデータセットと3つの産業応用で実験研究が行われている。 その結果,SCMは産業データ分析に大きく貢献する可能性が示唆された。

Real-time predictive modelling with desired accuracy is highly expected in industrial artificial intelligence (IAI), where neural networks play a key role. Neural networks in IAI require powerful, high-performance computing devices to operate a large number of floating point data. Based on stochastic configuration networks (SCNs), this paper proposes a new randomized learner model, termed stochastic configuration machines (SCMs), to stress effective modelling and data size saving that are useful and valuable for industrial applications. Compared to SCNs and random vector functional-link (RVFL) nets with binarized implementation, the model storage of SCMs can be significantly compressed while retaining favourable prediction performance. Besides the architecture of the SCM learner model and its learning algorithm, as an important part of this contribution, we also provide a theoretical basis on the learning capacity of SCMs by analysing the model's complexity. Experimental studies are carried out over some benchmark datasets and three industrial applications. The results demonstrate that SCM has great potential for dealing with industrial data analytics.
翻訳日:2023-08-29 20:27:15 公開日:2023-08-25
# トピックモデリングによるメンタルヘルス研究トピックの発見

Discovering Mental Health Research Topics with Topic Modeling ( http://arxiv.org/abs/2308.13569v1 )

ライセンス: Link先を確認
Xin Gao, Cem Sazara(参考訳) メンタルヘルスは私たちの日常生活の様々な側面に大きく影響し、その重要性は研究コミュニティや一般大衆、特に新型コロナウイルスのパンデミックの影響でますます認識されるようになった。 この関心の高まりは、過去10年間のメンタルヘルスに関する出版物の増加に顕著である。 本研究の目的は,メンタルヘルス研究論文の大規模データセットを分析し,現場の一般的な傾向を特定し,ハイインパクトな研究トピックを特定することである。 これを実現するために,さまざまなデータベースから抽象情報を収集し,BERTopicフレームワークを利用したSentence-BERTベースの埋め込みモデルをカスタマイズした。 データセットは,精神健康に関する96,676の研究論文からなり,それらの要約を用いて異なる話題間の関係を検証できる。 モデルの有効性を評価するために、Top2VecモデルとLDA-BERTモデルという2つの最先端手法を比較した。 このモデルは、トピックの多様性とコヒーレンスを測定するメトリクスにおいて優れたパフォーマンスを示した。 分析を強化するため、我々はワードクラウドを生成し、メンタルヘルス研究に応用された機械学習モデルの概要や、一般的に利用される技術や新しいトレンドについて光を当てる。 さらに、本論文で使用するデータセットへのgithubリンク*を提供し、さらなる研究努力のためのアクセシビリティを確保する。

Mental health significantly influences various aspects of our daily lives, and its importance has been increasingly recognized by the research community and the general public, particularly in the wake of the COVID-19 pandemic. This heightened interest is evident in the growing number of publications dedicated to mental health in the past decade. In this study, our goal is to identify general trends in the field and pinpoint high-impact research topics by analyzing a large dataset of mental health research papers. To accomplish this, we collected abstracts from various databases and trained a customized Sentence-BERT based embedding model leveraging the BERTopic framework. Our dataset comprises 96,676 research papers pertaining to mental health, enabling us to examine the relationships between different topics using their abstracts. To evaluate the effectiveness of the model, we compared it against two other state-of-the-art methods: Top2Vec model and LDA-BERT model. The model demonstrated superior performance in metrics that measure topic diversity and coherence. To enhance our analysis, we also generated word clouds to provide a comprehensive overview of the machine learning models applied in mental health research, shedding light on commonly utilized techniques and emerging trends. Furthermore, we provide a GitHub link* to the dataset used in this paper, ensuring its accessibility for further research endeavors.
翻訳日:2023-08-29 20:26:59 公開日:2023-08-25
# 高忠実PPG-ECG翻訳のための領域距離拡散モデル

Region-Disentangled Diffusion Model for High-Fidelity PPG-to-ECG Translation ( http://arxiv.org/abs/2308.13568v1 )

ライセンス: Link先を確認
Debaditya Shome, Pritam Sarkar, Ali Etemad(参考訳) 心血管疾患(CVD)の高頻度では、アクセス可能で費用対効果の高い連続心臓モニタリングツールが求められている。 心電図(ECG)がゴールドスタンダードであるにもかかわらず、継続的なモニタリングは依然として課題であり、消費者ウェアラブルで利用できる有望だがよりベーシックな代替手段であるフォトプレチスモグラフィー(PPG)の探索に繋がる。 この概念は近年、PSGをECG信号に変換することに関心を向けている。 本研究では,ecgの複雑な時間的ダイナミクスを捉えた新しい拡散モデルである領域不等角拡散モデル(rddm)を提案する。 Denoising Diffusion Probabilistic Models (DDPM)のような従来の拡散モデルは、信号全体にわたる不特定ノイズ付加プロセスのために、そのようなニュアンスを捕捉する上で困難である。 提案するRDDMは,ECG信号におけるQRSコンプレックスなどの特定の利害領域(ROI)にノイズを選択的に付加する新しいフォワードプロセスと,ROIおよび非ROI領域のデノナイジングを阻害する逆プロセスを導入することで,そのような制限を克服する。 定量的実験により、RDDMはPPGから10段階の拡散ステップで高忠実なECGを生成できることが示され、高い効率と計算効率が得られた。 また、生成した心電図信号の有用性を厳密に検証するために、心拍数や血圧推定、ストレス分類、心房細動や糖尿病の検出など、様々な心臓関連タスクの包括的な評価ベンチマークであるcardicardbenchを導入する。 RDDMはCardioBench上での最先端性能を実現する。 我々の知る限り、RDDMは生体信号領域におけるクロスモーダル信号-信号間変換のための最初の拡散モデルである。

The high prevalence of cardiovascular diseases (CVDs) calls for accessible and cost-effective continuous cardiac monitoring tools. Despite Electrocardiography (ECG) being the gold standard, continuous monitoring remains a challenge, leading to the exploration of Photoplethysmography (PPG), a promising but more basic alternative available in consumer wearables. This notion has recently spurred interest in translating PPG to ECG signals. In this work, we introduce Region-Disentangled Diffusion Model (RDDM), a novel diffusion model designed to capture the complex temporal dynamics of ECG. Traditional Diffusion models like Denoising Diffusion Probabilistic Models (DDPM) face challenges in capturing such nuances due to the indiscriminate noise addition process across the entire signal. Our proposed RDDM overcomes such limitations by incorporating a novel forward process that selectively adds noise to specific regions of interest (ROI) such as QRS complex in ECG signals, and a reverse process that disentangles the denoising of ROI and non-ROI regions. Quantitative experiments demonstrate that RDDM can generate high-fidelity ECG from PPG in as few as 10 diffusion steps, making it highly effective and computationally efficient. Additionally, to rigorously validate the usefulness of the generated ECG signals, we introduce CardioBench, a comprehensive evaluation benchmark for a variety of cardiac-related tasks including heart rate and blood pressure estimation, stress classification, and the detection of atrial fibrillation and diabetes. Our thorough experiments show that RDDM achieves state-of-the-art performance on CardioBench. To the best of our knowledge, RDDM is the first diffusion model for cross-modal signal-to-signal translation in the bio-signal domain.
翻訳日:2023-08-29 20:26:37 公開日:2023-08-25
# MLLM-DataEngine:MLLMの反復的リファインメントアプローチ

MLLM-DataEngine: An Iterative Refinement Approach for MLLM ( http://arxiv.org/abs/2308.13566v1 )

ライセンス: Link先を確認
Zhiyuan Zhao, Linke Ouyang, Bin Wang, Siyuan Huang, Pan Zhang, Xiaoyi Dong, Jiaqi Wang, Conghui He(参考訳) 命令データセットの構築とベンチマークにおけるMLLM(Multimodal Large Language Models)の大幅な進歩にもかかわらず、トレーニングと評価の独立により、現在のMLLMは、比較的低コストで評価結果のガイダンスの下で、さらなる能力向上を困難にしている。 本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムであるMLLM-DataEngineを提案する。 各ループイテレーションの中で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析し、次に次のトレーニングイテレーションのための適切なインクリメンタルデータセットを生成し、モデルの能力を反復的に拡張します。 ベンチマークから分離した従来のデータ収集手法と比較して、MLLM-DataEngineが生成したデータは、より優れたターゲティング、品質、正確性を示している。 そこで本研究では,各インクリメンタルデータセット内の異なる種類のデータの比率をベンチマーク結果に基づいて調整する適応型バッドケースサンプリングモジュールを提案する。 品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。 正確性のため、データ生成結果にはプロンプト設計が不可欠である。 従来の手作りプロンプトではなく,人間とgptのマルチラウンドインタラクションでプロンプトを最適化し,生成データの正確性を大幅に向上させる対話型プロンプト最適化手法を提案する。 大規模な実験を通じて、MLLM-DataEngineはMLLMの能力を目標かつ自動的に向上させることができ、人間の参加はごくわずかである。 mllm-dataengineがリリースされ、次のmllmビルディングの一般的なソリューションになることを願っている。

Despite the great advance of Multimodal Large Language Models (MLLMs) in both instruction dataset building and benchmarking, the independence of training and evaluation makes current MLLMs hard to further improve their capability under the guidance of evaluation results with a relatively low human cost. In this paper, we propose MLLM-DataEngine, a novel closed-loop system that bridges data generation, model training, and evaluation. Within each loop iteration, the MLLM-DataEngine first analyze the weakness of the model based on the evaluation results, then generate a proper incremental dataset for the next training iteration and enhance the model capability iteratively. Compared with previous data collection methods which are separate from the benchmarking, the data generated by MLLM-DataEngine shows better targeting, quality, and correctness. For targeting, we propose an Adaptive Bad-case Sampling module, which adjusts the ratio of different types of data within each incremental dataset based on the benchmarking results. For quality, we resort to GPT-4 to generate high-quality data with each given data type. For correctness, prompt design is critical for the data generation results. Rather than previous hand-crafted prompt, we propose an Interactive Prompt Optimization strategy, which optimizes the prompt with the multi-round interaction between human and GPT, and improve the correctness of generated data greatly. Through extensive experiments, we find our MLLM-DataEngine could boost the MLLM capability in a targeted and automatic manner, with only a few human participation. The MLLM-DataEngine will be released and we hope it could be a general solution for the following MLLMs building.
翻訳日:2023-08-29 20:26:05 公開日:2023-08-25
# DARWINシリーズ:自然科学のためのドメイン固有大言語モデル

DARWIN Series: Domain Specific Large Language Models for Natural Science ( http://arxiv.org/abs/2308.13565v1 )

ライセンス: Link先を確認
Tong Xie, Yuwei Wan, Wei Huang, Zhenyu Yin, Yixuan Liu, Shaozhou Wang, Qingyuan Linghu, Chunyu Kit, Clara Grazian, Wenjie Zhang, Imran Razzak, Bram Hoex(参考訳) 新たなツールによって新しいアプローチが実現し、自然科学の分野も変わりません。 自然科学において、従来のマニュアル、シリアル、労働集約的な作業は、人工知能ベースの実験自動化などによって駆動される自動化、並列、反復的なプロセスによって強化されている。 自然科学に新たな機能を追加し,発見プロセスの自動化の促進と強化を可能にするため,本研究では,物理,化学,物質科学を中心に,自然科学に適したLLMのシリーズであるDARWINを提案する。 このシリーズはオープンソースのLLMに依存しており、公開データセットや文献から構造化された、構造化されていない科学知識を取り入れている。 我々は6万以上の命令データポイントを用いてモデルを微調整し、事実の正しさを強調した。 微調整の際には,学術テキストからの指導生成を自動化するSIG(Scientific Instruction Generation)モデルを導入する。 これにより、手動の抽出やドメイン固有の知識グラフの必要性をなくし、効率的にモデルに科学的知識を注入できる。 マルチタスクのトレーニング戦略についても検討し,科学的タスク間の相互関係を明らかにする。 DARWINシリーズは、様々な科学的タスクに関する最先端の結果を達成するだけでなく、クローズドソースのAIモデルへの依存を減らす。 我々の研究は、科学分野におけるLLMの能力を示し、科学コミュニティのための幅広いAIの中で繁栄を育むという、包括的な目標を掲げている。

Emerging tools bring forth fresh approaches to work, and the field of natural science is no different. In natural science, traditional manual, serial, and labour-intensive work is being augmented by automated, parallel, and iterative processes driven by artificial intelligence-based experimental automation and more. To add new capabilities in natural science, enabling the acceleration and enrichment of automation of the discovery process, we present DARWIN, a series of tailored LLMs for natural science, mainly in physics, chemistry, and material science. This series relies on open-source LLM, incorporating structured and unstructured scientific knowledge from public datasets and literature. We fine-tuned the models using over 60,000 instruction data points, emphasizing factual correctness. During the fine-tuning, we introduce the Scientific Instruction Generation (SIG) model, automating instruction generation from scientific texts. This eliminates the need for manual extraction or domain-specific knowledge graphs and efficiently injects scientific knowledge into the model. We also explore multi-task training strategies, revealing interconnections between scientific tasks. DARWIN series not only achieves state-of-the-art results on various scientific tasks but also diminishes reliance on closed-source AI models. Our research showcases the ability of LLM in the scientific domain, with the overarching goal of fostering prosperity within the broader AI for science community.
翻訳日:2023-08-29 20:25:34 公開日:2023-08-25
# SGMM: モーメントの一般化法に対する確率近似

SGMM: Stochastic Approximation to Generalized Method of Moments ( http://arxiv.org/abs/2308.13564v1 )

ライセンス: Link先を確認
Xiaohong Chen, Sokbae Lee, Yuan Liao, Myung Hwan Seo, Youngki Shin, Myunghyun Song(参考訳) 本稿では,(過大な)モーメント制限モデルに対する推定と推論のための新しいアルゴリズムである確率的一般化モーメント法(sgmm)を提案する。 我々のSGMMは、人気のあるHansen (1982) (オフライン) GMMに代わる新しい確率近似であり、ストリーミングデータセットをリアルタイムに処理できる高速でスケーラブルな実装を提供する。 ほぼ確実な収束と、非効率的なオンライン2SLSと効率的なSGMMに対する(機能的な)中心極限定理を確立する。 さらに,SGMMフレームワークにシームレスに統合可能なDurbin-Wu-HausmanおよびSargan-Hansenテストのオンライン版を提案する。 大規模なモンテカルロシミュレーションでは、サンプルのサイズが大きくなるにつれて、SGMMは推定精度の点で標準(オフライン)GMMと一致し、計算効率が向上し、大規模なデータセットとオンラインデータセットの両方で実用的価値が示される。 サンプルサイズが大きい2つのよく知られた実験例を用いて,概念実証によるアプローチの有効性を実証した。

We introduce a new class of algorithms, Stochastic Generalized Method of Moments (SGMM), for estimation and inference on (overidentified) moment restriction models. Our SGMM is a novel stochastic approximation alternative to the popular Hansen (1982) (offline) GMM, and offers fast and scalable implementation with the ability to handle streaming datasets in real time. We establish the almost sure convergence, and the (functional) central limit theorem for the inefficient online 2SLS and the efficient SGMM. Moreover, we propose online versions of the Durbin-Wu-Hausman and Sargan-Hansen tests that can be seamlessly integrated within the SGMM framework. Extensive Monte Carlo simulations show that as the sample size increases, the SGMM matches the standard (offline) GMM in terms of estimation accuracy and gains over computational efficiency, indicating its practical value for both large-scale and online datasets. We demonstrate the efficacy of our approach by a proof of concept using two well known empirical examples with large sample sizes.
翻訳日:2023-08-29 20:25:14 公開日:2023-08-25
# 二元系ボース混合物の一般安定条件

Generalized stability conditions for binary bose mixtures ( http://arxiv.org/abs/2308.13608v1 )

ライセンス: Link先を確認
Benarous Mohamed, Hocine Ahmed and Mehedi Atika(参考訳) 超低温のボースボース混合物の種間および種内変動を考慮すると、崩壊と相分離に対する一般的な安定性条件を導出する。 さらに, 系のエネルギー密度を調べることにより, 新しいlhy様効果が, 励起枝に従って安定を強制または破壊し, 液滴状態の存在を許容または禁止することを示した。

Considering both interspecies and intraspecies fluctuations in ultracold bose-bose mixtures, we derive generalized stability conditions against collapse and phase separation. Furthermore, by examining the energy density of the system, we show that new LHY-like effects may enforce or destroy the stability according to the excitation branch, therefore, permitting or prohibiting the existence of droplet states.
翻訳日:2023-08-29 20:18:55 公開日:2023-08-25
# 量子インフォームド再帰最適化アルゴリズム

Quantum-Informed Recursive Optimization Algorithms ( http://arxiv.org/abs/2308.13607v1 )

ライセンス: Link先を確認
Jernej Rudi Fin\v{z}gar, Aron Kerschbaumer, Martin J. A. Schuetz, Christian B. Mendl, Helmut G. Katzgraber(参考訳) 組合せ最適化問題に対する量子インフォームド再帰最適化(QIRO)アルゴリズムのファミリーを提案し,実装する。 提案手法では,量子資源を活用し,問題を再帰的に単純化する問題特有の古典的還元ステップで使用される情報を得る。 これらの削減ステップは、量子成分の限界に対処し、制約付き最適化問題における解実現可能性を保証する。 さらに,量子ハードウェアの要求を増加させることなく,アルゴリズムの性能をさらに向上させるためにバックトラッキング技術を用いる。 我々は,量子近似最適化アルゴリズム (qaoa) の浅層(深さ$p=1$) 回路の古典的シミュレーションによる相関関係をqiroに通知し, 最大独立集合のインスタンスを解き, 最大充足可能性問題を数百変数で解いた。 また、Amazon Braket上で利用可能な中性原子量子プロセッサにQIROをデプロイして、グラフの大きな独立した集合を見つける方法を示す。 要約すると, この手法は, 比較的弱い量子資源でも, シュミレーション・アニーリングや欲望アルゴリズムのような古典的ヒューリスティックスに匹敵する結果が得られる。 さらに、これらの量子リソースの品質の向上はアルゴリズムの性能を改善し、QIROの可能性を強調している。 特に、QIROのモジュラー性は様々な修正の道を提供し、組合せ最適化のためのより広範なハイブリッド量子古典アルゴリズムを設計するための青写真として位置づけられている。

We propose and implement a family of quantum-informed recursive optimization (QIRO) algorithms for combinatorial optimization problems. Our approach leverages quantum resources to obtain information that is used in problem-specific classical reduction steps that recursively simplify the problem. These reduction steps address the limitations of the quantum component and ensure solution feasibility in constrained optimization problems. Additionally, we use backtracking techniques to further improve the performance of the algorithm without increasing the requirements on the quantum hardware. We demonstrate the capabilities of our approach by informing QIRO with correlations from classical simulations of shallow (depth $p=1$) circuits of the quantum approximate optimization algorithm (QAOA), solving instances of maximum independent set and maximum satisfiability problems with hundreds of variables. We also demonstrate how QIRO can be deployed on a neutral atom quantum processor available online on Amazon Braket to find large independent sets of graphs. In summary, our scheme achieves results comparable to classical heuristics, such as simulated annealing and greedy algorithms, even with relatively weak quantum resources. Furthermore, enhancing the quality of these quantum resources improves the performance of the algorithms, highlighting the potential of QIRO. Notably, the modular nature of QIRO offers various avenues for modifications, positioning our work as a blueprint for designing a broader class of hybrid quantum-classical algorithms for combinatorial optimization.
翻訳日:2023-08-29 20:18:47 公開日:2023-08-25
# 単光雪崩検出器を用いた数状態トモグラフィ

Number-State Tomography with a Single Single-Photon Avalanche Detector ( http://arxiv.org/abs/2308.13603v1 )

ライセンス: Link先を確認
Patrick Banner, Deniz Kurdak, Yaxin Li, Alan Migdall, J. V. Porto, S. L. Rolston(参考訳) 単光子アバランシェ検出器(SPAD)のみを用いて光子数状態トモグラフィーを行う手法を提案する。 この手法はコスト効率が高く実装が容易であり、測定可能なパラメータを持つ検出器モデルと最大様相解析を用いる。 我々は、既知の入力パルスと、最大10ドルの光子とピーク入力光子数/秒までのコヒーレント状態の再構成との間に優れた一致を達成する。 我々は、ピーク入力光子レートが40Mcounts/s、検出器のデッドタイムあたり1光子以上であるコヒーレントパルスについて、良好な一致を維持している。 反束光に対しては、再構成および独立に測定された$g^{(2)}(0)$の値も一致する。 本アルゴリズムは, パルス幅が少なくとも数回の検出終了時間である$g^{(2)}(0) < 1$のコヒーレントパルスおよび非古典光に適用可能である。 これらの結果は、単一の商用SPADで実現され、安価な数状態トモグラフィー法を提供し、単光子検出器の能力を拡大する。

We present a methodology for performing photon number-state tomography with only one single-photon avalanche detector (SPAD). The methodology, which is cost-effective and easy to implement, uses a detector model with measurable parameters together with maximum-likelihood analysis. We achieve excellent agreement between known input pulses and their reconstructions for coherent states with up to $\approx 10$ photons and peak input photon rates up to several Mcounts/s. We maintain good agreement for coherent pulses with peak input photon rates of over 40 Mcounts/s, greater than one photon per detector dead time. For anti-bunched light, the reconstructed and independently measured values of $g^{(2)}(0)$ are also consistent. Our algorithm is applicable to coherent pulses and non-classical light with $g^{(2)}(0) < 1$, whose total pulse width is at least a few detector dead times. These results, achieved with single commercially available SPADs, provide an inexpensive number-state tomography method and expand the capabilities of single-photon detectors.
翻訳日:2023-08-29 20:18:20 公開日:2023-08-25
# ジョセフソン接合配列におけるThouless pumping

Thouless pumping in Josephson junction arrays ( http://arxiv.org/abs/2308.13597v1 )

ライセンス: Link先を確認
Stavros Athanasiou, Ida E. Nielsen, Matteo M. Wauters and Michele Burrello(参考訳) 近年の製造技術の発展により、半導体-超伝導ヘテロ構造における前例のないクリーンインターフェースとゲートチューニングが可能となった。 これらの発展に触発されて,電気的に可変なジョセフソン接合配列におけるthouless量子ポンプを実現するプロトコルを提案する。 我々は、特にライス・ミールとハーパー・ホフスタッターのポンプ方式の実装を分析し、これらのシステムを量子シミュレーションの柔軟なプラットフォームとして検証する。 クーロンブロック状態における制御可能な超伝導島列の長時間挙動を数値的に検討した。 本研究は, 周期的に駆動される相互作用系のダイナミクスに関する新たな知見を与え, 超伝導回路に典型的な境界効果に関して, thoulessポンプのロバスト性を強調した。

Recent advancements in fabrication techniques have enabled unprecedented clean interfaces and gate tunability in semiconductor-superconductor heterostructures. Inspired by these developments, we propose protocols to realize Thouless quantum pumping in electrically tunable Josephson junction arrays. We analyze, in particular, the implementation of the Rice-Mele and the Harper-Hofstadter pumping schemes, whose realization would validate these systems as flexible platforms for quantum simulations. We investigate numerically the long-time behavior of chains of controllable superconducting islands in the Coulomb-blockaded regime. Our findings provide new insights into the dynamics of periodically driven interacting systems and highlight the robustness of Thouless pumping with respect to boundary effects typical of superconducting circuits.
翻訳日:2023-08-29 20:18:00 公開日:2023-08-25
# 変形四フレーバーシュウィンガーモデルにおける弦断片化からのハイパーオンスピン相関のリアルタイムダイナミクス

Realtime dynamics of hyperon spin correlations from string fragmentation in a deformed four-flavor Schwinger model ( http://arxiv.org/abs/2308.13596v1 )

ライセンス: Link先を確認
Jo\~ao Barata, Wenjie Gong, Raju Venugopalan(参考訳) 自発的弱崩壊は、衝突器実験で生成された$\lambda{\bar \lambda}$-pairsのスピン相関の測定を通して、qcd弦の断片化における絡み合いの役割に関するユニークな洞察を与える。 基礎となるパルトン力学を表す最も単純な量子場理論は、4つのフレーバーの質量シュウィンガーモデルと効果的なスピンフリップ項であり、フレーバーは光(上下)と重いクォークとそのスピンにマッピングされる。 この構造は、1+1次元の超音速スピン相関を探索する新しい方法を提供する。 モデルハミルトニアンのリッチ構造に敏感な異なる文字列構成に対するこれらの相関関係の進化について検討する。

Self-polarizing weak decays of $\Lambda$-hyperons provide unique insight into the role of entanglement in the fragmentation of QCD strings through measurements of the spin correlations of $\Lambda{\bar \Lambda}$-pairs produced in collider experiments. The simplest quantum field theory representing the underlying parton dynamics is the four-flavor massive Schwinger model plus an effective spin-flip term, where the flavors are mapped to light (up/down) and heavy (strange) quarks and their spins. This construction provides a novel way to explore hyperon spin-correlations in 1+1-dimensions. We investigate the evolution of these correlations for different string configurations that are sensitive to the rich structure of the model Hamiltonian.
翻訳日:2023-08-29 20:17:48 公開日:2023-08-25
# 甲状腺癌診断におけるAI : 技術,動向,今後の方向性

AI in Thyroid Cancer Diagnosis: Techniques, Trends, and Future Directions ( http://arxiv.org/abs/2308.13592v1 )

ライセンス: Link先を確認
Yassine Habchi, Yassine Himeur, Hamza Kheddar, Abdelkrim Boukabou, Shadi Atalla, Ammar Chouchane, Abdelmalik Ouamane, and Wathiq Mansoor(参考訳) 医療専門家が不治の病気の治療のためにビッグデータを分析し、処理するのを助けるインテリジェントな診断システムを作ることへの関心が高まっている。 この分野での重要な課題の1つは甲状腺がんの検出であり、機械学習(ML)とビッグデータ分析を用いて甲状腺癌の予後を評価し、患者の悪性度リスクを決定する。 本報告では, 甲状腺癌の診断に使用される人工知能(AI)技術に関する大量の論文を要約する。 これにより、使用するAIアルゴリズム、フレームワークの目的、使用するコンピューティングプラットフォームに基づいて、これらのテクニックを分類する新たな分類が導入された。 さらに,本研究は,その特徴に基づいて既存の甲状腺癌データセットを比較検討した。 この研究は、教師なし、教師なし、またはハイブリッド技術を通じて、AIベースのツールが甲状腺癌の診断と治療をどのようにサポートするかに焦点を当てている。 また、この分野の進歩と未解決の課題についても強調する。 最後に、この分野における今後の動向と焦点分野について論じる。

There has been a growing interest in creating intelligent diagnostic systems to assist medical professionals in analyzing and processing big data for the treatment of incurable diseases. One of the key challenges in this field is detecting thyroid cancer, where advancements have been made using machine learning (ML) and big data analytics to evaluate thyroid cancer prognosis and determine a patient's risk of malignancy. This review paper summarizes a large collection of articles related to artificial intelligence (AI)-based techniques used in the diagnosis of thyroid cancer. Accordingly, a new classification was introduced to classify these techniques based on the AI algorithms used, the purpose of the framework, and the computing platforms used. Additionally, this study compares existing thyroid cancer datasets based on their features. The focus of this study is on how AI-based tools can support the diagnosis and treatment of thyroid cancer, through supervised, unsupervised, or hybrid techniques. It also highlights the progress made and the unresolved challenges in this field. Finally, the future trends and areas of focus in this field are discussed.
翻訳日:2023-08-29 20:17:34 公開日:2023-08-25
# AIの倫理について

Queering the ethics of AI ( http://arxiv.org/abs/2308.13591v1 )

ライセンス: Link先を確認
Eduard Fosch-Villaronga and Gianclaudio Malgieri(参考訳) この本章は、AIシステムの根底にある規範的仮定と価値に挑戦し、再評価するために、AIの倫理を「精査する」必要があることを強調している。 この章では、AIがバイナリズムを含む差別を永続し、代表的データセットの欠如と技術の準備の整合性による余裕と制約により、既存の不平等を増幅する可能性に関する倫理的懸念を強調している。 この章は、しばしば非差別法を基盤とする平等の新自由の概念に対する批判的な検証が不可欠であり、個人の差別経験を形作る複雑で交差する要因を考慮に入れた別の学際的アプローチを構築する必要性を強調できないと主張している。 交叉性と脆弱性のない設計を中心とするそのようなアプローチを探求することで、デザイナーと開発者は、すべての個人やコミュニティ、特に差別や危害に最も弱い人々のニーズや経験に包括的で公平な、より倫理的なaiシステムを作ることができる、と章は主張している。

This book chapter delves into the pressing need to "queer" the ethics of AI to challenge and re-evaluate the normative suppositions and values that underlie AI systems. The chapter emphasizes the ethical concerns surrounding the potential for AI to perpetuate discrimination, including binarism, and amplify existing inequalities due to the lack of representative datasets and the affordances and constraints depending on technology readiness. The chapter argues that a critical examination of the neoliberal conception of equality that often underpins non-discrimination law is necessary and cannot stress more the need to create alternative interdisciplinary approaches that consider the complex and intersecting factors that shape individuals' experiences of discrimination. By exploring such approaches centering on intersectionality and vulnerability-informed design, the chapter contends that designers and developers can create more ethical AI systems that are inclusive, equitable, and responsive to the needs and experiences of all individuals and communities, particularly those who are most vulnerable to discrimination and harm.
翻訳日:2023-08-29 20:17:20 公開日:2023-08-25
# LSTMに基づくWebマイクロサービスのレコレーションスコーリングのためのQoE評価

LSTM-based QoE Evaluation for Web Microservices' Reputation Scoring ( http://arxiv.org/abs/2308.13590v1 )

ライセンス: Link先を確認
Maha Driss(参考訳) 感性分析は、特定の実体についての著者の意見をマイニングするタスクである。 組織はさまざまなサービスをリアルタイムで監視し、それに従って行動することができる。 評判は一般に言われるか、人や物について信じるものである。 非公式には、ユーザから集めたフィードバック、レビュー、評価から得られる信頼性の尺度を組み合わせることで、彼らのqoe(quality of experience)を反映し、提供されたサービスの評判を高めたり損なったりすることができる。 本研究では,web マイクロサービスレビューの感情分析を行い,提供情報を利用してマイクロサービスの評価と評価を行う。 提案手法では,Long Short-Term Memory (LSTM) モデルを用いて感情分析を行い,Net Brand Reputation (NBR) アルゴリズムを用いてマイクロサービスの評価スコアを評価する。 このアプローチは、Amazon Webマイクロサービスに関する1万以上のレビューのセットでテストされており、実験結果は、私たちのアプローチが既存のアプローチよりも正確であることを示し、オーバーサンプリング戦略を適用して得られた精度と精度は93%、マイクロサービスコミュニティの評判スコアは89%である。

Sentiment analysis is the task of mining the authors' opinions about specific entities. It allows organizations to monitor different services in real time and act accordingly. Reputation is what is generally said or believed about people or things. Informally, reputation combines the measure of reliability derived from feedback, reviews, and ratings gathered from users, which reflect their quality of experience (QoE) and can either increase or harm the reputation of the provided services. In this study, we propose to perform sentiment analysis on web microservices reviews to exploit the provided information to assess and score the microservices' reputation. Our proposed approach uses the Long Short-Term Memory (LSTM) model to perform sentiment analysis and the Net Brand Reputation (NBR) algorithm to assess reputation scores for microservices. This approach is tested on a set of more than 10,000 reviews related to 15 Amazon Web microservices, and the experimental results have shown that our approach is more accurate than existing approaches, with an accuracy and precision of 93% obtained after applying an oversampling strategy and a resulting reputation score of the considered microservices community of 89%.
翻訳日:2023-08-29 20:17:00 公開日:2023-08-25
# GeoExplainer: 空間モデリングのコンテキスト化とレポート生成のためのビジュアル分析フレームワーク

GeoExplainer: A Visual Analytics Framework for Spatial Modeling Contextualization and Report Generation ( http://arxiv.org/abs/2308.13588v1 )

ライセンス: Link先を確認
Fan Lei, Yuxin Ma, Stewart Fotheringham, Elizabeth Mack, Ziqi Li, Mehak Sachdeva, Sarah Bardin and Ross Maciejewski(参考訳) 様々な記述の地理回帰モデルは、空間分布観測の行列式におけるパターンや異常を特定するためにしばしば応用される。 これらの分析は、例えば、この地域の犯罪はなぜ高まるのか、ある学区の子供たちはなぜ他の学区の子供より優れているのか、といった、基礎となる空間現象に関する疑問に答えることに焦点を当てている。 これらの疑問に対する答えは、モデル構造、パラメータの選択、およびそれらの地理的文脈に関する結果の文脈化の説明を必要とする。 これは、人間の行動決定における位置的文脈の役割に焦点を当てた局所的な回帰モデルに特に当てはまる。 本稿では,空間分析を要約し,文脈化するための説明的文書作成を支援するビジュアル分析フレームワークgeoexplainerを提案する。 アナリストが空間モデルを作成すると、我々のフレームワークはモデルパラメータの選択に関する潜在的な問題をフラグ付け、テンプレートベースのテキスト生成を使用してモデル出力を要約し、外部知識リポジトリとリンクしてモデル結果を説明するアノテーションを提供する。 アナリストがモデル結果を調べると、すべての可視化とアノテーションはインタラクティブなレポート生成ウィジェットで取得できる。 2016年アメリカ合衆国大統領選挙における投票の要因をモデル化したケーススタディを用いて,この枠組みを実証する。

Geographic regression models of various descriptions are often applied to identify patterns and anomalies in the determinants of spatially distributed observations. These types of analyses focus on answering why questions about underlying spatial phenomena, e.g., why is crime higher in this locale, why do children in one school district outperform those in another, etc.? Answers to these questions require explanations of the model structure, the choice of parameters, and contextualization of the findings with respect to their geographic context. This is particularly true for local forms of regression models which are focused on the role of locational context in determining human behavior. In this paper, we present GeoExplainer, a visual analytics framework designed to support analysts in creating explanative documentation that summarizes and contextualizes their spatial analyses. As analysts create their spatial models, our framework flags potential issues with model parameter selections, utilizes template-based text generation to summarize model outputs, and links with external knowledge repositories to provide annotations that help to explain the model results. As analysts explore the model results, all visualizations and annotations can be captured in an interactive report generation widget. We demonstrate our framework using a case study modeling the determinants of voting in the 2016 US Presidential Election.
翻訳日:2023-08-29 20:16:40 公開日:2023-08-25
# スクイーズドライブによるマクロ遠方マグノンモードの絡み合い

Macroscopic distant magnon modes entanglement via a squeezed drive ( http://arxiv.org/abs/2308.13586v1 )

ライセンス: Link先を確認
Kamran Ullah, Muhammad Tahir Naseem, Ozgur E. Mustecaplioglu(参考訳) 量子システムアレイにおけるロバスト絡み合いの発生は、効率的な量子情報処理を実現する上で重要な側面である。 近年、量子マグノニクスの分野は、この方向に進むための有望なプラットフォームとして大きな注目を集めている。 提案手法では, 磁気双極子相互作用により空洞モードに結合した1つのイットリウム鉄ガーネット(YIG)球を各空洞に収容する一次元共振器のアレイを用いた。 我々は、YIG間の絡み合いを誘導するため、圧縮真空駆動を用い、必要な非線形性を提供する。 本研究は, アレイ全体にわたる遠方マグノンモード間の二分極および三分極の絡み合いが, すべて1つの制御ドライブで達成されたことを示す。 さらに、マグノンモード間の定常絡み合いは、マグノン散逸率と環境温度に対して頑健である。 その結果,量子情報処理や量子通信システムにおけるキャビティ・マグノンアレイの応用が期待できる。

The generation of robust entanglement in quantum system arrays is a crucial aspect of realizing efficient quantum information processing. Recently, the field of quantum magnonics has garnered significant attention as a promising platform for advancing in this direction. In our proposed scheme, we utilize a one-dimensional array of coupled cavities, with each cavity housing a single yttrium iron garnet (YIG) sphere coupled to the cavity mode through magnetic dipole interaction. To induce entanglement between YIGs, we employ a squeezed vacuum drive, providing the necessary nonlinearity. Our results demonstrate the successful generation of bipartite and tripartite entanglement between distant magnon modes across the entire array, all achieved through a single control drive. Furthermore, the steady-state entanglement between magnon modes is robust against magnon dissipation rates and environment temperature. Our results may find applications of cavity-magnon arrays in quantum information processing and quantum communication systems.
翻訳日:2023-08-29 20:16:18 公開日:2023-08-25
# GRASP: 効果的なオンライン連続学習のためのリハーサルポリシー

GRASP: A Rehearsal Policy for Efficient Online Continual Learning ( http://arxiv.org/abs/2308.13646v1 )

ライセンス: Link先を確認
Md Yousuf Harun, Jhair Gallardo, Christopher Kanan(参考訳) ディープニューラルネットワーク(DNN)における連続学習(CL)は、成長するデータストリームからDNN内の知識を漸進的に蓄積する。 clの大きな課題は、非定常データストリームが過去の学習能力の壊滅的な忘れを引き起こすことである。 リハーサルは、過去の観察をバッファに保存し、学習中に新しい観察と混ぜ合わせることで、この問題を軽減するための一般的かつ効果的な方法である。 リハーサルのためにどの格納されたサンプルを選択するべきか? ランダムに選択するのではなく、学習に最適なサンプルを選択すると、学習が大幅に速くなります。 クラスインクリメンタル学習では、単純なクラスバランスのランダム選択ポリシがより洗練されたメソッドよりも優れていることが先行研究で示されている。 ここでは、GRASPと呼ばれる新しいサンプル選択ポリシーを検討することで、この問題を再考する。 GRASPはまず最も原型的な(クラス代表)サンプルを選択し、その後徐々にDNNを更新するより原型的な(より硬い)サンプルを選択します。 GRASPは、均一な選択に比べて計算やメモリのオーバーヘッドがほとんどなく、大規模なデータセットにスケールできる。 大規模画像Net-1KおよびPlaces-LT画像分類データセット上でCL実験を行うことでGRASPおよびその他のポリシーを評価する。 他のリハーサル政策に勝る。 ビジョン以外にも、GRASPは5つのテキスト分類データセット上でCLに有効であることを示す。

Continual learning (CL) in deep neural networks (DNNs) involves incrementally accumulating knowledge in a DNN from a growing data stream. A major challenge in CL is that non-stationary data streams cause catastrophic forgetting of previously learned abilities. Rehearsal is a popular and effective way to mitigate this problem, which is storing past observations in a buffer and mixing them with new observations during learning. This leads to a question: Which stored samples should be selected for rehearsal? Choosing samples that are best for learning, rather than simply selecting them at random, could lead to significantly faster learning. For class incremental learning, prior work has shown that a simple class balanced random selection policy outperforms more sophisticated methods. Here, we revisit this question by exploring a new sample selection policy called GRASP. GRASP selects the most prototypical (class representative) samples first and then gradually selects less prototypical (harder) examples to update the DNN. GRASP has little additional compute or memory overhead compared to uniform selection, enabling it to scale to large datasets. We evaluate GRASP and other policies by conducting CL experiments on the large-scale ImageNet-1K and Places-LT image classification datasets. GRASP outperforms all other rehearsal policies. Beyond vision, we also demonstrate that GRASP is effective for CL on five text classification datasets.
翻訳日:2023-08-29 20:08:00 公開日:2023-08-25
# Arbiter PUFの高速かつ遅いモデリング攻撃のためのアクティブラーニング

Active learning for fast and slow modeling attacks on Arbiter PUFs ( http://arxiv.org/abs/2308.13645v1 )

ライセンス: Link先を確認
Vincent Dumoulin, Wenjing Rao, and Natasha Devroye(参考訳) 機械学習技術を使ってハードウェアベースのPhysically Unclonable Function(PUF)をモデル化するモデリング攻撃は、これらのハードウェアセキュリティプリミティブの生存可能性に大きな脅威をもたらす。 ほとんどのモデリング攻撃では、機械学習アルゴリズムのラベル付きデータとしてチャレンジ応答ペア(CRP)のランダムなサブセットが使用される。 そこで,arbiter-pufにおいて,ランダム重み付き線形しきい値関数と見なすことができる遅延ベースpufについて,サポートベクタマシン(svm)学習におけるアクティブラーニングの役割について検討する。 我々はsvmアルゴリズムが ``fast'' を学習し ``slow'' を学ぶのを助けるためにチャレンジ選択に焦点を当てる。 我々の手法は、以前の作業のように課題のサンプルプールに頼るのではなく、課題を構築する。 アクティブラーニングを使って'fast'(CRPが明らかにされていない場合、より高い精度)を学習することは、製造元がより効率的にPUFを学習するのに役立つかもしれないし、攻撃者がCRPに対してPUFを問い合わせるときにより強力な攻撃を形成するかもしれない。 アクティブラーニングを使用して'slow'(多くのCRPが明らかにされているにもかかわらず、学習が低い)という課題を選択することで、CRPを過度に聴くことに限定された攻撃者を減速させる基盤を提供することができる。

Modeling attacks, in which an adversary uses machine learning techniques to model a hardware-based Physically Unclonable Function (PUF) pose a great threat to the viability of these hardware security primitives. In most modeling attacks, a random subset of challenge-response-pairs (CRPs) are used as the labeled data for the machine learning algorithm. Here, for the arbiter-PUF, a delay based PUF which may be viewed as a linear threshold function with random weights (due to manufacturing imperfections), we investigate the role of active learning in Support Vector Machine (SVM) learning. We focus on challenge selection to help SVM algorithm learn ``fast'' and learn ``slow''. Our methods construct challenges rather than relying on a sample pool of challenges as in prior work. Using active learning to learn ``fast'' (less CRPs revealed, higher accuracies) may help manufacturers learn the manufactured PUFs more efficiently, or may form a more powerful attack when the attacker may query the PUF for CRPs at will. Using active learning to select challenges from which learning is ``slow'' (low accuracy despite a large number of revealed CRPs) may provide a basis for slowing down attackers who are limited to overhearing CRPs.
翻訳日:2023-08-29 20:07:37 公開日:2023-08-25
# MLベースのインデックスチューニング - 最近の進歩とオープンチャレンジの概要

ML-Powered Index Tuning: An Overview of Recent Progress and Open Challenges ( http://arxiv.org/abs/2308.13641v1 )

ライセンス: Link先を確認
Tarique Siddiqui, Wentao Wu(参考訳) 現代的なクラウドサービスにおけるワークロードのスケールと複雑さは、自動インデックスチューニングにおいて重要な課題に焦点を絞った -- インデックスチューニングのスケーラビリティを維持しながら、高品質インデックスを推奨する必要がある。 この課題は、自動インデックス実装が本番デプロイメントに最小限のクエリパフォーマンスレグレッションを導入し、スケーラビリティと完全な自動化を実現する上で大きな障壁となる、という要件によってさらに複雑化している。 本稿では、自動インデックスチューニングにおけるこれらの課題に注意を向け、機械学習(ML)技術がそれらの緩和に新たな機会をもたらす方法を探る。 特に、ワークロード選択、候補インデックスフィルタリング、インデックス設定検索の高速化、クエリオプティマイザ呼び出しの量削減、パフォーマンスレグレッション率の低下など、ML技術開発における最近の取り組みについて考察する。 これらの取り組みから得られた重要な点を強調し、従来のインデックスチューニングフレームワークにおける効果的な機能のために閉じる必要があるギャップを概説します。 さらに、複数のsqlライクなシステム間でインデックスチューニングを民主化することを目的とした、予備的なクロスプラットフォーム設計も提示します。 本研究の成果は,自動インデックスチューニングにおける研究・開発活動の状況と意義に寄与すると考えられる。

The scale and complexity of workloads in modern cloud services have brought into sharper focus a critical challenge in automated index tuning -- the need to recommend high-quality indexes while maintaining index tuning scalability. This challenge is further compounded by the requirement for automated index implementations to introduce minimal query performance regressions in production deployments, representing a significant barrier to achieving scalability and full automation. This paper directs attention to these challenges within automated index tuning and explores ways in which machine learning (ML) techniques provide new opportunities in their mitigation. In particular, we reflect on recent efforts in developing ML techniques for workload selection, candidate index filtering, speeding up index configuration search, reducing the amount of query optimizer calls, and lowering the chances of performance regressions. We highlight the key takeaways from these efforts and underline the gaps that need to be closed for their effective functioning within the traditional index tuning framework. Additionally, we present a preliminary cross-platform design aimed at democratizing index tuning across multiple SQL-like systems -- an imperative in today's continuously expanding data system landscape. We believe our findings will help provide context and impetus to the research and development efforts in automated index tuning.
翻訳日:2023-08-29 20:07:10 公開日:2023-08-25
# 高速利得変調と低シナプス可塑性による適応的白化

Adaptive whitening with fast gain modulation and slow synaptic plasticity ( http://arxiv.org/abs/2308.13633v1 )

ライセンス: Link先を確認
Lyndon R. Duong, Eero P. Simoncelli, Dmitri B. Chklovskii, David Lipshutz(参考訳) 初期の感覚領域のニューロンは、個々の反応の偏りを正規化し、反応間の相関を減少させることによって、感覚統計の変化に迅速に適応する。 同時に、これらの変換は統計的白化の適応形式と見なすことができる。 既存のアダプティブ・ホワイトニングの機械モデルでは、適応のための生体基質としてシナプス可塑性またはゲイン変調のみを用いるが、それぞれにかなりの制限がある。 本研究では,これらのアプローチを,シナプス可塑性と変調の相補的な計算的役割で適応的に応答を白くする,規範的マルチ時間力学モデルで統一する。 ゲインは現在の統計的文脈に適応するために速い時間スケールで修正されるが、シナプスは、コンテキスト間で不変な入力統計の構造的性質を学ぶために遅い時間スケールで修正される。 本モデルは、逆ホワイトニング行列をシナプス重みに対応する基底ベクトルと、ニューロンの利得に対応する対角行列に分解する、新しい多時間スケールホワイトニング目的から導出したものである。 我々は,合成および自然データセットを用いたモデルテストを行い,回路が利得変調のみを用いて短時間の時間スケールで適応的に神経応答をホワイト化できるように,シナプスが長い時間スケールで最適な構成を学習できることを見出した。

Neurons in early sensory areas rapidly adapt to changing sensory statistics, both by normalizing the variance of their individual responses and by reducing correlations between their responses. Together, these transformations may be viewed as an adaptive form of statistical whitening. Existing mechanistic models of adaptive whitening exclusively use either synaptic plasticity or gain modulation as the biological substrate for adaptation; however, on their own, each of these models has significant limitations. In this work, we unify these approaches in a normative multi-timescale mechanistic model that adaptively whitens its responses with complementary computational roles for synaptic plasticity and gain modulation. Gains are modified on a fast timescale to adapt to the current statistical context, whereas synapses are modified on a slow timescale to learn structural properties of the input statistics that are invariant across contexts. Our model is derived from a novel multi-timescale whitening objective that factorizes the inverse whitening matrix into basis vectors, which correspond to synaptic weights, and a diagonal matrix, which corresponds to neuronal gains. We test our model on synthetic and natural datasets and find that the synapses learn optimal configurations over long timescales that enable the circuit to adaptively whiten neural responses on short timescales exclusively using gain modulation.
翻訳日:2023-08-29 20:06:51 公開日:2023-08-25
# HiFiHR:高忠実なテクスチャによる1枚の画像からの3Dハンドリコンストラクションの実現

HiFiHR: Enhancing 3D Hand Reconstruction from a Single Image via High-Fidelity Texture ( http://arxiv.org/abs/2308.13628v1 )

ライセンス: Link先を確認
Jiayin Zhu, Zhuoran Zhao, Linlin Yang, Angela Yao(参考訳) 現実的なテクスチャを回復しながら、視覚的に可視かつ正確な3Dハンドメッシュを生成することができる、学習ベースフレームワークのレンダリング・アンド・コンプリートを利用した高忠実な手再構成手法であるHiFiHRを提案する。 本手法は,事前定義されたテクスチャアセットを持つパラメトリックハンドモデルを用い,学習中のレンダリング画像と入力画像のテクスチャ再構成一貫性を確立することにより,優れたテクスチャ再構成を実現する。 さらに,アノテートされたデータセット上でネットワークを事前トレーニングすることにより,パイプライン,すなわち自己スーパービジョン,弱いスーパービジョン,完全なスーパービジョンを用いて,様々なレベルの監視を行い,手の位置や形状推定における学習された高忠実度テクスチャの多様な貢献度について考察する。 FreiHAND や HO-3D などの公開ベンチマーク実験の結果,提案手法はテクスチャ再構築品質において,ポーズや形状推定において同等の精度を維持しつつ,最先端の手作り手法よりも優れていた。 私たちのコードはhttps://github.com/viridityzhu/hifihrで利用可能です。

We present HiFiHR, a high-fidelity hand reconstruction approach that utilizes render-and-compare in the learning-based framework from a single image, capable of generating visually plausible and accurate 3D hand meshes while recovering realistic textures. Our method achieves superior texture reconstruction by employing a parametric hand model with predefined texture assets, and by establishing a texture reconstruction consistency between the rendered and input images during training. Moreover, based on pretraining the network on an annotated dataset, we apply varying degrees of supervision using our pipeline, i.e., self-supervision, weak supervision, and full supervision, and discuss the various levels of contributions of the learned high-fidelity textures in enhancing hand pose and shape estimation. Experimental results on public benchmarks including FreiHAND and HO-3D demonstrate that our method outperforms the state-of-the-art hand reconstruction methods in texture reconstruction quality while maintaining comparable accuracy in pose and shape estimation. Our code is available at https://github.com/viridityzhu/HiFiHR.
翻訳日:2023-08-29 20:06:27 公開日:2023-08-25
# 集合スピンモデルの散逸相転移における粒子間相関

Inter-Particle Correlations in the Dissipative Phase Transition of a Collective Spin Model ( http://arxiv.org/abs/2308.13627v1 )

ライセンス: Link先を確認
Qingyang Wang and Susanne F. Yelin(参考訳) 相転移を受けるオープン量子システムでは、ユニタリ過程と散逸過程の間の複雑な相互作用は多くの情報理論的性質を不透明に残す。 我々は、この系における粒子間相関、特に駆動拡散群スピンモデルの定常状態における量子絡み合い、量子不和、古典相関の研究に興味を持っている。 このモデルは、高純度から低純度状態に移行し、散逸を減少させることで有名である。 PPT基準を用いた数値解析に根ざした本研究は, 位相遷移点におけるエンタングルメントのエンタングルメントの微細化を正確に示すものである。 興味深いことに、遷移点付近のメソスコピックスケールでも、モデルの開性にもかかわらず、両相の絡み合いは持続する。 特に、このモデルに適合した従来の対絡手段を用いる場合、低純度位相における絡みを検知することが判明した。 対照的に、量子ディスコードとその変動は、系が低純度相に進むにつれて単調に上昇する別の軌道を示す。 その結果、低い散逸は量子相関を増幅するが、遷移点にのみ近接して絡み合う。

In open quantum systems undergoing phase transitions, the intricate interplay between unitary and dissipative processes leaves many information-theoretic properties opaque. We are here interested in interparticle correlations within such systems, specifically examining quantum entanglement, quantum discord, and classical correlation within the steady state of a driven-dissipative collective spin model. This model is renowned for, counterintuitively, its transition from a high-purity to a low-purity state with decreasing dissipation. Our investigation, rooted in numerical analysis using PPT criteria, underscores that entanglement reaches its zenith precisely at the phase transition juncture. Intriguingly, even within the mesoscopic scale near the transition point, entanglement endures across both phases, despite the open nature of the model. Notably, when employing traditional pairwise entanglement measures tailored to this model, detecting entanglement in the low-purity phase has proven elusive. In stark contrast, quantum discord and its variations chart an alternate trajectory, ascending monotonically as the system progresses into the low-purity phase. Consequently, lowered dissipation amplifies quantum correlation, yet it engenders entanglement solely in proximity to the transition point.
翻訳日:2023-08-29 20:06:06 公開日:2023-08-25
# スカラーモデルにおける量子摩擦:空間依存と高次秩序

Quantum friction for a scalar model: spatial dependence and higher orders ( http://arxiv.org/abs/2308.13625v1 )

ライセンス: Link先を確認
Aitor Fern\'andez and C. D. Fosco(参考訳) 本研究では,物質面に近い一定の速度で移動する原子を記述するスカラーモデルに対して,量子摩擦に対応する遷移振幅を評価するために摂動的アプローチを用いる。 特に, 単位時間当たりの確率密度について, 平面の特定の領域における自由度を励起する結果を示す。 これにより、例えばナノデバイスの設計に実用的な関連性を持つ効果の空間的特徴を知ることができる。

We use a perturbative approach to evaluate transition amplitudes corresponding to quantum friction, for a scalar model describing an atom which moves at a constant velocity, close to a material plane. In particular, we present results on the probability density per unit time of exciting degrees of freedom on specific regions of the plane. This allows one to know spatial features of the effect which could have practical relevance, for instance, for the design of nanodevices.
翻訳日:2023-08-29 20:05:46 公開日:2023-08-25
# 非エルミートハミルトニアンに対する擬PT対称性理論について:時間非依存系

On the {\eta} pseudo PT symmetry theory for non-Hermitian Hamiltonians: time-independent systems ( http://arxiv.org/abs/2308.13619v1 )

ライセンス: Link先を確認
Mustapha Maamache and Nour El Houda Absi(参考訳) 記号 {\eta} で表される擬PT対称性理論は、H の随伴である H^{{\dag}} が H^{{\dag}}=PTHPT として表される PT 対称性の違反にもかかわらず、非エルミートハミルトニアンが真のスペクトルを持つことができる条件を探求する。 この理論は、ヒルベルト空間に作用する新しい対称性作用素 {\eta}=pt{\eta} を導入する。 擬 pt 対称性条件は、ハミルトニアンが {\eta} 作用素に可換であることを必要とし、実固有値に繋がる。 我々は、非エルミート調和振動子の結合に対する結果の一般的な意味について論じる。

The {\eta} pseudo PT symmetry theory, denoted by the symbol {\eta}, explores the conditions under which non-Hermitian Hamiltonians can possess real spectra despite the violation of PT symmetry, that is the adjoint of H, denoted H^{{\dag}} is expressed as H^{{\dag}}=PTHPT. This theory introduces a new symmetry operator, {\eta}=PT{\eta}, which acts on the Hilbert space. The {\eta} pseudo PT symmetry condition requires the Hamiltonian to commute with the {\eta} operator, leading to real eigenvalues. We discuss some general implications of our results for the coupled non hermitian harmonic oscillator.
翻訳日:2023-08-29 20:05:40 公開日:2023-08-25
# RIS-Enabled mmWave無線システムにおけるチャネル推定:変分推論手法

Channel Estimation in RIS-Enabled mmWave Wireless Systems: A Variational Inference Approach ( http://arxiv.org/abs/2308.13616v1 )

ライセンス: Link先を確認
Firas Fredj, Amal Feriani, Amine Mezghani, Ekram Hossain(参考訳) 本稿では,完全パッシブ・リコンフィギュアブル・インテリジェント・サーフェス(RIS)支援mmWaveシングルユーザ・シングルインプット・マルチアウトプット(SIMO)通信システムにおける変分推論(VI)に基づくチャネル状態情報(CSI)推定手法を提案する。 具体的には,まず,ベースステーション(ris-bs)チャネルに対するユーザ装備(ue)を受動的ris設定におけるアップリンクトレーニング信号を用いて推定するviに基づくジョイントチャネル推定法を提案する。 しかし、即時CSI (I-CSI) に基づく位相シフトの更新は、特にUE-RISチャネルの短いコヒーレンスブロックのため、高い信号オーバヘッドをもたらす。 そこで,信号処理の複雑さを低減するために,短時間のUE-RISチャネルよりも長い時間半安定なUE-RISチャネルの共分散行列とともに,RIS-BSチャネルを推定するVI-based法を提案する。 VI フレームワークでは,受信したアップリンク学習信号に対して,チャネルゲイン/共分散行列の後部を便利な分布で近似する。 次に、Kulback-Leibler分散の観点で真の後部分布に近い学習分布を利用して、検討されたCSIの最大後部(MAP)推定値を得る。 シミュレーションの結果,近似後道を用いたマップチャネル推定は,真の後道で達成されたものに近く,提案手法の有効性が示された。 また,チャネル共分散行列の推定により,チャネル変動環境におけるris素子の位相シフトを得るために必要なパイロット信号の低減により,スペクトル効率が向上することを示す。

We propose a variational inference (VI)-based channel state information (CSI) estimation approach in a fully-passive reconfigurable intelligent surface (RIS)-aided mmWave single-user single-input multiple-output (SIMO) communication system. Specifically, we first propose a VI-based joint channel estimation method to estimate the user-equipment (UE) to RIS (UE-RIS) and RIS to base station (RIS-BS) channels using uplink training signals in a passive RIS setup. However, updating the phase-shifts based on the instantaneous CSI (I-CSI) leads to a high signaling overhead especially due to the short coherence block of the UE-RIS channel. Therefore, to reduce the signaling complexity, we propose a VI-based method to estimate the RIS-BS channel along with the covariance matrix of the UE-RIS channel that remains quasi-static for a longer period than the instantaneous UE-RIS channel. In the VI framework, we approximate the posterior of the channel gains/covariance matrix with convenient distributions given the received uplink training signals. Then, the learned distributions, which are close to the true posterior distributions in terms of Kullback-Leibler divergence, are leveraged to obtain the maximum a posteriori (MAP) estimation of the considered CSI. The simulation results demonstrate that MAP channel estimation using approximated posteriors yields a capacity that is close to the one achieved with true posteriors, thus demonstrating the effectiveness of the proposed methods. Furthermore, our results show that estimating the channel covariance matrix improves the spectral efficiency by reducing the pilot signaling required to obtain the phase-shifts for the RIS elements in a channel-varying environment.
翻訳日:2023-08-29 20:05:25 公開日:2023-08-25
# 深層学習ネットワークは画像生成に必要か?

Is Deep Learning Network Necessary for Image Generation? ( http://arxiv.org/abs/2308.13612v1 )

ライセンス: Link先を確認
Chenqiu Zhao, Guanfang Dong, Anup Basu(参考訳) 近年、画像は高次元分布のサンプルと見なされ、深層学習は画像生成とほぼ同義語になっている。 しかし、画像生成には深層学習ネットワークが本当に必要か? 本稿では,画像が高次元分布に従うという仮定を検証することによって,ディープラーニングネットワークを用いずに画像生成の可能性を検討する。 画像はそのような分布からのサンプルであると仮定するため,ガウス混合モデル(GMM)を用いて記述する。 特に,最近の分布学習手法であるmontal-carlo marginalizationを用いて,gmmのパラメータを画像サンプルに基づいて捉える。 さらに,次元減少のためにSingular Value Decomposition (SVD) を用いて計算複雑性を低減する。 評価実験では,まず,画像サンプルの分布を直接モデル化して,画像が真の分布に従うという仮定を検証する。 次に, SVD を用いて次元還元を行う。 主要なコンポーネントは、生の画像データではなく、分散学習に使用される。 ディープラーニングネットワークに依存する手法と比較して,このアプローチはより説明可能であり,その性能は有望である。 実験により,可変オートエンコーダが生成する画像に比べてfid値が低く,深層学習ネットワークを介さずに画像生成が可能となった。

Recently, images are considered samples from a high-dimensional distribution, and deep learning has become almost synonymous with image generation. However, is a deep learning network truly necessary for image generation? In this paper, we investigate the possibility of image generation without using a deep learning network, motivated by validating the assumption that images follow a high-dimensional distribution. Since images are assumed to be samples from such a distribution, we utilize the Gaussian Mixture Model (GMM) to describe it. In particular, we employ a recent distribution learning technique named as Monte-Carlo Marginalization to capture the parameters of the GMM based on image samples. Moreover, we also use the Singular Value Decomposition (SVD) for dimensionality reduction to decrease computational complexity. During our evaluation experiment, we first attempt to model the distribution of image samples directly to verify the assumption that images truly follow a distribution. We then use the SVD for dimensionality reduction. The principal components, rather than raw image data, are used for distribution learning. Compared to methods relying on deep learning networks, our approach is more explainable, and its performance is promising. Experiments show that our images have a lower FID value compared to those generated by variational auto-encoders, demonstrating the feasibility of image generation without deep learning networks.
翻訳日:2023-08-29 20:04:54 公開日:2023-08-25
# シリコン量子ドット量子ビットにおける1/fノイズ源としての相互作用2レベル系

Interacting Two-Level Systems as a Source of 1/f Noise in Silicon Quantum Dot Qubits ( http://arxiv.org/abs/2308.13674v1 )

ライセンス: Link先を確認
D. L. Mickelsen, Herve M. Carruzzo, and Clare C. Yu(参考訳) シリコン量子ドットの電荷ノイズは1/fのスペクトルを持つ。 本稿では、電気双極子モーメントを持つ2つのレベルシステム(TLS)と、他のゆらぎ器と相互作用する2次元バスに量子ドットを結合するモデルを提案する。 これらの相互作用は主に弾性ひずみ場を介して行われる。 これらの弾性相互作用を表現するために2次元の近距離イジングスピングラスを用い、変動子を含む酸化物層上の金属ゲートを表わす接地平面の存在下での電気双極子フラクタの浴のダイナミクスをシミュレートする。 TLS間の相互作用は、個々のゆらぎのエネルギー分割を時間とともに変化させる。 我々は、酸化物層の下にある2つの量子ドットにおける電位の変動を計算した。 量子ドットにおける1/f電位雑音スペクトルと2つの量子ドット間のノイズの相互相関は実験と定性的に一致している。 シミュレーションの結果,量子ドット分離の増大に伴い相互相関は指数関数的に減少することがわかった。

Charge noise in silicon quantum dots has been observed to have a 1/f spectrum. We propose a model in which a pair of quantum dots are coupled to a 2D bath of fluctuating two level systems (TLS) that have electric dipole moments and that interact with each other, i.e., with the other fluctuators. These interactions are primarily via the elastic strain field. We use a 2D nearest-neighbor Ising spin glass to represent these elastic interactions and to simulate the dynamics of the bath of electric dipole fluctuators in the presence of a ground plane representing metal gates above the oxide layer containing the fluctuators. The interactions between the TLS cause the energy splitting of individual fluctuators to change with time. We calculate the resulting fluctuations in the electric potential at the two quantum dots that lie below the oxide layer. We find that 1/f electric potential noise spectra at the quantum dots and cross correlation in the noise between the two quantum dots are in qualitative agreement with experiment. Our simulations find that the cross correlations decrease exponentially with increasing quantum dot separation.
翻訳日:2023-08-29 19:58:27 公開日:2023-08-25
# 空間チャネル注意機構に基づく赤外画像と可視画像の融合

Fusion of Infrared and Visible Images based on Spatial-Channel Attentional Mechanism ( http://arxiv.org/abs/2308.13672v1 )

ライセンス: Link先を確認
Qian Xu(参考訳) 本研究では、複数のカーネルサイズとアテンション機構のパワーを利用する、赤外線および可視画像融合(IVIF)の革新的なアプローチであるAMFusionNetを提案する。 赤外線画像からの熱的詳細と可視光源からのテクスチャ特徴を同化することにより,包括的情報に富んだ画像を生成する。 一般的なディープラーニング手法とは違って,複数の畳み込みカーネルを用いた融合機構を包含し,広範な特徴スペクトルのロバストなキャプチャを実現する。 特に、並列注意機構を組み込んで、画像中の重要なターゲットの詳細を強調・維持する。 さらに、マルチスケール構造類似度(ms-ssim)損失関数の統合はネットワークトレーニングを洗練し、ivifタスクのモデルを最適化する。 実験結果から,本手法は品質と量で最先端のアルゴリズムより優れていることが示された。 公開データセットのパフォーマンス指標も大幅に改善された

In the study, we present AMFusionNet, an innovative approach to infrared and visible image fusion (IVIF), harnessing the power of multiple kernel sizes and attention mechanisms. By assimilating thermal details from infrared images with texture features from visible sources, our method produces images enriched with comprehensive information. Distinct from prevailing deep learning methodologies, our model encompasses a fusion mechanism powered by multiple convolutional kernels, facilitating the robust capture of a wide feature spectrum. Notably, we incorporate parallel attention mechanisms to emphasize and retain pivotal target details in the resultant images. Moreover, the integration of the multi-scale structural similarity (MS-SSIM) loss function refines network training, optimizing the model for IVIF task. Experimental results demonstrate that our method outperforms state-of-the-art algorithms in terms of quality and quantity. The performance metrics on publicly available datasets also show significant improvement
翻訳日:2023-08-29 19:58:07 公開日:2023-08-25
# 視覚トランスフォーマーを用いたクラッタ実世界シナリオにおけるランドマーク検出の強化

Enhancing Landmark Detection in Cluttered Real-World Scenarios with Vision Transformers ( http://arxiv.org/abs/2308.13671v1 )

ライセンス: Link先を確認
Mohammad Javad Rajabi, Morteza Mirzai, Ahmad Nickabadi(参考訳) 視覚的な位置認識タスクは、以前のモデル、特にトランスフォーマーの文脈で達成された著しい進歩にもかかわらず、人間、車、木といった無関係な物体の存在によるランドマーク検出において、しばしば重大な課題に直面する。 そこで本稿では,視覚トランスフォーマの強みを効果的に活用する新しい手法を提案する。 精細な選択プロセスを採用することで,occludingオブジェクトに対応するイメージ内の特定のパッチを識別し,分離する手法を提案する。 提案手法の有効性を評価するため,拡張データセットを作成し,総合的なテストを行った。 その結果,提案手法により得られた精度が向上した。 本研究は,視覚位置認識におけるランドマーク検出の進歩に寄与し,視覚トランスフォーマーを活用した実世界シナリオの課題克服の可能性を示す。

Visual place recognition tasks often encounter significant challenges in landmark detection due to the presence of irrelevant objects such as humans, cars, and trees, despite the remarkable progress achieved by previous models, especially in the context of transformers. To address this issue, we propose a novel method that effectively leverages the strengths of vision transformers. By employing a meticulous selection process, our approach identifies and isolates specific patches within the image that correspond to occluding objects. To evaluate the efficacy of our method, we created augmented datasets and conducted comprehensive testing. The results demonstrate the superior accuracy achieved by our proposed approach. This research contributes to the advancement of landmark detection in visual place recognition and shows the potential of leveraging vision transformers to overcome challenges posed by cluttered real-world scenarios.
翻訳日:2023-08-29 19:57:49 公開日:2023-08-25
# リニア振動:視覚トランスフォーマの混乱の美学

Linear Oscillation: The Aesthetics of Confusion for Vision Transformer ( http://arxiv.org/abs/2308.13670v1 )

ライセンス: Link先を確認
Juyoung Yun(参考訳) 活性化関数はディープラーニングのリンチピンであり、ニューラルネットワークの表現能力とトレーニングダイナミクスの両方に大きな影響を及ぼす。 それらは表現の性質だけでなく、収束率を最適化し、一般化ポテンシャルを高める。 この重要な役割を評価し、$f(x) = x \times \sin(\alpha x + \beta)$と定義される線形振動(LoC)活性化関数を示す。 非線型性を主に導入する従来の活性化関数とは異なり、LoCは線形軌道と振動偏差をシームレスにブレンドする。 名詞 ``Linear Oscillation' は、調和振動を伴う線形活性化を注入し、「融合の重要さ」の本質を捉えているというユニークな性質のノルドである。 ネットワークアクティベーションにおける「制御された混乱」というこの概念は、特に微妙なパターンを識別する必要のあるコンテキストにおいて、より堅牢な学習を促進するために提案されている。 実験の結果,様々なニューラルアーキテクチャに統合された場合,locアクティベーション関数は,reluやsgmoidといった確立されたものよりも一貫して優れていることが明らかとなった。 LoCを用いたアバンギャルドビジョントランスモデルで示された恒星の性能は、その有効性をさらに検証する。 本研究は、他の顕著な活性化機能に対するLoCの顕著な利点を照らす。 間欠的に意図的な複雑さや「融合」を訓練中に導入することで、より深遠でニュアンスのある学習を促すという概念を擁護している。 これは、ニューラルネットワークトレーニングの未来を形作る上で、公平に選択されたアクティベーション関数の重要な役割を強調する。

Activation functions are the linchpins of deep learning, profoundly influencing both the representational capacity and training dynamics of neural networks. They shape not only the nature of representations but also optimize convergence rates and enhance generalization potential. Appreciating this critical role, we present the Linear Oscillation (LoC) activation function, defined as $f(x) = x \times \sin(\alpha x + \beta)$. Distinct from conventional activation functions which primarily introduce non-linearity, LoC seamlessly blends linear trajectories with oscillatory deviations. The nomenclature ``Linear Oscillation'' is a nod to its unique attribute of infusing linear activations with harmonious oscillations, capturing the essence of the 'Importance of Confusion'. This concept of ``controlled confusion'' within network activations is posited to foster more robust learning, particularly in contexts that necessitate discerning subtle patterns. Our empirical studies reveal that, when integrated into diverse neural architectures, the LoC activation function consistently outperforms established counterparts like ReLU and Sigmoid. The stellar performance exhibited by the avant-garde Vision Transformer model using LoC further validates its efficacy. This study illuminates the remarkable benefits of the LoC over other prominent activation functions. It champions the notion that intermittently introducing deliberate complexity or ``confusion'' during training can spur more profound and nuanced learning. This accentuates the pivotal role of judiciously selected activation functions in shaping the future of neural network training.
翻訳日:2023-08-29 19:57:33 公開日:2023-08-25
# ランダムウォークのスパース近似を用いたネットワーク埋め込み

Network Embedding Using Sparse Approximations of Random Walks ( http://arxiv.org/abs/2308.13663v1 )

ライセンス: Link先を確認
Paula Mercurio and Di Liu(参考訳) 本稿では,拡散ウェーブレットアルゴリズムの修正版によって得られたネットワーク上の拡散過程のスパース近似を用いて,通勤時間に基づくネットワーク埋め込みの効率的な数値的実装を提案する。 ノード埋め込みは、グリーン関数の低次元表現をサンプリングして確率勾配降下法によるクロスエントロピー損失を最適化することにより計算される。 本稿では,データクラスタリングとマルチラベル分類における本手法の有効性をいくつかの例で示し,その性能を効率と精度の観点から比較する。 スキームを正当化するための理論的問題についても論じる。

In this paper, we propose an efficient numerical implementation of Network Embedding based on commute times, using sparse approximation of a diffusion process on the network obtained by a modified version of the diffusion wavelet algorithm. The node embeddings are computed by optimizing the cross entropy loss via the stochastic gradient descent method with sampling of low-dimensional representations of green functions. We demonstrate the efficacy of this method for data clustering and multi-label classification through several examples, and compare its performance over existing methods in terms of efficiency and accuracy. Theoretical issues justifying the scheme are also discussed.
翻訳日:2023-08-29 19:57:04 公開日:2023-08-25
# 異種環境および資源制約環境における資源効率のよいフェデレート学習

Resource-Efficient Federated Learning for Heterogenous and Resource-Constrained Environments ( http://arxiv.org/abs/2308.13662v1 )

ライセンス: Link先を確認
Humaid Ahmed Desai, Amr Hilal, Hoda Eldardiry(参考訳) フェデレーション・ラーニング(federated learning、fl)は、マシンラーニングのプライバシ強化サブドメインで、モデルをトレーニング用のデバイスに持ち込み、パーソナルデータを中央サーバと共有する必要がない。 既存の作業はデータの多様性に対処するが、デバイスの不均一性や通信効率など、flの他の課題を見落としている。 本稿では,資源制約デバイスにおける計算と通信の課題に対処する新しい手法であるRE-FLを提案する。 可変プルーニング手法は,各クライアントの計算能力にプルーニングを適用することにより資源利用を最適化する。 また,帯域消費と通信ラウンドを削減するために,知識蒸留を用いる。 画像分類タスクにおける実験結果は,異種モデルアーキテクチャを適応しながらデータのプライバシとパフォーマンスを維持しながら,リソース制約環境における手法の有効性を示す。

Federated Learning (FL) is a privacy-enforcing sub-domain of machine learning that brings the model to the user's device for training, avoiding the need to share personal data with a central server. While existing works address data heterogeneity, they overlook other challenges in FL, such as device heterogeneity and communication efficiency. In this paper, we propose RE-FL, a novel approach that tackles computational and communication challenges in resource-constrained devices. Our variable pruning technique optimizes resource utilization by adapting pruning to each client's computational capabilities. We also employ knowledge distillation to reduce bandwidth consumption and communication rounds. Experimental results on image classification tasks demonstrate the effectiveness of our approach in resource-constrained environments, maintaining data privacy and performance while accommodating heterogeneous model architectures.
翻訳日:2023-08-29 19:56:55 公開日:2023-08-25
# 想像を超越する:世界モデルによるエピソディック到達可能性の最大化

Go Beyond Imagination: Maximizing Episodic Reachability with World Models ( http://arxiv.org/abs/2308.13661v1 )

ライセンス: Link先を確認
Yao Fu, Run Peng, Honglak Lee(参考訳) 効率的な探索は強化学習において、特にスパース報酬タスクにおいて難しい課題である。 報酬の幅に対処するため、人々は通常、国家空間を効率的に探索するためにエージェントを動機付けるために本質的な報酬を適用します。 本稿では,従来の生涯のノベルティモチベーションと,段階的な到達可能性拡大を最大化するためのエピソディクス的なインセンティブ報酬を組み合わせた,gobi-go beyond imaginationという新たなインシデント報酬デザインを提案する。 より具体的には、学習世界モデルを適用し、ランダムなアクションで予測された将来の状態を生成する。 エピソディックメモリにない、よりユニークな予測を持つ状態は、高い内在的な報酬が割り当てられる。 提案手法は,最も困難なミニグリッドナビゲーションタスク12項目において,従来の最先端手法を大きく上回り,deepmindコントロールスイートによるロコモーションタスクのサンプル効率を向上させる。

Efficient exploration is a challenging topic in reinforcement learning, especially for sparse reward tasks. To deal with the reward sparsity, people commonly apply intrinsic rewards to motivate agents to explore the state space efficiently. In this paper, we introduce a new intrinsic reward design called GoBI - Go Beyond Imagination, which combines the traditional lifelong novelty motivation with an episodic intrinsic reward that is designed to maximize the stepwise reachability expansion. More specifically, we apply learned world models to generate predicted future states with random actions. States with more unique predictions that are not in episodic memory are assigned high intrinsic rewards. Our method greatly outperforms previous state-of-the-art methods on 12 of the most challenging Minigrid navigation tasks and improves the sample efficiency on locomotion tasks from DeepMind Control Suite.
翻訳日:2023-08-29 19:56:41 公開日:2023-08-25
# 学習確率レーングラフを用いたコーナーケースの生成と説明

Generating and Explaining Corner Cases Using Learnt Probabilistic Lane Graphs ( http://arxiv.org/abs/2308.13658v1 )

ライセンス: Link先を確認
Enrik Maci, Rhys Howard, Lars Kunze(参考訳) オープンエンドでダイナミックな環境で動作する自動運転車(avs)の安全性を検証することは、車両が最終的に典型的なトレーニングデータを持たない安全クリティカルな状況に直面するため困難である。 道路や交通状況のカバレッジを高め、シミュレーションに基づくシナリオテストのコーナーケースを含めることで、avの安全性を向上させることができる。 しかし、複数のエージェントを含むコーナーケースシナリオの作成は自明ではない。 弊社のアプローチでは、技術者が歴史的交通データに基づいて、新しい現実的なコーナーケースを作成できる。 本稿では,車両が走行する車線の位置と方向の有限セットを記述するために,確率レーングラフ(PLG)を導入する。 PLGの構造は時空間トラフィックデータから直接学習される。 グラフモデルは、確率的ポリシーの形で与えられた状態に応じてドライバのアクションを表現する。 強化学習手法を用いてこのポリシーを修正し,avの安全性評価に使用できる現実的なコーナーケースシナリオを生成する。

Validating the safety of Autonomous Vehicles (AVs) operating in open-ended, dynamic environments is challenging as vehicles will eventually encounter safety-critical situations for which there is not representative training data. By increasing the coverage of different road and traffic conditions and by including corner cases in simulation-based scenario testing, the safety of AVs can be improved. However, the creation of corner case scenarios including multiple agents is non-trivial. Our approach allows engineers to generate novel, realistic corner cases based on historic traffic data and to explain why situations were safety-critical. In this paper, we introduce Probabilistic Lane Graphs (PLGs) to describe a finite set of lane positions and directions in which vehicles might travel. The structure of PLGs is learnt directly from spatio-temporal traffic data. The graph model represents the actions of the drivers in response to a given state in the form of a probabilistic policy. We use reinforcement learning techniques to modify this policy and to generate realistic and explainable corner case scenarios which can be used for assessing the safety of AVs.
翻訳日:2023-08-29 19:56:23 公開日:2023-08-25
# 良い制御:近似モデルよりも近似解が優れているとき

Pretty darn good control: when are approximate solutions better than approximate models ( http://arxiv.org/abs/2308.13654v1 )

ライセンス: Link先を確認
Felipe Montealegre-Mora, Marcus Lapeyrolerie, Melissa Chapman, Abigail G. Keller, Carl Boettiger(参考訳) 既存の最適制御手法は、次元性、プロセスエラー、モデルバイアス、データ不均一性など、現実世界のシステムでよく見られる複雑さに対処する。 これらのシステムの複雑さを直接扱う代わりに、研究者は通常、最適な制御方法に適合するモデルを単純化しようと試みてきた。 しかし、近似モデルに対する最適解が、より正確なモデルに対する近似解より優れているのはいつだろうか? この問題は、複雑なモデルの近似解を見つけることの難しさから、ほとんど答えられていないが、近年の深層強化学習(DRL)におけるアルゴリズムと計算の進歩により、最終的にこれらの問題に対処できるかもしれない。 DRL法は、ゲームやロボット力学の文脈において、厳密なルールの下で運用されるのが一般的である。 そこで,本研究では,深層ニューラルネットワークを用いたdrlアルゴリズムが,漁業者に対する非線形3変数モデルにおいて,プロセス自体のモデルや推論を行なわずに,解の近似(「政治関数」や制御規則)に成功したことを実証する。 強化学習エージェントは、問題の効果的な単純化を発見し、解釈可能な制御ルールを得る。 我々は,DRLで得られる政策は,漁業管理において考慮される標準的な政策のファミリーである絶え間ない死亡率政策よりも利益が高く,持続性が高いことを示す。

Existing methods for optimal control struggle to deal with the complexity commonly encountered in real-world systems, including dimensionality, process error, model bias and data heterogeneity. Instead of tackling these system complexities directly, researchers have typically sought to simplify models to fit optimal control methods. But when is the optimal solution to an approximate, stylized model better than an approximate solution to a more accurate model? While this question has largely gone unanswered owing to the difficulty of finding even approximate solutions for complex models, recent algorithmic and computational advances in deep reinforcement learning (DRL) might finally allow us to address these questions. DRL methods have to date been applied primarily in the context of games or robotic mechanics, which operate under precisely known rules. Here, we demonstrate the ability for DRL algorithms using deep neural networks to successfully approximate solutions (the "policy function" or control rule) in a non-linear three-variable model for a fishery without knowing or ever attempting to infer a model for the process itself. We find that the reinforcement learning agent discovers an effective simplification of the problem to obtain an interpretable control rule. We show that the policy obtained with DRL is both more profitable and more sustainable than any constant mortality policy -- the standard family of policies considered in fishery management.
翻訳日:2023-08-29 19:56:06 公開日:2023-08-25
# AdvisingNets:Nearest-Neighbor説明による正誤分類と誤分類の識別学習

AdvisingNets: Learning to Distinguish Correct and Wrong Classifications via Nearest-Neighbor Explanations ( http://arxiv.org/abs/2308.13651v1 )

ライセンス: Link先を確認
Giang Nguyen, Valerie Chen, Anh Nguyen(参考訳) 画像分類器の予測方法に関する洞察を提供するだけでなく、最も近い例は人間がより正確に決定するのに役立つ。 しかし、この種の説明を活用して人間-AIチームの精度と分類器の精度を改善することは、未解決の問題である。 本稿では,(1)新しいネットワーク (advisingnet) を用いた入力画像とポストホックな最寄り説明を比較し,(2)新しい再ランキングアルゴリズムを用いて,両者の精度を向上させることを目的とする。 CUB-200 と Cars-196 データセットの分類精度は,異なるベースラインモデルにおいて常に向上する。 興味深いことに、私たちはCUB-200の最先端の人間-AIチームの精度にも到達しています。

Besides providing insights into how an image classifier makes its predictions, nearest-neighbor examples also help humans make more accurate decisions. Yet, leveraging this type of explanation to improve both human-AI team accuracy and classifier's accuracy remains an open question. In this paper, we aim to increase both types of accuracy by (1) comparing the input image with post-hoc, nearest-neighbor explanations using a novel network (AdvisingNet), and (2) employing a new reranking algorithm. Over different baseline models, our method consistently improves the image classification accuracy on CUB-200 and Cars-196 datasets. Interestingly, we also reach the state-of-the-art human-AI team accuracy on CUB-200 where both humans and an AdvisingNet make decisions on complementary subsets of images.
翻訳日:2023-08-29 19:55:44 公開日:2023-08-25
# PAITS:不規則にサンプリングされた時系列の事前学習と拡張

PAITS: Pretraining and Augmentation for Irregularly-Sampled Time Series ( http://arxiv.org/abs/2308.13703v1 )

ライセンス: Link先を確認
Nicasia Beebe-Wang, Sayna Ebrahimi, Jinsung Yoon, Sercan O. Arik, Tomas Pfister(参考訳) シーケンシャルな人間の振舞いをよく反映する実世界の時系列データは、時間と実体によって非常に一様でないサンプリングによって、しばしば一意に不規則にサンプリングされスパースされる。 しかし、時系列のための一般的な事前訓練と拡張方法は、そのようなシナリオのために特別に設計されていない。 本稿では、スパースおよび不規則サンプル時系列データセットに適した事前学習戦略を特定するためのフレームワークであるPAITS(Pretraining and Augmentation for Irregularly-Sampled Time Series)を提案する。 PAITSは、NLPにインスパイアされた事前訓練タスクと強化の新たな組み合わせと、与えられたデータセットの効果的な戦略を特定するためのランダム検索を活用する。 異なるデータセットが、異なる事前トレーニング選択の恩恵を受けることを示す。 従来の手法と比較して、我々のアプローチは複数のデータセットやドメイン間の事前トレーニングを継続的に改善できる。 我々のコードは \url{https://github.com/google-research/google-research/tree/master/irregular_timeseries_pretraining} で利用可能です。

Real-world time series data that commonly reflect sequential human behavior are often uniquely irregularly sampled and sparse, with highly nonuniform sampling over time and entities. Yet, commonly-used pretraining and augmentation methods for time series are not specifically designed for such scenarios. In this paper, we present PAITS (Pretraining and Augmentation for Irregularly-sampled Time Series), a framework for identifying suitable pretraining strategies for sparse and irregularly sampled time series datasets. PAITS leverages a novel combination of NLP-inspired pretraining tasks and augmentations, and a random search to identify an effective strategy for a given dataset. We demonstrate that different datasets benefit from different pretraining choices. Compared with prior methods, our approach is better able to consistently improve pretraining across multiple datasets and domains. Our code is available at \url{https://github.com/google-research/google-research/tree/master/irregular_timeseries_pretraining}.
翻訳日:2023-08-29 19:48:06 公開日:2023-08-25
# 動的ピコローブ解析電子光学ビーム線/顕微鏡とスーパーコンピュータのリンク

Linking the Dynamic PicoProbe Analytical Electron-Optical Beam Line / Microscope to Supercomputers ( http://arxiv.org/abs/2308.13701v1 )

ライセンス: Link先を確認
Alexander Brace, Rafael Vescovi, Ryan Chard, Nickolaus D. Saint, Arvind Ramanathan, Nestor J. Zaluzec, Ian Foster(参考訳) アルゴンヌ国立研究所のdynamic picoprobe(動的ピコローブ)は、1日に最大100gbのデータを生成するためのアップグレードを行っている。 このデータは、基礎科学と産業アプリケーションの両方にとって非常に重要であるが、現在、これらの大量のデータストリームを処理するためのオンサイトインフラストラクチャは限られている。 本稿では,Argonne Leadership Computing Facilityの周辺スーパーコンピュータへの大規模データ転送を支援するソフトウェアアーキテクチャを提供することで,この問題に対処する。 将来の科学ワークフローに備えるために、ハイパースペクトラルデータセットと時空間データセットの2つの指導的なユースケースを実装します。 (i)オフサイトデータ転送 (ii)機械学習/人工知能と従来のデータ分析アプローチ (iii)実験結果の自動メタデータ抽出とカタログ化。 このインフラストラクチャは期待されるワークロードをサポートし、ドメインサイエンティストが過去の実験からデータを再尋問し、追加の科学的価値と新たな洞察を得ることができる。

The Dynamic PicoProbe at Argonne National Laboratory is undergoing upgrades that will enable it to produce up to 100s of GB of data per day. While this data is highly important for both fundamental science and industrial applications, there is currently limited on-site infrastructure to handle these high-volume data streams. We address this problem by providing a software architecture capable of supporting large-scale data transfers to the neighboring supercomputers at the Argonne Leadership Computing Facility. To prepare for future scientific workflows, we implement two instructive use cases for hyperspectral and spatiotemporal datasets, which include: (i) off-site data transfer, (ii) machine learning/artificial intelligence and traditional data analysis approaches, and (iii) automatic metadata extraction and cataloging of experimental results. This infrastructure supports expected workloads and also provides domain scientists the ability to reinterrogate data from past experiments to yield additional scientific value and derive new insights.
翻訳日:2023-08-29 19:47:48 公開日:2023-08-25
# サブグラフ補間を用いた量子ネットワークにおける多部絡み合い

Multipartite Entanglement in Quantum Networks using Subgraph Complementations ( http://arxiv.org/abs/2308.13700v1 )

ライセンス: Link先を確認
Aniruddha Sen, Kenneth Goodenough, Don Towsley(参考訳) 量子ネットワークは量子通信において重要であり、量子テレポーテーション、量子鍵分布、量子センシング、量子誤り訂正など多くのタスクに不可欠な絡み合った状態で構成されている。 グラフ状態 (Graph state) は、グラフで表現できる多部交絡状態の特定のクラスである。 量子ネットワーク上でグラフ状態を分散する新しい手法を提案する。 グラフ状態の分布は、基底グラフの最小ランクと量子状態のシュミットランクによって量子化された絡み合いの度合いにも関係している部分グラフ補間システムによって特徴づけられることを示す。 我々は,提案アルゴリズムのリソース使用量を分析し,従来の作業と比較して,キュービット数,古典的通信用ビット数,EPRペア数にマッチするか,改善されるかを示す。 局所的な操作の回数は効率的であり、我々のアプローチのリソース消費は頂点の数に線形にスケールする。 これは、密グラフで表されるいくつかのグラフ状態の完了時間の二次的改善を示し、ノイズの存在下で忠実性が向上する可能性を示唆する。 グラフ状態の共通クラスは、サブグラフ補完を用いた分布の最適時間とともに分類される。 また、任意のグラフ状態を分配する操作の最適シーケンスを同様に見つけ、近似したグリードアルゴリズムとともに上限を証明するためのフレームワークも提供する。

Quantum networks are important for quantum communication and consist of entangled states that are essential for many tasks such as quantum teleportation, quantum key distribution, quantum sensing and quantum error correction. Graph states are a specific class of multipartite entangled states that can be represented by graphs. We propose a novel approach for distributing graph states across a quantum network. We show that the distribution of graph states can be characterised by a system of subgraph complementations, which we also relate to the minimum rank of the underlying graph and the degree of entanglement quantified by the Schmidt-rank of the quantum state. We analyse resource usage for our algorithm and show it to match or be improved in the number of qubits, bits for classical communication and EPR pairs utilised, as compared to prior work. The number of local operations is efficient, and the resource consumption for our approach scales linearly in the number of vertices. This presents a quadratic improvement in completion time for several classes of graph states represented by dense graphs, and implies a potential for improved fidelity in the presence of noise. Common classes of graph states are classified along with the optimal time for their distribution using subgraph complementations. We also provide a framework to similarly find the optimal sequence of operations to distribute an arbitrary graph state, and prove upper bounds along with providing approximate greedy algorithms.
翻訳日:2023-08-29 19:47:32 公開日:2023-08-25
# twitterのパーティー予測

Party Prediction for Twitter ( http://arxiv.org/abs/2308.13699v1 )

ライセンス: Link先を確認
Kellin Pelrine, Anne Imouza, Zachary Yang, Jacob-Junqi Tian, Sacha L\'evy, Gabrielle Desrosiers-Brisebois, Aarash Feizi, C\'ecile Amadoro, Andr\'e Blais, Jean-Fran\c{c}ois Godbout, Reihaneh Rabbany(参考訳) ソーシャルメディアに関する多くの研究は、異なる政党のユーザーの行動を比較している。 基本的なステップとして、彼らは政治的提携を推測する予測モデルを採用している。 このモデルの精度は下流解析の結論を大きく変えることができるが、異なるモデルの選択は任意に行われるように思われる。 本稿では,現状の予測手法に対する包括的調査と実証的な比較を行い,最先端の手法と競合し,かつ計算資源の削減を図った新しいアプローチを提案する。 パーティー予測モデルは、ユーザーによって生成されたコンテンツ(例えば、ツイートテキスト)、彼らが持っている関係(例えば、フォローしている相手)、あるいはその活動と相互作用(例えば、好きなツイート)に依存している。 これらをすべて検討し,その信号強度をパーティ予測タスクと比較する。 本稿では,実践者が多種多様なデータタイプから選択することで,高いパフォーマンスを実現する。 最後に、データ収集速度や転送能力など、これらの手法の様々な側面について広範な実験を行い、応用研究と方法論研究の両方にさらなる洞察を与えることができる。

A large number of studies on social media compare the behaviour of users from different political parties. As a basic step, they employ a predictive model for inferring their political affiliation. The accuracy of this model can change the conclusions of a downstream analysis significantly, yet the choice between different models seems to be made arbitrarily. In this paper, we provide a comprehensive survey and an empirical comparison of the current party prediction practices and propose several new approaches which are competitive with or outperform state-of-the-art methods, yet require less computational resources. Party prediction models rely on the content generated by the users (e.g., tweet texts), the relations they have (e.g., who they follow), or their activities and interactions (e.g., which tweets they like). We examine all of these and compare their signal strength for the party prediction task. This paper lets the practitioner select from a wide range of data types that all give strong performance. Finally, we conduct extensive experiments on different aspects of these methods, such as data collection speed and transfer capabilities, which can provide further insights for both applied and methodological research.
翻訳日:2023-08-29 19:47:09 公開日:2023-08-25
# テキスト生成におけるビーム探索と徹底探索の深さについて

On the Depth between Beam Search and Exhaustive Search for Text Generation ( http://arxiv.org/abs/2308.13696v1 )

ライセンス: Link先を確認
Yuu Jinnai, Tetsuro Morimura, Ukyo Honda(参考訳) ビーム検索と網羅検索は、検索深度に関してテキスト復号アルゴリズムの極端な2つの端である。 ビーム探索は探索幅と深さの両方で制限されるが、徹底的な探索はそのような制限のないグローバルな探索である。 驚くべきことに、ビーム検索は計算量的に安価であるだけでなく、高い検索誤差にもかかわらず、徹底的な検索よりも優れた性能を発揮する。 多くの研究が、ビーム幅の幅を小から小まで調査しており、ビーム幅が大さすぎることも小さすぎることも望ましいと報告している。 しかし, 探索深度の面では, ビーム探索と排他探索の2つの極端部分のみを集中的に研究する。 本稿では,この2つの極端間の探索深度の範囲を調べ,望ましい探索深さを求める。 この目的を達成するために,複数ステップのルックアヘッド探索であるlookahead beam search (lbs) を導入する。 beam search と exhaustive search はそれぞれ$0$ と$\infty$ に設定されたlbsの特別なケースである。 我々は,LBSの性能を実証的に評価し,機械翻訳作業におけるビームサーチの全体的な性能を向上することを発見した。 その結果、より深く探すことでビーム探索を改善する余地があることが示唆された。 この解析にインスパイアされたLookbehind Heuristic Beam Searchは、1ステップのルックアヘッドでLBSをヒューリスティックにシミュレートする計算可能な探索アルゴリズムである。 実験の結果,提案手法は機械翻訳やテキスト要約作業においてバニラビーム探索よりも優れていた。

Beam search and exhaustive search are two extreme ends of text decoding algorithms with respect to the search depth. Beam search is limited in both search width and depth, whereas exhaustive search is a global search that has no such limitations. Surprisingly, beam search is not only computationally cheaper but also performs better than exhaustive search despite its higher search error. Plenty of research has investigated a range of beam widths, from small to large, and reported that a beam width that is neither too large nor too small is desirable. However, in terms of search depth, only the two extreme ends, beam search and exhaustive search are studied intensively. In this paper, we examine a range of search depths between the two extremes to discover the desirable search depth. To this end, we introduce Lookahead Beam Search (LBS), a multi-step lookahead search that optimizes the objective considering a fixed number of future steps. Beam search and exhaustive search are special cases of LBS where the lookahead depth is set to $0$ and $\infty$, respectively. We empirically evaluate the performance of LBS and find that it outperforms beam search overall on machine translation tasks. The result suggests there is room for improvement in beam search by searching deeper. Inspired by the analysis, we propose Lookbehind Heuristic Beam Search, a computationally feasible search algorithm that heuristically simulates LBS with 1-step lookahead. The empirical results show that the proposed method outperforms vanilla beam search on machine translation and text summarization tasks.
翻訳日:2023-08-29 19:46:53 公開日:2023-08-25
# チャットボットが生み出した150万の資料物語

1.5 million materials narratives generated by chatbots ( http://arxiv.org/abs/2308.13687v1 )

ライセンス: Link先を確認
Yang Jeong Park, Sung Eun Jerng, Jin-Sung Park, Choah Kwon, Chia-Wei Hsu, Zhichu Ren, Sungroh Yoon, and Ju Li(参考訳) 人工知能(AI)の出現は、様々な応用のための総合的な材料探索を可能にした。 しかし、AIモデルは科学文献で頻繁に遭遇する物質を優先し、固有の物理的および化学的性質に基づいて適切な候補の選択を制限する。 この不均衡に対処するため、我々はOQMD, Materials Project, JARVIS, COD, AFLOW2データベースを組み合わせた1,494,017の自然言語教材のデータセットを生成した。 生成されたテキストの物語は、人間の専門家とChatGPT-4によって、技術的正確性、言語と構造、コンテンツの関連性と深さという3つのルーブリックに基づいてポーリングされ、評価された。 マルチモダリティデータソースと大規模言語モデル(llm)の統合は、特定のアプリケーションのための固体材料の探索と発見を支援するaiフレームワークにとって大きな可能性を秘めている。

The advent of artificial intelligence (AI) has enabled a comprehensive exploration of materials for various applications. However, AI models often prioritize frequently encountered materials in the scientific literature, limiting the selection of suitable candidates based on inherent physical and chemical properties. To address this imbalance, we have generated a dataset of 1,494,017 natural language-material paragraphs based on combined OQMD, Materials Project, JARVIS, COD and AFLOW2 databases, which are dominated by ab initio calculations and tend to be much more evenly distributed on the periodic table. The generated text narratives were then polled and scored by both human experts and ChatGPT-4, based on three rubrics: technical accuracy, language and structure, and relevance and depth of content, showing similar scores but with human-scored depth of content being the most lagging. The merger of multi-modality data sources and large language model (LLM) holds immense potential for AI frameworks to help the exploration and discovery of solid-state materials for specific applications.
翻訳日:2023-08-29 19:46:24 公開日:2023-08-25
# ACC-UNet: 2020年代の完全な畳み込みUNetモデル

ACC-UNet: A Completely Convolutional UNet model for the 2020s ( http://arxiv.org/abs/2308.13680v1 )

ライセンス: Link先を確認
Nabil Ibtehaz, Daisuke Kihara(参考訳) この10年は、幅広いコンピュータビジョンにおける急進的なパラダイムシフトであるVision Transformerの導入が特徴である。 医療画像では同様の傾向が続き、最も影響力のあるアーキテクチャの一つであるUNetがトランスフォーマーで再設計された。 近年、視覚における畳み込みモデルの有効性は、ResNetをSwin Transformerレベルに高めるConvNextのようなセミナルな作品によって再検討されている。 このことからインスピレーションを得て、純粋な畳み込みUNetモデルを改善し、Swin-UnetやUCTransNetといったトランスフォーマーベースモデルと同等にすることを目指している。 我々は、主に長距離依存性とクロスレベルスキップ接続であるtransformerベースのunetモデルのいくつかの利点について検討した。 我々は、畳み込み操作を通じてそれらをエミュレートしようと試み、コンバータの設計決定と共振器の固有の帰納バイアスである両世界の長所をもたらす完全な畳み込みUNetモデルであるACC-UNetを提案する。 acc-unetは, 5種類の医用画像セグメンテーションベンチマークと, コンベネット, トランスフォーマー, ハイブリッドを一貫して上回って評価した。 特にACC-UNetは、最新モデルのSwin-UnetとUCTransNetをそれぞれ2.64 \pm 2.54\%$と0.45 \pm 1.61\%$で上回り、パラメータのごく一部(59.26\%$と24.24\%$)を使用する。 私たちのコードはhttps://github.com/kiharalab/acc-unetで利用可能です。

This decade is marked by the introduction of Vision Transformer, a radical paradigm shift in broad computer vision. A similar trend is followed in medical imaging, UNet, one of the most influential architectures, has been redesigned with transformers. Recently, the efficacy of convolutional models in vision is being reinvestigated by seminal works such as ConvNext, which elevates a ResNet to Swin Transformer level. Deriving inspiration from this, we aim to improve a purely convolutional UNet model so that it can be on par with the transformer-based models, e.g, Swin-Unet or UCTransNet. We examined several advantages of the transformer-based UNet models, primarily long-range dependencies and cross-level skip connections. We attempted to emulate them through convolution operations and thus propose, ACC-UNet, a completely convolutional UNet model that brings the best of both worlds, the inherent inductive biases of convnets with the design decisions of transformers. ACC-UNet was evaluated on 5 different medical image segmentation benchmarks and consistently outperformed convnets, transformers, and their hybrids. Notably, ACC-UNet outperforms state-of-the-art models Swin-Unet and UCTransNet by $2.64 \pm 2.54\%$ and $0.45 \pm 1.61\%$ in terms of dice score, respectively, while using a fraction of their parameters ($59.26\%$ and $24.24\%$). Our codes are available at https://github.com/kiharalab/ACC-UNet.
翻訳日:2023-08-29 19:46:03 公開日:2023-08-25
# HYPSO-1衛星による海と雲の接地構造を持つオープンハイパースペクトルデータセット

An Open Hyperspectral Dataset with Sea-Land-Cloud Ground-Truth from the HYPSO-1 Satellite ( http://arxiv.org/abs/2308.13679v1 )

ライセンス: Link先を確認
Jon A. Justo, Joseph Garrett, Dennis D. Langer, Marie B. Henriksen, Radu T. Ionescu, and Tor A. Johansen(参考訳) HYPSO-1のような人工衛星で使用されるハイパースペクトルイメージングは、ラベル付きデータセットがほとんどないため制約に直面し、これらの地平線アノテーションを要求するAIモデルのトレーニングに影響を及ぼす。 本研究では,hypso-1ミッションから得られた200種類の超スペクトル画像を含むオープンデータセットであるhypso-1 sea-land-cloud-labeled datasetについて紹介する。 さらに、異なる国の38枚の画像には、海/陸/クラウドのカテゴリでラベルされた約2500万のスペクトルシグネチャがある。 データセットとそのラベル付きサブセットの可能性を示すために、ディープラーニングモデル(1d完全畳み込みネットワーク)を最適化し、現在の技術に対して優れたパフォーマンスを実現しました。 完全なデータセット、グラウンドトルースラベル、ディープラーニングモデル、ソフトウェアコードは、Webサイト https://ntnu-smallsat-lab.github.io/hypso1_sea_land_clouds_dataset/ でダウンロード可能である。

Hyperspectral Imaging, employed in satellites for space remote sensing, like HYPSO-1, faces constraints due to few labeled data sets, affecting the training of AI models demanding these ground-truth annotations. In this work, we introduce The HYPSO-1 Sea-Land-Cloud-Labeled Dataset, an open dataset with 200 diverse hyperspectral images from the HYPSO-1 mission, available in both raw and calibrated forms for scientific research in Earth observation. Moreover, 38 of these images from different countries include ground-truth labels at pixel-level totaling about 25 million spectral signatures labeled for sea/land/cloud categories. To demonstrate the potential of the dataset and its labeled subset, we have additionally optimized a deep learning model (1D Fully Convolutional Network), achieving superior performance to the current state of the art. The complete dataset, ground-truth labels, deep learning model, and software code are openly accessible for download at the website https://ntnu-smallsat-lab.github.io/hypso1_sea_land_clouds_dataset/ .
翻訳日:2023-08-29 19:45:31 公開日:2023-08-25
# 可視マーカーを用いた無布地変形性表面再構成

Textureless Deformable Surface Reconstruction with Invisible Markers ( http://arxiv.org/abs/2308.13678v1 )

ライセンス: Link先を確認
Xinyuan Li, Yu Ji, Yanchen Liu, Xiaochen Hu, Jinwei Ye and Changxi Zheng(参考訳) テクスチャがほとんど、あるいは全くない変形可能な表面の再構築と追跡は、長年の課題となった。 基本的に、課題はクロスイメージ対応を確立するための特徴を欠いたテクスチャレスな表面にある。 本研究では, 物体の表面性状を積極的に高め, 3次元表面再構成と対応追跡を容易にする新しい種類のマーカーを提案する。 我々のマーカーは蛍光染料でできており、紫外線の下でのみ可視であり、通常の照明条件下では見えない。 マーカーを活用することで,紫外光と可視光の下での表面変形を時間多重的に捉えるマルチカメラシステムを設計する。 紫外線の下では、物体のマーカーが表面のテクスチャを増し、高品質な3D形状の再構築と追跡を可能にする。 可視光の下では、マーカーは見えなくなり、物体の元々の触れられていない外観を捉えることができます。 我々は,手振り,表情,手振り布,物体間相互作用など,さまざまな困難な場面で実験を行った。 これらすべてのケースにおいて、我々のシステムは堅牢で高品質な3D再構成と追跡を実現できることを示す。

Reconstructing and tracking deformable surface with little or no texture has posed long-standing challenges. Fundamentally, the challenges stem from textureless surfaces lacking features for establishing cross-image correspondences. In this work, we present a novel type of markers to proactively enrich the object's surface features, and thereby ease the 3D surface reconstruction and correspondence tracking. Our markers are made of fluorescent dyes, visible only under the ultraviolet (UV) light and invisible under regular lighting condition. Leveraging the markers, we design a multi-camera system that captures surface deformation under the UV light and the visible light in a time multiplexing fashion. Under the UV light, markers on the object emerge to enrich its surface texture, allowing high-quality 3D shape reconstruction and tracking. Under the visible light, markers become invisible, allowing us to capture the object's original untouched appearance. We perform experiments on various challenging scenes, including hand gestures, facial expressions, waving cloth, and hand-object interaction. In all these cases, we demonstrate that our system is able to produce robust, high-quality 3D reconstruction and tracking.
翻訳日:2023-08-29 19:45:06 公開日:2023-08-25
# 記号的知識グラフとしての言語モデルの再考

Rethinking Language Models as Symbolic Knowledge Graphs ( http://arxiv.org/abs/2308.13676v1 )

ライセンス: Link先を確認
Vishwas Mruthyunjaya, Pouya Pezeshkpour, Estevam Hruschka, Nikita Bhutani(参考訳) 記号的知識グラフ(KG)は、検索、質問応答、レコメンデーションといった知識中心のアプリケーションにおいて重要な役割を果たす。 膨大なテキストデータに基づいて訓練された現代言語モデル (LM) が注目されているため、研究者はこれらのモデル内のパラメトリック知識が知識グラフのそれと一致するかどうかを幅広く研究してきた。 様々な方法論は、モデルのサイズやトレーニングデータの量を増やすことで象徴的な知識を得られる能力が増すことを示している。 これらの進歩にもかかわらず、LMがKGの複雑なトポロジカル・セマンティック属性(推論過程に不可欠な属性)を包含できるかどうかを包括的に評価するヴォイドが存在する。 本研究では,様々なサイズと能力を持つ言語モデルの徹底的な評価を行う。 我々は、対称性、非対称性、階層構造、双方向性、構成性、パス、エンティティ中心性、バイアス、曖昧性を含む属性のスペクトルを包含する9つの質的ベンチマークを構築した。 さらに,これらの属性に合わせた新しい評価指標を提案する。 様々なLMについて広範囲に評価したところ、これらのモデルは事実情報を記憶する上で大きな可能性を秘めているが、KGsの複雑なトポロジカル・セマンティックな特性を捉える能力は著しく制約されている。 提案した評価指標は,既存の指標よりも信頼性が高いことに留意する。 最後に、我々のベンチマークのいくつかは、より大きなLM(例えば GPT-4)がより小さなLM(例えば BERT)を普遍的に上回っているという共通概念に挑戦している。

Symbolic knowledge graphs (KGs) play a pivotal role in knowledge-centric applications such as search, question answering and recommendation. As contemporary language models (LMs) trained on extensive textual data have gained prominence, researchers have extensively explored whether the parametric knowledge within these models can match up to that present in knowledge graphs. Various methodologies have indicated that enhancing the size of the model or the volume of training data enhances its capacity to retrieve symbolic knowledge, often with minimal or no human supervision. Despite these advancements, there is a void in comprehensively evaluating whether LMs can encompass the intricate topological and semantic attributes of KGs, attributes crucial for reasoning processes. In this work, we provide an exhaustive evaluation of language models of varying sizes and capabilities. We construct nine qualitative benchmarks that encompass a spectrum of attributes including symmetry, asymmetry, hierarchy, bidirectionality, compositionality, paths, entity-centricity, bias and ambiguity. Additionally, we propose novel evaluation metrics tailored for each of these attributes. Our extensive evaluation of various LMs shows that while these models exhibit considerable potential in recalling factual information, their ability to capture intricate topological and semantic traits of KGs remains significantly constrained. We note that our proposed evaluation metrics are more reliable in evaluating these abilities than the existing metrics. Lastly, some of our benchmarks challenge the common notion that larger LMs (e.g., GPT-4) universally outshine their smaller counterparts (e.g., BERT).
翻訳日:2023-08-29 19:44:49 公開日:2023-08-25
# 残留消音拡散モデル

Residual Denoising Diffusion Models ( http://arxiv.org/abs/2308.13712v1 )

ライセンス: Link先を確認
Jiawei Liu, Qiang Wang, Huijie Fan, Yinong Wang, Yandong Tang, Liangqiong Qu(参考訳) 現在の拡散に基づく画像復元手法は、劣化した入力画像を条件としてノイズ推定ネットワークに供給する。 しかし,この拡散過程の解釈はノイズからターゲット画像を生成するため困難である。 画像生成と復元のための統一的で解釈可能なモデルを確立するために,残差復調拡散モデル(RDDM)を提案する。 ノイズ推定のみに焦点を当てた既存の拡散モデル(DDPMやDDIMなど)とは対照的に、RDDMは拡散過程におけるランダムな摂動を考慮したノイズを同時に推定しながら、ターゲット領域から入力領域への方向の拡散を表す残差を予測する。 残差を導入することにより前方拡散過程を再定義し、ターゲット画像は純粋にノイズの多い画像やノイズを伴いやすい入力画像に徐々に拡散し、画像生成と復元を統一する。 本プロセスは係数変換によるDDPMとDDIMと整合性を示し,逆過程をよりよく理解するための部分経路独立生成プロセスを提案する。 特に,条件付き入力をネイティブにサポートするRDDMでは,$$\ell _1$ロスとバッチサイズ1でトレーニングされた汎用UNetが,最先端の画像復元手法と競合する。 我々は、革新的なフレームワーク(https://github.com/nachifur/RDDM)のさらなる探索、応用、開発を促進するために、コードと事前訓練されたモデルを提供します。

Current diffusion-based image restoration methods feed degraded input images as conditions into the noise estimation network. However, interpreting this diffusion process is challenging since it essentially generates the target image from the noise. To establish a unified and more interpretable model for image generation and restoration, we propose residual denoising diffusion models (RDDM). In contrast to existing diffusion models (e.g., DDPM or DDIM) that focus solely on noise estimation, our RDDM predicts residuals to represent directional diffusion from the target domain to the input domain, while concurrently estimating noise to account for random perturbations in the diffusion process. The introduction of residuals allows us to redefine the forward diffusion process, wherein the target image progressively diffuses into a purely noisy image or a noise-carrying input image, thus unifying image generation and restoration. We demonstrate that our sampling process is consistent with that of DDPM and DDIM through coefficient transformation, and propose a partially path-independent generation process to better understand the reverse process. Notably, with native support for conditional inputs, our RDDM enables a generic UNet, trained with only an $\ell _1$ loss and a batch size of 1, to compete with state-of-the-art image restoration methods. We provide code and pre-trained models to encourage further exploration, application, and development of our innovative framework (https://github.com/nachifur/RDDM).
翻訳日:2023-08-29 19:37:12 公開日:2023-08-25
# eventtransact: イベントカメラベースのアクション認識のためのビデオトランスフォーマティブベースのフレームワーク

EventTransAct: A video transformer-based framework for Event-camera based action recognition ( http://arxiv.org/abs/2308.13711v1 )

ライセンス: Link先を確認
Tristan de Blegiers, Ishan Rajendrakumar Dave, Adeel Yousaf, Mubarak Shah(参考訳) 人間の行動とジェスチャーの認識と理解は、ロボットが人間と対話し、サービスロボティクス、ヘルスケア、製造など様々な領域でタスクを実行するための重要な認識要件である。 イベントカメラは、高速で動く物体を高時間解像度で撮影する機能を備え、RGBビデオの標準アクション認識と比較して、新たな機会を提供する。 しかし、イベントカメラの動作認識に関するこれまでの研究は、センサー固有のネットワークアーキテクチャと画像エンコーディングに重点を置いており、新しいセンサーには適していない可能性があり、トランスフォーマーベースのアーキテクチャにおける最近の進歩を制限している。 本研究では,まずイベントフレーム毎の空間埋め込みを取得し,その上で時間的自己認識機構を利用するビデオトランスフォーマーネットワーク(VTN)という計算効率のよいモデルを用いる。 イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラスト損失($\mathcal{L}_{EC}$)とイベント固有の拡張を設計する。 提案された$\mathcal{L}_{EC}$は、時間的に不一致なフレームを対比することにより、VTNの空間バックボーンにおけるきめ細かい空間的手がかりの学習を促進する。 筆者らは,N-EPIC Kitchensデータセットの現実的な行動認識について評価し,見知らぬキッチンにおけるテスト (\textbf{74.9\%} 精度) と目に見えないキッチンにおけるテスト (\textbf{42.43\%, 46.66\% 精度) という,両プロトコルの最先端結果を得た。 このアプローチは、リアルタイムのイベントカメラベースのアクション認識アプリケーションのためのフレームワーク \textit{eventtransact}の可能性を実証するものです。 プロジェクトページ: \url{https://tristandb8.github.io/eventtransact_webpage/}

Recognizing and comprehending human actions and gestures is a crucial perception requirement for robots to interact with humans and carry out tasks in diverse domains, including service robotics, healthcare, and manufacturing. Event cameras, with their ability to capture fast-moving objects at a high temporal resolution, offer new opportunities compared to standard action recognition in RGB videos. However, previous research on event camera action recognition has primarily focused on sensor-specific network architectures and image encoding, which may not be suitable for new sensors and limit the use of recent advancements in transformer-based architectures. In this study, we employ a computationally efficient model, namely the video transformer network (VTN), which initially acquires spatial embeddings per event-frame and then utilizes a temporal self-attention mechanism. In order to better adopt the VTN for the sparse and fine-grained nature of event data, we design Event-Contrastive Loss ($\mathcal{L}_{EC}$) and event-specific augmentations. Proposed $\mathcal{L}_{EC}$ promotes learning fine-grained spatial cues in the spatial backbone of VTN by contrasting temporally misaligned frames. We evaluate our method on real-world action recognition of N-EPIC Kitchens dataset, and achieve state-of-the-art results on both protocols - testing in seen kitchen (\textbf{74.9\%} accuracy) and testing in unseen kitchens (\textbf{42.43\% and 46.66\% Accuracy}). Our approach also takes less computation time compared to competitive prior approaches, which demonstrates the potential of our framework \textit{EventTransAct} for real-world applications of event-camera based action recognition. Project Page: \url{https://tristandb8.github.io/EventTransAct_webpage/}
翻訳日:2023-08-29 19:36:45 公開日:2023-08-25
# WellXplain:メンタルヘルス分析のためのRedditポストにおけるウェルネスの概念抽出と分類

WellXplain: Wellness Concept Extraction and Classification in Reddit Posts for Mental Health Analysis ( http://arxiv.org/abs/2308.13710v1 )

ライセンス: Link先を確認
Muskan Garg(参考訳) 現在のメンタルヘルス危機の間、ソーシャルメディアコンテンツからメンタル問題の潜在的な指標を特定する重要性が高まっている。 精神と社会的幸福の多面的な性質を見渡すことは、精神状態に有害な影響を及ぼす可能性がある。 伝統的なセラピーセッションでは、専門家は基礎となる精神的課題の起源と成果を手作業で特定する。 本稿では,redditコンテンツのウェルネス次元の同定をウェルネス概念抽出と分類の課題とすることで,この複雑なメンタルヘルス分析へのアプローチを提案する。 WELLXPLAINという名前のユニークなデータセットは、3,092のエントリと72,813のワードで構成されています。 halbert l. dunn の wellness 理論を参考に,アノテーションフレームワークとガイドラインを定式化した。 このデータセットには、人間マーク付きテキストセグメントも含まれており、ウェルネス概念分類プロセスでなされた決定の明確な推論を提供する。 このデータセットを公開し、最初のベンチマークを分析する目的は、医療に焦点を当てた概念抽出と分類のための高度な言語モデルの作成を先導することです。

During the current mental health crisis, the importance of identifying potential indicators of mental issues from social media content has surged. Overlooking the multifaceted nature of mental and social well-being can have detrimental effects on one's mental state. In traditional therapy sessions, professionals manually pinpoint the origins and outcomes of underlying mental challenges, a process both detailed and time-intensive. We introduce an approach to this intricate mental health analysis by framing the identification of wellness dimensions in Reddit content as a wellness concept extraction and categorization challenge. We've curated a unique dataset named WELLXPLAIN, comprising 3,092 entries and totaling 72,813 words. Drawing from Halbert L. Dunn's well-regarded wellness theory, our team formulated an annotation framework along with guidelines. This dataset also includes human-marked textual segments, offering clear reasoning for decisions made in the wellness concept categorization process. Our aim in publishing this dataset and analyzing initial benchmarks is to spearhead the creation of advanced language models tailored for healthcare-focused concept extraction and categorization.
翻訳日:2023-08-29 19:36:05 公開日:2023-08-25
# Mott-Hubbard遷移における準局所的絡み合い

Quasilocal entanglement across the Mott-Hubbard transition ( http://arxiv.org/abs/2308.13706v1 )

ライセンス: Link先を確認
Gabriele Bellomia, Carlos Mejuto-Zaera, Massimo Capone, Adriano Amaricci(参考訳) コールド・アトム・量子シミュレータにおいて、サイトと環境の間の絡み合いと相互情報が直接測定される可能性は、量子情報理論の枠組みにおいて、mott-hubbard金属-絶縁体遷移のキャラクタリゼーションに関する新しい視点を開く。 本研究では、2次元ハバードモデルにおけるモット遷移の代替的見解を、2つの空間的に分離された電子軌道間の絡み合いと相関の準局所的測度として適切に定義し、その環境から何の寄与も与えない。 クラスター力学平均場理論の結果の空間分解解析により、モット局在の探索における最も近い隣り合う絡み合いの顕著な役割が解明される。 近接する近傍の2箇所の絡み合いは、現場間距離が大きくなると急速に減衰する。 これらの結果は、相互作用が増加すると単調に減少することが判明した単一部位の絡み合いに基づく過去の分析の混乱を最終的に解決する。 準局所二点絡み合いは、代わりに、mott絶縁体の特徴的な特性を強い相関量子状態として回復し、2次元ハバードモデルにおけるこのマーカーの中心的役割を示す。

The possibility to directly measure, in a cold-atom quantum simulator, the entanglement and mutual information between a site and its environment opens new perspectives on the characterization of the Mott-Hubbard metal-insulator transition, in the framework of quantum information theory. In this work we provide an alternative view of the Mott transition in the two-dimensional Hubbard model in terms of suitably defined quasilocal measures of entanglement and correlation between two spatially separated electronic orbitals, with no contribution from their environment. A space-resolved analysis of Cluster Dynamical Mean-Field Theory results elucidates the prominent role of the nearest-neighbor entanglement in probing Mott localization: both its lower and upper bounds sharply increase at the metal-insulator transition. The two-site entanglement beyond nearest neighbors is shown to be quickly damped as the inter-site distance is increased. These results ultimately resolve a conundrum of previous analyses based on the single-site entanglement, which has been found to monotonically decrease when the interaction is increased. The quasilocal two-site entanglement recovers instead the distinctive character of Mott insulators as strongly correlated quantum states, demonstrating the central role of this marker in the two-dimensional Hubbard model.
翻訳日:2023-08-29 19:35:45 公開日:2023-08-25
# コードセマンティクス学習のための対称性保存プログラム表現

Symmetry-Preserving Program Representations for Learning Code Semantics ( http://arxiv.org/abs/2308.03312v2 )

ライセンス: Link先を確認
Kexin Pei, Weichen Li, Qirui Jin, Shuyang Liu, Scott Geng, Lorenzo Cavallaro, Junfeng Yang, Suman Jana(参考訳) 大規模言語モデル(llm)は、多くのセキュリティタスクの重要な側面である自動プログラム推論において、約束を示している。 しかし、既存のコード用のllmアーキテクチャは、自然言語処理のような他のドメインから借用されることが多く、コードの一般化と堅牢性に懸念を抱いている。 鍵となる一般化の課題は、制御やデータフローを含むコードセマンティクスの知識をllmアーキテクチャに組み込むことである。 変換対称性を利用した畳み込み層の例からインスピレーションを得て、コード対称性がプログラム解析とモデリングのためにllmアーキテクチャをどのように強化できるかを考察する。 本稿では,コード対称性を意味論的保存変換として正式に定義する厳密なグループ理論フレームワークを提案する。 本フレームワークを用いて,プログラムの対称性を保存し,その一般化とロバスト性を示す新たな自己注意法を導入し,異なるバイナリおよびソースコード解析タスクの詳細な実験評価を行った。 全体として、我々のコード対称性フレームワークは厳格で強力な推論技術を提供しており、コードのための特殊なLCMの開発をガイドし、LLM誘導プログラム推論タスクを前進させる。

Large Language Models (LLMs) have shown promise in automated program reasoning, a crucial aspect of many security tasks. However, existing LLM architectures for code are often borrowed from other domains like natural language processing, raising concerns about their generalization and robustness to unseen code. A key generalization challenge is to incorporate the knowledge of code semantics, including control and data flow, into the LLM architectures. Drawing inspiration from examples of convolution layers exploiting translation symmetry, we explore how code symmetries can enhance LLM architectures for program analysis and modeling. We present a rigorous group-theoretic framework that formally defines code symmetries as semantics-preserving transformations and provides techniques for precisely reasoning about symmetry preservation within LLM architectures. Using this framework, we introduce a novel variant of self-attention that preserves program symmetries, demonstrating its effectiveness in generalization and robustness through detailed experimental evaluations across different binary and source code analysis tasks. Overall, our code symmetry framework offers rigorous and powerful reasoning techniques that can guide the future development of specialized LLMs for code and advance LLM-guided program reasoning tasks.
翻訳日:2023-08-28 23:35:52 公開日:2023-08-25
# グラフ上のランダム逆問題:分散オンライン学習

Random Inverse Problems Over Graphs: Decentralized Online Learning ( http://arxiv.org/abs/2303.11789v4 )

ライセンス: Link先を確認
Tao Li and Xiwei Zhang(参考訳) オンライン計測を用いたネットワークグラフ上の分散ランダム逆問題の枠組みを構築し,分散オンライン学習アルゴリズムを提案する。 これはヒルベルト空間における分散パラメータ推定と、再現されたカーネルヒルベルト空間(RKHS-LMS)における最小平均平方問題を統一する。 アルゴリズムの収束をl2境界のマルティンゲール差分項を持つヒルベルト空間における不均質なランダム差分方程式のクラスにおける漸近安定性に変換し、ヒルベルト空間におけるl2-漸近安定性理論を発展させる。 ネットワークグラフが連結され、フォワード作用素の列が励起条件の無限次元時空間持続性を満たすならば、全てのノードの見積もりは平均二乗であり、ほぼ確実に一致している。 さらに,非定常および非独立なオンラインデータストリームに基づくrkhsにおける分散オンライン学習アルゴリズムを提案し,ランダム入力データによって誘導される演算子が励起条件の無限次元時空間持続性を満たす場合,アルゴリズムが平均正方形かつほぼ確実に一貫性があることを証明した。

We establish a framework of distributed random inverse problems over network graphs with online measurements, and propose a decentralized online learning algorithm. This unifies the distributed parameter estimation in Hilbert spaces and the least mean square problem in reproducing kernel Hilbert spaces (RKHS-LMS). We transform the convergence of the algorithm into the asymptotic stability of a class of inhomogeneous random difference equations in Hilbert spaces with L2-bounded martingale difference terms and develop the L2 -asymptotic stability theory in Hilbert spaces. It is shown that if the network graph is connected and the sequence of forward operators satisfies the infinite-dimensional spatio-temporal persistence of excitation condition, then the estimates of all nodes are mean square and almost surely strongly consistent. Moreover, we propose a decentralized online learning algorithm in RKHS based on non-stationary and non-independent online data streams, and prove that the algorithm is mean square and almost surely strongly consistent if the operators induced by the random input data satisfy the infinite-dimensional spatio-temporal persistence of excitation condition.
翻訳日:2023-08-28 23:35:15 公開日:2023-08-25
# Rydberg Tweezerアレーの分子動力学:スピン-フォノンエンタングルメントとJhn-Teller効果

Molecular Dynamics in Rydberg Tweezer Arrays: Spin-Phonon Entanglement and Jahn-Teller Effect ( http://arxiv.org/abs/2303.08861v2 )

ライセンス: Link先を確認
Matteo Magoni, Radhika Joshi, Igor Lesanovsky(参考訳) 光トウェザーアレイに閉じ込められた原子は、量子コンピュータとシミュレータの実装のためのプラットフォームを構成する。 状態依存的な操作は、2つの原子が高密度電子状態に同時に励起されると生じる静電双極子相互作用を利用して実現される。 これらの相互作用はまた、原子の電子力学と振動運動を結合する状態依存的な機械的力に繋がる。 リドベルク状態がいわゆるファシリテーション条件下で励起される人工分子系の中でこれらのビブロニックカップリングを探索する。 この系は必ずしも自己結合ではないが、正三角形と歪んだ三角形状態(ヤーン-テラーレジーム)の等重重重な重ね合わせの間の構造遷移を行い、マイクロメートル距離でスピン-フォノンの絡み合いを示す。 これは、大げさな長さスケールで分子現象を研究するためのrydberg tweezer配列の可能性を強調している。

Atoms confined in optical tweezer arrays constitute a platform for the implementation of quantum computers and simulators. State-dependent operations are realized by exploiting electrostatic dipolar interactions that emerge, when two atoms are simultaneously excited to high-lying electronic states, so-called Rydberg states. These interactions also lead to state-dependent mechanical forces, which couple the electronic dynamics of the atoms to their vibrational motion. We explore these vibronic couplings within an artificial molecular system in which Rydberg states are excited under so-called facilitation conditions. This system, which is not necessarily self-bound, undergoes a structural transition between an equilateral triangle and an equal-weighted superposition of distorted triangular states (Jahn-Teller regime) exhibiting spin-phonon entanglement on a micrometer distance. This highlights the potential of Rydberg tweezer arrays for the study of molecular phenomena at exaggerated length scales.
翻訳日:2023-08-28 23:34:51 公開日:2023-08-25
# オフライン強化学習による観察から自律艦隊の制御

Learning to Control Autonomous Fleets from Observation via Offline Reinforcement Learning ( http://arxiv.org/abs/2302.14833v2 )

ライセンス: Link先を確認
Carolin Schmidt, Daniele Gammelli, Francisco Camara Pereira, Filipe Rodrigues(参考訳) 自律型モビリティ・オン・デマンド(Autonomous Mobility-on-Demand、AMoD)システムは、中央に調整された自動運転車群が移動要求を動的に処理する、進化する交通手段である。 これらのシステムの制御は、一般に大規模なネットワーク最適化問題として定式化され、強化学習(RL)は、この分野のオープンな課題を解決するための有望なアプローチとして最近登場した。 最近の集中型rlアプローチは、オンラインデータからの学習にフォーカスし、現実世界の輸送システム内のインタラクションのサンプルコストを無視する。 これらの制約に対処するために、オフライン強化学習のレンズを用いてAMoDシステムの制御を形式化し、オフラインデータのみを用いて効果的な制御戦略を学ぶことを提案する。 オフライン学習がAMoD制御ポリシーの回復にどう役立つかを示す実世界のモビリティシステムからのデータに基づく実証的証拠を提供する。 (i)オンライン手法と同等のパフォーマンスを示す。 (ii)サンプル効率の良いオンライン微調整と (iii)複雑なシミュレーション環境の必要性をなくす。 本稿では,オフラインRLが,移動システムのような経済的にクリティカルなシステムにRLベースのソリューションを適用する上で有望なパラダイムであることを示す。

Autonomous Mobility-on-Demand (AMoD) systems are an evolving mode of transportation in which a centrally coordinated fleet of self-driving vehicles dynamically serves travel requests. The control of these systems is typically formulated as a large network optimization problem, and reinforcement learning (RL) has recently emerged as a promising approach to solve the open challenges in this space. Recent centralized RL approaches focus on learning from online data, ignoring the per-sample-cost of interactions within real-world transportation systems. To address these limitations, we propose to formalize the control of AMoD systems through the lens of offline reinforcement learning and learn effective control strategies using solely offline data, which is readily available to current mobility operators. We further investigate design decisions and provide empirical evidence based on data from real-world mobility systems showing how offline learning allows to recover AMoD control policies that (i) exhibit performance on par with online methods, (ii) allow for sample-efficient online fine-tuning and (iii) eliminate the need for complex simulation environments. Crucially, this paper demonstrates that offline RL is a promising paradigm for the application of RL-based solutions within economically-critical systems, such as mobility systems.
翻訳日:2023-08-28 23:34:32 公開日:2023-08-25
# LExecutor:学習ガイドによる実行

LExecutor: Learning-Guided Execution ( http://arxiv.org/abs/2302.02343v3 )

ライセンス: Link先を確認
Beatriz Souza and Michael Pradel(参考訳) コードの実行は、様々なプログラム解析タスク、例えば例外を通じて現れるバグの検出や、さらなる動的解析のために実行トレースを取得するために不可欠である。 しかし、変数定義の欠如、ユーザ入力の欠如、サードパーティの依存関係の欠如など、任意のコードを実行することは現実的には難しいことが多い。 本稿では,任意のコードスニペットを制約の少ない方法で実行するための学習誘導型LExecutorを提案する。 キーとなるアイデアは、プログラムが停止する原因となる欠落した値をニューラルモデルに予測させ、これらの値を実行に注入することです。 例えば、LExecutorは、そうでなければ未定義変数の可能性のある値を注入し、そうでない関数に呼び出しの値を返す。 人気のあるオープンソースプロジェクトのpythonコードとstack overflowから抽出したコードスニペットのアプローチを評価した。 ニューラルネットワークは79.5%から98.2%の精度で現実的な値を予測し、LExecutorは実際の実行を忠実に模倣することができる。 その結果、このアプローチは、コードをas-isで単に実行するなど、利用可能なテクニックよりもはるかに多くのコードを実行することに成功した。 例えば、オープンソースのコードスニペットは早期にクラッシュするため、全行の4.1%しかカバーしていないが、LExecutorは51.6%のカバレッジを達成している。

Executing code is essential for various program analysis tasks, e.g., to detect bugs that manifest through exceptions or to obtain execution traces for further dynamic analysis. However, executing an arbitrary piece of code is often difficult in practice, e.g., because of missing variable definitions, missing user inputs, and missing third-party dependencies. This paper presents LExecutor, a learning-guided approach for executing arbitrary code snippets in an underconstrained way. The key idea is to let a neural model predict missing values that otherwise would cause the program to get stuck, and to inject these values into the execution. For example, LExecutor injects likely values for otherwise undefined variables and likely return values of calls to otherwise missing functions. We evaluate the approach on Python code from popular open-source projects and on code snippets extracted from Stack Overflow. The neural model predicts realistic values with an accuracy between 79.5% and 98.2%, allowing LExecutor to closely mimic real executions. As a result, the approach successfully executes significantly more code than any available technique, such as simply executing the code as-is. For example, executing the open-source code snippets as-is covers only 4.1% of all lines, because the code crashes early on, whereas LExecutor achieves a coverage of 51.6%.
翻訳日:2023-08-28 23:34:08 公開日:2023-08-25
# シナリオベーステストのためのベクトルシナリオ記述と動作予測

Vectorized Scenario Description and Motion Prediction for Scenario-Based Testing ( http://arxiv.org/abs/2302.01161v2 )

ライセンス: Link先を確認
Max Winkelmann, Constantin Vasconi, Steffen M\"uller(参考訳) 自動車両(AV)は様々なシナリオでテストされ、通常速度、距離、曲線半径などのパラメータによって特定される。 そこで本研究では,道路形状と車両軌跡によって定義されるベクトル化されたシナリオ記述を提案する。 この形式のデータは3つのシナリオで生成され、マージされ、モーション予測モデルであるVectorNetのトレーニングに使用される。 VectorNetはシナリオ評価メトリクスを予測し、3つのシナリオのデータとは別に処理する回帰モデルよりも低いエラーを部分的に達成する。 しかし、総合的な一般化には、トレーニングデータの十分なばらつきを確保する必要がある。 したがって,既存の手法とは対照的に,提案手法は多様なシナリオのデータをマージし,ベクトル化されたシナリオ記述において空間的・時間的ニュアンスを活用できる。 その結果、特定のテストシナリオと実世界のシナリオのデータを比較し、(予測的な)分析とシナリオ選択に組み合わせることができる。

Automated vehicles (AVs) are tested in diverse scenarios, typically specified by parameters such as velocities, distances, or curve radii. To describe scenarios uniformly independent of such parameters, this paper proposes a vectorized scenario description defined by the road geometry and vehicles' trajectories. Data of this form are generated for three scenarios, merged, and used to train the motion prediction model VectorNet, allowing to predict an AV's trajectory for unseen scenarios. Predicting scenario evaluation metrics, VectorNet partially achieves lower errors than regression models that separately process the three scenarios' data. However, for comprehensive generalization, sufficient variance in the training data must be ensured. Thus, contrary to existing methods, our proposed method can merge diverse scenarios' data and exploit spatial and temporal nuances in the vectorized scenario description. As a result, data from specified test scenarios and real-world scenarios can be compared and combined for (predictive) analyses and scenario selection.
翻訳日:2023-08-28 23:33:45 公開日:2023-08-25
# 電子商取引利用者の配送オプション選択

E-commerce users' preferences for delivery options ( http://arxiv.org/abs/2301.00666v2 )

ライセンス: Link先を確認
Yuki Oyama, Daisuke Fukuda, Naoto Imura, Katsuhiro Nishinari(参考訳) 多くのeコマースマーケットプレースでは、ユーザのニーズに応えて、迅速な配送オプションを無償で提供しています。 したがって、Eコマース利用者の配送オプションの好みを理解することが、ロジスティクスポリシーの設計の鍵となる。 そこで本研究では,全国3大都市圏の利用者4,062名を対象に,異なる配送オプションと時間帯の中から選択課題に直面した選択調査を設計した。 このデータを解析するために、味の不均一性を捉える混合ロジットモデルと柔軟な置換パターンを推定した。 モデル推定の結果,料金,時間,時間スロットサイズを含むデリバリ属性が,デリバリオプション選択の重要な要因であることがわかった。 また, 年齢, 性別, テレワーク頻度, 配送ボックスの存在など, ユーザの嗜好と社会デマログラフィー的特徴との関係についても示唆した。 さらに,納期短縮(VODT)と時間スロット短縮(VOTS)の2つの価値を分析し,非半パラメトリック手法を用いて分布をデータ指向で推定した。 VODTは回答者の間で大きな異質性を持っているが、推定中央値VODTは25.6 JPY/日であり、回答者の半数以上が26 JPYで配達手数料が引き上げられた場合、即ち迅速な配達オプションは必要ではなく、安くもほぼ無料でも要求することが多いことを示唆している。 さらに、VOTSは低く、中央値が5.0JPY/hourであり、つまり、ユーザーは金銭的な用語で時間スロットサイズの削減を高く評価していない。 電子商取引ユーザーの好みに関するこれらの知見は、ラストマイル配送のためのサービスのレベルを設計し、その効率を大幅に向上させるのに役立つ。

Many e-commerce marketplaces offer their users fast delivery options for free to meet the increasing needs of users, imposing an excessive burden on city logistics. Therefore, understanding e-commerce users' preference for delivery options is a key to designing logistics policies. To this end, this study designs a stated choice survey in which respondents are faced with choice tasks among different delivery options and time slots, which was completed by 4,062 users from the three major metropolitan areas in Japan. To analyze the data, mixed logit models capturing taste heterogeneity as well as flexible substitution patterns have been estimated. The model estimation results indicate that delivery attributes including fee, time, and time slot size are significant determinants of the delivery option choices. Associations between users' preferences and socio-demographic characteristics, such as age, gender, teleworking frequency and the presence of a delivery box, were also suggested. Moreover, we analyzed two willingness-to-pay measures for delivery, namely, the value of delivery time savings (VODT) and the value of time slot shortening (VOTS), and applied a non-semiparametric approach to estimate their distributions in a data-oriented manner. Although VODT has a large heterogeneity among respondents, the estimated median VODT is 25.6 JPY/day, implying that more than half of the respondents would wait an additional day if the delivery fee were increased by only 26 JPY, that is, they do not necessarily need a fast delivery option but often request it when cheap or almost free. Moreover, VOTS was found to be low, distributed with the median of 5.0 JPY/hour; that is, users do not highly value the reduction in time slot size in monetary terms. These findings on e-commerce users' preferences can help in designing levels of service for last-mile delivery to significantly improve its efficiency.
翻訳日:2023-08-28 23:33:29 公開日:2023-08-25
# ロボットにおけるアウト・オブ・ディストリビューションデータのシステムレベルビュー

A System-Level View on Out-of-Distribution Data in Robotics ( http://arxiv.org/abs/2212.14020v2 )

ライセンス: Link先を確認
Rohan Sinha, Apoorva Sharma, Somrita Banerjee, Thomas Lew, Rachel Luo, Spencer M. Richards, Yixiao Sun, Edward Schmerling, Marco Pavone(参考訳) テスト条件がトレーニングデータと異なる場合、いわゆるアウト・オブ・ディストリビューション(OOD)入力は、現代のロボット自律スタックで学んだコンポーネントの信頼性をマージする。 したがって、OODデータを扱うことは、信頼できる学習可能なオープンワールドの自律性への道のりにおいて重要な課題である。 本稿では,データ駆動型ロボットシステムにおけるOODデータとその関連課題を解明し,学習モデルに対するOODデータの影響を研究するMLコミュニティの新たなパラダイムに関連付けることを目的とする。 我々はロボット工学者として、ood条件下で動作しているロボットの全体的な \textit{system-level}能力について考えるべきだと主張する。 我々は、このシステムレベルのOOD問題に関する重要な研究課題を強調し、安全で信頼性の高い学習可能な自律性に向けた将来の研究を導く。

When testing conditions differ from those represented in training data, so-called out-of-distribution (OOD) inputs can mar the reliability of learned components in the modern robot autonomy stack. Therefore, coping with OOD data is an important challenge on the path towards trustworthy learning-enabled open-world autonomy. In this paper, we aim to demystify the topic of OOD data and its associated challenges in the context of data-driven robotic systems, drawing connections to emerging paradigms in the ML community that study the effect of OOD data on learned models in isolation. We argue that as roboticists, we should reason about the overall \textit{system-level} competence of a robot as it operates in OOD conditions. We highlight key research questions around this system-level view of OOD problems to guide future research toward safe and reliable learning-enabled autonomy.
翻訳日:2023-08-28 23:32:53 公開日:2023-08-25
# 主成分回帰のモデル同定とアウト・オブ・サンプル予測:合成制御への応用

On Model Identification and Out-of-Sample Prediction of Principal Component Regression: Applications to Synthetic Controls ( http://arxiv.org/abs/2010.14449v5 )

ライセンス: Link先を確認
Anish Agarwal, Devavrat Shah, Dennis Shen(参考訳) 固定設計による高次元誤差変数設定における主成分回帰(PCR)の解析を行う。 適切な条件下では、PCRは最小$\ell_2$-normで一貫したユニークなモデルを同定する。 これらの結果により,非漸近的なサンプル外予測の確立が可能となり,既知の精度が向上した。 本解析では,試料内および試料外共変量間の自然線形代数条件を導入することにより,試料外予測の分布的仮定を回避できる。 我々のシミュレーションは、共変量シフトの下でも、一般化におけるこの条件の重要性を示している。 したがって、この条件が実際に成り立つかどうかを確認するための仮説テストを構築する。 また, 副産物として, 政策評価の先駆的アプローチである合成制御文学の新たな結果も得られた。 我々の知る限り、固定設計設定の予測は、高次元誤差変数と合成制御文献の両方において解明されている。

We analyze principal component regression (PCR) in a high-dimensional error-in-variables setting with fixed design. Under suitable conditions, we show that PCR consistently identifies the unique model with minimum $\ell_2$-norm. These results enable us to establish non-asymptotic out-of-sample prediction guarantees that improve upon the best known rates. In the course of our analysis, we introduce a natural linear algebraic condition between the in- and out-of-sample covariates, which allows us to avoid distributional assumptions for out-of-sample predictions. Our simulations illustrate the importance of this condition for generalization, even under covariate shifts. Accordingly, we construct a hypothesis test to check when this conditions holds in practice. As a byproduct, our results also lead to novel results for the synthetic controls literature, a leading approach for policy evaluation. To the best of our knowledge, our prediction guarantees for the fixed design setting have been elusive in both the high-dimensional error-in-variables and synthetic controls literatures.
翻訳日:2023-08-28 18:39:01 公開日:2023-08-25
# グラフニューラルネットワークと自己回帰政策分割に基づく記号的関係深い強化学習

Symbolic Relational Deep Reinforcement Learning based on Graph Neural Networks and Autoregressive Policy Decomposition ( http://arxiv.org/abs/2009.12462v4 )

ライセンス: Link先を確認
Jarom\'ir Janisch, Tom\'a\v{s} Pevn\'y and Viliam Lis\'y(参考訳) 対象, 対象関係, 対象中心行動の観点から自然に定義される関係問題における強化学習(RL)に焦点を当てる。 これらの問題は変数状態と作用空間によって特徴づけられ、既存のRL法で必要とされる固定長表現を見つけることは不可能ではないが困難である。 本稿では、グラフニューラルネットワークに基づく深いrlフレームワークと、これらの問題に自然に対処し、完全にドメインに依存しない自己回帰ポリシー分解を提案する。 3つの異なる領域でフレームワークの幅広い適用性を実証し、異なる問題サイズに対して印象的なゼロショットの一般化を示す。

We focus on reinforcement learning (RL) in relational problems that are naturally defined in terms of objects, their relations, and object-centric actions. These problems are characterized by variable state and action spaces, and finding a fixed-length representation, required by most existing RL methods, is difficult, if not impossible. We present a deep RL framework based on graph neural networks and auto-regressive policy decomposition that naturally works with these problems and is completely domain-independent. We demonstrate the framework's broad applicability in three distinct domains and show impressive zero-shot generalization over different problem sizes.
翻訳日:2023-08-28 18:38:44 公開日:2023-08-25
# 防御的少数ショット学習

Defensive Few-shot Learning ( http://arxiv.org/abs/1911.06968v2 )

ライセンス: Link先を確認
Wenbin Li, Lei Wang, Xingxing Zhang, Lei Qi, Jing Huo, Yang Gao and Jiebo Luo(参考訳) 本稿では,攻撃的攻撃に対するロバストな少数ショットモデルを学ぶために,防御的少数ショット学習と呼ばれる新たな課題について検討する。 既存の敵防衛手法を数発学習に適用するだけでは、この問題を効果的に解決できない。 これは、トレーニングとテストセット間の一般的に想定されるサンプルレベルの分布一貫性が、数ショット設定ではもはや満たされないためである。 この状況に対処するために,(1) 対人防御知識を一方のサンプル分布から他方のサンプル分布へ伝達する方法の2つの重要な疑問に答える汎用的な防御的数ショットラーニング(DFSL)フレームワークを開発した。 2) 複数ショット設定下での清潔な事例と敵対的な事例の分布ギャップを狭める方法 最初の疑問に答えるために,課題レベルの分散一貫性を仮定し,対人防御知識の伝達を改善することによるエピソードベースの対人訓練機構を提案する。 第2の質問では,2種類の分布整合性基準を設計し,クリーンな例と逆向きな例の分布ギャップを,機能的視点と予測的視点でそれぞれ狭めている。 広範な実験により、提案フレームワークは、既存の少数ショットモデルを敵の攻撃に対して効果的に堅牢化できることが示されている。 コードはhttps://github.com/WenbinLee/DefensiveFSL.gitで入手できる。

This paper investigates a new challenging problem called defensive few-shot learning in order to learn a robust few-shot model against adversarial attacks. Simply applying the existing adversarial defense methods to few-shot learning cannot effectively solve this problem. This is because the commonly assumed sample-level distribution consistency between the training and test sets can no longer be met in the few-shot setting. To address this situation, we develop a general defensive few-shot learning (DFSL) framework to answer the following two key questions: (1) how to transfer adversarial defense knowledge from one sample distribution to another? (2) how to narrow the distribution gap between clean and adversarial examples under the few-shot setting? To answer the first question, we propose an episode-based adversarial training mechanism by assuming a task-level distribution consistency to better transfer the adversarial defense knowledge. As for the second question, within each few-shot task, we design two kinds of distribution consistency criteria to narrow the distribution gap between clean and adversarial examples from the feature-wise and prediction-wise perspectives, respectively. Extensive experiments demonstrate that the proposed framework can effectively make the existing few-shot models robust against adversarial attacks. Code is available at https://github.com/WenbinLee/DefensiveFSL.git.
翻訳日:2023-08-28 18:38:33 公開日:2023-08-25
# ランダム化最小二乗値反復のための周波数レグレト境界

Frequentist Regret Bounds for Randomized Least-Squares Value Iteration ( http://arxiv.org/abs/1911.00567v6 )

ライセンス: Link先を確認
Andrea Zanette, David Brandfonbrener, Emma Brunskill, Matteo Pirotta, Alessandro Lazaric(参考訳) 有限水平強化学習(RL)における探索・探索ジレンマについて考察する。 状態空間が大きいときや連続の場合、従来の表式アプローチは実現不可能であり、ある種の関数近似は必須である。 本稿では、ランダム化最小二乗関数の最小二乗近似を摂動することによって探索を誘導するモデルフリーなアルゴリズム、RLSVIの楽観的に初期化した変種を紹介する。 マルコフ決定過程が低ランク遷移ダイナミクスを持つという仮定の下で、RSVIの頻繁な後悔は、$\widetilde O(d^2 H^2 \sqrt{T})$$ d $ が特徴次元であり、$ H $ が地平線であり、$ T $ がステップの総数であることを示す。 我々の知る限りでは、これは関数近似によるランダムな探索に対する最初の頻繁な後悔分析である。

We consider the exploration-exploitation dilemma in finite-horizon reinforcement learning (RL). When the state space is large or continuous, traditional tabular approaches are unfeasible and some form of function approximation is mandatory. In this paper, we introduce an optimistically-initialized variant of the popular randomized least-squares value iteration (RLSVI), a model-free algorithm where exploration is induced by perturbing the least-squares approximation of the action-value function. Under the assumption that the Markov decision process has low-rank transition dynamics, we prove that the frequentist regret of RLSVI is upper-bounded by $\widetilde O(d^2 H^2 \sqrt{T})$ where $ d $ are the feature dimension, $ H $ is the horizon, and $ T $ is the total number of steps. To the best of our knowledge, this is the first frequentist regret analysis for randomized exploration with function approximation.
翻訳日:2023-08-28 18:38:08 公開日:2023-08-25
# 変分量子-ニューラルハイブリッド誤差低減

Variational Quantum-Neural Hybrid Error Mitigation ( http://arxiv.org/abs/2112.10380v2 )

ライセンス: Link先を確認
Shi-Xin Zhang, Zhou-Quan Wan, Chang-Yu Hsieh, Hong Yao, Shengyu Zhang(参考訳) 量子誤差緩和(QEM)は、中程度のリソースで量子ノイズを抑えることにより、量子コンピュータ上で信頼性の高い結果を得るために重要である。 これは、ノイズのある中間スケール量子(NISQ)時代に成功し、実用的な量子アルゴリズムの実装の鍵となる要素である。 量子古典ハイブリッドアルゴリズムは、適度でノイズの多い量子資源で実行できるため、QEMと量子古典ハイブリッドスキームを組み合わせることは、実用的な量子優位性に向けた最も有望な方向の1つである。 本稿では,パラメータ化された量子回路の表現力とニューラルネットワークをシームレスに結合した変分量子-ニューラルハイブリッド固有ソルバ(vqnhe)アルゴリズムと,バニラ変分量子固有ソルバ(vqe)には存在しないユニークなqem容量と本質的に雑音耐性を有することを示す。 VQNHEにおけるこのユニークなQEM容量の漸近的スケーリングを理論的・実験的両観点から慎重に分析し,解明する。 最後に、VQNHE フレームワークで測定されるハミルトニアンの変分基底変換を提案し、VQNHE++ と呼ばれる強力な三次最適化設定を生成する。 vqnhe++は、量子ニューラルハイブリッド表現能力とエラー緩和能力をさらに強化することができる。

Quantum error mitigation (QEM) is crucial for obtaining reliable results on quantum computers by suppressing quantum noise with moderate resources. It is a key factor for successful and practical quantum algorithm implementations in the noisy intermediate scale quantum (NISQ) era. Since quantum-classical hybrid algorithms can be executed with moderate and noisy quantum resources, combining QEM with quantum-classical hybrid schemes is one of the most promising directions toward practical quantum advantages. In this work, we show how the variational quantum-neural hybrid eigensolver (VQNHE) algorithm, which seamlessly combines the expressive power of a parameterized quantum circuit with a neural network, is inherently noise resilient with a unique QEM capacity, which is absent in vanilla variational quantum eigensolvers (VQE). We carefully analyze and elucidate the asymptotic scaling of this unique QEM capacity in VQNHE from both theoretical and experimental perspectives. Finally, we propose a variational basis transformation for the Hamiltonian to be measured under the VQNHE framework, yielding a powerful tri-optimization setup, dubbed as VQNHE++. VQNHE++ can further enhance the quantum-neural hybrid expressive power and error mitigation capacity.
翻訳日:2023-08-28 18:35:35 公開日:2023-08-25
# Deep Image Priorの早期停止

Early Stopping for Deep Image Prior ( http://arxiv.org/abs/2112.06074v3 )

ライセンス: Link先を確認
Hengkang Wang, Taihui Li, Zhong Zhuang, Tiancong Chen, Hengyue Liang, Ju Sun(参考訳) deep image prior (dip) とその変種は、余分なトレーニングデータなしでコンピュータビジョンの逆問題を解く顕著な可能性を示した。 実用的なDIPモデルは、しばしば実質的に過パラメータ化される。 適合プロセスの間、これらのモデルはまず所望の視覚コンテンツを学習し、次に潜在的なモデリングと観測ノイズ、すなわち過剰フィットをピックアップする。 したがって、ディップの実用性は遷移期を捉えた良い早期停止(es)に依存することが多い。 この点に関して、視覚タスクのディップ作業の大部分は、モデルの可能性を示すのみである -- 基礎的真理に対するピークパフォーマンスを報告しているが、基盤にアクセスせずに操作的にニアピーク性能を得る方法の手がかりは提供していない。 本稿では,ディップの実用性障壁を克服し,複数のビジョンタスクとディップ変種において,ピーク付近の性能を一貫して検出する効率的なes戦略を提案する。 連続したDIP再構成の分散の単純な尺度に基づいて、ES法は既存の手法を上回り、非常に狭い領域でのみ機能するだけでなく、オーバーフィッティングを緩和しようとする多くの手法と組み合わせても有効である。 コードはhttps://github.com/sun-umn/Early_Stopping_for_DIPで公開されている。

Deep image prior (DIP) and its variants have showed remarkable potential for solving inverse problems in computer vision, without any extra training data. Practical DIP models are often substantially overparameterized. During the fitting process, these models learn mostly the desired visual content first, and then pick up the potential modeling and observational noise, i.e., overfitting. Thus, the practicality of DIP often depends critically on good early stopping (ES) that captures the transition period. In this regard, the majority of DIP works for vision tasks only demonstrates the potential of the models -- reporting the peak performance against the ground truth, but provides no clue about how to operationally obtain near-peak performance without access to the groundtruth. In this paper, we set to break this practicality barrier of DIP, and propose an efficient ES strategy, which consistently detects near-peak performance across several vision tasks and DIP variants. Based on a simple measure of dispersion of consecutive DIP reconstructions, our ES method not only outpaces the existing ones -- which only work in very narrow domains, but also remains effective when combined with a number of methods that try to mitigate the overfitting. The code is available at https://github.com/sun-umn/Early_Stopping_for_DIP.
翻訳日:2023-08-28 18:35:15 公開日:2023-08-25
# 量子推測の計算 : 二次代入問題

Computing the quantum guesswork: a quadratic assignment problem ( http://arxiv.org/abs/2112.01666v2 )

ライセンス: Link先を確認
Michele Dall'Arno, Francesco Buscemi, Takeshi Koshiba(参考訳) 量子推測は、一度に1つの状態しかクエリできない場合、量子アンサンブルの状態を予測するのに必要な最小のクエリ数を定量化する。 従来の計算手法は半定値の標準的なプログラミング手法に基づいており、結果として近似結果が得られた。 対照的に、一様確率分布を持つキュービットアンサンブルの量子推定処理は二次代入問題の解法と一致し、離散環上の任意のキュービットアンサンブルの入力に応じて、有限個のステップでその推定処理の正確な閉形式表現を出力するアルゴリズムを提供する。 一般に, 推測計算アルゴリズムの複雑さは, 状態数に因果関係があるが, 主結果は, 対称アンサンブルに対するよりクアドミックなスピードアップを示すことであり, タービンバランス問題の最大化バージョンの3次元類似に対応するシナリオである。 そのような対称性を見つけるために、離散環上の任意の点の入力に基づいて、有限個のステップがその正確な対称性を出力するアルゴリズムを提供する。 対称性探索アルゴリズムの複雑さは、点数における多項式である。 例として、正則および準正則なクォービット状態集合の推理を計算する。

The quantum guesswork quantifies the minimum number of queries needed to guess the state of a quantum ensemble if one is allowed to query only one state at a time. Previous approaches to the computation of the guesswork were based on standard semi-definite programming techniques and therefore lead to approximated results. In contrast, we show that computing the quantum guesswork of qubit ensembles with uniform probability distribution corresponds to solving a quadratic assignment problem and we provide an algorithm that, upon the input of any qubit ensemble over a discrete ring, after finitely many steps outputs the exact closed-form expression of its guesswork. While in general the complexity of our guesswork-computing algorithm is factorial in the number of states, our main result consists of showing a more-than-quadratic speedup for symmetric ensembles, a scenario corresponding to the three-dimensional analog of the maximization version of the turbine-balancing problem. To find such symmetries, we provide an algorithm that, upon the input of any point set over a discrete ring, after finitely many steps outputs its exact symmetries. The complexity of our symmetries-finding algorithm is polynomial in the number of points. As examples, we compute the guesswork of regular and quasi-regular sets of qubit states.
翻訳日:2023-08-28 18:34:53 公開日:2023-08-25
# 生成ニューラルネットワークを用いた市場リスクモデルのシナリオ生成

Scenario generation for market risk models using generative neural networks ( http://arxiv.org/abs/2109.10072v5 )

ライセンス: Link先を確認
Solveig Flaig and Gero Junike(参考訳) 本研究では, ジェネレーティブ・リバーサリー・ネットワーク(gans)を経済シナリオジェネレータ(esg)として, 保険会社の投資の全体範囲をモデル化する十分なリスク因子と, ソルバシー2で必要とされる1年間を想定して, 全体の市場リスクモデルに展開する方法を提案する。 我々は、ganベースの内部モデルの結果が欧州における規制された内部モデルと類似していることを実証する。 したがって、ganベースのモデルは市場リスクモデリングにおけるデータ駆動の代替手段と見なすことができる。

In this research, we show how to expand existing approaches of using generative adversarial networks (GANs) as economic scenario generators (ESG) to a whole internal market risk model - with enough risk factors to model the full band-width of investments for an insurance company and for a one year time horizon as required in Solvency 2. We demonstrate that the results of a GAN-based internal model are similar to regulatory approved internal models in Europe. Therefore, GAN-based models can be seen as a data-driven alternative way of market risk modeling.
翻訳日:2023-08-28 18:34:06 公開日:2023-08-25
# latformer:3次元形状認識のための局所性認識型ポイントビュー融合トランス

LATFormer: Locality-Aware Point-View Fusion Transformer for 3D Shape Recognition ( http://arxiv.org/abs/2109.01291v2 )

ライセンス: Link先を確認
Xinwei He, Silin Cheng, Dingkang Liang, Song Bai, Xi Wang, and Yingying Zhu(参考訳) 近年,画像やボクセル,点雲など,さまざまなデータフォーマットにおけるディープラーニングモデルの進歩により,三次元形状理解は大きな進歩を遂げている。 このうち、点雲と多視点画像は3次元オブジェクトと学習表現の相補的な2つのモダリティであり、どちらもかなり効果的であることが証明されている。 先行研究は通常2つのモダリティのグローバル特徴の活用に重点を置いているが、ここではより識別的な特徴は ‘where to fuse'' のモデル化によって導かれると論じている。 そこで本研究では,3次元形状検索と分類のためのLATFormer(Locality-Aware Point-View Fusion Transformer)を提案する。 LATFormerのコアコンポーネントはLocality-Aware Fusion (LAF) という名前のモジュールで、2つのモード間の相関領域の局所的特徴を共起スコアに基づいて統合する。 また,低値のスコアをフィルタリングして局所的局所共起領域を得る手法を提案し,融合過程の冗長性を低減させる。 LATFormerでは,LAFモジュールを用いて双方向および階層的に2つのモードのマルチスケール機能を融合し,より情報的な特徴を得る。 3dオブジェクトの検索と分類をカバーする4つの人気のある3d形状ベンチマークに関する包括的な実験は、その効果を検証する。

Recently, 3D shape understanding has achieved significant progress due to the advances of deep learning models on various data formats like images, voxels, and point clouds. Among them, point clouds and multi-view images are two complementary modalities of 3D objects and learning representations by fusing both of them has been proven to be fairly effective. While prior works typically focus on exploiting global features of the two modalities, herein we argue that more discriminative features can be derived by modeling ``where to fuse''. To investigate this, we propose a novel Locality-Aware Point-View Fusion Transformer (LATFormer) for 3D shape retrieval and classification. The core component of LATFormer is a module named Locality-Aware Fusion (LAF) which integrates the local features of correlated regions across the two modalities based on the co-occurrence scores. We further propose to filter out scores with low values to obtain salient local co-occurring regions, which reduces redundancy for the fusion process. In our LATFormer, we utilize the LAF module to fuse the multi-scale features of the two modalities both bidirectionally and hierarchically to obtain more informative features. Comprehensive experiments on four popular 3D shape benchmarks covering 3D object retrieval and classification validate its effectiveness.
翻訳日:2023-08-28 18:33:38 公開日:2023-08-25
# bregman近位点アルゴリズムの暗黙的正則化と分離可能データによるミラー降下

Implicit Regularization of Bregman Proximal Point Algorithm and Mirror Descent on Separable Data ( http://arxiv.org/abs/2108.06808v5 )

ライセンス: Link先を確認
Yan Li, Caleb Ju, Ethan X. Fang, Tuo Zhao(参考訳) Bregman近点アルゴリズム(BPPA)は、新しい機械学習アプリケーションを見てきたが、その理論的理解はほとんど解明されていない。 本稿では,線形分類器を分離可能なデータで学習することでBPPAの計算特性を検証し,BPPAのアルゴリズム正則化を実証する。 固定されたブレグマン発散を持つ任意のBPPAに対して、任意に選択されたノルムに対してBPPAによって得られるマージンの低い境界を与える。 得られたマージン下限は乗算係数によって最大辺と異なるが、これは逆に双対ノルムで測定された距離生成関数の条件数に依存する。 条件数への依存がきついことを示し、学習した分類器の品質に影響を及ぼす上でのばらつきの重要性を示す。 そして、この知見をミラー降下に拡張し、非漸近解析とともに、マージンとブレグマン分岐の類似した関係を確立する。 理論的研究を支援するために, 合成データセットと実世界のデータセットの数値実験を行った。 私たちの知る限りでは、上記の知見はアルゴリズム正規化の文献に新しいものと思われる。

Bregman proximal point algorithm (BPPA) has witnessed emerging machine learning applications, yet its theoretical understanding has been largely unexplored. We study the computational properties of BPPA through learning linear classifiers with separable data, and demonstrate provable algorithmic regularization of BPPA. For any BPPA instantiated with a fixed Bregman divergence, we provide a lower bound of the margin obtained by BPPA with respect to an arbitrarily chosen norm. The obtained margin lower bound differs from the maximal margin by a multiplicative factor, which inversely depends on the condition number of the distance-generating function measured in the dual norm. We show that the dependence on the condition number is tight, thus demonstrating the importance of divergence in affecting the quality of the learned classifiers. We then extend our findings to mirror descent, for which we establish similar connections between the margin and Bregman divergence, together with a non-asymptotic analysis. Numerical experiments on both synthetic and real-world datasets are provided to support our theoretical findings. To the best of our knowledge, the aforementioned findings appear to be new in the literature of algorithmic regularization.
翻訳日:2023-08-28 18:33:04 公開日:2023-08-25
# Fact Check:多言語ニュースソースからの財務事象の分析

Fact Check: Analyzing Financial Events from Multilingual News Sources ( http://arxiv.org/abs/2106.15221v3 )

ライセンス: Link先を確認
Linyi Yang, Tin Lok James Ng, Barry Smyth, Ruihai Dong(参考訳) 近年の金融ニュースデータの爆発的増加と複雑化により、投資アナリストが貴重な洞察を抽出し分析を行うことがますます困難になっている。 深層学習モデルを用いたWebベースのニュースアグリゲータであるFactCheck in Financeを提案し、多言語ニュースソースから重要な金融イベントの全体像をアナリストに提供し、教師なしクラスタリング手法を用いてイベントを抽出する。 トランスフォーマーベースのファクトチェッカーを用いてニュース記事の信頼性を調べるためのウェブインターフェースを提供する。 ファクトチェッカーの性能は、合併・買収(M\&A)イベントに関するデータセットを用いて評価され、いくつかの強いベースラインを上回ります。

The explosion in the sheer magnitude and complexity of financial news data in recent years makes it increasingly challenging for investment analysts to extract valuable insights and perform analysis. We propose FactCheck in finance, a web-based news aggregator with deep learning models, to provide analysts with a holistic view of important financial events from multilingual news sources and extract events using an unsupervised clustering method. A web interface is provided to examine the credibility of news articles using a transformer-based fact-checker. The performance of the fact checker is evaluated using a dataset related to merger and acquisition (M\&A) events and is shown to outperform several strong baselines.
翻訳日:2023-08-28 18:32:44 公開日:2023-08-25
# 弱対決定論的マクロ・リアリズムとアインシュタイン=ポドルスキー=ローゼンの現実的要素

Weak versus deterministic macroscopic realism, and Einstein-Podolsky-Rosen's elements of reality ( http://arxiv.org/abs/2101.09476v2 )

ライセンス: Link先を確認
Jesse Fulton, M. Thenabadu, Run Yan Teh and M. D. Reid(参考訳) レゲット・ガーグの不等式を破ることで、量子力学とマクロ実数論(mr)と非侵襲的可測性(nim)の複合前提(マクロ実数論)との間の不整合の証明が可能になる。 非互換は、MRが$-$以下で失敗するため、NIMが失敗するためである。 本稿では,NIM前提をベル局所性に置き換えたコヒーレント状態の重畳を含むマクロリアリズムの強い失敗を考える。 本稿では, アインシュタイン=ポドルスキー=ローゼン (EPR) とレゲット=ガルグ前提 (Garg 前提) の部分集合である 'emph{weak macroscopic realism} (wMR) の妥当性を提案する。 wMRとの整合性を見出す際には,ggett-Gargの不等式はMRとNIMの両方の故障により不等式となるが,両者は制約の少ない意味で有効である。 弱MRは、測定が測定設定を確立する可逆ユニタリ相互作用を含むことを認識することで、emph{deterministic macroscopic realism} (dMR)と区別される。 弱MRは、測定設定が実験的に特定された場合に、相互作用後に定義されたシステムに対して測定結果に対して所定の値を示す。 拡張された wMR の定義は、システム A に対して EPR によって定義される現実の要素を考慮し、システム B 上での測定により、A 上の測定結果が確実に予測できる。 我々はggett-Gargの不等式に違反するシステムのwMRとの互換性を示すが、dMRは偽造可能であることを指摘する。 我々は、他のMRモデルと比較し、wMRがマクロリアリズムの失敗と量子測度理論に固有の仮定の間のレゲットとガーグの指摘した矛盾を解消することに基づいて、wMRについて論じる。

Violation of Leggett-Garg inequalities allows proof of the incompatibility between quantum mechanics and the combined premises (called macrorealism) of macroscopic realism (MR) and non-invasive measurability (NIM). Arguments can be given that the incompatibility arises because MR fails $-$ or else, that NIM fails. In this paper, we consider a strong failure of macrorealism, involving superpositions of coherent states, where the NIM premise is replaced by Bell-locality. We follow recent work and propose validity of a subset of Einstein-Podolsky-Rosen (EPR) and Leggett-Garg premises, referred to as \emph{weak macroscopic realism} (wMR). In finding consistency with wMR, we identify that the Leggett-Garg inequalities are violated because of failure of both MR and NIM, but also that both are valid in a less restrictive sense. Weak MR is distinguished from \emph{deterministic macroscopic realism} (dMR) by recognizing that a measurement involves a reversible unitary interaction that establishes the measurement setting. Weak MR posits a predetermined value for the measurement outcome, for the system defined at the time after the interaction, when the measurement setting is experimentally specified. An extended definition of wMR considers the element of reality defined by EPR for a system A, where one can predict with certainty the outcome of a measurement on A, by measurement on a system B. Weak MR posits that the element of reality exists once the unitary interaction determining the setting at B has occurred. We show compatibility of systems violating Leggett-Garg inequalities with wMR, but point out that dMR is falsifiable. We compare with other MR models, and give an argument for wMR on the basis that wMR resolves inconsistencies pointed out by Leggett and Garg between failure of macrorealism and assumptions intrinsic to quantum measurement theory.
翻訳日:2023-08-28 18:32:30 公開日:2023-08-25
# 制限付き非凸最適化のための縮小半径によるブロック偏極最小化

Block majorization-minimization with diminishing radius for constrained nonconvex optimization ( http://arxiv.org/abs/2012.03503v4 )

ライセンス: Link先を確認
Hanbaek Lyu and Yuchen Li(参考訳) BMM(Block Majorization-minimization)は、非凸制約最適化のための単純な反復アルゴリズムであり、各ブロック座標における目的関数のサロゲートを逐次最小化し、他の座標を固定する。 bmmはブロック座標降下とその近点変種、期待最小化、ブロック投影勾配降下といった大きな最適化アルゴリズムを含んでいる。 一般に制約のある非凸最適化では、強凸サロゲートを持つ bmm は $o(\epsilon^{-2}(\log \epsilon^{-1})^{2})$ の反復内に $\epsilon$-stationary point を生成でき、漸近的に定常点の集合に収束する。 さらに, コンベックスのみのサロゲートを処理し, 繰り返しの複雑さと漸近的な定常性が得られるBMMの信頼領域変種を提案する。 これらの結果は、最適性ギャップが要約可能である限り、凸部分問題が不必要に解かれた場合でも頑健に保たれる。 応用として、Lee と Seung による非負行列因数分解のための有名な乗法更新アルゴリズムの正規化バージョンが、反復複雑性$O(\epsilon^{-2}(\log \epsilon^{-1})^{2})$であることを示す。 同じ結果は、正規化された非負のテンソル分解アルゴリズムと古典的ブロック投影勾配勾配アルゴリズムの幅広いクラスに当てはまる。 これらの理論結果は様々な数値実験によって検証される。

Block majorization-minimization (BMM) is a simple iterative algorithm for nonconvex constrained optimization that sequentially minimizes majorizing surrogates of the objective function in each block coordinate while the other coordinates are held fixed. BMM entails a large class of optimization algorithms such as block coordinate descent and its proximal-point variant, expectation-minimization, and block projected gradient descent. We establish that for general constrained nonconvex optimization, BMM with strongly convex surrogates can produce an $\epsilon$-stationary point within $O(\epsilon^{-2}(\log \epsilon^{-1})^{2})$ iterations and asymptotically converges to the set of stationary points. Furthermore, we propose a trust-region variant of BMM that can handle surrogates that are only convex and still obtain the same iteration complexity and asymptotic stationarity. These results hold robustly even when the convex sub-problems are inexactly solved as long as the optimality gaps are summable. As an application, we show that a regularized version of the celebrated multiplicative update algorithm for nonnegative matrix factorization by Lee and Seung has iteration complexity of $O(\epsilon^{-2}(\log \epsilon^{-1})^{2})$. The same result holds for a wide class of regularized nonnegative tensor decomposition algorithms as well as the classical block projected gradient descent algorithm. These theoretical results are validated through various numerical experiments.
翻訳日:2023-08-28 18:31:47 公開日:2023-08-25
# 重力を媒介とする絡み合いは 量子重力について

What gravity mediated entanglement can really tell us about quantum gravity ( http://arxiv.org/abs/2208.09489v4 )

ライセンス: Link先を確認
Eduardo Mart\'in-Mart\'inez and T. Rick Perche(参考訳) 実験における局所性の役割を解析し,重力による量子重力を観測することを目的としたBose-Marletto-Vedral (BMV) テーブルトップ実験を見直した。 まず、物質と重力の相互作用の完全な量子モデリングを行い、次にbmv実験における重力による絡み合いがどのようにして重力場の量子自由度に訴えることなく説明できるかを示す。 我々は、現在のBMV実験の提案を量子重力の証明として解釈するためには、どのような仮定が必要かを議論し、また、BMVのような実験が重力場に局所メディエーターが存在することを仮定することなく、量子重力の証明として役立てることのできる修正を特定する。

We revisit the Bose-Marletto-Vedral (BMV) table-top experimental proposal - which aims to witness quantum gravity using gravity mediated entanglement - analyzing the role of locality in the experiment. We first carry out a fully quantum modelling of the interaction of matter and gravity and then show in what way gravity mediated entanglement in the BMV experiment could be accounted for without appealing to quantum degrees of freedom of the gravitational field. We discuss what assumptions are needed in order to interpret the current BMV experiment proposals as a proof of quantum gravity, and also identify the modifications that a BMV-like experiment could have in order to serve as proof of quantum gravity without having to assume the existence of a local mediators in the gravitational field.
翻訳日:2023-08-28 18:24:18 公開日:2023-08-25
# 知覚的に最適化された自己校正トーンマッピング演算子

A Perceptually Optimized and Self-Calibrated Tone Mapping Operator ( http://arxiv.org/abs/2206.09146v3 )

ライセンス: Link先を確認
Peibei Cao, Chenyang Le, Yuming Fang and Kede Ma(参考訳) 高ダイナミックレンジ(hdr)撮影の人気とアクセシビリティの増加に伴い、ダイナミックレンジ圧縮のためのトーンマッピングオペレータ(tmos)が事実上要求されている。 本稿では,自己校正および知覚的に最適化された2段階のニューラルネットワークベースのTMOを開発する。 第1段階では、人間の視覚系の初期段階の生理学に動機づけられ、まずhdr画像を正常化したラプラシアンピラミッドに分解する。 次に,2つの軽量深層ニューラルネットワーク(dnn)を用いて正規化表現を入力とし,対応するldr画像のラプラシアンピラミッドを推定する。 画像品質の人間の判断に適合する知覚距離である正規化ラプラシアピラミッド距離(NLPD)を最小化することにより、トーンマッピングネットワークを最適化する。 ステージ2では、入力されたHDR画像を自己校正して最終LDR画像を算出する。 我々は、同じHDRイメージを学習したトーンマッピングネットワークに異なる最大輝度で再スケールし、異なる詳細視認性と彩度の異なる擬似多重露光画像スタックを生成する。 次に,複数露光画像融合(MEF-SSIM)のための構造類似度指数の変種を最大化することにより,LDR画像スタックを所望のLDR画像に融合するように,別の軽量DNNを訓練する。 MEFを用いた自己校正機構により,生理駆動型で非校正HDR画像の受信が可能となった。 広範に実験した結果,本手法は一貫して良好な視覚品質を持つ画像を生成することがわかった。 さらに,本手法は3つの軽量DNN上に構築されているため,最も高速なローカルTMOの1つである。

With the increasing popularity and accessibility of high dynamic range (HDR) photography, tone mapping operators (TMOs) for dynamic range compression are practically demanding. In this paper, we develop a two-stage neural network-based TMO that is self-calibrated and perceptually optimized. In Stage one, motivated by the physiology of the early stages of the human visual system, we first decompose an HDR image into a normalized Laplacian pyramid. We then use two lightweight deep neural networks (DNNs), taking the normalized representation as input and estimating the Laplacian pyramid of the corresponding LDR image. We optimize the tone mapping network by minimizing the normalized Laplacian pyramid distance (NLPD), a perceptual metric aligning with human judgments of tone-mapped image quality. In Stage two, the input HDR image is self-calibrated to compute the final LDR image. We feed the same HDR image but rescaled with different maximum luminances to the learned tone mapping network, and generate a pseudo-multi-exposure image stack with different detail visibility and color saturation. We then train another lightweight DNN to fuse the LDR image stack into a desired LDR image by maximizing a variant of the structural similarity index for multi-exposure image fusion (MEF-SSIM), which has been proven perceptually relevant to fused image quality. The proposed self-calibration mechanism through MEF enables our TMO to accept uncalibrated HDR images, while being physiology-driven. Extensive experiments show that our method produces images with consistently better visual quality. Additionally, since our method builds upon three lightweight DNNs, it is among the fastest local TMOs.
翻訳日:2023-08-28 18:24:03 公開日:2023-08-25
# 一般化された量子シュタインの補題の証明のギャップとその量子資源の可逆性への帰結について

On a gap in the proof of the generalised quantum Stein's lemma and its consequences for the reversibility of quantum resources ( http://arxiv.org/abs/2205.02813v4 )

ライセンス: Link先を確認
Mario Berta, Fernando G. S. L. Brand\~ao, Gilad Gour, Ludovico Lami, Martin B. Plenio, Bartosz Regula, Marco Tomamichel(参考訳) 一般化された量子シュタインの補題 [Brand\~ao & Plenio, Commun] の証明を示す。 数学 Phys 295, 791 (2010)] は、Lemma III.9 に至る議論のギャップのために正しくない。 したがって、Brand\~ao & Plenioの達成可能性の主な成果は分かっていない。 これは文学におけるいくつかの確立された結果、特に量子エンタングルメントの可逆性 [brand\~ao & plenio, commun] に疑問を呈する。 数学 Phys 295, 829 (2010), Nat。 Phys 4, 873 (2008) および一般的な量子資源 [Brand\~ao & Gour, Phys. Rev. Lett. 115, 070503 (2015)] の漸近的資源非発生操作。 提案手法では,新たな未解決結果の変種を他の手法を用いて復元する可能性について論じる。

We show that the proof of the generalised quantum Stein's lemma [Brand\~ao & Plenio, Commun. Math. Phys. 295, 791 (2010)] is not correct due to a gap in the argument leading to Lemma III.9. Hence, the main achievability result of Brand\~ao & Plenio is not known to hold. This puts into question a number of established results in the literature, in particular the reversibility of quantum entanglement [Brand\~ao & Plenio, Commun. Math. Phys. 295, 829 (2010); Nat. Phys. 4, 873 (2008)] and of general quantum resources [Brand\~ao & Gour, Phys. Rev. Lett. 115, 070503 (2015)] under asymptotically resource non-generating operations. We discuss potential ways to recover variants of the newly unsettled results using other approaches.
翻訳日:2023-08-28 18:23:33 公開日:2023-08-25
# 違いは何ですか? テンプレート減算を伴わない過渡検出のための畳み込みニューラルネットワークの可能性

What's the Difference? The potential for Convolutional Neural Networks for transient detection without template subtraction ( http://arxiv.org/abs/2203.07390v3 )

ライセンス: Link先を確認
Tatiana Acero-Cuellar, Federica Bianco, Gregory Dobler, Masao Sako and Helen Qu and The LSST Dark Energy Science Collaboration(参考訳) 本稿では,画像アーチファクトから天体物理学的トランジェントを分離するための畳み込みニューラルネットワーク(CNN)の可能性について検討する。このタスクは,大量のデータにおいて,小さな空間スケールでの画像マッチングを伴って,計算的に高価な処理を必要とするテンプレート(または差分)画像を必要とすることなく,「リアルボグス」分類と呼ばれるタスクである。 ダーク・エナジー・サーベイのデータを用いて,(1)「リアル・ボーガス」分類の自動化,(2)過渡的な発見の計算コストの削減についてCNNを用いて検討する。 2つのCNNの効率を類似したアーキテクチャと比較する。1つは「像三重項」(テンプレート、検索、差分画像)を使い、もう1つはテンプレートと検索のみを入力とする。 テスト精度が96%から91.1%に低下していることから,入力における情報損失に伴う効率の低下を測定した。 さらに,テンプレートから必要な情報を学習し,サリエンシマップを探索することで検索する方法について検討する。 本研究は,CNNが画像データにのみ依存し,特徴工学的タスクを必要としない「リアルボグ」分類の優れたモデルであることを確認し,画像の違いを伴わずに高精度(>90%)のモデルを構築することができることを示した。 トレーニングされたニューラルネットワークは、最小の計算コストで予測を生成できるため、この手法の将来の実装は、ルビン天文台のレガシな空間と時間の調査のように、差分画像解析を完全にバイパスすることで、トランジェント検出の計算コストを劇的に削減できると主張している。

We present a study of the potential for Convolutional Neural Networks (CNNs) to enable separation of astrophysical transients from image artifacts, a task known as "real-bogus" classification without requiring a template subtracted (or difference) image which requires a computationally expensive process to generate, involving image matching on small spatial scales in large volumes of data. Using data from the Dark Energy Survey, we explore the use of CNNs to (1) automate the "real-bogus" classification, (2) reduce the computational costs of transient discovery. We compare the efficiency of two CNNs with similar architectures, one that uses "image triplets" (templates, search, and difference image) and one that takes as input the template and search only. We measure the decrease in efficiency associated with the loss of information in input finding that the testing accuracy is reduced from 96% to 91.1%. We further investigate how the latter model learns the required information from the template and search by exploring the saliency maps. Our work (1) confirms that CNNs are excellent models for "real-bogus" classification that rely exclusively on the imaging data and require no feature engineering task; (2) demonstrates that high-accuracy (> 90%) models can be built without the need to construct difference images, but some accuracy is lost. Since once trained, neural networks can generate predictions at minimal computational costs, we argue that future implementations of this methodology could dramatically reduce the computational costs in the detection of transients in synoptic surveys like Rubin Observatory's Legacy Survey of Space and Time by bypassing the Difference Image Analysis entirely.
翻訳日:2023-08-28 18:22:51 公開日:2023-08-25
# モノクロ画像から3Dヒューマンメッシュを復元する:サーベイ

Recovering 3D Human Mesh from Monocular Images: A Survey ( http://arxiv.org/abs/2203.01923v5 )

ライセンス: Link先を確認
Yating Tian, Hongwen Zhang, Yebin Liu, Limin Wang(参考訳) 単眼画像から人間のポーズと形状を推定することは、コンピュータビジョンにおける長年の問題である。 統計ボディーモデルのリリース以来、3Dのメッシュリカバリが注目されている。 2D-to-3Dリフトプロセスにおける課題を克服するために、2つのパラダイムが開発された。 一 最適化目標として異なるデータ項及び正規化項を活用する最適化に基づくパラダイム 二 エンドツーエンドの方法で問題を解決するために、深層学習技術が取り入れられる回帰型パラダイム。 一方、継続的な取り組みは、幅広いデータセットの3Dメッシュラベルの品質向上に向けられている。 過去10年間に顕著な進歩を遂げてきたが、柔軟性のある体の動き、多様な外観、複雑な環境、そして未完成の注釈のために、この課題はまだ挑戦的だ。 私たちの知る限りでは、これはモノラルな3Dメッシュ回復の課題に焦点を当てた初めての調査である。 まず、ボディモデルの導入から始め、その強みと弱みを詳細に分析することで、リカバリフレームワークとトレーニング目標の精巧な分析を行います。 また、データセット、評価メトリクス、ベンチマーク結果も要約します。 オープン問題と今後の方向性は最終的に議論され、研究者のモチベーションを高め、この分野の研究を促進することを望んでいる。 定期的に更新されたプロジェクトページはhttps://github.com/tinatiansjz/hmr-surveyで見ることができる。

Estimating human pose and shape from monocular images is a long-standing problem in computer vision. Since the release of statistical body models, 3D human mesh recovery has been drawing broader attention. With the same goal of obtaining well-aligned and physically plausible mesh results, two paradigms have been developed to overcome challenges in the 2D-to-3D lifting process: i) an optimization-based paradigm, where different data terms and regularization terms are exploited as optimization objectives; and ii) a regression-based paradigm, where deep learning techniques are embraced to solve the problem in an end-to-end fashion. Meanwhile, continuous efforts are devoted to improving the quality of 3D mesh labels for a wide range of datasets. Though remarkable progress has been achieved in the past decade, the task is still challenging due to flexible body motions, diverse appearances, complex environments, and insufficient in-the-wild annotations. To the best of our knowledge, this is the first survey that focuses on the task of monocular 3D human mesh recovery. We start with the introduction of body models and then elaborate recovery frameworks and training objectives by providing in-depth analyses of their strengths and weaknesses. We also summarize datasets, evaluation metrics, and benchmark results. Open issues and future directions are discussed in the end, hoping to motivate researchers and facilitate their research in this area. A regularly updated project page can be found at https://github.com/tinatiansjz/hmr-survey.
翻訳日:2023-08-28 18:22:14 公開日:2023-08-25
# G\"odel's Ontological Argument の簡易変数

A Simplified Variant of G\"odel's Ontological Argument ( http://arxiv.org/abs/2202.06264v3 )

ライセンス: Link先を確認
Christoph Benzm\"uller(参考訳) g\"odel's ontological argument の単純化された変種が提示されている。 単純化された議論は、基本モジュラー論理 K や KT において既に有効であり、モダル崩壊に苦しむことなく、G\ "odel" が用いているような本質(Ess.)と必要存在(NE)のより複雑な述語を避ける。 提示された変種は、現代の証明補助システムと相互作用して行われた一連の理論単純化実験の副作用として得られた。 これらの実験の出発点は、G\ "odel" の引数をコンピュータエンコーディングし、自動推論手法を体系的に適用して、提示された単純化された変種に到達させることであった。 提案した研究は、計算メタ物理における実りある人間とコンピュータの相互作用を実証するものである。 提示された結果が、存在論的議論の魅力と説得力を増すか減らすかは、私が哲学と神学に伝えたい問題である。

A simplified variant of G\"odel's ontological argument is presented. The simplified argument is valid already in basic modal logics K or KT, it does not suffer from modal collapse, and it avoids the rather complex predicates of essence (Ess.) and necessary existence (NE) as used by G\"odel. The variant presented has been obtained as a side result of a series of theory simplification experiments conducted in interaction with a modern proof assistant system. The starting point for these experiments was the computer encoding of G\"odel's argument, and then automated reasoning techniques were systematically applied to arrive at the simplified variant presented. The presented work thus exemplifies a fruitful human-computer interaction in computational metaphysics. Whether the presented result increases or decreases the attractiveness and persuasiveness of the ontological argument is a question I would like to pass on to philosophy and theology.
翻訳日:2023-08-28 18:20:56 公開日:2023-08-25
# ニューラルネットワークに基づく逆問題に対する凸正規化器

A Neural-Network-Based Convex Regularizer for Inverse Problems ( http://arxiv.org/abs/2211.12461v3 )

ライセンス: Link先を確認
Alexis Goujon, Sebastian Neumayer, Pakshal Bohra, Stanislas Ducotterd, Michael Unser(参考訳) 画像再構成問題を解決するディープラーニング手法の出現により、復元品質が大幅に向上した。 残念ながら、これらの新しい手法は信頼性と説明性に欠けることが多く、パフォーマンスの向上を維持しながらこれらの欠点に対処する関心が高まっている。 本研究では,凸リッジ関数の和である正規化子を再検討することでこの問題に取り組む。 このような正規化器の勾配は、活性化関数が増加し学習可能な単一の隠蔽層を持つニューラルネットワークによってパラメータ化される。 このニューラルネットワークは、多段階ガウスデノイザーとして数分以内に訓練される。 難聴,CT,MRIの再建のための数値実験では,同様の信頼性保証を提供する手法よりも改善が見られた。

The emergence of deep-learning-based methods to solve image-reconstruction problems has enabled a significant increase in reconstruction quality. Unfortunately, these new methods often lack reliability and explainability, and there is a growing interest to address these shortcomings while retaining the boost in performance. In this work, we tackle this issue by revisiting regularizers that are the sum of convex-ridge functions. The gradient of such regularizers is parameterized by a neural network that has a single hidden layer with increasing and learnable activation functions. This neural network is trained within a few minutes as a multistep Gaussian denoiser. The numerical experiments for denoising, CT, and MRI reconstruction show improvements over methods that offer similar reliability guarantees.
翻訳日:2023-08-28 18:14:31 公開日:2023-08-25
# 固有自己相似物体検出

Distinctive Self-Similar Object Detection ( http://arxiv.org/abs/2211.10995v2 )

ライセンス: Link先を確認
Zeyu Shangguan, Bocheng Hu, Guohua Dai, Yuyu Liu, Darun Tang, Xingqun Jiang(参考訳) ディープラーニングに基づく物体検出は、人工知能の実践的応用において重要な存在を示している。 しかし, 火災や煙などの物体は, 非固体や様々な形状のため物体検出に困難を伴い, 実用的防火制御の要件を真に満たすことは困難である。 本稿では, 火と煙の自己相似性の特徴的なフラクタル特性が, 様々な形状に苦しむのを緩和できることを示す。 私たちの知る限りでは、この問題を最初に議論する。 火災と煙の自己相似性を評価し,物体検出の精度を向上させるため,ハウドルフ距離を用いてインスタンス間の類似性を記述する半教師あり方式を設計した。 さらに,自己相似という概念に基づき,この課題をより公平な方法で評価するための新しい方法論を考案した。 我々は,yolo や faster r-cnn などの確立したベースラインネットワークに基づいて,ネットワークアーキテクチャを細心の注意を払って設計した。 本研究は, 火災・煙検知データセットの公開実験を行い, 本手法の有効性を確認するため, 徹底的に検証した。 その結果,検出精度は大幅に向上した。

Deep learning-based object detection has demonstrated a significant presence in the practical applications of artificial intelligence. However, objects such as fire and smoke, pose challenges to object detection because of their non-solid and various shapes, and consequently difficult to truly meet requirements in practical fire prevention and control. In this paper, we propose that the distinctive fractal feature of self-similar in fire and smoke can relieve us from struggling with their various shapes. To our best knowledge, we are the first to discuss this problem. In order to evaluate the self-similarity of the fire and smoke and improve the precision of object detection, we design a semi-supervised method that use Hausdorff distance to describe the resemblance between instances. Besides, based on the concept of self-similar, we have devised a novel methodology for evaluating this particular task in a more equitable manner. We have meticulously designed our network architecture based on well-established and representative baseline networks such as YOLO and Faster R-CNN. Our experiments have been conducted on publicly available fire and smoke detection datasets, which we have thoroughly verified to ensure the validity of our approach. As a result, we have observed significant improvements in the detection accuracy.
翻訳日:2023-08-28 18:14:21 公開日:2023-08-25
# 分散グラフニューラルネットワークトレーニング

Distributed Graph Neural Network Training: A Survey ( http://arxiv.org/abs/2211.00216v2 )

ライセンス: Link先を確認
Yingxia Shao, Hongzheng Li, Xizhi Gu, Hongbo Yin, Yawen Li, Xupeng Miao, Wentao Zhang, Bin Cui, Lei Chen(参考訳) グラフニューラルネットワーク(GNN)は、グラフに基づいてトレーニングされたディープラーニングモデルの一種で、さまざまな領域にうまく適用されている。 GNNの有効性にもかかわらず、GNNが大規模グラフに効率的にスケールすることは依然として困難である。 治療法として、分散コンピューティングは、豊富なコンピューティングリソースを提供できるため、大規模GNNをトレーニングするための有望なソリューションとなる。 しかし,グラフ構造の依存性は,大規模通信と作業負荷の不均衡に苦しむ高効率分散GNNトレーニングの達成の難しさを増す。 近年,分散GNN訓練への取り組みが盛んに行われており,一連の学習アルゴリズムやシステムも提案されている。 しかし、GNNトレーニングの分散実行における最適化手法に関する体系的なレビューが欠如している。 本稿では,大規模機能通信,モデルの精度の喪失,ワークロードの不均衡といった,分散GNNトレーニングにおける3つの大きな課題を分析する。 次に,これらの課題に対処する分散GNNトレーニングにおける最適化手法の新しい分類法を提案する。 新しい分類法は、既存のテクニックを、GNNデータパーティション、GNNバッチ生成、GNN実行モデル、GNN通信プロトコルの4つのカテゴリに分類する。 我々は各カテゴリのテクニックを慎重に議論する。 最後に,マルチGPU,GPUクラスタ,CPUクラスタ用の既存の分散GNNシステムをまとめた上で,分散GNNトレーニングの今後の方向性について論じる。

Graph neural networks (GNNs) are a type of deep learning models that are trained on graphs and have been successfully applied in various domains. Despite the effectiveness of GNNs, it is still challenging for GNNs to efficiently scale to large graphs. As a remedy, distributed computing becomes a promising solution of training large-scale GNNs, since it is able to provide abundant computing resources. However, the dependency of graph structure increases the difficulty of achieving high-efficiency distributed GNN training, which suffers from the massive communication and workload imbalance. In recent years, many efforts have been made on distributed GNN training, and an array of training algorithms and systems have been proposed. Yet, there is a lack of systematic review on the optimization techniques for the distributed execution of GNN training. In this survey, we analyze three major challenges in distributed GNN training that are massive feature communication, the loss of model accuracy and workload imbalance. Then we introduce a new taxonomy for the optimization techniques in distributed GNN training that address the above challenges. The new taxonomy classifies existing techniques into four categories that are GNN data partition, GNN batch generation, GNN execution model, and GNN communication protocol. We carefully discuss the techniques in each category. In the end, we summarize existing distributed GNN systems for multi-GPUs, GPU-clusters and CPU-clusters, respectively, and give a discussion about the future direction on distributed GNN training.
翻訳日:2023-08-28 18:14:04 公開日:2023-08-25
# 一級ハイパースペクトル画像分類における一級リスク推定

One-Class Risk Estimation for One-Class Hyperspectral Image Classification ( http://arxiv.org/abs/2210.15457v2 )

ライセンス: Link先を確認
Hengwei Zhao, Yanfei Zhong, Xinyu Wang, Hong Shu(参考訳) ハイパースペクトル画像(HSI)の1クラス分類は、肯定的なデータのみを知ることによって、HSIから単一のターゲットクラスを識別することを目的としており、アノテーションの要求を大幅に低減することができる。 しかし,一類分類がhsiを満たした場合,分布重複や分布不均衡の問題から,正のデータのオーバーフィッティングと過フィッティングのバランスを見出すことは困難である。 深層学習に基づく手法は現在,hsiマルチクラス化における分布重複を克服する主流となっているが,深層学習に基づくhsi one-class分類に注目した研究は少ない。 本稿では, リスク推定器である1クラスのリスク推定器であるHOneClsを, 分布不均衡の場合の1クラスの分類能力を備えた完全畳み込みニューラルネットワーク(FCN)を実現するために, 弱教師付き深部HSIワンクラス分類器を提案する。 提案する分類器の優越性を示すために,広範な実験(合計20課題)を行った。

Hyperspectral imagery (HSI) one-class classification is aimed at identifying a single target class from the HSI by using only knowing positive data, which can significantly reduce the requirements for annotation. However, when one-class classification meets HSI, it is difficult for classifiers to find a balance between the overfitting and underfitting of positive data due to the problems of distribution overlap and distribution imbalance. Although deep learning-based methods are currently the mainstream to overcome distribution overlap in HSI multiclassification, few studies focus on deep learning-based HSI one-class classification. In this article, a weakly supervised deep HSI one-class classifier, namely, HOneCls, is proposed, where a risk estimator,the one-class risk estimator, is particularly introduced to make the fully convolutional neural network (FCN) with the ability of one class classification in the case of distribution imbalance. Extensive experiments (20 tasks in total) were conducted to demonstrate the superiority of the proposed classifier.
翻訳日:2023-08-28 18:13:42 公開日:2023-08-25
# Frenkel-Kontorova模型のクエンチ力学における位相欠陥の注入と核化

Injection and nucleation of topological defects in the quench dynamics of the Frenkel-Kontorova model ( http://arxiv.org/abs/2210.14904v4 )

ライセンス: Link先を確認
Oksana Chelpanova, Shane P. Kelly, Giovanna Morigi, Ferdinand Schmidt-Kaler and Jamir Marino(参考訳) トポロジカル欠陥は材料の弾性と非弾性の両方に強い影響を与える。 本稿では,固体格子構造の量子シミュレータにおいて,位相的欠陥を制御的に注入する可能性を検討する。 低温原子と捕獲されたイオン結晶中の粒子の解離をモデル化するために用いられるfrenkel-kontorova鎖のクエンチダイナミクスについて検討した。 外部周期ポテンシャルと粒子間相互作用との相互作用により、格子の解離、モデルの位相的欠陥はエネルギー的に良好であり、共役非共役構造遷移を調整できる。 我々の重要な発見は、コンメンシュレートから非コンメンシュレートフェーズへのクエンチが周期時間間隔で位相欠陥の制御可能な注入を引き起こすことである。 我々はこの機構を用いて、トポロジ的欠陥のある格子構造の重ね合わせである量子状態を生成する。 最後に, 捕捉イオン実験における位相欠陥の観察と制御のための具体的視点を提示した。

Topological defects have strong impact on both elastic and inelastic properties of materials. In this article, we investigate the possibility to controllably inject topological defects in quantum simulators of solid state lattice structures. We investigate the quench dynamics of a Frenkel-Kontorova chain, which is used to model discommensurations of particles in cold atoms and trapped ionic crystals. The interplay between an external periodic potential and the inter-particle interaction makes lattice discommensurations, the topological defects of the model, energetically favorable and can tune a commensurate-incommensurate structural transition. Our key finding is that a quench from the commensurate to incommensurate phase causes a controllable injection of topological defects at periodic time intervals. We employ this mechanism to generate quantum states which are a superposition of lattice structures with and without topological defects. We conclude by presenting concrete perspectives for the observation and control of topological defects in trapped ion experiments.
翻訳日:2023-08-28 18:13:24 公開日:2023-08-25
# アルツハイマー病のサブタイプ同定のための病理ステアリングネットワーク

Pathology Steered Stratification Network for Subtype Identification in Alzheimer's Disease ( http://arxiv.org/abs/2210.05880v2 )

ライセンス: Link先を確認
Enze Xu, Jingwen Zhang, Jiadi Li, Qianqian Song, Defu Yang, Guorong Wu, Minghan Chen(参考訳) アルツハイマー病 (ad) は、βアミロイド、病理tau、神経変性を特徴とする異種多因子性神経変性障害である。 後期のアルツハイマー病には効果的な治療法はなく、早期介入を勧めている。 しかし、ADサブタイプ同定の既存の統計的推測手法は、病理領域の知識を無視しており、それが時には本質的な神経学原理と矛盾する結果をもたらす可能性がある。 システム生物学モデリングと機械学習を統合することで,AD病理における確立されたドメイン知識を反応拡散モデルにより組み込んだ新しい病理組織階層ネットワーク(PSSN)を提案し,主要なバイオマーカー間の非線形相互作用と脳構造ネットワークに沿った拡散について考察する。 縦型マルチモーダルニューロイメージングデータに基づいてトレーニングされた生体モデルは、個々の進行パターンを捉えた長期的軌跡を予測し、利用可能なスパースな画像データ間のギャップを埋める。 次に深層予測ニューラルネットワークを構築し、時空間ダイナミクスを活用し、神経学的検査と臨床プロファイルをリンクし、個々のサブタイプ割り当て確率を生成する。 さらに、広範囲なシミュレーションにより、サブタイプ遷移確率を定量化する進化病図を同定する。 クラスタ間均質性およびクラスタ内均質性の両方において,臨床検査結果の成層性は良好である。 老化個体群を豊かにするアプローチを用いて,adスペクトルにまたがる6つのサブタイプを同定し,各サブタイプは臨床結果と一致した特徴的なバイオマーカーパターンを示す。 PSSNは、症状前診断の洞察と臨床治療の実践的ガイダンスを提供し、他の神経変性疾患にさらに一般化される可能性がある。

Alzheimer's disease (AD) is a heterogeneous, multifactorial neurodegenerative disorder characterized by beta-amyloid, pathologic tau, and neurodegeneration. There are no effective treatments for Alzheimer's disease at a late stage, urging for early intervention. However, existing statistical inference approaches of AD subtype identification ignore the pathological domain knowledge, which could lead to ill-posed results that are sometimes inconsistent with the essential neurological principles. Integrating systems biology modeling with machine learning, we propose a novel pathology steered stratification network (PSSN) that incorporates established domain knowledge in AD pathology through a reaction-diffusion model, where we consider non-linear interactions between major biomarkers and diffusion along brain structural network. Trained on longitudinal multimodal neuroimaging data, the biological model predicts long-term trajectories that capture individual progression pattern, filling in the gaps between sparse imaging data available. A deep predictive neural network is then built to exploit spatiotemporal dynamics, link neurological examinations with clinical profiles, and generate subtype assignment probability on an individual basis. We further identify an evolutionary disease graph to quantify subtype transition probabilities through extensive simulations. Our stratification achieves superior performance in both inter-cluster heterogeneity and intra-cluster homogeneity of various clinical scores. Applying our approach to enriched samples of aging populations, we identify six subtypes spanning AD spectrum, where each subtype exhibits a distinctive biomarker pattern that is consistent with its clinical outcome. PSSN provides insights into pre-symptomatic diagnosis and practical guidance on clinical treatments, which may be further generalized to other neurodegenerative diseases.
翻訳日:2023-08-28 18:12:22 公開日:2023-08-25
# unrollingの呪い:最適化による差別化率

The Curse of Unrolling: Rate of Differentiating Through Optimization ( http://arxiv.org/abs/2209.13271v3 )

ライセンス: Link先を確認
Damien Scieur, Quentin Bertrand, Gauthier Gidel, Fabian Pedregosa(参考訳) 最適化問題の解のヤコビアンを計算することは、ハイパーパラメータ最適化、メタラーニング、層としての最適化、データセット蒸留など、機械学習における中心的な問題である。 unrolled differentiationは、反復解法を用いて解を近似し、計算経路を微分する一般的なヒューリスティックである。 この研究は、勾配降下とチェビシェフ法に対する二次目的に対するこのアプローチの非漸近収束率解析を提供する。 我々は、ヤコビアンの収束を保証するために、どちらかが可能であることを示す。 1)高速な漸近収束につながる大きな学習率を選択するが、アルゴリズムが任意に長いバーンインフェーズを持つことを受け入れるか、 2) より少ない学習率を選択して, 瞬時に, 緩やかに収束させる。 我々はこの現象を解脱の呪いと呼ぶ。 最後に, 最適展開戦略のための実用的な更新規則の導出やソボレフ直交多項式の分野との新たな接続など, このアプローチに対するオープンな問題について議論する。

Computing the Jacobian of the solution of an optimization problem is a central problem in machine learning, with applications in hyperparameter optimization, meta-learning, optimization as a layer, and dataset distillation, to name a few. Unrolled differentiation is a popular heuristic that approximates the solution using an iterative solver and differentiates it through the computational path. This work provides a non-asymptotic convergence-rate analysis of this approach on quadratic objectives for gradient descent and the Chebyshev method. We show that to ensure convergence of the Jacobian, we can either 1) choose a large learning rate leading to a fast asymptotic convergence but accept that the algorithm may have an arbitrarily long burn-in phase or 2) choose a smaller learning rate leading to an immediate but slower convergence. We refer to this phenomenon as the curse of unrolling. Finally, we discuss open problems relative to this approach, such as deriving a practical update rule for the optimal unrolling strategy and making novel connections with the field of Sobolev orthogonal polynomials.
翻訳日:2023-08-28 18:11:53 公開日:2023-08-25
# 空間的登録を伴う男性骨盤骨盤構造の原型的少数ショットセグメンテーション

Prototypical few-shot segmentation for cross-institution male pelvic structures with spatial registration ( http://arxiv.org/abs/2209.05160v3 )

ライセンス: Link先を確認
Yiwen Li, Yunguan Fu, Iani Gayo, Qianye Yang, Zhe Min, Shaheer Saeed, Wen Yan, Yipei Wang, J. Alison Noble, Mark Emberton, Matthew J. Clarkson, Henkjan Huisman, Dean Barratt, Victor Adrian Prisacariu, Yipeng Hu(参考訳) 医用画像解析において、少ないショットラーニングを望ましいものにする技術は、サポート画像データの効率的な利用であり、新しいクラスを分類または分割するためにラベル付けされている。 この研究は、訓練されたネットワークが、訓練中に欠落している臨床的に興味深い構造に効果的に適応できるように、完全に3次元のプロトタイプな少数ショットセグメンテーションアルゴリズムを記述する。 第一に、新しいクラスのエピソディックな適応における制度間の広く認められた空間変動を補うために、新しい空間登録機構を、セグメンテーションヘッドと空間アライメントモジュールからなる原型学習に統合する。 第2に,不完全なアライメントによるトレーニングを支援するため,サポートマスクコンディショニングモジュールを提案し,サポート画像から利用可能なアノテーションをさらに活用する。 7つの施設で取得した589個の骨盤T2強調MR画像のデータセットを用いて、介入計画に重要な8つの解剖学的構造を分割する実験を行った。 その結果,3次元の定式化,空間登録,サポートマスクコンディショニングの各効果が示され,それぞれが独立的あるいは集団的に正の貢献をした。 従来提案されていた2D代替機と比較して,支援データが同一または異なる機関からのものであっても,統計的に有意な差がみられた。

The prowess that makes few-shot learning desirable in medical image analysis is the efficient use of the support image data, which are labelled to classify or segment new classes, a task that otherwise requires substantially more training images and expert annotations. This work describes a fully 3D prototypical few-shot segmentation algorithm, such that the trained networks can be effectively adapted to clinically interesting structures that are absent in training, using only a few labelled images from a different institute. First, to compensate for the widely recognised spatial variability between institutions in episodic adaptation of novel classes, a novel spatial registration mechanism is integrated into prototypical learning, consisting of a segmentation head and an spatial alignment module. Second, to assist the training with observed imperfect alignment, support mask conditioning module is proposed to further utilise the annotation available from the support images. Extensive experiments are presented in an application of segmenting eight anatomical structures important for interventional planning, using a data set of 589 pelvic T2-weighted MR images, acquired at seven institutes. The results demonstrate the efficacy in each of the 3D formulation, the spatial registration, and the support mask conditioning, all of which made positive contributions independently or collectively. Compared with the previously proposed 2D alternatives, the few-shot segmentation performance was improved with statistical significance, regardless whether the support data come from the same or different institutes.
翻訳日:2023-08-28 18:11:36 公開日:2023-08-25
# 導波路量子電磁力学における位相逆バンド理論

Topological inverse band theory in waveguide quantum electrodynamics ( http://arxiv.org/abs/2301.05481v3 )

ライセンス: Link先を確認
Yongguan Ke, Jiaxuan Huang, Wenjie Liu, Yuri Kivshar, Chaohong Lee(参考訳) 位相相は光-物質相互作用の基礎物理学と量子技術の新たな応用において重要な役割を果たす。 しかし、導波路QED系のトポロジカルバンド理論はエネルギーバンドが切断されるため、崩壊することが知られている。 本稿では、逆エネルギーバンドの概念を導入し、量子エミッタの配列を持つ導波路における解析的トポロジカル散乱を探索する。 位相相転移のリッチな構造、対称なスケールフリー局在、完全に平坦なバンド、対応するダークワニエ状態を明らかにする。 バルクエッジ対応は放射崩壊により部分的に破壊されているが、スケールフリーな局所状態は位相相の1つの逆エネルギー帯と自明な相の2つの逆バンドに分布していることが解析的に証明される。 驚くべきことに、散乱テクスチャの巻線数は、逆ラジアントバンドの位相位相と細胞数のオードビティの両方に依存する。 我々の研究は位相逆バンドの分野を解明し、光間相互作用の位相相に新しいビジョンをもたらす。

Topological phases play a crucial role in the fundamental physics of light-matter interaction and emerging applications of quantum technologies. However, the topological band theory of waveguide QED systems is known to break down, because the energy bands become disconnected. Here, we introduce a concept of the inverse energy band and explore analytically topological scattering in a waveguide with an array of quantum emitters. We uncover a rich structure of topological phase transitions, symmetric scale-free localization, completely flat bands, and the corresponding dark Wannier states. Although bulk-edge correspondence is partially broken because of radiative decay, we prove analytically that the scale-free localized states are distributed in a single inverse energy band in the topological phase and in two inverse bands in the trivial phase. Surprisingly, the winding number of the scattering textures depends on both the topological phase of inverse subradiant band and the odevity of the cell number. Our work uncovers the field of the topological inverse bands, and it brings a novel vision to topological phases in light-matter interactions.
翻訳日:2023-08-28 18:02:14 公開日:2023-08-25
# 量子誤差補正のための変分量子アルゴリズムの高速化

Improving the speed of variational quantum algorithms for quantum error correction ( http://arxiv.org/abs/2301.05273v3 )

ライセンス: Link先を確認
Fabio Zoratti, Giacomo De Palma, Bobak Kiani, Quynh T. Nguyen, Milad Marvian, Seth Lloyd, Vittorio Giovannetti(参考訳) 本稿では、量子回路に作用する汎用量子ノイズに対して、適切な量子誤り補正(QEC)手順を考案する問題を考察する。 一般に、符号化と補正のユニタリゲートを得るための解析的な普遍的な手続きは存在せず、ノイズが不明で再構成が必要ならば問題はさらに困難である。 既存の手順は変分量子アルゴリズム(VQA)に依存しており、コスト関数の勾配の大きさは量子ビット数とともに指数関数的に減衰するため、訓練は非常に困難である。 我々は、オーダー1の量子ワッサースタイン距離(qw_1$)に基づくコスト関数を用いてこの問題に対処する。 量子情報処理で一般的に用いられる他の量子距離との分散において、$QW_1$はユニタリ不変性に欠けており、局所ミニマに閉じ込められるのを避けるのに適したツールである。 精度の高いQEC解が知られ理論的なベンチマークとして使用できる単純なノイズモデルに焦点をあて、VQA探索を$QW_1$で導くことによって、従来の手法を用いて得られた結果に対して、学習の成功率と回復状態の忠実度の両方を著しく向上させることができることを示す一連の数値実験を行う。

We consider the problem of devising a suitable Quantum Error Correction (QEC) procedures for a generic quantum noise acting on a quantum circuit. In general, there is no analytic universal procedure to obtain the encoding and correction unitary gates, and the problem is even harder if the noise is unknown and has to be reconstructed. The existing procedures rely on Variational Quantum Algorithms (VQAs) and are very difficult to train since the size of the gradient of the cost function decays exponentially with the number of qubits. We address this problem using a cost function based on the Quantum Wasserstein distance of order 1 ($QW_1$). At variance with other quantum distances typically adopted in quantum information processing, $QW_1$ lacks the unitary invariance property which makes it a suitable tool to avoid to get trapped in local minima. Focusing on a simple noise model for which an exact QEC solution is known and can be used as a theoretical benchmark, we run a series of numerical tests that show how, guiding the VQA search through the $QW_1$, can indeed significantly increase both the probability of a successful training and the fidelity of the recovered state, with respect to the results one obtains when using conventional approaches.
翻訳日:2023-08-28 18:01:52 公開日:2023-08-25
# 二進変調連続可変量子鍵分布の精製有限サイズ解析

Refined finite-size analysis of binary-modulation continuous-variable quantum key distribution ( http://arxiv.org/abs/2301.03171v3 )

ライセンス: Link先を確認
Takaya Matsuura, Shinichiro Yamano, Yui Kuramochi, Toshihiko Sasaki, Masato Koashi(参考訳) 近年の研究では、一般攻撃に対するバイナリ変調CV-QKDプロトコルの有限サイズセキュリティが示されている。 しかし、送信距離に対するキーレートのスケーリングは低かった。 ここでは、離散可変QKDで使用される相補性に基づくセキュリティ証明を、有限サイズ体制下での逆整合による以前に開発されたバイナリ変調CV-QKDプロトコルに拡張し、キーレートを大幅に改善する。 特に、漸近極限の鍵速度は、最適スケーリングであるが以前の有限次元解析では達成されない減衰速度に対して線形にスケールする。 この洗練されたセキュリティアプローチは、他の離散変調CV-QKDプロトコルの完全なセキュリティ証明を提供するかもしれない。

Recent studies showed the finite-size security of binary-modulation CV-QKD protocols against general attacks. However, they gave poor key-rate scaling against transmission distance. Here, we extend the security proof based on complementarity, which is used in the discrete-variable QKD, to the previously developed binary-modulation CV-QKD protocols with the reverse reconciliation under the finite-size regime and obtain large improvements in the key rates. Notably, the key rate in the asymptotic limit scales linearly against the attenuation rate, which is known to be optimal scaling but is not achieved in previous finite-size analyses. This refined security approach may offer full-fledged security proofs for other discrete-modulation CV-QKD protocols.
翻訳日:2023-08-28 18:01:31 公開日:2023-08-25
# 4H-SiCにおけるSi空孔中心の音響誘起スピン共鳴の同定

Identification of acoustically induced spin resonances of Si vacancy centers in 4H-SiC ( http://arxiv.org/abs/2212.07704v2 )

ライセンス: Link先を確認
T. Vasselon, A. Hern\'andez-M\'inguez, M. Hollenbach, G. V. Astakhov, P. V. Santos(参考訳) 4H-SiCにおけるシリコン空孔の長寿命かつ光学的に対応可能なスピン状態(\mathrm{V}_\mathrm{Si}$)は、量子通信とセンシングに有望な量子ビットを与える。 これらの色中心は4H-SiCホストの六方晶(V1)と立方晶(V2)の両方で生成することができる。 V2中心のスピンは室温で光学的に検出された磁気共鳴によって効率よく操作できるが、V1中心の極低温でのスピン制御はいまだに解明されていない。 本稿では,表面波の動的歪みがこの限界を克服し,v1中心の磁気共鳴を室温まで効率的に励起することを示す。 V1中心の音波誘起スピン共鳴の幅と温度依存性に基づいて、励起状態におけるスピンサブレベル間の遷移を考慮に入れた。 励起状態の中心にある$\mathrm{V}_\mathrm{Si}$の両方の種類の音響スピン制御は、スピン-オプトメカニクスに基づく量子技術への応用のための新しい方法を開く。

The long-lived and optically addressable spin states of silicon vacancies ($\mathrm{V}_\mathrm{Si}$) in 4H-SiC make them promising qubits for quantum communication and sensing. These color centers can be created in both the hexagonal (V1) and in the cubic (V2) local crystallographic environments of the 4H-SiC host. While the spin of the V2 center can be efficiently manipulated by optically detected magnetic resonance at room temperature, spin control of the V1 centers above cryogenic temperatures has so far remained elusive. Here, we show that the dynamic strain of surface acoustic waves can overcome this limitation and efficiently excite magnetic resonances of V1 centers up to room temperature. Based on the width and temperature dependence of the acoustically induced spin resonances of the V1 centers, we attribute them to transitions between spin sublevels in the excited state. The acoustic spin control of both kinds of $\mathrm{V}_\mathrm{Si}$ centers in their excited states opens new ways for applications in quantum technologies based on spin-optomechanics.
翻訳日:2023-08-28 18:00:58 公開日:2023-08-25
# ソースフリードメイン適応における事前学習ネットワークの役割再考

Rethinking the Role of Pre-Trained Networks in Source-Free Domain Adaptation ( http://arxiv.org/abs/2212.07585v2 )

ライセンス: Link先を確認
Wenyu Zhang, Li Shen, Chuan-Sheng Foo(参考訳) source-free domain adaptation(sfda)は、完全にラベル付きソースドメインでトレーニングされたソースモデルを、ラベルなしのターゲットドメインに適応させることを目的としている。 大規模データ事前トレーニングネットワークは、ソーストレーニング中にソースモデルを初期化するために使用され、その後破棄される。 しかし、ソーストレーニングは、モデルがソースデータ分散に過剰に適合し、適切なターゲットドメイン知識を失う可能性がある。 汎用化に重要な特徴を多角化し,ソースモデルとは異なる特徴や分類判断の代替視点を提供するため,事前学習したネットワークを対象適応プロセスに統合することを提案する。 提案手法は,ソースモデルを微調整するための擬似ラベル品質を改善するための学習戦略である。 4つのベンチマークデータセットから,提案手法は適応性能を向上し,既存のSFDA法とうまく統合できることを示す。 コラーニング戦略において表現学習能力が強化された現代的な事前学習ネットワークを活用することで、パフォーマンスはさらに向上する。

Source-free domain adaptation (SFDA) aims to adapt a source model trained on a fully-labeled source domain to an unlabeled target domain. Large-data pre-trained networks are used to initialize source models during source training, and subsequently discarded. However, source training can cause the model to overfit to source data distribution and lose applicable target domain knowledge. We propose to integrate the pre-trained network into the target adaptation process as it has diversified features important for generalization and provides an alternate view of features and classification decisions different from the source model. We propose to distil useful target domain information through a co-learning strategy to improve target pseudolabel quality for finetuning the source model. Evaluation on 4 benchmark datasets show that our proposed strategy improves adaptation performance and can be successfully integrated with existing SFDA methods. Leveraging modern pre-trained networks that have stronger representation learning ability in the co-learning strategy further boosts performance.
翻訳日:2023-08-28 18:00:40 公開日:2023-08-25
# EmoTalk:3次元顔アニメーションのための音声駆動型感情分散

EmoTalk: Speech-Driven Emotional Disentanglement for 3D Face Animation ( http://arxiv.org/abs/2303.11089v2 )

ライセンス: Link先を確認
Ziqiao Peng, Haoyu Wu, Zhenbo Song, Hao Xu, Xiangyu Zhu, Jun He, Hongyan Liu, Zhaoxin Fan(参考訳) 音声駆動の3d顔アニメーションは、音声の内容と感情にマッチするリアルな表情を作り出すことを目的としている。 しかし、既存の方法は感情的な表情を無視したり、それらが音声の内容から切り離されることがしばしばある。 そこで本稿では,音声中の異なる感情を分離し,リッチな3次元表情を生成するエンド・ツー・エンドニューラルネットワークを提案する。 具体的には,感情ラベルの異なる合成音声信号を用いて,音声中の感情と内容の絡み合いを解消する感情分離エンコーダ(ede)を提案する。 そして、感情誘導機能融合デコーダを用いて、感情を増強した3D音声顔を生成する。 デコーダは、分離されたアイデンティティ、感情、およびコンテンツ埋め込みによって駆動され、制御可能な個人的および感情的なスタイルを生成する。 最後に,3次元の感情的会話顔データの不足を考慮し,2次元の感情的データから可視な3次元顔の再構成を可能にし,ネットワークのトレーニングに大規模な3次元の感情的会話顔データセット(3D-ETF)を提供する。 実験とユーザスタディにより,このアプローチが最先端の手法を上回り,より多様な顔の動きを示すことが示された。 補足ビデオを見て欲しい。 https://ziqiaopeng.github.io/emotalk

Speech-driven 3D face animation aims to generate realistic facial expressions that match the speech content and emotion. However, existing methods often neglect emotional facial expressions or fail to disentangle them from speech content. To address this issue, this paper proposes an end-to-end neural network to disentangle different emotions in speech so as to generate rich 3D facial expressions. Specifically, we introduce the emotion disentangling encoder (EDE) to disentangle the emotion and content in the speech by cross-reconstructed speech signals with different emotion labels. Then an emotion-guided feature fusion decoder is employed to generate a 3D talking face with enhanced emotion. The decoder is driven by the disentangled identity, emotional, and content embeddings so as to generate controllable personal and emotional styles. Finally, considering the scarcity of the 3D emotional talking face data, we resort to the supervision of facial blendshapes, which enables the reconstruction of plausible 3D faces from 2D emotional data, and contribute a large-scale 3D emotional talking face dataset (3D-ETF) to train the network. Our experiments and user studies demonstrate that our approach outperforms state-of-the-art methods and exhibits more diverse facial movements. We recommend watching the supplementary video: https://ziqiaopeng.github.io/emotalk
翻訳日:2023-08-28 17:54:31 公開日:2023-08-25
# テキスト・画像拡散モデルにおける帰属推定の編集

Editing Implicit Assumptions in Text-to-Image Diffusion Models ( http://arxiv.org/abs/2303.08084v2 )

ライセンス: Link先を確認
Hadas Orgad, Bahjat Kawar, Yonatan Belinkov(参考訳) テキストから画像への拡散モデルは、しばしば画像を生成するときに世界の暗黙の仮定を作る。 いくつかの仮定は有用(例えば空は青)であるが、トレーニングデータに存在する社会的バイアスを時代遅れ、不正確な、あるいは反映することもできる。 したがって、明示的なユーザ入力やコストのかかる再トレーニングを必要とせずに、これらの仮定を制御する必要がある。 本研究では,事前学習した拡散モデルにおいて,与えられた暗黙の仮定を編集することを目的とする。 テキストから画像へのモデル編集方法であるtime for shortは、2つの入力を受け取る: モデルが暗黙の仮定(例えば「バラのパック」)を行う「ソース」未特定プロンプトと、同じ設定を記述しつつ、指定された所望の属性(例えば「青いバラのパック」)を持つ「運命」プロンプト。 timeはモデルのクロスアテンションレイヤを更新し、これらのレイヤはテキストトークンに視覚的な意味を割り当てる。 ソースプロンプトが宛先プロンプトの近くに投影されるように,これらのレイヤ内のプロジェクション行列を編集する。 本手法は,モデルパラメータの2.2%を1秒未満で修正できるため,非常に効率的である。 モデル編集手法を評価するために、様々なドメインから147個のソースと宛先プロンプトペアを含むtimed(time dataset)を導入する。 我々の実験(安定拡散を用いた)では、TIMEはモデル編集に成功し、編集中に見えないプロンプトを一般化し、関係のない世代に最小限の効果を与える。

Text-to-image diffusion models often make implicit assumptions about the world when generating images. While some assumptions are useful (e.g., the sky is blue), they can also be outdated, incorrect, or reflective of social biases present in the training data. Thus, there is a need to control these assumptions without requiring explicit user input or costly re-training. In this work, we aim to edit a given implicit assumption in a pre-trained diffusion model. Our Text-to-Image Model Editing method, TIME for short, receives a pair of inputs: a "source" under-specified prompt for which the model makes an implicit assumption (e.g., "a pack of roses"), and a "destination" prompt that describes the same setting, but with a specified desired attribute (e.g., "a pack of blue roses"). TIME then updates the model's cross-attention layers, as these layers assign visual meaning to textual tokens. We edit the projection matrices in these layers such that the source prompt is projected close to the destination prompt. Our method is highly efficient, as it modifies a mere 2.2% of the model's parameters in under one second. To evaluate model editing approaches, we introduce TIMED (TIME Dataset), containing 147 source and destination prompt pairs from various domains. Our experiments (using Stable Diffusion) show that TIME is successful in model editing, generalizes well for related prompts unseen during editing, and imposes minimal effect on unrelated generations.
翻訳日:2023-08-28 17:53:49 公開日:2023-08-25
# 半教師付き逐次変分ベイズフレームワークによるソフトロボットのクロスドメイン移動学習と状態推定

Cross-domain Transfer Learning and State Inference for Soft Robots via a Semi-supervised Sequential Variational Bayes Framework ( http://arxiv.org/abs/2303.01693v3 )

ライセンス: Link先を確認
Shageenderan Sapai, Junn Yong Loo, Ze Yang Ding, Chee Pin Tan, Raphael CW Phan, Vishnu Monn Baskaran, Surya Girinatha Nurzaman(参考訳) 近年、ディープニューラルネットワークのようなデータ駆動モデルは、ソフトロボットのモデリングと状態推論に有望なツールであることが示されている。 しかし、深いモデルが効果的に実行するには、大量のデータが必要であり、特に状態ラベルにおいて、徹底的で質の高いデータ収集が必要である。 このため,ソフトロボットのセンサ化の難しさや非構造環境におけるデータ収集の不便さなど,ソフトロボットシステムのためのラベル付き状態データを得ることが課題となっている。 この課題に対処するために,本研究では,特定のロボット構成に状態ラベルが欠けているソフトロボットにおいて,伝達学習と状態推論のための半教師付き逐次変分ベイズ(DSVB)フレームワークを提案する。 ソフトロボットは、異なるロボット構成下で異なるダイナミクスを示す可能性があるため、複数の構成にまたがる潜在特徴の適応を促進するために、特徴空間移動戦略も組み込まれている。 提案するdsvbは,従来のトランスファー学習手法とは異なり,リカレントニューラルネットワークを用いて,ソフトロボットデータの非線形ダイナミクスと時間コヒーレンスをモデル化する。 提案フレームワークは,空気圧式ソフトロボットフィンガーの複数の設定構成で検証される。 4つの転送シナリオに関する実験結果から, DSVBは, 状態ラベルの欠落の中で, 効率的な転送学習と正確な状態推定を行うことを示した。 データとコードはhttps://github.com/shageenderan/dsvbで入手できる。

Recently, data-driven models such as deep neural networks have shown to be promising tools for modelling and state inference in soft robots. However, voluminous amounts of data are necessary for deep models to perform effectively, which requires exhaustive and quality data collection, particularly of state labels. Consequently, obtaining labelled state data for soft robotic systems is challenged for various reasons, including difficulty in the sensorization of soft robots and the inconvenience of collecting data in unstructured environments. To address this challenge, in this paper, we propose a semi-supervised sequential variational Bayes (DSVB) framework for transfer learning and state inference in soft robots with missing state labels on certain robot configurations. Considering that soft robots may exhibit distinct dynamics under different robot configurations, a feature space transfer strategy is also incorporated to promote the adaptation of latent features across multiple configurations. Unlike existing transfer learning approaches, our proposed DSVB employs a recurrent neural network to model the nonlinear dynamics and temporal coherence in soft robot data. The proposed framework is validated on multiple setup configurations of a pneumatic-based soft robot finger. Experimental results on four transfer scenarios demonstrate that DSVB performs effective transfer learning and accurate state inference amidst missing state labels. The data and code are available at https://github.com/shageenderan/DSVB.
翻訳日:2023-08-28 17:53:03 公開日:2023-08-25
# 量子状態がエピステミックであるため、量子力学は線形である

Quantum dynamics is linear because quantum states are epistemic ( http://arxiv.org/abs/2302.13421v2 )

ライセンス: Link先を確認
Jacques L. Pienaar(参考訳) 量子理論によれば、封印された実験室の科学者は、重ね合わせの中にいるかどうかを判断できない。 したがって、孤立している限り、測定結果が明確な結果をもたらすという矛盾なく仮定することができる。 これを、局所的な定性と呼ばれる一般的な原則の状態に引き上げます。 この原理を量子論の修正の文脈で適用し、力学を非線形にすることができる。 そのような理論が局所定性を満たすことは、その力学が線型である場合に限る。 さらに、量子状態がエピステミックであるような解釈は必ずその原理を満たすが、量子状態がオンティックであるとする解釈は、力学の線型性を前提とする追加の仮定をしない限り、それを満たさないことに注意する。 したがって、これまでの実験で非線形力学の証拠が見つからなかった理由は、単に量子状態がエピステミックであるからかもしれない。

According to quantum theory, a scientist in a sealed laboratory cannot tell whether they are inside a superposition or not. Consequently, so long as they remain isolated, they can assume without inconsistency that their measurements result in definite outcomes. We elevate this to the status of a general principle, which we call Local Definiteness. We apply this principle in the context of modifications of quantum theory that allow the dynamics to be non-linear. We prove that any such theory satisfies Local Definiteness if and only if its dynamics is linear. We further note that any interpretation that takes quantum states to be epistemic necessarily satisfies the principle, whereas interpretations that take quantum states to be ontic do not satisfy it, unless they make additional assumptions that amount to presupposing linearity of the dynamics. Therefore the reason why experiments to date have not found evidence of non-linear dynamics might simply be that quantum states are epistemic.
翻訳日:2023-08-28 17:52:37 公開日:2023-08-25
# Grimm in Wonderland:FairytalesをイラストにしたMidjourneyによるプロンプトエンジニアリング

Grimm in Wonderland: Prompt Engineering with Midjourney to Illustrate Fairytales ( http://arxiv.org/abs/2302.08961v2 )

ライセンス: Link先を確認
Martin Ruskov(参考訳) テキスト・画像生成の品質は継続的に改善されているが、その適用範囲はまだ不明である。 特に、より良い結果を達成するためのテキスト入力の洗練(一般的にはプロンプトエンジニアリングと呼ばれる)は、既存のテキストを扱うためのものではなかったようだ。 テキスト・ツー・イメージ生成とプロンプト・エンジニアリングを用いて,人気のおとぎ話の基本イラストを作成することができるか検討した。 Midjourney v4を使って、私たちは2つの目的でアクションリサーチに従事します。5つの有名な妖精のそれぞれに5つの可能なイラストを作成し、既存のテキストから始まり、そのイラストに到達する迅速なエンジニアリングプロセスを定義します。 仮の4段階のプロセスに着きます。 i) 最初のプロンプト 二 構成調整 三 様式の洗練、及び iv) 変種選択。 また,生成モデルがある種のイラストに苦しむ3つの理由についても考察した。 本研究は, 特定の世代モデルに限らず, 将来の世代に一般化することを目的としている。

The quality of text-to-image generation is continuously improving, yet the boundaries of its applicability are still unclear. In particular, refinement of the text input with the objective of achieving better results - commonly called prompt engineering - so far seems to have not been geared towards work with pre-existing texts. We investigate whether text-to-image generation and prompt engineering could be used to generate basic illustrations of popular fairytales. Using Midjourney v4, we engage in action research with a dual aim: to attempt to generate 5 believable illustrations for each of 5 popular fairytales, and to define a prompt engineering process that starts from a pre-existing text and arrives at an illustration of it. We arrive at a tentative 4-stage process: i) initial prompt, ii) composition adjustment, iii) style refinement, and iv) variation selection. We also discuss three reasons why the generation model struggles with certain illustrations: difficulties with counts, bias from stereotypical configurations and inability to depict overly fantastic situations. Our findings are not limited to the specific generation model and are intended to be generalisable to future ones.
翻訳日:2023-08-28 17:52:23 公開日:2023-08-25
# 木系モデルの限界特徴属性について

On marginal feature attributions of tree-based models ( http://arxiv.org/abs/2302.08434v2 )

ライセンス: Link先を確認
Khashayar Filom, Alexey Miroshnikov, Konstandinos Kotsiopoulos, Arjun Ravi Kannan(参考訳) そのパワーと使いやすさのため、ランダムな森林や傾斜した樹木のアンサンブルのような木ベースの機械学習モデルは非常に人気がある。 それらを解釈するために、辺縁(インターベンショナル)シャプリー、オーウェンまたはバンジャフの値など、限界的な期待に基づく局所的特徴属性を用いることができる。 そのような手法はモデルと実装不変量(つまりモデルの入出力関数のみに依存する)に当てはまる。 本手法は,2つの(統計的に類似した)決定木を「パス依存」のTreeSHAPが特徴のランク付けを行うのに対して,シャープリー値が一致するのに対して,TreeSHAPアルゴリズムと対比する。 さらに,木質モデルの内部構造がどのように活用され,線形ゲーム値による限界特徴属性の計算に役立てられるかについて議論する。 重要な観察の1つは、これらは訓練されたモデルによって決定される入力空間の特定のグリッド分割に関して単純(ピースワイズ・コンスタント)な関数であるということである。 XGBoost、LightGBM、CatBoostライブラリの実験で示されたもうひとつの重要な観察は、すべての機能がアンサンブルからツリーに表示されることだ。 したがって、余剰Shapley(またはOwenまたはBanzhaf)の特徴属性の計算の複雑さは減少する可能性がある。 これは、我々が公理的に特徴づけるより広範なゲーム値のクラスに対して有効である。 主な例はCatBoostモデルの場合で、木は斜め(対称)であり、それぞれの特徴の数は深さよりも大きくない。 この対称性を利用して,catboostモデルの限界シャプリー値(およびbanzhafとowen値)に対して,複雑性が向上し,内部モデルパラメータが限定された,明示的な公式を導出する。 この結果、これらの特徴の帰属を推定するための高速で正確なアルゴリズムが得られる。

Due to their power and ease of use, tree-based machine learning models, such as random forests and gradient-boosted tree ensembles, have become very popular. To interpret them, local feature attributions based on marginal expectations, e.g. marginal (interventional) Shapley, Owen or Banzhaf values, may be employed. Such methods are true to the model and implementation invariant, i.e. dependent only on the input-output function of the model. We contrast this with the popular TreeSHAP algorithm by presenting two (statistically similar) decision trees that compute the exact same function for which the "path-dependent" TreeSHAP yields different rankings of features, whereas the marginal Shapley values coincide. Furthermore, we discuss how the internal structure of tree-based models may be leveraged to help with computing their marginal feature attributions according to a linear game value. One important observation is that these are simple (piecewise-constant) functions with respect to a certain grid partition of the input space determined by the trained model. Another crucial observation, showcased by experiments with XGBoost, LightGBM and CatBoost libraries, is that only a portion of all features appears in a tree from the ensemble. Thus, the complexity of computing marginal Shapley (or Owen or Banzhaf) feature attributions may be reduced. This remains valid for a broader class of game values which we shall axiomatically characterize. A prime example is the case of CatBoost models where the trees are oblivious (symmetric) and the number of features in each of them is no larger than the depth. We exploit the symmetry to derive an explicit formula, with improved complexity and only in terms of the internal model parameters, for marginal Shapley (and Banzhaf and Owen) values of CatBoost models. This results in a fast, accurate algorithm for estimating these feature attributions.
翻訳日:2023-08-28 17:52:03 公開日:2023-08-25
# PT対称系における非古典性損失の不可避性

Unavoidability of nonclassicality loss in PT-symmetric systems ( http://arxiv.org/abs/2302.04235v2 )

ライセンス: Link先を確認
Jan Perina Jr., Adam Miranowicz, Joanna K. Kalaga, Wieslaw Leonski(参考訳) 非古典性の喪失(量子エンタングルメントを含む)はPT対称系の(一貫性のない)増幅によって補償できないことを示す。 ハイゼンベルク・ランゲヴィン法における量子ゆらぎ力を操作することでこの問題に対処する。 具体的には、pt対称系における2つの非線形結合振動モードのダイナミクスを解析する。 解析的な解法により, 貯留層変動の寄与を, モードの量子統計特性の進化から分離することができる。 一般に、貯水池の変動が常に進行するにつれて、非古典性や絡み合いの完全な損失は長い間観察される。 非古典性と絡み合いの長期進化における貯留層揺らぎの役割を明らかにするために,非古典性と絡み合いに対する致命的な長期的有害影響を観測しない2つの代替モデルから予測を考察し,比較する。 これは、最初の半古典的モデルでは、貯水池の変動は全く考慮されないためである。 しかし、これはゆらぎ散逸定理に違反する。 第2のモデルは、部分的には貯水池の変動を伴うため、ゆらぎと散逸の関係に従う。 しかし, 上述の長期的破壊効果を防止するためには, 貯水池の変動をシンクモデルの非物理的特性に付与する必要がある。 どちらのモデルでも、省略された貯水池のゆらぎの追加は、物理的に一貫した挙動をもたらす。 しかし、この振る舞いは非古典性や絡み合いの段階的な損失を予測する。 したがって、減衰に関連する貯留層揺らぎの影響は増幅に関連するものでは補償できない。

We show that the loss of nonclassicality (including quantum entanglement) cannot be compensated by the (incoherent) amplification of PT-symmetric systems. We address this problem by manipulating the quantum fluctuating forces in the Heisenberg-Langevin approach. Specifically, we analyze the dynamics of two nonlinearly coupled oscillator modes in a PT-symmetric system. An analytical solution allows us to separate the contribution of reservoir fluctuations from the evolution of quantum statistical properties of the modes. In general, as reservoir fluctuations act constantly, the complete loss of nonclassicality and entanglement is observed for long times. To elucidate the role of reservoir fluctuations in a long-time evolution of nonclassicality and entanglement, we consider and compare the predictions from two alternative models in which no fatal long-time detrimental effects on the nonclassicality and entanglement are observed. This is so as, in the first semiclassical model, no reservoir fluctuations are considered at all. This, however, violates the fluctuation-dissipation theorem. The second, more elaborated, model obeys the fluctuation-dissipation relations as it partly involves reservoir fluctuations. However, to prevent from the above long-time detrimental effects, the reservoir fluctuations have to be endowed with the nonphysical properties of a sink model. In both models, additional incorporation of the omitted reservoir fluctuations results in their physically consistent behavior. This behavior, however, predicts the gradual loss of the nonclassicality and entanglement. Thus the effects of reservoir fluctuations related to damping cannot be compensated by those related to amplification.
翻訳日:2023-08-28 17:51:27 公開日:2023-08-25
# NeuRI: 帰納的ルール推論によるDNN生成の多様化

NeuRI: Diversifying DNN Generation via Inductive Rule Inference ( http://arxiv.org/abs/2302.02261v2 )

ライセンス: Link先を確認
Jiawei Liu, Jinjun Peng, Yuyao Wang, Lingming Zhang(参考訳) ディープラーニング(DL)は、意思決定を改善し、プロセスを自動化するために様々な業界で広く使われています。 DLシステムの正確性は、DLアプリケーションの信頼性に不可欠である。 このように、最近の研究の波は、ファジィDLシステムのためのテストケース(DNNモデルとその入力)の自動合成の研究である。 しかし、既存のモデルジェネレータは限られた数の演算子のみをサブスクライブし、演算子制約を広くモデル化する能力に欠ける。 この課題に対処するために,数百種類の演算子からなる有効かつ多様なDLモデルを生成するための,完全に自動化されたアプローチであるNeuRIを提案する。 NeuRIは3段階のプロセスを採用しています。 i) 各種情報源から有効かつ無効なAPIトレースを収集すること。 (ii)有効なモデルを構築するための制約を推測するために、トレースに帰納的プログラム合成を適用すること。 (iii)シンボリック演算子とコンクリート演算子を共用してハイブリッドモデルを生成すること。 我々の評価によると、NeuRIは最先端のモデルレベルのファザよりもTensorFlowとPyTorchのブランチカバレッジを24%、15%改善している。 NeuRIは4ヶ月でPyTorchとTensorFlowの100の新しいバグを発見し、81がすでに修正または確認されており、PyTorchがラベル付けした8つの優先度の高いバグが、この期間のすべての優先度の高いバグの10%を構成している。 さらに、オープンソース開発者は、当社が報告したエラー誘発モデルを“高品質”と“実践上の一般的な”とみなしています。

Deep Learning (DL) is prevalently used in various industries to improve decision-making and automate processes, driven by the ever-evolving DL libraries and compilers. The correctness of DL systems is crucial for trust in DL applications. As such, the recent wave of research has been studying the automated synthesis of test-cases (i.e., DNN models and their inputs) for fuzzing DL systems. However, existing model generators only subsume a limited number of operators, lacking the ability to pervasively model operator constraints. To address this challenge, we propose NeuRI, a fully automated approach for generating valid and diverse DL models composed of hundreds of types of operators. NeuRI adopts a three-step process: (i) collecting valid and invalid API traces from various sources; (ii) applying inductive program synthesis over the traces to infer the constraints for constructing valid models; and (iii) performing hybrid model generation by incorporating both symbolic and concrete operators concolically. Our evaluation shows that NeuRI improves branch coverage of TensorFlow and PyTorch by 24% and 15% over the state-of-the-art model-level fuzzers. NeuRI finds 100 new bugs for PyTorch and TensorFlow in four months, with 81 already fixed or confirmed, and 8 high-priority bugs labeled by PyTorch, constituting 10% of all high-priority bugs of the period. Additionally, open-source developers regard error-inducing models reported by us as "high-quality" and "common in practice".
翻訳日:2023-08-28 17:51:06 公開日:2023-08-25
# プロンプトによる社会チャットボットのオンライン評価の近似

Approximating Online Human Evaluation of Social Chatbots with Prompting ( http://arxiv.org/abs/2304.05253v2 )

ライセンス: Link先を確認
Ekaterina Svikhnushina and Pearl Pu(参考訳) 会話モデルが一般大衆に普及するにつれて、ユーザーはこのテクノロジーをソーシャルなインタラクションで利用している。 このような前例のない対話体験は、テクノロジーが適切に制御されない限り、ユーザーにかなりの社会的および心理的リスクをもたらす可能性がある。 これは、対話型チャットボットのスケーラブルで堅牢な評価指標の必要性を強調している。 既存の評価指標は、オフラインユーザ評価の自動化と、事前計算したダイアログの人的判断の近似を目的としている。 しかし、ボットと実際に対話し、現実世界の設定に一般化しないユーザーの主観的な認識を捉える能力は限られている。 この制限に対処するため,GPTファミリーの大規模言語モデル(LLM)を利用したオンライン人文評価手法を提案する。 本稿では,実生のユーザ研究を再現し,人間の判断と印象的な相関関係(pearson r=0.95まで)を実現する,完全自動評価パイプラインを実現するプロンプト(dep)に基づく新しい対話システム評価フレームワークを提案する。 DEPアプローチでは、評価されたボットの合成チャットログを他のプレイ設定でLLMで収集する。 さらに,同じllmで評価スコアを生成するための,さまざまなプロンプトアプローチについても検討する。 数発のデモと命令を含む最高のパフォーマンスプロンプトは、テストデータセットで優れたパフォーマンスを示し、他のダイアログコーパスに一般化する能力を示している。

As conversational models become increasingly available to the general public, users are engaging with this technology in social interactions. Such unprecedented interaction experiences may pose considerable social and psychological risks to the users unless the technology is properly controlled. This highlights the need for scalable and robust evaluation metrics for conversational chatbots. Existing evaluation metrics aim to automate offline user evaluation and approximate human judgment of pre-curated dialogs. However, they are limited in their ability to capture subjective perceptions of users who actually interact with the bots and might not generalize to real-world settings. To address this limitation, we propose an approach to approximate online human evaluation leveraging large language models (LLMs) from the GPT family. We introduce a new Dialog system Evaluation framework based on Prompting (DEP), which enables a fully automatic evaluation pipeline that replicates live user studies and achieves an impressive correlation with human judgment (up to Pearson r=0.95 on a system level). The DEP approach involves collecting synthetic chat logs of evaluated bots with an LLM in the other-play setting, where the LLM is carefully conditioned to follow a specific scenario. We further explore different prompting approaches to produce evaluation scores with the same LLM. The best performing prompts, which contain few-shot demonstrations and instructions, show outstanding performance on the tested dataset and demonstrate the ability to generalize to other dialog corpora.
翻訳日:2023-08-28 17:43:24 公開日:2023-08-25
# StepMix: 外部変数を持つ一般化混合モデルの擬似的推定のためのPythonパッケージ

StepMix: A Python Package for Pseudo-Likelihood Estimation of Generalized Mixture Models with External Variables ( http://arxiv.org/abs/2304.03853v3 )

ライセンス: Link先を確認
Sacha Morin, Robin Legault, F\'elix Lalibert\'e, Zsuzsa Bakk, Charles-\'Edouard Gigu\`ere, Roxane de la Sablonni\`ere, \'Eric Lacourse(参考訳) StepMixは、外部変数(共変量および遠位結果)を持つ一般化有限混合モデル(潜時プロファイルおよび潜時クラス分析)の擬似的様相推定(1段階、2段階、3段階のアプローチ)のためのオープンソースのPythonパッケージである。 社会科学における多くの応用において、主な目的は個人を潜在クラスに分類するだけでなく、これらのクラスを使用してより複雑な統計モデルを開発することである。 これらのモデルは一般に、潜在クラスを観測指標に関連付ける測定モデルと、共変量と結果変数を潜在クラスに関連付ける構造モデルに分けられる。 測定と構造モデルは、いわゆるワンステップアプローチまたはステップワイズ手法を用いて共同で推定することができ、推定された潜在クラスの解釈可能性に関する実践者にとって重要な利点を示す。 1段階のアプローチに加えて、StepMixはBCHとMLの修正によるバイアス調整3段階法や、より最近の2段階のアプローチなど、文献から最も重要なステップワイズ推定手法を実装している。 これらの擬似的様相推定器は、特定の期待-最大化サブルーチンとして統一された枠組みの下で提示される。 データサイエンスコミュニティで採用を促進するため、StepMixはScikit-Lernライブラリのオブジェクト指向設計に従い、追加のRラッパーを提供する。

StepMix is an open-source Python package for the pseudo-likelihood estimation (one-, two- and three-step approaches) of generalized finite mixture models (latent profile and latent class analysis) with external variables (covariates and distal outcomes). In many applications in social sciences, the main objective is not only to cluster individuals into latent classes, but also to use these classes to develop more complex statistical models. These models generally divide into a measurement model that relates the latent classes to observed indicators, and a structural model that relates covariates and outcome variables to the latent classes. The measurement and structural models can be estimated jointly using the so-called one-step approach or sequentially using stepwise methods, which present significant advantages for practitioners regarding the interpretability of the estimated latent classes. In addition to the one-step approach, StepMix implements the most important stepwise estimation methods from the literature, including the bias-adjusted three-step methods with BCH and ML corrections and the more recent two-step approach. These pseudo-likelihood estimators are presented in this paper under a unified framework as specific expectation-maximization subroutines. To facilitate and promote their adoption among the data science community, StepMix follows the object-oriented design of the scikit-learn library and provides an additional R wrapper.
翻訳日:2023-08-28 17:42:59 公開日:2023-08-25
# 超軽量バイナリニューラルネットワークを用いた不整脈分類

Arrhythmia Classifier Based on Ultra-Lightweight Binary Neural Network ( http://arxiv.org/abs/2304.01568v2 )

ライセンス: Link先を確認
Ninghao Pu, Zhongxing Wu, Ao Wang, Hanshi Sun, Zijin Liu and Hao Liu(参考訳) 心電図による不整脈のモニタリングは、人間の健康に重大な影響を及ぼす。 ディープラーニングの発展に伴い、ディープラーニングに基づく多くのECG分類アルゴリズムが出現している。 しかし、既存のアルゴリズムは複雑なモデルに対して高い精度で処理し、高いストレージ使用量と消費電力をもたらす。 これにより、限られたリソースを持つウェアラブル人工知能(AIoT)デバイスの実装の難しさも必然的に増大する。 本研究では,ECG信号に基づく5クラス,17クラスの不整脈分類が可能な,普遍的に適用可能な超軽量バイナリニューラルネットワーク(BNN)を提案する。 我々のBNNは5クラスと17クラスでそれぞれ96.90%(完全精度97.09%)と97.50%(完全精度98.00%)の精度を達成し、最先端のストレージ使用(3.76KBと4.45KB)を実現した。 他の二項化処理と比較して,本手法は最小の記憶空間を達成しつつ,2つの多重分類モードをサポートすることに優れている。 さらに,本モデルは17クラス分類において最適精度を達成し,エレガントに単純なネットワークアーキテクチャを有する。 私たちが使用するアルゴリズムは、ハードウェア実装に特化しています。 我々の研究は、医療産業、特にウェアラブル医療機器における軽量なディープラーニングモデルの可能性を示している。 https://github.com/xpww/ECG_BNN_Net

Reasonably and effectively monitoring arrhythmias through ECG signals has significant implications for human health. With the development of deep learning, numerous ECG classification algorithms based on deep learning have emerged. However, most existing algorithms trade off high accuracy for complex models, resulting in high storage usage and power consumption. This also inevitably increases the difficulty of implementation on wearable Artificial Intelligence-of-Things (AIoT) devices with limited resources. In this study, we proposed a universally applicable ultra-lightweight binary neural network(BNN) that is capable of 5-class and 17-class arrhythmia classification based on ECG signals. Our BNN achieves 96.90% (full precision 97.09%) and 97.50% (full precision 98.00%) accuracy for 5-class and 17-class classification, respectively, with state-of-the-art storage usage (3.76 KB and 4.45 KB). Compared to other binarization works, our approach excels in supporting two multi-classification modes while achieving the smallest known storage space. Moreover, our model achieves optimal accuracy in 17-class classification and boasts an elegantly simple network architecture. The algorithm we use is optimized specifically for hardware implementation. Our research showcases the potential of lightweight deep learning models in the healthcare industry, specifically in wearable medical devices, which hold great promise for improving patient outcomes and quality of life. Code is available on: https://github.com/xpww/ECG_BNN_Net
翻訳日:2023-08-28 17:42:35 公開日:2023-08-25
# 顔行動理解のための弱教師付きテキスト駆動コントラスト学習

Weakly-Supervised Text-driven Contrastive Learning for Facial Behavior Understanding ( http://arxiv.org/abs/2304.00058v2 )

ライセンス: Link先を確認
Xiang Zhang, Taoyue Wang, Xiaotian Li, Huiyuan Yang and Lijun Yin(参考訳) 対照的な学習は、ラベルのないデータを利用してロバスト表現を学習する有望な可能性を示している。 しかし, 顔行動データセットにおける比較学習のための効果的な正負対の構築は依然として困難である。 これは、このようなペアが必然的に被写体ID情報をエンコードするためであり、ランダムに構築されたペアは、顔行動データセットの被写体数が限られているため、類似した顔画像を押し出すことができる。 この問題に対処するために,いくつかのデータセットで提供される活動記述,粗粒度情報を利用して,画像シーケンスに関する高レベルな意味情報を提供するが,先行研究では無視されることが多い。 具体的には,顔行動理解のための2段階のContrastive Learning with Text-Embeded frameworkを提案する。 第1段階は、粗い活動情報を用いて構築された正負対から表現を学習する弱教師付きコントラスト学習法である。 第2段階は、画像と対応するテキストラベル名との類似性を最大化することにより、表情や顔動作単位の認識を訓練することを目的とする。 提案したCLEFは、AU認識のための3つの組込みデータセットと、顔認識のための3つの組込みデータセットに対して、最先端のパフォーマンスを達成する。

Contrastive learning has shown promising potential for learning robust representations by utilizing unlabeled data. However, constructing effective positive-negative pairs for contrastive learning on facial behavior datasets remains challenging. This is because such pairs inevitably encode the subject-ID information, and the randomly constructed pairs may push similar facial images away due to the limited number of subjects in facial behavior datasets. To address this issue, we propose to utilize activity descriptions, coarse-grained information provided in some datasets, which can provide high-level semantic information about the image sequences but is often neglected in previous studies. More specifically, we introduce a two-stage Contrastive Learning with Text-Embeded framework for Facial behavior understanding (CLEF). The first stage is a weakly-supervised contrastive learning method that learns representations from positive-negative pairs constructed using coarse-grained activity information. The second stage aims to train the recognition of facial expressions or facial action units by maximizing the similarity between image and the corresponding text label names. The proposed CLEF achieves state-of-the-art performance on three in-the-lab datasets for AU recognition and three in-the-wild datasets for facial expression recognition.
翻訳日:2023-08-28 17:42:12 公開日:2023-08-25
# drip:逆問題に対する深い正規化子

DRIP: Deep Regularizers for Inverse Problems ( http://arxiv.org/abs/2304.00015v2 )

ライセンス: Link先を確認
Moshe Eliasof, Eldad Haber, Eran Treister(参考訳) 本稿では,数学的に不適切である逆問題を考える。 つまり、ある(ノイズの多い)データがあると、そのデータにほぼ適合する複数のソリューションが存在する。 近年、aプライオリ情報を含むという意味で、最も適切な解を見つけるディープニューラル技術が開発されている。 しかし、いくつかの欠点がある。 まず、ほとんどのテクニックは、ソリューションが推論時にデータに適合することを保証できません。 第二に、この技術の導出は有効なスカラー正規化関数の存在から着想を得ているが、そのような技法は実際にはそのような関数に依存しておらず、従って古典的変分法から遠ざかっている。 本研究では, 逆問題解に対するニューラル正規化器の新たなファミリーを導入する。 これらの正規化子は変分定式化に基づいており、データに適合することが保証されている。 画像デブラリングから限定的な角度トモグラフィまで,多くの不適切な問題に対する使用例を示す。

In this paper we consider inverse problems that are mathematically ill-posed. That is, given some (noisy) data, there is more than one solution that approximately fits the data. In recent years, deep neural techniques that find the most appropriate solution, in the sense that it contains a-priori information, were developed. However, they suffer from several shortcomings. First, most techniques cannot guarantee that the solution fits the data at inference. Second, while the derivation of the techniques is inspired by the existence of a valid scalar regularization function, such techniques do not in practice rely on such a function, and therefore veer away from classical variational techniques. In this work we introduce a new family of neural regularizers for the solution of inverse problems. These regularizers are based on a variational formulation and are guaranteed to fit the data. We demonstrate their use on a number of highly ill-posed problems, from image deblurring to limited angle tomography.
翻訳日:2023-08-28 17:41:50 公開日:2023-08-25
# 無人航空機群による障害物環境における経路計画のためのQ学習システム

Q-Learning based system for path planning with unmanned aerial vehicles swarms in obstacle environments ( http://arxiv.org/abs/2303.17655v2 )

ライセンス: Link先を確認
Alejandro Puente-Castro, Daniel Rivero, Eurico Pedrosa, Artur Pereira, Nuno Lau, Enrique Fernandez-Blanco(参考訳) 無人航空機群(uav)の自律制御のための経路計画手法は、それらがもたらすすべての利点のために高まっている。 複数のUAVを自律的に制御する必要があるシナリオはますます増えている。 これらのシナリオのほとんどは、電力線や木のような多くの障害をもたらします。 すべてのUAVを自律的に運用できれば、人件費を削減できる。 さらに、飛行経路が最適であれば、エネルギー消費は減少する。 これにより、他の操作により多くのバッテリ時間が残される。 本稿では,q-learningを用いて障害のある環境においてこの問題を解決するための強化学習ベースシステムを提案する。 この方法では、モデル、特にこの場合、ニューラルネットワークは、失敗や成果から学習することで自己調整を可能にする。 地図のサイズやSwarm内のUAVの数に関わらず、これらのパスの目標は、フィールド探索のようなタスクのための固定された障害のある領域を完全にカバーすることである。 目標を設定したり、提供されたマップ以外に事前情報を持つ必要はない。 実験では、異なる障害物を持つ大きさの5つのマップが使用された。 実験は異なる数のUAVを用いて行われた。 結果の計算には、各実験でタスクを完了するためにすべてのuavが行うアクションの数を考慮に入れる。 アクションの数が少ないほど、パスが短くなり、エネルギー消費が減ります。 結果は満足でき、システムはより多くのuavが存在するほど、より少ない動きで解を得る。 より良いプレゼンテーションのために、これらの結果は別の最先端のアプローチと比較された。

Path Planning methods for autonomous control of Unmanned Aerial Vehicle (UAV) swarms are on the rise because of all the advantages they bring. There are more and more scenarios where autonomous control of multiple UAVs is required. Most of these scenarios present a large number of obstacles, such as power lines or trees. If all UAVs can be operated autonomously, personnel expenses can be decreased. In addition, if their flight paths are optimal, energy consumption is reduced. This ensures that more battery time is left for other operations. In this paper, a Reinforcement Learning based system is proposed for solving this problem in environments with obstacles by making use of Q-Learning. This method allows a model, in this particular case an Artificial Neural Network, to self-adjust by learning from its mistakes and achievements. Regardless of the size of the map or the number of UAVs in the swarm, the goal of these paths is to ensure complete coverage of an area with fixed obstacles for tasks, like field prospecting. Setting goals or having any prior information aside from the provided map is not required. For experimentation, five maps of different sizes with different obstacles were used. The experiments were performed with different number of UAVs. For the calculation of the results, the number of actions taken by all UAVs to complete the task in each experiment is taken into account. The lower the number of actions, the shorter the path and the lower the energy consumption. The results are satisfactory, showing that the system obtains solutions in fewer movements the more UAVs there are. For a better presentation, these results have been compared to another state-of-the-art approach.
翻訳日:2023-08-28 17:41:37 公開日:2023-08-25
# ニューラルネットワークにおける間接因果効果の学習と説明に向けて

Towards Learning and Explaining Indirect Causal Effects in Neural Networks ( http://arxiv.org/abs/2303.13850v2 )

ライセンス: Link先を確認
Abbaavaram Gowtham Reddy, Saketh Bachu, Harsharaj Pathak, Benin L Godfrey, Vineeth N. Balasubramanian, Varshaneya V, Satya Narayanan Kar(参考訳) 近年,ニューラルネットワーク(NN)モデルにおける因果関係の学習と説明への関心が高まっている。 NNアーキテクチャにより、入力変数間の独立性を仮定する直接的な因果効果と完全な因果効果のみを考慮する。 NNを構造因果モデル(Structuor causal model, SCM)とみなし、入力ニューロン間のフィードフォワード接続を導入することで間接因果効果を含むように焦点を絞る。 NNモデルトレーニング中の直接的・間接的・総因果効果を捕捉・維持するアンテホック法を提案する。 また,nnモデルにおいて学習因果効果を定量化するアルゴリズムと,高次元データにおける因果効果を定量化する効率的な近似戦略を提案する。 人工的および実世界のデータセットで行った大規模な実験により、我々のアンテホック法で得られた因果効果が、既存の方法よりも地上の真理効果をよりよく近似することを示した。

Recently, there has been a growing interest in learning and explaining causal effects within Neural Network (NN) models. By virtue of NN architectures, previous approaches consider only direct and total causal effects assuming independence among input variables. We view an NN as a structural causal model (SCM) and extend our focus to include indirect causal effects by introducing feedforward connections among input neurons. We propose an ante-hoc method that captures and maintains direct, indirect, and total causal effects during NN model training. We also propose an algorithm for quantifying learned causal effects in an NN model and efficient approximation strategies for quantifying causal effects in high-dimensional data. Extensive experiments conducted on synthetic and real-world datasets demonstrate that the causal effects learned by our ante-hoc method better approximate the ground truth effects compared to existing methods.
翻訳日:2023-08-28 17:40:49 公開日:2023-08-25
# nvautonet: 自己運転のための高速で正確な360$^{\circ}$ 3d視覚知覚

NVAutoNet: Fast and Accurate 360$^{\circ}$ 3D Visual Perception For Self Driving ( http://arxiv.org/abs/2303.12976v3 )

ライセンス: Link先を確認
Trung Pham, Mehran Maghoumi, Wanli Jiang, Bala Siva Sashank Jujjavarapu, Mehdi Sajjadi, Xin Liu, Hsuan-Chu Lin, Bor-Jeng Chen, Giang Truong, Chao Fang, Junghyun Kwon, Minwoo Park(参考訳) 3D世界のロバストでリアルタイムな認識は、自動運転車にとって不可欠だ。 我々は、自動運転のためにNVAutoNetというエンドツーエンドのサラウンドカメラ認識システムを導入する。 NVAutoNetはマルチタスクのマルチカメラネットワークで、タイム同期カメラ画像の可変セットを入力として、サイズ、方向、障害物の位置、駐車スペース、自由空間などの3D信号の豊富なコレクションを生成する。 NVAutoNetはモジュールでエンドツーエンドです。 1)アウトプットは、クラスタリングやフュージョンのようなポストプロセスなしで、下流モジュールによって直接消費できる -- モデルのデプロイと車内テストのスピードを改善する。 2) ネットワークトレーニングは1つのステージで行われ、モデルの改善とイテレーションのスピードが向上します。 ネットワークはnvidia orin soc(system-on-a-chip)上で53fpsで動作しながら、高精度に設計されている。 このネットワークは(ある程度の耐久性のある)センサー搭載のバリエーションに頑丈で、効率的なモデル微調整によって、様々な車両タイプに迅速にカスタマイズできる。

Robust, real-time perception of 3D world is essential to the autonomous vehicle. We introduce an end-to-end surround camera perception system, named NVAutoNet, for self-driving. NVAutoNet is a multi-task, multi-camera network which takes a variable set of time-synced camera images as input and produces a rich collection of 3D signals such as sizes, orientations, locations of obstacles, parking spaces and free-spaces, etc. NVAutoNet is modular and end-to-end: 1) the outputs can be consumed directly by downstream modules without any post-processing such as clustering and fusion -- improving speed of model deployment and in-car testing 2) the whole network training is done in one single stage -- improving speed of model improvement and iterations. The network is carefully designed to have high accuracy while running at 53 fps on NVIDIA Orin SoC (system-on-a-chip). The network is robust to sensor mounting variations (within some tolerances) and can be quickly customized for different vehicle types via efficient model fine-tuning.
翻訳日:2023-08-28 17:40:34 公開日:2023-08-25
# 360bev:屋内の鳥の目に見えるパノラマ意味マッピング

360BEV: Panoramic Semantic Mapping for Indoor Bird's-Eye View ( http://arxiv.org/abs/2303.11910v3 )

ライセンス: Link先を確認
Zhifeng Teng, Jiaming Zhang, Kailun Yang, Kunyu Peng, Hao Shi, Simon Rei{\ss}, Ke Cao, Rainer Stiefelhagen(参考訳) 全体の一部だけを見ることは、完全な状況を知ることではありません。 鳥眼視(Bird's-eye-view、BEV)は、細い視野(FoV)のみを用いることで、自我中心の視点から同心写像を得る過程を制限する。 本研究では,360{\deg}パノラマからbevセマンティクスへのマッピング,360bevタスクを初めて確立し,トップダウンビューで室内シーンの全体的表現を実現する。 狭いFoV画像列に頼る代わりに、奥行き情報を持つパノラマ画像は、全体論的BEVセマンティックマップを生成するのに十分である。 360BEVをベンチマークするために、私たちは2つの屋内データセット、360BEV-Matterportと360BEV-Stanfordを紹介します。 異なるマッピングパラダイムを深く掘り下げると同時に,パノラマ意味マッピングのための専用ソリューション,すなわち360mapperを提案する。 広範な実験により,両データセットでそれぞれ44.32%,45.78%のmiouをそれぞれ達成し,+7.60%,+9.70%をそれぞれ上回った。 コードとデータセットはプロジェクトのページで公開されている。

Seeing only a tiny part of the whole is not knowing the full circumstance. Bird's-eye-view (BEV) perception, a process of obtaining allocentric maps from egocentric views, is restricted when using a narrow Field of View (FoV) alone. In this work, mapping from 360{\deg} panoramas to BEV semantics, the 360BEV task, is established for the first time to achieve holistic representations of indoor scenes in a top-down view. Instead of relying on narrow-FoV image sequences, a panoramic image with depth information is sufficient to generate a holistic BEV semantic map. To benchmark 360BEV, we present two indoor datasets, 360BEV-Matterport and 360BEV-Stanford, both of which include egocentric panoramic images and semantic segmentation labels, as well as allocentric semantic maps. Besides delving deep into different mapping paradigms, we propose a dedicated solution for panoramic semantic mapping, namely 360Mapper. Through extensive experiments, our methods achieve 44.32% and 45.78% in mIoU on both datasets respectively, surpassing previous counterparts with gains of +7.60% and +9.70% in mIoU. Code and datasets are available at the project page: https://jamycheung.github.io/360BEV.html.
翻訳日:2023-08-28 17:40:16 公開日:2023-08-25
# PMC-LLaMA: 医療用オープンソース言語モデルの構築を目指して

PMC-LLaMA: Towards Building Open-source Language Models for Medicine ( http://arxiv.org/abs/2304.14454v3 )

ライセンス: Link先を確認
Chaoyi Wu, Weixiong Lin, Xiaoman Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie(参考訳) 近年,Large Language Models (LLM) は自然言語理解において顕著な能力を発揮している。 日常会話や質問応答における熟練度を示す一方で、これらのモデルは、ドメイン固有の知識が欠如していることから、医療応用などの正確性を必要とする領域でしばしば苦労する。 本稿では,PMC-LLaMAと呼ばれる医療応用に特化した,強力なオープンソース言語モデルの構築手順について述べる。 私たちの貢献は3倍です i) 汎用基礎言語モデルを医学領域に適用する過程を体系的に検討し, バイオメディカル学術論文4.8Mと30Kの医用教科書の統合によるデータ中心の知識注入, ドメイン固有の指示と整合する包括的微調整を含む。 (ii)命令チューニングのための大規模で総合的なデータセットをコントリビュートする。 このデータセットは、医療質問回答(QA)、推論の合理性、および合計202万のトークンからなる会話対話を含む。 iii) 提案する各成分の有効性を示すため, 徹底的なアブレーション研究を行う。 各種の公開医療質問答えベンチマークで評価しながら、わずか13億のパラメータからなる軽量PMCLLaMAは、ChatGPTよりも優れた性能を示しています。 すべてのモデル、コード、データセットはhttps://github.com/chaoyi-wu/PMC-LLaMAで確認できる。

Recently, Large Language Models (LLMs) have showcased remarkable capabilities in natural language understanding. While demonstrating proficiency in everyday conversations and question-answering situations, these models frequently struggle in domains that require precision, such as medical applications, due to their lack of domain-specific knowledge. In this paper, we describe the procedure for building a powerful, open-source language model specifically designed for medicine applications, termed as PMC-LLaMA. Our contributions are threefold: (i) we systematically investigate the process of adapting a general-purpose foundation language model towards medical domain, this involves data-centric knowledge injection through the integration of 4.8M biomedical academic papers and 30K medical textbooks, as well as comprehensive fine-tuning for alignment with domain-specific instructions; (ii) we contribute a large-scale, comprehensive dataset for instruction tuning. This dataset encompasses medical question-answering (QA), rationale for reasoning, and conversational dialogues, comprising a total of 202M tokens; (iii) we conduct thorough ablation studies to demonstrate the effectiveness of each proposed component. While evaluating on various public medical question-answering benchmarks, our lightweight PMCLLaMA, which consists of only 13 billion parameters, exhibits superior performance, even surpassing ChatGPT. All models, codes, datasets can be found in https://github.com/chaoyi-wu/PMC-LLaMA.
翻訳日:2023-08-28 17:34:26 公開日:2023-08-25
# 二次元系における位相相転移の偏光ジャンプ

Polarization Jumps across Topological Phase Transitions in Two-dimensional Systems ( http://arxiv.org/abs/2304.12742v2 )

ライセンス: Link先を確認
Hiroki Yoshida, Tiantian Zhang, Shuichi Murakami(参考訳) チャーン数や$\mathbb{z}_2$位相不変量のような位相不変量の変化を伴う位相相転移では、ギャップは閉まり、電気分極は遷移時に定義されない。 本稿では,2次元の位相相転移における偏極の跳躍が,中間ワイル半金属相におけるワイル点の位置と単極電荷によって説明されることを示す。 偏極の跳躍は、チャーン数の値を変えることなく、$\mathbb{z}_2$位相相転移および相転移においてワイル双極子によって記述される。 一方、チャーン数が相転移で変化するとき、ジャンプは相互空間の基準点から測定されたワイル点の相対的な位置で表される。

In topological phase transitions involving a change in topological invariants such as the Chern number and the $\mathbb{Z}_2$ topological invariant, the gap closes, and the electric polarization becomes undefined at the transition. In this paper, we show that the jump of polarization across such topological phase transitions in two dimensions is described in terms of positions and monopole charges of Weyl points in the intermediate Weyl semimetal phase. We find that the jump of polarization is described by the Weyl dipole at $\mathbb{Z}_2$ topological phase transitions and at phase transitions without any change in the value of the Chern number. Meanwhile, when the Chern number changes at the phase transition, the jump is expressed in terms of the relative positions of Weyl points measured from a reference point in the reciprocal space.
翻訳日:2023-08-28 17:33:43 公開日:2023-08-25
# 多重誘引子をもつ非線形系の昇降と再構成について

On the lifting and reconstruction of nonlinear systems with multiple attractors ( http://arxiv.org/abs/2304.11860v2 )

ライセンス: Link先を確認
Shaowu Pan and Karthik Duraisamy(参考訳) クープマン作用素(koopman operator)は、不変部分空間における可観測性の進化に焦点をあてることで、非線形ダイナミクスに関する線型視点を与える。 可観測性は通常、クープマン固有関数から線形に再構成される。 ここ数年でクープマン作用素が広く使われてきたが、クープマン作用素が1つ以上の固定点を持つ力学系に適用可能であるという誤解がある。 本研究では,複数の誘引子を持つ非線形系のクープマン作用素の昇降機構について説明する。 ダフィング発振器の例を考えると、アトラクション盆地間の固有対称性を利用して、クープマン可観測空間における3次元の自由度を持つ線形再構成は、システムをグローバルに線形化するのに十分であることを示す。

The Koopman operator provides a linear perspective on non-linear dynamics by focusing on the evolution of observables in an invariant subspace. Observables of interest are typically linearly reconstructed from the Koopman eigenfunctions. Despite the broad use of Koopman operators over the past few years, there exist some misconceptions about the applicability of Koopman operators to dynamical systems with more than one fixed point. In this work, an explanation is provided for the mechanism of lifting for the Koopman operator of nonlinear systems with multiple attractors. Considering the example of the Duffing oscillator, we show that by exploiting the inherent symmetry between the basins of attraction, a linear reconstruction with three degrees of freedom in the Koopman observable space is sufficient to globally linearize the system.
翻訳日:2023-08-28 17:33:27 公開日:2023-08-25
# ランダム補助クラス増分と混合特徴による非経験的クラス増分学習

Non-exemplar Class-incremental Learning by Random Auxiliary Classes Augmentation and Mixed Features ( http://arxiv.org/abs/2304.07707v2 )

ライセンス: Link先を確認
Ke Song, Quan Xia, Guoqiang Liang, Zhaojie Chen, Yanning Zhang(参考訳) non-exemplar class-incremental learningは、古いクラスのサンプルを保存せずに、新しいクラスと古いクラスを分類することを指す。 新しいクラスサンプルのみが最適化に利用できるため、しばしば古い知識を破滅的に忘れてしまう。 この問題を軽減するため, モデル蒸留, クラス増級などの新しい手法が提案されている。 本稿では,Random Auxiliary class augmentation と Mixed Feature を組み合わせたRAMFと呼ばれる実効非実例手法を提案する。 一方,3つの拡張から1つの拡張をランダムに選択し,その入力に適用し,拡張サンプルと追加クラスラベルを生成するランダムな補助クラス拡張法を設計する。 データとラベル空間を拡張することで、モデルがより多様な表現を学習できるため、モデルがタスク固有の特徴の学習に偏ることを防ぐことができる。 新しいタスクを学ぶとき、機能空間の変更を減らし、モデルの一般化を改善する。 一方で、モデル最適化に新機能のみを使用すると、以前フィーチャースペースに埋め込まれた表現に影響を与えるため、新機能を置き換えるために混合機能を使用します。 代わりに、新しい機能と古い機能を組み合わせることで、計算の複雑さを増大させることなく古い知識を維持できる。 3つのベンチマークでの大規模な実験は、最先端の非経験的手法よりも優れ、高性能なリプレイ方式に匹敵するアプローチの優位性を実証している。

Non-exemplar class-incremental learning refers to classifying new and old classes without storing samples of old classes. Since only new class samples are available for optimization, it often occurs catastrophic forgetting of old knowledge. To alleviate this problem, many new methods are proposed such as model distillation, class augmentation. In this paper, we propose an effective non-exemplar method called RAMF consisting of Random Auxiliary classes augmentation and Mixed Feature. On the one hand, we design a novel random auxiliary classes augmentation method, where one augmentation is randomly selected from three augmentations and applied on the input to generate augmented samples and extra class labels. By extending data and label space, it allows the model to learn more diverse representations, which can prevent the model from being biased towards learning task-specific features. When learning new tasks, it will reduce the change of feature space and improve model generalization. On the other hand, we employ mixed feature to replace the new features since only using new feature to optimize the model will affect the representation that was previously embedded in the feature space. Instead, by mixing new and old features, old knowledge can be retained without increasing the computational complexity. Extensive experiments on three benchmarks demonstrate the superiority of our approach, which outperforms the state-of-the-art non-exemplar methods and is comparable to high-performance replay-based methods.
翻訳日:2023-08-28 17:32:28 公開日:2023-08-25
# 医用画像分類におけるラベルセットミスマッチのスケールフェデレーション学習

Scale Federated Learning for Label Set Mismatch in Medical Image Classification ( http://arxiv.org/abs/2304.06931v2 )

ライセンス: Link先を確認
Zhipeng Deng, Luyang Luo, and Hao Chen(参考訳) フェデレートラーニング(FL)は、複数のパーティがプライバシリークなしで協調的にモデルをトレーニングできる分散学習パラダイムとして、ヘルスケアドメインに導入されている。 しかし、以前の研究のほとんどは、すべてのクライアントが同一のラベルセットを持っていると仮定している。 実際には、医療専門家は専門分野や関心領域内の病気に注釈を付ける傾向がある。 これは各クライアントのラベルセットが異なっており、また不一致さえあることを意味する。 本稿では,ラベルセットミスマッチの問題を解決するためのフレームワークFedLSMを提案する。 FedLSMは、異なる不確実性レベルを持つデータに対する異なるトレーニング戦略を採用し、ラベルなしまたは部分的にラベル付けされたデータを効率的に利用し、分類層におけるクラスワイド適応アグリゲーションを利用して、クライアントがラベルを欠いているときに不正確なアグリゲーションを避ける。 112,120CXR画像による胸部X線診断と10,015皮膚内視鏡画像による皮膚病変診断の2つの医用画像データセットを用いてFedLSMを評価し,他のFLアルゴリズムよりも有意に優れていた。 コードはhttps://github.com/dzp2095/FedLSMで見ることができる。

Federated learning (FL) has been introduced to the healthcare domain as a decentralized learning paradigm that allows multiple parties to train a model collaboratively without privacy leakage. However, most previous studies have assumed that every client holds an identical label set. In reality, medical specialists tend to annotate only diseases within their area of expertise or interest. This implies that label sets in each client can be different and even disjoint. In this paper, we propose the framework FedLSM to solve the problem of Label Set Mismatch. FedLSM adopts different training strategies on data with different uncertainty levels to efficiently utilize unlabeled or partially labeled data as well as class-wise adaptive aggregation in the classification layer to avoid inaccurate aggregation when clients have missing labels. We evaluated FedLSM on two public real-world medical image datasets, including chest X-ray (CXR) diagnosis with 112,120 CXR images and skin lesion diagnosis with 10,015 dermoscopy images, and showed that it significantly outperformed other state-of-the-art FL algorithms. The code can be found at https://github.com/dzp2095/FedLSM.
翻訳日:2023-08-28 17:32:03 公開日:2023-08-25
# 単段拡散NeRF : 3次元生成と再構成への統一的アプローチ

Single-Stage Diffusion NeRF: A Unified Approach to 3D Generation and Reconstruction ( http://arxiv.org/abs/2304.06714v4 )

ライセンス: Link先を確認
Hansheng Chen, Jiatao Gu, Anpei Chen, Wei Tian, Zhuowen Tu, Lingjie Liu, Hao Su(参考訳) 3D対応画像合成は、シーン生成や画像からの新規ビュー合成など、様々なタスクを含む。 多くのタスク固有の手法にもかかわらず、包括的なモデルの開発は依然として困難である。 本稿では,様々な物体の多視点画像からニューラルレイディアンス場(NeRF)の一般化を学習するために,表現拡散モデルを用いた統一的アプローチであるSSDNeRFを提案する。 これまでの研究では、事前訓練されたNeRFを実データとして利用して拡散モデルを訓練してきた。 そこで本研究では,nrfオートデコーダと潜在拡散モデルを同時に最適化し,可視性の低いビューからでも同時3次元再構成と事前学習を実現する,エンドツーエンドの目標を持つ新しい単段階学習パラダイムを提案する。 実験時には, 未条件発生前の拡散を直接サンプリングしたり, 未確認物体の任意の観測と組み合わせてNeRF再構成を行うことができる。 SSDNeRFは、非条件生成および単一/スパースビュー3D再構成において、主要なタスク固有手法に匹敵するロバストな結果を示す。

3D-aware image synthesis encompasses a variety of tasks, such as scene generation and novel view synthesis from images. Despite numerous task-specific methods, developing a comprehensive model remains challenging. In this paper, we present SSDNeRF, a unified approach that employs an expressive diffusion model to learn a generalizable prior of neural radiance fields (NeRF) from multi-view images of diverse objects. Previous studies have used two-stage approaches that rely on pretrained NeRFs as real data to train diffusion models. In contrast, we propose a new single-stage training paradigm with an end-to-end objective that jointly optimizes a NeRF auto-decoder and a latent diffusion model, enabling simultaneous 3D reconstruction and prior learning, even from sparsely available views. At test time, we can directly sample the diffusion prior for unconditional generation, or combine it with arbitrary observations of unseen objects for NeRF reconstruction. SSDNeRF demonstrates robust results comparable to or better than leading task-specific methods in unconditional generation and single/sparse-view 3D reconstruction.
翻訳日:2023-08-28 17:31:37 公開日:2023-08-25
# 画像分類のためのスタンドアロンIEEE 16ビット浮動小数点比較

Comparative Study: Standalone IEEE 16-bit Floating-Point for Image Classification ( http://arxiv.org/abs/2305.10947v2 )

ライセンス: Link先を確認
Juyoung Yun, Byungkon Kang, Francois Rameau, Zhoulai Fu(参考訳) ニューラルネットワークの重みとアクティベーションをエンコードするために必要なビット数を減らすことは、トレーニングと推論時間を短縮しながらメモリ消費を削減し、非常に望ましい。 低精度計算を用いたニューラルネットワークの開発にかなりの注意が向けられているのは当然である。 これにはIEEE 16ビット、Google bfloat16、8ビット、4ビット浮動小数点または固定点、2ビット、様々な混合精度アルゴリズムが含まれる。 これらの低精度フォーマットのうち、IEEE 16ビットは現代のGPUとの普遍的な互換性のために際立っている。 このアクセシビリティは、ハイエンドGPUを必要とするbfloat16や、ソフトウェアシミュレーションを必要とする非標準の低ビット設計とは対照的である。 本研究は、IEEE 16ビットフォーマットで比較分析を行う。 この分析は、浮動小数点誤差の概念の形式化や、16ビットモデルが32ビットの結果を近似できる条件を理解することを含む、16ビットモデルと32ビットモデルの間に相違をもたらす要因の詳細な理論的研究を含む。 ノイズ耐性ニューラルネットワークの成功を正則化効果に寄与する文献とは対照的に、厳密な実験によって支援された研究は、スタンドアロンのIEEE 16ビット浮動小数点ニューラルネットワークが、様々な画像分類タスクにおいて32ビットと混合精度のネットワークと同等に動作可能である理由を定量的に説明する。 ニューラルネットワークにおけるスタンドアロン浮動小数点精度としてieee 16ビットの研究は行われていないので,今後のニューラルネットワークアプリケーションにおけるスタンドアロンieee 16ビットネットワークの採用が促進されるであろう。

Reducing the number of bits needed to encode the weights and activations of neural networks is highly desirable as it speeds up their training and inference time while reducing memory consumption. It is unsurprising that considerable attention has been drawn to developing neural networks that employ lower-precision computation. This includes IEEE 16-bit, Google bfloat16, 8-bit, 4-bit floating-point or fixed-point, 2-bit, and various mixed-precision algorithms. Out of these low-precision formats, IEEE 16-bit stands out due to its universal compatibility with contemporary GPUs. This accessibility contrasts with bfloat16, which needs high-end GPUs, or other non-standard fewer-bit designs, which typically require software simulation. This study focuses on the widely accessible IEEE 16-bit format for comparative analysis. This analysis involves an in-depth theoretical investigation of the factors that lead to discrepancies between 16-bit and 32-bit models, including a formalization of the concepts of floating-point error and tolerance to understand the conditions under which a 16-bit model can approximate 32-bit results. Contrary to literature that credits the success of noise-tolerated neural networks to regularization effects, our study-supported by a series of rigorous experiments-provides a quantitative explanation of why standalone IEEE 16-bit floating-point neural networks can perform on par with 32-bit and mixed-precision networks in various image classification tasks. Because no prior research has studied IEEE 16-bit as a standalone floating-point precision in neural networks, we believe our findings will have significant impacts, encouraging the adoption of standalone IEEE 16-bit networks in future neural network applications.
翻訳日:2023-08-28 17:23:24 公開日:2023-08-25
# 深層学習画像再構成モデルにおける局所リプシッツを用いた不確かさ推定

Uncertainty Estimation using the Local Lipschitz for Deep Learning Image Reconstruction Models ( http://arxiv.org/abs/2305.07618v2 )

ライセンス: Link先を確認
Danyal F. Bhutto, Bo Zhu, Jeremiah Z. Liu, Neha Koonjoo, Bruce R. Rosen, Matthew S. Rosen(参考訳) 教師付きディープニューラルネットワークアプローチを用いて、すべての領域、特に画像技術が診断の中心にある放射線学における逆問題の解決が研究されている。 しかしながら、デプロイメントでは、これらのモデルは、データのバイアスやドリフトのために、トレーニングデータから大きくシフトした入力分布に晒される。 診断の再構築に頼る前に、与えられた入力がトレーニングデータ分布の外にあるかどうかを知ることが重要である。 この仕事の目標は次の3つです。 i) 適切な性能を決定するための不確実性推定しきい値として局所リプシッツ値を用いることを示す。 (ii)モデルが一般化していない可能性のある分布外(ood)画像の識別方法、及び (iii)局所リプシッツ値を用いて偽陽性を同定し、認識の不確実性を低減することにより、適切なデータ拡張を導く。 AUTOMAP と UNET アーキテクチャを用いて,画像の再構成が診断的に正確であることから,MRI と CT のスパースビューの両方をフルビューで再現する結果が得られた。

The use of supervised deep neural network approaches has been investigated to solve inverse problems in all domains, especially radiology where imaging technologies are at the heart of diagnostics. However, in deployment, these models are exposed to input distributions that are widely shifted from training data, due in part to data biases or drifts. It becomes crucial to know whether a given input lies outside the training data distribution before relying on the reconstruction for diagnosis. The goal of this work is three-fold: (i) demonstrate use of the local Lipshitz value as an uncertainty estimation threshold for determining suitable performance, (ii) provide method for identifying out-of-distribution (OOD) images where the model may not have generalized, and (iii) use the local Lipschitz values to guide proper data augmentation through identifying false positives and decrease epistemic uncertainty. We provide results for both MRI reconstruction and CT sparse view to full view reconstruction using AUTOMAP and UNET architectures due to it being pertinent in the medical domain that reconstructed images remain diagnostically accurate.
翻訳日:2023-08-28 17:22:53 公開日:2023-08-25
# undercover deepfakes: ビデオ中の偽のセグメントを検出する

Undercover Deepfakes: Detecting Fake Segments in Videos ( http://arxiv.org/abs/2305.06564v4 )

ライセンス: Link先を確認
Sanjay Saha, Rashindrie Perera, Sachith Seneviratne, Tamasha Malepathirana, Sanka Rasnayaka, Deshani Geethika, Terence Sim, Saman Halgamuge(参考訳) 近年のジェネレーティブモデルのルネッサンスは、主に拡散モデルの出現とGAN法の反復的な改善により、多くのクリエイティブな応用を可能にしている。 しかし、それぞれの進歩には誤用の可能性の高まりも伴っている。 ディープフェイク世代においては、これは重要な社会問題である。 特に、このような生成技術を使ってビデオのセグメントを修正できることは、ディープフェイクの新たなパラダイムを生み出します。 このパラダイムは、現在の学術文献におけるディープフェイク検出手法によって過小評価されている。 本稿では,フレームおよび映像レベルでのディープフェイク予測を行うことにより,この問題に対処できるディープフェイク検出手法を提案する。 提案手法の検証を容易にするため,ビデオが実フレームシーケンスと偽フレームシーケンスの両方を持ち,微妙な遷移を伴うベンチマークデータセットを構築した。 本研究では,視覚トランスフォーマを使用して空間的特徴を学習し,時系列トランスフォーマを用いて映像の時間的特徴を学習し,可能なディープフェイクの解釈を容易にする手法を提案する。 様々なディープフェイク生成手法に関する広範囲な実験は、時間分割法や古典的なビデオレベルの予測においても優れた結果を示す。 特に、私たちが取り組んでいるパラダイムは、ディープフェイクのモデレーションのための強力なツールを形成します。 実験はすべてgithub.com/rgb91/temporal-deepfake-segmentationで再現できる。

The recent renaissance in generative models, driven primarily by the advent of diffusion models and iterative improvement in GAN methods, has enabled many creative applications. However, each advancement is also accompanied by a rise in the potential for misuse. In the arena of the deepfake generation, this is a key societal issue. In particular, the ability to modify segments of videos using such generative techniques creates a new paradigm of deepfakes which are mostly real videos altered slightly to distort the truth. This paradigm has been under-explored by the current deepfake detection methods in the academic literature. In this paper, we present a deepfake detection method that can address this issue by performing deepfake prediction at the frame and video levels. To facilitate testing our method, we prepared a new benchmark dataset where videos have both real and fake frame sequences with very subtle transitions. We provide a benchmark on the proposed dataset with our detection method which utilizes the Vision Transformer based on Scaling and Shifting to learn spatial features, and a Timeseries Transformer to learn temporal features of the videos to help facilitate the interpretation of possible deepfakes. Extensive experiments on a variety of deepfake generation methods show excellent results by the proposed method on temporal segmentation and classical video-level predictions as well. In particular, the paradigm we address will form a powerful tool for the moderation of deepfakes, where human oversight can be better targeted to the parts of videos suspected of being deepfakes. All experiments can be reproduced at: github.com/rgb91/temporal-deepfake-segmentation.
翻訳日:2023-08-28 17:22:13 公開日:2023-08-25
# 原子空洞源からの偏光単一光子のバースト

Bursts of polarised single photons from atom-cavity sources ( http://arxiv.org/abs/2305.04899v2 )

ライセンス: Link先を確認
Jan Ole Ernst, Juan-Rafael Alvarez, Thomas D. Barrett and Axel Kuhn(参考訳) フォトニック量子ビットは、量子ネットワーク、ボーソンサンプリング、測定ベースの量子コンピューティングなど、高度な量子技術の発展において重要な役割を果たす。 識別不能な単一光子の決定論的生成のための有望な枠組みは、高精細な光学キャビティの単一モードに結合された原子エミッタである。 偏光制御は、特に偏光が量子ビットの状態を定義する場合に重要な基礎となる。 本稿では、一般化原子エミッタを光学キャビティに結合し、量子化軸の特定の選択を利用した偏光単一光子のバースト生成法を提案する。 2つの再準備法に関連して、シミュレーションは10光子バーストが1kHzで1つの87Rb原子が芸術光学キャビティの状態に閉じ込められていることを予測した。 これは原子キャビティ源を用いた新しいn-光子実験の道を開く。

Photonic qubits play an instrumental role in the development of advanced quantum technologies, including quantum networking, boson sampling and measurement based quantum computing. A promising framework for the deterministic production of indistinguishable single photons is an atomic emitter coupled to a single mode of a high finesse optical cavity. Polarisation control is an important cornerstone, particularly when the polarisation defines the state of a quantum bit. Here, we propose a scheme for producing bursts of polarised single photons by coupling a generalised atomic emitter to an optical cavity, exploiting a particular choice of quantisation axis. In connection with two re-preparation methods, simulations predict 10-photon bursts coincidence count rates on the order of 1 kHz with single 87Rb atoms trapped in a state of the art optical cavity. This paves the way for novel n-photon experiments with atom-cavity sources.
翻訳日:2023-08-28 17:21:48 公開日:2023-08-25
# 高速クロスモーダルMRI画像再構成のための空間的・モーダル的移動法

Spatial and Modal Optimal Transport for Fast Cross-Modal MRI Reconstruction ( http://arxiv.org/abs/2305.02774v2 )

ライセンス: Link先を確認
Qi Wang, Zhijie Wen, Jun Shi, Qian Wang, Dinggang Shen, and Shihui Ying(参考訳) マルチモーダル磁気共鳴画像(mri)は臨床医学における総合疾患診断において重要な役割を担っている。 しかし、T2重み付き画像(T2WIs)のような特定のモダリティの取得には時間がかかり、モーションアーティファクトを使う傾向がある。 これは後続のマルチモーダル画像解析に悪影響を及ぼす。 本稿では,T1重み付き画像(T1WI)を補助モダリティとして活用し,T2WIの取得を高速化するエンドツーエンドディープラーニングフレームワークを提案する。 画像前処理はミスアライメントを軽減することができるが、不適切なパラメータ選択は、反復的な実験と調整を必要とする、悪い前処理効果をもたらす。 この不足を克服するため,我々はT1WIの整列とクロスモーダル合成によりT2WIの合成に最適輸送(OT)を用いる。 さらに, 再構成作業とクロスモーダル合成作業の交互反復フレームワークを採用し, 最終結果の最適化を行った。 そして, 再構成されたT2WIと合成されたT2WIが, 繰り返しの増大とともにT2画像多様体に近づくことを証明し, さらに, 改良された再構成結果が合成過程を向上させる一方で, 改良された合成結果が再構成過程を改善することを示す。 最後に,FastMRIと内部データセットによる実験結果から本手法の有効性が確認され,低サンプリングレートでも画像再構成精度が向上した。

Multi-modal magnetic resonance imaging (MRI) plays a crucial role in comprehensive disease diagnosis in clinical medicine. However, acquiring certain modalities, such as T2-weighted images (T2WIs), is time-consuming and prone to be with motion artifacts. It negatively impacts subsequent multi-modal image analysis. To address this issue, we propose an end-to-end deep learning framework that utilizes T1-weighted images (T1WIs) as auxiliary modalities to expedite T2WIs' acquisitions. While image pre-processing is capable of mitigating misalignment, improper parameter selection leads to adverse pre-processing effects, requiring iterative experimentation and adjustment. To overcome this shortage, we employ Optimal Transport (OT) to synthesize T2WIs by aligning T1WIs and performing cross-modal synthesis, effectively mitigating spatial misalignment effects. Furthermore, we adopt an alternating iteration framework between the reconstruction task and the cross-modal synthesis task to optimize the final results. Then, we prove that the reconstructed T2WIs and the synthetic T2WIs become closer on the T2 image manifold with iterations increasing, and further illustrate that the improved reconstruction result enhances the synthesis process, whereas the enhanced synthesis result improves the reconstruction process. Finally, experimental results from FastMRI and internal datasets confirm the effectiveness of our method, demonstrating significant improvements in image reconstruction quality even at low sampling rates.
翻訳日:2023-08-28 17:21:34 公開日:2023-08-25
# pgb:異種ネットワーク表現学習のためのpubmed graphベンチマーク

PGB: A PubMed Graph Benchmark for Heterogeneous Network Representation Learning ( http://arxiv.org/abs/2305.02691v3 )

ライセンス: Link先を確認
Eric W Lee, Joyce C Ho(参考訳) 生物医学文献は急速に成長してきたが、これらの論文の書誌情報の異質性は比較的調査されていない。 ヘテロジニアスなグラフニューラルネットワークによるグラフマイニングの研究が中心的だが、これらのアプローチが3300万以上の記事を含む巨大なデジタルリポジトリであるpubmedデータベースの多様性を捉えているかどうかは不明だ。 バイオメディカル文献のための異種グラフ埋め込みを評価するためのベンチマークデータセットであるPubMed Graph Benchmark (PGB)を紹介する。 ベンチマークには、抽象、著者、引用、MeSH用語、MeSH階層、その他の情報を含む豊富なメタデータが含まれている。 ベンチマークには、体系的なレビュー、ノード分類、ノードクラスタリングを含む3つの異なる評価タスクが含まれている。 PGBでは、PubMedのバイオメディカル記事に関連するメタデータを統一したソースに集約し、将来の作業でベンチマークを公開します。

There has been rapid growth in biomedical literature, yet capturing the heterogeneity of the bibliographic information of these articles remains relatively understudied. Although graph mining research via heterogeneous graph neural networks has taken center stage, it remains unclear whether these approaches capture the heterogeneity of the PubMed database, a vast digital repository containing over 33 million articles. We introduce PubMed Graph Benchmark (PGB), a new benchmark dataset for evaluating heterogeneous graph embeddings for biomedical literature. The benchmark contains rich metadata including abstract, authors, citations, MeSH terms, MeSH hierarchy, and some other information. The benchmark contains three different evaluation tasks encompassing systematic reviews, node classification, and node clustering. In PGB, we aggregate the metadata associated with the biomedical articles from PubMed into a unified source and make the benchmark publicly available for any future works.
翻訳日:2023-08-28 17:21:04 公開日:2023-08-25
# マルチモードスピンオブザーバブルを用いた連続変数絡み合い目撃者へのアクセス

Accessing continuous-variable entanglement witnesses with multimode spin observables ( http://arxiv.org/abs/2305.02227v2 )

ライセンス: Link先を確認
C\'elia Griffet, Tobias Haas, and Nicolas J. Cerf(参考訳) 連続可変二部量子系の分離性基準にアクセスするためのいくつかの測定手法を提案する。 ボソニックモード演算子のモーメントから始まり、エンタングルメントを目撃するのに適した基準は、ヨルダン・シュウィンガー写像(jordan schwinger map)を介してマルチモードスピン観測可能で表現される。 これらのオブザーバブルは通常、興味のある状態のいくつかのレプリカ上で定義され、受動光学回路によって単純な光子数測定に変換される。 本手法では, 種々の物理的状態(Gaussian, Mixed Schr\odinger cat, NOON state) で示されるような高コストな状態トモグラフィを必要とせずに, 絡み合いを効率的に検出できる。 典型的な実験的不完全性の影響は中程度であることが示されている。

We present several measurement schemes for accessing separability criteria for continuous-variable bipartite quantum systems. Starting from moments of the bosonic mode operators, criteria suitable to witness entanglement are expressed in terms of multimode spin observables via the Jordan Schwinger map. These observables are typically defined over a few replicas of the state of interest and can be transformed into simple photon-number measurements by passive optical circuits. Our measurement schemes require only a handful of measurements, thereby allowing one to efficiently detect entanglement without the need for costly state tomography as illustrated for a variety of physically relevant states (Gaussian, mixed Schr\"odinger cat, and NOON states). The influence of typical experimental imperfections is shown to be moderate.
翻訳日:2023-08-28 17:20:41 公開日:2023-08-25
# TMR: 対照的な3次元動作合成を用いたテキスト間検索

TMR: Text-to-Motion Retrieval Using Contrastive 3D Human Motion Synthesis ( http://arxiv.org/abs/2305.00976v2 )

ライセンス: Link先を確認
Mathis Petrovich, Michael J. Black, G\"ul Varol(参考訳) 本稿では,テキストから3次元動作検索への簡易かつ効果的な手法であるtmrを提案する。 これまでの作業では検索をプロキシ評価指標としてのみ扱っていたが,スタンドアロンタスクとして取り組んだ。 本手法は,最先端のテクスト・ツー・モーション合成モデルtemosを拡張し,クロスモーダル潜在空間の構造を改善するためにコントラスト損失を取り入れる。 運動生成損失の維持は, コントラストトレーニングとともに, 良好なパフォーマンスを得る上で重要であることが示された。 評価のためのベンチマークを導入し,いくつかのプロトコルで結果を報告して詳細な分析を行う。 KIT-MLとHumanML3Dデータセットに関する広範な実験により、TMRは、例えば、中央値のランクを54から19に下げるなど、前よりも大幅に向上していることが示された。 最後に,モーメント検索におけるアプローチの可能性を示す。 私たちのコードとモデルはhttps://mathis.petrovich.fr/tmr.で公開されている。

In this paper, we present TMR, a simple yet effective approach for text to 3D human motion retrieval. While previous work has only treated retrieval as a proxy evaluation metric, we tackle it as a standalone task. Our method extends the state-of-the-art text-to-motion synthesis model TEMOS, and incorporates a contrastive loss to better structure the cross-modal latent space. We show that maintaining the motion generation loss, along with the contrastive training, is crucial to obtain good performance. We introduce a benchmark for evaluation and provide an in-depth analysis by reporting results on several protocols. Our extensive experiments on the KIT-ML and HumanML3D datasets show that TMR outperforms the prior work by a significant margin, for example reducing the median rank from 54 to 19. Finally, we showcase the potential of our approach on moment retrieval. Our code and models are publicly available at https://mathis.petrovich.fr/tmr.
翻訳日:2023-08-28 17:20:24 公開日:2023-08-25
# CryCeleb:幼児のCry音に基づく話者検証データセット

CryCeleb: A Speaker Verification Dataset Based on Infant Cry Sounds ( http://arxiv.org/abs/2305.00969v4 )

ライセンス: Link先を確認
David Budaghyan, Charles C. Onu, Arsenii Gorin, Cem Subakan, Doina Precup(参考訳) 本稿では,乳幼児の叫び声をラベル付けしたUbenwa CryCelebデータセットと,乳幼児の泣き声に基づく公的な話者検証課題であるCryCeleb 2023タスクについて述べる。 乳児の泣き声解析研究を促進するため,786人の新生児から6時間以上手作業で泣き声を分割した。

This paper describes the Ubenwa CryCeleb dataset - a labeled collection of infant cries, and the accompanying CryCeleb 2023 task - a public speaker verification challenge based on infant cry sounds. We release for academic usage more than 6 hours of manually segmented cry sounds from 786 newborns to encourage research in infant cry analysis.
翻訳日:2023-08-28 17:20:01 公開日:2023-08-25
# フェアネスの修正, ルールの正確さを損なわない: AutoML を用いたパフォーマンスアウェアフェアネスの修復

Fix Fairness, Don't Ruin Accuracy: Performance Aware Fairness Repair using AutoML ( http://arxiv.org/abs/2306.09297v2 )

ライセンス: Link先を確認
Giang Nguyen, Sumon Biswas, Hridesh Rajan(参考訳) 機械学習(ML)は、重要な意思決定ソフトウェアでますます使われているが、インシデントによってML予測の公平性に関する疑問が持ち上がっている。 この問題に対処するには、MLベースのソフトウェアのバイアスを軽減するために、新しいツールとメソッドが必要である。 これまでの研究では、特定の状況でのみ動作し、しばしば精度を失うバイアス軽減アルゴリズムが提案されている。 提案手法は,自動機械学習(automl)技術を用いてバイアスを軽減する新しい手法である。 我々のアプローチには、新しい最適化機能と公正な検索空間の2つの重要な革新が含まれている。 automlのデフォルト最適化関数を改善し、公平性目標を組み込むことで、精度の損なうことなくバイアスを軽減できる。 さらに,計算コストと修理時間を削減するために,automlのフェアネスアウェア探索空間プルーニング手法を提案する。 我々のアプローチは最先端のAuto-Sklearnツールに基づいており、現実のシナリオにおけるバイアスを減らすように設計されています。 提案手法の有効性を実証するため,提案手法を4つの公平性問題と16の異なるMLモデルで評価し,その結果,ベースラインおよび既存バイアス軽減技術に対して有意な改善が得られた。 私たちのアプローチであるfair-automlは,64症例中60例の修復に成功したが,既存のバイアス軽減技術では64例中44例までしか修復できなかった。

Machine learning (ML) is increasingly being used in critical decision-making software, but incidents have raised questions about the fairness of ML predictions. To address this issue, new tools and methods are needed to mitigate bias in ML-based software. Previous studies have proposed bias mitigation algorithms that only work in specific situations and often result in a loss of accuracy. Our proposed solution is a novel approach that utilizes automated machine learning (AutoML) techniques to mitigate bias. Our approach includes two key innovations: a novel optimization function and a fairness-aware search space. By improving the default optimization function of AutoML and incorporating fairness objectives, we are able to mitigate bias with little to no loss of accuracy. Additionally, we propose a fairness-aware search space pruning method for AutoML to reduce computational cost and repair time. Our approach, built on the state-of-the-art Auto-Sklearn tool, is designed to reduce bias in real-world scenarios. In order to demonstrate the effectiveness of our approach, we evaluated our approach on four fairness problems and 16 different ML models, and our results show a significant improvement over the baseline and existing bias mitigation techniques. Our approach, Fair-AutoML, successfully repaired 60 out of 64 buggy cases, while existing bias mitigation techniques only repaired up to 44 out of 64 cases.
翻訳日:2023-08-28 17:13:48 公開日:2023-08-25
# トンネル効果を伴わずにゼロケルビンでエネルギー障壁を横切る方法

How to cross an energy barrier at zero Kelvin without tunneling effect ( http://arxiv.org/abs/2306.07729v2 )

ライセンス: Link先を確認
Seiji Miyashita and Bernard Barbara(参考訳) 本論文は、希土類元素とその化合物、一軸異方性を持つ単一分子磁石、およびより一般的には離散エネルギー準位を持つ単一または複数の物体からなる他の量子系などのエネルギー障壁を持つ単一または集団スピン$s$を持つ幅広い磁気系を扱う。 現在、ゼロケルビンでのそのような系の磁化の反転は、共鳴において重要な横磁場または横異方性項を持つ量子トンネルを利用する必要がある。 ここでは、他の非常に単純な方法が存在することを示す。 これは、システムの特性(磁気システムのスピンと異方性値)に応じて、光学的またはマイクロ波の周波数の範囲で特定の電磁放射列を適用することによって構成される。 これにより、障壁を越えるラビ型の振動が発生し、2つのエネルギー井戸の間にこれらの振動が広がる。 全ての2s+1状態の混合物と 基本的な特徴に加えて、このアプローチは、現在の複数の量子ビットの使用におけるブレークスルーの可能性のある量子情報の研究の新たな方向を開く。

This paper deals with the broad class of magnetic systems having a single or collective spin $S$ with an energy barrier, such as Rare-Earth elements and their compounds, Single Molecule Magnets with uniaxial anisotropy and more generally any other quantum system made of single or multiple objects with discrete energy levels. Till now, the reversal of the magnetization of such systems at zero Kelvin required to make use of quantum tunneling with a significant transverse field or transverse anisotropy term, at resonance. Here, we show that another very simple method exists. It simply consists in the application of a particular sequence of electromagnetic radiations in the ranges of optical or microwave frequencies, depending on the characteristics of the system (spin and anisotropy values for magnetic systems). This produces oscillations of the Rabi type that pass above the barrier, thus extending these oscillations between the two energy wells. with mixtures of all the 2S+1 states. In addition to its basic character, this approach opens up new directions of research in quantum information with possible breakthroughs in the current use of multiple quantum bits.
翻訳日:2023-08-28 17:13:22 公開日:2023-08-25
# ヒト・イン・ザ・ループ・アタックの克服

Overcoming Adversarial Attacks for Human-in-the-Loop Applications ( http://arxiv.org/abs/2306.05952v2 )

ライセンス: Link先を確認
Ryan McCoppin, Marla Kennedy, Platon Lukyanenko, Sean Kennedy(参考訳) 人間の分析を含めると、ディープニューラルネットワークの堅牢性に肯定的な影響を与える可能性があり、Adversarial Machine Learningの文献では比較的研究されていない。 ニューラルネットワークの視覚的説明地図は、敵の攻撃に弱いことが示されている。 画像分析者が与えられたモデルを評価するための説明のロバストな可視化を選択するためには、さらなる研究が必要である。 これらの要因は、説明地図やロバスト性の測定など、逆境画像に依存するため、hitl(human-in-the-loop)評価ツールに大きな影響を与えている。 人間の視覚的注意のモデルは、人間の機械画像解析システムの解釈可能性や堅牢性を向上させることができると考えている。 我々の課題は、HITL評価がこの敵対的な状況でいかに堅牢かである。

Including human analysis has the potential to positively affect the robustness of Deep Neural Networks and is relatively unexplored in the Adversarial Machine Learning literature. Neural network visual explanation maps have been shown to be prone to adversarial attacks. Further research is needed in order to select robust visualizations of explanations for the image analyst to evaluate a given model. These factors greatly impact Human-In-The-Loop (HITL) evaluation tools due to their reliance on adversarial images, including explanation maps and measurements of robustness. We believe models of human visual attention may improve interpretability and robustness of human-machine imagery analysis systems. Our challenge remains, how can HITL evaluation be robust in this adversarial landscape?
翻訳日:2023-08-28 17:13:03 公開日:2023-08-25
# SDR-GAIN: 自動走行のための高リアルタイムOccluded Pedestrian Pose Completion法

SDR-GAIN: A High Real-Time Occluded Pedestrian Pose Completion Method for Autonomous Driving ( http://arxiv.org/abs/2306.03538v4 )

ライセンス: Link先を確認
Honghao Fu, Libo Sun, Yilang Shen, Yiwen Wu(参考訳) 本研究では,人間のポーズキーポイントに基づく歩行者検出手法における部分閉塞から生じる課題を軽減するために,分割・次元減少に基づく生成逆計算ネットワーク(SDR-GAIN)と呼ばれる新しい歩行者ポーズキーポイント完了手法を提案する。 まず、OpenPoseを使って画像中の歩行者のポーズを推定する。 そして,閉塞などの要因により不完全な鍵点を持つ歩行者の頭と胴のキーポイントを分離し,次元的削減を行い,特徴量を高め,さらに特徴分布を統一する。 最後に, フーバー損失, 残差構造, l1正規化を組み込んだgenerative adversarial networks (gan) フレームワークに基づく生成モデルについて紹介する。 我々は,MS COCOとJAADデータセットを用いて,SDR-GAINが基本的なGAINフレームワーク,PCHIPとMAKIMA,機械学習手法k-NN,MissForestをポーズ完了タスクで上回ることを示す。 さらに、SDR-GAINアルゴリズムは、約0.4msの驚くほど短い実行時間を示し、例外的なリアルタイム性能を誇っている。 このように、自律運転の分野では、高いシステム応答速度が最重要となる重要な実践的価値を持っている。 具体的には、人間のポーズキーポイントを迅速かつ正確に捉えることに優れており、歩行者の行動認識や予測に限らず、ポーズキーポイントに基づく歩行者検出タスクの幅広い応用が可能となる。

To mitigate the challenges arising from partial occlusion in human pose keypoint based pedestrian detection methods , we present a novel pedestrian pose keypoint completion method called the separation and dimensionality reduction-based generative adversarial imputation networks (SDR-GAIN) . Firstly, we utilize OpenPose to estimate pedestrian poses in images. Then, we isolate the head and torso keypoints of pedestrians with incomplete keypoints due to occlusion or other factors and perform dimensionality reduction to enhance features and further unify feature distribution. Finally, we introduce two generative models based on the generative adversarial networks (GAN) framework, which incorporate Huber loss, residual structure, and L1 regularization to generate missing parts of the incomplete head and torso pose keypoints of partially occluded pedestrians, resulting in pose completion. Our experiments on MS COCO and JAAD datasets demonstrate that SDR-GAIN outperforms basic GAIN framework, interpolation methods PCHIP and MAkima, machine learning methods k-NN and MissForest in terms of pose completion task. Furthermore, the SDR-GAIN algorithm exhibits a remarkably short running time of approximately 0.4ms and boasts exceptional real-time performance. As such, it holds significant practical value in the domain of autonomous driving, wherein high system response speeds are of paramount importance. Specifically, it excels at rapidly and precisely capturing human pose key points, thus enabling an expanded range of applications for pedestrian detection tasks based on pose key points, including but not limited to pedestrian behavior recognition and prediction.
翻訳日:2023-08-28 17:12:50 公開日:2023-08-25
# 自律運転のための強化学習エージェントのリスク対応リワード形成

Risk-Aware Reward Shaping of Reinforcement Learning Agents for Autonomous Driving ( http://arxiv.org/abs/2306.03220v2 )

ライセンス: Link先を確認
Lin-Chi Wu, Zengjie Zhang, Sofie Haesaert, Zhiqiang Ma, and Zhiyong Sun(参考訳) 強化学習(rl)は、環境との相互作用データを用いて最適な運転方針を自動的に学習できる自律走行における運動計画への効果的なアプローチである。 それにもかかわらず、その性能に重要なRLエージェントの報酬関数を決定することは困難である。 従来の研究は主に安全な運転状態の報奨に焦点を当てているが、車両の危険運転行動に対する認識を取り入れていない。 本稿では,自律運転におけるRLエージェントのトレーニングとテスト性能を活用するために,リスク認識型報酬形成手法について検討する。 本研究は,一般自動運転の安全性を規定する必須要件に基づいて,リスクのある運転行動の探索と罰を与える追加的な報酬条件を提案する。 OpenAI Gymのシミュレーション研究は、様々なRLエージェントに対するリスク認識報酬形成の利点を示している。 また,ppo (proximal policy optimization) はリスクを意識した報酬形成を行う最善の rl 手法である可能性が示唆された。

Reinforcement learning (RL) is an effective approach to motion planning in autonomous driving, where an optimal driving policy can be automatically learned using the interaction data with the environment. Nevertheless, the reward function for an RL agent, which is significant to its performance, is challenging to be determined. The conventional work mainly focuses on rewarding safe driving states but does not incorporate the awareness of risky driving behaviors of the vehicles. In this paper, we investigate how to use risk-aware reward shaping to leverage the training and test performance of RL agents in autonomous driving. Based on the essential requirements that prescribe the safety specifications for general autonomous driving in practice, we propose additional reshaped reward terms that encourage exploration and penalize risky driving behaviors. A simulation study in OpenAI Gym indicates the advantage of risk-aware reward shaping for various RL agents. Also, we point out that proximal policy optimization (PPO) is likely to be the best RL method that works with risk-aware reward shaping.
翻訳日:2023-08-28 17:12:18 公開日:2023-08-25
# speechgen: プロンプトによる音声言語モデルの生成能力の解放

SpeechGen: Unlocking the Generative Power of Speech Language Models with Prompts ( http://arxiv.org/abs/2306.02207v3 )

ライセンス: Link先を確認
Haibin Wu, Kai-Wei Chang, Yuan-Kuei Wu, Hung-yi Lee(参考訳) 大規模言語モデル(LLM)は人工知能生成コンテンツ(AIGC)、特にChatGPTの出現によって注目されている。 しかし、離散トークンを処理するLLMへの連続音声の直接適応は未解決の課題であり、LLMの音声生成への応用を妨げる。 音声信号は、テキストデータだけでなく、話者や感情を含む豊富な情報をカプセル化するので、高度な音声lmsは角を曲がっている。 プロンプトチューニングは、いくつかの音声分類タスクにおいてパラメータ効率と競合性能が著しく向上している。 しかしながら、プロンプトが音声lmsから生成タスクを効果的に導出できる程度は、未解決の問題である。 本稿では,SpeechGenと呼ばれる一貫したフレームワークにおいて,各世代タスクの音声LMを刺激するために,約10Mのトレーニング可能なパラメータで即時チューニングする手法を提案する。 提案した統合フレームワークは効率と有効性に大きな可能性を秘めており、特に高度な音声 LM の到着が差し迫っているため、フレームワークの能力は大幅に向上する。 speechgenのコードとデモはプロジェクトのwebサイトにある。 \url{https://ga642381.github.io/speechprompt/speechgen}

Large language models (LLMs) have gained considerable attention for Artificial Intelligence Generated Content (AIGC), particularly with the emergence of ChatGPT. However, the direct adaptation of continuous speech to LLMs that process discrete tokens remains an unsolved challenge, hindering the application of LLMs for speech generation. The advanced speech LMs are in the corner, as that speech signals encapsulate a wealth of information, including speaker and emotion, beyond textual data alone. Prompt tuning has demonstrated notable gains in parameter efficiency and competitive performance on some speech classification tasks. However, the extent to which prompts can effectively elicit generation tasks from speech LMs remains an open question. In this paper, we present pioneering research that explores the application of prompt tuning to stimulate speech LMs for various generation tasks, within a unified framework called SpeechGen, with around 10M trainable parameters. The proposed unified framework holds great promise for efficiency and effectiveness, particularly with the imminent arrival of advanced speech LMs, which will significantly enhance the capabilities of the framework. The code and demos of SpeechGen will be available on the project website: \url{https://ga642381.github.io/SpeechPrompt/speechgen}
翻訳日:2023-08-28 17:12:03 公開日:2023-08-25
# 事前学習音声モデルのモデル伝達可能性の推定法

How to Estimate Model Transferability of Pre-Trained Speech Models? ( http://arxiv.org/abs/2306.01015v2 )

ライセンス: Link先を確認
Zih-Ching Chen, Chao-Han Huck Yang, Bo Li, Yu Zhang, Nanxin Chen, Shou-Yiin Chang, Rohit Prabhavalkar, Hung-yi Lee, Tara N. Sainath(参考訳) 本研究では,学習対象タスクに対する事前学習音声モデル(PSM)の伝達可能性を推定する「スコアベースアセスメント」フレームワークを提案する。 我々は,ベイズ推定法と最適移動法という2つの表現理論を用いて,抽出した表現を用いてpsm候補のランクスコアを生成する。 提案手法は, 時間的独立仮説を定めて, 候補モデルやレイヤの微調整をすることなく, 転送可能性スコアを効率的に計算する。 公開データを用いて,一般的な教師付き音声モデル (Conformer RNN-Transducerなど) と自己教師付き音声モデル (HuBERTなど) をクロス層およびクロスモデル設定で評価する。 実験の結果,スピアマンのランク相関は高く,評価フレームワークと微調整の土台真実との間にはp$-値が低いことがわかった。 提案する転送性フレームワークは計算時間と資源を少なくし,音声基礎モデルをチューニングするための資源節約と時間効率のアプローチとなる。

In this work, we introduce a "score-based assessment" framework for estimating the transferability of pre-trained speech models (PSMs) for fine-tuning target tasks. We leverage upon two representation theories, Bayesian likelihood estimation and optimal transport, to generate rank scores for the PSM candidates using the extracted representations. Our framework efficiently computes transferability scores without actual fine-tuning of candidate models or layers by making a temporal independent hypothesis. We evaluate some popular supervised speech models (e.g., Conformer RNN-Transducer) and self-supervised speech models (e.g., HuBERT) in cross-layer and cross-model settings using public data. Experimental results show a high Spearman's rank correlation and low $p$-value between our estimation framework and fine-tuning ground truth. Our proposed transferability framework requires less computational time and resources, making it a resource-saving and time-efficient approach for tuning speech foundation models.
翻訳日:2023-08-28 17:11:42 公開日:2023-08-25
# 確率的ディープラーニングのためのカーネル密度行列

Kernel Density Matrices for Probabilistic Deep Learning ( http://arxiv.org/abs/2305.18204v2 )

ライセンス: Link先を確認
Fabio A. Gonz\'alez, Ra\'ul Ramos-Poll\'an, Joseph A. Gallego-Mejia(参考訳) 本稿では,連続確率変数と離散確率変数の合同確率分布を表現するための簡易かつ効果的なメカニズムを提供する,確率的深層学習,カーネル密度行列に対する新しいアプローチを提案する。 量子力学において、密度行列は量子系の状態を記述する最も一般的な方法である。 この研究は密度行列の概念を拡張し、それを再生核ヒルベルト空間で定義することを可能にする。 この抽象化により、密度推定、推論、サンプリングのための微分可能なモデルの構築が可能になり、エンドツーエンドのディープニューラルモデルへの統合が可能になる。 そこで本研究では,確率分布と連立確率分布を多義的に表現し,密度推定,識別学習,生成モデルなど,幅広い機械学習タスクをカバーする,微分可能,構成可能,可逆的推論手順を開発する。 フレームワークの広範な適用性は、2つの例で示される: 自然に条件付き生成モデルに変換可能な画像分類モデルと、トレーニングサンプルにおける不確実性に対処するフレームワークの能力を示すラベル比率で学習するモデルである。

This paper introduces a novel approach to probabilistic deep learning, kernel density matrices, which provide a simpler yet effective mechanism for representing joint probability distributions of both continuous and discrete random variables. In quantum mechanics, a density matrix is the most general way to describe the state of a quantum system. This work extends the concept of density matrices by allowing them to be defined in a reproducing kernel Hilbert space. This abstraction allows the construction of differentiable models for density estimation, inference, and sampling, and enables their integration into end-to-end deep neural models. In doing so, we provide a versatile representation of marginal and joint probability distributions that allows us to develop a differentiable, compositional, and reversible inference procedure that covers a wide range of machine learning tasks, including density estimation, discriminative learning, and generative modeling. The broad applicability of the framework is illustrated by two examples: an image classification model that can be naturally transformed into a conditional generative model, and a model for learning with label proportions that demonstrates the framework's ability to deal with uncertainty in the training samples.
翻訳日:2023-08-28 17:11:26 公開日:2023-08-25
# 有価なインスタンスマイニングによるオンラインオープンセット半教師付き物体検出

Online Open-set Semi-supervised Object Detection by Valuable Instances Mining ( http://arxiv.org/abs/2305.13802v2 )

ライセンス: Link先を確認
Zerun Wang, Ling Xiao, Liuyu Xiang, Zhaotian Weng, Toshihiko Yamasaki(参考訳) open-set semi-supervised object detection (ossod) は、半教師付きオブジェクト検出 (ssod) のためにout-of-distribution (ood) インスタンスを持つ実用的なオープンセット非ラベルデータセットを利用する。 OSSODの主な課題は、擬似ラベル付け中にOODインスタンス(すなわち、アウトレーヤ)とIDインスタンスを区別してフィルタリングすることである。 OSSODの唯一の作業は、この問題を解決するためにラベル付きデータのみをトレーニングしたオフラインのOOD検出ネットワークである。 しかし、限られたトレーニングデータは改善の可能性を制限する。 一方、オフライン戦略は効率を低下させる。 これらの問題を緩和するために、パフォーマンスと効率を改善するエンドツーエンドのOSSODフレームワークを提案する。 1)ラベル付きデータとラベルなしデータの両方を用いて,OODインスタンスをより効果的にフィルタリングする半教師付き外部フィルタリング手法を提案する。 2) 半教師付き外乱フィルタにおける誤予測を抑えることにより, 性能を向上するしきい値のないデュアル競合OODヘッドを提案する。 3)提案手法はオンラインのエンドツーエンドトレーニング可能なOSSODフレームワークである。 実験の結果,提案手法は既存の手法と比較してOSSODベンチマークの最先端性能を実現していることがわかった。 さらに,本手法が様々なSSODフレームワークに容易に適用可能であることを示す。

Open-set semi-supervised object detection (OSSOD) leverages practical open-set unlabeled datasets with out-of-distribution (OOD) instances for semi-supervised object detection (SSOD). The main challenge in OSSOD is distinguishing and filtering the OOD instances (i.e., outliers) from in-distribution (ID) instances during pseudo-labeling. The only OSSOD work employs an additional offline OOD detection network trained solely with labeled data for solving this problem. However, the limited training data restricts the potential for improvement. Meanwhile, the offline strategy results in low efficiency. To alleviate these issues, this paper proposes an end-to-end online OSSOD framework that improves performance and efficiency: 1) We propose a semi-supervised outlier filtering method that more effectively filters the OOD instances by using both labeled and unlabeled data. 2) We propose a threshold-free Dual Competing OOD head that further improves the performance by suppressing the mispredictions during semi-supervised outlier filtering. 3) Our proposed method is an online end-to-end trainable OSSOD framework. Experimental results show that our method achieves state-of-the-art performance on several OSSOD benchmarks compared to existing methods. Moreover, additional experiments show that our method can be easily applied to different SSOD frameworks.
翻訳日:2023-08-28 17:11:07 公開日:2023-08-25
# 新規クラス発見のためのクラス関連知識蒸留

Class-relation Knowledge Distillation for Novel Class Discovery ( http://arxiv.org/abs/2307.09158v3 )

ライセンス: Link先を確認
Peiyan Gu, Chuyu Zhang, Ruijie Xu, Xuming He(参考訳) 既知のクラスからのラベル付きデータに基づく監督なしに新しいクラスを学習することを目的とした,新しいクラス発見の問題に取り組む。 重要な課題は、既知のクラスデータの知識を新しいクラスの学習に転送することである。 従来の手法は主に知識伝達のための共有表現空間の構築に重点を置いており、しばしばクラス関係のモデリングを無視する。 そこで本研究では,既知のクラスで学習されたモデルの予測クラス分布に基づく新しいクラスのクラス関係表現を提案する。 経験的に、そのようなクラス関係は、典型的な発見訓練において、より情報に乏しくなります。 このような情報損失を防止するため,我々のクラス関係表現を利用して新しいクラスの学習を規則化する新しい知識蒸留フレームワークを提案する。 また,新しいクラスにおける各データポイントに対する柔軟な知識蒸留スキームを実現するために,新しいクラスと既知のクラスの意味的類似性に基づいて知識伝達を適応的に促進する正規化のための学習可能な重み付け関数を開発した。 CIFAR100,Stanford Cars,CUB,FGVC-Aircraftデータセットなど,複数のベンチマークにおいて,本手法の有効性と一般化を検証する。 提案手法は, ほぼすべてのベンチマークにおいて, 従来の最先端手法よりも優れた性能を示した。 コードは \href{https://github.com/kleinzcy/cr-kd-ncd}{here} で入手できる。

We tackle the problem of novel class discovery, which aims to learn novel classes without supervision based on labeled data from known classes. A key challenge lies in transferring the knowledge in the known-class data to the learning of novel classes. Previous methods mainly focus on building a shared representation space for knowledge transfer and often ignore modeling class relations. To address this, we introduce a class relation representation for the novel classes based on the predicted class distribution of a model trained on known classes. Empirically, we find that such class relation becomes less informative during typical discovery training. To prevent such information loss, we propose a novel knowledge distillation framework, which utilizes our class-relation representation to regularize the learning of novel classes. In addition, to enable a flexible knowledge distillation scheme for each data point in novel classes, we develop a learnable weighting function for the regularization, which adaptively promotes knowledge transfer based on the semantic similarity between the novel and known classes. To validate the effectiveness and generalization of our method, we conduct extensive experiments on multiple benchmarks, including CIFAR100, Stanford Cars, CUB, and FGVC-Aircraft datasets. Our results demonstrate that the proposed method outperforms the previous state-of-the-art methods by a significant margin on almost all benchmarks. Code is available at \href{https://github.com/kleinzcy/Cr-KD-NCD}{here}.
翻訳日:2023-08-28 17:02:51 公開日:2023-08-25
# なぜ小さなロバストさが役に立つのか? 代理訓練による対向移動可能性の理解と改善

Why Does Little Robustness Help? Understanding and Improving Adversarial Transferability from Surrogate Training ( http://arxiv.org/abs/2307.07873v4 )

ライセンス: Link先を確認
Yechao Zhang, Shengshan Hu, Leo Yu Zhang, Junyu Shi, Minghui Li, Xiaogeng Liu, Wei Wan, Hai Jin(参考訳) DNNの逆例(AE)は転送可能であることが示されている: ホワイトボックスサロゲートモデルをうまく騙すAEは、異なるアーキテクチャで他のブラックボックスモデルを騙すこともできる。 多くの実験的な研究は、高度に伝達可能なAEを生成するためのガイダンスを提供してきたが、これらの発見の多くは説明に欠け、矛盾するアドバイスに至る。 本稿では,敵対的伝達可能性の理解に向けてさらなる一歩を踏み出し,サロゲート的な側面に焦点をあてる。 弱い摂動サンプルで逆向きに訓練されたモデルがより良い代理となるという、興味深い小さな堅牢性現象から始まり、モデルの滑らかさと勾配類似性という2つの主要な要因のトレードオフが原因と考えられる。 研究は, 移動可能性との相関性ではなく, 共同効果に焦点をあてた。 一連の理論的および経験的分析を通して、逆行訓練におけるデータ分布シフトが勾配類似性の低下を説明すると推測する。 これらの知見に基づいて,データ拡張と勾配正規化が伝達可能性に与える影響を考察し,そのトレードオフが様々なトレーニングメカニズムに一般的に存在していることを確認する。 最後に,入力勾配正則化とシャープネス認識最小化(sam)の組み合わせなど,モデルの滑らかさと勾配の類似性を同時に最適化するトランスファー性を高めるために,より優れたサロゲートを構築するための一般的な経路を提案する。 要約すると、我々は、一方を無視しながら一方を最適化するのではなく、他方を効果的に移動攻撃する2つの要因の統一的な影響に注意を向け、代理モデルを操作する重要な役割を強調している。

Adversarial examples (AEs) for DNNs have been shown to be transferable: AEs that successfully fool white-box surrogate models can also deceive other black-box models with different architectures. Although a bunch of empirical studies have provided guidance on generating highly transferable AEs, many of these findings lack explanations and even lead to inconsistent advice. In this paper, we take a further step towards understanding adversarial transferability, with a particular focus on surrogate aspects. Starting from the intriguing little robustness phenomenon, where models adversarially trained with mildly perturbed adversarial samples can serve as better surrogates, we attribute it to a trade-off between two predominant factors: model smoothness and gradient similarity. Our investigations focus on their joint effects, rather than their separate correlations with transferability. Through a series of theoretical and empirical analyses, we conjecture that the data distribution shift in adversarial training explains the degradation of gradient similarity. Building on these insights, we explore the impacts of data augmentation and gradient regularization on transferability and identify that the trade-off generally exists in the various training mechanisms, thus building a comprehensive blueprint for the regulation mechanism behind transferability. Finally, we provide a general route for constructing better surrogates to boost transferability which optimizes both model smoothness and gradient similarity simultaneously, e.g., the combination of input gradient regularization and sharpness-aware minimization (SAM), validated by extensive experiments. In summary, we call for attention to the united impacts of these two factors for launching effective transfer attacks, rather than optimizing one while ignoring the other, and emphasize the crucial role of manipulating surrogate models.
翻訳日:2023-08-28 17:02:28 公開日:2023-08-25
# ACTI at EVALITA 2023: Overview of the Conspiracy Theory Identification Task

ACTI at EVALITA 2023: Overview of the Conspiracy Theory Identification Task ( http://arxiv.org/abs/2307.06954v2 )

ライセンス: Link先を確認
Giuseppe Russo, Niklas Stoehr, Manoel Horta Ribeiro(参考訳) 共謀理論の証明タスクは、エヴァリタ2023で初めて提案された新しい共有タスクである。 actiチャレンジはtelegramの共謀チャンネルで公開されているコメントのみに基づいており、以下の2つのサブタスクに分割されている。 (i)共謀内容分類:共謀内容の同定及び (ii)特定の共謀理論の分類に関する共謀圏分類。 合計15チームがタスクに参加し、合計81回の応募を行った。 提案手法は,大規模言語モデルの利用に基づくものである。 最後に、オンラインプラットフォームにおける誤情報の拡散防止にこれらのモデルの活用について結論を出す。

Conspiracy Theory Identication task is a new shared task proposed for the first time at the Evalita 2023. The ACTI challenge, based exclusively on comments published on conspiratorial channels of telegram, is divided into two subtasks: (i) Conspiratorial Content Classification: identifying conspiratorial content and (ii) Conspiratorial Category Classification about specific conspiracy theory classification. A total of fifteen teams participated in the task for a total of 81 submissions. We illustrate the best performing approaches were based on the utilization of large language models. We finally draw conclusions about the utilization of these models for counteracting the spreading of misinformation in online platforms.
翻訳日:2023-08-28 17:01:56 公開日:2023-08-25
# IntelliGraphs:知識グラフ生成のベンチマークのためのデータセット

IntelliGraphs: Datasets for Benchmarking Knowledge Graph Generation ( http://arxiv.org/abs/2307.06698v3 )

ライセンス: Link先を確認
Thiviyan Thanapalasingam, Emile van Krieken, Peter Bloem, Paul Groth(参考訳) 知識グラフ埋め込み(KGE)モデルは、エンティティとリレーションの連続的な表現を学ぶために使用される。 文献における重要な課題は、エンティティ間のリンク不足を予測することである。 しかし、知識グラフはリンクの集合だけでなく、その構造の基礎となる意味論も持っている。 セマンティックスは、クエリ応答や推論など、いくつかの下流タスクにおいて重要である。 本稿では,モデルが確率的かつ意味的に有効な部分グラフを生成するための部分グラフ推論タスクを提案する。 我々は5つの新しい知識グラフデータセットセットであるIntelliGraphsを提案する。 IntelliGraphsデータセットには、サブグラフ推論を評価するための論理ルールで表現されたセマンティックスを含むサブグラフが含まれている。 また,合成データセットを生成するデータセット生成装置を提案する。 従来のkgsに基づく3つのモデルを含む4つの新しいベースラインモデルを設計した。 我々は,それらの表現性を評価し,これらのモデルが意味を捉えられないことを示す。 このベンチマークは、セマンティック理解を強調する機械学習モデルの開発を促進するだろうと考えています。

Knowledge Graph Embedding (KGE) models are used to learn continuous representations of entities and relations. A key task in the literature is predicting missing links between entities. However, Knowledge Graphs are not just sets of links but also have semantics underlying their structure. Semantics is crucial in several downstream tasks, such as query answering or reasoning. We introduce the subgraph inference task, where a model has to generate likely and semantically valid subgraphs. We propose IntelliGraphs, a set of five new Knowledge Graph datasets. The IntelliGraphs datasets contain subgraphs with semantics expressed in logical rules for evaluating subgraph inference. We also present the dataset generator that produced the synthetic datasets. We designed four novel baseline models, which include three models based on traditional KGEs. We evaluate their expressiveness and show that these models cannot capture the semantics. We believe this benchmark will encourage the development of machine learning models that emphasize semantic understanding.
翻訳日:2023-08-28 17:01:47 公開日:2023-08-25
# Federated Ensemble YOLOv5 -- より汎用的なオブジェクト検出アルゴリズム

Federated Ensemble YOLOv5 -- A Better Generalized Object Detection Algorithm ( http://arxiv.org/abs/2306.17829v2 )

ライセンス: Link先を確認
Vinit Hegiste, Tatjana Legler and Martin Ruskowski(参考訳) フェデレーション学習(FL)は、プライバシ保護アルゴリズムとして大きな注目を集めているが、フェデレーション平均化(FedAvg)やフェデレーションSGD(FedSGD)といったフェデレーション学習アルゴリズムの、学習アルゴリズムのアンサンブルに関する基礎的な類似性は、十分に研究されていない。 本研究の目的は,一般化可能性を高める手段としてのオブジェクト検出へのflの適用を検証し,その性能をオブジェクト検出アルゴリズムの集中型トレーニング手法と比較することである。 具体的には,複数のクライアント間でflを用いてトレーニングされたyolov5モデルの性能を調査し,各クライアントが集中トレーニングに使用する同じデータセットの一部を保持するように,ランダムサンプリング戦略を採用した。 実験の結果,flオブジェクト検出器のグローバルモデルにおいて,未検出オブジェクトの正確なバウンディングボックスを生成するのに優れた効率を示し,テストセットはトレーニングデータセットに表されない2つの異なるクライアントからのオブジェクトの混合であることを示した。 これらの結果は, FLをアンサンブルアルゴリズムの観点から見ることができ, バッギングとブースティングの相乗的ブレンドに似ていることを示唆している。 その結果、FLはプライバシーを高める方法としてだけでなく、機械学習モデルの性能を高める方法としても見ることができる。

Federated learning (FL) has gained significant traction as a privacy-preserving algorithm, but the underlying resemblances of federated learning algorithms like Federated averaging (FedAvg) or Federated SGD (Fed SGD) to ensemble learning algorithms have not been fully explored. The purpose of this paper is to examine the application of FL to object detection as a method to enhance generalizability, and to compare its performance against a centralized training approach for an object detection algorithm. Specifically, we investigate the performance of a YOLOv5 model trained using FL across multiple clients and employ a random sampling strategy without replacement, so each client holds a portion of the same dataset used for centralized training. Our experimental results showcase the superior efficiency of the FL object detector's global model in generating accurate bounding boxes for unseen objects, with the test set being a mixture of objects from two distinct clients not represented in the training dataset. These findings suggest that FL can be viewed from an ensemble algorithm perspective, akin to a synergistic blend of Bagging and Boosting techniques. As a result, FL can be seen not only as a method to enhance privacy, but also as a method to enhance the performance of a machine learning model.
翻訳日:2023-08-28 17:01:37 公開日:2023-08-25
# 共有生産における品質検査のためのフェデレーション物体検出

Federated Object Detection for Quality Inspection in Shared Production ( http://arxiv.org/abs/2306.17645v2 )

ライセンス: Link先を確認
Vinit Hegiste, Tatjana Legler and Martin Ruskowski(参考訳) フェデレートラーニング(FL)は、データプライバシを損なうことなく、分散データ上で機械学習モデルをトレーニングするための有望なアプローチとして登場した。 本稿では,オブジェクト検出アルゴリズムとしてYOLOv5,FLアルゴリズムとしてFederated Averaging(FedAvg)を用いた品質検査タスクにおけるオブジェクト検出のためのFLアルゴリズムを提案する。 非IIDデータセット上でデータのプライバシを保持しつつ,グローバルなオブジェクト検出モデルのトレーニングに複数のファクトリ/クライアントが貢献する,製造ユースケースに適用する。 我々のFL手法は、局所クライアントのデータセットを用いて訓練されたモデルと比較して、クライアントのテストデータセット全体の一般化性能を向上し、オブジェクトのまわりのバウンディングボックスを改善することを実証した。 本研究は, 製造業界における品質検査業務におけるFLの可能性を示し, 連合オブジェクト検出におけるYOLOv5とFedAvgの利用性能と実現可能性に関する貴重な知見を提供する。

Federated learning (FL) has emerged as a promising approach for training machine learning models on decentralized data without compromising data privacy. In this paper, we propose a FL algorithm for object detection in quality inspection tasks using YOLOv5 as the object detection algorithm and Federated Averaging (FedAvg) as the FL algorithm. We apply this approach to a manufacturing use-case where multiple factories/clients contribute data for training a global object detection model while preserving data privacy on a non-IID dataset. Our experiments demonstrate that our FL approach achieves better generalization performance on the overall clients' test dataset and generates improved bounding boxes around the objects compared to models trained using local clients' datasets. This work showcases the potential of FL for quality inspection tasks in the manufacturing industry and provides valuable insights into the performance and feasibility of utilizing YOLOv5 and FedAvg for federated object detection.
翻訳日:2023-08-28 17:01:10 公開日:2023-08-25
# Rater-Specific Bayesian Neural Networkによる医用画像セグメンテーションにおける層間不確かさの定量化

Inter-Rater Uncertainty Quantification in Medical Image Segmentation via Rater-Specific Bayesian Neural Networks ( http://arxiv.org/abs/2306.16556v2 )

ライセンス: Link先を確認
Qingqiao Hu, Hao Wang, Jing Luo, Yunhao Luo, Zhiheng Zhangg, Jan S. Kirschke, Benedikt Wiestler, Bjoern Menze, Jianguo Zhang, Hongwei Bran Li(参考訳) 自動医用画像分割は本質的にある程度の不確実性を伴う。 この不確実性に寄与する重要な要因の1つは、主に画像の外観の変化によって、対象領域の境界を決定する際に生じる曖昧さである。 これに加えて、この分野の専門家の間でも、特定の解剖学的構造の正確な定義に関して異なる意見が生まれることがある。 この研究は特に、層間不確実性として知られるセグメンテーションの不確かさのモデリングに対処する。 その主な目的は、医療画像の複数の専門家が同じ画像の解釈と注釈を行う際に生じるセグメンテーション結果の変動を探索し分析することである。 医用画像セグメンテーションにおけるレータ間不確実性を推定するための新しいベイズニューラルネットワークアーキテクチャを提案する。 私たちのアプローチには3つの重要な進歩がある。 まず,不確実性推定用に特別に調整した1エンコーダマルチデコーダアーキテクチャを導入することで,各専門家のレートラ固有の表現を捉えることができる。 第2に,新しいアーキテクチャのベイズモデルを提案することで,特に制約の少ないシナリオにおいて,レート間分布の効率的なキャプチャを実現する。 最後に、各デコーダにアテンションモジュールを組み込むことにより、rater特有の表現を強化する。 このモジュールは、各レートのセグメンテーション結果の集中化と洗練を容易にする。 合成および実世界のデータセットを使用して広範な評価を行い、技術的革新を厳格に検証する。 提案手法は, 各種不確実性を考慮した2つの評価指標を考慮し, 7つのタスクのうち5つにおいて, 既存のベースライン手法を越えている。 私たちのコード、モデル、新しいデータセットはgithubリポジトリから入手できます。

Automated medical image segmentation inherently involves a certain degree of uncertainty. One key factor contributing to this uncertainty is the ambiguity that can arise in determining the boundaries of a target region of interest, primarily due to variations in image appearance. On top of this, even among experts in the field, different opinions can emerge regarding the precise definition of specific anatomical structures. This work specifically addresses the modeling of segmentation uncertainty, known as inter-rater uncertainty. Its primary objective is to explore and analyze the variability in segmentation outcomes that can occur when multiple experts in medical imaging interpret and annotate the same images. We introduce a novel Bayesian neural network-based architecture to estimate inter-rater uncertainty in medical image segmentation. Our approach has three key advancements. Firstly, we introduce a one-encoder-multi-decoder architecture specifically tailored for uncertainty estimation, enabling us to capture the rater-specific representation of each expert involved. Secondly, we propose Bayesian modeling for the new architecture, allowing efficient capture of the inter-rater distribution, particularly in scenarios with limited annotations. Lastly, we enhance the rater-specific representation by integrating an attention module into each decoder. This module facilitates focused and refined segmentation results for each rater. We conduct extensive evaluations using synthetic and real-world datasets to validate our technical innovations rigorously. Our method surpasses existing baseline methods in five out of seven diverse tasks on the publicly available \emph{QUBIQ} dataset, considering two evaluation metrics encompassing different uncertainty aspects. Our codes, models, and the new dataset are available through our GitHub repository: https://github.com/HaoWang420/bOEMD-net .
翻訳日:2023-08-28 17:00:53 公開日:2023-08-25
# To Spike or Not To Spike:Deep Learning Accelerationのデジタルハードウェアの展望

To Spike or Not To Spike: A Digital Hardware Perspective on Deep Learning Acceleration ( http://arxiv.org/abs/2306.15749v2 )

ライセンス: Link先を確認
Fabrizio Ottati, Chang Gao, Qinyu Chen, Giovanni Brignone, Mario R. Casu, Jason K. Eshraghian, Luciano Lavagno(参考訳) ディープラーニングモデルの規模が拡大するにつれて、コンピュータビジョンから自然言語処理に至るまでの領域で競争力が高まる一方で、メモリとコンピューティングのパワーがますます必要になるため、効率が犠牲になる。 生物学的脳のパワー効率は、いかなる大規模ディープラーニング(DL)モデルよりも優れており、ニューロモルフィックコンピューティングは、スパイクベースの情報処理のような脳の操作を模倣して、DLモデルの効率を向上させる。 効率的な情報伝達、高密度神経インターコネクト、計算と記憶の同時配置といった脳の利点にもかかわらず、利用可能な生物学的基質は生物学的脳の進化を厳しく制限している。 電子ハードウェアは同じ制約を持たないため、スパイクニューラルネットワーク(snn)のモデル化はパズルの1つのピースを明らかにする可能性があるが、snsの効率的なハードウェアバックエンドの設計にはさらなる調査が必要である。 そのため、いつ新しいハードウェアを設計しながら脳を見るのが賢明なのか、いつ無視されるべきなのか? そこで本研究では,ANNとSNNのデジタルハードウェアアクセラレーション技術とプラットフォームを定量的に比較する。

As deep learning models scale, they become increasingly competitive from domains spanning computer vision to natural language processing; however, this happens at the expense of efficiency since they require increasingly more memory and computing power. The power efficiency of the biological brain outperforms the one of any large-scale deep learning (DL) model; thus, neuromorphic computing tries to mimic the brain operations, such as spike-based information processing, to improve the efficiency of DL models. Despite the benefits of the brain, such as efficient information transmission, dense neuronal interconnects, and the co-location of computation and memory, the available biological substrate has severely constrained the evolution of biological brains. Electronic hardware does not have the same constraints; therefore, while modeling spiking neural networks (SNNs) might uncover one piece of the puzzle, the design of efficient hardware backends for SNNs needs further investigation, potentially taking inspiration from the available work done on the artificial neural networks (ANN s) side. As such, when is it wise to look at the brain while designing new hardware, and when should it be ignored? To answer this question, we quantitatively compare the digital hardware acceleration techniques and platforms of ANN s and SNNs.
翻訳日:2023-08-28 17:00:24 公開日:2023-08-25
# 現代制約プログラミング教育:将来への教訓

Modern Constraint Programming Education: Lessons for the Future ( http://arxiv.org/abs/2306.13676v2 )

ライセンス: Link先を確認
Tejas Santanam, Pascal Van Hentenryck(参考訳) 本稿では,CPインストラクターのレンズによる現代制約プログラミング(CP)教育の展望について述べる。 現在のCPコースの概要と指導方法について概説し、オンラインおよび事実上のコースに着目した。 続いて、アメリカ合衆国ジョージア州アトランタにあるジョージア工科大学(georgia tech)で、工学系学生のためのcp教育を大規模に導入するための新しいアプローチに関する議論が行われた。 本論文は,ジョージア工科大学 cp コースの要点を要約し,cp 教育の今後について考察する。 cp教育の長期的成長を支援するために,指導方法,促進方法,組織変化の考え方が提案されている。

This paper details an outlook on modern constraint programming (CP) education through the lens of a CP instructor. A general overview of current CP courses and instructional methods is presented, with a focus on online and virtually-delivered courses. This is followed by a discussion of the novel approach taken to introductory CP education for engineering students at large scale at the Georgia Institute of Technology (Georgia Tech) in Atlanta, GA, USA. The paper summarizes important takeaways from the Georgia Tech CP course and ends with a discussion on the future of CP education. Some ideas for instructional methods, promotional methods, and organizational changes are proposed to aid in the long-term growth of CP education.
翻訳日:2023-08-28 17:00:00 公開日:2023-08-25
# チャーン数の計算:実空間とツイスト境界条件の同値性

Calculations of Chern number: equivalence of real-space and twisted-boundary-condition formulae ( http://arxiv.org/abs/2308.04164v2 )

ライセンス: Link先を確認
Ling Lin, Yongguan Ke, Li Zhang and Chaohong Lee(参考訳) チャーン数は二次元量子系の位相的特徴を特徴づける重要な不変量である。 実空間チャーン数は、変換対称性を伴わずにシステムの位相的性質を抽出できるため、障害や不純物を伴うトポロジカルシステムの調査において重要な役割を果たす。 一方、ツイスト境界条件(TBC)は、翻訳対称性のないチャーン数を定義するためにも用いられる。 ここではこれらの異なるチャーン数の定義の関係について検討する。 TBC式と2つの実空間式(非可換チャーン数とボット指数式)を解析することにより、これらのアプローチが熱力学極限において等価であることを示す。 等価性はハルダンモデルを通じて数値的に確認される。

Chern number is a crucial invariant for characterizing topological feature of two-dimensional quantum systems. Real-space Chern number allows us to extract topological properties of systems without involving translational symmetry, and hence plays an important role in investigating topological systems with disorder or impurity. On the other hand, the twisted boundary condition (TBC) can also be used to define the Chern number in the absence of translational symmetry. Here we study the relation between these different definitions of Chern number. Through analyzing the TBC formula and two real-space formulae (the non-commutative Chern number and the Bott index formula), we show that these approaches are equivalent in the thermodynamic limit. The equivalence is also numerically confirmed via the Haldane model.
翻訳日:2023-08-28 16:54:47 公開日:2023-08-25
# 量子エンタングルメントとスクイーズを用いたサブSQL電子場センシング

Sub-SQL electronic field sensing by simultaneously using quantum entanglements and squeezings ( http://arxiv.org/abs/2308.04136v4 )

ライセンス: Link先を確認
X. N. Feng, M. Zhang, and L. F. Wei(参考訳) 量子エンタングルメント(quantum entanglement)と量子スクイージング(quantum squeezing)は、量子メトロロジーにおける感度の高い位相推定の標準量子限界(sql)を打ち負かすための2つの典型的なアプローチである。 それぞれが、トラップされたイオンプラットフォームによる電界センシングの感度を向上させるために、すでに個別に利用されてきたが、実証された感度ゲインの上限は、SQL上の実験的な3dBと理論的な6dBと非常に限られている。 そこで, 内部(スピン)-外部(オシレータ)状態の絡み合いと発振器スクイーズを併用して, 蓄積相を効果的に増幅することにより, これらの感度利得を効果的に超えることを示す。 願わくば、この提案は、所望の電界や他のメトロロギーの繊細なセンシングのためのsqlのより強力なビートに対する新しいアプローチを提供する。

Quantum entanglement and quantum squeezing are two most typical approaches to beat the standard quantum limit (SQL) of the sensitive phase estimations in quantum metrology. Each of them has already been utilized individually to improve the sensitivity of electric field sensing with the trapped ion platform, but the upper bound of the demonstrated sensitivity gain is very limited, i.e., the experimental 3dB and theoretical 6dB, over the SQL. Here, by simultaneously using the internal (spin)-external (oscillator) state entanglements and the oscillator squeezings to effectively amplify the accumulation phase, we show that these sensitivity gains can be effectively surpassed. Hopefully, the proposal provides a novel approach to the stronger beaten of the SQL for the sensitive sensings of the desired electric field and also the other metrologies.
翻訳日:2023-08-28 16:54:32 公開日:2023-08-25
# スコアリングをアレンジで置き換える: 学習からランクへのコンテクスト・セット・トゥ・アレンジメント・フレームワーク

Replace Scoring with Arrangement: A Contextual Set-to-Arrangement Framework for Learning-to-Rank ( http://arxiv.org/abs/2308.02860v2 )

ライセンス: Link先を確認
Jiarui Jin, Xianyu Chen, Weinan Zhang, Mengyue Yang, Yang Wang, Yali Du, Yong Yu, Jun Wang(参考訳) learning-to-rankはトップnレコメンデーションタスクの中核となるテクニックであり、理想的なランカはアイテムセットからアレンジメント(すなわち置換)へのマッピングである。 既存のソリューションのほとんどは確率的ランキング原理(PRP)のパラダイムに該当する。すなわち、まず候補セットで各項目をスコアし、次にソート操作を行い、トップランキングリストを生成する。 しかし,これらのアプローチは,個々の得点における候補項目間の文脈依存を無視し,ソート操作は不可分である。 上記の問題を回避すべく,個別のスコア付けやソート操作を必要とせず,候補項目の置換を直接生成する新しいフレームワークであるset-to-arrangement ranking (starank)を提案する。 その結果、starankは、アイテムの接地関連スコアにアクセスせずに、接地順の順列のみにアクセスできる場合にのみ動作することができる。 この目的のために、STARankはまずユーザブラウジング履歴のコンテキストで候補項目を読み、その表現をPlanet-Luceモジュールに入力して、指定された項目をリストに配置する。 スタークの監視に与えられた接地順の置換を効果的に利用するために,placett-luceモデルの内部一貫性を活用し,計算効率の良いリストワイズ損失を導出する。 2つのラーニング・トゥ・ランクベンチマークデータセットと3つのトップn実世界のレコメンデーションデータセットにおける9つの最先端手法に対する実験的比較は、従来のランキング指標でスタークの優位を示している。 これらのランキング指標は、リスト内の項目間の文脈依存の影響を考慮せず、既存のメトリクスを特別なケースとして扱うことができる、シミュレーションに基づく新しいランキング指標のファミリーを設計することに注意する。 STARank は、PBM と UBM のシミュレーションベースのメトリクスで、常により良いパフォーマンスを達成することができる。

Learning-to-rank is a core technique in the top-N recommendation task, where an ideal ranker would be a mapping from an item set to an arrangement (a.k.a. permutation). Most existing solutions fall in the paradigm of probabilistic ranking principle (PRP), i.e., first score each item in the candidate set and then perform a sort operation to generate the top ranking list. However, these approaches neglect the contextual dependence among candidate items during individual scoring, and the sort operation is non-differentiable. To bypass the above issues, we propose Set-To-Arrangement Ranking (STARank), a new framework directly generates the permutations of the candidate items without the need for individually scoring and sort operations; and is end-to-end differentiable. As a result, STARank can operate when only the ground-truth permutations are accessible without requiring access to the ground-truth relevance scores for items. For this purpose, STARank first reads the candidate items in the context of the user browsing history, whose representations are fed into a Plackett-Luce module to arrange the given items into a list. To effectively utilize the given ground-truth permutations for supervising STARank, we leverage the internal consistency property of Plackett-Luce models to derive a computationally efficient list-wise loss. Experimental comparisons against 9 the state-of-the-art methods on 2 learning-to-rank benchmark datasets and 3 top-N real-world recommendation datasets demonstrate the superiority of STARank in terms of conventional ranking metrics. Notice that these ranking metrics do not consider the effects of the contextual dependence among the items in the list, we design a new family of simulation-based ranking metrics, where existing metrics can be regarded as special cases. STARank can consistently achieve better performance in terms of PBM and UBM simulation-based metrics.
翻訳日:2023-08-28 16:53:54 公開日:2023-08-25
# ChatMOF: 金属有機フレームワークの予測と生成のための自律型AIシステム

ChatMOF: An Autonomous AI System for Predicting and Generating Metal-Organic Frameworks ( http://arxiv.org/abs/2308.01423v2 )

ライセンス: Link先を確認
Yeonghun Kang, Jihan Kim(参考訳) ChatMOFは、金属-有機フレームワーク(MOF)を予測および生成するために構築された自律人工知能(AI)システムである。 大規模言語モデル(GPT-4とGPT-3.5-turbo)を活用することで、ChatMOFはテキスト入力からキーの詳細を抽出し、適切な応答を提供する。 このシステムは3つのコアコンポーネント(エージェント、ツールキット、評価器)から構成され、データ検索、プロパティ予測、構造生成を含む様々なタスクを管理する堅牢なパイプラインを形成する。 この研究は、材料科学における大規模言語モデル(llms)aiシステムの利用のメリットと制約をさらに探究し、その将来的な進歩への転換可能性を示すものである。

ChatMOF is an autonomous Artificial Intelligence (AI) system that is built to predict and generate metal-organic frameworks (MOFs). By leveraging a large-scale language model (GPT-4 and GPT-3.5-turbo), ChatMOF extracts key details from textual inputs and delivers appropriate responses, thus eliminating the necessity for rigid structured queries. The system is comprised of three core components (i.e. an agent, a toolkit, and an evaluator) and it forms a robust pipeline that manages a variety of tasks, including data retrieval, property prediction, and structure generations. The study further explores the merits and constraints of using large language models (LLMs) AI system in material sciences using and showcases its transformative potential for future advancements.
翻訳日:2023-08-28 16:53:15 公開日:2023-08-25
# 2段蒸留による全体電位推定

Effective Whole-body Pose Estimation with Two-stages Distillation ( http://arxiv.org/abs/2307.15880v2 )

ライセンス: Link先を確認
Zhendong Yang, Ailing Zeng, Chun Yuan, Yu Li(参考訳) 全身ポーズ推定は、画像内の人体、手、顔、足のキーポイントを局所化する。 この課題は、マルチスケールのボディパーツ、低解像度領域の微粒化ローカライゼーション、データ不足などによって困難である。 一方、人間中心の理解と生成に極めて効率的で正確なポーズ推定器を適用することは急務である。 本研究では,その効果と効率を向上させるために,2段階のポーズ \textbf{d}istillation for \textbf{w}hole-body \textbf{p}ose estimator, \textbf{dwpose} を提案する。 第1段階蒸留は、教師の中間機能と最終ロジットを利用して、目に見えるキーポイントと見えないキーポイントの両方を利用して、学生をスクラッチから監督しながら重量減少戦略を設計する。 第2段階は、生徒モデル自体を蒸留し、パフォーマンスをさらに向上させる。 従来の自己知識蒸留とは異なり、この段階は生徒の頭部を微調整し、プラグアンドプレイの訓練戦略として20%のトレーニング時間しか持たない。 データ制限のために、様々な表情と実生活アプリケーションのための手振りを含むUBodyデータセットを探索する。 総合的な実験により,提案手法の優位性を示した。 RTMPose-lの全身APは64.8%から66.5%に大幅に増加し,65.3%のAPでRTMPose-xの教師を抜いた。 私たちは、さまざまな下流タスクを満たすために、小さなものから大きなものまで、さまざまなサイズのモデルをリリースします。 私たちのコードとモデルはhttps://github.com/idea-research/dwposeで利用可能です。

Whole-body pose estimation localizes the human body, hand, face, and foot keypoints in an image. This task is challenging due to multi-scale body parts, fine-grained localization for low-resolution regions, and data scarcity. Meanwhile, applying a highly efficient and accurate pose estimator to widely human-centric understanding and generation tasks is urgent. In this work, we present a two-stage pose \textbf{D}istillation for \textbf{W}hole-body \textbf{P}ose estimators, named \textbf{DWPose}, to improve their effectiveness and efficiency. The first-stage distillation designs a weight-decay strategy while utilizing a teacher's intermediate feature and final logits with both visible and invisible keypoints to supervise the student from scratch. The second stage distills the student model itself to further improve performance. Different from the previous self-knowledge distillation, this stage finetunes the student's head with only 20% training time as a plug-and-play training strategy. For data limitations, we explore the UBody dataset that contains diverse facial expressions and hand gestures for real-life applications. Comprehensive experiments show the superiority of our proposed simple yet effective methods. We achieve new state-of-the-art performance on COCO-WholeBody, significantly boosting the whole-body AP of RTMPose-l from 64.8% to 66.5%, even surpassing RTMPose-x teacher with 65.3% AP. We release a series of models with different sizes, from tiny to large, for satisfying various downstream tasks. Our codes and models are available at https://github.com/IDEA-Research/DWPose.
翻訳日:2023-08-28 16:53:01 公開日:2023-08-25
# bubbleml: 機械学習のためのマルチフィジカルデータセットとベンチマーク

BubbleML: A Multi-Physics Dataset and Benchmarks for Machine Learning ( http://arxiv.org/abs/2307.14623v2 )

ライセンス: Link先を確認
Sheikh Md Shakeel Hassan, Arthur Feeney, Akash Dhruv, Jihoon Kim, Youngjoon Suh, Jaiyoung Ryu, Yoonjin Won, Aparna Chandramowlishwaran(参考訳) 位相変化現象の分野では、機械学習(ML)トレーニングに適したアクセシビリティと多様なデータセットの欠如が大きな課題となっている。 既存の実験データセットはしばしば制限され、可用性が低く、根拠なきデータが乏しいため、この複雑な多物理現象の理解が妨げられる。 このギャップを埋めるために、BubbleML Dataset \footnote{\label{git_dataset}\url{https://github.com/HPCForge/BubbleML}}を紹介します。 この広範なデータセットは、79のシミュレーションを含む、様々な重力条件、流量、サブクーリングレベル、壁過熱を含む、幅広いパラメータをカバーしている。 BubbleMLは、実験的な観察とトレンドに対して検証されており、ML研究の貴重なリソースとして確立されている。 さらに,2つのベンチマークを導入することで,多様な下流タスクの探索を容易にする可能性を示す。 a) 気泡力学を捉えるための光学的流れ解析,及び (b)温度力学の学習のためのオペレータネットワーク。 BubbleMLデータセットとそのベンチマークは、多物理相変化現象に関するML駆動の研究の進展の触媒として機能し、最先端の技術とモデルの開発と比較を可能にする。

In the field of phase change phenomena, the lack of accessible and diverse datasets suitable for machine learning (ML) training poses a significant challenge. Existing experimental datasets are often restricted, with limited availability and sparse ground truth data, impeding our understanding of this complex multiphysics phenomena. To bridge this gap, we present the BubbleML Dataset \footnote{\label{git_dataset}\url{https://github.com/HPCForge/BubbleML}} which leverages physics-driven simulations to provide accurate ground truth information for various boiling scenarios, encompassing nucleate pool boiling, flow boiling, and sub-cooled boiling. This extensive dataset covers a wide range of parameters, including varying gravity conditions, flow rates, sub-cooling levels, and wall superheat, comprising 79 simulations. BubbleML is validated against experimental observations and trends, establishing it as an invaluable resource for ML research. Furthermore, we showcase its potential to facilitate exploration of diverse downstream tasks by introducing two benchmarks: (a) optical flow analysis to capture bubble dynamics, and (b) operator networks for learning temperature dynamics. The BubbleML dataset and its benchmarks serve as a catalyst for advancements in ML-driven research on multiphysics phase change phenomena, enabling the development and comparison of state-of-the-art techniques and models.
翻訳日:2023-08-28 16:52:28 公開日:2023-08-25
# Decoding ChatGPT: 既存の研究の分類学、現在の課題、そして将来の可能性

Decoding ChatGPT: A Taxonomy of Existing Research, Current Challenges, and Possible Future Directions ( http://arxiv.org/abs/2307.14107v2 )

ライセンス: Link先を確認
Shahab Saquib Sohail, Faiza Farhat, Yassine Himeur, Mohammad Nadeem, Dag {\O}ivind Madsen, Yashbir Singh, Shadi Atalla and Wathiq Mansoor(参考訳) Chat Generative Pre-trained Transformer (ChatGPT)は2022年11月の打ち上げ以来、大きな関心を集めている。 合格試験やクリエイティビティ・ライティングなど、様々な分野で印象的なパフォーマンスを示している。 しかし、バイアスや信頼に関する課題や懸念は続いている。 本稿では、ChatGPT研究の分類学を提供し、その応用を探求することを目的として、ChatGPT上で100冊以上のScoopsをインデクシングした出版物を総合的にレビューする。 既存の文献を批判的に分析し,研究に共通するアプローチを特定した。 さらに, chatgpt が医療, マーケティング, 金融サービス, ソフトウェア工学, 学術的, 科学的な記述, 研究と教育, 環境科学, 自然言語処理など, 有用性を見出した多様な応用分野を調査した。 これらのアプリケーションを調べることで、実世界の課題に対処するためのchatgptの可能性に関する貴重な洞察を得ることができます。 また,これらの分野におけるさらなる研究開発の必要性を強調し,バイアスや信頼性など,chatgptに関わる重要な問題についても論じる。 さらに,ChatGPT研究の今後の方向性を明らかにし,今後の課題への解決策を提案し,今後の展望を推測する。 ChatGPTの能力を十分に活用することで、さまざまな領域でその可能性を解き放つことができ、会話型AIの進歩と社会における変革的な影響につながります。

Chat Generative Pre-trained Transformer (ChatGPT) has gained significant interest and attention since its launch in November 2022. It has shown impressive performance in various domains, including passing exams and creative writing. However, challenges and concerns related to biases and trust persist. In this work, we present a comprehensive review of over 100 Scopus-indexed publications on ChatGPT, aiming to provide a taxonomy of ChatGPT research and explore its applications. We critically analyze the existing literature, identifying common approaches employed in the studies. Additionally, we investigate diverse application areas where ChatGPT has found utility, such as healthcare, marketing and financial services, software engineering, academic and scientific writing, research and education, environmental science, and natural language processing. Through examining these applications, we gain valuable insights into the potential of ChatGPT in addressing real-world challenges. We also discuss crucial issues related to ChatGPT, including biases and trustworthiness, emphasizing the need for further research and development in these areas. Furthermore, we identify potential future directions for ChatGPT research, proposing solutions to current challenges and speculating on expected advancements. By fully leveraging the capabilities of ChatGPT, we can unlock its potential across various domains, leading to advancements in conversational AI and transformative impacts in society.
翻訳日:2023-08-28 16:52:03 公開日:2023-08-25
# 数発$\mathbf{1/a}$ anomaliesフィードバック : damage vision mining opportunityとembedd feature unbalance

Few-shot $\mathbf{1/a}$ Anomalies Feedback : Damage Vision Mining Opportunity and Embedding Feature Imbalance ( http://arxiv.org/abs/2307.12676v4 )

ライセンス: Link先を確認
Takato Yasuno(参考訳) 過去10年間、従来のバランスの取れたデータセットは、産業被害ビジョンタスクでディープラーニングアルゴリズムを前進させるために使われてきた。 特に、条件ベースのメンテナンスでは、品質を保証するために視覚検査の自動化が不可欠である。 損傷ビジョンマイニングは、希少な未確認事象や改善操作による高品質な状態のため、不均衡なデータ問題を回避することはできない。 視覚的損傷検査では, コンクリート表面から得られた劣化クラスと鋼材成分とのバランスが, 時々不均衡となる。 多くの関連調査から、不均衡なデータ問題は4つのタイプに分類できると要約する。 1)対象物及びラベル有価物の範囲の欠如 2)マイノリティ階級の不均衡 3)空間的不均衡の背景 4) 画素単位の不均衡の長尾クラス。 2015年以降、回帰、画像分類、オブジェクト検出、セマンティックセグメンテーションを含むディープラーニングアプローチを用いた不均衡な研究が数多く行われている。 しかし、不均衡なデータの異常検出はまだよく分かっていない。 本研究では,異常クラスの有無に関わらず,一級異常検出アプリケーションに注目し,医療疾患,危険行動,材料劣化,植物病,河川汚泥,災害被害など,不均衡な視覚データセットの明確な例を示す。 我々は,より有効範囲の正の比率と異常フィードバックの精度向上を仮定して,損傷ビジョンマイニングのアドバンテージに関する重要な結果を提供する。 不均衡な研究では、正比1/1の平衡の場合と比較して、正比1/a$が適用可能であり、精度は一貫して高い。 しかし、非常に不均衡な範囲はワンショットから1/2a$であり、その精度は適用可能な比率よりも低い。 対照的に、正の比が2/aドルを超える範囲では、有効精度を得ずにオーバーマイニングフェーズにシフトしている。

In past decade, previous balanced datasets have been used to advance deep learning algorithms in industrial damage vision tasks. Specifically, for condition-based maintenance, automating visual inspection is crucial to ensure high quality. Damage vision mining cannot avoid the imbalanced data issue because of rare unseen events and high quality status by improved operations. For visual damage inspection, deteriorated class acquired from the surface of concrete and steel components are occasionally imbalanced. From numerous related surveys, we summarize that imbalanced data problems can be categorized into four types; 1) missing range of target and label valuables, 2) majority-minority class imbalance, 3) foreground-background of spatial imbalance, 4) long-tailed class of pixel-wise imbalance. Since 2015, there has been many imbalanced studies using deep learning approaches that includes regression, image classification, object detection, semantic segmentation. However, anomaly detection for imbalanced data is not yet well known. In the study, we highlight one-class anomaly detection application whether anomalous class or not, and demonstrate clear examples on imbalanced vision datasets: medical disease, hazardous behavior, material deterioration, plant disease, river sludge, and disaster damage. We provide key results on damage vision mining advantage, hypothesizing that the more effective range of positive ratio, the higher accuracy gain of anomalies feedback. In our imbalanced studies, compared with the balanced case of positive ratio 1/1, we find that there is applicable positive ratio $1/a$, where the accuracy are consistently high. However, extremely imbalanced range from one-shot to $1/2a$, whose accuracy are inferior to those of applicable ratio. In contrast, ranged with positive ratio over $2/a$, it is shifting in over-mining phase without effective gain of accuracy.
翻訳日:2023-08-28 16:51:06 公開日:2023-08-25
# 分散学習のための資源適応ニュートン法

Resource-Adaptive Newton's Method for Distributed Learning ( http://arxiv.org/abs/2308.10154v2 )

ライセンス: Link先を確認
Shuzhen Chen, Yuan Yuan, Youming Tao, Zhipeng Cai and Dongxiao Yu(参考訳) ニュートン法に基づく分散確率最適化法は、曲率情報を利用して性能を向上させることで一階法よりも大きな利点をもたらす。 しかし, ニュートン法の適用性は, ヘッセン行列に付随する高い計算と通信コスト, サブモデル多様性, トレーニングにおける安定性, データの異質性といった課題により, 大規模かつ異質な学習環境において阻害される。 これらの課題に対処するために,簡単なヘッセン初期化と訓練領域の適応的割り当てを用いて,ニュートンの手法の限界を克服するRANLというアルゴリズムを提案する。 このアルゴリズムは、確率最適化の標準的な仮定の下で厳密に解析される印象的な収束特性を示す。 この理論解析は、RANLが利用可能な資源に効果的に適応し、高い効率を維持しながら線形収束率を達成することを証明している。 従来の一階法とは異なり、ranlは問題の条件数から顕著な独立性を示し、複雑なパラメータチューニングの必要性をなくす。 これらの利点により、ranlは実用的なシナリオにおいて分散確率最適化に有望なアプローチとなる。

Distributed stochastic optimization methods based on Newton's method offer significant advantages over first-order methods by leveraging curvature information for improved performance. However, the practical applicability of Newton's method is hindered in large-scale and heterogeneous learning environments due to challenges such as high computation and communication costs associated with the Hessian matrix, sub-model diversity, staleness in training, and data heterogeneity. To address these challenges, this paper introduces a novel and efficient algorithm called RANL, which overcomes the limitations of Newton's method by employing a simple Hessian initialization and adaptive assignments of training regions. The algorithm demonstrates impressive convergence properties, which are rigorously analyzed under standard assumptions in stochastic optimization. The theoretical analysis establishes that RANL achieves a linear convergence rate while effectively adapting to available resources and maintaining high efficiency. Unlike traditional first-order methods, RANL exhibits remarkable independence from the condition number of the problem and eliminates the need for complex parameter tuning. These advantages make RANL a promising approach for distributed stochastic optimization in practical scenarios.
翻訳日:2023-08-28 16:43:02 公開日:2023-08-25
# 20msのダイヤモンド量子メモリにおけるゲルマニウム空孔

Germanium Vacancy in Diamond Quantum Memory Exceeding 20 ms ( http://arxiv.org/abs/2308.09666v2 )

ライセンス: Link先を確認
Katharina Senkalla, Genko Genov, Mathias H. Metsch, Petr Siyushev, and Fedor Jelezko(参考訳) ダイヤモンド中の負の荷電基IV欠陥は、その効率的なスピン-光子界面のために量子ネットワークノードとして大きなポテンシャルを示す。 しかし、十分に長いコヒーレンス時間に達することは依然として困難である。 本研究では、ミリケルビン温度におけるゲルマニウム空洞中心(GeV)のコヒーレント制御を実演し、そのコヒーレンス時間を数桁程度20msまで拡張し、Ornstein-Uhlenbeckプロセスとして磁気ノイズと振幅ノイズをモデル化し、実験結果を再現する。 この手法は、様々な実験条件におけるiv族欠陥の最適コヒーレンス時間への道を開き、量子技術への応用に成功した。

Negatively charged group IV defects in diamond show great potential as quantum network nodes due to their efficient spin-photon interface. However, reaching sufficiently long coherence times remains a challenge. In this work, we demonstrate coherent control of germanium-vacancy center (GeV) at millikelvin temperatures and extend its coherence time by several orders of magnitude to more than 20 ms. We model the magnetic and amplitude noise as an Ornstein-Uhlenbeck process, reproducing the experimental results well. The utilized method paves the way to optimized coherence times of group IV defects in various experimental conditions and their successful applications in quantum technologies.
翻訳日:2023-08-28 16:42:44 公開日:2023-08-25
# モデル次数削減による量子回路の効率的なシミュレーション

Efficient Simulation of Quantum Circuits by Model Order Reduction ( http://arxiv.org/abs/2308.09510v2 )

ライセンス: Link先を確認
Antonio Jim\'enez-Pastor, Kim G. Larsen, Mirco Tribastone, Max Tschaikowski(参考訳) 古典コンピュータにおける量子回路のシミュレーションのための効率的な手法は、その改良と理解のために重要である。 残念ながら、量子回路の古典的な配列に基づくシミュレーションは、配列のサイズが量子ビット数で指数関数的であるため、次元性の呪いに悩まされている。 量子回路の結果は、量子状態全体の部分のみをキャプチャする量子測定によってしばしば評価されることから、量子回路の計測保存還元として確立された縮小技術を再解釈する。 さらに, 低減回路から量子状態全体を復元可能な条件を特定し, 不可能であればその誤差を定量化する。 最後に,モデル還元ツールのヒントの拡張を用いて,量子コンピューティングベンチマークを大規模に評価することにより,量子コンピューティングにおけるモデル還元手法の適用性を示す。

Efficient methods for the simulation of quantum circuits on classic computers are crucial for their improvement and better understanding. Unfortunately, classic array-based simulation of quantum circuits suffers from the curse of dimensionality because the size of the arrays is exponential in the number of qubits. Starting from the observation that results of quantum circuits are often evaluated by means of quantum measurements that capture only a subpart of the entire quantum state, we reinterpret established reduction techniques as measurement-preserving reductions of quantum circuits. We further identify conditions under which the entire quantum state can be recovered from the reduced circuit and quantify the error whenever this is not possible. Finally, we demonstrate the applicability of model reduction approaches in quantum computing by conducting a large-scale evaluation of quantum computing benchmarks using an extension of the model reduction tool CLUE.
翻訳日:2023-08-28 16:42:31 公開日:2023-08-25
# Beyond Sharing: 競合を意識した多変量時系列異常検出

Beyond Sharing: Conflict-Aware Multivariate Time Series Anomaly Detection ( http://arxiv.org/abs/2308.08915v2 )

ライセンス: Link先を確認
Haotian Si, Changhua Pei, Zhihan Li, Yadong Zhao, Jingjing Li, Haiming Zhang, Zulong Diao, Jianhui Li, Gaogang Xie, Dan Pei(参考訳) 大規模キーパフォーマンス指標(KPI)は、ソフトウェアアプリケーションとサービスシステムの信頼性を確保するために、多変量時系列データ(MTS)として監視される。 MTSの異常を正確に検出することは、その後の障害除去に非常に重要である。 異常の不足と手動ラベリングにより、様々な自己監督型MSS異常検出(AD)手法が開発され、全てのメトリクスの回帰目標/損失を包含する全体目標/損失が最適化された。 しかし,本研究では,mtsモデルが異なる損失を被る原因となる指標の回帰目標間の衝突の頻度を明らかにする。 この重要な側面は検出性能に大きく影響するが、既存のアプローチでは見過ごされている。 この問題に対処するために、MMOE(Multi-gate Mixed-of-experts)の設計を模倣して、衝突型多変量KPI異常検出アルゴリズムCADを導入する。 CADは、メトリック間のプロモーションを促進しながら潜在的な競合を軽減するために、それぞれのメトリックに排他的な構造を提供する。 徹底的な調査の結果,バニラMMoEの粗悪な性能は,MTSの定式化と収束の問題に対する入力出力のミスアライメント設定に起因することがわかった。 これらの課題に対処するために,CAD を MTL ベースの MTS AD モデルとして確立した,単純かつ効果的なタスク指向メトリック選択と p&s ゲーティング機構を提案する。 複数の公開データセットの評価によると、CADは3つの公開データセットの平均F1スコア0.943を得る。 私たちのコードはhttps://github.com/dawnvince/MTS_CADでアクセスできます。

Massive key performance indicators (KPIs) are monitored as multivariate time series data (MTS) to ensure the reliability of the software applications and service system. Accurately detecting the abnormality of MTS is very critical for subsequent fault elimination. The scarcity of anomalies and manual labeling has led to the development of various self-supervised MTS anomaly detection (AD) methods, which optimize an overall objective/loss encompassing all metrics' regression objectives/losses. However, our empirical study uncovers the prevalence of conflicts among metrics' regression objectives, causing MTS models to grapple with different losses. This critical aspect significantly impacts detection performance but has been overlooked in existing approaches. To address this problem, by mimicking the design of multi-gate mixture-of-experts (MMoE), we introduce CAD, a Conflict-aware multivariate KPI Anomaly Detection algorithm. CAD offers an exclusive structure for each metric to mitigate potential conflicts while fostering inter-metric promotions. Upon thorough investigation, we find that the poor performance of vanilla MMoE mainly comes from the input-output misalignment settings of MTS formulation and convergence issues arising from expansive tasks. To address these challenges, we propose a straightforward yet effective task-oriented metric selection and p&s (personalized and shared) gating mechanism, which establishes CAD as the first practicable multi-task learning (MTL) based MTS AD model. Evaluations on multiple public datasets reveal that CAD obtains an average F1-score of 0.943 across three public datasets, notably outperforming state-of-the-art methods. Our code is accessible at https://github.com/dawnvince/MTS_CAD.
翻訳日:2023-08-28 16:42:18 公開日:2023-08-25
# 文法誘導のためのベンチマークニューラルネットワークの一般化

Benchmarking Neural Network Generalization for Grammar Induction ( http://arxiv.org/abs/2308.08253v2 )

ライセンス: Link先を確認
Nur Lan, Emmanuel Chemla, Roni Katzir(参考訳) ニューラルネットワークはどの程度一般化するのか? 対象の一般化が完全に知られている文法的帰納的タスクであっても、以前の作業は質問をオープンにし、トレーニングセット以上の範囲をテストし、異なる成功基準を用いてテストしている。 完全な形式言語に基づくニューラルネットワークの一般化の尺度を提供する。 モデルと形式文法が与えられた場合、モデルがトレーニングしたデータ量と逆関係のサンプルに対して、モデルがいかにうまく一般化するかを示す一般化スコアを割り当てる。 ベンチマークには、$a^nb^n$, $a^nb^nc^n$, $a^nb^mc^{n+m}$, dyck-1, 2などの言語が含まれている。 このベンチマークを用いて選択したアーキテクチャを評価し,MDL(Minimum Description Length Objective)を用いてトレーニングしたネットワークは,標準損失関数を用いてトレーニングしたネットワークよりも一般化し,少ないデータを使用する。 ベンチマークはhttps://github.com/taucompling/blissで利用可能である。

How well do neural networks generalize? Even for grammar induction tasks, where the target generalization is fully known, previous works have left the question open, testing very limited ranges beyond the training set and using different success criteria. We provide a measure of neural network generalization based on fully specified formal languages. Given a model and a formal grammar, the method assigns a generalization score representing how well a model generalizes to unseen samples in inverse relation to the amount of data it was trained on. The benchmark includes languages such as $a^nb^n$, $a^nb^nc^n$, $a^nb^mc^{n+m}$, and Dyck-1 and 2. We evaluate selected architectures using the benchmark and find that networks trained with a Minimum Description Length objective (MDL) generalize better and using less data than networks trained using standard loss functions. The benchmark is available at https://github.com/taucompling/bliss.
翻訳日:2023-08-28 16:41:49 公開日:2023-08-25
# 核成長ニューラルガスによって生成されるネットワークの特性

Characteristics of networks generated by kernel growing neural gas ( http://arxiv.org/abs/2308.08163v2 )

ライセンス: Link先を確認
Kazuhisa Fujita(参考訳) 本研究では,成長するニューラルガス(gng)アルゴリズムのカーネル化バージョンであるkernel gngを開発し,kernel gngが生成するネットワークの特徴を調べることを目的とした。 GNGは教師なしの人工知能ニューラルネットワークで、データセットを非指向グラフに変換することで、データセットの特徴をグラフとして抽出することができる。 GNGはベクトル量子化、クラスタリング、3Dグラフィックスで広く使われている。 カーネルメソッドはデータセットを特徴空間にマップするためによく使用され、サポートベクターマシンが最も顕著なアプリケーションである。 本稿ではカーネルGNGのアプローチを紹介し,カーネルGNGが生成するネットワークの特性について検討する。 本研究では,ガウス,ラプラシアン,コーシー,逆マルチクワッドリック,ログカーネルの5つのカーネルが使用されている。 本研究は,gaussian,lalacian,cauchy,imqカーネルにおいて,カーネルパラメータが増加するにつれて,平均次数と平均クラスタリング係数が減少することを示す。 もしより多くのエッジと高いクラスタリング係数(またはそれ以上の三角形)を避けるならば、パラメータの値が大きいカーネルgngの方が適切でしょう。

This research aims to develop kernel GNG, a kernelized version of the growing neural gas (GNG) algorithm, and to investigate the features of the networks generated by the kernel GNG. The GNG is an unsupervised artificial neural network that can transform a dataset into an undirected graph, thereby extracting the features of the dataset as a graph. The GNG is widely used in vector quantization, clustering, and 3D graphics. Kernel methods are often used to map a dataset to feature space, with support vector machines being the most prominent application. This paper introduces the kernel GNG approach and explores the characteristics of the networks generated by kernel GNG. Five kernels, including Gaussian, Laplacian, Cauchy, inverse multiquadric, and log kernels, are used in this study. The results of this study show that the average degree and the average clustering coefficient decrease as the kernel parameter increases for Gaussian, Laplacian, Cauchy, and IMQ kernels. If we avoid more edges and a higher clustering coefficient (or more triangles), the kernel GNG with a larger value of the parameter will be more appropriate.
翻訳日:2023-08-28 16:41:33 公開日:2023-08-25
# 誤り訂正符号変換器のマスキング方法:体系的および二重マスキング

How to Mask in Error Correction Code Transformer: Systematic and Double Masking ( http://arxiv.org/abs/2308.08128v2 )

ライセンス: Link先を確認
Seong-Joon Park, Hee-Youl Kwak, Sang-Hyo Kim, Sunghwan Kim, Yongjune Kim, Jong-Seon No(参考訳) 通信やストレージシステムでは、エラー訂正符号(ECC)がデータの信頼性を確保する上で重要である。 ディープラーニングの適用範囲がさまざまな領域に広がるにつれて、従来のデコードアルゴリズムを上回るニューラルネットワークベースのデコーダに関する研究が増えている。 これらのニューラルデコーダのうち、誤り訂正符号変換器(ECCT)は最先端のパフォーマンスを達成し、他の手法よりも大きなマージンで性能を上げた。 ecctの性能をさらに高めるために,2つの新しい手法を提案する。 まず,ECCの体系的符号化技術を活用し,ECCTのための新しいマスキング行列を導入し,性能の向上と計算複雑性の低減を図る。 第2に、二重マスクECCTと呼ばれる新しいECCTトランスフォーマーアーキテクチャを提案する。 このアーキテクチャは、2つの異なるマスク行列を並列に使い、マスク付き自己保持ブロックにおけるコードワードビット間の関係のより多様な特徴を学習する。 シミュレーションの結果,提案した二重マス化ECCTは従来のECCTよりも優れており,最先端の復号化性能を高いマージンで達成していることがわかった。

In communication and storage systems, error correction codes (ECCs) are pivotal in ensuring data reliability. As deep learning's applicability has broadened across diverse domains, there is a growing research focus on neural network-based decoders that outperform traditional decoding algorithms. Among these neural decoders, Error Correction Code Transformer (ECCT) has achieved the state-of-the-art performance, outperforming other methods by large margins. To further enhance the performance of ECCT, we propose two novel methods. First, leveraging the systematic encoding technique of ECCs, we introduce a new masking matrix for ECCT, aiming to improve the performance and reduce the computational complexity. Second, we propose a novel transformer architecture of ECCT called a double-masked ECCT. This architecture employs two different mask matrices in a parallel manner to learn more diverse features of the relationship between codeword bits in the masked self-attention blocks. Extensive simulation results show that the proposed double-masked ECCT outperforms the conventional ECCT, achieving the state-of-the-art decoding performance with significant margins.
翻訳日:2023-08-28 16:41:13 公開日:2023-08-25
# EstimatorがEquilibrium Perspectiveと出会う: バイナリニューラルネットワークトレーニングのためのEstimator

Estimator Meets Equilibrium Perspective: A Rectified Straight Through Estimator for Binary Neural Networks Training ( http://arxiv.org/abs/2308.06689v2 )

ライセンス: Link先を確認
Xiao-Ming Wu, Dian Zheng, Zuhao Liu, Wei-Shi Zheng(参考訳) ニューラルネットワークのバイナリ化は、ニューラルネットワーク圧縮において支配的なパラダイムである。 先駆的な作業であるBinaryConnectは、手話関数の勾配を模倣するためにSTE(Straight Through Estimator)を使用しているが、重要な一貫性の問題を引き起こす。 従来の手法の多くは、steの代わりに異なる推定器を設計する。 しかし、推定誤差を減少させると勾配安定性が相乗的に低下するという事実を無視する。 これらの高度に分散した勾配はモデルの訓練に害を与え、勾配の消滅と勾配の爆発のリスクを増大させる。 勾配安定性を十分に考慮するために, 推定誤差と勾配安定性の平衡としてBNNのトレーニングに新たな視点を提示する。 本稿ではまず,平衡現象を定量的に示す2つの指標を設計する。 また, 推定誤差と勾配安定性のバランスをとるために, 元の直線を推定器で補正し, 電力関数に基づく推定器Rectified Straight Through Estimator (略してReSTE)を提案する。 他の推定器と比較して、ReSTEは合理的であり、推定誤差と勾配安定性との柔軟にバランスをとることができる。 CIFAR-10とImageNetデータセットの大規模な実験により、ReSTEは優れたパフォーマンスを示し、補助モジュールや損失なしに最先端のメソッドを超越している。

Binarization of neural networks is a dominant paradigm in neural networks compression. The pioneering work BinaryConnect uses Straight Through Estimator (STE) to mimic the gradients of the sign function, but it also causes the crucial inconsistency problem. Most of the previous methods design different estimators instead of STE to mitigate it. However, they ignore the fact that when reducing the estimating error, the gradient stability will decrease concomitantly. These highly divergent gradients will harm the model training and increase the risk of gradient vanishing and gradient exploding. To fully take the gradient stability into consideration, we present a new perspective to the BNNs training, regarding it as the equilibrium between the estimating error and the gradient stability. In this view, we firstly design two indicators to quantitatively demonstrate the equilibrium phenomenon. In addition, in order to balance the estimating error and the gradient stability well, we revise the original straight through estimator and propose a power function based estimator, Rectified Straight Through Estimator (ReSTE for short). Comparing to other estimators, ReSTE is rational and capable of flexibly balancing the estimating error with the gradient stability. Extensive experiments on CIFAR-10 and ImageNet datasets show that ReSTE has excellent performance and surpasses the state-of-the-art methods without any auxiliary modules or losses.
翻訳日:2023-08-28 16:40:54 公開日:2023-08-25
# 専門家の重み付け平均化:視覚トランスフォーマーのための新しい一般的なトレーニングスキーム

Experts Weights Averaging: A New General Training Scheme for Vision Transformers ( http://arxiv.org/abs/2308.06093v2 )

ライセンス: Link先を確認
Yongqi Huang, Peng Ye, Xiaoshui Huang, Sheng Li, Tao Chen, Tong He, Wanli Ouyang(参考訳) 構造的再パラメータ化は畳み込みニューラルネットワーク(CNN)の一般的なトレーニング手法であり、推論コストを増大させることなく性能改善を実現する。 視覚変換器(ViT)は様々な視覚的タスクにおいてCNNを徐々に上回っているため、ViTに特化したトレーニングスキームが存在するかどうかという疑問もある。 近年, 変圧器の容量を一定コストで効率的にスケールアップできるmoe(mixed-of-experts)が注目されている。 MoEはマルチブランチ構造と見なせるので、構造的再パラメータ化に似たViTトレーニングスキームの実装にMoEを利用できるだろうか? 本稿では,vitsのための新しい総合訓練戦略を用いて,これらの疑問に肯定的に答える。 具体的には、ViTのトレーニングフェーズと推論フェーズを分離する。 トレーニング中、ViTのフィードフォワードネットワーク(FFN)を、ランダムな均一なパーティションによって専門家にトークンを割り当てる、特別に設計されたより効率的なMoEに置き換え、各イテレーションの最後にこれらのMoE上でExperts Weights Averaging(EWA)を実行する。 トレーニング後、各MoEを専門家を平均化してFFNに変換し、モデルを推論のために元のViTに変換する。 さらに,その動作の理由と方法を説明するための理論的分析も提供する。 様々な2次元および3次元視覚タスク、ViTアーキテクチャ、データセットの総合的な実験により、提案したトレーニングスキームの有効性と一般化性を検証する。 また,ViTの微調整時の性能向上のためのトレーニング手法も適用できる。 最後に、EWA手法は、様々な2次元の視覚的小データセットと3次元の視覚的タスクにおいて、ネイティブなMoEの有効性を大幅に向上させることができる。

Structural re-parameterization is a general training scheme for Convolutional Neural Networks (CNNs), which achieves performance improvement without increasing inference cost. As Vision Transformers (ViTs) are gradually surpassing CNNs in various visual tasks, one may question: if a training scheme specifically for ViTs exists that can also achieve performance improvement without increasing inference cost? Recently, Mixture-of-Experts (MoE) has attracted increasing attention, as it can efficiently scale up the capacity of Transformers at a fixed cost through sparsely activated experts. Considering that MoE can also be viewed as a multi-branch structure, can we utilize MoE to implement a ViT training scheme similar to structural re-parameterization? In this paper, we affirmatively answer these questions, with a new general training strategy for ViTs. Specifically, we decouple the training and inference phases of ViTs. During training, we replace some Feed-Forward Networks (FFNs) of the ViT with specially designed, more efficient MoEs that assign tokens to experts by random uniform partition, and perform Experts Weights Averaging (EWA) on these MoEs at the end of each iteration. After training, we convert each MoE into an FFN by averaging the experts, transforming the model back into original ViT for inference. We further provide a theoretical analysis to show why and how it works. Comprehensive experiments across various 2D and 3D visual tasks, ViT architectures, and datasets validate the effectiveness and generalizability of the proposed training scheme. Besides, our training scheme can also be applied to improve performance when fine-tuning ViTs. Lastly, but equally important, the proposed EWA technique can significantly improve the effectiveness of naive MoE in various 2D visual small datasets and 3D visual tasks.
翻訳日:2023-08-28 16:40:29 公開日:2023-08-25
# 大規模言語モデルを用いた累積推論

Cumulative Reasoning with Large Language Models ( http://arxiv.org/abs/2308.04371v4 )

ライセンス: Link先を確認
Yifan Zhang, Jingqin Yang, Yang Yuan, Andrew Chi-Chih Yao(参考訳) 言語モデルは強力で多用途であるが、しばしば非常に複雑な問題に対処できない。 これは、複雑な問題を解決するには意図的な思考が必要であり、トレーニングの間は最小限の指導しか行われていないからである。 本稿では,言語モデルを累積的かつ反復的に活用し,人間の思考過程をエミュレートするCumulative Reasoning(CR)という新しい手法を提案する。 タスクを小さなコンポーネントに分解することで、CRは問題解決プロセスを合理化し、より管理しやすく、効果的にする。 論理推論タスクでは、CRは既存のメソッドを9.3%改善し、計算されたFOLIO wikiデータセットで98.04%の驚くべき精度を達成する。 24のゲームでは、CRは98%の精度を達成し、従来の最先端手法よりも24%の大幅な向上を示している。 最後に,計算データセット上では,従来のベストアプローチを4.2%上回って58.0%の精度で新たな最先端結果を確立し,最も難しいレベル5問題(22.4%から32.1%)に対して43%の相対的改善を達成している。 コードはhttps://github.com/iiis-ai/cumulative-reasoningで入手できる。

While language models are powerful and versatile, they often fail to address highly complex problems. This is because solving complex problems requires deliberate thinking, which has been only minimally guided during training. In this paper, we propose a new method called Cumulative Reasoning (CR), which employs language models in a cumulative and iterative manner to emulate human thought processes. By decomposing tasks into smaller components, CR streamlines the problem-solving process, rendering it both more manageable and effective. For logical inference tasks, CR consistently outperforms existing methods with an improvement up to 9.3%, and achieves the astonishing accuracy of 98.04% on the curated FOLIO wiki dataset. In the context of the Game of 24, CR achieves an accuracy of 98%, which signifies a substantial enhancement of 24% over the previous state-of-the-art method. Finally, on the MATH dataset, we establish new state-of-the-art results with 58.0% overall accuracy, surpassing the previous best approach by a margin of 4.2%, and achieving 43% relative improvement on the hardest level 5 problems (22.4% to 32.1%). Code is available at https://github.com/iiis-ai/cumulative-reasoning.
翻訳日:2023-08-28 16:39:56 公開日:2023-08-25
# VadCLIP:弱教師付きビデオ異常検出のための視覚言語モデルへの適応

VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video Anomaly Detection ( http://arxiv.org/abs/2308.11681v2 )

ライセンス: Link先を確認
Peng Wu, Xuerong Zhou, Guansong Pang, Lingru Zhou, Qingsen Yan, Peng Wang, Yanning Zhang(参考訳) 最近のコントラスト言語画像事前学習(CLIP)モデルは、幅広い画像レベルのタスクで大きな成功を収めており、リッチなセマンティクスで強力な視覚表現を学習する驚くべき能力を示している。 オープンで価値のある問題は、そのような強力なモデルをビデオ領域に効率的に適応させ、堅牢なビデオ異常検知器を設計することである。 本研究では,凍結したCLIPモデルを事前学習や微調整を行うことなく直接利用することにより,弱教師付きビデオ異常検出(WSVAD)のための新しいパラダイムであるVadCLIPを提案する。 フレームレベルのバイナリ分類のための弱い教師付き分類器に抽出された特徴を直接供給する現在の作業とは異なり、VadCLIPはCLIPの強度で視覚と言語の間のきめ細かい関連をフル活用し、二重分岐を伴う。 1つのブランチは、粗粒度のバイナリ分類に視覚的特徴を単純に利用し、もう1つは細粒度の言語イメージアライメントを完全に活用する。 二重分岐の利点により、VadCLIPはCLIPからWSVADタスクに事前学習した知識を転送することで、粗粒度と細粒度の両方の動画異常検出を実現する。 我々は2つの一般的なベンチマーク実験を行い、VadCLIPが粗粒度と細粒度の両方で最高の性能を達成し、最先端の手法を大きなマージンで上回っていることを示す。 具体的には、VadCLIPは84.51%APと88.02%AUCをそれぞれXD-ViolenceとUCF-Crimeで達成している。 コードと機能がリリースされ、将来のvad研究が促進される。

The recent contrastive language-image pre-training (CLIP) model has shown great success in a wide range of image-level tasks, revealing remarkable ability for learning powerful visual representations with rich semantics. An open and worthwhile problem is efficiently adapting such a strong model to the video domain and designing a robust video anomaly detector. In this work, we propose VadCLIP, a new paradigm for weakly supervised video anomaly detection (WSVAD) by leveraging the frozen CLIP model directly without any pre-training and fine-tuning process. Unlike current works that directly feed extracted features into the weakly supervised classifier for frame-level binary classification, VadCLIP makes full use of fine-grained associations between vision and language on the strength of CLIP and involves dual branch. One branch simply utilizes visual features for coarse-grained binary classification, while the other fully leverages the fine-grained language-image alignment. With the benefit of dual branch, VadCLIP achieves both coarse-grained and fine-grained video anomaly detection by transferring pre-trained knowledge from CLIP to WSVAD task. We conduct extensive experiments on two commonly-used benchmarks, demonstrating that VadCLIP achieves the best performance on both coarse-grained and fine-grained WSVAD, surpassing the state-of-the-art methods by a large margin. Specifically, VadCLIP achieves 84.51% AP and 88.02% AUC on XD-Violence and UCF-Crime, respectively. Code and features will be released to facilitate future VAD research.
翻訳日:2023-08-28 16:34:14 公開日:2023-08-25
# 自己認識: 大言語モデルのセマンティクスファイアウォールを逆侵入する

Self-Deception: Reverse Penetrating the Semantic Firewall of Large Language Models ( http://arxiv.org/abs/2308.11521v2 )

ライセンス: Link先を確認
Zhenhua Wang, Wei Xie, Kai Chen, Baosheng Wang, Zhiwen Gui, Enze Wang(参考訳) ChatGPTのような大規模言語モデル(LLM)は、人工知能に接近する驚くべき能力をもって登場した。 様々な社会的ニーズに便利なものを提供する一方で、LSMは有害なコンテンツを生み出すコストを下げている。 その結果、llm開発者は、不適切なコンテンツにつながる可能性のあるプロンプトを認識し、拒否するために、セマンティックレベルの防御を展開している。 攻撃者は「ジェイルブレイク(jailbreak)」というプロンプトを作り、LCMは一時的に催眠術を施し、コンテンツ防衛規則を忘れ、不適切な質問に答えた。 現在、これらのセマンティックレベルの攻撃と防衛の背景にある原則は、業界と学術の両方で明確に説明されていない。 本稿では,llm脱獄問題を調査し,最初に自動脱獄法を提案する。 セマンティックファイアウォールの概念を提案し、3つの技術的実装アプローチを提供する。 逆のトンネルを通して従来のファイアウォールを貫通する攻撃にインスパイアされた私たちは、LDMを誘導して、ジェイルブレイクを促進するプロンプトを生成することで、セマンティックファイアウォールをバイパスできる"自己偽装"攻撃を導入する。 私たちは7つの仮想シナリオで6つの言語(英語、ロシア語、フランス語、スペイン語、中国語、アラビア語)で合計2,520の攻撃ペイロードを生成しました。 実験は2つのモデル(GPT-3.5-TurboとGPT-4)で実施された。 2つのモデルの成功率は86.2%と67%であり、失敗率は4.7%と2.2%であった。 これにより,提案手法の有効性が示された。 実験コードと生データはオープンソースとしてリリースされ、将来の研究を刺激します。 私たちは、慎重に作り上げたプロンプトを通じてAIの振る舞いを操作することが、将来重要な研究の方向になるだろうと考えています。

Large language models (LLMs), such as ChatGPT, have emerged with astonishing capabilities approaching artificial general intelligence. While providing convenience for various societal needs, LLMs have also lowered the cost of generating harmful content. Consequently, LLM developers have deployed semantic-level defenses to recognize and reject prompts that may lead to inappropriate content. Unfortunately, these defenses are not foolproof, and some attackers have crafted "jailbreak" prompts that temporarily hypnotize the LLM into forgetting content defense rules and answering any improper questions. To date, there is no clear explanation of the principles behind these semantic-level attacks and defenses in both industry and academia. This paper investigates the LLM jailbreak problem and proposes an automatic jailbreak method for the first time. We propose the concept of a semantic firewall and provide three technical implementation approaches. Inspired by the attack that penetrates traditional firewalls through reverse tunnels, we introduce a "self-deception" attack that can bypass the semantic firewall by inducing LLM to generate prompts that facilitate jailbreak. We generated a total of 2,520 attack payloads in six languages (English, Russian, French, Spanish, Chinese, and Arabic) across seven virtual scenarios, targeting the three most common types of violations: violence, hate, and pornography. The experiment was conducted on two models, namely the GPT-3.5-Turbo and GPT-4. The success rates on the two models were 86.2% and 67%, while the failure rates were 4.7% and 2.2%, respectively. This highlighted the effectiveness of the proposed attack method. All experimental code and raw data will be released as open-source to inspire future research. We believe that manipulating AI behavior through carefully crafted prompts will become an important research direction in the future.
翻訳日:2023-08-28 16:33:43 公開日:2023-08-25
# 視覚言語モデルのための教師なしプロトタイプアダプタ

Unsupervised Prototype Adapter for Vision-Language Models ( http://arxiv.org/abs/2308.11507v2 )

ライセンス: Link先を確認
Yi Zhang, Ce Zhang, Xueting Hu, Zhihai He(参考訳) 近年、大規模な事前学習型視覚言語モデル(例えばCLIPやALIGN)は、転送可能な視覚表現の取得において顕著な効果を示している。 下流タスクのためにこれらのモデルに符号化された貴重な知識を活用するために、アクシデントチューニング手法やアダプタベースの手法を含むいくつかの微調整アプローチが開発され、視覚言語モデルに監督を効果的に適応する。 しかし、これらの手法は注釈付きサンプルの可用性に依存しており、それは労働集約的で取得に時間がかかるため、スケーラビリティが制限される。 そこで本研究では,Unsupervised Prototype Adapter (UP-Adapter) と呼ばれる視覚言語モデルの教師なし微調整手法を設計する。 具体的には、アノテーションのないターゲットデータセットに対して、CLIPのテキストイメージ整合機能を活用して、各クラスに対して最も確実なサンプルを自動的に選択する。 これらのサンプルを利用して、学習可能なプロトタイプモデルの初期化に役立つクラスプロトタイプを生成する。 微調整後、プロトタイプモデル予測と、残差接続による原クリップの予測とを組み合わせることで、下流認識タスクを行う。 画像認識と領域一般化に関する広範囲な実験結果から,提案手法は8ショットクープ,8ショットチップ適応,最先端upl法を大きなマージンで上回ることがわかった。

Recently, large-scale pre-trained vision-language models (e.g. CLIP and ALIGN) have demonstrated remarkable effectiveness in acquiring transferable visual representations. To leverage the valuable knowledge encoded within these models for downstream tasks, several fine-tuning approaches, including prompt tuning methods and adapter-based methods, have been developed to adapt vision-language models effectively with supervision. However, these methods rely on the availability of annotated samples, which can be labor-intensive and time-consuming to acquire, thus limiting scalability. To address this issue, in this work, we design an unsupervised fine-tuning approach for vision-language models called Unsupervised Prototype Adapter (UP-Adapter). Specifically, for the unannotated target datasets, we leverage the text-image aligning capability of CLIP to automatically select the most confident samples for each class. Utilizing these selected samples, we generate class prototypes, which serve as the initialization for the learnable prototype model. After fine-tuning, the prototype model prediction is combined with the original CLIP's prediction by a residual connection to perform downstream recognition tasks. Our extensive experimental results on image recognition and domain generalization show that the proposed unsupervised method outperforms 8-shot CoOp, 8-shot Tip-Adapter, and also the state-of-the-art UPL method by large margins.
翻訳日:2023-08-28 16:33:16 公開日:2023-08-25
# ベイズ多項式ニューラルネットワークと多項式神経常微分方程式

Bayesian polynomial neural networks and polynomial neural ordinary differential equations ( http://arxiv.org/abs/2308.10892v2 )

ライセンス: Link先を確認
Colby Fronk and Jaewoong Yun and Prashant Singh and Linda Petzold(参考訳) 多項式ニューラルネットワークと多項式ニューラル常微分方程式(odes)を用いた記号回帰は、多くの科学および工学問題の方程式回復のための近年の2つの強力なアプローチである。 しかし、これらの手法はモデルパラメータの点推定を提供し、現在ノイズデータに対応できない。 我々は,ラプラス近似法,マルコフ連鎖モンテカルロサンプリング法,変分推論法などのベイズ推定法を開発し検証することで,この問題に対処した。 ラプラス近似は,この問題に対する最善の方法であることがわかった。 我々の研究は、多項式ニューラルネットワークが属するより広範な記号型ニューラルネットワークに容易に拡張できる。

Symbolic regression with polynomial neural networks and polynomial neural ordinary differential equations (ODEs) are two recent and powerful approaches for equation recovery of many science and engineering problems. However, these methods provide point estimates for the model parameters and are currently unable to accommodate noisy data. We address this challenge by developing and validating the following Bayesian inference methods: the Laplace approximation, Markov Chain Monte Carlo (MCMC) sampling methods, and variational inference. We have found the Laplace approximation to be the best method for this class of problems. Our work can be easily extended to the broader class of symbolic neural networks to which the polynomial neural network belongs.
翻訳日:2023-08-28 16:32:04 公開日:2023-08-25
# cantnlp@LT-EDI-2023:時空間言語モデルを用いたソーシャルメディアコメントにおけるホモフォビア/トランスフォビア検出

cantnlp@LT-EDI-2023: Homophobia/Transphobia Detection in Social Media Comments using Spatio-Temporally Retrained Language Models ( http://arxiv.org/abs/2308.10370v2 )

ライセンス: Link先を確認
Sidney G.-J. Wong, Matthew Durward, Benjamin Adams and Jonathan Dunn(参考訳) 本稿ではLTEDI@RANLP-2023共有タスクの一部として開発されたマルチクラス分類システムについて述べる。 我々はBERTベースの言語モデルを用いて、英語、スペイン語、ヒンディー語、マラヤラム語、タミル語という5つの言語条件で、ソーシャルメディアコメントにおけるホモフォビックおよびトランスフォビックな内容を検出する。 トランスフォーマーを用いた言語事前学習モデルXLMRoBERTaを,空間的・時間的に関係のあるソーシャルメディア言語データを用いて再訓練した。 また、様々なパフォーマンスのソーシャルメディア言語データをシミュレートしたモデルのサブセットをトレーニングしました。 重み付きマクロ平均f1スコア(第1位は6位)と他の言語およびクラスラベル条件における可変性能に基づくマラヤラムの7ラベル分類システムを開発した。 この時空間データを含めることで,ベースラインと比較した場合の言語・タスク条件の分類性能が改善された。 その結果,トランスフォーマーに基づく言語分類システムは,レジスタ特化および言語特化に敏感であることが示唆された。

This paper describes our multiclass classification system developed as part of the LTEDI@RANLP-2023 shared task. We used a BERT-based language model to detect homophobic and transphobic content in social media comments across five language conditions: English, Spanish, Hindi, Malayalam, and Tamil. We retrained a transformer-based crosslanguage pretrained language model, XLMRoBERTa, with spatially and temporally relevant social media language data. We also retrained a subset of models with simulated script-mixed social media language data with varied performance. We developed the best performing seven-label classification system for Malayalam based on weighted macro averaged F1 score (ranked first out of six) with variable performance for other language and class-label conditions. We found the inclusion of this spatio-temporal data improved the classification performance for all language and task conditions when compared with the baseline. The results suggests that transformer-based language classification systems are sensitive to register-specific and language-specific retraining.
翻訳日:2023-08-28 16:31:25 公開日:2023-08-25
# 人工住宅エネルギー管理のための深層強化学習

Deep Reinforcement Learning for Artificial Upwelling Energy Management ( http://arxiv.org/abs/2308.10199v2 )

ライセンス: Link先を確認
Yiyuan Zhang, Wei Fan(参考訳) 近年, 養分豊富な底水を持ち上げ, 海藻の成長を刺激し, 海洋炭素の沈降を促進させる手段として, 人工隆起(AU)の可能性が高まっている。 このことが、中国初の太陽エネルギー・空力AUシステム(AUS)の開発につながった。 しかし、複雑な海洋環境における空気噴射システムの効率的なスケジューリングは、エネルギー効率を大幅に改善する可能性を秘めているため、ausの運用において重要な課題である。 そこで本研究では,深層強化学習(drl)アルゴリズムを応用した新しいエネルギー管理手法を提案する。 具体的には, ausのエネルギー効率を最大化する問題をマルコフ決定プロセスとして定式化し, 分布強化学習(qr-dqn)における質的ネットワークとディープデュエリングネットワークを統合することで解決する。 広範なシミュレーションにより,本アルゴリズムの性能を評価し,従来のルールベース手法や他のdrlアルゴリズムと比較して,ausの安定かつ効率的な動作を保証しつつ,エネルギーのウェーブステージを減少させる効果を示す。 その結果, DRLを基盤としたアプローチは, AUSのエネルギー効率を向上し, 海藻栽培の持続可能性を高め, 海洋における炭素沈降を促進できる可能性が示唆された。

The potential of artificial upwelling (AU) as a means of lifting nutrient-rich bottom water to the surface, stimulating seaweed growth, and consequently enhancing ocean carbon sequestration, has been gaining increasing attention in recent years. This has led to the development of the first solar-powered and air-lifted AU system (AUS) in China. However, efficient scheduling of air injection systems in complex marine environments remains a crucial challenge in operating AUS, as it holds the potential to significantly improve energy efficiency. To tackle this challenge, we propose a novel energy management approach that utilizes deep reinforcement learning (DRL) algorithm to develop efficient strategies for operating AUS. Specifically, we formulate the problem of maximizing the energy efficiency of AUS as a Markov decision process and integrate the quantile network in distributional reinforcement learning (QR-DQN) with the deep dueling network to solve it. Through extensive simulations, we evaluate the performance of our algorithm and demonstrate its superior effectiveness over traditional rule-based approaches and other DRL algorithms in reducing energy wastage while ensuring the stable and efficient operation of AUS. Our findings suggest that a DRL-based approach offers a promising way to improve the energy efficiency of AUS and enhance the sustainability of seaweed cultivation and carbon sequestration in the ocean.
翻訳日:2023-08-28 16:31:05 公開日:2023-08-25
# AccFlow:長距離光流の後方累積

AccFlow: Backward Accumulation for Long-Range Optical Flow ( http://arxiv.org/abs/2308.13133v1 )

ライセンス: Link先を確認
Guangyang Wu, Xiaohong Liu, Kunming Luo, Xi Liu, Qingqing Zheng, Shuaicheng Liu, Xinyang Jiang, Guangtao Zhai, Wenyi Wang(参考訳) 近年の深層学習に基づく光フロー推定器は,連続するフレーム間の局所的な流れの生成において顕著な性能を示した。 しかし、特に複雑な物体変形や大きな動きの閉塞下での遠方フレーム間の長距離流れの推定は依然として難しい課題である。 有望な解決策の1つは、所望の長距離フローを得るために局所フローを明示的にまたは暗黙的に蓄積することである。 それでも、累積誤差とフローの不整合は、このアプローチの有効性を妨げる可能性がある。 本稿では, AccPlus と呼ばれる変形可能なモジュールを用いて, 再帰的に局所的な流れを蓄積する AccFlow という新しいフレームワークを提案する。 また,accplusと共に適応型ブレンディングモジュールを設計し,後方累積による閉塞効果を軽減し,蓄積誤差を補正する。 特に,これまでの知識の最大化に至らず,従来のフォワード蓄積よりも後方累積が優れていることを示す。 提案したAccFlowをトレーニングし,評価するために,隣接フレームと遠フレーム間の地中光フローラベルを提供するCVOという大規模高品質データセットを構築した。 長距離光流量推定におけるaccflowの有効性を検証した。 コードはhttps://github.com/mulns/AccFlowで入手できる。

Recent deep learning-based optical flow estimators have exhibited impressive performance in generating local flows between consecutive frames. However, the estimation of long-range flows between distant frames, particularly under complex object deformation and large motion occlusion, remains a challenging task. One promising solution is to accumulate local flows explicitly or implicitly to obtain the desired long-range flow. Nevertheless, the accumulation errors and flow misalignment can hinder the effectiveness of this approach. This paper proposes a novel recurrent framework called AccFlow, which recursively backward accumulates local flows using a deformable module called as AccPlus. In addition, an adaptive blending module is designed along with AccPlus to alleviate the occlusion effect by backward accumulation and rectify the accumulation error. Notably, we demonstrate the superiority of backward accumulation over conventional forward accumulation, which to the best of our knowledge has not been explicitly established before. To train and evaluate the proposed AccFlow, we have constructed a large-scale high-quality dataset named CVO, which provides ground-truth optical flow labels between adjacent and distant frames. Extensive experiments validate the effectiveness of AccFlow in handling long-range optical flow estimation. Codes are available at https://github.com/mulns/AccFlow .
翻訳日:2023-08-28 15:32:00 公開日:2023-08-25
# 時間ポインターを用いた光子偏光の保護測定

Protective measurements of photon polarization using a temporal pointer ( http://arxiv.org/abs/2308.13122v1 )

ライセンス: Link先を確認
Meng-Wei Chen, Owen Young, Maximilian Schlosshauer, M. Beck(参考訳) 単一光子レベルの磁場の偏光を、光子の到着時間に対応する測定ポインターに弱結合させることにより、保護測定を実験的に示す。 光ループを用いることで、保護および測定段階の可変制御数(1-9)を実装する。 我々は,光子偏光の期待値の測定を,同時に偏光状態を保護しながら,到着時刻を計測して示す。 実験では初期光子状態の知識は必要とせず、保護された測定値が本物の情報ゲインとなり、保護手順に関する事前情報に単純に還元できないことを実証した。

We experimentally demonstrate protective measurements by weakly coupling the polarization of a single-photon-level field to a measurement pointer that corresponds to the arrival time of the photon. By using an optical loop, we implement a variable, controlled number (1-9) of protection and measurement stages. We demonstrate the measurement of expectation values of photon polarization by measuring arrival times while simultaneously protecting the polarization state. No knowledge of the initial photon state is required or available in our experiment, demonstrating that protective measurements provide a genuine information gain that cannot simply be reduced to a priori information about the protection procedure.
翻訳日:2023-08-28 15:31:40 公開日:2023-08-25
# DAG-ACFL:DAG-DLTに基づく非同期クラスタ化フェデレーション学習

DAG-ACFL: Asynchronous Clustered Federated Learning based on DAG-DLT ( http://arxiv.org/abs/2308.13158v1 )

ライセンス: Link先を確認
Xiaofeng Xue, Haokun Mao and Qiong Li(参考訳) Federated Learning (FL)は、クライアントデータのプライバシを確保しながら、グローバルモデルを協調的にトレーニングすることを目的としている。 しかし、FLはクライアント間の非IIDデータ分散の課題に直面している。 CFL(Clustered FL)は有望なソリューションとして登場したが、既存のCFLフレームワークのほとんどは非同期性に欠ける同期フレームワークを採用している。 有向非循環グラフ分散台帳技術(dag-dlt)に基づくsdagflと呼ばれる非同期cflフレームワークが提案されたが、完全な分散化によって通信とストレージコストが高まった。 我々はdag-dlt(directed acyclic graph distributed ledger techniques)に基づく非同期クラスタ型flフレームワークdag-acflを提案する。 まず,DAG-ACFLの構成要素について述べる。 モデルパラメータのコサイン類似性に基づくチップ選択アルゴリズムは、類似した分布を持つクライアントのモデルを集約するように設計される。 変化点検出を利用した適応型チップ選択アルゴリズムは、選択したチップの数を動的に決定する。 複数のデータセット上でのDAG-ACFLのクラスタリングとトレーニング性能を評価し,通信とストレージのコストを分析した。 非同期クラスタリングFLにおけるDAG-ACFLの優位性を示す実験を行った。 DAG-DLTとクラスタ化FLを組み合わせることで、DAG-ACFLは堅牢で分散化されたプライベートモデルトレーニングと効率的なパフォーマンスを実現する。

Federated learning (FL) aims to collaboratively train a global model while ensuring client data privacy. However, FL faces challenges from the non-IID data distribution among clients. Clustered FL (CFL) has emerged as a promising solution, but most existing CFL frameworks adopt synchronous frameworks lacking asynchrony. An asynchronous CFL framework called SDAGFL based on directed acyclic graph distributed ledger techniques (DAG-DLT) was proposed, but its complete decentralization leads to high communication and storage costs. We propose DAG-ACFL, an asynchronous clustered FL framework based on directed acyclic graph distributed ledger techniques (DAG-DLT). We first detail the components of DAG-ACFL. A tip selection algorithm based on the cosine similarity of model parameters is then designed to aggregate models from clients with similar distributions. An adaptive tip selection algorithm leveraging change-point detection dynamically determines the number of selected tips. We evaluate the clustering and training performance of DAG-ACFL on multiple datasets and analyze its communication and storage costs. Experiments show the superiority of DAG-ACFL in asynchronous clustered FL. By combining DAG-DLT with clustered FL, DAG-ACFL realizes robust, decentralized and private model training with efficient performance.
翻訳日:2023-08-28 15:23:14 公開日:2023-08-25
# IoTにおけるフェデレーション学習 - リソース制約の観点からの調査

Federated Learning in IoT: a Survey from a Resource-Constrained Perspective ( http://arxiv.org/abs/2308.13157v1 )

ライセンス: Link先を確認
Ishmeet Kaur andAdwaita Janardhan Jadhav(参考訳) IoTエコシステムは、インテリジェントな意思決定に大量のデータを活用することができる。 分散機械学習技術であるfederated learning(fl)は、さまざまな分散データソースから機械学習モデルを収集し、トレーニングするために広く使われている。 IoTとFLの両方のシステムは相補的に使用することができる。 しかし、IoTデバイスのリソース制限の性質は、現実世界における大規模なデプロイメントFLを防ぐ。 本研究では,IoT(リソース制約のあるモノのインターネット)環境におけるフェデレートラーニング(FL)導入に伴う課題と解決策を,クライアントとサーバの2段階から総合的に調査する。 我々は、限られたクライアントリソース、異種クライアントデータの存在、サーバ容量、高い通信コストに関するソリューションに焦点を当て、様々なシナリオにおけるその効果を評価した。 さらに,アプリケーションの位置,すなわちIoTクライアントとFLサーバに基づいて,ソリューションを分類する。 本稿では,既存研究の総合的なレビューと今後の方向性に加えて,資源制約型IoTデバイス上でのソリューション評価を可能にする新たな評価指標を提案する。

The IoT ecosystem is able to leverage vast amounts of data for intelligent decision-making. Federated Learning (FL), a decentralized machine learning technique, is widely used to collect and train machine learning models from a variety of distributed data sources. Both IoT and FL systems can be complementary and used together. However, the resource-constrained nature of IoT devices prevents the widescale deployment FL in the real world. This research paper presents a comprehensive survey of the challenges and solutions associated with implementing Federated Learning (FL) in resource-constrained Internet of Things (IoT) environments, viewed from 2 levels, client and server. We focus on solutions regarding limited client resources, presence of heterogeneous client data, server capacity, and high communication costs, and assess their effectiveness in various scenarios. Furthermore, we categorize the solutions based on the location of their application, i.e., the IoT client, and the FL server. In addition to a comprehensive review of existing research and potential future directions, this paper also presents new evaluation metrics that would allow researchers to evaluate their solutions on resource-constrained IoT devices.
翻訳日:2023-08-28 15:22:54 公開日:2023-08-25
# 量子鍵分布のためのQubitベースの分散フレーム同期

Qubit-based distributed frame synchronization for quantum key distribution ( http://arxiv.org/abs/2308.13154v1 )

ライセンス: Link先を確認
Ye Chen, Chunfeng Huang, Shuyi Huang, Zhenrong Zhang and Kejin Wei(参考訳) 量子鍵分布(QKD)は、2つのリモートパーティがセキュアなキー文字列を共有できるようにする方法である。 クロック同期は、通常のQKDの動作において重要なステップである。 クビットベースの同期は、2つのリモートパーティ間で量子状態を送信することでクロック同期を実現し、ハードウェア同期の必要性を排除し、QKDシステムのハードウェア要求を大幅に削減することができる。 それにもかかわらず、古典的な量子ビットベースの同期は連続および高損失システムでは性能が悪く、様々なシナリオで幅広い適用性が阻害される。 本稿では,連続実行システムにおいて時間回復を実現し,高い損失に耐性を持つ量子ビット系分散フレーム同期法を提案する。 実験の結果,提案手法は連続的に動作するシステムにおいて,高度なqubitベースの同期方式Qubit4Syncよりも優れていた。 我々は,ドローンによるQKDや量子ネットワーク構築など,幅広いQKDシナリオに適用できると考えている。

Quantum key distribution (QKD) is a method that enables two remote parties to share a secure key string. Clock synchronization between two parties is a crucial step in the normal operation of QKD. Qubit-based synchronization can achieve clock synchronization by transmitting quantum states between two remote parties, eliminating the necessity for hardware synchronization and thereby greatly reducing the hardware requirements of a QKD system. Nonetheless, classical qubit-based synchronization exhibits poor performance in continuous and high-loss systems, hindering its wide applicability in various scenarios. We propose a qubit-based distributed frame synchronization method that can achieve time recovery in a continuously running system and resist higher losses. Experimental results show that the proposed method outperforms the advanced qubit-based synchronization method Qubit4Sync in a continuously running system. We believe our method is applicable to a broad range of QKD scenarios, including drone-based QKD and quantum network construction.
翻訳日:2023-08-28 15:22:35 公開日:2023-08-25
# 軽度注意機構を有するTransfer ResNetを用いた乳癌分類の強化

Enhancing Breast Cancer Classification Using Transfer ResNet with Lightweight Attention Mechanism ( http://arxiv.org/abs/2308.13150v1 )

ライセンス: Link先を確認
Suxing Liu(参考訳) ディープラーニングモデルは、生のピクセルデータに複雑な特徴階層を学習することで、画像分類に革命をもたらした。 本稿では,ResNetモデルに基づく画像分類手法を提案し,性能向上のための軽量アテンション機構フレームワークを提案する。 このフレームワークは特徴表現を最適化し、分類能力を高め、特徴判別性を改善する。 このアルゴリズムの有効性をBreakhisデータセットで検証し,多くの点で優れた性能を示した。 従来のモデルだけでなく、現代の視覚変換器のような最先端の手法にも利点がある。 精度、正確性、リコール、f1-score、g-meansといった指標で大幅な改善がなされ、収束時間も良好に機能した。 これらの結果により,アルゴリズムの性能が向上し,実用的画像分類タスクにおける応用可能性が高まった。 キーワード:resnetモデル、軽量注意機構

Deep learning models have revolutionized image classification by learning complex feature hierarchies in raw pixel data. This paper introduces an image classification method based on the ResNet model, and introduces a lightweight attention mechanism framework to improve performance. The framework optimizes feature representation, enhances classification capabilities, and improves feature discriminativeness. We verified the effectiveness of the algorithm on the Breakhis dataset, showing its superior performance in many aspects. Not only in terms of conventional models, our method also shows advantages on state-of-the-art methods such as contemporary visual transformers. Significant improvements have been achieved in metrics such as precision, accuracy, recall, F1-score, and G-means, while also performing well in terms of convergence time. These results strengthen the performance of the algorithm and solidify its application prospects in practical image classification tasks. Keywords: ResNet model, Lightweight attention mechanism
翻訳日:2023-08-28 15:22:17 公開日:2023-08-25
# SciEval: 科学研究のための多層大規模言語モデル評価ベンチマーク

SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientific Research ( http://arxiv.org/abs/2308.13149v1 )

ライセンス: Link先を確認
Liangtai Sun, Yang Han, Zihan Zhao, Da Ma, Zhennan Shen, Baocai Chen, Lu Chen and Kai Yu(参考訳) 近年、科学研究にLarge Language Models(LLM)を使うことへの関心が高まっている。 科学研究のためのLSMの能力を評価するために多くのベンチマークが提案されている。 しかし、現在のベンチマークは、主に事前に収集された客観的な質問に基づいている。 この設計は、データ漏洩の問題に悩まされ、主観的Q/A能力の評価に欠ける。 本稿では,これらの問題に対処するための総合的・多分野評価ベンチマークSciEvalを提案する。 ブルームの分類に基づいて、サイヴァルは科学的研究能力を体系的に評価するために4次元をカバーする。 特に,データ漏洩の可能性評価を防止すべく,科学的原理に基づく「動的」サブセットを設計する。 主観的質問も主観的質問もSciEvalに含まれる。 これらの特徴により、SciEvalはLLMの科学的研究能力評価のためのより効果的なベンチマークとなる。 多くの先進LLMにおける総合的な実験により、GPT-4は他のLLMと比較してSOTA性能を達成しているが、特に動的問題には改善の余地がまだ残っていることが示されている。 データとコードは公開されています。

Recently, there has been growing interest in using Large Language Models (LLMs) for scientific research. Numerous benchmarks have been proposed to evaluate the ability of LLMs for scientific research. However, current benchmarks are mostly based on pre-collected objective questions. This design suffers from data leakage problem and lacks the evaluation of subjective Q/A ability. In this paper, we propose SciEval, a comprehensive and multi-disciplinary evaluation benchmark to address these issues. Based on Bloom's taxonomy, SciEval covers four dimensions to systematically evaluate scientific research ability. In particular, we design a "dynamic" subset based on scientific principles to prevent evaluation from potential data leakage. Both objective and subjective questions are included in SciEval. These characteristics make SciEval a more effective benchmark for scientific research ability evaluation of LLMs. Comprehensive experiments on most advanced LLMs show that, although GPT-4 achieves SOTA performance compared to other LLMs, there is still substantial room for improvement, especially for dynamic questions. The data and codes are now publicly available.
翻訳日:2023-08-28 15:22:05 公開日:2023-08-25
# シミュレータによる多変量, トップクオリティ, トップクオリティ計画

Diverse, Top-k, and Top-Quality Planning Over Simulators ( http://arxiv.org/abs/2308.13147v1 )

ライセンス: Link先を確認
Lyndon Benke, Tim Miller, Michael Papasimeon, and Nir Lipovetzky(参考訳) 多様性、トップクオリティ、そしてトップクオリティプランニングは、シーケンシャルな決定問題に対するソリューションセットの生成に関係しています。 以前は、この領域は問題インスタンスのシンボリックモデルを必要とする古典的プランナーの領域であった。 本稿では,モンテカルロ木探索(mcts)を用いて,ブラックボックスシミュレーションモデルのみ利用可能な問題に適用可能な新しい手法を提案する。 本稿では,事前生成した探索木から最優先の順序で計画の有界集合を抽出する手法と,探索木を通る経路の相対的品質を評価する指標について述べる。 隠れた情報を含む経路計画問題に対するこのアプローチを実証し,mtsアルゴリズムへの適応を提案すれば,生成する計画の多様性が高まる。 本手法は,従来のプランナーが適用できない領域において,多様で高品質なプランセットを生成できることを示す。

Diverse, top-k, and top-quality planning are concerned with the generation of sets of solutions to sequential decision problems. Previously this area has been the domain of classical planners that require a symbolic model of the problem instance. This paper proposes a novel alternative approach that uses Monte Carlo Tree Search (MCTS), enabling application to problems for which only a black-box simulation model is available. We present a procedure for extracting bounded sets of plans from pre-generated search trees in best-first order, and a metric for evaluating the relative quality of paths through a search tree. We demonstrate this approach on a path-planning problem with hidden information, and suggest adaptations to the MCTS algorithm to increase the diversity of generated plans. Our results show that our method can generate diverse and high-quality plan sets in domains where classical planners are not applicable.
翻訳日:2023-08-28 15:21:50 公開日:2023-08-25
# 拡散に基づく画像生成モデルに関する調査:問題とその解決法

A Survey of Diffusion Based Image Generation Models: Issues and Their Solutions ( http://arxiv.org/abs/2308.13142v1 )

ライセンス: Link先を確認
Tianyi Zhang, Zheng Wang, Jing Huang, Mohiuddin Muhammad Tasnim, Wei Shi(参考訳) 近年,大規模モデルの開発が著しい進展を遂げている。 ChatGPTの成功に続いて、多数の言語モデルが導入され、顕著なパフォーマンスを示している。 GoogleのImagenモデル、OpenAIのDALL-E 2、安定した拡散モデルなどの画像生成モデルでも同様の進歩が観察されている。 しかし、大きな言語モデルと同様に、これらのモデルは未解決の課題に直面する。 幸いなことに、オープンソースの安定拡散モデルとその基礎となる数学的原理によって、学術コミュニティは現在の画像生成モデルのパフォーマンスを広範囲に分析し、この安定拡散フレームワークに基づいて改善することができる。 本調査は,画像生成モデルに関する既存の課題と現在の解決策を検討することを目的とする。

Recently, there has been significant progress in the development of large models. Following the success of ChatGPT, numerous language models have been introduced, demonstrating remarkable performance. Similar advancements have also been observed in image generation models, such as Google's Imagen model, OpenAI's DALL-E 2, and stable diffusion models, which have exhibited impressive capabilities in generating images. However, similar to large language models, these models still encounter unresolved challenges. Fortunately, the availability of open-source stable diffusion models and their underlying mathematical principles has enabled the academic community to extensively analyze the performance of current image generation models and make improvements based on this stable diffusion framework. This survey aims to examine the existing issues and the current solutions pertaining to image generation models.
翻訳日:2023-08-28 15:21:35 公開日:2023-08-25
# MatchXML: 極端なマルチラベルテキスト分類のための効率的なテキストラベルマッチングフレームワーク

MatchXML: An Efficient Text-label Matching Framework for Extreme Multi-label Text Classification ( http://arxiv.org/abs/2308.13139v1 )

ライセンス: Link先を確認
Hui Ye, Rajshekhar Sunderraman, Shihao Ji(参考訳) eXtreme Multi-label text Classification (XMC) は、非常に大規模なラベルセット(数百万のラベルなど)から関連するラベルにテキストサンプルを割り当てる分類器の訓練を指す。 XMCのための効率的なテキストラベルマッチングフレームワークであるMatchXMLを提案する。 スパース周波数-逆文書周波数(TF-IDF)の特徴から生じるラベル埋め込みにはいくつかの制限がある。 そこで我々は,Skip-gramモデルによる意味密度ラベル埋め込みを効果的に訓練するための label2vec を提案する。 密ラベル埋め込みは、クラスタリングによって階層的なラベルツリーを構築するために使用される。 事前学習したエンコーダ変換器を微調整する際、二部グラフにおけるテキストラベルマッチング問題としてマルチラベルテキスト分類を定式化する。 次に、微調整変換器から高密度テキスト表現を抽出する。 微調整された高密度テキスト埋め込みに加えて、事前訓練された文変換器から静的高密度テキスト埋め込みも抽出する。 最後に、疎いTF-IDF特徴、微調整された高次テキスト表現、静的高次文特徴を利用して線形ランク付けを訓練する。 実験の結果、MatchXMLは6つのデータセットのうち5つで最先端の精度を実現している。 スピードに関しては、MatchXMLは6つのデータセットで競合するメソッドよりも優れています。 ソースコードはhttps://github.com/huiyegit/matchxmlで公開しています。

The eXtreme Multi-label text Classification(XMC) refers to training a classifier that assigns a text sample with relevant labels from an extremely large-scale label set (e.g., millions of labels). We propose MatchXML, an efficient text-label matching framework for XMC. We observe that the label embeddings generated from the sparse Term Frequency-Inverse Document Frequency(TF-IDF) features have several limitations. We thus propose label2vec to effectively train the semantic dense label embeddings by the Skip-gram model. The dense label embeddings are then used to build a Hierarchical Label Tree by clustering. In fine-tuning the pre-trained encoder Transformer, we formulate the multi-label text classification as a text-label matching problem in a bipartite graph. We then extract the dense text representations from the fine-tuned Transformer. Besides the fine-tuned dense text embeddings, we also extract the static dense sentence embeddings from a pre-trained Sentence Transformer. Finally, a linear ranker is trained by utilizing the sparse TF-IDF features, the fine-tuned dense text representations and static dense sentence features. Experimental results demonstrate that MatchXML achieves state-of-the-art accuracy on five out of six datasets. As for the speed, MatchXML outperforms the competing methods on all the six datasets. Our source code is publicly available at https://github.com/huiyegit/MatchXML.
翻訳日:2023-08-28 15:21:23 公開日:2023-08-25
# OmniQuant: 大規模言語モデルのための一方向校正量子化

OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models ( http://arxiv.org/abs/2308.13137v1 )

ライセンス: Link先を確認
Wenqi Shao, Mengzhao Chen, Zhaoyang Zhang, Peng Xu, Lirui Zhao, Zhiqian Li, Kaipeng Zhang, Peng Gao, Yu Qiao, Ping Luo(参考訳) 大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。 しかし、実際のデプロイメントは、その膨大なメモリと計算要件によって妨げられている。 近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効であるが、手作業による量子化パラメーターにより性能が低下し、極端に低ビットの量子化に対処できない。 この問題に対処するために,様々な量子化パラメータを効率的に最適化し,PTQの計算効率を保ちつつ,多様な量子化設定において優れた性能を実現するLLMのためのOmnidirectly calibrated Quantization(OmniQuant)技術を導入する。 OmniQuantはLearnerable Weight Clipping (LWC)とLearnerable Equivalent Transformation (LET)の2つの革新的なコンポーネントで構成されている。 LWCはクリッピング閾値を最適化することで重量の極端な値を変調する。 一方、letは、学習可能な等価変換を通じて、量子化の課題を活性化から重みにシフトすることで、アクティベーション異常に取り組みます。 OmniQuantはブロックワイドエラー最小化を用いて、微分可能なフレームワーク内で動作し、ウェイトオンリーおよびウェイトアクティベーション量子化の両方のために量子化プロセスを効率的に最適化することができる。 例えば、7-70BサイズのLLaMA-2モデルファミリは、1-16時間以内に128サンプルを使用して単一のA100-40G GPU上でOmniQuantで処理できる。 大規模な実験により、OmniQuantはW4A4、W6A6、W4A16、W3A16、W2A16といった様々な量子化構成にまたがる優れた性能を検証した。 さらに、OmniQuantは命令チューニングモデルの有効性を示し、実際のデバイスにおける推論速度とメモリ削減の顕著な改善を提供する。 コードとモデルは \url{https://github.com/OpenGVLab/OmniQuant} で公開されている。

Large language models (LLMs) have revolutionized natural language processing tasks. However, their practical deployment is hindered by their immense memory and computation requirements. Although recent post-training quantization (PTQ) methods are effective in reducing memory footprint and improving the computational efficiency of LLM, they hand-craft quantization parameters, which leads to low performance and fails to deal with extremely low-bit quantization. To tackle this issue, we introduce an Omnidirectionally calibrated Quantization (OmniQuant) technique for LLMs, which achieves good performance in diverse quantization settings while maintaining the computational efficiency of PTQ by efficiently optimizing various quantization parameters. OmniQuant comprises two innovative components including Learnable Weight Clipping (LWC) and Learnable Equivalent Transformation (LET). LWC modulates the extreme values of weights by optimizing the clipping threshold. Meanwhile, LET tackles activation outliers by shifting the challenge of quantization from activations to weights through a learnable equivalent transformation. Operating within a differentiable framework using block-wise error minimization, OmniQuant can optimize the quantization process efficiently for both weight-only and weight-activation quantization. For instance, the LLaMA-2 model family with the size of 7-70B can be processed with OmniQuant on a single A100-40G GPU within 1-16 hours using 128 samples. Extensive experiments validate OmniQuant's superior performance across diverse quantization configurations such as W4A4, W6A6, W4A16, W3A16, and W2A16. Additionally, OmniQuant demonstrates effectiveness in instruction-tuned models and delivers notable improvements in inference speed and memory reduction on real devices. Codes and models are available at \url{https://github.com/OpenGVLab/OmniQuant}.
翻訳日:2023-08-28 15:21:02 公開日:2023-08-25
# 非パラメトリック付加価値関数:外科的回復のための解釈可能な強化学習

Nonparametric Additive Value Functions: Interpretable Reinforcement Learning with an Application to Surgical Recovery ( http://arxiv.org/abs/2308.13135v1 )

ライセンス: Link先を確認
Patrick Emedom-Nnamdi, Timothy R. Smith, Jukka-Pekka Onnela, and Junwei Lu(参考訳) 強化学習における解釈可能値関数を推定するための非パラメトリック加法モデルを提案する。 デジタル表現型機能に依存する効果的な適応型臨床介入の学習は、医療従事者にとって大きな意味を持つ。 脊椎手術では, 術後のリハビリテーションに関する推奨事項が異なっており, 術後のリハビリテーションの変動が顕著である。 強化学習はゲームなどの領域で広く成功したが、最近の手法はニューラルネットワークのようなブラックボックス方式に大きく依存している。 残念なことに、これらの手法は、各機能が最終的な決定を下す際に与える貢献を調べる能力を妨げます。 このような解釈は、Last Squares Policy Iterationのような古典的なアルゴリズムで容易に提供されるが、基本的な線形性仮定は特徴間の高次フレキシブルな相互作用の学習を妨げる。 本稿では,その付加的機能形式に関して明示的なパラメトリックな仮定をすることなく,アクション値関数を柔軟に推定する手法を提案する。 この非パラメトリックな推定戦略は、局所的なカーネル回帰と基底展開を組み込んで、アクション値関数のスパースで加法的な表現を得る。 提案手法では,動作値関数を局所的に近似し,選択特徴と結合特徴対の非線形かつ独立な寄与を検索できる。 提案手法をシミュレーション研究により検証し,脊椎疾患への応用として,臨床知識に根ざした回復勧告を明らかにする。

We propose a nonparametric additive model for estimating interpretable value functions in reinforcement learning. Learning effective adaptive clinical interventions that rely on digital phenotyping features is a major for concern medical practitioners. With respect to spine surgery, different post-operative recovery recommendations concerning patient mobilization can lead to significant variation in patient recovery. While reinforcement learning has achieved widespread success in domains such as games, recent methods heavily rely on black-box methods, such neural networks. Unfortunately, these methods hinder the ability of examining the contribution each feature makes in producing the final suggested decision. While such interpretations are easily provided in classical algorithms such as Least Squares Policy Iteration, basic linearity assumptions prevent learning higher-order flexible interactions between features. In this paper, we present a novel method that offers a flexible technique for estimating action-value functions without making explicit parametric assumptions regarding their additive functional form. This nonparametric estimation strategy relies on incorporating local kernel regression and basis expansion to obtain a sparse, additive representation of the action-value function. Under this approach, we are able to locally approximate the action-value function and retrieve the nonlinear, independent contribution of select features as well as joint feature pairs. We validate the proposed approach with a simulation study, and, in an application to spine disease, uncover recovery recommendations that are inline with related clinical knowledge.
翻訳日:2023-08-28 15:20:26 公開日:2023-08-25
# 検出の一般化をどう評価するか? 包括的開語彙検出のためのベンチマーク

How to Evaluate the Generalization of Detection? A Benchmark for Comprehensive Open-Vocabulary Detection ( http://arxiv.org/abs/2308.13177v1 )

ライセンス: Link先を確認
Yiyang Yao, Peng Liu, Tiancheng Zhao, Qianqian Zhang, Jiajia Liao, Chunxin Fang, Kyusong Lee, Qing Wang(参考訳) 近年,コンピュータビジョンにおける物体検出(OD)は,大規模視覚言語事前学習(VLP)に基づく閉集合ラベルからオープン語彙検出(OVD)へ移行し,大きな進歩を遂げている。 しかしながら、現在の評価手法とデータセットは、OVDモデルの能力の体系的できめ細かな正確なベンチマークを提供しないオブジェクトタイプや参照式に対する一般化のテストに限られている。 本稿では,9つのサブタスクを含むOVDEvalという新しいベンチマークを提案し,コモンセンス知識,属性理解,位置理解,オブジェクト関係理解などについて評価する。 データセットは、モデルによる視覚的および言語的入力の真の理解に挑戦する強烈なネガティブを提供するために、慎重に作成されます。 さらに、これらの細粒度ラベルデータセット上でモデルをベンチマークする際の一般的な平均精度(AP)メトリクスの問題を特定し、この問題に対処するためにNon-Maximum Suppression Average Precision(NMS-AP)と呼ばれる新しい指標を提案する。 大規模な実験結果から,既存の上位OVDモデルは,単純なオブジェクト型を除いてすべて新しいタスクで失敗し,現在のOVDモデルの弱点を把握し,今後の研究を導く上で,提案するデータセットの価値が示された。 さらに、提案したNMS-APメトリックは実験によって検証され、OVDモデルのより真に評価される。 データは \url{https://github.com/om-ai-lab/ovdeval} で入手できる。

Object detection (OD) in computer vision has made significant progress in recent years, transitioning from closed-set labels to open-vocabulary detection (OVD) based on large-scale vision-language pre-training (VLP). However, current evaluation methods and datasets are limited to testing generalization over object types and referral expressions, which do not provide a systematic, fine-grained, and accurate benchmark of OVD models' abilities. In this paper, we propose a new benchmark named OVDEval, which includes 9 sub-tasks and introduces evaluations on commonsense knowledge, attribute understanding, position understanding, object relation comprehension, and more. The dataset is meticulously created to provide hard negatives that challenge models' true understanding of visual and linguistic input. Additionally, we identify a problem with the popular Average Precision (AP) metric when benchmarking models on these fine-grained label datasets and propose a new metric called Non-Maximum Suppression Average Precision (NMS-AP) to address this issue. Extensive experimental results show that existing top OVD models all fail on the new tasks except for simple object types, demonstrating the value of the proposed dataset in pinpointing the weakness of current OVD models and guiding future research. Furthermore, the proposed NMS-AP metric is verified by experiments to provide a much more truthful evaluation of OVD models, whereas traditional AP metrics yield deceptive results. Data is available at \url{https://github.com/om-ai-lab/OVDEval}
翻訳日:2023-08-28 15:13:23 公開日:2023-08-25
# Adamic-Adar Index Algorithm を用いてボランティアコラボレーションを予測する

Using Adamic-Adar Index Algorithm to Predict Volunteer Collaboration: Less is More ( http://arxiv.org/abs/2308.13176v1 )

ライセンス: Link先を確認
Chao Wu, Peng Chen, Baiqiao Yin, Zijuan Lin, Chen Jiang, Di Yu, Changhong Zou, Chunwang Lui(参考訳) ソーシャルネットワークは、参加者間の潜在的なコラボレーションを取り巻く不確実性のため、複雑なグラフのような構造を示す。 機械学習アルゴリズムは、複数の実世界の予測タスクにおいて総称的に優れた性能を持つ。 しかし、機械学習アルゴリズムがグラフリンク予測用に設計された特定のアルゴリズムよりも優れているかどうかは、まだ不明である。 この問題に対処するため、深セン市のコビッド19のパンデミックにおけるボランティア活動のデータと、ランダムフォレストやサポートベクターマシンなどの古典的機械学習アルゴリズム、単一予測器やアンサンブル学習のコンポーネントとしての勾配増加といった、グラフ固有のアルゴリズムの代表として、Adamic-Adar Index(AAI)、Jaccard Coefficient(JC)、Common neighbor Centrality(CNC)が適用された。 本稿では,AAIアルゴリズムが従来のJCやCNC,その他の機械学習アルゴリズムよりも優れていることを示す。

Social networks exhibit a complex graph-like structure due to the uncertainty surrounding potential collaborations among participants. Machine learning algorithms possess generic outstanding performance in multiple real-world prediction tasks. However, whether machine learning algorithms outperform specific algorithms designed for graph link prediction remains unknown to us. To address this issue, the Adamic-Adar Index (AAI), Jaccard Coefficient (JC) and common neighbour centrality (CNC) as representatives of graph-specific algorithms were applied to predict potential collaborations, utilizing data from volunteer activities during the Covid-19 pandemic in Shenzhen city, along with the classical machine learning algorithms such as random forest, support vector machine, and gradient boosting as single predictors and components of ensemble learning. This paper introduces that the AAI algorithm outperformed the traditional JC and CNC, and other machine learning algorithms in analyzing graph node attributes for this task.
翻訳日:2023-08-28 15:12:55 公開日:2023-08-25
# GridPull: 3Dポイントクラウドから意図しない表現を学習するスケーラビリティを目指す

GridPull: Towards Scalability in Learning Implicit Representations from 3D Point Clouds ( http://arxiv.org/abs/2308.13175v1 )

ライセンス: Link先を確認
Chao Chen, Yu-Shen Liu, Zhizhong Han(参考訳) 暗黙的表現の学習は、3dポイントクラウドから表面再構成に広く使われている。 最新の手法では、単一の点雲上にニューラルネットワークをオーバーフィットさせることで、距離または占有場を推定する。 しかし、これらの手法はニューラルネットワークの収束が遅く、表面点までの距離が広範囲に計算され、小さなスケールポイントに制限されるため、推論が遅くなる。 表面再構成におけるスケーラビリティの問題を解決するため,大規模クラウドからの暗黙表現の学習効率を向上させるため,GridPullを提案する。 我々の目新しさは、神経成分を使わずにグリッド上で定義される離散距離場の高速推論にある。 ニューラルネットワークによる連続性の欠如を補うために,表面近傍の格子にクエリを引っ張り込む際に,フィールド内の連続的な距離と一貫した勾配を促進できる損失関数を導入する。 高速グリッド探索に一様グリッドを用い,サンプルクエリを局所化し,木構造内の表面点を整理し,表面までの距離の計算を高速化する。 最適化の間、学習の優先順位や通常の監督に依存しておらず、複雑さと正確性の観点から最新の方法よりも優れている。 形状およびシーンベンチマークの手法を評価し,最新の手法との数値的,視覚的比較を行い,その効果と優越性を正当化する。 コードはhttps://github.com/chenchao15/gridpullで入手できる。

Learning implicit representations has been a widely used solution for surface reconstruction from 3D point clouds. The latest methods infer a distance or occupancy field by overfitting a neural network on a single point cloud. However, these methods suffer from a slow inference due to the slow convergence of neural networks and the extensive calculation of distances to surface points, which limits them to small scale points. To resolve the scalability issue in surface reconstruction, we propose GridPull to improve the efficiency of learning implicit representations from large scale point clouds. Our novelty lies in the fast inference of a discrete distance field defined on grids without using any neural components. To remedy the lack of continuousness brought by neural networks, we introduce a loss function to encourage continuous distances and consistent gradients in the field during pulling queries onto the surface in grids near to the surface. We use uniform grids for a fast grid search to localize sampled queries, and organize surface points in a tree structure to speed up the calculation of distances to the surface. We do not rely on learning priors or normal supervision during optimization, and achieve superiority over the latest methods in terms of complexity and accuracy. We evaluate our method on shape and scene benchmarks, and report numerical and visual comparisons with the latest methods to justify our effectiveness and superiority. The code is available at https://github.com/chenchao15/GridPull.
翻訳日:2023-08-28 15:12:34 公開日:2023-08-25
# 空中画像におけるインタラクティブセグメンテーション:新しいベンチマークとオープンアクセスwebツール

Interactive segmentation in aerial images: a new benchmark and an open access web-based tool ( http://arxiv.org/abs/2308.13174v1 )

ライセンス: Link先を確認
Zhe Wang, Shoukun Sun, Xiang Que, Xiaogang Ma(参考訳) 近年、深層学習はリモートセンシング、特に衛星画像や航空画像から重要な陸地特徴を抽出する上で重要な役割を担うセグメンテーションと分類技術において、強力なアプローチとして出現している。 しかし,土地被覆分類タスクにおける対話的セグメンテーションにおける深層学習の利用について論じる論文は限られている。 本研究では,インタラクティブセグメンテーションとリモートセンシング画像解析のギャップを埋めることを目的として,さまざまなディープラーニングに基づくインタラクティブセグメンテーションモデルのベンチマーク研究を行った。 我々は,2つの高分解能空中画像データセットを用いた5つの最先端インタラクティブセグメンテーション手法(SimpleClick, FocalClick, Iterative Click Loss (ICL), Reviving Iterative Training with Mask Guidance for Interactive Segmentation (RITM), Segment Anything (SAM))の性能評価を行った。 複数のモデルを必要としないセグメンテーション結果を改善するために,対話型セグメンテーションのための革新的な推論戦略であるカスケード・フォワード・リファインメント(CFR)アプローチを導入した。 リモートセンシングにおいて,これらの対話的セグメンテーション手法を様々な土地被覆タイプ,オブジェクトサイズ,バンドの組み合わせで評価した。 驚いたことに、広く議論されているSAMはリモートセンシング画像には効果がないことが判明した。 逆にSimpleClickモデルで使用されるポイントベースのアプローチは、すべての実験で他のメソッドよりも一貫して優れていた。 これらの知見に基づいて,リモートセンシングデータのインタラクティブセグメンテーションのためのrsisegと呼ばれる専用オンラインツールを開発した。 rsisegには、リモートセンシングデータで微調整された、パフォーマンスのよいインタラクティブモデルが組み込まれている。 さらに、SAMモデルをこのツールに統合しました。 既存のインタラクティブセグメンテーションツールと比較して、RSISegは強力な対話性、モジュラビリティ、リモートセンシングデータへの適応性を提供する。

In recent years, deep learning has emerged as a powerful approach in remote sensing applications, particularly in segmentation and classification techniques that play a crucial role in extracting significant land features from satellite and aerial imagery. However, only a limited number of papers have discussed the use of deep learning for interactive segmentation in land cover classification tasks. In this study, we aim to bridge the gap between interactive segmentation and remote sensing image analysis by conducting a benchmark study on various deep learning-based interactive segmentation models. We assessed the performance of five state-of-the-art interactive segmentation methods (SimpleClick, FocalClick, Iterative Click Loss (ICL), Reviving Iterative Training with Mask Guidance for Interactive Segmentation (RITM), and Segment Anything (SAM)) on two high-resolution aerial imagery datasets. To enhance the segmentation results without requiring multiple models, we introduced the Cascade-Forward Refinement (CFR) approach, an innovative inference strategy for interactive segmentation. We evaluated these interactive segmentation methods on various land cover types, object sizes, and band combinations in remote sensing. Surprisingly, the popularly discussed method, SAM, proved to be ineffective for remote sensing images. Conversely, the point-based approach used in the SimpleClick models consistently outperformed the other methods in all experiments. Building upon these findings, we developed a dedicated online tool called RSISeg for interactive segmentation of remote sensing data. RSISeg incorporates a well-performing interactive model, fine-tuned with remote sensing data. Additionally, we integrated the SAM model into this tool. Compared to existing interactive segmentation tools, RSISeg offers strong interactivity, modifiability, and adaptability to remote sensing data.
翻訳日:2023-08-28 15:12:11 公開日:2023-08-25
# DISGO: シーンテキストOCRの自動エンドツーエンド評価

DISGO: Automatic End-to-End Evaluation for Scene Text OCR ( http://arxiv.org/abs/2308.13173v1 )

ライセンス: Link先を確認
Mei-Yuh Hwang, Yangyang Shi, Ankit Ramchandani, Guan Pang, Praveen Krishnan, Lucas Kabela, Frank Seide, Samyak Datta, Jun Liu(参考訳) 本稿では,自然界における光学的文字認識(OCR)の課題について論じる。 本稿では,単語誤り率(WER)をシーンテキストOCR,エンド・ツー・エンド(e2e)性能,個々のシステムコンポーネント性能の両面で評価するための新しい尺度として用いることを提案する。 特にe2eメトリックでは、削除、挿入、置換、グループ化/順序付けエラーを考えるとdisgo werと名付けます。 最後に、スーパーブロックの概念を用いて、e2e OCR機械翻訳のためのBLEUスコアを自動的に計算する。 SCUT公開テストセットは、モジュール化されたOCRシステムによってWERの性能を示すために使用される。

This paper discusses the challenges of optical character recognition (OCR) on natural scenes, which is harder than OCR on documents due to the wild content and various image backgrounds. We propose to uniformly use word error rates (WER) as a new measurement for evaluating scene-text OCR, both end-to-end (e2e) performance and individual system component performances. Particularly for the e2e metric, we name it DISGO WER as it considers Deletion, Insertion, Substitution, and Grouping/Ordering errors. Finally we propose to utilize the concept of super blocks to automatically compute BLEU scores for e2e OCR machine translation. The small SCUT public test set is used to demonstrate WER performance by a modularized OCR system.
翻訳日:2023-08-28 15:11:39 公開日:2023-08-25
# Q-Drug:ディープラーニングによるドラッグデザインを量子空間に持ち込むフレームワーク

Q-Drug: a Framework to bring Drug Design into Quantum Space using Deep Learning ( http://arxiv.org/abs/2308.13171v1 )

ライセンス: Link先を確認
Zhaoping Xiong, Xiaopeng Cui, Xinyuan Lin, Feixiao Ren, Bowen Liu, Yunting Li, Manhong Yung and Nan Qiao(参考訳) 強靭性、毒性の低下、バイオアベイラビリティ向上のために分子(物質や薬物)の特性を最適化することは長年の課題であった。 この文脈において,量子インスパイアされたアルゴリズムを利用して離散二分領域変数の分子を最適化するq-drug(quantum-inspired optimization algorithm for drugs)と呼ばれる分子最適化フレームワークを提案する。 このフレームワークは、個々のVAEを用いて分子をバイナリ埋め込みに符号化することから始まる。 次に、バイナリ埋め込みを用いてIsingエネルギーのような目的関数を構築し、その上で最先端の量子インスパイアされた最適化アルゴリズムを用いてオプティマを求める。 オプティマに対応するバイナリ埋め込みをデコードして、最適化された分子を得る。 我々は薬物分子特性を最適化するための枠組みをテストし、他の分子最適化法よりも優れており、従来より優れた性質を持つ分子を1/20から10分の1の時間で発見している。 このフレームワークは、レーザーパルスCIM、FPGA Ising Machines、量子アニールに基づく量子コンピュータなど、様々な量子コンピューティング機器に直接デプロイすることもできる。 我々の研究は、量子コンピューティングとAIの利点を活用して実用上有用な問題を解決する新しいパラダイムを実証している。

Optimizing the properties of molecules (materials or drugs) for stronger toughness, lower toxicity, or better bioavailability has been a long-standing challenge. In this context, we propose a molecular optimization framework called Q-Drug (Quantum-inspired optimization algorithm for Drugs) that leverages quantum-inspired algorithms to optimize molecules on discrete binary domain variables. The framework begins by encoding the molecules into binary embeddings using a discrete VAE. The binary embeddings are then used to construct an Ising energy-like objective function, over which the state-of-the-art quantum-inspired optimization algorithm is adopted to find the optima. The binary embeddings corresponding to the optima are decoded to obtain the optimized molecules. We have tested the framework for optimizing drug molecule properties and have found that it outperforms other molecular optimization methods, finding molecules with better properties in 1/20th to 1/10th of the time previously required. The framework can also be deployed directly on various quantum computing equipment, such as laser pulses CIMs, FPGA Ising Machines, and quantum computers based on quantum annealing, among others. Our work demonstrates a new paradigm that leverages the advantages of quantum computing and AI to solve practically useful problems.
翻訳日:2023-08-28 15:11:24 公開日:2023-08-25
# 分類におけるスプリアス相関の測定--翻訳における'clever hans'

Measuring Spurious Correlation in Classification: 'Clever Hans' in Translationese ( http://arxiv.org/abs/2308.13170v1 )

ライセンス: Link先を確認
Angana Borah, Daria Pylypenko, Cristina Espana-Bonet, Josef van Genabith(参考訳) 近年の研究では、BERTをベースとした分類器は、真の翻訳信号ではなく、データとターゲット分類ラベルの間の素早い相関、特にトピック情報に乗じている。 翻訳信号は微妙であり(特に専門的な翻訳のために)、ジャンル、スタイル、著者、特にトピックなどのデータで他の多くの信号と競合する。 このことは、特に微妙なターゲット信号や挑戦的な(リソースの低い)データ設定において、分類器のパフォーマンスが、実際に分類器がターゲットとする信号と、データの急激な相関によるものであるという一般的な疑問を提起する。 トピックベースのスプリアス相関に注目し,2つの方向から質問にアプローチする。 (i)スプリアスな話題情報とそのデータへの分布に関する知識がない場合。 (ii)スプリアスな話題相関の性質についていくつかの示唆がある。 のために (i)データ中の素早い話題情報の指標として,教師なしトピックと対象分類ラベルとのアライメントを捉えた第一原理から尺度を作成する。 本手法はクラスタリングにおける純度と同一であることを示し,分類のための「トピックフロア」(「ノイズフロア」など)を提案する。 のために (II) 既知の話題担体の分類におけるマスキングについて検討する。 両方 (i)および (ii)定量化に寄与し、 (ii)急激な相関を緩和する。

Recent work has shown evidence of 'Clever Hans' behavior in high-performance neural translationese classifiers, where BERT-based classifiers capitalize on spurious correlations, in particular topic information, between data and target classification labels, rather than genuine translationese signals. Translationese signals are subtle (especially for professional translation) and compete with many other signals in the data such as genre, style, author, and, in particular, topic. This raises the general question of how much of the performance of a classifier is really due to spurious correlations in the data versus the signals actually targeted for by the classifier, especially for subtle target signals and in challenging (low resource) data settings. We focus on topic-based spurious correlation and approach the question from two directions: (i) where we have no knowledge about spurious topic information and its distribution in the data, (ii) where we have some indication about the nature of spurious topic correlations. For (i) we develop a measure from first principles capturing alignment of unsupervised topics with target classification labels as an indication of spurious topic information in the data. We show that our measure is the same as purity in clustering and propose a 'topic floor' (as in a 'noise floor') for classification. For (ii) we investigate masking of known spurious topic carriers in classification. Both (i) and (ii) contribute to quantifying and (ii) to mitigating spurious correlations.
翻訳日:2023-08-28 15:11:04 公開日:2023-08-25
# IOMatch: 共同インレーヤと外部利用によるオープンセット半教師付き学習の簡易化

IOMatch: Simplifying Open-Set Semi-Supervised Learning with Joint Inliers and Outliers Utilization ( http://arxiv.org/abs/2308.13168v1 )

ライセンス: Link先を確認
Zekun Li, Lei Qi, Yinghuan Shi, Yang Gao(参考訳) semi-supervised learning (ssl) はラベル取得に費用がかかる場合に大量のラベルなしデータを活用することを目的としている。 残念なことに、多くの現実世界のアプリケーションでは、収集されたラベルなしデータは、必然的にラベル付きクラスに属さない無意味なクラス外れ値を含んでいる。 オープンセットのSSLタスクに対処するために、メインストリームのメソッドは、最初にアウトリーチを検出し、それらをフィルタリングする。 しかし,ラベルが極めて少ない場合には,このような手法がより深刻な性能劣化をもたらす可能性があるという驚くべき事実が観察されている。 この問題に対処するために,新しいオープンセットSSLフレームワークであるIOMatchを導入する。 具体的には,マルチバイナリ分類器を標準のクローズドセット分類器と組み合わせて,すべての外れ値を1つの新しいクラスとみなす統一オープンセット分類ターゲットを生成することを提案する。 これらのターゲットをオープンセットの擬似ラベルとして採用することにより、イリアーと外れ値の両方を含むすべてのラベルなしサンプルを持つオープンセット分類器を最適化する。 大規模な実験によると、IOMatchは、目覚ましい単純さにもかかわらず、異なるベンチマークデータセットと異なる設定でベースラインメソッドを著しく上回っている。 私たちのコードとモデルはhttps://github.com/nukezil/iomatch.comで利用可能です。

Semi-supervised learning (SSL) aims to leverage massive unlabeled data when labels are expensive to obtain. Unfortunately, in many real-world applications, the collected unlabeled data will inevitably contain unseen-class outliers not belonging to any of the labeled classes. To deal with the challenging open-set SSL task, the mainstream methods tend to first detect outliers and then filter them out. However, we observe a surprising fact that such approach could result in more severe performance degradation when labels are extremely scarce, as the unreliable outlier detector may wrongly exclude a considerable portion of valuable inliers. To tackle with this issue, we introduce a novel open-set SSL framework, IOMatch, which can jointly utilize inliers and outliers, even when it is difficult to distinguish exactly between them. Specifically, we propose to employ a multi-binary classifier in combination with the standard closed-set classifier for producing unified open-set classification targets, which regard all outliers as a single new class. By adopting these targets as open-set pseudo-labels, we optimize an open-set classifier with all unlabeled samples including both inliers and outliers. Extensive experiments have shown that IOMatch significantly outperforms the baseline methods across different benchmark datasets and different settings despite its remarkable simplicity. Our code and models are available at https://github.com/nukezil/IOMatch.
翻訳日:2023-08-28 15:10:40 公開日:2023-08-25
# クラス不均衡学習のための二重補償残差ネットワーク

Dual Compensation Residual Networks for Class Imbalanced Learning ( http://arxiv.org/abs/2308.13165v1 )

ライセンス: Link先を確認
Ruibing Hou, Hong Chang, Bingpeng Ma, Shiguang Shan and Xilin Chen(参考訳) クラス不均衡データのための一般化表現と分類は、データ駆動型深層モデルにとって困難である。 多くの研究は、テールクラスにオーバーフィットし、ヘッドクラスにオーバーフィットしやすいデータ分散の再バランスを試みている。 本研究では,テールクラスとヘッドクラスの両方に適合する2重補償残差ネットワークを提案する。 まず,2つの特徴補償モジュール (FCM) とロジット補償モジュール (LCM) を提案する。 これら2つのモジュールの設計は、オーバーフィッティングを引き起こす重要な要因は、トレーニングとテールクラスのテストデータの間に深刻な特徴ドリフトがあることである。 詳しくは、テールカテゴリのテスト機能は、複数の類似したヘッドカテゴリのフィーチャークラウドに移行しがちである。 したがって、fcmは各テールカテゴリのマルチモード特徴ドリフト方向を推定し、補償する。 さらに、LCMは、FCMによって推定される決定論的特徴ドリフトベクトルをクラス内変動に沿って変換し、より大きな有効補償空間をカバーすることにより、テスト特徴の適合性を向上する。 次に,不適合問題を軽減するために,Residual Balanced Multi-Proxies Classifier (RBMC)を提案する。 再バランス戦略が分類器の十分な頭脳知識の習得を妨げ、最終的に不適合を引き起こすという観察に動機づけられ、rbmcは一様学習と残留経路を用いて分類器の学習を容易にする。 本手法の有効性を検証するために,Long-tailedおよびClass-Incrementalベンチマークの総合的な実験を行った。

Learning generalizable representation and classifier for class-imbalanced data is challenging for data-driven deep models. Most studies attempt to re-balance the data distribution, which is prone to overfitting on tail classes and underfitting on head classes. In this work, we propose Dual Compensation Residual Networks to better fit both tail and head classes. Firstly, we propose dual Feature Compensation Module (FCM) and Logit Compensation Module (LCM) to alleviate the overfitting issue. The design of these two modules is based on the observation: an important factor causing overfitting is that there is severe feature drift between training and test data on tail classes. In details, the test features of a tail category tend to drift towards feature cloud of multiple similar head categories. So FCM estimates a multi-mode feature drift direction for each tail category and compensate for it. Furthermore, LCM translates the deterministic feature drift vector estimated by FCM along intra-class variations, so as to cover a larger effective compensation space, thereby better fitting the test features. Secondly, we propose a Residual Balanced Multi-Proxies Classifier (RBMC) to alleviate the under-fitting issue. Motivated by the observation that re-balancing strategy hinders the classifier from learning sufficient head knowledge and eventually causes underfitting, RBMC utilizes uniform learning with a residual path to facilitate classifier learning. Comprehensive experiments on Long-tailed and Class-Incremental benchmarks validate the efficacy of our method.
翻訳日:2023-08-28 15:10:13 公開日:2023-08-25
# Diff-Retinex: 生成拡散モデルによる低照度画像強調の再考

Diff-Retinex: Rethinking Low-light Image Enhancement with A Generative Diffusion Model ( http://arxiv.org/abs/2308.13164v1 )

ライセンス: Link先を確認
Xunpeng Yi, Han Xu, Hao Zhang, Linfeng Tang, Jiayi Ma(参考訳) 本稿では、低照度画像強調タスクを再考し、Diff-Retinexと呼ばれる低照度画像強調のための物理的に説明可能な生成拡散モデルを提案する。 我々は物理モデルと生成ネットワークの利点を統合することを目指している。 さらに,低光度画像に欠落している情報を生成ネットワークを通じて補うことも期待する。 そのため、Diff-Retinexは低照度画像強調問題をRetinex分解と条件付き画像生成に定式化する。 Retinex 分解では、Transformer における注目の優位性を統合し、Retinex Transformer 分解ネットワーク (TDN) を巧みに設計し、画像を照明と反射マップに分解する。 そこで,本研究では,暗色照明,ノイズ,色差,シーン内容の喪失など,通常の光レチネックス確率分布を再構成する多経路生成拡散ネットワークを設計し,各成分の劣化を解消する。 生成拡散モデルにより、ディフ・レチネックスは低光度の詳細の復元を実践する。 実世界の低照度データセットを定性的かつ定量的に実験し,提案手法の有効性,優越性,一般化を実証した。

In this paper, we rethink the low-light image enhancement task and propose a physically explainable and generative diffusion model for low-light image enhancement, termed as Diff-Retinex. We aim to integrate the advantages of the physical model and the generative network. Furthermore, we hope to supplement and even deduce the information missing in the low-light image through the generative network. Therefore, Diff-Retinex formulates the low-light image enhancement problem into Retinex decomposition and conditional image generation. In the Retinex decomposition, we integrate the superiority of attention in Transformer and meticulously design a Retinex Transformer decomposition network (TDN) to decompose the image into illumination and reflectance maps. Then, we design multi-path generative diffusion networks to reconstruct the normal-light Retinex probability distribution and solve the various degradations in these components respectively, including dark illumination, noise, color deviation, loss of scene contents, etc. Owing to generative diffusion model, Diff-Retinex puts the restoration of low-light subtle detail into practice. Extensive experiments conducted on real-world low-light datasets qualitatively and quantitatively demonstrate the effectiveness, superiority, and generalization of the proposed method.
翻訳日:2023-08-28 15:09:46 公開日:2023-08-25
# 熱画像からのホットスポット検出と分離のための自己教師付き学習

Self-supervised learning for hotspot detection and isolation from thermal images ( http://arxiv.org/abs/2308.13204v1 )

ライセンス: Link先を確認
Shreyas Goyal, Jagath C. Rajapakse(参考訳) サーマルイメージングを用いたホットスポット検出は、最近、セキュリティアプリケーション、健康アプリケーション、機器監視アプリケーションなど、いくつかの産業アプリケーションで必須になっている。 ホットスポット検出は、機器が異常を発生できる産業安全において極めて重要である。 ホットスポットはそのような異常の早期の指標である。 熱画像におけるホットスポット検出の問題に対して,自己教師付き学習手法を提案する。 自己教師付き学習は、教師付き学習と競合する可能性を示しているが、サーモグラフィーへの応用は限られている。 これは、さまざまなデータ可用性の欠如、ドメイン固有の事前トレーニングモデル、標準化されたベンチマークなどが原因である。 本稿では,自己教師付き表現学習手法と,分類によるホットスポット検出を改善する微調整手法を提案する。 シムシアムネットワークベースのアンサンブル分類器は、画像がホットスポットを含むか否かを判定する。 ホットスポットの検出に続いて、正確なホットスポット分離が行われる。 これにより、広範囲のアプリケーションに適用可能な、高精度で正確なホットスポット識別を提供することができます。 我々は,熱画像のポーシティ問題に対処するために,新しい大規模熱画像データセットを作成した。 私たちの作成したデータセットと一般公開されたセグメンテーションデータセットを用いた実験では、ホットスポット検出へのアプローチの可能性と、高い精度でホットスポットを分離する能力を示しています。 我々は既存のホットスポット識別技術と比較して最も高いDice係数0.736を達成する。 我々の実験は、教師付き学習の強力な競争相手として自己教師付き学習を示し、ホットスポット検出のための競争指標を提供し、我々のアプローチの最も高い精度は97%である。

Hotspot detection using thermal imaging has recently become essential in several industrial applications, such as security applications, health applications, and equipment monitoring applications. Hotspot detection is of utmost importance in industrial safety where equipment can develop anomalies. Hotspots are early indicators of such anomalies. We address the problem of hotspot detection in thermal images by proposing a self-supervised learning approach. Self-supervised learning has shown potential as a competitive alternative to their supervised learning counterparts but their application to thermography has been limited. This has been due to lack of diverse data availability, domain specific pre-trained models, standardized benchmarks, etc. We propose a self-supervised representation learning approach followed by fine-tuning that improves detection of hotspots by classification. The SimSiam network based ensemble classifier decides whether an image contains hotspots or not. Detection of hotspots is followed by precise hotspot isolation. By doing so, we are able to provide a highly accurate and precise hotspot identification, applicable to a wide range of applications. We created a novel large thermal image dataset to address the issue of paucity of easily accessible thermal images. Our experiments with the dataset created by us and a publicly available segmentation dataset show the potential of our approach for hotspot detection and its ability to isolate hotspots with high accuracy. We achieve a Dice Coefficient of 0.736, the highest when compared with existing hotspot identification techniques. Our experiments also show self-supervised learning as a strong contender of supervised learning, providing competitive metrics for hotspot detection, with the highest accuracy of our approach being 97%.
翻訳日:2023-08-28 15:03:59 公開日:2023-08-25
# 資源制約環境における深部アクティブ音声特徴学習

Deep Active Audio Feature Learning in Resource-Constrained Environments ( http://arxiv.org/abs/2308.13201v1 )

ライセンス: Link先を確認
Md Mohaimenuzzaman, Christoph Bergmeir and Bernd Meyer(参考訳) ラベル付きデータの不足により、バイオ音響アプリケーションにおけるDeep Neural Network(DNN)モデルのトレーニングが困難になる。 一般的なバイオ音響アプリケーションでは、必要な量のデータを手動でラベル付けすることは、非常に高価である。 新しいクラスと現在のクラスの両方を効果的に識別するには、DNNモデルは控えめな量の新しいデータから新しい機能を学習し続けなければならない。 アクティブラーニング(AL)は、ラベリングをほとんど必要とせず、この学習を支援するアプローチである。 それでも、固定的な特徴抽出アプローチは特徴品質を制限し、ALの利点を未利用にする。 本稿では,alループに特徴抽出機能を組み込んで,手動アノテーションのラウンド毎に特徴抽出器を精錬することにより,この問題に対処したalフレームワークについて述べる。 さらに,新しいアプローチであるスペクトログラムではなく,生のオーディオ処理を用いる。 実験により、提案されたalフレームワークは、ベンチマークオーディオデータセットesc-50、urbansound8k、petitwingbeatに対して14.3%、66.7%、47.4%のラベリング労力をそれぞれ削減し、大きなdnnモデルとマイクロコントローラベースのモデルで同様の節約を必要とすることが明らかになった。 さらに,保全生物学プロジェクトからのデータを活用することで,本研究の実践的妥当性を示す。

The scarcity of labelled data makes training Deep Neural Network (DNN) models in bioacoustic applications challenging. In typical bioacoustics applications, manually labelling the required amount of data can be prohibitively expensive. To effectively identify both new and current classes, DNN models must continue to learn new features from a modest amount of fresh data. Active Learning (AL) is an approach that can help with this learning while requiring little labelling effort. Nevertheless, the use of fixed feature extraction approaches limits feature quality, resulting in underutilization of the benefits of AL. We describe an AL framework that addresses this issue by incorporating feature extraction into the AL loop and refining the feature extractor after each round of manual annotation. In addition, we use raw audio processing rather than spectrograms, which is a novel approach. Experiments reveal that the proposed AL framework requires 14.3%, 66.7%, and 47.4% less labelling effort on benchmark audio datasets ESC-50, UrbanSound8k, and InsectWingBeat, respectively, for a large DNN model and similar savings on a microcontroller-based counterpart. Furthermore, we showcase the practical relevance of our study by incorporating data from conservation biology projects.
翻訳日:2023-08-28 15:03:35 公開日:2023-08-25
# kapitza-dirac効果におけるスピン依存電子回折のパラメータ空間による研究

Parameter space investigation for spin-dependent electron diffraction in the Kapitza-Dirac effect ( http://arxiv.org/abs/2308.13200v1 )

ライセンス: Link先を確認
Yang Wang, Sven Ahrens(参考訳) カピツァ・ディラック効果の2光子ブラッグ散乱シナリオにおいて、スピン依存電子回折はスムーズレンジの逆電子モーメントに対して可能であることを示す。 スピン依存回折を定量化するための一般化された仕様を導入し,ニュートン勾配反復法を用いて解く最適化問題を実現することで,解析が可能となった。 この方法を用いて,カピツァ・ディラック散乱における逆電子モーメントと定在光波の異なるレーザー偏光に対するスピン依存効果について検討する。 スピン依存kapitza-dirac実験をセットアップする場合、任意の低横電子モーメントを使用する可能性により、電子とレーザーの相互作用時間が長くなり、その結果、効果の実装に対する制約パラメータが小さくなる。

We demonstrate that spin-dependent electron diffraction is possible for a smooth range transverse electron momenta in a two-photon Bragg scattering scenario of the Kapitza-Dirac effect. Our analysis is rendered possible by introducing a generalized specification for quantifying spin-dependent diffraction, yielding an optimization problem which is solved by making use of a Newton gradient iteration scheme. With this procedure, we investigate the spin-dependent effect for different transverse electron momenta and different laser polarizations of the standing light wave the Kapitza-Dirac scattering. The possibility for using arbitrary low transverse electron momenta, when setting up a spin-dependent Kapitza-Dirac experiment allows longer interaction times of the electron with the laser and therefore enables less constraining parameters for an implementation of the effect.
翻訳日:2023-08-28 15:03:08 公開日:2023-08-25
# 知識ニューロンの中心への旅:言語に依存しない知識ニューロンと変性知識ニューロンの発見

Journey to the Center of the Knowledge Neurons: Discoveries of Language-Independent Knowledge Neurons and Degenerate Knowledge Neurons ( http://arxiv.org/abs/2308.13198v1 )

ライセンス: Link先を確認
Yuheng Chen, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao(参考訳) 事前学習された言語モデル(PLM)には膨大な事実知識が含まれているが、その知識がパラメータにどのように格納されているかは未定である。 本稿では,事実知識が多言語plmにどのように格納されているかを理解するための複雑なタスクを考察し,アーキテクチャ適応型多言語統合勾配法を紹介し,知識ニューロンを現在の手法よりも高精度にローカライズし,様々なアーキテクチャや言語にまたがってより普遍的な手法を提案する。 さらに、我々は知識ニューロンの詳細な探索を行い、(1)言語に依存しない知識ニューロンの発見、すなわち、事実知識を言語を超越した形で保存する、という2つの重要な発見につながった。 我々は言語間知識編集実験を設計し、PLMが言語に依存しないニューロンに基づいてこのタスクを達成できることを実証する; (2) 異なる知識ニューロンが同じ事実を記憶できることを示す新しいタイプの神経である変性知識ニューロンの発見。 その機能的重複の性質は PLM に事実知識の堅牢な習得を与える。 我々はファクトチェック実験を設計し、変性した知識ニューロンがPLMが誤った事実を検出するのに役立つことを証明した。 実験はこれらの知見を裏付け、多言語PLMにおける事実的知識記憶のメカニズムに光を当て、この分野に貴重な洞察をもたらした。 ソースコードは、さらなる研究のために公開されます。

Pre-trained language models (PLMs) contain vast amounts of factual knowledge, but how the knowledge is stored in the parameters remains unclear. This paper delves into the complex task of understanding how factual knowledge is stored in multilingual PLMs, and introduces the Architecture-adapted Multilingual Integrated Gradients method, which successfully localizes knowledge neurons more precisely compared to current methods, and is more universal across various architectures and languages. Moreover, we conduct an in-depth exploration of knowledge neurons, leading to the following two important discoveries: (1) The discovery of Language-Independent Knowledge Neurons, which store factual knowledge in a form that transcends language. We design cross-lingual knowledge editing experiments, demonstrating that the PLMs can accomplish this task based on language-independent neurons; (2) The discovery of Degenerate Knowledge Neurons, a novel type of neuron showing that different knowledge neurons can store the same fact. Its property of functional overlap endows the PLMs with a robust mastery of factual knowledge. We design fact-checking experiments, proving that the degenerate knowledge neurons can help the PLMs to detect wrong facts. Experiments corroborate these findings, shedding light on the mechanisms of factual knowledge storage in multilingual PLMs, and contribute valuable insights to the field. The source code will be made publicly available for further research.
翻訳日:2023-08-28 15:02:54 公開日:2023-08-25
# 人間-ロボットインタラクションのための自然言語量子化器の定式化

Formalising Natural Language Quantifiers for Human-Robot Interactions ( http://arxiv.org/abs/2308.13192v1 )

ライセンス: Link先を確認
Stefan Morar, Adrian Groza, Mihai Pomarlan(参考訳) 本稿では,人間-ロボット相互作用の文脈における自然言語における量化器の定式化手法を提案する。 この解は、変数の濃度を表す能力を拡張した一階述語論理に基づいており、一般化量化器と同様に動作する。 提案手法を実証するために,入力を自然言語として受け取り,形式論理表現に変換し,評価し,結果を返したり,シミュレーションロボットにコマンドを送ることができるエンドツーエンドシステムを設計した。

We present a method for formalising quantifiers in natural language in the context of human-robot interactions. The solution is based on first-order logic extended with capabilities to represent the cardinality of variables, operating similarly to generalised quantifiers. To demonstrate the method, we designed an end-to-end system able to receive input as natural language, convert it into a formal logical representation, evaluate it, and return a result or send a command to a simulated robot.
翻訳日:2023-08-28 15:02:29 公開日:2023-08-25
# Chunk, Align, Select: 変圧器の簡単なロングシーケンス処理方法

Chunk, Align, Select: A Simple Long-sequence Processing Method for Transformers ( http://arxiv.org/abs/2308.13191v1 )

ライセンス: Link先を確認
Jiawen Xie, Pengyu Cheng, Xiao Liang, Yong Dai, Nan Du(参考訳) 自然言語処理では支配的であるが、トランスフォーマの自己照準演算の計算コストは入力シーケンス長と2倍に膨らむため、トランスフォーマは長いシーケンス処理の課題に依然として挑戦している。 長いシーケンス処理の複雑さを軽減するため、オフザシェルの事前学習型トランスフォーマーがずっと長いシーケンスを処理できるようにするための単純なフレームワークを提案し、計算とメモリコストは入力シーケンスの長さとともに線形に増加し続ける。 より具体的には、各long-sequence入力をチャンクのバッチに分割し、符号化ステップ中にinterchunk情報を調整し、最終的にデコーディングプロセスにおいてエンコーダから最も代表的な隠れ状態を選択する。 チャンク間セマンティック情報を抽出するため,各エンコードトランスブロック内のチャンク間に開始トークンと終了トークンの埋め込みを整列する。 効果的な隠れ選択ポリシを学ぶために,トランスフォーマのデコーダを環境として,下流のパフォーマンスメトリクスを隠れ選択アクションを評価する報酬として,強化学習に触発された二重更新スキームを設計する。 実世界の長文要約と読解タスクに関する実証実験の結果,従来の長文処理ベースラインと比較して,効果的な改善が示された。

Although dominant in natural language processing, transformer-based models remain challenged by the task of long-sequence processing, because the computational cost of self-attention operations in transformers swells quadratically with the input sequence length. To alleviate the complexity of long-sequence processing, we propose a simple framework to enable the offthe-shelf pre-trained transformers to process much longer sequences, while the computation and memory costs remain growing linearly with the input sequence lengths. More specifically, our method divides each long-sequence input into a batch of chunks, then aligns the interchunk information during the encoding steps, and finally selects the most representative hidden states from the encoder for the decoding process. To extract inter-chunk semantic information, we align the start and end token embeddings among chunks in each encoding transformer block. To learn an effective hidden selection policy, we design a dual updating scheme inspired by reinforcement learning, which regards the decoders of transformers as environments, and the downstream performance metrics as the rewards to evaluate the hidden selection actions. Our empirical results on real-world long-text summarization and reading comprehension tasks demonstrate effective improvements compared to prior longsequence processing baselines.
翻訳日:2023-08-28 15:02:20 公開日:2023-08-25
# falcon: 効率的なプライベートモバイルネットワーク推論のための準同型暗号化畳み込みの加速

Falcon: Accelerating Homomorphically Encrypted Convolutions for Efficient Private Mobile Network Inference ( http://arxiv.org/abs/2308.13189v1 )

ライセンス: Link先を確認
Tianshi Xu, Meng Li, Runsheng Wang, Ru Huang(参考訳) MobileNetV2、EfficientNetなどの効率的なネットワークは、軽量な計算で最先端(SOTA)の精度を達成する。 しかし、既存のホモモルフィック暗号(HE)ベースの2PCフレームワークはこれらのネットワークに最適化されておらず、高い推論オーバーヘッドに悩まされている。 我々は,同型暗号化深度畳み込みの計算特性と通信ボトルネックを無視するパッキングアルゴリズムから得られる非効率性を主に観察する。 そこで本稿では,he ベースの 2pc フレームワークのための効率的な密充填アルゴリズム falcon を提案する。 falconは、ゼロ・アウェア・グリーディ・パッキングアルゴリズムとコミュニケーション・アウェア・オペレーター・タイリング戦略を備えており、深さ方向の畳み込みに対するパッキング密度を向上させる。 SOTA HEベースの2PCフレームワーク(例えばCrypTFlow2、Iron、Cheetah)と比較して、Falconは演算子レベルでそれぞれ15.6x、5.1x、1.8x以上のレイテンシ削減を実現している。 一方、ネットワークレベルでは、FalconはCIFAR-100とTinyImagenetデータセットでCheetahよりも1.4%と4.2%の精度向上を実現している。

Efficient networks, e.g., MobileNetV2, EfficientNet, etc, achieves state-of-the-art (SOTA) accuracy with lightweight computation. However, existing homomorphic encryption (HE)-based two-party computation (2PC) frameworks are not optimized for these networks and suffer from a high inference overhead. We observe the inefficiency mainly comes from the packing algorithm, which ignores the computation characteristics and the communication bottleneck of homomorphically encrypted depthwise convolutions. Therefore, in this paper, we propose Falcon, an effective dense packing algorithm for HE-based 2PC frameworks. Falcon features a zero-aware greedy packing algorithm and a communication-aware operator tiling strategy to improve the packing density for depthwise convolutions. Compared to SOTA HE-based 2PC frameworks, e.g., CrypTFlow2, Iron and Cheetah, Falcon achieves more than 15.6x, 5.1x and 1.8x latency reduction, respectively, at operator level. Meanwhile, at network level, Falcon allows for 1.4% and 4.2% accuracy improvement over Cheetah on CIFAR-100 and TinyImagenet datasets with iso-communication, respecitvely.
翻訳日:2023-08-28 15:01:55 公開日:2023-08-25
# stride:ストリートビューに基づく環境特徴検出と歩行者衝突予測

STRIDE: Street View-based Environmental Feature Detection and Pedestrian Collision Prediction ( http://arxiv.org/abs/2308.13183v1 )

ライセンス: Link先を確認
Cristina Gonz\'alez, Nicol\'as Ayobi, Felipe Escall\'on, Laura Baldovino-Chiquillo, Maria Wilches-Mogoll\'on, Donny Pasos, Nicole Ram\'irez, Jose Pinz\'on, Olga Sarmiento, D Alex Quistberg, Pablo Arbel\'aez(参考訳) 本稿では,歩行者の衝突予測に構築環境要素が与える影響と関係について,自律走行システムにおける環境意識を高めることを目的とした新しいベンチマークを提案する。 本研究では,大規模パノラマ画像における組込み環境検出タスクと,検出に基づく歩行者衝突頻度予測タスクを提案する。 本稿では,衝突予測モジュールを最先端検出モデルに組み込んだベースライン手法を提案する。 本実験は,ビルト環境要素の物体検出と歩行者衝突頻度予測との間に有意な相関を示す。 この結果は,建設環境と歩行者の安全性の相互依存性を理解するための足掛かりとなる。

This paper introduces a novel benchmark to study the impact and relationship of built environment elements on pedestrian collision prediction, intending to enhance environmental awareness in autonomous driving systems to prevent pedestrian injuries actively. We introduce a built environment detection task in large-scale panoramic images and a detection-based pedestrian collision frequency prediction task. We propose a baseline method that incorporates a collision prediction module into a state-of-the-art detection model to tackle both tasks simultaneously. Our experiments demonstrate a significant correlation between object detection of built environment elements and pedestrian collision frequency prediction. Our results are a stepping stone towards understanding the interdependencies between built environment conditions and pedestrian safety.
翻訳日:2023-08-28 15:01:35 公開日:2023-08-25
# 大腸腺マーカーの仮想免疫組織化学染色のための構造サイクルgan

Structural Cycle GAN for Virtual Immunohistochemistry Staining of Gland Markers in the Colon ( http://arxiv.org/abs/2308.13182v1 )

ライセンス: Link先を確認
Shikha Dubey, Tushar Kataria, Beatrice Knudsen, and Shireen Y. Elhabian(参考訳) デジタルスキャナとディープラーニングの出現により、診断操作は顕微鏡からデスクトップに移行する可能性がある。 ヘマトキシリンとエオシン(H&E)染色は疾患解析、診断、グレーディングに最も頻繁に用いられる染色であるが、病理学者は特定の構造や細胞を分析するために異なる免疫組織化学的(IHC)染色を必要とする。 1つの標本にこれらの染色物(H&Eと異なるIHC)をすべて保持することは、退屈で時間を要する作業である。 その結果、仮想染色が重要な研究方向として浮上した。 本稿では,H&E画像からIHC染色を合成するための新しい生成モデルであるStructure Cycle-GAN(SC-GAN)を提案する。 提案手法は,エッジの形式(カラーデータに加えて)に構造情報を明示的に組み込んで,提案したジェネレータモデルのデコーダにのみ注目モジュールを用いる。 この統合は、特徴ローカライゼーションを強化し、生成プロセス中にコンテキスト情報を保存します。 さらに、生成されたマーカーと入力マーカーの正確な構造アライメントを確保するために、構造損失が組み込まれている。 提案モデルの有効性を実証するため,大腸内の腺の異なる構造を強調する2つのIHCマーカーを用いて,上皮細胞(CDX2)と細胞質(CK818)の核実験を行った。 FIDやSSIMなどの定量的メトリクスは、生成モデルの解析に頻繁に使用されるが、それらは高品質の仮想染色結果と明示的に相関しない。 そこで本研究では,IHCマーカーの仮想染色特異性と直接相関する2つの新しい定量的指標を提案する。

With the advent of digital scanners and deep learning, diagnostic operations may move from a microscope to a desktop. Hematoxylin and Eosin (H&E) staining is one of the most frequently used stains for disease analysis, diagnosis, and grading, but pathologists do need different immunohistochemical (IHC) stains to analyze specific structures or cells. Obtaining all of these stains (H&E and different IHCs) on a single specimen is a tedious and time-consuming task. Consequently, virtual staining has emerged as an essential research direction. Here, we propose a novel generative model, Structural Cycle-GAN (SC-GAN), for synthesizing IHC stains from H&E images, and vice versa. Our method expressly incorporates structural information in the form of edges (in addition to color data) and employs attention modules exclusively in the decoder of the proposed generator model. This integration enhances feature localization and preserves contextual information during the generation process. In addition, a structural loss is incorporated to ensure accurate structure alignment between the generated and input markers. To demonstrate the efficacy of the proposed model, experiments are conducted with two IHC markers emphasizing distinct structures of glands in the colon: the nucleus of epithelial cells (CDX2) and the cytoplasm (CK818). Quantitative metrics such as FID and SSIM are frequently used for the analysis of generative models, but they do not correlate explicitly with higher-quality virtual staining results. Therefore, we propose two new quantitative metrics that correlate directly with the virtual staining specificity of IHC markers.
翻訳日:2023-08-28 15:01:24 公開日:2023-08-25
# テキスト領域を付加したオブジェクト中心層表現を用いた自己教師付きシーンテキストセグメンテーション

Self-supervised Scene Text Segmentation with Object-centric Layered Representations Augmented by Text Regions ( http://arxiv.org/abs/2308.13178v1 )

ライセンス: Link先を確認
Yibo Wang, Yunhu Ye, Yuanpeng Mao, Yanwei Yu and Yuanping Song(参考訳) テキストセグメンテーションタスクは、画像編集、スタイル転送、透かし除去など、非常に広い範囲のアプリケーション価値を持っているが、既存の公開データセットは、お金と時間の両方で取得するのに悪名高いと判明したピクセルレベルのラベルの品質が劣っている。 同時に、合成データセット上で事前学習を行う場合、合成データセットのデータ分布は実際のシーンにおけるデータ分布からかけ離れている。 これらすべてが現在のピクセルレベルのテキストセグメンテーションアルゴリズムに対する大きな課題であり、上記の問題を緩和するために、オブジェクト中心の方法で表現を階層的に分離し、画像をテキストや背景に分割する自己教師付きシーンテキストセグメンテーションアルゴリズムを提案する。 In our method, we propose two novel designs which include Region Query Module and Representation Consistency Constraints adapting to the unique properties of text as complements to Auto Encoder, which improves the network's sensitivity to texts.For this unique design, we treat the polygon-level masks predicted by the text localization model as extra input information, and neither utilize any pixel-level mask annotations for training stage nor pretrain on synthetic datasets.Extensive experiments show the effectiveness of the method proposed. いくつかのパブリックシーンテキストデータセットでは、この手法は最先端の教師なしセグメンテーションアルゴリズムよりも優れている。

Text segmentation tasks have a very wide range of application values, such as image editing, style transfer, watermark removal, etc.However, existing public datasets are of poor quality of pixel-level labels that have been shown to be notoriously costly to acquire, both in terms of money and time. At the same time, when pretraining is performed on synthetic datasets, the data distribution of the synthetic datasets is far from the data distribution in the real scene. These all pose a huge challenge to the current pixel-level text segmentation algorithms.To alleviate the above problems, we propose a self-supervised scene text segmentation algorithm with layered decoupling of representations derived from the object-centric manner to segment images into texts and background. In our method, we propose two novel designs which include Region Query Module and Representation Consistency Constraints adapting to the unique properties of text as complements to Auto Encoder, which improves the network's sensitivity to texts.For this unique design, we treat the polygon-level masks predicted by the text localization model as extra input information, and neither utilize any pixel-level mask annotations for training stage nor pretrain on synthetic datasets.Extensive experiments show the effectiveness of the method proposed. On several public scene text datasets, our method outperforms the state-of-the-art unsupervised segmentation algorithms.
翻訳日:2023-08-28 15:00:53 公開日:2023-08-25
# ReST:マルチカメラマルチオブジェクト追跡のための再構成可能な空間時間グラフモデル

ReST: A Reconfigurable Spatial-Temporal Graph Model for Multi-Camera Multi-Object Tracking ( http://arxiv.org/abs/2308.13229v1 )

ライセンス: Link先を確認
Cheng-Che Cheng, Min-Xuan Qiu, Chen-Kuo Chiang, Shang-Hong Lai(参考訳) マルチカメラマルチオブジェクトトラッキング(mc-mot)は、複数のビューからの情報を活用し、オクルージョンや混雑したシーンの問題を解決する。 近年,追跡問題の解法としてグラフベースの手法が普及している。 しかし、現在のグラフベースの手法の多くは、空間的・時間的整合性に関する情報を効果的に活用していない。 代わりに、シングルカメラトラッカーを入力として、フラグメンテーションやidスイッチのエラーが発生しやすい。 本稿では,全ての検出対象を空間的に関連付ける新しい再構成可能グラフモデルを提案し,それを時間的関連付けのための時間グラフに再構成する。 この二段階連想アプローチにより,頑健な空間的特徴と時間的特徴を抽出し,分断されたトラックレットで問題に対処することができる。 さらに,本モデルはオンライントラッキング用に設計されており,実世界のアプリケーションに適している。 実験結果から,提案したグラフモデルにより,オブジェクト追跡のためのより識別性の高い特徴を抽出できることが示唆された。

Multi-Camera Multi-Object Tracking (MC-MOT) utilizes information from multiple views to better handle problems with occlusion and crowded scenes. Recently, the use of graph-based approaches to solve tracking problems has become very popular. However, many current graph-based methods do not effectively utilize information regarding spatial and temporal consistency. Instead, they rely on single-camera trackers as input, which are prone to fragmentation and ID switch errors. In this paper, we propose a novel reconfigurable graph model that first associates all detected objects across cameras spatially before reconfiguring it into a temporal graph for Temporal Association. This two-stage association approach enables us to extract robust spatial and temporal-aware features and address the problem with fragmented tracklets. Furthermore, our model is designed for online tracking, making it suitable for real-world applications. Experimental results show that the proposed graph model is able to extract more discriminating features for object tracking, and our model achieves state-of-the-art performance on several public datasets.
翻訳日:2023-08-28 14:54:41 公開日:2023-08-25
# ユーザ中心設計手法に基づく意味のあるXAI

Meaningful XAI Based on User-Centric Design Methodology ( http://arxiv.org/abs/2308.13228v1 )

ライセンス: Link先を確認
Winston Maxwell (SES, IP Paris, I3 SES, NOS), Bruno Dumas(参考訳) この報告書はまず、EUのさまざまな指令、規制、ガイドライン、CJEUの事例法に現れるXAI関連の要件の株式を取り上げます。 この既存の要件の分析により、XAIの目的である『why』の明確なビジョンが得られ、競争性、エンパワーメント/レポーティング情報非対称性、システムパフォーマンスの制御、アルゴリズム決定の評価、行政の透明性の5つのカテゴリに分けられます。 法的要件の分析によって、データサイエンスチーム、システムの人間オペレータ、アルゴリズム的決定の影響を受ける人、規制当局/司法/監査人という4つのカテゴリの受取人を作成できるようになりました。 Lastly, we identify four main operational contexts for explainability: XAI for the upstream design and testing phase; XAI for human-on-the-loop control; XAI for human-in-the-loop control; and XAI for ex-post challenges and investigations.Second, we will present user-centered design methodology, which takes the purposes, the recipients and the operational context into account in order to develop optimal XAI solutions.Third, we will suggest a methodology to permit suppliers and users of high-risk AI applications to propose local XAI solutions that are effective in the sense of being ``meaningful'', for example, useful in light of the operational, safety and fundamental rights contexts. これらの「有意な」XAIソリューションの開発に使用されるプロセスは、第2部で検討されたユーザ中心の設計原則に基づいており、第4部では、AIシステムの目的、オーディエンス、運用状況に基づいて「有意な」説明を定義するための調和したアプローチを欧州委員会が提案する。 これらのガイドラインは、AI法だけでなく、アルゴリズムシステムと結果の説明を必要とする他のEUのテキストにも適用される。

This report first takes stock of XAI-related requirements appearing in various EU directives, regulations, guidelines, and CJEU case law. This analysis of existing requirements will permit us to have a clearer vision of the purposes, the ``why'', of XAI, which we separate into five categories: contestability, empowerment/redressing information asymmetries, control over system performance, evaluation of algorithmic decisions, and public administration transparency. The analysis of legal requirements also permits us to create four categories of recipients for explainability: data science teams; human operators of the system; persons affected by algorithmic decisions, and regulators/judges/auditors. Lastly, we identify four main operational contexts for explainability: XAI for the upstream design and testing phase; XAI for human-on-the-loop control; XAI for human-in-the-loop control; and XAI for ex-post challenges and investigations.Second, we will present user-centered design methodology, which takes the purposes, the recipients and the operational context into account in order to develop optimal XAI solutions.Third, we will suggest a methodology to permit suppliers and users of high-risk AI applications to propose local XAI solutions that are effective in the sense of being ``meaningful'', for example, useful in light of the operational, safety and fundamental rights contexts. The process used to develop these ``meaningful'' XAI solutions will be based on user-centric design principles examined in the second part.Fourth, we will suggest that the European Commission issue guidelines to provide a harmonised approach to defining ``meaningful'' explanations based on the purposes, audiences and operational contexts of AI systems. These guidelines would apply to the AI Act, but also to the other EU texts requiring explanations for algorithmic systems and results.
翻訳日:2023-08-28 14:54:23 公開日:2023-08-25
# DPF-Net:3次元物体の教師なし構造再構築のための変形可能な原始フィールドにおける明示的な形状優先の組み合わせ

DPF-Net: Combining Explicit Shape Priors in Deformable Primitive Field for Unsupervised Structural Reconstruction of 3D Objects ( http://arxiv.org/abs/2308.13225v1 )

ライセンス: Link先を確認
Qingyao Shuai, Chi Zhang, Kaizhi Yang, Xuejin Chen(参考訳) 教師なし構造再構成法では,同一カテゴリの多様な形状間で一貫した構造を持つ幾何学的詳細を捉えることが大きな課題となっている。 この問題を解決するために,パラメータ化幾何学的プリミティブを用いた高品質な形状復元を可能にするDPF(Deformable Primitive Field)表現に基づく,新しい非教師構造再構成手法DPF-Netを提案する。 初期生成モジュールとプリミティブ変形モジュールからなる2段形状復元パイプラインの設計を行い,各部品の目標形状を漸進的に近似する。 プリミティブ生成モジュールは、パラメータ化された幾何学的プリミティブの明示的な配向、位置、サイズパラメータを推定し、プリミティブ変形モジュールはパラメータ化されたプリミティブフィールドに基づいて密な変形フィールドを予測し、形状の詳細を復元する。 パラメータ化幾何プリミティブで事前に符号化された強い形状により、DPF-Netは高次構造を抽出し、きめ細かい形状の細部を連続的に復元することができる。 様々な形状の物体の3つのカテゴリに対する実験結果から, DPF-Netが構造的再構成と形状分割に有効であること, 一般化能力を示す。

Unsupervised methods for reconstructing structures face significant challenges in capturing the geometric details with consistent structures among diverse shapes of the same category. To address this issue, we present a novel unsupervised structural reconstruction method, named DPF-Net, based on a new Deformable Primitive Field (DPF) representation, which allows for high-quality shape reconstruction using parameterized geometric primitives. We design a two-stage shape reconstruction pipeline which consists of a primitive generation module and a primitive deformation module to approximate the target shape of each part progressively. The primitive generation module estimates the explicit orientation, position, and size parameters of parameterized geometric primitives, while the primitive deformation module predicts a dense deformation field based on a parameterized primitive field to recover shape details. The strong shape prior encoded in parameterized geometric primitives enables our DPF-Net to extract high-level structures and recover fine-grained shape details consistently. The experimental results on three categories of objects in diverse shapes demonstrate the effectiveness and generalization ability of our DPF-Net on structural reconstruction and shape segmentation.
翻訳日:2023-08-28 14:53:51 公開日:2023-08-25
# EfficientDreamer:Orthogonal-view Diffusion Priorによる高忠実度・ロバスト3次元創製

EfficientDreamer: High-Fidelity and Robust 3D Creation via Orthogonal-view Diffusion Prior ( http://arxiv.org/abs/2308.13223v1 )

ライセンス: Link先を確認
Minda Zhao, Chaoyi Zhao, Xinyue Liang, Lincheng Li, Zeng Zhao, Zhipeng Hu, Changjie Fan, Xin Yu(参考訳) 画像拡散モデルは、テキスト駆動3dコンテンツ作成において大きな進歩を遂げているが、特に方向情報に関して、テキストプロンプトの意図する意味を正確に捉えることは困難である。 この欠点はJanus問題を引き起こし、そのような拡散モデルのガイダンスによって多面3Dモデルが生成される。 本稿では,高忠実度3Dコンテンツを生成するための高機能パイプラインを提案する。 具体的には,与えられたテキストプロンプトに対して4つの直交ビューサブイメージからなる画像を生成する,新しい2次元拡散モデルを提案する。 3Dコンテンツはこの拡散モデルで作成され、3D一貫性を高め、強力な構造化されたセマンティック先行を提供する。 これは悪名高いヤヌス問題に対処し、世代効率を著しく向上させる。 さらに,プログレッシブな3D合成戦略を採用し,生成した3Dコンテンツの品質を大幅に向上させる。 定量的および定性的な評価は,従来のテキスト・ツー・3D技術よりも大幅に改善されていることを示す。

While the image diffusion model has made significant strides in text-driven 3D content creation, it often falls short in accurately capturing the intended meaning of the text prompt, particularly with respect to direction information. This shortcoming gives rise to the Janus problem, where multi-faced 3D models are produced with the guidance of such diffusion models. In this paper, we present a robust pipeline for generating high-fidelity 3D content with orthogonal-view image guidance. Specifically, we introduce a novel 2D diffusion model that generates an image consisting of four orthogonal-view sub-images for the given text prompt. The 3D content is then created with this diffusion model, which enhances 3D consistency and provides strong structured semantic priors. This addresses the infamous Janus problem and significantly promotes generation efficiency. Additionally, we employ a progressive 3D synthesis strategy that results in substantial improvement in the quality of the created 3D contents. Both quantitative and qualitative evaluations show that our method demonstrates a significant improvement over previous text-to-3D techniques.
翻訳日:2023-08-28 14:53:28 公開日:2023-08-25
# 物理インフォームドニューラルネットワークのためのベイズ推論

Bayesian Reasoning for Physics Informed Neural Networks ( http://arxiv.org/abs/2308.13222v1 )

ライセンス: Link先を確認
Krzysztof M. Graczyk and Kornel Witkowski(参考訳) ベイズ定式化における物理インフォームドニューラルネットワーク(pinn)アプローチを提案する。 我々は、MacKay(Neural Computation 4 (3) (1992) 448)で定式化されたベイズニューラルネットワークフレームワークを採用する。 後方密度はラプラス近似から得られる。 各モデル(適合)について、いわゆる証拠が計算される。 仮説を分類する尺度である。 最も最適な解は証拠の最大値を持つ。 ベイズフレームワークは、総損失に対する境界寄与の影響を制御することができる。 実際、損失成分の相対重みはベイズアルゴリズムによって微調整される。 熱、波動、バーガー方程式を解く。 得られた結果は、正確な解とよく一致している。 すべての解はベイズフレームワーク内で計算された不確実性を持つ。

Physics informed neural network (PINN) approach in Bayesian formulation is presented. We adopt the Bayesian neural network framework formulated by MacKay (Neural Computation 4 (3) (1992) 448). The posterior densities are obtained from Laplace approximation. For each model (fit), the so-called evidence is computed. It is a measure that classifies the hypothesis. The most optimal solution has the maximal value of the evidence. The Bayesian framework allows us to control the impact of the boundary contribution to the total loss. Indeed, the relative weights of loss components are fine-tuned by the Bayesian algorithm. We solve heat, wave, and Burger's equations. The obtained results are in good agreement with the exact solutions. All solutions are provided with the uncertainties computed within the Bayesian framework.
翻訳日:2023-08-28 14:53:09 公開日:2023-08-25
# MultiCapCLIP:Zero-Shot Multilingual Visual Captioningのための自動エンコードプロンプト

MultiCapCLIP: Auto-Encoding Prompts for Zero-Shot Multilingual Visual Captioning ( http://arxiv.org/abs/2308.13218v1 )

ライセンス: Link先を確認
Bang Yang, Fenglin Liu, Xian Wu, Yaowei Wang, Xu Sun, and Yuexian Zou(参考訳) 監督された視覚キャプションモデルは通常、訓練のために特定の言語(すなわちビジョンキャプションペア)で記述された大量の画像やビデオを必要とする。 しかし、大規模なデータセットの収集とラベル付けは多くのシナリオや言語で時間がかかる。 したがって、十分なラベル付きペアは通常利用できない。 ラベル不足問題に対処するため、下流データセットのラベル付き視覚キャプチャーペアを使わずに、さまざまなシナリオや言語に対して視覚的なキャプションを生成することができる、シンプルで効果的なゼロショットアプローチであるMultiCapCLIPを提案する。 トレーニング段階では、MultiCapCLIPは入力のためのテキストデータのみを必要とする。 次に2つの主要なステップを行います 1) 新しいシナリオの対応するドメイン知識を保存する概念検索プロンプト 2) 所望の言語で字幕を出力するために書き方を学ぶプロンプトを自動エンコードする。 テスト段階では、MultiCapCLIPは視覚データを直接入力として取り込んで概念を検索し、最終的な視覚的記述を生成する。 4つのベンチマークと4つの言語(英語、中国語、ドイツ語、フランス語)にわたる画像と動画のキャプションに関する広範な実験により、我々のアプローチの有効性が確認された。 最先端のゼロショット法や弱教師付き手法と比較すると,BLEU@4とCIDErの基準で4.8%,21.5%の絶対改善が達成されている。 私たちのコードはhttps://github.com/yangbang18/MultiCapCLIPで利用可能です。

Supervised visual captioning models typically require a large scale of images or videos paired with descriptions in a specific language (i.e., the vision-caption pairs) for training. However, collecting and labeling large-scale datasets is time-consuming and expensive for many scenarios and languages. Therefore, sufficient labeled pairs are usually not available. To deal with the label shortage problem, we present a simple yet effective zero-shot approach MultiCapCLIP that can generate visual captions for different scenarios and languages without any labeled vision-caption pairs of downstream datasets. In the training stage, MultiCapCLIP only requires text data for input. Then it conducts two main steps: 1) retrieving concept prompts that preserve the corresponding domain knowledge of new scenarios; 2) auto-encoding the prompts to learn writing styles to output captions in a desired language. In the testing stage, MultiCapCLIP instead takes visual data as input directly to retrieve the concept prompts to generate the final visual descriptions. The extensive experiments on image and video captioning across four benchmarks and four languages (i.e., English, Chinese, German, and French) confirm the effectiveness of our approach. Compared with state-of-the-art zero-shot and weakly-supervised methods, our method achieves 4.8% and 21.5% absolute improvements in terms of BLEU@4 and CIDEr metrics. Our code is available at https://github.com/yangbang18/MultiCapCLIP.
翻訳日:2023-08-28 14:53:00 公開日:2023-08-25
# GEMTrans : 心血管診断のための一般心エコーを用いた多層トランスフレームワーク

GEMTrans: A General, Echocardiography-based, Multi-Level Transformer Framework for Cardiovascular Diagnosis ( http://arxiv.org/abs/2308.13217v1 )

ライセンス: Link先を確認
Masoud Mokhtari, Neda Ahmadi, Teresa S. M. Tsang, Purang Abolmaesumi, Renjie Liao(参考訳) 心エコー法(echo)は、様々な心血管疾患の診断に広く用いられている超音波画像法である。 エコー画像取得の多様性と臨床経験に基づくエコー画像の解釈から生じるエコーベースの診断におけるオブザーバ間のばらつきにより、視覚ベースの機械学習(ML)手法は、二次的な検証層としての役割を担っている。 このような安全クリティカルなアプリケーションにとって、提案するML手法は、高い精度で説明可能性のレベルを示すことが不可欠である。 さらに、このような方法では、様々な心臓のビューとそれらの相互作用から得られた複数のエコービデオを処理し、様々な心血管計測や解釈タスクの予測を適切に生成する必要がある。 以前の作業は説明可能性に欠けており、単一の心血管系タスクに集中することで範囲が限られている。 そこで本研究では,同一フレーム内のエコーイメージパッチ,同一ビデオ内の全フレーム,および下流タスクに基づいてビデオ間関係をキャプチャするマルチビデオトレーニングを実現すると同時に,説明可能性を提供する汎用的なエコーベース多レベルトランスフォーマ(gemtrans)フレームワークを提案する。 大動脈狭窄症(AS)の重症度検出と排卵率(EF)の2つの重要な課題を考慮し,本フレームワークの柔軟性を示す。 本モデルでは,単一・二重ビデオEF推定における平均絶対誤差4.15と4.84,AS検出における精度96.5 %を実現し,タスク固有の注意マップとプロトタイプによる説明可能性を提供する。

Echocardiography (echo) is an ultrasound imaging modality that is widely used for various cardiovascular diagnosis tasks. Due to inter-observer variability in echo-based diagnosis, which arises from the variability in echo image acquisition and the interpretation of echo images based on clinical experience, vision-based machine learning (ML) methods have gained popularity to act as secondary layers of verification. For such safety-critical applications, it is essential for any proposed ML method to present a level of explainability along with good accuracy. In addition, such methods must be able to process several echo videos obtained from various heart views and the interactions among them to properly produce predictions for a variety of cardiovascular measurements or interpretation tasks. Prior work lacks explainability or is limited in scope by focusing on a single cardiovascular task. To remedy this, we propose a General, Echo-based, Multi-Level Transformer (GEMTrans) framework that provides explainability, while simultaneously enabling multi-video training where the inter-play among echo image patches in the same frame, all frames in the same video, and inter-video relationships are captured based on a downstream task. We show the flexibility of our framework by considering two critical tasks including ejection fraction (EF) and aortic stenosis (AS) severity detection. Our model achieves mean absolute errors of 4.15 and 4.84 for single and dual-video EF estimation and an accuracy of 96.5 % for AS detection, while providing informative task-specific attention maps and prototypical explainability.
翻訳日:2023-08-28 14:52:17 公開日:2023-08-25
# 長期力学シミュレーションのための物理インスパイアニューラルグラフode

Physics-Inspired Neural Graph ODE for Long-term Dynamical Simulation ( http://arxiv.org/abs/2308.13212v1 )

ライセンス: Link先を確認
Yang Liu, Jiashun Cheng, Haihong Zhao, Tingyang Xu, Peilin Zhao, Fugee Tsung, Jia Li, Yu Rong(参考訳) マルチオブジェクト物理システムの長期的ダイナミクスのシミュレーションとモデリングは不可欠で困難な課題である。 等価特性を有するグラフニューラルネットワーク(gnns)を用いた物理システムに関する最近の研究 具体的には、一定時間間隔の離散状態の列としてダイナミクスをモデル化し、隣接する2つの状態すべてに対して直接マッピングを学ぶ。 しかし、この直接写像は2つの状態の間の連続的な性質を見落としている。 すなわち、現在のGNNに基づく直接写像モデルでは、2つの離散的動的状態の間に無数の軌道が存在することを検証した。 この問題はモデル一般化能力を大きく阻害し、長期シミュレーションの性能を低下させる。 本稿では、離散的な監視信号による潜在軌道のモデル化のために、物理インスパイアされたニューラルグラフODE(PINGO)アルゴリズムを提案する。 PINGOでは、軌道の特異性を確保するために、潜在軌道を更新するための物理インスパイアされたニューラルODEフレームワークを構築している。 一方、オブジェクト間の複雑な相互作用を効果的に捉えるために、GNNモデルを用いてニューラルODEをプラグアンドプレイでパラメータ化する。 さらに、PIGNOの学習軌跡と真の軌跡との差が理論的に有界であることを証明する。 広範な実験により,本モデルが最先端のベースライン,特に長期予測とロールアウト誤差よりも桁違いに改善できることが実証された。

Simulating and modeling the long-term dynamics of multi-object physical systems is an essential and challenging task. Current studies model the physical systems utilizing Graph Neural Networks (GNNs) with equivariant properties. Specifically, they model the dynamics as a sequence of discrete states with a fixed time interval and learn a direct mapping for all the two adjacent states. However, this direct mapping overlooks the continuous nature between the two states. Namely, we have verified that there are countless possible trajectories between two discrete dynamic states in current GNN-based direct mapping models. This issue greatly hinders the model generalization ability, leading to poor performance of the long-term simulation. In this paper, to better model the latent trajectory through discrete supervision signals, we propose a Physics-Inspired Neural Graph ODE (PINGO) algorithm. In PINGO, to ensure the uniqueness of the trajectory, we construct a Physics-Inspired Neural ODE framework to update the latent trajectory. Meanwhile, to effectively capture intricate interactions among objects, we use a GNN-based model to parameterize Neural ODE in a plug-and-play manner. Furthermore, we prove that the discrepancy between the learned trajectory of PIGNO and the true trajectory can be theoretically bounded. Extensive experiments verify our theoretical findings and demonstrate that our model yields an order-of-magnitude improvement over the state-of-the-art baselines, especially on long-term predictions and roll-out errors.
翻訳日:2023-08-28 14:51:09 公開日:2023-08-25
# 非結合相互作用の物理に触発された同変ディスクリプタ

Physics-inspired Equivariant Descriptors of Non-bonded Interactions ( http://arxiv.org/abs/2308.13208v1 )

ライセンス: Link先を確認
Kevin K. Huguenin-Dumittan, Philip Loche, Ni Haoran and Michele Ceriotti(参考訳) 原子スケールシミュレーションに適用される既存の機械学習のスキームのほとんどは、構造の幾何学の局所的な記述に依存しており、長距離の物理的相互作用によって引き起こされる効果のモデル化に苦慮している。 これらの限界を克服する努力は静電力学の直接的組み入れに焦点を当てており、これは最も顕著な効果であり、しばしば明示的な物理モデルの機能形式を反映するアーキテクチャに依存している。 非結合相互作用の他の形態、または原子間ポテンシャル以外の性質を予測するには、アドホックな修正が必要である。 本稿では, 遠距離同変(LODE)フレームワークを拡張して, 点電荷静電から分散力まで, 任意の漸近挙動を持つ非結合ポテンシャルに類似した原子環境の局所的記述子を生成する方法を提案する。 ローデ形式論は、その実装を単純化し、与えられた漸近的な振る舞いを捉えるのに必要な記述子数を減らす一般化された多極展開の観点で、直接の物理的解釈に適していることを示す。 これらの一般化されたLODE特徴は、与えられた漸近的な振る舞いに支配される構造で訓練された場合、外挿能力を改善するが、より異質なデータセットに関係のある、非常に異なるエネルギースケールを捉えるのに役立ちません。 このアプローチは、異なるタイプの非結合相互作用を組み込むための実践的なスキームと、この困難なモデリング問題の根底にある物理的およびデータ関連の考慮の相互作用を研究するためのフレームワークを提供する。

Most of the existing machine-learning schemes applied to atomic-scale simulations rely on a local description of the geometry of a structure, and struggle to model effects that are driven by long-range physical interactions. Efforts to overcome these limitations have focused on the direct incorporation of electrostatics, which is the most prominent effect, often relying on architectures that mirror the functional form of explicit physical models. Including other forms of non-bonded interactions, or predicting properties other than the interatomic potential, requires ad hoc modifications. We propose an alternative approach that extends the long-distance equivariant (LODE) framework to generate local descriptors of an atomic environment that resemble non-bonded potentials with arbitrary asymptotic behaviors, ranging from point-charge electrostatics to dispersion forces. We show that the LODE formalism is amenable to a direct physical interpretation in terms of a generalized multipole expansion, that simplifies its implementation and reduces the number of descriptors needed to capture a given asymptotic behavior. These generalized LODE features provide improved extrapolation capabilities when trained on structures dominated by a given asymptotic behavior, but do not help in capturing the wildly different energy scales that are relevant for a more heterogeneous data set. This approach provides a practical scheme to incorporate different types of non-bonded interactions, and a framework to investigate the interplay of physical and data-related considerations that underlie this challenging modeling problem.
翻訳日:2023-08-28 14:50:29 公開日:2023-08-25
# LLM2KB:大規模言語モデルを考慮した命令調律コンテキストを用いた知識ベースの構築

LLM2KB: Constructing Knowledge Bases using instruction tuned context aware Large Language Models ( http://arxiv.org/abs/2308.13207v1 )

ライセンス: Link先を確認
Anmol Nayak and Hari Prasad Timmapathini(参考訳) 大規模言語モデル(LLM)の出現は自然言語処理の分野に革命をもたらし、様々な分野で大きな進歩をもたらした。 重要な領域の1つは、これらの強力なモデルを用いた知識ベース(KB)の構築である。 知識ベースは構造化情報のリポジトリとして機能し、情報検索と推論作業を容易にする。 本稿では,Llama 2 アーキテクチャとウィキペディアデータセットに着目し,大規模言語モデルを用いた知識ベース構築システム LLM2KB を提案する。 Llama-2-13b-chat と StableBeluga-13B に対して,Low Rank Adaptation (LoRA) 技術を用いて,ベースモデルのパラメータの 0.05 % しか持たない小さなインジェクションモデルを訓練することにより,パラメータ効率の良い命令チューニングを行う。 これらのインジェクションモデルは、Dense Passage Retrieval (DPR)アルゴリズムを用いて取得した対象エンティティのウィキペディアページコンテキストを利用して、与えられた対象エンティティと関係に関する関連するオブジェクトエンティティに回答するプロンプトで訓練されている。 ISWC 2023で開かれたLM-KBCチャレンジでは,21関係の平均F1スコアが0.6185に達した。

The advent of Large Language Models (LLM) has revolutionized the field of natural language processing, enabling significant progress in various applications. One key area of interest is the construction of Knowledge Bases (KB) using these powerful models. Knowledge bases serve as repositories of structured information, facilitating information retrieval and inference tasks. Our paper proposes LLM2KB, a system for constructing knowledge bases using large language models, with a focus on the Llama 2 architecture and the Wikipedia dataset. We perform parameter efficient instruction tuning for Llama-2-13b-chat and StableBeluga-13B by training small injection models that have only 0.05 % of the parameters of the base models using the Low Rank Adaptation (LoRA) technique. These injection models have been trained with prompts that are engineered to utilize Wikipedia page contexts of subject entities fetched using a Dense Passage Retrieval (DPR) algorithm, to answer relevant object entities for a given subject entity and relation. Our best performing model achieved an average F1 score of 0.6185 across 21 relations in the LM-KBC challenge held at the ISWC 2023 conference.
翻訳日:2023-08-28 14:50:04 公開日:2023-08-25
# 個人化生成ネットワークによるヘテロジニアスフェデレーション学習

Heterogeneous Federated Learning via Personalized Generative Networks ( http://arxiv.org/abs/2308.13265v1 )

ライセンス: Link先を確認
Zahra Taghiyarrenani, Abdallah Abdallah, Slawomir Nowaczyk, Sepideh Pashami(参考訳) フェデレーション学習(fl)は、複数のクライアントがデータを共有することなく、共通のグローバル機械学習モデルを構築することができる。 しかしながらflは、パフォーマンスを低下させ、グローバルモデルへの収束を遅くするクライアントデータ間の統計的不均一性の課題に直面している。 本稿では,クライアント間の不均一性を最小化することで,各クライアントに対するグローバルモデルの収束が促進されることを示す。 これは、これまで研究されてきた不均衡なクラスではなく、クライアント間での経験的な概念シフトの下で特に重要になる。 そこで,サーバがクライアント固有生成器を訓練するクライアント間の知識伝達手法を提案する。 各ジェネレータは対応するクライアントのサンプルを生成し、他のクライアントのモデルとの競合を取り除く。 実データと合成データを用いた実験は, 局所モデル間の衝突を低減し, 一般化可能なグローバルモデルの構築において, 提案手法の有効性を裏付けるものである。

Federated Learning (FL) allows several clients to construct a common global machine-learning model without having to share their data. FL, however, faces the challenge of statistical heterogeneity between the client's data, which degrades performance and slows down the convergence toward the global model. In this paper, we provide theoretical proof that minimizing heterogeneity between clients facilitates the convergence of a global model for every single client. This becomes particularly important under empirical concept shifts among clients, rather than merely considering imbalanced classes, which have been studied until now. Therefore, we propose a method for knowledge transfer between clients where the server trains client-specific generators. Each generator generates samples for the corresponding client to remove the conflict with other clients' models. Experiments conducted on synthetic and real data, along with a theoretical study, support the effectiveness of our method in constructing a well-generalizable global model by reducing the conflict between local models.
翻訳日:2023-08-28 14:44:23 公開日:2023-08-25
# 知識駆動型CoT:知識集約型質問応答のためのLLMにおける忠実推論

Knowledge-Driven CoT: Exploring Faithful Reasoning in LLMs for Knowledge-intensive Question Answering ( http://arxiv.org/abs/2308.13259v1 )

ライセンス: Link先を確認
Keheng Wang, Feiyu Duan, Sirui Wang, Peiguang Li, Yunsen Xian, Chuantao Yin, Wenge Rong, Zhang Xiong(参考訳) Chain-of-Thought(CoT)を備えたLarge Language Model(LLM)は、さまざまな下流タスクで顕著な推論能力を示している。 それでも、幻覚や外部の知識にアクセスできないため、LLMは、特にKBQAのような知識集約的なタスクに答える文脈において、誤った、または不誠実な中間推論ステップを伴うことが多い。 この問題を軽減するために,外部知識との相互作用を通じてCoTの推論トレースを検証・修正するKD-CoT(Knowled-Driven Chain-of-Thought)というフレームワークを提案する。 具体的には、LLMのCoT合理化過程を構造化多重ラウンドQA形式に定式化する。 各ラウンドにおいて、LLMは外部知識を取得し、得られた正確な答えに基づいて忠実な推論トレースを生成するQAシステムと相互作用する。 LLMの構造的CoT推論はKBQA CoTコレクションによって促進され、インコンテキスト学習のデモンストレーションとして機能し、ロバストレトリバーのトレーニングにフィードバック強化として利用することができる。 webqsp と complexwebquestion データセットに関する広範な実験により、タスク解決推論生成における提案する kd-cot の有効性が示され、これは絶対成功率 8.0% と 5.1% のバニラコット icl を上回る。 さらに,提案するフィードバック提示レトリバーは,知識検索のための最先端ベースラインよりも優れており,ヒット性能が大幅に向上している。

Equipped with Chain-of-Thought (CoT), Large language models (LLMs) have shown impressive reasoning ability in various downstream tasks. Even so, suffering from hallucinations and the inability to access external knowledge, LLMs often come with incorrect or unfaithful intermediate reasoning steps, especially in the context of answering knowledge-intensive tasks such as KBQA. To alleviate this issue, we propose a framework called Knowledge-Driven Chain-of-Thought (KD-CoT) to verify and modify reasoning traces in CoT via interaction with external knowledge, and thus overcome the hallucinations and error propagation. Concretely, we formulate the CoT rationale process of LLMs into a structured multi-round QA format. In each round, LLMs interact with a QA system that retrieves external knowledge and produce faithful reasoning traces based on retrieved precise answers. The structured CoT reasoning of LLMs is facilitated by our developed KBQA CoT collection, which serves as in-context learning demonstrations and can also be utilized as feedback augmentation to train a robust retriever. Extensive experiments on WebQSP and ComplexWebQuestion datasets demonstrate the effectiveness of proposed KD-CoT in task-solving reasoning generation, which outperforms the vanilla CoT ICL with an absolute success rate of 8.0% and 5.1%. Furthermore, our proposed feedback-augmented retriever outperforms the state-of-the-art baselines for retrieving knowledge, achieving significant improvement in Hit performance.
翻訳日:2023-08-28 14:44:06 公開日:2023-08-25
# 一致を見つけるためのキス: 効率的な低ランク置換表現

Kissing to Find a Match: Efficient Low-Rank Permutation Representation ( http://arxiv.org/abs/2308.13252v1 )

ライセンス: Link先を確認
Hannah Dr\"oge, Zorah L\"ahner, Yuval Bahat, Onofre Martorell, Felix Heide, Michael M\"oller(参考訳) 置換行列は、分野、特にコンピュータビジョンとロボット工学において、マッチングと割り当ての問題において重要な役割を果たす。 しかし、置換行列を明示的に表現するメモリは問題のサイズと二次的に増大し、大きな問題のインスタンスを禁止している。 本研究では,大置換行列の次元性の呪いを低階行列因子分解を用いて近似し,非線形性を用いて解くことを提案する。 この目的のために、私たちは、与えられたサイズの置換行列を表現するのに必要な最小のランクを推定するために、キス数理論に頼る。 例えば、$n=20000$という2つの小さな行列で8.4\times10^5$要素で表されるサイズの問題に対して、$n=20000$という最大3ドル以下のメモリコストは、$4\times 10^8$要素の1つの巨大な行列を使う代わりに、大幅に削減される。 提案された表現は、大きな置換行列の正確な表現を可能にするが、そうでなければ実現不可能だった大きな問題を処理できる。 本研究では,線形および二次代入から形状マッチング問題まで,置換行列の予測を含む様々な問題に関する一連の実験を通じて,提案手法の適用性とメリットを示す。

Permutation matrices play a key role in matching and assignment problems across the fields, especially in computer vision and robotics. However, memory for explicitly representing permutation matrices grows quadratically with the size of the problem, prohibiting large problem instances. In this work, we propose to tackle the curse of dimensionality of large permutation matrices by approximating them using low-rank matrix factorization, followed by a nonlinearity. To this end, we rely on the Kissing number theory to infer the minimal rank required for representing a permutation matrix of a given size, which is significantly smaller than the problem size. This leads to a drastic reduction in computation and memory costs, e.g., up to $3$ orders of magnitude less memory for a problem of size $n=20000$, represented using $8.4\times10^5$ elements in two small matrices instead of using a single huge matrix with $4\times 10^8$ elements. The proposed representation allows for accurate representations of large permutation matrices, which in turn enables handling large problems that would have been infeasible otherwise. We demonstrate the applicability and merits of the proposed approach through a series of experiments on a range of problems that involve predicting permutation matrices, from linear and quadratic assignment to shape matching problems.
翻訳日:2023-08-28 14:43:35 公開日:2023-08-25
# TC-LIF:長期連続モデリングのための2成分スパイクニューロンモデル

TC-LIF: A Two-Compartment Spiking Neuron Model for Long-term Sequential Modelling ( http://arxiv.org/abs/2308.13250v1 )

ライセンス: Link先を確認
Shimin Zhang, Qu Yang, Chenxiang Ma, Jibin Wu, Haizhou Li, Kay Chen Tan(参考訳) 潜在的な機会や危険に関連する感覚的手がかりの同定は、長期間の遅延によって有用な手がかりを分離する無関係な出来事によってしばしば複雑になる。 その結果、最先端のスパイクニューラルネットワーク(snn)では、遠方の手がかり間の長期的な時間的依存関係を確立することが課題となっている。 この課題に対処するため,我々はtc-lifと呼ばれる,生物にインスパイアされた2つのコンパートメントによる統合・ファイアスパイキングニューロンモデルを提案する。 提案モデルでは,長期的時間的依存関係の学習を容易にするように設計された身体的および樹状的な区画を慎重に設計した。 さらに,TC-LIFが時間的長期にわたる誤差勾配の伝播に有効であることを示す理論的解析を行った。 本研究は, 時間的分類課題の多種多様さに対して, 時間的分類能力の向上, 迅速な訓練収束, 提案したTC-LIFモデルの高エネルギー化を実証した。 したがって、この研究は、新興のニューロモルフィックコンピューティングシステムにおける時間的処理課題を解決するための無数の機会を開く。

The identification of sensory cues associated with potential opportunities and dangers is frequently complicated by unrelated events that separate useful cues by long delays. As a result, it remains a challenging task for state-of-the-art spiking neural networks (SNNs) to establish long-term temporal dependency between distant cues. To address this challenge, we propose a novel biologically inspired Two-Compartment Leaky Integrate-and-Fire spiking neuron model, dubbed TC-LIF. The proposed model incorporates carefully designed somatic and dendritic compartments that are tailored to facilitate learning long-term temporal dependencies. Furthermore, a theoretical analysis is provided to validate the effectiveness of TC-LIF in propagating error gradients over an extended temporal duration. Our experimental results, on a diverse range of temporal classification tasks, demonstrate superior temporal classification capability, rapid training convergence, and high energy efficiency of the proposed TC-LIF model. Therefore, this work opens up a myriad of opportunities for solving challenging temporal processing tasks on emerging neuromorphic computing systems.
翻訳日:2023-08-28 14:43:12 公開日:2023-08-25
# 確率的リワード安定化を用いたモデルレス強化学習

Model-free Reinforcement Learning with Stochastic Reward Stabilization for Recommender Systems ( http://arxiv.org/abs/2308.13246v1 )

ライセンス: Link先を確認
Tianchi Cai, Shenliao Bao, Jiyan Jiang, Shiji Zhou, Wenpeng Zhang, Lihong Gu, Jinjie Gu, Guannan Zhang(参考訳) モデルフリーなRLベースのレコメンデータシステムは、最近、部分的なフィードバックや長期的な報酬を扱う能力から、研究の注目を集めている。 しかし、既存のほとんどの研究はレコメンデーションシステムにおいて重要な機能を無視している。 確率的報酬特性は、決定論的報酬を持つ古典的なRLシナリオと本質的に異なるため、RLベースのレコメンダシステムはより困難である。 本稿では,直接確率的フィードバックを用いることで性能が大幅に低下するシミュレータ環境において,まず実演を行う。 そして, 確率的フィードバックをより効率的に処理するために, 直接確率的フィードバックを教師付きモデルに置き換える2つの確率的報酬安定化フレームワークを設計する。 どちらのフレームワークもモデルに依存しない、すなわち、様々な教師付きモデルを効果的に利用することができる。 提案手法は,産業レベルのレコメンデーションシステムと同様に,レコメンデーションシミュレータを用いた広範囲な実験を行い,rlベースレコメンデーションベースラインよりも優れていることを示す。

Model-free RL-based recommender systems have recently received increasing research attention due to their capability to handle partial feedback and long-term rewards. However, most existing research has ignored a critical feature in recommender systems: one user's feedback on the same item at different times is random. The stochastic rewards property essentially differs from that in classic RL scenarios with deterministic rewards, which makes RL-based recommender systems much more challenging. In this paper, we first demonstrate in a simulator environment where using direct stochastic feedback results in a significant drop in performance. Then to handle the stochastic feedback more efficiently, we design two stochastic reward stabilization frameworks that replace the direct stochastic feedback with that learned by a supervised model. Both frameworks are model-agnostic, i.e., they can effectively utilize various supervised models. We demonstrate the superiority of the proposed frameworks over different RL-based recommendation baselines with extensive experiments on a recommendation simulator as well as an industrial-level recommender system.
翻訳日:2023-08-28 14:42:50 公開日:2023-08-25
# 正方形と対称幾何写像を用いた3次元顔形状の非対数多領域属性変換

Unpaired Multi-domain Attribute Translation of 3D Facial Shapes with a Square and Symmetric Geometric Map ( http://arxiv.org/abs/2308.13245v1 )

ライセンス: Link先を確認
Zhenfeng Fan, Zhiheng Zhang, Shuang Yang, Chongyang Zhong, Min Cao, Shihong Xia(参考訳) 画像指向の顔属性翻訳の進歩は目覚ましいが、形状指向の3D顔属性翻訳は未解決の問題のままである。 これは主に、3D生成モデルの欠如と、3D顔データの有効利用によって制限される。 これらの制約を緩和するために,3次元顔属性翻訳のための学習フレームワークを提案する。 まず,3次元形状表現のための新しい幾何マップをカスタマイズし,それをエンド・ツー・エンドの対向ネットワークに埋め込む。 幾何学的地図は、局所的な最小二乗意味で3次元頂点の隣接関係を保ちながら、正方形画像グリッド上で対称に3次元形状を表す。 これにより、異なる属性を持つデータの潜在表現を効果的に学習することができる。 第二に、多領域属性変換に統一的かつ不公平な学習フレームワークを用いる。 複数のドメインからのデータ相関を効果的に利用するだけでなく、アクセスしにくいペアデータに対する制約を軽減する。 最後に,グローバルアーティファクトとローカルアーティファクトの両方に対してロバストな結果を保証するための階層的アーキテクチャを提案する。 我々は,高忠実度顔形状の生成における最先端技術に対するフレームワークの利点を示すために,広範な実験を行った。 入力された3次元顔の形状から,表現伝達,ジェンダー翻訳,老化といった下流の応用を網羅した,異なる属性の新規な形状を合成することができる。 コード: https://github.com/naughtyzz/3d_facial_shape_attribute_translation_ssgmap。

While impressive progress has recently been made in image-oriented facial attribute translation, shape-oriented 3D facial attribute translation remains an unsolved issue. This is primarily limited by the lack of 3D generative models and ineffective usage of 3D facial data. We propose a learning framework for 3D facial attribute translation to relieve these limitations. Firstly, we customize a novel geometric map for 3D shape representation and embed it in an end-to-end generative adversarial network. The geometric map represents 3D shapes symmetrically on a square image grid, while preserving the neighboring relationship of 3D vertices in a local least-square sense. This enables effective learning for the latent representation of data with different attributes. Secondly, we employ a unified and unpaired learning framework for multi-domain attribute translation. It not only makes effective usage of data correlation from multiple domains, but also mitigates the constraint for hardly accessible paired data. Finally, we propose a hierarchical architecture for the discriminator to guarantee robust results against both global and local artifacts. We conduct extensive experiments to demonstrate the advantage of the proposed framework over the state-of-the-art in generating high-fidelity facial shapes. Given an input 3D facial shape, the proposed framework is able to synthesize novel shapes of different attributes, which covers some downstream applications, such as expression transfer, gender translation, and aging. Code at https://github.com/NaughtyZZ/3D_facial_shape_attribute_translation_ssgmap.
翻訳日:2023-08-28 14:42:33 公開日:2023-08-25
# グループフェア・プラケット・ルースランキングモデルの妥当性とポストフェアネスの最適化

Optimizing Group-Fair Plackett-Luce Ranking Models for Relevance and Ex-Post Fairness ( http://arxiv.org/abs/2308.13242v1 )

ライセンス: Link先を確認
Sruthi Gorantla, Eshaan Bhansali, Amit Deshpande, Anand Louis(参考訳) LTR(Learning-to-rank)では、関連性(または期待されるランキングユーティリティ)のみを最適化することで、特定のカテゴリの項目に表現的打撃を与える。 さらに、関連性スコアに暗黙のバイアスがある場合、LTRモデルは真の関連性のために最適化に失敗する可能性がある。 以前の研究では、確率的ランク付けモデルからランク付けを実現した後、前のグループに対する表現的公平性を保証しない(あるいは期待して)グループへの露出の公平性を達成する確率的ランク付けモデルを訓練するための効率的なアルゴリズムを提案している。 典型的には、前ポストフェアネスは後処理によって達成されるが、前回の仕事は、この後処理に気付いている確率的ランキングモデルを訓練していない。 本稿では,与えられた表象制約を満たすランキングに対してのみ期待された妥当性を最大化する新しい目的を提案する。 ポストグループフェアランキングの効率的なサンプリングを行うための最近の研究に基づいて、グループフェアのPlanet-Luceモデルを提案し、LTRフレームワークの目的に対して効率的に最適化できることを示す。 3つの実世界のデータセットの実験により、我々のグループフェアアルゴリズムは、LTRベースラインと比較して、通常より適切な妥当性を持つとともに、公正性を保証する。 さらに,提案アルゴリズムは,ポスト処理ベースラインよりも妥当性が向上し,ポストの公平性が保証される。 さらに、トレーニングデータに暗黙バイアスが注入されると、我々のアルゴリズムは関連性において既存のLTRベースラインを上回っます。

In learning-to-rank (LTR), optimizing only the relevance (or the expected ranking utility) can cause representational harm to certain categories of items. Moreover, if there is implicit bias in the relevance scores, LTR models may fail to optimize for true relevance. Previous works have proposed efficient algorithms to train stochastic ranking models that achieve fairness of exposure to the groups ex-ante (or, in expectation), which may not guarantee representation fairness to the groups ex-post, that is, after realizing a ranking from the stochastic ranking model. Typically, ex-post fairness is achieved by post-processing, but previous work does not train stochastic ranking models that are aware of this post-processing. In this paper, we propose a novel objective that maximizes expected relevance only over those rankings that satisfy given representation constraints to ensure ex-post fairness. Building upon recent work on an efficient sampler for ex-post group-fair rankings, we propose a group-fair Plackett-Luce model and show that it can be efficiently optimized for our objective in the LTR framework. Experiments on three real-world datasets show that our group-fair algorithm guarantees fairness alongside usually having better relevance compared to the LTR baselines. In addition, our algorithm also achieves better relevance than post-processing baselines, which also ensures ex-post fairness. Further, when implicit bias is injected into the training data, our algorithm typically outperforms existing LTR baselines in relevance.
翻訳日:2023-08-28 14:42:10 公開日:2023-08-25
# 双方向アトキンソン-シフリンメモリを用いたブラックボックス非教師付きドメイン適応

Black-box Unsupervised Domain Adaptation with Bi-directional Atkinson-Shiffrin Memory ( http://arxiv.org/abs/2308.13236v1 )

ライセンス: Link先を確認
Jingyi Zhang, Jiaxing Huang, Xueying Jiang, Shijian Lu(参考訳) Black-box Unsupervised Domain adaptation (UDA)は、トレーニング中にソースデータまたはソースモデルにアクセスすることなく、ターゲットデータのソース予測によって学習する。 しかし、ターゲットデータのソース予測はノイズが多く、それらのトレーニングは崩壊を学習する傾向にある。 両方向の記憶機構であるBiMemを提案する。この機構は,ノイズの多い擬似ラベルをオンザフライで修正するための有用な情報と代表的な情報を記憶し,様々な視覚認識タスクを一般化する堅牢なブラックボックスUDAを実現する。 BiMemは、感覚記憶、短期記憶、長期記憶を含む3種類のメモリを構築し、学習した特徴の包括的で堅牢な記憶のために双方向に相互作用する。 有用な特徴を特定し保存する前方記憶フローと、機能の擬似ラベルを徐々に修正する後方校正フローが含まれる。 画像分類やセマンティックセグメンテーション,オブジェクト検出など,さまざまな視覚認識タスクにおいて,BiMemは優れたドメイン適応性能を実現している。

Black-box unsupervised domain adaptation (UDA) learns with source predictions of target data without accessing either source data or source models during training, and it has clear superiority in data privacy and flexibility in target network selection. However, the source predictions of target data are often noisy and training with them is prone to learning collapses. We propose BiMem, a bi-directional memorization mechanism that learns to remember useful and representative information to correct noisy pseudo labels on the fly, leading to robust black-box UDA that can generalize across different visual recognition tasks. BiMem constructs three types of memory, including sensory memory, short-term memory, and long-term memory, which interact in a bi-directional manner for comprehensive and robust memorization of learnt features. It includes a forward memorization flow that identifies and stores useful features and a backward calibration flow that rectifies features' pseudo labels progressively. Extensive experiments show that BiMem achieves superior domain adaptation performance consistently across various visual recognition tasks such as image classification, semantic segmentation and object detection.
翻訳日:2023-08-28 14:41:41 公開日:2023-08-25
# 工学的散逸を伴う複数定常状態の観測

Observation of multiple steady states with engineered dissipation ( http://arxiv.org/abs/2308.13235v1 )

ライセンス: Link先を確認
Li Li, Tong Liu, Xue-Yi Guo, He Zhang, Silu Zhao, Zhongcheng Xiang, Xiaohui Song, Yu-Xiang Zhang, Kai Xu, Heng Fan, and Dongning Zheng(参考訳) オープン量子システムのダイナミクスをシミュレートすることは、実用的な量子計算を実現し、新しい非平衡挙動を理解する上で必須である。 しかし、工学的貯水池に結合した多体系の量子シミュレーションは、現在の実験プラットフォームではまだ十分に研究されていない。 本研究では,1次元の10量子ビット超伝導量子プロセッサに工学的ノイズを導入し,多体量子系をエミュレートする。 我々のアプローチは、マスター方程式の確率的解法に由来する。 エンド・ツー・エンドの相関を測ることで、Floquet 工学を通して修正ハミルトニアン上で確立された強い対称性から導かれる複数の定常状態を特定する。 さらに、初期状態に保存された情報は、5ビット鎖上の連続散逸によって駆動される定常状態を維持する。 我々の研究は、オープンシステム量子シミュレーションのための管理可能かつハードウェア効率の戦略を提供する。

Simulating the dynamics of open quantum systems is essential in achieving practical quantum computation and understanding novel nonequilibrium behaviors. However, quantum simulation of a many-body system coupled to an engineered reservoir has yet to be fully explored in present-day experiment platforms. In this work, we introduce engineered noise into a one-dimensional ten-qubit superconducting quantum processor to emulate a generic many-body open quantum system. Our approach originates from the stochastic unravellings of the master equation. By measuring the end-to-end correlation, we identify multiple steady states stemmed from a strong symmetry, which is established on the modified Hamiltonian via Floquet engineering. Furthermore, we find that the information saved in the initial state maintains in the steady state driven by the continuous dissipation on a five-qubit chain. Our work provides a manageable and hardware-efficient strategy for the open-system quantum simulation.
翻訳日:2023-08-28 14:41:20 公開日:2023-08-25
# 物体認識のための脳波からの自然画像の復号

Decoding Natural Images from EEG for Object Recognition ( http://arxiv.org/abs/2308.13234v1 )

ライセンス: Link先を確認
Yonghao Song, Bingchuan Liu, Xiang Li, Nanlin Shi, Yijun Wang, Xiaorong Gao(参考訳) 脳波(Electroencephalogram、EEG)は、高分解能と中程度の信号-雑音比で知られる脳信号である。 自然画像が脳波からデコードできるかどうかは、最近ホットな問題です。 本稿では,脳波信号から画像表現を学習するための自己教師型フレームワークを提案する。 具体的には、まず画像と脳波エンコーダを使用して、ペア画像刺激と脳波応答から特徴を抽出する。 次に、これらの2つの様相を相似性を制約して整合させるために、対比学習を用いる。 さらに,eegエンコーダの前に空間相関をキャプチャするプラグイン・イン・プレイモジュールを2つ導入する。 我々の手法は、200ウェイゼロショットタスクにおいて、トップ1の精度が15.6%、トップ5の精度が42.8%の、最も広範なEEGイメージデータセットの最先端結果を達成する。 より重要なことに、脳波信号の時間的、空間的、スペクトル的、意味的な側面を分析する広範な実験は、生物学的な可能性を示す。 これらの結果は、ニューラルデコーディングと脳-コンピュータインタフェースの実際の応用に貴重な洞察を与える。 コードはhttps://github.com/eeyhsong/NICE-EEGでリリースされる。

Electroencephalogram (EEG) is a brain signal known for its high time resolution and moderate signal-to-noise ratio. Whether natural images can be decoded from EEG has been a hot issue recently. In this paper, we propose a self-supervised framework to learn image representations from EEG signals. Specifically, image and EEG encoders are first used to extract features from paired image stimuli and EEG responses. Then we employ contrastive learning to align these two modalities by constraining their similarity. Additionally, we introduce two plug-in-play modules that capture spatial correlations before the EEG encoder. Our approach achieves state-of-the-art results on the most extensive EEG-image dataset, with a top-1 accuracy of 15.6% and a top-5 accuracy of 42.8% in 200-way zero-shot tasks. More importantly, extensive experiments analyzing the temporal, spatial, spectral, and semantic aspects of EEG signals demonstrate good biological plausibility. These results offer valuable insights for neural decoding and real-world applications of brain-computer interfaces. The code will be released on https://github.com/eeyhsong/NICE-EEG.
翻訳日:2023-08-28 14:41:07 公開日:2023-08-25
# 解剖学的ランドマーク検出のための教師なしドメイン適応

Unsupervised Domain Adaptation for Anatomical Landmark Detection ( http://arxiv.org/abs/2308.13286v1 )

ライセンス: Link先を確認
Haibo Jin, Haoxuan Che, Hao Chen(参考訳) 最近、解剖学的ランドマーク検出は、通常、トレーニングとテストセットが同じドメインからのものであると仮定するシングルドメインデータで大きな進歩を遂げている。 しかし、そのような仮定は実際には必ずしも真実ではないため、ドメインシフトによってパフォーマンスが大幅に低下する可能性がある。 本稿では,ラベル付きソースドメインからラベル付きターゲットドメインへの知識の転送を目的とした,unsupervised domain adaptation(uda)の設定下での解剖学的ランドマーク検出のための新しいフレームワークを提案する。 このフレームワークは、自己学習とドメインの敵対的学習を利用して、適応中のドメインギャップに対処する。 具体的には、動的しきい値を持つ対象領域データの信頼性の高いランドマークレベル擬似ラベルを選択するための自己学習戦略を提案する。 さらに、adversarial trainingを通じてドメイン不変特徴を学習することにより、2つのドメインの不整合データ分布を処理するようにドメイン逆学習モジュールが設計されている。 脳波および肺のランドマーク検出実験は,領域間隙を広いマージンで低減し,他のUDA法より一貫して優れる手法の有効性を示した。 コードはhttps://github.com/jhb86253817/uda_med_landmarkで入手できる。

Recently, anatomical landmark detection has achieved great progresses on single-domain data, which usually assumes training and test sets are from the same domain. However, such an assumption is not always true in practice, which can cause significant performance drop due to domain shift. To tackle this problem, we propose a novel framework for anatomical landmark detection under the setting of unsupervised domain adaptation (UDA), which aims to transfer the knowledge from labeled source domain to unlabeled target domain. The framework leverages self-training and domain adversarial learning to address the domain gap during adaptation. Specifically, a self-training strategy is proposed to select reliable landmark-level pseudo-labels of target domain data with dynamic thresholds, which makes the adaptation more effective. Furthermore, a domain adversarial learning module is designed to handle the unaligned data distributions of two domains by learning domain-invariant features via adversarial training. Our experiments on cephalometric and lung landmark detection show the effectiveness of the method, which reduces the domain gap by a large margin and outperforms other UDA methods consistently. The code is available at https://github.com/jhb86253817/UDA_Med_Landmark.
翻訳日:2023-08-28 14:32:50 公開日:2023-08-25
# AtmoRep:大規模表現学習を用いた大気力学の確率モデル

AtmoRep: A stochastic model of atmosphere dynamics using large scale representation learning ( http://arxiv.org/abs/2308.13280v1 )

ライセンス: Link先を確認
Christian Lessig, Ilaria Luise, Bing Gong, Michael Langguth, Scarlet Stadler, Martin Schultz(参考訳) 大気は、悪天候による生命の喪失から社会への長期的な社会的・経済的影響まで、様々な方法で人間に影響を与える。 したがって、大気力学のコンピュータシミュレーションは、私たちと将来の世代の幸福にとって非常に重要である。 そこで本稿では,atmorep を提案する。atmorep はタスクに依存しない新しい大気力学の確率的計算機モデルで,幅広い応用に熟練した結果をもたらす。 atmorepは、人工知能による大規模な表現学習を用いて、観測によって制約されたシステムの歴史的軌道の最良の推定値から、大気の高度に複雑で確率的なダイナミクスの一般的な記述を決定する。 これは、新しい自己教師型学習目標と、歴史記録に記載された変動性を持つ確率モデルからサンプルをサンプリングするユニークなアンサンブルによって実現されている。 AtmoRepのタスク非依存性は、特定のトレーニングをせずに様々なアプリケーションに対して巧妙な結果を得られる。 また、AtmoRepはレーダー観測などの追加データで改善可能であり、ダウンスケーリングのようなタスクにも拡張可能であることも示している。 我々の研究は、大規模ニューラルネットワークが大気力学の巧妙でタスクに依存しないモデルを提供できることを証明している。 これにより、大気観測の膨大な記録を応用や科学的調査に利用し、第一原理に基づく既存のシミュレーションを補完する新しい手段が提供される。

The atmosphere affects humans in a multitude of ways, from loss of life due to adverse weather effects to long-term social and economic impacts on societies. Computer simulations of atmospheric dynamics are, therefore, of great importance for the well-being of our and future generations. Here, we propose AtmoRep, a novel, task-independent stochastic computer model of atmospheric dynamics that can provide skillful results for a wide range of applications. AtmoRep uses large-scale representation learning from artificial intelligence to determine a general description of the highly complex, stochastic dynamics of the atmosphere from the best available estimate of the system's historical trajectory as constrained by observations. This is enabled by a novel self-supervised learning objective and a unique ensemble that samples from the stochastic model with a variability informed by the one in the historical record. The task-independent nature of AtmoRep enables skillful results for a diverse set of applications without specifically training for them and we demonstrate this for nowcasting, temporal interpolation, model correction, and counterfactuals. We also show that AtmoRep can be improved with additional data, for example radar observations, and that it can be extended to tasks such as downscaling. Our work establishes that large-scale neural networks can provide skillful, task-independent models of atmospheric dynamics. With this, they provide a novel means to make the large record of atmospheric observations accessible for applications and for scientific inquiry, complementing existing simulations based on first principles.
翻訳日:2023-08-28 14:32:29 公開日:2023-08-25
# 双曲性ランダム林

Hyperbolic Random Forests ( http://arxiv.org/abs/2308.13279v1 )

ライセンス: Link先を確認
Lars Doorenbos, Pablo M\'arquez-Neila, Raphael Sznitman, Pascal Mettes(参考訳) ハイパーボリックスペースは、多くの現実世界のデータセットの階層構造(暗黙的か明示的かに関わらず)によって、データを表現するための一般的な選択肢になりつつある。 同時に、双曲空間における分類のような基本的なタスクを解くアルゴリズムも必要となる。 近年、ロジスティック回帰やSVMといった超平面型分類器の双曲的代替品を複数研究している。 効果はあるものの、これらのアプローチはより複雑な階層的なデータを扱う。 そこで我々は,有名なランダム林を双曲空間に一般化することを提案する。 ホロスフィアを使った分割の概念を再定義することでこれを行う。 大域的な最適分割を見つけることは計算的に難解であるため、大マルジン分類器を通して候補ホロアを求める。 さらに,双曲的ランダム林を多クラスデータと不均衡実験で動作させるため,その最下位共通祖先と大マージン損失のクラスバランスバージョンに基づくクラスを結合する新しい手法を概説する。 標準ベンチマークと新しいベンチマーク実験では,従来のランダムフォレストアルゴリズムと近年の双曲型分類器を上回っている。

Hyperbolic space is becoming a popular choice for representing data due to the hierarchical structure - whether implicit or explicit - of many real-world datasets. Along with it comes a need for algorithms capable of solving fundamental tasks, such as classification, in hyperbolic space. Recently, multiple papers have investigated hyperbolic alternatives to hyperplane-based classifiers, such as logistic regression and SVMs. While effective, these approaches struggle with more complex hierarchical data. We, therefore, propose to generalize the well-known random forests to hyperbolic space. We do this by redefining the notion of a split using horospheres. Since finding the globally optimal split is computationally intractable, we find candidate horospheres through a large-margin classifier. To make hyperbolic random forests work on multi-class data and imbalanced experiments, we furthermore outline a new method for combining classes based on their lowest common ancestor and a class-balanced version of the large-margin loss. Experiments on standard and new benchmarks show that our approach outperforms both conventional random forest algorithms and recent hyperbolic classifiers.
翻訳日:2023-08-28 14:32:07 公開日:2023-08-25
# 言語基底品質多様性のためのllmと決定変換器の統合

Integrating LLMs and Decision Transformers for Language Grounded Generative Quality-Diversity ( http://arxiv.org/abs/2308.13278v1 )

ライセンス: Link先を確認
Achkan Salehi and Stephane Doncieux(参考訳) 品質多様性(Quality-Diversity)は確率最適化の一分野であり、しばしば強化学習と制御領域の問題に適用され、行動空間に関して多様性を示す優れた政策/スキルのレパートリーを構築する。 このようなアーカイブは通常、ユニークな振る舞い記述子に関連付けられた、有限個の反応性エージェントで構成されており、その粗い離散化された空間の外側の振る舞い記述子をインスタンス化することは、まっすぐではない。 この問題に対する解決策を示唆する最近の研究はいくつかあるが、生成する軌道はターゲットの振る舞い記述子の仕様以上のカスタマイズは容易ではない。 本稿では,静的なシーン要素のセマンティックな情報が利用できる環境において,レパートリーをトラジェクトリの自然言語記述で拡張し,それらの記述に基づいてポリシーを訓練することにより,これらの問題を解決することを提案する。 これにより、任意の対象行動記述子を指定できるだけでなく、生成された軌道を形作るための高レベルテキストプロンプトをモデルに提供することができる。 また,LLMを用いた生成エージェントの性能評価手法を提案する。 さらに,実験的な検証に使用する2次元迷路におけるシミュレーションロボットナビゲーションに基づくベンチマークを開発した。

Quality-Diversity is a branch of stochastic optimization that is often applied to problems from the Reinforcement Learning and control domains in order to construct repertoires of well-performing policies/skills that exhibit diversity with respect to a behavior space. Such archives are usually composed of a finite number of reactive agents which are each associated to a unique behavior descriptor, and instantiating behavior descriptors outside of that coarsely discretized space is not straight-forward. While a few recent works suggest solutions to that issue, the trajectory that is generated is not easily customizable beyond the specification of a target behavior descriptor. We propose to jointly solve those problems in environments where semantic information about static scene elements is available by leveraging a Large Language Model to augment the repertoire with natural language descriptions of trajectories, and training a policy conditioned on those descriptions. Thus, our method allows a user to not only specify an arbitrary target behavior descriptor, but also provide the model with a high-level textual prompt to shape the generated trajectory. We also propose an LLM-based approach to evaluating the performance of such generative agents. Furthermore, we develop a benchmark based on simulated robot navigation in a 2d maze that we use for experimental validation.
翻訳日:2023-08-28 14:31:50 公開日:2023-08-25
# 2次元格子上のLDPC符号ハミルトニアンのシミュレーション

Simulating LDPC code Hamiltonians on 2D lattices ( http://arxiv.org/abs/2308.13277v1 )

ライセンス: Link先を確認
Harriet Apel, Nou\'edyn Baspin(参考訳) LDPC符号は望ましい誤り訂正特性で実証されているが、多くのハードウェアプラットフォームの幾何学的制約から逸脱するコストがかかる。 符号をハミルトニアンの基底空間として捉え、そのコードの関連する特徴を再現するシミュレーションハミルトニアンを工学的に考える。 ハミルトニアンシミュレーション理論の手法は、システムサイズにおけるエネルギーペナルティ多項式のコストで、2次元近傍相互作用のみを用いてLDPC符号のシミュレーションを構築するために用いられる。 我々は、ハミルトニアン符号の基底状態をおよそ再現し、$[[N, \Omega(\sqrt{N}), \Omega(\sqrt{N})]$コードを2Dで近似するシミュレーションの保証を導出する。 鍵となる要素は、$\mathrm{poly}(l)$の相互作用強度を用いて、2つのキュービット間の1dチェーンによる$l$の相互作用をシミュレートする新しい構成的ツールである。 これは、このルーチンに対する既存のガジェットに対する指数関数的な優位性であり、最初の$\epsilon$-simulation of \emph{arbitrary sparse} Hamiltonian on a $n$ qubits on a Hamiltonian on a 2D lattice of $O(n^2)$ qubits with interaction strengths scales as $O\left(\mathrm{poly}(n,1/\epsilon)\right。

While LDPC codes have been demonstrated with desirable error correcting properties, this has come at a cost of diverging from the geometrical constraints of many hardware platforms. Viewing codes as the groundspace of a Hamiltonian, we consider engineering a simulation Hamiltonian reproducing some relevant features of the code. Techniques from Hamiltonian simulation theory are used to build a simulation of LDPC codes using only 2D nearest-neighbour interactions at the cost of an energy penalty polynomial in the system size. We derive guarantees for the simulation that allows us to approximately reproduce the ground state of the code Hamiltonian, approximating a $[[N, \Omega(\sqrt{N}), \Omega(\sqrt{N})]]$ code in 2D. The key ingredient is a new constructive tool to simulate an $l$-long interaction between two qubits by a 1D chain of $l$ nearest-neighbour interacting qubits using $\mathrm{poly}( l)$ interaction strengths. This is an exponential advantage over the existing gadgets for this routine which facilitates the first $\epsilon$-simulation of \emph{arbitrary sparse} Hamiltonian on $n$ qubits with a Hamiltonian on a 2D lattice of $O(n^2)$ qubits with interaction strengths scaling as $O\left(\mathrm{poly}(n,1/\epsilon)\right)$.
翻訳日:2023-08-28 14:31:30 公開日:2023-08-25
# ギャップをブリッジする: 高品質アニメーション・スケッチインベットワイニングのための微細・粗いスケッチ補間ネットワーク

Bridging the Gap: Fine-to-Coarse Sketch Interpolation Network for High-Quality Animation Sketch Inbetweening ( http://arxiv.org/abs/2308.13273v1 )

ライセンス: Link先を確認
Jiaming Shen, Kun Hu, Wei Bao, Chang Wen Chen, Zhiyong Wang(参考訳) 2Dアニメーションワークフローは通常、スケッチベースの描画を使ったキーフレームの作成から始まる。 その後のinbetweens(即ち中間スケッチフレーム)は、スムーズなアニメーションを手動で補間することで作成され、これは労働集約的なプロセスである。 このように、自動アニメーションスケッチ補間の展望は高く評価されている。 しかし、既存のビデオ補間手法は、一般的に2つの重要な問題によって妨げられている。 1)スケッチにおけるテクスチャと色の詳細の制限 2)2つのスケッチキーフレーム間の大げさな変更。 これらの課題を克服するために,我々はFun-to-Coarse Sketch Interpolation Network (FC-SIN) という新しいディープラーニング手法を提案する。 このアプローチでは、領域レベルの対応、スケッチレベルの対応、ピクセルレベルのダイナミクスを定式化するマルチレベルガイダンスが組み込まれている。 マルチストリームのU-Transformerは、これらのマルチレベルガイドを用いて、自己注意機構とクロスアテンション機構の統合により、スケッチの中間パターンを特徴付けるように設計されている。 さらに,アニメーションのスケッチを取り入れた将来的な研究を促進するために,30のスケッチアニメーションシリーズからなる大規模データセットSTD-12Kを構築した。 このデータセットに関する総合的な実験により,提案したFC-SINが最先端の補間法を超越したことを示す。 コードとデータセットは公開されます。

The 2D animation workflow is typically initiated with the creation of keyframes using sketch-based drawing. Subsequent inbetweens (i.e., intermediate sketch frames) are crafted through manual interpolation for smooth animations, which is a labor-intensive process. Thus, the prospect of automatic animation sketch interpolation has become highly appealing. However, existing video interpolation methods are generally hindered by two key issues for sketch inbetweening: 1) limited texture and colour details in sketches, and 2) exaggerated alterations between two sketch keyframes. To overcome these issues, we propose a novel deep learning method, namely Fine-to-Coarse Sketch Interpolation Network (FC-SIN). This approach incorporates multi-level guidance that formulates region-level correspondence, sketch-level correspondence and pixel-level dynamics. A multi-stream U-Transformer is then devised to characterize sketch inbewteening patterns using these multi-level guides through the integration of both self-attention and cross-attention mechanisms. Additionally, to facilitate future research on animation sketch inbetweening, we constructed a large-scale dataset - STD-12K, comprising 30 sketch animation series in diverse artistic styles. Comprehensive experiments on this dataset convincingly show that our proposed FC-SIN surpasses the state-of-the-art interpolation methods. Our code and dataset will be publicly available.
翻訳日:2023-08-28 14:31:02 公開日:2023-08-25
# バンドル調整のゲーム --効率的な収束の学習

A Game of Bundle Adjustment -- Learning Efficient Convergence ( http://arxiv.org/abs/2308.13270v1 )

ライセンス: Link先を確認
Amir Belder, Refael Vivanti, Ayellet Tal(参考訳) バンドル調整は、ローカライゼーションとマッピングを解決する一般的な方法である。 減衰係数で重み付けされた2つの最適化手法を用いて非線形方程式の系を解く反復過程である。 古典的なアプローチでは、後者は各イテレーションのレベンバーグ・マーカルトアルゴリズムによってヒューリスティックに選択される。 これは多くのイテレーションを要し、計算コストがかかり、リアルタイムアプリケーションにとって有害になる可能性がある。 我々は,この問題をゲームとして全体論的に捉え,強化学習タスクとして定式化することにより,このヒューリスティックな問題を置き換えることを提案する。 我々は非線形方程式を解く環境を設定し、エージェントに学習方法で減衰係数を選択するよう訓練する。 提案手法は, 合成シナリオと実環境シナリオの両方において, バンドル調整の収束に要する反復回数を大幅に削減できることを実証する。 この削減は古典的なアプローチに便益があり、他のバンドル調整加速度法と統合できることを示す。

Bundle adjustment is the common way to solve localization and mapping. It is an iterative process in which a system of non-linear equations is solved using two optimization methods, weighted by a damping factor. In the classic approach, the latter is chosen heuristically by the Levenberg-Marquardt algorithm on each iteration. This might take many iterations, making the process computationally expensive, which might be harmful to real-time applications. We propose to replace this heuristic by viewing the problem in a holistic manner, as a game, and formulating it as a reinforcement-learning task. We set an environment which solves the non-linear equations and train an agent to choose the damping factor in a learned manner. We demonstrate that our approach considerably reduces the number of iterations required to reach the bundle adjustment's convergence, on both synthetic and real-life scenarios. We show that this reduction benefits the classic approach and can be integrated with other bundle adjustment acceleration methods.
翻訳日:2023-08-28 14:30:37 公開日:2023-08-25
# シードモデル蒸留による不均一分散機械学習

Heterogeneous Decentralized Machine Unlearning with Seed Model Distillation ( http://arxiv.org/abs/2308.13269v1 )

ライセンス: Link先を確認
Guanhua Ye, Guanhua Ye, Quoc Viet Hung Nguyen, Hongzhi Yin(参考訳) 最近の情報セキュリティ法は、トレーニングされた機械学習モデルによって忘れられる無条件の権利をユーザに与えているため、パーソナライズされたiotサービスプロバイダは、学習しない機能を考慮に入れなければならない。 ユーザのコントリビューションを解放する最も簡単な方法は、未学習要求の頻繁な高スループットアプリケーションでは現実的ではない初期状態からモデルを再トレーニングすることです。 再トレーニングプロセスを高速化するためにいくつかの機械学習フレームワークが提案されているが、分散学習シナリオと一致しない。 本稿では,蒸留シードモデルを用いて全クライアントの消去可能なアンサンブルを構築するhdusという分散学習フレームワークを設計した。 さらに、このフレームワークは異種オンデバイスモデルと互換性があり、現実世界のアプリケーションにおいてより強力なスケーラビリティを示している。 3つの実世界のデータセットに対する大規模な実験は、HDUSが最先端のパフォーマンスを達成することを示している。

As some recent information security legislation endowed users with unconditional rights to be forgotten by any trained machine learning model, personalized IoT service providers have to put unlearning functionality into their consideration. The most straightforward method to unlearn users' contribution is to retrain the model from the initial state, which is not realistic in high throughput applications with frequent unlearning requests. Though some machine unlearning frameworks have been proposed to speed up the retraining process, they fail to match decentralized learning scenarios. In this paper, we design a decentralized unlearning framework called HDUS, which uses distilled seed models to construct erasable ensembles for all clients. Moreover, the framework is compatible with heterogeneous on-device models, representing stronger scalability in real-world applications. Extensive experiments on three real-world datasets show that our HDUS achieves state-of-the-art performance.
翻訳日:2023-08-28 14:30:22 公開日:2023-08-25
# 非線形干渉計における熱光による超感度位相推定

Supersensitive phase estimation by thermal light in nonlinear interferometers ( http://arxiv.org/abs/2308.13267v1 )

ライセンス: Link先を確認
Nilakantha Meher, Eilon Poem, Tom\'a\v{s} Opatrn\'y, Ofer Firstenberg, Gershon Kurizki(参考訳) コンセンサスにより、干渉計アーム間の位相遅延の推定は、入力が絡み合った2モード状態(例えばN00N状態)である場合、標準量子(ショットノイズ)限界以下の誤差を示す可能性がある。 対照的に、このような超感度位相推定は、Kerr-nonlinear two-mode couplerを用いた干渉計における熱などの非コヒーレントな入力によって達成可能であることを示す。 より顕著なことに、ハイゼンベルク精度境界は、光子対当たりの小さな非線形位相シフトや大きな光子損失であっても、そのような非線形干渉計では達成可能であり、超えられる。 コールド原子ガス中のライドバーグポラリトンの双極子-双極子相互作用またはキャビティ強化分散原子-磁場相互作用から生じる巨大なケラー非線形性を持つ実現可能なモードカプラは、非コヒーレントでかすかな光源を用いた干渉型位相顕微鏡を実質的に前進させる効果を利用することができる。

By consensus, estimation of phase delay between interferometer arms may exhibit an error below the standard quantum (shot-noise) limit if the input is an entangled two-mode state, e.g., a N00N state. We show, by contrast, that such super-sensitive phase estimation is achievable by incoherent, e.g., thermal, input in an interferometer with Kerr-nonlinear two-mode coupler. Not less remarkably, the Heisenberg precision bound is attainable and even surpassed in such nonlinear interferometers even for small nonlinear phase-shifts per photon pair or for significant photon loss. Feasible mode couplers with giant Kerr nonlinearity that stems either from dipole-dipole interactions of Rydberg polaritons in a cold atomic gas, or from cavity-enhanced dispersive atom-field interactions, may exploit such effects to substantially advance interferometric phase microscopy using incoherent, faint light sources.
翻訳日:2023-08-28 14:30:08 公開日:2023-08-25
# ボックスとマスクの統合: 視覚追跡とセグメンテーションの統合のためのマルチオブジェクトフレームワーク

Integrating Boxes and Masks: A Multi-Object Framework for Unified Visual Tracking and Segmentation ( http://arxiv.org/abs/2308.13266v1 )

ライセンス: Link先を確認
Yuanyou Xu, Zongxin Yang, Yi Yang(参考訳) 任意のオブジェクトを空間的かつ時間的に追跡することは、Visual Object Tracking (VOT) と Video Object Segmentation (VOS) において共通の目的である。 共同追跡とセグメンテーションはいくつかの研究で試みられているが、初期化と予測においてボックスとマスクの完全な互換性を欠くことが多く、主に単目的シナリオに焦点を当てている。 これらの制限に対処するため,本稿では,統一追跡とセグメンテーションのためのマルチオブジェクトマスクボックス統合フレームワークmitsを提案する。 まず、初期化のためのボックス参照とマスク参照の両方をサポートするために、ボックスから詳細なオブジェクト情報が推測されるか、マスクから直接保持される統一識別モジュールを提案する。 さらに、ターゲット指向表現学習を容易にするために、高精度な多目的ボックス予測のための新しいピンポイントボックス予測器を提案する。 すべての対象オブジェクトは、VOTとVOSの統一パイプラインとして、エンコーディングから伝播、復号化まで同時に処理される。 実験の結果、MITSはVOTとVOSのベンチマークで最先端のパフォーマンスを達成した。 特に、MITSはGOT-10kテストセットにおいて、最上位のVOT競合を約6%上回り、VOSベンチマークにおけるボックス初期化の性能を大幅に改善している。 コードはhttps://github.com/yoxu515/MITSで公開されている。

Tracking any given object(s) spatially and temporally is a common purpose in Visual Object Tracking (VOT) and Video Object Segmentation (VOS). Joint tracking and segmentation have been attempted in some studies but they often lack full compatibility of both box and mask in initialization and prediction, and mainly focus on single-object scenarios. To address these limitations, this paper proposes a Multi-object Mask-box Integrated framework for unified Tracking and Segmentation, dubbed MITS. Firstly, the unified identification module is proposed to support both box and mask reference for initialization, where detailed object information is inferred from boxes or directly retained from masks. Additionally, a novel pinpoint box predictor is proposed for accurate multi-object box prediction, facilitating target-oriented representation learning. All target objects are processed simultaneously from encoding to propagation and decoding, as a unified pipeline for VOT and VOS. Experimental results show MITS achieves state-of-the-art performance on both VOT and VOS benchmarks. Notably, MITS surpasses the best prior VOT competitor by around 6% on the GOT-10k test set, and significantly improves the performance of box initialization on VOS benchmarks. The code is available at https://github.com/yoxu515/MITS.
翻訳日:2023-08-28 14:29:46 公開日:2023-08-25
# asch meets hri: ロボット集団への人間的適合

Asch Meets HRI: Human Conformity to Robot Groups ( http://arxiv.org/abs/2308.13307v1 )

ライセンス: Link先を確認
Jasmina Bernotat, Doreen Jirak, Eduardo Benitez Sandoval, Francisco Cruz(参考訳) 本稿では,産業ロボットの文脈におけるグループダイナミクスとピアプレッシャの調査を目的とした研究概要について述べる。 私たちの研究計画は、産業用ロボットがすでに人間とロボットの共同作業の不可欠な部分になったという事実に動機づけられました。 しかし, 産業用ロボットは, ロボットの信頼性, グループダイナミクス, ロボットの指示に従う潜在的なユーザの傾向の研究に, わずかに統合されている。 そこで本研究では,産業用ロボットを用いた古典的Asch実験(『Asch_51』参照)をHRIに移植することを目的とする。 より正確には、偽の反応をするグループ(対人)の産業用ロボットアーム(対人)と対面した場合、参加者がロボットの反応にどの程度従っているかをテストする。 我々は,産業ロボットの文脈におけるグループサイズ,ロボットの信頼性,心理的ストレス,ピアプレッシャーの影響を明らかにすることに興味を持っている。 本研究の結果から,多くのロボットがすでに共有環境において人間と密接に連携している産業環境において,HRIの基盤となるグループダイナミクスを強調したい。

We present a research outline that aims at investigating group dynamics and peer pressure in the context of industrial robots. Our research plan was motivated by the fact that industrial robots became already an integral part of human-robot co-working. However, industrial robots have been sparsely integrated into research on robot credibility, group dynamics, and potential users' tendency to follow a robot's indication. Therefore, we aim to transfer the classic Asch experiment (see \cite{Asch_51}) into HRI with industrial robots. More precisely, we will test to what extent participants follow a robot's response when confronted with a group (vs. individual) industrial robot arms (vs. human) peers who give a false response. We are interested in highlighting the effects of group size, perceived robot credibility, psychological stress, and peer pressure in the context of industrial robots. With the results of this research, we hope to highlight group dynamics that might underlie HRI in industrial settings in which numerous robots already work closely together with humans in shared environments.
翻訳日:2023-08-28 14:23:56 公開日:2023-08-25
# クラス増分学習のための動的残差分類器

Dynamic Residual Classifier for Class Incremental Learning ( http://arxiv.org/abs/2308.13305v1 )

ライセンス: Link先を確認
Xiuwei Chen, Xiaobin Chang(参考訳) リハーサル戦略は、クラスインクリメンタル学習(cil)において、過去のタスクから限られた例を保存し、破滅的な忘れる問題を緩和するために広く使われている。 古いクラスと新しいクラスの間の不均衡なサンプル番号により、分類器学習はバイアスを受けることができる。 既存のcil手法では、調整された損失やデータ再サンプリングといったロングテール(lt)認識技術を利用して、各インクリメントタスク内のデータの不均衡に対処する。 本研究では,cilにおけるデータ不均衡の動的性質を示し,この課題に対処するために,新しい動的残差分類器(drc)を提案する。 具体的には、DRCは、モデル成長問題に対処するために分岐層をマージした最近の先行残差分類器上に構築されている。 さらに、DRCは異なるCILパイプラインと互換性があり、大幅に改善されている。 DRCとモデル適応と融合(MAF)パイプラインを組み合わせることで、従来のCILとLT-CILベンチマークの両方で最先端の結果が得られる。 詳細な分析のために広範な実験も行われている。 コードは公開されている。

The rehearsal strategy is widely used to alleviate the catastrophic forgetting problem in class incremental learning (CIL) by preserving limited exemplars from previous tasks. With imbalanced sample numbers between old and new classes, the classifier learning can be biased. Existing CIL methods exploit the long-tailed (LT) recognition techniques, e.g., the adjusted losses and the data re-sampling methods, to handle the data imbalance issue within each increment task. In this work, the dynamic nature of data imbalance in CIL is shown and a novel Dynamic Residual Classifier (DRC) is proposed to handle this challenging scenario. Specifically, DRC is built upon a recent advance residual classifier with the branch layer merging to handle the model-growing problem. Moreover, DRC is compatible with different CIL pipelines and substantially improves them. Combining DRC with the model adaptation and fusion (MAF) pipeline, this method achieves state-of-the-art results on both the conventional CIL and the LT-CIL benchmarks. Extensive experiments are also conducted for a detailed analysis. The code is publicly available.
翻訳日:2023-08-28 14:23:37 公開日:2023-08-25
# バンとアーティファクトが消えた! ヘマトキシリンおよびエオシン染色生検における急速アーティファクト除去と組織分画

Bang and the Artefacts are Gone! Rapid Artefact Removal and Tissue Segmentation in Haematoxylin and Eosin Stained Biopsies ( http://arxiv.org/abs/2308.13304v1 )

ライセンス: Link先を確認
B. A. Schreiber, J. Denholm, F. Jaeckle, M. J. Arends, K. M. Branson, C.-B. Sch\"onlieb, E. J. Soilleux(参考訳) 本稿では,ペンマークや走査型アーティファクトなど,幅広い望ましくないアーティファクトを除去する,全スライディング画像(WSI)の組織を迅速検出する手法であるH&E Otsu thresholdingを提案する。 本手法では, 簡易な大津しきい値設定により, 背景および人工物から組織を分離できる低画像化RGB概要画像の入札モーダル表現を得る。 提案手法は,多種多様な機関とwsiデジタルスキャナから作成され,それぞれに他の手法に障害をもたらす実質的なアーティファクトが含まれていることを実証する。 われわれのアプローチの美しさは、RGB色空間の操作と大津しきい値の操作により、アーティファクトの迅速な除去と組織のセグメンテーションが可能になります。

We present H&E Otsu thresholding, a scheme for rapidly detecting tissue in whole-slide images (WSIs) that eliminates a wide range of undesirable artefacts such as pen marks and scanning artefacts. Our method involves obtaining a bid-modal representation of a low-magnification RGB overview image which enables simple Otsu thresholding to separate tissue from background and artefacts. We demonstrate our method on WSIs prepared from a wide range of institutions and WSI digital scanners, each containing substantial artefacts that cause other methods to fail. The beauty of our approach lies in its simplicity: manipulating RGB colour space and using Otsu thresholding allows for the rapid removal of artefacts and segmentation of tissue.
翻訳日:2023-08-28 14:23:19 公開日:2023-08-25
# マルチタスク深層学習を用いた小型ニューラルネットワークの学習

Learning Compact Neural Networks with Deep Overparameterised Multitask Learning ( http://arxiv.org/abs/2308.13300v1 )

ライセンス: Link先を確認
Shen Ren, Haosen Shi(参考訳) コンパクトニューラルネットワークは、現実世界のアプリケーションに多くの利点をもたらす。 しかし、通常、より複雑で強力なアーキテクチャと比較して、同じまたはより良いモデル性能を達成するために、小さなパラメータサイズと低い計算コストでコンパクトニューラルネットワークを訓練することは困難である。 これは特にマルチタスク学習に当てはまり、異なるタスクがリソースと競合する。 トレーニングにおいてモデルアーキテクチャをオーバーパラメータ化し、タスク全体にわたってより効率的に過パラメータ化モデルパラメータを共有することにより、最適化と一般化を向上し、簡便で効率的なマルチタスク学習過パラメータ化ニューラルネットワーク設計を提案する。 2つの挑戦的マルチタスクデータセット(NYUv2とCOCO)の実験は、様々な畳み込みネットワークとパラメータサイズで提案手法の有効性を示す。

Compact neural network offers many benefits for real-world applications. However, it is usually challenging to train the compact neural networks with small parameter sizes and low computational costs to achieve the same or better model performance compared to more complex and powerful architecture. This is particularly true for multitask learning, with different tasks competing for resources. We present a simple, efficient and effective multitask learning overparameterisation neural network design by overparameterising the model architecture in training and sharing the overparameterised model parameters more effectively across tasks, for better optimisation and generalisation. Experiments on two challenging multitask datasets (NYUv2 and COCO) demonstrate the effectiveness of the proposed method across various convolutional networks and parameter sizes.
翻訳日:2023-08-28 14:23:02 公開日:2023-08-25
# オーバーザ・エア計算による線形バンディット学習

Federated Linear Bandit Learning via Over-the-Air Computation ( http://arxiv.org/abs/2308.13298v1 )

ライセンス: Link先を確認
Jiali Wang and Yuning Jiang and Xin Liu and Ting Wang and Yuanming Shi(参考訳) 本稿では,サーバと複数のデバイスから構成される無線システムにおけるコンテキスト線形帯域学習について検討する。 各デバイスは環境と相互作用し、受信した報酬に基づいてアクションを選択し、サーバにモデル更新を送信する。 主な目的は、有限時間地平線内のすべてのデバイスにおける累積的後悔を最小限にすることである。 通信オーバヘッドを低減するため、デバイスはノイズのあるフェーディングチャネル上のオーバー・ザ・エア計算(AirComp)を介してサーバと通信する。 そこで本研究では,各デバイスがアナログ信号を送信し,サーバがチャネルノイズによって歪んだ信号の重ね合わせを受信する,カスタマイズしたフェデレーション線形バンディットスキームを提案する。 提案手法の後悔の束縛を決定するために厳密な数学的解析を行う。 理論的解析と数値実験の両方で,提案手法の競合性能を,様々な設定における後悔境界の観点から実証した。

In this paper, we investigate federated contextual linear bandit learning within a wireless system that comprises a server and multiple devices. Each device interacts with the environment, selects an action based on the received reward, and sends model updates to the server. The primary objective is to minimize cumulative regret across all devices within a finite time horizon. To reduce the communication overhead, devices communicate with the server via over-the-air computation (AirComp) over noisy fading channels, where the channel noise may distort the signals. In this context, we propose a customized federated linear bandits scheme, where each device transmits an analog signal, and the server receives a superposition of these signals distorted by channel noise. A rigorous mathematical analysis is conducted to determine the regret bound of the proposed scheme. Both theoretical analysis and numerical experiments demonstrate the competitive performance of our proposed scheme in terms of regret bounds in various settings.
翻訳日:2023-08-28 14:22:50 公開日:2023-08-25
# linkedinにおけるオンライン・ソーシャル・コネクティビティ、プロモーション、転居レポートの男女差

Gender Gaps in Online Social Connectivity, Promotion and Relocation Reports on LinkedIn ( http://arxiv.org/abs/2308.13296v1 )

ライセンス: Link先を確認
Ghazal Kalhor, Hannah Gardner, Ingmar Weber, Ridhi Kashyap(参考訳) オンラインのプロフェッショナルなソーシャルネットワークプラットフォームは、雇用機会とキャリアの進歩のために戦略的にネットワークを拡張する機会を提供する。 多くの研究によると、女性のオフラインネットワークは男性よりも有利ではない。 linkedinのようなオンラインプラットフォームは、性別によるネットワーク行動を反映したり、再現したりするか、オンラインのソーシャル接続が性別によって異なる結果にどのように影響するかは、よく分かっていない。 本稿では,英国および米国の広告プラットフォームから収集した約1000万人のLinkedInユーザとITセクターの匿名化データを集約して分析し,ビッグデータ企業とのつながり(「ソーシャル接続」)がジェンダーによってどのように変化するか,性別,年齢,高齢者,社会的つながりが,求職や転職を報告するための正当性を形成するかを検討する。 前回の研究では、IT分野でLinkedInの男性に比べて女性が少ないことが分かりました。 さらに、女性ユーザーは男性よりもビッグテック企業と結びつく可能性が低い。 しかし、最近の昇進や転職の報告をさらに分析すると、職場での昇進を報告した女性の方が男性よりも多く、高学歴の女性はLinkedInで自己選択している可能性が示唆されている。 しかし、前向きに選択されたグループの中でも、男性は最近の転居を報告しやすい。 ソーシャル・コネクティビティは、プロモーションと転居レポートの重要な予測因子として現れ、性別とソーシャル・コネクティビティの間の相互作用効果は、プロモーションと転居レポートに対する社会的コネクティビティへの報酬が女性にとって大きいことを示している。 これは、従来のネットワークの文脈でより大きなデメリットを経験する女性にとって、オンラインネットワーキングは大きなインパクトをもたらす可能性を示唆しており、社会的に不利なグループに対するオンラインネットワークのディファレンシャルな影響を理解するためのさらなる研究を要請している。

Online professional social networking platforms provide opportunities to expand networks strategically for job opportunities and career advancement. A large body of research shows that women's offline networks are less advantageous than men's. How online platforms such as LinkedIn may reflect or reproduce gendered networking behaviours, or how online social connectivity may affect outcomes differentially by gender is not well understood. This paper analyses aggregate, anonymised data from almost 10 million LinkedIn users in the UK and US information technology (IT) sector collected from the site's advertising platform to explore how being connected to Big Tech companies ('social connectivity') varies by gender, and how gender, age, seniority and social connectivity shape the propensity to report job promotions or relocations. Consistent with previous studies, we find there are fewer women compared to men on LinkedIn in IT. Furthermore, female users are less likely to be connected to Big Tech companies than men. However, when we further analyse recent promotion or relocation reports, we find women are more likely than men to have reported a recent promotion at work, suggesting high-achieving women may be self-selecting onto LinkedIn. Even among this positively selected group, though, we find men are more likely to report a recent relocation. Social connectivity emerges as a significant predictor of promotion and relocation reports, with an interaction effect between gender and social connectivity indicating the payoffs to social connectivity for promotion and relocation reports are larger for women. This suggests that online networking has the potential for larger impacts for women, who experience greater disadvantage in traditional networking contexts, and calls for further research to understand differential impacts of online networking for socially disadvantaged groups.
翻訳日:2023-08-28 14:22:35 公開日:2023-08-25
# 計算集約的目標確率分布を用いた正規化流の訓練

Training normalizing flows with computationally intensive target probability distributions ( http://arxiv.org/abs/2308.13294v1 )

ライセンス: Link先を確認
Piotr Bialas, Piotr Korcyl, Tomasz Stebel(参考訳) モンテカルロシミュレーションの文脈において、特に正規化フローと呼ばれる機械学習技術は、ターゲット確率分布を効果的に近似できるため、ますます普及している。 格子場理論(LFT)の場合、標的分布は作用の指数関数によって与えられる。 リパラメトリゼーション(reparametrization)トリック(reparametrization trick)に基づいた共通損失関数の勾配推定器は、フィールドに対する作用の微分の計算を必要とする。 これは、qcdにおけるフェルミオン作用のような複雑で非局所的な動作に対する重要な計算コストを示すことができる。 本稿では,この問題を回避する強化アルゴリズムに基づく流れの正規化のための推定器を提案する。 ウィルソンフェルミオンを臨界値に持つ2次元シュウィンガーモデルに適用し、壁時計時間の観点からは最大10倍高速であるとともに、再パラメータ化トリック推定器よりも最大30-%少ないメモリを必要とすることを示した。 また、より数値的に安定であり、単精度計算と半フロートテンソルコアの使用が可能である。 我々は,これらの改良の原点を詳細に分析する。 対象確率分布が計算集約的な場合において、これらの利点はLFTの領域外にも現れると信じている。

Machine learning techniques, in particular the so-called normalizing flows, are becoming increasingly popular in the context of Monte Carlo simulations as they can effectively approximate target probability distributions. In the case of lattice field theories (LFT) the target distribution is given by the exponential of the action. The common loss function's gradient estimator based on the "reparametrization trick" requires the calculation of the derivative of the action with respect to the fields. This can present a significant computational cost for complicated, non-local actions like e.g. fermionic action in QCD. In this contribution, we propose an estimator for normalizing flows based on the REINFORCE algorithm that avoids this issue. We apply it to two dimensional Schwinger model with Wilson fermions at criticality and show that it is up to ten times faster in terms of the wall-clock time as well as requiring up to $30\%$ less memory than the reparameterization trick estimator. It is also more numerically stable allowing for single precision calculations and the use of half-float tensor cores. We present an in-depth analysis of the origins of those improvements. We believe that these benefits will appear also outside the realm of the LFT, in each case where the target probability distribution is computationally intensive.
翻訳日:2023-08-28 14:21:58 公開日:2023-08-25
# ベイズ的アクティブ・ラーニングアプローチによる比較判断

A Bayesian Active Learning Approach to Comparative Judgement ( http://arxiv.org/abs/2308.13292v1 )

ライセンス: Link先を確認
Andy Gray, Alma Rahat, Tom Crick, Stephen Lindsay, Darren Wallace(参考訳) 評価は教育の重要な部分である。 伝統的なマーキングは不整合と無意識のバイアスの源であり、評価者に高い認知的負荷を与える。 これらの問題に対処するアプローチとして、比較判断(CJ)がある。 CJでは、評価者には2つのアイテムが提示され、より良いものを選択するように求められます。 一連の比較の後、結果に基づいてランキングモデル、例えばbtmを用いてランクが導出される。 cjは信頼できるマーキング方法と考えられているが、透明性に関する懸念があり、ランクの順序の信頼できる推定を生成するためのペアワイズ比較の理想的な数は分かっていない。 さらに、次に情報的手法で比較すべきペアを選択する方法を生成する試みもあるが、既存の方法によっては、使用した信頼性指標を膨らませる結果に独自のバイアスが生じることが知られている。 結果として、ランダム選択アプローチは通常デプロイされる。 本稿では,従来のcjの重要な欠点に対処して,マーカーに提示するペアを選択する新しい方法とともに,比較項目のランクを決定するcj (bcj) に対する新しいベイズ的アプローチを提案する。 さらに、その意思決定方法に関する洞察を提供し、同時に、より効率的であることによって、アプローチ全体が透明性を提供する方法も示します。 実験の結果,提案手法とエントロピー駆動型ALペア選択法の組み合わせは,他の方法よりも優れていることがわかった。 また, 比較を行うほど, BCJ がより正確になるので, 比較が多すぎる場合, モデルが持つ現在の手法が劣化する問題を解くことができる。 提案手法は,アイテムのランク分布を予測できるため,評価者によって導かれる予測等級の考案にも有効であることを示す。

Assessment is a crucial part of education. Traditional marking is a source of inconsistencies and unconscious bias, placing a high cognitive load on the assessors. An approach to address these issues is comparative judgement (CJ). In CJ, the assessor is presented with a pair of items and is asked to select the better one. Following a series of comparisons, a rank is derived using a ranking model, for example, the BTM, based on the results. While CJ is considered a reliable method for marking, there are concerns around transparency, and the ideal number of pairwise comparisons to generate a reliable estimation of the rank order is not known. Additionally, there have been attempts to generate a method of selecting pairs that should be compared next in an informative manner, but some existing methods are known to have created their own bias within results inflating the reliability metric used. As a result, a random selection approach is usually deployed. We propose a novel Bayesian approach to CJ (BCJ) for determining the ranks of compared items alongside a new way to select the pairs to present to the marker(s) using active learning (AL), addressing the key shortcomings of traditional CJ. Furthermore, we demonstrate how the entire approach may provide transparency by providing the user insights into how it is making its decisions and, at the same time, being more efficient. Results from our experiments confirm that the proposed BCJ combined with entropy-driven AL pair-selection method is superior to other alternatives. We also find that the more comparisons done, the more accurate BCJ becomes, which solves the issue the current method has of the model deteriorating if too many comparisons are performed. As our approach can generate the complete predicted rank distribution for an item, we also show how this can be utilised in devising a predicted grade, guided by the assessor.
翻訳日:2023-08-28 14:21:38 公開日:2023-08-25
# 有限温度でのガウスボソンサンプリング

Gaussian boson sampling at finite temperature ( http://arxiv.org/abs/2308.13291v1 )

ライセンス: Link先を確認
Gabriele Bressanini, Hyukjoon Kwon and M.S. Kim(参考訳) ガウスボソンサンプリング(GBS)は、光子を用いた量子優位性の実験的な実証の候補である。 しかし、十分な大きなノイズは、GBS実装が量子スピードアップが達成可能な状態に入るのを妨げる可能性がある。 本稿では, 一般的な量子光学サンプリング実験において, 熱雑音が古典的誘引性に与える影響について検討する。 我々は、効率的なシミュレーションを実現するための十分な条件を確立し、システムと不完全性を特徴づける関連するパラメータ間の不等式で表現する。 熱雑音の付加は、量子効果を示すために必要となる残雑音パラメータの制約を締め付ける効果があることを示す。 さらに,量子サンプリング実験が古典的シミュレート可能となる閾値温度が存在することを示し,この現象を量子状態の非古典的性質の消失と関連づけることで直感的な物理解釈を提供する。

Gaussian boson sampling (GBS) is a promising candidate for an experimental demonstration of quantum advantage using photons. However, sufficiently large noise might hinder a GBS implementation from entering the regime where quantum speedup is achievable. Here, we investigate how thermal noise affects the classical intractability of generic quantum optical sampling experiments, GBS being a particular instance of the latter. We do so by establishing sufficient conditions for an efficient simulation to be feasible, expressed in the form of inequalities between the relevant parameters that characterize the system and its imperfections. We demonstrate that the addition of thermal noise has the effect of tightening the constraints on the remaining noise parameters, required to show quantum advantage. Furthermore, we show that there exist a threshold temperature at which any quantum sampling experiment becomes classically simulable, and provide an intuitive physical interpretation by relating this occurrence with the disappearance of the quantum state's non-classical properties.
翻訳日:2023-08-28 14:21:08 公開日:2023-08-25
# JAX-LOB:取引用大規模強化学習を開放するGPU加速リミットオーダーブックシミュレータ

JAX-LOB: A GPU-Accelerated limit order book simulator to unlock large scale reinforcement learning for trading ( http://arxiv.org/abs/2308.13289v1 )

ライセンス: Link先を確認
Sascha Frey, Kang Li, Peer Nagy, Silvia Sapora, Chris Lu, Stefan Zohren, Jakob Foerster and Anisoara Calinescu(参考訳) 世界中の金融取引所は注文の処理や取引のマッチングに限定注文書(lob)を使用している。 研究目的のためには、LOBダイナミクスの大規模効率的なシミュレータを持つことが重要である。 LOBシミュレータは、エージェントベースモデル(ABM)、強化学習(RL)環境、生成モデル、過去のデータセットや手作りエージェントからの注文フローの処理といった文脈で実装されている。 多くのアプリケーションでは、ABMの校正やRLエージェントの訓練のために複数の書籍を処理する必要がある。 我々は,数千冊の書籍を並列に処理できるGPU対応LOBシミュレータを初めて紹介し,メッセージ単位の処理時間を著しく短縮した。 我々のシミュレータ - JAX-LOB の実装は、LOB 関連メカニズムの現実性を損なうことなく JAX の力を最大限活用することを目的とした設計選択に基づいている。 JAX-LOBを他のJAXパッケージと統合し、強化学習で最適な実行問題に対処する方法の例を示し、GPU上でのエンドツーエンドRLトレーニングの予備的な結果を共有する。

Financial exchanges across the world use limit order books (LOBs) to process orders and match trades. For research purposes it is important to have large scale efficient simulators of LOB dynamics. LOB simulators have previously been implemented in the context of agent-based models (ABMs), reinforcement learning (RL) environments, and generative models, processing order flows from historical data sets and hand-crafted agents alike. For many applications, there is a requirement for processing multiple books, either for the calibration of ABMs or for the training of RL agents. We showcase the first GPU-enabled LOB simulator designed to process thousands of books in parallel, with a notably reduced per-message processing time. The implementation of our simulator - JAX-LOB - is based on design choices that aim to best exploit the powers of JAX without compromising on the realism of LOB-related mechanisms. We integrate JAX-LOB with other JAX packages, to provide an example of how one may address an optimal execution problem with reinforcement learning, and to share some preliminary results from end-to-end RL training on GPUs.
翻訳日:2023-08-28 14:20:53 公開日:2023-08-25
# dzyaloshinski-moriya相互作用を用いたハイゼンベルクモデルにおける量子制御支援多成分不確かさ関係のダイナミクス解析

Dynamics Investigation of the quantum-control-assisted multipartite uncertainty relation in Heisenberg model with Dzyaloshinski-Moriya interaction ( http://arxiv.org/abs/2308.13334v1 )

ライセンス: Link先を確認
Jie Xu, Xiao Zheng, Ai-Ling Ji, Guo-Feng Zhang(参考訳) 近年、zhengは量子制御支援多成分分散に基づく不確かさ関係を構築し、条件付き不確実性関係を多成分の場合 [annalen der physik, 533, 2100014 (2021)] に拡張した。 本稿では,ハイゼンベルク系における新しい不確実性関係とジアルシンスキー・モリヤ相互作用のダイナミクスについて考察する。 その結果, 絡み合いと異なり, システムの混合性は不確実性関係の密接性と下界との興味深い一値関係を持つことがわかった。 この単値関係は不確実性関係のタイトネスと下限が混合性の関数形式として書けることを示す。 さらに、混合性との単一値関係は条件の不確かさ関係の共通性であり、不確かさ関係の形式とは何の関係も持たない。 また,新しい条件分散に基づく不確実性関係と既存のエントロピー関係との比較を行った。

Recently, Zheng constructs a quantum-control-assisted multipartite variance-based uncertainty relation, which successfully extends the conditional uncertainty relation to the multipartite case [Annalen der physik, 533, 2100014 (2021)]. We here investigate the dynamics of the new uncertainty relation in the Heisenberg system with the Dzyaloshinski-Moriya interaction. It is found that, different from entanglement, the mixedness of the system has an interesting single-valued relationship with the tightness and lower bound of the uncertainty relation. This single-valued relationship indicates that the tightness and lower bound of the uncertainty relation can be written as the functional form of the mixedness. Moreover, the single-valued relationship with the mixedness is the common nature of conditional uncertainty relations, and has no relationship with the form of the uncertainty relations. Also, the comparison between the new conditional variance-based uncertainty relation and the existing entropic one has been made.
翻訳日:2023-08-28 14:12:17 公開日:2023-08-25
# 多重不整合可観測体の強い逆不確かさ関係

Stronger Reverse Uncertainty Relation for Multiple Incompatible Observables ( http://arxiv.org/abs/2308.13332v1 )

ライセンス: Link先を確認
Xiao Zheng, Ai-Ling Ji, Guo-Feng Zhang(参考訳) 最近、d.mondal et.al[phys. rev. a. 95, 052117(2017)]creativelyは、小さな不確かさで量子状態を作るだけでなく、非互換な可観測性に対する合同的な大きな不確実性も持つことを示す、逆不確実性関係の新しい興味深い概念を導入した。 しかし、彼らが構築した不確実性上限は、この概念の本質をうまく表現できない。 ここでは,新しい逆不確実性関係を構築し,この「無限性」問題をうまく解決する。 また、逆不確実性関係と正規不確実性関係は本質的であり、両者は同じ理論的枠組みで統一できることがわかった。 さらに、この統一フレームワークを利用すると、厳密さを必要とせず、複数の可観測性に対して逆不確実性関係を構築することができる。 一方、純度検出における新しい不確実性関係の適用について論じる。

Recently,D.Mondal et.al[Phys. Rev. A. 95, 052117(2017)]creatively introduce a new interesting concept of reverse uncertainty relation which indicates that one cannot only prepare quantum states with joint small uncertainty, but also with joint great uncertainty for incompatible observables. However, the uncertainty upper bound they constructed cannot express the essence of this concept well, i.e., the upper bound will go to infinity in some cases even for incompatible observables. Here, we construct a new reverse uncertainty relation and successfully fix this "infinity" problem. Also, it is found that the reverse uncertainty relation and the normal uncertainty relation are the same in essential, and they both can be unified by the same theoretical framework. Moreover, taking advantage of this unified framework, one can construct a reverse uncertainty relation for multiple observables with any tightness required. Meanwhile, the application of the new uncertainty relation in purity detection is discussed.
翻訳日:2023-08-28 14:12:00 公開日:2023-08-25
# ドメイン一般化意味セグメンテーションのための再パラメータ化視覚トランスフォーマ(revt)

A Re-Parameterized Vision Transformer (ReVT) for Domain-Generalized Semantic Segmentation ( http://arxiv.org/abs/2308.13331v1 )

ライセンス: Link先を確認
Jan-Aike Term\"ohlen, Timo Bartels, Tim Fingscheidt(参考訳) セマンティックセグメンテーションのタスクでは、画像の各ピクセルにセマンティックラベルを割り当てるモデルが必要である。 しかし、そのようなモデルの性能は、トレーニングドメインと比較して異なるデータ分布を持つ見えないドメインにデプロイすると低下する。 本稿では,再パラメータ化視覚トランスフォーマ(revt)を用いたセマンティクスセグメンテーションのための領域一般化のための新たな拡張駆動アプローチを提案する。 我々は,いくつかのベンチマークデータセットに対するアプローチを評価し,小型モデルでは47.3% (優先技術: 46.3%) ,一般的なベンチマークデータセットでは50.1% (優先技術: 47.8%) の最先端miou性能を達成する。 同時に,本手法ではパラメータを少なくし,最高の先行技術よりも高いフレームレートを達成できる。 実装も簡単で、ネットワークアンサンブルとは異なり、推論中に計算の複雑さを追加することはない。

The task of semantic segmentation requires a model to assign semantic labels to each pixel of an image. However, the performance of such models degrades when deployed in an unseen domain with different data distributions compared to the training domain. We present a new augmentation-driven approach to domain generalization for semantic segmentation using a re-parameterized vision transformer (ReVT) with weight averaging of multiple models after training. We evaluate our approach on several benchmark datasets and achieve state-of-the-art mIoU performance of 47.3% (prior art: 46.3%) for small models and of 50.1% (prior art: 47.8%) for midsized models on commonly used benchmark datasets. At the same time, our method requires fewer parameters and reaches a higher frame rate than the best prior art. It is also easy to implement and, unlike network ensembles, does not add any computational complexity during inference.
翻訳日:2023-08-28 14:11:39 公開日:2023-08-25
# 心房細動検出のための圧縮機に基づく分類

Compressor-Based Classification for Atrial Fibrillation Detection ( http://arxiv.org/abs/2308.13328v1 )

ライセンス: Link先を確認
Nikita Markov, Konstantin Ushenin, Yakov Bozhko, Olga Solovyova(参考訳) 心房細動(英: atrial fibrillation、AF)は、公衆衛生に問題のある最も一般的な不整脈の1つである。 したがって、AFエピソードの自動検出は、バイオメディカルエンジニアリングにおいて最も重要なタスクの1つである。 本稿では,最近導入された圧縮機に基づくテキスト分類法をaf検出タスク(心リズムの2値分類)に適用する。 我々は,$\Delta$RR および RR-interval シーケンスに適用される正規化圧縮距離,k-Nearest Neighbour 分類器の構成,および最適なウィンドウ長について検討する。 精度は97.1%、特異度は91.7%、感度は99.8%、特異度は97.6%、クロスバリデーションは5倍)。 得られた性能は、最高の特殊化af検出アルゴリズムに近い。 以上の結果から,gzip分類は生医学的データや連続確率的シーケンスに適していることが示唆された。

Atrial fibrillation (AF) is one of the most common arrhythmias with challenging public health implications. Automatic detection of AF episodes is therefore one of the most important tasks in biomedical engineering. In this paper, we apply the recently introduced method of compressor-based text classification to the task of AF detection (binary classification between heart rhythms). We investigate the normalised compression distance applied to $\Delta$RR and RR-interval sequences, the configuration of the k-Nearest Neighbour classifier, and an optimal window length. We achieve good classification results (avg. sensitivity = 97.1%, avg. specificity = 91.7%, best sensitivity of 99.8%, best specificity of 97.6% with 5-fold cross-validation). Obtained performance is close to the best specialised AF detection algorithms. Our results suggest that gzip classification, originally proposed for texts, is suitable for biomedical data and continuous stochastic sequences in general.
翻訳日:2023-08-28 14:11:20 公開日:2023-08-25
# 頭部ポーズ情報と特徴の融合による3次元顔アライメント

3D Face Alignment Through Fusion of Head Pose Information and Features ( http://arxiv.org/abs/2308.13327v1 )

ライセンス: Link先を確認
Jaehyun So, Youngjoon Han(参考訳) ヒトが顔の形から頭部のポーズを推測する能力は、その逆もまた、両者の強い相関関係を示している。 それゆえ、最近の顔のアライメント研究では、コンピュータビジョンタスクにおける顔のランドマークを予測するために頭の位置情報を用いている。 本研究では,顔アライメントネットワークの特徴マップにその情報を融合させることにより,顔アライメント性能を向上させるために頭部ポーズ情報を利用する新しい手法を提案する。 さらに,2次元特徴マップと3次元ヒートマップで表される多次元特徴を用いて,2次元ネットワークを通して頑健な顔アライメントを行う。 また, 予測キーポイントを用いた知識蒸留に基づく学習を通して, 顔の幾何学的ランドマークの予測手法を提案する。 本研究では,予測した顔ランドマークと頭部ポーズ情報との相関を実験的に評価し,顔ランドマークの精度と頭部ポーズ情報の質との関係について検討した。 さらに, AFLW2000-3D, AFLW, BIWIデータセット上での最先端手法との比較により, 提案手法の有効性を実証した。

The ability of humans to infer head poses from face shapes, and vice versa, indicates a strong correlation between the two. Accordingly, recent studies on face alignment have employed head pose information to predict facial landmarks in computer vision tasks. In this study, we propose a novel method that employs head pose information to improve face alignment performance by fusing said information with the feature maps of a face alignment network, rather than simply using it to initialize facial landmarks. Furthermore, the proposed network structure performs robust face alignment through a dual-dimensional network using multidimensional features represented by 2D feature maps and a 3D heatmap. For effective dense face alignment, we also propose a prediction method for facial geometric landmarks through training based on knowledge distillation using predicted keypoints. We experimentally assessed the correlation between the predicted facial landmarks and head pose information, as well as variations in the accuracy of facial landmarks with respect to the quality of head pose information. In addition, we demonstrated the effectiveness of the proposed method through a competitive performance comparison with state-of-the-art methods on the AFLW2000-3D, AFLW, and BIWI datasets.
翻訳日:2023-08-28 14:11:03 公開日:2023-08-25
# ConSlide: 連続的な全スライド画像解析のための分割再構成リハーサル付き非同期階層的相互作用変換器

ConSlide: Asynchronous Hierarchical Interaction Transformer with Breakup-Reorganize Rehearsal for Continual Whole Slide Image Analysis ( http://arxiv.org/abs/2308.13324v1 )

ライセンス: Link先を確認
Yanyan Huang, Weiqin Zhao, Shujun Wang, Yu Fu, Yuming Jiang, Lequan Yu(参考訳) whole slide image (wsi)分析は医療画像コミュニティにおいてますます重要になってきており、自動的かつ客観的な診断、予後、治療応答予測を可能にしている。 しかし、臨床実践においては、進化を続ける環境はWSI分析モデルの有用性を妨げる。 本稿では,WSI解析のためのFIRST連続学習フレームワークであるConSlideを提案する。このフレームワークは,画像サイズ,階層構造の利用,および複数のシーケンシャルデータセット上でのプログレッシブモデル更新による破滅的な忘れを解消する。 私たちのフレームワークには3つの重要なコンポーネントがあります。 階層的相互作用変換器(hit)は,wsiの階層的構造知識をモデル化し,活用するために提案されている。 効率的な領域記憶バッファとWSI再構成操作を備えたWSIデータ再生のためのBuRoリハーサル法を開発した。 非同期更新機構は、ネストされたクロススケール類似性学習(cssl)モジュールに基づいて、ネットワークがリプレイ段階でそれぞれジェネリックな知識と特定の知識を学ぶことを奨励するために考案された。 提案したConSlideを,TCGAプロジェクトの4つの公開WSIデータセットで評価した。 公平なwsiベースの継続的な学習設定で、他の最先端のメソッドよりも最高のパフォーマンスを保ち、全体的なパフォーマンスのより良いトレードオフを達成し、以前のタスクを忘れる。

Whole slide image (WSI) analysis has become increasingly important in the medical imaging community, enabling automated and objective diagnosis, prognosis, and therapeutic-response prediction. However, in clinical practice, the ever-evolving environment hamper the utility of WSI analysis models. In this paper, we propose the FIRST continual learning framework for WSI analysis, named ConSlide, to tackle the challenges of enormous image size, utilization of hierarchical structure, and catastrophic forgetting by progressive model updating on multiple sequential datasets. Our framework contains three key components. The Hierarchical Interaction Transformer (HIT) is proposed to model and utilize the hierarchical structural knowledge of WSI. The Breakup-Reorganize (BuRo) rehearsal method is developed for WSI data replay with efficient region storing buffer and WSI reorganizing operation. The asynchronous updating mechanism is devised to encourage the network to learn generic and specific knowledge respectively during the replay stage, based on a nested cross-scale similarity learning (CSSL) module. We evaluated the proposed ConSlide on four public WSI datasets from TCGA projects. It performs best over other state-of-the-art methods with a fair WSI-based continual learning setting and achieves a better trade-off of the overall performance and forgetting on previous task
翻訳日:2023-08-28 14:10:43 公開日:2023-08-25
# SVQNet: Sparse Voxel-Adjacent Query Network for 4D Spatio-Temporal LiDAR Semantic Segmentation

SVQNet: Sparse Voxel-Adjacent Query Network for 4D Spatio-Temporal LiDAR Semantic Segmentation ( http://arxiv.org/abs/2308.13323v1 )

ライセンス: Link先を確認
Xuechao Chen, Shuangjie Xu, Xiaoyi Zou, Tongyi Cao, Dit-Yan Yeung, Lu Fang(参考訳) LiDARベースのセマンティック認識タスクは、自律運転には不可欠だが難しい。 物体の動きと静的・動的咬合により、時間情報は1つのフレーム知識の強化と完成によって知覚の強化に必須の役割を果たす。 従来のアプローチでは、過去のフレームを現在のフレームに直接スタックするか、KNNを使って4次元の時空間近傍を構築していた。 歴史的点の積み重ねが冗長で誤解を招く情報によって性能を損なうという観測に基づいて、4次元LiDARセマンティックセマンティックセマンティックセグメンテーションのためのSparse Voxel-Adjacent Query Network (SVQNet)を提案する。 歴史的枠組みを高効率に活用するために、歴史的点を現在の点に関して2つのグループにまとめる。 一つはVoxel-Adjacent Neighborhood(ヴォクセル・アドジャセント地区)で、地元の強化知識を持っている。 もう1つは、世界的知識を完成させる歴史的文脈である。 次に,2つのグループから命令的特徴を抽出・抽出する新しいモジュールを提案する。 私たちのsvqnetはsemantickittiベンチマークとnuscenesデータセットのlidarセマンティクスセグメンテーションにおいて最先端のパフォーマンスを実現しています。

LiDAR-based semantic perception tasks are critical yet challenging for autonomous driving. Due to the motion of objects and static/dynamic occlusion, temporal information plays an essential role in reinforcing perception by enhancing and completing single-frame knowledge. Previous approaches either directly stack historical frames to the current frame or build a 4D spatio-temporal neighborhood using KNN, which duplicates computation and hinders realtime performance. Based on our observation that stacking all the historical points would damage performance due to a large amount of redundant and misleading information, we propose the Sparse Voxel-Adjacent Query Network (SVQNet) for 4D LiDAR semantic segmentation. To take full advantage of the historical frames high-efficiently, we shunt the historical points into two groups with reference to the current points. One is the Voxel-Adjacent Neighborhood carrying local enhancing knowledge. The other is the Historical Context completing the global knowledge. Then we propose new modules to select and extract the instructive features from the two groups. Our SVQNet achieves state-of-the-art performance in LiDAR semantic segmentation of the SemanticKITTI benchmark and the nuScenes dataset.
翻訳日:2023-08-28 14:10:20 公開日:2023-08-25
# 微調整は基盤モデルを損なう - 機能の保存が解決策になるかも知れない

Fine-tuning can cripple your foundation model; preserving features may be the solution ( http://arxiv.org/abs/2308.13320v1 )

ライセンス: Link先を確認
Jishnu Mukhoti, Yarin Gal, Philip H.S. Torr, Puneet K. Dokania(参考訳) トレーニング済みの基礎モデルは、主に膨大な能力と、インターネットから取り除かれた膨大なトレーニングデータに曝されることから、現実世界のコンセプトに関する知識を蓄積する利点を享受する。 このようなモデルは通常、下流のデータセットで微調整され、素晴らしいパフォーマンスを生み出す。 様々な微調整法が考案され,非常に有効であることが示されているが,下流部から得られる$\textit{different}$の微調整モデルの概念認識能力は,事前訓練したモデルに比べて著しく低下している。 大量の時間とお金がそもそもこれらの概念を学ぶようになったため、これは明らかに望ましくないことです。 我々は、この望ましくない現象を「概念の忘れ」と呼び、実験を通して、ほとんどのエンドツーエンドの微調整アプローチが、この副作用に悩まされていることを示す。 そこで本稿では,LDIFS (short for $\ell_2$ distance in feature space) と呼ばれる手法を設計し,基礎モデルの特徴を微調整時に簡単に保存する手法を提案する。 LDIFSは,下流タスク性能に顕著な影響を与えずに,概念の忘れを著しく低減することを示す。

Pre-trained foundation models, owing primarily to their enormous capacity and exposure to vast amount of training data scraped from the internet, enjoy the advantage of storing knowledge about plenty of real-world concepts. Such models are typically fine-tuned on downstream datasets to produce remarkable state-of-the-art performances. While various fine-tuning methods have been devised and are shown to be highly effective, we observe that a fine-tuned model's ability to recognize concepts on tasks $\textit{different}$ from the downstream one is reduced significantly compared to its pre-trained counterpart. This is clearly undesirable as a huge amount of time and money went into learning those very concepts in the first place. We call this undesirable phenomenon "concept forgetting" and via experiments show that most end-to-end fine-tuning approaches suffer heavily from this side effect. To this end, we also propose a rather simple fix to this problem by designing a method called LDIFS (short for $\ell_2$ distance in feature space) that simply preserves the features of the original foundation model during fine-tuning. We show that LDIFS significantly reduces concept forgetting without having noticeable impact on the downstream task performance.
翻訳日:2023-08-28 14:09:56 公開日:2023-08-25
# 生成事前学習型変圧器の出力の変換:PGIフレームワークが注意ダイナミクスに及ぼす影響

Transforming the Output of Generative Pre-trained Transformer: The Influence of the PGI Framework on Attention Dynamics ( http://arxiv.org/abs/2308.13317v1 )

ライセンス: Link先を確認
Aline Ioste(参考訳) 本稿では,現実のビジネス問題に適用した場合のGPTモデルによる課題に対処するために,Persona-Grouping-Intelligence (PGI) という新しいアプローチを提案する。 PGIは、GPTモデル固有の機能を活用して、複雑な言語構造を理解し、文脈的に関係のある応答を生成する。 この実験は、最適化の少ないビジネスプロセスのために、人間の知性が未利用であったビジネスシナリオで実施された。 このアプローチの主な目的は、広範で単調で反復的なタスクにおいて、GPTモデルを利用して人間の作業負荷を削減することである。 代わりに、焦点は意思決定活動に向けられる。 驚くべきことに、この実験はモデルが生成した4,000のレスポンスの検証において93.81%の精度を示し、pgi戦略の有効性を実証した。 このパラダイムシフトは、ヒューマンインテリジェンスの未使用の問題に効果的に対処し、ビジネス環境と動的マシンインテリジェンスを整合させ、現実世界の課題の複雑さをナビゲートする。 このアプローチは、実際の問題に取り組むためにこれらのモデルの実用的利用を促進する。 この方法論は、人間の意思決定と適応可能なマシンインテリジェンスをシームレスに統合することで、ビジネスプロセスの基本構造を再構築する機会を提供する。 その結果、この最適化は運用効率を高め、さまざまなビジネスコンテキストにおける戦略的意思決定を高める。

This paper presents a novel approach named Persona-Grouping-Intelligence (PGI), which has been crafted to tackle the challenges posed by GPT models when applied to real-world business issues. PGI leverages the inherent capabilities of the GPT model to comprehend intricate language structures and generate responses that are contextually relevant. The experiment occurred in a business scenario where human intelligence was being underutilized due to less optimized business processes. The primary objective of this approach is to leverage GPT models to reduce the workload on humans in tasks that are extensive, monotonous, and repetitive. Instead, the focus is redirected toward decision-making activities. Remarkably, the experiment yielded an accuracy rate of 93.81% in validating 4,000 responses generated by the model, underscoring the effectiveness of the PGI strategies. Effectively addressing the issue of underutilized human intelligence, this paradigm shift aligns business environments with dynamic machine intelligence, enabling them to navigate the intricacies of real-world challenges. This approach facilitates the practical utilization of these models to tackle actual problems. The methodology offers an opportunity to reshape the fundamental structure of business processes by seamlessly integrating human decision-making with adaptable machine intelligence. Consequently, this optimization enhances operational efficiency and elevates strategic decision-making across diverse business contexts.
翻訳日:2023-08-28 14:09:34 公開日:2023-08-25
# 文法と言語モデルの構築

Construction Grammar and Language Models ( http://arxiv.org/abs/2308.13315v1 )

ライセンス: Link先を確認
Harish Tayyar Madabushi and Laurence Romain and Petar Milin and Dagmar Divjak(参考訳) 近年のディープラーニングと自然言語処理の進歩は、主にクローゼのようなタスクで訓練され、建設的な知識を含む重要な言語情報にアクセスできることを示す強力なモデルを生み出している。 この画期的な発見は、計算方法と建設文法研究の相乗的関係にエキサイティングな機会をもたらす。 本章では,計算手法と構成文法の相互作用に対する3つの異なるアプローチについて考察する。 (i)テキスト解析のための計算方法 (ii)計算構成文法、及び (iii)ディープラーニングモデル、特に言語モデルに焦点を当てた。 最初の2つのアプローチは、計算手法を使用するための文脈的基盤として、ディープラーニングモデルのアクセス可能で、かつ包括的な概要を提供する前に触れる。 さらに,これらのモデルにおける構築的関連情報の出現を探索する実験と,これらのモデルにとって課題となる構築文法の側面を考察する。 本章は自然言語処理と構築文法の分野の研究者間のコラボレーションを促進することを目的としている。 そうすることで、両方の分野で新たな洞察と進歩の道を開いたいと考えています。

Recent progress in deep learning and natural language processing has given rise to powerful models that are primarily trained on a cloze-like task and show some evidence of having access to substantial linguistic information, including some constructional knowledge. This groundbreaking discovery presents an exciting opportunity for a synergistic relationship between computational methods and Construction Grammar research. In this chapter, we explore three distinct approaches to the interplay between computational methods and Construction Grammar: (i) computational methods for text analysis, (ii) computational Construction Grammar, and (iii) deep learning models, with a particular focus on language models. We touch upon the first two approaches as a contextual foundation for the use of computational methods before providing an accessible, yet comprehensive overview of deep learning models, which also addresses reservations construction grammarians may have. Additionally, we delve into experiments that explore the emergence of constructionally relevant information within these models while also examining the aspects of Construction Grammar that may pose challenges for these models. This chapter aims to foster collaboration between researchers in the fields of natural language processing and Construction Grammar. By doing so, we hope to pave the way for new insights and advancements in both these fields.
翻訳日:2023-08-28 14:09:11 公開日:2023-08-25
# 宇宙定数の小さい値のためのホログラフィ

Holography for Small Values of the Cosmological Constant ( http://arxiv.org/abs/2308.13360v1 )

ライセンス: Link先を確認
Tom Banks(参考訳) 有限領域因果ダイヤモンドのホログラフィーに関する最近の研究を概観し、反デシッター空間のコンフォーマル場理論対応におけるダイヤモンドの記述にその意味を探る。 有限領域ダイヤモンドにおける作用素の代数は、UVカットオフテンソルネットワークの構成においてよく定義されるが、境界代数やその交叉積の任意の無限のフォン・ノイマン部分代数といかなる単純な方法でも関係しない。 我々の議論は、回転不変性を保存するテンソルネットワークの新しい構成に依存している。

We review recent work on holography for finite area causal diamonds and explore its implications for the description of such diamonds in the Anti-deSitter space Conformal Field Theory correspondence. We argue that the algebra of operators in a finite area diamond is well defined in a UV cutoff tensor network construction, but is not related in any simple way to any infinite von Neumann sub-algebra of the boundary algebra or its cross product. Our argument relies on a novel construction of tensor networks that preserves rotation invariance.
翻訳日:2023-08-28 14:03:48 公開日:2023-08-25
# 深層学習とデータ解析における部分等分散のトポロジ的モデル

A topological model for partial equivariance in deep learning and data analysis ( http://arxiv.org/abs/2308.13357v1 )

ライセンス: Link先を確認
Lucia Ferrari, Patrizio Frosini, Nicola Quercioli, Francesca Tombari(参考訳) 本稿では,ニューラルネットワークの部分的等式を符号化するトポロジモデルを提案する。 この目的のために、ある変換集合の作用に敬意を表して、測定によって表されるデータを変更する、P-GENEOsと呼ばれる演算子のクラスを導入する。 作用する変換の集合が群であれば、いわゆる GENEOs が得られる。 次に、ある自己写像の作用を対象とする測度空間と、それらの空間の間のp-生成の空間について研究する。 それらの上に擬計量を定義し、結果空間のいくつかの性質を示す。 特に、そのような空間が近似や凸性に便利な性質を持つことを示す。

In this article, we propose a topological model to encode partial equivariance in neural networks. To this end, we introduce a class of operators, called P-GENEOs, that change data expressed by measurements, respecting the action of certain sets of transformations, in a non-expansive way. If the set of transformations acting is a group, then we obtain the so-called GENEOs. We then study the spaces of measurements, whose domains are subject to the action of certain self-maps, and the space of P-GENEOs between these spaces. We define pseudo-metrics on them and show some properties of the resulting spaces. In particular, we show how such spaces have convenient approximation and convexity properties.
翻訳日:2023-08-28 14:03:38 公開日:2023-08-25
# ceimven:乳がん検出と超音波画像からの分類のためのv1-v2アーキテクチャの修正版における最先端実装のアプローチ

CEIMVEN: An Approach of Cutting Edge Implementation of Modified Versions of EfficientNet (V1-V2) Architecture for Breast Cancer Detection and Classification from Ultrasound Images ( http://arxiv.org/abs/2308.13356v1 )

ライセンス: Link先を確認
Sheekar Banerjee and Md. Kamrul Hasan Monir(参考訳) 乳がんは世界中で最も広く、恐ろしいがんの1つだと考えられている。 毎年何百万という女性が影響を受けています。 乳がんは女性の死亡数の最大の原因となっている。 近年, 超音波画像やマンモグラフィーから乳がんを検出・分類し, 深部神経ネットワークの天体的触覚を解析する上で, 医用画像処理とプロセッシングが重要な役割を担っている。 本研究では,ceimven という超音波画像を用いた efficientnet-v1 (b0-b7) と efficientnet-v2 (b0-b3) の異なる切削エッジ修正版について,厳密な実装と反復的な結果分析を行った。 我々は、EfficientNetバージョンの事前学習モデルを使用するために、転送学習アプローチを利用した。 我々は、ハイパーパラメータチューニング手順を起動し、完全に接続されたレイヤーを追加し、前例のない異常値を破棄し、カスタマイズされたEfficientNetアーキテクチャの精度を記録した。 我々のディープラーニングモデルトレーニングアプローチは、関心領域(ROI)技術と複数の分類(良性、悪性、正常)によるがん患部位の同定に関連していた。 修正版のEfficientNet-V1(b0-99.15%、b1-98.58%、b2-98.43%、b3-98.01%、b4-98.86%、b5-97.72%、b6-97.72%、b7-98.72%)とEfficientNet-V2(b0-99.29%、b199.01%、b2-98.72%、b3-99.43%)から得られた近似的なテスト精度は、超音波画像から乳がんの検出と分類を成功させるための、非常に明るい未来と強力な学習アプローチを示している。

Undoubtedly breast cancer identifies itself as one of the most widespread and terrifying cancers across the globe. Millions of women are getting affected each year from it. Breast cancer remains the major one for being the reason of largest number of demise of women. In the recent time of research, Medical Image Computing and Processing has been playing a significant role for detecting and classifying breast cancers from ultrasound images and mammograms, along with the celestial touch of deep neural networks. In this research, we focused mostly on our rigorous implementations and iterative result analysis of different cutting-edge modified versions of EfficientNet architectures namely EfficientNet-V1 (b0-b7) and EfficientNet-V2 (b0-b3) with ultrasound image, named as CEIMVEN. We utilized transfer learning approach here for using the pre-trained models of EfficientNet versions. We activated the hyper-parameter tuning procedures, added fully connected layers, discarded the unprecedented outliers and recorded the accuracy results from our custom modified EfficientNet architectures. Our deep learning model training approach was related to both identifying the cancer affected areas with region of interest (ROI) techniques and multiple classifications (benign, malignant and normal). The approximate testing accuracies we got from the modified versions of EfficientNet-V1 (b0- 99.15%, b1- 98.58%, b2- 98.43%, b3- 98.01%, b4- 98.86%, b5- 97.72%, b6- 97.72%, b7- 98.72%) and EfficientNet-V2 (b0- 99.29%, b1- 99.01%, b2- 98.72%, b3- 99.43%) are showing very bright future and strong potentials of deep learning approach for the successful detection and classification of breast cancers from the ultrasound images at a very early stage.
翻訳日:2023-08-28 14:03:27 公開日:2023-08-25
# プログラム言語モデルの訓練と評価における言語選択の影響について

On the Impact of Language Selection for Training and Evaluating Programming Language Models ( http://arxiv.org/abs/2308.13354v1 )

ライセンス: Link先を確認
Jonathan Katzy and Maliheh Izadi and Arie van Deursen(参考訳) トランスフォーマーベース言語モデルの最近の進歩は、これらのモデルの多言語能力を高める大きな可能性を示している。 この領域における顕著な進歩は、自然言語のタスクだけでなく、プログラミング言語のドメインにも適用される。 これらのモデルが複数の言語から学ぶ能力にもかかわらず、評価は通常、同じ言語の特定の組み合わせに焦点を当てる。 本研究では,CodeBERTに基づくモデルを用いて,言語表現の類似性を評価する。 実験により,c++,python,javaなどの言語におけるトークン表現が互いに近接しているのに対して,mathematicaやrといった言語でも同じトークンが大きな相違点を示すことが明らかとなった。 以上より,この現象は多様な言語を扱う際の性能上の課題を生じさせる可能性が示唆された。 したがって、将来のモデルをトレーニングし評価する際に、様々なプログラミング言語を選択するために類似度尺度を使うことを推奨する。

The recent advancements in Transformer-based Language Models have demonstrated significant potential in enhancing the multilingual capabilities of these models. The remarkable progress made in this domain not only applies to natural language tasks but also extends to the domain of programming languages. Despite the ability of these models to learn from multiple languages, evaluations typically focus on particular combinations of the same languages. In this study, we evaluate the similarity of programming languages by analyzing their representations using a CodeBERT-based model. Our experiments reveal that token representation in languages such as C++, Python, and Java exhibit proximity to one another, whereas the same tokens in languages such as Mathematica and R display significant dissimilarity. Our findings suggest that this phenomenon can potentially result in performance challenges when dealing with diverse languages. Thus, we recommend using our similarity measure to select a diverse set of programming languages when training and evaluating future models.
翻訳日:2023-08-28 14:02:38 公開日:2023-08-25
# 位相変調パルスによる高忠実性量子ビット制御

High-fidelity robust qubit control by phase-modulated pulses ( http://arxiv.org/abs/2308.13353v1 )

ライセンス: Link先を確認
Marko Kuzmanovi\'c, Isak Bj\"orkman, John J. McCord, Shruti Dogra, and Gheorghe Sorin Paraoanu(参考訳) 本稿では, 基底状態の励起状態への移動やブロッホ球上での任意の$X/Y$回転などのパラダイム操作を実現する, 頑健で高忠実なパルスの集合を示す。 これらのパルスは制御場の位相変調に基づいている。 我々はこれらの操作をトランスモンキュービット上で実装し、$\approx 20\%$以上の駆動振幅における偏差に対するレジリエンスを実証し、10〜\mathrm{MHz}$の順でキュービット遷移周波数からデチューニングする。 概念と変調方式は実装が簡単であり、他の量子技術実験プラットフォームと互換性がある。

We present a set of robust and high-fidelity pulses that realize paradigmatic operations such as the transfer of the ground state population into the excited state and arbitrary $X/Y$ rotations on the Bloch sphere. These pulses are based on the phase modulation of the control field. We implement these operations on a transmon qubit, demonstrating resilience against deviations in the drive amplitude of more than $\approx 20\%$ and/or detuning from the qubit transition frequency in the order of $10~\mathrm{MHz}$. The concept and modulation scheme is straightforward to implement and it is compatible with other quantum-technology experimental platforms.
翻訳日:2023-08-28 14:02:23 公開日:2023-08-25
# 汚染データを用いた教師なし異常検出のための汎用機械学習フレームワーク

A Generic Machine Learning Framework for Fully-Unsupervised Anomaly Detection with Contaminated Data ( http://arxiv.org/abs/2308.13352v1 )

ライセンス: Link先を確認
Markus Ulmer, Jannik Zgraggen, and Lilach Goren Huber(参考訳) 異常検出(AD)タスクは、さまざまなドメインやアプリケーションで機械学習アルゴリズムを用いて解決されている。 これらのアルゴリズムの大部分は、正規データを使用して残差ベースモデルをトレーニングし、学習された正規状態と相違点に基づいて異常スコアを未確認サンプルに割り当てる。 これらのアプローチの基本的な前提は、異常のないデータがトレーニングに利用できることだ。 しかし、実際の運用環境では、トレーニングデータがある種の異常なサンプルで汚染される場合が多い。 汚染データによるトレーニングは、必然的に残差ベースアルゴリズムのAD性能を低下させる。 本稿では,ADタスクに対する汚染されたトレーニングデータの完全教師なし改善のためのフレームワークを提案する。 フレームワークは汎用的であり、残差ベースの機械学習モデルに適用することができる。 本稿では,異なるアプリケーション分野からの時系列マシンデータの2つの公開データセットへのフレームワークの適用を実演する。 本研究は, 改質を伴わない汚染データを用いた簡易な訓練法よりも明らかに優れていることを示す。 さらに、異常のないデータがトレーニングに利用できる理想的で非現実的な参照と比較する。 このアプローチは異常からの情報を利用しており、通常の状態だけでなく、理想的なベースラインよりも優れていることもしばしばある。

Anomaly detection (AD) tasks have been solved using machine learning algorithms in various domains and applications. The great majority of these algorithms use normal data to train a residual-based model, and assign anomaly scores to unseen samples based on their dissimilarity with the learned normal regime. The underlying assumption of these approaches is that anomaly-free data is available for training. This is, however, often not the case in real-world operational settings, where the training data may be contaminated with a certain fraction of abnormal samples. Training with contaminated data, in turn, inevitably leads to a deteriorated AD performance of the residual-based algorithms. In this paper we introduce a framework for a fully unsupervised refinement of contaminated training data for AD tasks. The framework is generic and can be applied to any residual-based machine learning model. We demonstrate the application of the framework to two public datasets of multivariate time series machine data from different application fields. We show its clear superiority over the naive approach of training with contaminated data without refinement. Moreover, we compare it to the ideal, unrealistic reference in which anomaly-free data would be available for training. Since the approach exploits information from the anomalies, and not only from the normal regime, it is comparable and often outperforms the ideal baseline as well.
翻訳日:2023-08-28 14:02:11 公開日:2023-08-25
# 弱レーザー励起下におけるダイヤモンド中の窒素空孔中心の光磁気共鳴

Optically Detected Magnetic Resonance of Nitrogen-Vacancy Centers in Diamond under Weak Laser Excitation ( http://arxiv.org/abs/2308.13351v1 )

ライセンス: Link先を確認
Yong-Hong Yu, Rui-Zhi Zhang, Yue Xu, Xiu-Qi Chen, Huijie Zheng, Quan Li, Ren-Bao Liu, Xin-Yu Pan, Dmitry Budker, and Gang-Qin Liu(参考訳) 有望な量子センサーとして、ダイヤモンド中の窒素空孔(NV)中心は、凝縮物質物理学、物質科学、生命科学のフロンティア研究に広く用いられている。 実用上、弱いレーザー励起は、例えば光毒性や加熱などのレーザー照射の副作用を減少させるため好ましい。 弱い532nmレーザー励起下でのNV中心アンサンブルの光検出磁気共鳴(ODMR)の理論的および実験的研究を併用して報告する。 この方法では、odmrスペクトルの幅と分割はレーザーパワーの増加とともに減少する。 この電力依存は、ダイヤモンド格子中のNV--N+対のレーザー誘起電荷中和を考慮したモデルで再現される。 これらの結果は、光感応アプリケーションにおけるnvベースの量子センシングの理解と設計に重要である。

As promising quantum sensors, nitrogen-vacancy (NV) centers in diamond have been widely used in frontier studies in condensed matter physics, material sciences, and life sciences. In practical applications, weak laser excitation is favorable as it reduces the side effects of laser irradiation, for example, phototoxicity and heating. Here we report a combined theoretical and experimental study of optically detected magnetic resonance (ODMR) of NV-center ensembles under weak 532-nm laser excitation. In this regime, both the width and splitting of ODMR spectra decrease with increasing laser power. This power dependence is reproduced with a model considering laser-induced charge neutralization of NV--N+ pairs in the diamond lattice. These results are important for understanding and designing NV-based quantum sensing in light-sensitive applications.
翻訳日:2023-08-28 14:01:37 公開日:2023-08-25
# 核内燃料管理問題に対する量子および量子インスパイアド最適化

Quantum and quantum-inspired optimization for an in-core fuel management problem ( http://arxiv.org/abs/2308.13348v1 )

ライセンス: Link先を確認
Sergey R. Usmanov, Gleb V. Salakhov, Anton A. Bozhedarov, Evgeniy O. Kiktenko, Aleksey K. Fedorov(参考訳) 原子力発電所の運用管理は、いくつかの計算上の難しい問題から成り立っている。 コア内燃料負荷パターンの検索もそのひとつだ。 この組合せ最適化問題の最大の課題は、多くの負荷要素を持つ探索空間の指数関数的成長である。 ここでは,二分最適化 (qubo) 形式における再負荷問題について検討する。 このような形式は、原子炉の現実的な構成のために燃料再装填パターンを見つけるために、量子アニーリング、古典的なシミュレーションアニーリング、量子インスパイアされたアルゴリズムなど様々な手法を応用できる。 上記の計算手法を用いて,QUBO形式における中核燃料管理問題のベンチマーク結果を示す。 この研究は、エネルギー産業における量子コンピュータと量子インスパイアされたアルゴリズムの潜在的な応用を実証する。

Operation management of nuclear power plants consists of several computationally hard problems. Searching for an in-core fuel loading pattern is among them. The main challenge of this combinatorial optimization problem is the exponential growth of the search space with a number of loading elements. Here we study a reloading problem in a Quadratic Unconstrained Binary Optimization (QUBO) form. Such a form allows us to apply various techniques, including quantum annealing, classical simulated annealing, and quantum-inspired algorithms in order to find fuel reloading patterns for several realistic configurations of nuclear reactors. We present the results of benchmarking the in-core fuel management problem in the QUBO form using the aforementioned computational techniques. This work demonstrates potential applications of quantum computers and quantum-inspired algorithms in the energy industry.
翻訳日:2023-08-28 14:01:15 公開日:2023-08-25
# スクイーズ集約励起ネットワーク

Squeeze aggregated excitation network ( http://arxiv.org/abs/2308.13343v1 )

ライセンス: Link先を確認
Mahendran N(参考訳) 畳み込みニューラルネットワークは、視覚タスクのパターンを読み取る空間表現を持つ。 スクイーズと興奮はチャネルレベルで明示的にモデリングすることでチャネルの賢明な表現をリンクする。 多層パーセプトロンは、大域的な表現を学習し、ほとんどのモデルでは、分類前に学習された全ての情報を収集するために全ての畳み込み層を最後にしばしば使用する。 モデルの性能向上のために,チャネル内のグローバル表現を誘導する手法を提案する。 本稿では,saenetを提案する。sweish aggregated excitation networkは,層間におけるグローバルチャネルワイズ表現を学習する。 提案モジュールは, 圧縮後に重要な情報を伝達し, 集合励起を行い, 形状を復元する。 また、ネットワーク上にマルチブランチ線形(dense)層を持つという新しい考え方も導入する。 これにより、ネットワークの表現力を高める凝縮情報からグローバル表現を学習する。 提案されたモジュールはimagenetとcifar100データセットを使用して広範な実験を行い、関連するアーキテクチャと比較している。 提案するモデル出力が同等であり、場合によっては既存のアートアーキテクチャよりも優れているという結果を分析する。

Convolutional neural networks have spatial representations which read patterns in the vision tasks. Squeeze and excitation links the channel wise representations by explicitly modeling on channel level. Multi layer perceptrons learn global representations and in most of the models it is used often at the end after all convolutional layers to gather all the information learned before classification. We propose a method of inducing the global representations within channels to have better performance of the model. We propose SaEnet, Squeeze aggregated excitation network, for learning global channelwise representation in between layers. The proposed module takes advantage of passing important information after squeeze by having aggregated excitation before regaining its shape. We also introduce a new idea of having a multibranch linear(dense) layer in the network. This learns global representations from the condensed information which enhances the representational power of the network. The proposed module have undergone extensive experiments by using Imagenet and CIFAR100 datasets and compared with closely related architectures. The analyzes results that proposed models outputs are comparable and in some cases better than existing state of the art architectures.
翻訳日:2023-08-28 14:00:48 公開日:2023-08-25
# TriGait: Tri-Branch NetworkによるSeletonとSilhouetteの歩行データの調整と融合

TriGait: Aligning and Fusing Skeleton and Silhouette Gait Data via a Tri-Branch Network ( http://arxiv.org/abs/2308.13340v1 )

ライセンス: Link先を確認
Yan Sun, Xueling Feng, Liyan Ma, Long Hu, Mark Nixon(参考訳) 歩行認識は、非侵襲性と長距離性による識別のための有望な生体計測技術である。 しかし、服装の変化や視点の違いといった外的変化は歩行認識に重大な課題をもたらす。 シルエット法は体型を保ちながら内部構造情報を無視するが、骨格法は構造情報を保存するが省略する。 本稿では,2つのモードの相補的な性質をフル活用するために,新しいトリプル分岐歩行認識フレームワークTriGaitを提案する。 骨格とシルエットのデータから、外観から静的特徴と運動特徴を抽出する2ストリームネットワーク、全関節間の依存関係をキャプチャするシンプルで効果的なモジュール JSA-TC、および2つのモードの低レベル特徴を整列し、融合させることで、クロスモーダル学習のための第3ブランチを含む、ハイブリッドな融合方式で、効果的に機能を統合する。 歩行認識におけるTriGaitの優位性と有効性を示す実験結果を得た。 提案手法は,CASIA-Bデータセットの全条件に対して平均ランク1精度96.0%,CLに対する94.3%の精度を実現し,最先端の手法を著しく上回っている。 ソースコードはhttps://github.com/feng-xueling/trigait/で入手できる。

Gait recognition is a promising biometric technology for identification due to its non-invasiveness and long-distance. However, external variations such as clothing changes and viewpoint differences pose significant challenges to gait recognition. Silhouette-based methods preserve body shape but neglect internal structure information, while skeleton-based methods preserve structure information but omit appearance. To fully exploit the complementary nature of the two modalities, a novel triple branch gait recognition framework, TriGait, is proposed in this paper. It effectively integrates features from the skeleton and silhouette data in a hybrid fusion manner, including a two-stream network to extract static and motion features from appearance, a simple yet effective module named JSA-TC to capture dependencies between all joints, and a third branch for cross-modal learning by aligning and fusing low-level features of two modalities. Experimental results demonstrate the superiority and effectiveness of TriGait for gait recognition. The proposed method achieves a mean rank-1 accuracy of 96.0% over all conditions on CASIA-B dataset and 94.3% accuracy for CL, significantly outperforming all the state-of-the-art methods. The source code will be available at https://github.com/feng-xueling/TriGait/.
翻訳日:2023-08-28 14:00:28 公開日:2023-08-25
# 置換試験によるキーネス評価

Assessing Keyness using Permutation Tests ( http://arxiv.org/abs/2308.13383v1 )

ライセンス: Link先を確認
Thoralf Mildenberger(参考訳) Gries (2006, 2022) の提案に基づき, コーパス言語学におけるキーネスを評価するための再サンプリングに基づくアプローチを提案する。 仮説テスト(例えばLikelihood Ratio)に基づく伝統的なアプローチは、コプラをトークンの独立した同一分散サンプルとしてモデル化する。 このモデルは、コーパスを横断する単語の出現がしばしば観測される不均一な分布を説明できない。 単語の発生が少数の文書に集中すると、llrと類似のスコアの大きな値は、トークン毎のサンプリングモデルによって説明されるよりもずっと高い確率で、偽陽性をもたらす。 私たちはトークン毎のサンプリングモデルを,coporaがトークンではなくドキュメントのサンプルであるモデルに置き換えました。 次に、等価周波数のヌル仮説の下で与えられたキーネススコアの分布を近似し、重要度を評価するためのp値を求める。 トークンがドキュメント内またはドキュメント間でどのように編成されるかの仮定は不要であり、そのアプローチは基本的に *any* キーネススコアで機能する。 したがって、LLRのようなスコアに対してより正確なp値を得ることによって、例えば効果の大きさの尺度として提案された対数率の意義を評価することもできる。 提案手法の効率的な実装は,github から利用可能な `R` package `keyperm" で提供される。

We propose a resampling-based approach for assessing keyness in corpus linguistics based on suggestions by Gries (2006, 2022). Traditional approaches based on hypothesis tests (e.g. Likelihood Ratio) model the copora as independent identically distributed samples of tokens. This model does not account for the often observed uneven distribution of occurences of a word across a corpus. When occurences of a word are concentrated in few documents, large values of LLR and similar scores are in fact much more likely than accounted for by the token-by-token sampling model, leading to false positives. We replace the token-by-token sampling model by a model where corpora are samples of documents rather than tokens, which is much closer to the way corpora are actually assembled. We then use a permutation approach to approximate the distribution of a given keyness score under the null hypothesis of equal frequencies and obtain p-values for assessing significance. We do not need any assumption on how the tokens are organized within or across documents, and the approach works with basically *any* keyness score. Hence, appart from obtaining more accurate p-values for scores like LLR, we can also assess significance for e.g. the logratio which has been proposed as a measure of effect size. An efficient implementation of the proposed approach is provided in the `R` package `keyperm` available from github.
翻訳日:2023-08-28 13:52:21 公開日:2023-08-25
# 動的顔表情認識のための視覚言語モデルの提案

Prompting Visual-Language Models for Dynamic Facial Expression Recognition ( http://arxiv.org/abs/2308.13382v1 )

ライセンス: Link先を確認
Zengqun Zhao, Ioannis Patras(参考訳) 本稿では,クリップモデルに基づく動的表情認識(dfer)のための新しい視覚言語モデルであるdfer-clipを提案する。 具体的には、提案したDFER-CLIPは、視覚的部分とテキスト的部分からなる。 視覚的部分については、CLIP画像エンコーダに基づいて、複数のトランスフォーマーエンコーダからなる時間モデルを導入して、時間的表情特徴を抽出し、最終特徴埋め込みを学習可能な「クラス」トークンとして取得する。 テキストの部分は、私たちが認識したいクラス(表情)に関連する顔の振る舞いのテキスト記述を入力として使用します -- これらの記述は、chatgptのような大きな言語モデルを使って生成されるのです。 これは、クラス名のみを使用し、それらの関係をより正確に捉えた作品とは対照的である。 テキスト記述の他に、学習可能なトークンを導入し、トレーニング中の各表現に関する関連するコンテキスト情報を学習する。 提案手法の有効性を実証し、DFEW, FERV39k, MAFWベンチマークで現在管理されているDFER法と比較して、DFER-CLIPが最先端の結果を得ることを示す。 コードはhttps://github.com/zengqunzhao/DFER-CLIPで公開されている。

This paper presents a novel visual-language model called DFER-CLIP, which is based on the CLIP model and designed for in-the-wild Dynamic Facial Expression Recognition (DFER). Specifically, the proposed DFER-CLIP consists of a visual part and a textual part. For the visual part, based on the CLIP image encoder, a temporal model consisting of several Transformer encoders is introduced for extracting temporal facial expression features, and the final feature embedding is obtained as a learnable "class" token. For the textual part, we use as inputs textual descriptions of the facial behaviour that is related to the classes (facial expressions) that we are interested in recognising -- those descriptions are generated using large language models, like ChatGPT. This, in contrast to works that use only the class names and more accurately captures the relationship between them. Alongside the textual description, we introduce a learnable token which helps the model learn relevant context information for each expression during training. Extensive experiments demonstrate the effectiveness of the proposed method and show that our DFER-CLIP also achieves state-of-the-art results compared with the current supervised DFER methods on the DFEW, FERV39k, and MAFW benchmarks. Code is publicly available at https://github.com/zengqunzhao/DFER-CLIP.
翻訳日:2023-08-28 13:52:01 公開日:2023-08-25
# モデルレスシステム識別のためのインコンテキスト学習

In-context learning for model-free system identification ( http://arxiv.org/abs/2308.13380v1 )

ライセンス: Link先を確認
Marco Forgione, Filippo Pura, Dario Piga(参考訳) 従来のシステム同定では、与えられた入出力シーケンスと利用可能な物理知識に基づいて未知の力学系のモデルを推定する。 しかし、入力/出力パターンだけでなく、同じクラス内の他のシステムの振る舞いを観察することで、動的システムの複雑さを理解することもできるのだろうか? この中心的な疑問は、この論文で示された研究を導く。 そこで本研究では,1ステップ・アヘッド予測とマルチステップシミュレーションという2つの主要な課題を解決する,システム同定のための新しいパラダイムを提案する。 従来の手法とは異なり、特定のシステムのモデルを直接見積もることはできない。 代わりに、動的システムのクラスを表すメタモデルを事前トレーニングします。 このメタモデルは、ある分布からランダムに抽出されたシステムによって生成される無限の合成データのストリームから訓練される。 その核となるメタモデルは、力学系のクラスの主要な特性の暗黙的な表現として機能する。 新しいシステム(特に短い入出力シーケンス)から短いコンテキストを提供すると、メタモデルはそのダイナミクスを暗黙的に認識し、振る舞いの予測を可能にする。 提案手法は自然言語処理タスクにおける文脈内学習能力で有名なTransformerアーキテクチャの力を利用する。 一段階予測にはgptライクなデコーダのみのアーキテクチャを用いるが、シミュレーションではエンコーダ-デコーダ構造を用いる。 最初の実験結果は我々の基礎的な疑問に肯定的に答え、システム同定の新たな研究道への扉を開く。

In traditional system identification, we estimate a model of an unknown dynamical system based on given input/output sequences and available physical knowledge. Yet, is it also possible to understand the intricacies of dynamical systems not solely from their input/output patterns, but by observing the behavior of other systems within the same class? This central question drives the study presented in this paper. In response to this query, we introduce a novel paradigm for system identification, addressing two primary tasks: one-step-ahead prediction and multi-step simulation. Unlike conventional methods, we do not directly estimate a model for the specific system. Instead, we pretrain a meta model that represents a class of dynamical systems. This meta model is trained from a potentially infinite stream of synthetic data, generated by systems randomly extracted from a certain distribution. At its core, the meta model serves as an implicit representation of the main characteristics of a class of dynamical systems. When provided with a brief context from a new system - specifically, a short input/output sequence - the meta model implicitly discerns its dynamics, enabling predictions of its behavior. The proposed approach harnesses the power of Transformer architectures, renowned for their in-context learning capabilities in Natural Language Processing tasks. For one-step prediction, a GPT-like decoder-only architecture is utilized, whereas the simulation problem employs an encoder-decoder structure. Initial experimental results affirmatively answer our foundational question, opening doors to fresh research avenues in system identification.
翻訳日:2023-08-28 13:51:40 公開日:2023-08-25
# 量子LDPC符号の層復号化

Layered Decoding of Quantum LDPC Codes ( http://arxiv.org/abs/2308.13377v1 )

ライセンス: Link先を確認
Julien Du Crest, Francisco Garcia-Herrero, Mehdi Mhalla, Valentin Savin, Javier Valls(参考訳) 我々は、ハードウェアレイテンシの制限下で量子ldpc符号のメッセージパスベースの復号化を行う問題に対処する。 我々は,並列アーキテクチャにおける一般的なスケジューリングである,量子制約に適合する階層型デコードを行う新しい手法を提案する。 ハイパーグラフ製品コードの層を構築するための一般的な構成法が与えられる。 このプロセスでは、通常の層分解の一般化であるt被覆層と、乱数順序スケジューリングと呼ばれる新しいスケジューリングという2つの新しい概念を導入する。 数値シミュレーションにより、乱数順序付けは、後処理を必要とせず、層状およびシリアルデコードの両方の量子符号上のメッセージパスデコーダの典型的な高いエラーフロアを緩和するのに役立つことが示される。

We address the problem of performing message-passing-based decoding of quantum LDPC codes under hardware latency limitations. We propose a novel way to do layered decoding that suits quantum constraints and outperforms flooded scheduling, the usual scheduling on parallel architectures. A generic construction is given to construct layers of hypergraph product codes. In the process, we introduce two new notions, t-covering layers which is a generalization of the usual layer decomposition, and a new scheduling called random order scheduling. Numerical simulations show that the random ordering is of independent interest as it helps relieve the high error floor typical of message-passing decoders on quantum codes for both layered and serial decoding without the need for post-processing.
翻訳日:2023-08-28 13:51:19 公開日:2023-08-25
# 早期CTスキャンを用いた深部学習モデルによるくも膜下出血患者の死亡予測

Enhanced Mortality Prediction In Patients With Subarachnoid Haemorrhage Using A Deep Learning Model Based On The Initial CT Scan ( http://arxiv.org/abs/2308.13373v1 )

ライセンス: Link先を確認
Sergio Garcia-Garcia, Santiago Cepeda, Dominik Muller, Alejandra Mosteiro, Ramon Torne, Silvia Agudo, Natalia de la Torre, Ignacio Arrese, Rosario Sarabia(参考訳) PURPOSE: くも膜下出血(SAH)は高い死亡率と死亡率をもたらす。 ディープラーニングの一種である畳み込みニューラルネットワーク(CNN)は、画像データから高精度な予測を生成することができる。 CNN を用いた初期CT スキャンによりSAH 患者の死亡率を予測することを目的とした。 方法:2011-2022年におけるSAH患者連続コホートの検討 デモグラフィー,臨床および放射線学的変数を解析した。 AUCMEDI Frameworkを用いてCNNをトレーニングするための入力として,前処理したベースラインCTスキャン画像を用いた。 我々のモデルアーキテクチャはDenseNet-121構造を利用し、転送学習の原則を採用している。 アウトプット変数は、最初の3ヶ月で死亡していた。 モデルの性能は、従来人工知能法に関する研究で用いられてきた統計パラメータによって評価された。 結果: 219例, 訓練用175例, 評価用44例であった。 52%(115/219) が女性で, 平均年齢は58(SD=13.06) であった。 18.5%(39/219)は特発性SAHであった。 死亡率は28.5%(63/219)であった。 モデルでは,初期ctスキャン画像のみを用いてsah患者の死亡率を予測する精度が向上した(精度74%,f1=75%,auc=82%)。 結論: 最新のAIとCNNに基づく画像処理技術により, CTスキャン画像のみを入力として高精度なSAH患者の死亡率を予測することができる。 これらのモデルは、従来の臨床知識のスキルを超えて、より良いトレーニング、開発、パフォーマンスをもたらすより多くのデータと患者を含めることで最適化される可能性がある。

PURPOSE: Subarachnoid hemorrhage (SAH) entails high morbidity and mortality rates. Convolutional neural networks (CNN), a form of deep learning, are capable of generating highly accurate predictions from imaging data. Our objective was to predict mortality in SAH patients by processing the initial CT scan on a CNN based algorithm. METHODS: Retrospective multicentric study of a consecutive cohort of patients with SAH between 2011-2022. Demographic, clinical and radiological variables were analyzed. Pre-processed baseline CT scan images were used as the input for training a CNN using AUCMEDI Framework. Our model's architecture leverages the DenseNet-121 structure, employing transfer learning principles. The output variable was mortality in the first three months. Performance of the model was evaluated by statistical parameters conventionally used in studies involving artificial intelligence methods. RESULTS: Images from 219 patients were processed, 175 for training and validation of the CNN and 44 for its evaluation. 52%(115/219) of patients were female, and the median age was 58(SD=13.06) years. 18.5%(39/219) were idiopathic SAH. Mortality rate was 28.5%(63/219). The model showed good accuracy at predicting mortality in SAH patients exclusively using the images of the initial CT scan (Accuracy=74%, F1=75% and AUC=82%). CONCLUSION: Modern image processing techniques based on AI and CNN make possible to predict mortality in SAH patients with high accuracy using CT scan images as the only input. These models might be optimized by including more data and patients resulting in better training, development and performance on tasks which are beyond the skills of conventional clinical knowledge.
翻訳日:2023-08-28 13:51:07 公開日:2023-08-25
# 長期記憶ネットワークと独立成分分析を組み合わせた単チャンネル・多チャンネル脳波記録からのEOGアーチファクト除去

EOG Artifact Removal from Single and Multi-channel EEG Recordings through the combination of Long Short-Term Memory Networks and Independent Component Analysis ( http://arxiv.org/abs/2308.13371v1 )

ライセンス: Link先を確認
Behrad TaghiBeyglou and Fatemeh Bagheri(参考訳) 紹介:脳波(EEG)信号は、その豊富な情報量のために様々な用途で大きな人気を得ている。 しかし、これらの信号は様々な人工物、特に眼球運動によって引き起こされる電気電図(EOG)から汚染される。 EOGアーチファクトを緩和する最も効果的なアプローチは、EEGと同時にEOG信号を記録することと、独立成分分析(ICA)のようなブラインドソース分離技術を採用することである。 それでも、EOG記録の可用性は、特に事前記録されたデータセットにおいて、必ずしも実現可能であるとは限らない。 目的: 本論文では, 長期記憶(LSTM)に基づくニューラルネットワークをICAと組み合わせて, 汚染された脳波信号からEOGアーチファクトを除去する手法を提案する。 アプローチ: アプローチは2つの主要な目標を達成することを目的としています。 1) 汚染された脳波データから水平および垂直EOG信号を推定し, 2) ICAを用いて脳波から推定されるEOG信号を除去し, 人工脳波信号を生成する。 主な結果: 提案手法の性能を評価するため, 27人の参加者を対象に, 公開データセットを用いて実験を行った。 我々は,平均二乗誤差,絶対誤差,平均誤差などの確立した指標を用いて,アーティファクト除去手法の品質評価を行った。 さらに,本論文で報告されている2つの最先端深層学習手法と比較し,提案手法の優れた性能を実証した。

Introduction: Electroencephalogram (EEG) signals have gained significant popularity in various applications due to their rich information content. However, these signals are prone to contamination from various sources of artifacts, notably the electrooculogram (EOG) artifacts caused by eye movements. The most effective approach to mitigate EOG artifacts involves recording EOG signals simultaneously with EEG and employing blind source separation techniques, such as independent component analysis (ICA). Nevertheless, the availability of EOG recordings is not always feasible, particularly in pre-recorded datasets. Objective: In this paper, we present a novel methodology that combines a long short-term memory (LSTM)-based neural network with ICA to address the challenge of EOG artifact removal from contaminated EEG signals. Approach: Our approach aims to accomplish two primary objectives: 1) estimate the horizontal and vertical EOG signals from the contaminated EEG data, and 2) employ ICA to eliminate the estimated EOG signals from the EEG, thereby producing an artifact-free EEG signal. Main results: To evaluate the performance of our proposed method, we conducted experiments on a publicly available dataset comprising recordings from 27 participants. We employed well-established metrics such as mean squared error, mean absolute error, and mean error to assess the quality of our artifact removal technique. Significance: Furthermore, we compared the performance of our approach with two state-of-the-art deep learning-based methods reported in the literature, demonstrating the superior performance of our proposed methodology.
翻訳日:2023-08-28 13:50:45 公開日:2023-08-25
# ヒトメッシュ回復のための分布配向拡散

Distribution-Aligned Diffusion for Human Mesh Recovery ( http://arxiv.org/abs/2308.13369v1 )

ライセンス: Link先を確認
Lin Geng Foo, Jia Gong, Hossein Rahmani, Jun Liu(参考訳) 単一のRGB画像から3Dヒューマンメッシュを復元することは、深さの曖昧さと自己排他性のために難しい作業であり、高い不確実性をもたらす。 一方、拡散モデルは最近、ノイズの入力を徐々にデノベートすることで高品質な出力を生成することに成功している。 その能力に触発されて,ヒトのメッシュ回復のための拡散ベースのアプローチを探索し,逆拡散過程としてメッシュ回復を枠組するヒューマンメッシュ拡散(hmdiff)フレームワークを提案する。 また,入力固有の分布情報を拡散プロセスに注入し,メッシュリカバリタスクを簡略化するための事前知識を提供する分散アライメント手法(dat)を提案する。 提案手法は,広く使用されている3つのデータセットの最先端性能を実現する。 プロジェクトページ:https://gongjia0208.github.io/HMDiff/。

Recovering a 3D human mesh from a single RGB image is a challenging task due to depth ambiguity and self-occlusion, resulting in a high degree of uncertainty. Meanwhile, diffusion models have recently seen much success in generating high-quality outputs by progressively denoising noisy inputs. Inspired by their capability, we explore a diffusion-based approach for human mesh recovery, and propose a Human Mesh Diffusion (HMDiff) framework which frames mesh recovery as a reverse diffusion process. We also propose a Distribution Alignment Technique (DAT) that injects input-specific distribution information into the diffusion process, and provides useful prior knowledge to simplify the mesh recovery task. Our method achieves state-of-the-art performance on three widely used datasets. Project page: https://gongjia0208.github.io/HMDiff/.
翻訳日:2023-08-28 13:50:19 公開日:2023-08-25
# 異常検出に基づく高解像度衛星画像からの燃焼領域抽出

Burnt area extraction from high-resolution satellite images based on anomaly detection ( http://arxiv.org/abs/2308.13367v1 )

ライセンス: Link先を確認
Oscar David Rafael Narvaez Luces, Minh-Tan Pham, Quentin Poterek, R\'emi Braun(参考訳) 衛星画像を用いた山火事検出はリモートセンシングにおいて広く研究されている課題であり, 消火・マッピングへの多くの応用がある。 近年、ディープラーニング手法は、特にトレーニングデータがない教師なし学習の分野で、このタスクを自動化するためのスケーラブルなソリューションとなっている。 これは、一般的に高解像度衛星データに基づいて、迅速かつ効果的な検出が必要な緊急リスク監視の文脈において特に重要である。 様々なアプローチの中で、Anomaly Detection (AD) はコンピュータビジョン、医療画像、およびリモートセンシングに広く応用されているため、非常に有望である。 本研究では,ベクトル量子化変分オートエンコーダ(vq-vae,vector quantized variational autoencoder,vq-vae)の枠組みを構築し,非教師なしバーント領域抽出を行う。 vq-vaeをエンド・ツー・エンドのフレームワークに統合し,専用の植生,水,明るさ指標を用いた集中的な後処理ステップを提案する。 高分解能spot-6/7画像を用いた実験により,提案手法の有望な結果が得られた。

Wildfire detection using satellite images is a widely studied task in remote sensing with many applications to fire delineation and mapping. Recently, deep learning methods have become a scalable solution to automate this task, especially in the field of unsupervised learning where no training data is available. This is particularly important in the context of emergency risk monitoring where fast and effective detection is needed, generally based on high-resolution satellite data. Among various approaches, Anomaly Detection (AD) appears to be highly potential thanks to its broad applications in computer vision, medical imaging, as well as remote sensing. In this work, we build upon the framework of Vector Quantized Variational Autoencoder (VQ-VAE), a popular reconstruction-based AD method with discrete latent spaces, to perform unsupervised burnt area extraction. We integrate VQ-VAE into an end-to-end framework with an intensive post-processing step using dedicated vegetation, water and brightness indexes. Our experiments conducted on high-resolution SPOT-6/7 images provide promising results of the proposed technique, showing its high potential in future research on unsupervised burnt area extraction.
翻訳日:2023-08-28 13:50:05 公開日:2023-08-25
# 量子スピン鎖の作業統計:量子相転移の特徴付け、ベンチマーク時間進化、量子状態の通過率の検討

Work statistics for Quantum Spin Chains: characterizing quantum phase transitions, benchmarking time evolution, and examining passivity of quantum states ( http://arxiv.org/abs/2308.13366v1 )

ライセンス: Link先を確認
Feng-Li Lin and Ching-Yu Huang(参考訳) 量子スピン鎖のゆらぎ定理の文脈における作業統計の3つの側面を行列積状態に基づく数値的手法により検討する。 まず,スピンチェーン上で急速クエンチによる研究が量子相転移(qpt)を特徴付けるのに有効であることを詳述する。 さらに,Ising 鎖やHaldane 鎖のような位相型といったランダウ・ギンズブルグ型およびランドウ・ギンズブルグ型のQPTを特徴付ける能力を示す数値結果を得る。 第2に,実時間コリレータと熱分割関数の比を関連付けるjarzynskiの等式のようなゆらぎ定理を,数値的実時間発展手法のベンチマーク指標として用いることを提案する。 第三に、いくつかの周期的インパルス過程下での量子スピン鎖の基底状態と熱状態の通過率について研究する。 我々は熱状態の過渡性を検証する。 さらに、Ising様鎖のいくつかの基底状態は、自発的あるいは明示的な対称性の破れからスピン秩序が小さく、量子エンジンに利用できるように活性であることがわかった。

We study three aspects of work statistics in the context of the fluctuation theorem for the quantum spin chains by numerical methods based on matrix-product states. First, we elaborate that the work done on the spin-chain by a sudden quench can be used to characterize the quantum phase transitions (QPT). We further obtain the numerical results to demonstrate its capability of characterizing the QPT of both Landau-Ginzbrug types, such as the Ising chain, or topological types, such as the Haldane chain. Second, we propose to use the fluctuation theorem, such as Jarzynski's equality, which relates the real-time correlator to the ratio of the thermal partition functions, as a benchmark indicator for the numerical real-time evolving methods. Third, we study the passivity of ground and thermal states of quantum spin chains under some cyclic impulse processes. We verify the passivity of thermal states. Furthermore, we find that some ground states in the Ising-like chain, with less overall spin order from spontaneous or explicit symmetry breaking, can be active so that they can be exploited for quantum engines.
翻訳日:2023-08-28 13:49:45 公開日:2023-08-25
# CS-Mixer:空間-チャネル混合を用いた大規模視覚MLPモデル

CS-Mixer: A Cross-Scale Vision MLP Model with Spatial-Channel Mixing ( http://arxiv.org/abs/2308.13363v1 )

ライセンス: Link先を確認
Jonathan Cui, David A. Araujo, Suman Saha, Md. Faisal Kabir(参考訳) Vision TransformersやConvolutional Neural Networksに比べて情報融合設計はシンプルだが、Vision MLPアーキテクチャは最近の研究で高い性能と高いデータ効率を示している。 しかし、cyclemlpやvision permutatorのような既存の作品は、通常等サイズの空間領域における空間情報をモデル化し、クロススケールな空間的相互作用を考慮しない。 さらに、トークンミキサーは1軸または2軸の相関のみをモデル化し、3軸の空間チャネル混合を避ける。 そこで我々は,空間チャネル混合のための動的低ランク変換を局所的および大域的集約を通じて学習する階層型視覚MLPCS-Mixerを提案する。 提案手法は,画像認識ベンチマークにおいて,計算量を大幅に増やさずに競合する結果を得る。 我々の最大のモデルであるCS-Mixer-Lは、13.7 GFLOPと94Mパラメータを持つImageNet-1kで83.2%の精度に達した。

Despite their simpler information fusion designs compared with Vision Transformers and Convolutional Neural Networks, Vision MLP architectures have demonstrated strong performance and high data efficiency in recent research. However, existing works such as CycleMLP and Vision Permutator typically model spatial information in equal-size spatial regions and do not consider cross-scale spatial interactions. Further, their token mixers only model 1- or 2-axis correlations, avoiding 3-axis spatial-channel mixing due to its computational demands. We therefore propose CS-Mixer, a hierarchical Vision MLP that learns dynamic low-rank transformations for spatial-channel mixing through cross-scale local and global aggregation. The proposed methodology achieves competitive results on popular image recognition benchmarks without incurring substantially more compute. Our largest model, CS-Mixer-L, reaches 83.2% top-1 accuracy on ImageNet-1k with 13.7 GFLOPs and 94 M parameters.
翻訳日:2023-08-28 13:49:24 公開日:2023-08-25
# Harvard Glaucoma Detection and Progression: A Multimodal Multitask Dataset and Generalization-Reinforced Semi-Supervised Learning

Harvard Glaucoma Detection and Progression: A Multimodal Multitask Dataset and Generalization-Reinforced Semi-Supervised Learning ( http://arxiv.org/abs/2308.13411v1 )

ライセンス: Link先を確認
Yan Luo, Min Shi, Yu Tian, Tobias Elze, Mengyu Wang(参考訳) 緑内障は世界規模で不可逆性の盲目の原因の1つだ。 光コヒーレンス断層撮影(oct)の最先端(sota)3d網膜イメージングデータを有する限定ラベル患者のボトルネックは、正確な緑内障検出と進行予測のための大きな課題である。 データ不足問題に対処するため,本稿では2つの解決策を提案する。 まず,新しい一般化強化半教師付き学習(ssl)モデルであるpseudo supervisorを開発し,ラベルなしデータを最適に活用する。 sotaモデルと比較すると,提案する擬似スーパーバイザはラベルなしサンプルで擬似ラベルを予測するポリシーを最適化し,経験的一般化を改善する。 緑内障検出と進行予測の2つの臨床課題から,疑似スーパーバイザーモデルの評価を行った。 進行予測タスクは、一様かつ多様に評価される。 擬似スーパーバイザモデルはSOTA SSL比較モデルよりも優れた性能を示す。 さらに,本モデルでは,一般公開されたLAGファンドデータセットの最良の結果も得られる。 第2にHarvard-GDP(Harvard Glaucoma Detection and Progression)データセットを導入する。これはマルチモーダルなマルチタスクデータセットで,OCT画像データ1,000例のデータと緑内障検出と進行のラベルを含む。 これは3d oct画像データを持つ最大の緑内障検出データセットであり、一般公開されている最初の緑内障進行予測データセットである。 詳細な性別と人種分析が提供され、興味のある研究者がフェアネス学習研究に利用することができる。 我々のリリースデータセットは、いくつかのSOTA教師付きCNNとトランスフォーマー深層学習モデルでベンチマークされている。 データセットとコードは \url{https://ophai.hms.harvard.edu/datasets/harvard-gdp1000} で公開されている。

Glaucoma is the number one cause of irreversible blindness globally. A major challenge for accurate glaucoma detection and progression forecasting is the bottleneck of limited labeled patients with the state-of-the-art (SOTA) 3D retinal imaging data of optical coherence tomography (OCT). To address the data scarcity issue, this paper proposes two solutions. First, we develop a novel generalization-reinforced semi-supervised learning (SSL) model called pseudo supervisor to optimally utilize unlabeled data. Compared with SOTA models, the proposed pseudo supervisor optimizes the policy of predicting pseudo labels with unlabeled samples to improve empirical generalization. Our pseudo supervisor model is evaluated with two clinical tasks consisting of glaucoma detection and progression forecasting. The progression forecasting task is evaluated both unimodally and multimodally. Our pseudo supervisor model demonstrates superior performance than SOTA SSL comparison models. Moreover, our model also achieves the best results on the publicly available LAG fundus dataset. Second, we introduce the Harvard Glaucoma Detection and Progression (Harvard-GDP) Dataset, a multimodal multitask dataset that includes data from 1,000 patients with OCT imaging data, as well as labels for glaucoma detection and progression. This is the largest glaucoma detection dataset with 3D OCT imaging data and the first glaucoma progression forecasting dataset that is publicly available. Detailed sex and racial analysis are provided, which can be used by interested researchers for fairness learning studies. Our released dataset is benchmarked with several SOTA supervised CNN and transformer deep learning models. The dataset and code are made publicly available via \url{https://ophai.hms.harvard.edu/datasets/harvard-gdp1000}.
翻訳日:2023-08-28 13:43:28 公開日:2023-08-25
# 視覚・車体センサを用いた運転行動分析:サーベイ

Using Visual and Vehicular Sensors for Driver Behavior Analysis: A Survey ( http://arxiv.org/abs/2308.13406v1 )

ライセンス: Link先を確認
Bikram Adhikari(参考訳) 危険ドライバーは米国での死亡事故の70%を占めている。 近年のセンサやインテリジェント車両システムの進歩により、運転経験と道路安全を改善するために運転行動を評価する重要な研究がなされている。 本稿では,視覚・車体データを用いた運転者の行動分析手法について検討し,この分野での最新の研究の概要を紹介する。 本稿は、この分野における課題とオープンな課題についても論じ、今後の研究を推奨する。 その結果,視覚情報と車両情報の統合により,運転行動分析の精度と有効性が著しく向上し,安全対策や交通事故の低減につながることがわかった。

Risky drivers account for 70% of fatal accidents in the United States. With recent advances in sensors and intelligent vehicular systems, there has been significant research on assessing driver behavior to improve driving experiences and road safety. This paper examines the various techniques used to analyze driver behavior using visual and vehicular data, providing an overview of the latest research in this field. The paper also discusses the challenges and open problems in the field and offers potential recommendations for future research. The survey concludes that integrating vision and vehicular information can significantly enhance the accuracy and effectiveness of driver behavior analysis, leading to improved safety measures and reduced traffic accidents.
翻訳日:2023-08-28 13:43:00 公開日:2023-08-25
# 影とハイライトヒントによる神経放射野の再生

Relighting Neural Radiance Fields with Shadow and Highlight Hints ( http://arxiv.org/abs/2308.13404v1 )

ライセンス: Link先を確認
Chong Zeng and Guojun Chen and Yue Dong and Pieter Peers and Hongzhi Wu and Xin Tong(参考訳) 本稿では,移動点光源によって照らされた物体の小さな非構造化写真から自由視点を照らし出すための,新しい神経的暗黙的照度表現を提案する。 この形状を多層パーセプトロンでモデル化した符号付き距離関数として表現する。 先行した可視性暗黙の神経表現とは対照的に、異なる反射率成分を分離するのではなく、密度特徴に加えて、現在の位置、(符号付きディザス関数からの)正常位置、視野方向、光位置が、対応する高周波光輸送効果のモデル化においてネットワークを補助するために影とハイライトのヒントを取るように、各点の局所的反射率と大域的反射率の両方を第2多層パーセプトロンでモデル化する。 これらのヒントは提案として提供され、最終的なリライト結果にそれらを組み込む方法を決定するために、ネットワークに委ねます。 我々は,多種多様な形状,材料特性,大域的な照明光輸送を示す合成シーンと実シーンにおける我々の神経暗黙表現を実証し,検証した。

This paper presents a novel neural implicit radiance representation for free viewpoint relighting from a small set of unstructured photographs of an object lit by a moving point light source different from the view position. We express the shape as a signed distance function modeled by a multi layer perceptron. In contrast to prior relightable implicit neural representations, we do not disentangle the different reflectance components, but model both the local and global reflectance at each point by a second multi layer perceptron that, in addition, to density features, the current position, the normal (from the signed distace function), view direction, and light position, also takes shadow and highlight hints to aid the network in modeling the corresponding high frequency light transport effects. These hints are provided as a suggestion, and we leave it up to the network to decide how to incorporate these in the final relit result. We demonstrate and validate our neural implicit representation on synthetic and real scenes exhibiting a wide variety of shapes, material properties, and global illumination light transport.
翻訳日:2023-08-28 13:42:48 公開日:2023-08-25
# EntropyRank: 言語モデルに基づくテキスト圧縮のためのサイド情報最適化による教師なしキーフレーズ抽出

EntropyRank: Unsupervised Keyphrase Extraction via Side-Information Optimization for Language Model-based Text Compression ( http://arxiv.org/abs/2308.13399v1 )

ライセンス: Link先を確認
Alexander Tsvetkov. Alon Kipnis(参考訳) 本稿では,事前学習言語モデル(LM)とシャノンの情報最大化に基づくテキストからキーワードやキーワードを抽出する教師なし手法を提案する。 具体的には,LMの条件エントロピーが最も高い句を抽出する。 副作用として提供されると、LMとエントロピーエンコーダを使ってテキストを圧縮する際に、期待される最小のバイナリコード長につながる。 逆に、結果の集合は因果的LMによる近似であり、その上で条件付けられたテキストのエントロピーを最小限にするフレーズの集合である。 経験的に、この手法は様々なキーフレーズ抽出ベンチマークでよく使われる手法に匹敵する結果を提供する。

We propose an unsupervised method to extract keywords and keyphrases from texts based on a pre-trained language model (LM) and Shannon's information maximization. Specifically, our method extracts phrases having the highest conditional entropy under the LM. The resulting set of keyphrases turns out to solve a relevant information-theoretic problem: if provided as side information, it leads to the expected minimal binary code length in compressing the text using the LM and an entropy encoder. Alternately, the resulting set is an approximation via a causal LM to the set of phrases that minimize the entropy of the text when conditioned upon it. Empirically, the method provides results comparable to the most commonly used methods in various keyphrase extraction benchmark challenges.
翻訳日:2023-08-28 13:42:26 公開日:2023-08-25
# 場の量子論における断熱的近道完全性:生成粒子の消滅

Adiabatic Shortcuts Completion in Quantum Field Theory: Annihilation of Created Particles ( http://arxiv.org/abs/2308.13397v1 )

ライセンス: Link先を確認
Nicol\'as F. Del Grosso, Fernando C. Lombardo, Francisco D. Mazzitelli, Paula I. Villar(参考訳) adiabaticity (sta) への近道は量子システムの文脈、特に時間に依存した外部条件下での制御に関係している。 本稿では,2つの可動鏡を含む1次元空洞内に閉じ込められた量子場に対する,非断熱的進化のショートカットへの完了について検討する。 先行研究に基づき,2つのムーア関数を用いて,STA構築におけるリバースエンジニアリング技術の適用を可能にするフィールドの状態を特徴付ける。 最初の進化にかかわらず、STAを実装するムーア関数の滑らかな拡張を達成する。 この拡張は上記の関数に基づいてミラーの軌道の計算を容易にする。 さらに、非相対論的量子力学における同等の問題の存在に注意を払う。

Shortcuts to adiabaticity (STA) are relevant in the context of quantum systems, particularly regarding their control when they are subjected to time-dependent external conditions. In this paper, we investigate the completion of a nonadiabatic evolution into a shortcut to adiabaticity for a quantum field confined within a one-dimensional cavity containing two movable mirrors. Expanding upon our prior research, we characterize the field's state using two Moore functions that enables us to apply reverse engineering techniques in constructing the STA. Regardless of the initial evolution, we achieve a smooth extension of the Moore functions that implements the STA. This extension facilitates the computation of the mirrors' trajectories based on the aforementioned functions. Additionally, we draw attention to the existence of a comparable problem within nonrelativistic quantum mechanics.
翻訳日:2023-08-28 13:42:13 公開日:2023-08-25
# グローバル特徴とハイパーカラム特徴の相互学習による自己教師付き表現学習

Self-Supervised Representation Learning with Cross-Context Learning between Global and Hypercolumn Features ( http://arxiv.org/abs/2308.13392v1 )

ライセンス: Link先を確認
Zheng Gao, Chen Feng, Ioannis Patras(参考訳) 対照的な学習は、同じインスタンスの異なる拡張ビューをマッチングすることで強力な表現をもたらすが、異なるインスタンス間の類似性をキャプチャする能力が欠けている。 この制限に対処する一般的な方法の1つは、学生のグローバルな特徴の学習を指導するために教師のグローバルな特徴が使用される知識蒸留に基づくインスタンス間関係を捉えるために、グローバルな特徴(グローバルプールの後)を学ぶことである。 クロスモダリティ学習にインスパイアされたこの既存のフレームワークは、グローバル機能と中間層機能を相互に学習させることによって、グローバル機能からのみ学習する。 グローバルとハイパーカラムの機能間のクロスコンテキスト学習(CGH)は、低レベルのセマンティクスと高レベルのセマンティクス間のインスタンス関係の一貫性を強制する。 具体的には、中間特徴写像を積み重ねてハイパーカラム表現を構築し、2つのコンテキスト(ハイパーカラムとグローバルな特徴)を用いてインスタンス関係を別々に測定し、一方のコンテキストの関係を使って他方の学習を導く。 このクロスコンテキスト学習は、モデルが2つのコンテキストの違いから学ぶことを可能にする。 線形分類とダウンストリームタスクの実験結果は,本手法が最先端手法よりも優れていることを示している。

Whilst contrastive learning yields powerful representations by matching different augmented views of the same instance, it lacks the ability to capture the similarities between different instances. One popular way to address this limitation is by learning global features (after the global pooling) to capture inter-instance relationships based on knowledge distillation, where the global features of the teacher are used to guide the learning of the global features of the student. Inspired by cross-modality learning, we extend this existing framework that only learns from global features by encouraging the global features and intermediate layer features to learn from each other. This leads to our novel self-supervised framework: cross-context learning between global and hypercolumn features (CGH), that enforces the consistency of instance relations between low- and high-level semantics. Specifically, we stack the intermediate feature maps to construct a hypercolumn representation so that we can measure instance relations using two contexts (hypercolumn and global feature) separately, and then use the relations of one context to guide the learning of the other. This cross-context learning allows the model to learn from the differences between the two contexts. The experimental results on linear classification and downstream tasks show that our method outperforms the state-of-the-art methods.
翻訳日:2023-08-28 13:42:02 公開日:2023-08-25
# テンポラル誘導型バイラテラル学習による方向認識ビデオ復調

Direction-aware Video Demoireing with Temporal-guided Bilateral Learning ( http://arxiv.org/abs/2308.13388v1 )

ライセンス: Link先を確認
Shuning Xu, Binbin Song, Xiangyu Chen, and Jiantao Zhou(参考訳) moireパターンは、画面上で画像やビデオを撮影して、キャプチャした画像やビデオの品質を著しく低下させるときに発生する。 近年の進歩にもかかわらず、既存の映像復調法はモアレパターンの物理的特徴や形成過程を無視し、映像再生の有効性を著しく制限している。 本稿では,映像復調のための方向認識と時間制御による双方向学習ネットワークdtnetについて述べる。 DTNetは、モアレパターンの除去、アライメント、色補正、ディテール改善のプロセスを効果的に取り入れている。 提案するDTNetは,フレームレベル指向型デモアライメント・アライメント(FDDA)とトーン・ディテール・リファインメント(TDR)の2段階からなる。 FDDAでは、複数の方向DCTモードを用いて周波数領域におけるモアレパターン除去処理を行い、顕著なモアレエッジを効果的に検出する。 そして、隣接情報の活用を容易にするために、破砕特徴に粗粒度及び細粒度アライメントを適用する。 tdrでは,fddaで復元された周波数情報を保存しつつ,moireパターンによる色や詳細の劣化を軽減するために,時間的ガイド付きバイラテラル学習パイプラインを提案する。 FDDAの時間的特徴に則って、究極のクリーンフレームの回復のためのアフィン変換をTDRで学習する。 広汎な実験により,PSNRの2.3dBによる最先端の手法よりも優れた映像体験を実現することができた。

Moire patterns occur when capturing images or videos on screens, severely degrading the quality of the captured images or videos. Despite the recent progresses, existing video demoireing methods neglect the physical characteristics and formation process of moire patterns, significantly limiting the effectiveness of video recovery. This paper presents a unified framework, DTNet, a direction-aware and temporal-guided bilateral learning network for video demoireing. DTNet effectively incorporates the process of moire pattern removal, alignment, color correction, and detail refinement. Our proposed DTNet comprises two primary stages: Frame-level Direction-aware Demoireing and Alignment (FDDA) and Tone and Detail Refinement (TDR). In FDDA, we employ multiple directional DCT modes to perform the moire pattern removal process in the frequency domain, effectively detecting the prominent moire edges. Then, the coarse and fine-grained alignment is applied on the demoired features for facilitating the utilization of neighboring information. In TDR, we propose a temporal-guided bilateral learning pipeline to mitigate the degradation of color and details caused by the moire patterns while preserving the restored frequency information in FDDA. Guided by the aligned temporal features from FDDA, the affine transformations for the recovery of the ultimate clean frames are learned in TDR. Extensive experiments demonstrate that our video demoireing method outperforms state-of-the-art approaches by 2.3 dB in PSNR, and also delivers a superior visual experience.
翻訳日:2023-08-28 13:41:37 公開日:2023-08-25
# Do-Not-Answer: LLMにおけるセーフガードの評価データセット

Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs ( http://arxiv.org/abs/2308.13387v1 )

ライセンス: Link先を確認
Yuxia Wang, Haonan Li, Xudong Han, Preslav Nakov, Timothy Baldwin(参考訳) 大きな言語モデル(LLM)の急速な進化に伴い、新しく予測しにくい有害な能力が出現している。 これによって開発者は,LSMを責任を持ってデプロイするために,“危険な機能”の評価を通じてリスクを識別することが可能になる。 本研究では,LLMの安全性を評価するための最初のオープンソースデータセットを収集し,より安全なLLMを低コストでデプロイする。 私たちのデータセットは、責任ある言語モデルが従うべきでない命令のみで構成されている。 これらの命令に対する6つの人気のあるLCMの応答を注釈し評価する。 本アノテーションに基づき, BERTライクな分類器を複数トレーニングし, 自動安全性評価において, GPT-4に匹敵する結果が得られることを確認した。 警告: 本論文は攻撃的、有害、または偏見のあるデータを含む。

With the rapid evolution of large language models (LLMs), new and hard-to-predict harmful capabilities are emerging. This requires developers to be able to identify risks through the evaluation of "dangerous capabilities" in order to responsibly deploy LLMs. In this work, we collect the first open-source dataset to evaluate safeguards in LLMs, and deploy safer open-source LLMs at a low cost. Our dataset is curated and filtered to consist only of instructions that responsible language models should not follow. We annotate and assess the responses of six popular LLMs to these instructions. Based on our annotation, we proceed to train several BERT-like classifiers, and find that these small classifiers can achieve results that are comparable with GPT-4 on automatic safety evaluation. Warning: this paper contains example data that may be offensive, harmful, or biased.
翻訳日:2023-08-28 13:41:05 公開日:2023-08-25
# TFDNet:長期連続予測のための時間周波数拡張分解ネットワーク

TFDNet: Time-Frequency Enhanced Decomposed Network for Long-term Time Series Forecasting ( http://arxiv.org/abs/2308.13386v1 )

ライセンス: Link先を確認
Yuxiao Luo, Ziyu Lyu, Xingyu Huang(参考訳) 長期的な時系列予測は重要な課題であり、幅広い応用例がある。 最近の手法では、1つのドメイン(例えば、時間領域や周波数領域)から基礎となるパターンを捉えることに重点を置いており、時間周波数領域から長期時系列を処理するための全体論的な視点を持っていない。 本稿では,時間周波数領域から長期的パターンと時間周期性の両方を捉えるための時間周波数強化分解ネットワーク(tfdnet)を提案する。 tfdnetでは、マルチスケールの時間周波数エンコーダバックボーンを考案し、2つの異なるトレンドと季節の時間周波数ブロックを開発し、分解されたトレンドと季節成分の異なるパターンをマルチレゾリューションで捉える。 時間周波数ブロックにおけるカーネル操作の多様なカーネル学習戦略について,多変量時系列のチャネルワイド相関パターンについて検討し,検討した。 5つのベンチマークドメインから8つのデータセットを実験的に評価したところ、TFDNetは有効性と効率の両方において最先端のアプローチよりも優れていることがわかった。

Long-term time series forecasting is a vital task and has a wide range of real applications. Recent methods focus on capturing the underlying patterns from one single domain (e.g. the time domain or the frequency domain), and have not taken a holistic view to process long-term time series from the time-frequency domains. In this paper, we propose a Time-Frequency Enhanced Decomposed Network (TFDNet) to capture both the long-term underlying patterns and temporal periodicity from the time-frequency domain. In TFDNet, we devise a multi-scale time-frequency enhanced encoder backbone and develop two separate trend and seasonal time-frequency blocks to capture the distinct patterns within the decomposed trend and seasonal components in multi-resolutions. Diverse kernel learning strategies of the kernel operations in time-frequency blocks have been explored, by investigating and incorporating the potential different channel-wise correlation patterns of multivariate time series. Experimental evaluation of eight datasets from five benchmark domains demonstrated that TFDNet is superior to state-of-the-art approaches in both effectiveness and efficiency.
翻訳日:2023-08-28 13:40:51 公開日:2023-08-25
# d+1)$次元安定化回路における絡み合いと吸収状態遷移

Entanglement and absorbing state transitions in $(d+1)$-dimensional stabilizer circuits ( http://arxiv.org/abs/2308.13384v1 )

ライセンス: Link先を確認
Piotr Sierant and Xhek Turkeshi(参考訳) 本研究では,$(d+1)$次元監視ランダム量子回路のダイナミクスに及ぼすフィードバック操作の影響について検討する。 ユニタリダイナミクスと測定値の競合は絡み合った相転移をもたらすが、フィードバックはダイナミクスを吸収状態へ誘導し、吸収状態の相転移をもたらす。 1つの空間次元における以前の結果に基づく[Phys. Rev. 130, 120402 (2023)]、我々は、d \ge 2$の2種類の遷移間の相互作用について議論する。 (i)短期フィードバック操作又は (ii) 追加のグローバルコントロール操作。 どちらの場合でも、吸収状態遷移は$d$-dimensional directed percolation universalityクラスに属する。 対照的に、絡み合う遷移はフィードバック操作のタイプに依存し、ダイナミクスの不等価な特徴を明らかにする。 短距離フィードバック操作では、絡み合いと吸収状態の位相遷移が分離されている。 グローバル制御操作が適用されると、2つの臨界点が一致することが分かるが、制御操作の選択によっても普遍性クラスは依然として異なる可能性がある。

We study the influence of feedback operations on the dynamics of $(d+1)$-dimensional monitored random quantum circuit. Competition between unitary dynamics and measurements leads to an entanglement phase transition, while the feedback steers the dynamics towards an absorbing state, yielding an absorbing state phase transition. Building on previous results in one spatial dimension [Phys. Rev. Lett. 130, 120402 (2023)], we discuss the interplay between the two types of transitions for $d \ge 2$ in the presence of (i) short-range feedback operations or (ii) additional global control operations. In both cases, the absorbing state transition belongs to the $d$-dimensional directed percolation universality class. In contrast, the entanglement transition depends on the feedback operation type and reveals the dynamics' inequivalent features. The entanglement and absorbing state phase transition remain separated for short-range feedback operations. When global control operations are applied, we find the two critical points coinciding; nevertheless, the universality class may still differ, depending on the choice of the control operation.
翻訳日:2023-08-28 13:40:30 公開日:2023-08-25
# 知識グラフにおけるサイバー物理生産システムの時間自動表現とタイミング異常

Representing Timed Automata and Timing Anomalies of Cyber-Physical Production Systems in Knowledge Graphs ( http://arxiv.org/abs/2308.13433v1 )

ライセンス: Link先を確認
Tom Westermann, Milapji Singh Gill, Alexander Fay(参考訳) モデルに基づく異常検出は,サイバー物理生産システムの期待する挙動から逸脱を識別する手法として成功している。 これらのモデルのマニュアル作成は時間を要するプロセスであるため、データからそれらを学び、タイムドオートマトンのような一般的な形式で表現することが有利である。 しかしながら、これらのモデル — および拡張によって検出された異常 — は、システムに関する追加情報がないため、解釈が難しい場合がある。 本稿では,学習されたタイムドオートマトンとシステムに関する公式知識グラフを組み合わせることで,CPPSのモデルベース異常検出を改善することを目的とする。 モデルと検出された異常は、オペレーターがモデルと検出された異常をより容易に解釈できるように、知識グラフに記述される。 著者らは必要概念のオントロジーも提案している。 この手法は5タンク混合CPPSで検証され、オートマチックモデルと自動実行時のタイミング異常の両方を正式に定義することができた。

Model-Based Anomaly Detection has been a successful approach to identify deviations from the expected behavior of Cyber-Physical Production Systems. Since manual creation of these models is a time-consuming process, it is advantageous to learn them from data and represent them in a generic formalism like timed automata. However, these models - and by extension, the detected anomalies - can be challenging to interpret due to a lack of additional information about the system. This paper aims to improve model-based anomaly detection in CPPS by combining the learned timed automaton with a formal knowledge graph about the system. Both the model and the detected anomalies are described in the knowledge graph in order to allow operators an easier interpretation of the model and the detected anomalies. The authors additionally propose an ontology of the necessary concepts. The approach was validated on a five-tank mixing CPPS and was able to formally define both automata model as well as timing anomalies in automata execution.
翻訳日:2023-08-28 13:32:15 公開日:2023-08-25
# 線形ニューラルネットワークに関する6つの講義

Six Lectures on Linearized Neural Networks ( http://arxiv.org/abs/2308.13431v1 )

ライセンス: Link先を確認
Theodor Misiakiewicz, Andrea Montanari(参考訳) これら6つの講義において,線形モデルの解析から多層ニューラルネットワークの挙動について何が学べるかを検討する。 まず、ニューラルネットワークと線形モデルとの対応を、いわゆる遅延状態を通じて思い出す。 次に,線形化ニューラルネットワークの4つのモデルについて検討する。集中的特徴を持つ線形回帰,カーネルリッジ回帰,ランダム特徴モデル,神経接モデルである。 最後に、線形理論の限界を強調し、他のアプローチがそれらを克服する方法について論じる。

In these six lectures, we examine what can be learnt about the behavior of multi-layer neural networks from the analysis of linear models. We first recall the correspondence between neural networks and linear models via the so-called lazy regime. We then review four models for linearized neural networks: linear regression with concentrated features, kernel ridge regression, random feature model and neural tangent model. Finally, we highlight the limitations of the linear theory and discuss how other approaches can overcome them.
翻訳日:2023-08-28 13:31:46 公開日:2023-08-25
# ハニカム原子配列における位相的フォトニックバンドギャップ

Topological photonic band gaps in honeycomb atomic arrays ( http://arxiv.org/abs/2308.13423v1 )

ライセンス: Link先を確認
Pierre Wulles, Sergey E. Skipetrov(参考訳) 面内電磁場によって結合された2次元平面ハニカム格子の励起スペクトルは、外部磁場を印加するか、ハニカム1が重ね合わせである2つの三角形部分格子間の対称性を破ることによって、開口可能なバンドギャップを示すことができる。 バンドギャップ開きの条件を確立し、ギャップの幅を計算し、その位相特性をトポロジ的指標(Chern number)で特徴づける。 バンドギャップのトポロジカルな性質は、バンドエッジ近傍の周波数を持つモードに対する2つの三角形部分格子間の人口不均衡の逆転をもたらす。 また、スペクトルギャップを閉じることなく、無限に間隔づけられた非相互作用原子の自明な極限への遷移を禁止している。 原子核共鳴周波数における自由空間波数である$d < {\pi}/k_0$ の小さなミラー間隔を持つファブリー・ピエロト空洞で格子を囲むと、その位相特性を変更せずに原子面からのエネルギーの漏れを抑えることで系エルミートをレンダリングする。 対照的に、より大きな$d$はキャビティミラーの反射によって構築された光モードを伝播し、自由支持格子のバンドギャップの内部に周波数を持つため、後者を閉じる。

The spectrum of excitations a two-dimensional, planar honeycomb lattice of two-level atoms coupled by the in-plane electromagnetic field may exhibit band gaps that can be opened either by applying an external magnetic field or by breaking the symmetry between the two triangular sublattices of which the honeycomb one is a superposition. We establish the conditions of band gap opening, compute the width of the gap, and characterize its topological property by a topological index (Chern number). The topological nature of the band gap leads to inversion of the population imbalance between the two triangular sublattices for modes with frequencies near band edges. It also prohibits a transition to the trivial limit of infinitely spaced, noninteracting atoms without closing the spectral gap. Surrounding the lattice by a Fabry-P\'erot cavity with small intermirror spacing $d < {\pi}/k_0$ , where $k_0$ is the free-space wave number at the atomic resonance frequency, renders the system Hermitian by suppressing the leakage of energy out of the atomic plane without modifying its topological properties. In contrast, a larger $d$ allows for propagating optical modes that are built up due to reflections at the cavity mirrors and have frequencies inside the band gap of the free-standing lattice, thus closing the latter.
翻訳日:2023-08-28 13:31:38 公開日:2023-08-25
# QKSAN:量子カーネル自己アテンションネットワーク

QKSAN: A Quantum Kernel Self-Attention Network ( http://arxiv.org/abs/2308.13422v1 )

ライセンス: Link先を確認
Ren-Xin Zhao and Jinjing Shi and Xuelong Li(参考訳) SAM(Self-Attention Mechanism)は、データの内部から重要な情報を抽出し、モデルの計算効率を向上させる。 それにもかかわらず、多くの量子機械学習(qml)モデルは、samのような情報の本質的な接続を区別する能力が欠けている。 この問題に対処するため、Quantum Kernel Self-Attention Mechanism (QKSAM)を導入し、Quantum Kernel Methods (QKM)のデータ表現の利点とSAMの効率的な情報抽出能力を組み合わせた。 Quantum Kernel Self-Attention Network (QKSAN)フレームワークはQKSAMに基づいて構築されており、DMP(Dederred Measurement Principle)と条件測定技術により、計算中に確率的測定を行う量子リソースの半分を解放する。 qksas(quantum kernel self-attention score)は、測定条件を決定し、量子システムの確率的性質を反映している。 最後に、4つのQKSANモデルをPennylaneプラットフォームにデプロイし、MNISTイメージのバイナリ分類を実行する。 4つのモデルの中で最高のパフォーマンスは、ノイズ免疫と学習能力で評価される。 注目すべきなのは、古典的なディープラーニングよりも部分的なQKSANモデルの潜在的な学習の利点は、高い圧縮された画像であっても、98\%$\pm$ 1\%のテストとトレーニングの精度を高く評価するために、パラメータが少ないことである。 QKSANは将来の量子コンピュータの基礎を築き、膨大な量のデータを機械学習し、量子自然言語処理(NLP)のような分野の進歩を推進している。

Self-Attention Mechanism (SAM) is skilled at extracting important information from the interior of data to improve the computational efficiency of models. Nevertheless, many Quantum Machine Learning (QML) models lack the ability to distinguish the intrinsic connections of information like SAM, which limits their effectiveness on massive high-dimensional quantum data. To address this issue, a Quantum Kernel Self-Attention Mechanism (QKSAM) is introduced, which combines the data representation benefit of Quantum Kernel Methods (QKM) with the efficient information extraction capability of SAM. A Quantum Kernel Self-Attention Network (QKSAN) framework is built based on QKSAM, with Deferred Measurement Principle (DMP) and conditional measurement techniques, which releases half of the quantum resources with probabilistic measurements during computation. The Quantum Kernel Self-Attention Score (QKSAS) determines the measurement conditions and reflects the probabilistic nature of quantum systems. Finally, four QKSAN models are deployed on the Pennylane platform to perform binary classification on MNIST images. The best-performing among the four models is assessed for noise immunity and learning ability. Remarkably, the potential learning benefit of partial QKSAN models over classical deep learning is that they require few parameters for a high return of 98\% $\pm$ 1\% test and train accuracy, even with highly compressed images. QKSAN lays the foundation for future quantum computers to perform machine learning on massive amounts of data, while driving advances in areas such as quantum Natural Language Processing (NLP).
翻訳日:2023-08-28 13:31:12 公開日:2023-08-25
# マルチモーダル感情分析における多様な特徴の活用

Exploiting Diverse Feature for Multimodal Sentiment Analysis ( http://arxiv.org/abs/2308.13421v1 )

ライセンス: Link先を確認
Jia Li, Wei Qian, Kun Li, Qi Li, Dan Guo, Meng Wang(参考訳) 本稿では, MuSe 2023 Multimodal Sentiment Analysis Challenge における MuSe-Personalization sub-challenge へのソリューションを提案する。 MuSe-Personalizationの課題は、参加者の音声・視覚・言語・生理的信号モダリティデータに基づいて、参加者の連続的な覚醒値と価値を予測することである。 異なる人の個性を考えると、このタスクの主な課題は、感情予測のための堅牢性機能プレゼンテーションを構築する方法である。 この問題に対処するために,多様な特徴を活用することを提案する。 具体的には,ロバスト表現とモデルアンサンブルを構築するための特徴抽出手法を提案する。 提案手法の有効性を,公式データセット上で実証的に評価した。 その結果,MuSe-Personalisationサブチャレンジでは3位となった。 具体的には, 覚醒とヴァレンスcccの観点から, ミューズパーソナライズにおける 0.8492 と 0.8439 の結果を得た。

In this paper, we present our solution to the MuSe-Personalisation sub-challenge in the MuSe 2023 Multimodal Sentiment Analysis Challenge. The task of MuSe-Personalisation aims to predict the continuous arousal and valence values of a participant based on their audio-visual, language, and physiological signal modalities data. Considering different people have personal characteristics, the main challenge of this task is how to build robustness feature presentation for sentiment prediction. To address this issue, we propose exploiting diverse features. Specifically, we proposed a series of feature extraction methods to build a robust representation and model ensemble. We empirically evaluate the performance of the utilized method on the officially provided dataset. \textbf{As a result, we achieved 3rd place in the MuSe-Personalisation sub-challenge.} Specifically, we achieve the results of 0.8492 and 0.8439 for MuSe-Personalisation in terms of arousal and valence CCC.
翻訳日:2023-08-28 13:30:40 公開日:2023-08-25
# 強化学習支援進化アルゴリズム:調査と研究の機会

Reinforcement Learning-assisted Evolutionary Algorithm: A Survey and Research Opportunities ( http://arxiv.org/abs/2308.13420v1 )

ライセンス: Link先を確認
Yanjie Song, Yutong Wu, Yangyang Guo, Ran Yan, P. N. Suganthan, Yue Zhang, Witold Pedrycz, Yingwu Chen, Swagatam Das, Rammohan Mallipeddi, Oladayo Solomon Ajani(参考訳) 自然進化の原理に基づく確率的探索アルゴリズムのクラスである進化アルゴリズム(ea)は、様々な最適化問題における例外的な性能で広く評価されている。 世界中の研究者が様々なEAを提案しているが、収束速度の低下や一般化能力の低下など、いくつかの制限が残っている。 その結果,アルゴリズム構造,演算子,探索パターンなどの改良を積極的に検討し,最適化性能の向上を図っている。 EAフレームワークのコンポーネントとして統合された強化学習(RL)は、近年、優れたパフォーマンスを示している。 本稿では、強化学習支援進化アルゴリズム(RL-EA)と呼ばれる進化アルゴリズムへの強化学習の統合に関する総合的な調査を行う。 まず,強化学習と進化的アルゴリズムを紹介する。 RL-EAの分類法を提供する。 次に、RL-EA統合手法、RL-EAが採用したRL-EA支援戦略、および既存文献による適用について述べる。 RL支援戦略は、ソリューション生成、学習可能な目的関数、アルゴリズム/オペレータ/サブポピュレーション選択、パラメータ適応、その他の戦略を含む実装された機能に応じて分割される。 その後、RL-EAにおけるRLの他の属性設定について論じる。 最後に,今後の研究の方向性について分析する。 本稿では,RL-EAに関心を持つ研究者を対象とした総合的な資料として,現状の概観と課題の強調を行う。 この調査を利用することで、読者はRL-EAに関する洞察を迅速に得ることができ、効率的なアルゴリズムを開発することができる。

Evolutionary algorithms (EA), a class of stochastic search algorithms based on the principles of natural evolution, have received widespread acclaim for their exceptional performance in various optimization problems. While researchers worldwide have proposed a wide variety of EAs, certain limitations remain, such as slow convergence speed and poor generalization capabilities. Consequently, numerous scholars are actively exploring improvements to algorithmic structures, operators, search patterns, etc., to enhance their optimization performance. Reinforcement learning (RL) integrated as a component in the EA framework has demonstrated superior performance in recent years. This paper presents a comprehensive survey on the integration of reinforcement learning into the evolutionary algorithm, referred to as reinforcement learning-assisted evolutionary algorithm (RL-EA). Firstly, we introduce reinforcement learning and the evolutionary algorithm. We then provide a taxonomy of RL-EA. We then discuss the RL-EA integration method, the RL-assisted strategy adopted by RL-EA, and its applications according to the existing literature. The RL-assisted strategy is divided according to the implemented functions including the solution generation, learnable objective function, algorithm/operator/sub-population selection, parameter adaptation, and other strategies. Subsequently, other attribute settings of RL in RL-EA are discussed. Finally, we analyze potential directions for future research. This paper serves as a comprehensive resource for researchers who are interested in RL-EA as it provides an overview of the current state-of-the-art and highlights the associated challenges. By leveraging this survey, readers can swiftly gain insights into RL-EA to develop efficient algorithms, thereby fostering further advancements in this emerging field.
翻訳日:2023-08-28 13:30:28 公開日:2023-08-25
# nougat: 学術文書に対する神経光学的理解

Nougat: Neural Optical Understanding for Academic Documents ( http://arxiv.org/abs/2308.13418v1 )

ライセンス: Link先を確認
Lukas Blecher, Guillem Cucurull, Thomas Scialom, Robert Stojnic(参考訳) 科学知識は、主に書籍や科学雑誌に保管され、しばしばpdf形式で保存される。 しかし、pdfフォーマットは意味的な情報、特に数学的表現が失われる原因となっている。 我々は,科学文書をマークアップ言語として処理する光学文字認識(OCR)タスクを実行するビジュアルトランスフォーマーモデルであるNougat(Neural Optical Understanding for Academic Documents)を提案する。 提案手法は,人間可読文書と機械可読テキストのギャップを埋めることで,デジタル時代の科学的知識のアクセシビリティを高めるための有望なソリューションを提供する。 我々は、科学的なテキスト認識の今後の取り組みを加速するために、モデルとコードをリリースする。

Scientific knowledge is predominantly stored in books and scientific journals, often in the form of PDFs. However, the PDF format leads to a loss of semantic information, particularly for mathematical expressions. We propose Nougat (Neural Optical Understanding for Academic Documents), a Visual Transformer model that performs an Optical Character Recognition (OCR) task for processing scientific documents into a markup language, and demonstrate the effectiveness of our model on a new dataset of scientific documents. The proposed approach offers a promising solution to enhance the accessibility of scientific knowledge in the digital age, by bridging the gap between human-readable documents and machine-readable text. We release the models and code to accelerate future work on scientific text recognition.
翻訳日:2023-08-28 13:30:02 公開日:2023-08-25
# sotana: オープンソースのソフトウェア開発アシスタント

SoTaNa: The Open-Source Software Development Assistant ( http://arxiv.org/abs/2308.13416v1 )

ライセンス: Link先を確認
Ensheng Shi, Fengji Zhang, Yanlin Wang, Bei Chen, Lun Du, Hongyu Zhang, Shi Han, Dongmei Zhang, Hongbin Sun(参考訳) ソフトウェア開発は、現代社会におけるイノベーションと効率性を促進する上で重要な役割を担います。 このダイナミックな分野の要求を満たすために、効果的なソフトウェア開発アシスタントの必要性が高まっている。 しかし、ChatGPTで表される既存の大規模言語モデルは、トレーニングデータやモデルの重みを含む限られたアクセシビリティに悩まされている。 LLaMAのような他の大規模なオープンソースモデルは有望だが、それでも人間の意図を理解するのに苦労している。 本稿では,オープンソースのソフトウェア開発アシスタントSoTaNaを紹介する。 SoTaNaはChatGPTを使用して、ソフトウェアエンジニアリングの領域における高品質な命令ベースのデータを生成し、パラメータ効率の良い微調整手法を用いて、オープンソースの基盤モデルであるLLaMAを強化する。 Stack Overflow質問に対する \our{} の有効性を評価し,その能力を実証する。 さらに、コード要約と生成におけるその能力と、生成されたデータ量の変化がモデルの性能に与える影響についても論じる。 SoTaNaは単一のGPU上で動かせるので、幅広い研究者が利用できる。 私たちのコード、モデルウェイト、データは、 \url{https://github.com/DeepSoftwareAnalytics/SoTaNa}で公開されています。

Software development plays a crucial role in driving innovation and efficiency across modern societies. To meet the demands of this dynamic field, there is a growing need for an effective software development assistant. However, existing large language models represented by ChatGPT suffer from limited accessibility, including training data and model weights. Although other large open-source models like LLaMA have shown promise, they still struggle with understanding human intent. In this paper, we present SoTaNa, an open-source software development assistant. SoTaNa utilizes ChatGPT to generate high-quality instruction-based data for the domain of software engineering and employs a parameter-efficient fine-tuning approach to enhance the open-source foundation model, LLaMA. We evaluate the effectiveness of \our{} in answering Stack Overflow questions and demonstrate its capabilities. Additionally, we discuss its capabilities in code summarization and generation, as well as the impact of varying the volume of generated data on model performance. Notably, SoTaNa can run on a single GPU, making it accessible to a broader range of researchers. Our code, model weights, and data are public at \url{https://github.com/DeepSoftwareAnalytics/SoTaNa}.
翻訳日:2023-08-28 13:29:47 公開日:2023-08-25
# 深層学習モデル選択が心MR区分けにおける性差と人種バイアスに及ぼす影響に関する研究

An investigation into the impact of deep learning model choice on sex and race bias in cardiac MR segmentation ( http://arxiv.org/abs/2308.13415v1 )

ライセンス: Link先を確認
Tiarna Lee, Esther Puyol-Ant\'on, Bram Ruijsink, Keana Aitcheson, Miaojing Shi, Andrew P. King(参考訳) 医療画像では、人工知能(AI)がルーチンタスクの自動化にますます利用されている。 しかし、これらのアルゴリズムは、保護されたグループ間で異なるパフォーマンスをもたらすバイアスを示し、悪化させる可能性がある。 トレーニングデータセットにおける性別と人種の不均衡が,aiに基づくシネ型磁気共鳴画像のセグメンテーションに与える影響について,モデル選択が与える影響について検討した。 我々は3つの畳み込みニューラルネットワークモデルと1つの視覚トランスモデルを評価する。 4つのモデルのうち3つに有意な性的偏見があり、すべてのモデルに人種的偏見がある。 しかしながら、バイアスの重症度と性質はモデルによって異なり、医療画像タスクのための公平なaiベースのセグメンテーションモデルをトレーニングしようとする際のモデル選択の重要性が強調される。

In medical imaging, artificial intelligence (AI) is increasingly being used to automate routine tasks. However, these algorithms can exhibit and exacerbate biases which lead to disparate performances between protected groups. We investigate the impact of model choice on how imbalances in subject sex and race in training datasets affect AI-based cine cardiac magnetic resonance image segmentation. We evaluate three convolutional neural network-based models and one vision transformer model. We find significant sex bias in three of the four models and racial bias in all of the models. However, the severity and nature of the bias varies between the models, highlighting the importance of model choice when attempting to train fair AI-based segmentation models for medical imaging tasks.
翻訳日:2023-08-28 13:29:28 公開日:2023-08-25
# 直交双極子-双極子相互作用が超不均一赤外域における2次元材料の光学応答に及ぼす影響

Influence of direct dipole-dipole interactions on the optical response of 2D materials in extremely inhomogeneous infrared cavity fields ( http://arxiv.org/abs/2308.13413v1 )

ライセンス: Link先を確認
Sofia Ribeiro, Javier Aizpurua, Ruben Esteban(参考訳) 自己組織化された分子単分子膜やヴァンデルウォール材の単層によって形成される二次元(2D)材料は、フォトニックナノキャビティと効率的に結合でき、強い結合状態に達する可能性がある。 カップリングは古典的な調和振動子モデルやキャビティ量子電磁力学ハミルトニアンを用いてモデル化することができ、単層内の直接双極子-双極子相互作用をしばしば無視する。 ここでは、これらの直接双極子-双極子相互作用を含む系の全ハミルトニアンを対角化する。 典型的な2Dシステムの光学特性に対する主な効果は、単にナノフォトニックモードと結合する単層の明るい集合励起の有効エネルギーを再正常化することである。 一方,極端磁場閉じ込めの状況では,直接双極子-双極子相互作用を含む大きな遷移双極子モーメントと低損失の状況は,多くの集合状態が参加する光学的応答を正確に捉えるために重要であることを示す。 この結果を定量化するために, 直接相互作用が光学応答を強く変化させる条件を示す簡単な方程式を提案する。

A two-dimensional (2D) material, formed for example by a self-assembled molecular monolayer or by a single layer of a Van der Walls material, can couple efficiently with photonic nanocavities, potentially reaching the strong coupling regime. The coupling can be modelled using classical harmonic oscillator models or cavity quantum electrodynamics Hamiltonians that often neglect the direct dipole-dipole interactions within the monolayer. Here, we diagonalize the full Hamiltonian of the system, including these direct dipole-dipole interactions. The main effect on the optical properties of a typical 2D system is simply to renormalize the effective energy of the bright collective excitation of the monolayer that couples with the nanophotonic mode. On the other hand, we show that for situations of extreme field confinement, large transition dipole moments and low losses, fully including the direct dipole-dipole interactions is critical to correctly capture the optical response, with many collective states participating in it. To quantify this result, we propose a simple equation that indicates the condition for which the direct interactions strongly modify the optical response.
翻訳日:2023-08-28 13:29:15 公開日:2023-08-25
# 言語モデルの信頼性向上のための知識と強化学習の活用

Leveraging Knowledge and Reinforcement Learning for Enhanced Reliability of Language Models ( http://arxiv.org/abs/2308.13467v1 )

ライセンス: Link先を確認
Nancy Tyagi, Surjodeep Sarkar, Manas Gaur(参考訳) 自然言語処理(NLP)コミュニティは、BERTのようなモダン言語モデルのトレーニングに、クラウドソーシング技術を使用して、General Language Understanding and Evaluation(GLUE)のようなベンチマークデータセットを作成している。 GLUEタスクは、アノテーション間のメトリクス、すなわちCohens Kappaを使って信頼性スコアを測定する。 しかし、LMの信頼性の面はしばしば見過ごされている。 本稿では,知識グラフの埋め込みとしてConceptNetとWikipediaの知識を統合するために,強化学習を活用した知識誘導型LMアンサンブルアプローチを提案する。 このアプローチは、データセットの情報不足を補うために外部知識を利用する人間のアノテーションを模倣する。 9つのGLUEデータセットを通して、我々の研究は、アンサンブルが信頼性と精度のスコアを強化し、技術の性能を向上することを示した。

The Natural Language Processing(NLP) community has been using crowd sourcing techniques to create benchmark datasets such as General Language Understanding and Evaluation(GLUE) for training modern Language Models such as BERT. GLUE tasks measure the reliability scores using inter annotator metrics i.e. Cohens Kappa. However, the reliability aspect of LMs has often been overlooked. To counter this problem, we explore a knowledge-guided LM ensembling approach that leverages reinforcement learning to integrate knowledge from ConceptNet and Wikipedia as knowledge graph embeddings. This approach mimics human annotators resorting to external knowledge to compensate for information deficits in the datasets. Across nine GLUE datasets, our research shows that ensembling strengthens reliability and accuracy scores, outperforming state of the art.
翻訳日:2023-08-28 13:22:51 公開日:2023-08-25
# オンライン動的埋め込み予測による停滞解消型分散gnnトレーニング

Staleness-Alleviated Distributed GNN Training via Online Dynamic-Embedding Prediction ( http://arxiv.org/abs/2308.13466v1 )

ライセンス: Link先を確認
Guangji Bai, Ziyang Yu, Zheng Chai, Yue Cheng, Liang Zhao(参考訳) 最近のグラフニューラルネットワーク(GNN)の成功にもかかわらず、近隣の爆発によって大規模なグラフでGNNをトレーニングすることは依然として困難である。 修正として、分散コンピューティングは、豊富なコンピューティングリソース(例えばgpu)を活用することで、有望なソリューションになる。 しかし,グラフデータのノード依存性は,大規模な通信オーバーヘッドに悩まされる分散GNNトレーニングにおいて,高い並行性を実現することの難しさを増大させる。 これを解決するために、歴史的価値近似は分散トレーニング技術の有望なクラスと見なされる。 オフラインメモリを使用して、正確な値の安価な近似として履歴情報をキャッシュし、高い並行性を実現する。 しかし、そのような利点は、古いトレーニング情報を含むコストがかかるため、停滞、不正確さ、および収束の問題に繋がる。 これらの課題を克服するため,本稿では,新しいスケーラブル分散gnnトレーニングフレームワークであるsat(staleness-alleviated training)を提案する。 SATの鍵となる考え方は、GNNの埋め込み進化を時間グラフとしてモデル化し、その上にモデルを構築し、将来の埋め込みを予測することである。 本稿では,埋め込み予測器と分散GNNを代替的に学習するオンラインアルゴリズムを提案し,さらに収束解析を行う。 実験により,satは組込みの停滞を効果的に軽減し,大規模グラフデータセットの性能と収束速度を向上できることを実証した。

Despite the recent success of Graph Neural Networks (GNNs), it remains challenging to train GNNs on large-scale graphs due to neighbor explosions. As a remedy, distributed computing becomes a promising solution by leveraging abundant computing resources (e.g., GPU). However, the node dependency of graph data increases the difficulty of achieving high concurrency in distributed GNN training, which suffers from the massive communication overhead. To address it, Historical value approximation is deemed a promising class of distributed training techniques. It utilizes an offline memory to cache historical information (e.g., node embedding) as an affordable approximation of the exact value and achieves high concurrency. However, such benefits come at the cost of involving dated training information, leading to staleness, imprecision, and convergence issues. To overcome these challenges, this paper proposes SAT (Staleness-Alleviated Training), a novel and scalable distributed GNN training framework that reduces the embedding staleness adaptively. The key idea of SAT is to model the GNN's embedding evolution as a temporal graph and build a model upon it to predict future embedding, which effectively alleviates the staleness of the cached historical embedding. We propose an online algorithm to train the embedding predictor and the distributed GNN alternatively and further provide a convergence analysis. Empirically, we demonstrate that SAT can effectively reduce embedding staleness and thus achieve better performance and convergence speed on multiple large-scale graph datasets.
翻訳日:2023-08-28 13:22:39 公開日:2023-08-25
# ARTIST: シンプルテキストのための人工知能

ARTIST: ARTificial Intelligence for Simplified Text ( http://arxiv.org/abs/2308.13458v1 )

ライセンス: Link先を確認
Lorenzo Corti and Jie Yang(参考訳) 複雑なテキストは、多くの市民が公開情報や知識にアクセスする際に大きな障壁となる。 しばしば手作業で行われるが、テキストの単純化は、本来の意味を維持しながら、テキストの言語的複雑さを減らすことを目的とした、重要な自然言語処理タスクである。 生成人工知能(AI)の最近の進歩により、語彙レベルと構文レベルの両方で自動テキストの簡略化が可能になった。 しかし、アプリケーションはしばしば英語にフォーカスするため、オランダ語のような低リソース言語におけるジェネレーティブAI技術の有効性についてはほとんど理解されていない。 このため,テキスト簡易化のための生成技術の適用のメリットと限界を理解するために,経験的研究を行い,以下の結果を提供する。 1) 最先端生成テキスト簡易化モデル,ドメイン及びリーダ適応モデル,可視化モジュールを編成する構成可能なテキスト簡易化パイプラインの設計及び実装 2)文化や常識の知識を扱う上での課題を露呈しながら,テキストの自動単純化の強みを示す洞察と教訓。 これらの結果は、オランダ語テキストの単純化を探求する第一歩であり、研究と実践の両方の将来の努力に光を当てた。

Complex text is a major barrier for many citizens when accessing public information and knowledge. While often done manually, Text Simplification is a key Natural Language Processing task that aims for reducing the linguistic complexity of a text while preserving the original meaning. Recent advances in Generative Artificial Intelligence (AI) have enabled automatic text simplification both on the lexical and syntactical levels. However, as applications often focus on English, little is understood about the effectiveness of Generative AI techniques on low-resource languages such as Dutch. For this reason, we carry out empirical studies to understand the benefits and limitations of applying generative technologies for text simplification and provide the following outcomes: 1) the design and implementation for a configurable text simplification pipeline that orchestrates state-of-the-art generative text simplification models, domain and reader adaptation, and visualisation modules; 2) insights and lessons learned, showing the strengths of automatic text simplification while exposing the challenges in handling cultural and commonsense knowledge. These outcomes represent a first step in the exploration of Dutch text simplification and shed light on future endeavours both for research and practice.
翻訳日:2023-08-28 13:22:13 公開日:2023-08-25
# 概念ボトルネックへの介入を学ぶ

Learning to Intervene on Concept Bottlenecks ( http://arxiv.org/abs/2308.13453v1 )

ライセンス: Link先を確認
David Steinmann, Wolfgang Stammer, Felix Friedrich, Kristian Kersting(参考訳) 従来のディープラーニングモデルは解釈可能性に欠けることが多いが、概念ボトルネックモデル(CBM)は概念表現を通じて固有の説明を提供する。 具体的には、ユーザが概念値を更新し、モデルの予測出力を修正することで、これらの概念に対する介入的相互作用を実行できる。 しかし、伝統的に、これらの介入はモデルに1回だけ適用され、その後破棄される。 そこで本研究では,cbmsの拡張である概念ボトルネックメモリモデル(cb2m)を提案する。 具体的には、CB2Mは、2倍のメモリで介入を一般化し、ミスを検出し、以前の介入を再適用することができる。 このようにして、CB2Mは、最初に得られたいくつかの介入からモデルパフォーマンスを自動的に改善することを学ぶ。 以前の人間の介入が得られない場合、CB2MはCBMボトルネックの潜在的な誤りを検出し、標的とする介入を要求する。 分散シフトの処理やトレーニングデータの整合化といった難解なシナリオに関する実験的評価では、CB2Mは未確認データへの介入をうまく一般化することができ、誤って推論された概念を識別できることを示す。 以上の結果から,CB2Mはユーザのインタラクションをガイドし,介入を少なくすることで,CBMに対して対話的なフィードバックを提供する上で,優れたツールであることがわかった。

While traditional deep learning models often lack interpretability, concept bottleneck models (CBMs) provide inherent explanations via their concept representations. Specifically, they allow users to perform interventional interactions on these concepts by updating the concept values and thus correcting the predictive output of the model. Traditionally, however, these interventions are applied to the model only once and discarded afterward. To rectify this, we present concept bottleneck memory models (CB2M), an extension to CBMs. Specifically, a CB2M learns to generalize interventions to appropriate novel situations via a two-fold memory with which it can learn to detect mistakes and to reapply previous interventions. In this way, a CB2M learns to automatically improve model performance from a few initially obtained interventions. If no prior human interventions are available, a CB2M can detect potential mistakes of the CBM bottleneck and request targeted interventions. In our experimental evaluations on challenging scenarios like handling distribution shifts and confounded training data, we illustrate that CB2M are able to successfully generalize interventions to unseen data and can indeed identify wrongly inferred concepts. Overall, our results show that CB2M is a great tool for users to provide interactive feedback on CBMs, e.g., by guiding a user's interaction and requiring fewer interventions.
翻訳日:2023-08-28 13:21:56 公開日:2023-08-25
# フェムト秒レーザーによる大規模エラー耐性プログラマブル干渉計

Large-scale error-tolerant programmable interferometer fabricated by femtosecond laser writing ( http://arxiv.org/abs/2308.13452v1 )

ライセンス: Link先を確認
Ilya V. Kondratyev, Veronika V. Ivanova, Sergey A. Zhuravitskii, Artem S. Argenchiev, Nikolay N. Skryabin, Ivan V. Dyakonov, Suren A. Fldzhyan, Mikhail Yu. Saygin, Stanislav S. Straupe, Alexander A. Korneev, Sergei P. Kulik(参考訳) 本稿では,最近提案するエラー耐性アーキテクチャを用いたプログラム可能な8ポート干渉計を提案する。 干渉計はフェムト秒レーザーによる書き込みで製造されており、これまでで最大のプログラム可能な干渉計である。 我々は、効率の良い光子源による量子フォトニクスに特に関係する、920$から980$ nmの範囲の広い波長領域での動作を示すことで、その有利なエラー耐性を実証した。 本研究は,情報処理のためのプログラマブルフォトニクスの新しいアーキテクチャを開発することの重要性を強調する。

We introduce a programmable 8-port interferometer with the recently proposed error-tolerant architecture capable of performing a broad class of transformations. The interferometer has been fabricated with femtosecond laser writing and it is the largest programmable interferometer of this kind to date. We have demonstrated its advantageous error tolerance by showing an operation in a broad wavelength range from $920$ to $980$ nm, which is particularly relevant for quantum photonics due to efficient photon sources. Our work highlights the importance of developing novel architectures of programmable photonics for information processing.
翻訳日:2023-08-28 13:21:35 公開日:2023-08-25
# グラフマッチングフィルタにおけるソリューションの多様化

Gotta match 'em all: Solution diversification in graph matching matched filters ( http://arxiv.org/abs/2308.13451v1 )

ライセンス: Link先を確認
Zhirui Li, Ben Johnson, Daniel L. Sussman, Carey E. Priebe and Vince Lyzinski(参考訳) 非常に大きな背景グラフに複数のノイズを埋め込んだテンプレートグラフを見つけるための新しい手法を提案する。 本手法は,susmanらによって提案されているグラフマッチングマッチングフィルタ手法を基礎とし,マッチングフィルタアルゴリズムにおいて,適切なノードペア類似性行列を反復的にペナルティすることにより,多様なマッチングを実現する。 さらに,マッチングフィルタアプローチのスケーラビリティを大幅に向上させるアルゴリズムの高速化を提案する。 相関したエルドス・レーニグラフの設定において,本手法の理論的正当性を示すとともに,軽度モデル条件下で複数のテンプレートを逐次発見する能力を示す。 さらに,シミュレーションモデルと実世界のデータセットを用いて,人間の脳コネクトームや大規模トランザクションの知識ベースを含む広範な実験を行い,本手法の有用性を実証した。

We present a novel approach for finding multiple noisily embedded template graphs in a very large background graph. Our method builds upon the graph-matching-matched-filter technique proposed in Sussman et al., with the discovery of multiple diverse matchings being achieved by iteratively penalizing a suitable node-pair similarity matrix in the matched filter algorithm. In addition, we propose algorithmic speed-ups that greatly enhance the scalability of our matched-filter approach. We present theoretical justification of our methodology in the setting of correlated Erdos-Renyi graphs, showing its ability to sequentially discover multiple templates under mild model conditions. We additionally demonstrate our method's utility via extensive experiments both using simulated models and real-world dataset, include human brain connectomes and a large transactional knowledge base.
翻訳日:2023-08-28 13:21:24 公開日:2023-08-25
# アライメントの毒

The Poison of Alignment ( http://arxiv.org/abs/2308.13449v1 )

ライセンス: Link先を確認
Aibek Bekbayev, Sungbae Chun, Yerzat Dulat, James Yamazaki(参考訳) コンテンツ安全性の問題の観点から、アライメントは大きな言語モデル(LLM)の有害なコンテンツ生成を制限することが示されている。 特定のユーザ入力に応答しないようモデルを補強するこの意図的な方法は、OpenAssistantやGuanacoなど、多くの現代的なオープンソースインストラクションチューニングデータセットに存在しているように思われる。 教師付き微調整データセットにおけるアライメントの存在によって影響を受ける命令調整モデルの性能に新たな洞察を導入する。 具体的には、アライメントが命令データセットを害しているかのように振る舞うことに気付いた。 実験により,一致した回答は,Big Bench (BBH), Massive Multitask Language Understanding (MMLU), Human Eval, Discrete Reasoning Over Paragraphs (DROP) などの様々な推論ベンチマークにおいて,結果の微調整モデルの性能を著しく悪化させ,アライメントを4~33%向上させることを示した。

From the perspective of content safety issues, alignment has shown to limit large language models' (LLMs) harmful content generation. This intentional method of reinforcing models to not respond to certain user inputs seem to be present in many modern open-source instruction tuning datasets such as OpenAssistant or Guanaco. We introduce a novel insight to an instruction-tuned model's performance affected by the presence of alignment in supervised fine-tuning dataset. To be specific, we noticed that alignment acts as if it is poisoning the instruction dataset. Experimentally, we demonstrate that aligned answers significantly worsen the performance of the resulting fine-tuned model's on various reasoning benchmarks such as Big Bench (BBH), Massive Multitask Language Understanding (MMLU), Human Eval, and Discrete Reasoning Over Paragraphs (DROP), performing worse than the counterpart tuned without alignment by 4-33%.
翻訳日:2023-08-28 13:21:07 公開日:2023-08-25
# ウェーブレットを用いた変圧器の高周波増幅による細粒度アンロック

Unlocking Fine-Grained Details with Wavelet-based High-Frequency Enhancement in Transformers ( http://arxiv.org/abs/2308.13442v1 )

ライセンス: Link先を確認
Reza Azad, Amirhossein Kazerouni, Alaa Sulaiman, Afshin Bozorgpour, Ehsan Khodapanah Aghdam, Abin Jose, Dorit Merhof(参考訳) 医療画像分割は診断、治療計画、疾患モニタリングにおいて重要な役割を果たす重要な課題である。 医学画像からの解剖学的構造と異常の正確な区分は、様々な疾患の早期発見と治療に役立つ。 本稿では,トランスフォーマーモデルの局所的特徴不足に対処するため,自己注意マップを慎重に再設計し,医用画像の正確な密度予測を行う。 この目的のために、まずウェーブレット変換を適用し、入力特徴写像を低周波(LF)および高周波(HF)サブバンドに分解する。 LFセグメントは粗粒度の特徴に関連付けられ、HFコンポーネントはテクスチャやエッジ情報などの細粒度の特徴を保存する。 次に、効率的な変換器を用いて自己注意操作を再構成し、周波数表現の上に空間的および文脈的注意を向ける。 さらに,境界情報の重要性を高めるために,HF成分の上にガウスピラミッドを作成することにより,付加的な注意マップを付加する。 さらに,エンコーダモジュールとデコーダモジュールのステージ間のセマンティックギャップを克服するため,スキップ接続内のマルチスケールコンテキスト拡張ブロックを提案し,スケール間の依存関係を適応的にモデル化する。 包括的実験を通じて,多臓器および皮膚病変セグメンテーションベンチマークにおける戦略の有効性を実証した。 実装コードは、受け入れ次第利用可能になる。 https://github.com/mindflow-institue/WaveFormer}{GitHub}

Medical image segmentation is a critical task that plays a vital role in diagnosis, treatment planning, and disease monitoring. Accurate segmentation of anatomical structures and abnormalities from medical images can aid in the early detection and treatment of various diseases. In this paper, we address the local feature deficiency of the Transformer model by carefully re-designing the self-attention map to produce accurate dense prediction in medical images. To this end, we first apply the wavelet transformation to decompose the input feature map into low-frequency (LF) and high-frequency (HF) subbands. The LF segment is associated with coarse-grained features while the HF components preserve fine-grained features such as texture and edge information. Next, we reformulate the self-attention operation using the efficient Transformer to perform both spatial and context attention on top of the frequency representation. Furthermore, to intensify the importance of the boundary information, we impose an additional attention map by creating a Gaussian pyramid on top of the HF components. Moreover, we propose a multi-scale context enhancement block within skip connections to adaptively model inter-scale dependencies to overcome the semantic gap among stages of the encoder and decoder modules. Throughout comprehensive experiments, we demonstrate the effectiveness of our strategy on multi-organ and skin lesion segmentation benchmarks. The implementation code will be available upon acceptance. \href{https://github.com/mindflow-institue/WaveFormer}{GitHub}.
翻訳日:2023-08-28 13:20:44 公開日:2023-08-25
# マルチヘッド畳み込みニューラルネットワークを用いた衛星画像からのメッシュによる人口構成予測

Mesh-Wise Prediction of Demographic Composition from Satellite Images Using Multi-Head Convolutional Neural Network ( http://arxiv.org/abs/2308.13441v1 )

ライセンス: Link先を確認
Yuta Sato(参考訳) 人口高齢化は、特定の国で最も深刻な問題の一つである。 その対策を実施するために、その急速な進歩を理解することは、きめ細かい解像度で緊急である。 しかし、金融資源や人的資源の制約のため、頻度の高い詳細な厳密な調査は実現不可能である。 現在、Deep Learningはパターン認識においてかなりの精度で普及しており、リモートセンシングにも応用されている。 本稿では,ランドサット-8/oliおよびスオミnpp/viirs-dnsの衛星画像を入力として,前訓練されたresnet50からの転送学習を用いた多頭畳み込みニューラルネットワークモデルを提案する。 トレーニングされたモデルは,すべての人口構成群に対して,少なくとも0.8914 in $\text{R}^2$の試験スコアを持つ試験データセット上で実施され,2022年は非国勢調査年と推定された。

Population aging is one of the most serious problems in certain countries. In order to implement its countermeasures, understanding its rapid progress is of urgency with a granular resolution. However, a detailed and rigorous survey with high frequency is not feasible due to the constraints of financial and human resources. Nowadays, Deep Learning is prevalent for pattern recognition with significant accuracy, with its application to remote sensing. This paper proposes a multi-head Convolutional Neural Network model with transfer learning from pre-trained ResNet50 for estimating mesh-wise demographics of Japan as one of the most aged countries in the world, with satellite images from Landsat-8/OLI and Suomi NPP/VIIRS-DNS as inputs and census demographics as labels. The trained model was performed on a testing dataset with a test score of at least 0.8914 in $\text{R}^2$ for all the demographic composition groups, and the estimated demographic composition was generated and visualised for 2022 as a non-census year.
翻訳日:2023-08-28 13:20:19 公開日:2023-08-25
# マルチモーダル大言語モデルのための位置強調視覚インストラクションチューニング

Position-Enhanced Visual Instruction Tuning for Multimodal Large Language Models ( http://arxiv.org/abs/2308.13437v1 )

ライセンス: Link先を確認
Chi Chen, Ruoyu Qin, Fuwen Luo, Xiaoyue Mi, Peng Li, Maosong Sun, Yang Liu(参考訳) 近年,大規模言語モデル(llm)による視覚インストラクションチューニングによる画像解釈を可能にするマルチモーダル大規模言語モデル(mllms)が大きな成功を収めている。 しかし、既存のビジュアルインストラクションチューニング手法では、言語と画像のモダリティを調整するためにのみ、画像言語命令データを使用する。 本稿では,地域レベルの視覚エンコーダを統合することで,MLLMの機能を拡張した位置強調型視覚インストラクションチューニング(PVIT)を提案する。 この統合により、MLLMの画像のより詳細な理解が促進される。 さらに,視覚モジュールとllmの細かなアラインメントを効率的に達成するために,複数のデータ生成戦略を設計し,画像領域言語命令データセットを構築する。 最後に,提案モデルの優位性を示す定量的実験と定性解析の両方を提示する。 コードとデータはhttps://github.com/THUNLP-MT/PVIT.comで公開される。

Recently, Multimodal Large Language Models (MLLMs) that enable Large Language Models (LLMs) to interpret images through visual instruction tuning have achieved significant success. However, existing visual instruction tuning methods only utilize image-language instruction data to align the language and image modalities, lacking a more fine-grained cross-modal alignment. In this paper, we propose Position-enhanced Visual Instruction Tuning (PVIT), which extends the functionality of MLLMs by integrating an additional region-level vision encoder. This integration promotes a more detailed comprehension of images for the MLLM. In addition, to efficiently achieve a fine-grained alignment between the vision modules and the LLM, we design multiple data generation strategies to construct an image-region-language instruction dataset. Finally, we present both quantitative experiments and qualitative analysis that demonstrate the superiority of the proposed model. Code and data will be released at https://github.com/THUNLP-MT/PVIT.
翻訳日:2023-08-28 13:20:01 公開日:2023-08-25
# open gaze: googleのアイトラッキングペーパーを再現したオープンソース実装

Open Gaze: An Open-Source Implementation Replicating Google's Eye Tracking Paper ( http://arxiv.org/abs/2308.13495v1 )

ライセンス: Link先を確認
Sushmanth reddy Mereddy, Jyothi Swaroop Reddy and Somnath Sharma(参考訳) 視線追跡は視覚研究、言語分析、ユーザビリティ評価など様々な分野において重要なツールである。 しかし、以前の調査の大半は、拡張性に欠ける専用でコストのかかる視線追跡ハードウェアを使った、拡張性のあるデスクトップディスプレイに集中している。 スマートフォン上での眼球運動のパターンは、広く採用されているにもかかわらず、ほとんど見当たらない。 そこで本研究では,googlepaperが提案する手法を模倣したスマートフォン用視線追跡装置のオープンソース実装(ソースコードは引き続きプロプライエタリである)を提案する。 私たちの焦点は、補充ハードウェアを必要とせずに、GooglePaperの方法論によって達成された精度に匹敵する精度を達成することです。 機械学習技術の統合により,スマートフォンに固有な正確な視線追跡ソリューションを提示する。 提案手法は,2桁以上のコストを特徴とする,最先端の移動眼球追跡装置に類似した精度を実証する。 データセットのwebサイトに登録することで得られる膨大なmit gazecaptureデータセットを活用し,眼球運動行動および自然画像観察時の塩分分析に関するこれまでの研究から得られた重要な知見を再現することに成功した。 さらに,読解課題の認識におけるスマートフォンによる視線追跡の適用性を強調した。 本研究は, 眼球運動研究を顕著な割合で増幅し, 明示的な同意を得た数千人の被験者の参加を継続する本態性を示した。 このスケーラビリティはビジョン研究の進歩を促進するだけでなく、アクセシビリティ向上やヘルスケアアプリケーションといった領域にもそのメリットを広げます。

Eye tracking has been a pivotal tool in diverse fields such as vision research, language analysis, and usability assessment. The majority of prior investigations, however, have concentrated on expansive desktop displays employing specialized, costly eye tracking hardware that lacks scalability. Remarkably little insight exists into ocular movement patterns on smartphones, despite their widespread adoption and significant usage. In this manuscript, we present an open-source implementation of a smartphone-based gaze tracker that emulates the methodology proposed by a GooglePaper (whose source code remains proprietary). Our focus is on attaining accuracy comparable to that attained through the GooglePaper's methodology, without the necessity for supplementary hardware. Through the integration of machine learning techniques, we unveil an accurate eye tracking solution that is native to smartphones. Our approach demonstrates precision akin to the state-of-the-art mobile eye trackers, which are characterized by a cost that is two orders of magnitude higher. Leveraging the vast MIT GazeCapture dataset, which is available through registration on the dataset's website, we successfully replicate crucial findings from previous studies concerning ocular motion behavior in oculomotor tasks and saliency analyses during natural image observation. Furthermore, we emphasize the applicability of smartphone-based gaze tracking in discerning reading comprehension challenges. Our findings exhibit the inherent potential to amplify eye movement research by significant proportions, accommodating participation from thousands of subjects with explicit consent. This scalability not only fosters advancements in vision research, but also extends its benefits to domains such as accessibility enhancement and healthcare applications.
翻訳日:2023-08-28 13:12:37 公開日:2023-08-25
# イベントフルトランスフォーマー:視覚トランスフォーマーにおける時間的冗長性を活用する

Eventful Transformers: Leveraging Temporal Redundancy in Vision Transformers ( http://arxiv.org/abs/2308.13494v1 )

ライセンス: Link先を確認
Matthew Dutson, Yin Li, Mohit Gupta(参考訳) 視覚トランスフォーマーは、様々な視覚認識タスクで印象的な精度を達成する。 残念ながら、その精度は高い計算コストを伴うことが多い。 これはビデオ認識において特に問題であり、モデルはしばしばフレームや時間的チャンクに繰り返し適用される。 本研究では,後続入力間の時間的冗長性を利用して,ビデオ処理におけるトランスフォーマのコストを削減する。 本稿では,時間とともに大きく変化したトークンのみを識別・再処理する手法について述べる。 提案するモデルファミリであるイベントフルトランスフォーマは,既存のトランスフォーマから変換可能で,実行時の計算コストを適応的に制御できる。 本稿では,ビデオオブジェクト検出(ImageNet VID)とアクション認識(EPIC-Kitchens 100)のための大規模データセットの評価を行った。 提案手法は計算量を大幅に削減し(2-4xの順序で)、精度を小さくする。

Vision Transformers achieve impressive accuracy across a range of visual recognition tasks. Unfortunately, their accuracy frequently comes with high computational costs. This is a particular issue in video recognition, where models are often applied repeatedly across frames or temporal chunks. In this work, we exploit temporal redundancy between subsequent inputs to reduce the cost of Transformers for video processing. We describe a method for identifying and re-processing only those tokens that have changed significantly over time. Our proposed family of models, Eventful Transformers, can be converted from existing Transformers (often without any re-training) and give adaptive control over the compute cost at runtime. We evaluate our method on large-scale datasets for video object detection (ImageNet VID) and action recognition (EPIC-Kitchens 100). Our approach leads to significant computational savings (on the order of 2-4x) with only minor reductions in accuracy.
翻訳日:2023-08-28 13:12:13 公開日:2023-08-25
# 超高速Ultralight ConvNetを用いた早期Mpox診断のためのインテリジェントモニタリングシステム

Ultrafast-and-Ultralight ConvNet-Based Intelligent Monitoring System for Diagnosing Early-Stage Mpox Anytime and Anywhere ( http://arxiv.org/abs/2308.13492v1 )

ライセンス: Link先を確認
Yubiao Yue, Xiaoqiang Shi, Li Qin, Xinyue Zhang, Yanmei Chen, Jialong Xu, Zipei Zheng, Yujun Cao, Di Liu, Zhenzhang Li, Yang Li(参考訳) monkeypoxのより効率的な診断ツールが欠如しているため、その広まりは未確認のままであり、世界的な健康にとって大きな課題となっている。 サルポックス診断におけるディープラーニングモデルの高い有効性は関連する研究で実証されているが、推論速度、パラメータサイズ、早期サルポックスの診断性能の見落としは、実際の環境では適用できない。 これらの課題に対処するため,我々はFast-MpoxNetという超高速で超軽量なネットワークを提案した。 Fast-MpoxNetは0.27Mパラメータしか持たず、CPU上で68フレーム/秒(FPS)で入力画像を処理できる。 小型モデルキャパシティによる診断性能の限界に対応するため、注意に基づく特徴融合モジュールと、微妙な画像変化の検知と重みの最適化のための多重補助的損失増強戦略を統合する。 転送学習と5倍のクロスバリデーションを使用して、Fast-MpoxNetはMpoxデータセット上で94.26%の精度を達成した。 特に初期のサルポックスのリコールは93.65%に達する。 データ拡張の導入により、モデルの精度は98.40%向上し、実用性スコア(リアルタイム診断アプリケーションにおけるモデル実用性測定の新しい指標)が0.80に達する。 また、パソコンと携帯電話の両方にMpox-AISM V2というアプリケーションシステムを開発した。 Mpox-AISM V2は、超高速な応答、オフライン機能、デプロイが容易で、特にアウトブレイク時の人口の多い環境で、様々な現実の環境で、一般人および個人の両方の正確なリアルタイム診断を可能にする。 我々の研究は、将来のサルポックスの発生を緩和し、医療分野でリアルタイム診断ツールを開発するための新しいパラダイムを照らす可能性がある。

Due to the lack of more efficient diagnostic tools for monkeypox, its spread remains unchecked, presenting a formidable challenge to global health. While the high efficacy of deep learning models for monkeypox diagnosis has been demonstrated in related studies, the overlook of inference speed, the parameter size and diagnosis performance for early-stage monkeypox renders the models inapplicable in real-world settings. To address these challenges, we proposed an ultrafast and ultralight network named Fast-MpoxNet. Fast-MpoxNet possesses only 0.27M parameters and can process input images at 68 frames per second (FPS) on the CPU. To counteract the diagnostic performance limitation brought about by the small model capacity, it integrates the attention-based feature fusion module and the multiple auxiliary losses enhancement strategy for better detecting subtle image changes and optimizing weights. Using transfer learning and five-fold cross-validation, Fast-MpoxNet achieves 94.26% Accuracy on the Mpox dataset. Notably, its recall for early-stage monkeypox achieves 93.65%. By adopting data augmentation, our model's Accuracy rises to 98.40% and attains a Practicality Score (A new metric for measuring model practicality in real-time diagnosis application) of 0.80. We also developed an application system named Mpox-AISM V2 for both personal computers and mobile phones. Mpox-AISM V2 features ultrafast responses, offline functionality, and easy deployment, enabling accurate and real-time diagnosis for both the public and individuals in various real-world settings, especially in populous settings during the outbreak. Our work could potentially mitigate future monkeypox outbreak and illuminate a fresh paradigm for developing real-time diagnostic tools in the healthcare field.
翻訳日:2023-08-28 13:11:57 公開日:2023-08-25
# カリキュラム強化学習による最適な頭対頭自律走行に向けて

Towards Optimal Head-to-head Autonomous Racing with Curriculum Reinforcement Learning ( http://arxiv.org/abs/2308.13491v1 )

ライセンス: Link先を確認
Dvij Kalaria, Qin Lin and John M. Dolan(参考訳) ヘッド・ツー・ヘッドの自律レースは、車両が最小ラップタイムを達成するために摩擦やハンドリングの限界で走行する必要があり、また相手に先んじる戦略を積極的に探す必要があるため、難しい問題である。 本研究では,車両力学を正確にモデル化した強化学習のためのヘッドツーヘッドレース環境を提案する。 以前のいくつかの研究は、複雑な車両力学環境で直接ポリシーを学習しようとしたが、最適なポリシーを学ばなかった。 本研究では,より単純な車両モデルからより複雑な実環境へ移行し,強化学習エージェントに最適ポリシーに近いポリシーを教えることで,カリキュラム学習ベースのフレームワークを提案する。 また,最適性に妥協せず,より効果的な方法でエージェントの安全性を強制する制御障壁関数に基づく安全強化学習アルゴリズムを提案する。

Head-to-head autonomous racing is a challenging problem, as the vehicle needs to operate at the friction or handling limits in order to achieve minimum lap times while also actively looking for strategies to overtake/stay ahead of the opponent. In this work we propose a head-to-head racing environment for reinforcement learning which accurately models vehicle dynamics. Some previous works have tried learning a policy directly in the complex vehicle dynamics environment but have failed to learn an optimal policy. In this work, we propose a curriculum learning-based framework by transitioning from a simpler vehicle model to a more complex real environment to teach the reinforcement learning agent a policy closer to the optimal policy. We also propose a control barrier function-based safe reinforcement learning algorithm to enforce the safety of the agent in a more effective way while not compromising on optimality.
翻訳日:2023-08-28 13:11:28 公開日:2023-08-25
# TpuGraphs: 大規模テンソル計算グラフのパフォーマンス予測データセット

TpuGraphs: A Performance Prediction Dataset on Large Tensor Computational Graphs ( http://arxiv.org/abs/2308.13490v1 )

ライセンス: Link先を確認
Phitchaya Mangpo Phothilimthana, Sami Abu-El-Haija, Kaidi Cao, Bahare Fatemi, Charith Mendis, Bryan Perozzi(参考訳) 正確なハードウェアパフォーマンスモデルは、コード最適化において重要な役割を果たす。 コンパイラがヒューリスティックな決定を行うのを手助けしたり、プログラムの最適な設定を特定するオートチューナーを支援することができる。 例えば、機械学習コンパイラであるXLAの自動チューニングは、Googleで相当なプロダクショントラフィックを提供する最先端モデルの10-20%のスピードアップを発見した。 プログラムのパフォーマンス予測にはいくつかのデータセットがあるが、基本ブロックやカーネルのような小さなサブプログラムをターゲットにしている。 本稿では、テンソル処理ユニット(TPU)上で動作する計算グラフとして表されるフルテンソルプログラムの性能予測データセットであるTpuGraphsを紹介する。 データセットの各グラフは、機械学習のワークロード、例えばトレーニングエポックや推論ステップの主計算を表す。 各データサンプルは、計算グラフ、コンパイル構成、および、その構成でコンパイルされたグラフの実行時間を含む。 データセットのグラフはオープンソースの機械学習プログラムから収集され、ResNet、EfficientNet、Mask R-CNN、Transformerといった一般的なモデルアーキテクチャが特徴である。 TpuGraphsは、最大のグラフプロパティ予測データセット(グラフサイズに匹敵する)よりも25倍多くグラフを提供し、マシンラーニングプログラムの既存のパフォーマンス予測データセットと比較して平均して770倍大きなグラフを提供する。 このグラフレベルの大きなグラフ予測タスクは、スケーラビリティ、トレーニング効率、モデル品質など、学習における新たな課題を導入します。

Precise hardware performance models play a crucial role in code optimizations. They can assist compilers in making heuristic decisions or aid autotuners in identifying the optimal configuration for a given program. For example, the autotuner for XLA, a machine learning compiler, discovered 10-20% speedup on state-of-the-art models serving substantial production traffic at Google. Although there exist a few datasets for program performance prediction, they target small sub-programs such as basic blocks or kernels. This paper introduces TpuGraphs, a performance prediction dataset on full tensor programs, represented as computational graphs, running on Tensor Processing Units (TPUs). Each graph in the dataset represents the main computation of a machine learning workload, e.g., a training epoch or an inference step. Each data sample contains a computational graph, a compilation configuration, and the execution time of the graph when compiled with the configuration. The graphs in the dataset are collected from open-source machine learning programs, featuring popular model architectures, e.g., ResNet, EfficientNet, Mask R-CNN, and Transformer. TpuGraphs provides 25x more graphs than the largest graph property prediction dataset (with comparable graph sizes), and 770x larger graphs on average compared to existing performance prediction datasets on machine learning programs. This graph-level prediction task on large graphs introduces new challenges in learning, ranging from scalability, training efficiency, to model quality.
翻訳日:2023-08-28 13:11:13 公開日:2023-08-25
# ダイナミックコントラスト強調心臓MRIデータセットのループ解析を可能にするための時間的不確かさの同定

Temporal Uncertainty Localization to Enable Human-in-the-loop Analysis of Dynamic Contrast-enhanced Cardiac MRI Datasets ( http://arxiv.org/abs/2308.13488v1 )

ライセンス: Link先を確認
Dilek M. Yalcinkaya, Khalid Youssef, Bobak Heydari, Orlando Simonetti, Rohan Dharmakumar, Subha Raman, Behzad Sharif(参考訳) Dynamic contrast-enhanced (DCE) heart magnetic resonance imaging (CMRI) は、心筋血流(灌流)異常の診断に広く用いられているモダリティである。 典型的なDCE-CMRIスキャンでは、心筋灌流の時間分解画像が様々なコントラストの "wash in/out" フェーズで取得される。 DCE画像シリーズの各タイムフレームにおける心筋輪郭のマニュアルセグメンテーションは、特に非剛性運動補正が失敗したり、利用できない場合、面倒で時間を要する。 ディープニューラルネットワーク(DNN)は、DCE-CMRIデータセットを分析することを約束している一方で、失敗したセグメンテーションを確実に検出する"動的品質制御"(dQC)技術は欠如している。 本稿では,DNNをベースとしたDCE-CMRIデータセットのセグメント化のためのDQCツールとして,提案手法を外部データセット上で検証し,セグメンテーション結果を改善するためのヒューマン・イン・ザ・ループ・フレームワークを確立することにより,新しい時空不確実性指標を提案する。 提案手法では,dQCツールが検出した最も不確実なセグメンテーションの上位10%を,ヒトの専門家に紹介した。 このアプローチにより、Diceスコア(p<0.001)が大幅に増加し、セグメンテーションが失敗した画像数(16.2%から11.3%)が顕著に減少する一方、人間の参照に対して同じセグメンテーションをランダムに選択するというアプローチは大きな改善は得られなかった。 提案したdQCフレームワークは,低品質なセグメンテーションを正確に識別する可能性があり,動的CMRIデータセットの臨床的解釈と報告のために,DCE-CMRIの効率的なDNN解析を可能にする可能性が示唆された。

Dynamic contrast-enhanced (DCE) cardiac magnetic resonance imaging (CMRI) is a widely used modality for diagnosing myocardial blood flow (perfusion) abnormalities. During a typical free-breathing DCE-CMRI scan, close to 300 time-resolved images of myocardial perfusion are acquired at various contrast "wash in/out" phases. Manual segmentation of myocardial contours in each time-frame of a DCE image series can be tedious and time-consuming, particularly when non-rigid motion correction has failed or is unavailable. While deep neural networks (DNNs) have shown promise for analyzing DCE-CMRI datasets, a "dynamic quality control" (dQC) technique for reliably detecting failed segmentations is lacking. Here we propose a new space-time uncertainty metric as a dQC tool for DNN-based segmentation of free-breathing DCE-CMRI datasets by validating the proposed metric on an external dataset and establishing a human-in-the-loop framework to improve the segmentation results. In the proposed approach, we referred the top 10% most uncertain segmentations as detected by our dQC tool to the human expert for refinement. This approach resulted in a significant increase in the Dice score (p<0.001) and a notable decrease in the number of images with failed segmentation (16.2% to 11.3%) whereas the alternative approach of randomly selecting the same number of segmentations for human referral did not achieve any significant improvement. Our results suggest that the proposed dQC framework has the potential to accurately identify poor-quality segmentations and may enable efficient DNN-based analysis of DCE-CMRI in a human-in-the-loop pipeline for clinical interpretation and reporting of dynamic CMRI datasets.
翻訳日:2023-08-28 13:10:49 公開日:2023-08-25
# 多様なモチベーションメッセージを生成するための大規模言語モデルの提案:人文メッセージとの比較

Prompting a Large Language Model to Generate Diverse Motivational Messages: A Comparison with Human-Written Messages ( http://arxiv.org/abs/2308.13479v1 )

ライセンス: Link先を確認
Samuel Rhys Cox, Ashraf Abdul and Wei Tsang Ooi(参考訳) 大規模言語モデル(LLM)はますます有能で普及しており、クリエイティブなコンテンツを作るのに使うことができる。 コンテンツの品質は、使用されるプロンプトの影響を受けており、例を含むより具体的なプロンプトは、一般的により良い結果をもたらす。 このことから、クラウドソーシングタスク(特に労働者をガイドする例を含む)のために書かれた指示を使用することで、効果的なLCMプロンプトが証明できることがわかる。 これを探るため、私たちは以前のクラウドソーシングパイプラインを使用して、さまざまなモチベーションメッセージのコーパスを生成するのに役立ちました。 次に,GPT-4を用いて同じパイプラインを用いてメッセージを生成し,(1)クラウドライター,(2)GPT-4を用いたパイプライン,3)GPT-4プロンプトの2つのベースラインからメッセージの集合的多様性を比較した。 クラウドソーシングパイプラインを用いたLCMプロンプトにより,GPT-4は2つのベースラインプロンプトよりも多様なメッセージを生成することがわかった。 また、人間作家とllmの両方が生成するメッセージの意味についても論じる。

Large language models (LLMs) are increasingly capable and prevalent, and can be used to produce creative content. The quality of content is influenced by the prompt used, with more specific prompts that incorporate examples generally producing better results. On from this, it could be seen that using instructions written for crowdsourcing tasks (that are specific and include examples to guide workers) could prove effective LLM prompts. To explore this, we used a previous crowdsourcing pipeline that gave examples to people to help them generate a collectively diverse corpus of motivational messages. We then used this same pipeline to generate messages using GPT-4, and compared the collective diversity of messages from: (1) crowd-writers, (2) GPT-4 using the pipeline, and (3 & 4) two baseline GPT-4 prompts. We found that the LLM prompts using the crowdsourcing pipeline caused GPT-4 to produce more diverse messages than the two baseline prompts. We also discuss implications from messages generated by both human writers and LLMs.
翻訳日:2023-08-28 13:10:15 公開日:2023-08-25
# 過渡ヒストグラムを用いた近接センサの性能アンロック

Unlocking the Performance of Proximity Sensors by Utilizing Transient Histograms ( http://arxiv.org/abs/2308.13473v1 )

ライセンス: Link先を確認
Carter Sifferman, Yeping Wang, Mohit Gupta, and Michael Gleicher(参考訳) 近距離時間(ToF)距離センサのクラスで捉えた一過性ヒストグラムを利用して平面風景形状を復元する手法を提案する。 過渡ヒストグラム(Transient histogram)は、ToFセンサに入射した光子の到着時刻を符号化した1次元の時間波形である。 通常、センサーはプロプライエタリなアルゴリズムを用いて過渡ヒストグラムを処理し、いくつかのロボティクスアプリケーションで一般的に使用される距離推定を生成する。 本手法は, プロプライエタリな距離推定だけでは得られない平面形状の復元と, プロプライエタリな距離推定だけでは不可能である平面面のアルベドの一貫した復元を可能にするために, 過渡的ヒストグラムを直接利用する。 これは、過渡撮像過程をシミュレートし、シーン幾何学の直接最適化を観察に合わせる、微分可能なレンダリングパイプラインによって達成される。 提案手法の有効性を検証するため,幅広い視点から平面面8面の3,800点の測定を行い,多くのシナリオにおいて,プロプライエタリな距離推定ベースラインよりも優れていることを示す。 本稿では,ロボットアームのエンドエフェクタに装着したセンサから平面面の距離と傾斜を計測するために,本手法を用いたシンプルなロボット工学アプリケーションを実演する。

We provide methods which recover planar scene geometry by utilizing the transient histograms captured by a class of close-range time-of-flight (ToF) distance sensor. A transient histogram is a one dimensional temporal waveform which encodes the arrival time of photons incident on the ToF sensor. Typically, a sensor processes the transient histogram using a proprietary algorithm to produce distance estimates, which are commonly used in several robotics applications. Our methods utilize the transient histogram directly to enable recovery of planar geometry more accurately than is possible using only proprietary distance estimates, and consistent recovery of the albedo of the planar surface, which is not possible with proprietary distance estimates alone. This is accomplished via a differentiable rendering pipeline, which simulates the transient imaging process, allowing direct optimization of scene geometry to match observations. To validate our methods, we capture 3,800 measurements of eight planar surfaces from a wide range of viewpoints, and show that our method outperforms the proprietary-distance-estimate baseline by an order of magnitude in most scenarios. We demonstrate a simple robotics application which uses our method to sense the distance to and slope of a planar surface from a sensor mounted on the end effector of a robot arm.
翻訳日:2023-08-28 13:09:56 公開日:2023-08-25
# 双線形分解に基づくオイラー弾性モデルの高速最小化アルゴリズム

A Fast Minimization Algorithm for the Euler Elastica Model Based on a Bilinear Decomposition ( http://arxiv.org/abs/2308.13471v1 )

ライセンス: Link先を確認
Zhifang Liu, Baochen Sun, Xue-Cheng Tai, Qi Wang, and Huibin Chang(参考訳) 表面曲率を持つEuler Elastica(EE)モデルは、画像処理における従来の総変分正規化モデルと比較してアーティファクトフリーの結果を生成することができる。 しかし、EEモデルの曲率項による強い非線形性と特異性は、EEモデルの高速で安定したアルゴリズムを設計する上で大きな課題となる。 本稿では、基礎画像の勾配の双線型分解に基づくEEモデルのための高速なハイブリッド交互最小化(HALM)アルゴリズムを提案し、軽度条件下でアルゴリズムが生成する最小化シーケンスのグローバル収束性を証明した。 HALMアルゴリズムは3つの部分最小化問題を含み、それぞれが閉じた形で解かれるか、あるいは高速解法によって近似される。 また、一般的な曲率に基づく変分モデル、特に曲率のリプシッツ滑らかな汎関数を扱うためのhalm戦略の拡張についても論じる。 多くの数値実験を行い、新しいアルゴリズムは、EEモデルの他の最先端アルゴリズムと比較して、非常に改善された効率で良い結果が得られることを示した。 ベンチマークの1つとして、HALMアルゴリズムの平均実行時間は、高速演算子分割に基づくDeng-Glowinski-Taiアルゴリズムの4分の1であることを示す。

The Euler Elastica (EE) model with surface curvature can generate artifact-free results compared with the traditional total variation regularization model in image processing. However, strong nonlinearity and singularity due to the curvature term in the EE model pose a great challenge for one to design fast and stable algorithms for the EE model. In this paper, we propose a new, fast, hybrid alternating minimization (HALM) algorithm for the EE model based on a bilinear decomposition of the gradient of the underlying image and prove the global convergence of the minimizing sequence generated by the algorithm under mild conditions. The HALM algorithm comprises three sub-minimization problems and each is either solved in the closed form or approximated by fast solvers making the new algorithm highly accurate and efficient. We also discuss the extension of the HALM strategy to deal with general curvature-based variational models, especially with a Lipschitz smooth functional of the curvature. A host of numerical experiments are conducted to show that the new algorithm produces good results with much-improved efficiency compared to other state-of-the-art algorithms for the EE model. As one of the benchmarks, we show that the average running time of the HALM algorithm is at most one-quarter of that of the fast operator-splitting-based Deng-Glowinski-Tai algorithm.
翻訳日:2023-08-28 13:09:34 公開日:2023-08-25
# RestNet: Residual Transformation NetworkによるクロスドメインFew-Shotセグメンテーションの強化

RestNet: Boosting Cross-Domain Few-Shot Segmentation with Residual Transformation Network ( http://arxiv.org/abs/2308.13469v1 )

ライセンス: Link先を確認
Xinyang Huang, Chuang Zhu, Wenkai Chen(参考訳) クロスドメイン小ショットセグメンテーション(CD-FSS)は、注釈付きサンプルの数が限られている未確認領域におけるセグメンテーションを実現することを目的としている。 既存のCD-FSSモデルはクロスドメインの特徴変換に重点を置いているが、ドメイン間の知識伝達のみに依存しているため、重要なドメイン内情報を失う可能性がある。 そこで本研究では,ドメイン内サポートクエリの特徴情報を保持しながら,知識伝達を容易にする新たな残差変換ネットワーク(RestNet)を提案する。 具体的には、高度な意味論を用いて、機能を安定したドメインに依存しない空間にマッピングする、セマンティック拡張アンカー変換(seat)モジュールを提案する。 さらに、ドメイン内残留拡張(IRE)モジュールは、新しい空間における元の識別空間のドメイン内表現を維持するように設計されている。 また,モデルのセグメンテーション学習を支援するために,プロトタイプ融合に基づくマスク予測戦略を提案する。 RestNetはドメイン間およびドメイン内の両方からドメイン間の知識を、追加の微調整を必要とせずに転送できる。 ISIC,Chest X-ray,FSS-1000の広範囲な実験により,我々のRestNetが最先端の性能を達成することが示された。 私たちのコードはもうすぐ利用可能になるでしょう。

Cross-domain few-shot segmentation (CD-FSS) aims to achieve semantic segmentation in previously unseen domains with a limited number of annotated samples. Although existing CD-FSS models focus on cross-domain feature transformation, relying exclusively on inter-domain knowledge transfer may lead to the loss of critical intra-domain information. To this end, we propose a novel residual transformation network (RestNet) that facilitates knowledge transfer while retaining the intra-domain support-query feature information. Specifically, we propose a Semantic Enhanced Anchor Transform (SEAT) module that maps features to a stable domain-agnostic space using advanced semantics. Additionally, an Intra-domain Residual Enhancement (IRE) module is designed to maintain the intra-domain representation of the original discriminant space in the new space. We also propose a mask prediction strategy based on prototype fusion to help the model gradually learn how to segment. Our RestNet can transfer cross-domain knowledge from both inter-domain and intra-domain without requiring additional fine-tuning. Extensive experiments on ISIC, Chest X-ray, and FSS-1000 show that our RestNet achieves state-of-the-art performance. Our code will be available soon.
翻訳日:2023-08-28 13:09:15 公開日:2023-08-25
# 合成一般化のためのデータ拡張としてのChatGPT:オープンインテント検出の事例

ChatGPT as Data Augmentation for Compositional Generalization: A Case Study in Open Intent Detection ( http://arxiv.org/abs/2308.13517v1 )

ライセンス: Link先を確認
Yihao Fang, Xianzhi Li, Stephen W. Thomas, Xiaodan Zhu(参考訳) 自然言語理解の重要な側面であるオープンインテント検出は、ユーザ生成テキストにおいて、これまで目に見えないインテントを識別する。 この分野での進歩にもかかわらず、コンポジションの一般化に不可欠な言語コンポーネントの新たな組み合わせを扱う上で、課題は続いている。 本稿では,ChatGPTをデータ拡張技術として活用し,オープンな意図検出タスクにおける構成一般化を強化するケーススタディを提案する。 まず,この問題評価における既存のベンチマークの限界を議論し,オープンインテント検出タスクにおける構成一般化に対応するデータセットの構築の必要性を強調する。 本稿では,ChatGPTが生成した合成データをトレーニングプロセスに組み込むことで,モデル性能を効果的に向上できることを示す。 複数のベンチマークの厳密な評価により,本手法は既存の手法よりも優れ,オープンな意図検出能力を大幅に向上させることがわかった。 自然言語理解タスクにおけるデータ拡張のためのChatGPTのような大規模言語モデルの可能性を明らかにする。

Open intent detection, a crucial aspect of natural language understanding, involves the identification of previously unseen intents in user-generated text. Despite the progress made in this field, challenges persist in handling new combinations of language components, which is essential for compositional generalization. In this paper, we present a case study exploring the use of ChatGPT as a data augmentation technique to enhance compositional generalization in open intent detection tasks. We begin by discussing the limitations of existing benchmarks in evaluating this problem, highlighting the need for constructing datasets for addressing compositional generalization in open intent detection tasks. By incorporating synthetic data generated by ChatGPT into the training process, we demonstrate that our approach can effectively improve model performance. Rigorous evaluation of multiple benchmarks reveals that our method outperforms existing techniques and significantly enhances open intent detection capabilities. Our findings underscore the potential of large language models like ChatGPT for data augmentation in natural language understanding tasks.
翻訳日:2023-08-28 13:03:23 公開日:2023-08-25
# GNNにおけるデュアルプライバシ保存におけるメッセージパッシングの役割の解明

Unveiling the Role of Message Passing in Dual-Privacy Preservation on GNNs ( http://arxiv.org/abs/2308.13513v1 )

ライセンス: Link先を確認
Tianyi Zhao, Hui Hu and Lu Cheng(参考訳) グラフニューラルネットワーク(gnns)は、ソーシャルネットワークなどのグラフ表現を学習するための強力なツールである。 しかし、プライバシ推論攻撃に対する脆弱性は、特に高い領域において、その実用性を制限する。 この問題に対処するため、ノードやリンクのプライバシの保護に重点を置いたプライバシー保護GNNが提案されている。 この研究は一歩後退し、GNNがプライバシー漏洩にどのように貢献するかを調査する。 理論的解析とシミュレーションにより,GNNがプライバシー漏洩を防止できるコアコンポーネントとして,構造バイアス下でのメッセージパッシングを同定する。 これらの知見に基づいて、ノードとリンクのプライバシーを効果的に保護する二元的プライバシ保護GNNフレームワークを提案する。 このフレームワークは3つの主要なモジュールで構成されている。ノードの埋め込みから機密情報を除去するSensitive Information Obfuscation Module、動的に構造バイアスを補正するDynamic Structure Debiasing Module、プライバシーとユーティリティのトレードオフを最適化するAdversarial Learning Moduleである。 4つのベンチマークデータセットによる実験結果から,ノード分類などの下流タスクに高い利便性を保ちながら,ノードとリンクのプライバシ保護において提案モデルの有効性が検証された。

Graph Neural Networks (GNNs) are powerful tools for learning representations on graphs, such as social networks. However, their vulnerability to privacy inference attacks restricts their practicality, especially in high-stake domains. To address this issue, privacy-preserving GNNs have been proposed, focusing on preserving node and/or link privacy. This work takes a step back and investigates how GNNs contribute to privacy leakage. Through theoretical analysis and simulations, we identify message passing under structural bias as the core component that allows GNNs to \textit{propagate} and \textit{amplify} privacy leakage. Building upon these findings, we propose a principled privacy-preserving GNN framework that effectively safeguards both node and link privacy, referred to as dual-privacy preservation. The framework comprises three major modules: a Sensitive Information Obfuscation Module that removes sensitive information from node embeddings, a Dynamic Structure Debiasing Module that dynamically corrects the structural bias, and an Adversarial Learning Module that optimizes the privacy-utility trade-off. Experimental results on four benchmark datasets validate the effectiveness of the proposed model in protecting both node and link privacy while preserving high utility for downstream tasks, such as node classification.
翻訳日:2023-08-28 13:03:06 公開日:2023-08-25
# 質問の明確化は生成コードの信頼性を高めるか? 大規模言語モデルのコミュニケーションスキルについて

Does Asking Clarifying Questions Increases Confidence in Generated Code? On the Communication Skills of Large Language Models ( http://arxiv.org/abs/2308.13507v1 )

ライセンス: Link先を確認
Jie JW Wu(参考訳) 大規模言語モデル(LLM)は、コード生成の分野でタスクを実行する能力を大幅に改善した。 しかし、LLMが有能なプログラマであることと、最上位のソフトウェアエンジニアであることの間にはまだギャップがある。 トップレベルのソフトウェアエンジニアが要件とコーディングソリューションのあいまいさを減らすために明確な質問をすることが多いことから、コード生成タスクにはLLMにも同じように適用すべきだと論じています。 最終コードを生成する前に様々なトピックで質問をすることで、意図不明な仕様、計算思考の欠如、望ましくないコード品質といったLCMを使ったプログラミングの課題が軽減される可能性がある。 これにより、生成されたコードの信頼性が向上する。 本研究では,優れたコミュニケーションスキルを活用して,生成されたコードに対する信頼性を高める方法について検討する。 本稿では,llm生成コミュニケータを用いて,問題記述や生成コードに対する曖昧さや信頼性の低い問題を識別する通信中心プロセスを提案する。 次に,コードの洗練に関するユーザからの回答を得るために,明確な質問を行う。

Large language models (LLMs) have significantly improved the ability to perform tasks in the field of code generation. However, there is still a gap between LLMs being capable coders and being top-tier software engineers. Based on the observation that top-level software engineers often ask clarifying questions to reduce ambiguity in both requirements and coding solutions, we argue that the same should be applied to LLMs for code generation tasks. By asking probing questions in various topics before generating the final code, the challenges of programming with LLMs, such as unclear intent specification, lack of computational thinking, and undesired code quality, may be alleviated. This, in turn, increases confidence in the generated code. In this work, we explore how to leverage better communication skills to achieve greater confidence in generated code. We propose a communication-centered process that uses an LLM-generated communicator to identify issues with high ambiguity or low confidence in problem descriptions and generated code. We then ask clarifying questions to obtain responses from users for refining the code.
翻訳日:2023-08-28 13:02:42 公開日:2023-08-25
# 段落レベルでの機械翻訳評価指標の訓練とメタ評価

Training and Meta-Evaluating Machine Translation Evaluation Metrics at the Paragraph Level ( http://arxiv.org/abs/2308.13506v1 )

ライセンス: Link先を確認
Daniel Deutsch and Juraj Juraska and Mara Finkelstein and and Markus Freitag(参考訳) 機械翻訳の研究が文レベルを超えてテキストの翻訳に移るにつれ、自動評価指標が長い翻訳のスコアにどの程度効果があるかは明らかでない。 本稿では,まず,既存の文レベルのデータからメトリクスを訓練し,メタ評価するための段落レベルのデータを作成する手法を提案する。 そして、これらの新しいデータセットを使用して、既存の文レベルのメトリクスをベンチマークし、段落レベルの学習メトリクスをトレーニングします。 実験結果から,文レベルの指標を用いて段落全体を評価することは,段落レベルで作業するように設計された指標と同等に効果的であることが示された。 この結果は,参照ベース評価の課題の特性と,段落レベルの翻訳で発生するすべての現象を捉えるためのデータセットの制限に起因していると推測する。

As research on machine translation moves to translating text beyond the sentence level, it remains unclear how effective automatic evaluation metrics are at scoring longer translations. In this work, we first propose a method for creating paragraph-level data for training and meta-evaluating metrics from existing sentence-level data. Then, we use these new datasets to benchmark existing sentence-level metrics as well as train learned metrics at the paragraph level. Interestingly, our experimental results demonstrate that using sentence-level metrics to score entire paragraphs is equally as effective as using a metric designed to work at the paragraph level. We speculate this result can be attributed to properties of the task of reference-based evaluation as well as limitations of our datasets with respect to capturing all types of phenomena that occur in paragraph-level translations.
翻訳日:2023-08-28 13:02:22 公開日:2023-08-25
# 映像オブジェクトセグメンテーションのための特徴量・対応性・圧縮メモリの協調モデリング

Joint Modeling of Feature, Correspondence, and a Compressed Memory for Video Object Segmentation ( http://arxiv.org/abs/2308.13505v1 )

ライセンス: Link先を確認
Jiaming Zhang, Yutao Cui, Gangshan Wu, Limin Wang(参考訳) 現在のビデオオブジェクトセグメンテーション(VOS)メソッドは、通常、特徴を抽出した後、現在のフレームと参照フレームの密マッチングを実行する。 一方、分離されたモデリングは、高レベルな特徴空間でのみターゲット情報伝搬を制限する。 一方、ピクセル単位でのマッチングは、ターゲットの全体的理解の欠如につながる。 これらの問題を解決するために,特徴,対応性,圧縮メモリの3要素を共同モデリングするための統合VOSフレームワークであるJointFormerを提案する。 中心となる設計はジョイントブロックであり、注意の柔軟性を利用して特徴を抽出し、ターゲット情報を現在のトークンと圧縮メモリトークンに伝播する。 このスキームは、広範な情報伝達と識別的特徴学習を可能にする。 長期の時間的目標情報を組み込むため、圧縮されたメモリトークンのオンライン更新機構を考案し、時間的次元に沿った情報の流れを誘導し、グローバルなモデリング能力を向上させる。 DAVIS 2017 val/test-dev (89.7% と 87.6%) と YouTube-VOS 2018/2019 val (87.0% と 87.0%) のベンチマークでは、新しい最先端のパフォーマンスを実現し、既存の作業よりも大きなマージンを達成している。

Current prevailing Video Object Segmentation (VOS) methods usually perform dense matching between the current and reference frames after extracting their features. One on hand, the decoupled modeling restricts the targets information propagation only at high-level feature space. On the other hand, the pixel-wise matching leads to a lack of holistic understanding of the targets. To overcome these issues, we propose a unified VOS framework, coined as JointFormer, for joint modeling the three elements of feature, correspondence, and a compressed memory. The core design is the Joint Block, utilizing the flexibility of attention to simultaneously extract feature and propagate the targets information to the current tokens and the compressed memory token. This scheme allows to perform extensive information propagation and discriminative feature learning. To incorporate the long-term temporal targets information, we also devise a customized online updating mechanism for the compressed memory token, which can prompt the information flow along the temporal dimension and thus improve the global modeling capability. Under the design, our method achieves a new state-of-art performance on DAVIS 2017 val/test-dev (89.7% and 87.6%) and YouTube-VOS 2018/2019 val (87.0% and 87.0%) benchmarks, outperforming existing works by a large margin.
翻訳日:2023-08-28 13:02:08 公開日:2023-08-25
# A2Q: オーバーフロー回避による累積量子化

A2Q: Accumulator-Aware Quantization with Guaranteed Overflow Avoidance ( http://arxiv.org/abs/2308.13504v1 )

ライセンス: Link先を確認
Ian Colbert, Alessandro Pappalardo, Jakoba Petri-Koenig(参考訳) 本稿では,量子化ニューラルネットワーク (qnns) を学習するための新しい重み量子化法であるaccumulator-aware quantization (a2q)を提案する。 a2qは、モデル重みのl1ノルムを我々が導出する累積ビット幅境界に従って制約する重み正規化に触発された一意な定式化を導入する。 このように、低精度蓄積のためのQNNのトレーニングにおいて、A2Qは本質的に、オーバーフロー回避を保証するために非構造的な重量空間も促進する。 本手法を深層学習に基づくコンピュータビジョンタスクに適用し,浮動小数点ベースラインと競合するモデル精度を維持しつつ,a2qが低精度アキュムレータに対してqnnを訓練できることを示す。 本評価では,A2Qが汎用プラットフォームとプログラマブルハードウェアの両方に与える影響を考察する。 しかし、カスタムアキュムレータのビット幅を十分に活用するようにプログラムできるため、fpga上のモデル配置を主にターゲットとしています。 実験の結果,accumulatorのビット幅はfpgaベースのアクセラレータのリソース効率に大きく影響することがわかった。 ベンチマークの平均では、a2qは32ビットアキュムレータのリソース使用率を最大2.3倍削減し、浮動小数点モデルの99.2%の精度を実現しています。

We present accumulator-aware quantization (A2Q), a novel weight quantization method designed to train quantized neural networks (QNNs) to avoid overflow when using low-precision accumulators during inference. A2Q introduces a unique formulation inspired by weight normalization that constrains the L1-norm of model weights according to accumulator bit width bounds that we derive. Thus, in training QNNs for low-precision accumulation, A2Q also inherently promotes unstructured weight sparsity to guarantee overflow avoidance. We apply our method to deep learning-based computer vision tasks to show that A2Q can train QNNs for low-precision accumulators while maintaining model accuracy competitive with a floating-point baseline. In our evaluations, we consider the impact of A2Q on both general-purpose platforms and programmable hardware. However, we primarily target model deployment on FPGAs because they can be programmed to fully exploit custom accumulator bit widths. Our experimentation shows accumulator bit width significantly impacts the resource efficiency of FPGA-based accelerators. On average across our benchmarks, A2Q offers up to a 2.3x reduction in resource utilization over 32-bit accumulator counterparts with 99.2% of the floating-point model accuracy.
翻訳日:2023-08-28 13:01:43 公開日:2023-08-25
# マルチタスク学習による深部フェイク検出における一般化可能性の検討

Attending Generalizability in Course of Deep Fake Detection by Exploring Multi-task Learning ( http://arxiv.org/abs/2308.13503v1 )

ライセンス: Link先を確認
Pranav Balaji, Abhijit Das, Srijan Das, Antitza Dantcheva(参考訳) 本研究は,マルチタスク学習(MTL)手法を多種多様な手法で探索し,動画を原語に分類したり,クロスマニピュレーションシナリオで操作したりすることで,ディープフェイクシナリオにおける一般化性を実現する。 評価に使用されるデータセットはfaceforensics++で、4つの異なる技術で操作された1000のオリジナルビデオと合計5000の動画を特徴とする。 我々は,マルチタスク学習とコントラスト技法に関する広範な実験を行い,その一般化効果について文献でよく研究した。 提案手法は, 訓練中に遭遇しない操作法を, 最先端と比較して精度良く検出できるという, 極めて一般化した手法であると考えられる。

This work explores various ways of exploring multi-task learning (MTL) techniques aimed at classifying videos as original or manipulated in cross-manipulation scenario to attend generalizability in deep fake scenario. The dataset used in our evaluation is FaceForensics++, which features 1000 original videos manipulated by four different techniques, with a total of 5000 videos. We conduct extensive experiments on multi-task learning and contrastive techniques, which are well studied in literature for their generalization benefits. It can be concluded that the proposed detection model is quite generalized, i.e., accurately detects manipulation methods not encountered during training as compared to the state-of-the-art.
翻訳日:2023-08-28 13:01:21 公開日:2023-08-25
# 局所仮想浄化

Localized Virtual Purification ( http://arxiv.org/abs/2308.13500v1 )

ライセンス: Link先を確認
Hideaki Hakoshima, Suguru Endo, Kaoru Yamamoto, Yuichiro Matsuzaki, Nobuyuki Yoshioka(参考訳) アナログおよびデジタル量子シミュレータは、自然現象に現れる量子多体系を効率的にシミュレートすることができる。 しかし、短期デバイスの実験的な限界は、量子シミュレーションのプロセス全体の実行を困難にしている。 浄化に基づく量子シミュレーション手法は, 冷却温度や環境騒音などの実験における限界を緩和できるが, 本手法では, システムサイズに指数関数的にスケールする非常に大きな測定値を持つ大域的絡み合い測定が必要であるという欠点がある。 本報告では,システムの局所性が悪用された場合に,測定対象の局所観測対象物近傍に絡み合った測定値を制限することで,これらの問題を克服できることを示す。 我々は,特に冷却と誤差緩和のタスクにおいて,グローバル浄化操作を局所操作に置き換えることができることを理論的に保証する。 さらに,条件が満たされていない場合でも,局所浄化が有効であることを示す数値検証を行う。 本手法は,量子シミュレータと局所性の基本的な概念を橋渡しし,未探索の量子多体現象への道を開くことを期待する。

Analog and digital quantum simulators can efficiently simulate quantum many-body systems that appear in natural phenomena. However, experimental limitations of near-term devices still make it challenging to perform the entire process of quantum simulation. The purification-based quantum simulation methods can alleviate the limitations in experiments such as the cooling temperature and noise from the environment, while this method has the drawback that it requires global entangled measurement with a prohibitively large number of measurements that scales exponentially with the system size. In this Letter, we propose that we can overcome these problems by restricting the entangled measurements to the vicinity of the local observables to be measured, when the locality of the system can be exploited. We provide theoretical guarantees that the global purification operation can be replaced with local operations under some conditions, in particular for the task of cooling and error mitigation. We furthermore give a numerical verification that the localized purification is valid even when conditions are not satisfied. Our method bridges the fundamental concept of locality with quantum simulators, and therefore expected to open a path to unexplored quantum many-body phenomena.
翻訳日:2023-08-28 13:01:07 公開日:2023-08-25
# Pairwise-Distance Estimator を用いた迅速かつ正確なてんかん不確かさ推定

Escaping the Sample Trap: Fast and Accurate Epistemic Uncertainty Estimation with Pairwise-Distance Estimators ( http://arxiv.org/abs/2308.13498v1 )

ライセンス: Link先を確認
Lucas Berry, David Meger(参考訳) 本研究は,ペアワイズ距離推定器(PaiDEs)を用いたアンサンブルモデルに対する新しい不確実性推定手法を提案する。 これらの推定器は、モデルコンポーネント間のペアワイズ距離を利用してエントロピーの境界を確立し、その境界を情報に基づく基準の見積もりとして利用する。 サンプルベースのモンテカルロ推定値に依存する、近年の認識不確実性推定のためのディープラーニング手法とは異なり、payesは、より広い空間(最大100$\times$)において、100$\times$までの認識不確実性を推定し、より高い次元でより正確に実行することができる。 提案手法の有効性を検証するために,1次元正弦波データ,Pendulum-v0,Hopper-v2,Ant-v2,Humanoid-v2の3種類の実験を行った。 各実験環境において, 心的不確実性評価のためのPaiDEの利点を示すために, アクティブラーニングフレームワークを適用した。

This work introduces a novel approach for epistemic uncertainty estimation for ensemble models using pairwise-distance estimators (PaiDEs). These estimators utilize the pairwise-distance between model components to establish bounds on entropy and uses said bounds as estimates for information-based criterion. Unlike recent deep learning methods for epistemic uncertainty estimation, which rely on sample-based Monte Carlo estimators, PaiDEs are able to estimate epistemic uncertainty up to 100$\times$ faster, over a larger space (up to 100$\times$) and perform more accurately in higher dimensions. To validate our approach, we conducted a series of experiments commonly used to evaluate epistemic uncertainty estimation: 1D sinusoidal data, Pendulum-v0, Hopper-v2, Ant-v2 and Humanoid-v2. For each experimental setting, an Active Learning framework was applied to demonstrate the advantages of PaiDEs for epistemic uncertainty estimation.
翻訳日:2023-08-28 13:00:48 公開日:2023-08-25
# ガンベイ・フレンチニューラルマシン翻訳(スバ-Fr)

Ngambay-French Neural Machine Translation (sba-Fr) ( http://arxiv.org/abs/2308.13497v1 )

ライセンス: Link先を確認
Sakayo Toadoum Sari and Angela Fan and Lema Logamou Seknewna(参考訳) アフリカ、そして世界全体では、言語の壁を克服するためのニューラルマシン翻訳(nmt)システムの開発が注目されている。 低リソース言語のためのNMTは、限られたラベル付きデータで学習するので、特に魅力的です。 しかし,低リソース言語のための並列コーパスの整合は困難である。 いくつかのグローバル言語の技術的進歩と、チャドの地方言語におけるnmtに関する研究の欠如との差は目覚ましい。 低リソースのChad言語に対するエンドツーエンドNMT試験は試みられていない。 さらに、いくつかのアフリカの言語とは異なり、自然言語処理の研究のために、オンラインや構造化されたデータ収集が数多く行われている。 しかし、データ収集のためのガイドされたアプローチは、豊富なデータを持つよく知られた言語と多くのチャド語翻訳ペアのバイテキストデータを生成することができる。 本プロジェクトでは,Ngambay-to- French翻訳のコーパスである最初のsba-Frデータセットを作成し,このデータセットを用いて3つの事前学習モデルを微調整した。 実験の結果,M2M100モデルは,オリジナルとオリジナルの両方の合成データに対して,BLEUスコアの高い他のモデルよりも優れていた。 公開されているbitextデータセットは、研究目的に使用できる。

In Africa, and the world at large, there is an increasing focus on developing Neural Machine Translation (NMT) systems to overcome language barriers. NMT for Low-resource language is particularly compelling as it involves learning with limited labelled data. However, obtaining a well-aligned parallel corpus for low-resource languages can be challenging. The disparity between the technological advancement of a few global languages and the lack of research on NMT for local languages in Chad is striking. End-to-end NMT trials on low-resource Chad languages have not been attempted. Additionally, there is a dearth of online and well-structured data gathering for research in Natural Language Processing, unlike some African languages. However, a guided approach for data gathering can produce bitext data for many Chadian language translation pairs with well-known languages that have ample data. In this project, we created the first sba-Fr Dataset, which is a corpus of Ngambay-to-French translations, and fine-tuned three pre-trained models using this dataset. Our experiments show that the M2M100 model outperforms other models with high BLEU scores on both original and original+synthetic data. The publicly available bitext dataset can be used for research purposes.
翻訳日:2023-08-28 13:00:26 公開日:2023-08-25
# ロングテール認識のための新しいクラス発見

Novel Class Discovery for Long-tailed Recognition ( http://arxiv.org/abs/2308.02989v3 )

ライセンス: Link先を確認
Chuyu Zhang, Ruijie Xu, Xuming He(参考訳) 新たなクラス発見は、最近大きな進歩を遂げたが、既存のメソッドは通常、クラスバランスのベンチマークにおけるアルゴリズムの改善に焦点を当てている。 しかし、実世界の認識タスクでは、対応するデータセットのクラス分布はしばしばバランスがとれないため、それらのメソッドのパフォーマンスが著しく低下する。 本稿では,新しいクラスと既知のクラスの分布が長い,新しいクラス発見のためのより現実的な設定を考える。 この新しい問題の1つの大きな課題は、ロングテールの既知のクラスの助けを借りて、バランスのとれない新しいクラスを見つけることである。 そこで本研究では,クラスの等角プロトタイプ表現に基づく適応的自己ラベル戦略を提案する。 本手法は, 緩和した最適輸送問題を解くことにより, 新規クラスの高品質な擬似ラベルを推定し, 既知のクラスおよび新規クラスの学習におけるクラスバイアスを効果的に軽減する。 我々は,CIFAR100,ImageNet100,Herbarium19および大規模iNaturalist18データセットについて広範な実験を行い,本手法の優位性を実証した。 私たちのコードはhttps://github.com/kleinzcy/NCDLRで利用可能です。

While the novel class discovery has recently made great progress, existing methods typically focus on improving algorithms on class-balanced benchmarks. However, in real-world recognition tasks, the class distributions of their corresponding datasets are often imbalanced, which leads to serious performance degeneration of those methods. In this paper, we consider a more realistic setting for novel class discovery where the distributions of novel and known classes are long-tailed. One main challenge of this new problem is to discover imbalanced novel classes with the help of long-tailed known classes. To tackle this problem, we propose an adaptive self-labeling strategy based on an equiangular prototype representation of classes. Our method infers high-quality pseudo-labels for the novel classes by solving a relaxed optimal transport problem and effectively mitigates the class biases in learning the known and novel classes. We perform extensive experiments on CIFAR100, ImageNet100, Herbarium19 and large-scale iNaturalist18 datasets, and the results demonstrate the superiority of our method. Our code is available at https://github.com/kleinzcy/NCDLR.
翻訳日:2023-08-28 11:17:53 公開日:2023-08-25
# CNOS:CADベースの新しいオブジェクトセグメンテーションのための強力なベースライン

CNOS: A Strong Baseline for CAD-based Novel Object Segmentation ( http://arxiv.org/abs/2307.11067v4 )

ライセンス: Link先を確認
Van Nguyen Nguyen, Thibault Groueix, Georgy Ponimatkin, Vincent Lepetit, Tomas Hodan(参考訳) CADモデルを用いて,RGB画像中の未確認オブジェクトを分割する手法を提案する。 最近の強力な基盤モデルであるDINOv2とSegment Anythingを活用して、記述子を作成し、与えられた入力RGBイメージのバイナリマスクを含む提案を生成する。 CADモデルから生成された参照記述子と提案を一致させることで、モーダルマスクとともに正確なオブジェクトID割り当てを実現する。 我々は,本手法がCADに基づく新しいオブジェクトセグメンテーションにおいて,BOP課題の7つのコアデータセットに対する既存のアプローチを19.8%のAPで上回り,最先端の成果を達成できることを実験的に実証した。 ソースコードはhttps://github.com/nv-nguyen/cnosで入手できます。

We propose a simple three-stage approach to segment unseen objects in RGB images using their CAD models. Leveraging recent powerful foundation models, DINOv2 and Segment Anything, we create descriptors and generate proposals, including binary masks for a given input RGB image. By matching proposals with reference descriptors created from CAD models, we achieve precise object ID assignment along with modal masks. We experimentally demonstrate that our method achieves state-of-the-art results in CAD-based novel object segmentation, surpassing existing approaches on the seven core datasets of the BOP challenge by 19.8% AP using the same BOP evaluation protocol. Our source code is available at https://github.com/nv-nguyen/cnos.
翻訳日:2023-08-28 11:17:32 公開日:2023-08-25
# 遅延下におけるMin-Max最適化

Min-Max Optimization under Delays ( http://arxiv.org/abs/2307.06886v3 )

ライセンス: Link先を確認
Arman Adibi, Aritra Mitra, and Hamed Hassani(参考訳) コミュニケーションが重要な役割を果たす大規模機械学習では、遅延と非同期性は避けられない。 このように、いくつかの研究は遅延勾配を伴う確率的最適化を広範囲に分析している。 しかし、我々が認識している限り、min-max最適化の類似理論は存在せず、敵意の強固さ、ゲーム理論、強化学習の応用により最近人気を集めている。 このギャップにより、遅延勾配更新を伴う標準のmin-max最適化アルゴリズムの性能について検討する。 まず, 遅延が小さい場合でも, 遅延がない場合の収束が保証される単純なインスタンスに対して, 勾配外(\texttt{EG})のような顕著なアルゴリズムが発散することを示す。 その結果,min-max最適化アルゴリズムの遅延バージョンを注意深く解析する必要性が示唆された。 したがって、適切な技術的仮定の下では、遅延更新を伴う勾配降下(\texttt{gda})および \texttt{eg} が凸凹および強い凸強凸凹設定のためのサドル点への収束を保証し続けることが証明される。 私たちの複雑性は、透過的な方法で、遅延による収束の遅さを明らかにします。

Delays and asynchrony are inevitable in large-scale machine-learning problems where communication plays a key role. As such, several works have extensively analyzed stochastic optimization with delayed gradients. However, as far as we are aware, no analogous theory is available for min-max optimization, a topic that has gained recent popularity due to applications in adversarial robustness, game theory, and reinforcement learning. Motivated by this gap, we examine the performance of standard min-max optimization algorithms with delayed gradient updates. First, we show (empirically) that even small delays can cause prominent algorithms like Extra-gradient (\texttt{EG}) to diverge on simple instances for which \texttt{EG} guarantees convergence in the absence of delays. Our empirical study thus suggests the need for a careful analysis of delayed versions of min-max optimization algorithms. Accordingly, under suitable technical assumptions, we prove that Gradient Descent-Ascent (\texttt{GDA}) and \texttt{EG} with delayed updates continue to guarantee convergence to saddle points for convex-concave and strongly convex-strongly concave settings. Our complexity bounds reveal, in a transparent manner, the slow-down in convergence caused by delays.
翻訳日:2023-08-28 11:17:17 公開日:2023-08-25
# 事前学習型GANとVAEの特徴学習

Feature Unlearning for Pre-trained GANs and VAEs ( http://arxiv.org/abs/2303.05699v3 )

ライセンス: Link先を確認
Saemi Moon, Seunghyuk Cho, Dongwoo Kim(参考訳) 我々は,事前学習された画像生成モデルであるGANとVAEから特徴非学習の問題に取り組む。 学習対象がトレーニングセットのサブセットである一般的な未学習タスクとは異なり、訓練前の生成モデルから顔画像のヘアスタイルのような特定の特徴を解放することを目指している。 対象特徴が画像の局所領域にのみ表示されるため、事前学習されたモデルから全体像を学習すると、画像の残りの領域で他の詳細が失われる可能性がある。 学習すべき特徴を特定するために,対象特徴を含むランダムに生成した画像を収集する。 次に,対象特徴に対応する潜在表現を特定し,その表現を用いて事前学習したモデルを微調整する。 MNISTとCelebAデータセットの実験により,元のモデルの忠実さを維持しながら,ターゲット特徴の除去に成功した。 敵対的な攻撃によるさらなる実験は、未発見のモデルは悪意のある当事者の存在下でより堅牢であることを示している。

We tackle the problem of feature unlearning from a pre-trained image generative model: GANs and VAEs. Unlike a common unlearning task where an unlearning target is a subset of the training set, we aim to unlearn a specific feature, such as hairstyle from facial images, from the pre-trained generative models. As the target feature is only presented in a local region of an image, unlearning the entire image from the pre-trained model may result in losing other details in the remaining region of the image. To specify which features to unlearn, we collect randomly generated images that contain the target features. We then identify a latent representation corresponding to the target feature and then use the representation to fine-tune the pre-trained model. Through experiments on MNIST and CelebA datasets, we show that target features are successfully removed while keeping the fidelity of the original models. Further experiments with an adversarial attack show that the unlearned model is more robust under the presence of malicious parties.
翻訳日:2023-08-28 11:16:52 公開日:2023-08-25
# 変圧器を用いたシーン表現学習による強化学習による自律運転意思決定

Augmenting Reinforcement Learning with Transformer-based Scene Representation Learning for Decision-making of Autonomous Driving ( http://arxiv.org/abs/2208.12263v3 )

ライセンス: Link先を確認
Haochen Liu, Zhiyu Huang, Xiaoyu Mo, and Chen Lv(参考訳) インタラクティブな交通参加者の確率的性質と道路構造の複雑さにより、都市自律運転の意思決定は困難である。 強化学習(rl)に基づく意思決定手法は都市運転のシナリオをうまく扱うことができるが、サンプル効率の低下と適応性の低下に苦しむ。 本稿では,シーン表現符号化と逐次予測潜在蒸留によりRL判定能力を向上させるScene-Rep Transformerを提案する。 具体的には、マルチステージトランスフォーマー(MST)エンコーダを構築し、エゴ車とその隣人間の相互作用意識だけでなく、エージェントとその候補経路間の相互作用意識をモデル化する。 自己教師型学習目標を持つシーケンシャル潜水変圧器(SLT)を用いて,将来の予測情報を潜水場表現に蒸留し,探索空間の低減とトレーニングの高速化を図る。 ソフトアクター・クリティック(SAC)に基づく最終決定モジュールは、Scene-Rep Transformerから精細化された潜在シーン表現を入力として駆動動作を出力する。 このフレームワークは、密集したトラフィックを伴う5つのシミュレート都市シナリオで検証され、その性能は、成功率、安全性、効率の観点から、データ効率とパフォーマンスの大幅な改善によって定量的に示される。 定性的な結果は、我々のフレームワークが近隣のエージェントの意図を抽出し、意思決定を助け、より多様な運転行動を提供できることを示している。

Decision-making for urban autonomous driving is challenging due to the stochastic nature of interactive traffic participants and the complexity of road structures. Although reinforcement learning (RL)-based decision-making scheme is promising to handle urban driving scenarios, it suffers from low sample efficiency and poor adaptability. In this paper, we propose Scene-Rep Transformer to improve the RL decision-making capabilities with better scene representation encoding and sequential predictive latent distillation. Specifically, a multi-stage Transformer (MST) encoder is constructed to model not only the interaction awareness between the ego vehicle and its neighbors but also intention awareness between the agents and their candidate routes. A sequential latent Transformer (SLT) with self-supervised learning objectives is employed to distill the future predictive information into the latent scene representation, in order to reduce the exploration space and speed up training. The final decision-making module based on soft actor-critic (SAC) takes as input the refined latent scene representation from the Scene-Rep Transformer and outputs driving actions. The framework is validated in five challenging simulated urban scenarios with dense traffic, and its performance is manifested quantitatively by the substantial improvements in data efficiency and performance in terms of success rate, safety, and efficiency. The qualitative results reveal that our framework is able to extract the intentions of neighbor agents to help make decisions and deliver more diversified driving behaviors.
翻訳日:2023-08-28 11:16:35 公開日:2023-08-25
# スピン鎖の局所作用素絡み合い

Local Operator Entanglement in Spin Chains ( http://arxiv.org/abs/2012.14609v5 )

ライセンス: Link先を確認
Eric Mascot, Masahiro Nozaki, Masaki Tezuka(参考訳) 局所摂動が量子系全体に与える影響を理解することは、熱化のような非平衡現象を理解するための基本的なステップである。 この非平衡現象の知識は量子計算に応用され、多くの量子コンピュータは計算に非平衡過程を用いる。 本稿では,磁場を伴う一次元イジングモデルと無秩序ハイゼンベルクモデルにおける時間発展作用素とパウリスピン作用素の相互情報と二成分作用素の相互関係について検討し,量子回路の性質について検討する。 イジングモデルでは、早期進化は有効光円錐像を定性的に追従し、後期値はランダムな純粋な状態に対するページ値によってよく説明される。 強障害を有するハイゼンベルクモデルでは,多体局在化は情報の伝播や非局在化を防ぐ。 また,大規模障害領域におけるハイゼンベルクモデルに対する二項および三項作用素相互情報の進化を記述する効果的なイジング・ハミルトニアンも発見する。

Understanding how and whether local perturbations can affect the entire quantum system is a fundamental step in understanding non-equilibrium phenomena such as thermalization. This knowledge of non-equilibrium phenomena is applicable for quantum computation, as many quantum computers employ non-equilibrium processes for computations. In this paper, we investigate the evolution of bi- and tripartite operator mutual information of the time-evolution operator and the Pauli spin operators in the one-dimensional Ising model with magnetic field and the disordered Heisenberg model to study the properties of quantum circuits. In the Ising model, the early-time evolution qualitatively follows an effective light cone picture, and the late-time value is well described by Page's value for a random pure state. In the Heisenberg model with strong disorder, we find that many-body localization prevents the information from propagating and being delocalized. We also find an effective Ising Hamiltonian that describes the time evolution of bi- and tripartite operator mutual information for the Heisenberg model in the large disorder regime.
翻訳日:2023-08-28 11:16:08 公開日:2023-08-25
# Code Llama: コードのためのオープンファンデーションモデル

Code Llama: Open Foundation Models for Code ( http://arxiv.org/abs/2308.12950v2 )

ライセンス: Link先を確認
Baptiste Rozi\`ere, Jonas Gehring, Fabian Gloeckle, Sten Sootla, Itai Gat, Xiaoqing Ellen Tan, Yossi Adi, Jingyu Liu, Tal Remez, J\'er\'emy Rapin, Artyom Kozhevnikov, Ivan Evtimov, Joanna Bitton, Manish Bhatt, Cristian Canton Ferrer, Aaron Grattafiori, Wenhan Xiong, Alexandre D\'efossez, Jade Copet, Faisal Azhar, Hugo Touvron, Louis Martin, Nicolas Usunier, Thomas Scialom, Gabriel Synnaeve(参考訳) Code Llamaは、Llama 2に基づくコードのための大規模言語モデルのファミリーで、オープンモデル間の最先端のパフォーマンス、インフィル機能、大きな入力コンテキストのサポート、プログラミングタスクのゼロショットインストラクションに続く機能を提供します。 ファンデーションモデル(Code Llama)、Pythonの特殊化(Code Llama - Python)、命令フォローモデル(Code Llama - Instruct)、それぞれ7B、13B、34Bパラメータを持つ。 すべてのモデルは16kトークンのシーケンスでトレーニングされ、最大10kトークンによる入力の改善を示す。 7Bと13B Code LlamaとCode Llama - 周辺コンテンツに基づいたインフィルをサポートするインストラクションバリアント。 Code Llamaは、いくつかのコードベンチマークで、HumanEvalとMBPPでそれぞれ53%と55%のスコアで、最先端のパフォーマンスを達成した。 特に、code llama - python 7bはhumanevalとmbppのllama 2 70bよりも優れています。 私たちはCode Llamaをパーミッシブライセンスでリリースし、研究と商用の両方の使用を可能にします。

We release Code Llama, a family of large language models for code based on Llama 2 providing state-of-the-art performance among open models, infilling capabilities, support for large input contexts, and zero-shot instruction following ability for programming tasks. We provide multiple flavors to cover a wide range of applications: foundation models (Code Llama), Python specializations (Code Llama - Python), and instruction-following models (Code Llama - Instruct) with 7B, 13B and 34B parameters each. All models are trained on sequences of 16k tokens and show improvements on inputs with up to 100k tokens. 7B and 13B Code Llama and Code Llama - Instruct variants support infilling based on surrounding content. Code Llama reaches state-of-the-art performance among open models on several code benchmarks, with scores of up to 53% and 55% on HumanEval and MBPP, respectively. Notably, Code Llama - Python 7B outperforms Llama 2 70B on HumanEval and MBPP, and all our models outperform every other publicly available model on MultiPL-E. We release Code Llama under a permissive license that allows for both research and commercial use.
翻訳日:2023-08-28 11:13:06 公開日:2023-08-25
# 視覚言語前訓練における言語知識はマルチモーダルアライメントを改善するか?

Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language Pretraining? ( http://arxiv.org/abs/2308.12898v2 )

ライセンス: Link先を確認
Fei Wang, Liang Ding, Jun Rao, Ye Liu, Li Shen, Changxing Ding(参考訳) マルチメディアコミュニティは、マルチモーダル事前学習されたニューラルネットワークモデルによる物理世界の知覚と表現に大きな関心を示しており、その中でも、視覚言語関連(vlp)は、現在、最も魅惑的な話題である。 しかし、探検のための活動はほとんど行われていない。 1)本質的な言語知識(セマンティクスや構文など)をVLP中に抽出できるかどうか、そして 2) 言語知識がマルチモーダルアライメントにどのように影響するか。 そこで本研究では,意味表現や構文構造を含む包括的言語知識がマルチモーダルアライメントに与える影響を明らかにすることを目的とする。 具体的には、セマンティック構造、否定論理、属性オーナシップ、関係合成の4つのタスクを含む語彙、意味、構文知識などの重要な言語要素を検出するため、最初の大規模マルチモーダルアライメント探索ベンチマークであるSNAREを設計、リリースする。 提案した探索ベンチマークに基づいて、5つの先進的なVLPモデルの総合解析により、VLPモデルが示される。 一 複雑な構文構造に敏感で、文理解のための内容語に依存すること。 二 文と否定の組合せの限定的な理解を示すこと。 三 視覚情報における行動の有無又は空間的関係の決定の困難に直面し、三重組み合わせの正確性の検証に苦しむこと。 ベンチマークとコードは \url{https://github.com/wangfei-2019/snare/} で利用可能です。

The multimedia community has shown a significant interest in perceiving and representing the physical world with multimodal pretrained neural network models, and among them, the visual-language pertaining (VLP) is, currently, the most captivating topic. However, there have been few endeavors dedicated to the exploration of 1) whether essential linguistic knowledge (e.g., semantics and syntax) can be extracted during VLP, and 2) how such linguistic knowledge impact or enhance the multimodal alignment. In response, here we aim to elucidate the impact of comprehensive linguistic knowledge, including semantic expression and syntactic structure, on multimodal alignment. Specifically, we design and release the SNARE, the first large-scale multimodal alignment probing benchmark, to detect the vital linguistic components, e.g., lexical, semantic, and syntax knowledge, containing four tasks: Semantic structure, Negation logic, Attribute ownership, and Relationship composition. Based on our proposed probing benchmarks, our holistic analyses of five advanced VLP models illustrate that the VLP model: i) shows insensitivity towards complex syntax structures and relies on content words for sentence comprehension; ii) demonstrates limited comprehension of combinations between sentences and negations; iii) faces challenges in determining the presence of actions or spatial relationships within visual information and struggles with verifying the correctness of triple combinations. We make our benchmark and code available at \url{https://github.com/WangFei-2019/SNARE/}.
翻訳日:2023-08-28 11:12:42 公開日:2023-08-25
# 強化学習を用いた頭上マニピュレータを有するuavのアクチュエータ軌道計画

Actuator Trajectory Planning for UAVs with Overhead Manipulator using Reinforcement Learning ( http://arxiv.org/abs/2308.12843v2 )

ライセンス: Link先を確認
Hazim Alzorgan, Abolfazl Razi, Ata Jahangir Moshayedi(参考訳) 本稿では,無人航空機 (UAV) に自由度2自由度を有する制御可能なアームを装着し, 飛行時の作動作業を行う航空マニピュレータシステムの運用について検討する。 我々のソリューションは、腕の先端の軌跡を制御するためのQ-learning法(End-effector)を用いています。 具体的には,TTC(Time To Collision)に基づく動作計画モデルを構築し,マニピュレータの到達性を確保しつつ障害物を回避できる。 さらに,UAVプラットフォームに対する任意のベースライン軌跡を与えられたマニピュレータのエンドエフェクタの所望の軌道を,モデルベースQ学習モデルを用いて独立に追跡・制御する。 このような組み合わせにより、飛行制御ファームウェアとの互換性を維持しつつ、高高度溶接、構造監視および修理、電池交換、ガークリーニング、スカイスクラッパークリーニング、および難航・危険環境における電力線維持といった様々な作動作業が可能になる。 我々のRL制御機構は、UAVの動作の不確実性に対処し、有望な性能を提供する堅牢な制御戦略をもたらす。 具体的には, 15,000エピソードのq-learningを用いて, 平均変位誤差(すなわち, 目標と得られた軌道点の平均距離)の92%の精度を達成する。

In this paper, we investigate the operation of an aerial manipulator system, namely an Unmanned Aerial Vehicle (UAV) equipped with a controllable arm with two degrees of freedom to carry out actuation tasks on the fly. Our solution is based on employing a Q-learning method to control the trajectory of the tip of the arm, also called end-effector. More specifically, we develop a motion planning model based on Time To Collision (TTC), which enables a quadrotor UAV to navigate around obstacles while ensuring the manipulator's reachability. Additionally, we utilize a model-based Q-learning model to independently track and control the desired trajectory of the manipulator's end-effector, given an arbitrary baseline trajectory for the UAV platform. Such a combination enables a variety of actuation tasks such as high-altitude welding, structural monitoring and repair, battery replacement, gutter cleaning, skyscrapper cleaning, and power line maintenance in hard-to-reach and risky environments while retaining compatibility with flight control firmware. Our RL-based control mechanism results in a robust control strategy that can handle uncertainties in the motion of the UAV, offering promising performance. Specifically, our method achieves 92% accuracy in terms of average displacement error (i.e. the mean distance between the target and obtained trajectory points) using Q-learning with 15,000 episodes
翻訳日:2023-08-28 11:12:18 公開日:2023-08-25
# Match-And-Deform:最適輸送と時間アライメントによる時系列領域適応

Match-And-Deform: Time Series Domain Adaptation through Optimal Transport and Temporal Alignment ( http://arxiv.org/abs/2308.12686v2 )

ライセンス: Link先を確認
Fran\c{c}ois Painblanc, Laetitia Chapel, Nicolas Courty, Chlo\'e Friguet, Charlotte Pelletier, and Romain Tavenard(参考訳) ラベルのない大量のデータは通常利用可能であるが、関連するラベルは少ないことが多い。 教師なしのドメイン適応問題は、ソースドメインからラベルを利用して、関連するが異なるターゲットドメインからデータを分類することを目的としている。 時系列が懸かっていると、標準の特徴分布シフトに加えて時間シフトが現れるため、新たな困難が生じる。 本稿では,時間的歪みを許容しながら,音源と対象時系列の対応関係を見出すことを目的とした一致変形(mad)手法を提案する。 関連する最適化問題は、最適輸送損失と動的時間ワープによるタイムスタンプにより、シリーズを同時に調整する。 ディープニューラルネットワークに組み込むと、MADはドメインを整列させ、ネットワークの識別力を最大化する時系列の新しい表現を学ぶのに役立つ。 ベンチマークデータセットとリモートセンシングデータに関する実証研究は、MADが有意義なサンプルとサンプルのペアリングとタイムシフト推定を行い、最先端のディープ時系列ドメイン適応戦略と同等または優れた分類性能に達することを示した。

While large volumes of unlabeled data are usually available, associated labels are often scarce. The unsupervised domain adaptation problem aims at exploiting labels from a source domain to classify data from a related, yet different, target domain. When time series are at stake, new difficulties arise as temporal shifts may appear in addition to the standard feature distribution shift. In this paper, we introduce the Match-And-Deform (MAD) approach that aims at finding correspondences between the source and target time series while allowing temporal distortions. The associated optimization problem simultaneously aligns the series thanks to an optimal transport loss and the time stamps through dynamic time warping. When embedded into a deep neural network, MAD helps learning new representations of time series that both align the domains and maximize the discriminative power of the network. Empirical studies on benchmark datasets and remote sensing data demonstrate that MAD makes meaningful sample-to-sample pairing and time shift estimation, reaching similar or better classification performance than state-of-the-art deep time series domain adaptation strategies.
翻訳日:2023-08-28 11:11:37 公開日:2023-08-25
# Masked Feature Modelling: ボトムアップビデオイベント認識のためのグラフ注意ネットワークブロックの教師なし事前学習のための特徴マスキング

Masked Feature Modelling: Feature Masking for the Unsupervised Pre-training of a Graph Attention Network Block for Bottom-up Video Event Recognition ( http://arxiv.org/abs/2308.12673v2 )

ライセンス: Link先を確認
Dimitrios Daskalakis, Nikolaos Gkalelis, Vasileios Mezaris(参考訳) 本稿では,グラフ注意ネットワーク(GAT)ブロックの教師なし事前学習のための新しいアプローチであるMasked Feature Modelling (MFM)を紹介する。 MFMはトレーニング済みのVisual Tokenizerを使用して、MiniKineticsデータセットを使用して、ビデオ内のオブジェクトのマスクされた特徴を再構築する。 次に、トレーニング済みのGATブロックを最先端のボトムアップ監視ビデオイベント認識アーキテクチャ(ViGAT)に組み込んで、モデルの開始点と全体的な精度を改善する。 YLI-MEDデータセットの実験的評価は、イベント認識性能の向上におけるMFMの有効性を示す。

In this paper, we introduce Masked Feature Modelling (MFM), a novel approach for the unsupervised pre-training of a Graph Attention Network (GAT) block. MFM utilizes a pretrained Visual Tokenizer to reconstruct masked features of objects within a video, leveraging the MiniKinetics dataset. We then incorporate the pre-trained GAT block into a state-of-the-art bottom-up supervised video-event recognition architecture, ViGAT, to improve the model's starting point and overall accuracy. Experimental evaluations on the YLI-MED dataset demonstrate the effectiveness of MFM in improving event recognition performance.
翻訳日:2023-08-28 11:11:16 公開日:2023-08-25
# 拡散言語モデルは、スケーリングとインストラクション・ファイバニュングで多くのタスクを実行できる

Diffusion Language Models Can Perform Many Tasks with Scaling and Instruction-Finetuning ( http://arxiv.org/abs/2308.12219v2 )

ライセンス: Link先を確認
Jiasheng Ye, Zaixiang Zheng, Yu Bao, Lihua Qian, Quanquan Gu(参考訳) 最近の生成AIの急増は、拡散確率モデルの生成力と、大規模言語モデルのスケーラブルな能力によって加速されている。 その可能性にもかかわらず、拡散言語モデルが自己回帰型言語に匹敵する一般的な言語タスクを解決できるかどうかはまだ不明である。 本稿では,データ,サイズ,タスクの拡散モデルを拡張することで,強力な言語学習者が効果的に学習できることを実証する。 まず,マスキングによる言語モデル事前学習により,膨大なデータから知識を得ることにより,大規模に拡張言語モデルを構築する。 次に,事前学習したマスク付き言語モデルを拡散言語モデルに拡散適応させ,タスク固有の微調整と命令微調整を行い,汎用言語課題の解法におけるそれらの汎用性を解き明かす。 実験によると、拡散言語モデルのスケーリングは下流言語タスクのパフォーマンスを継続的に改善する。 さらに,自然言語命令に従えば,多くの未知の課題に対処できるゼロショットと少数ショットの学習能力が引き出せること,推論などの先進的かつ挑戦的な能力に期待できることを見出した。

The recent surge of generative AI has been fueled by the generative power of diffusion probabilistic models and the scalable capabilities of large language models. Despite their potential, it remains elusive whether diffusion language models can solve general language tasks comparable to their autoregressive counterparts. This paper demonstrates that scaling diffusion models w.r.t. data, sizes, and tasks can effectively make them strong language learners. We build competent diffusion language models at scale by first acquiring knowledge from massive data via masked language modeling pretraining thanks to their intrinsic connections. We then reprogram pretrained masked language models into diffusion language models via diffusive adaptation, wherein task-specific finetuning and instruction finetuning are explored to unlock their versatility in solving general language tasks. Experiments show that scaling diffusion language models consistently improves performance across downstream language tasks. We further discover that instruction finetuning can elicit zero-shot and few-shot in-context learning abilities that help tackle many unseen tasks by following natural language instructions, and show promise in advanced and challenging abilities such as reasoning.
翻訳日:2023-08-28 11:11:03 公開日:2023-08-25
# 異常検出のための一クラス分類最適化目標の探索

Exploring the Optimization Objective of One-Class Classification for Anomaly Detection ( http://arxiv.org/abs/2308.11898v2 )

ライセンス: Link先を確認
Han Gao, Huiyuan Luo, Fei Shen, Zhengtao Zhang(参考訳) ワンクラス分類 (one-class classification, occ) は、長年にわたる異常検出法である。 事前訓練されたバックボーンの強力な表現能力により、OCCメソッドは大幅なパフォーマンス改善を目撃した。 典型的には、これらのocc手法のほとんどは、事前訓練されたバックボーンの特徴の識別性を高めるために転送学習を使用し、顕著な効果をもたらす。 現在のほとんどのアプローチでは特徴伝達戦略が重視されているが、OCC法における最適化対象空間は性能に影響を及ぼす根本的な要因である可能性もある。 そこで本研究では,OCCの最適化目標について徹底的に検討した。 厳密な理論分析と導出を通じて、トレーニングサンプルの分布仮定に頼ることなく、適切なノルムを持つ任意の空間は、ハイパースフィア中心の代用として機能する。 さらに,OCC最適化の目的に対して,適用可能な基準領域を決定するためのガイドラインを提供する。 この新しい洞察は、単純でデータに依存しない深い一級分類法を生起する。 学習可能なプロジェクタとしての1x1畳み込み層と、最適化の目的として適切なノルムを持つ任意の空間を備える。 広範な実験により,本研究の信頼性と有効性が検証され,一級分類と産業用視覚異常検出とセグメンテーション課題の両方において最先端のパフォーマンスが得られた。

One-class classification (OCC) is a longstanding method for anomaly detection. With the powerful representation capability of the pre-trained backbone, OCC methods have witnessed significant performance improvements. Typically, most of these OCC methods employ transfer learning to enhance the discriminative nature of the pre-trained backbone's features, thus achieving remarkable efficacy. While most current approaches emphasize feature transfer strategies, we argue that the optimization objective space within OCC methods could also be an underlying critical factor influencing performance. In this work, we conducted a thorough investigation into the optimization objective of OCC. Through rigorous theoretical analysis and derivation, we unveil a key insights: any space with the suitable norm can serve as an equivalent substitute for the hypersphere center, without relying on the distribution assumption of training samples. Further, we provide guidelines for determining the feasible domain of norms for the OCC optimization objective. This novel insight sparks a simple and data-agnostic deep one-class classification method. Our method is straightforward, with a single 1x1 convolutional layer as a trainable projector and any space with suitable norm as the optimization objective. Extensive experiments validate the reliability and efficacy of our findings and the corresponding methodology, resulting in state-of-the-art performance in both one-class classification and industrial vision anomaly detection and segmentation tasks.
翻訳日:2023-08-28 11:10:41 公開日:2023-08-25
# 航空ビジョン・ダイアログナビゲーションのための目標位置グラフ認識トランスフォーマ

Target-Grounded Graph-Aware Transformer for Aerial Vision-and-Dialog Navigation ( http://arxiv.org/abs/2308.11561v3 )

ライセンス: Link先を確認
Yifei Su, Dong An, Yuan Xu, Kehan Chen, Yan Huang(参考訳) 本報告では,ICCV CLVL 2023におけるAVDNチャレンジの入賞方法について詳述する。 このコンペティションは、ドローンエージェントが対話履歴と空中観測を関連づけて目的地に到達する必要がある、ANDH(Aerial Navigation from Dialog History)タスクに対処する。 ドローンエージェントのクロスモーダルグラウンド機能を改善するため,TG-GAT(Target-Grounded Graph-Aware Transformer)フレームワークを提案する。 具体的には、TG-GATはまずグラフ対応トランスフォーマーを利用して時空間依存性をキャプチャし、ナビゲーション状態のトラッキングとロバストなアクションプランニングに役立てる。 加えて、エージェントが参照するランドマークに対する認識を高めるために補助的な視覚接地タスクが考案されている。 さらに,大規模言語モデルに基づくハイブリッド拡張戦略を用いて,データ不足の軽減を図る。 我々のTG-GATフレームワークは、それぞれSPLとSRメトリクスのベースラインに対して2.2%と3.0%の絶対的な改善を達成しました。 コードはhttps://github.com/yifeisu/tg-gatで入手できる。

This report details the methods of the winning entry of the AVDN Challenge in ICCV CLVL 2023. The competition addresses the Aerial Navigation from Dialog History (ANDH) task, which requires a drone agent to associate dialog history with aerial observations to reach the destination. For better cross-modal grounding abilities of the drone agent, we propose a Target-Grounded Graph-Aware Transformer (TG-GAT) framework. Concretely, TG-GAT first leverages a graph-aware transformer to capture spatiotemporal dependency, which benefits navigation state tracking and robust action planning. In addition,an auxiliary visual grounding task is devised to boost the agent's awareness of referred landmarks. Moreover, a hybrid augmentation strategy based on large language models is utilized to mitigate data scarcity limitations. Our TG-GAT framework won the AVDN Challenge, with 2.2% and 3.0% absolute improvements over the baseline on SPL and SR metrics, respectively. The code is available at https://github.com/yifeisu/TG-GAT.
翻訳日:2023-08-28 11:10:10 公開日:2023-08-25
# AudioFormer:Audio Transformerは個々の音響コードから音声特徴表現を学習する

AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes ( http://arxiv.org/abs/2308.07221v6 )

ライセンス: Link先を確認
Zhaohui Li and Haitao Wang and Xinghua Jiang(参考訳) 本研究では,離散音響符号の取得により音声特徴表現を学習し,その後,音声分類タスクに対して微調整を行う,audioformerという手法を提案する。 まず,音声分類タスクを自然言語理解(nlu)の一形態として考えることにより,新しい視点を提案する。 既存のニューラルオーディオコーデックモデルを利用して、離散音響コードを生成し、それをマスク付き言語モデル(MLM)の訓練に利用し、音声特徴表現を得る。 さらに,Multi-Positive sample Contrastive (MPC) 学習手法の統合を開拓した。 同一音声入力における複数の離散音響符号間の関節表現の学習を可能にする。 実験では、離散音響符号をテキストデータとして扱い、clozeのような手法を用いてマスキング言語モデルを訓練し、質の高い音声表現を導出する。 特に、mpc学習技術は、異なる正のサンプル間の協調表現を効果的に捉える。 その結果,複数のデータセットにまたがる単調な音声分類モデルに比べ,オーディオフォーマーの性能は著しく向上し,選択したデータセット上では視聴覚型マルチモーダル分類モデルよりも優れていた。 具体的には、AudioSet(2M,20K)やFSD50K(53.9,45.1、65.6)などのデータセットに対して、我々のアプローチは顕著な結果をもたらす。 私たちは、コードとモデルの両方をオープンに共有しました。

We propose a method named AudioFormer,which learns audio feature representations through the acquisition of discrete acoustic codes and subsequently fine-tunes them for audio classification tasks. Initially,we introduce a novel perspective by considering the audio classification task as a form of natural language understanding (NLU). Leveraging an existing neural audio codec model,we generate discrete acoustic codes and utilize them to train a masked language model (MLM),thereby obtaining audio feature representations. Furthermore,we pioneer the integration of a Multi-Positive sample Contrastive (MPC) learning approach. This method enables the learning of joint representations among multiple discrete acoustic codes within the same audio input. In our experiments,we treat discrete acoustic codes as textual data and train a masked language model using a cloze-like methodology,ultimately deriving high-quality audio representations. Notably,the MPC learning technique effectively captures collaborative representations among distinct positive samples. Our research outcomes demonstrate that AudioFormer attains significantly improved performance compared to prevailing monomodal audio classification models across multiple datasets,and even outperforms audio-visual multimodal classification models on select datasets. Specifically,our approach achieves remarkable results on datasets including AudioSet (2M,20K),and FSD50K,with performance scores of 53.9,45.1,and 65.6,respectively. We have openly shared both the code and models: https://github.com/LZH-0225/AudioFormer.git.
翻訳日:2023-08-28 11:09:50 公開日:2023-08-25
# 周波数制限されたアイデンティティ非依存攻撃による顔暗号化

Face Encryption via Frequency-Restricted Identity-Agnostic Attacks ( http://arxiv.org/abs/2308.05983v3 )

ライセンス: Link先を確認
Xin Dong, Rui Wang, Siyuan Liang, Aishan Liu, Lihua Jing(参考訳) 何十億という人々が毎日、ソーシャルメディアでライブ画像を共有している。 しかし、悪意のあるコレクターは、深層顔認識システムを使用して、これらの画像から生体情報(例えば顔)を容易に盗む。 顔情報漏洩を減らすために、知覚不能な摂動を導入することで、敵対的な攻撃を用いて暗号化された顔写真を生成する研究が行われている。 しかし、既存の研究は、より強力なブラックボックスシナリオの実現可能性と、より自然な視覚的な外観を必要としており、プライバシー保護の可能性に挑戦している。 これらの問題に対処するために,個人情報にアクセスせずに顔画像の暗号化を行う周波数制限付きアイデンティティ非依存(fria)フレームワークを提案する。 弱いブラックボックスシナリオの実現可能性については、複数の顔認識モデルにおける平均特徴の表現が類似していることに逆らって、インターネットからクロールしたデータセットを通じて平均特徴をターゲットとして利用し、未知の顔認識システムの同一性にも依存せず、人間の視覚システムによってより視覚的に知覚される低周波摂動について述べる。 これにより,低周波顔面領域の摂動を離散コサイン変換によって制限し,視覚的自然性を保証する。 複数の顔認識モデルを用いた広範囲な実験により,本手法は,高いブラックボックス攻撃成功率を96%としつつ,より自然な暗号化顔生成において,他の最先端手法よりも優れていることが示された。 さらに,実世界のブラックボックス商用APIを用いてFRIAの有効性を検証する。 私たちのコードはhttps://github.com/XinDong10/FRIAで確認できます。

Billions of people are sharing their daily live images on social media everyday. However, malicious collectors use deep face recognition systems to easily steal their biometric information (e.g., faces) from these images. Some studies are being conducted to generate encrypted face photos using adversarial attacks by introducing imperceptible perturbations to reduce face information leakage. However, existing studies need stronger black-box scenario feasibility and more natural visual appearances, which challenge the feasibility of privacy protection. To address these problems, we propose a frequency-restricted identity-agnostic (FRIA) framework to encrypt face images from unauthorized face recognition without access to personal information. As for the weak black-box scenario feasibility, we obverse that representations of the average feature in multiple face recognition models are similar, thus we propose to utilize the average feature via the crawled dataset from the Internet as the target to guide the generation, which is also agnostic to identities of unknown face recognition systems; in nature, the low-frequency perturbations are more visually perceptible by the human vision system. Inspired by this, we restrict the perturbation in the low-frequency facial regions by discrete cosine transform to achieve the visual naturalness guarantee. Extensive experiments on several face recognition models demonstrate that our FRIA outperforms other state-of-the-art methods in generating more natural encrypted faces while attaining high black-box attack success rates of 96%. In addition, we validate the efficacy of FRIA using real-world black-box commercial API, which reveals the potential of FRIA in practice. Our codes can be found in https://github.com/XinDong10/FRIA.
翻訳日:2023-08-28 11:09:23 公開日:2023-08-25